SEARCH SEARCH

Article Search

Numerical taxonomy and genus-species identification of Czekanowskiales in China based on machine learning

Bo Zhang, Cunlin Xin, Dong Yang, Zhipeng Jiao, Songxin Liu, Guoyun Di, and Han Zhao

Plain Language Abstract

Czekanowskiales are a group of Mesozoic plants and attract much attention for their taxonomy and distribution. However, it is difficult to accurately identify at the generic and species levels because of the close similarity among the known Czekanowskiales members. In this study, we collected information of the leaf traits of Czekanowskiales fossils from China and used machine learning methods to investigate the numerical taxonomy and genus and species identification of this order. We found that our results are consistent mostly with the traditional Czekanowskiales taxonomy, and that macroscopic and cuticular traits are helpful for identifying Czekanowskiales at generic and species levels. This study provides potential tools for identifying fossils in future research.

Resumen en Español

Taxonomía numérica e identificación de géneros y especies de Czekanowskiales en China mediante aprendizaje automático

Los Czekanowskiales fueron el principal componente de la flora global del Mesozoico y fueron sensibles a los cambios en el clima y el medio ambiente durante ese período. Sin embargo, la identificación precisa de los fósiles de Czekanowskiales es difícil debido a las similitudes en algunos patrones macroscópicos y cuticulares entre diferentes géneros y especies. En el presente estudio, se cotejó un conjunto de datos de rasgos macroscópicos y cuticulares basados en los fósiles de Czekanowskiales de China. Este estudio se centró en la taxonomía numérica y la identificación de Czekanowskiales a nivel genérico y de especie utilizando análisis de conglomerados, selección de rasgos y métodos de aprendizaje supervisado para el aprendizaje automático. Nuestros resultados muestran que las 35 especies estudiadas pueden agruparse en tres grandes grupos, lo que concuerda en gran medida con los métodos taxonómicos tradicionales. Los rasgos macroscópicos son más importantes para la identificación a nivel genérico, mientras que los rasgos cuticulares son más relevantes para la identificación a nivel de especie. Los algoritmos de árbol de clasificación y regresión, así como de regresión logística, demostraron un rendimiento superior en la identificación de géneros y especies y la inclusión de rasgos cuticulares podría mejorar significativamente la precisión de la identificación. Este estudio aporta evidencias analíticas cuantitativas para la taxonomía de los fósiles Czekanowskiales.

Palabras clave: Aprendizaje automático; Czekanowskiales; taxonomía numérica; identificación de fósiles.

Traducción: Juan Antonio Pérez-Claros. Departamento de Ecología y Geología, Facultad de Ciencias, Universidad de Málaga

Deutsche Zusammenfassung

Numerische Taxonomie und Identifizierung von Czekanowskiales Gattungen und Arten in China auf der Grundlage von maschinellem Lernen

Czekanowskiales waren der Hauptbestandteil der globalen mesozoischen Flora und reagierten empfindlich auf Veränderungen des Klimas und der Umwelt in dieser Zeit. Die genaue Identifizierung von Czekanowskiales-Fossilien ist jedoch aufgrund der Ähnlichkeit einiger makroskopischer und kutikulärer Muster zwischen verschiedenen Gattungen und Arten schwierig. In der vorliegenden Studie wurde ein Datensatz mit makroskopischen und kutikulären Merkmalen auf der Grundlage von Czekanowskiales-Fossilien aus China zusammengetragen. Diese Studie konzentrierte sich auf die numerische Taxonomie und Identifizierung von Czekanowskiales auf Gattungs- und Artniveau unter Verwendung von Clusteranalysen, Merkmalsauswahl und überwachten Lernmethoden für maschinelles Lernen. Unsere Ergebnisse zeigen, dass die untersuchten 35 Arten in drei Hauptgruppen eingeteilt werden können, was weitgehend mit traditionellen taxonomischen Methoden übereinstimmt. Makroskopische Merkmale sind für die Identifizierung auf der Gattungsebene wichtiger, während kutikuläre Merkmale für die Identifizierung auf der Art-Ebene wertvoller sind. Die Klassifizierungs- und Regressionsbäume sowie die logistischen Regressionsalgorithmen erwiesen sich bei der Identifizierung von Gattungen und Arten als besonders leistungsfähig, und die Einbeziehung kutikulärer Merkmale könnte die Genauigkeit der Identifizierung erheblich verbessern. Diese Studie liefert quantitative analytische Beweise für die Taxonomie der Fossilien von Czekanowskiales.

Schlüsslwörter: maschinelles Lernen; Czekanowskiales; Numerische Taxonomie; Fossilidentifizierung

Translator: Eva Gebauer

Arabic

1357 arab

Translator: Ashraf M.T. Elewa

Polski

Taksonomia numeryczna i identyfikacja rodzajowo-gatunkowa Czekanowskiales w Chinach w oparciu o sztuczną inteligencję

Czekanowskiales były głównym składnikiem globalnej flory mezozoiku i były wrażliwe na zmiany klimatu i środowiska w tym okresie. Jednak dokładna identyfikacja skamieniałości Czekanowskiales jest trudna ze względu na podobieństwa w niektórych wzorach makroskopowych i kutikuli u różnych rodzajów i gatunków. W niniejszym badaniu zestaw danych dotyczących cech makroskopowych i kutikuli zestawiono w oparciu o skamieniałości Czekanowskiales z Chin. W badaniu skupiono się na taksonomii numerycznej i identyfikacji Czekanowskiales na poziomie rodzajowym i gatunkowym przy użyciu analizy skupień, selekcji cech i metod uczenia nadzorowanego na potrzeby sztucznej inteligencji. Nasze wyniki pokazują, że zbadane 35 gatunków można podzielić na trzy główne grupy, co jest w dużym stopniu spójne z tradycyjnymi metodami taksonomicznymi. Cechy makroskopowe są ważniejsze dla identyfikacji na poziomie rodzajowym, podczas gdy cechy kutikuli są bardziej wartościowe dla identyfikacji na poziomie gatunku. Drzewo klasyfikacji i regresji, a także algorytmy regresji logistycznej wykazały doskonałą skuteczność w identyfikacji rodzaju i gatunku, a uwzględnienie cech kutikuli mogłoby znacząco poprawić dokładność identyfikacji. Niniejsze badanie dostarcza ilościowych dowodów analitycznych na potrzeby taksonomii skamieniałości Czekanowskiales.

Słowa kluczowe: sztuczna inteligencja; Czekanowskiales; taksonomia numeryczna; identyfikacja skamieniałości

Translator:  Krzysztof Stefaniak 

Ukrainian

Числова таксономія та родо-видова ідентифікація Czekanowskiales у Китаї на основі машинного навчання

Czekanowskiales були основним компонентом глобальної мезозойської флори. Ці рослини були чутливими до змін клімату та навколишнього середовища, що спостерігалися у цей період. Разом з тим точна ідентифікація викопних решток Czekanowskiales є ускладненою через схожість деяких макроскопічних і кутикулярних моделей у різних родів і видів. У цьому дослідженні було зібрано набір відповідних даних на основі вивчення решток Czekanowskiales із території Китаю. Дослідження було зосереджене на чисельній таксономії та ідентифікації Czekanowskiales на родовому та видовому рівнях за допомогою кластерного аналізу, відбору ознак та методів машинного навчання. Наші дані показують, що досліджені 35 видів можна згрупувати у три основні групи, що значною мірою відповідає результатам, отриманим із використанням традиційних таксономічних методів. Макроскопічні ознаки важливіші для ідентифікації на родовому рівні, тоді як кутикулярні ознаки більш цінні для ідентифікації на рівні видів. Дерево класифікації та алгоритми логістичної регресії продемонстрували продуктивність в ідентифікації роду та виду, а включення кутикулярних ознак підвищило точність визначення. Це дослідження представляє кількісні аналітичні докази таксономії викопних решток Czekanowskiales.

Ключові слова: Машинне навчання; Czekanowskiales; числова таксономія; ідентифікація скам’янілостей

Translator: Oleksandr Kovalchuk

Chinese

In progress

Translator: Chenyang Cai. Nanjing Institute of Geology and Palaeontology, Chinese Academy of Sciences

Yanzhe Fu. Nanjing Institute of Geology and Palaeontology, Chinese Academy of Sciences

Résumé en Français

Taxonomie numérique et identification de genres et d'espèces de Czekanowskiales en Chine sur la base de l'apprentissage automatique

Les Czekanowskiales constituaient la principale composante de la flore mésozoïque mondiale et étaient sensibles aux changements climatiques et environnementaux survenus au cours de cette période. Cependant, l'identification précise des fossiles de Czekanowskiales est difficile en raison des similitudes de certains motifs macroscopiques et cuticulaires entre les différents genres et espèces. Dans la présente étude, un ensemble de données sur les caractéristiques macroscopiques et cuticulaires a été rassemblé sur la base des fossiles de Czekanowskiales de Chine. Cette étude s'est concentrée sur la taxonomie numérique et l'identification des Czekanowskiales au niveau du genre et de l'espèce en utilisant l'analyse en grappes, la sélection des traits et les méthodes d'apprentissage supervisé pour l'apprentissage automatique. Nos résultats montrent que les 35 espèces étudiées peuvent être regroupées en trois groupes principaux, ce qui correspond dans une large mesure aux méthodes taxonomiques traditionnelles. Les caractères macroscopiques sont plus importants pour l'identification au niveau générique, tandis que les caractères cuticulaires sont plus précieux pour l'identification au niveau de l'espèce. L'arbre de classification et de régression ainsi que les algorithmes de régression logistique ont démontré une performance supérieure dans l'identification du genre et de l'espèce, et l'inclusion des traits cuticulaires pourrait améliorer de manière significative la précision de l'identification. Cette étude fournit des preuves analytiques quantitatives pour la taxonomie des fossiles de Czekanowskiales.

Mots clés : Apprentissage automatique ; Czekanowskiales ; taxonomie numérique ; identification des fossiles

Translator:  Vincent Perrier, Université Lyon.

Russian

Нумерическая таксономия и родо–видовая идентификация Czekanowskiales в Китае на основе машинного обучения

Czekanowskiales основной компонент глобальной мезозойской флоры, которые были чувствительны к изменениям климата и окружающей среды в этот период. Однако точная идентификация окаменелостей Czekanowskiales затруднена из-за сходства некоторых макроскопических и кутикулярных узоров у разных родов и видов. В настоящем исследовании набор данных макроскопических и кутикулярных признаков были сопоставлены на основе окаменелостей Czekanowskiales из Китая. Это исследование было сосредоточено на нумерической таксономии и идентификации Czekanowskiales на родовом и видовом уровнях с использованием кластерного анализа, отбора признаков и методов машинного обучения. Наши результаты показывают, что 35 изученных видов можно объединить в три основные группы, что во многом соответствует традиционным таксономическим подходам. Макроскопические признаки более важны для идентификации на родовом уровне, тогда как кутикулярные признаки более ценны для идентификации на видовом уровне. Дерево классификации и регрессии, а также алгоритмы логистической регрессии продемонстрировали превосходную эффективность при идентификации рода и вида, а включение кутикулярных признаков помогло значительно повысить точность идентификации. Это исследование предоставляет количественные аналитические данные для таксономии ископаемых Czekanowskiales.

Ключевые слова: машинное обучение; Czekanowskiales; нумерическая таксономия; определение окаменелостей

Translator: Leonid Voyta