SEARCH SEARCH

Article Search

A novel distance that reduces information loss in continuous characters with few observations

Gerardo A. Lo Valvo, Oscar E. R. Lehmann, and Diego Balseiro

Plain Language Abstract

Multiple statistical analyses in biology and paleontology are focused on assessing the difference between two or more objects (e.g., species), or in other words, quantifying the distance between them. The most commonly used distance coefficients do not take into account within-object variability. When one object records multiple observations (e.g., more than one individual of the same species) the information needs to be summarized in a single value, typically the mean or median, leading to a loss of information. On the other hand, distances that somehow take into account variability are either too coarse to provide detailed results or too computationally demanding for even moderately large data sets. Here, we present the Distance Between Intervals (DBI) as a novel distance that works with multiple observations per object by analyzing them as intervals. The DBI ranges from 0 to 1 when intervals overlap, while is greater than 1 when the intervals are not overlapped. It is easy to calculate and can be applied to a wide variety of data types because it does not rely on a large amount of data being possible to apply when only the minimum and maximum values are known. Computer simulations and real-world data sets show that DBI is better at recognizing the difference between objects accounting for their variability. Therefore, the DBI can provide a finer level of definition than other available distances for empirical data sets, while generally agreeing with the broad results they provide. An implementation of DBI is provided for the R programming language.

Resumen en Español

Una nueva distancia que reduce la pérdida de información para caracteres continuos con pocas observaciones

En biología y paleontología, el cálculo de distancias pareadas es un paso fundamental en muchos análisis estadísticos. Los coeficientes de distancia más comunes utilizan un único valor por objeto y carácter, pero hay escenarios donde hay múltiples observaciones por objeto. En estas situaciones, la información para el carácter abarca un intervalo y los intervalos de un par de objetos pueden superponerse, complicando aún más el cálculo de la distancia. Existen coeficientes que pueden manejar una gran cantidad de información por objeto, pero por la baja resolución de sus resultados son poco detallados o bien tienen un costo computacional demasiado elevado, incluso para conjuntos de datos moderadamente grandes. Aquí presentamos la Distancia Entre Intervalos (DBI por sus siglas en inglés) como una nueva distancia semimétrica que puede trabajar con objetos con una o más observaciones al analizarlos como intervalos. La DBI varía entre 0 y 1 cuando los intervalos de los objetos se superponen y de 1 a infinito cuando no hay superposición entre ellos. El coeficiente es fácil de calcular y se puede aplicar a una amplia variedad de tipos de datos. Simulaciones computacionales y bases de datos empíricas muestran que DBI es mejor para reconocer las diferencias entre objetos según su variabilidad. Por lo tanto, la DBI puede proporcionar un mayor nivel de definición que otras distancias disponibles en sus resultados, mientras que está de acuerdo con la tendencia general de los resultados que brindan. Se proporciona una implementación de DBI para el lenguaje de programación R.

Palabras clave: coeficiente de distancia; matriz de distancia; caracteres continuos; intervalos; superposición

Traducción: Authors

Deutsche Zusammenfassung

Ein neuer Abstand, der den Informationsverlust bei kontinuierlichen Merkmalen mit wenigen Beobachtungen verringert

Die Berechnung paarweiser Abstände ist ein grundlegender Schritt bei vielen statistischen Analysen in der Biologie und Paläontologie. Die am häufigsten verwendeten Abstände arbeiten mit einer einzigen Beobachtung pro Objekt und Merkmal, aber es gibt Szenarien, in denen mehrere Beobachtungen pro Objekt verfügbar sind. In diesen Fällen erstrecken sich die Informationen für das Merkmal über ein Intervall, und Objektpaare können sich überschneidende Intervalle haben, was die Abstandsberechnung weiter erschwert. Einige Koeffizienten können mit dieser Fülle von Informationen umgehen, sind aber entweder zu grob, um detaillierte Ergebnisse zu liefern, oder zu rechenaufwändig, selbst für mäßig große Datensätze. Hier stellen wir die Distance Between Intervals (DBI) als neuartige semi-metrische Distanz vor, die sowohl einzelne als auch mehrere Beobachtungen pro Objekt berücksichtigen kann, indem sie diese als Intervalle analysiert. Die DBI reicht von 0 bis 1, wenn es eine Überschneidung zwischen den Objekten gibt, und von 1 bis unendlich, wenn es keine Überschneidung zwischen ihnen gibt. Sie ist einfach zu berechnen und kann auf eine Vielzahl von Datentypen angewendet werden. Sowohl simulierte als auch empirische Testfälle zeigen, dass die DBI Objektpaare korrekt nach dem Grad ihrer Überlappung bzw. Nichtüberlappung einstuft, während andere Entfernungen dies nur schwer erreichen. Daher kann die DBI ein feineres Definitionsniveau als andere verfügbare Distanzen für empirische Datensätze liefern, während sie im Allgemeinen mit den allgemeinen Ergebnissen übereinstimmt, die sie liefert. Eine Implementierung von DBI wird für die Programmiersprache R bereitgestellt.

Schlüsselwörter: Abstandskoeffizient; Abstandsmatrix; kontinuierliche Merkmale; Intervalle; Overlap

Translator: Eva Gebauer

Arabic

1250 arab

Translator: Ashraf M.T. Elewa

Polski

Nowa odległość redukująca utratę informacji w ciągłych cechach przy małej liczbie obserwacji

Obliczanie wszystkich par odległości jest najważniejszym krokiem w wielu analizach statystycznych stosowanych w biologii i paleontologii. Najczęściej wykorzystywane odległości bazują na pojedyńczych obserwacjach względem obiektu i cechy, jednak w wielu przypadkach dostępne są wielokrotne obserwacje z danego obiektu. W tej sytuacji, dane dotyczące cechy mieszczą się w pewnym przedziale, a pary obiektów mogą mieć nakładające się zakresy, co dodatkowo komplikuje obliczanie odległości. Niektóre współczynniki mogą sprostać tak szerokiemu zakresowi informacji, jednak są zbyt zgrubne by dostarczyć szczegółowych wyników lub zbyt wymagające obliczeniowo nawet dla niewielkich zbiorów danych. W niniejszej pracy prezentujemy Odległość Pomiędzy Interwałami (DBI) jako nową półmetryczną odległość, która mieści w sobie zarówno pojedyncze jak i wielokrotne obserwacje jednego obiektu poprzez ich analizowanie w postaci interwałów. DBI w zakresie pomiedzy 0 a 1 wskazuje na zachodzenie na siebie obiektów, a od 1 do nieskończoności – sytuację, gdy obiekty nie nakładają się na siebie. Wartość ta jest łatwa do wyliczenia i można ją zastosować dla szerokiego zakresu typów danych. Testy symulowane i empiryczne wskazują, że w przeciwieństwie do innych odległości, DBI prawidłowo przypisuje pary obiektów do określonej rangi za pośrednictwem stopnia zachodzenia obiektów na siebie. W związku z tym, DBI zapewnia bardziej szczegółowy poziom definicji dla emirycznych zbiorów danych w porównaniu z innymi odległościami, generalnie pozostając w zgodności z szerokim zakresem dostarczanych przez te odległości wyników. Implementacja DBI została zaproponowana w języku R.

Słowa kluczowe: współczynnik odległości; matryca odległości; cechy ciągłe; interwały; nakładanie się (overlap)

Translator:  Anna Żylińska

Ukrainian

Нова відстань, яка зменшує втрату інформації про безперервні ознаки з невеликою кількістю спостережень

Розрахунок попарних відстаней є фундаментальним кроком у багатьох статистичних аналізах у біології та палеонтології. Найбільш часто використовувані відстані працюють з одним спостереженням за об’єктом і ознакою, проте є сценарії, коли доступні кілька спостережень за об’єктом. У таких ситуаціях інформація про ознаку охоплює інтервал, і пари об’єктів можуть мати інтервали, що перекриваються, що ще більше ускладнює обчислення відстані. Деякі коефіцієнти можуть мати справу з такою великою кількістю інформації, але вони або занадто грубі, щоб надати детальні результати, або занадто вимогливі до обчислень навіть для помірно великих наборів даних. Тут ми представляємо відстань між інтервалами (DBI) як нову напівметричну відстань, яка може вмістити як одиничні, так і численні спостереження за об’єктом, аналізуючи їх як інтервали. DBI коливається від 0 до 1, коли між об’єктами існує перекриття, і від 1 до безкінечності, коли між ними немає перекриття. Цей коефіцієнт легко обчислити, і його можна застосувати до широкого спектру типів даних. Як змодельовані, так і емпіричні тестові розрахунки показують, що DBI правильно ранжує пари об’єктів за рівнем перекриття та за відсутності перекриття, тоді як це важко зробити використовуючи інші коефіцієнти. DBI може забезпечити точніший рівень визначення, ніж інші доступні відстані для наборів емпіричних даних, хоча в цілому узгоджується з широкими результатами, які вони надають. DBI розраховується з використанням мови програмування R.

Ключові слова: коефіцієнт відстані; матриця відстаней; безперервні ознаки; інтервали; перекриття.

Translator: Oleksandr Kovalchuk 

Chinese

一种新的距离参数以用于减少连续特征中的信息丢失且仅需限量观察

成对距离的计算是生物学和古生物学中许多统计分析的基本步骤。最常用的距离参数适用于每个体和特征的一次观察,但在某些情况下每个对象可以使用多次观察。在这些情况下,特征的信息跨越一定区间,且成对的观察对象可以具有重叠的区间,这进一步使距离计算变得复杂。一些系数可以处理如此丰富的信息,但要么太粗略而无法提供详细结果,要么对于甚至中等大小的数据集来说计算要求太高。我们将区间之间的距离(DBI)作为一种新的半度量距离,通过将它们分析为区间来容纳每个观察对象的单个和多个观测值。当观察对象之间存在重叠时,DBI 的范围为 0 到 1;当区间对象之间没有重叠时,DBI 的范围为 1 到无穷大。它易于计算且可以应用于多种数据类型。模拟和实证测试均表明DBI 可以根据重叠和不重叠的程度正确地对观察对象对进行排序,而其他距离参数则很难做到这一点。因此,DBI 可以为经验数据集提供比其他已知距离参数更精确的定义,并同时在总体上与其提供的广泛结果一致。DBI的运行可以通过 R 语言实现。

关键词: 距离系数; 距离矩阵; 连续特征;区间;重叠

Translator: Hongshan Wang

French

Une nouvelle distance qui réduit la perte d'information dans les caractères continus avec peu d'observations

Le calcul des distances par paire est une étape fondamentale dans de nombreuses analyses statistiques en biologie et en paléontologie. Les distances les plus couramment utilisées fonctionnent avec une seule observation par objet et par caractère, mais il existe des scénarii où plusieurs observations sont disponibles par objet. Dans ce cas, les informations relatives au caractère s'étendent sur un intervalle, et les paires d'objets peuvent avoir des intervalles qui se chevauchent, ce qui complique encore le calcul de la distance. Certains coefficients peuvent traiter cette richesse d'informations, mais ils sont soit trop grossiers pour fournir des résultats détaillés, soit trop exigeants en termes de calcul pour des ensembles de données même de taille modérée. Nous présentons ici la distance entre intervalles (DBI), une nouvelle distance semi-métrique qui peut prendre en compte à la fois les observations singulières et multiples par objet en les analysant comme des intervalles. La DBI varie de 0 à 1 lorsqu'il y a un chevauchement entre les objets et de 1 à l'infini lorsqu'il n'y a pas de chevauchement entre eux. Il est facile à calculer et peut être appliqué à une grande variété de types de données. Des tests simulés et empiriques montrent que le DBI classe correctement les paires d'objets en fonction de leur niveau de chevauchement et de non-chevauchement, alors que d'autres distances peinent à le faire. Par conséquent, le DBI peut fournir un niveau de définition plus fin que les autres distances disponibles pour les ensembles de données empiriques, tout en étant généralement d'accord avec les résultats généraux qu'elles fournissent. Une implémentation du DBI est fournie pour le langage de programmation R.

Mots clés : coefficient de distance ; matrice de distance ; caractères continus ; intervalles ; chevauchement

Translator: Vincent Perrier

Russian

Новая дистанция, уменьшающая потерю информации в непрерывных признаках с небольшим количеством наблюдений

Вычисление попарных дистанций является фундаментальным элементом во многих статистических анализах в биологии и палеонтологии. Наиболее часто используемые дистанции работают с одиночными сравнениями объекта или признака, но имеются стратегии, в которых доступны множественные сравнения объектов. В этих ситуациях информация о признаках охватывает интервал, а пары объектов могут иметь перекрывающиеся интервалы, что еще больше усложняет расчет дистанций. Некоторые коэффициенты могут работать с таким объемом информации, но они либо слишком грубы для предоставления подробных результатов, либо слишком требовательны к вычислительным ресурсам даже для умеренно объемных наборов данных. Здесь мы представляем Дистанцию Между Интервалами (Distance Between Intervals, DBI) как новый вид полуметрической дистанции, которое может учитывать, как единичные, так и множественные сравнения объекта, анализируя их как интервалы. DBI лежит в диапазоне от 0 до 1, когда между объектами имеется перекрывание, и от 1 до бесконечности, когда между ними нет перекрывания. Дистанцию легко вычислить, и она может применяться к широкому спектру типов данных. Как смоделированные, так и эмпирические тестовые примеры показывают, что DBI правильно ранжирует пары объектов по уровню их перекрывания и неперекрывания, в то время как другие дистанции с трудом делают это. Следовательно, DBI может обеспечить более точный уровень классификации, чем другие доступные дистанции для наборов эмпирических данных, в то же время в целом согласуясь с общими результатами, которые они предоставляют. DBI реализуется оболочке языка программирования R.

Ключевые слова: коэффициент расстояний; матрица дистанций; непрерывные признаки; интервалы; перекрывание

Translator: Leonid Voyta