Correlations and co-occurrences of taxa:
the role of temporal, geographic, and taxonomic restrictions
Aleksi Kallio, Kai Puolamäki, Mikael Fortelius, and Heikki Mannila
Correlation between occurrences of taxa is a fundamental concept in the analysis
of presence-absence data. Such correlations can result from ecologically
relevant processes, such as existence and evolution of species communities.
Correlations are typically quantified by some sort of similarity index based on
co-occurrence counts. We argue that the individual values of a similarity index
are not useful as such: rather, we have to be able to estimate the statistical
significance of the index value. Secondly, we argue that before computing the
correlations one has to carefully select what is the underlying base set of
locations for which the co-occurrence counts, similarity indices, and their
significance is computed. We demonstrate base set selection with synthetic
examples and conclude with an analysis of real data from a large database of
fossil land mammals.
Correlaciones y concurrencia de taxones: el papel de las
restricciones temporales, geográficas y taxonómicas.
La correlación entre las
coincidencias de taxones es un concepto fundamental en el análisis de datos
sobre presencia-ausencia. Tales correlaciones pueden ser resultados de
procesos ecológicos importantes, como la existencia y la evolución de
comunidades de especies. Las correlaciones se miden típicamente por algún índice
de semejanza basado en el recuento de concurrencias. Argumentamos que los
valores aislados de un índice de semejanza no son útiles como tales: más bien
tenemos que poder estimar la significación estadística del valor del índice.
Además argumentamos que antes de calcular las correlaciones hay que seleccionar
cuidadosamente el conjunto básico de lugares para los que computan las
coincidencias, los índices de semejanza y su significado. Demostramos la
selección del conjunto básico con ejemplos sintéticos y concluimos con un
análisis de datos reales procedentes de un gran banco de datos sobre mamíferos
terrestres fósiles.
PALABRAS CLAVE:
correlación, concurrencia, base de datos, índices de semejanza, significación
estadística.
Traducción: Elvira
Martín Suárez
Corrélations et co-occurrences de taxa: le rôle
des restrictions temporelles, géographiques et taxonomiques
Aleksi Kallio, Kai Puolamäki, Mikael
Fortelius and Heikki Mannila
La corrélation entre les occurrences
de taxa est un concept fondamental pour les analyses de données en
présence-absence. De telles corrélations peuvent provenir de processus
écologiques, tels que l’existence et l’évolution des communautés d’espèces. Les
corrélations sont généralement quantifiées à l’aide d’indexes de similarités
basés sur des comptages de co-occurrences. Nous affirmons que les valeurs
individuelles des indices de similarité ne sont pas utiles en tant que tel :
plutôt, nous devons être capable d’estimer la significativité statistique des
valeurs des indices. Par ailleurs, nous affirmons qu’il est nécessaire, avant de
calculer les corrélations, de sélectionner avec précaution la série de localités
servant de base au comptage des co-occurrences, au calcule des indices de
similarité et de leur significativité. Nous effectuons notre démonstration à
partir d’une série de base de données synthétique et nous concluons avec une
analyse de données réelles provenant d’une importante base de donnée de
mammifères terrestres fossiles.
Mots clés:
corrélation; co-occurrence; série de base; indice de similarité; significativité
statistique
Translator: Olivier Maridet
Korrelation und gleichzeitiges
Auftreten von Taxa: die Rolle von zeitlichen, geographischen und
taxonomischen Einschränkungen
Korrelation zwischen
Vorkommen von Taxa ist ein grundlegendes Konzept bei der Analyse von
Vorhandensein-Nichtvorhandensein Daten. Derartige Korrelationen können aus
ökologisch relevanten Prozessen wie Existenz und Evolution von
Artengemeinschaften resultieren. Korrelationen sind üblicherweise durch eine Art
von Ähnlichkeitsindex quantifiziert, die auf Zählungen gleichzeitigen Auftretens
gestützt sind. Wir argumentieren, dass die individuellen Werte eines
Ähnlichkeitsindex als solche nicht sinnvoll sind: wir sollten eher die
statistische Signifikanz des Indexwertes schätzen. Zweitens vertreten wir die
Auffassung dass man vor der Korrelationsberechnung sorgfältig auswählen sollte,
was der zugrunde liegende Basissatz von Standorten ist, für welche die Zählungen
von gleichzeitigem Auftreten, Ähnlichkeitsindex und ihre Signifikanz berechnet
wurden. Wir zeigen Basissatz-Selektion an künstlichen Beispielen und schließen
mit einer Analyse von reellen Daten aus einer großen Datenbank von fossilen
Landsäugetieren.
Schlüsselwörter:
Korrelation; gleichzeitiges Auftreten; Basissatz; Ähnlichkeitsindex;
statistische Signifikanz
Translator: Eva Gebauer
Translator: Ashraf M.T. Elewa
KORELACJE I
WSPÓŁWYSTĘPOWANIE TAKSONÓW: ZNACZENIE OGRANICZEŃ CZASOWYCH,
GEOGRAFICZNYCH ORAZ TAKSONOMICZNYCH
Korelacja
miejsc występowania taksonów jest podstawą przy badaniu danych dotyczących
obecności lub braku organizmów kopalnych. Tego typu korelacje mogą być wynikiem
znaczących pod względem ekologicznym procesów, takich jak istnienie i ewolucja
populacji danego gatunku. Korelacje są zwykle dokonywane na podstawie pewnych
wskaźników podobieństw bazujących na wynikach obliczeń określających
współwystępowanie. W artykule podważamy znaczenie indywidualnych wartości
wskaźników podobieństwa: są one niewystarczające i powinniśmy raczej móc
określić statystyczne znaczenie wartości danego wskaźnika. Po drugie, rozważamy
fakt, iż przed skomputeryzowaniem procesu korelacji badacz musiał dokładnie
określić lokalizacje (zespół bazowy), dla których zliczane było
współwystępowanie, wskaźniki podobieństw oraz znaczenie. Pokazujemy określanie
lokalizacji na podstawie syntetycznych przykładów i wniosków otrzymanych na
podstawie analizy dużej liczby prawdziwych danych dotyczących kopalnych ssaków
lądowych.
Słowa
kluczowe: korelacja,
współwystępowanie, zespół bazowy, wskaźnik podobieństwa, znaczenie statystyczne
Translators:
Dawid Mazurek and Robert
Bronowicz
Correlazioni
e compresenza di taxa: il ruolo delle limitazioni temporali,
geografiche e tassonomiche
La correlazione fra le
presenze dei taxa è un concetto fondamentale per l’analisi di dati di
presenza-assenza. Tale correlazione può essere risultato di processi ecologici
legati all’evoluzione delle comunità viventi. Di solito le correlazioni si
effettuano sulla base di qualche tipo di indice di similarità basato su calcoli
di compresenza. Riteniamo che i singoli valori di un indice di similarità non
possano essere utilizzati come tali, ma che sia piuttosto necessario stimare la
significatività statistica dell’index value. Riteniamo inoltre che prima di
ricavare le correlazioni, sia necessario selezionare attentamente un base set di
località su cui si stanno effettuando calcoli di compresenza, indici di
similarità e relativa significatività. Proponiamo esempi per la selezione di un
base set e concludiamo con un’analisi di dati reali basata su un esteso database
di mammiferi terrestri fossili.
PAROLE CHIAVE:
correlazione; compresenza; base set; indice di similarità; significatività
statistica
Translator: Chiara Angelone
|