Die Katalogisierung der Pflanzenvielfalt und die Beschreibung neuer Arten ist eine kritische und fortlaufende Aufgabe, die durch einen Mangel an Fachwissen und einen von Natur aus langsamen Prozess behindert wird. Selbst unter idealen Bedingungen kann es ein bis zwei Jahre dauern, ein Exemplar in freier Wildbahn zu sammeln, es als neue Art zu beschreiben und diese Beschreibung zu veröffentlichen. Häufiger kann es Jahrzehnte dauern. Herbarien weltweit beherbergen einen Rückstand von bis zu einer Million nicht identifizierter Exemplare, und es wird angenommen, dass sie bereits enthalten sind Mehrheit der unbeschriebenen Pflanzenarten. Computeralgorithmen, die sich maschinelles Lernen zunutze machen und anhand hochwertiger annotierter Datensätze trainiert werden, könnten ein Schlüsselelement der Lösung sein.

In einem neuen Artikel, erschienen in Anwendungen in den PflanzenwissenschaftenIn der Sonderausgabe „Machine Learning in Plant Biology“ suchten der Hauptautor Damon P. Little und seine Kollegen nach Wegen Nutzen Sie dieses Potenzial. Die Autoren veranstalteten einen Wettbewerb auf der Kaggle Data-Science-Plattform Entwicklung eines automatischen Artenidentifikationsalgorithmus unter Verwendung von maschinellem Lernen. Die Gruppe legte einen Datensatz für das Training vor, der über 46,000 abgebildete Herbarbelege enthielt, die 683 Arten der Familie Melastomataceae repräsentierten. Wie es für Herbarsammlungen typisch ist, waren einige dieser Arten mit vielen Exemplaren vertreten, andere mit relativ wenigen Exemplaren.

Ablaufdiagramm der Herbarium 2019 Challenge. Quelle: Wenig et al. 2020.

Der Wettbewerb dauerte mehrere Monate und produzierte 254 Modelle, die von 22 verschiedenen Teams erstellt wurden. Die vier Top-Einträge konnten Arten mit einer Genauigkeit von mehr als 88 % identifizieren. Die Gewinnerteams kamen von einem privaten Unternehmen und einer öffentlichen Universität in China, einem Team von Facebook AI Research und erstaunlicherweise einer Einzelperson, einem ausgebildeten Tierarzt, der „während seines Urlaubs am Wettbewerb teilnahm und die Modelle auf seinem Telefon entwarf. ”

Obwohl die Ergebnisse des Wettbewerbs besser als erwartet ausfielen, ist bisher nur der erste Schritt des Problems gelöst. Aktuell können die Algorithmen Proben lediglich dem wahrscheinlichsten Taxon der Trainingsdaten zuordnen; sie können Proben nicht als unbekannt oder neu kennzeichnen. „Die Algorithmen werden nicht darauf trainiert, zu wissen, was sie nicht wissen, sondern sie werden so trainiert und konstruiert, dass sie auf Basis der Trainingsdaten Ergebnisse liefern“, erklärt Barbara Ambrose, Mitautorin und Kuratorin für Pflanzengenomik am Botanischen Garten von New York. Der nächste Schritt ist die Entwicklung eines Algorithmus, der eine Probe als wahrscheinlich neue Art kennzeichnen kann. Die Autoren bemühen sich derzeit um Fördermittel, um diese Herausforderung zu meistern.

Ambrose und Little arbeiten an der Entwicklung eines Tools, mit dem jedes Herbarium seine unbestimmten Belege bearbeiten kann. „Man lädt ein Foto des Belegs hoch, und der Algorithmus liefert die fünf besten Ergebnisse. Wir glauben, dass dies dazu beiträgt, den Bearbeitungsstau bei den Belegen abzubauen und den Engpass zu verringern, ein Beleg einem Experten innerhalb der Gruppe zuzustellen. Viele Herbarien sind klein und verfügen möglicherweise nicht über taxonomische Expertise; dieses Tool würde ihnen bei der Pflege ihrer Sammlungen helfen“, sagt Ambrose. „Die Entwicklung ist nicht mehr fern, da Dr. Little bereits einen Prototyp entwickelt hat, den wir [Projektname einfügen] nennen.“ iCurateWir werden mehr finanzielle Mittel und Zeit benötigen, um dies zu erreichen. iCurate Um Herbarien weltweit zu helfen, muss die Plattform robuster werden. Hoffentlich ist das aber nicht mehr allzu fern.“

In diesem Sinne haben Ambrose und Little kürzlich eine veranstaltet zweiter Kaggle-Wettbewerb Dies erweitert den taxonomischen Umfang des ersten Ansatzes erheblich. „153 Teams nahmen an diesem Wettbewerb mit einem Datensatz von über einer Million Exemplaren teil, die mehr als 32,000 Gefäßpflanzenarten repräsentieren. Mit den im Rahmen dieses Wettbewerbs entwickelten Algorithmen sind wir bereit für die Weiterentwicklung.“ iCurate und die Automatisierung der Erkennung neuer Arten in Angriff nehmen.“