Einer von mehreren interaktiven Workshops, die auf der Botanik 2020 angeboten wurden, befasste sich mit der digitalen Flora Nordamerikas (nördlich von Mexiko, um ihr den vollen Namen zu geben; kurz FNA), die sich in der Beta-Phase befindet werden auf dieser Seite erläutert. Der Workshop diente sowohl als Einführung in das Projekt als auch als Einführung in dessen Nutzung für semantische Suche und Informationsausgabe in Form von Taxonlisten. Viele von uns sind mit der Druckversion der FNA vertraut, einer gewaltigen 30-bändigen Reihe, die seit 1993 in Arbeit ist und von der bisher 21 veröffentlicht wurden. Nach Abschluss des Projekts werden mehr als 20,000 Pflanzenarten – rund 7 % aller Pflanzenarten der Welt – einschließlich Synonymen, Bestimmungsschlüsseln, Beschreibungen, Verbreitungsgebieten, Illustrationen und mehr behandelt.

Die Schwäche gedruckter Floren besteht jedoch darin, dass sie schnell veralten können, wenn sich das wissenschaftliche Verständnis von Gruppen ändert. Die Farn-Taxonomie zum Beispiel hat sich seit Beginn der Veröffentlichung der FNA bereits erheblich verändert. Geben Sie FNA Online ein, ein durchsuchbares Repository, das nach Bedarf aktualisiert werden kann, um auf dem neuesten Stand zu bleiben. Ich habe mit Jocelyn Pender, Biodiversity Data Manager for Agriculture and Agri-Food Canada und Moderatorin des Workshops, über die Ziele und Herausforderungen des FNA Online-Projekts gesprochen.

Zwei der Hauptziele des Projekts sind die Aktualität und die Erweiterung der Nutzerbasis durch die einfache Auffindbarkeit taxonomischer Beschreibungen für Mensch und Maschine. „Ich glaube, die Zukunft der Floren ist digital und datenzentriert“, sagt Pender. „Mit diesem Ziel vor Augen entwickeln wir die FNA Online. Wir möchten den Nutzen der FNA über die traditionelle Nutzergruppe von professionellen Botanikern, Taxonomen usw. hinaus erweitern und eine breitere Nutzergruppe ansprechen, darunter Pädagogen, Bürgerwissenschaftler, Hobbybotaniker, Behördenvertreter, politische Entscheidungsträger, Gartenbauwissenschaftler, Agronomen, Ökologen, Molekularbiologen, Phylogenetiker usw. Dies bedeutet, die Interaktionsmöglichkeiten der Nutzer mit den Inhalten zu erweitern. Unsere Vision umfasst interaktive Bestimmungsschlüssel in verschiedenen Kenntnisstufen, Checklisten für Behördenvertreter und Pädagogen sowie herunterladbare Taxon-Merkmals-Matrizen für Ökologen und Molekularbiologen.“

Eine große Herausforderung für die Ersteller der digitalen FNA besteht darin, die taxonomischen Beschreibungen, die von vielen verschiedenen Autoren in natürlicher Sprache verfasst wurden, maschinenlesbar zu machen, damit sie leicht durchsucht und verglichen werden können. Mehrere Aspekte der Verwendung natürlicher Sprache und insbesondere der taxonomischen Beschreibungen machen dies zu einer schwierigen Aufgabe.

Erstens haben einzelne Autoren einzigartige Beschreibungsstile und verwenden unterschiedliche Vokabeln. „Wir stehen vor Herausforderungen, wenn es darum geht, den Vergleich von geparsten Inhalten über Behandlungen hinweg zu ermöglichen“, erklärt Pender. „Wie können wir einen interaktiven Schlüssel entwickeln, der es Benutzern ermöglicht, Pflanzen auf die Blütenblattfarbe „Rot“ zu filtern, wenn ein Autor die Blütenblätter als „Fuchsie“ und der andere als „Kastanienbraun“ beschrieb? Wir haben hart daran gearbeitet, Synonymien für Begriffe zu entwickeln, aber das ist arbeitsintensiv und anfällig für menschliche Fehler und falsche Schlussfolgerungen.“

Eine weitere Hürde liegt in der Komplexität der botanischen Sprache. „Ein Begriff kann zwei eindeutige, sich nicht überschneidende Bedeutungen in zwei Familien haben“, sagt Pender. „Außerdem gibt es innerhalb einiger komplexer Gruppen unter Botanikern keinen starken Konsens über die Bedeutung von Wörtern. Schließlich verwenden taxonomische Beschreibungen einen bestimmten Stil der Untersprache, der telegrafisch ist. es lässt unwesentliche Wörter weg, die Menschen leicht einfügen. Maschinen haben Mühe, Schlussfolgerungen zu ziehen, die Sätze und Ideen verbinden.“

Aus diesen und anderen Gründen generiert der Sprachparser „Junk“ – unsinnige Ausgabe von Namen oder Werten, die schwer zu umgehen sind und angegangen werden müssen, damit die Suchfunktionen voll funktionsfähig sind. Bis heute hat das Team hinter der digitalen Flora alle Beschreibungen in allen veröffentlichten Bänden der FNA analysiert, arbeitet aber immer noch daran, die „Sauberkeit“ und Organisation der Daten zu verbessern. Ein kanadisches Team ist außerdem dabei, eine spezielle Online-Flora of Canada aufzubauen, die Pender als „ein sich entwickelndes Daten-Mashup-Produkt, das Probendaten, Vorkommensdaten und geparste Merkmalsdaten aus verschiedenen Quellen integriert“ ansieht.

Wenn Sie die Beta-Version von FNA Online ausprobieren möchten, bietet die Website a Entwicklung zum Zusammenstellen verschiedener Abfragen und Ausgabetypen. Pender hofft, dass eine Vielzahl von Benutzern damit experimentieren wird. „Wir würden es lieben, wenn Benutzergruppen und Anwendungsfälle entstehen, die wir uns noch nicht vorgestellt haben.“