Anlagenmodelle benötigen qualitativ hochwertige Daten zur Kalibrierung und Validierung. Es wird erwartet, dass Techniken des maschinellen Lernens in Zukunft eine herausragende Rolle bei der Bereitstellung hochwertiger bildbasierter Phänotypisierungsdaten spielen werden. Maschinelles Lernen erfordert jedoch in der Regel große und vielfältige Datensätze, um verallgemeinerbare Modelle zu lernen, und verfügbare Datensätze sind oft klein und die mit der Generierung neuer Daten verbundenen Kosten sind hoch. Ubbens und Koautoren gehen dieses Problem mit Daten aus synthetischen Pflanzen an.

Vom L-System generierte synthetische Rosetten und echte Rosetten aus dem öffentlichen Datensatz.
Synthetische Rosetten (links), generiert mit dem L-System, und reale Rosetten (rechts) aus dem öffentlichen Datensatz. Abbildung: Ubbens et al. 2018.

Die Autoren zeigen, dass maschinelle Lernmodelle mithilfe von Trainingsdaten erweitert werden können, die aus gerenderten Bildern synthetischer Pflanzen stammen. Das Kombinieren von echten mit synthetischen Pflanzenbildern als Trainingsdaten reduzierte den mittleren absoluten Zählfehler im Vergleich zur Verwendung von nur Bildern von echten Pflanzen. Darüber hinaus wurden Modelle, die vollständig nur auf synthetischen Rosetten trainiert wurden, erfolgreich angewendet, um Blätter in echten Rosetten zu zählen.

Gerenderte Bilder von Arabidopsis-Rosetten wurden aus einem beschreibenden Modell unter Verwendung von L-Systemen computergeneriert, die frühe Entwicklungsstadien des Pflanzentriebs basierend auf direkten Beobachtungen und Messungen reproduzierten.

Das in dieser Studie verwendete maschinelle Lernmodell war eine Plattform für die bildbasierte Pflanzenphänotypisierung namens Deep Plant Phenomics, die tiefe Faltungsneuronale Netzwerke für die Pflanzenphänotypisierung implementiert, um Blätter zu zählen (Ubbens und Stavness, 2017).

Mit den in dieser Studie erzielten Fortschritten könnte die nächste Anwendung die Modellierung ganzer Anbauflächen sein. „Ein simuliertes Pflanzenfeld könnte es möglicherweise ermöglichen, Algorithmen zur Erkennung biologisch bedeutsamer Merkmale wie Blütezeit oder Reaktion auf Stress mit einer reduzierten Anzahl von echten (annotierten) Pflanzenbildern zu trainieren.“