Um eine Weltbevölkerung zu ernähren, von der erwartet wird, dass sie erreichen wird 9.8 Milliarden Bis 2050 muss die Nahrungsmittelproduktion verbessert werden um 70% erhöht. Diese Herausforderung wird durch die negativen Auswirkungen eines sich ändernden Klimas auf den Ernteertrag noch erschwert.
Die Entwicklung neuer Nutzpflanzensorten und die Identifizierung optimaler Bewirtschaftungsstrategien können zu höheren Erträgen führen und dazu beitragen, die Auswirkungen des Klimawandels abzumildern. Pflanzenmodelle werden in dieser Arbeit als Orientierungshilfe dienen und Ertragsvorhersagen basierend auf Faktoren wie der Umwelt, Managementpraktiken und genetischen Merkmalen ermöglichen.
Dabei ist ein Modell nur so gut wie seine Vorhersagen. Während es verlockend sein könnte, alle Modelle außer dem Modell außer Acht zu lassen, das durchweg die höchste Genauigkeit seiner Vorhersagen gezeigt hat, heißt es in einer neuen Studie, die in veröffentlicht wurde in silico Pflanzen zeigen, dass Die Kombination von Vorhersagen aus mehreren Modellen kann zu einer verbesserten Vorhersagegenauigkeit führen.
Während sich die Kombination von Vorhersagen aus mehreren Modellen für die Bestimmung komplexer Merkmale als nützlich erwiesen hat, haben frühere Arbeiten keine Modelle genutzt, die genetische und umweltbedingte Wechselwirkungen berücksichtigen.
Daniel Kick und Jacob Washburn, beide Forschungsgenetiker am USDA-ARS und an der University of Missouri, testeten, ob Ertragsvorhersagen durch Ensemblekombinationen verschiedener Modelltypen, Modellnummern und Modellgewichtungsschemata verbessert werden können.
Die Autoren haben 8 Arten von Modellen einbezogen, die Genom-, Umwelt- und Managementinformationen einbeziehen und 3 Modellkategorien in ihrer Arbeit darstellen.
- Lineare Modelle sind statistische Modelle, die einen linearen Zusammenhang zwischen den Eingabevariablen (Genotyp- und Umweltdaten) und der Ausgabevariablen (Ertrag) annehmen. Die in dieser Studie berücksichtigten Modelltypen waren das lineare Fixed-Effects-Modell (LM) und das beste lineare unvoreingenommene Prädiktormodell (BLUP).
- Modelle für maschinelles Lernen Treffen Sie Ertragsvorhersagen auf der Grundlage von Mustern in den Trainingsdaten, die mit herkömmlichen statistischen Methoden möglicherweise nicht ohne weiteres erkennbar sind. Die in dieser Studie berücksichtigten Modelltypen waren k-Nearest Neighbors (KNN), Radius Neighbor Regression (RNR), SVR und Random Forest Regression (RF).
- Tiefe neuronale Netze (DNNs) sind eine Teilmenge des maschinellen Lernens, die Ertragsvorhersagen mithilfe mehrerer Stufen nichtlinearer Datentransformationen erstellt, wobei Merkmale der Daten durch sukzessive höhere und abstraktere Schichten dargestellt werden. Diese Modelle können auf unterschiedliche Weise optimiert werden. Die in dieser Studie berücksichtigten Modelltypen waren „konsekutive Optimierung“ von Teilnetzen (DNN-CO) und „simultane Optimierung“ aller Teilnetze gleichzeitig (DNN-SO).
„Diese Modelle haben unterschiedliche Annahmen über die Daten. Einige eignen sich möglicherweise besser für die phänotypische Vorhersage als andere und stellen möglicherweise Muster in den Daten dar, die andere übersehen. Dies veranlasste uns, eine Vielzahl unterschiedlicher Modelle zu trainieren und zu testen“, erklärte Kick.
Die Autoren versuchten, die Robustheit der Ensemble-Modelle zu testen und die Modelltypen sowie die spezifischen Modellmittelungsstrategien zu identifizieren, die die phänotypische Vorhersage am effektivsten verbesserten. Die Modelle wurden trainiert und getestet, um den Ertrag anhand von Genom-, Umwelt- und Managementdaten vorherzusagen ein großer Maisdatensatz. Die Fähigkeit der einzelnen Modelle und Modellensembles, den Ertrag genau vorherzusagen, wurde durch Vergleich des quadratischen Mittelwerts des Fehlers gemessen, der proportional zur Differenz zwischen dem beobachteten Ertragswert und dem vorhergesagten Ertragswert ist.
Ensemble-Modelle prognostizierten häufig bessere Erträge als Einzelmodelle. Vorhersagen aus Zwei-Modell-Ensembles hatten eine Wahrscheinlichkeit von 77 %, dass sie eine höhere Genauigkeit aufwiesen als Vorhersagen aus einem einzelnen Modell allein. Der Einsatz einer größeren Anzahl von Modellen war jedoch kein Allheilmittel. Der Vorteil des Hinzufügens zusätzlicher Modelle zum Ensemble verringerte sich mit jedem hinzugefügten Modell. Darüber hinaus hatte die Einbeziehung zusätzlicher Modelle mit Vorhersagen, die eng mit denen des Ensembles übereinstimmen, nur minimale bis gar keine Auswirkungen auf die Genauigkeit.

Die Verbesserung der Vorhersagegenauigkeit von Zwei-Modell-Ensembles wurde durch die verwendeten Modelltypen bestimmt. Beispielsweise wurden die meisten Modellvorhersagen am stärksten verbessert, wenn sie mit einem leistungsstarken individuellen Modell kombiniert wurden (eines der beiden linearen Modelle oder die „konsekutive Optimierung“ DNN). Vorhersagen für Zwei-Modell-Ensembles wurden am wenigsten verbessert, wenn sie die Modelle für maschinelles Lernen, KNN und RNR, oder das Modell der „simultanen Optimierung“ für tiefe neuronale Netze einschlossen.
Die Autoren bewerteten die Genauigkeit der Kombination modellierter Ertragsvorhersagen mithilfe verschiedener Gewichtungsschemata. Dazu gehörte, jedem Modelltyp die gleiche Gewichtung zu geben oder jedes Modell umgekehrt proportional zur Standardabweichung, Varianz oder dem quadratischen Mittelwert seiner Vorhersagen zu gewichten. Bei den untersuchten Schemata führte die Gewichtung der Replikate, die umgekehrt proportional zur Varianz der einzelnen Replikate war, bei Verwendung aller acht Modelle im selben Ensemble zu dem geringsten Fehler. Dieses Schema hatte einen um 1.6 % geringeren Fehler als das beste Einzelmodell.
Das beste Ensemble und Gewichtungsschema für Ensembles, die aus 3 oder mehr Modelltypen bestehen, hatte einen um 7 % geringeren Fehler als das beste Einzelmodell. Dieses Ensemble wurde mit dem Kehrwert des erwarteten Fehlers jedes Modells gewichtet und bestand aus den beiden linearen Modelltypen, dem Modell der „konsekutiven Optimierung“ für tiefe neuronale Netze und den RF- und SVR-Modellen für maschinelles Lernen.
„Interessanterweise umfasste unser leistungsstärkstes Ensemble zwei der Modelle (RF und SVR), die für sich genommen schlecht abschnitten. Die Effektivität eines Ensembles beruht zum Teil auf der Unterschied in den Vorhersagen der Modelle – einer mag zu hoch und ein anderer zu niedrig sein, aber zusammen sind sie im Ziel. Im richtigen Kontext können diese Modelle die Genauigkeit erhöhen.“
„Basierend auf diesen Ergebnissen, bei denen die Vorhersage von größter Bedeutung ist, wäre es für einen Forscher oder Züchter in den meisten Fällen besser, Modelle zusammenzustellen, als ein einzelnes Modell zu verwenden“, erklärt Kick.
DER ARTIKEL::
Daniel R Kick, Jacob D Washburn, Ein Ensemble aus dem besten linearen unverzerrten Prädiktor, Modellen des maschinellen Lernens und Deep-Learning-Modellen sagt den Maisertrag besser voraus als jedes Modell allein., in silico Plants, Band 5, Ausgabe 2, 2023, diad015, https://doi.org/10.1093/insilicoplants/diad015
