Verarbeitete Sojabohnen sind die weltweit größte Quelle für tierisches Eiweißfutter und die zweitgrößte Quelle für Pflanzenöl.

Die Identifizierung von Genen, die wichtige Merkmale kontrollieren, bildet die Grundlage für genetische Verbesserungen zur Entwicklung von Nutzpflanzen, die mehr Ertrag zur Versorgung einer wachsenden Bevölkerung produzieren und resistent gegen biotischen (z. B. Schadinsekten) und abiotischen Stress (z. B. Klimawandel) sind. Ein Transkriptom stellt den kleinen Prozentsatz des genetischen Codes dar, der in RNA-Moleküle transkribiert wird. Durch die Untersuchung von Transkriptomen hoffen die Forscher zu bestimmen, wann und wo Gene in verschiedenen Arten von Zellen und Geweben an- oder abgeschaltet werden, wenn sie unterschiedlichen Behandlungen ausgesetzt werden. In den letzten zehn Jahren haben sich über 3000 Proben von Sojabohnen-Transkriptomdaten in öffentlichen Repositorien angesammelt.

Wichtigste deskriptive Statistik von RNA-seq-Proben auf der Sequence Read Archive (SRA)-Datenbank des National Center for Biotechnology Information. (a) Verteilung der Proben nach Ländern (b) Anzahl der SRA-Proben nach Gewebe.

Ein neuer Übersichtsartikel von Dr. Thiago Venancio und Co-Autoren von der Universidade Estadual do Norte Fluminense in Brasilien untersucht den Stand der Technik in Sojabohnen-Transkriptomik-Ressourcen und Genkoexpressionsnetzwerken.

Der Artikel stellt zunächst hybridisierungsbasierte (dh Microarrays) und sequenzbasierte (dh RNA-seq) Technologien vor und diskutiert die Vorteile von jeder. Am wichtigsten ist, dass Mikroarrays auf spezies- oder transkriptspezifischen Sonden (dh kurzen DNA- oder RNA-Abschnitten) beruhen, von denen bereits bekannt ist, dass sie ihre relative Expression anzeigen. RNA-Seq hingegen kann neue Transkripte erkennen, da es die Nukleinsäuresequenz eines bestimmten DNA- oder RNA-Moleküls bestimmt, das dann identifiziert wird. Die RNA-Seq-Technologie kann einen höheren Prozentsatz an differentiell exprimierten Genen nachweisen, insbesondere Gene mit geringer Expression. Aus diesen Gründen hat die RNA-Seq-Technologie damit begonnen, traditionelle Microarray-Plattformen für die Durchführung von Transkriptionsprofilen zu ersetzen. Wichtige Studien, die Sojabohnen-Transkriptionsprogramme in verschiedenen Geweben und Zuständen unter Verwendung beider Technologien untersucht haben, werden hervorgehoben.

Die Autoren schlagen dann Ansätze vor, die riesige Datenmengen in öffentlichen Repositorien unter Verwendung von Gen-Coexpression-Netzwerken (GCNs) zu integrieren. GCNs werden zur Erforschung, Interpretation und Visualisierung der Beziehung zwischen Genen verwendet, die zusammenarbeiten, um zur Expression eines bestimmten Merkmals (z. B. Ertrag) beizutragen. „Die Natur liebt Muster und Ordnung. In biologischen Systemen sind molekulare Komponenten (z. B. Gene, Proteine) hierarchisch in dichten Clustern organisiert, die üblicherweise als Module bezeichnet werden. GCNs sind ein leistungsfähiges Werkzeug, um Module von koexprimierten Genen zu identifizieren, die wahrscheinlich am selben biologischen Prozess teilnehmen. Da die Funktionen von Genen in wichtigen Nutzpflanzen experimentell identifiziert wurden, können GCNs verwendet werden, um auf Funktionen unbekannter Gene basierend auf der Funktion ihrer Koexpressionspartner zu schließen. Aus evolutionärer Sicht können diese Koexpressionsmodule untersucht werden, um Gene zu identifizieren, die nach der Duplikation neue Funktionen erworben haben, und sie können über Arten hinweg verglichen werden, um die Erhaltung und Divergenz von Orthogruppen zu untersuchen“, erklärt Venancio.

Schließlich identifiziert der Artikel Transkriptom-Ressourcen von Sojabohnen und Sojabohnen-Expressionsdaten, einschließlich der Sequence Read Archive (SRA)-Datenbank des National Center for Biotechnology Information – das größte öffentlich zugängliche Repository von Hochdurchsatz-Sequenzierungsdaten und die Sojabohnen-Expressionsatlas – eine hochauflösende Genexpressionsdatenbank.