Transkriptionsfaktoren (TF) und die DNA-Stellen, an die sie binden (TF-DNA), sind gute Ziele für die Pflanzenverbesserung, da sie die Genexpression steuern. Während technologische Entwicklungen in den letzten zehn Jahren die Charakterisierung von DNA-Bindungspräferenzen für viele TFs erleichtert haben, bleiben viele unidentifiziert. Ein neuer Artikel erschienen in in silico Asphaltmischanlagen beschreibt ein maschinelles Lernmodell, das erstellt wurde, um Kandidaten-TF-Bindungsstellen zu finden.

Ms. Sohyun Bang, eine Doktorandin am Institut für Bioinformatik an der University of Georgia und Co-Autorin, erstellte ein Vorhersagemodell, das genomische Regionen als TF-bindende und TF-nicht-gebundene Klassen aus genomischer DNA klassifizieren konnte. Die Autoren haben sich entschieden, sich auf den Nachweis von Mitgliedern der Auxin Response Factor (ARF) TF-Familie in Mais und Sojabohnen zu konzentrieren, da Auxin eine entscheidende Rolle bei Pflanzenwachstum und -entwicklung spielt und evolutionär über Arten hinweg konserviert wird.

Da die Daten unausgewogen waren, was bedeutete, dass der größte Teil des Genoms nicht aus ARF-Bindungsereignissen bestand, riskierten die Autoren hohe falsch-positive Raten. Daher reduzierten sie die Datenmenge, die nicht aus ARF-Bindungsereignissen bestand, indem sie die verwendeten Daten auf unmethylierte Regionen beschränkten, die im Vergleich zu methylierten Regionen im Genom stark für TF-DNA-Wechselwirkungen angereichert sind (Abbildung 1).

Eine Figur mit vier gestapelten Tafeln. Das obere Feld ist mit 1 gekennzeichnet, Vorverarbeitung von Daten. Es zeigt, dass die Daten auf unmethylierte Regionen beschränkt sind, die ARF-ungebundene, mehrdeutige und ARF-gebundene Regionen enthalten. Die ARF-gebundenen Regionen sind ebenfalls DAP-seq-Peaks. Das nächste Feld trägt die Bezeichnung 2, kategoriale Variable codieren. Es zeigt die beiden verwendeten Methoden, Zählvektorisierung für k-mer und One-Hot-Codierung. Das nächste Feld ist mit 3 gekennzeichnet, das Modell in Mais bewerten. Es zeigt die logistische Regression und CCN. Das untere Feld ist mit 4 gekennzeichnet. Im letzten Schritt identifizieren die Autoren das beste Modell basierend auf der Leistung für Mais-ARFs und wenden es dann auf Sojabohnen an.
Experimentelles Design und Datenverarbeitung, die in dieser Studie verwendet wurden.

Algorithmen für maschinelles Lernen erwarten numerische Variablen, keine kategorialen Nukleotidsequenzen. Daher testeten die Autoren die Codierung der kategorialen Variablen (A, T, G, C) mit einer oder mehreren numerischen Variablen unter Verwendung von zwei Methoden (Abbildungstafel 2):

  1. Die One-Hot-Codierung betrachtet DNA als eine 1-D-Sequenz mit fester Länge und vier Kanälen. Wenn beispielsweise A, C, G, T jeweils in (1 0 0), (0 1 0), (0 0 1), (0 0 0) codiert sind, dann wird die Sequenz ATTGC in ((1 0 0), (0 0 0), (0 0 0), (0 0 1), (0 1 0)). Codierte DNA-Sequenzen wurden unter Verwendung von Convolutional Neural Networks klassifiziert.
  2. Die Zählvektorisierung mit k-mer-Verwendungen beschreibt kurze DNA-Sequenzen entlang ihrer Länge (die Länge wird als k bezeichnet). Wenn es zum Beispiel eine Gruppe von Sequenzen von AATTG gibt, sind Tokens von 3-mer AAT, ATT, TTG und TGC. Das in diesem Artikel getestete k betrug 5 – 9 Basenpaare und wurde letztendlich für die Verwendung eines 7-mer ausgewählt, da es die niedrigste falsch-negative Rate erzeugte. Die logistische Regression wurde für zählvektorisierte Merkmale angepasst.

Unter Verwendung dieser Methoden wurden zwei Modelle entwickelt und trainiert, um anhand einer Teilmenge von Daten unterschiedliche Muster von TF-gebundenen und TF-ungebundenen Sequenzen zu lernen. Die Modelle wurden dann mit den verbleibenden Daten ausgeführt, um TF-gebundene oder TF-ungebundene Regionen vorherzusagen. Die Vorhersagegenauigkeit jedes Modells wurde anhand bekannter TF-gebundener und TF-ungebundener Ereignisse bewertet, die die Autoren unter Verwendung von Peaks aus der DNA-Affinitätsreinigung und -Sequenzierung identifizierten (DAP-seq, Abbildungstafel 3).

Die Gesamtzahl der genau vorhergesagten TF-gebundenen und TF-ungebundenen Ereignisse zeigte eine hohe Genauigkeit der Vorhersagemodelle mit der Einschränkung, dass sie häufig die hochfrequenten TF-ungebundenen Ereignisse übersahen.

Die Autoren fanden heraus, dass die beiden Kodierungsmethoden, One-Hot und k-mer, eine ähnliche TF-Vorhersagegenauigkeit (76–78 %) und ein ähnliches, aber hohes (41–46 %) Auftreten falsch negativer Raten aufwiesen.

Die Autoren entschieden sich dafür, mit dem k-mer-Modell fortzufahren und seine Leistung weiter zu verbessern, indem sie einen logistischen Regressionsklassifikator mit Upsampling und Merkmalsauswahl einschlossen. Um die Daten auszugleichen, die mehr nicht-ARF-gebundene Regionen als ARF-gebundene Regionen enthielten, verwendeten die Autoren Upsampling, bei dem die Minderheitsklasse zufällig so ausgewählt wird, dass sie die gleiche Größe wie die Mehrheitsklasse im Trainingssatz hat. Die Merkmalsauswahl wurde durchgeführt, indem die genomischen 7-mer-Sequenzmuster identifiziert wurden, an denen ARF am wahrscheinlichsten binden, ohne die Motivinformationen zu verwenden.

Dadurch konnten sie eine TF-Vorhersagegenauigkeit von 91 % und eine Falsch-Negativ-Rate von 35 % erreichen.

Schließlich validierten die Autoren das beste mit Mais etablierte Modell gegen das Sojabohnengenom, um zu bestimmen, ob das Modell verwendet werden kann, um TF-DNA-Wechselwirkungen in anderen Pflanzenarten zuverlässig vorherzusagen (Abbildung 4). Dazu erstellten sie DAP-seq-Daten für die gleichen Mais-ARFs unter Verwendung von genomischer Sojabohnen-DNA als Input. Nach dem Training von Mais-ARF-gebundenen Regionen und dem Testen von Sojabohnendaten erreichten sie eine TF-Vorhersagegenauigkeit von 70–84 %, aber hohe (36–89 %) falsch-negative Raten bei den Mitgliedern der ARFs.

Die Ergebnisse dieser Studie legen die potenzielle Verwendung verschiedener Methoden zur Vorhersage von TF-DNA-Wechselwirkungen innerhalb und zwischen Arten mit unterschiedlichem Erfolg nahe.

DER ARTIKEL::

Sohyun Bang, Mary Galli, Peter A. Crisp, Andrea Gallavotti, Robert J. Schmitz, Identifizierung von Interaktionen zwischen Transkriptionsfaktor und DNA mithilfe maschinellen Lernens, in silico Plants, 2022;, diac014, https://doi.org/10.1093/insilicoplants/diac014


Das Modell ist frei verfügbar unter https://github.com/schmitzlab/Identifying-transcription-factor-DNA-interactions-using-machine-learning