Obwohl genomweite Assoziationsstudien (GWAS) die Identifizierung von SNP-Varianten (Single Nucleotide Polymorphism) ermöglichen, die mit interessierenden Merkmalen assoziiert sind, befinden sich viele der identifizierten Varianten in nicht codierenden Regionen und beeinflussen vermutlich nur die Regulation der Genexpression. Daher ist es sehr schwierig, ursächliche Gene zu identifizieren, die einem bestimmten Phänotyp zugrunde liegen, indem nur Varianten verwendet werden. Die Integration von GWAS und Genkoexpressionsnetzwerken kann dazu beitragen, Kandidatengene mit hohem Vertrauen zu priorisieren, da die Expressionsprofile von merkmalsassoziierten Genen verwendet werden können, um neue Kandidaten zu finden. Ein neuer Artikel erschienen in in silico Asphaltmischanlagen stellt einen statistischen Rahmen vor, der die Integration von Genkoexpressionsnetzwerken und von GWAS abgeleiteten SNPs automatisiert, um Kandidatengene zu priorisieren, die mit interessierenden Merkmalen assoziiert sind.

Graduate Researcher Fabricio Almeida-Silva und außerordentlicher Professor Dr. Thiago Venancio von der State University of Northern Rio de Janeiro anwesend Käfigarbeiter (candidate gene miner), ein R/Bioconductor-Paket zur Priorisierung von Kandidatengenen durch die Integration von GWAS und Koexpressionsnetzwerken.

Käfigarbeiter verwendet einen auf Leitgenen basierenden Ansatz, um neue Kandidaten zu entdecken, die mit bekannten merkmalsassoziierten Genen koexprimiert werden und die unter interessierenden Bedingungen signifikant induziert oder reprimiert werden.

Während ein bestehender rechnerischer Ansatz, Camoco, existiert, die durch GWAS identifizierte Loci mit funktionellen Informationen aus Gen-Coexpressionsnetzwerken integrieren kann, Käfigarbeiter ist in der Lage, Kandidatengene innerhalb eines größeren gleitenden Fensters zu entdecken, wodurch mehr Kandidatengene erkannt werden können.

Eingabedaten erforderlich von Käfigarbeiter sind SNP-Positionen, Führungsgene und ein Gen-Coexpressionsnetzwerk.

Gene gelten als Kandidaten mit hohem Vertrauen, wenn sie alle drei in implementierten Filterkriterien erfüllen Käfigarbeiter:

  1. physische Nähe zu SNPs,
  2. Koexpression mit bekannten Merkmal-assoziierten Genen und
  3. signifikante Änderungen der Expressionsniveaus unter interessierenden Bedingungen.

Priorisierte Kandidaten können auch bewertet und eingestuft werden, um Ziele für die experimentelle Validierung auszuwählen.

Ein Flussdiagramm, das die drei aufeinanderfolgenden Schritte der Cageminer-Kandidatengen-Priorisierung zeigt. Im ersten Schritt werden alle Gene innerhalb eines gleitenden Fensters relativ zu jedem SNP als mutmaßliche Kandidaten ausgewählt. Im zweiten Schritt führt Cageminer eine Anreicherungsanalyse durch und findet Kandidaten aus Schritt 1, die in Modulen vorkommen, die mit Leitgenen angereichert sind. Der dritte Schritt wählt Kandidatengene aus Schritt 2 aus, die mit interessierenden Bedingungen korrelieren.
Ein Flussdiagramm, das die drei aufeinanderfolgenden Schritte der Cageminer-Kandidatengen-Priorisierung zeigt.

Die Autoren haben sich beworben Käfigarbeiter zu einem echten Datensatz von Capsicum annuum Reaktion auf eine Phytophthora-Infektion, um priorisierte Kandidaten zu identifizieren, die für Proteine ​​kodieren, die mit bekannten Prozessen im Zusammenhang mit der Pflanzenimmunität in Zusammenhang stehen. Eine leicht verständliche Dokumentation der Session inklusive Code, Erklärungen und Abbildungen ist in einer ergänzenden Datei zum Artikel enthalten.

Venancio fasst zusammen: „Wir haben uns entwickelt Käfigarbeiter Genkandidaten zu priorisieren, was zu einer erheblichen Verringerung der Größe der Kandidatengenlisten führt. Wir gehen davon aus, dass dieses Paket zur Weiterentwicklung der Populationsgenomik und zur Identifizierung von Genen für biotechnologische Anwendungen beitragen wird.“

DER ARTIKEL::

Fabricio Almeida-Silva, Thiago M Venancio, Cageminer: ein R/Bioconductor-Paket zur Priorisierung von Kandidatengenen durch Integration von GWAS und Gen-Koexpressionsnetzwerken, in silico Plants, 2022; diac018, https://doi.org/10.1093/insilicoplants/diac018


Alle in diesem Manuskript verwendeten Daten und Codes sind in einem GitHub-Repository frei verfügbar (https://github.com/almeidasilvaf/cageminer_benchmark), um eine vollständige Reproduzierbarkeit zu gewährleisten