Seit der Sequenzierung des ersten mikrobiellen Genoms im Jahr 1995 haben Wissenschaftler die genomische Zusammensetzung Hunderttausender Mikroorganismen rekonstruiert und sogar Methoden entwickelt, um eine Zählung der Bakteriengemeinschaften auf der Haut, im Darm oder im Boden, im Wasser und an anderen Orten durchzuführen an Massenproben, was zur Entstehung eines relativ neuen Forschungsgebiets namens Metagenomik führte.
Das Analysieren metagenomischer Daten kann eine entmutigende Aufgabe sein, ähnlich wie der Versuch, mehrere riesige Puzzles zusammenzusetzen, bei denen alle Teile durcheinander gebracht werden. Santiago Segarra, Experte für graphische künstliche Intelligenz (KI) der Rice University, und Todd Treangen, Experte für graphische künstliche Intelligenz (KI), stellten sich dieser einzigartigen rechnerischen Herausforderung, um gemeinsam zu erforschen, wie die KI-gestützte Datenanalyse dabei helfen könnte, neue Werkzeuge zu entwickeln, um die Metagenomik-Forschung voranzutreiben.
Das Wissenschaftlerduo konzentrierte sich auf zwei Datentypen, die die metagenomische Analyse besonders anspruchsvoll machen – Wiederholungen und Strukturvarianten – und entwickelte Tools für den Umgang mit diesen Datentypen, die aktuelle Methoden übertreffen.
Wiederholungen sind identische DNA-Sequenzen, die sowohl im Genom einzelner Organismen als auch in mehreren Genomen einer Organismengemeinschaft wiederholt vorkommen.
„Die DNA in einer metagenomischen Probe mehrerer Organismen kann als Diagramm dargestellt werden“, sagte Segarra, Assistenzprofessor für Elektro- und Computertechnik.
„Im Wesentlichen nutzt eines der von uns entwickelten Tools die Struktur dieses Diagramms, um zu bestimmen, welche DNA-Stücke wiederholt entweder in Mikroben oder innerhalb desselben Mikroorganismus vorkommen.“
Die als GraSSRep bezeichnete Methode kombiniert selbstüberwachtes Lernen, einen maschinellen Lernprozess, bei dem ein KI-Modell sich selbst trainiert, um zwischen versteckten und verfügbaren Eingaben zu unterscheiden, und grafische neuronale Netze, Systeme, die Daten verarbeiten, die Objekte und ihre Verbindungen als Diagramme darstellen.
Der Papierauch verfügbar auf der arXiv Preprint-Server, wurde auf der 28. Sitzung einer jährlichen internationalen Konferenz über Forschung in der computergestützten Molekularbiologie vorgestellt, RECOMB 2024. Das Projekt wurde von Rice-Doktorand und Forschungsassistent Ali Azizpour geleitet. Advait Balaji, ein ehemaliger Rice-Doktorand, ist ebenfalls Autor der Studie.
Wiederholungen sind von Interesse, da sie eine wichtige Rolle in biologischen Prozessen spielen, beispielsweise bei der Reaktion von Bakterien auf Veränderungen in ihrer Umgebung oder bei der Interaktion von Mikrobiomen mit Wirtsorganismen. Ein konkretes Beispiel für ein Phänomen, bei dem Wiederholungen eine Rolle spielen können, ist die Antibiotikaresistenz.
Im Allgemeinen kann die Verfolgung der Geschichte oder Dynamik von Wiederholungen in einem Bakteriengenom Aufschluss über die Anpassungs- oder Evolutionsstrategien von Mikroorganismen geben. Darüber hinaus kann es sich bei Wiederholungen manchmal tatsächlich um getarnte Viren oder Bakteriophagen handeln. Vom griechischen Wort für „verschlingen“ werden Phagen manchmal verwendet, um Bakterien abzutöten.
„Diese Phagen sehen tatsächlich wie Wiederholungen aus, sodass man die Bakterien-Phagen-Dynamik anhand der in den Genomen enthaltenen Wiederholungen verfolgen kann“, sagte Treangen, außerordentlicher Professor für Informatik.
„Dies könnte Hinweise darauf liefern, wie man schwer abzutötende Bakterien loswird, oder ein klareres Bild davon zeichnen, wie diese Viren mit einer Bakteriengemeinschaft interagieren.“
Wenn früher ein diagrammbasierter Ansatz zur Durchführung der Wiederholungserkennung verwendet wurde, verwendeten die Forscher vordefinierte Spezifikationen dafür, wonach in den Diagrammdaten gesucht werden sollte. Was GraSSRep von diesen früheren Ansätzen unterscheidet, ist das Fehlen solcher vordefinierter Parameter oder Referenzen, die darüber informieren, wie die Daten verarbeitet werden.
„Unsere Methode lernt, die Diagrammstruktur besser zu nutzen, um Wiederholungen zu erkennen, anstatt sich auf die anfängliche Eingabe zu verlassen“, sagte Segarra. „Selbstüberwachtes Lernen ermöglicht es diesem Tool, sich selbst zu trainieren, ohne dass eine Grundwahrheit vorliegt, die festlegt, was eine Wiederholung ist und was keine Wiederholung. Wenn Sie mit einer metagenomischen Probe arbeiten, müssen Sie nichts darüber wissen, was darin enthalten ist.“ da, um es zu analysieren.
Das Gleiche gilt für eine andere von Segarra und Treangen gemeinsam entwickelte Methode der metagenomischen Analyse – die referenzfreie Erkennung von Strukturvarianten in Mikrobiomen mithilfe von Long-Read-Coassembly-Graphen oder Rhea. Ihre Papier auf Rhea wird auf der vorgestellt Internationale Gesellschaft für Computational Biology’s Jahreskonferenz, die vom 12. bis 16. Juli in Montreal stattfinden wird.
Die Hauptautorin des Artikels ist Kristen Curry, Doktorandin der Rice-Informatik, die als Postdoktorandin in das Labor von Rayan Chikhi – ebenfalls Co-Autor des Artikels – am Institut Pasteur in Paris eintreten wird. Eine Version des Papiers ist auf der Website verfügbar bioRxiv Preprint-Server.
Während GraSSRep für den Umgang mit Wiederholungen konzipiert ist, verarbeitet Rhea Strukturvarianten, bei denen es sich um genomische Veränderungen von 10 Basenpaaren oder mehr handelt, die aufgrund ihrer Rolle bei verschiedenen Krankheiten, der Regulierung der Genexpression, der Evolutionsdynamik und der Förderung der genetischen Vielfalt für die Medizin und Molekularbiologie relevant sind innerhalb von Populationen und zwischen Arten.
„Die Identifizierung struktureller Varianten in isolierten Genomen ist relativ einfach, aber es ist schwieriger, dies in Metagenomen zu tun, wo es kein klares Referenzgenom gibt, das bei der Kategorisierung der Daten hilft“, sagte Treangen.
Derzeit ist eine der am weitesten verbreiteten Methoden zur Verarbeitung metagenomischer Daten die Verwendung von Metagenom-assemblierten Genomen oder MAGs.
„Diese De-novo- oder referenzgesteuerten Assembler sind ziemlich gut etablierte Werkzeuge, die eine ganze Betriebspipeline umfassen, wobei die Wiederholungserkennung oder die Identifizierung struktureller Varianten nur einige ihrer Funktionen sind“, sagte Segarra.
„Eine Sache, die wir untersuchen, ist, vorhandene Algorithmen durch unsere zu ersetzen und herauszufinden, wie dadurch die Leistung dieser sehr weit verbreiteten metagenomischen Assembler verbessert werden kann.“
Rhea benötigt keine Referenzgenome oder MAGs, um Strukturvarianten zu erkennen, und es übertrifft Methoden, die auf solchen vorab festgelegten Parametern basieren, wenn es gegen zwei Scheinmetagenome getestet wird.
„Dies war besonders auffällig, weil wir die Daten viel detaillierter lesen konnten als bei der Verwendung von Referenzgenomen“, sagte Segarra.
„Die andere Sache, die wir derzeit untersuchen, ist die Anwendung des Tools auf Datensätze aus der realen Welt und zu sehen, wie sich die Ergebnisse auf biologische Prozesse auswirken und welche Erkenntnisse uns dies liefern könnte.“
Treangen sagte, dass GraSSRep und Rhea zusammen – aufbauend auf früheren Beiträgen auf diesem Gebiet – das Potenzial hätten, „die zugrunde liegenden Lebensregeln zu entschlüsseln, die die mikrobielle Evolution steuern“.
Die Projekte sind das Ergebnis einer jahrelangen Zusammenarbeit zwischen den Labors Segarra und Treangen.
„Dies ist das Ergebnis mehrjähriger gemeinsamer Forschung in verschiedenen Fachgebieten, die es unseren Studenten Ali und Kristen ermöglicht hat, bestehende Paradigmen in Frage zu stellen und neue Ansätze für bestehende Probleme in der Metagenomik zu entwickeln“, sagte Treangen.
Mehr Informationen:
Ali Azizpour et al, GraSSRep: Graphbasiertes selbstüberwachtes Lernen zur Wiederholungserkennung in der metagenomischen Assemblierung, arXiv (2024). DOI: 10.48550/arxiv.2402.09381
Kristen D. Curry et al., Referenzfreie Strukturvariantenerkennung in Mikrobiomen über langgelesene Coassembly-Graphen, bioRxiv (2024). DOI: 10.1101/2024.01.25.577285