Systeme der künstlichen Intelligenz (KI) wie ChatGPT haben die Welt im Sturm erobert. Es gibt nicht viel, woran sie nicht beteiligt sind, von der Empfehlung der nächsten TV-Sendung, die einen Binge-Spaß wert ist, bis hin zur Hilfe bei der Navigation durch den Verkehr. Aber können KI-Systeme die Sprache des Lebens lernen und Biologen dabei helfen, spannende Durchbrüche in der Wissenschaft zu erzielen?
In einer neuen Studie veröffentlicht In Naturkommunikation, ein interdisziplinäres Forscherteam unter der Leitung von Yunha Hwang, Ph.D. Kandidat am Department of Organismic and Evolutionary Biology (OEB) der Harvard University, haben ein System der künstlichen Intelligenz (KI) entwickelt, das in der Lage ist, die komplexe Sprache der Genomik zu entschlüsseln.
Die genomische Sprache ist der Quellcode der Biologie. Es beschreibt die biologischen Funktionen und die regulatorische Grammatik, die in Genomen kodiert sind. Die Forscher fragten: „Können wir eine KI-Engine entwickeln, um die Genomsprache zu ‚lesen‘ und die Sprache fließend zu beherrschen und die Bedeutung oder Funktionen und Vorschriften von Genen zu verstehen?“ Das Team fütterte die Maschine mit dem mikrobiellen metagenomischen Datensatz, dem größten und vielfältigsten verfügbaren genomischen Datensatz, um das Genomic Language Model (gLM) zu erstellen.
„In der Biologie verfügen wir über ein Wörterbuch bekannter Wörter, und Forscher arbeiten innerhalb dieser bekannten Wörter. Das Problem besteht darin, dass dieser Anteil bekannter Wörter weniger als ein Prozent der biologischen Sequenzen ausmacht“, sagte Hwang. „Die Menge und Vielfalt der Genomdaten explodiert, aber der Mensch ist nicht in der Lage, eine so große Menge komplexer Daten zu verarbeiten.“
Große Sprachmodelle (LLMs) wie GPT4 lernen die Bedeutung von Wörtern durch die Verarbeitung riesiger Mengen unterschiedlicher Textdaten, die das Verständnis der Beziehungen zwischen Wörtern ermöglichen. Das Genomic Language Model (gLM) lernt aus äußerst unterschiedlichen metagenomischen Daten, die von Mikroben stammen, die in verschiedenen Umgebungen leben, darunter im Meer, im Boden und im menschlichen Darm.
Mit diesen Daten lernt gLM, die funktionale „Semantik“ und regulatorische „Syntax“ jedes Gens zu verstehen, indem es die Beziehung zwischen dem Gen und seinem genomischen Kontext lernt. gLM ist wie LLMs ein selbstüberwachtes Modell – das bedeutet, dass es aussagekräftige Darstellungen von Genen allein aus Daten lernt und keine vom Menschen zugewiesenen Etiketten erfordert.
Forscher haben einige der am häufigsten untersuchten Organismen wie Menschen, E. coli und Fruchtfliegen sequenziert. Allerdings sind selbst bei den am häufigsten untersuchten Genomen die meisten Gene noch unzureichend charakterisiert.
„Wir haben in diesem revolutionären Zeitalter der ‚Omics‘ so viel gelernt, auch wie viel wir nicht wissen“, sagte der leitende Autor Professor Peter Girguis, ebenfalls an der OEB in Harvard. „Wir haben gefragt: Wie können wir die Bedeutung von etwas herausfinden, ohne uns auf ein sprichwörtliches Wörterbuch zu verlassen? Wie können wir den Inhalt und den Kontext eines Genoms besser verstehen?“
Die Studie zeigt, dass gLM enzymatische Funktionen und koregulierte Genmodule (sogenannte Operons) lernt und einen genomischen Kontext bereitstellt, der die Genfunktion vorhersagen kann. Das Modell lernt auch taxonomische Informationen und Kontextabhängigkeiten von Genfunktionen.
Bemerkenswert ist, dass gLM weder weiß, welches Enzym es sieht, noch, von welchem Bakterium die Sequenz stammt. Da es jedoch während des Trainings viele Sequenzen gesehen hat und die evolutionären Beziehungen zwischen den Sequenzen versteht, ist es in der Lage, die funktionalen und evolutionären Beziehungen zwischen den Sequenzen abzuleiten.
„Wie Wörter können Gene je nach Kontext, in dem sie vorkommen, unterschiedliche ‚Bedeutungen‘ haben. Umgekehrt können hochdifferenzierte Gene in ihrer Funktion ‚synonym‘ sein. gLM ermöglicht einen viel differenzierteren Rahmen für das Verständnis der Genfunktion. Das ist der Gegensatz.“ „zur bestehenden Methode der Eins-zu-Eins-Zuordnung von Sequenz zu Annotation, die nicht repräsentativ für die dynamische und kontextabhängige Natur der Genomsprache ist“, sagte Hwang.
Hwang arbeitete mit den Co-Autoren Andre Cornman (einem unabhängigen Forscher für maschinelles Lernen und Biologie), Sergey Ovchinnikov (ehemaliger John Harvard Distinguished Fellow und derzeitiger Assistenzprofessor am MIT) und Elizabeth Kellogg (Assoziierte Fakultät am St. Jude Children’s Research Hospital) zusammen Bilden Sie ein interdisziplinäres Team mit fundiertem Hintergrund in Mikrobiologie, Genomen, Bioinformatik, Proteinwissenschaft und maschinellem Lernen.
„Im Labor stecken wir in einem schrittweisen Prozess fest, bei dem wir ein Gen finden, ein Protein herstellen, es reinigen, charakterisieren usw. und so entdecken wir gewissermaßen nur das, was wir bereits wissen“, sagte Girguis. Mit gLM können Biologen jedoch den Kontext eines unbekannten Gens und seiner Rolle untersuchen, wenn es häufig in ähnlichen Gengruppen vorkommt. Das Modell kann Forschern sagen, dass diese Gengruppen zusammenarbeiten, um etwas zu erreichen, und es kann Antworten liefern, die im „Wörterbuch“ nicht vorkommen.
„Der genomische Kontext enthält entscheidende Informationen zum Verständnis der Evolutionsgeschichte und Evolutionsverläufe verschiedener Proteine und Gene“, sagte Hwang. „Letztendlich lernt gLM diese Kontextinformationen, um Forschern zu helfen, die Funktionen von Genen zu verstehen, die zuvor nicht annotiert waren.“
„Traditionelle funktionale Annotationsmethoden konzentrieren sich typischerweise auf jeweils ein Protein und ignorieren die Interaktionen zwischen Proteinen. gLM stellt einen großen Fortschritt dar, indem es das Konzept der Gennachbarschaften mit Sprachmodellen integriert und dadurch einen umfassenderen Überblick über Proteininteraktionen bietet“, erklärte Martin Steinegger (Assistenzprofessor, Seoul National University), ein Experte für Bioinformatik und maschinelles Lernen, der nicht an der Studie beteiligt war.
Mit der genomischen Sprachmodellierung können Biologen neue Genommuster entdecken und neuartige Biologie aufdecken. gLM ist ein bedeutender Meilenstein in der interdisziplinären Zusammenarbeit, die Fortschritte in den Biowissenschaften vorantreibt.
„Mit gLM können wir neue Einblicke in schlecht annotierte Genome gewinnen“, sagte Hwang. „gLM kann auch die experimentelle Validierung von Funktionen leiten und die Entdeckung neuer Funktionen und biologischer Mechanismen ermöglichen. Wir hoffen, dass gLM die Entdeckung neuartiger biotechnologischer Lösungen für den Klimawandel und die Bioökonomie beschleunigen kann.“
Mehr Informationen:
Yunha Hwang et al., Genomisches Sprachmodell sagt Protein-Koregulation und -Funktion voraus, Naturkommunikation (2024). DOI: 10.1038/s41467-024-46947-9