Dieselbe Klasse künstlicher Intelligenz, die für Schlagzeilen beim Codieren von Software und beim Bestehen der Anwaltsprüfung sorgte, hat gelernt, eine andere Art von Text zu lesen – den genetischen Code.
Dieser Code enthält Anweisungen für alle Funktionen des Lebens und folgt Regeln, die denen der menschlichen Sprachen nicht unähnlich sind. Jede Sequenz in einem Genom folgt einer komplizierten Grammatik und Syntax, den Strukturen, die Bedeutung ergeben. So wie die Änderung einiger weniger Wörter die Wirkung eines Satzes radikal verändern kann, können kleine Variationen in einer biologischen Sequenz einen großen Unterschied in den Formen bewirken, die diese Sequenz kodiert.
Jetzt verwenden Forscher der Princeton University unter der Leitung des Experten für maschinelles Lernen Mengdi Wang Sprachmodelle, um Teilsequenzen des Genoms zu ermitteln und diese Sequenzen für das Studium der Biologie und die Verbesserung der Medizin zu optimieren. Und sie sind bereits unterwegs.
In einem Papier veröffentlicht am 5. April in der Zeitschrift Naturmaschinenintelligenzbeschreiben die Autoren ein Sprachmodell, das seine Fähigkeiten der semantischen Darstellung nutzte, um einen wirksameren mRNA-Impfstoff zu entwickeln, wie er beispielsweise zum Schutz vor COVID-19 verwendet wird.
Gefunden in der Übersetzung
Wissenschaftler haben eine einfache Möglichkeit, den Fluss genetischer Informationen zusammenzufassen. Sie nennen es das zentrale Dogma der Biologie. Informationen bewegen sich von der DNA über die RNA zu den Proteinen. Proteine schaffen die Strukturen und Funktionen lebender Zellen.
Messenger-RNA oder mRNA wandelt die Informationen in diesem letzten Schritt, der Übersetzung genannt, in Proteine um. Aber mRNA ist interessant. Nur ein Teil davon enthält den Code für das Protein. Der Rest wird nicht übersetzt, sondern steuert wichtige Aspekte des Übersetzungsprozesses.
Die Steuerung der Effizienz der Proteinproduktion ist ein Schlüsselmechanismus für die Wirkung von mRNA-Impfstoffen. Dort konzentrierten die Forscher ihr Sprachmodell auf den unübersetzten Bereich, um zu sehen, wie sie die Effizienz optimieren und Impfstoffe verbessern können.
Nachdem sie das Modell an einer kleinen Artenvielfalt trainiert hatten, generierten die Forscher Hunderte neuer optimierter Sequenzen und validierten diese Ergebnisse durch Laborexperimente. Die besten Sequenzen übertrafen mehrere führende Benchmarks für die Impfstoffentwicklung, darunter eine Steigerung der Gesamteffizienz der Proteinproduktion um 33 %.
Den Forschern zufolge stellt die Steigerung der Proteinproduktionseffizienz auch nur um einen geringen Betrag einen großen Schub für neue Therapeutika dar. Über COVID-19 hinaus versprechen mRNA-Impfstoffe Schutz vor vielen Infektionskrankheiten und Krebsarten.
Wang, Professor für Elektro- und Computertechnik und Hauptforscher dieser Studie, sagte, der Erfolg des Modells weise auch auf eine grundlegendere Möglichkeit hin. Anhand der mRNA einer Handvoll Arten konnte es Nukleotidsequenzen entschlüsseln und etwas Neues über die Genregulation aufdecken. Wissenschaftler glauben, dass die Genregulation, eine der grundlegendsten Funktionen des Lebens, der Schlüssel zur Aufklärung der Ursachen von Krankheiten und Störungen ist. Sprachmodelle wie dieses könnten eine neue Möglichkeit zur Untersuchung bieten.
Zu Wangs Mitarbeitern gehören Forscher des Biotech-Unternehmens RVAC Medicines sowie der Stanford University School of Medicine.
Die Sprache der Krankheit
Das neue Modell unterscheidet sich im Grad, nicht in der Art, von den großen Sprachmodellen, die die heutigen KI-Chatbots antreiben. Anstatt auf Milliarden von Textseiten aus dem Internet trainiert zu werden, wurde ihr Modell auf ein paar Hunderttausend Sequenzen trainiert. Das Modell wurde außerdem trainiert, um zusätzliches Wissen über die Produktion von Proteinen, einschließlich struktureller und energiebezogener Informationen, zu integrieren.
Das Forschungsteam nutzte das trainierte Modell, um eine Bibliothek mit 211 neuen Sequenzen zu erstellen. Jedes wurde für eine gewünschte Funktion optimiert, in erster Linie eine Steigerung der Übersetzungseffizienz. Diese Proteine, wie das Spike-Protein, auf das COVID-19-Impfstoffe abzielen, steuern die Immunantwort auf Infektionskrankheiten.
Frühere Studien haben Sprachmodelle erstellt, um verschiedene biologische Sequenzen, einschließlich Proteine und DNA, zu entschlüsseln. Dies war jedoch das erste Sprachmodell, das sich auf den nicht übersetzten Bereich der mRNA konzentrierte. Neben einer Steigerung der Gesamteffizienz war es auch möglich, vorherzusagen, wie gut eine Sequenz bei einer Vielzahl verwandter Aufgaben funktionieren würde.
Wang sagte, die eigentliche Herausforderung bei der Erstellung dieses Sprachmodells bestehe darin, den vollständigen Kontext der verfügbaren Daten zu verstehen. Für das Training eines Modells sind nicht nur die Rohdaten mit all ihren Merkmalen erforderlich, sondern auch die nachgelagerten Konsequenzen dieser Merkmale. Wenn ein Programm darauf ausgelegt ist, Spam aus E-Mails zu filtern, wird jede E-Mail, auf die es trainiert, mit „Spam“ oder „Kein Spam“ gekennzeichnet. Dabei entwickelt das Modell semantische Darstellungen, die es ihm ermöglichen, zu bestimmen, welche Wortfolgen auf eine „Spam“-Kennzeichnung hinweisen. Darin liegt der Sinn.
Wang sagte, die Betrachtung eines einzigen Datensatzes und die Entwicklung eines darauf aufbauenden Modells reichten nicht aus, um für Biowissenschaftler von Nutzen zu sein. Sie musste etwas Neues tun. Da dieses Modell auf dem neuesten Stand des biologischen Verständnisses war, waren die Daten, die sie fand, verstreut.
„Ein Teil meines Datensatzes stammt aus einer Studie, in der es Effizienzmaße gibt“, sagte Wang. „Ein weiterer Teil meines Datensatzes stammt aus einer anderen Studie [that] gemessene Expressionsniveaus. Wir haben auch nicht annotierte Daten aus mehreren Ressourcen gesammelt.“ Diese Teile zu einem kohärenten und robusten Ganzen zu organisieren – einem facettenreichen Datensatz, den sie zum Trainieren eines anspruchsvollen Sprachmodells verwenden konnte – war eine enorme Herausforderung.
„Beim Training eines Modells geht es nicht nur darum, all diese Sequenzen zusammenzustellen, sondern auch darum, Sequenzen mit den bisher gesammelten Labels zusammenzustellen. Das wurde noch nie zuvor gemacht.“
Der Artikel „A 5′ UTR Language Model for Decoding Untranslated Regions of mRNA and Function Predictions“ wurde in veröffentlicht Naturmaschinenintelligenz. Weitere Autoren sind Dan Yu, Yupeng Li, Yue Shen und Jason Zhang von RVAC Medicines; Le Cong aus Stanford; und Yanyi Chu und Kaixuan Huang aus Princeton.
Mehr Informationen:
Yanyi Chu et al., Ein 5′-UTR-Sprachmodell zur Dekodierung unübersetzter mRNA-Regionen und Funktionsvorhersagen, Naturmaschinenintelligenz (2024). DOI: 10.1038/s42256-024-00823-9