Nach dem Vorbild der Evolutionstheorie trainierte KI entwickelt Proteine, die die Arzneimittelforschung und wissenschaftliche Entdeckungen vorantreiben

Ein neues künstliches Intelligenzmodell, das von Forschern der University of Texas in Austin entwickelt wurde, ebnet den Weg für wirksamere und weniger toxische Behandlungen und neue Präventionsstrategien in der Medizin. Das KI-Modell unterstützt die Entwicklung proteinbasierter Therapien und Impfstoffe, indem es die zugrunde liegende Logik der Evolutionsprozesse der Natur nutzt.

Der KI-Fortschritt namens EvoRank bietet ein neues und konkretes Beispiel dafür, wie KI zu bahnbrechenden Veränderungen in der biomedizinischen Forschung und der Biotechnologie im Allgemeinen beitragen kann. Wissenschaftler beschrieb die Arbeit auf der International Conference on Learning Representations (ICLR 2024) und veröffentlichte eine entsprechende Papier In Naturkommunikation über die Nutzung eines breiteren KI-Rahmens zur Identifizierung nützlicher Mutationen in Proteinen.

Ein großes Hindernis bei der Entwicklung besserer Biotechnologien auf Proteinbasis besteht darin, über genügend experimentelle Daten über Proteine ​​zu verfügen, um KI-Modelle ausreichend zu trainieren und die Funktionsweise bestimmter Proteine ​​zu verstehen und sie so für bestimmte Zwecke zu entwickeln.

Die wichtigste Erkenntnis von EvoRank liegt darin, die natürlichen Variationen von Millionen von Proteinen, die im Laufe der Zeit durch die Evolution entstanden sind, nutzbar zu machen und die zugrundeliegende Dynamik herauszuarbeiten, die für praktikable Lösungen biotechnologischer Herausforderungen erforderlich ist.

„Die Natur hat drei Milliarden Jahre lang Proteine ​​entwickelt, Aminosäuren mutiert oder ausgetauscht und diejenigen beibehalten, die den Lebewesen nützen“, sagte Daniel Diaz, ein Informatikforscher und Co-Leiter der Deep Proteins Group, einem interdisziplinären Team von Informatik- und Chemieexperten an der UT.

„EvoRank lernt, die Evolution, die wir um uns herum beobachten, einzuordnen, im Wesentlichen die Prinzipien herauszufiltern, die die Proteinevolution bestimmen, und diese Prinzipien so zu nutzen, dass sie die Entwicklung neuer proteinbasierter Anwendungen steuern können, unter anderem für die Entwicklung von Medikamenten und Impfstoffen sowie für ein breites Spektrum von Zwecken der Bioproduktion.“

UT beherbergt eines der führenden KI-Forschungsprogramme des Landes und das Institute for Foundations of Machine Learning (IFML) unter der Leitung des Informatikprofessors Adam Klivans, der auch Co-Leiter von Deep Proteins ist.

In einem Projekt von Deep Proteins und dem Impfstoffhersteller Jason McLellan, einem UT-Professor für Molekularbiowissenschaften, in Zusammenarbeit mit dem La Jolla Institute for Immunology wird KI in der Protein-Engineering-Forschung eingesetzt, um Impfstoffe gegen Herpesviren zu entwickeln.

„Die Entwicklung von Proteinen mit Fähigkeiten, die natürliche Proteine ​​nicht haben, ist eine immer wiederkehrende große Herausforderung in den Biowissenschaften“, sagte Klivans. „Zufällig ist dies auch die Art von Aufgabe, für die generative KI-Modelle gemacht sind, da sie große Datenbanken bekannter Biochemie synthetisieren und dann neue Designs generieren können.“

Anders als AlphaFold von Google DeepMind, das mithilfe künstlicher Intelligenz die Form und Struktur von Proteinen auf Grundlage der jeweiligen Aminosäuresequenz vorhersagt, schlagen die KI-Systeme der Deep Proteins-Gruppe vor, wie Proteine ​​am besten verändert werden können, um bestimmte Funktionen zu erreichen. So könnte etwa die Entwicklung eines Proteins für neue Biotechnologien vereinfacht werden.

McLellans Labor synthetisiert bereits verschiedene Versionen viraler Proteine ​​auf der Grundlage von KI-generierten Designs und testet anschließend ihre Stabilität und andere Eigenschaften.

„Die Modelle haben Substitutionen vorgeschlagen, an die wir nie gedacht hätten“, sagte McLellan. „Sie funktionieren, aber es sind Dinge, die wir nicht vorhergesagt hätten. Sie finden also tatsächlich neuen Raum zur Stabilisierung.“

Proteintherapeutika haben oft weniger Nebenwirkungen und können sicherer und wirksamer sein als die Alternativen. Die heute auf 400 Milliarden Dollar geschätzte globale Industrie ist bereit zu wachsen. mehr als 50 % im nächsten Jahrzehnt. Dennoch ist die Entwicklung eines proteinbasierten Medikaments langsam, teuer und riskant.

Für den mehr als zehn Jahre dauernden Prozess von der Entwicklung eines Medikaments bis zum Abschluss klinischer Tests sind schätzungsweise eine Milliarde Dollar oder mehr nötig; und selbst dann liegen die Chancen, für das neue Medikament eines Unternehmens die Zulassung der amerikanischen Gesundheitsbehörde FDA zu erhalten, nur bei etwa 1 zu 10.

Hinzu kommt, dass Proteine, um für die Therapie nützlich zu sein, häufig gentechnisch verändert werden müssen, um zum Beispiel ihre Stabilität zu gewährleisten oder eine für die Arzneimittelentwicklung erforderliche Ausbeute zu erzielen. Bislang wurden derartige gentechnische Entscheidungen im Labor durch mühseliges Ausprobieren diktiert.

Wenn EvoRank – und auch das zugehörige, von UT entwickelte Framework Stability Oracle, auf dem es aufbaut – kommerziell adaptiert werden, hätte die Industrie die Möglichkeit, Zeit und Kosten bei der Arzneimittelentwicklung zu sparen, und sie hätte einen Fahrplan, um schneller zu besseren Designs zu gelangen.

Die Forscher, die EvoRank entwickelten, verwendeten vorhandene Datenbanken mit natürlich vorkommenden Proteinsequenzen. Sie stellten im Wesentlichen verschiedene Versionen desselben Proteins, die in unterschiedlichen Organismen vorkommen – von Seesternen über Eichen bis hin zum Menschen – in einer Reihe dar und verglichen sie.

An jeder beliebigen Position im Protein kann sich eine von mehreren verschiedenen Aminosäuren befinden, die sich im Laufe der Evolution als nützlich erwiesen haben. Die Natur wählt beispielsweise in 36 % der Fälle die Aminosäure Tyrosin, in 29 % der Fälle Histidin, in 14 % der Fälle Lysin – und, was noch wichtiger ist, niemals Leucin.

Die Nutzung dieser Goldmine an vorhandenen Daten enthüllt eine grundlegende Logik der Proteinevolution. Forscher können Optionen ausschalten, die der Evolution zufolge zum Absterben der Funktionalität des Proteins führen würden.

All dies nutzt das Team, um den neuen Algorithmus für maschinelles Lernen zu trainieren. Durch kontinuierliches Feedback lernt das Modell, für welche Aminosäure sich die Natur in der Vergangenheit bei der Evolution von Proteinen entschieden hat, und es basiert sein Verständnis darauf, was in der Natur plausibel ist und was nicht.

Als nächstes plant Diaz die Entwicklung einer „mehrspaltigen“ Version von EvoRank, mit der sich beurteilen lässt, wie sich mehrere Mutationen gleichzeitig auf die Struktur und Stabilität eines Proteins auswirken. Außerdem möchte er neue Werkzeuge entwickeln, mit denen sich vorhersagen lässt, wie die Struktur eines Proteins mit seiner Funktion zusammenhängt.

Weitere Informationen:
Daniel J. Diaz et al, Stability Oracle: ein strukturbasiertes Graph-Transformer-Framework zur Identifizierung stabilisierender Mutationen, Naturkommunikation (2024). DOI: 10.1038/s41467-024-49780-2

Zur Verfügung gestellt von der University of Texas at Austin

ph-tech