Supercomputer helfen beim Trainieren eines Softwaretools für die Proteinmodellierungs-Community

Die Form folgt der Funktion, und das gilt insbesondere für die Bausteine ​​des Lebens – die Proteine. Die Faltung und Form molekularer Proteine ​​verraten ihre Funktion bei der Erhaltung des Lebens.

Ein neues Open-Source-Softwaretool namens ÖffnenFalten wurde von Wissenschaftlern entwickelt, die künstliche Intelligenz (KI) verwenden und die Leistung von Supercomputern nutzen, um Proteinstrukturen vorherzusagen.

Die Forschung könnte dazu beitragen, neue Medikamente zu entwickeln und deformierte Proteine ​​besser zu verstehen, beispielsweise solche, die mit neurodegenerativen Erkrankungen wie Parkinson und Alzheimer in Verbindung stehen.

OpenFold baut auf dem Erfolg von AlphaFold2 auf, das von Google DeepMind entwickelt wurde und seit 2021 von über zwei Millionen Forschern für Proteinvorhersagen bei der Impfstoffentwicklung, Krebsbehandlungen und mehr verwendet wird.

„AlphaFold2 war ein Durchbruch für die Wissenschaft“, sagte Nazim Bouatta, ein Senior Research Fellow an der Harvard Medical School, der an der Schnittstelle zwischen KI und Biologie arbeitet. „Wir haben eine vollständig Open-Source-Version – OpenFold – entwickelt, die nun der Wissenschaft und der Industrie hilft, das Feld voranzubringen.“

Bouatta ist Mitautor eines Studie im Journal Naturmethoden Ankündigung von OpenFold, einer schnellen, speichereffizienten und trainierbaren Implementierung von AlphaFold2.

Er startete das Projekt mit seinem Kollegen Mohammed AlQuraishi, der früher in Harvard, heute aber an der Columbia University arbeitet. Aus dem Projekt entwickelte sich das OpenFold Consortium, ein Konsortium aus Startup-Unternehmen, die mit der Wissenschaft zusammenarbeiten.

„Auch äußerst talentierte Studenten aus Harvard und Columbia haben zu der Arbeit beigetragen, wobei Gustaf Ahdritz bemerkenswerte Arbeit geleistet hat. Sie alle haben bei der Implementierung des Codes großartige Arbeit geleistet“, sagte Bouatta.

Ein zentraler Aspekt der KI sind die großen Sprachmodelle (LLMs), die riesige Textmengen verarbeiten und daraus neue, aussagekräftige Texte generieren. Ein Beispiel hierfür ist die menschenähnliche Fähigkeit von ChatGPT, Anfragen auf der Grundlage umfangreicher Textdatenmengen zu beantworten.

„Wir brauchen etwa 100 Grafikprozessoren (GPUs), um ein System wie OpenFold zu trainieren. Um das Ganze ins rechte Licht zu rücken: Um das neueste ChatGPT zu trainieren, braucht man Tausende und Abertausende von GPUs“, sagte Bouatta.

Eine der allerersten Anwendungen von OpenFold kam von Meta AI, ehemals Facebook. Meta AI veröffentlichte kürzlich einen Atlas mit mehr als 600 Millionen Proteinen von Bakterien, Viren und anderen Mikroorganismen, die noch nicht charakterisiert waren.

„Sie verwendeten OpenFold, um ein ‚Proteinsprachenmodell‘ zu integrieren, das ChatGPT sehr ähnlich ist, bei dem die Sprache jedoch aus den Aminosäuren besteht, aus denen Proteine ​​bestehen“, sagte Bouatta.

„In gewisser Weise sind die Informationen in lebenden Organismen in einer Sprache organisiert“, erklärte Bouatta und verwies dabei auf das Beispiel der Buchstaben ACGT, die die vier Basen der DNA darstellen – Adenin, Cytosin, Guanin und Thymin. „Dies ist die Sprache, die die Natur gewählt hat, um diese hochentwickelten lebenden Organismen zu erschaffen.“

Darüber hinaus gibt es eine zweite Sprachebene für Proteine: die Buchstaben, die die 20 Aminosäuren darstellen, aus denen alle Proteine ​​im menschlichen Körper bestehen, und die charakterisieren, welche Funktion das Protein hat.

Durch die Genomsequenzierung wurden umfangreiche Datenmengen zu den Buchstaben des Lebens erstellt, doch bislang fehlte ein „Wörterbuch“, das aus diesen Buchstaben die dreidimensionale Form eines Proteins berechnen und die Stellen modellieren kann, an die kleine Moleküle gebunden werden können.

„Maschinelles Lernen ermöglicht es uns, eine Buchstabenfolge und die Aminosäuren, die jede erdenkliche Art von Protein beschreiben, zu nehmen, einen ausgeklügelten Algorithmus auszuführen und eine exquisite dreidimensionale Struktur zurückzugeben, die dem nahe kommt, was wir bei Experimenten erhalten. Der OpenFold-Algorithmus ist sehr ausgefeilt und verwendet neue Entwicklungen, die wir von ChatGPT und anderen kennen“, sagte Bouatta und bezog sich dabei auf die von Google Transformers entwickelten Konzepte und Elemente des Hauptalgorithmus von ChatGPT.

Ein wesentlicher Vorteil von OpenFold liegt in der Möglichkeit, das Modell mit den eigenen Daten des Wissenschaftlers zu trainieren, was mit der öffentlich verfügbaren Version von AlphaFold2 nicht möglich ist. „Die Möglichkeit, ein System mit OpenFold zu trainieren, eröffnet große Möglichkeiten für die Forschung sowohl in der Wissenschaft als auch in der Industrie“, sagte Bouatta.

Bouatta rechnet damit, in den kommenden Monaten eine OpenFold-Modalität herauszubringen, mit der sich ein Protein-Liganden-Komplex charakterisieren lässt, also die komplizierte Ausrichtung kleiner Moleküle, die an ein Protein binden.

„Auf diese Weise entfalten Arzneimittel ihre Wirkung. Dies zu verstehen ist besonders wichtig“, erklärte er.

TACC hat dem OpenFold-Team Zuteilungen für die Supercomputer Frontera und Lonestar6 zugeteilt, insbesondere für die GPU-Knoten, die für die Entwicklung von KI-Anwendungen weltweit von entscheidender Bedeutung sind.

„TACC war ein äußerst guter Kooperationspartner“, sagte Bouatta. „Ich möchte TACC dafür danken, dass es uns den Zugriff auf diese Ressourcen ermöglicht hat, sodass wir maschinelles Lernen und KI in dem von uns benötigten Umfang einsetzen konnten.“

„Supercomputer in Kombination mit KI verändern unsere Herangehensweise an die Biologie radikal. Die Stärke eines Supercomputers besteht darin, dass er es uns ermöglicht, 100 Millionen Strukturen in nur wenigen Monaten vorherzusagen. Sobald das System trainiert ist, können wir Strukturen in Sekundenschnelle erhalten. Sie werden Experimente jedoch nicht ersetzen, da wir ins Labor zurückkehren müssen, um unsere Ideen zu testen.“

Die Integration von KI-Systemen wie OpenFold mit traditionelleren, physikbasierten Systemen hilft Wissenschaftlern, das Leben auf der grundlegendsten Ebene zu verstehen und eröffnet neue Wege zur Behandlung neurodegenerativer Erkrankungen.

„Supercomputer sind das Mikroskop der modernen Ära für Biologie und Arzneimittelforschung“, so Bouatta abschließend. „Wenn wir weiterhin mehr Ressourcen in die Nutzung des KI-/Computeransatzes mit Supercomputern stecken, können wir unsere Fähigkeiten, das Leben zu verstehen und Krankheiten zu heilen, steigern.“

Weitere Informationen:
Gustaf Ahdritz et al, OpenFold: Das erneute Training von AlphaFold2 liefert neue Erkenntnisse über seine Lernmechanismen und seine Generalisierungsfähigkeit, Naturmethoden (2024). DOI: 10.1038/s41592-024-02272-z

Zur Verfügung gestellt von der University of Texas at Austin

ph-tech