Supercomputing im Zeitalter der künstlichen Intelligenz soll die Vorhersage von Proteinstrukturen beschleunigen

Für Forscher kann die Nutzung von Hochleistungscomputern ein wenig einschüchternd sein. Das Verständnis der besten zu verwendenden Schnittstelle, der Skalierbarkeit von Software und der Arbeit mit riesigen Datensätzen erfordert eigenes Fachwissen.

Glücklicherweise leistet NCSA mehr als nur die Bereitstellung und den Betrieb dieser leistungsstarken Systeme. Das Zentrum beherbergt die Unterstützung wissenschaftlicher und technischer Anwendungen (SEAS)-Team, das Forschern hilft, die am NCSA verfügbaren Hardware- und Softwareressourcen effizient zu nutzen.

Durch die Zusammenarbeit mit SEAS können Forscher Hilfe bei der Installation von Python-Paketen erhalten, lernen, die besten parallelen Rechenmaschinen für ihr Projekt auszuwählen oder – dank bahnbrechender Arbeit veröffentlicht im Journal PNAS– lernen Sie, Modelle der künstlichen Intelligenz erfolgreich einzusetzen. Der Titel des Artikels lautet „APACE: AlphaFold2 und Advanced Computing als Service für beschleunigte Entdeckungen in der Biophysik.“

Der PNAS Das Forschungspapier von Roland Haas, einem leitenden Forschungsprogrammierer in der SEAS-Gruppe, Eliu Huerta, Leiter für translationale KI am Argonne National Laboratory des US-Energieministeriums (DOE) und leitender CASE-Wissenschaftler an der Universität von Chicago, Hyun Park, damals Doktorand in Biophysik in Illinois, und Parth Patel, wissenschaftlicher Mitarbeiter am NCSA, beschreibt ein neuartiges rechnerisches Framework, das den Prozess der Verwendung von KI-Tools und -Algorithmen zum Verständnis der dreidimensionalen Proteinstruktur vereinfacht und beschleunigt.

Das Framework sagt auch die Konformationsvielfalt von Proteinen voraus, eine wichtige Eigenschaft, da Proteine ​​formbare Strukturen sind, die zwischen verschiedenen Konformationen wechseln können, um ihre Aufgabe zu erfüllen.

Das Team entwickelte APACE, ein Computertool, das AlphaFold2, ein KI-Programm zur Vorhersage von Proteinstrukturen auf Hochleistungsrechnern, effektiv handhabt. Sie setzten APACE auf dem Delta Supercomputer am NCSA, um zu messen, wie gut er die Strukturen von vier exemplarischen Proteinen vorhersagte.

Durch die Verwendung von bis zu 300 Ensembles, die auf 300 NVIDIA A100 GPUs verteilt sind, stellten sie fest, dass APACE bis zu zwei Größenordnungen schneller ist als handelsübliche AlphaFold2-Implementierungen.

Darüber hinaus könnte derselbe Ansatz in einer Vielzahl wissenschaftlicher Disziplinen eingesetzt und mit Roboterlaboren verknüpft werden, um wissenschaftliche Entdeckungen zu automatisieren und zu beschleunigen. Das Team reproduzierte die Arbeit später auf dem Polaris Supercomputer in der Argonne Leadership Computing Facility, einer Benutzereinrichtung des DOE Office of Science.

„Grundlegende KI-Modelle haben das Potenzial, die wissenschaftliche Praxis zu verändern, wenn sie für die breitere wissenschaftliche Gemeinschaft auffindbar, zugänglich und einsatzbereit sind“, sagte Huerta. „Dieses Projekt zeigt, wie man die erforderliche wissenschaftliche Dateninfrastruktur erstellt und teilt, um hochmoderne KI wirklich zu demokratisieren und moderne Computerumgebungen zu nutzen, um ihre wissenschaftliche Reichweite zu maximieren.“

Biomedizinische Forscher untersuchen Proteine, um eine breite Palette biologischer Funktionen zu verstehen. Proteine ​​sind Aminosäureketten und ihre Anordnung in 3D-Strukturen bestimmt biologische Funktionen.

Das Verständnis der Proteinbildung – ein Vorgang, der oft als Proteinfaltung bezeichnet wird und bei dem sich Aminosäuren zu strukturierten Ketten zusammenfügen, die bestimmte Funktionen erfüllen können – ist von entscheidender Bedeutung für das Verständnis normaler biologischer Funktionen sowie dafür, wie Faltungsfehler zu schweren Erkrankungen führen können.

Die Vorhersage der Proteinfaltung erfordert einen extrem hohen Rechenaufwand, da ein typisches Protein aus Hunderten von Aminosäuren und Tausenden von Zellen bestehen kann, die sich auf unterschiedliche Weise kombinieren können.

Die üblichen Methoden zur Untersuchung der Proteinstruktur sind die Röntgenkristallografie, ein Verfahren zur Bestimmung der atomaren und molekularen Struktur eines Kristalls, und die Kryo-EM, bei der Moleküle in flüssigem Stickstoff schockgefroren und mit Elektronen bombardiert werden, um ihre Bilder mit einer Spezialkamera aufzunehmen.

AlphaFold und AlphaFold2 haben gezeigt, dass KI-Software die Proteinstruktur anhand von Aminosäuresequenzen genau und schnell vorhersagen kann, und die Entwicklung von APACE baut auf diesem Durchbruch auf.

APACE optimiert AlphaFold2 für die Ausführung im großen Maßstab auf Hochleistungsrechnerplattformen und verwaltet seine mehrere Terabyte große Proteindatenbank effizient. Die Arbeit zeigt, dass große KI-Modelle mit der Leistung von Hochleistungsrechnern kombiniert werden können, um es Wissenschaftlern zu ermöglichen, Multiproteinkomplexe zu untersuchen und Ergebnisse schnell, präzise und in höherer Auflösung zu erhalten – alles Faktoren, die zu einem umfassenderen Verständnis der Proteinstruktur führen und die Entwicklung neuer Medikamente zur Behandlung vieler Krankheiten ankurbeln könnten.

„Die Forschung an neuen Medikamenten ist extrem zeitaufwändig und wird durch die Notwendigkeit erschwert, verschiedene Wirkstoffkandidaten zu synthetisieren und ihre medizinische Wirksamkeit im Labor zu testen“, sagt Haas.

APACE ermöglicht es Arzneimittelforschern, die Zeit, die sie für die Auswahl potenzieller Kandidatenverbindungen benötigen, drastisch zu verkürzen und sich so auf die vielversprechendsten Substanzen zu konzentrieren. Auf diese Weise können mehr Verbindungen getestet und die Zeit für die Entwicklung eines neuen Arzneimittels, beispielsweise eines auf einen bestimmten Virenstamm zugeschnittenen Arzneimittels, verkürzt werden.

Ein Hauptmerkmal von APACE ist ein besseres Datenmanagement, das dadurch erreicht wird, dass das Multi-Terabyte-Modell und die Datenbank von AlphaFold2 auf dem Supercomputer gehostet werden, von dem aus die neuronalen Netzwerke des Frameworks problemlos auf die Daten zugreifen können. Weitere Verbesserungen umfassen CPU- und GPU-Optimierung zur Parallelisierung GPU-intensiver Schritte zur Proteinstrukturvorhersage neuronaler Netzwerke.

„Das erste Problem bei der Verwendung eines KI-Modells ist die Speicherung der Daten“, sagte Park, der wie Patel ein Praktikum bei Argonne absolvierte, als die Arbeit an APACE abgeschlossen wurde.

„Wir müssen 2,6 Terabyte (die Größe der AlphaFold2-Datenbank) sowie die Berechnung von der Sequenz zur Strukturvorhersage bewältigen. Einige Universitätslabore sind vielleicht dazu in der Lage, aber wichtig ist, dass man es hochskaliert, damit Wissenschaftler auf der ganzen Welt es nutzen können.“

Patel fügte hinzu: „Deshalb ist die Nutzung von HPC wichtig, insbesondere für KI-Modelle. Jeder, der Zugang zu einem HPC-System erhält, hat sowohl Zugriff auf die Daten als auch auf die Rechenkapazität, um die eigentliche KI-Modellberechnung durchzuführen. Ganz zu schweigen davon, dass die Geschwindigkeit enorm zunimmt.“

Huerta sagte, das Team habe sich für die Arbeit mit AlphaFold2 entschieden, weil es in verschiedenen Forschungsbereichen umfassend eingesetzt werde, unter anderem in der Biophysik, Chemie sowie bei der Entwicklung und Entdeckung von Medikamenten.

„APACE bietet alle Funktionen des ursprünglichen AlphaFold2-Modells und ermöglicht es Forschern, Supercomputer zu nutzen, um die Zeit bis zur Lösungsfindung zu verkürzen und dieses Tool mit selbstfahrenden Laboren zu verbinden, um Entdeckungen zu automatisieren und zu beschleunigen“, sagte er.

Huerta sagte, das Team werde weiterhin eine Community von APACE-Benutzern aufbauen, um die Nutzbarkeit von KI-Modellen mit HPC-Plattformen zu maximieren. Haas sagte, das Team konzentriere sich nun darauf, die verbleibenden Engpässe im System anzugehen, um die Geschwindigkeit weiter zu verbessern. Er möchte APACE auch auf mehr Computerclustern verfügbar machen, damit mehr Wissenschaftler davon profitieren können.

„Wir möchten auch die Verwendung der Methoden, die wir entwickelt haben, um Alphafold2 mit anderen grundlegenden Modellen des maschinellen Lernens zu beschleunigen, untersuchen, die zu komplex sind, um sie auf herkömmlichen Desktop-Arbeitsplätzen problemlos zu verwenden“, sagte Haas. „Es geht darum, die besten verfügbaren Tools so benutzerfreundlich wie möglich zu gestalten.“

Mehr Informationen:
Hyun Park et al, APACE: AlphaFold2 und Advanced Computing als Service für beschleunigte Entdeckungen in der Biophysik, Verfahren der Nationalen Akademie der Wissenschaften (2024). DOI: 10.1073/pnas.2311888121

Zur Verfügung gestellt vom National Center for Supercomputing Applications

ph-tech