Neues Rechenmodell kann Antikörperstrukturen genauer vorhersagen

Durch die Anpassung von Modellen der künstlichen Intelligenz, die als große Sprachmodelle bekannt sind, haben Forscher große Fortschritte bei ihrer Fähigkeit gemacht, die Struktur eines Proteins anhand seiner Sequenz vorherzusagen. Allerdings war dieser Ansatz bei Antikörpern nicht so erfolgreich, was zum Teil auf die Hypervariabilität zurückzuführen ist, die bei diesem Proteintyp beobachtet wird.

Um diese Einschränkung zu überwinden, haben MIT-Forscher eine Rechentechnik entwickelt, die es großen Sprachmodellen ermöglicht, Antikörperstrukturen genauer vorherzusagen. Ihre Arbeit könnte es Forschern ermöglichen, Millionen möglicher Antikörper zu sichten, um diejenigen zu identifizieren, die zur Behandlung von SARS-CoV-2 und anderen Infektionskrankheiten eingesetzt werden könnten.

Die Ergebnisse sind veröffentlicht im Tagebuch Verfahren der Nationalen Akademie der Wissenschaften.

„Unsere Methode ermöglicht es uns, im Gegensatz zu anderen nicht zu skalieren, bis zu dem Punkt, an dem wir tatsächlich ein paar Nadeln im Heuhaufen finden können“, sagt Bonnie Berger, Simons-Professorin für Mathematik und Leiterin der Computer- und Biologiegruppe am MIT Science and Artificial Intelligence Laboratory (CSAIL) und einer der leitenden Autoren der neuen Studie. „Wenn wir dazu beitragen könnten, Pharmaunternehmen davon abzuhalten, mit dem Falschen in klinische Studien zu gehen, würde das wirklich viel Geld sparen.“

Die Technik, die sich auf die Modellierung der hypervariablen Regionen von Antikörpern konzentriert, birgt auch Potenzial für die Analyse ganzer Antikörperrepertoires einzelner Personen. Dies könnte nützlich sein, um die Immunantwort von Menschen zu untersuchen, die besonders stark auf Krankheiten wie HIV reagieren, um herauszufinden, warum ihre Antikörper das Virus so effektiv abwehren.

Bryan Bryson, außerordentlicher Professor für Biotechnik am MIT und Mitglied des Ragon Institute of MGH, MIT und Harvard, ist ebenfalls leitender Autor des Artikels. Rohit Singh, ein ehemaliger CSAIL-Forschungswissenschaftler, der jetzt Assistenzprofessor für Biostatistik, Bioinformatik und Zellbiologie an der Duke University ist, und der frischgebackene Absolvent Chiho Im sind die Hauptautoren des Papiers. An der Forschung waren auch Forscher von Sanofi und der ETH Zürich beteiligt.

Modellierung der Hypervariabilität

Proteine ​​bestehen aus langen Ketten von Aminosäuren, die sich zu einer enormen Anzahl möglicher Strukturen falten können. In den letzten Jahren ist die Vorhersage dieser Strukturen mithilfe von Programmen der künstlichen Intelligenz wie AlphaFold viel einfacher geworden.

Viele dieser Programme, wie etwa ESMFold und OmegaFold, basieren auf großen Sprachmodellen, die ursprünglich zur Analyse großer Textmengen entwickelt wurden, um zu lernen, das nächste Wort in einer Sequenz vorherzusagen. Derselbe Ansatz kann für Proteinsequenzen funktionieren – indem man lernt, welche Proteinstrukturen am wahrscheinlichsten aus unterschiedlichen Aminosäuremustern gebildet werden.

Diese Technik funktioniert jedoch nicht immer bei Antikörpern, insbesondere bei einem Abschnitt des Antikörpers, der als hypervariable Region bekannt ist. Antikörper haben normalerweise eine Y-förmige Struktur und diese hypervariablen Regionen befinden sich an den Spitzen des Y, wo sie fremde Proteine, auch Antigene genannt, erkennen und daran binden. Der untere Teil des Y bietet strukturelle Unterstützung und hilft Antikörpern, mit Immunzellen zu interagieren.

Hypervariable Regionen variieren in der Länge, enthalten jedoch normalerweise weniger als 40 Aminosäuren. Schätzungen zufolge kann das menschliche Immunsystem durch Veränderung der Sequenz dieser Aminosäuren bis zu einer Trillion verschiedener Antikörper produzieren und so sicherstellen, dass der Körper auf eine große Vielfalt potenzieller Antigene reagieren kann. Diese Sequenzen unterliegen nicht den gleichen evolutionären Einschränkungen wie andere Proteinsequenzen, daher ist es für große Sprachmodelle schwierig zu lernen, ihre Strukturen genau vorherzusagen.

„Ein Grund dafür, dass Sprachmodelle die Proteinstruktur gut vorhersagen können, liegt unter anderem darin, dass die Evolution diese Sequenzen auf eine Weise einschränkt, die es dem Modell ermöglicht, zu entschlüsseln, was diese Einschränkungen bedeutet hätten“, sagt Singh. „Es ähnelt dem Erlernen der Grammatikregeln, indem man sich den Kontext von Wörtern in einem Satz ansieht und so herausfindet, was sie bedeuten.“

Um diese hypervariablen Regionen zu modellieren, erstellten die Forscher zwei Module, die auf vorhandenen Proteinsprachmodellen aufbauen. Eines dieser Module wurde auf hypervariablen Sequenzen von etwa 3.000 Antikörperstrukturen trainiert, die in der Proteindatenbank (PDB) gefunden wurden, wodurch es lernen konnte, welche Sequenzen dazu neigen, ähnliche Strukturen zu erzeugen. Das andere Modul wurde anhand von Daten trainiert, die etwa 3.700 Antikörpersequenzen damit korrelieren, wie stark sie drei verschiedene Antigene binden.

Das resultierende Rechenmodell, bekannt als AbMap, kann Antikörperstrukturen und Bindungsstärken basierend auf ihren Aminosäuresequenzen vorhersagen. Um die Nützlichkeit dieses Modells zu demonstrieren, haben die Forscher damit Antikörperstrukturen vorhergesagt, die das Spike-Protein des SARS-CoV-2-Virus stark neutralisieren würden.

Die Forscher begannen mit einer Reihe von Antikörpern, von denen vorhergesagt wurde, dass sie an dieses Ziel binden, und erzeugten dann Millionen von Varianten, indem sie die hypervariablen Regionen veränderten. Ihr Modell war in der Lage, die Antikörperstrukturen zu identifizieren, die am erfolgreichsten wären, und zwar viel genauer als herkömmliche Proteinstrukturmodelle, die auf großen Sprachmodellen basieren.

Anschließend unternahmen die Forscher den zusätzlichen Schritt, die Antikörper in Gruppen mit ähnlicher Struktur zu gruppieren. Sie wählten Antikörper aus jedem dieser Cluster aus, um sie experimentell zu testen, und arbeiteten dabei mit Forschern von Sanofi zusammen. Diese Experimente ergaben, dass 82 % dieser Antikörper eine bessere Bindungsstärke aufwiesen als die ursprünglichen Antikörper, die in das Modell einflossen.

Die Identifizierung einer Vielzahl guter Kandidaten zu Beginn des Entwicklungsprozesses könnte Pharmaunternehmen dabei helfen, nicht viel Geld für die Prüfung von Kandidaten auszugeben, die später scheitern, sagen die Forscher.

„Sie wollen nicht alles auf eine Karte setzen“, sagt Singh. „Sie wollen nicht sagen, ich werde diesen einen Antikörper nehmen und ihn durch präklinische Studien führen, und dann stellt sich heraus, dass er toxisch ist. Sie hätten lieber eine Reihe guter Möglichkeiten und würden sie alle durchziehen.“ damit sie einige Möglichkeiten haben, falls etwas schief geht.

Vergleich von Antikörpern

Mit dieser Technik könnten Forscher auch versuchen, einige seit langem bestehende Fragen zu beantworten, warum verschiedene Menschen unterschiedlich auf eine Infektion reagieren. Warum entwickeln manche Menschen beispielsweise viel schwerere Formen von COVID und warum infizieren sich manche Menschen, die HIV ausgesetzt sind, nie?

Wissenschaftler haben versucht, diese Fragen zu beantworten, indem sie eine Einzelzell-RNA-Sequenzierung von Immunzellen von Individuen durchführten und diese verglichen – ein Prozess, der als Antikörper-Repertoire-Analyse bekannt ist. Frühere Arbeiten haben gezeigt, dass sich die Antikörperrepertoires zweier verschiedener Personen möglicherweise nur um 10 % überschneiden. Allerdings liefert die Sequenzierung kein so umfassendes Bild der Antikörperleistung wie strukturelle Informationen, da zwei Antikörper mit unterschiedlichen Sequenzen möglicherweise ähnliche Strukturen und Funktionen haben.

Das neue Modell kann zur Lösung dieses Problems beitragen, indem es schnell Strukturen für alle in einem Individuum gefundenen Antikörper generiert. In dieser Studie zeigten die Forscher, dass es bei Berücksichtigung der Struktur viel mehr Überschneidungen zwischen Individuen gibt als die 10 %, die bei Sequenzvergleichen beobachtet werden. Sie planen nun, weiter zu untersuchen, wie diese Strukturen zur allgemeinen Immunantwort des Körpers gegen einen bestimmten Krankheitserreger beitragen können.

„Hier passt ein Sprachmodell sehr gut hinein, weil es die Skalierbarkeit einer sequenzbasierten Analyse aufweist, aber an die Genauigkeit einer strukturbasierten Analyse herankommt“, sagt Singh.

Weitere Informationen:
Rohit Singh et al., Die Sprache der Antikörper-Hypervariabilität lernen, Verfahren der Nationalen Akademie der Wissenschaften (2024). DOI: 10.1073/pnas.2418918121

Bereitgestellt vom Massachusetts Institute of Technology

Diese Geschichte wurde mit freundlicher Genehmigung von MIT News erneut veröffentlicht (web.mit.edu/newsoffice/), eine beliebte Website mit Neuigkeiten über MIT-Forschung, Innovation und Lehre.

ph-tech