In einer neuen Studie zeigen Forscher von IBM, der Universität Oxford und Diamond Light Source, dass das KI-Modell von IBM, MoLFormer, antivirale Moleküle für mehrere Zielvirusproteine, einschließlich SARS-CoV-2, erzeugen kann, die den Prozess der Arzneimittelentdeckung beschleunigen und unsere Entwicklung unterstützen können Reaktion auf zukünftige Pandemien.
Die Ergebnisse werden in einem neuen Papier dargelegt, das in veröffentlicht wurde Wissenschaftliche Fortschritte, und zum Zeitpunkt der Einreichung des Papiers waren die antiviralen Eigenschaften von elf Molekülen von Oxford-Forschern erfolgreich validiert worden. Dieser Durchbruch hat das Potenzial, Medikamente in der nächsten Krise schneller an die Menschen zu bringen und Behandlungen für dringende, lebensbedrohliche Krankheiten in greifbare Nähe zu rücken.
Zu Beginn der Pandemie wollte eine Gruppe von Informatikern bei IBM untersuchen, ob generative KI genutzt werden könnte, um noch nie dagewesene Moleküle zu entwickeln, die SARS-CoV-2, das Virus, das COVID-19 verursacht, blockieren. David Stuart, Leiter der Abteilung für Strukturbiologie in der Abteilung für klinische Medizin der Universität Oxford und Direktor für Biowissenschaften bei Diamond Light Source, dem nationalen Synchrotron des Vereinigten Königreichs, der neben anderen Viren auch auf die Erreger HIV, SARS und Ebola spezialisiert ist erklärt, er sei zunächst skeptisch gewesen. „Die Idee, dass man eine Proteinsequenz nehmen und mit KI Chemikalien aus der Luft herausholen könnte, die sich an eine 3D-Stelle des Virus binden würden, schien sehr unwahrscheinlich“, sagte er.
Er und Martin Walsh, ebenfalls ein erfahrener Strukturbiologe und stellvertretender Direktor für Biowissenschaften bei Diamond, schlossen sich jedoch dem IBM-Team an und demonstrierten im Laufe von drei Jahren, dass generative KI „lebensfähige Ausgangspunkte für antivirale Medikamente aus dem Nichts herauspicken“ kann. “ in Zusammenarbeit mit Enamine Ltd., einem Chemielieferanten in der Ukraine, und anderen Forschern in Oxford.
Da es sich bei dem generativen Modell auch um ein Basismodell handelte, das auf riesigen Mengen an Rohdaten vorab trainiert wurde, war es vielseitig genug, um neue Inhibitoren für mehrere Proteinziele ohne zusätzliches Training oder Kenntnisse seiner 3D-Struktur zu entwickeln.
Die Gruppen von Stuart und Walsh hatten mit der Arbeit an zwei essentiellen SARS-CoV-2-Proteinen begonnen, nämlich dem Spike-Protein und der Hauptprotease. Anhand dieser Ziele gelang es dem Team, in einem Bruchteil der Zeit, die es mit herkömmlichen Methoden benötigt hätte, vier potenzielle antivirale Mittel gegen COVID-19 zu finden. Die Arbeit nutzte dann Diamonds Hochdurchsatz-Strahllinien für die makromolekulare Kristallographie, um zu visualisieren, wie eine Teilmenge der KI Verbindungen erzeugte, die an die Hauptprotease gebunden waren.
Ihre Arbeit wird in ihrem neuen Artikel vorgestellt Wissenschaftliche Fortschritte und IBM hat eine veröffentlicht webbasierte Schnittstelle für die Interaktion mit Modellen und chemischen Grundmodellen wie in IBM Cloud.
Das Team erklärte, dass die validierten Moleküle noch viele weitere Hürden überwinden müssen, einschließlich klinischer Studien, bevor Unternehmen sie möglicherweise in Medikamente umwandeln könnten. Aber selbst wenn die von der KI generierten „Hits“ nie zu tatsächlichen Medikamenten führen, liefert die Arbeit eine Bestätigung dafür, dass generative KI eine wichtige Rolle in der Zukunft der Medikamentenentwicklung spielen wird, insbesondere in Krisenzeiten.
„Es hat einige Zeit gedauert, diese Methoden zu entwickeln und zu validieren, aber jetzt, da wir über eine funktionierende Pipeline verfügen, können wir viel schneller Ergebnisse erzielen“, sagte Payel Das, Co-Senior-Autor der Studie, ein Forscher bei IBM Research. „Wenn das nächste Virus auftaucht, könnte generative KI eine entscheidende Rolle bei der Suche nach neuen Behandlungsmethoden spielen.“
„Die Generierung erster Verbindungen, die mit hoher Affinität an ein interessierendes Wirkstoffziel binden, beschleunigt die strukturbasierte Wirkstoffentwicklungspipeline und untermauert unsere Bemühungen, besser auf zukünftige Pandemien vorbereitet zu sein“, sagte Martin Walsh, Co-Senior-Autor bei Diamond
Die Forscher bauten ihr Modell, Controlled Generation of Molecules (oder CogMol), auf einer generativen KI-Architektur auf, die als Variational Autoencoder oder VAEs bekannt ist. VAEs kodieren Rohdaten in eine komprimierte Darstellung und dekodieren oder übersetzen sie dann zurück in eine statistische Variation der Originalprobe. Ihr Modell wurde anhand eines großen Datensatzes von Molekülen trainiert, die als Textketten dargestellt wurden, zusammen mit allgemeinen Informationen über Proteine und ihre Bindungseigenschaften. Aber sie haben absichtlich Informationen über die 3D-Struktur von SARS-CoV-2 oder Moleküle, von denen bekannt ist, dass sie daran binden, weggelassen. Ihr Ziel war es, ihrem generativen Grundlagenmodell eine breite Wissensbasis zu geben, damit es einfacher für noch nie dagewesene molekulare Designaufgaben eingesetzt werden kann.
Ihr Ziel war es, arzneimittelähnliche Moleküle zu finden, die an zwei COVID-Proteinziele binden: den Spike, der das Virus auf die Wirtszelle überträgt, und die Hauptprotease, die bei seiner Verbreitung hilft. Obwohl die 3D-Strukturen beider Proteine zu diesem Zeitpunkt bereits entdeckt worden waren, entschieden sich die IBM-Forscher dafür, nur ihre aus ihrer DNA abgeleiteten Aminosäuresequenzen zu verwenden. Indem sie sich auf diese Weise beschränkten, hofften sie, dass das Modell lernen könnte, Moleküle zu erzeugen, ohne die Form ihres Ziels zu kennen.
Die Forscher gaben nur die Aminosäuresequenz für jedes Proteinziel in CogMol ein, wodurch in drei Tagen 875.000 Kandidatenmoleküle generiert wurden. Um den Pool einzugrenzen, führten die Forscher die Kandidaten durch eine Retrosyntheseplattform, IBM RXN for Chemistry, um zu verstehen, welche Zutaten für die Synthese der Verbindungen benötigt würden. Basierend auf den vorhergesagten Rezepten der Plattform wählten sie 100 Moleküle für jedes Ziel aus. Die Chemiker von Enamine reduzierten die Liste weiter auf vier Moleküle für jedes Ziel und wählten diejenigen aus, die als am einfachsten herzustellen galten.
Nach der Synthese der acht neuartigen Moleküle schickte Enamine sie nach Oxford, um in den Laboren von Prof. Chris Schofield und PRof Gavin Screaton ihre Fähigkeit zu testen, die Funktionen der beiden Proteinziele zu stören. . Der intensive Röntgenstrahl von Diamant, der 10 Milliarden Mal heller als die Sonne ist, wurde verwendet, um sichtbar zu machen, wie die Verbindungen mit Proteinen interagieren, um deren Funktion zu inaktivieren. Die neuen Verbindungen wurden in Zielhemmungs- und Lebendvirus-Neutralisationstests weiter getestet. Zwei der validierten Virostatika zielen auf die Hauptprotease ab; Die anderen beiden zielten nicht nur auf das Spike-Protein ab, sondern erwiesen sich auch als fähig, alle sechs großen COVID-Varianten zu neutralisieren. „Sie erhalten eine Karte, die genau zeigt, wo die Dinge hängen bleiben, und schon haben Sie eine Bestätigung“, sagte Stuart.
CogMol ist eines von mehreren chemischen Grundlagenmodellen, die IBM seitdem entwickelt hat. Das größte, MoLFormer-XLwurde auf einer Datenbank mit mehr als 1,1 Milliarden Molekülen trainiert und wird derzeit trainiert gebraucht von Moderna zur Entwicklung von mRNA-Medikamenten. „Wir haben mithilfe eines generativen Grundlagenmodells, das relativ wenig über seine Proteinziele wusste, gültige Ausgangspunkte für die beschleunigte Entwicklung antiviraler Medikamente geschaffen“, sagte der Co-Senior-Autor der Studie, Jason Crain, Forscher bei IBM Research und Professor in Oxford. „Ich hoffe, dass wir mit diesen Methoden in Zukunft viel schneller und kostengünstiger antivirale Medikamente und andere dringend benötigte Wirkstoffe herstellen können.“
Obwohl sich die Forscher auf die Validierung antiviraler Medikamente für COVID konzentrierten, argumentieren sie, dass diese Methoden auf bestehende Viren ausgeweitet werden können, die weiterhin mutieren, wie die Grippe, oder auf Viren, die noch nicht aufgetaucht sind. „Wenn man auf die nächste Pandemie vorbereitet sein will, braucht man Medikamente, die an verschiedenen Stellen des Proteins wirken“, schloss Stuart. „Es wird für das Virus viel schwieriger, zu entkommen.“
Mehr Informationen:
Vijil Chenthamarakshan et al.: Beschleunigung der Entdeckung von Wirkstoff-Target-Inhibitoren mit einem tiefgreifenden generativen Grundlagenmodell, Wissenschaftliche Fortschritte (2023). DOI: 10.1126/sciadv.adg7865