Riesige Bibliotheken von Arzneimittelwirkstoffen könnten potenzielle Behandlungsmöglichkeiten für eine Vielzahl von Krankheiten wie Krebs oder Herzerkrankungen bieten. Im Idealfall würden Wissenschaftler jede dieser Verbindungen experimentell gegen alle möglichen Ziele testen, aber ein solches Screening ist unerschwinglich zeitaufwändig.
In den letzten Jahren haben Forscher damit begonnen, rechnerische Methoden zum Screening dieser Bibliotheken einzusetzen, in der Hoffnung, die Entdeckung von Arzneimitteln zu beschleunigen. Allerdings nehmen viele dieser Methoden auch viel Zeit in Anspruch, da die meisten von ihnen die dreidimensionale Struktur jedes Zielproteins aus seiner Aminosäuresequenz berechnen und diese Strukturen dann verwenden, um vorherzusagen, mit welchen Arzneimittelmolekülen es interagieren wird.
Forscher am MIT und an der Tufts University haben nun einen alternativen Rechenansatz entwickelt, der auf einer Art Algorithmus der künstlichen Intelligenz basiert, der als großes Sprachmodell bekannt ist. Diese Modelle – ein bekanntes Beispiel ist ChatGPT – können große Textmengen analysieren und herausfinden, welche Wörter (oder in diesem Fall Aminosäuren) am wahrscheinlichsten zusammen vorkommen. Das neue Modell namens ConPLex kann Zielproteine mit potenziellen Arzneimittelmolekülen abgleichen, ohne den rechenintensiven Schritt der Berechnung der Molekülstrukturen durchführen zu müssen.
Mit dieser Methode können die Forscher mehr als 100 Millionen Verbindungen an einem einzigen Tag untersuchen – viel mehr als jedes bestehende Modell.
„Diese Arbeit befasst sich mit der Notwendigkeit eines effizienten und genauen In-silico-Screenings potenzieller Medikamentenkandidaten, und die Skalierbarkeit des Modells ermöglicht groß angelegte Screenings zur Bewertung von Off-Target-Effekten, zur Wiederverwendung von Medikamenten und zur Bestimmung der Auswirkungen von Mutationen auf die Medikamentenbindung.“ sagt Bonnie Berger, Simons-Professorin für Mathematik, Leiterin der Computation and Biology-Gruppe im Computer Science and Artificial Intelligence Laboratory (CSAIL) des MIT und eine der leitenden Autoren der neuen Studie.
Lenore Cowen, Professorin für Informatik an der Tufts University, ist auch eine leitende Autorin des Artikels, der diese Woche im erscheint Verfahren der Nationalen Akademie der Wissenschaften. Rohit Singh, ein CSAIL-Forschungswissenschaftler, und Samuel Sledzieski, ein MIT-Doktorand, sind die Hauptautoren des Papiers, sowie Bryan Bryson, außerordentlicher Professor für Biotechnik am MIT und Mitglied des Ragon Institute of MGH, MIT und Harvard ist auch Autor. Zusätzlich zum Artikel haben die Forscher ihr Modell online für andere Wissenschaftler zur Verfügung gestellt.
Vorhersagen treffen
In den letzten Jahren haben Computerwissenschaftler große Fortschritte bei der Entwicklung von Modellen gemacht, die die Strukturen von Proteinen anhand ihrer Aminosäuresequenzen vorhersagen können. Die Verwendung dieser Modelle zur Vorhersage, wie eine große Bibliothek potenzieller Medikamente beispielsweise mit einem Krebsprotein interagieren könnte, hat sich jedoch als schwierig erwiesen, vor allem weil die Berechnung der dreidimensionalen Strukturen der Proteine viel Zeit und Rechenleistung erfordert.
Ein weiteres Hindernis besteht darin, dass diese Art von Modellen keine gute Erfolgsbilanz bei der Eliminierung von sogenannten Lockmitteln vorweisen kann, die einem erfolgreichen Medikament sehr ähnlich sind, aber nicht wirklich gut mit dem Ziel interagieren.
„Eine der seit langem bestehenden Herausforderungen auf diesem Gebiet besteht darin, dass diese Methoden fragil sind. Wenn ich dem Modell ein Medikament oder ein kleines Molekül gebe, das fast wie das Original aussieht, sich aber auf subtile Weise leicht unterscheidet, Das Modell könnte immer noch vorhersagen, dass sie interagieren werden, auch wenn dies nicht der Fall sein sollte“, sagt Singh.
Forscher haben Modelle entworfen, die diese Art von Fragilität überwinden können, aber sie sind normalerweise nur auf eine Klasse von Arzneimittelmolekülen zugeschnitten und eignen sich nicht gut für groß angelegte Screenings, weil die Berechnungen zu lange dauern.
Das MIT-Team entschied sich für einen alternativen Ansatz, der auf einem Proteinmodell basiert, das es erstmals 2019 entwickelt hatte. Mithilfe einer Datenbank von mehr als 20.000 Proteinen kodiert das Sprachmodell diese Informationen in aussagekräftige numerische Darstellungen jeder Aminosäuresequenz, die Assoziationen erfassen zwischen Reihenfolge und Struktur.
„Mit diesen Sprachmodellen können sogar Proteine, die sehr unterschiedliche Sequenzen, aber möglicherweise ähnliche Strukturen oder ähnliche Funktionen haben, in diesem Sprachraum auf ähnliche Weise dargestellt werden, und wir können dies für unsere Vorhersagen nutzen“, sagt Sledzieski sagt.
In ihrer neuen Studie wandten die Forscher das Proteinmodell an, um herauszufinden, welche Proteinsequenzen mit bestimmten Arzneimittelmolekülen interagieren. Beide verfügen über numerische Darstellungen, die durch ein neuronales Netzwerk in einen gemeinsamen, gemeinsamen Raum umgewandelt werden. Sie trainierten das Netzwerk anhand bekannter Protein-Arzneimittel-Wechselwirkungen, wodurch es lernen konnte, spezifische Merkmale der Proteine mit der Fähigkeit zur Arzneimittelbindung zu verknüpfen, ohne die 3D-Struktur eines der Moleküle berechnen zu müssen.
„Mit dieser hochwertigen numerischen Darstellung kann das Modell die atomare Darstellung vollständig kurzschließen und anhand dieser Zahlen vorhersagen, ob dieses Medikament bindet oder nicht“, sagt Singh. „Der Vorteil davon besteht darin, dass man keine atomare Darstellung durchgehen muss, die Zahlen aber trotzdem alle Informationen enthalten, die man braucht.“
Ein weiterer Vorteil dieses Ansatzes besteht darin, dass er die Flexibilität von Proteinstrukturen berücksichtigt, die bei der Interaktion mit einem Arzneimittelmolekül „wackelig“ sein und leicht unterschiedliche Formen annehmen können.
Hohe Affinität
Um die Wahrscheinlichkeit zu verringern, dass ihr Modell durch Täuschungswirkstoffmoleküle getäuscht wird, haben die Forscher auch eine Trainingsphase eingebaut, die auf dem Konzept des kontrastiven Lernens basiert. Bei diesem Ansatz geben die Forscher dem Modell Beispiele für „echte“ Drogen und Betrüger und bringen ihm bei, zwischen ihnen zu unterscheiden.
Anschließend testeten die Forscher ihr Modell, indem sie eine Bibliothek von etwa 4.700 möglichen Arzneimittelmolekülen auf ihre Fähigkeit hin untersuchten, an eine Reihe von 51 Enzymen, sogenannte Proteinkinasen, zu binden.
Aus den Top-Treffern wählten die Forscher 19 Arzneimittel-Protein-Paare aus, um sie experimentell zu testen. Die Experimente ergaben, dass von den 19 Treffern 12 eine starke Bindungsaffinität (im nanomolaren Bereich) aufwiesen, während fast alle der vielen anderen möglichen Arzneimittel-Protein-Paare keine Affinität aufwiesen. Vier dieser Paare verbanden sich mit extrem hoher, subnanomolarer Affinität (so stark, dass eine winzige Wirkstoffkonzentration in der Größenordnung von Teilen pro Milliarde das Protein hemmt).
Während sich die Forscher in dieser Studie hauptsächlich auf das Screening niedermolekularer Arzneimittel konzentrierten, arbeiten sie nun daran, diesen Ansatz auf andere Arten von Arzneimitteln anzuwenden, beispielsweise auf therapeutische Antikörper. Diese Art der Modellierung könnte sich auch für die Durchführung von Toxizitätstests potenzieller Arzneimittelverbindungen als nützlich erweisen, um sicherzustellen, dass sie keine unerwünschten Nebenwirkungen haben, bevor sie in Tiermodellen getestet werden.
„Ein Grund dafür, dass die Medikamentenentwicklung so teuer ist, liegt darin, dass sie hohe Misserfolgsraten aufweist. Wenn wir diese Misserfolgsraten reduzieren können, indem wir im Voraus sagen, dass dieses Medikament wahrscheinlich nicht funktioniert, könnte das einen großen Beitrag zur Senkung der Kosten leisten.“ Arzneimittelentdeckung“, sagt Singh.
Dieser neue Ansatz „stellt einen bedeutenden Durchbruch bei der Vorhersage von Arzneimittel-Ziel-Interaktionen dar und eröffnet zusätzliche Möglichkeiten für zukünftige Forschungen, um ihre Fähigkeiten weiter zu verbessern“, sagt Eytan Ruppin, Leiter des Cancer Data Science Laboratory am National Cancer Institute, der nicht beteiligt war in der Studie. „Zum Beispiel könnten die Einbeziehung struktureller Informationen in den latenten Raum oder die Erforschung molekularer Erzeugungsmethoden zur Erzeugung von Täuschkörpern die Vorhersagen weiter verbessern.“
Mehr Informationen:
Rohit Singh et al.: Kontrastives Lernen im Protein-Sprachraum sagt Wechselwirkungen zwischen Arzneimitteln und Proteinzielen voraus. Verfahren der Nationalen Akademie der Wissenschaften (2023). DOI: 10.1073/pnas.2220778120
Diese Geschichte wurde mit freundlicher Genehmigung von MIT News erneut veröffentlicht (web.mit.edu/newsoffice/), eine beliebte Website mit Neuigkeiten über MIT-Forschung, Innovation und Lehre.