In den letzten zwei Jahren hat maschinelles Lernen die Proteinstrukturvorhersage revolutioniert. Jetzt drei Papiere rein Wissenschaft beschreiben eine ähnliche Revolution im Proteindesign.
In den neuen Arbeiten zeigen Biologen der University of Washington School of Medicine, dass maschinelles Lernen verwendet werden kann, um Proteinmoleküle viel genauer und schneller als bisher möglich herzustellen. Die Wissenschaftler hoffen, dass dieser Fortschritt zu vielen neuen Impfstoffen, Behandlungen, Werkzeugen zur Kohlenstoffabscheidung und nachhaltigen Biomaterialien führen wird.
„Proteine sind in der gesamten Biologie von grundlegender Bedeutung, aber wir wissen, dass alle Proteine, die in jeder Pflanze, jedem Tier und jeder Mikrobe vorkommen, weit weniger als ein Prozent dessen ausmachen, was möglich ist. Mit diesen neuen Software-Tools sollten Forscher in der Lage sein, Lösungen für lange Zeit zu finden -stehende Herausforderungen in Medizin, Energie und Technologie“, sagte Seniorautor David Baker, Professor für Biochemie an der University of Washington School of Medicine und Empfänger eines a Breakthrough Prize 2021 in Biowissenschaften.
Proteine werden oft als „Bausteine des Lebens“ bezeichnet, weil sie für die Struktur und Funktion aller Lebewesen unerlässlich sind. Sie sind an praktisch jedem Prozess beteiligt, der in Zellen stattfindet, einschließlich Wachstum, Teilung und Reparatur. Proteine bestehen aus langen Ketten von Chemikalien, die Aminosäuren genannt werden. Die Abfolge der Aminosäuren in einem Protein bestimmt seine dreidimensionale Form. Diese komplizierte Form ist entscheidend für die Funktion des Proteins.
Kürzlich wurden leistungsstarke Algorithmen für maschinelles Lernen einschließlich AlphaFold und RoseTTAFold wurden darauf trainiert, die detaillierten Formen natürlicher Proteine allein auf der Grundlage ihrer Aminosäuresequenzen vorherzusagen. Maschinelles Lernen ist eine Art künstliche Intelligenz, die es Computern ermöglicht, aus Daten zu lernen, ohne explizit programmiert zu werden. Maschinelles Lernen kann verwendet werden, um komplexe wissenschaftliche Probleme zu modellieren, die für Menschen zu schwer zu verstehen sind.
Um über die in der Natur vorkommenden Proteine hinauszugehen, zerlegten Bakers Teammitglieder die Herausforderung des Proteindesigns in drei Teile und verwendeten für jeden neue Softwarelösungen.
Zunächst muss eine neue Proteinform generiert werden. In einem Papier veröffentlicht am 21. Juli in der Zeitschrift Wissenschaftzeigte das Team, dass künstliche Intelligenz auf zwei Arten neue Proteinformen erzeugen kann. Die erste, „Halluzination“ genannt, ähnelt DALL-E oder anderen generativen KI-Tools, die auf der Grundlage einfacher Eingabeaufforderungen Ausgaben erzeugen. Die zweite, als „Inpainting“ bezeichnete Funktion, entspricht der Autocomplete-Funktion, die in modernen Suchleisten zu finden ist.
Zweitens entwickelte das Team zur Beschleunigung des Prozesses einen neuen Algorithmus zur Generierung von Aminosäuresequenzen. Beschrieben in der Ausgabe vom 15. September von Wissenschaft, läuft dieses Softwaretool namens ProteinMPNN in etwa einer Sekunde. Das ist mehr als 200-mal schneller als die bisher beste Software. Die Ergebnisse sind früheren Tools überlegen, und die Software erfordert keine fachmännische Anpassung, um ausgeführt zu werden.
„Neuronale Netze sind einfach zu trainieren, wenn man eine Menge Daten hat, aber bei Proteinen haben wir nicht so viele Beispiele, wie wir möchten. Wir mussten hineingehen und identifizieren, welche Merkmale in diesen Molekülen die wichtigsten sind war ein bisschen Versuch und Irrtum“, sagte Projektwissenschaftler Justas Dauparas, Postdoktorand am Institut für Proteindesign
Drittens verwendete das Team AlphaFold, ein von Alphabets DeepMind entwickeltes Tool, um unabhängig zu beurteilen, ob die von ihnen entwickelten Aminosäuresequenzen wahrscheinlich in die beabsichtigten Formen gefaltet werden würden.
„Software zur Vorhersage von Proteinstrukturen ist Teil der Lösung, kann aber alleine nichts Neues hervorbringen“, erklärt Dauparas.
„ProteinMPNN ist für das Proteindesign das, was AlphaFold für die Proteinstrukturvorhersage war“, fügte Baker hinzu.
In einer anderen Zeitung, die in erscheint Wissenschaft Am 15. September bestätigte ein Team des Baker-Labors, dass die Kombination neuer maschineller Lernwerkzeuge zuverlässig neue Proteine erzeugen könnte, die im Labor funktionieren.
„Wir fanden heraus, dass Proteine, die mit ProteinMPNN hergestellt wurden, sich viel eher wie beabsichtigt falten, und wir konnten mit diesen Methoden sehr komplexe Proteinanordnungen herstellen“, sagte Projektwissenschaftler Basile Wicky, Postdoktorand am Institut für Proteindesign.
Unter den neu hergestellten Proteinen befanden sich Ringe im Nanomaßstab, von denen die Forscher glauben, dass sie Teile für kundenspezifische Nanomaschinen werden könnten. Mit Elektronenmikroskopen wurden die Ringe beobachtet, die einen Durchmesser haben, der etwa eine Milliarde Mal kleiner ist als ein Mohn.
„Dies ist der Anfang des maschinellen Lernens im Proteindesign. In den kommenden Monaten werden wir daran arbeiten, diese Werkzeuge zu verbessern, um noch dynamischere und funktionellere Proteine zu schaffen“, sagte Baker.
Computerressourcen für diese Arbeit wurden von Microsoft und Amazon Web Services gespendet.
J. Dauparas et al., Robustes Deep-Learning-basiertes Proteinsequenzdesign mit ProteinMPNN, Wissenschaft (2022). DOI: 10.1126/science.add2187. www.science.org/doi/10.1126/science.add2187
BIM Wicky et al, Halluzinierende symmetrische Proteinanordnungen, Wissenschaft (2022). DOI: 10.1126/science.add1964. www.science.org/doi/10.1126/science.add1964