Der Schlüssel zum Verständnis von Proteinen – etwa denen, die Krebs, COVID-19 und andere Krankheiten steuern – ist ganz einfach: Identifizieren Sie ihre chemische Struktur und finden Sie heraus, welche anderen Proteine an sie binden können. Aber da ist ein Fang.
„Der Suchraum für Proteine ist enorm“, sagte Brian Coventry, Forscher am Institute for Protein Design der University of Washington und am Howard Hughes Medical Institute.
Ein von seinem Labor untersuchtes Protein besteht typischerweise aus 65 Aminosäuren, und bei 20 verschiedenen Aminosäuren an jeder Position gibt es 65 hoch 20 Bindungskombinationen, eine Zahl, die größer ist als die geschätzte Anzahl von Atomen im Universum.
Coventry ist Co-Autor einer Studie, die im Mai 2023 in der Zeitschrift veröffentlicht wurde Naturkommunikation.
Darin nutzte sein Team Deep-Learning-Methoden, um bestehende energiebasierte physikalische Modelle im „de novo“ (von Grund auf) computergestützten Proteindesign zu erweitern, was zu einer zehnfachen Steigerung der im Labor verifizierten Erfolgsraten für die Bindung eines entworfenen Proteins führte sein Zielprotein.
„Wir haben gezeigt, dass man eine deutlich verbesserte Pipeline erreichen kann, indem man Deep-Learning-Methoden einbezieht, um die Qualität der Schnittstellen zu bewerten, an denen sich Wasserstoffbrückenbindungen bilden oder die von hydrophoben Wechselwirkungen ausgehen“, sagte der Co-Autor der Studie, Nathaniel Bennett, ein Postdoktorand am Institut für Proteindesign, University of Washington.
„Das steht im Gegensatz zu dem Versuch, alle diese Energien einzeln genau aufzuzählen“, fügte er hinzu.
Den Lesern sind möglicherweise beliebte Beispiele für Deep-Learning-Anwendungen wie das Sprachmodell ChatGPT oder der Bildgenerator DALL-E bekannt.
Deep Learning verwendet Computeralgorithmen, um Muster in Daten zu analysieren und Schlussfolgerungen daraus zu ziehen. Dabei werden die Algorithmen geschichtet, um nach und nach Merkmale auf höherer Ebene aus der Roheingabe zu extrahieren. In der Studie wurden Deep-Learning-Methoden eingesetzt, um iterative Transformationen der Darstellung der Proteinsequenz und möglicher Strukturen zu erlernen, die sehr schnell zu Modellen konvergieren, die sich als sehr genau erweisen.
Das von den Autoren entwickelte Deep-Learning-erweiterte De-novo-Proteinbinder-Designprotokoll umfasste die Softwaretools für maschinelles Lernen AlphaFold 2 und auch RoseTTA Fold, das vom Institute for Protein Design entwickelt wurde.
Das Studienproblem eignete sich gut für die Parallelisierung auf Frontera, da die Proteindesign-Trajektorien alle unabhängig voneinander sind, was bedeutet, dass während der Ausführung der Rechenjobs keine Informationen zwischen den Design-Trajektorien ausgetauscht werden mussten.
„Wir haben dieses Problem, das 2 bis 6 Millionen Designs enthält, einfach aufgeteilt und alle diese parallel auf den riesigen Rechenressourcen von Frontera ausgeführt. Es verfügt über eine große Anzahl von CPU-Knoten. Und wir haben jeden davon zugewiesen.“ „CPUS hat es geschafft, einen dieser Design-Trajektorien durchzuführen, wodurch wir eine extrem große Anzahl von Design-Trajektorien in einer realisierbaren Zeit abschließen konnten“, sagte Bennett.
Die Autoren verwendeten das RifDock-Docking-Programm, um sechs Millionen Protein-„Docks“ oder Interaktionen zwischen potenziell gebundenen Proteinstrukturen zu generieren, teilten sie in Blöcke von etwa 100.000 auf und ordneten jeden Block mithilfe von Linux-Dienstprogrammen einem der über 8000 Rechenknoten von Frontera zu.
Jeder dieser 100.000 Docks würde in 100 Jobs mit jeweils tausend Proteinen aufgeteilt. Tausend Proteine fließen in die Computerdesign-Software Rosetta, wo die 1.000 zunächst im Zehntelsekunden-Maßstab und die überlebenden im Wenig-Minuten-Maßstab untersucht werden.
Darüber hinaus nutzten die Autoren das vom Institut für Proteindesign entwickelte Softwaretool ProteinMPNN, um die Recheneffizienz bei der Generierung von Proteinsequenzen neuronaler Netzwerke weiter zu steigern, und zwar auf über 200-mal schneller als die bisher beste Software.
Bei den für ihre Modellierung verwendeten Daten handelt es sich um Hefeoberflächen-Display-Bindungsdaten, die alle öffentlich verfügbar sind und vom Institute for Protein Design gesammelt werden. Darin wurden Zehntausende verschiedener DNA-Stränge so angeordnet, dass sie ein anderes Protein kodieren, das die Wissenschaftler entwarfen.
Die DNA wurde dann mit Hefe kombiniert, sodass jede Hefezelle eines der entworfenen Proteine auf ihrer Oberfläche exprimierte. Anschließend wurden die Hefezellen in bindende und nicht bindende Zellen sortiert. Im Gegenzug verwendeten sie Werkzeuge aus dem Projekt zur Sequenzierung des menschlichen Genoms, um herauszufinden, welche DNA funktionierte und welche nicht.
Trotz der Studienergebnisse, die eine zehnfache Steigerung der Erfolgsrate entworfener Strukturen zur Bindung an ihr Zielprotein zeigten, liegt laut Coventry noch ein weiter Weg vor uns.
„Wir sind um eine Größenordnung gestiegen, aber wir haben noch drei weitere vor uns. Die Zukunft der Forschung besteht darin, diese Erfolgsquote noch weiter zu steigern und zu einer neuen Klasse noch schwierigerer Ziele überzugehen“, sagte er. Paradebeispiele sind Viren und Krebs-T-Zellrezeptoren.
Die Möglichkeiten, die rechnerisch entworfenen Proteine zu verbessern, bestehen darin, die Softwaretools noch weiter zu optimieren oder mehr Proben zu nehmen.
Coventry sagte: „Je größer der Computer, den wir finden können, desto bessere Proteine können wir herstellen. Wir bauen die Werkzeuge, um die krebsbekämpfenden Medikamente von morgen herzustellen. Viele der einzelnen Bindemittel, die wir herstellen, könnten später zu Medikamenten werden.“ die Menschenleben retten. Wir machen den Prozess, um diese Medikamente besser zu machen.“
Mehr Informationen:
Nathaniel R. Bennett et al., Verbesserung des De-novo-Proteinbinderdesigns durch Deep Learning, Naturkommunikation (2023). DOI: 10.1038/s41467-023-38328-5