Neues maschinelles Lernen bildet die Potenziale von Proteinen ab

Soul Hackers 2 Erscheinungsdatum Ankuendigungstrailer enthuellt

Die Biotech-Industrie ist ständig auf der Suche nach der perfekten Mutation, bei der Eigenschaften verschiedener Proteine ​​synthetisch kombiniert werden, um eine gewünschte Wirkung zu erzielen. Möglicherweise müssen neue Medikamente oder Enzyme entwickelt werden, die die Haltbarkeit von Joghurt verlängern, Kunststoffe in freier Wildbahn abbauen oder Waschpulver bei niedriger Wassertemperatur wirksam machen.

Neue Forschungsergebnisse von DTU Compute und dem Department of Computer Science an der University of Copenhagen (DIKU) können der Industrie langfristig dabei helfen, den Prozess zu beschleunigen. Im Tagebuch Naturkommunikationerklären die Forscher, wie eine neue Methode des maschinellen Lernens (ML) eine Karte von Proteinen zeichnet, die es ermöglicht, eine Kandidatenliste der Proteine ​​zu erstellen, die Sie genauer untersuchen müssen.

In den letzten Jahren haben wir begonnen, maschinelles Lernen zu nutzen, um uns ein Bild von erlaubten Mutationen in Proteinen zu machen. Das Problem ist jedoch, dass Sie je nach verwendeter Methode unterschiedliche Bilder erhalten, und selbst wenn Sie dasselbe Modell mehrmals trainieren, kann es unterschiedliche Antworten darauf geben, wie die Biologie zusammenhängt.

„In unserer Arbeit untersuchen wir, wie wir diesen Prozess robuster machen können, und wir zeigen, dass Sie deutlich mehr biologische Informationen extrahieren können, als Sie es bisher konnten. Dies ist ein wichtiger Schritt nach vorne, um sie erforschen zu können die Mutationslandschaft bei der Jagd nach Proteinen mit besonderen Eigenschaften“, sagt Postdoc Nicki Skafte Detlefsen aus der Sektion Kognitive Systeme am DTU Compute.

Die Karte der Proteine

Ein Protein ist eine Kette von Aminosäuren, und eine Mutation tritt auf, wenn nur eine dieser Aminosäuren in der Kette durch eine andere ersetzt wird. Da es 20 natürliche Aminosäuren gibt, bedeutet dies, dass die Zahl der Mutationen so schnell zunimmt, dass es völlig unmöglich ist, sie alle zu untersuchen. Es gibt mehr mögliche Mutationen als Atome im Universum, selbst wenn man sich einfache Proteine ​​ansieht. Es ist nicht möglich, alles experimentell zu testen, daher müssen Sie selektiv auswählen, welche Proteine ​​Sie versuchen möchten, synthetisch herzustellen.

Die Forscher von DIKU und DTU Compute haben mit ihrem ML-Modell ein Bild davon erstellt, wie die Proteine ​​verknüpft sind. Indem das Modell für viele Beispiele von Proteinsequenzen präsentiert wird, lernt es, für jedes Protein eine Karte mit einem Punkt zu zeichnen, sodass nahe verwandte Proteine ​​nahe beieinander platziert werden, während entfernt verwandte Proteine ​​weit voneinander entfernt platziert werden.

Das ML-Modell basiert auf Mathematik und Geometrie, die zum Zeichnen von Karten entwickelt wurden. Stellen Sie sich vor, Sie müssten eine Weltkarte erstellen. Wenn Sie Dänemark heranzoomen, können Sie ganz einfach eine Karte auf ein Blatt Papier zeichnen, die die Geographie bewahrt. Aber wenn Sie die Erde zeichnen müssen, werden Fehler passieren, weil Sie den Globus strecken, sodass die Arktis ein langes Land anstelle eines Pols wird. Auf der Karte ist die Erde also verzerrt. Aus diesem Grund hat die Forschung in der Kartenerstellung eine Menge Mathematik entwickelt, die die Verzerrungen beschreibt und die Verzerrungen auf der Karte kompensiert.

Genau diese Theorie konnten DIKU und DTU Compute auf ihr Machine-Learning-Modell (Deep Learning) für Proteine ​​erweitern. Da sie die Verzerrung auf der Karte beherrschen, können sie diese auch kompensieren.

„Damit können wir darüber sprechen, was ein sinnvolles Distanzziel zwischen nahe verwandten Proteinen ist, und dann können wir es plötzlich messen. Auf diese Weise können wir einen Pfad durch die Karte der Proteine ​​ziehen, der uns sagt, welchen Weg wir erwarten.“ ein Protein, um sich von einem anderen zu entwickeln – also mutiert, da sie alle mit der Evolution verwandt sind. Auf diese Weise kann das ML-Modell einen Abstand zwischen den Proteinen messen und optimale Pfade zwischen vielversprechenden Proteinen zeichnen“, sagt Wouter Boomsma, außerordentlicher Professor an der Bereich für Maschinelles Lernen am DIKU.

Die Forscher haben das Modell an Daten von zahlreichen Proteinen getestet, die in der Natur vorkommen, wo ihre Struktur bekannt ist, und sie können sehen, dass der Abstand zwischen Proteinen beginnt, der evolutionären Entwicklung der Proteine ​​zu entsprechen, so dass Proteine, die nahe beieinander liegen einander evolutionär nahe beieinander liegen.

„Wir sind jetzt in der Lage, zwei Proteine ​​auf die Karte zu setzen und die Kurve zwischen ihnen zu zeichnen. Auf dem Weg zwischen den beiden Proteinen liegen mögliche Proteine, die eng verwandte Eigenschaften haben. Das ist keine Garantie, aber es bietet die Möglichkeit, eine Hypothese aufzustellen.“ welche Proteine ​​es sein könnten, die die Biotech-Industrie testen sollte, wenn neue Proteine ​​entworfen werden“, sagt Søren Hauberg, Professor in der Sektion Kognitive Systeme an der DTU Compute.

Die einzigartige Zusammenarbeit zwischen DTU Compute und DIKU wurde durch ein neues Zentrum für maschinelles Lernen in den Biowissenschaften (MLLS) begründet, das im vergangenen Jahr mit Unterstützung der Novo Nordisk Foundation gestartet wurde. Im Zentrum arbeiten Forscher für künstliche Intelligenz beider Universitäten zusammen, um die grundlegenden Probleme des maschinellen Lernens zu lösen, die von wichtigen Fragestellungen im Bereich der Biologie angetrieben werden.

Die entwickelten Proteinkarten sind Teil eines Großprojekts, das von der Grundlagenforschung bis zur industriellen Anwendung reicht, zB in Zusammenarbeit mit Novozymes und Novo Nordisk.

Mehr Informationen:
Nicki Skafte Detlefsen et al, Lernen aussagekräftiger Darstellungen von Proteinsequenzen, Naturkommunikation (2022). DOI: 10.1038/s41467-022-29443-w

Bereitgestellt von der Technischen Universität Dänemark

ph-tech