Microsoft Open Source EvoDiff, eine neuartige proteinerzeugende KI

Microsoft Open Source EvoDiff eine neuartige proteinerzeugende KI

Proteine, die natürlichen Moleküle, die wichtige Zellfunktionen im Körper ausführen, sind die Bausteine ​​aller Krankheiten. Die Charakterisierung von Proteinen kann die Mechanismen einer Krankheit aufdecken, einschließlich Möglichkeiten, sie zu verlangsamen oder möglicherweise umzukehren Erstellen Proteine ​​können zu völlig neuen Medikamenten- und Therapeutikaklassen führen.

Doch der aktuelle Prozess zum Design von Proteinen im Labor ist kostspielig – sowohl aus rechnerischer als auch aus personeller Sicht. Es geht darum, eine Proteinstruktur zu entwickeln, die das könnte plausibel Führen Sie eine bestimmte Aufgabe im Körper aus und finden Sie dann eine Proteinsequenz – die Sequenz von Aminosäuren, aus denen ein Protein besteht –, die sich wahrscheinlich in diese Struktur „falten“ kann. (Proteine ​​müssen sich korrekt in dreidimensionale Formen falten, um ihre beabsichtigte Funktion zu erfüllen.)

Es muss nicht unbedingt so kompliziert sein.

Diese Woche hat Microsoft ein Allzweck-Framework eingeführt, EvoDiff, dass das Unternehmen behauptet, mit einer Proteinsequenz „hochpräzise“ und „vielfältige“ Proteine ​​erzeugen zu können. Im Gegensatz zu anderen proteingenerierenden Frameworks benötigt EvoDiff keine Strukturinformationen über das Zielprotein, wodurch der normalerweise aufwändigste Schritt entfällt.

EvoDiff ist als Open-Source-Lösung verfügbar und könnte zur Herstellung von Enzymen für neue Therapeutika und Arzneimittelverabreichungsmethoden sowie für neue Enzyme für industrielle chemische Reaktionen verwendet werden, sagt Kevin Yang, leitender Microsoft-Forscher.

„Wir gehen davon aus, dass EvoDiff die Fähigkeiten im Protein-Engineering über das Struktur-Funktions-Paradigma hinaus hin zu programmierbarem, sequenzorientiertem Design erweitern wird“, sagte Yang, einer der Mitentwickler von EvoDiff, in einem E-Mail-Interview mit Tech. „Mit EvoDiff zeigen wir, dass wir vielleicht nicht wirklich Struktur brauchen, sondern dass ‚Proteinsequenz alles ist, was man braucht‘, um kontrollierbar neue Proteine ​​zu entwerfen.“

Der Kern des EvoDiff-Frameworks ist ein 640-Parameter-Modell, das auf Daten aller verschiedenen Spezies und Funktionsklassen von Proteinen trainiert wird. („Parameter“ sind die Teile eines KI-Modells, die aus Trainingsdaten gelernt werden und im Wesentlichen die Fähigkeit des Modells für ein Problem definieren – in diesem Fall die Generierung von Proteinen.) Die Daten zum Trainieren des Modells wurden aus dem OpenFold-Datensatz für Sequenzausrichtungen bezogen und UniRef50, eine Teilmenge von Daten von UniProt, der vom UniProt-Konsortium verwalteten Datenbank für Proteinsequenzen und Funktionsinformationen.

EvoDiff ist ein Diffusionsmodell, dessen Architektur vielen modernen Bilderzeugungsmodellen wie Stable Diffusion und DALL-E 2 ähnelt. EvoDiff lernt, wie man schrittweise Rauschen von einem Ausgangsprotein, das fast ausschließlich aus Rauschen besteht, subtrahiert und es – langsam, Schritt für Schritt – näher an eine Proteinsequenz heranführt.

Der Prozess, durch den EvoDiff Proteine ​​erzeugt.

Diffusionsmodelle werden zunehmend auf Bereiche außerhalb der Bilderzeugung angewendet, von der Entwicklung neuartiger Proteine ​​wie EvoDiff bis hin zur Erstellung von Musik und sogar Sprache synthetisieren.

„Wenn es eine Sache gibt, die man mitnehmen kann [from EvoDiff]„Ich denke, es wäre diese Idee, dass wir aufgrund der Allgemeingültigkeit, Skalierung und Modularität, die wir erreichen können, die Proteingenerierung über die Sequenzierung hinaus durchführen können und sollten“, sagte Ava Amini, leitende Forscherin bei Microsoft, eine weitere Mitautorin von EvoDiff , sagte per E-Mail. „Unser Diffusionsgerüst gibt uns die Möglichkeit, dies zu tun und auch zu steuern, wie wir diese Proteine ​​so gestalten, dass sie bestimmte funktionelle Ziele erreichen.“

Laut Amini kann EvoDiff nicht nur neue Proteine ​​erzeugen, sondern sozusagen die „Lücken“ in einem bestehenden Proteindesign füllen. Vorausgesetzt, ein Teil eines Proteins bindet an ein anderes Protein, kann das Modell beispielsweise eine Protein-Aminosäuresequenz um diesen Teil herum generieren, die eine Reihe von Kriterien erfüllt.

Da EvoDiff Proteine ​​im „Sequenzraum“ und nicht in der Struktur von Proteinen entwirft, kann es auch „ungeordnete Proteine“ synthetisieren, die sich am Ende nicht in eine endgültige dreidimensionale Struktur falten. Wie normal funktionierende Proteine ​​spielen auch gestörte Proteine ​​eine wichtige Rolle in der Biologie und bei Krankheiten, beispielsweise indem sie die Aktivität anderer Proteine ​​verstärken oder verringern.

Nun sollte angemerkt werden, dass die Forschung hinter EvoDiff nicht durchgeführt wurde peer-reviewed – zumindest jetzt noch nicht. Sarah Alamdari, Datenwissenschaftlerin bei Microsoft, die an dem Projekt mitgewirkt hat, gibt zu, dass „noch viel mehr Skalierungsarbeit“ zu leisten ist, bevor das Framework kommerziell genutzt werden kann.

„Dies ist nur ein Modell mit 640 Millionen Parametern, und wir könnten eine bessere Erzeugungsqualität feststellen, wenn wir auf Milliarden von Parametern skalieren“, sagte Alamdari per E-Mail. „Während wir einige grobkörnige Strategien demonstriert haben, würden wir EvoDiff für eine noch feinkörnigere Steuerung auf Text, chemische Informationen oder andere Möglichkeiten zur Spezifizierung der gewünschten Funktion konditionieren wollen.“

Als nächsten Schritt plant das EvoDiff-Team, die Proteine, die das Modell im Labor generiert hat, zu testen, um festzustellen, ob sie lebensfähig sind. Sollte dies der Fall sein, werden sie mit der Arbeit an der nächsten Generation des Frameworks beginnen.

tch-1-tech