Die Entdeckung neuer Materialien und Medikamente erfordert in der Regel einen manuellen Versuch-und-Irrtum-Prozess, der Jahrzehnte dauern und Millionen von Dollar kosten kann. Um diesen Prozess zu optimieren, nutzen Wissenschaftler häufig maschinelles Lernen, um molekulare Eigenschaften vorherzusagen und die Moleküle einzugrenzen, die sie im Labor synthetisieren und testen müssen.
Forscher des MIT und des MIT-Watson AI Lab haben ein neues, einheitliches Framework entwickelt, das gleichzeitig molekulare Eigenschaften vorhersagen und neue Moleküle viel effizienter erzeugen kann als diese beliebten Deep-Learning-Ansätze.
Um einem maschinellen Lernmodell beizubringen, die biologischen oder mechanischen Eigenschaften eines Moleküls vorherzusagen, müssen Forscher ihm Millionen markierter Molekülstrukturen zeigen – ein Prozess, der als Training bezeichnet wird. Aufgrund der Kosten für die Entdeckung von Molekülen und der Herausforderungen bei der manuellen Kennzeichnung von Millionen von Strukturen ist es oft schwierig, an große Trainingsdatensätze zu kommen, was die Wirksamkeit maschineller Lernansätze einschränkt.
Im Gegensatz dazu kann das von den MIT-Forschern entwickelte System molekulare Eigenschaften anhand nur kleiner Datenmengen effektiv vorhersagen. Ihrem System liegt ein grundlegendes Verständnis der Regeln zugrunde, die bestimmen, wie Bausteine kombiniert werden, um gültige Moleküle zu erzeugen. Diese Regeln erfassen die Ähnlichkeiten zwischen Molekülstrukturen, was dem System hilft, neue Moleküle zu generieren und ihre Eigenschaften auf dateneffiziente Weise vorherzusagen.
Diese Methode übertraf andere maschinelle Lernansätze sowohl bei kleinen als auch bei großen Datensätzen und war in der Lage, molekulare Eigenschaften genau vorherzusagen und lebensfähige Moleküle zu erzeugen, wenn ein Datensatz mit weniger als 100 Proben vorhanden war.
„Unser Ziel bei diesem Projekt ist es, einige datengesteuerte Methoden zu nutzen, um die Entdeckung neuer Moleküle zu beschleunigen, sodass man einem Modell beibringen kann, die Vorhersage ohne all diese kostenintensiven Experimente durchzuführen“, sagt Hauptautor Minghao Guo, a Doktorand der Informatik und Elektrotechnik (EECS).
Zu Guos Co-Autoren gehören die Forschungsmitarbeiter des MIT-IBM Watson AI Lab, Veronika Thost, Payel Das und Jie Chen; die jüngsten MIT-Absolventen Samuel Song ’23 und Adithya Balachandran ’23; und der leitende Autor Wojciech Matusik, Professor für Elektrotechnik und Informatik und Mitglied des MIT-IBM Watson AI Lab, der die Computational Design and Fabrication Group innerhalb des MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) leitet. Die Forschung wird auf der International Conference for Machine Learning vorgestellt.
Die Sprache der Moleküle lernen
Um mit maschinellen Lernmodellen die besten Ergebnisse zu erzielen, benötigen Wissenschaftler Trainingsdatensätze mit Millionen von Molekülen, die ähnliche Eigenschaften haben wie diejenigen, die sie entdecken möchten. Tatsächlich sind diese domänenspezifischen Datensätze meist sehr klein. Daher verwenden Forscher Modelle, die auf großen Datensätzen allgemeiner Moleküle vorab trainiert wurden, und wenden diese auf einen viel kleineren, zielgerichteten Datensatz an. Da diese Modelle jedoch nicht viel domänenspezifisches Wissen erworben haben, weisen sie tendenziell eine schlechte Leistung auf.
Das MIT-Team verfolgte einen anderen Ansatz. Sie haben ein maschinelles Lernsystem entwickelt, das automatisch die „Sprache“ von Molekülen – die sogenannte molekulare Grammatik – lernt, indem es nur einen kleinen, domänenspezifischen Datensatz verwendet. Es nutzt diese Grammatik, um lebensfähige Moleküle zu konstruieren und ihre Eigenschaften vorherzusagen.
In der Sprachtheorie generiert man Wörter, Sätze oder Absätze auf der Grundlage einer Reihe von Grammatikregeln. Genauso kann man sich eine molekulare Grammatik vorstellen. Dabei handelt es sich um eine Reihe von Produktionsregeln, die vorschreiben, wie durch die Kombination von Atomen und Unterstrukturen Moleküle oder Polymere erzeugt werden.
Genau wie eine Sprachgrammatik, die nach denselben Regeln eine Vielzahl von Sätzen erzeugen kann, kann eine molekulare Grammatik eine große Anzahl von Molekülen darstellen. Moleküle mit ähnlichen Strukturen verwenden dieselben Regeln zur Grammatikproduktion, und das System lernt, diese Ähnlichkeiten zu verstehen.
Da strukturell ähnliche Moleküle häufig ähnliche Eigenschaften aufweisen, nutzt das System sein zugrunde liegendes Wissen über molekulare Ähnlichkeit, um die Eigenschaften neuer Moleküle effizienter vorherzusagen.
„Sobald wir diese Grammatik als Darstellung für alle verschiedenen Moleküle haben, können wir sie nutzen, um den Prozess der Eigenschaftsvorhersage zu beschleunigen“, sagt Guo.
Das System lernt die Produktionsregeln für eine molekulare Grammatik mithilfe von Reinforcement Learning – einem Versuch-und-Irrtum-Prozess, bei dem das Modell für Verhalten belohnt wird, das es einem Ziel näher bringt.
Da es jedoch Milliarden von Möglichkeiten gibt, Atome und Unterstrukturen zu kombinieren, wäre der Prozess zum Erlernen der Grammatikproduktionsregeln für alles andere als den kleinsten Datensatz zu rechenintensiv.
Die Forscher entkoppelten die molekulare Grammatik in zwei Teile. Der erste Teil, Metagrammatik genannt, ist eine allgemeine, weithin anwendbare Grammatik, die sie manuell entwerfen und dem System zu Beginn geben. Dann muss es nur noch eine viel kleinere, molekülspezifische Grammatik aus dem Domänendatensatz lernen. Dieser hierarchische Ansatz beschleunigt den Lernprozess.
Große Ergebnisse, kleine Datensätze
In Experimenten erzeugte das neue System der Forscher gleichzeitig lebensfähige Moleküle und Polymere und sagte ihre Eigenschaften genauer voraus als mehrere gängige Ansätze des maschinellen Lernens, selbst wenn die domänenspezifischen Datensätze nur einige hundert Proben enthielten. Einige andere Methoden erforderten ebenfalls einen kostspieligen Vortrainingsschritt, den das neue System vermeidet.
Die Technik war besonders effektiv bei der Vorhersage physikalischer Eigenschaften von Polymeren, wie etwa der Glasübergangstemperatur, also der Temperatur, die ein Material benötigt, um vom Feststoff in die Flüssigkeit überzugehen. Die manuelle Beschaffung dieser Informationen ist oft äußerst kostspielig, da die Experimente extrem hohe Temperaturen und Drücke erfordern.
Um ihren Ansatz weiter voranzutreiben, reduzierten die Forscher einen Trainingssatz um mehr als die Hälfte – auf nur 94 Proben. Ihr Modell erzielte immer noch Ergebnisse, die mit Methoden vergleichbar waren, die mit dem gesamten Datensatz trainiert wurden.
„Diese grammatikbasierte Darstellung ist sehr leistungsstark. Und da die Grammatik selbst eine sehr allgemeine Darstellung ist, kann sie auf verschiedene Arten von Diagrammdaten angewendet werden. Wir versuchen, andere Anwendungen zu identifizieren, die über Chemie oder Materialwissenschaften hinausgehen“, sagt Guo .
In Zukunft wollen sie ihre aktuelle molekulare Grammatik auch um die 3D-Geometrie von Molekülen und Polymeren erweitern, die für das Verständnis der Wechselwirkungen zwischen Polymerketten von entscheidender Bedeutung ist. Sie entwickeln außerdem eine Schnittstelle, die einem Benutzer die erlernten Grammatikproduktionsregeln anzeigt und Feedback einholt, um möglicherweise falsche Regeln zu korrigieren, wodurch die Genauigkeit des Systems erhöht wird.
Mehr Informationen:
Artikel: „Grammatikinduzierte Geometrie zur dateneffizienten Vorhersage molekularer Eigenschaften“ openreview.net/pdf?id=SGQi3LgFnqj