Wir sind auf Katalysatoren angewiesen, um unsere Milch in Joghurt umzuwandeln, Post-It-Notizen aus Papierbrei herzustellen und erneuerbare Energiequellen wie Biokraftstoffe zu erschließen. Um optimale Katalysatormaterialien für bestimmte Reaktionen zu finden, sind aufwändige Experimente und rechenintensive quantenchemische Berechnungen erforderlich.
Wissenschaftler greifen häufig auf grafische neuronale Netze (GNNs) zurück, um die strukturelle Komplexität atomarer Systeme zu erfassen und vorherzusagen. Ein effizientes System ist erst dann möglich, wenn die sorgfältige Umwandlung dreidimensionaler atomarer Strukturen in präzise räumliche Koordinaten im Diagramm abgeschlossen ist.
CatBERTa, ein Transformer-Modell zur Energievorhersage, wurde von Forschern am College of Engineering der Carnegie Mellon University als Ansatz zur Vorhersage molekularer Eigenschaften mithilfe maschinellen Lernens entwickelt.
„Dies ist der erste Ansatz, der für diese Aufgabe ein großes Sprachmodell (LLM) verwendet, sodass wir einen neuen Weg für die Modellierung eröffnen“, sagte Janghoon Ock, Ph.D. Kandidat im Labor von Amir Barati Farimani.
Ein wesentliches Unterscheidungsmerkmal ist die Fähigkeit des Modells, Text (natürliche Sprache) ohne Vorverarbeitung direkt zu verwenden, um die Eigenschaften des Adsorbat-Katalysator-Systems vorherzusagen. Diese Methode ist besonders vorteilhaft, da sie für Menschen leicht interpretierbar bleibt und es Forschern ermöglicht, beobachtbare Merkmale nahtlos in ihre Daten zu integrieren.
Darüber hinaus bietet die Anwendung des Transformatormodells in ihrer Forschung wesentliche Erkenntnisse. Insbesondere die Selbstaufmerksamkeitswerte sind entscheidend für die Verbesserung ihres Verständnisses der Interpretierbarkeit innerhalb dieses Rahmens.
„Ich kann nicht sagen, dass es eine Alternative zu hochmodernen GNNs sein wird, aber vielleicht können wir dies als ergänzenden Ansatz nutzen“, sagte Ock. „Wie sie sagen: ‚Je mehr, desto besser.‘“
Das Modell liefert eine Vorhersagegenauigkeit, die mit der früherer Versionen von GNNs vergleichbar ist. Insbesondere war CatBERTa erfolgreicher, wenn es mit Datensätzen begrenzter Größe trainiert wurde. Darüber hinaus hat CatBERTa die Fehlerunterdrückungsfähigkeiten bestehender GNNs übertroffen.
Das Team konzentrierte sich auf die Adsorptionsenergie, sagte jedoch, dass der Ansatz bei einem geeigneten Datensatz auf andere Eigenschaften ausgeweitet werden könne, etwa auf die HOMO-LUMO-Lücke und Stabilitäten im Zusammenhang mit Adsorbat-Katalysator-Systemen.
Durch die Integration der Fähigkeiten umfangreicher Sprachmodelle mit den Anforderungen der Katalysatorentdeckung möchte das Team den Prozess eines effektiven Katalysator-Screenings rationalisieren. Ock arbeitet daran, die Genauigkeit des Modells zu verbessern.
Die Ergebnisse sind veröffentlicht im Tagebuch ACS-Katalyse.
Mehr Informationen:
Janghoon Ock et al., Catalyst Energy Prediction with CatBERTa: Enthüllung von Strategien zur Feature-Exploration durch große Sprachmodelle, ACS-Katalyse (2023). DOI: 10.1021/acscatal.3c04956