Wissenschaftler verlassen sich zunehmend auf Modelle, die mit maschinellem Lernen trainiert wurden, um Lösungen für komplexe Probleme bereitzustellen. Aber woher wissen wir, dass die Lösungen vertrauenswürdig sind, wenn die komplexen Algorithmen, die die Modelle verwenden, nicht leicht abgefragt werden können oder Menschen ihre Entscheidungen nicht erklären können?
Dieses Vertrauen ist beispielsweise bei der Arzneimittelforschung von entscheidender Bedeutung, wo maschinelles Lernen verwendet wird, um Millionen potenziell toxischer Verbindungen zu sortieren, um festzustellen, welche möglicherweise sichere Kandidaten für pharmazeutische Arzneimittel sind.
„Es gab einige hochkarätige Unfälle in der Informatik, bei denen ein Modell die Dinge recht gut vorhersagen konnte, aber die Vorhersagen auf nichts Aussagekräftigem basierten“, sagt Andrew White, außerordentlicher Professor für Chemieingenieurwesen an der Universität von Rochester, in einem Interview mit Chemiewelt.
White und sein Labor haben eine neue „kontrafaktische“ Methode entwickelt, die in beschrieben wird Chemische Wissenschaftdie mit jedem molekularstrukturbasierten maschinellen Lernmodell verwendet werden kann, um besser zu verstehen, wie das Modell zu einer Schlussfolgerung gelangt ist.
Kontrafaktische Angaben können Forschern „die kleinste Änderung an den Merkmalen mitteilen, die die Vorhersage verändern würden“, sagt die Hauptautorin Geemi Wellawatte, eine Ph.D. Student in Whites Labor. „Mit anderen Worten, ein Kontrafaktual ist ein Beispiel, das dem Original so nahe kommt, aber ein anderes Ergebnis hat.“
Kontrafaktische Aussagen können Forschern dabei helfen, schnell festzustellen, warum ein Modell eine Vorhersage getroffen hat und ob sie gültig ist.
Das Papier identifiziert drei Beispiele dafür, wie die neue Methode namens MMACE (Molecular Model Agonistic Counterfactual Explanations) verwendet werden kann, um zu erklären, warum:
Bei der Entwicklung von MMACE musste das Labor einige große Herausforderungen bewältigen. Sie brauchten eine Methode, die für das breite Spektrum der in der Chemie verwendeten Methoden des maschinellen Lernens angepasst werden kann. Darüber hinaus war die Suche nach dem ähnlichsten Molekül für ein bestimmtes Szenario aufgrund der schieren Anzahl möglicher Kandidatenmoleküle ebenfalls eine Herausforderung.
Co-Autorin Aditi Seshadri in Whites Labor half bei der Lösung dieses Problems, indem sie der Gruppe vorschlug, den STONED-Algorithmus (Superfast Traversal, Optimization, Novity, Exploration, and Discovery) anzupassen, der an der University of Toronto entwickelt wurde. STONED erzeugt effizient ähnliche Moleküle, den Treibstoff für die kontrafaktische Generierung. Seshadri ist ein Bachelor-Forscher in Whites Labor und konnte das Projekt über ein Rochester-Sommerforschungsprogramm namens „Discover“ unterstützen.
White sagt, dass sein Team MMACE weiter verbessert, indem es beispielsweise andere Datenbanken bei der Suche nach den ähnlichsten Molekülen ausprobiert und die Definition der molekularen Ähnlichkeit verfeinert.
Geemi P. Wellawatte et al., Modellagnostische Generierung kontrafaktischer Erklärungen für Moleküle, Chemische Wissenschaft (2022). DOI: 10.1039/D1SC05259D