Forscher des National Institute of Standards and Technology (NIST) haben ein neues statistisches Tool entwickelt, mit dem sie die Proteinfunktion vorhersagen können. Es könnte nicht nur bei der schwierigen Aufgabe helfen, Proteine auf praktisch sinnvolle Weise zu verändern, sondern funktioniert auch mit Methoden, die vollständig interpretierbar sind – ein Vorteil gegenüber der herkömmlichen künstlichen Intelligenz (KI), die in der Vergangenheit beim Protein-Engineering geholfen hat.
Das neue Werkzeug namens LANTERN könnte sich bei Arbeiten als nützlich erweisen, die von der Herstellung von Biokraftstoffen über die Verbesserung von Nutzpflanzen bis hin zur Entwicklung neuer Behandlungsmethoden für Krankheiten reichen. Bei all diesen Aufgaben spielen Proteine als Bausteine der Biologie eine Schlüsselrolle. Aber während es vergleichsweise einfach ist, Änderungen an dem DNA-Strang vorzunehmen, der als Bauplan für ein bestimmtes Protein dient, bleibt es eine Herausforderung zu bestimmen, welche spezifischen Basenpaare – Sprossen auf der DNA-Leiter – der Schlüssel zum Erreichen eines gewünschten Effekts sind. Das Finden dieser Schlüssel war die Aufgabe von KI, die aus tiefen neuronalen Netzen (DNNs) aufgebaut ist, die zwar effektiv, aber für das menschliche Verständnis notorisch undurchsichtig sind.
Beschrieben in einem neuen Artikel, der in der veröffentlicht wurde Proceedings of the National Academy of Sciences, LANTERN zeigt die Fähigkeit, die genetischen Änderungen vorherzusagen, die erforderlich sind, um nützliche Unterschiede in drei verschiedenen Proteinen zu erzeugen. Eines ist das spitzenförmige Protein von der Oberfläche des SARS-CoV-2-Virus, das COVID-19 verursacht; Zu verstehen, wie Veränderungen in der DNA dieses Spike-Protein verändern können, könnte Epidemiologen helfen, die Zukunft der Pandemie vorherzusagen. Die beiden anderen sind bekannte Arbeitspferde im Labor: das LacI-Protein aus dem E. coli-Bakterium und das grün fluoreszierende Protein (GFP), das als Marker in biologischen Experimenten verwendet wird. Durch die Auswahl dieser drei Themen konnte das NIST-Team nicht nur zeigen, dass sein Tool funktioniert, sondern auch, dass seine Ergebnisse interpretierbar sind – ein wichtiges Merkmal für die Industrie, die Vorhersagemethoden benötigt, die zum Verständnis des zugrunde liegenden Systems beitragen.
„Wir haben einen Ansatz, der vollständig interpretierbar ist und der auch keinen Verlust an Vorhersagekraft aufweist“, sagte Peter Tonner, Statistiker und Computerbiologe bei NIST und Hauptentwickler von LANTERN. „Es gibt eine weit verbreitete Annahme, dass man, wenn man eines dieser Dinge will, das andere nicht haben kann. Wir haben gezeigt, dass man manchmal beides haben kann.“
Das Problem, das das NIST-Team angeht, könnte man sich als Interaktion mit einer komplexen Maschine vorstellen, die ein riesiges Bedienfeld mit Tausenden unbeschrifteter Schalter enthält: Das Gerät ist ein Gen, ein DNA-Strang, der ein Protein codiert; die Schalter sind Basenpaare auf dem Strang. Die Schalter wirken sich alle irgendwie auf die Ausgabe des Geräts aus. Welche Schalter sollten Sie umlegen, wenn es Ihre Aufgabe ist, die Maschine auf eine bestimmte Weise anders arbeiten zu lassen?
Da die Antwort möglicherweise Änderungen an mehreren Basenpaaren erfordert, müssen die Wissenschaftler eine Kombination davon umdrehen, das Ergebnis messen, dann eine neue Kombination auswählen und erneut messen. Die Anzahl der Permutationen ist entmutigend.
„Die Anzahl möglicher Kombinationen kann größer sein als die Anzahl der Atome im Universum“, sagte Tonner. „Man könnte nie alle Möglichkeiten messen. Es ist eine lächerlich große Zahl.“
Aufgrund der schieren Menge an Daten, die damit verbunden sind, wurden DNNs damit beauftragt, eine Stichprobe von Daten zu sortieren und vorherzusagen, welche Basenpaare umgedreht werden müssen. Dabei haben sie sich bewährt – solange Sie nicht nach einer Erklärung fragen, wie sie zu ihren Antworten kommen. Sie werden oft als „Black Boxes“ bezeichnet, weil ihr Innenleben undurchschaubar ist.
„Es ist wirklich schwierig zu verstehen, wie DNNs ihre Vorhersagen machen“, sagte NIST-Physiker David Ross, einer der Co-Autoren der Veröffentlichung. „Und das ist ein großes Problem, wenn Sie diese Vorhersagen verwenden möchten, um etwas Neues zu entwickeln.“
LANTERN hingegen ist explizit auf Verständlichkeit ausgelegt. Ein Teil seiner Erklärbarkeit ergibt sich aus der Verwendung interpretierbarer Parameter zur Darstellung der analysierten Daten. Anstatt zuzulassen, dass die Anzahl dieser Parameter außerordentlich groß und oft undurchschaubar wird, wie es bei DNNs der Fall ist, hat jeder Parameter in den Berechnungen von LANTERN einen Zweck, der intuitiv sein soll und den Benutzern hilft zu verstehen, was diese Parameter bedeuten und wie sie LANTERNs beeinflussen Vorhersagen.
Das LANTERN-Modell stellt Proteinmutationen mithilfe von Vektoren dar, weit verbreitete mathematische Werkzeuge, die oft visuell als Pfeile dargestellt werden. Jeder Pfeil hat zwei Eigenschaften: Seine Richtung impliziert den Effekt der Mutation, während seine Länge angibt, wie stark dieser Effekt ist. Wenn zwei Proteine Vektoren haben, die in dieselbe Richtung zeigen, zeigt LANTERN an, dass die Proteine eine ähnliche Funktion haben.
Die Richtungen dieser Vektoren werden oft auf biologische Mechanismen abgebildet. Beispielsweise lernte LANTERN in allen drei Datensätzen, die das Team untersuchte, eine Richtung im Zusammenhang mit der Proteinfaltung. (Die Faltung spielt eine entscheidende Rolle bei der Funktionsweise eines Proteins, daher war die Identifizierung dieses Faktors über Datensätze hinweg ein Hinweis darauf, dass das Modell wie beabsichtigt funktioniert.) Bei der Erstellung von Vorhersagen fügt LANTERN diese Vektoren einfach zusammen – eine Methode, die Benutzer bei der Überprüfung ihrer Vorhersagen verfolgen können .
Andere Labore hatten bereits DNNs verwendet, um Vorhersagen darüber zu treffen, welche Umschaltungen nützliche Änderungen an den drei untersuchten Proteinen bewirken würden, also beschloss das NIST-Team, LANTERN mit den Ergebnissen der DNNs zu vergleichen. Der neue Ansatz war nicht nur gut genug; Laut dem Team erreicht es einen neuen Stand der Technik in der Vorhersagegenauigkeit für diese Art von Problem.
„LANTERN hat fast alle alternativen Ansätze in Bezug auf die Vorhersagegenauigkeit erreicht oder übertroffen“, sagte Tonner. „Es übertrifft alle anderen Ansätze bei der Vorhersage von Änderungen an LacI und hat eine vergleichbare Vorhersagegenauigkeit für GFP für alle außer einem. Für SARS-CoV-2 hat es eine höhere Vorhersagegenauigkeit als alle Alternativen außer einem DNN-Typ, der mit dem von LANTERN übereinstimmte Genauigkeit, aber nicht übertroffen.“
LANTERN ermittelt, welche Schaltersätze die größte Wirkung auf ein bestimmtes Attribut des Proteins haben – beispielsweise seine Faltungsstabilität – und fasst zusammen, wie der Benutzer dieses Attribut optimieren kann, um einen gewünschten Effekt zu erzielen. In gewisser Weise verwandelt LANTERN die vielen Schalter auf dem Bedienfeld unserer Maschine in ein paar einfache Zifferblätter.
„Es reduziert Tausende von Schaltern auf vielleicht fünf kleine Zifferblätter, die Sie drehen können“, sagte Ross. „Es sagt Ihnen, dass der erste Regler einen großen Effekt haben wird, der zweite einen anderen Effekt, aber kleiner, der dritte sogar noch kleiner und so weiter. Als Ingenieur sagt es mir also, dass ich mich auf den ersten und zweiten Regler konzentrieren kann, um zu bekommen das Ergebnis, das ich brauche. LANTERN stellt mir all dies zur Verfügung, und es ist unglaublich hilfreich.“
Rajmonda Caceres, eine Wissenschaftlerin am Lincoln Laboratory des MIT, die mit der Methode hinter LANTERN vertraut ist, sagte, sie schätze die Interpretierbarkeit des Tools.
„Es gibt nicht viele KI-Methoden, die auf biologische Anwendungen angewendet werden, bei denen sie explizit auf Interpretierbarkeit ausgelegt sind“, sagte Caceres, der nicht an der NIST-Studie beteiligt ist. „Wenn Biologen die Ergebnisse sehen, können sie sehen, welche Mutation zur Veränderung des Proteins beiträgt. Diese Interpretationsebene ermöglicht mehr interdisziplinäre Forschung, da Biologen verstehen können, wie der Algorithmus lernt, und sie können weitere Erkenntnisse über das biologische System gewinnen im Studium.“
Tonner sagte, dass er zwar mit den Ergebnissen zufrieden sei, LANTERN aber kein Allheilmittel für das Erklärbarkeitsproblem der KI sei. Die umfassendere Erforschung von Alternativen zu DNNs würde den gesamten Bemühungen zur Schaffung einer erklärbaren, vertrauenswürdigen KI zugute kommen, sagte er.
„Im Zusammenhang mit der Vorhersage genetischer Auswirkungen auf die Proteinfunktion ist LANTERN das erste Beispiel für etwas, das mit DNNs in der Vorhersagekraft konkurriert und dennoch vollständig interpretierbar ist“, sagte Tonner. „Es bietet eine spezifische Lösung für ein spezifisches Problem. Wir hoffen, dass es auf andere zutrifft und dass diese Arbeit die Entwicklung neuer interpretierbarer Ansätze anregt. Wir möchten nicht, dass Predictive AI eine Black Box bleibt.“
Peter D. Tonner et al, Interpretierbare Modellierung von Genotyp-Phänotyp-Landschaften mit modernster Vorhersagekraft, Proceedings of the National Academy of Sciences (2022). DOI: 10.1073/pnas.2114021119