Die jüngste Explosion generativer KI-Tools hat in nahezu allen Bereichen zahlreiche Diskussionen über die Vorteile und Risiken dieser Technologien ausgelöst. Diese Tools, darunter ChatGPT, Bard und andere, wurden auf große Mengen an Inhalten trainiert und können Texte und Bilder erzeugen, die oft unheimlich wie von Menschen erstellte Inhalte aussehen.
Am Broad Institute of MIT und Harvard hat eine Gruppe von Forschern, Softwareentwicklern, Administratoren und Kommunikatoren (ja, wir) den Einsatz dieser Chatbots und ähnlicher Tools untersucht, die Community befragt und Empfehlungen entwickelt.
Um tiefer in dieses Thema einzutauchen, sprachen wir mit Mehrtash Babadi, einem Institutswissenschaftler, Direktor für Computermethoden und einem Experten für maschinelles Lernen und KI in der Data Sciences Platform von Broad. Er sprach darüber, wie generative KI-Techniken nicht nur zur Analyse der menschlichen Sprache, sondern auch der Sprache von Genen und Zellen – rohen biologischen Daten – eingesetzt werden können, um Aufschluss darüber zu geben, wie Zellen und Gewebe bei Gesundheit und Krankheit funktionieren.
Er teilte auch seine Gedanken über die Vorteile sprachbasierter generativer Modelle wie ChatGPT, Bard und GitHub Copilot für das Schreiben von Computercode, die Entwicklung von Hypothesen und andere Aufgaben.
„Ich denke, dass diese Systeme nicht nur für Software-Ingenieure und Programmierer immer nützlicher werden, sondern im Grunde auch für alle anderen in allen Berufen, in dem Sinne, dass eine Suchmaschine für den Zugriff auf Informationen zu einem unverzichtbaren Teil unseres Lebens geworden ist“, sagte Babadi. der ChatGPT routinemäßig verwendet, um das Internet zu durchsuchen und E-Mails und Recherchezusammenfassungen zu schreiben.
Das folgende Gespräch wurde (von Menschen) aus Gründen der Länge und Klarheit bearbeitet.
Wie haben Sie über generative KI in der Biologie nachgedacht?
Generative KI ist etwas, das sich in der Community des maschinellen Lernens schon seit langem zusammenbraut und auf die Grundprinzipien der Bayes’schen Statistik zurückgeht. Wir verwenden diese schon seit langem, um verschiedene Aspekte der Biologie zu modellieren, wie z. B. Genomvariation, experimentelle Artefakte, Einzelzellbiologie und andere Bereiche.
Mit der Weiterentwicklung dieser Modelle, ihrer Kombination mit tiefen neuronalen Netzen, riesigen Mengen an Trainingsdaten und Rechenleistung und insbesondere den Fortschritten dieser Modelle bei der Generierung von Bildern und natürlicher Sprache sind sie nun wirklich explodiert, und plötzlich sind es alle begeistert von ihnen.
Wir denken jetzt darüber nach, wie dieselben Ansätze, die bei der Modellierung natürlicher Sprache und Bilder so erfolgreich waren, zum Erlernen der intrinsischen, angeborenen Sprache biologischer Systeme wie Zellen und Gewebe und zur Vorhersage ihres Schicksals und ihrer Reaktion auf verschiedene Reize in silico verwendet werden könnten. Das ist für uns ein Bereich aktiver Forschung, und wir haben schon ein paar Fortschritte gemacht, aber es gibt noch viel zu tun.
Können Sie näher erläutern, wie generative KI zur Analyse biologischer Daten eingesetzt werden kann?
Derzeit herrscht große Begeisterung für ChatGPT und ähnliche Konversations-KI-Systeme, und das aus gutem Grund, denn es handelt sich um wirklich leistungsfähige und leistungsstarke Systeme, und es gibt auch viele neue Arbeiten auf diesem Gebiet, die zeigen, dass diese Modelle auch ein gutes Verständnis haben der Biologie. Sie können ihnen Fragen stellen wie „Was ist die Funktion dieses Gens?“ und sie werden es Ihnen sagen, weil sie Lehrbücher und Aufsätze gelesen haben. Die Modelle haben also gelernt, was wir über Biologie wissen.
Und genau das ist das Problem, denn über viele Aspekte der Biologie wissen wir nicht viel! Unser Verständnis der Biologie entwickelt sich immer noch weiter und ist sehr voreingenommen, und ein Teil der Literatur ist nicht einmal reproduzierbar. Die natürlichen Sprachmodelle werden auf diesem Substrat trainiert und unterliegen daher denselben Vorurteilen und unvollständigen Verständnissen der Biologie wie wir.
Wir versuchen also, die Sprache biologischer Systeme direkt aus rohen biologischen Messungen und Daten zu lernen, ohne dazwischen eine menschliche Interpretation.
Wie würde ein Forscher ein generatives Modell verwenden, das auf biologischen Rohdaten trainiert wurde?
Sie können sich beispielsweise ein generatives Modell vorstellen, das anhand biologischer Daten trainiert wurde, die beschreiben, wie bestimmte Gewebe oder Zellen funktionieren, und dieses Modell dann verwenden, um Daten zu generieren, die neue Zellzustände oder neue Gewebe beschreiben. Sie können sogar Modelle erstellen, die Sie mit etwas wie „Hier ist eine Zelle in einem Gewebe, erzeugen Sie eine weitere Zelle in der Nähe“ veranlassen können, um beispielsweise Vorhersagen darüber zu treffen, wie verschiedene Zellen zusammenarbeiten könnten, um ein Gewebe zu bilden.
Diese Modelle könnten auch anhand interventioneller Daten wie genetischer oder pharmakologischer Screenings verfeinert werden, um zu lernen, zukünftige Screenings vorherzusagen. Kurz gesagt, generative Modelle haben das Potenzial, viele Aspekte der Zell- und Gewebebiologie und Störungsscreenings zu rechnerisieren.
Was jetzt sehr interessant wird, ist die Verknüpfung dieser Zell- und Gewebemodelle mit Modellen natürlicher Sprache. Wir können also natürliche Sprachmodelle und die unvoreingenommeneren und umfassenderen Zellmodelle nehmen und sie dann zu einem System zusammenführen, das leistungsfähiger ist als jedes einzelne davon. Dabei handelt es sich um einen aktiven Bereich der KI-Forschung namens multimodale generative KI, bei dem man grundsätzlich generative Modelle verschiedener Modalitäten kombiniert oder sie miteinander verbindet und ihnen ermöglicht, miteinander zu kommunizieren.
Dies hat den Vorteil, dass Sie mit den Modellen, die auf der angeborenen Sprache der Biologie basieren, die Voreingenommenheit vermeiden, die den natürlichsprachlichen Modellen der Biologie innewohnt. Aber Sie können die Modelle natürlicher Sprache verwenden, um es einem menschlichen Wissenschaftler zu ermöglichen, die richtigen Eingabeaufforderungen einzugeben.
Welche Fortschritte wurden in der multimodalen generativen KI für die Biologie erzielt?
Wir verfügen mittlerweile über eine multimodale generative KI für natürliche Sprache und Text, natürliche Sprache und Bilder, aber generative KI-Modelle biologischer Systeme stecken noch in den Kinderschuhen. Wir haben noch keine multimodalen KI-Systeme gesehen, die natürliche Sprache mit der Sprache biologischer Systeme kombinieren.
Kann generative KI für die Hypothesengenerierung nützlich sein?
Ein mögliches Beispiel, das mir einfällt, ist ein typisches Arzneimittelentwicklungsprojekt, bei dem wir den zugrunde liegenden Mechanismus einer Krankheit verstehen und dann ein therapeutisches Ziel identifizieren möchten. Derzeit geschieht dies in der Regel durch eine Kombination aus Fachkenntnissen von Experten und der Gestaltung sehr intelligenter Experimente, die intelligente Hypothesen mithilfe innovativer Techniken zur Manipulation von Zellen und so weiter testen.
Aber da wir immer mehr Experimente dieser Art durchführen, ist jedes dieser Experimente eine Art Lektion für ein generatives KI-System, das sagt: „Hier ist eine Zelle und hier ist, wie wir eingegriffen haben, und hier ist, was passiert ist.“ Und je mehr dieser Lektionen wir katalogisieren, desto besser können wir einem generativen KI-System beibringen, zukünftige Experimente vorherzusagen, ohne dass wir sie alle im Labor durchführen müssen. Es besteht die enorme Möglichkeit, alle bisher gesammelten experimentellen Daten wiederzuverwenden.
Aber werden einige dieser Vorhersagen nicht falsch sein?
Auch wenn diese generativen Modelle manchmal falsch sind, sind sie nicht ganz falsch. Das heißt, wenn man sie beispielsweise zur Identifizierung eines bestimmten therapeutischen Ziels verwendet und die Systeme entsprechend trainiert sind, ist es sehr wahrscheinlich, dass zumindest einige dieser Ziele tatsächlich Sinn ergeben.
Das ist wahrscheinlich eine der besten Anwendungen dieser Systeme: ihre Ergebnisse als potenzielle Hypothesen zu betrachten und sie dann einer experimentellen Validierung zu unterziehen. Abhängig von der Art des Ergebnisses werden die resultierenden Daten aus den Folgeexperimenten entweder die Annahme des Modells verstärken oder sie korrigieren, wodurch es letztendlich für zukünftige Abfragen etwas genauer wird.
Lassen Sie uns über die Modelle natürlicher Sprache wie ChatGPT sprechen. Wie nützlich sind diese Tools für die Codierung und Softwareentwicklung?
Einige von uns verwenden GitHub Copilot, ein System, das Programmierern dabei hilft, einige der eher standardmäßigen Standardteile des Codes zu schreiben, anstatt die innovativsten und anspruchsvollsten Teile. Diese Systeme sind wirklich gut darin, Ihnen dabei zu helfen, Teile Ihres Codes zu schreiben, die jeder schreiben kann, aber Sie müssen es trotzdem tun.
Diese Systeme sind auch sehr gut darin, Ihnen bei der Dokumentation Ihres Codes und der Kommentierung Ihres Codes zu helfen. Deshalb nutzen wir diese Systeme derzeit für diese Zwecke und als intelligentere Versionen der herkömmlichen Code-Vervollständigungssysteme.
Haben Sie Bedenken hinsichtlich dieser Sprachmodelle, etwa Ungenauigkeiten oder möglichen Missbrauch?
Die Herausforderung besteht darin, dass diese Modelle bekanntermaßen hin und wieder „halluzinieren“ oder einfach nur sehr selbstbewusst lügen. Sie müssen also selbst eine Faktenprüfung durchführen. Was Missbrauch betrifft, mache ich mir weniger Sorgen um die Wissenschafts- und Ingenieursgemeinschaft, da Wissenschaftler und Ingenieure aufgrund ihrer Ausbildung Skeptiker sind und dazu neigen, die Dinge nicht für bare Münze zu nehmen. Selbst wenn sie ein generatives KI-System zur Lösung eines Problems verwenden würden, würden sie die Ergebnisse dieser Systeme testen.
Ich denke, ich würde mir mehr Sorgen machen, wie diese Systeme in anderen Bereichen ausgenutzt werden könnten, etwa zur Generierung von Fehlinformationen und in anderen Diskursen, in denen die Menschen nicht so geneigt sind, ihre eigenen Fakten zu überprüfen. Da mache ich mir Sorgen, insbesondere weil diese Systeme Inhalte viel, viel schneller generieren können als wir. Es ist also sehr einfach, den Raum sozusagen mit vielen absichtlich falschen, von der KI generierten Inhalten zu überschwemmen.
Aber als Werkzeuge für die biologische Forschung und Softwareentwicklung halte ich es für vielversprechend, einige Teile der Forschung effizienter zu gestalten. Die Geschwindigkeit, mit der wir Daten generieren, die exponentiell zunimmt, übersteigt bei weitem unsere Expertenfähigkeit, diese Daten zu verstehen. Hier könnten generative KI und allgemein maschinelles Lernen und andere KI-Methoden äußerst nützlich sein, um uns dabei zu helfen, die Regelmäßigkeiten, Gemeinsamkeiten und Unterschiede in all diesen Daten auf eine Weise aufzudecken, die weniger voreingenommen, aber auch effizienter und schneller ist als wir Menschen tun können.