KI hält Einzug in alle Bereiche der Biotechnologie- und Pharmaforschung, aber wie in anderen Branchen ist die Implementierung nie so einfach, wie man es gerne hätte. Konvergieren Sie Bio hat ein Tool für Unternehmen entwickelt, mit dem sie ihre auf Biologie ausgerichteten LLMs tatsächlich zum Laufen bringen können, von der „Anreicherung“ ihrer Daten bis hin zur Erklärung ihrer Antworten. Das Unternehmen hat in einer Seed-Runde 5,5 Millionen US-Dollar eingesammelt, um sein Produkt zu skalieren.
„Ein Model ist nur ein Model. Das reicht nicht aus“, sagte CEO und Mitbegründer Dov Gertz. „Es muss eine Pipeline erstellt werden, damit Unternehmen das Modell tatsächlich in ihrem eigenen F&E-Prozess nutzen können. Der Markt ist sehr fragmentiert, aber Pharma- und Biotech-Unternehmen wollen diese Technologie konsolidiert und an einem Ort nutzen. Wir wollen dieser Ort sein.“
Wenn Sie kein Ingenieur für maschinelles Lernen sind, der in der Arzneimittelforschung arbeitet, ist dieses Problem für Sie möglicherweise kein bekanntes Problem. Aber im Grunde gibt es leistungsstarke Grundmodelle, große Sprachmodelle, die nicht auf Büchern und dem Internet basieren, sondern auf riesigen Datenbanken mit DNA, Proteinstrukturen und Genomik.
Dies sind leistungsstarke und vielseitige Modelle, aber wie die LLMs, die in Produkten wie ChatGPT und Cursor verwendet werden, erfordern sie viel Arbeit, um sie in eine Form zu bringen, die Menschen tatsächlich täglich verwenden können. Besonders schwierig ist diese Arbeit in Spezialgebieten wie der Mikrobiologie oder der Immunologie. Es ist kein triviales Problem, ein „rohes“ LLM, das auf Milliarden von Proteinsequenzen trainiert wurde, zu etwas zu machen, das ein Labortechniker im Rahmen seiner normalen Forschung verwenden kann.
Als Beispiel schlug Gertz die Antikörperforschung vor. Es gibt einen LLM mit einer Ausbildung in Antikörper-spezifischer Biologie, der jedoch sehr allgemein gehalten ist. Converge Bio bietet eine Reihe von Verbesserungen, die sicher und unter Verwendung der unternehmenseigenen IP durchgeführt werden können.
Erstens handelt es sich um die „Datenanreicherung“, bei der das Antikörper-LLM um wichtige verwandte Daten wie Antigen-Antikörper- und Protein-Protein-Wechselwirkungen erweitert wird. Anschließend kann mit spezifischerem Wissen eine Feinabstimmung auf das spezifische Antigen vorgenommen werden, auf das das Team abzielen möchte und zu dem möglicherweise proprietäre In-Dish-Daten vorliegen.
„Jetzt haben wir eine Anwendung: Die Eingabe ist eine Sequenz, die Ausgabe ist die Bindungsaffinität“, sagte Gertz. Dann bietet die Plattform eine weitere wichtige Ebene: Erklärbarkeit. Forscher können die Ausgabe genauer untersuchen, um nicht nur herauszufinden, dass „diese Sequenz besser funktioniert als diese“, sondern auch bis auf die Ebene der Aminosäuren oder Basenpaare zu lokalisieren, um welchen Teil der Sequenz es sich zu handeln scheint Herstellung es funktioniert besser.
Schließlich werden neue Sequenzen generiert, die bessere Ergebnisse liefern und auch erklärbarer sind. Gertz bemerkte, dass die Erklärbarkeit sie mit ihrer Beliebtheit bei Kunden überrascht habe – sie sei sinnvoll, da sie es Experten ermögliche, ihr Fachwissen (z. B. Proteininteraktionen) auf diesen neueren und unbekannteren Bereich der Bioinformatik und des maschinellen Lernens anzuwenden.
Converge nutzt die vielen verfügbaren Open-Source- und kostenlosen Foundation-Modelle, arbeitet aber auch an der Entwicklung eigener Modelle. Für den Erklärbarkeitsteil gebe es bereits einen proprietären Prozess, sagte Gertz. Und der „Lehrplan“ zur Datenanreicherung liegt ebenfalls ganz bei ihnen – kein trivialer Prozess. Er wies darauf hin, dass Trainingsmethoden eines der wenigen streng gehüteten Geheimnisse der erfolgreichsten KI-Unternehmen seien.
Das ist Teil des Burggrabens, den sie bauen wollen, zusammen mit der Tatsache, dass. Wie Gertz es ausdrückte: „Dies ist wahrscheinlich die größte Chance in der Biotechnologie seit fünf Jahrzehnten.“
Dennoch verfügen viele, vielleicht sogar die meisten Biotech-Unternehmen nicht über eine dedizierte Lösung für LLM-bezogene Arbeiten in ihrem Bereich und für die aktive Erschließung von Nischen, für die allgemeine Lösungen nicht geeignet sind.
„Die Idee besteht darin, der Alles-Shop für genAI in der Biotechnologie zu sein und dies dann als Keil zu nutzen, um im Laufe der Zeit mehr anzubieten“, sagte Gertz. „Das Verhalten in der Pharma- und Biobranche ist, dass sie, sobald sie Verbindungen zu einem Anbieter haben, dem sie vertrauen, diese in anderen Anwendungsfällen nutzen möchten, sei es bei der Entwicklung von Antikörpern oder Impfstoffen. Deshalb denke ich, dass diese Positionierung für diesen Moment auf dem Markt am besten ist.“
Die Investoren scheinen dem zuzustimmen und stecken 5,5 Millionen US-Dollar in eine von TLV-Partnern angeführte Seed-Runde.
Das Unternehmen wird das Geld verwenden, um Kunden anzuwerben und zu akquirieren, wie es Startups in dieser Phase häufig tun, aber es wird auch eine wissenschaftliche Arbeit über das Antikörperdesign veröffentlichen (natürlich unter Verwendung seiner eigenen Systeme) und „ein geeignetes Grundlagenmodell trainieren“. ”