Ein Fisch wedelt an Land immer noch mit seinen Flossen, aber die Ergebnisse sind deutlich anders, wenn sich der Fisch im Wasser befindet. Zugeschrieben Der renommierte Informatiker Alan Kay nutzt diese Analogie, um zu veranschaulichen, wie wichtig der Kontext für die Beantwortung untersuchter Fragen ist.
Ein Tool namens PINNACLE verkörpert erstmals im Bereich der künstlichen Intelligenz (KI) Kays Erkenntnisse zum Verständnis des Verhaltens von Proteinen in ihrem richtigen Kontext, der durch die Gewebe und Zellen bestimmt wird, in denen diese Proteine wirken und mit denen sie interagieren. Insbesondere überwindet PINNACLE einige der Einschränkungen aktueller KI-Modelle, die zwar die Funktion und Fehlfunktion von Proteinen analysieren, dies jedoch isoliert tun, jeweils eine Zelle und einen Gewebetyp nach dem anderen.
Die Entwicklung des neuen KI-Modells, beschrieben in Naturmethodenwurde von Forschern der Harvard Medical School geleitet.
„Die natürliche Welt ist vernetzt und PINNACLE hilft, diese Verbindungen zu identifizieren, die wir nutzen können, um detailliertere Erkenntnisse über Proteine und sicherere, wirksamere Medikamente zu gewinnen“, sagte die leitende Autorin der Studie, Marinka Zitnik, Assistenzprofessorin für Biomedizinische Informatik am Blavatnik Institute der HMS. „Es überwindet die Einschränkungen aktueller, kontextfreier Modelle und schlägt die zukünftige Richtung für die Verbesserung der Analyse von Proteininteraktionen vor.“
Dieser Fortschritt, so die Forscher, könne das derzeitige Verständnis über die Rolle von Proteinen bei Gesundheit und Krankheit voranbringen und neue Angriffspunkte für Medikamente aufzeigen, die die Entwicklung präziserer und maßgeschneiderterer Therapien ermöglichen.
PINNACLE ist frei verfügbar für Wissenschaftler überall.
Ein großer Schritt nach vorne
Die Wechselwirkungen zwischen Proteinen und die Auswirkungen ihrer biologischen Nachbarn zu entwirren, ist schwierig. Aktuelle Analysetools erfüllen einen wichtigen Zweck, indem sie Informationen über die strukturellen Eigenschaften und Formen einzelner Proteine liefern. Diese Tools sind jedoch nicht darauf ausgelegt, die kontextuellen Nuancen der gesamten Proteinumgebung zu berücksichtigen. Stattdessen erstellen sie kontextfreie Proteindarstellungen, was bedeutet, dass ihnen kontextbezogene Informationen zu Zelltyp und Gewebetyp fehlen.
Proteine spielen jedoch in den verschiedenen Zell- und Gewebekontexten, in denen sie sich befinden, unterschiedliche Rollen, und zwar auch abhängig davon, ob dasselbe Gewebe oder dieselbe Zelle gesund oder krank ist. Einzelprotein-Darstellungsmodelle können keine Proteinfunktionen identifizieren, die in den verschiedenen Kontexten variieren.
Beim Verhalten von Proteinen kommt es auf die Lage an
Proteine bestehen aus zwanzig verschiedenen Aminosäuren und bilden die Bausteine von Zellen und Geweben. Sie sind für eine Reihe lebenserhaltender biologischer Funktionen unverzichtbar – vom Sauerstofftransport durch den Körper über die Kontraktion der Muskeln zum Atmen und Gehen bis hin zur Ermöglichung der Verdauung und der Abwehr von Infektionen, um nur einige zu nennen.
Wissenschaftler schätzen, dass es im menschlichen Körper zwischen 20.000 und Hunderttausenden Proteine gibt.
Proteine interagieren untereinander, aber auch mit anderen Molekülen wie DNA und RNA.
Das komplexe Zusammenspiel zwischen und über Proteine hinweg schafft verschachtelte Netzwerke der Proteininteraktion. Diese Netzwerke befinden sich in und zwischen anderen Zellen und sind in viele komplexe Wechselwirkungen mit anderen Proteinen und Proteinnetzwerken verwickelt.
Der Vorteil von PINNACLE liegt in der Fähigkeit, zu erkennen, dass das Verhalten von Proteinen je nach Zelle und Gewebetyp variieren kann. Dasselbe Protein kann in einer gesunden Lungenzelle eine andere Funktion haben als in einer gesunden Nierenzelle oder einer erkrankten Dickdarmzelle.
PINNACLE beleuchtet, wie diese Zellen und Gewebe dieselben Proteine unterschiedlich beeinflussen, was mit aktuellen Modellen nicht möglich ist. Abhängig vom spezifischen Zelltyp, in dem sich ein Proteinnetzwerk befindet, kann PINNACLE bestimmen, welche Proteine an bestimmten Gesprächen teilnehmen und welche schweigen. Dies hilft PINNACLE dabei, die Protein-Überkreuzkommunikation und die Art des Verhaltens besser zu entschlüsseln und ermöglicht es letztendlich, eng zugeschnittene Wirkstoffziele für krankheitsverursachende Proteine vorherzusagen.
Den Forschern zufolge macht PINNACLE Einzeldarstellungsmodelle nicht überflüssig, sondern ergänzt sie, da es Proteininteraktionen in verschiedenen zellulären Kontexten analysieren kann.
PINNACLE könnte es Forschern somit ermöglichen, die Funktion von Proteinen besser zu verstehen und vorherzusagen und zur Aufklärung lebenswichtiger zellulärer Prozesse und Krankheitsmechanismen beizutragen.
Diese Fähigkeit kann dabei helfen, „medikamentenfähige“ Proteine zu identifizieren, die als Zielmoleküle für einzelne Medikamente dienen können, und die Auswirkungen verschiedener Medikamente auf unterschiedliche Zelltypen vorherzusagen. PINNACLE könnte daher für Wissenschaftler und Arzneimittelentwickler ein wertvolles Werkzeug werden, um potenzielle Zielmoleküle viel effizienter zu identifizieren.
Eine solche Optimierung des Arzneimittelentdeckungsprozesses sei dringend erforderlich, sagte Zitnik, der auch außerordentlicher Professor am Kempner Institute for the Study of Natural and Artificial Intelligence der Harvard University ist.
Es kann 10 bis 15 Jahre dauern und bis zu einer Milliarde Dollar kosten, ein neues Medikament auf den Markt zu bringen. Der Weg von der Entdeckung bis zum Medikament ist bekanntermaßen holprig und das Endergebnis oft unvorhersehbar. Fast 90 Prozent der Medikamentenkandidaten werden nicht zu Medikamenten.
Aufbau und Training PINNACLE
Mithilfe von menschlichen Zelldaten aus einem umfassenden Multiorganatlas, kombiniert mit mehreren Netzwerken aus Protein-Protein-Interaktionen, Zelltyp-zu-Zelltyp-Interaktionen und Geweben, trainierten die Forscher PINNACLE darauf, grafische Panoramadarstellungen von Proteinen zu erstellen, die 156 Zelltypen und 62 Gewebe und Organe umfassen.
PINNACLE hat bis heute fast 395.000 mehrdimensionale Darstellungen generiert, verglichen mit etwa 22.000 möglichen Darstellungen bei aktuellen Einzelproteinmodellen. Jeder seiner 156 Zelltypen enthält kontextreiche Proteininteraktionsnetzwerke mit etwa 2.500 Proteinen.
Die aktuelle Anzahl der Zelltypen, Gewebe und Organe stellt nicht die Obergrenze des Modells dar. Die bisher untersuchten Zelltypen stammen von lebenden menschlichen Spendern und decken die meisten, aber nicht alle Zelltypen des menschlichen Körpers ab. Darüber hinaus wurden viele Zelltypen noch nicht identifiziert, während andere selten oder schwer zu untersuchen sind, wie etwa Neuronen im Gehirn.
Um das Zellrepertoire von PINNACLE zu erweitern, plant Zitnik die Nutzung einer Datenplattform, die Dutzende Millionen von Zellen umfasst, die aus dem gesamten menschlichen Körper entnommen wurden.
Weitere Informationen:
Michelle M. Li et al, Kontextuelle KI-Modelle für die Einzelzellproteinbiologie, Naturmethoden (2024). DOI: 10.1038/s41592-024-02341-3