Menschen sind gut darin, sich Bilder anzusehen und Muster zu finden oder Vergleiche anzustellen. Sehen Sie sich zum Beispiel eine Sammlung von Hundefotos an und Sie können sie nach Farbe, Ohrgröße, Gesichtsform usw. sortieren. Aber könnten Sie sie quantitativ vergleichen? Und vielleicht noch interessanter: Könnte eine Maschine aussagekräftige Informationen aus Bildern extrahieren, die Menschen nicht können?
Jetzt hat ein Team von Wissenschaftlern des Chan Zuckerberg Biohub der Standford University eine maschinelle Lernmethode entwickelt, um Bilder – in diesem Fall Mikroskopiebilder von Proteinen – ohne Vorkenntnisse quantitativ zu analysieren und zu vergleichen. Wie in berichtet Naturmethoden, ihr Algorithmus, der als „Cytoself“ bezeichnet wird, liefert umfassende, detaillierte Informationen über die Lokalisierung und Funktion von Proteinen innerhalb einer Zelle. Diese Fähigkeit könnte die Forschungszeit für Zellbiologen verkürzen und schließlich dazu verwendet werden, den Prozess der Arzneimittelentdeckung und des Arzneimittelscreenings zu beschleunigen.
„Das ist sehr aufregend – wir wenden KI auf eine neue Art von Problem an und stellen trotzdem alles wieder her, was Menschen wissen, und noch mehr“, sagte Loic Royer, Co-Korrespondenzautor der Studie. „In Zukunft könnten wir das für verschiedene Arten von Bildern machen. Das eröffnet viele Möglichkeiten.“
Cytoself demonstriert nicht nur die Leistungsfähigkeit maschineller Lernalgorithmen, es hat auch Einblicke in Zellen, die Grundbausteine des Lebens, und in Proteine, die molekularen Bausteine von Zellen, generiert. Jede Zelle enthält ungefähr 10.000 verschiedene Arten von Proteinen – einige arbeiten alleine, viele arbeiten zusammen und erledigen verschiedene Aufgaben in verschiedenen Teilen der Zelle, um sie gesund zu halten. „Eine Zelle ist räumlich viel besser organisiert, als wir bisher dachten. Das ist ein wichtiges biologisches Ergebnis darüber, wie die menschliche Zelle verdrahtet ist“, sagte Manuel Leonetti, ebenfalls Mitautor der Studie.
Und wie alle bei CZ Biohub entwickelten Tools ist auch Cytoself Open Source und für alle zugänglich. „Wir hoffen, dass es viele Menschen dazu inspirieren wird, ähnliche Algorithmen zu verwenden, um ihre eigenen Bildanalyseprobleme zu lösen“, sagte Leonetti.
Ganz zu schweigen von einem Doktortitel, Maschinen können selbst lernen
Cytoself ist ein Beispiel für das sogenannte selbstüberwachte Lernen, das heißt, der Mensch bringt dem Algorithmus nichts über die Proteinbilder bei, wie es beim überwachten Lernen der Fall ist. „Beim überwachten Lernen muss man der Maschine einen nach dem anderen mit Beispielen beibringen, das ist viel Arbeit und sehr mühsam“, sagt Hirofumi Kobayashi, Erstautor der Studie. Und wenn die Maschine auf die Kategorien beschränkt ist, die Menschen ihr beibringen, kann sie Vorurteile in das System einbringen.
„Manu [Leonetti] glaubten, die Informationen seien bereits in den Bildern enthalten“, sagte Kobayashi. „Wir wollten sehen, was die Maschine selbst herausfinden kann.“
Tatsächlich war das Team, zu dem auch der CZ Biohub-Softwareingenieur Keith Cheveralls gehörte, überrascht, wie viele Informationen der Algorithmus aus den Bildern extrahieren konnte.
„Der Detaillierungsgrad bei der Proteinlokalisierung war viel höher, als wir gedacht hätten“, sagte Leonetti, dessen Gruppe Werkzeuge und Technologien zum Verständnis der Zellarchitektur entwickelt. „Die Maschine wandelt jedes Proteinbild in einen mathematischen Vektor um. Dann kann man damit beginnen, Bilder zu sortieren, die gleich aussehen. Wir haben festgestellt, dass wir auf diese Weise mit hoher Genauigkeit Proteine vorhersagen können, die in der Zelle zusammenarbeiten, indem wir einfach ihre Bilder vergleichen.“ , was irgendwie überraschend war.“
Das Erste seiner Art
Während es einige frühere Arbeiten zu Proteinbildern mit selbstüberwachten oder nicht überwachten Modellen gab, wurde selbstüberwachtes Lernen noch nie so erfolgreich bei einem so großen Datensatz von über 1 Million Bildern eingesetzt, der über 1.300 Proteine abdeckt, die von lebenden menschlichen Zellen gemessen wurden, sagte er Kobayashi, ein Experte für maschinelles Lernen und Hochgeschwindigkeitsbildgebung.
Die Bilder waren ein Produkt von OpenCell von CZ Biohub, einem von Leonetti geleiteten Projekt zur Erstellung einer vollständigen Karte der menschlichen Zelle, einschließlich der Charakterisierung der etwa 20.000 Arten von Proteinen, die unsere Zellen antreiben. Veröffentlicht Anfang dieses Jahres in Wissenschaft waren die ersten 1.310 Proteine, die sie charakterisierten, einschließlich Bildern von jedem Protein (erzeugt unter Verwendung einer Art fluoreszierender Markierung) und Kartierungen ihrer Wechselwirkungen untereinander.
Cytoself war der Schlüssel zum Erfolg von OpenCell (alle Bilder verfügbar unter opencell.czbiohub.org), die sehr detaillierte und quantitative Informationen zur Proteinlokalisierung liefert.
„Die Frage nach all den Möglichkeiten, wie sich ein Protein in einer Zelle lokalisieren kann – an allen Orten, an denen es sich befinden kann, und an allen möglichen Kombinationen von Orten – ist von grundlegender Bedeutung“, sagte Royer. „Biologen haben über Jahrzehnte versucht, alle möglichen Orte und alle möglichen Strukturen innerhalb einer Zelle zu bestimmen. Aber das wurde immer von Menschen gemacht, die sich die Daten ansahen. Die Frage ist, wie viel menschliche Einschränkungen und Vorurteile haben diesen Prozess unvollkommen gemacht?“
Royer fügte hinzu: „Wie wir gezeigt haben, können Maschinen das besser als Menschen. Sie können feinere Kategorien finden und Unterschiede in den Bildern erkennen, die extrem fein sind.“
Das nächste Ziel des Teams für Cytoself ist es, zu verfolgen, wie kleine Änderungen in der Proteinlokalisierung verwendet werden können, um unterschiedliche Zellzustände zu erkennen, beispielsweise eine normale Zelle gegenüber einer Krebszelle. Dies könnte der Schlüssel zum besseren Verständnis vieler Krankheiten sein und die Wirkstoffforschung erleichtern.
„Drogenscreening ist im Grunde Versuch und Irrtum“, sagte Kobayashi. „Aber mit Cytoself ist dies ein großer Sprung, da Sie keine Experimente einzeln mit Tausenden von Proteinen durchführen müssen. Es ist eine kostengünstige Methode, die die Forschungsgeschwindigkeit erheblich steigern könnte.“
Hirofumi Kobayashi et al, Selbstüberwachtes tiefes Lernen codiert hochauflösende Merkmale der subzellulären Lokalisierung von Proteinen, Naturmethoden (2022). DOI: 10.1038/s41592-022-01541-z