Neuartige KI-basierte Software ermöglicht eine schnelle und zuverlässige Abbildung von Proteinen in Zellen

Die EU schlaegt einen 12 Milliarden Dollar Plan vor um den wachsenden Cybersicherheitsbedrohungen

Die Elektronen-Kryo-Tomographie (Kryo-ET) entwickelt sich zu einer leistungsstarken Technik zur Bereitstellung detaillierter 3D-Bilder zellulärer Umgebungen und eingeschlossener Biomoleküle. Eine der Herausforderungen der Methodik ist jedoch die Identifizierung von Proteinmolekülen in den Bildern zur weiteren Verarbeitung.

Ein Forschungsteam um Stefan Raunser, Direktor am MPI für Molekulare Physiologie in Dortmund, unter der Leitung von Thorsten Wagner, entwickelte eine Software zur Auswahl von Proteinen in überfüllten Zellvolumina. Das neue Open-Source-Tool namens TomoTwin basiert auf Deep-Metric-Learning und ermöglicht es Wissenschaftlern, mehrere Proteine ​​mit hoher Genauigkeit und Durchsatz zu lokalisieren, ohne das Netzwerk jedes Mal manuell erstellen oder neu trainieren zu müssen.

Der Artikel wird in der Zeitschrift veröffentlicht Naturmethoden.

„TomoTwin ebnet den Weg für die automatisierte Identifizierung und Lokalisierung von Proteinen direkt in ihrer zellulären Umgebung und erweitert so das Potenzial der Kryo-ET“, sagt Gavin Rice, Co-Erstautor der Veröffentlichung. Kryo-ET hat das Potenzial, die Funktionsweise von Biomolekülen in einer Zelle zu entschlüsseln und so die Grundlagen des Lebens und den Ursprung von Krankheiten aufzudecken.

In einem Kryo-ET-Experiment verwenden Wissenschaftler ein Transmissionselektronenmikroskop, um 3D-Bilder, sogenannte Tomogramme, des Zellvolumens zu erhalten, das komplexe Biomoleküle enthält. Um ein detaillierteres Bild jedes einzelnen Proteins zu erhalten, mitteln sie so viele Kopien wie möglich davon – ähnlich wie Fotografen, die dasselbe Foto mit unterschiedlichen Belichtungen aufnehmen, um sie später zu einem perfekt belichteten Bild zu kombinieren. Entscheidend ist, dass man die verschiedenen Proteine ​​im Bild richtig identifizieren und lokalisieren kann, bevor man sie mittelt. „Wissenschaftler können Hunderte von Tomogrammen pro Tag erstellen, aber uns fehlten die Werkzeuge, um die darin enthaltenen Moleküle vollständig zu identifizieren“, sagt Rice.

Bisher haben Forscher Algorithmen verwendet, die auf Vorlagen bereits bekannter Molekülstrukturen basieren, um in den Tomogrammen nach Übereinstimmungen zu suchen, diese sind jedoch tendenziell fehleranfällig. Die manuelle Identifizierung von Molekülen ist eine weitere Option, die eine qualitativ hochwertige Auswahl gewährleistet, aber pro Datensatz Tage bis Wochen dauert.

Eine andere Möglichkeit wäre der Einsatz einer Form des überwachten maschinellen Lernens. Diese Tools können sehr genau sein, sind jedoch derzeit nicht benutzerfreundlich, da sie die manuelle Kennzeichnung Tausender Beispiele erfordern, um die Software für jedes neue Protein zu trainieren, eine nahezu unmögliche Aufgabe für kleine biologische Moleküle in einer überfüllten zellulären Umgebung.

TomoTwin

Die neu entwickelte Software TomoTwin überwindet viele dieser Hindernisse: Sie lernt, die Moleküle auszuwählen, die in einem Tomogramm eine ähnliche Form haben, und ordnet sie einem geometrischen Raum zu – das System wird dafür belohnt, wenn es ähnliche Proteine ​​nahe beieinander platziert, andernfalls wird es bestraft. Mit der neuen Karte können Forscher die verschiedenen Proteine ​​isolieren, genau identifizieren und sie so innerhalb der Zelle lokalisieren.

„Ein Vorteil von TomoTwin besteht darin, dass wir ein vorab trainiertes Kommissioniermodell bereitstellen“, sagt Rice. Durch den Wegfall des Trainingsschritts kann die Software sogar auf lokalen Computern laufen – wo die Bearbeitung eines Tomogramms normalerweise 60–90 Minuten dauert, reduziert sich die Laufzeit auf dem MPI-Supercomputer Raven auf 15 Minuten pro Tomogramm.

TomoTwin ermöglicht es Forschern, Dutzende von Tomogrammen in der Zeit auszuwählen, die für die manuelle Auswahl eines einzigen benötigt wird, wodurch der Datendurchsatz und die Mittelungsrate erhöht werden, um ein besseres Bild zu erhalten. Die Software kann derzeit globuläre Proteine ​​oder Proteinkomplexe mit einer Größe von mehr als 150 Kilodalton in Zellen lokalisieren; In Zukunft möchte die Raunser-Gruppe Membranproteine, filamentöse Proteine ​​und Proteine ​​kleinerer Größe einbeziehen.

Mehr Informationen:
Gavin Rice et al, TomoTwin: verallgemeinerte 3D-Lokalisierung von Makromolekülen in Kryo-Elektronentomogrammen mit Strukturdaten-Mining, Naturmethoden (2023). DOI: 10.1038/s41592-023-01878-z

Zur Verfügung gestellt von der Max-Planck-Gesellschaft

ph-tech