Seit Jahrzehnten arbeiten Strukturbiologen daran, die molekularen 3D-Strukturen von Proteinen zu knacken, um ihre Funktion zu verstehen. Was aber, wenn ein Protein keine feste Struktur hat? Bei Molekülen, die ständig ihre Form ändern, können sowohl die Forschung als auch die Weitergabe der Erkenntnisse innerhalb der wissenschaftlichen Gemeinschaft kompliziert sein. EMBL-Wissenschaftler haben zu neuen Richtlinien beigetragen, die den Datenaustausch effizienter gestalten werden. Die Forschung wird in der Zeitschrift veröffentlicht Naturmethoden.
Im Wesentlichen handelt es sich bei Proteinen um Ketten aus Aminosäuren, von denen sich viele wie Origami zu einer dreidimensionalen Struktur falten. Einige Proteine bleiben jedoch lieber als wackelige Schnur, ähnlich wie gekochte Spaghetti (wobei man die Tatsache außer Acht lässt, dass Spaghetti hauptsächlich aus Kohlenhydraten bestehen). Tatsächlich sind etwa ein Drittel aller bekannten Proteine ganz oder teilweise spaghettiartig.
Das bedeutet jedoch nicht, dass sie keine Funktion erfüllen. Ganz im Gegenteil. Diese zusätzliche Flexibilität verleiht Proteinen verschiedene Fähigkeiten, beispielsweise die Anpassung ihrer eigenen Form an die Form anderer Moleküle. Auf diese Weise können sie mit vielfältigeren Molekülen interagieren und dadurch an einer größeren Anzahl zellulärer Prozesse teilnehmen, als es ein Protein mit starrer Struktur könnte.
Das Verständnis unstrukturierter Proteine – auch bekannt als „intrinsisch ungeordnete Proteine“ – ist wichtig, da sie an vielen Krankheitsprozessen wie Krebs, Neurodegeneration und Virusinfektionen beteiligt sind.
Proteindaten aussagekräftig machen
Wissenschaftliche Daten, einschließlich solcher im Zusammenhang mit ungeordneten Proteinen, sind für die Gemeinschaft am nützlichsten, wenn sie erneut analysiert und mit anderen Datensätzen integriert werden können, um neue Forschungsfragen zu untersuchen. Um dies zu ermöglichen, sollten die Daten genau beschrieben und offen zugänglich sein. Dies wird in der Regel durch die Übermittlung von Daten an öffentliche Datenquellen erreicht, beispielsweise an die vom EMBL-EBI verwalteten. Zu den am häufigsten verwendeten Proteindatenressourcen gehören UniProt für Proteinsequenzen und Protein Data Bank in Europe (PDBe) für Proteinstrukturen.
Die wissenschaftliche Gemeinschaft hat bereits zahlreiche Richtlinien erstellt, um sicherzustellen, dass Wissenschaftler neben ihren Forschungsdaten auch nützliche Informationen angeben. Jetzt haben das EMBL und seine Mitarbeiter erstmals solche Richtlinien für Daten zu ungeordneten Proteinen entwickelt.
Diese Richtlinien mit dem Namen „Minimum Information About a Disorder Experiment“ (MIADE) richten sich an alle, die an ungeordneten Proteinen arbeiten, und sollen dabei helfen, ihre Daten auf nützliche Weise weiterzugeben. Dieses offene und gemeinsame Framework soll Proteinwissenschaftlern dabei helfen, das Protein-Data-Mining und die Interoperabilität zu verbessern.
„Neben der Definition der Mindestmenge an Informationen über ein Experiment, die erforderlich ist, um die Ergebnisse für andere Wissenschaftler aussagekräftig zu machen, definieren wir auch, wie diese Informationen gemeldet werden“, sagte Bálint Mészáros, ehemaliger Postdoktorand in der Gibson-Gruppe am EMBL Heidelberg und Erstautor von das Papier. „Im Wesentlichen entwickeln wir eine gemeinsame Sprache, die von der Community genutzt werden kann, um die Kommunikation eindeutig zu gestalten.“
Bewältigung von Datenverlusten
„Es ist sehr frustrierend, wenn man einen Artikel liest, der großartige Wissenschaft beschreibt, aber die Daten nicht vollständig verstehen kann, weil etwas wirklich Wichtiges fehlt“, erklärte Sandra Orchard, EMBL-EBI-Teamleiterin für Proteinfunktionsinhalte. „Meistens sind die zusätzlichen Informationen vorhanden, aber die Autoren übersehen die Notwendigkeit, sie weiterzugeben. Es klingt albern, aber einer der größten Datenverluste entsteht, weil die Einreicher nicht sagen, von welcher Spezies das Protein stammt, an dem sie arbeiten.“ “
Mit der Einführung von MIADE durch die Community dürften mehr Daten in öffentliche Datenbanken gelangen. Dadurch können Forscher auf der ganzen Welt auf Informationen zu verwandten Proteinen und Proteinfamilien zugreifen, an denen sie interessiert sind, und ihre Daten mit denen anderer Labore vergleichen. MIADE soll die ungeordnete Proteinforschung „aufräumen“ und sie für Neueinsteiger verständlicher machen.
Die strukturellen Eigenschaften intrinsisch ungeordneter Proteinsysteme können mit verschiedenen experimentellen Techniken untersucht werden, darunter Röntgenkleinwinkelstreuung (SAXS) und Neutronenkleinwinkelstreuung (SANS). SASBDB, die Datenbank für SAXS und SANS, wird vom SAXS-Team des EMBL Hamburg gepflegt und kuratiert, das an der Entwicklung der MIADE-Richtlinien mitgewirkt hat.
„Es ist wichtig, dass wissenschaftliche Ergebnisse geteilt werden. Andernfalls könnten sie als ‚unentdeckte Entdeckungen‘ enden“, sagte Cy Jeffries, wissenschaftlicher Mitarbeiter im SAXS-Team am EMBL Hamburg und Mitautor der Leitlinien. „Es war fantastisch, mit einer vielfältigen Gemeinschaft von Wissenschaftlern, Softwareentwicklern, Programmierern und Datenressourcenmanagern zusammenzuarbeiten. MIADE ist ein Schritt hin zu der Gewährleistung, dass Wissenschaftler und Datenressourcen viel einfacher kommunizieren können, indem wir einen grundlegenden Satz von Begriffen und Ideen verwenden, die wir ( und Computer) können alle erkennen.
MIADE wird auch dazu beitragen, die Nutzung künstlicher Intelligenz für neue Entdeckungen zu ungeordneten Proteinen zu ermöglichen. Die Verfügbarkeit umfangreicher, standardisierter Daten ist für das Training von Werkzeugen für maschinelles Lernen und künstliche Intelligenz von entscheidender Bedeutung. Mit ausreichenden Trainingsdaten könnten Forscher maschinelle Lernwerkzeuge entwickeln, die dabei helfen, neue ungeordnete Proteine vorherzusagen, die Auswirkungen von Proteinmodifikationen zu interpretieren, interagierende Regionen zu identifizieren und vieles mehr.
Eine Gemeinschaftsleistung
Die MIADE-Richtlinien bieten einen systematischen Rahmen für den Austausch experimenteller Definitionen, der neben SASBDB auch vielen anderen Datenbanken zugute kommt, wie BMRB (für Kernspinresonanz, NMR), PCDDB (für Zirkulardichroismus-Spektraldaten) und Protein Ensemble Database (PED). . Dies ist auch wichtig für die Weiterleitung und Kontextualisierung experimenteller Daten an „höher gelegene“ bioinformatische Ressourcen wie DisProt und andere Proteinstruktur-Wissensdatenbanken, wie sie am PDBe entwickelt wurden.
Die MIADE-Richtlinien wurden von Wissenschaftlern aus mehr als 20 Institutionen in 11 Ländern entwickelt. Die Arbeit wurde vom Institute of Cancer Research in London, Großbritannien, geleitet
Mehr Informationen:
Bálint Mészáros et al., Mindestinformationsrichtlinien für Experimente zur strukturellen Charakterisierung intrinsisch ungeordneter Proteinregionen, Naturmethoden (2023). DOI: 10.1038/s41592-023-01915-x