Studie evaluiert Deep-Learning-Modelle, die die funktionellen Eigenschaften von Proteinen entschlüsseln

Soul Hackers 2 Erscheinungsdatum Ankuendigungstrailer enthuellt

Deep-Learning-basierte Sprachmodelle wie BERT, T5, XLNet und GPT sind vielversprechend für die Analyse von Sprache und Texten. In den letzten Jahren wurden sie jedoch auch in den Bereichen Biomedizin und Biotechnologie eingesetzt, um genetische Codes und Proteine ​​zu untersuchen.

Bioinformatiker, Genetiker und Neurowissenschaftler versuchen seit Jahrzehnten, auf die biologische Rolle von Genen und Proteinen zu schließen. Dafür müssen sie allerdings extrem große und hochkomplexe biologische Daten analysieren.

Forscher der Hacettepe University, der Middle East Technical University und der Karadeniz Technical University, Türkei, haben kürzlich eine Studie durchgeführt, in der das Potenzial von auf Deep Learning basierenden Sprachmodellen für die Untersuchung von Proteinen und die Vorhersage ihrer funktionellen Eigenschaften bewertet wurde. Ihre Arbeit, veröffentlicht in Natur-Maschinen-Intelligenzbietet eine wertvolle Zusammenfassung der Vor- und Nachteile verschiedener State-of-the-Art-Ansätze.

„Molekularbiologische Daten können als Sprache modelliert werden (dh die Sprache der Gene/Proteine), so dass die Sequenz eines Gens oder Proteins als Satz mit einer bestimmten Bedeutung in der natürlichen Sprache und der Semantik davon gedacht werden kann Proteinsprache sind die spezifischen biologischen, physikalischen und chemischen Eigenschaften dieser Biomoleküle“, sagte Tunca Doğan, eine der Forscherinnen, die die Studie durchgeführt hat, gegenüber Phys.org. „Basierend auf dieser Idee versucht unsere Arbeit, maschinelle Lernmodelle zu bauen, die von Sprachmodellen abgeleitete hochdimensionale numerische Einbettungen von Proteinen als Eingabe verwenden und ihre funktionellen Eigenschaften mit hoher Genauigkeit vorhersagen.“

In ihrer Arbeit bewerteten Doğan und seine Kollegen die Fähigkeit verschiedener Ansätze zur Modellierung von Proteinsprachen, um verborgene Muster zu extrahieren, die wichtige Hinweise auf die funktionellen Eigenschaften von Proteinen enthalten. Ihre Bewertungen umfassten alle bekanntesten Modellierungsarchitekturen natürlicher Sprache (dh BERT, T5, XLNet, ELMO usw.), von denen jede Hunderte von Millionen oder in einigen Fällen Milliarden von Parametern enthalten kann.

„Das selbstüberwachte Vortraining dieser Modelle erfordert enorme Ressourcen“, erklärte Doğan. „Dank wertvoller früherer Arbeiten zu diesem Thema, die darauf abzielten, Proteinsprachmodelle mit diesen Architekturen vorzutrainieren, konzentrierten wir uns hauptsächlich auf unser sekundäres überwachtes Training zur Vorhersage funktioneller Eigenschaften.“

Um die Proteinsprachmodelle effektiv zu bewerten und ihre Leistung zu vergleichen, musste das Team zunächst große und zuverlässige Testdatensätze mit jeweils unterschiedlichem Schwierigkeitsgrad zusammenstellen. Letztendlich erstellten sie vier Benchmark-Datensätze, die es ihnen ermöglichten, semantische Ähnlichkeiten, auf Ontologien basierende funktionelle Definitionen, Arzneimittel-Zielproteinfamilien und physikalische Wechselwirkungen zwischen Proteinen zu untersuchen. All dies sind entscheidende biologische Mechanismen, von denen bekannt ist, dass sie eng mit dem Auftreten und Fortschreiten von genetisch vererbten Krankheiten wie verschiedenen Krebsarten verbunden sind.

„Unser vielleicht bemerkenswertestes Ergebnis war, dass diese tiefen Sprachmodelle in der Lage sind, die funktionellen Eigenschaften von Proteinen erfolgreich zu lernen, indem sie die Aminosäuresequenzen als einzige Eingabe verwenden, was ein ziemlich schwieriges Problem ist“, sagte Doğan. „Diese Ergebnisse stimmen auch mit den Ergebnissen kürzlich durchgeführter Studien zur Proteinstrukturvorhersage überein (z. B. Deepminds AlphaFold2 und Baker Labs RoseTTAFold), die die Sequenz als Eingabe verwenden und die 3D-Monomerstruktur mit extrem hoher Leistung vorhersagen.“

In Zukunft könnten die von diesem Forscherteam evaluierten Modelle dazu beitragen, präzisionsmedizinische Interventionen zu verbessern, beispielsweise die Analyse der molekularen Zusammensetzung von Patienten, die sich aus genomischen Variationen ergibt, um personalisierte Behandlungen zu entwickeln. Während die von Doğan und seinen Kollegen gesammelten Ergebnisse das enorme Potenzial von Deep-Learning-basierten Proteinmodellierungswerkzeugen hervorheben, müssen bestehende Methoden noch erheblich verbessert werden, bevor sie in reale klinische Entscheidungssysteme integriert werden können.

„Wir arbeiten jetzt an einem neuen System, um Proteine ​​besser darzustellen“, fügte Doğan hinzu. „Zusätzlich zu Aminosäuresequenzen nutzt dieses System netzwerkbasierte Daten (dh bekannte Protein-Protein-Wechselwirkungen) und Wissen, das in den unstrukturierten biomedizinischen Texten (z. B. wissenschaftlichen Artikeln) auf der Eingabeebene verborgen ist, zusammen mit integrativen Deep-Learning-Ansätzen. Unser ultimatives Ziel ist es, eine universelle Proteinrepräsentation zu erhalten, die bei jeder biomedizinischen oder biotechnologischen Modellierungsaufgabe erfolgreich eingesetzt werden kann.“

Mehr Informationen:
Serbulent Unsal et al, Lernen funktioneller Eigenschaften von Proteinen mit Sprachmodellen, Natur-Maschinen-Intelligenz (2022). DOI: 10.1038/s42256-022-00457-9

© 2022 Science X Netzwerk

ph-tech