Les modèles de langage basés sur l’apprentissage en profondeur, tels que BERT, T5, XLNet et GPT, sont prometteurs pour l’analyse de la parole et des textes. Ces dernières années, cependant, ils ont également été appliqués dans les domaines de la biomédecine et de la biotechnologie pour étudier les codes génétiques et les protéines.
Les bioinformaticiens, les chercheurs en génétique et les neuroscientifiques tentent depuis des décennies de déduire les rôles biologiques des gènes et des protéines. Pour ce faire, cependant, ils doivent analyser des données biologiques extrêmement volumineuses et très complexes.
Des chercheurs de l’Université Hacettepe, de l’Université technique du Moyen-Orient et de l’Université technique de Karadeniz, en Turquie, ont récemment mené une étude évaluant le potentiel des modèles de langage basés sur l’apprentissage en profondeur pour étudier les protéines et prédire leurs propriétés fonctionnelles. Leur article, publié dans Intelligence des machines naturellesfournit un résumé précieux des avantages et des inconvénients des différentes approches de pointe.
« Les données de biologie moléculaire peuvent être modélisées comme un langage (c’est-à-dire le langage des gènes/protéines), de sorte que la séquence d’un gène ou d’une protéine peut être considérée comme une phrase ayant une signification spécifique en langage naturel, et la sémantique de cette le langage protéique est les propriétés biologiques, physiques et chimiques spécifiques de ces biomolécules », a déclaré Tunca Doğan, l’un des chercheurs qui a mené l’étude, à Phys.org. « Sur la base de cette idée, notre travail tente de construire des modèles d’apprentissage automatique qui prennent en entrée des incorporations numériques de haute dimension dérivées de modèles de langage de protéines et prédisent leurs propriétés fonctionnelles avec une grande précision. »
Dans leur article, Doğan et ses collègues ont évalué la capacité de différentes approches de modélisation du langage protéique à extraire des modèles cachés contenant des indices importants sur les propriétés fonctionnelles des protéines. Leurs évaluations comprenaient toutes les architectures de modélisation du langage naturel les plus connues (par exemple, BERT, T5, XLNet, ELMO, etc.), chacune pouvant contenir des centaines de millions ou, dans certains cas, des milliards de paramètres.
« La pré-formation auto-supervisée de ces modèles nécessite d’énormes ressources », a expliqué Doğan. « Grâce à de précieux travaux antérieurs sur ce sujet, qui visaient à pré-entraîner des modèles de langage protéique à l’aide de ces architectures, nous nous sommes principalement concentrés sur notre formation supervisée secondaire pour prédire les propriétés fonctionnelles. »
Afin d’évaluer efficacement les modèles de langage protéique et de comparer leurs performances, l’équipe a d’abord dû compiler des ensembles de données de test volumineux et fiables, chacun avec un niveau de difficulté différent. En fin de compte, ils ont créé quatre ensembles de données de référence qui leur ont permis d’étudier les similitudes sémantiques, les définitions fonctionnelles basées sur l’ontologie, les familles de protéines cibles de médicaments et les interactions physiques entre les protéines. Tous ces éléments sont des mécanismes biologiques cruciaux qui sont connus pour être étroitement liés à l’apparition et à la progression de maladies génétiquement héréditaires, telles que différents types de cancer.
« Peut-être que notre découverte la plus notable est que ces modèles de langage profond sont capables d’apprendre avec succès les propriétés fonctionnelles des protéines en utilisant les séquences d’acides aminés comme seule entrée, ce qui est un problème assez difficile », a déclaré Doğan. « Ces résultats sont également cohérents avec les conclusions d’études récentes de prédiction de la structure des protéines (par exemple, AlphaFold2 de Deepmind et RoseTTAFold de Baker Lab), qui utilisent la séquence comme entrée et prédisent la structure du monomère 3D avec des performances extrêmement élevées. »
À l’avenir, les modèles évalués par cette équipe de chercheurs pourraient contribuer à améliorer les interventions de médecine de précision, par exemple en analysant la composition moléculaire des patients résultant de variations génomiques pour concevoir des traitements personnalisés. Alors que les résultats recueillis par Doğan et ses collègues mettent en évidence l’énorme potentiel des outils de modélisation des protéines basés sur l’apprentissage en profondeur, les méthodes existantes devront encore être considérablement améliorées avant de pouvoir être intégrées dans des systèmes décisionnels cliniques réels.
« Nous travaillons maintenant sur un nouveau système pour mieux représenter les protéines », a ajouté Doğan. « En plus des séquences d’acides aminés, ce système utilise des données basées sur le réseau (c’est-à-dire des interactions protéine-protéine connues) et des connaissances cachées dans les textes biomédicaux non structurés (par exemple, des articles scientifiques) au niveau de l’entrée, ainsi que des approches intégratives d’apprentissage en profondeur. Notre objectif ultime est d’obtenir une représentation universelle des protéines qui peut être utilisée avec succès dans n’importe quelle tâche de modélisation biomédicale ou biotechnologique. »
Serbulent Unsal et al, Apprentissage des propriétés fonctionnelles des protéines avec des modèles de langage, Intelligence des machines naturelles (2022). DOI : 10.1038/s42256-022-00457-9
© 2022 Réseau Science X