Les protéines sont les éléments constitutifs de la vie, impliquées dans pratiquement tous les processus biologiques. Comprendre comment les protéines interagissent les unes avec les autres est crucial pour déchiffrer la complexité des fonctions cellulaires et a des implications significatives pour le développement de médicaments et le traitement des maladies.
Cependant, prédire quelles protéines se lient entre elles constitue un défi en biologie computationnelle, principalement en raison de la grande diversité et de la complexité des structures protéiques. Mais une nouvelle étude du groupe d’Anne-Florence Bitbol de l’EPFL pourrait bien changer la donne.
L’équipe de scientifiques, dont Umberto Lupo, Damiano Sgarbossa et Bitbol, a développé DiffPALM (Differentiable Pairing using Alignment-based Language Models), une approche basée sur l’IA qui peut faire progresser considérablement la prédiction des séquences protéiques en interaction. L’étude est publié dans PNAS.
DiffPALM exploite la puissance des modèles de langage protéique, un concept avancé d’apprentissage automatique emprunté au traitement du langage naturel, pour analyser et prédire les interactions protéiques entre les membres de deux familles de protéines avec une précision sans précédent.
Il utilise ces techniques d’apprentissage automatique pour prédire les paires de protéines en interaction. Cela conduit à une amélioration significative par rapport à d’autres méthodes qui nécessitent souvent des ensembles de données volumineux et diversifiés et qui luttent contre la complexité des complexes protéiques eucaryotes.
Un autre avantage de DiffPALM est sa polyvalence, car il peut fonctionner même avec des ensembles de données de séquences plus petits et ainsi traiter des protéines rares qui ont peu d’homologues, c’est-à-dire des protéines de différentes espèces partageant une ascendance évolutive commune. Il s’appuie sur des modèles de langage protéique entraînés sur des alignements de séquences multiples (MSA), tels que le Transformateur MSA et Le module EvoFormer d’AlphaFoldqui lui permettent de comprendre et de prédire les interactions complexes entre protéines avec un haut degré de précision.
De plus, l’utilisation de DiffPALM est très prometteuse lorsqu’il s’agit de prédire la structure des complexes protéiques, qui sont des structures complexes formées par la liaison de plusieurs protéines et qui sont essentielles à de nombreux processus cellulaires.
Dans l’étude, l’équipe a comparé DiffPALM aux méthodes d’appariement traditionnelles basées sur la coévolution, qui étudient la façon dont les séquences de protéines évoluent ensemble au fil du temps lorsqu’elles interagissent étroitement : les changements dans une protéine peuvent entraîner des changements dans son partenaire d’interaction. Il s’agit d’un aspect extrêmement important de la biologie moléculaire et cellulaire, qui est bien capturé par les modèles de langage protéique formés sur les MSA.
Il a été démontré que DiffPALM surpasse les méthodes traditionnelles sur des critères de référence difficiles, démontrant sa robustesse et son efficacité.
L’application de DiffPALM est évidente dans le domaine de la biologie fondamentale des protéines, mais s’étend au-delà, car elle a le potentiel de devenir un outil puissant dans la recherche médicale et le développement de médicaments. Par exemple, prédire avec précision les interactions protéiques peut aider à comprendre les mécanismes de la maladie et à développer des thérapies ciblées.
Les chercheurs ont créé DiffPALM disponible gratuitementen espérant que la communauté scientifique l’adoptera largement pour faire progresser la biologie computationnelle et permettre aux chercheurs d’explorer la complexité des interactions protéiques.
En combinant des techniques avancées d’apprentissage automatique et une gestion efficace de données biologiques complexes, DiffPALM marque un pas en avant significatif dans la biologie computationnelle.
Cela améliore non seulement notre compréhension des interactions protéiques, mais ouvre également de nouvelles voies dans la recherche médicale, conduisant potentiellement à des percées dans le traitement des maladies et le développement de médicaments.
Plus d’information:
Lupo, Umberto et al, Appariement de séquences protéiques en interaction à l’aide de la modélisation du langage masqué, Actes de l’Académie nationale des sciences (2024). DOI : 10.1073/pnas.2311887121. est ce que je.org/10.1073/pnas.2311887121