Des supercalculateurs aident à former un outil logiciel pour la communauté de modélisation des protéines

La forme suit la fonction, et cela est particulièrement vrai pour les éléments constitutifs de la vie : les protéines. Les plis et la forme des protéines moléculaires révèlent leur fonction dans le maintien de la vie.

Un nouvel outil logiciel open source appelé OpenFold a été développé par des scientifiques qui utilisent l’intelligence artificielle (IA) et exploitent la puissance des superordinateurs pour prédire les structures des protéines.

La recherche pourrait aider à développer de nouveaux médicaments et à mieux comprendre les protéines déformées telles que celles liées aux maladies neurodégénératives comme la maladie de Parkinson et la maladie d’Alzheimer.

OpenFold s’appuie sur le succès d’AlphaFold2, développé par Google DeepMind et utilisé depuis 2021 par plus de deux millions de chercheurs pour les prédictions de protéines dans le développement de vaccins, les traitements contre le cancer, etc.

« AlphaFold2 a été une avancée majeure pour la science », a déclaré Nazim Bouatta, chercheur principal à la Harvard Medical School, qui travaille à l’interface entre l’IA et la biologie. « Nous avons créé une version entièrement open source, OpenFold, qui aide désormais les universités et l’industrie à faire progresser ce domaine. »

Bouatta est co-auteur d’un étude dans le journal Méthodes de la nature annonce d’OpenFold, une implémentation rapide, efficace en termes de mémoire et formable d’AlphaFold2.

Il a lancé le projet avec son collègue Mohammed AlQuraishi, ancien de Harvard mais aujourd’hui de l’Université Columbia. Le projet est devenu le consortium OpenFold, un syndicat de start-ups travaillant en collaboration avec le monde universitaire.

« Des étudiants extrêmement talentueux de Harvard et de Columbia ont également contribué au travail, Gustaf Ahdritz ayant fait un travail remarquable. Ils ont tous fait un travail incroyable en implémentant le code », a déclaré Bouatta.

L’un des aspects essentiels de l’IA est constitué par les grands modèles linguistiques (LLM), qui prennent de grandes quantités de texte et génèrent à partir de celui-ci un texte nouveau et significatif, comme la capacité humaine de ChatGPT à répondre à des requêtes basées sur des quantités substantielles de données textuelles.

« Nous avons besoin d’environ 100 unités de traitement graphique (GPU) pour entraîner un système comme OpenFold. Pour mettre les choses en perspective, pour entraîner le dernier ChatGPT, il faut des milliers et des milliers de GPU », a déclaré Bouatta.

L’une des toutes premières applications d’OpenFold est venue de Meta AI, anciennement Facebook. Meta AI a récemment publié un atlas de plus de 600 millions de protéines provenant de bactéries, de virus et d’autres micro-organismes qui n’avaient pas encore été caractérisées.

« Ils ont utilisé OpenFold pour intégrer un « modèle de langage protéique », très similaire à ChatGPT, mais où le langage est constitué des acides aminés qui composent les protéines », a déclaré Bouatta.

« D’une certaine manière, l’information des organismes vivants est organisée dans un langage », explique Bouatta, en faisant référence à l’exemple des lettres ACGT qui représentent les quatre bases de l’ADN : l’adénine, la cytosine, la guanine et la thymine. « C’est le langage que la nature a choisi pour construire ces organismes vivants sophistiqués. »

Pour aller encore plus loin, il existe une deuxième couche de langage pour les protéines, les lettres qui représentent les 20 acides aminés qui composent toutes les protéines du corps humain et caractérisent ce que la protéine peut faire.

Le séquençage du génome a généré de grandes quantités de données sur les lettres de la vie, mais il manquait jusqu’à présent un « dictionnaire » capable de prendre ces lettres et de donner la forme d’une protéine en trois dimensions et de modéliser les sites permettant de lier de petites molécules à celle-ci.

« L’apprentissage automatique nous permet de prendre une chaîne de lettres, les acides aminés qui décrivent n’importe quel type de protéine auquel vous pouvez penser, d’exécuter un algorithme sophistiqué et de renvoyer une structure tridimensionnelle exquise qui est proche de ce que nous obtenons en utilisant des expériences. L’algorithme OpenFold est très sophistiqué et utilise de nouveaux développements que nous connaissons de ChatGPT et d’autres », a déclaré Bouatta, faisant référence aux concepts développés par les transformateurs de Google et aux éléments de l’algorithme principal de ChatGPT.

L’un des principaux avantages d’OpenFold réside dans sa capacité à entraîner le modèle avec les propres données du scientifique, ce qui n’est pas possible avec la version publique d’AlphaFold2. « Avoir la possibilité d’entraîner un système avec OpenFold ouvre des perspectives majeures pour la recherche, tant dans le milieu universitaire que dans l’industrie », a déclaré Bouatta.

Dans les mois à venir, Bouatta prévoit de lancer une modalité d’OpenFold capable de caractériser un complexe protéine-ligand, l’orientation complexe de petites molécules qui se lient à une protéine.

« C’est ainsi que les médicaments parviennent à leur mécanisme d’action. Il est particulièrement important de comprendre cela », a-t-il expliqué.

Le TACC a attribué à l’équipe OpenFold des allocations sur les supercalculateurs Frontera et Lonestar6, en particulier les nœuds GPU qui ont joué un rôle déterminant dans l’alimentation des applications d’IA dans le monde entier.

« Le TACC a été un très bon collaborateur », a déclaré Bouatta. « Je tiens à remercier le TACC de nous avoir permis d’accéder à ces ressources, ce qui nous a permis de déployer l’apprentissage automatique et l’IA aux échelles dont nous avions besoin. »

« Les supercalculateurs associés à l’IA changent radicalement notre façon d’aborder la biologie. La puissance d’un supercalculateur est qu’il nous permet de prédire 100 millions de structures en quelques mois seulement. Une fois le système entraîné, nous pouvons obtenir des structures en quelques secondes. Ils ne remplaceront cependant pas les expériences, car nous devons retourner au laboratoire pour tester nos idées. »

L’intégration de systèmes d’IA comme OpenFold avec des systèmes plus traditionnels basés sur la physique aide les scientifiques à comprendre la vie au niveau le plus fondamental et ouvre des voies pour le traitement des maladies neurodégénératives.

« Les superordinateurs sont le microscope de l’ère moderne pour la biologie et la découverte de médicaments », conclut Bouatta. « Si nous continuons à consacrer davantage de ressources à l’utilisation de l’IA/approche informatique avec les superordinateurs, nous pourrons accroître nos capacités à comprendre la vie et à guérir les maladies. »

Plus d’informations :
Gustaf Ahdritz et al, OpenFold : le recyclage d’AlphaFold2 apporte de nouvelles perspectives sur ses mécanismes d’apprentissage et sa capacité de généralisation, Méthodes de la nature (2024). DOI : 10.1038/s41592-024-02272-z

Fourni par l’Université du Texas à Austin

ph-tech