Apprentissage en profondeur pour une nouvelle conception de protéines

La clé pour comprendre les protéines, telles que celles qui régissent le cancer, le COVID-19 et d’autres maladies, est assez simple : identifiez leur structure chimique et trouvez quelles autres protéines peuvent s’y lier. Mais il y a un hic.

« L’espace de recherche pour les protéines est énorme », a déclaré Brian Coventry, chercheur à l’Institute for Protein Design de l’Université de Washington et à l’Institut médical Howard Hughes.

Une protéine étudiée par son laboratoire est généralement composée de 65 acides aminés, et avec 20 choix d’acides aminés différents à chaque position, il existe des combinaisons de liaison de puissance 65 à 20, un nombre supérieur au nombre estimé d’atomes dans l’univers.

Coventry est le co-auteur d’une étude publiée en mai 2023 dans la revue Communication Nature.

Dans ce document, son équipe a utilisé des méthodes d’apprentissage en profondeur pour augmenter les modèles physiques existants basés sur l’énergie dans la conception de protéines computationnelles « de novo » (à partir de zéro), ce qui a entraîné une multiplication par 10 des taux de réussite vérifiés en laboratoire pour lier une protéine conçue avec sa protéine cible.

« Nous avons montré que vous pouvez avoir un pipeline considérablement amélioré en incorporant des méthodes d’apprentissage en profondeur pour évaluer la qualité des interfaces où se forment des liaisons hydrogène ou à partir d’interactions hydrophobes », a déclaré le co-auteur de l’étude, Nathaniel Bennett, chercheur postdoctoral à l’Institute for Conception de protéines, Université de Washington.

« Ce n’est pas essayer d’énumérer exactement toutes ces énergies par elles-mêmes », a-t-il ajouté.

Les lecteurs connaissent peut-être des exemples populaires d’applications d’apprentissage en profondeur telles que le modèle de langage ChatGPT ou le générateur d’images DALL-E.

L’apprentissage en profondeur utilise des algorithmes informatiques pour analyser et tirer des conclusions à partir de modèles de données, en superposant les algorithmes pour extraire progressivement des fonctionnalités de niveau supérieur à partir de l’entrée brute. Dans l’étude, des méthodes d’apprentissage en profondeur ont été utilisées pour apprendre des transformations itératives de représentation de la séquence protéique et de la structure possible qui convergent très rapidement vers des modèles qui s’avèrent très précis.

Le protocole de conception de liant protéique de novo augmenté par l’apprentissage en profondeur développé par les auteurs comprenait les outils logiciels d’apprentissage automatique Pliage Alpha 2 et aussi RoseTTA fold, qui a été développé par l’Institute for Protein Design.

Le problème de l’étude était bien adapté à la parallélisation sur Frontera car les trajectoires de conception des protéines sont toutes indépendantes les unes des autres, ce qui signifie que les informations n’avaient pas besoin de passer entre les trajectoires de conception pendant l’exécution des tâches de calcul.

« Nous venons de diviser ce problème, qui contient de 2 à 6 millions de conceptions, et de les exécuter en parallèle sur les énormes ressources informatiques de Frontera. Il contient une grande quantité de nœuds CPU. Et nous avons attribué à chacun d’entre eux CPUS pour effectuer l’une de ces trajectoires de conception, ce qui nous permet de réaliser un très grand nombre de trajectoires de conception en un temps raisonnable », a déclaré Bennett.

Les auteurs ont utilisé le programme d’amarrage RifDock pour générer six millions de « docks » de protéines ou d’interactions entre des structures protéiques potentiellement liées, les diviser en morceaux d’environ 100 000 et attribuer chaque morceau à l’un des plus de 8 000 nœuds de calcul de Frontera à l’aide d’utilitaires Linux.

Chacun de ces 100 000 quais serait divisé en 100 emplois de mille protéines chacun. Un millier de protéines entrent dans le logiciel de conception informatique Rosetta, où les 1 000 sont d’abord criblées au dixième de la deuxième échelle, et celles qui survivent sont criblées à l’échelle de quelques minutes.

De plus, les auteurs ont utilisé l’outil logiciel ProteinMPNN développé par l’Institute for Protein Design pour augmenter encore l’efficacité de calcul de la génération de réseaux neuronaux de séquences de protéines jusqu’à plus de 200 fois plus rapide que le meilleur logiciel précédent.

Les données utilisées dans leur modélisation sont des données de liaison d’affichage de surface de levure, toutes accessibles au public et collectées par l’Institute for Protein Design. Dans ce document, des dizaines de milliers de brins d’ADN différents ont été commandés pour coder une protéine différente, que les scientifiques ont conçue.

L’ADN a ensuite été combiné avec de la levure de sorte que chaque cellule de levure exprime l’une des protéines conçues à sa surface. Les cellules de levure ont ensuite été triées en cellules qui se lient et en cellules qui ne le font pas. À leur tour, ils ont utilisé des outils du projet de séquençage du génome humain pour déterminer quel ADN fonctionnait et quel ADN ne fonctionnait pas.

Malgré les résultats de l’étude qui ont montré une multiplication par 10 du taux de réussite des structures conçues pour se lier à leur protéine cible, il reste encore un long chemin à parcourir, selon Coventry.

« Nous avons augmenté d’un ordre de grandeur, mais il nous en reste encore trois. L’avenir de la recherche est d’augmenter encore plus ce taux de réussite et de passer à une nouvelle classe de cibles encore plus difficiles », a-t-il déclaré. Les virus et les récepteurs des lymphocytes T cancéreux en sont de parfaits exemples.

Les moyens d’améliorer les protéines conçues par ordinateur sont de rendre les outils logiciels encore plus optimisés ou d’échantillonner davantage.

Dit Coventry, « Plus l’ordinateur que nous pouvons trouver est grand, meilleures sont les protéines que nous pouvons fabriquer. Nous construisons les outils pour fabriquer les médicaments anticancéreux de demain. Bon nombre des liants individuels que nous fabriquons pourraient devenir les médicaments qui sauvent des vies. Nous améliorons le processus pour améliorer ces médicaments.

Plus d’information:
Nathaniel R. Bennett et al, Amélioration de la conception de liant protéique de novo grâce à l’apprentissage en profondeur, Communication Nature (2023). DOI : 10.1038/s41467-023-38328-5

Fourni par l’Université du Texas à Austin

ph-tech