Accélérer la découverte de médicaments avec des modèles génératifs de diffusion

Une equipe de recherche internationale cree des composes azotes jusque la

Avec la sortie de plates-formes telles que DALL-E 2 et Midjourney, les modèles génératifs de diffusion ont acquis une grande popularité, en raison de leur capacité à générer une série d’images absurdes, époustouflantes et souvent mémorables à partir d’invites textuelles telles que « ours en peluche travaillant sur de nouveaux Recherche d’IA sur la lune dans les années 1980. »

Mais une équipe de chercheurs de la clinique Abdul Latif Jameel du MIT pour l’apprentissage automatique en santé (Jameel Clinic) pense que les modèles génératifs de diffusion pourraient être plus que la simple création d’images surréalistes – ils pourraient accélérer le développement de nouveaux médicaments et réduire la probabilité d’effets indésirables. effets.

Un article présentant ce nouveau modèle d’amarrage moléculaire, appelé DiffDock, sera présenté à la 11e Conférence internationale sur les représentations d’apprentissage. L’approche unique du modèle en matière de conception informatique de médicaments est un changement de paradigme par rapport aux outils de pointe actuels utilisés par la plupart des sociétés pharmaceutiques, ce qui présente une opportunité majeure pour une refonte du pipeline de développement de médicaments traditionnels.

Les médicaments fonctionnent généralement en interagissant avec les protéines qui composent notre corps, ou les protéines des bactéries et des virus. L’amarrage moléculaire a été développé pour mieux comprendre ces interactions en prédisant les coordonnées 3D atomiques avec lesquelles un ligand (c’est-à-dire une molécule médicamenteuse) et une protéine pourraient se lier.

Alors que l’amarrage moléculaire a conduit à l’identification réussie de médicaments qui traitent désormais le VIH et le cancer, chaque médicament ayant en moyenne une décennie de temps de développement et 90 % des candidats-médicaments échouent à des essais cliniques coûteux (la plupart des études estiment les coûts moyens de développement de médicaments à environ 1 milliard de dollars). à plus de 2 milliards de dollars par médicament), il n’est pas étonnant que les chercheurs recherchent des moyens plus rapides et plus efficaces pour passer au crible les molécules médicamenteuses potentielles.

Actuellement, la plupart des outils d’amarrage moléculaire utilisés pour la conception de médicaments in silico adoptent une approche « d’échantillonnage et de notation », recherchant une « pose » de ligand qui correspond le mieux à la poche protéique. Ce processus chronophage évalue un grand nombre de poses différentes, puis les note en fonction de la façon dont le ligand se lie à la protéine.

Dans les solutions d’apprentissage en profondeur précédentes, l’amarrage moléculaire est traité comme un problème de régression. En d’autres termes, « cela suppose que vous avez une seule cible pour laquelle vous essayez d’optimiser et qu’il n’y a qu’une seule bonne réponse », explique Gabriele Corso, co-auteur et doctorant de deuxième année au MIT. étudiant en génie électrique et informatique affilié au Laboratoire d’informatique et d’intelligence artificielle du MIT (CSAIL).

« Avec la modélisation générative, vous supposez qu’il existe une distribution de réponses possibles, ce qui est essentiel en présence d’incertitude. »

« Au lieu d’une seule prédiction comme auparavant, vous autorisez désormais la prédiction de plusieurs poses, et chacune avec une probabilité différente », ajoute Hannes Stärk, co-auteur et doctorant de première année au MIT. étudiant en génie électrique et informatique affilié au Laboratoire d’informatique et d’intelligence artificielle du MIT (CSAIL). En conséquence, le modèle n’a pas besoin de faire de compromis pour tenter d’arriver à une seule conclusion, ce qui peut être une recette pour l’échec.

Pour comprendre le fonctionnement des modèles génératifs de diffusion, il est utile de les expliquer en se basant sur des modèles de diffusion générateurs d’images. Ici, les modèles de diffusion ajoutent progressivement du bruit aléatoire à une image 2D à travers une série d’étapes, détruisant les données de l’image jusqu’à ce qu’elles ne deviennent plus que des parasites granuleux. Un réseau de neurones est ensuite formé pour récupérer l’image d’origine en inversant ce processus de bruit. Le modèle peut alors générer de nouvelles données en partant d’une configuration aléatoire et en supprimant le bruit de manière itérative.

Dans le cas de DiffDock, après avoir été formé sur une variété de poses de ligands et de protéines, le modèle est capable d’identifier avec succès plusieurs sites de liaison sur des protéines qu’il n’a jamais rencontrés auparavant. Au lieu de générer de nouvelles données d’image, il génère de nouvelles coordonnées 3D qui aident le ligand à trouver des angles potentiels qui lui permettraient de s’insérer dans la poche protéique.

Cette approche « d’amarrage aveugle » crée de nouvelles opportunités pour tirer parti d’AlphaFold 2 (2020), le célèbre modèle d’IA de repliement des protéines de DeepMind. Depuis la sortie initiale d’AlphaFold 1 en 2018, il y a eu beaucoup d’enthousiasme dans la communauté des chercheurs quant au potentiel des structures protéiques repliées par ordinateur d’AlphaFold pour aider à identifier de nouveaux mécanismes d’action des médicaments.

Mais les outils d’amarrage moléculaire de pointe n’ont pas encore démontré que leur performance dans la liaison des ligands aux structures prédites par calcul est meilleure que le hasard.

Non seulement DiffDock est nettement plus précis que les approches précédentes des références d’amarrage traditionnelles, grâce à sa capacité à raisonner à une échelle plus élevée et à modéliser implicitement une partie de la flexibilité des protéines, DiffDock maintient des performances élevées, même lorsque d’autres modèles d’amarrage commencent à échouer.

Dans le scénario plus réaliste impliquant l’utilisation de structures protéiques non liées générées par ordinateur, DiffDock place 22 % de ses prédictions dans les 2 angströms (largement considéré comme le seuil d’une pose précise, 1 Å correspond à un sur 10 milliards de mètres), plus du double d’autres modèles d’amarrage oscillant à peine au-dessus de 10% pour certains et tombant aussi bas que 1,7%.

Ces améliorations créent un nouveau paysage d’opportunités pour la recherche biologique et la découverte de médicaments. Par exemple, de nombreux médicaments sont trouvés via un processus connu sous le nom de criblage phénotypique, dans lequel les chercheurs observent les effets d’un médicament donné sur une maladie sans savoir sur quelles protéines le médicament agit.

Découvrir le mécanisme d’action du médicament est alors essentiel pour comprendre comment le médicament peut être amélioré et ses effets secondaires potentiels. Ce processus, connu sous le nom de « dépistage inverse », peut être extrêmement difficile et coûteux, mais une combinaison de techniques de repliement des protéines et de DiffDock peut permettre d’effectuer une grande partie du processus in silico, ce qui permet d’identifier les effets secondaires potentiels « hors cible ». tôt avant que les essais cliniques aient lieu.

« DiffDock rend l’identification des cibles médicamenteuses beaucoup plus possible. Auparavant, il fallait faire des expériences laborieuses et coûteuses (des mois à des années) avec chaque protéine pour définir l’amarrage du médicament. Mais maintenant, on peut cribler de nombreuses protéines et effectuer le triage pratiquement en une journée. « , a déclaré Tim Peterson, professeur adjoint à la faculté de médecine de l’Université de Washington St. Louis. Peterson a utilisé DiffDock pour caractériser le mécanisme d’action d’un nouveau médicament candidat traitant les maladies liées au vieillissement dans un article récent.

« Il y a un aspect très « le destin aime l’ironie » que la loi d’Eroom – que la découverte de médicaments prend plus de temps et coûte plus d’argent chaque année – est résolue par la loi de son homonyme de Moore – que les ordinateurs deviennent plus rapides et moins chers chaque année – en utilisant des outils tels que DiffDock . »

Les conclusions sont publiées sur le arXiv serveur de préimpression.

Plus d’information:
Gabriele Corso et al, DiffDock : étapes de diffusion, torsions et virages pour l’amarrage moléculaire, arXiv (2022). DOI : 10.48550/arxiv.2210.01776

Informations sur la revue :
arXiv

Fourni par le Massachusetts Institute of Technology

Cette histoire est republiée avec l’aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l’actualité de la recherche, de l’innovation et de l’enseignement au MIT.

ph-tech