Un nouveau modèle offre un moyen d’accélérer la découverte de médicaments

La critique geante de licone de la SHL sur la

D’énormes bibliothèques de composés médicamenteux peuvent contenir des traitements potentiels pour diverses maladies, telles que le cancer ou les maladies cardiaques. Idéalement, les scientifiques aimeraient tester expérimentalement chacun de ces composés contre toutes les cibles possibles, mais faire ce type de criblage prend beaucoup de temps.

Ces dernières années, les chercheurs ont commencé à utiliser des méthodes informatiques pour cribler ces bibliothèques dans l’espoir d’accélérer la découverte de médicaments. Cependant, bon nombre de ces méthodes prennent également beaucoup de temps, car la plupart d’entre elles calculent la structure tridimensionnelle de chaque protéine cible à partir de sa séquence d’acides aminés, puis utilisent ces structures pour prédire avec quelles molécules médicamenteuses elle interagira.

Des chercheurs du MIT et de l’Université Tufts ont maintenant mis au point une approche informatique alternative basée sur un type d’algorithme d’intelligence artificielle connu sous le nom de grand modèle de langage. Ces modèles – un exemple bien connu est ChatGPT – peuvent analyser d’énormes quantités de texte et déterminer quels mots (ou, dans ce cas, les acides aminés) sont les plus susceptibles d’apparaître ensemble. Le nouveau modèle, connu sous le nom de ConPLex, peut associer des protéines cibles à des molécules médicamenteuses potentielles sans avoir à effectuer l’étape informatique intensive de calcul des structures des molécules.

En utilisant cette méthode, les chercheurs peuvent cribler plus de 100 millions de composés en une seule journée, bien plus que n’importe quel modèle existant.

« Ce travail répond au besoin d’un criblage in silico efficace et précis de candidats-médicaments potentiels, et l’évolutivité du modèle permet des cribles à grande échelle pour évaluer les effets hors cible, la réaffectation des médicaments et la détermination de l’impact des mutations sur la liaison des médicaments », dit Bonnie Berger, professeur de mathématiques Simons, chef du groupe de calcul et de biologie du laboratoire d’informatique et d’intelligence artificielle (CSAIL) du MIT et l’un des principaux auteurs de la nouvelle étude.

Lenore Cowen, professeur d’informatique à l’Université Tufts, est également l’un des principaux auteurs de l’article, qui paraît cette semaine dans le Actes de l’Académie nationale des sciences. Rohit Singh, chercheur au CSAIL, et Samuel Sledzieski, étudiant diplômé du MIT, sont les principaux auteurs de l’article, et Bryan Bryson, professeur agrégé de génie biologique au MIT et membre de l’Institut Ragon du MGH, MIT, et Harvard, est également auteur. En plus de l’article, les chercheurs ont rendu leur modèle disponible en ligne pour que d’autres scientifiques puissent l’utiliser.

Faire des prédictions

Ces dernières années, les informaticiens ont fait de grands progrès dans le développement de modèles capables de prédire les structures des protéines en fonction de leurs séquences d’acides aminés. Cependant, l’utilisation de ces modèles pour prédire comment une grande bibliothèque de médicaments potentiels pourrait interagir avec une protéine cancéreuse, par exemple, s’est avérée difficile, principalement parce que le calcul des structures tridimensionnelles des protéines nécessite beaucoup de temps et de puissance de calcul.

Un obstacle supplémentaire est que ces types de modèles n’ont pas de bons antécédents pour éliminer les composés connus sous le nom de leurres, qui sont très similaires à un médicament efficace mais qui n’interagissent pas bien avec la cible.

« L’un des défis de longue date dans le domaine a été que ces méthodes sont fragiles, en ce sens que si je donnais au modèle un médicament ou une petite molécule qui ressemblait presque à la vraie chose, mais qui était légèrement différente d’une manière subtile, le modèle peut toujours prédire qu’ils vont interagir, même si ce n’est pas le cas », explique Singh.

Les chercheurs ont conçu des modèles capables de surmonter ce type de fragilité, mais ils sont généralement adaptés à une seule classe de molécules médicamenteuses et ne conviennent pas aux écrans à grande échelle car les calculs prennent trop de temps.

L’équipe du MIT a décidé d’adopter une approche alternative, basée sur un modèle protéique qu’elle a développé pour la première fois en 2019. Travaillant avec une base de données de plus de 20 000 protéines, le modèle de langage code ces informations en représentations numériques significatives de chaque séquence d’acides aminés qui capturent les associations. entre séquence et structure.

« Avec ces modèles de langage, même les protéines qui ont des séquences très différentes mais qui ont potentiellement des structures similaires ou des fonctions similaires peuvent être représentées de manière similaire dans cet espace linguistique, et nous sommes en mesure d’en profiter pour faire nos prédictions », a déclaré Sledzieski. dit.

Dans leur nouvelle étude, les chercheurs ont appliqué le modèle protéique à la tâche de déterminer quelles séquences protéiques interagiront avec des molécules médicamenteuses spécifiques, qui ont toutes deux des représentations numériques qui sont transformées en un espace commun et partagé par un réseau neuronal. Ils ont formé le réseau sur les interactions protéines-médicaments connues, ce qui lui a permis d’apprendre à associer des caractéristiques spécifiques des protéines à la capacité de liaison aux médicaments, sans avoir à calculer la structure 3D d’aucune des molécules.

« Avec cette représentation numérique de haute qualité, le modèle peut entièrement court-circuiter la représentation atomique et, à partir de ces chiffres, prédire si ce médicament se liera ou non », explique Singh. « L’avantage de ceci est que vous évitez d’avoir à passer par une représentation atomique, mais les nombres contiennent toujours toutes les informations dont vous avez besoin. »

Un autre avantage de cette approche est qu’elle prend en compte la flexibilité des structures protéiques, qui peuvent être « ondulées » et prendre des formes légèrement différentes lorsqu’elles interagissent avec une molécule médicamenteuse.

Haute affinité

Pour rendre leur modèle moins susceptible d’être trompé par des molécules médicamenteuses leurres, les chercheurs ont également intégré une étape d’entraînement basée sur le concept d’apprentissage contrastif. Dans cette approche, les chercheurs donnent au modèle des exemples de « vraies » drogues et d’imposteurs et lui apprennent à les distinguer.

Les chercheurs ont ensuite testé leur modèle en criblant une bibliothèque d’environ 4 700 molécules de médicaments candidats pour leur capacité à se lier à un ensemble de 51 enzymes appelées protéines kinases.

Parmi les meilleurs résultats, les chercheurs ont choisi 19 paires médicament-protéine à tester expérimentalement. Les expériences ont révélé que sur les 19 hits, 12 avaient une forte affinité de liaison (dans la gamme nanomolaire), alors que presque toutes les nombreuses autres paires médicament-protéine possibles n’auraient aucune affinité. Quatre de ces paires se sont liées avec une affinité sub-nanomolaire extrêmement élevée (si forte qu’une infime concentration de médicament, de l’ordre de parties par milliard, inhibera la protéine).

Alors que les chercheurs se sont principalement concentrés sur le criblage de médicaments à petites molécules dans cette étude, ils travaillent maintenant à appliquer cette approche à d’autres types de médicaments, tels que les anticorps thérapeutiques. Ce type de modélisation pourrait également s’avérer utile pour exécuter des cribles de toxicité de composés médicamenteux potentiels, afin de s’assurer qu’ils n’ont pas d’effets secondaires indésirables avant de les tester sur des modèles animaux.

« Une partie de la raison pour laquelle la découverte de médicaments coûte si cher est qu’elle a des taux d’échec élevés. Si nous pouvons réduire ces taux d’échec en disant d’emblée que ce médicament n’est pas susceptible de fonctionner, cela pourrait contribuer grandement à réduire le coût de découverte de médicaments », dit Singh.

Cette nouvelle approche « représente une percée significative dans la prédiction des interactions médicament-cible et ouvre des opportunités supplémentaires pour la recherche future afin d’améliorer encore ses capacités », a déclaré Eytan Ruppin, chef du Cancer Data Science Laboratory à l’Institut national du cancer, qui n’était pas impliqué. dans l’étude. « Par exemple, l’incorporation d’informations structurelles dans l’espace latent ou l’exploration de méthodes de génération moléculaire pour générer des leurres pourraient encore améliorer les prédictions. »

Plus d’information:
Rohit Singh et al, L’apprentissage contrastif dans l’espace du langage protéique prédit les interactions entre les médicaments et les cibles protéiques, Actes de l’Académie nationale des sciences (2023). DOI : 10.1073/pnas.2220778120

Fourni par le Massachusetts Institute of Technology

Cette histoire est republiée avec l’aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l’actualité de la recherche, de l’innovation et de l’enseignement au MIT.

ph-tech