Apprendre une molécule comme un humain

Une equipe de recherche internationale cree des composes azotes jusque la

Une étude récente publiée dans la revue Science Sciences de la vie en Chine était dirigée par le Dr Nan Qiao (Laboratoire d’intelligence sanitaire, Huawei Cloud Computing Technologies), le Dr Hualiang Jiang (Shanghai Institute of Materia Medica, Chinese Academy of Sciences) et le Dr Mingyue Zheng (Shanghai Institute of Materia Medica, Chinese Academy of Les sciences).

« Au cours de l’année écoulée, la taille des paramètres du modèle de langage a continué de croître, dépassant 175 milliards de GPT3. Récemment, ChatGPT, un modèle de langage de nouvelle génération, interagit avec les utilisateurs d’une manière plus réaliste, comme répondre aux questions, admettant des erreurs, posant des questions incorrectes ou rejetant des demandes inappropriées, et on pense même qu’il subvertit les moteurs de recherche », explique le Dr Qiao.

En plus des modèles de langage, des domaines tels que l’image, la vidéo et la multimodalité ont été rafraîchis par des architectures de transformateur ces dernières années à la même époque. Ces grands modèles utilisent généralement l’apprentissage auto-supervisé, ce qui peut réduire considérablement la charge de travail et obtenir de meilleures performances dans les tâches à longue traîne. Cependant, dans le domaine de l’IA pour la découverte de médicaments, il n’y a pas eu de très grand modèle pour accélérer la recherche et le développement de médicaments et améliorer l’efficacité.

Xinyuan Lin et Zhaoping Xiong, en collaboration avec le directeur du laboratoire Nan Qiao, ont cherché à construire un grand modèle pour la découverte de médicaments qui peut être utilisé pour des tâches de découverte de médicaments telles que la prédiction des propriétés moléculaires, la génération moléculaire et l’optimisation. L’équipe propose une nouvelle structure asymétrique graphe-séquence (graph2seq), différente des processus d’auto-encodage variationnel séquence-séquence (seq2seq) et graphe-graphe (graph2graph) classiques.

Le modèle est pré-formé pour 1,7 milliard de molécules de type médicament (actuellement la plus grande), l’entrée est un graphique cyclique non orienté bidimensionnel de molécules de type médicament et la sortie est la formule chimique correspondante ou la chaîne SMILES. Les humains lisent des images de structures chimiques et écrivent le texte des formules correspondantes, de sorte qu’après des milliards de répétitions, Pangu peut apprendre la relation entre les structures chimiques et les chaînes de formules, similaires aux transformations cognitives humaines.

Après un pré-entraînement avec 1,7 milliard de petites molécules médicamenteuses, le modèle a obtenu des résultats de pointe dans 20 tâches de découverte de médicaments, y compris la prédiction des propriétés moléculaires. (prédire les propriétés ADMET, les interactions composé-protéine, les interactions médicament-médicament et les rendements des réactions chimiques), la génération moléculaire et l’optimisation moléculaire.

Le générateur moléculaire de Pangu a également généré une nouvelle bibliothèque de criblage de médicaments de 100 millions de petites molécules de type médicament avec une nouveauté de 99,68 %, qui peut également générer efficacement de nouveaux composés avec des propriétés physicochimiques similaires à une distribution donnée. Cette bibliothèque peut être utilisée pour compléter la base de données de composés existante. De plus, le Pangu Molecular Optimizer peut optimiser la structure chimique de la molécule de départ et améliorer les caractéristiques de la molécule d’intérêt.

Plus d’information:
Xinyuan Lin et al, PanGu Drug Model : apprendre une molécule comme un humain, Science Sciences de la vie en Chine (2022). DOI : 10.1007/s11427-022-2239-y

Fourni par Science China Press

ph-tech