La découverte de nouveaux matériaux et médicaments implique généralement un processus manuel d’essais et d’erreurs qui peut prendre des décennies et coûter des millions de dollars. Pour rationaliser ce processus, les scientifiques utilisent souvent l’apprentissage automatique pour prédire les propriétés moléculaires et affiner les molécules dont ils ont besoin pour synthétiser et tester en laboratoire.
Des chercheurs du MIT et du MIT-Watson AI Lab ont développé un nouveau cadre unifié qui peut simultanément prédire les propriétés moléculaires et générer de nouvelles molécules beaucoup plus efficacement que ces approches populaires d’apprentissage en profondeur.
Pour apprendre à un modèle d’apprentissage automatique à prédire les propriétés biologiques ou mécaniques d’une molécule, les chercheurs doivent lui montrer des millions de structures moléculaires marquées, un processus connu sous le nom de formation. En raison du coût de la découverte de molécules et des défis liés à l’étiquetage manuel de millions de structures, de grands ensembles de données de formation sont souvent difficiles à obtenir, ce qui limite l’efficacité des approches d’apprentissage automatique.
En revanche, le système créé par les chercheurs du MIT peut prédire efficacement les propriétés moléculaires en utilisant seulement une petite quantité de données. Leur système a une compréhension sous-jacente des règles qui dictent la façon dont les blocs de construction se combinent pour produire des molécules valides. Ces règles capturent les similitudes entre les structures moléculaires, ce qui aide le système à générer de nouvelles molécules et à prédire leurs propriétés de manière efficace en termes de données.
Cette méthode a surpassé les autres approches d’apprentissage automatique sur de petits et de grands ensembles de données, et a pu prédire avec précision les propriétés moléculaires et générer des molécules viables lorsqu’on lui a donné un ensemble de données contenant moins de 100 échantillons.
« Notre objectif avec ce projet est d’utiliser des méthodes basées sur les données pour accélérer la découverte de nouvelles molécules, afin que vous puissiez former un modèle pour faire la prédiction sans toutes ces expériences coûteuses », explique l’auteur principal Minghao Guo, un Étudiant diplômé en informatique et génie électrique (EECS).
Les co-auteurs de Guo incluent Veronika Thost, Payel Das et Jie Chen, membres du personnel de recherche du MIT-IBM Watson AI Lab ; les récents diplômés du MIT Samuel Song ’23 et Adithya Balachandran ’23 ; et l’auteur principal Wojciech Matusik, professeur de génie électrique et d’informatique et membre du MIT-IBM Watson AI Lab, qui dirige le groupe de conception et de fabrication informatiques au sein du laboratoire d’informatique et d’intelligence artificielle du MIT (CSAIL). La recherche sera présentée à la Conférence internationale sur l’apprentissage automatique.
Apprendre le langage des molécules
Pour obtenir les meilleurs résultats avec les modèles d’apprentissage automatique, les scientifiques ont besoin d’ensembles de données de formation contenant des millions de molécules ayant des propriétés similaires à celles qu’ils espèrent découvrir. En réalité, ces ensembles de données spécifiques à un domaine sont généralement très petits. Ainsi, les chercheurs utilisent des modèles qui ont été pré-formés sur de grands ensembles de données de molécules générales, qu’ils appliquent à un ensemble de données beaucoup plus petit et ciblé. Cependant, étant donné que ces modèles n’ont pas acquis beaucoup de connaissances spécifiques au domaine, ils ont tendance à avoir de piètres performances.
L’équipe du MIT a adopté une approche différente. Ils ont créé un système d’apprentissage automatique qui apprend automatiquement le « langage » des molécules – ce que l’on appelle une grammaire moléculaire – en utilisant uniquement un petit ensemble de données spécifiques à un domaine. Il utilise cette grammaire pour construire des molécules viables et prédire leurs propriétés.
En théorie du langage, on génère des mots, des phrases ou des paragraphes sur la base d’un ensemble de règles de grammaire. Vous pouvez penser à une grammaire moléculaire de la même manière. C’est un ensemble de règles de production qui dictent comment générer des molécules ou des polymères en combinant des atomes et des sous-structures.
Tout comme une grammaire linguistique, qui peut générer une pléthore de phrases utilisant les mêmes règles, une grammaire moléculaire peut représenter un grand nombre de molécules. Les molécules avec des structures similaires utilisent les mêmes règles de production de grammaire, et le système apprend à comprendre ces similitudes.
Étant donné que des molécules structurellement similaires ont souvent des propriétés similaires, le système utilise sa connaissance sous-jacente de la similarité moléculaire pour prédire plus efficacement les propriétés de nouvelles molécules.
« Une fois que nous avons cette grammaire comme représentation de toutes les différentes molécules, nous pouvons l’utiliser pour stimuler le processus de prédiction des propriétés », explique Guo.
Le système apprend les règles de production d’une grammaire moléculaire à l’aide de l’apprentissage par renforcement, un processus d’essais et d’erreurs dans lequel le modèle est récompensé pour un comportement qui le rapproche de la réalisation d’un objectif.
Mais comme il pourrait y avoir des milliards de façons de combiner des atomes et des sous-structures, le processus d’apprentissage des règles de production de grammaire serait trop coûteux en calcul pour autre chose que le plus petit ensemble de données.
Les chercheurs ont découplé la grammaire moléculaire en deux parties. La première partie, appelée métagrammaire, est une grammaire générale et largement applicable qu’ils conçoivent manuellement et donnent au système au départ. Ensuite, il lui suffit d’apprendre une grammaire beaucoup plus petite et spécifique à la molécule à partir de l’ensemble de données du domaine. Cette approche hiérarchique accélère le processus d’apprentissage.
Grands résultats, petits ensembles de données
Dans les expériences, le nouveau système des chercheurs a généré simultanément des molécules et des polymères viables et a prédit leurs propriétés avec plus de précision que plusieurs approches d’apprentissage automatique populaires, même lorsque les ensembles de données spécifiques au domaine ne comportaient que quelques centaines d’échantillons. Certaines autres méthodes nécessitaient également une étape de préformation coûteuse que le nouveau système évite.
La technique était particulièrement efficace pour prédire les propriétés physiques des polymères, telles que la température de transition vitreuse, qui est la température requise pour qu’un matériau passe du solide au liquide. L’obtention manuelle de ces informations est souvent extrêmement coûteuse car les expériences nécessitent des températures et des pressions extrêmement élevées.
Pour pousser leur approche plus loin, les chercheurs ont réduit de plus de moitié un ensemble d’entraînement, à seulement 94 échantillons. Leur modèle a tout de même obtenu des résultats comparables aux méthodes formées à l’aide de l’ensemble de données.
« Cette représentation basée sur la grammaire est très puissante. Et parce que la grammaire elle-même est une représentation très générale, elle peut être déployée sur différents types de données sous forme de graphique. Nous essayons d’identifier d’autres applications au-delà de la chimie ou de la science des matériaux », explique Guo. .
À l’avenir, ils souhaitent également étendre leur grammaire moléculaire actuelle pour inclure la géométrie 3D des molécules et des polymères, ce qui est essentiel pour comprendre les interactions entre les chaînes de polymères. Ils développent également une interface qui montrerait à un utilisateur les règles de production de grammaire apprises et solliciterait des commentaires pour corriger les règles qui pourraient être erronées, augmentant ainsi la précision du système.
Plus d’information:
Article : « Gammar-Induced Geometry for Data-Efficient Molecular Property Prediction » openreview.net/pdf?id=SGQi3LgFnqj