Apprentissage automatique pour la chimie : bases et applications

Des chercheurs utilisent un ordinateur quantique pour identifier un candidat

Dans une revue publiée dans Ingénierie, les scientifiques explorent le domaine en plein essor de l’apprentissage automatique (ML) et ses applications en chimie. Intitulée « Machine Learning for Chemistry : Basics and Applications », cette revue complète vise à combler le fossé entre les chimistes et les algorithmes modernes de ML, en fournissant un aperçu du potentiel du ML pour révolutionner la recherche chimique.

Au cours de la dernière décennie, le ML et l’intelligence artificielle (IA) ont fait des progrès remarquables, nous rapprochant de la réalisation de machines intelligentes. L’avènement des méthodes d’apprentissage profond et des capacités améliorées de stockage de données ont joué un rôle central dans ces progrès. Le ML a déjà démontré son succès dans des domaines tels que la reconnaissance d’images et de parole, et il suscite désormais une attention considérable dans le domaine de la chimie, caractérisé par des données complexes et des molécules organiques diverses.

Cependant, les chimistes sont souvent confrontés à des difficultés lors de l’adoption d’applications de ML en raison d’un manque de familiarité avec les algorithmes de ML modernes. Les ensembles de données chimiques présentent généralement un biais en faveur des expériences réussies, tandis qu’une perspective équilibrée nécessite l’inclusion d’expériences réussies et échouées. De plus, une documentation incomplète des conditions de synthèse dans la littérature pose des défis supplémentaires.

La chimie computationnelle, où des ensembles de données peuvent être construits de manière fiable à partir de calculs de mécanique quantique, a adopté plus facilement les applications de ML. Néanmoins, les chimistes ont besoin d’une compréhension de base du ML pour exploiter le potentiel de l’enregistrement des données et des expériences guidées par le ML.

Cette revue sert de guide d’introduction aux bases de données chimiques populaires, aux fonctionnalités bidimensionnelles (2D) et tridimensionnelles (3D) utilisées dans les modèles ML et aux algorithmes ML populaires. Il explore trois domaines chimiques spécifiques dans lesquels le ML a fait des progrès significatifs : la rétrosynthèse en chimie organique, la simulation atomique basée sur le potentiel du ML et le ML pour la catalyse hétérogène.

Ces applications ont soit accéléré la recherche, soit apporté des solutions innovantes à des problèmes complexes. L’examen se termine par une discussion des défis futurs dans le domaine.

L’évolution rapide des installations informatiques et le développement de nouveaux algorithmes de ML indiquent que des applications de ML encore plus passionnantes se profilent à l’horizon, promettant de remodeler le paysage de la recherche chimique à l’ère du ML. Bien que l’avenir soit difficile à prédire dans un domaine en évolution aussi rapide, il est indéniable que le développement de modèles de ML entraînera une accessibilité, une généralité, une précision, une intelligence améliorées et, à terme, une productivité plus élevée.

L’intégration des modèles ML avec Internet offre une voie prometteuse pour partager les prédictions ML dans le monde entier.

Cependant, la transférabilité des modèles ML en chimie pose un défi commun en raison de la diversité des types d’éléments et des matériaux complexes impliqués. Les prévisions restent souvent limitées aux ensembles de données locaux, ce qui entraîne une diminution de la précision au-delà de l’ensemble de données.

Pour résoudre ce problème, de nouvelles techniques telles que le potentiel du réseau neuronal global (G-NN) et des modèles ML améliorés avec des paramètres plus adaptés sont à l’étude. Alors que les concours de ML en science des données ont produit des algorithmes exceptionnels, il est nécessaire de organiser des concours de ML plus ouverts en chimie pour nourrir les jeunes talents.

Il est intéressant de noter que l’apprentissage de bout en bout, qui génère un résultat final à partir d’entrées brutes plutôt que de descripteurs conçus, est prometteur pour des applications de ML plus intelligentes. AlphaFold2, par exemple, utilise la structure unidimensionnelle (1D) d’une protéine pour prédire sa structure 3D. De même, dans le domaine de la catalyse hétérogène, un modèle d’IA de bout en bout a permis de résoudre avec succès les voies de réaction. Ces modèles ML avancés peuvent également contribuer au développement de robots expérimentaux intelligents pour des expériences à haut débit.

Alors que le domaine du ML continue d’évoluer rapidement, il est crucial pour les chimistes et les chercheurs de rester informés de ses applications en chimie. Cette revue constitue une ressource précieuse, fournissant un aperçu complet des bases du ML et de son potentiel dans divers domaines de la chimie. Avec l’intégration des modèles ML et les efforts collectifs de la communauté scientifique, l’avenir de la recherche chimique est immense.

Plus d’information:
Yun-Fei Shi et al, Apprentissage automatique pour la chimie : bases et applications, Ingénierie (2023). DOI : 10.1016/j.eng.2023.04.013

ph-tech