Utilisation de «contrefactuels» pour vérifier les prédictions de la sécurité des médicaments

Tous tels nach Plastik Mit zunehmendem Abfall augmente auch das

Les scientifiques s’appuient de plus en plus sur des modèles entraînés avec l’apprentissage automatique pour fournir des solutions à des problèmes complexes. Mais comment savons-nous que les solutions sont fiables lorsque les algorithmes complexes utilisés par les modèles ne sont pas facilement interrogés ou capables d’expliquer leurs décisions aux humains ?

Cette confiance est particulièrement cruciale dans la découverte de médicaments, par exemple, où l’apprentissage automatique est utilisé pour trier des millions de composés potentiellement toxiques afin de déterminer lesquels pourraient être des candidats sûrs pour les médicaments pharmaceutiques.

« Il y a eu des accidents très médiatisés en informatique où un modèle pouvait très bien prédire les choses, mais les prédictions n’étaient basées sur rien de significatif », déclare Andrew White, professeur agrégé de génie chimique à l’Université de Rochester, dans une interview. avec le Monde de la Chimie.

White et son laboratoire ont développé une nouvelle méthode « contrefactuelle », décrite dans Sciences chimiquesqui peut être utilisé avec n’importe quel modèle d’apprentissage automatique basé sur la structure moléculaire pour mieux comprendre comment le modèle est parvenu à une conclusion.

Les contrefactuels peuvent indiquer aux chercheurs « le plus petit changement dans les caractéristiques qui modifierait la prédiction », explique l’auteur principal Geemi Wellawatte, titulaire d’un doctorat. étudiant dans le laboratoire de White. « En d’autres termes, un contrefactuel est un exemple aussi proche de l’original, mais avec un résultat différent. »

Les contrefactuels peuvent aider les chercheurs à déterminer rapidement pourquoi un modèle a fait une prédiction et si elle est valide.

L’article identifie trois exemples de la manière dont la nouvelle méthode, appelée MMACE (Molecular Model Agonistic Counterfactual Explanations), peut être utilisée pour expliquer pourquoi :

  • il est prévu qu’une molécule traverse la barrière hémato-encéphalique
  • on prédit qu’une petite molécule est soluble
  • une molécule est censée inhiber le VIH
  • Le laboratoire a dû surmonter des défis majeurs dans le développement de MMACE. Ils avaient besoin d’une méthode pouvant être adaptée au large éventail de méthodes d’apprentissage automatique utilisées en chimie. De plus, la recherche de la molécule la plus similaire pour un scénario donné était également difficile en raison du nombre considérable de molécules candidates possibles.

    Le co-auteur Aditi Seshadri du laboratoire de White a aidé à résoudre ce problème en suggérant au groupe d’adapter l’algorithme STONED (Superfast Traversal, Optimisation, Nouveauté, Exploration et Découverte) développé à l’Université de Toronto. STONED génère efficacement des molécules similaires, le carburant de la génération contrefactuelle. Seshadri est un chercheur de premier cycle dans le laboratoire de White et a pu contribuer au projet via un programme de recherche d’été à Rochester appelé « Discover ».

    White dit que son équipe continue d’améliorer MMACE, en essayant d’autres bases de données dans leur recherche de molécules les plus similaires, par exemple, et en affinant la définition de la similarité moléculaire.

    Plus d’information:
    Geemi P. Wellawatte et al, Modèle de génération agnostique d’explications contrefactuelles pour les molécules, Sciences chimiques (2022). DOI : 10.1039/D1SC05259D

    Fourni par l’Université de Rochester

    ph-tech