Des chercheurs du National Institute of Standards and Technology (NIST) ont développé un nouvel outil statistique qu’ils ont utilisé pour prédire la fonction des protéines. Non seulement cela pourrait aider à la tâche difficile de modifier les protéines de manière pratiquement utile, mais cela fonctionne également par des méthodes entièrement interprétables – un avantage par rapport à l’intelligence artificielle (IA) conventionnelle qui a aidé à l’ingénierie des protéines dans le passé.
Le nouvel outil, appelé LANTERNE, pourrait s’avérer utile dans des travaux allant de la production de biocarburants à l’amélioration des cultures en passant par le développement de nouveaux traitements contre les maladies. Les protéines, en tant que briques de base de la biologie, sont un élément clé dans toutes ces tâches. Mais s’il est relativement facile d’apporter des modifications au brin d’ADN qui sert de modèle pour une protéine donnée, il reste difficile de déterminer quelles paires de bases spécifiques – les échelons de l’échelle de l’ADN – sont les clés pour produire un effet souhaité. La découverte de ces clés a été du ressort de l’IA construite à partir de réseaux de neurones profonds (DNN), qui, bien qu’efficaces, sont notoirement opaques à la compréhension humaine.
Décrit dans un nouvel article publié dans le Actes de l’Académie nationale des sciences, LANTERN montre la capacité de prédire les modifications génétiques nécessaires pour créer des différences utiles dans trois protéines différentes. L’une est la protéine en forme de pointe de la surface du virus SARS-CoV-2 qui cause le COVID-19 ; comprendre comment les changements dans l’ADN peuvent modifier cette protéine de pointe pourrait aider les épidémiologistes à prédire l’avenir de la pandémie. Les deux autres sont des bêtes de somme bien connues en laboratoire : la protéine LacI de la bactérie E. coli et la protéine fluorescente verte (GFP) utilisée comme marqueur dans les expériences de biologie. La sélection de ces trois sujets a permis à l’équipe du NIST de montrer non seulement que leur outil fonctionne, mais aussi que ses résultats sont interprétables – une caractéristique importante pour l’industrie, qui a besoin de méthodes prédictives qui aident à comprendre le système sous-jacent.
« Nous avons une approche qui est entièrement interprétable et qui n’a pas non plus de perte de puissance prédictive », a déclaré Peter Tonner, statisticien et biologiste informatique au NIST et principal développeur de LANTERN. « Il y a une hypothèse répandue selon laquelle si vous voulez l’une de ces choses, vous ne pouvez pas avoir l’autre. Nous avons montré que parfois, vous pouvez avoir les deux. »
Le problème auquel l’équipe du NIST s’attaque pourrait être imaginé comme une interaction avec une machine complexe qui arbore un vaste panneau de contrôle rempli de milliers de commutateurs non étiquetés : l’appareil est un gène, un brin d’ADN qui code une protéine ; les commutateurs sont des paires de bases sur le brin. Les commutateurs affectent tous la sortie de l’appareil d’une manière ou d’une autre. Si votre travail consiste à faire fonctionner la machine différemment d’une manière spécifique, quels interrupteurs devez-vous actionner ?
Étant donné que la réponse peut nécessiter des modifications de plusieurs paires de bases, les scientifiques doivent inverser une combinaison de celles-ci, mesurer le résultat, puis choisir une nouvelle combinaison et mesurer à nouveau. Le nombre de permutations est impressionnant.
« Le nombre de combinaisons potentielles peut être supérieur au nombre d’atomes dans l’univers », a déclaré Tonner. « Vous ne pourriez jamais mesurer toutes les possibilités. C’est un nombre ridiculement grand. »
En raison de la quantité de données impliquées, les DNN ont été chargés de trier un échantillon de données et de prédire quelles paires de bases doivent être inversées. À cela, ils ont réussi, tant que vous ne leur demandez pas d’explication sur la façon dont ils obtiennent leurs réponses. Ils sont souvent décrits comme des « boîtes noires » car leur fonctionnement interne est impénétrable.
« Il est vraiment difficile de comprendre comment les DNN font leurs prédictions », a déclaré le physicien du NIST David Ross, l’un des co-auteurs de l’article. « Et c’est un gros problème si vous voulez utiliser ces prédictions pour concevoir quelque chose de nouveau. »
LANTERN, en revanche, est explicitement conçu pour être compréhensible. Une partie de son explicabilité découle de son utilisation de paramètres interprétables pour représenter les données qu’il analyse. Plutôt que de permettre au nombre de ces paramètres de croître extraordinairement grand et souvent impénétrable, comme c’est le cas avec les DNN, chaque paramètre dans les calculs de LANTERN a un but qui se veut intuitif, aidant les utilisateurs à comprendre ce que ces paramètres signifient et comment ils influencent les calculs de LANTERN. prédictions.
Le modèle LANTERN représente les mutations protéiques à l’aide de vecteurs, des outils mathématiques largement utilisés souvent représentés visuellement sous forme de flèches. Chaque flèche a deux propriétés : sa direction implique l’effet de la mutation, tandis que sa longueur représente la force de cet effet. Lorsque deux protéines ont des vecteurs qui pointent dans la même direction, LANTERN indique que les protéines ont une fonction similaire.
Les directions de ces vecteurs correspondent souvent à des mécanismes biologiques. Par exemple, LANTERN a appris une direction associée au repliement des protéines dans les trois ensembles de données étudiés par l’équipe. (Le pliage joue un rôle essentiel dans le fonctionnement d’une protéine, donc l’identification de ce facteur dans les ensembles de données était une indication que le modèle fonctionne comme prévu.) Lors de la réalisation de prédictions, LANTERN ajoute simplement ces vecteurs ensemble, une méthode que les utilisateurs peuvent suivre lors de l’examen de ses prédictions. .
D’autres laboratoires avaient déjà utilisé les DNN pour faire des prédictions sur les changements de commutateur qui apporteraient des changements utiles aux trois protéines en question, de sorte que l’équipe du NIST a décidé d’opposer LANTERN aux résultats des DNN. La nouvelle approche n’était pas simplement suffisante ; selon l’équipe, il atteint un nouvel état de l’art en matière de précision prédictive pour ce type de problème.
« LANTERN a égalé ou surpassé presque toutes les approches alternatives en ce qui concerne la précision des prédictions », a déclaré Tonner. « Il surpasse toutes les autres approches pour prédire les changements de LacI, et il a une précision prédictive comparable pour GFP pour tous sauf un. Pour le SRAS-CoV-2, il a une précision prédictive plus élevée que toutes les alternatives autres qu’un type de DNN, qui correspondait à celle de LANTERN. précision mais je ne l’ai pas battu. »
LANTERN détermine quels ensembles de commutateurs ont le plus grand effet sur un attribut donné de la protéine – sa stabilité au repliement, par exemple – et résume comment l’utilisateur peut modifier cet attribut pour obtenir l’effet souhaité. D’une certaine manière, LANTERN transmute les nombreux interrupteurs du panneau de notre machine en quelques cadrans simples.
« Cela réduit des milliers de commutateurs à peut-être cinq petits cadrans que vous pouvez tourner », a déclaré Ross. « Il vous dit que le premier cadran aura un grand effet, le second aura un effet différent mais plus petit, le troisième encore plus petit, et ainsi de suite. Donc, en tant qu’ingénieur, cela me dit que je peux me concentrer sur le premier et le deuxième cadran pour obtenir le résultat dont j’ai besoin. LANTERN m’explique tout cela, et c’est incroyablement utile.
Rajmonda Caceres, une scientifique du Lincoln Laboratory du MIT qui connaît bien la méthode derrière LANTERN, a déclaré qu’elle appréciait l’interprétabilité de l’outil.
« Il n’y a pas beaucoup de méthodes d’IA appliquées aux applications de biologie où elles sont explicitement conçues pour l’interprétabilité », a déclaré Caceres, qui n’est pas affilié à l’étude du NIST. « Lorsque les biologistes voient les résultats, ils peuvent voir quelle mutation contribue au changement de la protéine. Ce niveau d’interprétation permet une recherche plus interdisciplinaire, car les biologistes peuvent comprendre comment l’algorithme apprend et ils peuvent générer d’autres informations sur le système biologique. en cours d’étude. »
Tonner a déclaré que bien qu’il soit satisfait des résultats, LANTERN n’est pas une panacée pour le problème d’explicabilité de l’IA. L’exploration plus large d’alternatives aux DNN profiterait à l’ensemble des efforts visant à créer une IA explicable et digne de confiance, a-t-il déclaré.
« Dans le contexte de la prédiction des effets génétiques sur la fonction des protéines, LANTERN est le premier exemple de quelque chose qui rivalise avec les DNN en termes de puissance prédictive tout en étant pleinement interprétable », a déclaré Tonner. « Il apporte une solution spécifique à un problème spécifique. Nous espérons qu’il pourra s’appliquer à d’autres, et que ce travail inspire le développement de nouvelles approches interprétables. Nous ne voulons pas que l’IA prédictive reste une boîte noire. »
Peter D. Tonner et al, Modélisation interprétable des paysages génotype-phénotype avec un pouvoir prédictif de pointe, Actes de l’Académie nationale des sciences (2022). DOI : 10.1073/pnas.2114021119