Comment l’IA générative pourrait contribuer à accélérer la recherche biomédicale

La récente explosion des outils d’IA générative a suscité de nombreuses discussions dans pratiquement tous les domaines sur les avantages et les risques de ces technologies. Ces outils, dont ChatGPT, Bard et d’autres, ont été formés sur d’énormes quantités de contenu et peuvent produire du texte et des images qui ressemblent souvent étrangement à du contenu généré par l’homme.

Au Broad Institute du MIT et de Harvard, un groupe de chercheurs, d’ingénieurs logiciels, d’administrateurs et de communicateurs (oui, nous) a exploré l’utilisation de ces chatbots et outils similaires, en interrogeant la communauté et en élaborant des recommandations.

Pour approfondir ce sujet, nous nous sommes entretenus avec Mehrtash Babadi, scientifique de l’institut, directeur des méthodes informatiques et expert en apprentissage automatique et en IA au sein de la plateforme Data Sciences de Broad. Il a expliqué comment les techniques d’IA générative peuvent être utilisées non seulement pour analyser le langage humain, mais également le langage des gènes et des cellules – des données biologiques brutes – afin de faire la lumière sur le fonctionnement des cellules et des tissus en cas de santé ou de maladie.

Il a également partagé ses réflexions sur les avantages des modèles génératifs basés sur le langage tels que ChatGPT, Bard et GitHub Copilot pour l’écriture de code informatique, le développement d’hypothèses et d’autres tâches.

« Je pense que ces systèmes deviendront de plus en plus utiles non seulement pour les ingénieurs logiciels et les programmeurs, mais aussi pour pratiquement tout le monde dans toutes les professions, de la même manière qu’un moteur de recherche est devenu un élément indispensable de nos vies pour accéder à l’information », a déclaré Babadi, qui utilise régulièrement ChatGPT pour rechercher sur Internet et rédiger des e-mails et des résumés de recherche.

La conversation suivante a été modifiée (par des humains) pour plus de longueur et de clarté.

Comment avez-vous pensé à l’IA générative en biologie ?

L’IA générative est un sujet qui se prépare depuis longtemps dans la communauté de l’apprentissage automatique, remontant aux principes fondamentaux des statistiques bayésiennes. Nous les utilisons depuis longtemps pour modéliser divers aspects de la biologie tels que la variation génomique, les artefacts expérimentaux, la biologie unicellulaire et d’autres domaines.

Maintenant, avec l’avancement de ces modèles, leur combinaison avec des réseaux neuronaux profonds, de grandes quantités de données d’entraînement et de puissance de calcul, et en particulier les progrès de ces modèles dans la génération d’images et de langage naturel, ils ont vraiment explosé et tout d’un coup tout le monde est enthousiasmés par eux.

Nous réfléchissons maintenant à la manière dont les mêmes approches qui ont connu tant de succès dans la modélisation du langage naturel et des images pourraient être utilisées pour apprendre le langage intrinsèque et inné des systèmes biologiques tels que les cellules et les tissus, et prédire leur devenir et leur réponse à divers stimuli in silico. C’est un domaine de recherche actif pour nous, et nous avons fait quelques progrès, mais il reste beaucoup de travail à faire.

Pouvez-vous expliquer davantage comment l’IA générative peut être utilisée pour analyser des données biologiques ?

À l’heure actuelle, ChatGPT et les systèmes d’IA conversationnelle similaires suscitent beaucoup d’enthousiasme, et pour de bonnes raisons, car ce sont des systèmes vraiment performants et puissants, et de nombreux travaux émergents dans le domaine montrent que ces modèles ont également une bonne compréhension. de la biologie. Vous pouvez leur poser des questions telles que « quelle est la fonction de ce gène ? et ils vous le diront parce qu’ils ont lu des manuels et des articles. Les modèles ont donc appris ce que nous savons de la biologie.

Et c’est justement là le problème, car nous ne savons pas grand-chose sur de nombreux aspects de la biologie ! Notre compréhension de la biologie est encore en évolution et est très biaisée et une partie de la littérature n’est même pas reproductible. Les modèles de langage naturel sont formés sur ce substrat et sont donc soumis aux mêmes préjugés et aux mêmes compréhensions incomplètes de la biologie auxquels nous sommes soumis.

Nous essayons donc d’apprendre directement le langage des systèmes biologiques à partir de mesures et de données biologiques brutes, sans aucune interprétation humaine entre les deux.

Comment un chercheur utiliserait-il un modèle génératif formé à partir de données biologiques brutes ?

Par exemple, vous pouvez imaginer un modèle génératif formé à partir de données biologiques décrivant le fonctionnement de certains tissus ou cellules, puis utiliser ce modèle pour générer des données décrivant de nouveaux états cellulaires ou de nouveaux tissus. Vous pouvez même créer des modèles que vous pourriez inviter avec quelque chose comme « voici une cellule dans un tissu, générez une autre cellule à proximité » pour faire des prédictions sur la façon dont différentes cellules pourraient travailler ensemble pour former un tissu, par exemple.

Ces modèles pourraient également être affinés sur des données interventionnelles, telles que des dépistages génétiques ou pharmacologiques, pour apprendre à prédire les futurs dépistages. En un mot, les modèles génératifs ont le potentiel de numériser de nombreux aspects de la biologie cellulaire et tissulaire et des criblages de perturbations.

Ce qui devient très intéressant désormais, c’est d’interfacer ces modèles de cellules et de tissus avec des modèles de langage naturel. Nous pouvons donc prendre des modèles de langage naturel et des modèles de cellules plus impartiaux et plus complets, puis les fusionner en un système plus puissant que chacun d’eux séparément. Il s’agit d’un domaine actif de recherche en IA appelé IA générative multimodale, dans lequel on combine essentiellement des modèles génératifs de différentes modalités, ou on les interface entre eux et on leur permet de communiquer entre eux.

L’avantage est qu’avec les modèles basés sur le langage inné de la biologie, vous évitez les biais inhérents aux modèles de langage naturel de la biologie. Mais vous pouvez utiliser les modèles de langage naturel pour permettre à un scientifique humain de saisir les bonnes invites.

Quels progrès ont été réalisés dans l’IA générative multimodale pour la biologie ?

Nous disposons désormais d’une IA générative multimodale de langage naturel et de texte, de langage naturel et d’images, mais les modèles d’IA générative de systèmes biologiques en sont encore à leurs balbutiements. Nous n’avons pas encore vu de systèmes d’IA multimodaux combinant le langage naturel avec le langage des systèmes biologiques.

L’IA générative peut-elle être utile pour la génération d’hypothèses ?

Un exemple potentiel auquel je peux penser est un projet typique de développement de médicaments, dans lequel nous voulons comprendre le mécanisme sous-jacent d’une maladie, puis identifier une cible thérapeutique. À l’heure actuelle, cela se fait généralement grâce à une combinaison de connaissances d’experts en la matière et à la conception d’expériences très intelligentes qui testent des hypothèses intelligentes en utilisant des techniques innovantes pour manipuler les cellules et ainsi de suite.

Mais à mesure que nous effectuons de plus en plus de ce type d’expériences, chacune de ces expériences est une sorte de leçon pour un système d’IA générative qui dit « voici une cellule et voici comment nous sommes intervenus et voici ce qui s’est passé ». Et plus nous cataloguons ces leçons, plus nous pouvons enseigner à un système d’IA générative la capacité de prédire de futures expériences sans avoir besoin de toutes les faire en laboratoire. Il existe une immense opportunité de réutiliser toutes les données expérimentales que nous avons collectées jusqu’à présent.

Mais certaines de ces prédictions ne seront-elles pas fausses ?

Même si ces modèles génératifs sont parfois erronés, ils ne le sont pas entièrement. Cela signifie que si, par exemple, vous les utilisez pour identifier une certaine cible thérapeutique, si les systèmes sont correctement formés, il est fort probable qu’au moins certaines de ces cibles aient réellement un sens.

C’est probablement l’une des meilleures applications de ces systèmes : prendre leurs résultats comme des hypothèses potentielles et les soumettre ensuite à une validation expérimentale. Selon la nature du résultat, les données résultant des expériences de suivi renforceront la conviction du modèle ou la corrigeront, le rendant finalement légèrement plus précis pour les requêtes futures.

Parlons des modèles de langage naturel comme ChatGPT. Dans quelle mesure ces outils sont-ils utiles pour le codage et le développement de logiciels ?

Certains d’entre nous utilisent GitHub Copilot, un système qui aide les codeurs et les programmeurs à écrire certaines des parties de code les plus standard et les plus standard, plutôt que les parties les plus innovantes et les plus difficiles. Ces systèmes sont vraiment efficaces pour vous aider à écrire des parties de votre code que tout le monde sait écrire, mais vous devez quand même le faire.

Ces systèmes sont également très efficaces pour vous aider à documenter votre code et à commenter votre code. Nous utilisons donc ces systèmes actuellement à ces fins et en tant que versions plus intelligentes des systèmes conventionnels de complétion de code.

Avez-vous des inquiétudes concernant ces modèles linguistiques, comme des inexactitudes ou une utilisation abusive potentielle ?

Le défi est que ces modèles sont bien connus pour « halluciner » de temps en temps ou simplement mentir avec beaucoup de confiance. Vous devez donc faire votre propre vérification des faits. En ce qui concerne les abus, je m’inquiète moins pour les communautés scientifiques et techniques, car les scientifiques et les ingénieurs sont, de formation, sceptiques et ont tendance à ne pas prendre les choses au pied de la lettre. Ainsi, même s’ils utilisent un système d’IA générative pour les aider à résoudre un problème, ils testeraient les résultats de ces systèmes.

Je pense que ce qui m’inquiéterait le plus, c’est la façon dont ces systèmes pourraient être exploités dans d’autres domaines, comme la génération de désinformations et dans d’autres discours où les gens ne sont pas aussi enclins à vérifier eux-mêmes les faits. C’est là que je m’inquiète, surtout parce que ces systèmes peuvent générer du contenu beaucoup plus rapidement que nous. Il est donc très facile d’inonder l’espace, pour ainsi dire, de nombreux contenus délibérément faux générés par l’IA.

Mais en tant qu’outils pour la recherche biologique et le développement de logiciels, je pense qu’il est très prometteur de contribuer à rendre certaines parties de la recherche plus efficaces. Le rythme auquel nous générons des données, qui augmente de façon exponentielle, dépasse de loin notre capacité d’expert à donner un sens à ces données. C’est là que l’IA générative et, en général, l’apprentissage automatique et d’autres méthodes d’IA, pourraient devenir extrêmement utiles pour nous aider à découvrir les régularités, les points communs et les différences dans toutes ces données d’une manière moins biaisée, mais aussi plus efficace et plus rapide que nous, les humains. peut faire.

Fourni par le Broad Institute du MIT et de Harvard

ph-tech