Si vous pensez encore que l’intelligence artificielle est une mode passagère ou qu’elle ne sert qu’à laisser les illustrateurs au chômage, ne vous y trompez pas : l’IA est là pour rester et a déjà réalisé des progrès qualitatifs dans de nombreux domaines de la connaissance. Par exemple, dans les sciences de la vie.
Le problème est que Certains de ces progrès ont été réalisés en « trahissant » les principes de la science.dans lequel une validation externe indépendante est essentielle pour confirmer – et pouvoir annoncer – les résultats.
C’est ce qu’affirment plus d’un millier de scientifiques qui ont écrit une lettre à la revue Nature, la plus prestigieuse parmi les chercheurs du monde entier, tandis que d’autres préfèrent se faire justice eux-mêmes et mettre en place des alternatives transparentes.
Sa lettre n’est pas seulement adressée au tout-puissant magazine mais aussi au tout-puissant Google, maison mère de DeepMind, la société qui a révolutionné la médecine ces cinq dernières années.
Le 8 mai, DeepMind a annoncé la troisième version d’AlphaFold, un modèle d’intelligence artificielle qui prédit la structure 3D des protéines.
Les protéines sont normalement considérées comme les éléments constitutifs du corps humain, mais il s’agit de bien d’autres choses. Alors que le reste des molécules ont une fonction plus ou moins définie, les protéines servent à tout : de former la structure de n’importe quelle cellule à faciliter toutes les réactions chimiques du corps, en passant par être des armes pour attaquer les virus et les bactéries.
Notre code génétique, le manuel d’instructions de la vie, est essentiellement un modèle pour fabriquer des protéines. Au début du siècle, lorsque nous avons séquencé le génome humain, nous avons pu accéder à la composition de chacun d’entre eux, mais il manquait quelque chose de fondamental : nous ne savions toujours pas comment leurs composants – les acides aminés – s’assemblaient pour former le génome humain. protéine fonctionnelle. C’est le pliage des matériaux qui leur confère leur fonction.
C’est-à-dire, Nous savions de quoi était faite l’argile, mais nous ne savions pas comment fabriquer une brique..
Pendant deux décennies, les chercheurs n’ont eu d’autre choix que de procéder par essais et erreurs pour acquérir ces connaissances, indispensables, entre autres, pour développer des médicaments contre une multitude de maladies différentes.
Tout cela a changé en 2020. Bien qu’il existait déjà d’autres programmes informatiques permettant de prédire les structures des protéines, la version 2 d’AlphaFold était si précise qu’il a été annoncé que, pour la première fois, un outil avait pu révéler les structures tridimensionnelles de toutes les protéines existantes et avoir.
Quelques mois plus tard, en 2021, les résultats d’AlphaFold2 étaient publiés dans un article de la revue Nature, ainsi que le code utilisé dans cette intelligence artificielle.
Un principe fondamental de la science est que rien n’est publié sans avoir été préalablement examiné par des experts indépendants. Il était nécessaire de connaître le code AlphaFold, car c’est ce qui permettait aux évaluateurs de vérifier que ce que DeepMind affirmait était vrai.
Cette année, cependant, Google a décidé d’annoncer AlphaFold3 en même temps que la publication de l’article, toujours dans Nature, expliquant ses découvertes à la communauté scientifique. Mais cette fois, le code n’apparaissait nulle part.
Même les évaluateurs n’y avaient pas eu accès. Parmi les premiers signataires de la lettre S’adressant à la nature, Roland Dunbrack, bioinformaticien au Fox Chase Center de Philadelphie et (supposément) l’un de ceux qui ont révisé l’article avant sa publication, qui dénonçait de ne pas avoir eu accès au code AlphaFold3.
« Malgré des poursuites judiciaires répétées contre lui, il n’a pas eu accès au code lors de l’examen », affirme la lettre. Au lieu de cela, les évaluateurs ont reçu un pseudocode avec lequel tester les résultats de l’outil miracle.
Briser les règles de la science
Car, si AlphaFold2 représentait un saut qualitatif par rapport à la précédente, la troisième version a une nouvelle fois révolutionné le domaine de la recherche biologique. AlphaFold3 prédit non seulement la structure des protéines (et donc les relations entre elles) mais aussi les interactions avec de nombreux autres types de molécules, comme les lipides, l’ATP (les unités énergétiques des êtres vivants), l’ADN ou l’ARN.
Comme expliqué sur le portail Genotipia, si AlphaFold2 nous a permis de générer des hypothèses à tester en laboratoire, AlphaFold3 nous permet de tester directement ces hypothèses.
C’est ce qu’on appelle un test « in silico », par opposition au « in vivo », c’est-à-dire chez l’animal. « Il existe déjà des réglementations de la FDA autorisant des médicaments qui ont uniquement été testés informatiquement pour être testés sur des humains. C’est une véritable révolution », explique-t-il. Alfonso Valencebioinformaticien au Barcelona Supercomputing Center.
C’est un atout inestimable pour la recherche sur les médicaments. « Nous avons la possibilité de prédire les interactions entre des protéines et des milliers de médicaments », souligne-t-il, avec un inconvénient : « Personne n’a pu vérifier que cela était bien vrai ».
Valencia se demande comment il est possible que la revue scientifique la plus prestigieuse ait publié un article sans en vérifier les résultats. Bien sûr, DeepMind (et Google) « ont le droit de conclure des contrats avec des entreprises et d’utiliser leur travail à des fins commerciales, mais le sont-ils ?pourquoi Nature publie un article qui est en fait une publicité? »
Le 11 mai, trois jours après l’annonce de DeepMind, Roland Dunbrack et 10 autres scientifiques ont écrit à Nature pour se plaindre des « écarts par rapport aux normes de notre communauté scientifique ». Au 29 mai, la lettre totalisait 1 082 adhésions.
Google a réagi rapidement et Le 13 mai, il a annoncé que le code serait disponible pour la recherche universitaire dans six mois.mais n’a pas indiqué s’il serait complet.
Entre-temps, il a fourni un serveur sur lequel les universitaires peuvent effectuer des tests avec l’outil (jusqu’à 20 par jour), en précisant cependant très clairement l’interdiction de tester des médicaments potentiels et de revendiquer la propriété de tout type de découverte générée par l’outil.
De son côté, le magazine Nature, conscient que son prestige est en jeu, a publié un éditorial le 22 mai encourageant ses lecteurs à participer aux propositions visant à améliorer la transparence dans le monde scientifique sans porter atteinte au droit des entreprises de tirer profit de leurs résultats.
Alfonso Valencia a déjà testé le serveur. « C’est intéressant, nous réfléchissons tous à la meilleure façon de travailler avec cela mais, de la manière dont les clauses sont fixées, cela ne peut être utilisé que dans une mesure limitée. »
Le bioinformaticien associe le secret du nouvel outil aux nouvelles politiques de Google. « Avant, DeepMind et d’autres branches de recherche étaient en périphérie et étaient plus indépendantes, mais maintenant elles ont absorbé toutes ces entreprises qui étaient dispersées. » DeepMind a été fondée en 2010 à Londres. Alphabet, la société mère de Google, l’a acquis en 2014.
Pour Valence, cette décision constitue une perte de crédit pour DeepMind. « On les considérait comme des candidats au prix Nobel et maintenant tout le monde est très en colère avec eux ».
Parce que, entre autres, toutes les versions d’AlphaFold ont été formées avec des bases de données accessibles au public. Les chercheurs ont déposé des séquences de protéines au fil des années dans des référentiels mis en place par des consortiums financés par les États-Unis, l’Union européenne, le Japon et d’autres puissances.
« Moralement, c’est un peu injuste que tu construises sur [el trabajo de] des centaines ou des milliers de personnes », déplore le chercheur, résigné : « On savait déjà que ces bases étaient publiques et accessibles à tous. »
« Nous avons été déçus »
Pour sa part, Rafael Fernández-Leirobiologiste structural qui travaille au Centre National de Recherche sur le Cancer (CNIO), souligne que « La nature n’est pas obligée de publier le code. Mais, lorsque vous soumettez un ouvrage à publier, vous acceptez une série de conditions, parmi lesquelles, que les données sont disponibles. »
Par exemple, « lorsque nous publions des données sur la structure d’une protéine, nous devons les publier dans un référentiel scientifique. Dans le domaine des logiciels, le code doit être disponible pour que d’autres scientifiques puissent l’évaluer ».
Autrement dit, Nature n’est pas responsable de la publication du code mais aurait dû demander à DeepMind de le rendre disponible. « Et dans ce cas, il a fait une exception. »
Le groupe de recherche de Fernández-Leiro utilise AlphaFold2 « presque tous les jours, de manière routinière. Cela nous aide, avant de procéder à une vérification expérimentale, à mieux comprendre les informations dont nous disposons et à générer des hypothèses ».
Par conséquent, lorsque nous avons vu que la nouvelle version n’avait pas le code disponible, « nous avons été déçus, c’était une déception ».
Le véritable danger pour ce chercheur est que le cœur de la recherche publique soit laissé entre des mains privées, avec leurs propres intérêts. « C’est une très bonne chose que Google consacre ses capacités et ses ressources à s’impliquer dans ces questions « frontières ». Mais est-ce queque se passe-t-il si vous décidez qu’il n’y aura pas d’AlphaFold4? »
Par conséquent, de nombreux groupes à travers le monde tentent de reproduire le succès d’AlphaFold de diverses manières. Certains parlent directement de son piratage, comme Phil Wang, un ingénieur logiciel de San Francisco qui a mis en place un financement participatif pour reproduire le modèle DeepMind, La nature compte aussi (son équipe de rédaction est indépendante de son activité éditoriale).
Mohammed AlQuraishi, bioinformaticien à l’Université Columbia de New York, a également commencé à le faire avec une version en libre accès d’AlphaFold appelée OpenFold.
Les espoirs des chercheurs universitaires reposent toutefois sur David Baker, de l’Université de Washington à Seattle. « Peu de temps après l’apparition d’AlphaFold2, il avait déjà obtenu sa propre version, RoseTTAFold », explique Alfonso Valencia.
Cependant, comme le soulignait également Phil Wang dans Nature, pirater le code n’est qu’une partie, l’important est de l’entraîner avec des millions de données pour que ses prédictions soient ajustées. « Le code est de loin le plus simple. C’est 5% de l’effort« .
Cependant, Fernández-Leiro rappelle qu’AlphaFold n’est pas tout. « Cela ne remplace pas la recherche expérimentale. Ces outils génèrent des hypothèses phénoménales mais ne sont qu’un point de départ. »
« Nous avons fait des tests avec des structures que nous connaissions déjà et le résultat que nous avons obtenu n’était pas celui auquel nous nous attendions », se souvient-il. « Vous ne pouvez pas faire confiance à une projection à 100 %. C’est comme demander à ChatGPT : il vaut mieux ne pas y croire au pied de la lettre. »