Énergie, masse, vitesse. Ces trois variables constituent l’équation iconique d’Einstein E=MC2. Mais comment Einstein a-t-il connu ces concepts en premier lieu ? Une étape préalable à la compréhension de la physique consiste à identifier les variables pertinentes. Sans le concept d’énergie, de masse et de vitesse, même Einstein ne pourrait pas découvrir la relativité. Mais de telles variables peuvent-elles être découvertes automatiquement ? Cela pourrait considérablement accélérer la découverte scientifique.
C’est la question que les chercheurs de Columbia Engineering ont posée à un nouveau programme d’IA. Le programme a été conçu pour observer des phénomènes physiques à travers une caméra vidéo, puis essayer de rechercher l’ensemble minimal de variables fondamentales qui décrivent pleinement la dynamique observée. L’étude a été publiée le 25 juillet dans Science computationnelle de la nature.
Les chercheurs ont commencé par alimenter le système en séquences vidéo brutes de phénomènes dont ils connaissaient déjà la réponse. Par exemple, ils ont alimenté une vidéo d’un double pendule oscillant connu pour avoir exactement quatre « variables d’état » – l’angle et la vitesse angulaire de chacun des deux bras. Après quelques heures d’analyse, l’IA a produit la réponse : 4.7.
« Nous pensions que cette réponse était assez proche », a déclaré Hod Lipson, directeur du Creative Machines Lab du Département de génie mécanique, où le travail a été principalement effectué. « D’autant plus que toute l’IA avait accès à des séquences vidéo brutes, sans aucune connaissance de la physique ou de la géométrie. Mais nous voulions savoir quelles étaient réellement les variables, pas seulement leur nombre. »
Les chercheurs ont ensuite procédé à la visualisation des variables réelles identifiées par le programme. L’extraction des variables elles-mêmes n’a pas été facile, car le programme ne peut pas les décrire d’une manière intuitive qui serait compréhensible pour les humains. Après quelques recherches, il est apparu que deux des variables choisies par le programme correspondaient vaguement aux angles des bras, mais les deux autres restent un mystère.
« Nous avons essayé de corréler les autres variables avec tout ce à quoi nous pouvions penser : les vitesses angulaires et linéaires, l’énergie cinétique et potentielle, et diverses combinaisons de quantités connues », a expliqué Boyuan Chen Ph.D., maintenant professeur adjoint à l’Université Duke, qui a dirigé les travaux. « Mais rien ne semblait correspondre parfaitement. » L’équipe était convaincue que l’IA avait trouvé un ensemble valide de quatre variables, car elle faisait de bonnes prédictions, « mais nous ne comprenons pas encore le langage mathématique qu’elle parle », a-t-il expliqué.
Après avoir validé un certain nombre d’autres systèmes physiques avec des solutions connues, les chercheurs ont alimenté des vidéos de systèmes pour lesquels ils ne connaissaient pas la réponse explicite. Les premières vidéos mettaient en vedette un « danseur de l’air » ondulant devant un parking de voitures d’occasion local. Après quelques heures d’analyse, le programme a retourné huit variables. Une vidéo d’une lampe à lave a également produit huit variables. Ils ont ensuite alimenté un clip vidéo des flammes d’une boucle de cheminée de vacances, et le programme a renvoyé 24 variables.
Une question particulièrement intéressante était de savoir si l’ensemble de variables était unique pour chaque système ou si un ensemble différent était produit à chaque redémarrage du programme.
« Je me suis toujours demandé si nous rencontrions une race extraterrestre intelligente, auraient-ils découvert les mêmes lois physiques que nous, ou pourraient-ils décrire l’univers d’une manière différente? » dit Lipson. « Peut-être que certains phénomènes semblent énigmatiquement complexes parce que nous essayons de les comprendre en utilisant le mauvais ensemble de variables. Dans les expériences, le nombre de variables était le même à chaque redémarrage de l’IA, mais les variables spécifiques étaient différentes à chaque fois. Alors oui, il existe d’autres façons de décrire l’univers et il est tout à fait possible que nos choix ne soient pas parfaits. »
Les chercheurs pensent que ce type d’IA peut aider les scientifiques à découvrir des phénomènes complexes pour lesquels la compréhension théorique ne suit pas le déluge de données – des domaines allant de la biologie à la cosmologie. « Bien que nous ayons utilisé des données vidéo dans ce travail, n’importe quel type de source de données de matrice pourrait être utilisé, des matrices radar ou des matrices d’ADN, par exemple », a expliqué Kuang Huang, Ph.D., co-auteur de l’article.
Le travail fait partie de l’intérêt de plusieurs décennies de Qiang Du, professeur de mathématiques de la Fondation Lipson et Fu, pour la création d’algorithmes capables de transformer des données en lois scientifiques. Les anciens systèmes logiciels, tels que le logiciel Eureqa de Lipson et Michael Schmidt, pouvaient distiller des lois physiques de forme libre à partir de données expérimentales, mais seulement si les variables étaient identifiées à l’avance. Mais que se passe-t-il si les variables sont encore inconnues ?
Lipson, qui est également professeur d’innovation James et Sally Scapa, soutient que les scientifiques peuvent mal interpréter ou ne pas comprendre de nombreux phénomènes simplement parce qu’ils ne disposent pas d’un bon ensemble de variables pour décrire les phénomènes.
« Pendant des millénaires, les gens connaissaient les objets se déplaçant rapidement ou lentement, mais ce n’est que lorsque la notion de vitesse et d’accélération a été formellement quantifiée que Newton a pu découvrir sa célèbre loi du mouvement F = MA », a noté Lipson. Les variables décrivant la température et la pression devaient être identifiées avant que les lois de la thermodynamique puissent être formalisées, et ainsi de suite pour tous les coins du monde scientifique. Les variables sont un précurseur de toute théorie.
« Quelles autres lois manquons-nous simplement parce que nous n’avons pas les variables? » a demandé Du, qui a codirigé les travaux.
L’article a également été co-écrit par Sunand Raghupathi et Ishaan Chandratreya, qui ont aidé à collecter les données pour les expériences.
Boyuan Chen et al, Découverte automatisée de variables fondamentales cachées dans les données expérimentales, Science computationnelle de la nature (2022). DOI : 10.1038/s43588-022-00281-6