S’il y a un an, la possibilité de créer une vidéo réaliste à partir d’une simple phrase pouvait en surprendre plus d’un en Espagne et dans le reste du monde, l’idée de générer des images avec l’esprit va au-delà de la science-fiction présenter une réalité difficilement assimilable. La vérité est que, petit à petit, les progrès de l’intelligence artificielle et du décodage de l’activité cérébrale se rejoignent pour faciliter l’étude de l’esprit humain, en plus de jeter les bases d’une communication entre l’esprit et la machine qui mène à un monde de cyborgs qui ont déjà fait progresser le cinéma à leur façon.
Des chercheurs de l’Université nationale de Singapour et de l’Université chinoise de Hong Kong ont utilisé des modèles génératifs d’intelligence artificielle, des outils capables de créer des images à partir de zéro, pour reconstruire l’activité cérébrale dans des vidéos « haute qualité ». Jiaxin Qing, Zijiao Chen et John Helen Zhou détaillent dans leur rapport les améliorations qu’ils ont obtenues par rapport aux études précédentes.
c’est comme ça qu’il est né Mind-Vidéo, un système qui transforme ce que le cerveau analyse en GIF, même s’il s’agit d’un chaton mignon. Ce projet a obtenu de meilleurs résultats et une meilleure compréhension de ce qui a été détaillé dans un travail précédent. Dans cette étude de l’Université d’Osaka, les chercheurs ont découvert qu’ils pouvaient reconstruire des images haute résolution à partir de l’activité cérébrale avec une technique qui utilisé les données IRMf et AI Stable Diffusion.
[Stentrode, el implante cerebral que sirve para enviar mails con la mente y tratar el párkinson]
Ainsi, cette nouvelle étude représente un pas de plus sur la voie que la communauté scientifique emprunte pour pouvoir lire l’esprit humain grâce à l’intelligence artificielle ou vice versa, pour contrôler la technologie uniquement par la pensée. « Nous pensons que ce domaine a des applications prometteuses car de grands modèles sont développés, des neurosciences aux interfaces cerveau-ordinateur » ont déclaré les auteurs.
recréer les idées
Mind-Video est né de la combinaison de données IRMf et du système d’apprentissage en profondeur Stable Diffusion. L’IRMf est un processus appelé imagerie par résonance magnétique fonctionnelle et mesure de petits changements dans le flux sanguin qui se produisent avec l’activité cérébrale. En médecine, il est utilisé pour détecter des anomalies ou évaluer les effets d’un accident vasculaire cérébral, par exemple. Ici, il a été utilisé pour décoder les signaux générés pendant qu’une personne regardait une vidéo, c’est-à-dire pour étudier comment le cerveau analyse les images que nous voyons sur un téléviseur.
De son côté, Stable Diffusion est l’une des grandes intelligences artificielles génératives qui ont brisé les schémas qui existaient sur les capacités de cette technologie. Comme d’autres modèles comme DALL-E, Midjourney ou Make-a-Video (Meta), vous pouvez créer des images à partir de zéro à partir d’une simple description ou entrée, également appelée invite. Dans ce cas, l’IA a été modifiée pour que Générez du contenu à l’aide des données capturées par l’IRMf.
🧵🧠 Nous assistons aujourd’hui à des progrès scientifiques incroyables dans la reconstruction d’images et de textes à partir de l’IRMf. Mais qu’en est-il de la reconstruction d’une vidéo à partir d’IRMf ? Permettez-moi de vous présenter notre récente prépublication : Mind-Video https://t.co/VL2KXz8o9Khttps://t.co/KyNtsCxDIJhttps://t.co/bhjz0PDlS6 pic.twitter.com/3g9fmujSu3
– Zijiao Chen (@ZijiaoC) 22 mai 2023
De cette façon, les participants à l’expérience ont regardé une simple vidéo de personnes marchant dans une rue et leur cerveau s’est mis au travail. Cette activité a abouti à une deuxième vidéo similaire créée par l’IA. Ainsi, il a été possible de montrer que l’obtenu correspond à l’activité cérébrale de l’individu. Le contenu généré par l’intelligence artificielle montre de nombreux parallèles avec les vidéos que les sujets regardaient à l’écran, du thème aux couleurs étaient similaires.
L’échantillon présenté est un grand nombre d’images animées par rapport au contenu original. Par exemple, des chevaux sont montrés en train de manger d’un côté, et une vidéo de moins bonne qualité est montrée de l’autre côté avec des chevaux d’une teinte similaire de brun. Les scènes de droite présentent une résolution caractéristique du travail actuellement proposé par Stable Diffusion, avec des sauts de cadre constants et peu de définition, mais avec des formes et des tons qui permettent de reconnaître l’objet ou l’animal qui a été représenté.
Il en va de même pour les vidéos de personnes parlant à la caméra, marchant dans la rue ou de poissons nageant dans la mer. Les responsables du projet s’assurent que lestoi les vidéos étaient précises à 85 %, une amélioration par rapport aux approches précédentes. Dans une autre image, on peut voir un homme âgé se promener dans un parc avec ce qui semble être un chien, tandis que la scène générée artificiellement représente deux personnes accompagnées d’un animal de compagnie. La représentation n’est pas identique, mais dans tous les cas l’essentiel de la vidéo est fidèlement restitué.
Après avoir terminé l’expérience, les chercheurs ont identifié trois résultats pertinents. Le premier renvoie à prédominance du cortex visuel comme élément important de la perception visuelle. Deuxièmement, il y a l’encodeur IRMf, dont il a été démontré qu’il commence par des informations structurelles, puis évolue vers des fonctionnalités plus abstraites dans des couches plus profondes. Ce même système a pu acquérir des informations plus nuancées au fur et à mesure de sa formation.
L’équipe de recherche décrit Mind-Video comme un pipeline à deux modules conçu pour combler le fossé entre le décodage cérébral des images et des vidéos. Les deux modules sont formés ensemble pour converger plus tard vers le même effort. L’étude Il reconnaît avoir rencontré quelques difficultés pour obtenir de bons résultats. Par exemple, le contenu est généré avec un retard par rapport à l’activité neuronale, limitant l’étude en temps réel des réponses cérébrales à différents stimuli.
cerveau-machine
Ces expériences offrent un moyen unique de comprendre comment le cerveau représente le monde et interprète la connexion entre les modèles de vision par ordinateur et notre système visuel. Pouvoir lire dans les pensées, au-delà des doutes en termes de protection de la vie privée de chacun, peut favoriser la compréhension de l’un des organes les plus importants et les plus méconnus, en plus de améliorer le traitement de certaines pathologies, ainsi que l’analyse des rêves.
Cependant, loin des améliorations médicales, cette technologie ouvre la porte à la création d’un langage commun entre le cerveau et les machines, une interface qui permet aux humains de contrôler la technologie uniquement par la pensée. Des patients paralysés bénéficient déjà de projets neuronaux qui leur ont permis d’écrire des e-mails avec leur esprit grâce à des implants.
Et si à l’avenir nous pouvions visualiser un dessin ou un schéma et le générer instantanément sur l’écran du mobile partager avec un ami ou un membre de la famille ? C’est un exemple simple de quelque chose qui, pour beaucoup de gens, peut ouvrir tout un monde de possibilités, avec une technologie qui peut même rendre la vue aux aveugles, comme l’ont suggéré certains des promoteurs de projets connexes.
Tu pourrais aussi aimer…
Suivez les sujets qui vous intéressent