Ils développent un modèle d’IA qui crée des protéines qui n’existent pas dans la nature

Ils developpent un modele dIA qui cree des proteines qui

Le modèle d’intelligence artificielle (IA) ESM3 créé par d’anciens scientifiques de Meta peut « écrire » de nouvelles protéines à partir de zéro, ouvrant ainsi de grandes possibilités pour le progrès de la biologie synthétique. Grâce à cette approche, les chercheurs ont développé une nouvelle protéine fluorescente qui ne partage que 58 % de sa séquence avec des protéines fluorescentes naturelles.

Des chercheurs de la startup EvolutionaryScale, créée par d’anciens scientifiques du Meta, ont présenté dans une nouvelle étude publiée sur bioRxiv un modèle d’Intelligence Artificielle (IA) capable de développer de nouvelles protéines introuvables dans la nature. Selon les spécialistes, le processus artificiel « simule » les 500 millions d’années d’évolution nécessaires à la création naturelle de ces structures.

La la biologie de synthèse des travaux basés sur la synthèse de biomolécules ou l’ingénierie de systèmes biologiques dotés de nouvelles fonctions, que l’on ne retrouve pas dans la nature et qui peuvent avoir de multiples applications dans divers domaines. Selon une étude, les scientifiques d’EvolutionaryScale ont utilisé un nouveau modèle d’IA, appelé ESM3, pour créer une nouvelle protéine fluorescente qui ne partage que 58 % de sa séquence avec des protéines fluorescentes naturelles. article publié dans Live Science.

Comme ChatGPT, mais avec des protéines

ESM3 est un grand modèle de langage (LLM) similaire au GPT-4 d’OpenAI, qui alimente le chatbot ChatGPT. Bien qu’il ait été publié précédemment une version plus petite à partir d’ESM3, le modèle complet comprend 2,78 milliards de protéines. Pour créer chaque protéine, ils ont extrait des informations sur la séquence, c’est-à-dire l’ordre des composants de base des acides aminés qui composent la protéine, la structure ou la forme tridimensionnelle pliée de la protéine et la fonction, qui est essentiellement l’activité exercée par le composé.

Après avoir masqué aléatoirement des fragments d’informations sur ces protéines, ils ont demandé à ESM3 de créer les fragments manquants, de la même manière que ChatGPT génère du texte en prédisant le mot le plus susceptible de suivre dans une séquence de discours. Ce type de modèles d’IA peut produire une avancée sans précédent dans le domaine de la biologie de synthèseen élargissant l’horizon des fonctions et des applications des protéines naturelles.

Une langue à comprendre

Selon un communiqué de presse, ce type d’avancées cherche à se rapprocher d’une manière ou d’une autre de la perfection de la biologie, qui est à ce jour la technologie la plus avancée que nous connaissons, même si elle n’a pas été créée par l’homme. Chaque cellule de chaque organisme sur Terre possède des milliers, voire des millions de « usines moléculaires » de protéines: ils sont à la base de la maladie et de la santé. De plus, de nombreux médicaments qui sauvent des vies sont des protéines.

Cependant, même les outils informatiques les plus sophistiqués créés à ce jour effleurent à peine la surface du potentiel de la nature : la biologie est écrite dans une langue que nous ne comprenons pas encore. Peut-être le IA ont une contribution essentielle à apporter sur le chemin d’une meilleure compréhension de cette langue, dans le but de l’utiliser pour le progrès humain.

Référence

Simuler 500 millions d’années d’évolution avec un modèle de langage. Thomas Hayes et coll. BioRxiv (2024). DOOI :https://doi.org/10.1101/2024.07.01.600583

fr-03