La même classe d’intelligence artificielle qui a fait la une des journaux en codant des logiciels et en réussissant l’examen du barreau a appris à lire un autre type de texte : le code génétique.
Ce code contient des instructions pour toutes les fonctions de la vie et suit des règles qui ne sont pas sans rappeler celles qui régissent les langages humains. Chaque séquence d’un génome adhère à une grammaire et une syntaxe complexes, les structures qui donnent naissance au sens. Tout comme changer quelques mots peut modifier radicalement l’impact d’une phrase, de petites variations dans une séquence biologique peuvent faire une énorme différence dans les formes codées par la séquence.
Aujourd’hui, des chercheurs de l’Université de Princeton dirigés par l’expert en apprentissage automatique Mengdi Wang utilisent des modèles linguistiques pour se concentrer sur des séquences partielles du génome et optimiser ces séquences afin d’étudier la biologie et d’améliorer la médecine. Et ils sont déjà en cours.
Dans un papier publié le 5 avril dans la revue Intelligence des machines naturellesles auteurs détaillent un modèle de langage qui a utilisé ses pouvoirs de représentation sémantique pour concevoir un vaccin à ARNm plus efficace tel que ceux utilisés pour se protéger contre le COVID-19.
Trouvé dans la traduction
Les scientifiques disposent d’un moyen simple pour résumer le flux d’informations génétiques. Ils l’appellent le dogme central de la biologie. L’information passe de l’ADN à l’ARN puis aux protéines. Les protéines créent les structures et les fonctions des cellules vivantes.
L’ARN messager, ou ARNm, convertit les informations en protéines lors de cette étape finale, appelée traduction. Mais l’ARNm est intéressant. Seule une partie contient le code de la protéine. Le reste n’est pas traduit mais contrôle les aspects essentiels du processus de traduction.
La régulation de l’efficacité de la production de protéines est un mécanisme clé par lequel fonctionnent les vaccins à ARNm. Les chercheurs ont concentré leur modèle linguistique là-bas, sur la région non traduite, pour voir comment ils pourraient optimiser l’efficacité et améliorer les vaccins.
Après avoir entraîné le modèle sur une petite variété d’espèces, les chercheurs ont généré des centaines de nouvelles séquences optimisées et validé ces résultats par des expériences en laboratoire. Les meilleures séquences ont surpassé plusieurs critères de référence en matière de développement de vaccins, notamment une augmentation de 33 % de l’efficacité globale de la production de protéines.
Selon les chercheurs, augmenter l’efficacité de la production de protéines, même d’une petite quantité, constitue un élan majeur pour les thérapies émergentes. Au-delà du COVID-19, les vaccins à ARNm promettent de protéger contre de nombreuses maladies infectieuses et cancers.
Wang, professeur de génie électrique et informatique et chercheur principal de cette étude, a déclaré que le succès du modèle révélait également une possibilité plus fondamentale. Formé sur l’ARNm d’une poignée d’espèces, il a pu décoder des séquences nucléotidiques et révéler quelque chose de nouveau sur la régulation des gènes. Les scientifiques pensent que la régulation génétique, l’une des fonctions les plus fondamentales de la vie, détient la clé pour découvrir les origines des maladies et des troubles. Des modèles de langage comme celui-ci pourraient fournir une nouvelle façon de sonder.
Les collaborateurs de Wang comprennent des chercheurs de la société de biotechnologie RVAC Medicines ainsi que de la faculté de médecine de l’université de Stanford.
Le langage de la maladie
Le nouveau modèle diffère en degré, et non en nature, des grands modèles de langage qui alimentent les chatbots IA d’aujourd’hui. Au lieu d’être formé sur des milliards de pages de texte provenant d’Internet, leur modèle a été formé sur quelques centaines de milliers de séquences. Le modèle a également été formé pour intégrer des connaissances supplémentaires sur la production de protéines, notamment des informations structurelles et liées à l’énergie.
L’équipe de recherche a utilisé le modèle formé pour créer une bibliothèque de 211 nouvelles séquences. Chacun a été optimisé pour une fonction souhaitée, principalement une augmentation de l’efficacité de la traduction. Ces protéines, comme la protéine Spike ciblée par les vaccins contre la COVID-19, pilotent la réponse immunitaire aux maladies infectieuses.
Des études antérieures ont créé des modèles de langage pour décoder diverses séquences biologiques, notamment des protéines et de l’ADN, mais il s’agit du premier modèle de langage à se concentrer sur la région non traduite de l’ARNm. En plus d’améliorer l’efficacité globale, il était également capable de prédire l’efficacité d’une séquence dans diverses tâches connexes.
Wang a déclaré que le véritable défi lors de la création de ce modèle de langage résidait dans la compréhension du contexte complet des données disponibles. La formation d’un modèle nécessite non seulement les données brutes avec toutes leurs fonctionnalités, mais également les conséquences en aval de ces fonctionnalités. Si un programme est conçu pour filtrer le spam des e-mails, chaque e-mail sur lequel il s’entraîne sera étiqueté « spam » ou « non spam ». En cours de route, le modèle développe des représentations sémantiques qui lui permettent de déterminer quelles séquences de mots indiquent une étiquette « spam ». C’est là que réside le sens.
Wang a déclaré qu’il ne suffisait pas d’examiner un ensemble de données restreint et de développer un modèle autour de celui-ci pour être utile aux scientifiques de la vie. Elle avait besoin de faire quelque chose de nouveau. Parce que ce modèle fonctionnait à la pointe de la compréhension biologique, les données qu’elle a trouvées étaient partout.
« Une partie de mon ensemble de données provient d’une étude dans laquelle il existe des mesures d’efficacité », a déclaré Wang. « Une autre partie de mon ensemble de données provient d’une autre étude [that] niveaux d’expression mesurés. Nous avons également collecté des données non annotées provenant de plusieurs ressources. » Organiser ces parties en un tout cohérent et robuste – un ensemble de données aux multiples facettes qu’elle pouvait utiliser pour former un modèle de langage sophistiqué – était un défi de taille.
« Entraîner un modèle ne consiste pas seulement à assembler toutes ces séquences, mais également à assembler des séquences avec les étiquettes collectées jusqu’à présent. Cela n’avait jamais été fait auparavant. »
L’article, « Un modèle de langage 5′ UTR pour décoder les régions non traduites d’ARNm et de prédictions de fonctions », a été publié dans Intelligence des machines naturelles. Les auteurs supplémentaires incluent Dan Yu, Yupeng Li, Yue Shen et Jason Zhang, de RVAC Medicines ; Le Cong de Stanford ; et Yanyi Chu et Kaixuan Huang de Princeton.
Plus d’information:
Yanyi Chu et al, Un modèle de langage 5 ‘UTR pour décoder les régions non traduites d’ARNm et les prédictions de fonctions, Intelligence des machines naturelles (2024). DOI : 10.1038/s42256-024-00823-9