L’intelligence artificielle replie les molécules d’ARN

Tous tels nach Plastik Mit zunehmendem Abfall augmente auch das

Pour la fonction de nombreuses biomolécules, leur structure tridimensionnelle est cruciale. Les chercheurs ne s’intéressent donc pas seulement à la séquence des éléments constitutifs individuels des biomolécules, mais également à leur structure spatiale. Avec l’aide de l’intelligence artificielle (IA), les bioinformaticiens peuvent déjà prédire de manière fiable la structure tridimensionnelle d’une protéine à partir de sa séquence d’acides aminés. Pour les molécules d’ARN, cependant, cette technologie en est encore à ses balbutiements. Des chercheurs de la Ruhr-Universität Bochum (RUB) décrivent un moyen d’utiliser l’IA pour prédire de manière fiable la structure de certaines molécules d’ARN à partir de leur séquence de nucléotides dans le journal Biologie computationnelle PLOS le 7 juillet 2022.

Pour ce travail, les équipes dirigées par Vivian Brandenburg et le professeur Franz Narberhaus de la chaire RUB de biologie des micro-organismes ont coopéré avec le professeur Axel Mosig du domaine de compétence bioinformatique du Bochum Center for Protein Diagnostics.

L’environnement cellulaire doit être pris en compte

« L’ARN n’est souvent considéré que comme un messager entre l’ADN génomique et les protéines », explique Axel Mosig. « Mais de nombreuses molécules d’ARN prennent en charge les fonctions cellulaires. » Leur structure spatiale est importante pour cela. Des régions similaires dans une séquence de nucléotides peuvent se regrouper pour former des arrangements tridimensionnels.

« Identifier ces auto-similitudes dans une séquence d’ARN est comme un puzzle mathématique », explique Vivian Brandenburg. Il existe un modèle biophysique pour ce puzzle avec des algorithmes de prédiction correspondants. Cependant, le modèle ne peut pas prendre en compte l’environnement cellulaire de l’ARN, ce qui influence également le processus de repliement. « Si l’ARN était isolé et flottait dans une solution aqueuse, le modèle pourrait prédire la structure de manière très précise », explique Brandenburg. Mais une cellule vivante contient de nombreux autres composants.

C’est là que l’intelligence artificielle entre en jeu. L’IA peut apprendre des modèles subtils de l’environnement cellulaire basés sur des structures connues. Il pourrait ensuite intégrer ces résultats dans ses prévisions structurelles. Pour le processus d’apprentissage, cependant, l’IA a besoin de suffisamment de données d’entraînement, ce qui fait en fait défaut dans la pratique.

Obtenir des données d’entraînement avec une astuce

Pour résoudre le problème des données d’entraînement manquantes, l’équipe de Bochum a utilisé une astuce : les chercheurs ont travaillé avec des motifs structuraux d’ARN connus. En utilisant une sorte d’engrenage inverse, ils pourraient générer presque n’importe quel nombre de séquences de nucléotides à partir des modèles énergétiques de ces structures qui se replieraient dans ces structures spatiales. À l’aide de ce repliement dit inverse, les chercheurs ont généré de nombreuses paires de séquences de nucléotides et de structures avec lesquelles ils ont pu entraîner l’IA.

Nouvelles structures prévisibles de manière fiable

Les chercheurs ont alors confronté l’IA à une nouvelle tâche : elle devait prédire la structure de certaines molécules d’ARN bactériennes. Ces molécules, appelées terminateurs de transcription, sont des signaux d’arrêt importants dans la traduction de l’ADN génomique chez les bactéries. Souvent, comme de nombreuses autres molécules d’ARN ayant des fonctions cellulaires importantes, elles sont cachées dans le génome et difficiles à distinguer des zones ayant d’autres fonctions.

L’intelligence artificielle a pu reconnaître et prédire de manière fiable la structure typique des terminateurs de transcription, qui rappelle une épingle à cheveux. L’équipe de recherche a pu le prouver en utilisant des données expérimentales accessibles au public.

« Alors que les approches d’IA sont désormais presque inévitables dans la prédiction des structures des protéines, le développement des structures d’ARN ne fait que commencer », déclare Axel Mosig.

Plus d’information:
Vivian B. Brandenburg et al, Pré-formation basée sur le repliement inverse pour l’identification fiable des terminateurs de transcription intrinsèques, Biologie computationnelle PLOS (2022). DOI : 10.1371/journal.pcbi.1010240

Fourni par Ruhr-Universitaet-Bochum

ph-tech