Pendant des décennies, les biologistes structuraux ont travaillé sur le craquage des structures moléculaires 3D des protéines pour comprendre leur fonction. Mais que se passe-t-il si une protéine n’a pas de structure fixe ? Pour les molécules qui changent constamment de forme, la recherche et le partage des résultats au sein de la communauté scientifique peuvent être compliqués. Les scientifiques de l’EMBL ont contribué à de nouvelles directives qui rendront la partie partage des données plus efficace. La recherche est publiée dans la revue Méthodes naturelles.
Essentiellement, les protéines sont des chaînes d’acides aminés, dont beaucoup se replient comme un origami dans une structure 3D. Cependant, certaines protéines « préfèrent » rester comme une chaîne bancale semblable aux spaghettis cuits (en ignorant le fait que les spaghettis sont principalement constitués de glucides). En fait, environ un tiers de toutes les protéines connues ressemblent complètement ou partiellement à des spaghettis.
Cependant, cela ne signifie pas qu’ils ne remplissent pas une fonction. Bien au contraire. Cette flexibilité supplémentaire confère aux protéines diverses capacités, telles que l’adaptation de leur propre forme à la forme d’autres molécules. De cette façon, ils peuvent interagir avec des molécules plus diverses, et ainsi participer à un plus grand nombre de processus cellulaires qu’une protéine à structure rigide ne pourrait le faire.
Il est important de comprendre les protéines non structurées, également appelées « protéines intrinsèquement désordonnées », car elles sont impliquées dans de nombreux processus pathologiques, tels que le cancer, la neurodégénérescence et les infections virales.
Rendre les données sur les protéines significatives
Les données scientifiques, y compris celles liées aux protéines désordonnées, sont plus utiles à la communauté lorsqu’elles peuvent être réanalysées et intégrées à d’autres ensembles de données pour explorer de nouvelles questions de recherche. Pour ce faire, les données doivent être décrites avec précision et librement accessibles. Ceci est généralement réalisé en soumettant des données à des ressources de données publiques, telles que celles gérées par EMBL-EBI. Certaines des ressources de données sur les protéines les plus utilisées comprennent UniProt pour les séquences de protéines et la banque de données sur les protéines en Europe (PDBe) pour les structures des protéines.
La communauté scientifique a déjà produit un large éventail de lignes directrices pour s’assurer que les scientifiques incluent des informations utiles à côté de leurs données de recherche. Aujourd’hui, pour la première fois, l’EMBL et ses collaborateurs ont développé de telles directives pour les données sur les protéines désordonnées.
Appelé « Information minimale sur une expérience de trouble » ou MIADE, cet ensemble de lignes directrices s’adresse à toute personne travaillant sur des protéines désordonnées, pour les aider à partager leurs données de manière utile. Ce cadre ouvert et partagé est conçu pour aider les scientifiques des protéines à accroître l’exploration et l’interopérabilité des données sur les protéines.
« En plus de définir la quantité minimale d’informations sur une expérience nécessaire pour rendre les résultats significatifs pour d’autres scientifiques, nous définissons également comment rapporter ces informations », a déclaré Bálint Mészáros, ancien chercheur postdoctoral du groupe Gibson à l’EMBL Heidelberg et premier auteur de le papier. « Essentiellement, nous développons un langage commun qui peut être utilisé par la communauté pour rendre la communication sans ambiguïté. »
Lutte contre la perte de données
« C’est très frustrant de lire un article qui décrit une grande science, mais vous ne pouvez pas donner un sens complet aux données car il manque quelque chose de vraiment important », a expliqué Sandra Orchard, chef d’équipe EMBL-EBI pour le contenu fonctionnel des protéines. « La plupart du temps, les informations supplémentaires existent, mais les auteurs négligent la nécessité de les partager. Cela semble idiot, mais l’une des plus grandes pertes de données se produit parce que les auteurs ne disent pas de quelle espèce provient la protéine sur laquelle ils travaillent. »
Au fur et à mesure que la communauté adopte MIADE, davantage de données devraient commencer à parvenir aux bases de données publiques. Cela permettra aux chercheurs du monde entier d’accéder à des informations sur les protéines apparentées et les familles de protéines qui les intéressent et de comparer leurs données avec celles d’autres laboratoires. Le MIADE devrait « ranger » la recherche sur les protéines désordonnées et la rendre plus compréhensible pour les nouvelles personnes qui entrent dans le domaine.
Les caractéristiques structurelles des systèmes protéiques intrinsèquement désordonnés peuvent être étudiées à l’aide de diverses techniques expérimentales, notamment la diffusion des rayons X aux petits angles (SAXS) et la diffusion des neutrons aux petits angles (SANS). SASBDB, la base de données pour SAXS et SANS, est maintenue et organisée par l’équipe SAXS de l’EMBL Hambourg, qui a contribué à l’élaboration des lignes directrices MIADE.
« Il est essentiel que les résultats scientifiques soient partagés, sinon ils pourraient finir comme des » découvertes non découvertes « », a déclaré Cy Jeffries, scientifique au sein de l’équipe SAXS de l’EMBL Hambourg et co-auteur des lignes directrices. « C’était fantastique de travailler avec une communauté diversifiée de scientifiques, d’ingénieurs en logiciel, de programmeurs et de gestionnaires de ressources de données. MIADE est une étape vers la garantie que les scientifiques et les ressources de données peuvent communiquer beaucoup plus facilement en utilisant un ensemble de termes et d’idées de base que nous ( et les ordinateurs) peuvent tous reconnaître. »
MIADE contribuera également à permettre l’utilisation de l’intelligence artificielle pour de nouvelles découvertes sur les protéines désordonnées. La disponibilité de vastes données standardisées est cruciale pour la formation des outils d’apprentissage automatique et d’intelligence artificielle. Avec suffisamment de données de formation, les chercheurs pourraient développer des outils d’apprentissage automatique pour aider à prédire de nouvelles protéines désordonnées, interpréter les effets des modifications des protéines, identifier les régions en interaction, et bien plus encore.
Un effort communautaire
Les directives MIADE fournissent un cadre systématique pour partager des définitions expérimentales qui, outre SASBDB, bénéficieront également à de nombreuses autres banques de données, telles que BMRB (pour Nuclear Magnetic Resonance, NMR), PCDDB (pour les données spectrales de dichroïsme circulaire) et Protein Ensemble Database (PED) . Ceci est également important pour transmettre et contextualiser les données expérimentales vers des ressources bioinformatiques « plus hautes » comme DisProt et d’autres bases de connaissances structurelles sur les protéines, comme celles développées au PDBe.
Les lignes directrices du MIADE ont été élaborées par des scientifiques de plus de 20 institutions dans 11 pays. Les travaux ont été menés par l’Institute of Cancer Research de Londres, au Royaume-Uni.
Plus d’information:
Bálint Mészáros et al, Directives d’information minimales pour les expériences caractérisant structurellement les régions protéiques intrinsèquement désordonnées, Méthodes naturelles (2023). DOI : 10.1038/s41592-023-01915-x