Comment les normes permettent la réutilisation des données dans les sciences de la vie

Un peu comme trier une pile de vêtements en désordre dans un placard bien rangé, les normes d’information minimales transforment les données non structurées des articles de journaux en bases de données structurées. Cela permet aux chercheurs d’« explorer » plusieurs ensembles de données, de réutiliser les données et d’obtenir de nouvelles informations.

Les normes d’information minimales sont des lignes directrices et des formats pour la communication des données scientifiques générées par des méthodes à haut débit, telles que le séquençage du génome. Ils garantissent que tous les ensembles de données sont structurés de la même manière, ce qui les rend faciles à trouver, vérifier et analyser par les chercheurs du monde entier. Les normes fournissent également un contexte pour les ensembles de données, par exemple quand, où et comment les données ont été générées, ou quelles espèces elles décrivent.

Bases de données moléculaires publiquescomme ceux gérés par l’EMBL, garantissent que les données générées une fois peuvent être réutilisées encore et encore pour poser de nouvelles questions de recherche, plutôt que que les informations soient « cachées » sur les serveurs de laboratoires individuels.

Il s’agit d’une approche efficace pour capturer les données générées par la science financée par des fonds publics, ce qui les rend faciles d’accès. D’une certaine manière, cela revient à transformer des piles de papier en livres et à les cataloguer systématiquement à la bibliothèque publique, où tout le monde peut y accéder. Tout comme les bibliothèques jouent un rôle dans le partage des connaissances, les ressources de données publiques et les normes minimales d’information permettent aux chercheurs d’accéder et d’utiliser les données générées en dehors de leurs propres laboratoires.

Qu’est-ce qui constitue une bonne norme d’information minimale ?

« Il faut trouver un équilibre entre ce qui est possible et ce qui est pratique », a expliqué Alvis Brazma, chef d’équipe senior à l’EMBL-EBI et co-auteur de certaines des premières normes d’information minimales publiées.

« Les personnes qui génèrent les données diront probablement que la norme nécessite trop d’informations, et les personnes qui analysent les données diront que ce n’est pas suffisant. Ils doivent donc se trouver quelque part entre les deux.

« Mais surtout, vous devez essayer de comprendre ce qui est nécessaire pour une réanalyse maintenant et essayer de prédire ce qui pourrait être nécessaire à l’avenir. Ce n’est pas une tâche facile ! D’après mon expérience, il est préférable de commencer avec un minimum et de continuer à ajouter. une fois que la communauté sera à bord », explique Brazma.

Les normes minimales d’information comportent généralement deux parties. Premièrement, il existe un ensemble d’exigences en matière de reporting, généralement présentées sous forme de tableau ou de liste de contrôle. Deuxièmement, il existe un format de données convenu. Les informations sur une expérience doivent être converties dans le format de données approprié pour pouvoir être soumises à la base de données appropriée.

Piloter le développement de nouvelles méthodes

Les données standardisées sont essentielles au développement de nouvelles méthodes. Chaque méthode de recherche bioinformatique, qu’il s’agisse de prédire de nouvelles protéines désordonnées, d’interpréter l’effet de modifications protéiques ou d’analyser des données de bioimagerie, dépend essentiellement de la disponibilité et de l’absence d’ambiguïté des données utilisées pour entraîner les méthodes.

« Les normes d’information minimales fournissent un contexte qui rassemble les résultats scientifiques dans le tissu inconnaissable du « big data » », a déclaré Cy Jeffries, scientifique à l’EMBL de Hambourg et conservateur de l’exposition. Banque de données biologiques par diffusion aux petits angles (SASBSB). « Cela signifie que les résultats de différentes disciplines scientifiques peuvent être liés entre eux, réutilisés et partagés ouvertement pour trouver de nouveaux modèles auxquels nous n’avons pas encore pensé, mais auxquels l’IA du futur pourrait le faire. »

« À l’ère de l’IA, les normes d’information minimales et les bases de données standardisées sont plus importantes que jamais car elles ouvrent les données à l’apprentissage automatique et aux algorithmes d’IA », a expliqué Jo McEntyre, directeur adjoint de l’EMBL-EBI. « Prenons AlphaFold, par exemple, le système d’IA de Google DeepMind qui peut prédire avec précision les structures des protéines. Le développement d’AlphaFold n’aurait tout simplement pas été possible sans les décennies de données publiques organisées et annotées sur la structure et la fonction des protéines dans la banque de données sur les protéines dans Europe et UniProt. Comme pour de nombreuses méthodes de recherche, ce que vous obtenez est aussi bon que les données que vous entrez.

De nombreuses saveurs de normes

Les scientifiques et collègues de l’EMBL ont contribué au développement de nombreuses normes d’information minimales pour différents types de données. Les normes suivent généralement les évolutions technologiques et l’amélioration de l’accessibilité, qui se traduisent par une augmentation du volume de données produites.

Vous trouverez ci-dessous quelques exemples de normes minimales d’information désormais largement utilisées dans la communauté scientifique :

« Les consultations et l’adhésion de la communauté sont essentielles au succès des normes de données », a expliqué Sandra Orchard, chef d’équipe du contenu des fonctions protéiques à l’EMBL-EBI. « La norme doit être fonctionnelle, de sorte qu’elle soit adoptée dans le monde entier et idéalement soutenue par les éditeurs et les évaluateurs. Et bien sûr, la génération et le partage public de données de recherche doivent être reconnus comme une contribution précieuse à la science, au même titre que d’autres résultats tels que les publications. , le développement d’outils logiciels et le partage de connaissances.

Les normes de données contribuent à tirer parti de la grande quantité de données générées dans le domaine des sciences de la vie. Bien que la soumission des résultats de recherche à des ressources de données publiques et le respect de normes d’information minimales puissent prendre du temps et être onéreux, il s’agit d’une étape importante dans le processus de recherche et peut aider les données à rester utiles longtemps après la publication d’un article.

Après tout, vous n’aimez peut-être pas ranger votre placard, mais cela fait du bien une fois que vous l’avez fait.

Fourni par le Laboratoire européen de biologie moléculaire

ph-tech