Depuis son lancement il y a 25 ans, la base de données Genomes OnLine (GOLD) est passée de six projets sur une feuille de calcul à un référentiel de métadonnées génomiques phare, rendant les métadonnées du microbiome organisées qui suivent les normes communautaires librement disponibles et permettant des initiatives d’analyse génomique comparative à grande échelle.
GOLD organise non seulement des projets de séquençage menés au Joint Genome Institute (JGI) du Département américain de l’énergie (DOE), une installation utilisateur du Bureau des sciences du DOE située au Lawrence Berkeley National Laboratory (Berkeley Lab), mais également ceux importés de référentiels publics, ainsi que des données de projet saisies par des utilisateurs externes.
L’impact
L’un des défis importants pour maximiser l’utilisation des données génomiques est d’avoir les informations contextuelles appropriées, ou métadonnées, stockées avec elles. GOLD fournit des ressources de métadonnées organisées manuellement pour les organismes et les échantillons environnementaux. La base de données regroupe les métadonnées pertinentes provenant de diverses sources et applique un schéma d’étiquetage normalisé pour mieux définir les informations génomiques et les écosystèmes.
Ces données organisées sont accessibles sur les portails de données JGI, y compris le système Integrated Microbial Genomes & Microbiomes (IMG/M), améliorant les annotations du génome et promouvant les analyses comparatives du génome. GOLD vise à suivre les principes de données FAIR pour garantir que les actifs numériques sont trouvables, accessibles, interopérables et réutilisables.
Sommaire
GOLD prélève des échantillons traités au JGI, saisis par des utilisateurs externes et ceux importés des référentiels publics et conserve les informations en appliquant des normes développées par la communauté. GOLD prend également en charge un large éventail d’activités, de la réception des propositions à la publication. Des informations sont également obtenues et recoupées avec des ressources publiques, notamment la taxonomie NCBI et diverses collections de cultures telles que l’American Type Culture Collection et le Leibniz Institute DSMZ. GOLD applique sa dénomination normalisée pour tous les échantillons environnementaux et est la seule ressource au monde avec près de 200 000 échantillons environnementaux sélectionnés avec des noms canoniques.
Depuis son lancement en 1997, les utilisateurs actifs de GOLD ont stimulé sa croissance et le développement continu de nouveaux composants et capacités. Les améliorations les plus récentes incluent de nouvelles fonctionnalités telles qu’une API publique et une page de destination de l’écosystème, ainsi que la croissance de différentes entités, décrites plus en détail dans le journal. Recherche sur les acides nucléiques.
L’une des forces de GOLD a été la mise en œuvre de normes de métadonnées dans toutes les entités du système. Le groupe de normes génomiques du JGI, qui gère GOLD, communique personnellement avec les soumissionnaires pour résoudre toute incohérence. Alors que dans le passé, GOLD s’appuyait sur des champs de texte libres, il exploite désormais des vocabulaires contrôlés avec des champs basés sur des unités comme la profondeur et l’élévation enregistrées en unités fixes de mètres, la température en degrés centigrades, etc.
Le système d’organisation de projets à quatre niveaux mis en œuvre dans GOLD consiste en : études, échantillons biologiques/organismes, projets de séquençage et projets d’analyse. Chacune de ces entités est organisée avec un large éventail de métadonnées. GOLD applique une classification écosystémique à cinq niveaux à tous les échantillons et organismes environnementaux dont les informations d’isolement sont disponibles, ce qui permet des découvertes scientifiques basées sur des métadonnées. L’interface de programmation d’application publique de GOLD permet aux utilisateurs d’accéder par programme aux métadonnées organisées de manière sécurisée et fiable.
L’équipe JGI qui gère GOLD travaille déjà en étroite collaboration avec deux autres projets financés par le DOE – le National Microbiome Data Collaborative (NMDC) et la DOE Systems Biology Knowledgebase (KBase) – et vise à étendre ces collaborations dans la conservation des métadonnées, en établissant des normes de métadonnées et des exemples de métadonnées échanger.
Plus d’information:
Supratim Mukherjee et al, Twenty-five years of Genomes OnLine Database (GOLD): mises à jour des données et nouvelles fonctionnalités dans la v.9, Recherche sur les acides nucléiques (2022). DOI : 10.1093/nar/gkac974