Seit ihrer Einführung vor 25 Jahren ist die Genomes OnLine Database (GOLD) von sechs Projekten in einer Tabellenkalkulation zu einem Vorzeige-Repository für genomische Metadaten gereift, das kuratierte Mikrobiom-Metadaten, die den Gemeinschaftsstandards entsprechen, frei verfügbar macht und groß angelegte Initiativen zur vergleichenden Genomanalyse ermöglicht.
GOLD kuratiert nicht nur Sequenzierungsprojekte, die am Joint Genome Institute (JGI) des US-Energieministeriums (DOE), einer Benutzereinrichtung des DOE Office of Science im Lawrence Berkeley National Laboratory (Berkeley Lab), durchgeführt werden, sondern auch solche, die aus öffentlichen Repositories importiert werden. sowie von externen Benutzern eingegebene Projektdaten.
Der Aufprall
Eine der größten Herausforderungen bei der Maximierung der Nutzung genomischer Daten besteht darin, die entsprechenden Kontextinformationen oder Metadaten mit ihnen zu speichern. GOLD bietet manuell kuratierte Metadatenressourcen für Organismen und Umweltproben. Die Datenbank aggregiert relevante Metadaten aus verschiedenen Quellen und wendet ein standardisiertes Kennzeichnungsschema an, um die genomischen Informationen und Ökosysteme besser zu definieren.
Diese kuratierten Daten sind auf JGI-Datenportalen zugänglich, darunter das Integrated Microbial Genomes & Microbiomes (IMG/M)-System, das Genomannotationen verbessert und vergleichende Genomanalysen fördert. GOLD verfolgt das Ziel, FAIR-Datenprinzipien zu befolgen, um sicherzustellen, dass digitale Assets auffindbar, zugänglich, interoperabel und wiederverwendbar sind.
Zusammenfassung
GOLD nimmt Proben, die am JGI verarbeitet, von externen Benutzern eingegeben und aus den öffentlichen Repositories importiert werden, und kuratiert die Informationen, indem es von der Gemeinschaft entwickelte Standards anwendet. GOLD unterstützt auch ein breites Spektrum an Aktivitäten von der Antragstellung bis zur Veröffentlichung. Es werden auch Informationen eingeholt und mit öffentlichen Quellen abgeglichen, darunter NCBI Taxonomy und verschiedene Kultursammlungen wie die American Type Culture Collection und das DSMZ des Leibniz-Instituts. GOLD wendet seine charakteristische standardisierte Benennung für alle Umweltproben an und ist die einzige Ressource der Welt mit fast 200.000 kuratierten Umweltproben mit kanonischen Namen.
Seit seiner Einführung im Jahr 1997 haben aktive GOLD-Benutzer das Wachstum und die kontinuierliche Entwicklung neuer Komponenten und Fähigkeiten vorangetrieben. Zu den jüngsten Verbesserungen gehören neue Funktionen wie eine öffentliche API und eine Ökosystem-Landingpage sowie das Wachstum verschiedener Entitäten, die in der Zeitschrift näher beschrieben werden Nukleinsäureforschung.
Eine der Stärken von GOLD war die Implementierung von Metadatenstandards für alle Entitäten im System. Die Genomic Standards Group des JGI, die GOLD verwaltet, kommuniziert persönlich mit den Einreichern, um Unstimmigkeiten zu beheben. Während sich GOLD in der Vergangenheit auf Freitextfelder stützte, nutzt es jetzt kontrollierte Vokabulare mit einheitenbasierten Feldern wie Tiefe und Höhe, die in festen Einheiten von Metern aufgezeichnet werden, Temperatur in Celsius und mehr.
Das in GOLD implementierte vierstufige Projektorganisationssystem besteht aus: Studien, Bioproben/Organismen, Sequenzierungsprojekten und Analyseprojekten. Jede dieser Entitäten wird mit einer Vielzahl von Metadaten kuratiert. GOLD wendet eine fünfstufige Ökosystemklassifizierung auf alle Umweltproben und Organismen an, deren Isolierungsinformationen verfügbar sind, und ermöglicht so metadatengestützte wissenschaftliche Entdeckungen. Die öffentliche Anwendungsprogrammierschnittstelle von GOLD ermöglicht Benutzern den programmgesteuerten Zugriff auf kuratierte Metadaten auf sichere und zuverlässige Weise.
Das JGI-Team, das GOLD verwaltet, arbeitet bereits eng mit zwei anderen DOE-finanzierten Projekten zusammen – der National Microbiome Data Collaborative (NMDC) und der DOE Systems Biology Knowledgebase (KBase) – und zielt darauf ab, diese Kooperationen bei der Kuration von Metadaten, der Etablierung von Metadatenstandards und Probenmetadaten auszuweiten Austausch.
Mehr Informationen:
Supratim Mukherjee et al., Fünfundzwanzig Jahre Genomes OnLine Database (GOLD): Datenaktualisierungen und neue Funktionen in v.9, Nukleinsäureforschung (2022). DOI: 10.1093/nar/gkac974