Hashing ergänzt Alignment-basierte Methoden für die Annotation von Bakteriengenomen

Die Kolosseen von Elden Ring oeffnen morgen endlich im kostenlosen

Die DNA-Sequenzierung hat die Biologie seit den Anfängen der Artentheorie wie nichts anderes verändert. Insbesondere die Art und Weise, wie wir mikrobielles Leben untersuchen, hat sich grundlegend verändert. Heute sind wir in der Lage, DNA mit beispielloser Geschwindigkeit und Auflösung zu sequenzieren, sodass wir sogar Genome von Mikroben sequenzieren können, die noch nie zuvor beschrieben oder kultiviert wurden. Gleichzeitig ist die Sequenzierung des gesamten Genoms bekannter – am meisten pathogener – Arten zu einer Routinemethode geworden, die weltweit als tägliches Geschäft durchgeführt wird.

Dies wiederum erhöht ständig die Menge an öffentlich gespeicherten Sequenzen, die gleichzeitig zu einer Fundgrube und einer Hürde werden. Für viele sequenzbasierte Computeranalysen spielen umfassende und gründliche Genomannotationen als gemeinsame Ausgangsbasis eine entscheidende Rolle. Und das galt lange Zeit als gelöstes Problem.

Der tägliche Zustrom neuer Genom- und Gensequenzen in öffentliche Datenbanken wirft jedoch neue Probleme für die schnelle Annotation mikrobieller Genome auf. Insbesondere die Suche nach ähnlichen oder identischen proteinkodierenden Genen ist zu einem großangelegten bioinformatischen Suchproblem geworden wie eine Nadel im Heuhaufen – ein heutzutage erstaunlich großer Heuhaufen.

Dabei stehen wir vor zwei diametral divergierenden Entwicklungen. Einerseits werden öffentliche Datenbanken mit ähnlichen und nahezu identischen Proteinsequenzen überschwemmt. Dazu gehören zum Beispiel die von größter Relevanz wie antimikrobielle Resistenzgene und Virulenzfaktoren – Sequenzen, die mit unzähligen nützlichen Informationen aus vielen öffentlichen Datenbanken verknüpft werden können. Andererseits entstehen unzählige neue Sequenzen aus Metagenomprojekten zur Sequenzierung dessen, was oft als mikrobielle dunkle Materie bezeichnet wird. Für viele dieser Sequenzen sind jedoch überhaupt keine zusätzlichen Informationen verfügbar.

Aus dieser Situation ergeben sich zwei unterschiedliche bioinformatische Herausforderungen: erstens die exakte Identifizierung bekannter Sequenzen und zweitens die funktionelle Beschreibung seltener oder sogar unbekannter Sequenzen – beide in der Größenordnung von Hunderten von Millionen. Um diese Herausforderungen anzugehen, haben wir eine Alignment-freie Proteinsequenz-Hashing-Strategie in Verbindung mit zwei hierarchischen Sequenzalignment-Schritten als neuen Ansatz für dieses Problem ausprobiert. Unsere Arbeit wurde in der Zeitschrift veröffentlicht Mikrobielle Genomik.

Um bekannte Proteinsequenzen genau zu identifizieren, haben wir eine Hash-Funktion verwendet, die Eingabedaten beliebiger Länge auf binäre Fingerabdrücke fester Größe abbildet. Diese Hash-Funktionen sind aufgrund einer wichtigen Eigenschaft aus sogenannten Prüfsummenberechnungen bekannt: Sie sind extrem schnell zu berechnen, viel schneller als herkömmliche Sequenzausrichtungen.

Um dies zu nutzen, haben wir eine kompakte, lokale Datenbank mit Hash-Fingerprints von mehr als 220 Millionen Proteinsequenzen erstellt. In einem zweiten Schritt haben wir hochwertige Annotationen und Querverweise zu weiteren externen Datenbanken vorbelegt. Beachten Sie, dass diese anspruchsvollen umfangreichen Berechnungen nur einmal im Datenbankkompilierungsschritt erforderlich sind, den wir regelmäßig bei neuen Versionen durchführen. Für den eigentlichen Genomannotationsprozess können wir diese dichte Informationsspeicherung zur Laufzeit nutzen und so exakte Sequenzidentifikationen und ultraschnelles Nachschlagen verwandter Informationen erreichen.

Wir haben auch den Gesamtspeicherbedarf auf ein Drittel reduziert, obwohl zusätzliche reichhaltige Anmerkungsinformationen wie Gensymbole, EC-Nummern, GO-Begriffe, Proteinprodukte und externe Datenbankzugänge enthalten sind. Diese Informationen sind eine wertvolle Ressource, um vorhandene Sequenzen mit verwandten Sequenzen zu verbinden, die in öffentlichen Datenbanken gespeichert sind.

Interessanterweise trug dieser Alignment-freie Ansatz auch dazu bei, rechenintensive Alignments, die als Fallback-Suchstrategie für nicht identifizierte Sequenzen folgen, im Wesentlichen zu vermeiden. In einem hierarchischen zweistufigen Prozess wurden verbleibende Proteinsequenzen über traditionelle Sequenzabgleiche gegen Proteincluster-repräsentative Sequenzen gesucht. Zuerst wurden mehr als 99 Millionen dichte Protein-Cluster auf Übereinstimmungen durchsucht, gefolgt von einer zweiten Suche mit gelockerten Schwellenwerten, die mehr als 13 Millionen breitere Cluster durchmusterte.

Potenziell negative Laufzeiteffekte dieser riesigen Proteincluster-Datenbanken wurden durch den beschriebenen Alignment-freien Sequenzidentifikationsansatz gemildert. Schließlich wurden alle Annotationsinformationen für identifizierte Proteinsequenzen und verwandte Cluster kombiniert, wobei spezifischen Informationen Vorrang vor allgemeineren Informationen eingeräumt wurde.

Dieser hierarchische Ansatz ist Teil eines größeren Annotationsworkflows, der auch die Annotation nichtkodierender RNA- und DNA-Merkmale umfasst, z. B. tRNAs, rRNAs, ncRNAs, CRISPR-Arrays, Replikationsursprung und viele mehr. Bakta ist als Kommandozeilentool und als skalierbarer Webservice unter verfügbar https://bakta.computational.bio

Diese Geschichte ist ein Teil von Wissenschaft X Dialogwo Forscher Ergebnisse aus ihren veröffentlichten Forschungsartikeln melden können. Besuchen Sie diese Seite für Informationen zum ScienceX Dialog und zur Teilnahme.

Mehr Informationen:
Oliver Schwengers et al, Bakta: schnelle und standardisierte Annotation bakterieller Genome durch Alignment-freie Sequenzidentifikation, Mikrobielle Genomik (2021). DOI: 10.1099/mgen.0.000685

Oliver Schwengers ist mikrobielle Bioinformatik PostDoc am Fachgebiet Bioinformatik und Systembiologie der JLU Gießen. Seine Forschungsaktivitäten konzentrieren sich auf die Analyse und Charakterisierung bakterieller Genome und Plasmide basierend auf Gesamtgenom-Sequenzierungsdaten sowie die Entwicklung vollautomatisierter und skalierbarer Bioinformatik-Softwaretools. Er liebt es, regelmäßig interdisziplinär mit Forschern aus der Medizin-, Umwelt- und Weltraummikrobiologie zusammenzuarbeiten.

ph-tech