Auf maschinellem Lernen basierendes Protein-Annotationstool sagt die Proteinfunktion voraus

Mikroben steuern Schlüsselprozesse des Lebens auf der Erde. Sie beeinflussen globale Elementkreisläufe – die Bewegung von Kohlenstoff, Stickstoff und anderen Elementen. Außerdem fördern sie das Pflanzenwachstum und beeinflussen die Entstehung von Krankheiten. Diese Rollen sind in jedem Ökosystem von wesentlicher Bedeutung. Die Forschung erweitert ständig die Datenbank mikrobieller DNA-Sequenzen, liefert jedoch nicht alle biologischen Informationen über Proteine.

Um Mikroben für nachhaltige Bioenergie und andere Bioprodukte zu entwickeln, benötigen Wissenschaftler ein umfassenderes Verständnis der Funktion von Proteinen und anderen Molekülen. Wissenschaftler schließen auf die Funktion eines Proteins, indem sie es mit Referenzdatenbanken bereits charakterisierter Proteine ​​vergleichen.

Allerdings sind diese Vergleiche schwierig und nicht auf große Datenbanken skalierbar. Um dieser Herausforderung zu begegnen, haben Wissenschaftler maschinelles Lernen auf Modelle angewendet, die die Proteinfunktion vorhersagen. Das Ergebnis ist das Programm Snekmer, das es Wissenschaftlern ermöglicht, Proteinfamilien schnell zu modellieren.

Die Untersuchung biologischer Proteinmoleküle in Mikroben wird Wissenschaftlern dabei helfen, neue Anwendungen für gentechnisch veränderte Mikroben zu verfolgen. Snekmer lässt sich einfach in Hochleistungs-Computing-Umgebungen bereitstellen. Darüber hinaus ist es in das DOE eingebunden KBase Framework als neue Anwendung, die es Benutzern ermöglicht, ihre Genom- und Metagenomsequenzen zu kommentieren.

Dies wird Wissenschaftlern helfen, die Auswirkungen technischer Mikroben besser zu modellieren. Dazu gehören die Auswirkungen dieser Mikroben auf das Klima und ihre Vorteile für die Pflanzengesundheit und die Bioproduktion. Snekmer wird Wissenschaftlern auch dabei helfen, die Entwicklung von Mikroben und Mustern in Mikrobiomen zu untersuchen.

Die Unfähigkeit aktueller Methoden, die Funktion von 30–50 % der bakteriellen Proteinsequenzen vorherzusagen, stellt ein erhebliches Hindernis für ein besseres Verständnis komplexer Systeme wie Bodenmikrobiome dar. Die meisten Protokolle basieren auf paarweisen Ausrichtungen, die mit der Erweiterung der Datenbanken rechnerisch unlösbar und schwieriger zu interpretieren sind.

Bei Alignment-basierten Modellen von Proteinfamilien hängen die Empfindlichkeit und Genauigkeit von anfänglichen Trainingssätzen ab, die mit der Entdeckung zusätzlicher Sequenzvielfalt veralten können. Viele bakterielle Proteine ​​haben entweder keine funktionelle Zuordnung oder ihnen wird ausschließlich aufgrund taxonomischer Erkenntnisse eine allgemeine Funktion zugewiesen.

Um diesem Bedarf gerecht zu werden, haben Forscher des Pacific Northwest National Laboratory, der Baylor University und der Oregon Health & Science University Snekmer entwickelt, ein Softwaretool, das die Redundanz von Aminosäureresteigenschaften nutzt, um den Sequenzraum zu reduzieren, und kurze Proteinsequenzfunktionen (kmer) für maschinelles Lernen nutzt um Proteinfamilienmodelle zu generieren.

Snekmer-Benutzer können Proteinsequenzen in Kmer-Vektoren mit reduziertem Alphabet umkodieren und die Konstruktion überwachter Klassifizierungsmodelle durchführen, die auf Eingabeproteinfamilien trainiert wurden, oder eine Proteinfunktionsklassifizierung basierend auf Snekmer-Modellen.

Die Studie wird in der Zeitschrift veröffentlicht Fortschritte in der Bioinformatik.

Mehr Informationen:
Christine H. Chang et al., Snekmer: eine skalierbare Pipeline für Proteinsequenz-Fingerprinting basierend auf Aminosäure-Rekodierung, Fortschritte in der Bioinformatik (2023). DOI: 10.1093/bioadv/vbad005

Bereitgestellt vom US-Energieministerium

ph-tech