Ein Deep-Variational-Autoencoder für die Datenanalyse der Proteomik-Massenspektrometrie

Das Team von Jianwei Shuai und das Team von Jiahuai Han an der Universität Xiamen haben eine tiefgreifende, autoencoderbasierte, datenunabhängige Erfassungsdatenanalysesoftware für die Proteinmassenspektrometrie entwickelt, die die Analyse relevanter Peptide und Proteine ​​aus komplexen Proteinmassenspektrometriedaten realisiert und die Überlegenheit demonstriert Vielseitigkeit der Methode bei verschiedenen Instrumenten und Artenproben. Die Studie wurde veröffentlicht in Forschung als „Dear-DIAXMBD: Deep Autoencoder für datenunabhängige Erfassungsproteomik“.

Proteine ​​spielen eine zentrale Rolle als Ausführende zellulärer Lebensaktivitäten und steuern eine Vielzahl entscheidender biologischer Prozesse. Infolgedessen hat das Gebiet der Proteomik große Aufmerksamkeit erhalten. Proteomik umfasst die umfassende Untersuchung von Proteineigenschaften, einschließlich posttranslationaler Modifikationen, Proteinexpressionsniveaus, Protein-Protein-Wechselwirkungen und mehr. Das übergeordnete Ziel besteht darin, ein ganzheitliches Verständnis der Pathogenese von Krankheiten, des Zellstoffwechsels und anderer lebenswichtiger Prozesse auf Proteinebene zu erlangen.

Unter den wichtigsten Analysetechniken in der Proteomikforschung ist die Proteinmassenspektrometrie die kritischste. Im Laufe der Zeit hat sich die Massenspektrometrietechnologie weiterentwickelt, um Forschern zuverlässige und dynamische Werkzeuge für die Proteomikanalyse zur Verfügung zu stellen.

Zwei Hauptansätze der Proteinmassenspektrometrie sind die datenabhängige Erfassung (DDA) und die datenunabhängige Erfassung (DIA). Bei der DDA werden alle Peptidvorläufer-Ionenspektren (MS1) im Vollscanmodus erfasst, gefolgt von der Auswahl der N-intensivsten Peptidionen für die Fragmentierung, um Fragmentionenspektren (MS2) zu erhalten.

Trotz seines Nutzens steht DDA aufgrund der Zufälligkeit der Peptidfragmentierung und der bevorzugten Auswahl von Peptiden mit hoher Intensität vor Herausforderungen im Zusammenhang mit der experimentellen Reproduzierbarkeit und dem Nachweis von Peptiden mit geringer Häufigkeit.

Um diese Einschränkungen zu überwinden, wurde die DIA-Erfassungsmethode eingeführt. Diese Technik unterteilt den Masse-zu-Ladungs-Verhältnisbereich der Elternionenspektren in mehrere Fenster und fragmentiert nacheinander alle Peptide innerhalb jedes Fensters, um Tochterionenspektren zu erhalten. Eine gängige DIA-Methode ist die sequentielle Fenstererfassung aller theoretischen Fragmentionen (SWATH).

Während DIA-Erfassungsdaten umfassendere proteomische Informationen enthalten, stellen die große Datenmenge, die hohe Dimensionalität und die komplexen Spektralsignale eine Herausforderung für die Analyse dar. Infolgedessen ist das DIA-Data-Mining zu einem wichtigen Schwerpunkt in der Proteomik-Community geworden.

Das Team von Jianwei Shuai und das Team von Jiahuai Han arbeiteten zusammen, um Dear-DIA zu entwickeln, eine auf Deep Learning basierende, datenunabhängige Software zur Analyse von Erfassungsdaten, die die Identifizierung von Fragmentionen, die verschiedenen Peptiden entsprechen, aus komplexen DIA-Erfassungsspektren realisiert und die Verallgemeinerung auf komplexe Proben demonstriert aus verschiedenen Arten.

Dear-DIA unterteilt die Spektren zunächst in einen Schieberegler mit fester Breite und einer festen Breite entlang der Retentionszeitrichtung (RT), und jeder Schieberegler enthält einen Satz von Vorläuferspektren MS1 ​​und Fragmentspektren MS2 als minimale Verarbeitungseinheit. Anschließend wurde ein Peak-Finding-Algorithmus verwendet, um die Hintergrundionen mit niedrigem Signal-Rausch-Verhältnis zu entfernen und die Kandidaten-Vorläuferionen und Kandidaten-Fragmentionen beizubehalten.

Als nächstes verwendet Dear-DIA einen Variations-Autoencoder, um die Peak-Merkmale von Fragmentionen zu extrahieren, ordnet die Merkmale dem euklidischen Raum zu und gruppiert die Merkmale dann, wobei verschiedene Klassen von Fragmenten unterschiedlichen Peptiden entsprechen, wodurch der Spektrogramm-Entfaltungsprozess realisiert wird.

Dear-DIA enthält einen Indexierungsalgorithmus namens PIndex, der die Vorläufer mit den Clustering-Ergebnissen der Fragmente abgleicht und durch Bewertung die besten Paarungsergebnisse auswählt. Dear-DIA verwendet ein Faltungs-Neuronales Netzwerk, um die Peakformähnlichkeit von Fragmenten derselben Klasse neu zu berechnen, um störende Ionen und Clustering-Ergebnisse mit geringer Ähnlichkeit zu eliminieren.

Die Autoren testeten zunächst die Leistung von Dear-DIA an einem SGS-Human-Datensatz, der 422 synthetische Peptide stabilisotopenmarkierter Standards enthielt, aufgeteilt in 10 Verdünnungsgradienten (von 1-facher bis 512-facher Verdünnung), und DIA-Daten wurden an einem AB erhalten SCIEX TTOF5600-Massenspektrometer unter Verwendung der SWATH-Technik zur Gewinnung von DIA-Daten.

Die Analyseergebnisse zeigten, dass Dear-DIA im Vergleich zu den beiden häufig verwendeten Analysemethoden Spectronaut 14 und DIA-Umpire in allen verdünnten Lösungen mehr synthetische Peptide fand. Die Autoren verglichen auch die Anzahl der Peptide und Proteine, die mit den verschiedenen Analysemethoden für die SGS-Menschen- und L929-Maus-Datensätze gefunden wurden. Die Ergebnisse zeigten, dass Dear-DIA im Vergleich zu Spectronaut 14 und DIA-Umpire mehr Peptide und Proteine ​​finden konnte und mehr als 85 % ihrer Ergebnisse abdeckte.

Die Zuverlässigkeit der Ergebnisse der Proteomikanalyse kann auch durch die Anzahl der für jedes Protein identifizierten Peptide nachgewiesen werden. Proteine ​​mit zwei oder mehr identifizierten Peptiden gelten im Allgemeinen als glaubwürdigere Identifizierungen. Die Autoren verglichen die von Dear-DIA gemeldete Anzahl von Proteinen im Vergleich zu Peptiden mit vorhandener Software anhand eines Datensatzes gemischter Arten (HYE124 TTOF6600 64var-Datensatz).

Der Datensatz enthält Proteine ​​von drei Spezies, Mensch, Hefe und E. coli, und die Daten wurden mit einem AB SCIEX TTOF6600-Massenspektrometer unter Verwendung der SWATH-Methode erfasst, wobei die Elternionenspektren 64 variable Fenster enthielten. Die Analyseergebnisse zeigten, dass 97,16 % der von Dear-DIA gefundenen Proteine ​​zwei oder mehr Peptiden entsprechen könnten, was viel mehr ist als bei DIA-NN, Spectronaut 14 und DIA-Umpire.

Datenunabhängige Erfassungstechniken für die Proteomik sind weit verbreitet und entsprechende Analysealgorithmen sind zu einem Forschungsschwerpunkt geworden. Die Entdeckung von Proteinen aus massiven Massenspektrometriedaten ist eine interessante und herausfordernde Aufgabe. In diesem Artikel entwickelte das Team Dear-DIA, eine auf Deep Learning basierende Analysesoftware, die zur Verarbeitung einer Vielzahl hochkomplexer DIA-Erfassungsdaten verwendet wird und mehr Peptide und Proteine ​​entdecken und die meisten Ergebnisse reproduzieren kann Spektronaut und DIA-Schiedsrichter.

Obwohl der Trainingsdatensatz von E. coli stammt, zeigt die hervorragende Leistung von Dear-DIA beim Datensatz gemischter Arten außerdem seine starke Generalisierungsfähigkeit zur Analyse komplexer Proteomikdaten. Deep Learning hat als weit verbreitetes Tool für die Big-Data-Analyse hervorragende Data-Mining-Fähigkeiten bewiesen, um tiefe intrinsische Zusammenhänge in Big Data zu entdecken.

Der Einsatz von Deep Learning zur Analyse von Proteomik-Massenspektrometriedaten hat großes Potenzial und wird die Untersuchung grundlegender Themen wie Proteinsignalnetzwerke weiter vorantreiben.

Mehr Informationen:
Qingzu He et al, Dear-DIAXMBD: Deep Autoencoder ermöglicht die Entfaltung datenunabhängiger Erfassungsproteomik, Forschung (2023). DOI: 10.34133/research.0179

ph-tech