Genauso wie die Frage einer einzelnen Person nach ihrer Gesundheit maßgeschneiderte, personalisierte Informationen liefert, die aus einer großen Umfrage nicht gewonnen werden können, kann das Genom oder Transkriptom einer einzelnen Zelle viel mehr Informationen über ihren Platz in lebenden Systemen liefern als die Sequenzierung einer ganzen Reihe von Zellen. Aber bis vor einigen Jahren gab es keine Technologie, um diese hochauflösenden Genomdaten zu erhalten – und bis heute gab es keine zuverlässige Möglichkeit, die hohe Qualität und Nützlichkeit dieser Daten sicherzustellen.
Forscher der University of North Carolina in Charlotte haben unter der Leitung von Dr. Weijun Luo und Dr. Cory Brouwer einen Algorithmus für künstliche Intelligenz entwickelt, um verrauschte Einzelzell-RNA-Sequenzierungsdaten (scRNA-Seq) zu „reinigen“. Die Studie „A Universal Deep Neural Network for In-Depth Cleaning of Single-Cell RNA-Seq Data“ wurde in veröffentlicht Naturkommunikation am 7. April 2022.
Von der Identifizierung der spezifischen Gene im Zusammenhang mit Sichelzellenanämie und Brustkrebs bis hin zur Entwicklung der mRNA-Impfstoffe in der anhaltenden COVID-19-Pandemie haben Wissenschaftler seit dem Human Genome Project der 1990er Jahre Genome durchsucht, um die Geheimnisse des Lebens zu entschlüsseln. Die Technologie hat sich von jenen frühen Tagen, in denen Tausende von Zellen zusammengestapelt wurden, um die Millionen von Basenpaaren zu entschlüsseln, aus denen genetische Informationen bestehen, sprunghaft entwickelt, und im Jahr 2009 entwickelten Forscher scRNA-Seq, das heute in der biomedizinischen Forschung weit verbreitet ist und nur das Transkriptom oder das exprimierte sequenziert Teil des Genoms in einer einzelnen Zelle eines lebenden Organismus.
Leider sind scRNA-Seq-Daten sehr verrauscht und weisen viele Fehler und Qualitätsprobleme auf. Die Sequenzierung einer einzelnen Zelle anstelle vieler Zellen führt zu häufigen „Aussetzern“ – fehlenden Genen in den Daten. Eine einzelne Zelle, wie eine einzelne Person, kann ihre eigenen gesundheitlichen Probleme haben oder sich in einer schwierigen Phase ihres Lebenszyklus befinden – sie hat sich vielleicht gerade geteilt oder ist auf dem Weg zum Zelltod, was zu weiteren Fehlern oder technischen Abweichungen führen kann die scRNA-Seq-Daten. Neben den einzelzellspezifischen Problemen kommt es beim genomischen Profiling normalerweise zu „normalen“ Problemen mit Sequenzierungsfehlern. All diese Fehler müssen aus den Daten „bereinigt“ werden, bevor sie verwendet oder interpretiert werden können, und hier kommt der neue KI-Algorithmus ins Spiel.
Der Algorithmus namens AutoClass ist eine Weiterentwicklung bestehender statistischer Methoden. Die meisten existierenden Verfahren gehen davon aus, dass Fehler (oder Rauschen) einer bestimmten vordefinierten Verteilung folgen würden, oder wie wahrscheinlich es ist, dass die Fehler auftreten und wie groß die Fehler sein könnten. Bestehende Methoden sind oft nicht in der Lage, die Daten vollständig zu bereinigen, um biologische Signale aufzudecken, und können aufgrund ihrer falschen Annahmen zur Datenverteilung sogar neue Fehler hinzufügen. Im Gegensatz dazu macht AutoClass keine Verteilungsannahme; Daher kann es eine Vielzahl von Geräuschen oder technischen Abweichungen effektiv korrigieren.
„AutoClass ist ein KI-Algorithmus, der auf einem speziellen tiefen neuronalen Netzwerk basiert, das entwickelt wurde, um sowohl die Rauschunterdrückung als auch die Signalretention zu maximieren.“ Dr. Luo sagte: „Die KI bringt sich selbst bei, Signal und Rauschen in den Daten zu unterscheiden, indem sie genügend Daten sieht. Normalerweise ist die Leistung umso besser, je mehr Daten sie sieht.“
In der Studie zeigten Dr. Luo und sein Team, dass AutoClass qualitativ hochwertige scRNA-Seq-Daten rekonstruieren und die Downstream-Analyse in mehreren Aspekten verbessern kann. Darüber hinaus ist AutoClass robust und bietet eine gute Leistung bei verschiedenen scRNA-Seq-Datentypen und -Bedingungen.
AutoClass ist hocheffizient und skalierbar und funktioniert gut mit Daten einer breiten Palette von Stichprobengrößen und Merkmalsgrößen und läuft problemlos sogar auf einem normalen PC oder Laptop. AutoClass ist Open Source und Online verfügbar.
Hui Li et al, Ein universelles tiefes neurales Netzwerk für die gründliche Bereinigung von Einzelzell-RNA-Seq-Daten, Naturkommunikation (2022). DOI: 10.1038/s41467-022-29576-y