GPT-4 kann Zelltypen genau interpretieren, die für die Analyse der Einzelzell-RNA-Sequenzierung wichtig sind – ein Sequenzierungsprozess, der für die Interpretation von Zelltypen von grundlegender Bedeutung ist – mit hoher Konsistenz im Vergleich zu der zeitaufwändigen manuellen Annotation von Geninformationen durch menschliche Experten, so a Studium an der Mailman School of Public Health der Columbia University. Die Ergebnisse sind veröffentlicht im Tagebuch Naturmethoden.
GPT-4 ist ein großes Sprachmodell, das für das Sprachverständnis und die Sprachgenerierung entwickelt wurde. Bei der Bewertung zahlreicher Gewebe- und Zelltypen hat GPT-4 die Fähigkeit bewiesen, Anmerkungen zu Zelltypen zu erstellen, die eng mit den manuellen Anmerkungen menschlicher Experten übereinstimmen und bestehende automatische Algorithmen übertreffen.
Diese Funktion hat das Potenzial, den Aufwand und das Fachwissen für die Kommentierung von Zelltypen, ein Prozess, der Monate dauern kann, erheblich zu verringern. Darüber hinaus haben die Forscher GPTCelltype entwickelt, ein R-Softwarepaket, um die automatisierte Annotation von Zelltypen mithilfe von GPT-4 zu erleichtern.
„Der Prozess der Annotation von Zelltypen für einzelne Zellen ist oft zeitaufwändig und erfordert den Vergleich von Genen durch menschliche Experten über Zellcluster hinweg“, sagte Wenpin Hou, Ph.D., Assistenzprofessor für Biostatistik an der Columbia Mailman School.
„Obwohl automatisierte Methoden zur Annotation von Zelltypen entwickelt wurden, sind manuelle Methoden zur Interpretation wissenschaftlicher Daten nach wie vor weit verbreitet, und ein solcher Prozess kann Wochen bis Monate dauern. Wir stellten die Hypothese auf, dass GPT-4 Zelltypen genau annotieren kann, wodurch der Prozess von manuell auf a umgestellt wird.“ halb- oder sogar vollautomatisiertes Verfahren und kosteneffizient und nahtlos sein.“
Die Forscher bewerteten die Leistung von GPT-4 anhand von zehn Datensätzen, die fünf Arten, Hunderte von Gewebe- und Zelltypen abdecken und sowohl normale als auch Krebsproben umfassen. GPT-4 wurde mit GPTCelltype abgefragt, dem von den Forschern entwickelten Softwaretool. Für konkurrierende Zwecke bewerteten sie auch andere GPT-Versionen und manuelle Methoden als Referenztool.
In einem ersten Schritt untersuchten die Forscher zunächst die verschiedenen Faktoren, die die Annotationsgenauigkeit von GPT-4 beeinflussen können. Sie fanden heraus, dass GPT-4 die beste Leistung erbringt, wenn die zehn wichtigsten verschiedenen Gene verwendet werden, und eine ähnliche Genauigkeit bei verschiedenen Prompt-Strategien aufweist, einschließlich einer einfachen Prompt-Strategie, einer von einer Gedankenkette inspirierten Prompt-Strategie, die Argumentationsschritte umfasst, und einer wiederholten Prompt-Strategie . GPT-4 hat manuelle Analysen in über 75 % der Zelltypen in den meisten Studien und Geweben durchgeführt und damit seine Kompetenz bei der Erstellung von Experten-vergleichbaren Anmerkungen zu Zelltypen unter Beweis gestellt.
Darüber hinaus bedeutet die geringe Übereinstimmung zwischen GPT-4 und manuellen Annotationen in einigen Zelltypen nicht unbedingt, dass die Annotation von GPT-4 falsch ist. In einem Beispiel von Stroma- oder Bindegewebszellen bietet GPT-4 genauere Anmerkungen zum Zelltyp. GPT-4 war auch deutlich schneller.
Hou und ihr Kollege bewerteten außerdem die Robustheit von GPT-4 in komplexen realen Datenszenarien und stellten fest, dass GPT-4 mit einer Genauigkeit von 93 % zwischen reinen und gemischten Zelltypen unterscheiden und zwischen bekannten und unbekannten Zelltypen mit einer Genauigkeit von 99 % unterscheiden kann. Sie bewerteten die Leistung der Reproduktion der GPT-4-Methoden anhand vorheriger Simulationsstudien. GPT-4 erzeugte in 85 % der Fälle identische Notationen für dieselben Markergene.
„Alle diese Ergebnisse zeigen die Robustheit von GPT-4 in verschiedenen Szenarien“, bemerkte Hou.
Während GPT-4 bestehende Methoden übertrifft, gibt es laut Hou Einschränkungen zu berücksichtigen, einschließlich der Herausforderungen bei der Überprüfung der Qualität und Zuverlässigkeit von GPT-4, da es wenig über seine Trainingsvorgänge preisgibt.
„Da sich unsere Studie auf die Standardversion von GPT-4 konzentriert, könnte eine Feinabstimmung von GPT-4 die Leistung der Zelltyp-Annotation weiter verbessern“, sagte Hou.
Zhicheng Ji von der Duke University School of Medicine ist Mitautor.
Mehr Informationen:
Wenpin Hou et al., Bewertung von GPT-4 für die Annotation von Zelltypen in der Einzelzell-RNA-Seq-Analyse, Naturmethoden (2024). DOI: 10.1038/s41592-024-02235-4