ChatGPT hat eine weitere Top-Prüfung in den USA nicht bestanden. Einer Studie zufolge hat der vielgelobte Chatbot ChatGPT von OpenAI in den USA eine Urologenprüfung nicht bestanden. Die in der Fachzeitschrift Urology Practice veröffentlichte Studie zeigte, dass ChatGPT beim weit verbreiteten Self-Assessment Study Program for Urology (SASP) der American Urologist Association weniger als 30 Prozent richtige Antworten erzielte.
„ChatGPT weist nicht nur eine geringe Rate korrekter Antworten auf klinische Fragen in der urologischen Praxis auf, sondern macht auch bestimmte Arten von Fehlern, die das Risiko der Verbreitung medizinischer Fehlinformationen bergen“, sagte er Christopher M. Deibertvom University of Nebraska Medical Center, im Bericht.
Was ist das Selbstbewertungsstudienprogramm für Urologie tesr
Das Self-Assessment Study Program (SASP) der AUA ist eine Übungsprüfung mit 150 Fragen, die sich mit dem Kerncurriculum des medizinischen Wissens in der Urologie befasst. Die Studie schloss 15 Fragen aus, die visuelle Informationen wie Bilder oder Grafiken enthielten.
Wie ChatGPT im Test abgeschnitten hat
Insgesamt gab ChatGPT Berichten zufolge auf weniger als 30 Prozent dieser SASP-Fragen, 28,2 Prozent der Multiple-Choice-Fragen und 26,7 Prozent der offenen Fragen korrekte Antworten. Der Chatbot soll auf mehrere Fragen „unbestimmte“ Antworten gegeben haben. Bei diesen Fragen verringerte sich die Genauigkeit, wenn das LLM-Modell aufgefordert wurde, seine Antworten neu zu generieren.
In dem Bericht heißt es, dass ChatGPT bei den meisten offenen Fragen nur eine Erklärung für die ausgewählte Antwort lieferte. Die von ChatGPT gegebenen Antworten waren länger als die von SASP, aber laut den Autoren „häufig redundant und zyklischer Natur“.
„Insgesamt lieferte ChatGPT oft vage Begründungen mit breiten Aussagen und äußerte sich selten zu Einzelheiten“, sagte Dr. Deibert. Selbst als ChatGPT Feedback erhielt, „bekräftigte es kontinuierlich die ursprüngliche Erklärung, obwohl sie ungenau war“, heißt es in dem Bericht.
Was bei ChatGPT nicht funktioniert
Die Forscher weisen darauf hin, dass ChatGPT zwar bei Tests, die die Erinnerung an Fakten erfordern, gute Ergebnisse erzielen kann, bei Fragen im Zusammenhang mit der klinischen Medizin jedoch offenbar unzureichend ist, da diese eine „gleichzeitige Abwägung mehrerer überlappender Fakten, Situationen und Ergebnisse“ erfordern.
„Angesichts der Tatsache, dass LLMs durch ihre menschliche Ausbildung begrenzt sind, ist weitere Forschung erforderlich, um ihre Einschränkungen und Fähigkeiten in mehreren Disziplinen zu verstehen, bevor sie für den allgemeinen Gebrauch verfügbar gemacht werden“, sagte Dr. Deibert.
„ChatGPT weist nicht nur eine geringe Rate korrekter Antworten auf klinische Fragen in der urologischen Praxis auf, sondern macht auch bestimmte Arten von Fehlern, die das Risiko der Verbreitung medizinischer Fehlinformationen bergen“, sagte er Christopher M. Deibertvom University of Nebraska Medical Center, im Bericht.
Was ist das Selbstbewertungsstudienprogramm für Urologie tesr
Das Self-Assessment Study Program (SASP) der AUA ist eine Übungsprüfung mit 150 Fragen, die sich mit dem Kerncurriculum des medizinischen Wissens in der Urologie befasst. Die Studie schloss 15 Fragen aus, die visuelle Informationen wie Bilder oder Grafiken enthielten.
Wie ChatGPT im Test abgeschnitten hat
Insgesamt gab ChatGPT Berichten zufolge auf weniger als 30 Prozent dieser SASP-Fragen, 28,2 Prozent der Multiple-Choice-Fragen und 26,7 Prozent der offenen Fragen korrekte Antworten. Der Chatbot soll auf mehrere Fragen „unbestimmte“ Antworten gegeben haben. Bei diesen Fragen verringerte sich die Genauigkeit, wenn das LLM-Modell aufgefordert wurde, seine Antworten neu zu generieren.
In dem Bericht heißt es, dass ChatGPT bei den meisten offenen Fragen nur eine Erklärung für die ausgewählte Antwort lieferte. Die von ChatGPT gegebenen Antworten waren länger als die von SASP, aber laut den Autoren „häufig redundant und zyklischer Natur“.
„Insgesamt lieferte ChatGPT oft vage Begründungen mit breiten Aussagen und äußerte sich selten zu Einzelheiten“, sagte Dr. Deibert. Selbst als ChatGPT Feedback erhielt, „bekräftigte es kontinuierlich die ursprüngliche Erklärung, obwohl sie ungenau war“, heißt es in dem Bericht.
Was bei ChatGPT nicht funktioniert
Die Forscher weisen darauf hin, dass ChatGPT zwar bei Tests, die die Erinnerung an Fakten erfordern, gute Ergebnisse erzielen kann, bei Fragen im Zusammenhang mit der klinischen Medizin jedoch offenbar unzureichend ist, da diese eine „gleichzeitige Abwägung mehrerer überlappender Fakten, Situationen und Ergebnisse“ erfordern.
„Angesichts der Tatsache, dass LLMs durch ihre menschliche Ausbildung begrenzt sind, ist weitere Forschung erforderlich, um ihre Einschränkungen und Fähigkeiten in mehreren Disziplinen zu verstehen, bevor sie für den allgemeinen Gebrauch verfügbar gemacht werden“, sagte Dr. Deibert.