Forscher testen ChatGPT und andere KI-Modelle an echten Studenten

Dr. William Hersh, der an der Oregon Health & Science University mehrere Generationen von Medizin- und klinischen Informatikstudenten unterrichtet hat, war neugierig auf den wachsenden Einfluss künstlicher Intelligenz. Er fragte sich, wie sich KI in seinem eigenen Unterricht schlagen würde.

Also beschloss er, ein Experiment zu versuchen.

Er testete sechs Formen generativer KI-Modelle mit großen Sprachen – zum Beispiel ChatGPT – in einer Online-Version seines beliebten Einführungskurses in Biomedizin- und Gesundheitsinformatik, um zu sehen, wie sie im Vergleich zu lebenden, denkenden Studenten abschneiden. Eine Studie veröffentlicht im Journal npj Digitale Medizinverriet die Antwort: Besser als bis zu drei Viertel seiner menschlichen Schüler.

„Das gibt zwar Anlass zur Sorge wegen Betrugs, aber es geht hier um ein größeres Problem“, sagte Hersh. „Woher wissen wir, dass unsere Studenten tatsächlich das Wissen und die Fähigkeiten erlernen und beherrschen, die sie für ihre zukünftige berufliche Tätigkeit benötigen?“

Als Professor für medizinische Informatik und klinische Epidemiologie an der medizinischen Fakultät der OHSU ist Hersh besonders auf neue Technologien eingestellt. Die Rolle der Technologie in der Bildung sei nichts Neues, sagte Hersh und erinnerte sich an seine eigenen Erfahrungen als Highschool-Schüler in den 1970er Jahren, als der Übergang vom Rechenschieber zum Taschenrechner erfolgte.

Dennoch stellt die Umstellung auf generative KI einen exponentiellen Sprung nach vorne dar.

„Jeder sollte natürlich über eine gewisse Wissensbasis in seinem Fachgebiet verfügen“, sagte Hersh. „Welche Wissensbasis erwarten Sie von den Leuten, damit sie kritisch denken können?“

Große Sprachmodelle

Hersh und Co-Autorin Kate Fultz Hollis, eine Informatikerin der OHSU, zogen die Ergebnisse der Wissenstests von 139 Studenten heran, die 2023 den Einführungskurs in Biomedizin- und Gesundheitsinformatik belegten. Sie riefen sechs generative KI-Large-Language-Modelle mit Bewertungsmaterialien der Studenten aus dem Kurs auf. Je nach Modell erreichte die KI bei Multiple-Choice-Fragen, die in Tests und einer Abschlussprüfung verwendet wurden, die kurze schriftliche Antworten auf Fragen erforderte, im oberen 50. bis 75. Perzentil.

„Die Ergebnisse dieser Studie werfen erhebliche Fragen zur Zukunft der Schülerbeurteilung in den meisten, wenn nicht allen akademischen Disziplinen auf“, schreiben die Autoren.

Die Studie ist die erste, die großsprachliche Modelle mit Studenten für einen vollständigen akademischen Kurs im biomedizinischen Bereich vergleicht. Hersh und Fultz Hollis stellten fest, dass ein wissensbasierter Kurs wie dieser besonders gut für generative großsprachliche Modelle geeignet sein könnte, im Gegensatz zu eher partizipativen akademischen Kursen, die den Studenten helfen, komplexere Fähigkeiten und Fertigkeiten zu entwickeln.

Hersh erinnert sich an seine Erfahrungen an der medizinischen Fakultät.

„Als ich Medizinstudent war, sagte mir einer meiner behandelnden Ärzte, ich müsse das gesamte Wissen im Kopf haben“, sagte er. „Selbst in den 1980er Jahren war das eine Herausforderung. Der Wissensschatz der Medizin übersteigt schon lange die Kapazität des menschlichen Gehirns, alles zu speichern.“

Die menschliche Note bewahren

Er glaubt jedoch, dass es einen schmalen Grat zwischen der sinnvollen Nutzung technischer Ressourcen zur Förderung des Lernens und der übermäßigen Abhängigkeit bis zu dem Punkt gibt, an dem das Lernen behindert wird. Letztendlich besteht das Ziel eines akademischen Gesundheitszentrums wie OHSU darin, medizinisches Fachpersonal auszubilden, das in der Lage ist, Patienten zu betreuen und die Nutzung von Daten und Informationen über sie in der realen Welt zu optimieren.

In diesem Sinne, sagte er, werde die Medizin immer die menschliche Note erfordern.

„Viele Dinge, die medizinisches Fachpersonal tut, sind ziemlich unkompliziert, aber es gibt auch Fälle, in denen es komplizierter wird und man Urteile fällen muss“, sagte er. „Dann hilft es, eine breitere Perspektive zu haben, ohne unbedingt jede einzelne Tatsache im Kopf haben zu müssen.“

Da die Herbstkurse bald beginnen, mache er sich laut Hersh keine Sorgen wegen Betrugs.

„Ich aktualisiere den Kurs jedes Jahr“, sagte er. „In jedem wissenschaftlichen Bereich gibt es ständig neue Fortschritte und große Sprachmodelle sind nicht unbedingt in allen Bereichen auf dem neuesten Stand. Das bedeutet nur, dass wir uns neuere oder differenziertere Tests ansehen müssen, bei denen Sie die Antwort nicht aus ChatGPT erhalten.“

Weitere Informationen:
William Hersh et al., Ergebnisse und Implikationen für generative KI in einem großen Einführungskurs in Biomedizin und Gesundheitsinformatik, npj Digitale Medizin (2024). DOI: 10.1038/s41746-024-01251-0

Zur Verfügung gestellt von der Oregon Health & Science University

ph-tech