Bei einem Test des Prüfungssystems der britischen Universität Reading blieben von künstlicher Intelligenz (KI) generierte Antworten fast völlig unentdeckt und diese gefälschten Antworten erhielten tendenziell bessere Noten als die von echten Studenten. Peter Scarfe von der Universität Reading und Kollegen präsentieren diese Ergebnisse in der Open-Access-Zeitschrift PLUS EINS am 26. Juni.
In den letzten Jahren sind KI-Tools wie ChatGPT immer fortschrittlicher und weiter verbreitet geworden. Dies weckt die Befürchtung, dass Studierende sie zum Schummeln verwenden, indem sie KI-generierte Arbeiten als ihre eigenen einreichen. Diese Befürchtungen werden noch dadurch verstärkt, dass viele Universitäten und Schulen während der COVID-19-Pandemie von beaufsichtigten Präsenzprüfungen zu unbeaufsichtigten Prüfungen zum Mitnehmen zu Hause übergegangen sind und viele diese Modelle nun fortsetzen. Tools zum Erkennen von KI-generiertem geschriebenem Text haben sich bisher als nicht sehr erfolgreich erwiesen.
Um diese Probleme besser zu verstehen, generierten Scarfe und seine Kollegen Antworten, die zu 100 % vom KI-Chatbot GPT-4 geschrieben und im Namen von 33 fiktiven Studenten an das Prüfungssystem der School of Psychology and Clinical Language Sciences der University of Reading übermittelt wurden. Die Prüfer wussten nichts von der Studie.
Die Forscher stellten fest, dass 94 % ihrer KI-Einreichungen unentdeckt blieben. Im Durchschnitt erhielten die gefälschten Antworten bessere Noten als die Antworten echter Studenten. In 83,4 % der Fälle erhielten die KI-Einreichungen bessere Noten als eine zufällig ausgewählte Gruppe der gleichen Anzahl von Einsendungen echter Studenten.
Diese Ergebnisse legen die Möglichkeit nahe, dass Studierende nicht nur mit dem Schummeln durch KI davonkommen, sondern auch bessere Noten erzielen als ihre Kommilitonen, die nicht schummeln. Die Forscher ziehen auch die Möglichkeit in Betracht, dass im Verlauf dieser Studie einige echte Studierende mit KI-generierten Abgaben davongekommen sein könnten.
Aus Sicht der akademischen Integrität, so die Forscher, seien diese Ergebnisse äußerst besorgniserregend. Sie weisen darauf hin, dass eine Rückkehr zu beaufsichtigten Präsenzprüfungen helfen könnte, dieses Problem zu lösen. Da KI-Tools jedoch immer weiter fortschreiten und in professionelle Arbeitsumgebungen eindringen, könnten sich die Universitäten darauf konzentrieren, herauszufinden, wie sie die „neue Normalität“ der KI annehmen können, um die Bildung zu verbessern.
Die Autoren fügen hinzu: „Ein strenger Blindtest eines realen Universitätsprüfungssystems zeigt, dass von künstlicher Intelligenz generierte Prüfungsunterlagen praktisch nicht erkennbar waren und deutlich bessere Noten erzielten als echte Studenten.“
Die Ergebnisse des „Examinations Turing Test“ fordern den globalen Bildungssektor auf, eine neue Normalität zu akzeptieren, und genau das tun wir an der University of Reading. Neue Richtlinien und Empfehlungen für unsere Mitarbeiter und Studenten berücksichtigen sowohl die Risiken als auch die Chancen, die Tools bieten, die künstliche Intelligenz nutzen.“
Mehr Informationen:
Ein realer Test der Infiltration eines Universitätsprüfungssystems durch künstliche Intelligenz: Eine Fallstudie zum „Turing-Test“, Plus eins (2024). DOI: 10.1371/journal.pone.0305354