KI könnte sich bei bestimmten Aufgaben wie dem Codieren oder der Erstellung eines Podcasts auszeichnen. Aber es fällt ihm schwer, eine Geschichtsprüfung auf hohem Niveau zu bestehen, wie eine neue Studie herausgefunden hat.
Ein Forscherteam hat einen neuen Benchmark erstellt, um drei Top-Large-Language-Modelle (LLMs) – GPT-4 von OpenAI, Llama von Meta und Gemini von Google – auf historische Fragen zu testen. Der Benchmark Hist-LLM testet die Richtigkeit der Antworten gemäß der Seshat Global History Databank, einer umfangreichen Datenbank mit historischem Wissen, die nach der altägyptischen Göttin der Weisheit benannt ist.
Die Ergebnisse, die wurden vorgestellt Letzten Monat auf der hochkarätigen KI-Konferenz NeurIPS waren sie enttäuschend, so Forscher, die der angeschlossen sind Zentrum für Komplexitätswissenschaft (CSH), ein Forschungsinstitut mit Sitz in Österreich. Das leistungsstärkste LLM war GPT-4 Turbo, erreichte jedoch nur eine Genauigkeit von etwa 46 % – nicht viel höher als bei zufälligen Schätzungen.
„Die wichtigste Erkenntnis aus dieser Studie ist, dass LLMs zwar beeindruckend sind, ihnen aber immer noch das tiefe Verständnis fehlt, das für fortgeschrittene Geschichte erforderlich ist. Sie eignen sich hervorragend für grundlegende Fakten, aber wenn es um differenziertere historische Untersuchungen auf Doktorandenniveau geht, sind sie der Aufgabe noch nicht gewachsen“, sagte Maria del Rio-Chanona, eine der Co-Autoren des Papiers und Mitarbeiterin Professor für Informatik am University College London.
Die Forscher teilten Tech beispielhafte historische Fragen mit, bei denen LLMs falsch lagen. Beispielsweise wurde der GPT-4 Turbo gefragt, ob in einem bestimmten Zeitraum im alten Ägypten eine Schuppenpanzerung vorhanden war. Das LLM sagte ja, aber die Technologie erschien erst 1.500 Jahre später in Ägypten.
Warum sind LLMs schlecht darin, technisch-historische Fragen zu beantworten, wenn sie doch so gut darin sein können, sehr komplizierte Fragen zu Dingen wie Codierung zu beantworten? Del Rio-Chanona sagte gegenüber Tech, dass dies wahrscheinlich daran liegt, dass LLMs dazu neigen, aus historischen Daten zu extrapolieren, die sehr wichtig sind, und es ihnen schwerfällt, obskureres historisches Wissen abzurufen.
Die Forscher fragten beispielsweise GPT-4, ob das alte Ägypten in einem bestimmten historischen Zeitraum über ein professionelles stehendes Heer verfügte. Während die richtige Antwort „Nein“ lautet, antwortete das LLM fälschlicherweise, dass dies der Fall sei. Dies liegt wahrscheinlich daran, dass es viele öffentliche Informationen darüber gibt, dass andere antike Reiche wie Persien über stehende Armeen verfügten.
„Wenn Ihnen A und B 100 Mal und C 1 Mal gesagt werden und dann eine Frage zu C gestellt wird, erinnern Sie sich vielleicht einfach an A und B und versuchen, daraus zu schließen“, sagte del Rio-Chanona.
Die Forscher identifizierten auch andere Trends, darunter, dass OpenAI- und Llama-Modelle in bestimmten Regionen wie Subsahara-Afrika schlechtere Leistungen erbrachten, was auf mögliche Verzerrungen in ihren Trainingsdaten hindeutet.
Die Ergebnisse zeigen, dass LLMs in bestimmten Bereichen immer noch kein Ersatz für Menschen sind, sagte Peter Turchin, der die Studie leitete und Fakultätsmitglied am CSH ist.
Die Forscher sind jedoch immer noch zuversichtlich, dass LLMs Historikern in Zukunft helfen können. Sie arbeiten daran, ihren Benchmark zu verfeinern, indem sie mehr Daten aus unterrepräsentierten Regionen einbeziehen und komplexere Fragen hinzufügen.
„Insgesamt zeigen unsere Ergebnisse zwar Bereiche auf, in denen LLMs verbessert werden müssen, sie unterstreichen aber auch das Potenzial dieser Modelle, die historische Forschung zu unterstützen“, heißt es in dem Papier.