Legen Sie dies unter „Unvermeidlich, aber urkomisch“ ab. Mechanical Turk ist ein Dienst, der schon in seinen Anfängen zu Spielereien einzuladen schien, und tatsächlich zeigen Forscher, dass fast die Hälfte seiner „Turker“ anscheinend KI für Aufgaben verwenden, die speziell für Menschen gedacht waren, weil KI dies nicht konnte. Hier haben wir den Kreis geschlossen, tolle Arbeit an alle!
Mit Mechanical Turk von Amazon können Benutzer einfache Aufgaben in eine beliebige Anzahl kleiner Unteraufgaben aufteilen, deren Erledigung nur wenige Sekunden dauert und für die sie ein paar Cent bezahlen – engagierte Einzelarbeiter erledigen jedoch Tausende und verdienen dadurch einen bescheidenen, aber zuverlässigen Lohn. Es handelte sich, wie Jeff Bezos es damals einprägsam ausdrückte, um „künstliche künstliche Intelligenz“.
Dabei handelte es sich in der Regel um Aufgaben, die damals nur schwer zu automatisieren waren – etwa ein CAPTCHA, das Erkennen der Stimmung eines Satzes oder ein einfaches „Zeichne einen Kreis um die Katze in diesem Bild“, Dinge, die Menschen schnell und zuverlässig erledigen konnten. Es wurde großzügig von Leuten verwendet, die relativ komplexe Daten kennzeichnen, und von Forschern, die menschliche Bewertungen oder Entscheidungen in großem Maßstab erhalten wollten.
Es ist nach dem berühmten „Schachautomaten“ benannt, der tatsächlich einen Menschen nutzte, der sich in seiner Basis versteckte, um seine Schachzüge auszuführen – Poe hat eine großartige zeitgenössische Version davon geschrieben. Manchmal ist Automatisierung schwierig oder unmöglich, aber in solchen Fällen kann man aus der Menschheit eine Art Maschine machen. Man muss damit vorsichtig sein, aber es hat sich im Laufe der Jahre als nützlich erwiesen.
Aber eine Studie von Forschern der EPFL in der Schweiz zeigt, dass Mechanical Turk-Mitarbeiter ihre Arbeit mithilfe großer Sprachmodelle wie ChatGPT automatisieren: eine Schlange, die sich in den Schwanz beißt oder sich vielleicht ganz verschluckt.
Die Frage tauchte auf, als sie darüber nachdachten, einen Dienst wie MTurk als „Mensch auf dem Laufenden“ zu nutzen, um LLM-Antworten zu verbessern oder Fakten zu überprüfen, die grundsätzlich nicht vertrauenswürdig sind:
Es ist verlockend, sich auf Crowdsourcing zu verlassen, um LLM-Ergebnisse zu validieren oder menschliche Goldstandarddaten zum Vergleich zu erstellen. Was aber, wenn Crowdworker selbst LLMs nutzen, um beispielsweise auf Crowdsourcing-Plattformen ihre Produktivität und damit ihr Einkommen zu steigern?
Um einen allgemeinen Überblick über das Problem zu bekommen, wurde den Türkern eine Aufgabe zur „abstrakten Zusammenfassung“ zugewiesen. Durch verschiedene Analysen beschrieben im Artikel (noch nicht veröffentlicht oder begutachtet) Sie „schätzen, dass 33–46 % der Crowdworker bei der Erledigung der Aufgabe LLMs nutzten.“
Für einige wird dies keine Überraschung sein. Wahrscheinlich gab es in der Türkei seit dem Start der Plattform ein gewisses Maß an Automatisierung. Geschwindigkeit und Zuverlässigkeit werden gefördert, und wenn Sie ein Skript schreiben könnten, das bestimmte Anfragen mit einer Genauigkeit von 90 % bearbeitet, könnten Sie eine Menge Geld verdienen. Bei so wenig Kontrolle über die Prozesse einzelner Mitwirkender war es unvermeidlich, dass einige dieser Aufgaben nicht wie angekündigt tatsächlich von Menschen ausgeführt wurden. Integrität war noch nie die Stärke von Amazon, daher machte es keinen Sinn, sich auf sie zu verlassen.
Aber es so dargestellt zu sehen, und für eine Aufgabe, die bis vor Kurzem so schien, als ob sie nur ein Mensch bewältigen könnte – die Zusammenfassung eines Aufsatzes angemessen zusammenzufassen –, stellt das nicht nur den Wert von Mechanical Turk in Frage, sondern deckt auch eine weitere Front in der drohenden Krise auf: „ KI-Training auf KI-generierten Daten“ in einem weiteren Ouroboros-artigen Dilemma.
Die Forscher (Veniamin Veselovsky, Manoel Horta Ribeiro und Robert West) warnen davor, dass diese Aufgabe seit dem Aufkommen moderner LLMs besonders für die heimliche Automatisierung geeignet ist und daher besonders wahrscheinlich diesen Methoden zum Opfer fällt. Doch der Stand der Technik schreitet stetig voran:
LLMs werden von Tag zu Tag beliebter und multimodale Modelle, die nicht nur Text, sondern auch die Ein- und Ausgabe von Bildern und Videos unterstützen, sind auf dem Vormarsch. Damit sollten unsere Ergebnisse als „Kanarienvogel im Kohlebergwerk“ betrachtet werden, der Plattformen, Forscher und Crowdworker daran erinnern soll, neue Wege zu finden, um sicherzustellen, dass menschliche Daten menschlich bleiben.
Die Gefahr, dass KI sich selbst frisst, wird seit vielen Jahren theoretisiert und wurde mit der weit verbreiteten Einführung von LLMs fast augenblicklich Realität: Bings Lieblings-ChatGPT zitierte seine eigenen Fehlinformationen als Beleg für neue Fehlinformationen über eine COVID-Verschwörung.
Wenn Sie nicht 100 % sicher sein können, dass etwas von einem Menschen getan wurde, sollten Sie wahrscheinlich besser davon ausgehen, dass dies nicht der Fall war. Das ist ein deprimierender Grundsatz, an den man sich halten muss, aber hier sind wir.