Der KI-Chatbot von Google wird von Menschen trainiert, die sagen, sie seien überarbeitet, unterbezahlt und frustriert

Der KI Chatbot von Google wird von Menschen trainiert die sagen
GoogleDer Bard-Chatbot mit künstlicher Intelligenz beantwortet die Frage, wie viele Pandas in Zoos leben, schnell und mit einem Übermaß an Selbstvertrauen.
Es obliegt jedoch Tausenden von externen Auftragnehmern von Unternehmen wie Appen Ltd. und Accenture Plc, dafür zu sorgen, dass die Antwort fundiert ist und auf Beweisen basiert, die mit minimaler Schulung und unter hektischen Fristen nur 14 US-Dollar pro Stunde und Arbeit verdienen können an mehrere Auftragnehmer, die sich aus Angst vor dem Verlust ihres Arbeitsplatzes weigerten, namentlich genannt zu werden.
Die Auftragnehmer sind das unsichtbare Backend des generativen KI-Booms, der alles verändern soll. Chatbots wie Bard nutzen Computerintelligenz, um fast sofort auf eine Reihe von Fragen zu reagieren, die das gesamte menschliche Wissen und die gesamte Kreativität umfassen. Um diese Antworten jedoch so zu verbessern, dass sie immer wieder zuverlässig übermittelt werden können, verlassen sich Technologieunternehmen auf echte Menschen, die die Antworten überprüfen, Feedback zu Fehlern geben und jegliche Voreingenommenheit ausmerzen.
Es ist ein zunehmend undankbarer Job. Sechs derzeitige Vertragsarbeiter von Google sagten, dass die Arbeitsbelastung und die Komplexität ihrer Aufgaben gestiegen seien, als das Unternehmen im vergangenen Jahr mit dem Rivalen OpenAI in ein KI-Wettrüsten eintrat. Ohne besonderes Fachwissen wurde ihnen die Beurteilung von Antworten zu Themen anvertraut, die von Medikamentendosen bis hin zu Landesgesetzen reichten. Mit Bloomberg geteilte Dokumente zeigen komplizierte Anweisungen, die Arbeiter bei Aufgaben anwenden müssen, mit Fristen für die Prüfung von Antworten, die nur drei Minuten betragen können.
„So wie es jetzt aussieht, sind die Leute verängstigt, gestresst, unterbezahlt und wissen nicht, was los ist“, sagte einer der Auftragnehmer. „Und diese Kultur der Angst trägt nicht dazu bei, die Qualität und Teamarbeit zu erreichen, die Sie von uns allen erwarten.“
Google hat seine KI-Produkte als öffentliche Ressourcen in den Bereichen Gesundheit, Bildung und Alltag positioniert. Aber privat und öffentlich haben die Auftragnehmer Bedenken hinsichtlich ihrer Arbeitsbedingungen geäußert, die ihrer Meinung nach die Qualität dessen beeinträchtigen, was die Benutzer sehen. Ein Google-Vertragsmitarbeiter, der für Appen arbeitet, sagte in einem Brief an den Kongress im Mai, dass die Geschwindigkeit, mit der sie Inhalte überprüfen müssen, dazu führen könnte, dass Bard zu einem „fehlerhaften“ und „gefährlichen“ Produkt wird.
Google hat KI zu einer wichtigen Priorität im gesamten Unternehmen gemacht und beeilt sich, die neue Technologie nach der Einführung von ChatGPT von OpenAI im November in seine Flaggschiffprodukte zu integrieren. Im Mai öffnete Google auf der jährlichen I/O-Entwicklerkonferenz des Unternehmens Bard für 180 Länder und Territorien und stellte experimentelle KI-Funktionen in wichtigen Produkten wie Suche, E-Mail und Google Docs vor. Google positioniert sich gegenüber der Konkurrenz aufgrund seines Zugriffs auf „die Breite des weltweiten Wissens“ überlegen.
„Wir unternehmen umfangreiche Anstrengungen, um unsere KI-Produkte verantwortungsvoll zu entwickeln, einschließlich strenger Test-, Schulungs- und Feedbackprozesse, die wir über Jahre hinweg verfeinert haben, um die Faktizität zu betonen und Vorurteile zu reduzieren“, sagte Google, im Besitz von Alphabet Inc., in einer Erklärung. Das Unternehmen sagte, es verlasse sich bei der Verbesserung der KI nicht nur auf die Bewerter, sondern es gebe auch eine Reihe anderer Methoden, um deren Genauigkeit und Qualität zu verbessern.
Lesen Sie mehr: Googles Siegeszug in der KI-Branche führte laut Mitarbeitern zu ethischen Verfehlungen
Um sich auf die Nutzung dieser Produkte durch die Öffentlichkeit vorzubereiten, gaben die Arbeitnehmer an, dass sie bereits im Januar begonnen haben, KI-bezogene Aufgaben zu übernehmen. Ein bei Appen angestellter Trainer wurde kürzlich gebeten, zwei Antworten zu vergleichen, die Informationen über die neuesten Nachrichten zum Verbot geschlechtsspezifischer Pflege in Florida enthielten, und die Antworten nach Nützlichkeit und Relevanz zu bewerten. Arbeitnehmer werden außerdem häufig gebeten, festzustellen, ob die Antworten des KI-Modells überprüfbare Beweise enthalten. Die Bewerter werden gebeten, anhand von Sechs-Punkte-Richtlinien zu entscheiden, ob eine Antwort hilfreich ist. Dazu gehört die Analyse der Antworten auf Aspekte wie Spezifität, Aktualität der Informationen und Kohärenz.
Sie werden außerdem gebeten, sicherzustellen, dass die Antworten „keine schädlichen, beleidigenden oder übermäßig sexuellen Inhalte“ und „keine ungenauen, irreführenden oder irreführenden Informationen“ enthalten. Die Überprüfung der Antworten der KI auf irreführende Inhalte sollte „auf Ihrem aktuellen Wissensstand oder einer schnellen Websuche basieren“, heißt es in den Richtlinien. „Sie müssen keinen strengen Faktencheck durchführen“, wenn Sie die Antworten auf ihre Nützlichkeit beurteilen.
Die Beispielantwort auf „Wer ist Michael Jackson?“ enthielt eine Ungenauigkeit über den Sänger, der in dem Film „Moonwalker“ mitspielt – der nach Angaben der KI 1983 veröffentlicht wurde. Der Film kam tatsächlich 1988 in die Kinos Beantwortung der Frage: „Wer ist Michael Jackson?“
Auch wenn die Ungenauigkeit gering erscheint, „ist es immer noch besorgniserregend, dass der Chatbot wichtige Fakten falsch versteht“, sagte Alex Hanna, Forschungsdirektor am Distributed AI Research Institute und ehemaliger Mitarbeiter Google KI Ethiker. „Es scheint, dass dies ein Rezept ist, um die Art und Weise zu verschärfen, in der diese Tools so aussehen, als würden sie Details liefern, die korrekt sind, es aber nicht sind“, sagte sie.
Bewerter geben an, dass sie wichtige Themen für die KI-Produkte von Google bewerten. In einem der Beispiele in der Anleitung geht es beispielsweise um Beweise, die ein Gutachter nutzen könnte, um die richtige Dosierung für ein Medikament zur Behandlung von Bluthochdruck namens Lisinopril zu bestimmen.
Google sagte, dass einige Mitarbeiter, die sich Sorgen um die Genauigkeit von Inhalten machten, möglicherweise nicht speziell auf Genauigkeit trainiert haben, sondern auf Ton, Präsentation und andere getestete Attribute. „Bewertungen werden bewusst auf einer gleitenden Skala durchgeführt, um präziseres Feedback zur Verbesserung dieser Modelle zu erhalten“, sagte das Unternehmen. „Solche Bewertungen wirken sich nicht direkt auf die Ergebnisse unserer Modelle aus und sie sind keineswegs die einzige Möglichkeit, die Genauigkeit zu fördern.“
Lesen Sie hier die Anweisungen der Vertragsbediensteten zum Training der generativen KI von Google:
Ed Stackhouse, der Appen-Mitarbeiter, der den Brief an den Kongress schickte, sagte in einem Interview, dass Vertragsbedienstete gebeten würden, KI-Kennzeichnungsarbeiten an Googles Produkten durchzuführen, „weil wir für KI in Bezug auf diese Schulung unverzichtbar sind“. Aber er und andere Arbeiter sagten, sie seien offenbar auf mysteriöse, automatisierte Weise für ihre Arbeit benotet worden. Sie haben keine Möglichkeit, direkt mit Google zu kommunizieren, außer in einem „Kommentar“-Eintrag zu jeder einzelnen Aufgabe Feedback zu geben. Und sie müssen schnell sein. „Wir werden von einer Art KI gewarnt, die uns auffordert, uns mit der KI keine Zeit zu lassen“, fügte Stackhouse hinzu.
Google bestritt die Beschreibung der Arbeitnehmer, dass sie automatisch von der KI wegen Überschreitung von Zeitvorgaben gemeldet würden. Gleichzeitig erklärte das Unternehmen, dass Appen für alle Leistungsbeurteilungen der Mitarbeiter verantwortlich sei. Appen antwortete nicht auf Anfragen nach Kommentaren. Ein Sprecher von Accenture sagte, das Unternehmen äußere sich nicht zur Kundenarbeit.
Andere Technologieunternehmen, die KI-Produkte ausbilden, beauftragen ebenfalls menschliche Auftragnehmer, um sie zu verbessern. Im Januar berichtete Time, dass Arbeiter in Kenia, die 2 Dollar pro Stunde bezahlten, daran gearbeitet hätten, ChatGPT weniger giftig zu machen. Andere Technologiegiganten, darunter Meta Platforms Inc., Amazon.com Inc. und Apple Inc., nutzen Subunternehmer, um Inhalte in sozialen Netzwerken und Produktbewertungen zu moderieren und technischen Support und Kundendienst bereitzustellen.
„Wenn Sie fragen möchten, was ist das Geheimnis von Bard und ChatGPT? Es ist alles das Internet. Und es sind all diese gekennzeichneten Daten, die diese Etikettierer erstellen“, sagte er Laura Edelson, Informatiker an der New York University. „Man sollte bedenken, dass diese Systeme nicht das Werk von Zauberern sind – sie sind das Werk Tausender Menschen und ihrer schlecht bezahlten Arbeit.“
Google sagte in einer Erklärung, dass es „einfach nicht der Arbeitgeber dieser Arbeitnehmer ist“. Unsere Lieferanten als Arbeitgeber bestimmen ihre Arbeitsbedingungen, einschließlich Bezahlung und Sozialleistungen, zugewiesene Stunden und Aufgaben sowie Beschäftigungsänderungen – nicht Google.“
Mitarbeiter sagten, sie seien im Rahmen ihrer routinemäßigen Beurteilung der Qualität von Google-Produkten und -Diensten auf Sodomie, Kriegsaufnahmen, Kinderpornografie und Hassreden gestoßen. Während einige Arbeitnehmer, wie diejenigen, die Accenture unterstellt sind, Gesundheitsleistungen erhalten, haben die meisten nur minimale „Beratungsdienste“-Optionen, die es den Arbeitnehmern ermöglichen, eine Hotline für psychische Gesundheitsberatung anzurufen, heißt es auf einer internen Website, auf der einige Leistungen von Auftragnehmern erläutert werden.
Für das Bard-Projekt von Google wurden Mitarbeiter von Accenture gebeten, kreative Antworten zu verfassen KI-Chatbot, sagten Mitarbeiter. Sie beantworteten Eingaben im Chatbot – an einem Tag könnten sie beispielsweise ein Gedicht über Drachen im Shakespeare-Stil schreiben und an einem anderen Tag könnten sie Computerprogrammcode debuggen. Ihre Aufgabe sei es, an jedem Arbeitstag so viele kreative Antworten wie möglich auf die Aufforderungen einzureichen, sagen mit der Angelegenheit vertraute Personen, die namentlich nicht genannt werden wollten, weil sie nicht befugt seien, über interne Prozesse zu sprechen.
Für einen kurzen Zeitraum wurden die Arbeiter neu eingesetzt, um obszöne, anstößige und beleidigende Aufforderungen zu überprüfen, sagten sie. Nachdem ein Mitarbeiter eine Personalbeschwerde bei Accenture eingereicht hatte, wurde das Projekt für das US-Team abrupt beendet, obwohl einige Kollegen der Autoren in Manila weiter an Bard arbeiteten.
Die Arbeitsplätze haben wenig Sicherheit. Letzten Monat erhielten ein halbes Dutzend Google-Vertragsmitarbeiter, die für Appen arbeiteten, eine Mitteilung des Managements, in der es hieß, ihre Stellen seien „aufgrund der Geschäftsbedingungen“ gestrichen worden. Die Entlassungen fühlten sich abrupt an, sagten die Arbeiter, weil sie gerade mehrere E-Mails erhalten hatten, in denen ihnen Prämien für längere Arbeitszeiten beim Training von KI-Produkten angeboten wurden. Die sechs entlassenen Arbeiter reichten im Juni eine Beschwerde beim National Labour Relations Board ein. Sie behaupteten, sie seien wegen Stackhouses Brief an den Kongress wegen Organisierung rechtswidrig entlassen worden. Noch vor Monatsende wurden sie wieder an ihren Arbeitsplatz zurückversetzt.
Google sagte, der Streit sei eine Angelegenheit zwischen den Arbeitnehmern und Appen und sie „respektieren das Arbeitsrecht der Appen-Mitarbeiter, einer Gewerkschaft beizutreten“. Appen antwortete nicht auf Fragen zur Organisierung seiner Arbeiter.
Emily Bender, Professorin für Computerlinguistik an der University of Washington, sagte, die Arbeit dieser Vertragsbediensteten bei Google und anderen Technologieplattformen sei „eine Geschichte der Arbeitsausbeutung“ und verwies auf ihre prekäre Arbeitsplatzsicherheit und darauf, wie es einigen dieser Arbeitnehmer geht weit unter einem existenzsichernden Lohn bezahlt. „Mit einem dieser Systeme zu spielen und zu sagen, dass man es nur zum Spaß macht – vielleicht fühlt es sich weniger lustig an, wenn man darüber nachdenkt, was nötig ist, um etwas zu erschaffen, und welche Auswirkungen das auf den Menschen hat“, sagte Bender.
Die Vertragsbediensteten sagten, sie hätten nie eine direkte Kommunikation von Google über ihre neue KI-bezogene Arbeit erhalten – alles werde über ihren Arbeitgeber gefiltert. Sie sagten, sie wüssten nicht, woher die KI-generierten Antworten kommen, die sie sehen, und auch nicht, wohin ihr Feedback gehe. Da diese Informationen fehlen und die Art ihrer Arbeit sich ständig verändert, befürchten die Arbeitnehmer, dass sie zur Entwicklung eines schlechten Produkts beitragen.
Einige der Antworten, auf die sie stoßen, können bizarr sein. Als Antwort auf die Aufforderung „Schlagen Sie die besten Wörter vor, die ich mit den Buchstaben bilden kann: k, e, g, a, o, g, w“ listete eine von der KI generierte Antwort 43 mögliche Wörter auf, beginnend mit Vorschlag Nr. 1 : „Wagen.“ In den Vorschlägen 2 bis 43 wurde das Wort „WOKE“ immer wieder wiederholt.
Bei einer anderen Aufgabe wurde einem Bewerter eine lange Antwort vorgelegt, die mit „Soweit ich weiß, Stichtag im September 2021“ begann. Diese Reaktion hängt mit dem großen Sprachmodell von OpenAI namens GPT-4 zusammen. Obwohl Google sagte, dass Bard „nicht auf Daten von ShareGPT oder ChatGPT geschult ist“, haben sich Bewerter gefragt, warum solche Formulierungen in ihren Aufgaben vorkommen.
Bender sagte, es mache für große Technologiekonzerne wenig Sinn, Menschen dazu zu ermutigen, einem KI-Chatbot Fragen zu einem so breiten Themenspektrum zu stellen, und sie als „Alles-Maschinen“ darzustellen.
„Warum sollte dieselbe Maschine, die Ihnen die Wettervorhersage für Florida liefert, Ihnen auch Ratschläge zur Medikamentendosierung geben können?“ Sie fragte. „Die Leute hinter der Maschine, deren Aufgabe es ist, dafür zu sorgen, dass es unter bestimmten Umständen etwas weniger schrecklich wird, haben eine unmögliche Aufgabe.“

toi-tech