Jeden Tag beginnen Millionen Menschen den Tag mit einem Grußwort in den sozialen Medien. Keiner von ihnen erwartet, für ihr freundliches Morgenritual verhaftet zu werden.
Doch genau das passierte 2017 einem palästinensischen Bauarbeiter, als auf seinem Facebook-Selfie die Überschrift „يصبحهم“ („Guten Morgen“) stand automatisch übersetzt als „greife sie an.“
Ein menschlicher Arabischsprecher hätte es sofort getan erkannte „يصبحهم“ als informelle Art, „Guten Morgen“ zu sagen. Nicht so KI. Maschinen sind bekanntermaßen schlecht im Umgang mit Variationen, einem Schlüsselmerkmal aller menschlichen Sprachen.
Mit den jüngsten Fortschritten bei der automatisierten Übersetzung setzt sich die Überzeugung durch, dass Menschen, insbesondere Englischsprachige, keine anderen Sprachen mehr lernen müssen. Warum sich die Mühe machen, wenn Google Translate und eine Vielzahl anderer Apps das für uns erledigen können?
Tatsächlich vertreten einige anglophone Universitäten genau dieses Argument ihre Sprachprogramme abbauen.
Leider sind Sprachtechnologien bei weitem nicht in der Lage, menschliche Sprachkenntnisse zu ersetzen, und werden dies auch in absehbarer Zukunft nicht können, da sich maschinelles Sprachenlernen und menschliches Sprachenlernen in grundlegenden Punkten unterscheiden.
Wie Maschinen Sprachen lernen
Bei der maschinellen Übersetzung werden Algorithmen an großen Textmengen trainiert, um die Wahrscheinlichkeiten verschiedener Wortmuster zu ermitteln. Diese Texte können sowohl einsprachig als auch zweisprachig sein.
Zweisprachige Trainingsdaten liegen in Form von von Menschen übersetzten Paralleltexten vor. Diese basieren fast immer auf der Standardversion der Trainingssprache, mit Ausnahme von Dialekten und umgangssprachlichen Phrasen, wie im obigen Beispiel.
Vielfalt ist ein Merkmal aller menschlichen Sprachen, aber Vielfalt ist ein Problem für Maschinen. Beispielsweise bedeutet „tödlich“ in den meisten Varianten des Englischen „todverursachend“, und genau das erscheint auch in den Trainingsdaten.
Der Australische Bedeutung Das Wort „ausgezeichnet“ (aus dem Englischen der Aborigines) macht dem Ganzen einen Strich durch die Rechnung. Wenn Sie „Tödliche Auszeichnungen„In jede Übersetzungs-App erhalten Sie in Ihrer Zielsprache das Äquivalent von „todbringenden Auszeichnungen“.
Wie Maschinen Sprachen speichern
Die interne sprachliche Vielfalt des Englischen geht wie jeder anderen Sprache mit einer großen sprachlichen Vielfalt einher. Jede Sprache macht die Dinge anders.
Beispielsweise müssen Zeitform, Numerus oder Geschlecht in einigen Sprachen grammatikalisch kodiert werden, in anderen jedoch nicht. Die Übersetzung der einfachen englischen Aussage „Ich bin ein Student“ ins Deutsche erfordert die Einbeziehung einer grammatikalischen Geschlechtsmarkierung und endet daher entweder mit „Ich bin ein männlicher Student“ oder „Ich bin eine Studentin“.
Darüber hinaus werden einige Sprachen von vielen Menschen gesprochen, haben mächtige Nationalstaaten und verfügen über gute Ressourcen. Andere sind es nicht.
„Gut ausgestattet“ im Kontext des maschinellen Lernens bedeutet, dass große digitale Korpora von Trainingsdaten verfügbar sind.
Die Listen der Sprachoptionen von automatisierten Übersetzungstools angeboten– wie die Liste der 133 Sprachen, in denen Google Translate derzeit verfügbar ist – löschen Sie alle diese Unterschiede und schlagen Sie vor, dass jede Option gleich ist.
AI spricht Englisch
Nichts ist weiter von der Wahrheit entfernt. Englisch ist eine Klasse für sich, da über 90 % der Trainingsdaten hinter großen Sprachmodellen stecken auf Englisch sein.
Der Rest stammt aus einigen Dutzend Sprachen, in denen Daten unterschiedlicher Größe verfügbar sind. Die meisten der über 6.000 Sprachen der Welt fehlen einfach in Aktion. Für einige davon werden derzeit Apps erstellt Modelle, die auf Englisch „vortrainiert“ sindwas die Dominanz des Englischen weiter festigt.
Eine Folge der Ungleichheiten in den Trainingsdaten ist, dass Übersetzungen ins Englische meist recht gut klingen, da die App sowohl auf zweisprachige als auch einsprachige Trainingsdaten zurückgreifen kann. Das bedeutet nicht, dass sie korrekt sind: Eine aktuelle Studie ergab, dass etwa die Hälfte aller Fragen auf Vietnamesisch korrekt waren fälschlicherweise automatisch als Aussagen übersetzt.
Maschinell übersetzte Texte in andere Sprachen als Englisch sind noch problematischer und regelmäßig mit Fehlern behaftet. Zum Beispiel, Informationen zu COVID-19-Tests automatisch ins Deutsche übersetzt enthalten erfundene Wörter, grammatikalische Fehler und Inkonsistenzen.
Was maschinelle Übersetzung kann und was nicht
Maschinelle Übersetzung ist nicht so gut, wie die meisten Leute denken, aber sie ist nützlich, um den Kern von Websites zu verstehen oder mit Hilfe einer App nach dem Weg in einem Touristenziel zu fragen.
Das ist jedoch noch nicht das Ende. Übersetzungs-Apps sind zunehmend in anspruchsvollen Kontexten wie Krankenhäusern eingesetztbei dem das Personal möglicherweise versucht, menschliche Dolmetscher zu umgehen, um schnell mit Patienten zu kommunizieren, die nur über begrenzte Englischkenntnisse verfügen.
Dies führt zu großen Problemen, wenn es beispielsweise in der Entlassungsanleitung eines Patienten heißt das Äquivalent von „Ihre Vereinigten Staaten waren normal“– ein Fehler, der daraus resultiert, dass im medizinischen Kontext die Abkürzung „US“ für „Ultraschall“ verwendet wird.
Daher besteht Konsens darüber, dass Übersetzungs-Apps geeignet sind nur in risikofreien oder risikoarmen Situationen. Leider kann manchmal sogar eine Bildunterschrift auf einem Selfie zu einer Hochrisikosituation werden.
Wir müssen menschliche mehrsprachige Talente fördern
Nur Menschen können erkennen, was eine Situation mit geringem oder hohem Risiko darstellt und ob der Einsatz maschineller Übersetzung angemessen sein kann. Um fundierte Entscheidungen treffen zu können, müssen Menschen sowohl die Funktionsweise von Sprachen als auch die Funktionsweise von maschinellem Lernen verstehen.
Man könnte argumentieren, dass alle hier beschriebenen Fehler mit mehr Trainingsdaten behoben werden können. Bei dieser Argumentation gibt es zwei Probleme. Erstens verfügt die KI bereits über mehr Trainingsdaten, als ein Mensch jemals aufnehmen kann, macht jedoch Fehler, die kein Mensch mit viel geringeren Investitionen in das Erlernen einer Sprache machen würde.
Zweitens, und das ist noch schädlicher: Es ist unglaublich kostspielig, Maschinen so zu trainieren, dass sie uns das Sprachenlernen abnehmen. Es gibt die bekannten Umweltkosten von KI, Natürlich. Es entstehen aber auch Kosten für den Abbau von Sprachlehrprogrammen.
Wenn wir Sprachprogramme aufgeben, weil wir einfache mehrsprachige Aufgaben an Maschinen auslagern können, werden wir Menschen niemals dazu ausbilden, fortgeschrittene Sprachkenntnisse zu erlangen. Selbst aus der Perspektive rein strategischer nationaler Interessen sind die Fähigkeiten zur Kommunikation über Sprachbarrieren hinweg in riskanteren Kontexten der Wirtschaft, Diplomatie oder des Gesundheitswesens von entscheidender Bedeutung.
Sprachen sind vielfältig, unscharf, variabel, relational und zutiefst sozial. Algorithmen sind das Gegenteil. Indem wir den Hype akzeptieren, dass Maschinen unsere Spracharbeit für uns erledigen können Wir entmenschlichen, was es bedeutet, Sprachen zur Kommunikation zu nutzenum Sinn zu schaffen, Beziehungen zu schaffen und Gemeinschaften aufzubauen.
Dieser Artikel wurde erneut veröffentlicht von Die Unterhaltung unter einer Creative Commons-Lizenz. Lies das originaler Artikel.