KI trainiert sich selbst an Film- und Fernsehuntertiteln

Nicht einmal diese verrückten, nur aus einem menschlichen Gehirn stammenden Untertitel wie „Tentakel brodelten feucht“ aus Fremde Dinge sind sicher vor dem KI-Schrotthaufen. Ein neues Bericht von Der Atlantik behauptet, dass Drehbuchautoren, die befürchten, dass ihre harte Arbeit und proprietäre Inhalte dazu verwendet werden, das zu schulen, was ihnen den Job wegnehmen will, sich wirklich keine Sorgen machen müssen. Es nutzt einfach die Untertitel die die Sprache einfangen, die sie mit ihrem menschlichen Herzen und menschlichen Gehirn geschrieben haben, nicht die Drehbücher selbst. Sehen? Viel besser!

Dem Medium zufolge wurden Untertitel aus etwa 53.000 Filmen und 85.000 TV-Folgen in einem großen KI-Trainingsdatensatz gefunden, der von Apple, Anthropic, Meta, Nvidia, Salesforce, Bloomberg und anderen verwendet wird. Zu diesen Titeln gehören Berichten zufolge alle Filme, die von 1950 bis 2016 für den besten Film nominiert wurden, darunter mindestens 616 Episoden Die Simpsons170 Folgen von Seinfeld45 Folgen von Zwillingsgipfelund jede Folge von Der Draht, Die SopranistinnenUnd Wandlung zum Bösen. Das Set enthält auch Daten von BücherYouTube-Videountertitel und sogar Untertitel, die vorgefertigte Dialoge verschiedener Preisverleihungen einfangen.

Möchten Sie sehen, ob Ihr Lieblingsfilm oder Ihre Lieblingsserie im Set enthalten ist? Der Atlantik verfügt über eine Suchfunktion in ihrem Bericht. (Das ist es wahrscheinlich.)

Alle diese Daten stammen von einer Website namens OpenSubtitles.org, die mit einem noblen Zweck begann – der Unterstützung von Google Translate und anderen Übersetzungstools –, aber in Bezug auf das Urheberrecht offenbar schon immer etwas lückenhaft war. Zumindest freut sich jemand über diese Entwicklung; Berichten zufolge sagte Jörg Tiedemann, einer der Ersteller des Datensatzes Der Atlantik dass er vollkommen damit einverstanden sei, dass OpenSubtitles dazu genutzt werde, die harte Arbeit der Autorenräume weiter zu untergraben, auch wenn das nicht seine ursprüngliche Absicht gewesen sei.

Warum also Untertitel statt tatsächlicher Drehbücher verwenden? Laut dem Medium sind Untertitel „wertvoll, weil sie eine rohe Form des schriftlichen Dialogs sind“, die die Rhythmen und Feinheiten gesprochener Gespräche widerspiegeln. „Gut geschriebene Sprache ist in der Welt der KI-Trainingsdaten ein seltenes Gut und kann besonders wertvoll sein, um Chatbots zu trainieren, auf natürliche Weise zu ‚sprechen‘“, heißt es in dem Bericht weiter. All das wirft die Frage auf: Wenn diese Technologie so dringend die „gut geschriebene Sprache“ anderer stehlen muss, um ihre eigene Stimme zu verwenden, sollte sie dann überhaupt sprechen?

ac-leben-gesundheit