OpenAI debütiert mit Whisper API für die Sprache-zu-Text-Transkription und -Übersetzung

OpenAI debuetiert mit Whisper API fuer die Sprache zu Text Transkription und Uebersetzung

Zeitgleich mit der Einführung der ChatGPT-API hat OpenAI heute die Whisper-API eingeführt, eine gehostete Version des Open-Source-Sprache-zu-Text-Modells Whisper, das das Unternehmen im September veröffentlicht hat.

Whisper kostet 0,006 $ pro Minute und ist ein automatisches Spracherkennungssystem, das laut OpenAI eine „robuste“ Transkription in mehreren Sprachen sowie die Übersetzung aus diesen Sprachen ins Englische ermöglicht. Es nimmt Dateien in einer Vielzahl von Formaten auf, darunter M4A, MP3, MP4, MPEG, MPGA, WAV und WEBM.

Unzählige Organisationen haben hochleistungsfähige Spracherkennungssysteme entwickelt, die den Kern von Software und Diensten von Technologiegiganten wie Google, Amazon und Meta bilden. Was Whisper jedoch anders macht, ist, dass es laut Greg Brockman, Präsident und Vorsitzender von OpenAI, mit 680.000 Stunden mehrsprachiger und „Multitasking“-Daten aus dem Internet trainiert wurde, was zu einer verbesserten Erkennung von einzigartigen Akzenten, Hintergrundgeräuschen und Fachjargon führte.

„Wir haben ein Modell veröffentlicht, aber das war eigentlich nicht genug, um das gesamte Entwickler-Ökosystem dazu zu bringen, darauf aufzubauen“, sagte Brockman gestern Nachmittag in einem Videoanruf mit Tech. „Die Whisper-API ist dasselbe große Modell, das man als Open Source bekommen kann, aber wir haben es bis zum Äußersten optimiert. Es ist viel, viel schneller und extrem bequem.“

Für Brockman gibt es viele Hindernisse, wenn es darum geht, dass Unternehmen Sprachtranskriptionstechnologie einführen. Laut Statista aus dem Jahr 2020 Umfragenennen Unternehmen Genauigkeit, Akzent- oder Dialekt-bezogene Erkennungsprobleme und Kosten als Hauptgründe, warum sie Technologien wie Tech-to-Speech nicht angenommen haben.

Whisper hat jedoch seine Grenzen – insbesondere im Bereich der Vorhersage des „nächsten Wortes“. Da das System mit einer großen Menge verrauschter Daten trainiert wurde, warnt OpenAI davor, dass Whisper Wörter in seine Transkriptionen aufnehmen könnte, die nicht wirklich gesprochen wurden – möglicherweise, weil es sowohl versucht, das nächste Wort in Audio vorherzusagen als auch die Audioaufnahme selbst zu transkribieren. Darüber hinaus schneidet Whisper nicht in allen Sprachen gleich gut ab und leidet unter einer höheren Fehlerrate, wenn es um Sprecher von Sprachen geht, die in den Trainingsdaten nicht gut vertreten sind.

Das letzte Bit ist leider nichts Neues in der Welt der Spracherkennung. Selbst die besten Systeme sind seit langem von Vorurteilen geplagt, mit einem 2020 Stanford lernen Das Auffinden von Systemen von Amazon, Apple, Google, IBM und Microsoft machte bei weißen Benutzern weitaus weniger Fehler – etwa 19 % – als bei schwarzen Benutzern.

Trotzdem sieht OpenAI, dass die Transkriptionsfunktionen von Whisper verwendet werden, um bestehende Apps, Dienste, Produkte und Tools zu verbessern. Die KI-gestützte Sprachlern-App Speak nutzt bereits die Whisper-API, um einen neuen virtuellen Sprachbegleiter in der App zu betreiben.

Wenn OpenAI in großem Umfang in den Speech-to-Text-Markt eindringen kann, könnte dies für das von Microsoft unterstützte Unternehmen ziemlich profitabel sein. Nach Einem Bericht zufolge könnte das Segment bis 2026 einen Wert von 5,4 Milliarden US-Dollar haben, gegenüber 2,2 Milliarden US-Dollar im Jahr 2021.

„Unser Bild ist, dass wir wirklich diese universelle Intelligenz sein wollen“, sagte Brockman. „WWir möchten wirklich sehr flexibel in der Lage sein, jede Art von Daten aufzunehmen, die Sie haben – welche Art von Aufgabe Sie auch erledigen möchten – und ein Kraftmultiplikator für diese Aufmerksamkeit sein.“

tch-1-tech