Treffen Gladia, ein französisches KI-Startup, das die Art und Weise ändern möchte, wie Unternehmen mit Audiodaten interagieren. Das Unternehmen entwickelt eine Anwendungsprogrammierschnittstelle (API) für die Audiotranskription, die Sie in andere Produkte integrieren können und die viel besser funktionieren soll als das, was auf dem Markt erhältlich ist. Und diese technische Grundlage eröffnet neue Anwendungsfälle rund um Audio.
Wenn Sie mit Audiotranskriptions-APIs vertraut sind, wissen Sie, dass große Cloud-Anbieter bereits über eigene APIs verfügen. Es gibt Googles Speech-to-Text-API, Amazon TranskribierenMicrosofts Sprache zum Textusw. Sie funktionieren gut, sind aber teuer, langsam und verfügen nicht über viele Funktionen.
Gladias Mitbegründer und CEO Jean-Louis Quéguiner, der frühere KI-Chef bei OVHcloud war und das Unternehmen zusammen mit Jonathan Soto gründete, erzählte mir von einigen Einschränkungen bestehender APIs. Seiner Meinung nach gibt es bei bestehenden Produkten drei Schwachstellen. Erstens: Was die Preise betrifft, so kostet die Transkription einer Stunde Audio in der Regel 1,50 bis 2 US-Dollar pro Stunde.
Zweitens ist die Ausgabe nicht immer sehr zuverlässig, da einige Sprachen gut funktionieren, während andere kaum unterstützt werden. Wenn es um erweiterte Funktionen geht und Menschen in mehreren Sprachen sprechen, ist die Wahrscheinlichkeit groß, dass die API den Sprachwechsel einfach nicht bemerken und den Ton nicht in mehr als eine Sprache transkribieren kann.
Drittens sind Transkriptions-APIs langsam. Die Transkription einer Stunde Audio kann mehr als 15 Minuten dauern. Das ist in Ordnung, wenn Sie Transkriptionen nicht sofort benötigen, bedeutet aber, dass Sie diese APIs in einigen Branchen nicht verwenden können.
Whispers Flüsterer
Gladia basiert auf Flüstern, das Open-Source-Transkriptionsmodell von OpenAI. „Wir haben mit Whisper angefangen. Wir haben das Rad nicht neu erfunden, aber wir haben unseren Kunden zugehört und sie haben uns gesagt: ‚Was ich will, ist etwas, das genauso gut funktioniert wie Whisper‘“, erzählte mir Jean-Louis Quéguiner.
Aber Whisper ist nicht perfekt. Die Vanilla-Version ist immer noch recht langsam, daher hat Gladia viel Zeit damit verbracht, Whisper in ein schnelles und reaktionsfähiges Transkriptionsmodell umzuwandeln. Das ist nicht das einzige Problem.
„Die Hälfte von Whisper ist GPT-2. Sie haben LLMs und ChatGPT gesehen, es neigt zu Halluzinationen. Wir haben auch viel daran gearbeitet, Halluzinationsprobleme zu vermeiden“, sagte Quéguiner.
Insbesondere erzählte er mir, dass Whisper auf Untertitel trainiert wurde, die man im Internet, beispielsweise auf YouTube, finden kann. Das Modell von OpenAI neigt dazu, gängige Sätze zu hören, die man in Online-Videos hört, wie zum Beispiel „Wenn Ihnen dieses Video gefallen hat, mögen Sie es bitte und abonnieren Sie es.“ Manche Sätze wie dieser sind mathematisch überrepräsentiert und Gladia versucht, diese Mängel zu beheben.
Zusätzlich zu diesen Modifikationen an Whisper und seiner Implementierung verfügt Gladia auch über einige Vorverarbeitungs- und Nachverarbeitungsalgorithmen, die die Endergebnisse verbessern.
Gladia verspricht, eine Stunde Audio für 0,61 US-Dollar zu transkribieren. Und der Transkriptionsprozess dauert etwa 60 Sekunden. Seine API kann erkennen, wenn mehrere Sprecher vorhanden sind, Zeitstempel hinzufügen, Sprachen erkennen und bei Bedarf von einer Sprache zur anderen wechseln. Gladia fügt außerdem automatisch Satzzeichen und Groß-/Kleinschreibung hinzu.
Wie bei den meisten APIs liegt das Endergebnis im JSON-Format vor. Gladia unterstützt aber auch SRT- und VTT-Dateien für Unternehmen, die Untertitel generieren möchten.
Ich habe ein Konto erstellt und eine Audioaufnahme eines Interviews hochgeladen, um zu sehen, wie Gladia funktioniert. Es dauerte etwas länger als erwartet, war aber definitiv viel schneller als die Sprach-zu-Text-APIs von Google oder Azure.
Das Ergebnis war nicht fehlerfrei, aber extrem gut – es verstand Akronyme und Fachbegriffe. Ich habe die gleiche Audiodatei in geöffnet Aiko, eine von Sindre Sorhus entwickelte Mac-App, mit der Sie Audiodateien lokal mit Whisper transkribieren können. Wie erwartet lag die Ausgabe nahe an der von Gladia – aber Gladia war viel schneller als die Ausführung von Aiko auf meinem MacBook Pro.
Insgesamt war Gladia die beste Transkriptions-API, die ich je verwendet habe.
Eine Audio-Intelligence-API werden
Das Unternehmen arbeitet derzeit unter anderem mit Callcenter-Unternehmen, virtuellen Meeting-Diensten und Video-Publishern zusammen Claap, Livestorm Und Selectra.
Gladia sammelte in einer Finanzierungsrunde unter der Leitung von eine Startkapitalrunde in Höhe von 4 Millionen US-Dollar Neue Welle. Weitere Investoren sind Sequoia, Cocoa und Business Angels wie Solomon Hykes, Pierre Betouin, Miroslaw Klaba und Alexandre Berriche.
Eine grundsolide Transkriptions-API zu haben, ist für Gladia nur der erste Schritt. Das Unternehmen hofft, auf dieser starken technischen Grundlage dann Funktionen aufbauen zu können.
Nachdem beispielsweise eine Audiodatei transkribiert wurde, kann Gladia den Text in eine andere Sprache übersetzen. In Kombination mit Zeitstempeln auf Wortebene bedeutet dies, dass ein Unternehmen in nur wenigen Minuten eine Audiodatei hochladen und Untertitel in Dutzenden von Sprachen erhalten kann.
Das Unternehmen hofft, in Zukunft den Inhalt einer Audiodatei zusammenfassen, Inhalte in mehrere Themenkategorien kategorisieren, automatisch Kapitel erstellen, Stimmungsanalysen durchführen und vieles mehr können.
„Unsere längerfristige Vision ist der Übergang von 2D- zu 3D-Daten. Audio ist ziemlich flach und die Idee besteht darin, es mit Intelligenz zu ergänzen“, sagte Quéguiner. „Wir glauben, dass Transkription zur Ware werden wird. Aber wir glauben, dass die Optionen, die wir hinzufügen werden, wichtiger sein werden.“