ElfLabs startet ein eigenes Speech-to-Text-Modell

ElfLabs startet ein eigenes Speech to Text Modell

ElflabsEin KI -Startup, bei dem gerade eine Mega -Finanzierungsrunde von 180 Millionen US -Dollar gesammelt wurde, war in erster Linie für seine Fähigkeiten zur Audiogeneration bekannt. Das Unternehmen hat einen Schritt in eine andere technologische Richtung gemacht, indem er sein erstes eigenständiges Sprachmodell namens Scribe auf den Markt brachte.

Das Startup im Wert von 3,3 Milliarden US-Dollar hat vielen anderen Unternehmen bei der Erbringung von Sprachdiensten über seine riesige Stimmenbibliothek unterstützt. Das Unternehmen will nun jedoch in die Sprachdetektion eingehen und mit Leuten wie Gladia, Realmatics, konkurrieren, AssemblyaiDeepgram und Openais Whisper -Modelle.

Das Schreibermodell von ElfLabs unterstützt beim Start über 99 Sprachen. Das Unternehmen kategorisiert über 25 Sprachen in ausgezeichneter Genauigkeitskategorie für das Modell, bei dem die Wortfehlerrate weniger als 5%beträgt. Diese Liste umfasst Englisch (behauptete Genauigkeitsrate von 97%), Französisch, Deutsch, Hindi, Indonesisch, Japanisch, Kannada, Malayalam, Polnisch, Portugiesisch, Spanisch und Vietnamesisch. Andere Sprachen werden in verschiedenen Kategorien mit hoher (5-10% Wortfehlerrate), guter (10 bis 20% Wortfehlerrate) und moderatem (25 bis 50%) Wortfehlerraten eingestuft.

Das Unternehmen gab an, dass das Modell Google Gemini 2.0 Flash übertrifft und in mehreren Sprachen in Fleurs & Common Voice Benchmark -Tests große V3 in mehreren Sprachen flüsterte.

ElfLabs hatte die Rede-to-Text-Komponente für seine im letzten Jahr veröffentlichte KI-Konversationsagenten-Plattform entwickelt. Dies ist jedoch das erste Mal Das Unternehmen veröffentlicht ein eigenständiges Spracherkennungsmodell. In einem Gespräch mit Tech im letzten Monat sprach CEO Mati Staniszewski über die Verbesserung der Spracherkennungsmodelle.

„Wir wollen verstehen, was von Ihnen in einem Gespräch besser gesagt wird. Wir arbeiten an Möglichkeiten, sich von nur Inhalten zu erzeugen und Sprache zu verstehen und zu transkriptieren “, sagte Staniszewski zu dieser Zeit. „Viele Leute sagen, dass Sprache zu Text ein gelöstes Problem ist. Aber für viele Sprachen ist es ziemlich schlimm. Wir denken, wir können bessere Spracherkennungsmodelle erstellen, da wir interne Teams haben, um Daten zu kommentieren und uns schnelles Feedback zu geben. “

Das Modell verfügt auch über intelligente Sprecherdurch Diatization, um Ihnen zu sagen, wer spricht, Zeitstempel auf Wortebene für genaue Untertitel und automatische Klangveranstaltungen wie Publikumslachen. Das Startup bietet Kunden eine Möglichkeit, Videoinhalte direkt zu transkribieren, um Untertitel oder Untertitel in das Studio hinzuzufügen.

Scribe arbeitet derzeit nur mit vorgezeichneten Audioformaten. Das Unternehmen sagte, es werde bald eine Echtzeitversion mit niedriger Latenz veröffentlichen. Das bedeutet, dass es noch nicht effektiv ist, um Transkriptionen oder Sprachnotizer zu erfüllen.

ElfLabs ist ein Preisschreiber für eine Stunde transkribierter Audio für 0,40 USD. Während die Rate wettbewerbsfähig ist, einige seiner Rivalen einen niedrigeren Preis anbieten Für Audio -Transkriptionen im Moment mit einigen Merkmalsdifferenzierung.

tch-1-tech