Im Jahr 2016 dachten Hammad Syed und Mahmoud Felfel, ein ehemaliger WhatsApp-Ingenieur, dass es toll wäre, eine Text-to-Speech-Chrome-Erweiterung für Medium-Artikel zu entwickeln. Die Erweiterung, die jede Medium-Story vorlesen konnte, wurde auf Product Hunt vorgestellt. Ein Jahr später entstand daraus ein ganzes Unternehmen.
„Wir sahen eine größere Chance darin, Einzelpersonen und Organisationen dabei zu helfen, realistische Audioinhalte für ihre Anwendungen zu erstellen“, sagte Syed gegenüber Tech. „Ohne die Notwendigkeit, ein eigenes Modell zu erstellen, könnten sie schneller als je zuvor Spracherlebnisse in menschlicher Qualität bereitstellen.“
Syed und Felfels Firma, PlayAI (ehemals PlayHT) bezeichnet sich selbst als „Sprachschnittstelle der KI“. Kunden können aus einer Reihe vordefinierter Stimmen wählen oder eine Stimme klonen und die API von PlayAI verwenden, um Text-to-Speech in ihre Apps zu integrieren.
Mithilfe von Umschaltern können Benutzer die Intonation, Kadenz und den Tenor von Stimmen anpassen.
PlayAI bietet außerdem einen „Spielplatz“, auf dem Benutzer eine Datei hochladen können, um eine Vorleseversion zu erstellen, sowie ein Dashboard zum Erstellen ausgefeilterer Audiokommentare und Voice-Overs. Vor Kurzem ist das Unternehmen in das „KI-Agenten“-Spiel mit Tools eingestiegen, mit denen sich Aufgaben wie die Beantwortung von Kundenanrufen in einem Unternehmen automatisieren lassen.
Eines der interessanteren Experimente von PlayAI ist PlayNote, das PDFs, Videos, Fotos, Lieder und andere Dateien in Sendungen im Podcast-Stil, Vorlesezusammenfassungen, Einzeldebatten und sogar Kindergeschichten umwandelt. Wie Googles NotebookLM generiert PlayNote ein Skript aus einer hochgeladenen Datei oder URL und leitet es an eine Sammlung von KI-Modellen weiter, die gemeinsam das fertige Produkt erstellen.
Ich habe es ausprobiert und die Ergebnisse waren gar nicht so schlecht. Die „Podcast“-Einstellung von PlayNote erzeugt Clips, die qualitativ mehr oder weniger mit NotebookLMs vergleichbar sind, und die Fähigkeit des Tools, Fotos und Videos aufzunehmen, sorgt für einige faszinierende Kreationen. Angesichts eines Bildes von einem Hühnchen-Maulwurf-Gericht, das ich kürzlich gegessen hatte, schrieb PlayNote ein fünfminütiges Podcast-Skript darüber. Wir leben wirklich in der Zukunft.
Zugegebenermaßen erzeugt das Tool, wie alle KI-Tools, von Zeit zu Zeit seltsame Artefakte und Halluzinationen. Und während PlayNote sein Bestes tut, um eine Datei an das von Ihnen gewählte Format anzupassen, erwarten Sie beispielsweise nicht, dass eine trockene juristische Ablage für das beste Quellmaterial sorgt. Siehe: Die Klage Musk gegen OpenAI als Gute-Nacht-Geschichte:
Das Podcast-Format von PlayNote wird durch das neueste Modell von PlayAI, PlayDialog, ermöglicht, das laut Syed den „Kontext und Verlauf“ einer Konversation nutzen kann, um Sprache zu generieren, die den Konversationsfluss widerspiegelt. „PlayDialog nutzt den historischen Kontext einer Konversation, um Prosodie, Emotionen und Tempo zu steuern, und liefert Konversationen mit natürlicher Darbietung und angemessenem Ton“, fuhr er fort.
PlayAI, ein enger Konkurrent von ElevenLabs, war es kritisiert in der Vergangenheit für seinen laissez-faire-Ansatz in Sachen Sicherheit bekannt. Das Tool zum Klonen von Stimmen des Unternehmens erfordert, dass Benutzer ein Kästchen ankreuzen, das angibt, dass sie „über alle erforderlichen Rechte oder Einwilligungen verfügen“, um eine Stimme zu klonen – es gibt jedoch keinen Durchsetzungsmechanismus. Ich hatte keine Probleme, aus einer Aufnahme einen Klon der Stimme von Kamala Harris zu erstellen.
Das ist besorgniserregend, wenn man bedenkt, dass Potenzial für Betrug Und Deepfakes.
PlayAI behauptet außerdem, dass es „sexuelle, beleidigende, rassistische oder bedrohliche Inhalte“ automatisch erkennt und blockiert. Aber das war bei meinen Tests nicht der Fall. Ich habe den Harris-Klon verwendet, um Sprache zu generieren, die ich hier ehrlich gesagt nicht einbetten kann, und habe kein einziges Mal eine Warnmeldung gesehen.
Mittlerweile verfügt das Community-Portal von PlayNote, das mit öffentlich generierten Inhalten gefüllt ist, über Dateien mit explizite Titel wie „Frau beim Oralsex“.
Syed erzählt mir, dass PlayAI auf Berichte über ohne Zustimmung geklonte Stimmen reagiert. wie dieses hierindem der verantwortliche Benutzer gesperrt und die geklonte Stimme sofort entfernt wird. Er argumentiert außerdem, dass die höchstgetreuen Sprachklone von PlayAI, die 20 Minuten Sprachproben erfordern, teurer sind (49 US-Dollar pro Monat bei jährlicher Abrechnung oder 99 US-Dollar pro Monat), als die meisten Betrüger zu zahlen bereit sind.
„PlayAI verfügt über mehrere ethische Schutzmaßnahmen“, sagte Syed. „Wir haben robuste Mechanismen implementiert, um beispielsweise zu erkennen, ob eine Stimme mit unserer Technologie synthetisiert wurde. Wenn ein Missbrauch gemeldet wird, überprüfen wir umgehend die Herkunft des Inhalts und ergreifen entscheidende Maßnahmen, um die Situation zu beheben und weitere ethische Verstöße zu verhindern.“
Ich würde auf jeden Fall hoffen, dass das der Fall ist – und dass PlayAI davon abweicht Marketingkampagnen mit toten Tech-Prominenten. Wenn die Moderation von PlayAI nicht robust ist, könnte es rechtliche Herausforderungen geben Tennesseein dem es ein Gesetz gibt, das Plattformen daran hindert, KI zu hosten, um unbefugte Aufnahmen der Stimme einer Person anzufertigen.
Der Ansatz von PlayAI zum Trainieren seiner Stimme-Klon-KI ist ebenfalls etwas unklar. Das Unternehmen verrät nicht, woher es die Daten für seine Modelle bezieht, angeblich aus Wettbewerbsgründen.
„PlayAI verwendet hauptsächlich offene Datensätze, [as well as licensed data] und proprietäre Datensätze, die intern erstellt werden“, sagte Syed. „Wir verwenden keine Benutzerdaten aus den Produkten für Schulungen oder Entwickler, um Modelle zu trainieren. Unsere Modelle sind auf Millionen von Stunden realer menschlicher Sprache trainiert und liefern Stimmen männlichen und weiblichen Geschlechts in mehreren Sprachen und Akzenten.“
Die meisten KI-Modelle werden anhand öffentlicher Webdaten trainiert – einige davon können urheberrechtlich geschützt sein oder einer restriktiven Lizenz unterliegen. Viele KI-Anbieter argumentieren, dass die faire Nutzung Die Doktrin schützt sie vor Urheberrechtsansprüchen. Aber das hat Dateneigentümer nicht davon abgehalten aus Sie reichten Sammelklagen ein, in denen behauptet wurde, dass Anbieter ihre Daten ohne Erlaubnis verwendet hätten.
PlayAI wurde nicht verklagt. Es gelten jedoch die Nutzungsbedingungen vorschlagen Es wird den Nutzern nichts ausmachen, wenn sie einer rechtlichen Bedrohung ausgesetzt sind.
Plattformen zum Klonen von Stimmen wie PlayAI werden von Schauspielern kritisiert, die befürchten, dass die Spracharbeit irgendwann durch KI-generierten Gesang ersetzt wird und dass Schauspieler kaum Kontrolle darüber haben, wie ihre digitalen Doubles verwendet werden.
Die Hollywood-Schauspielergewerkschaft SAG-AFTRA hat mit einigen Start-ups, darunter dem Online-Talentmarktplatz Narrativ und Replica Studios, Verträge über Vereinbarungen zum Stimmenklonen geschlossen, die sie als „fair“ und „ethisch“ bezeichnet. Aber selbst diese Verbindungen sind gescheitert intensive Prüfungauch von SAG-AFTRAs eigenen Mitgliedern.
In Kalifornien verlangen die Gesetze von Unternehmen, die sich auf die digitale Nachbildung eines Darstellers (z. B. eine geklonte Stimme) verlassen, eine Beschreibung des beabsichtigten Verwendungszwecks der Nachbildung und verhandeln mit dem Rechtsbeistand des Darstellers. Sie verlangen außerdem, dass Arbeitgeber im Unterhaltungsbereich die Zustimmung zum Nachlass eines verstorbenen Künstlers einholen, bevor sie einen digitalen Klon dieser Person verwenden.
Syed sagt, dass PlayAI „garantiert“, dass jeder über seine Plattform generierte Sprachklon exklusiv dem Ersteller gehört. „Diese Exklusivität ist für den Schutz der kreativen Rechte der Nutzer von entscheidender Bedeutung“, fügte er hinzu.
Die zunehmende rechtliche Belastung ist ein Gegenwind für PlayAI. Ein weiterer Grund ist die Konkurrenz. Papercup, Deepdub, Acapela, Respeecher und Voice.ai sowie die großen Technologiekonzerne Amazon, Microsoft und Google bieten KI-Synchronisierungs- und Sprachklonungstools an. Das bereits erwähnte Unternehmen ElevenLabs, einer der bekanntesten Anbieter für das Klonen von Stimmen, soll neue Mittel im Wert von über 3 Milliarden US-Dollar beschaffen.
PlayAI hat jedoch keine Schwierigkeiten, Investoren zu finden. In diesem Monat schloss das von Y Combinator unterstützte Unternehmen eine von Kindred Ventures angeführte Seed-Runde in Höhe von 20 Millionen US-Dollar ab, wodurch sich das insgesamt eingeworbene Kapital auf 21 Millionen US-Dollar erhöhte. Auch Race Capital und 500 Global beteiligten sich.
„Das neue Kapital wird verwendet, um in unsere generativen KI-Sprachmodelle und unsere Voice-Agent-Plattform zu investieren und die Zeit für Unternehmen zu verkürzen, Spracherlebnisse in menschlicher Qualität zu schaffen“, sagte Syed und fügte hinzu, dass PlayAI plant, seine 40-köpfige Belegschaft zu erweitern .