Es gab viele Versuche mit KI-gestützten Open-Source-Sprachassistenten (siehe Rhasspy, Mycroft und Jasper, um nur einige zu nennen) – alle mit dem Ziel, datenschutzschonende Offline-Erlebnisse zu schaffen, die keine Kompromisse bei der Funktionalität eingehen. Doch die Entwicklung verlief nachweislich außerordentlich langsam. Denn neben all den üblichen Herausforderungen, die ein Open-Source-Projekt mit sich bringt, gehört auch die Programmierung eines Assistenten dazu hart. Technologien wie Google Assistant, Siri und Alexa haben jahrelange, wenn nicht jahrzehntelange Forschung und Entwicklung hinter sich – und obendrein eine enorme Infrastruktur.
Aber das schreckt die Leute vom Large-scale Artificial Intelligence Open Network (LAION) nicht ab, der deutschen gemeinnützigen Organisation, die für die Pflege einiger der weltweit beliebtesten KI-Trainingsdatensätze verantwortlich ist. Diesen Monat, LAION kündigte eine neue Initiative an, BUD-E, die darauf abzielt, einen „vollständig offenen“ Sprachassistenten zu entwickeln, der auf Verbraucherhardware ausgeführt werden kann.
Warum ein völlig neues Sprachassistenten-Projekt starten, wenn es unzählige gibt, die sich in unterschiedlichem Zustand befinden und verlassen sind? Wieland Brendel, Fellow am Ellis Institute und Mitwirkender bei BUD-E, glaubt, dass es keinen offenen Assistenten mit einer Architektur gibt, die erweiterbar genug ist, um die Vorteile neuer GenAI-Technologien, insbesondere großer Sprachmodelle (LLMs) in dieser Art, voll auszunutzen ChatGPT von OpenAI.
„Die meisten Interaktionen mit [assistants] verlassen sich auf Chat-Schnittstellen, deren Interaktion eher umständlich ist, [and] „Die Dialoge mit diesen Systemen fühlen sich gestelzt und unnatürlich an“, sagte Brendel gegenüber Tech in einem E-Mail-Interview. „Diese Systeme können zwar Befehle übermitteln, um die Musik zu steuern oder das Licht einzuschalten, aber sie sind keine Grundlage für lange und spannende Gespräche. Ziel von BUD-E ist es, die Grundlage für einen Sprachassistenten zu schaffen, der sich für Menschen viel natürlicher anfühlt, die natürlichen Sprachmuster menschlicher Dialoge nachahmt und sich an vergangene Gespräche erinnert.“
Brendel fügte hinzu, dass LAION auch sicherstellen möchte, dass jede Komponente von BUD-E letztendlich lizenzfrei, auch kommerziell, in Apps und Dienste integriert werden kann – was bei anderen offenen Assistentenbemühungen nicht unbedingt der Fall ist.
In Zusammenarbeit mit dem Ellis-Institut in Tübingen, der Technologieberatung Collabora und dem Tübingen AI Center hat BUD-E – rekursive Abkürzung für „Buddy for Understanding and Digital Empathy“ – eine ehrgeizige Roadmap. In einem Blogeintraglegt das LAION-Team dar, was es in den nächsten Monaten erreichen möchte. Dabei geht es vor allem darum, „emotionale Intelligenz“ in BUD-E einzubauen und sicherzustellen, dass es Gespräche mit mehreren Sprechern gleichzeitig bewältigen kann.
„Es besteht ein großer Bedarf an einem gut funktionierenden natürlichen Sprachassistenten“, sagte Brendel. „LAION hat in der Vergangenheit gezeigt, dass es großartig darin ist, Gemeinschaften aufzubauen, und das ELLIS-Institut Tübingen und das Tübingen AI Center sind bestrebt, die Ressourcen für die Entwicklung des Assistenten bereitzustellen.“
BUD-E ist betriebsbereit – das können Sie herunterladen und installieren Sie es noch heute von GitHub auf einem Ubuntu- oder Windows-PC (macOS kommt) – aber es befindet sich ganz offensichtlich noch im Anfangsstadium.
LAION hat mehrere offene Modelle zusammengefügt, um ein MVP zusammenzustellen, darunter Microsofts Phi-2 LLM, Columbias Text-to-Speech StyleTTS2 und Nvidias FastConformer für Speech-to-Text. Daher ist das Erlebnis etwas unoptimiert. Um BUD-E dazu zu bringen, innerhalb von etwa 500 Millisekunden auf Befehle zu reagieren – in der Größenordnung kommerzieller Sprachassistenten wie Google Assistant und Alexa – ist eine leistungsstarke GPU wie die von Nvidia erforderlich RTX 4090.
Collabora arbeitet ehrenamtlich daran, seine Open-Source-Spracherkennungs- und Text-to-Speech-Modelle WhisperLive und WhisperSpeech für BUD-E anzupassen.
„Da wir die Text-to-Speech- und Spracherkennungslösungen selbst entwickeln, können wir sie in einem Ausmaß anpassen, das mit geschlossenen Modellen, die über APIs bereitgestellt werden, nicht möglich ist“, sagt Jakub Piotr Cłapa, KI-Forscher bei Collabora und BUD-E-Teammitglied, sagte in einer E-Mail. „Collabora begann zunächst mit der Arbeit [open assistants] Zum Teil, weil wir Schwierigkeiten hatten, für einen unserer Kunden eine gute Text-to-Speech-Lösung für einen LLM-basierten Sprachagenten zu finden. Wir haben uns entschieden, mit der breiteren Open-Source-Community zusammenzuarbeiten, um unsere Modelle breiter zugänglich und nützlicher zu machen.“
In naher Zukunft, Laut LAION wird es dazu beitragen, die Hardwareanforderungen von BUD-E zu verringern und die Latenz des Assistenten zu verringern. Ein längerfristiges Unterfangen ist der Aufbau eines Datensatzes von Dialogen zur Feinabstimmung von BUD-E – sowie eines Speichermechanismus, der es BUD-E ermöglicht, Informationen aus früheren Gesprächen zu speichern, und einer Sprachverarbeitungspipeline, die die Gespräche mehrerer Personen verfolgen kann auf einmal.
Ich habe das Team gefragt, ob Barrierefreiheit war eine Priorität, wenn man bedenkt, dass Spracherkennungssysteme in der Vergangenheit bei Sprachen, die nicht Englisch sind, und Akzenten, die nicht transatlantisch sind, keine gute Leistung erbracht haben. Ein Stanford Studie fanden heraus, dass Spracherkennungssysteme von Amazon, IBM, Google, Microsoft und Apple fast doppelt so häufig schwarze Sprecher im Vergleich zu weißen Sprechern gleichen Alters und Geschlechts falsch verstanden.
Brendel hat das gesagt LAION ignoriert die Barrierefreiheit nicht – aber dass es sich nicht um einen „unmittelbaren Fokus“ handelt BUD-E.
„Der erste Schwerpunkt liegt darauf, die Erfahrung, wie wir mit Sprachassistenten interagieren, wirklich neu zu definieren, bevor wir diese Erfahrung auf vielfältigere Akzente und Sprachen übertragen“, sagte Brendel.
Zu diesem Zweck, LAION hat einige ziemlich ausgefallene Ideen für BUD-E, die von einem animierten Avatar zur Personifizierung des Assistenten bis hin zur Unterstützung für die Analyse der Gesichter der Benutzer über Webcams reichen, um ihren emotionalen Zustand zu ermitteln.
Die Ethik des letzten Teils – der Gesichtsanalyse – ist gelinde gesagt etwas heikel. Robert Kaczmarczyk, Mitbegründer von LAION, betonte jedoch, dass LAION weiterhin der Sicherheit verpflichtet bleiben werde.
„[We] Halten Sie sich strikt an die im EU-KI-Gesetz formulierten Sicherheits- und Ethikrichtlinien“, sagte er per E-Mail gegenüber Tech – und bezog sich dabei auf den rechtlichen Rahmen, der den Verkauf und die Nutzung von KI in der EU regelt. Das EU-KI-Gesetz ermöglicht es den Mitgliedsländern der Europäischen Union, restriktivere Regeln und Schutzmaßnahmen für „Hochrisiko“-KI, einschließlich Emotionsklassifikatoren, einzuführen.
„Dieses Engagement für Transparenz erleichtert nicht nur die frühzeitige Erkennung und Korrektur potenzieller Vorurteile, sondern unterstützt auch die wissenschaftliche Integrität“, fügte Kaczmarczyk hinzu. „Indem wir unsere Datensätze zugänglich machen, ermöglichen wir der breiteren wissenschaftlichen Gemeinschaft, sich an der Forschung zu beteiligen, die die höchsten Standards der Reproduzierbarkeit einhält.“
LAIONs bisherige Arbeit war nicht makellos im ethischen Sinne, und es verfolgt derzeit ein etwas kontroverses separates Projekt zur Emotionserkennung. Aber vielleicht wird BUD-E anders sein; wir müssen abwarten und sehen.