Eine Gruppe hinter Stable Diffusion möchte eine Open-Source-KI zur Emotionserkennung entwickeln

Im Jahr 2019 hat Amazon seinen Alexa-Assistenten um eine Funktion erweitert, die es ihm ermöglicht, zu erkennen, wann ein Kunde wahrscheinlich frustriert ist – und entsprechend mit mehr Mitgefühl zu reagieren. Wenn ein Kunde Alexa zum Beispiel auffordert, ein Lied abzuspielen, es aber das falsche Lied in die Warteschlange gestellt hat und der Kunde dann verärgert „Nein, Alexa“ sagt, könnte sich Alexa entschuldigen – und um eine Klarstellung bitten.

Nun möchte die Gruppe hinter einem der Datensätze, die zum Trainieren des Text-zu-Bild-Modells Stable Diffusion verwendet werden, jedem Entwickler ähnliche Funktionen zur Emotionserkennung zur Verfügung stellen – und das kostenlos.

Diese Woche gab LAION, die gemeinnützige Organisation, die Bild- und Textdatensätze für das Training generativer KI, einschließlich Stable Diffusion, erstellt, dies bekannt Offen empathisch Projekt. Open Empathic zielt darauf ab, „Open-Source-KI-Systeme mit Empathie und emotionaler Intelligenz auszustatten“, so die Gruppe.

„Das LAION-Team mit Hintergrund in den Bereichen Gesundheitswesen, Bildung und maschinelle Lernforschung sah eine Lücke in der Open-Source-Community: Emotionale KI wurde weitgehend übersehen“, sagte Christoph Schuhmann, Mitbegründer von LAION, per E-Mail gegenüber Tech. „Ähnlich wie unsere Besorgnis über intransparente KI-Monopole, die zur Geburt von LAION führten, verspürten wir hier eine ähnliche Dringlichkeit.“

Über Open Empathic rekrutiert LAION Freiwillige, die Audioclips an eine Datenbank senden, mit deren Hilfe KI erstellt werden kann, einschließlich Chatbots und Text-to-Speech-Modellen, die menschliche Emotionen „versteht“.

„Mit OpenEmpathic ist es unser Ziel, eine KI zu schaffen, die über das bloße Verstehen von Worten hinausgeht“, fügte Schuhmann hinzu. „Unser Ziel ist es, die Nuancen in Ausdrücken und Tonänderungen zu erfassen und die Interaktionen zwischen Mensch und KI authentischer und einfühlsamer zu gestalten.“

LAION, ein Akronym für „Large-scale Artificial Intelligence Open Network“, wurde Anfang 2021 von Schuhmann, einem deutschen Gymnasiallehrer, und mehreren Mitgliedern eines Discord-Servers für KI-Enthusiasten gegründet. LAION wird durch Spenden und öffentliche Forschungszuschüsse finanziert, unter anderem vom KI-Startup Hugging Face und Stability AI, dem Anbieter hinter Stable Diffusion. Die erklärte Mission von LAION besteht darin, KI-Forschungs- und Entwicklungsressourcen zu demokratisieren – angefangen bei Trainingsdaten.

„Wir werden von einer klaren Mission angetrieben: die Leistungsfähigkeit der KI auf eine Art und Weise zu nutzen, die der Gesellschaft wirklich zugute kommt“, sagt Kari Noriy, Open-Source-Mitarbeiterin bei LAION und Doktorandin. Student an der Bournemouth University, teilte Tech per E-Mail mit. „Wir legen großen Wert auf Transparenz und glauben, dass der beste Weg, KI zu gestalten, offen ist.“

Daher Open Empathic.

Für die Anfangsphase des Projekts hat LAION eine Website erstellt, auf der Freiwillige damit beauftragt werden, YouTube-Clips einer sprechenden Person zu kommentieren – einige wurden vom LAION-Team vorab ausgewählt, andere von Freiwilligen. Für jeden Clip können Freiwillige eine detaillierte Liste von Feldern ausfüllen, einschließlich einer Transkription für den Clip, einer Audio- und Videobeschreibung sowie Alter, Geschlecht, Akzent (z. B. „britisches Englisch“) und Erregungsniveau der Person im Clip (Wachsamkeit – nicht sexuell, um es klar zu sagen) und Valenzniveau („Angenehmheit“ versus „Unangenehmheit“).

Andere Felder im Formular beziehen sich auf die Audioqualität des Clips und das Vorhandensein (oder Fehlen) lauter Hintergrundgeräusche. Aber der Großteil konzentriert sich auf die Emotionen der Person – oder zumindest auf die Emotionen, die die Freiwilligen bei ihr wahrnehmen.

Aus einer Reihe von Dropdown-Menüs können Freiwillige einzelne oder mehrere Emotionen auswählen, die von „munter“, „fröhlich“ und „betörend“ bis hin zu „nachdenklich“ und „ansprechend“ reichen. Kari sagt, dass die Idee darin bestand, „reichhaltige“ und „emotionale“ Anmerkungen anzufordern und gleichzeitig Ausdrücke in einer Reihe von Sprachen und Kulturen einzufangen.

„Unser Ziel ist es, KI-Modelle zu trainieren, die eine Vielzahl von Sprachen verstehen und unterschiedliche kulturelle Rahmenbedingungen wirklich verstehen können“, sagte Kari. „Wir arbeiten daran, Modelle zu schaffen, die Sprachen und Kulturen ‚verstehen‘, indem wir Videos verwenden, die echte Emotionen und Ausdrücke zeigen.

Sobald Freiwillige einen Clip an die LAION-Datenbank senden, können sie den Vorgang erneut wiederholen – es gibt keine Begrenzung für die Anzahl der Clips, die ein einzelner Freiwilliger kommentieren kann. LAION hofft, in den nächsten Monaten etwa 10.000 Proben zu sammeln, und – optimistisch – zwischen 100.000 und 1 Million bis zum nächsten Jahr.

„Wir haben leidenschaftliche Community-Mitglieder, die, angetrieben von der Vision, KI-Modelle und Datensätze zu demokratisieren, in ihrer Freizeit bereitwillig Anmerkungen beisteuern“, sagte Kari. „Ihre Motivation ist der gemeinsame Traum, eine empathische und emotional intelligente Open-Source-KI zu schaffen, die für alle zugänglich ist.“

Die Fallstricke der Emotionserkennung

Abgesehen von Amazons Versuchen mit Alexa haben Startups und Technologiegiganten gleichermaßen die Entwicklung von KI untersucht, die Emotionen erkennen kann – für Zwecke, die von Verkaufsschulungen bis zur Verhinderung von durch Schläfrigkeit verursachten Unfällen reichen.

Im Jahr 2016 erwarb Apple Emotient, ein Unternehmen aus San Diego, das an KI-Algorithmen zur Analyse von Gesichtsausdrücken arbeitet. Affectiva – ein Spin-out des MIT – wurde letzten Mai von der schwedischen Firma Smart Eye übernommen und behauptete einmal, seine Technologie könne Wut oder Frustration in Sprache in 1,2 Sekunden erkennen. Und die Spracherkennungsplattform Nuance, die Microsoft im April 2021 gekauft hat, hat ein Produkt für Autos vorgeführt, das die Emotionen des Fahrers anhand seiner Gesichtsausdrücke analysiert.

Zu den weiteren Akteuren im aufstrebenden Bereich der Emotionserkennung und -erkennung gehören Hume, HireVue und Realeyes, deren Technologie eingesetzt wird, um zu messen, wie bestimmte Zuschauersegmente auf bestimmte Anzeigen reagieren. Einige Arbeitgeber nutzen dazu Technologien zur Emotionserkennung bewerten potenzielle Mitarbeiter indem man sie punktet Empathie Und emotionale Intelligenz. Schulen haben es eingesetzt, um das Engagement der Schüler zu überwachen im Klassenzimmer – und aus der Ferne zu Hause. Und die KI zur Emotionserkennung wurde von Regierungen eingesetzt, um „gefährliche Menschen” und an Grenzkontrollstopps in der getestet USA, Ungarn, Lettland und Griechenland.

Das LAION-Team stellt sich seinerseits hilfreiche, unproblematische Anwendungen der Technologie in den Bereichen Robotik, Psychologie, Berufsausbildung, Bildung und sogar Spiele vor. Christoph zeichnet ein Bild von Robotern, die Unterstützung und Kameradschaft bieten, von virtuellen Assistenten, die spüren, wenn sich jemand einsam oder ängstlich fühlt, und von Werkzeugen, die bei der Diagnose psychischer Störungen helfen.

Es ist eine Techno-Utopie. Das Problem ist, dass die meisten Emotionserkennungen auf unsicheren wissenschaftlichen Grundlagen basieren.

Es gibt, wenn überhaupt, nur wenige universelle Marker für Emotionen – was die Genauigkeit der Emotionserkennungs-KI in Frage stellt. Die meisten Emotionserkennungssysteme basieren auf der in den 70er Jahren veröffentlichten Arbeit des Psychologen Paul Ekman. Spätere Untersuchungen – darunter auch Ekmans eigene – stützen jedoch die vernünftige Annahme, dass es große Unterschiede in der Art und Weise gibt, wie Menschen mit unterschiedlichem Hintergrund ihre Gefühle ausdrücken.

Zum Beispiel der Ausdruck angeblich „universell“ für „Angst“ ist in Malaysia ein Stereotyp für eine Bedrohung oder Wut. In einer seiner späteren Arbeiten schlug Ekman vor, dass amerikanische und japanische Studenten dazu neigen, sehr unterschiedlich auf Gewaltfilme zu reagieren, wobei japanische Studenten „völlig andere Ausdrücke“ annehmen, wenn jemand anderes im Raum ist – insbesondere eine Autoritätsperson.

Auch Stimmen decken ein breites Spektrum an Merkmalen ab, darunter die von Menschen mit Behinderungen, Erkrankungen wie Autismus und denen, die andere Sprachen und Dialekte wie African-American Vernacular English (AAVE) sprechen. Ein französischer Muttersprachler, der an einer Umfrage auf Englisch teilnimmt, könnte ein Wort mit einer gewissen Unsicherheit innehalten oder aussprechen – was von jemandem, mit dem er nicht vertraut ist, als Emotionsmarker missverstanden werden könnte.

Tatsächlich ist ein großer Teil des Problems bei der Emotionserkennungs-KI Voreingenommenheit – implizite und explizite Voreingenommenheit, die von den Annotatoren hervorgerufen wird, deren Beiträge zum Trainieren von Emotionserkennungsmodellen verwendet werden.

Im Jahr 2019 StudieWissenschaftler haben beispielsweise herausgefunden, dass Labeler eher dazu neigen, Phrasen in AAVE mit giftigeren Anmerkungen zu versehen als ihre allgemeinen Entsprechungen in amerikanischem Englisch. Sexuelle Orientierung und Geschlechtsidentität können schwerwiegend sein beeinflussen Welche Wörter und Phrasen ein Annotator ebenfalls als giftig empfindet – was zu völligen Vorurteilen führen kann. Es wurde festgestellt, dass mehrere häufig verwendete Open-Source-Bilddatensätze rassistische, sexistische und andere Inhalte enthalten beleidigend Beschriftungen von Annotatoren.

Die nachgelagerten Auswirkungen können ziemlich dramatisch sein.

Es wurde festgestellt, dass Retorio, eine KI-Einstellungsplattform, unterschiedlich auf denselben Kandidaten in unterschiedlichen Outfits wie Brille und Kopftuch reagiert. In einem 2020 MIT StudieForscher zeigten, dass Gesichtsanalysealgorithmen bestimmte Gesichtsausdrücke wie das Lächeln berücksichtigen können, was ihre Genauigkeit verringert. Neuere arbeiten impliziert, dass beliebte Tools zur Emotionsanalyse dazu neigen, den Gesichtern schwarzer Männer negativere Emotionen zuzuordnen als weißen Gesichtern.

Den Prozess respektieren

Wie wird das LAION-Team diese Vorurteile bekämpfen – zum Beispiel sicherstellen, dass die Anzahl der Weißen im Datensatz nicht höher ist als die der Schwarzen? dass nicht-binären Menschen nicht das falsche Geschlecht zugewiesen wird; und dass Menschen mit Stimmungsstörungen nicht mit Emotionen falsch bezeichnet werden, die sie nicht ausdrücken wollten?

Es ist nicht ganz klar.

Christoph behauptet, dass der Prozess der Übermittlung von Trainingsdaten für Open Empathic keine „offene Tür“ sei und dass LAION über Systeme verfügt, um „die Integrität der Beiträge sicherzustellen“.

„Wir können die Absicht eines Benutzers validieren und die Qualität der Anmerkungen kontinuierlich überprüfen“, fügte er hinzu.

Aber die bisherigen Datensätze von LAION waren nicht gerade makellos.

Einige Analysen von LAION ~400M – eines der LAION-Bildtrainingssets, das die Gruppe mit automatisierten Tools zu kuratieren versuchte – ergab Fotos, die sexuelle Übergriffe, Vergewaltigungen, Hasssymbole und grafische Gewalt zeigten. LAION ~400M ist auch weit verbreitet mit Voreingenommenheit, zum Beispiel die Rückgabe von Bildern von Männern, aber nicht von Frauen für Wörter wie „CEO“ und Bildern von Männern aus dem Nahen Osten für „Terrorist“.

Christoph vertraut darauf, dass die Community bei diesem Durcheinander als Kontrolle dienen wird.

„Wir glauben an die Kraft von Hobbywissenschaftlern und Enthusiasten aus der ganzen Welt, die zusammenkommen und zu unseren Datensätzen beitragen“, sagte er. „Obwohl wir offen und kooperativ sind, legen wir bei unseren Daten Wert auf Qualität und Authentizität.“

Was die Art und Weise betrifft, wie eine auf dem Open Empathic-Datensatz trainierte emotionserkennende KI – ob voreingenommen oder nicht – verwendet wird, ist LAION bestrebt, seine Open-Source-Philosophie aufrechtzuerhalten – auch wenn dies bedeutet, dass die KI missbraucht werden könnte.

„Der Einsatz von KI zum Verständnis von Emotionen ist ein gewaltiges Unterfangen, aber nicht ohne Herausforderungen“, sagte Robert Kaczmarczyk, LAION-Mitbegründer und Arzt an der Technischen Universität München, per E-Mail. „Wie jedes Werkzeug da draußen kann es sowohl zum Guten als auch zum Schlechten eingesetzt werden. Stellen Sie sich vor, nur eine kleine Gruppe hätte Zugang zu fortschrittlicher Technologie, während der Großteil der Öffentlichkeit im Dunkeln tappte. Dieses Ungleichgewicht könnte zu Missbrauch oder sogar Manipulation durch die wenigen führen, die die Kontrolle über diese Technologie haben.“

Wenn es um KI geht, greifen Laissez-faire-Ansätze manchmal auf die Schöpfer von Bite-Modellen zurück – wie die Art und Weise zeigt, wie Stable Diffusion jetzt zur Erstellung verwendet wird Material über sexuellen Missbrauch von Kindern und nicht einvernehmliche Deepfakes.

Bestimmte Befürworter der Privatsphäre und der Menschenrechte, darunter European Digital Rights und Access Now, haben dies getan angerufen für ein generelles Verbot der Emotionserkennung. Das EU-KI-Gesetz, das kürzlich verabschiedete Gesetz der Europäischen Union, das einen Governance-Rahmen für KI festlegt, verbietet den Einsatz der Emotionserkennung in der Polizeiarbeit, im Grenzmanagement, am Arbeitsplatz und in Schulen. Und einige Unternehmen haben dies freiwillig getan gezogen ihre emotionserkennende KI, wie Microsoft, angesichts des öffentlichen Rückschlags.

LAION scheint jedoch mit der Höhe des damit verbundenen Risikos zufrieden zu sein – und vertraut auf den offenen Entwicklungsprozess.

„Wir heißen Forscher willkommen, sich umzusehen, Änderungen vorzuschlagen und Probleme zu erkennen“, sagte Kaczmarczyk. „Und genau wie Wikipedia von seinen Community-Beiträgen lebt, wird OpenEmpathic durch die Beteiligung der Community vorangetrieben und sorgt dafür, dass es transparent und sicher ist.“

Transparent? Sicher. Sicher? Wir werden sehen.

tch-1-tech