Diese Woche in AI: Bekämpfung von Rassismus in AI-Bildgeneratoren

Mit einer so schnelllebigen Branche wie der KI Schritt zu halten, ist eine große Herausforderung. Bis eine KI dies für Sie erledigen kann, finden Sie hier eine praktische Zusammenfassung der neuesten Geschichten aus der Welt des maschinellen Lernens sowie bemerkenswerte Forschungsergebnisse und Experimente, die wir nicht alleine behandelt haben.

Diese Woche hat Google im Bereich KI die Fähigkeit seines KI-Chatbots Gemini, Bilder von Menschen zu generieren, unterbrochen, nachdem sich ein Teil der Nutzer über historische Ungenauigkeiten beschwert hatte. Gemini soll beispielsweise „eine römische Legion“ darstellen und zeigt eine anachronistische, karikaturhafte Gruppe von Fußsoldaten unterschiedlicher Rassen, während „Zulu-Krieger“ schwarz sind.

Es scheint, dass Google – wie einige andere KI-Anbieter, darunter auch OpenAI – eine ungeschickte Hardcodierung unter der Haube implementiert hat, um zu versuchen, Vorurteile in seinem Modell zu „korrigieren“. Auf Aufforderungen wie „Zeigen Sie mir nur Bilder von Frauen“ oder „Zeigen Sie mir nur Bilder von Männern“ antworteten Zwillinge mit der Begründung, solche Bilder könnten „zur Ausgrenzung und Marginalisierung anderer Geschlechter beitragen“. Zwillinge lehnten es auch ab, Bilder von Menschen zu erzeugen, die nur anhand ihrer Rasse identifiziert wurden – z. B. „weiße Menschen“ oder „schwarze Menschen“ – aus angeblicher Sorge, „Individuen auf ihre körperlichen Merkmale zu reduzieren“.

Die Rechten haben die Fehler als Beweis für eine „aufgeweckte“ Agenda der Tech-Elite aufgegriffen. Aber es bedarf nicht des Rasiermessers von Occam, um die weniger schändliche Wahrheit zu erkennen: Google, schon früher von den Voreingenommenheiten seiner Tools verbrannt (siehe: Einstufung schwarzer Männer als GorillasWärmepistolen in den Händen von Schwarzen verwechseln als Waffenusw.) versucht so verzweifelt zu verhindern, dass sich die Geschichte wiederholt, dass es in seinen bildgenerierenden Modellen eine weniger voreingenommene Welt zum Ausdruck bringt – so fehlerhaft sie auch sein mögen.

In ihrem Bestseller „White Fragility“ schreibt die antirassistische Pädagogin Robin DiAngelo darüber, wie die Auslöschung der Rasse – mit einem anderen Ausdruck „Farbenblindheit“ – zu systemischen Machtungleichgewichten zwischen Rassen beiträgt, anstatt sie zu mildern oder zu lindern. Indem man vorgibt, „keine Farbe zu sehen“, oder die Vorstellung bekräftigt, dass die einfache Anerkennung des Kampfes von Menschen anderer Rassen ausreicht, um sich selbst als „aufgewacht“ zu bezeichnen, Leute verewigen DiAngelo sagt, dass es Schaden anrichtet, wenn man jegliche substanzielle Erhaltung des Themas vermeidet.

Googles vorsichtiger Umgang mit rassenbasierten Eingabeaufforderungen in Gemini hat das Problem nicht per se vermieden – sondern auf unaufrichtige Weise versucht, die schlimmsten Vorurteile des Modells zu verbergen. Man könnte argumentieren (und viele haben es getan), dass diese Vorurteile nicht ignoriert oder beschönigt werden sollten, sondern im breiteren Kontext der Trainingsdaten, aus denen sie entstehen – d. h. der Gesellschaft im World Wide Web – angesprochen werden sollten.

Ja, die Datensätze, die zum Trainieren von Bildgeneratoren verwendet werden, enthalten im Allgemeinen mehr Weiße als Schwarze, und ja, die Bilder von Schwarzen in diesen Datensätzen verstärken negative Stereotypen. Deshalb Bildgeneratoren bestimmte farbige Frauen sexualisieren, stellen weiße Männer in Autoritätspositionen dar und allgemein befürworten wohlhabende westliche Perspektiven.

Einige mögen argumentieren, dass es für KI-Anbieter keinen Gewinn gibt. Unabhängig davon, ob sie die Vorurteile von Models angehen oder nicht angehen, werden sie kritisiert. Und das stimmt. Aber ich gehe davon aus, dass es diesen Modellen in jedem Fall an Erklärungen mangelt – sie sind auf eine Weise verpackt, die die Art und Weise minimiert, in der sich ihre Vorurteile manifestieren.

Würden KI-Anbieter die Mängel ihrer Modelle direkt und in bescheidener und transparenter Sprache angehen, würde das viel weiter gehen als willkürliche Versuche, eine im Wesentlichen nicht korrigierbare Voreingenommenheit zu „beheben“. Die Wahrheit ist, dass wir alle voreingenommen sind – und deshalb behandeln wir Menschen nicht gleich. Auch die Modelle, die wir bauen, nicht. Und wir tun gut daran, das anzuerkennen.

Hier sind einige andere bemerkenswerte KI-Geschichten der letzten Tage:

Frauen in der KI: Tech hat eine Serie gestartet, in der bemerkenswerte Frauen im Bereich KI vorgestellt werden. Lesen Sie die Liste hier.
Stabile Diffusion v3: Stability AI hat Stable Diffusion 3 angekündigt, die neueste und leistungsstärkste Version des bildgenerierenden KI-Modells des Unternehmens, basierend auf einer neuen Architektur.
Chrome erhält GenAI: Googles neues Gemini-basiertes Tool in Chrome ermöglicht es Nutzern, vorhandenen Text im Web neu zu schreiben – oder etwas völlig Neues zu generieren.
Schwärzer als ChatGPT: Die kreative Werbeagentur McKinney hat ein Quizspiel mit dem Titel „Are You Blacker than ChatGPT?“ entwickelt, um die KI-Voreingenommenheit zu beleuchten.
Forderungen nach Gesetzen: Hunderte von KI-Koryphäen haben Anfang dieser Woche einen öffentlichen Brief unterzeichnet, in dem sie eine Anti-Deepfake-Gesetzgebung in den USA fordern
In KI erstelltes Match: OpenAI hat einen neuen Kunden in der Match Group, dem Eigentümer von Apps wie Hinge, Tinder und Match, dessen Mitarbeiter die KI-Technologie von OpenAI nutzen werden, um arbeitsbezogene Aufgaben zu erledigen.
DeepMind-Sicherheit: DeepMind, die KI-Forschungsabteilung von Google, hat eine neue Organisation namens AI Safety and Alignment gegründet, die sich aus bestehenden Teams zusammensetzt, die an der KI-Sicherheit arbeiten, aber auch erweitert wurde, um neue, spezialisierte Kohorten von GenAI-Forschern und -Ingenieuren einzubeziehen.
Offene Modelle: Knapp eine Woche nach der Einführung der neuesten Version seiner Gemini-Modelle veröffentlichte Google Gemma, eine neue Familie leichter, offener Modelle.
Task Force des Repräsentantenhauses: Das US-Repräsentantenhaus hat eine Task Force zum Thema KI gegründet, die sich – wie Devin schreibt – nach Jahren der Unentschlossenheit, die kein Ende zeigt, wie ein Kahn anfühlt.

Mehr maschinelles Lernen

KI-Modelle scheinen viel zu wissen, aber was wissen sie eigentlich? Nun, die Antwort ist nichts. Aber wenn man die Frage etwas anders formuliert, scheinen sie einige „Bedeutungen“ verinnerlicht zu haben, die dem ähneln, was Menschen wissen. Obwohl keine KI wirklich versteht, was eine Katze oder ein Hund ist, könnte sie in der Einbettung dieser beiden Wörter ein Gefühl der Ähnlichkeit haben, das sich beispielsweise von Katze und Flasche unterscheidet? Amazon-Forscher glauben daran.

Ihre Forschung verglich die „Flugbahnen“ ähnlicher, aber unterschiedlicher Sätze wie „Der Hund bellte den Einbrecher an“ und „Der Einbrecher ließ den Hund bellen“ mit denen grammatikalisch ähnlicher, aber unterschiedlicher Sätze wie „Eine Katze schläft den ganzen Tag“. und „Ein Mädchen joggt den ganzen Nachmittag.“ Sie fanden heraus, dass diejenigen, die Menschen ähnlich finden würden, intern tatsächlich als ähnlicher behandelt wurden, obwohl sie grammatikalisch unterschiedlich waren, und umgekehrt für die grammatikalisch ähnlichen. OK, ich finde, dieser Absatz war etwas verwirrend, aber es genügt zu sagen, dass die in LLMs kodierten Bedeutungen robuster und ausgefeilter zu sein scheinen als erwartet und nicht völlig naiv.

Die neuronale Kodierung erweist sich beim prothetischen Sehen als nützlich. Schweizer Forscher der EPFL haben herausgefunden. Künstliche Netzhäute und andere Möglichkeiten, Teile des menschlichen Sehsystems zu ersetzen, haben aufgrund der Einschränkungen von Mikroelektrodenarrays im Allgemeinen eine sehr begrenzte Auflösung. Unabhängig davon, wie detailliert das Bild ist, muss es mit einer sehr geringen Wiedergabetreue übertragen werden. Es gibt jedoch verschiedene Möglichkeiten des Downsamplings, und dieses Team hat herausgefunden, dass maschinelles Lernen dabei hervorragende Arbeit leistet.

Bildnachweis: EPFL

„Wir haben festgestellt, dass wir mit einem lernbasierten Ansatz bessere Ergebnisse im Hinblick auf eine optimierte sensorische Kodierung erzielten. Aber noch überraschender war, dass, als wir ein uneingeschränktes neuronales Netzwerk verwendeten, es lernte, Aspekte der Netzhautverarbeitung selbstständig nachzuahmen“, sagte Diego Ghezzi in einer Pressemitteilung. Im Grunde führt es eine Wahrnehmungskomprimierung durch. Sie haben es an der Netzhaut von Mäusen getestet, es ist also nicht nur theoretisch.

Eine interessante Anwendung von Computer Vision durch Stanford-Forscher weist auf ein Rätsel hin, wie Kinder ihre Zeichenfähigkeiten entwickeln. Das Team befragte und analysierte 37.000 Zeichnungen verschiedener Objekte und Tiere von Kindern und analysierte außerdem (basierend auf den Antworten der Kinder), wie erkennbar jede Zeichnung war. Interessanterweise war es nicht nur die Einbeziehung charakteristischer Merkmale wie Hasenohren, die dafür sorgten, dass die Zeichnungen von anderen Kindern besser erkannt wurden.

„Die Arten von Merkmalen, die dazu führen, dass Zeichnungen älterer Kinder erkennbar sind, scheinen nicht nur von einem einzigen Merkmal bestimmt zu werden, das alle älteren Kinder lernen, in ihre Zeichnungen einzubeziehen. Es ist etwas viel Komplexeres, das diese maschinellen Lernsysteme aufgreifen“, sagte die leitende Forscherin Judith Fan.

Chemiker (auch an der EPFL) gefunden dass LLMs auch überraschend geschickt darin sind, nach minimaler Einarbeitung bei ihrer Arbeit auszuhelfen. Es geht nicht nur darum, Chemie direkt zu betreiben, sondern vielmehr darum, sich an einem Arbeitskomplex zu orientieren, von dem ein Chemiker als Einzelner unmöglich alles wissen kann. Beispielsweise kann es in Tausenden von Veröffentlichungen einige Hundert Aussagen darüber geben, ob eine Legierung mit hoher Entropie einphasig oder mehrphasig ist (Sie müssen nicht wissen, was das bedeutet – sie tun es). Das System (basierend auf GPT-3) kann auf diese Art von Ja/Nein-Fragen und -Antworten trainiert werden und ist bald in der Lage, daraus zu extrapolieren.

Das ist kein großer Fortschritt, sondern nur ein weiterer Beweis dafür, dass LLMs in diesem Sinne ein nützliches Instrument sind. „Der Punkt ist, dass dies so einfach ist wie eine Literatursuche, die bei vielen chemischen Problemen funktioniert“, sagte der Forscher Berend Smit. „Die Abfrage eines grundlegenden Modells könnte zu einer routinemäßigen Methode für den Start eines Projekts werden.“

Zuletzt, Ein Wort der Vorsicht von Berkeley-Forschern, obwohl ich jetzt, wo ich den Beitrag noch einmal lese, sehe, dass die EPFL auch daran beteiligt war. Geh nach Lausanne! Die Gruppe stellte fest, dass Bilder, die über Google gefunden wurden, viel eher Geschlechterstereotype für bestimmte Berufe und Wörter durchsetzen als Texte, in denen dasselbe erwähnt wird. Und in beiden Fällen waren auch einfach viel mehr Männer anwesend.

Darüber hinaus stellten sie in einem Experiment fest, dass Menschen, die bei der Recherche einer Rolle Bilder betrachteten, anstatt Text zu lesen, diese Rollen auch Tage später zuverlässiger einem Geschlecht zuordneten. „Hier geht es nicht nur um die Häufigkeit geschlechtsspezifischer Vorurteile im Internet“, sagte der Forscher Douglas Guilbeault. „Ein Teil der Geschichte hier ist, dass die Darstellung von Menschen in Bildern etwas sehr Klebriges, sehr Wirksames hat, das Text einfach nicht hat.“

Bei Dingen wie dem Google-Bildgenerator-Diversity-Streit verliert man leicht die etablierte und häufig bestätigte Tatsache aus den Augen, dass die Datenquelle für viele KI-Modelle ernsthafte Verzerrungen aufweist, und diese Verzerrungen haben echte Auswirkungen auf die Menschen.

tch-1-tech

Putin Gesandter zu besuchen Washington – Medien – World

Einen Augenblick…

KI in weißen Mänteln: Australier ist fassungslos, nachdem Doctor Chatgpt für medizinische Beratung verwendet hatte

Einen Augenblick…