Bereits im Februar unterbrach Google die Fähigkeit seines KI-gestützten Chatbots Gemini, Bilder von Menschen zu generieren, nachdem sich Nutzer darüber beschwert hatten, historisch Ungenauigkeiten. Gemini sollte beispielsweise eine „römische Legion“ darstellen und würde eine anachronistische Gruppe von Soldaten unterschiedlicher Rasse zeigen, während „Zulu-Krieger“ als stereotypisch schwarz dargestellt würden.
Google-CEO Sundar Pichai entschuldigte sich und Demis Hassabis, Mitbegründer von Googles KI-Forschungsabteilung DeepMind, sagte, dass eine Lösung „in sehr kurzer Zeit“ – also innerhalb der nächsten paar Wochen – eintreffen sollte. Letztendlich dauerte es jedoch viel, viel länger (obwohl einige Google-Mitarbeiter 120-Stunden-Wochen einlegen!). Aber in den nächsten Tagen wird Gemini wieder in der Lage sein, Bilder zu erstellen, auf denen Menschen zu sehen sind.
Naja … irgendwie schon.
Nur bestimmte Benutzer – und zwar diejenigen, die einen der kostenpflichtigen Gemini-Pläne (Gemini Advanced, Business oder Enterprise) von Google abonniert haben – erhalten im Rahmen eines ausschließlich auf Englisch verfügbaren Vorabzugriffstests Zugriff auf die Personengenerierungsfunktion von Gemini.
Google wollte nicht sagen, wann der Test auf die kostenlose Gemini-Stufe und andere Sprachen ausgeweitet wird.
„Mit Gemini Advanced erhalten unsere Nutzer vorrangigen Zugriff auf unsere neuesten Funktionen“, sagte ein Google-Sprecher gegenüber Tech. „Auf diese Weise können wir wertvolles Feedback sammeln und unseren Premium-Abonnenten eine mit Spannung erwartete Funktion als Erstes bereitstellen.“
Welche Korrekturen hat Google also für die Personengenerierung implementiert? Laut dem Unternehmen enthält Imagen 3, das neueste in Gemini integrierte Bildgenerierungsmodell, Abhilfemaßnahmen, um die von Gemini erstellten Personenbilder „fairer“ zu gestalten. Beispielsweise wurde Imagen 3 mit KI-generierten Bildunterschriften trainiert, die darauf abzielen, „die Vielfalt und Diversität der mit Bildern verbundenen Konzepte in [its] Trainingsdaten“, so ein technisches Dokument mit Tech geteilt. Und die Trainingsdaten des Modells wurden nach „Sicherheit“ und „Überprüfung“ gefiltert[ed] … unter Berücksichtigung von Fairnessfragen“, behauptet Google.
Wir baten um weitere Einzelheiten zu den Trainingsdaten von Imagen 3, aber der Sprecher sagte lediglich, dass das Modell anhand „eines großen Datensatzes bestehend aus Bildern, Text und zugehörigen Anmerkungen“ trainiert wurde.
„Wir haben das Potenzial für unerwünschte Reaktionen durch umfangreiche interne und externe Red-Teaming-Tests deutlich reduziert und arbeiten mit unabhängigen Experten zusammen, um kontinuierliche Verbesserungen sicherzustellen“, fuhr der Sprecher fort. „Unser Schwerpunkt lag darauf, die Generierung durch Menschen gründlich zu testen, bevor wir sie wieder einschalten.“
Bild 3 und Edelsteine
Es gibt jedoch eine bessere Neuigkeit: Alle Gemini-Benutzer erhalten Imagen 3 innerhalb einer Woche – abzüglich der Personengenerierung für diejenigen, die kein Abonnement für die Premium-Stufen von Gemini haben.
Google sagt, dass Imagen 3 die Texteingaben, die es in Bilder übersetzt, im Vergleich zu seinem Vorgänger Imagen 2 genauer verstehen kann und in seinen Generationen „kreativer und detaillierter“ ist. Darüber hinaus produziert das Modell weniger Artefakte und Fehler, behauptet Google, und ist das bisher beste Imagen-Modell zum Rendern von Text.
Um Bedenken hinsichtlich des Potenzials für Deepfakes auszuräumen, wird Imagen 3 SynthID verwenden, einen von DeepMind entwickelten Ansatz, um unsichtbare, kryptografische Wasserzeichen auf verschiedene Formen von KI-basierten Medien anzuwenden. Google hatte bereits angekündigt, dass Imagen 3 SynthID verwenden würde, daher ist dies keine große Überraschung. Aber ich möchte anmerken, dass der Kontrast zwischen der Art und Weise, wie Google die Bildgenerierung in Gemini behandelt, und anderen Produkten, wie sein Pixel Studioist etwas neugierig.
Neben Imagen 3 führt Google Gems für Gemini ein – allerdings nur für Benutzer von Gemini Advanced, Business und Enterprise. Wie die GPTs von OpenAI sind Gems maßgeschneiderte Versionen von Gemini, die als „Experten“ zu bestimmten Themen (z. B. vegetarisches Kochen) fungieren können.
So beschreibt Google sie in einem Blogbeitrag: „Mit Gems können Sie ein Expertenteam zusammenstellen, das Ihnen beim Durchdenken eines anspruchsvollen Projekts hilft, Ideen für eine bevorstehende Veranstaltung sammelt oder die perfekte Überschrift für einen Social-Media-Beitrag schreibt. Ihr Gem kann sich auch einen detaillierten Satz von Anweisungen merken, damit Sie bei langwierigen, sich wiederholenden oder schwierigen Aufgaben Zeit sparen.“
Um ein Juwel zu erstellen, schreiben die Benutzer Anweisungen, geben ihm einen Namen und schon kann es losgehen.
Gems sind laut Google auf Desktop- und Mobilgeräten in 150 Ländern und „den meisten Sprachen“ verfügbar (aber noch nicht in Gemini Live unterstützt). Zum Start gibt es mehrere Beispiele, darunter einen „Lerncoach“, einen „Karriereführer“, einen „Brainstormer“ und einen „Codierungspartner“.
Wir haben Google gefragt, ob es Pläne für Möglichkeiten gibt, Benutzern die Veröffentlichung und Verwendung der Gems anderer Benutzer zu ermöglichen, ähnlich wie bei GPTs im GPT Store von OpenAI. Die Antwort war im Wesentlichen „nein“.
„Im Moment konzentrieren wir uns darauf, herauszufinden, wie die Leute Gems für Kreativität und Produktivität nutzen werden“, sagte der Sprecher. „Weitere Informationen gibt es derzeit nicht.“