Googles beste Gemini-Demo war gefälscht

Googles beste Gemini Demo war gefaelscht

Googles neues Gemini-KI-Modell stößt nach seinem großen Debüt gestern auf gemischte Resonanz, aber die Nutzer haben möglicherweise weniger Vertrauen in die Technologie oder Integrität des Unternehmens, nachdem sie herausgefunden haben, dass die beeindruckendste Demo von Gemini weitgehend gefälscht war.

Ein Video namens „Hands-on mit Gemini: Interaktion mit multimodaler KI“ Am letzten Tag erreichte es eine Million Aufrufe, und es ist nicht schwer zu verstehen, warum. Die beeindruckende Demo „hebt einige unserer Lieblingsinteraktionen mit Gemini hervor“ und zeigt, wie das multimodale Modell (das heißt, es versteht und vermischt Sprache und visuelles Verständnis) flexibel sein und auf eine Vielzahl von Eingaben reagieren kann.

Zunächst wird die sich entwickelnde Skizze einer Ente von einem Kringel zu einer vollständig kolorierten Zeichnung erzählt, dann zeigt sich Überraschung („Was zum Teufel!“), als man eine blaue Spielzeugente sieht. Anschließend reagiert es auf verschiedene Sprachanfragen zu diesem Spielzeug, dann geht die Demo zu anderen Angeberbewegungen über, wie zum Beispiel dem Verfolgen eines Balls in einem Becherwechselspiel, dem Erkennen von Schattenpuppengesten, dem Neuordnen von Planetenskizzen und so weiter.

Es ist auch alles sehr reaktionsschnell, obwohl das Video darauf hinweist, dass „die Latenz reduziert und die Gemini-Ausgaben verkürzt wurden“. Also überspringen sie hier ein Zögern und dort eine überlange Antwort, verstanden. Alles in allem war es eine ziemlich überwältigende Machtdemonstration im Bereich des multimodalen Verständnisses. Meine eigene Skepsis, dass Google einen Konkurrenten liefern könnte, erlitt einen Dämpfer, als ich mir die praktischen Übungen ansah.

Nur ein Problem: Das Video ist nicht echt. „Wir haben die Demo erstellt, indem wir Filmmaterial aufgenommen haben, um die Fähigkeiten von Gemini bei einer Vielzahl von Herausforderungen zu testen. Dann forderten wir Gemini auf, indem wir Standbilder aus dem Filmmaterial verwendeten und die Aufforderung per Text übermittelten.” (Parmy Olsen bei Bloomberg war der zuerst berichten die Diskrepanz.)

Obwohl es also irgendwie die Dinge tun könnte, die Google im Video zeigt, hat es sie nicht live und in der Art und Weise, wie sie es implizierten, umgesetzt und konnte es vielleicht auch nicht. Tatsächlich handelte es sich um eine Reihe sorgfältig abgestimmter Textaufforderungen mit Standbildern, die klar ausgewählt und gekürzt wurden, um die tatsächliche Interaktion falsch darzustellen. Einige der tatsächlichen Eingabeaufforderungen und Antworten finden Sie in ein verwandter Blogbeitrag – was, um fair zu sein, in der Videobeschreibung verlinkt ist, allerdings unter dem „…mehr“.

Einerseits scheint Gemini tatsächlich die im Video gezeigten Reaktionen hervorgerufen zu haben. Und wer möchte schon ein paar Verwaltungsbefehle sehen, wie zum Beispiel dem Modell mitzuteilen, dass es seinen Cache leeren soll? Aber die Zuschauer werden über die Geschwindigkeit, Genauigkeit und grundlegende Art der Interaktion mit dem Modell in die Irre geführt.

Beispielsweise ist bei 2:45 im Video eine Hand zu sehen, die still eine Reihe von Gesten ausführt. Zwillinge antworten schnell: „Ich weiß, was du tust! Du spielst Stein, Papier, Schere!“

Bildnachweis: Google YouTube

Aber das Allererste in der Dokumentation der Fähigkeit ist, dass das Modell seine Schlussfolgerungen nicht auf der Grundlage der Wahrnehmung einzelner Gesten zieht. Es müssen alle drei Gesten gleichzeitig gezeigt und gefragt werden: „Was denkst du, was ich mache?“ Hinweis: Es ist ein Spiel.“ Es antwortet: „Du spielst Stein, Papier, Schere.“

Googles beste Gemini Demo war gefaelscht

Bildnachweis: Google

Trotz der Ähnlichkeit fühlen sich diese nicht wie die gleiche Interaktion an. Sie fühlen sich wie grundlegend unterschiedliche Interaktionen an, die eine ist eine intuitive, wortlose Bewertung, die eine abstrakte Idee im Handumdrehen erfasst, die andere eine konstruierte und stark angedeutete Interaktion, die sowohl Einschränkungen als auch Fähigkeiten aufzeigt. Zwillinge taten Letzteres, nicht Ersteres. Die im Video gezeigte „Interaktion“ fand nicht statt.

Später werden drei Haftnotizen mit Kritzeleien von Sonne, Saturn und Erde auf die Oberfläche geklebt. „Ist das die richtige Reihenfolge?“ Zwillinge sagen nein, es geht um Sonne, Erde, Saturn. Richtig! Aber in der eigentlichen (wiederum schriftlichen) Aufforderung lautet die Frage: „Ist das die richtige Reihenfolge?“ Berücksichtigen Sie die Entfernung von der Sonne und erläutern Sie Ihre Argumentation.“

1701988402 596 Googles beste Gemini Demo war gefaelscht

Bildnachweis: Google

Hat Zwilling es richtig gemacht? Oder hat es sich geirrt und brauchte etwas Hilfe, um eine Antwort zu finden, die man in ein Video einfügen konnte? Hat es die Planeten überhaupt erkannt oder brauchte es auch dort Hilfe?

Diese Beispiele mögen Ihnen trivial erscheinen oder auch nicht. Denn Handgesten so schnell als Spiel zu erkennen, ist für ein multimodales Modell tatsächlich wirklich beeindruckend! Das gilt auch für ein Urteil darüber, ob ein halbfertiges Bild eine Ente ist oder nicht! Allerdings beginne ich jetzt, da dem Blogbeitrag eine Erklärung für die Entensequenz fehlt, auch an der Richtigkeit dieser Interaktion zu zweifeln.

Wenn das Video zu Beginn gesagt hätte: „Dies ist eine stilisierte Darstellung der von unseren Forschern getesteten Interaktionen“, hätte niemand mit der Wimper gezuckt – wir gehen davon aus, dass Videos wie dieses halb sachlich, halb ehrgeizig sind.

Aber das Video heißt „Hands-on with Gemini“, und wenn es heißt, es zeige „unsere liebsten Interaktionen“, heißt das implizit, dass die Interaktionen, die wir sehen, auch so sind diese Interaktionen. Sie waren nicht. Manchmal waren sie stärker involviert; manchmal waren sie völlig anders; Manchmal scheinen sie überhaupt nicht passiert zu sein. Uns wird nicht einmal gesagt, um welches Modell es sich handelt – das Gemini Pro, das die Leute jetzt verwenden können, oder (wahrscheinlicher) die Ultra-Version, die nächstes Jahr auf den Markt kommen soll?

Hätten wir davon ausgehen sollen, dass Google uns nur ein Geschmacksvideo lieferte, als sie es so beschrieben, wie sie es taten? Vielleicht sollten wir dann davon ausgehen alle Die Funktionen in Google AI-Demos werden aus Effektgründen übertrieben dargestellt. Ich schreibe in der Überschrift, dass dieses Video „gefälscht“ sei. Zuerst war ich mir nicht sicher, ob diese harte Sprache gerechtfertigt war. Aber dieses Video spiegelt einfach nicht die Realität wider. Es ist eine Fälschung.

Google sagt, dass das Video „echte Ergebnisse von Gemini zeigt“, was wahr ist, und dass „wir ein paar Änderungen an der Demo vorgenommen haben (wir waren diesbezüglich offen und transparent)“, was nicht der Fall ist. Es ist keine Demo – nicht wirklich – und das Video zeigt ganz andere Interaktionen als die, die zur Information erstellt wurden.

Aktualisieren: In einem Social-Media-Beitrag Nachdem dieser Artikel veröffentlicht wurde, zeigte Oriol Vinyals, Vizepräsident für Forschung bei Google DeepMind, etwas mehr darüber, wie die Wurst hergestellt wurde. „Das Video veranschaulicht, welche Erfahrungen der multimodale Benutzer mit Gemini gemacht hat könnte aussehen. Wir haben es geschafft, Entwickler zu inspirieren.“ (Hervorhebung von mir.) Interessanterweise zeigt es eine Vorabsequenz, die es den Zwillingen ermöglicht, die Planetenfrage zu beantworten, ohne dass die Sonne darauf hinweist (obwohl es den Zwillingen sagt, dass sie ein Experte für Planeten sind und die Reihenfolge der abgebildeten Objekte berücksichtigen sollen).

Vielleicht werde ich mich freuen, wenn nächste Woche das AI Studio mit Gemini Pro zum Experimentieren zur Verfügung steht. Und Gemini könnte sich durchaus zu einer leistungsstarken KI-Plattform entwickeln, die OpenAI und anderen wirklich Konkurrenz macht. Aber was Google hier getan hat, ist, den Brunnen zu vergiften. Wie kann jemand dem Unternehmen vertrauen, wenn es behauptet, sein Modell täte jetzt etwas? Sie hinkten der Konkurrenz bereits hinterher. Möglicherweise hat sich Google gerade selbst ins eigene Bein geschossen.



tch-1-tech