Google hat Gemini Live am Dienstag während seiner Made By Google-Veranstaltung in Mountain View, Kalifornien, vorgestellt. Die Funktion ermöglicht Ihnen eine halbnatürliche gesprochene Konversation (keine getippte Konversation) mit einem KI-Chatbot, der auf Googles neuestem großen Sprachmodell basiert. Tech war vor Ort, um es aus erster Hand zu testen.
Gemini Live ist Googles Antwort auf OpenAIs Advanced Voice Mode, die nahezu identische Funktion von ChatGPT, die sich derzeit in einem begrenzten Alphatest befindet. OpenAI kam Google zuvor und führte die Funktion zuerst vor, Google ist jedoch das erste Unternehmen, das die endgültige Funktion ausrollt.
Meiner Erfahrung nach fühlen sich diese sprachlichen Funktionen mit geringer Latenz viel natürlicher an als das Versenden von Textnachrichten mit ChatGPT oder sogar das Sprechen mit Siri oder Alexa. Ich habe festgestellt, dass Gemini Live in weniger als zwei Sekunden auf Fragen reagierte und bei Unterbrechungen ziemlich schnell reagieren konnte. Gemini Live ist nicht perfekt, aber es ist die beste Möglichkeit, Ihr Telefon freihändig zu verwenden, die ich bisher gesehen habe.
So funktioniert es
Bevor Sie mit Gemini Live sprechen, können Sie aus 10 Stimmen wählen, im Vergleich zu nur drei Stimmen bei OpenAI. Google hat bei der Erstellung jeder Stimme mit Synchronsprechern zusammengearbeitet. Ich habe die Vielfalt dort sehr genossen und fand, dass jede Stimme sehr menschlich klang.
In einem Beispiel bat ein Google-Produktmanager Gemini Live mündlich, familienfreundliche Weingüter in der Nähe von Mountain View mit Außenbereichen und Spielplätzen in der Nähe zu finden, damit Kinder möglicherweise mitkommen könnten. Das ist eine weitaus kompliziertere Aufgabe, als ich Siri – oder ehrlich gesagt Google Search – bitten würde, aber Gemini empfahl erfolgreich einen Ort, der die Kriterien erfüllte: Cooper-Garrod Vineyards in Saratoga.
Allerdings lässt Gemini Live einiges zu wünschen übrig. Es schien einen nahegelegenen Spielplatz namens Henry Elementary School Playground zu halluzinieren, der angeblich „10 Minuten entfernt“ von diesem Weinberg ist. Es gibt andere Spielplätze in der Nähe in Saratoga, aber die nächste Henry Elementary School ist mehr als zwei Autostunden von dort entfernt. Es gibt eine Henry Ford Elementary School in Redwood City, aber sie ist 30 Minuten entfernt.
Google zeigte gerne, wie Benutzer Gemini Live mitten im Satz unterbrechen können und die KI schnell umschaltet. Das Unternehmen sagt, dass Benutzer dadurch das Gespräch steuern können. In der Praxis funktioniert diese Funktion jedoch nicht perfekt. Manchmal sprachen die Projektmanager von Google und Gemini Live durcheinander und die KI schien nicht zu verstehen, was gesagt wurde.
Laut Produktmanager Leland Rechis erlaubt Google Gemini Live insbesondere nicht, andere Stimmen als die zehn verfügbaren zu singen oder zu imitieren. Das Unternehmen tut dies wahrscheinlich, um Konflikte mit dem Urheberrecht zu vermeiden. Darüber hinaus sagte Rechis, dass Google nicht darauf bedacht sei, Gemini Live dazu zu bringen, die emotionale Intonation der Stimme eines Benutzers zu verstehen – etwas, das OpenAI während seiner Demo angepriesen hatte.
Insgesamt scheint die Funktion eine großartige Möglichkeit zu sein, tiefer in ein Thema einzutauchen, und zwar auf natürlichere Weise als mit einer einfachen Google-Suche. Google weist darauf hin, dass Gemini Live ein Schritt auf dem Weg zu Project Astra ist, dem vollständig multimodalen KI-Modell, das das Unternehmen während der Google I/O vorgestellt hat. Derzeit ist Gemini Live nur für Sprachgespräche geeignet, in Zukunft möchte Google jedoch auch Videoverständnis in Echtzeit hinzufügen.