Google Gemini: Alles, was Sie über die neue generative KI-Plattform wissen müssen

Google Gemini Alles was Sie ueber die neue generative KI Plattform

Google versucht mit Gemini, einer Flaggschiff-Suite generativer KI-Modelle, Apps und Dienste, für Aufsehen zu sorgen. Doch während Gemini in einigen Aspekten vielversprechend zu sein scheint, bleibt es in anderen zurück – wie unser informeller Testbericht ergab.

Was sind also Zwillinge? Wie können Sie es nutzen? Und wie schlägt es sich im Vergleich zur Konkurrenz?

Um es einfacher zu machen, über die neuesten Gemini-Entwicklungen auf dem Laufenden zu bleiben, haben wir diesen praktischen Leitfaden zusammengestellt, den wir laufend aktualisieren, sobald neue Gemini-Modelle und -Funktionen auf den Markt kommen.

Was sind Zwillinge?

Zwillinge gehören Google lange versprochen, GenAI-Modellfamilie der nächsten Generation, entwickelt von Googles KI-Forschungslabors DeepMind und Google Research. Es gibt ihn in drei Geschmacksrichtungen:

  • Zwillinge Ultradas Flaggschiff-Gemini-Modell.
  • Zwillinge Proein „leichtes“ Gemini-Modell.
  • Zwillinge Nanoein kleineres „destilliertes“ Modell, das auf Mobilgeräten wie dem Pixel 8 Pro läuft.

Alle Gemini-Modelle wurden darauf trainiert, „nativ multimodal“ zu sein – mit anderen Worten, sie sind in der Lage, mit mehr als nur Wörtern zu arbeiten und sie zu verwenden. Sie wurden anhand einer Vielzahl von Audio-, Bild- und Videodateien, einer Vielzahl von Codebasen und Texten in verschiedenen Sprachen vorab trainiert und verfeinert.

Dies unterscheidet Gemini von Modellen wie Googles eigenem LaMDA, das ausschließlich auf Textdaten trainiert wurde. LaMDA kann nichts anderes als Text verstehen oder generieren (z. B. Aufsätze, E-Mail-Entwürfe), aber das ist bei Gemini-Modellen nicht der Fall.

Was ist der Unterschied zwischen den Gemini-Apps und den Gemini-Modellen?

Bildnachweis: Google

Google hat einmal mehr bewiesen, dass es ihm an einem Gespür für Branding mangelt, und hat nicht von Anfang an deutlich gemacht, dass Gemini von den Gemini-Apps im Web und auf Mobilgeräten (ehemals Bard) getrennt und verschieden ist. Die Gemini-Apps sind lediglich eine Schnittstelle, über die auf bestimmte Gemini-Modelle zugegriffen werden kann – stellen Sie sich das als Client für Googles GenAI vor.

Übrigens sind die Gemini-Apps und -Modelle auch völlig unabhängig von Imagen 2, dem Text-zu-Bild-Modell von Google, das in einigen Entwicklungstools und -umgebungen des Unternehmens verfügbar ist. Machen Sie sich keine Sorgen – Sie sind nicht der Einzige, der davon verwirrt ist.

Was können Zwillinge tun?

Da die Gemini-Modelle multimodal sind, können sie theoretisch eine Reihe multimodaler Aufgaben ausführen, von der Transkription von Sprache über das Untertiteln von Bildern und Videos bis hin zur Erstellung von Kunstwerken. Nur wenige dieser Funktionen haben bisher das Produktstadium erreicht (mehr dazu später), aber Google verspricht sie alle – und noch mehr – irgendwann in nicht allzu ferner Zukunft.

Natürlich ist es etwas schwierig, das Unternehmen beim Wort zu nehmen.

Google hat bei der ursprünglichen Einführung von Bard deutlich zu wenig geliefert. Und vor kurzem sorgte ein Video für Aufsehen, das angeblich die Fähigkeiten von Gemini demonstrieren sollte, sich aber als stark manipuliert und mehr oder weniger ehrgeizig herausstellte.

Unter der Annahme, dass Google mit seinen Behauptungen mehr oder weniger wahr ist, können die verschiedenen Gemini-Stufen Folgendes tun, sobald sie ihr volles Potenzial erreicht haben:

Zwillinge Ultra

Google sagt, dass Gemini Ultra dank seiner Multimodalität zum Beispiel bei Physik-Hausaufgaben, der schrittweisen Lösung von Problemen auf einem Arbeitsblatt und dem Hinweis auf mögliche Fehler in bereits ausgefüllten Antworten eingesetzt werden kann.

Gemini Ultra kann laut Google auch auf Aufgaben wie die Identifizierung wissenschaftlicher Arbeiten angewendet werden, die für ein bestimmtes Problem relevant sind – das Extrahieren von Informationen aus diesen Arbeiten und das „Aktualisieren“ eines Diagramms daraus durch Generieren der Formeln, die erforderlich sind, um das Diagramm mit neueren Daten neu zu erstellen .

Gemini Ultra unterstützt die Bilderzeugung technisch, wie bereits erwähnt. Diese Funktion hat jedoch noch keinen Eingang in die Produktversion des Modells gefunden – vielleicht, weil der Mechanismus komplexer ist als die Art und Weise, wie Apps wie ChatGPT Bilder generieren. Anstatt Eingabeaufforderungen an einen Bildgenerator weiterzuleiten (wie DALL-E 3 im Fall von ChatGPT), gibt Gemini Bilder „nativ“ aus, ohne einen Zwischenschritt.

Gemini Ultra ist als API über Vertex AI, Googles vollständig verwaltete KI-Entwicklerplattform, und AI Studio, Googles webbasiertes Tool für App- und Plattformentwickler, verfügbar. Es betreibt auch die Gemini-Apps – allerdings nicht kostenlos. Für den Zugriff auf Gemini Ultra über das, was Google Gemini Advanced nennt, ist ein Abonnement des Google One AI Premium-Plans zum Preis von 20 US-Dollar pro Monat erforderlich.

Der AI Premium-Plan verbindet Gemini auch mit Ihrem umfassenderen Google Workspace-Konto – denken Sie an E-Mails in Gmail, Dokumente in Docs, Präsentationen in Tabellen und Google Meet-Aufzeichnungen. Dies ist beispielsweise nützlich, um E-Mails zusammenzufassen oder Gemini während eines Videoanrufs Notizen machen zu lassen.

Zwillinge Pro

Laut Google stellt Gemini Pro eine Verbesserung gegenüber LaMDA hinsichtlich seiner Argumentations-, Planungs- und Verständnisfähigkeiten dar.

Ein Unabhängiger Studie von Carnegie Mellon und BerriAI-Forschern fanden heraus, dass Gemini Pro in der Tat besser als GPT-3.5 von OpenAI im Umgang mit längeren und komplexeren Argumentationsketten ist. Die Studie ergab aber auch, dass Gemini Pro wie alle großen Sprachmodelle vor allem mit mathematischen Problemen mit mehreren Ziffern zu kämpfen hat, und Benutzer haben viele Beispiele für schlechtes Denken und Fehler gefunden.

Google hat jedoch Verbesserungen versprochen – und die ersten kamen in Form von Gemini 1.5 Pro.

Gemini 1.5 Pro (derzeit in der Vorschau) wurde als Ersatz konzipiert und weist im Vergleich zum Vorgänger einige Verbesserungen auf, vor allem aber die Datenmenge, die es verarbeiten kann. Gemini 1.5 Pro kann (in der eingeschränkten privaten Vorschau) etwa 700.000 Wörter oder etwa 30.000 Zeilen Code aufnehmen – das 35-fache der Menge, die Gemini 1.0 Pro verarbeiten kann. Und da das Modell multimodal ist, ist es nicht auf Text beschränkt. Gemini 1.5 Pro kann bis zu 11 Stunden Audio oder eine Stunde Video in verschiedenen Sprachen analysieren, wenn auch langsam (z. B. dauert die Verarbeitung einer Szene in einem einstündigen Video 30 Sekunden bis eine Minute).

Gemini Pro ist auch über die API in Vertex AI verfügbar, um Text als Eingabe zu akzeptieren und Text als Ausgabe zu generieren. Ein zusätzlicher Endpunkt, Gemini Pro Vision, kann Text verarbeiten Und Bilder – einschließlich Fotos und Videos – und Ausgabetext nach dem Vorbild des GPT-4 mit Vision-Modells von OpenAI.

Zwillinge

Verwendung von Gemini Pro in Vertex AI. Bildnachweis: Zwillinge

Innerhalb von Vertex AI können Entwickler Gemini Pro mithilfe eines Feinabstimmungs- oder „Grounding“-Prozesses an bestimmte Kontexte und Anwendungsfälle anpassen. Gemini Pro kann auch mit externen APIs von Drittanbietern verbunden werden, um bestimmte Aktionen auszuführen.

In AI Studio gibt es Workflows zum Erstellen strukturierter Chat-Eingabeaufforderungen mit Gemini Pro. Entwickler haben Zugriff auf die Endpunkte Gemini Pro und Gemini Pro Vision und können die Modelltemperatur anpassen, um den kreativen Bereich der Ausgabe zu steuern, Beispiele für Ton- und Stilanweisungen bereitstellen – und auch die Sicherheitseinstellungen optimieren.

Zwillinge Nano

Gemini Nano ist eine viel kleinere Version der Modelle Gemini Pro und Ultra und effizient genug, um direkt auf (einigen) Telefonen ausgeführt zu werden, anstatt die Aufgabe irgendwo an einen Server zu senden. Bisher unterstützt es zwei Funktionen des Pixel 8 Pro: Zusammenfassen im Recorder und Smart Reply in Gboard.

Die Recorder-App, mit der Benutzer per Knopfdruck Audio aufnehmen und transkribieren können, enthält eine von Gemini bereitgestellte Zusammenfassung Ihrer aufgezeichneten Gespräche, Interviews, Präsentationen und anderen Ausschnitte. Benutzer erhalten diese Zusammenfassungen auch dann, wenn kein Signal oder keine WLAN-Verbindung verfügbar ist – und aus Datenschutzgründen verlassen dabei keine Daten ihr Telefon.

Gemini Nano ist auch in Gboard, der Tastatur-App von Google, enthalten Entwicklervorschau. Dort wird eine Funktion namens „Smart Reply“ aktiviert, die dabei hilft, das nächste Wort vorzuschlagen, das Sie sagen möchten, wenn Sie ein Gespräch in einer Messaging-App führen. Die Funktion funktioniert zunächst nur mit WhatsApp, wird aber 2024 in weiteren Apps verfügbar sein, sagt Google.

Ist Gemini besser als GPT-4 von OpenAI?

Google hat mehrere Male angepriesen Geminis Überlegenheit bei Benchmarks und behauptet, dass Gemini Ultra die aktuellen Ergebnisse auf dem neuesten Stand der Technik bei „30 der 32 weit verbreiteten akademischen Benchmarks, die in der Forschung und Entwicklung großer Sprachmodelle verwendet werden“ übertrifft. Das Unternehmen gibt an, dass Gemini Pro inzwischen bei Aufgaben wie dem Zusammenfassen von Inhalten, Brainstorming und Schreiben leistungsfähiger ist als GPT-3.5.

Abgesehen von der Frage, ob Benchmarks wirklich auf ein besseres Modell hinweisen, scheinen die von Google erzielten Ergebnisse nur unwesentlich besser zu sein als die entsprechenden Modelle von OpenAI. Und – wie bereits erwähnt – einige der ersten Eindrücke waren nicht besonders gut, bei den Benutzern und Akademiker weist darauf hin, dass Gemini Pro dazu neigt, grundlegende Fakten falsch zu verstehen, Schwierigkeiten mit Übersetzungen hat und schlechte Codierungsvorschläge macht.

Wie viel wird Gemini kosten?

Gemini Pro kann kostenlos in den Gemini-Apps und derzeit auch in AI Studio und Vertex AI verwendet werden.

Sobald Gemini Pro jedoch die Vorschau in Vertex verlässt, kostet das Modell 0,0025 $ pro Zeichen, während die Ausgabe 0,00005 $ pro Zeichen kostet. Vertex-Kunden zahlen pro 1.000 Zeichen (ca. 140 bis 250 Wörter) und bei Modellen wie Gemini Pro Vision pro Bild (0,0025 $).

Nehmen wir an, ein Artikel mit 500 Wörtern enthält 2.000 Zeichen. Die Zusammenfassung dieses Artikels mit Gemini Pro würde 5 $ kosten. In der Zwischenzeit würde die Erstellung eines Artikels ähnlicher Länge 0,1 $ kosten.

Die Ultra-Preise müssen noch bekannt gegeben werden.

Wo kann man Gemini ausprobieren?

Zwillinge Pro

Der einfachste Ort, um Gemini Pro zu erleben, sind die Gemini-Apps. Pro und Ultra beantworten Anfragen in verschiedenen Sprachen.

Gemini Pro und Ultra sind auch in der Vorschau in Vertex AI über eine API zugänglich. Die Nutzung der API ist vorerst „innerhalb der Grenzen“ kostenlos und unterstützt bestimmte Regionen, darunter Europa, sowie Funktionen wie Chat-Funktionalität und Filterung.

An anderer Stelle sind Gemini Pro und Ultra in AI Studio zu finden. Mit dem Dienst können Entwickler Eingabeaufforderungen und Gemini-basierte Chatbots iterieren und dann API-Schlüssel erhalten, um sie in ihren Apps zu verwenden – oder den Code in eine IDE mit umfassenderem Funktionsumfang exportieren.

Duet AI für Entwickler, Googles Suite KI-gestützter Hilfstools zur Codevervollständigung und -generierung, verwendet jetzt Gemini-Modelle. Und Google hat Gemini-Modelle in seine Entwicklungstools für Chrome und die mobile Entwicklungsplattform Firebase integriert.

Zwillinge Nano

Gemini Nano ist auf dem Pixel 8 Pro verfügbar – und wird in Zukunft auch auf anderen Geräten verfügbar sein. Entwickler, die daran interessiert sind, das Modell in ihre Android-Apps zu integrieren, können dies tun Melden Sie sich an für einen kleinen Vorgeschmack.

tch-1-tech