Google Gemini: Alles, was Sie über die neue generative KI-Plattform wissen müssen

Google Gemini Alles was Sie ueber die neue generative KI Plattform

Google versucht mit Gemini, einer neuen generativen KI-Plattform, die kürzlich ihr großes Debüt feierte, für Aufsehen zu sorgen. Doch während Zwillinge in einigen Aspekten vielversprechend zu sein scheinen, sind sie in anderen Bereichen unzureichend. Was sind also Zwillinge? Wie können Sie es verwenden? Und wie schlägt es sich im Vergleich zur Konkurrenz?

Um es einfacher zu machen, über die neuesten Gemini-Entwicklungen auf dem Laufenden zu bleiben, haben wir diesen praktischen Leitfaden zusammengestellt, den wir laufend aktualisieren, sobald neue Gemini-Modelle und -Funktionen auf den Markt kommen.

Was sind Zwillinge?

Zwillinge gehören Google lange versprochen, generative KI-Modellfamilie der nächsten Generation, entwickelt von Googles KI-Forschungslabors DeepMind und Google Research. Es gibt ihn in drei Geschmacksrichtungen:

  • Zwillinge Ultradas Flaggschiff-Gemini-Modell
  • Zwillinge Proein „leichtes“ Gemini-Modell
  • Zwillinge Nanoein kleineres „destilliertes“ Modell, das auf Mobilgeräten wie dem Pixel 8 Pro läuft

Alle Gemini-Modelle wurden darauf trainiert, „nativ multimodal“ zu sein – mit anderen Worten, sie sind in der Lage, mit mehr als nur Text zu arbeiten und es zu verwenden. Sie wurden vorab auf eine Vielzahl von Audio-, Bild- und Videodateien, einen großen Satz an Codebasen und Texte in verschiedenen Sprachen vorbereitet und verfeinert.

Das unterscheidet Gemini von Modellen wie Googles eigenem großen Sprachmodell LaMDA, das nur auf Textdaten trainiert wurde. LaMDA kann nichts anderes als Text verstehen oder generieren (z. B. Aufsätze, E-Mail-Entwürfe usw.) – aber das ist bei Gemini-Modellen nicht der Fall. Ihre Fähigkeit, Bilder, Audio und andere Modalitäten zu verstehen, ist noch begrenzt, aber besser als nichts.

Was ist der Unterschied zwischen Barde und Zwillinge?

Bildnachweis: Google

Google hat einmal mehr bewiesen, dass es ihm an einem Gespür für Markenbildung mangelt, und machte nicht von Anfang an klar, dass Gemini von Bard getrennt und verschieden ist. Bard ist lediglich eine Schnittstelle, über die auf bestimmte Gemini-Modelle zugegriffen werden kann – stellen Sie es sich als App oder Client für Gemini und andere KI-Modelle der Generation vor. Gemini hingegen ist eine Modellfamilie – keine App oder Frontend. Es gibt kein eigenständiges Gemini-Erlebnis und wird es wahrscheinlich auch nie geben. Wenn man die Produkte von OpenAI vergleicht, entspricht Bard ChatGPT, der beliebten Konversations-KI-App von OpenAI, und Gemini entspricht dem Sprachmodell, das sie antreibt, was im Fall von ChatGPT GPT-3.5 oder 4 ist.

Gemini ist übrigens auch völlig unabhängig von Imagen-2, einem Text-zu-Bild-Modell, das möglicherweise in die gesamte KI-Strategie des Unternehmens passt oder auch nicht. Machen Sie sich keine Sorgen, Sie sind nicht der Einzige, den das verwirrt!

Was können Zwillinge tun?

Da die Gemini-Modelle multimodal sind, können sie theoretisch eine Reihe von Aufgaben erfüllen, von der Transkription von Sprache über das Untertiteln von Bildern und Videos bis hin zur Erstellung von Kunstwerken. Nur wenige dieser Funktionen haben bisher das Produktstadium erreicht (mehr dazu später), aber Google verspricht sie alle – und noch mehr – irgendwann in nicht allzu ferner Zukunft.

Natürlich ist es etwas schwierig, das Unternehmen beim Wort zu nehmen.

Google hat mit der ursprünglichen Einführung von Bard deutlich zu wenig geliefert. Und vor kurzem sorgte ein Video für Aufsehen, das angeblich die Fähigkeiten von Gemini demonstrieren sollte, sich aber als stark manipuliert und mehr oder weniger ehrgeizig herausstellte. Zwillinge Istzur Ehre des Technologieriesen, ist heute in irgendeiner Form verfügbar – aber in einer eher begrenzten Form.

Unter der Annahme, dass Google mit seinen Behauptungen mehr oder weniger wahr ist, können die verschiedenen Stufen der Gemini-Modelle nach ihrer Veröffentlichung Folgendes tun:

Zwillinge Ultra

Bisher haben nur wenige Menschen Gemini Ultra, das „Grundmodell“, auf dem die anderen basieren, in die Hände bekommen – nur eine „ausgewählte Gruppe“ von Kunden aus einer Handvoll Google-Apps und -Diensten. Das wird sich erst später in diesem Jahr ändern, wenn Googles größtes Modell auf breiterer Basis eingeführt wird. Die meisten Informationen über Ultra stammen aus Produktdemos von Google und sollten daher mit Vorsicht genossen werden.

Google gibt an, dass Gemini Ultra dazu genutzt werden kann, beispielsweise bei Physik-Hausaufgaben zu helfen, Probleme Schritt für Schritt auf einem Arbeitsblatt zu lösen und auf mögliche Fehler in bereits ausgefüllten Antworten hinzuweisen. Laut Google lässt sich Gemini Ultra auch auf Aufgaben wie die Identifizierung wissenschaftlicher Arbeiten anwenden, die für ein bestimmtes Problem relevant sind – das Extrahieren von Informationen aus diesen Arbeiten und das „Aktualisieren“ eines Diagramms daraus durch Generieren der Formeln, die zur Neuerstellung des Diagramms mit neueren Daten erforderlich sind.

Gemini Ultra unterstützt die Bilderzeugung technisch, wie bereits erwähnt. Laut Google wird diese Funktion jedoch beim Start nicht in die Produktversion des Modells einfließen – vielleicht, weil der Mechanismus komplexer ist als die Art und Weise, wie Apps wie ChatGPT Bilder generieren. Anstatt Eingabeaufforderungen an einen Bildgenerator weiterzuleiten (wie DALL-E 3 im Fall von ChatGPT), gibt Gemini Bilder „nativ“ ohne Zwischenschritt aus.

Zwillinge Pro

Im Gegensatz zu Gemini Ultra ist Gemini Pro heute öffentlich verfügbar. Aber verwirrenderweise hängen seine Fähigkeiten davon ab, wo es verwendet wird.

Google sagt, dass das Modell in Bard, wo Gemini Pro erstmals in reiner Textform eingeführt wurde, eine Verbesserung gegenüber LaMDA in seinen Argumentations-, Planungs- und Verständnisfähigkeiten darstellt. Ein Unabhängiger Studie von Carnegie Mellon und BerriAI-Forschern fanden heraus, dass Gemini Pro in der Tat besser als GPT-3.5 von OpenAI im Umgang mit längeren und komplexeren Argumentationsketten ist.

Die Studie ergab aber auch, dass Gemini Pro wie alle großen Sprachmodelle vor allem mit mathematischen Problemen mit mehreren Ziffern zu kämpfen hat, und Benutzer haben viele Beispiele für schlechtes Denken und Fehler gefunden. Es wurden viele sachliche Fehler bei einfachen Fragen gemacht, beispielsweise wer die letzten Oscars gewonnen hat. Google hat Verbesserungen versprochen, es ist jedoch nicht klar, wann diese eintreffen werden.

Gemini Pro ist auch über die API in Vertex AI verfügbar, der vollständig verwalteten KI-Entwicklerplattform von Google, die Text als Eingabe akzeptiert und Text als Ausgabe generiert. Ein zusätzlicher Endpunkt, Gemini Pro Vision, kann Text verarbeiten Und Bilder – einschließlich Fotos und Videos – und Ausgabetext nach dem Vorbild des GPT-4 mit Vision-Modells von OpenAI.

Zwillinge

Verwendung von Gemini Pro in Vertex AI.

Innerhalb von Vertex AI können Entwickler Gemini Pro mithilfe eines Feinabstimmungs- oder „Grounding“-Prozesses an bestimmte Kontexte und Anwendungsfälle anpassen. Gemini Pro kann auch mit externen APIs von Drittanbietern verbunden werden, um bestimmte Aktionen auszuführen.

Irgendwann „Anfang 2024“ werden Vertex-Kunden in der Lage sein, Gemini Pro zu nutzen, um maßgeschneiderte Konversations-Sprach- und Chat-Agenten (d. h. Chatbots) zu betreiben. Gemini Pro wird auch eine Option für die Förderung von Suchzusammenfassungs-, Empfehlungs- und Antwortgenerierungsfunktionen in Vertex AI sein und auf modalitätsübergreifende Dokumente (z. B. PDFs, Bilder) aus verschiedenen Quellen (z. B. OneDrive, Salesforce) zurückgreifen, um Anfragen zu beantworten.

Zwillinge

Bildnachweis: Zwillinge

In AI Studio, dem webbasierten Tool von Google für App- und Plattformentwickler, gibt es Workflows zum Erstellen von Freiform-, strukturierten und Chat-Eingabeaufforderungen mit Gemini Pro. Entwickler haben Zugriff auf die Endpunkte Gemini Pro und Gemini Pro Vision und können die Modelltemperatur anpassen, um den kreativen Bereich der Ausgabe zu steuern, Beispiele für Ton- und Stilanweisungen bereitstellen – und auch die Sicherheitseinstellungen optimieren.

Zwillinge Nano

Gemini Nano ist eine viel kleinere Version der Modelle Gemini Pro und Ultra und effizient genug, um direkt auf (einigen) Telefonen ausgeführt zu werden, anstatt die Aufgabe irgendwo an einen Server zu senden. Bisher unterstützt es zwei Funktionen des Pixel 8 Pro: Zusammenfassen im Recorder und Smart Reply in Gboard.

Die Recorder-App, mit der Benutzer per Knopfdruck Audio aufnehmen und transkribieren können, enthält eine von Gemini bereitgestellte Zusammenfassung Ihrer aufgezeichneten Gespräche, Interviews, Präsentationen und anderen Ausschnitte. Benutzer erhalten diese Zusammenfassungen auch dann, wenn kein Signal oder keine WLAN-Verbindung verfügbar ist – und aus Datenschutzgründen verlassen dabei keine Daten ihr Telefon.

Gemini Nano ist auch in Gboard, der Tastatur-App von Google, enthalten Entwicklervorschau. Dort wird eine Funktion namens „Smart Reply“ aktiviert, die dabei hilft, das nächste Wort vorzuschlagen, das Sie sagen möchten, wenn Sie ein Gespräch in einer Messaging-App führen. Die Funktion funktioniert zunächst nur mit WhatsApp, wird aber 2024 in weiteren Apps verfügbar sein, sagt Google.

Ist Gemini besser als GPT-4 von OpenAI?

Es gibt keine Möglichkeit zu wissen, wie es der Familie Gemini geht Wirklich Bis Google Ultra später in diesem Jahr herausbringt, stapelt sich das, aber das Unternehmen hat Verbesserungen gegenüber dem Stand der Technik behauptet – bei dem es sich normalerweise um GPT-4 von OpenAI handelt.

Google hat mehrfach die Überlegenheit von Gemini bei Benchmarks angepriesen und behauptet, dass Gemini Ultra die aktuellen Ergebnisse auf dem neuesten Stand der Technik bei „30 der 32 weit verbreiteten akademischen Benchmarks, die in der Forschung und Entwicklung großer Sprachmodelle verwendet werden“ übertrifft. Das Unternehmen gibt an, dass Gemini Pro inzwischen bei Aufgaben wie dem Zusammenfassen von Inhalten, Brainstorming und Schreiben leistungsfähiger ist als GPT-3.5.

Abgesehen von der Frage, ob Benchmarks wirklich auf ein besseres Modell hinweisen, scheinen die von Google erzielten Ergebnisse nur unwesentlich besser zu sein als die entsprechenden Modelle von OpenAI. Und – wie bereits erwähnt – einige der ersten Eindrücke waren nicht besonders gut, bei den Benutzern und Akademiker weist darauf hin, dass Gemini Pro dazu neigt, grundlegende Fakten falsch zu verstehen, Schwierigkeiten mit Übersetzungen hat und schlechte Codierungsvorschläge macht.

Wie viel wird Gemini kosten?

Gemini Pro kann kostenlos in Bard und derzeit auch in AI Studio und Vertex AI verwendet werden.

Sobald Gemini Pro jedoch die Vorschau in Vertex verlässt, kostet das Modell 0,0025 $ pro Zeichen, während die Ausgabe 0,00005 $ pro Zeichen kostet. Vertex-Kunden zahlen pro 1.000 Zeichen (ca. 140 bis 250 Wörter) und bei Modellen wie Gemini Pro Vision pro Bild (0,0025 $).

Nehmen wir an, ein Artikel mit 500 Wörtern enthält 2.000 Zeichen. Die Zusammenfassung dieses Artikels mit Gemini Pro würde 5 $ kosten. In der Zwischenzeit, Erstellen Ein Artikel ähnlicher Länge würde 0,1 $ kosten.

Wo kann man Gemini ausprobieren?

Zwillinge Pro

Der einfachste Ort, um Gemini Pro zu erleben, ist Bard. Eine optimierte Version von Pro beantwortet derzeit in den USA textbasierte Bard-Anfragen auf Englisch. Weitere Sprachen und unterstützte Länder werden in Kürze hinzukommen.

Gemini Pro ist auch in der Vorschau in Vertex AI über eine API zugänglich. Die Nutzung der API ist vorerst „innerhalb der Grenzen“ kostenlos und unterstützt 38 Sprachen und Regionen, einschließlich Europa, sowie Funktionen wie Chat-Funktionalität und Filterung.

An anderer Stelle ist Gemini Pro in AI Studio zu finden. Mit dem Dienst können Entwickler Eingabeaufforderungen und Gemini-basierte Chatbots iterieren und dann API-Schlüssel erhalten, um sie in ihren Apps zu verwenden – oder den Code in eine IDE mit umfassenderem Funktionsumfang exportieren.

Duet AI für Entwickler, Googles Suite KI-gestützter Hilfstools zur Codevervollständigung und -generierung, wird in den kommenden Wochen mit der Verwendung eines Gemini-Modells beginnen. Und Google plant, ungefähr zur gleichen Zeit, Anfang 2024, Gemini-Modelle in die Entwicklungstools für Chrome und seine mobile Entwicklungsplattform Firebase einzuführen.

Zwillinge Nano

Gemini Nano ist auf dem Pixel 8 Pro verfügbar – und wird in Zukunft auch auf anderen Geräten verfügbar sein. Entwickler, die daran interessiert sind, das Modell in ihre Android-Apps zu integrieren, können dies tun Melden Sie sich an für einen kleinen Vorgeschmack.

Wir werden diesen Beitrag über die neuesten Entwicklungen auf dem Laufenden halten.

tch-1-tech