Google hat mithilfe eines Roboters einen neuen Weg gefunden, die Fähigkeiten seines KI-Modells Gemini zu demonstrieren.
Dies war ein Roboter aus Googles Everybody Robots Division, die letztes Jahr stillgelegt wurde. Aber anscheinend gibt es die Roboter immer noch, also hat Google einem von ihnen eine gelbe Fliege umgebunden und ihm mithilfe von Gemini beigebracht, wie er auf Befehle reagiert und sich in den Büroräumen von DeepMind zurechtfindet.
Um dies zu erreichen, verwendet Google Bildsprachenmodelle (VLMs), die nicht nur anhand von Texten, sondern auch anhand von Bildern und Videos trainiert werden. So können sie Fragen beantworten und Aufgaben ausführen, die Wahrnehmung erfordern.
In einem Video beispielsweise bittet ein Google-Mitarbeiter den Roboter, ihn irgendwohin zu bringen, wo er Dinge zeichnen kann. Der Roboter sagt, er brauche eine Minute zum Nachdenken und bringt den Mitarbeiter dann zu einer weißen Tafel. In einem anderen Video wird dem Roboter gesagt, er solle den Anweisungen auf der weißen Tafel folgen, wo eine Karte die Wegbeschreibung zum sogenannten blauen Bereich zeigt. Der Roboter folgt den Anweisungen zu einem Robotik-Testbereich und verkündet dann: „Ich habe die Anweisungen auf der weißen Tafel erfolgreich befolgt.“
Drücken Sie auf „Play“, um den Roboter in Aktion zu sehen, und teilen Sie uns dann in den Kommentaren mit, was Sie davon halten!