Google Fotos erhält eine KI-Infusion mit der Einführung einer experimentellen Funktion, Ask Photos, die auf dem Gemini-KI-Modell von Google basiert. Die neue Ergänzung, die später in diesem Sommer eingeführt wird, ermöglicht es Nutzern, ihre Google Fotos-Sammlung mithilfe von Abfragen in natürlicher Sprache zu durchsuchen, die das Verständnis einer KI für den Inhalt ihrer Fotos und andere Metadaten nutzen.
Bevor Benutzer in ihren Fotos nach bestimmten Personen, Orten oder Dingen suchen konnten, wird das KI-Upgrade dank der Verarbeitung natürlicher Sprache das Auffinden der richtigen Inhalte intuitiver und weniger manuell machen, kündigte Google am Dienstag auf seiner jährlichen Google I-Messe an /O 2024 Entwicklerkonferenz.
Anstatt beispielsweise nach etwas Bestimmtem in Ihren Fotos zu suchen, wie zum Beispiel „Eiffelturm“, können Sie die KI jetzt bitten, etwas viel Komplexeres zu tun, wie zum Beispiel das „beste Foto aus jedem der von mir besuchten Nationalparks“ zu finden. Die KI verwendet eine Vielzahl von Signalen, um zu bestimmen, was das Foto zum „besten“ eines bestimmten Sets macht, darunter Faktoren wie Beleuchtung, Unschärfe, fehlende Hintergrundverzerrung und mehr. Dies kann dann mit dem Verständnis der Geolokalisierung einer Reihe von Fotos oder Daten kombiniert werden, um nur die Bilder abzurufen, die in US-Nationalparks aufgenommen wurden.
Diese Funktion baut auf der kürzlichen Einführung von Fotostapeln in Google Fotos auf, die nahezu doppelte Fotos gruppieren und mithilfe von KI die besten Fotos in der Gruppe hervorheben. Wie bei Photo Stacks besteht das Ziel darin, Menschen dabei zu helfen, die gewünschten Fotos zu finden, während ihre digitalen Sammlungen wachsen. Laut Google werden täglich mehr als 6 Milliarden Bilder auf Google Fotos hochgeladen, um Ihnen eine Vorstellung von der Größenordnung zu geben.
Darüber hinaus können Benutzer mit der Funktion „Fotos fragen“ Fragen stellen, um weitere hilfreiche Antworten zu erhalten. Benutzer fragen nicht nur nach den besten Fotos aus einem Urlaub oder einer anderen Gruppe, sondern können auch Fragen stellen, die ein fast menschenähnliches Verständnis dafür erfordern, was auf ihren Fotos zu sehen ist.
Ein Elternteil könnte beispielsweise Google Fotos fragen, welche Themen er für die letzten vier Geburtstagsfeiern seines Kindes verwendet hat, und es könnte eine einfache Antwort zusammen mit Fotos und Videos zu den Themen Meerjungfrau, Prinzessin und Einhorn zurückgeben, die zuvor verwendet wurden und wann.
Diese Art von Abfrage ist möglich, weil Google Fotos nicht nur die von Ihnen eingegebenen Schlüsselwörter versteht, sondern auch die Konzepte der natürlichen Sprache, wie zum Beispiel „Motto-Geburtstagsparty“. Es kann auch die multimodalen Fähigkeiten der KI nutzen, um zu erkennen, ob ein Foto Text enthält, der für die Anfrage relevant sein könnte.
Ein weiteres Beispiel, das CEO Sundar Pichai vor der heutigen Google I/O-Entwicklerkonferenz der Presse vorführte, zeigte einen Benutzer, der die KI aufforderte, ihm den Schwimmfortschritt seines Kindes zu zeigen. Die KI hat Highlights von Fotos und Videos des schwimmenden Kindes im Laufe der Zeit zusammengestellt.
Eine weitere neue Funktion nutzt die Suche, um Antworten aus dem Text in den Fotos zu finden. Auf diese Weise könnten Sie ein Foto von etwas machen, an das Sie sich später erinnern möchten – etwa Ihr Nummernschild oder Ihre Reisepassnummer – und dann die KI bitten, diese Informationen bei Bedarf abzurufen.
Wenn die KI jemals einen Fehler macht und Sie ihn korrigieren – indem Sie beispielsweise ein Foto markieren, das nicht von einer Geburtstagsfeier stammt oder das Sie aus Ihrem Urlaub nicht hervorheben möchten – merkt sie sich diese Reaktion und verbessert sich mit der Zeit. Das bedeutet auch, dass die KI umso personalisierter für Sie wird, je länger Sie mit ihr interagieren.
Wenn Sie Fotos finden, die Sie teilen möchten, kann die KI dabei helfen, eine Bildunterschrift zu erstellen, die den Inhalt der Fotos zusammenfasst. Dies ist vorerst eine grundlegende Zusammenfassung, die jedoch nicht die Möglichkeit bietet, zwischen verschiedenen Stilen auszuwählen. (Aber wenn man bedenkt, dass unter der Haube Gemini verwendet wird, könnte eine klug geschriebene Eingabeaufforderung funktionieren, um einen bestimmten Stil zurückzugeben, wenn Sie es versuchen.)
Google sagt, dass es Schutzmaßnahmen geben wird, um in bestimmten Fällen nicht zu reagieren (vielleicht nicht die KI nach den „besten Aktfotos“ zu fragen?). Beim Training des Modells wurden auch keine potenziell anstößigen Inhalte einbezogen. Da es sich bei der Einführung der Funktion jedoch um ein Experiment handelt, müssen im Laufe der Zeit möglicherweise zusätzliche Steuerelemente hinzugefügt werden, da Google darauf reagiert, wie die Nutzer sie nutzen.
Die Funktion „Fotos fragen“ wird zunächst in den USA auf Englisch unterstützt, bevor sie in weiteren Märkten eingeführt wird. Außerdem wird es vorerst nur eine textbasierte Funktion sein, ähnlich dem Stellen von Fragen an einen KI-Chatbot. Im Laufe der Zeit könnte es jedoch besser in Gemini integriert werden, das auf dem Gerät ausgeführt wird, wie z. B. auf Android.
Das Unternehmen gibt an, dass die persönlichen Daten der Nutzer in Google Fotos nicht für Anzeigen verwendet werden. Menschen überprüfen in Ask Photos auch keine KI-Gespräche und persönlichen Daten, außer „in seltenen Fällen, um Missbrauch oder Schaden zu bekämpfen“, sagt Google. Die persönlichen Daten von Personen in Google Fotos werden auch nicht zum Trainieren anderer generativer KI-Produkte wie Gemini verwendet.