Apple schließt sich endlich den anderen Tech-Majors an Google Und Microsoft bei der Einführung von KI-Tools. Die Forscher des Unternehmens haben ein neues Modell veröffentlicht, das es Benutzern ermöglicht, ein Bild zu bearbeiten, indem sie eine Texteingabe in Klartext eingeben – genau wie die Art und Weise, wie Befehle zum Generieren eines Fotos gegeben werden.
Dem Forschungspapier zufolge kann das MGIE-Modell von Apple Bilder zuschneiden, in der Größe ändern, umdrehen und ihnen über Texteingaben Filter hinzufügen. Das Unternehmen arbeitete mit der University of California, Santa Barbara, zusammen, um dieses Modell zu entwickeln.
Wie funktioniert das Modell?
MGIE, was für steht MLLM-gesteuerte Bildbearbeitung, kann angewendet werden, um einem einfachen Foto Dramatik zu verleihen. Laut Forschungsbericht „anweisungsbasiert Bildbearbeitung verbessert die Steuerbarkeit und Flexibilität der Bildmanipulation über natürliche Befehle ohne aufwändige Beschreibungen oder regionale Masken.“
Die Forscher sagten, dass, da menschliche Anweisungen manchmal zu kurz sind, als dass aktuelle Methoden sie erfassen und befolgen könnten, Apples multimodaler Large-Language-Model-Ansatz (MLLM) vielversprechende Fähigkeiten beim modalübergreifenden Verständnis und bei der Generierung visuell bewusster Antworten zeigt.
„MGIE lernt, ausdrucksstarke Anweisungen abzuleiten und gibt explizite Anleitungen. Das Bearbeitungsmodell erfasst gemeinsam diese visuelle Vorstellungskraft und führt Manipulationen durch End-to-End-Training durch“, heißt es in dem Papier.
Die Forscher teilten einige Beispiele. In einem von ihnen machten sie zufällig ein Foto von einem Mann, der von einer Frau mit einem Fotobombardement bombardiert wurde. Eine einfache Texteingabe „Frau im Hintergrund entfernen“ entfernt die Person, um das Bild nutzbar zu machen. Ebenso kann ein unterbelichtetes Foto durch eine einfache Texteingabe aufgehellt und mit mehr Kontrast versehen werden, z. B. „Fügen Sie mehr Kontrast hinzu, um mehr Licht zu simulieren.“
Wie unterscheidet sich das von den Modellen von Google und Microsoft?
Derzeit ermöglichen die von Google und Microsoft angebotenen verbraucherorientierten Modelle oder Tools Benutzern nur die Generierung von KI-Fotos mit Texteingaben. Was die Bearbeitung betrifft, hat Microsoft kürzlich Designer für Copilot angekündigt, der auf DALL-E 3 basiert. Dieses Tool kann Benutzern beim Bearbeiten von KI-generierten Bildern helfen. Benutzer können ein Objekt hervorheben, um es hervorzuheben, Hintergrundunschärfe hinzuzufügen und den Kunststil zu ändern.
Die Microsoft-Bildbearbeitungsfunktionen sind für Benutzer in Indien, Australien, Neuseeland, den USA und Großbritannien auf Englisch verfügbar.
Dem Forschungspapier zufolge kann das MGIE-Modell von Apple Bilder zuschneiden, in der Größe ändern, umdrehen und ihnen über Texteingaben Filter hinzufügen. Das Unternehmen arbeitete mit der University of California, Santa Barbara, zusammen, um dieses Modell zu entwickeln.
Wie funktioniert das Modell?
MGIE, was für steht MLLM-gesteuerte Bildbearbeitung, kann angewendet werden, um einem einfachen Foto Dramatik zu verleihen. Laut Forschungsbericht „anweisungsbasiert Bildbearbeitung verbessert die Steuerbarkeit und Flexibilität der Bildmanipulation über natürliche Befehle ohne aufwändige Beschreibungen oder regionale Masken.“
Die Forscher sagten, dass, da menschliche Anweisungen manchmal zu kurz sind, als dass aktuelle Methoden sie erfassen und befolgen könnten, Apples multimodaler Large-Language-Model-Ansatz (MLLM) vielversprechende Fähigkeiten beim modalübergreifenden Verständnis und bei der Generierung visuell bewusster Antworten zeigt.
„MGIE lernt, ausdrucksstarke Anweisungen abzuleiten und gibt explizite Anleitungen. Das Bearbeitungsmodell erfasst gemeinsam diese visuelle Vorstellungskraft und führt Manipulationen durch End-to-End-Training durch“, heißt es in dem Papier.
Die Forscher teilten einige Beispiele. In einem von ihnen machten sie zufällig ein Foto von einem Mann, der von einer Frau mit einem Fotobombardement bombardiert wurde. Eine einfache Texteingabe „Frau im Hintergrund entfernen“ entfernt die Person, um das Bild nutzbar zu machen. Ebenso kann ein unterbelichtetes Foto durch eine einfache Texteingabe aufgehellt und mit mehr Kontrast versehen werden, z. B. „Fügen Sie mehr Kontrast hinzu, um mehr Licht zu simulieren.“
Wie unterscheidet sich das von den Modellen von Google und Microsoft?
Derzeit ermöglichen die von Google und Microsoft angebotenen verbraucherorientierten Modelle oder Tools Benutzern nur die Generierung von KI-Fotos mit Texteingaben. Was die Bearbeitung betrifft, hat Microsoft kürzlich Designer für Copilot angekündigt, der auf DALL-E 3 basiert. Dieses Tool kann Benutzern beim Bearbeiten von KI-generierten Bildern helfen. Benutzer können ein Objekt hervorheben, um es hervorzuheben, Hintergrundunschärfe hinzuzufügen und den Kunststil zu ändern.
Die Microsoft-Bildbearbeitungsfunktionen sind für Benutzer in Indien, Australien, Neuseeland, den USA und Großbritannien auf Englisch verfügbar.