Warum Apple bei der generativen KI auf einen kleinen Modellansatz setzt

Zu den größten Fragen, die sich seit der Markteinführung von Modellen wie ChatGPT, Gemini und Midjourney ergeben, gehört, welche Rolle (wenn überhaupt) sie in unserem täglichen Leben spielen werden. Apple versucht, diese Frage mit seiner eigenen Version dieser Kategorie, Apple Intelligence, zu beantworten, die diese Woche auf der WWDC 2024 offiziell vorgestellt wurde.

Das Unternehmen hat bei der Präsentation am Montag mit Glanzstücken geglänzt; so funktionieren Keynotes eben. Wenn SVP Craig Federighi nicht gerade mit Hilfe von Hollywood-Zauberei (oder eben Cupertino-Zauberei) Fallschirmspringen oder Parkour vorführte, war Apple entschlossen zu zeigen, dass seine eigenen Modelle denen der Konkurrenz in nichts nachstehen.

Die Frage ist noch nicht geklärt, da die Betaversionen erst am Montag erschienen sind, aber das Unternehmen hat inzwischen einige der Besonderheiten seines Ansatzes für generative KI enthüllt. In erster Linie geht es um den Umfang. Viele der bekanntesten Unternehmen in diesem Bereich verfolgen bei ihren Modellen einen Ansatz nach dem Motto „größer ist besser“. Das Ziel dieser Systeme ist es, als eine Art zentrale Anlaufstelle für die Informationen der Welt zu dienen.

Apples Ansatz in dieser Kategorie hingegen basiert auf etwas pragmatischerem. Apple Intelligence ist ein maßgeschneiderter Ansatz für generative KI, der speziell auf die verschiedenen Betriebssysteme des Unternehmens zugeschnitten ist. Es ist ein sehr Apple-typischer Ansatz in dem Sinne, dass er vor allem ein reibungsloses Benutzererlebnis in den Vordergrund stellt.

Apple Intelligence ist einerseits eine Branding-Übung, andererseits zieht das Unternehmen es vor, die generativen KI-Aspekte nahtlos in das Betriebssystem zu integrieren. Es ist völlig in Ordnung – oder sogar wünschenswert –, wenn der Benutzer keine Ahnung von den zugrunde liegenden Technologien hat, die diese Systeme antreiben. So haben Apple-Produkte schon immer funktioniert.

Die Modelle klein halten

Der Schlüssel zu vielem davon liegt in der Erstellung kleinerer Modelle: die Systeme werden anhand eines maßgeschneiderten Datensatzes trainiert, der speziell auf die Art von Funktionalität zugeschnitten ist, die die Benutzer ihrer Betriebssysteme benötigen. Es ist nicht sofort klar, inwieweit die Größe dieser Modelle das Blackbox-Problem beeinflussen wird, aber Apple glaubt, dass zumindest themenspezifischere Modelle die Transparenz darüber erhöhen werden, warum das System bestimmte Entscheidungen trifft.

Aufgrund der relativ begrenzten Natur dieser Modelle erwartet Apple keine große Vielfalt bei der Aufforderung, beispielsweise einen Text zusammenzufassen. Letztendlich hängt die Variation von Aufforderung zu Aufforderung jedoch von der Länge des zusammenzufassenden Textes ab. Die Betriebssysteme verfügen auch über einen Feedback-Mechanismus, über den Benutzer Probleme mit dem generativen KI-System melden können.

Obwohl Apple Intelligence viel fokussierter ist als größere Modelle, kann es dank der Einbeziehung von „Adaptern“, die auf unterschiedliche Aufgaben und Stile spezialisiert sind, ein breites Spektrum an Anforderungen abdecken. Generell verfolgt Apple bei der Erstellung von Modellen jedoch keinen „größer ist besser“-Ansatz, da Dinge wie Größe, Geschwindigkeit und Rechenleistung berücksichtigt werden müssen – insbesondere bei der Arbeit mit Gerätemodellen.

ChatGPT, Gemini und der Rest

Angesichts des begrenzten Fokus der Apple-Modelle ist es sinnvoll, sich für Drittanbietermodelle wie ChatGPT von OpenAI zu öffnen. Das Unternehmen hat seine Systeme speziell für die macOS/iOS-Erfahrung trainiert, sodass es viele Informationen geben wird, die außerhalb ihres Anwendungsbereichs liegen. In Fällen, in denen das System der Meinung ist, dass eine Drittanbieteranwendung besser geeignet wäre, eine Antwort zu geben, wird in einer Systemabfrage gefragt, ob Sie diese Informationen extern freigeben möchten. Wenn Sie keine solche Abfrage erhalten, wird die Anfrage mit den internen Modellen von Apple verarbeitet.

Dies sollte bei allen externen Modellen, mit denen Apple zusammenarbeitet, genauso funktionieren, einschließlich Google Gemini. Dies ist einer der seltenen Fälle, in denen das System auf diese Weise auf die Verwendung generativer KI aufmerksam macht. Die Entscheidung wurde teilweise getroffen, um Datenschutzbedenken auszuräumen. Jedes Unternehmen hat andere Standards, wenn es um die Erfassung und Schulung von Benutzerdaten geht.

Wenn Benutzer jedes Mal erneut zustimmen müssen, wird Apple ein Teil der Verantwortung abgenommen, auch wenn dies den Prozess etwas erschwert. Sie können die Nutzung von Plattformen von Drittanbietern auch systemweit ablehnen, allerdings würde dies die Datenmenge einschränken, auf die das Betriebssystem/Siri zugreifen kann. Sie können Apple Intelligence jedoch nicht auf einen Schlag ablehnen. Stattdessen müssen Sie dies für jede Funktion einzeln tun.

Private Cloud-Berechnung

Ob das System eine bestimmte Abfrage auf dem Gerät oder über einen Remote-Server mit Private Cloud Compute verarbeitet, wird hingegen nicht klargestellt. Apples Philosophie ist, dass solche Offenlegungen nicht notwendig sind, da das Unternehmen für seine Server dieselben Datenschutzstandards wie für seine Geräte anwendet, bis hin zum First-Party-Chip, auf dem sie laufen.

Um sicher zu wissen, ob die Abfrage auf dem Gerät oder außerhalb ausgeführt wird, trennen Sie Ihren Computer vom Internet. Wenn das Problem Cloud Computing erfordert, der Computer jedoch kein Netzwerk finden kann, wird ein Fehler ausgegeben, der darauf hinweist, dass die angeforderte Aktion nicht ausgeführt werden kann.

Apple erläutert die Einzelheiten dazu, welche Aktionen eine Cloud-basierte Verarbeitung erfordern. Dabei spielen mehrere Faktoren eine Rolle, und die sich ständig ändernde Natur dieser Systeme bedeutet, dass etwas, das heute Cloud-Computing erfordert, morgen möglicherweise auf dem Gerät erledigt werden kann. On-Device-Computing wird nicht immer die schnellere Option sein, da Geschwindigkeit einer der Parameter ist, die Apple Intelligence berücksichtigt, wenn bestimmt wird, wo die Eingabeaufforderung verarbeitet werden soll.

Es gibt jedoch bestimmte Vorgänge, die immer auf dem Gerät ausgeführt werden. Der bemerkenswerteste davon ist Image Playground, da das vollständige Diffusionsmodell lokal gespeichert ist. Apple hat das Modell so optimiert, dass es Bilder in drei verschiedenen Hausstilen generiert: Animation, Illustration und Skizze. Der Animationsstil ähnelt stark dem Hausstil eines anderen von Steve Jobs gegründeten Unternehmens. Ebenso ist die Textgenerierung derzeit in einem Stiltrio verfügbar: freundlich, professionell und prägnant.

Selbst in diesem frühen Beta-Stadium ist die Generierung von Image Playground beeindruckend schnell und dauert oft nur ein paar Sekunden. Was die Frage der Einbeziehung bei der Generierung von Personenbildern betrifft, verlangt das System von Ihnen, dass Sie Einzelheiten eingeben, anstatt Dinge wie die ethnische Zugehörigkeit einfach zu erraten.

So wird Apple mit Datensätzen umgehen

Apples Modelle werden mit einer Kombination aus lizenzierten Datensätzen und durch das Crawlen öffentlich zugänglicher Informationen trainiert. Letzteres wird erreicht mit AppleBot. Den Webcrawler des Unternehmens gibt es schon seit einiger Zeit und er liefert Kontextdaten für Anwendungen wie Spotlight, Siri und Safari. Der Crawler verfügt über eine bestehende Opt-out-Funktion für Publisher.

„Mit Applebot-Extended“, so Apple, „können Web-Publisher sich dagegen entscheiden, dass ihre Website-Inhalte zum Trainieren der grundlegenden Modelle von Apple verwendet werden, die generative KI-Funktionen in allen Apple-Produkten, einschließlich Apple Intelligence, Services und Developer Tools, antreiben.“

Dies wird durch die Einbindung einer Eingabeaufforderung in den Code der Website erreicht. Mit der Einführung von Apple Intelligence hat das Unternehmen eine zweite Eingabeaufforderung eingeführt, mit der Websites in Suchergebnisse aufgenommen, aber vom Training generativer KI-Modelle ausgeschlossen werden können.

Verantwortungsvolle KI

Apple hat am ersten Tag der WWDC ein Whitepaper mit dem Titel „Einführung der On-Device- und Server-Foundation-Modelle von Apple“ veröffentlicht. Unter anderem werden darin die Grundsätze der KI-Modelle des Unternehmens hervorgehoben. Insbesondere hebt Apple vier Dinge hervor:

  1. „Bestärken Sie Benutzer mit intelligenten Tools: Wir identifizieren Bereiche, in denen KI verantwortungsvoll eingesetzt werden kann, um Tools zu erstellen, die spezifische Benutzeranforderungen erfüllen. Wir respektieren, wie unsere Benutzer diese Tools verwenden, um ihre Ziele zu erreichen.“
  2. „Repräsentieren Sie unsere Benutzer: Wir entwickeln zutiefst persönliche Produkte mit dem Ziel, Benutzer auf der ganzen Welt authentisch zu repräsentieren. Wir arbeiten kontinuierlich daran, die Aufrechterhaltung von Stereotypen und systemischen Vorurteilen in unseren KI-Tools und -Modellen zu vermeiden.“
  3. „Sorgfältig entwerfen: Wir treffen in jeder Phase unseres Prozesses Vorkehrungen, einschließlich Design, Modelltraining, Funktionsentwicklung und Qualitätsbewertung, um festzustellen, wie unsere KI-Tools missbraucht werden oder zu potenziellem Schaden führen können. Wir werden unsere KI-Tools mithilfe von Benutzerfeedback kontinuierlich und proaktiv verbessern.“
  4. „Privatsphäre schützen: Wir schützen die Privatsphäre unserer Benutzer durch leistungsstarke On-Device-Verarbeitung und bahnbrechende Infrastruktur wie Private Cloud Compute. Beim Training unserer Basismodelle verwenden wir weder private persönliche Daten noch Benutzerinteraktionen unserer Benutzer.“

Apples maßgeschneiderter Ansatz für grundlegende Modelle ermöglicht es, das System speziell auf das Benutzererlebnis zuzuschneiden. Das Unternehmen verfolgt diesen UX-First-Ansatz seit der Einführung des ersten Mac. Ein möglichst reibungsloses Erlebnis zu bieten, kommt dem Benutzer zugute, sollte jedoch nicht auf Kosten der Privatsphäre geschehen.

Das wird eine schwierige Balance-App, die das Unternehmen meistern muss, wenn die aktuelle Generation der Beta-Versionen des Betriebssystems dieses Jahr allgemein verfügbar wird. Der ideale Ansatz besteht darin, so viele – oder so wenige – Informationen anzubieten, wie der Endbenutzer benötigt. Sicherlich wird es viele Leute geben, denen es egal ist, ob eine Abfrage beispielsweise auf dem Computer oder in der Cloud ausgeführt wird. Sie sind zufrieden damit, dass das System standardmäßig das verwendet, was am genauesten und effizientesten ist.

Für Datenschutzbefürworter und andere, die an diesen Einzelheiten interessiert sind, sollte Apple so viel Transparenz wie möglich für die Benutzer anstreben – ganz zu schweigen von der Transparenz für Herausgeber, die es vielleicht vorziehen, ihre Inhalte nicht als Quelle für das Training dieser Modelle verwenden zu lassen. Es gibt bestimmte Aspekte, bei denen das Blackbox-Problem derzeit unvermeidbar ist, aber in Fällen, in denen Transparenz geboten werden kann, sollte sie auf Anfrage der Benutzer bereitgestellt werden.

tch-1-tech