Apple sagt, es habe bei der Schulung seiner Apple Intelligence-Modelle einen „verantwortungsvollen“ Ansatz verfolgt

Apple hat eine Fachartikel Er beschreibt detailliert die Modelle, die das Unternehmen für Apple Intelligence entwickelt hat, eine Palette generativer KI-Funktionen, die in den nächsten Monaten für iOS, macOS und iPadOS verfügbar sein werden.

In dem Papier wehrt sich Apple gegen Vorwürfe dass das Unternehmen beim Training einiger seiner Modelle einen ethisch fragwürdigen Ansatz verfolgte, und bekräftigte, dass es keine privaten Benutzerdaten verwendete und für Apple Intelligence auf eine Kombination aus öffentlich verfügbaren und lizenzierten Daten zurückgriff.

„[The] „Der vor dem Training erstellte Datensatz besteht aus … Daten, die wir von Verlagen lizenziert haben, kuratierten öffentlich verfügbaren oder Open-Source-Datensätzen und öffentlich verfügbaren Informationen, die von unserem Webcrawler Applebot gecrawlt wurden“, schreibt Apple in dem Papier. „Angesichts unseres Fokus auf den Schutz der Privatsphäre der Benutzer weisen wir darauf hin, dass der Datenmix keine privaten Apple-Benutzerdaten enthält.“

Im Juli, Proof News gemeldet dass Apple einen Datensatz namens „The Pile“ verwendet hat, der Untertitel von Hunderttausenden von YouTube-Videos enthält, um eine Familie von Modellen zu trainieren, die für die Verarbeitung auf dem Gerät entwickelt wurden. Viele YouTube-Ersteller, deren Untertitel in „The Pile“ aufgetaucht sind, waren sich dessen nicht bewusst und haben dem nicht zugestimmt; Apple veröffentlichte später eine Erklärung, in der es hieß, dass es nicht beabsichtige, diese Modelle zu verwenden, um irgendwelche KI-Funktionen in seinen Produkten zu betreiben.

Das technische Dokument, das einen Blick auf die Modelle mit dem Titel „Apple Foundation Models“ (AFM) wirft, die Apple erstmals im Juni auf der WWDC 2024 vorstellte, betont, dass die Trainingsdaten für die AFM-Modelle auf „verantwortungsvolle“ Weise beschafft wurden – oder zumindest nach Apples Definition verantwortungsvoll.

Die Trainingsdaten der AFM-Modelle umfassen öffentlich zugängliche Webdaten sowie lizenzierte Daten von nicht genannten Herausgebern. Laut der New York Times hat Apple mehrere Verlage kontaktiert gegen Ende 2023, darunter NBC, Condé Nast und IAC, über mehrjährige Verträge im Wert von mindestens 50 Millionen Dollar, um Modelle anhand der Nachrichtenarchive der Verlage zu trainieren. Apples AFM-Modelle wurden auch anhand von Open-Source-Code trainiert, der auf GitHub gehostet wird, insbesondere Swift-, Python-, C-, Objective-C-, C++-, JavaScript-, Java- und Go-Code.

Das Trainieren von Modellen mit Code ohne Erlaubnis, sogar mit offenem Code, ist eine Streitpunkt unter Entwicklern. Einige Open-Source-Codebasen sind nicht lizenziert oder erlauben in ihren Nutzungsbedingungen kein KI-Training, argumentieren einige Entwickler. Aber Apple sagt, dass es den Code „lizenzgefiltert“ hat, um zu versuchen, nur Repositories mit minimalen Nutzungsbeschränkungen einzuschließen, wie solche unter einer MIT-, ISC- oder Apache-Lizenz.

Um die mathematischen Fähigkeiten der AFM-Modelle zu verbessern, hat Apple in den Trainingssatz gezielt mathematische Fragen und Antworten von Webseiten, Mathematikforen, Blogs, Tutorials und Seminaren aufgenommen, heißt es in dem Papier. Das Unternehmen hat außerdem „hochwertige, öffentlich verfügbare“ Datensätze (die im Papier nicht genannt werden) mit „Lizenzen, die die Verwendung zum Trainieren von … Modellen erlauben“ angezapft, wobei vertrauliche Informationen entfernt wurden.

Insgesamt umfasst der Trainingsdatensatz für die AFM-Modelle etwa 6,3 Billionen Token. (Token sind mundgerechte Datenhäppchen, die für generative KI-Modelle im Allgemeinen leichter zu verarbeiten sind.) Zum Vergleich: Das ist weniger als die Hälfte der Token – 15 Billionen –, die Meta zum Trainieren seines Flaggschiff-Textgenerierungsmodells Llama 3.1 405B verwendet hat.

Apple hat zusätzliche Daten beschafft, darunter Daten aus menschlichem Feedback und synthetische Daten, um die AFM-Modelle zu optimieren und zu versuchen, unerwünschtes Verhalten, wie etwa die Verbreitung toxischer Substanzen, zu mildern.

„Unsere Modelle wurden mit dem Ziel entwickelt, den Benutzern bei alltäglichen Aktivitäten auf ihren Apple-Produkten zu helfen,
in den Grundwerten von Apple und in jeder Phase verwurzelt in unseren Prinzipien einer verantwortungsvollen KI“, sagt das Unternehmen.

Es gibt in dem Papier weder einen rauchenden Colt noch schockierende Erkenntnisse – und das ist eine sorgfältige Planung. Selten sind Papiere wie diese sehr aufschlussreich, was auf den Wettbewerbsdruck zurückzuführen ist, aber auch darauf, dass die Offenlegung zu Zu viel davon könnte Unternehmen in rechtliche Schwierigkeiten bringen.

Einige Unternehmen, die ihre Modelle durch das Scraping öffentlicher Webdaten trainieren, behaupten, ihre Vorgehensweise sei geschützt durch faire Nutzung Doktrin. Aber es ist eine Frage, die sehr umstritten ist und Gegenstand einer wachsenden Zahl von Klagen ist.

Apple weist in dem Dokument darauf hin, dass es Webmastern erlaubt, den Crawler des Unternehmens daran zu hindern, ihre Daten zu scrapen. Doch das lässt die einzelnen Künstler im Stich. Was soll ein Künstler tun, wenn sein Portfolio beispielsweise auf einer Website gehostet wird, die Apples Datenscraping nicht blockiert?

Gerichtsverhandlungen werden über das Schicksal generativer KI-Modelle und die Art und Weise entscheiden, wie sie trainiert werden. Im Moment versucht Apple jedoch, sich als ethischer Akteur zu positionieren und gleichzeitig unerwünschte rechtliche Kontrolle zu vermeiden.

tch-1-tech