Elon Musk stimmt zu, dass wir die KI-Trainingsdaten erschöpft haben

Elon Musk stimmt mit anderen KI-Experten darin überein, dass es nur noch wenige reale Daten gibt, auf denen sich KI-Modelle trainieren lassen.

„Wir haben jetzt im Grunde die Gesamtsumme des menschlichen Wissens ausgeschöpft …. im KI-Training“, sagte Musk während eines Live-Streaming-Gesprächs mit dem Stagwell-Vorsitzenden Mark Penn, das am späten Mittwoch auf X gestreamt wurde. „Das ist im Grunde letztes Jahr passiert.“

Musk, dem das KI-Unternehmen xAI gehört, wiederholte Themen, die der frühere OpenAI-Chefwissenschaftler Ilya Sutskever während einer Ansprache im Dezember auf der NeurIPS, der Konferenz für maschinelles Lernen, angesprochen hatte. Sutskever, der sagte, die KI-Branche habe das erreicht, was er als „Höhepunkt der Daten“ bezeichnete, prognostizierte, dass ein Mangel an Trainingsdaten eine Abkehr von der Art und Weise erzwingen werde, wie Modelle heute entwickelt werden.

Tatsächlich schlug Musk vor, dass synthetische Daten – Daten, die von KI-Modellen selbst generiert werden – der Weg in die Zukunft seien. „Die einzige Möglichkeit zur Ergänzung [real-world data] ist mit synthetischen Daten, die die KI erstellt [training data]“, sagte er. „Mit synthetischen Daten … [AI] wird sich gewissermaßen selbst benoten und diesen Prozess des Selbstlernens durchlaufen.“

Andere Unternehmen, darunter Technologiegiganten wie Microsoft, Meta, OpenAI und Anthropic, verwenden bereits synthetische Daten, um Flaggschiff-KI-Modelle zu trainieren. Gartner Schätzungen 60 % der im Jahr 2024 für KI- und Analytics-Projekte verwendeten Daten wurden synthetisch generiert.

Microsofts Phi-4, das am frühen Mittwoch als Open-Source-Lösung verfügbar war, wurde neben realen Daten auch auf synthetischen Daten trainiert. Das gilt auch für die Gemma-Modelle von Google. Anthropic nutzte einige synthetische Daten, um eines seiner leistungsstärksten Systeme zu entwickeln: Claude 3.5 Sonnet. Und Meta hat seine neueste Llama-Modellreihe mithilfe von KI-generierten Daten verfeinert.

Das Training mit synthetischen Daten hat weitere Vorteile, wie etwa Kosteneinsparungen. Das KI-Startup Writer behauptet, dass die Entwicklung seines Modells Palmyra verglichen Schätzungen gehen von 4,6 Millionen US-Dollar für ein OpenAI-Modell vergleichbarer Größe aus.

Aber es gibt auch Nachteile. Einige Untersuchungen deuten darauf hin, dass synthetische Daten zum Zusammenbruch des Modells führen können, wodurch ein Modell in seinen Ergebnissen weniger „kreativ“ und voreingenommener wird und schließlich seine Funktionalität ernsthaft beeinträchtigt. Da Modelle synthetische Daten erstellen, sind ihre Ergebnisse ähnlich verfälscht, wenn die zum Training dieser Modelle verwendeten Daten Voreingenommenheiten und Einschränkungen aufweisen.

tch-1-tech