OpenAI möchte mit Organisationen zusammenarbeiten, um neue KI-Trainingsdatensätze zu erstellen

OpenAI schlaegt eine neue Moeglichkeit vor GPT 4 fuer die Inhaltsmoderation

Es ist ein offenes Geheimnis, dass die zum Training von KI-Modellen verwendeten Datensätze äußerst fehlerhaft sind.

Bildkorpora tendiert auf die USA und den Westen ausgerichtet sein, teilweise weil westliche Bilder das Internet dominierten, als die Datensätze zusammengestellt wurden. Und wie kürzlich eine Studie des Allen Institute for AI hervorhob, enthalten die Daten, die zum Trainieren großer Sprachmodelle wie Metas Llama 2 verwendet werden, toxische Sprache und Vorurteile.

Modelle verstärken diese Mängel auf schädliche Weise. Jetzt sagt OpenAI, dass es sie bekämpfen will, indem es mit externen Institutionen zusammenarbeitet, um neue, hoffentlich verbesserte Datensätze zu erstellen.

OpenAI kündigte heute Datenpartnerschaften an, eine Initiative zur Zusammenarbeit mit Drittorganisationen, um öffentliche und private Datensätze für das Training von KI-Modellen zu erstellen. In einem BlogeintragLaut OpenAI sollen Datenpartnerschaften „mehr Organisationen in die Lage versetzen, die Zukunft der KI mitzugestalten“ und „von nützlicheren Modellen zu profitieren“.

„Um es letztendlich zu schaffen [AI] „Das ist sicher und für die gesamte Menschheit von Vorteil. Wir möchten, dass KI-Modelle alle Themen, Branchen, Kulturen und Sprachen tiefgreifend verstehen, was einen möglichst breiten Trainingsdatensatz erfordert“, schreibt OpenAI. „Durch die Einbeziehung Ihrer Inhalte können KI-Modelle für Sie hilfreicher werden, indem sie ihr Verständnis für Ihre Domäne verbessern.“

Als Teil des Data Partnerships-Programms will OpenAI „groß angelegte“ Datensätze sammeln, die „die menschliche Gesellschaft widerspiegeln“ und auf die heute online nicht einfach zugegriffen werden kann. Während das Unternehmen plant, mit einer breiten Palette von Modalitäten zu arbeiten, darunter Bilder, Audio und Video, sucht es insbesondere nach Daten, die „menschliche Absichten zum Ausdruck bringen“ (z. B. lange Texte oder Gespräche) in verschiedenen Sprachen, Themen und Formaten.

OpenAI sagt, dass es bei Bedarf mit Organisationen zusammenarbeiten wird, um Trainingsdaten zu digitalisieren, eine Kombination aus optischen Zeichenerkennungs- und automatischen Spracherkennungstools zu verwenden und bei Bedarf vertrauliche oder persönliche Informationen zu entfernen.

Zu Beginn möchte OpenAI zwei Arten von Datensätzen erstellen: einen Open-Source-Datensatz, der öffentlich ist und von jedem für das Training von KI-Modellen verwendet werden kann, und einen Satz privater Datensätze für das Training proprietärer KI-Modelle. Die privaten Sets sind für Organisationen gedacht, die ihre Daten privat halten möchten, aber möchten, dass die Modelle von OpenAI ein besseres Verständnis ihrer Domäne haben, sagt OpenAI; Bisher hat OpenAI mit der isländischen Regierung und Miðeind ehf zusammengearbeitet, um die Fähigkeit von GPT-4, Isländisch zu sprechen, zu verbessern, und mit dem Free Law Project, um das Verständnis seiner Modelle für Rechtsdokumente zu verbessern.

„Insgesamt suchen wir nach Partnern, die uns dabei helfen wollen, der KI beizubringen, unsere Welt zu verstehen, um allen größtmöglichen Nutzen zu bringen“, schreibt OpenAI.

Kann OpenAI also besser abschneiden als die vielen Bemühungen zum Aufbau von Datensätzen, die es zuvor gab? Ich bin mir nicht so sicher – die Minimierung der Verzerrung von Datensätzen ist ein Problem Das hat viele Experten auf der Welt verblüfft. Zumindest würde ich hoffen, dass das Unternehmen den Prozess transparent macht – und die Herausforderungen, denen es bei der Erstellung dieser Datensätze unweigerlich gegenübersteht.

Trotz der grandiosen Sprache des Blogbeitrags scheint es hier auch eine klare kommerzielle Motivation zu geben, die Leistung der OpenAI-Modelle auf Kosten anderer zu verbessern – und ohne nennenswerte Entschädigung für die Dateneigentümer. Ich denke, das liegt durchaus im Recht von OpenAI. Angesichts der offenen Briefe und Klagen von Kreativen, in denen behauptet wird, OpenAI habe viele seiner Modelle ohne deren Erlaubnis oder Bezahlung in ihrer Arbeit geschult, scheint es jedoch ein wenig taub zu sein.

tch-1-tech