OpenAI-Tinten befassen sich mit dem Training von KI anhand von Reddit-Daten

OpenAI hat eine Einigung erzielt mit Reddit, um die Daten der Social-News-Site für das Training von KI-Modellen zu nutzen.

In einem Blogeintrag Auf der Presseseite von OpenAI erklärte das Unternehmen, dass die Reddit-Partnerschaft ihm Zugang zu „strukturierten und einzigartigen Echtzeitinhalten“ – z. B. Beiträgen und Antworten – von Reddit verschaffen werde, sodass seine Tools und Modelle diese „besser verstehen und präsentieren“ könnten Inhalt. Reddit-Inhalte werden eingebunden ChatGPTdie beliebte Konversations-KI von OpenAI, und die Unternehmen werden zusammenarbeiten, um sowohl Reddit-Benutzern als auch Moderatoren nicht näher bezeichnete neue „KI-gestützte Funktionen“ bereitzustellen.

OpenAI wird außerdem Reddit-Werbepartner.

„Reddit wird auf der KI-Modellplattform von OpenAI aufbauen, um seine leistungsstarke Vision zum Leben zu erwecken“, schrieb OpenAI in dem Beitrag. „Durch den Einsatz von LLMs, ML und KI kann Reddit das Benutzererlebnis für alle verbessern.“

OpenAI hat mehrere ähnliche Lizenzverträge mit Inhaltsanbietern abgeschlossen, die von Medienbibliotheken bis hin zu Nachrichtenverlagen reichen. Aber das Ungewöhnliche an dieser Sache ist, dass Sam Altman, CEO von OpenAI, eine hat 8,7 % Anteil an RedditEr war damit drittgrößter Anteilseigner und gehörte einst dem Vorstand des Unternehmens an.

Um einer genaueren Prüfung vorzubeugen, sagt OpenAI in seiner Pressemitteilung, dass Altman zwar Reddit-Aktionär bleibt, die Partnerschaft jedoch „vom COO von OpenAI geleitet wurde.“ [Brad Lightcap]“ und „genehmigt von [OpenAI’s] unabhängiger Vorstand.“ (Ich möchte hier anmerken, dass Altman Mitglied des Vorstands von OpenAI ist; er hat sich für diese Entscheidung jedoch zurückgezogen, sagt ein OpenAI-Sprecher gegenüber Tech.)

Reddit hat Datenlizenzvereinbarungen zu einem zunehmend zentralen Bestandteil seiner Wachstumsstrategie gemacht, da es sich als börsennotiertes Unternehmen auf dem Markt bewegt.

In seinem IPO-Prospekt gab Reddit bekannt, dass es vertragliche Vereinbarungen zur Lizenzierung seiner Daten hat Kunden, darunter Google einen Gesamtwert von über 200 Millionen US-Dollar. Und in seinem ersten Ergebnisbericht als börsennotiertes Unternehmen meldete Reddit einen Anstieg der Nicht-Werbeeinnahmen um 450 % im Jahresvergleich, der hauptsächlich auf diese Vereinbarungen zurückzuführen ist.

Die Reddit-Aktie stieg im erweiterten Handel nach der Ankündigung des OpenAI-Deals um 11 %.

„Das Paradoxe, das ich sehe, ist, dass je mehr Inhalte im Internet von Maschinen geschrieben werden, es immer mehr Inhalte gibt, die von echten Menschen stammen“, sagte Steve Huffman, CEO von Reddit, während der Telefonkonferenz des Unternehmens im März. „Und wir haben fast zwei Jahrzehnte authentischer Gespräche.“

Die Plattform von Reddit – die über 1 Milliarde Beiträge und mehr als 16 Milliarden Kommentare hat, Zahlen, die dank ihrer Hunderten Millionen aktiven Nutzer täglich wachsen – ist eine Goldgrube für generative KI-Unternehmen, deren Modelle aus Inhaltsbeispielen wie Texten lernen und Bilder, um neue, ähnliche Inhalte zu generieren.

Doch das Unternehmen könnte auf Widerstand von Nutzern stoßen, die sich Sorgen darüber machen, wie es ihre Daten monetarisiert.

Es ist aufschlussreich, einen Blick auf Stack Overflow zu werfen, das Frage-und-Antwort-Forum für Softwareentwickler, das kürzlich eine Vereinbarung mit OpenAI über die Bereitstellung von Daten für dessen Modelltraining unterzeichnet hat. Aus Protest löschten einige Nutzer ihre am besten bewerteten Antworten auf Fragen aus der Community. Aber Stack Overflow stellte die gelöschten Beiträge wieder her und sperrte diese Benutzer mit der Begründung, dass sie die Nutzungsbedingungen nicht eingehalten hätten.

Reddit hat bereits seinen Unmut über einen Versuch geäußert, Reddit-Nutzern mehr Kontrolle über ihre eigenen Daten zu geben.

Vana, ein auf der Blockchain basierendes Startup, versucht, eine Daten-„DAO“ (Digital Autonomous Organization) zu starten, um Reddit-Benutzern die Möglichkeit zu geben, ihre Daten zu bündeln und gemeinsam zu entscheiden, wie diese kombinierten Daten verwendet (oder verkauft) werden. Reddit verbot Vanas Subreddit, der der Diskussion über das DAO gewidmet war, in einer Erklärung gegenüber Tech und warf dem Unternehmen vor, seine Datenexportkontrollen „auszunutzen“.

Wir starten einen KI-Newsletter! Melden Sie sich an Hier um es ab dem 5. Juni in Ihren Posteingängen zu erhalten.

tch-1-tech