Die Aussichten von Reddit auf dem Weg zur Börsennotierung haben viel mehr mit Beziehungen zu KI-Anbietern wie OpenAI zu tun, als man erwarten könnte.
In seinem IPO-Prospekt, der heute bei der US-Börsenaufsichtsbehörde Securities and Exchange Commission eingereicht wurde, betonte Reddit wiederholt, wie viel es seiner Meinung nach durch Datenlizenzvereinbarungen mit den Unternehmen, die KI-Modelle trainieren, für seine über eine Milliarde Posts und über 16 Milliarden US-Dollar gewinnen kann – und gewonnen hat Kommentare.
„Im Januar 2024 haben wir bestimmte Datenlizenzvereinbarungen mit einem Gesamtvertragswert von 203,0 Millionen US-Dollar und Laufzeiten zwischen zwei und drei Jahren abgeschlossen“, heißt es im Prospekt. „Wir gehen davon aus, dass im Geschäftsjahr, das am 31. Dezember 2024 endet, und in den verbleibenden Jahren danach ein Umsatz von mindestens 66,4 Millionen US-Dollar realisiert wird.“
Nun ist es ein Rätsel, welche KI-Anbieter bisher Daten von Reddit lizenzieren. Anfang dieser Woche, Bloomberg und Reuters gemeldet dass ein „großes, namenloses KI-Unternehmen“ – möglicherweise Google – hatte eine Lizenzvereinbarung im Wert von rund 60 Millionen US-Dollar auf Jahresbasis abgeschlossen. Aber OpenAI wäre auch kein überraschender Kunde, insbesondere wenn man bedenkt, dass OpenAI-CEO Sam Altman einen Anteil von 8,7 % hat. Einsatz in Reddit (was ihn zum drittgrößten Aktionär macht) und war einst Mitglied des Vorstands des Unternehmens.
Warum sind Reddit-Daten wertvoll? Wie Reddit erklärt, „lernen“ KI-Modelle aus Beispielen, um Aufsätze, Code, E-Mails, Artikel und mehr zu erstellen, und Anbieter wie OpenAI durchsuchen das Internet nach Millionen bis Milliarden dieser Beispiele, um sie zu ihren Trainingssätzen hinzuzufügen. Einige Beispiele sind gemeinfrei. Bei anderen ist dies nicht der Fall oder sie unterliegen – im Fall von Reddit-Inhalten – restriktiven Lizenzen, die eine Nennung oder bestimmte Formen der Vergütung erfordern.
Bisher hat Reddit den Zugriff auf seine Daten für KI-Trainingszwecke nicht eingeschränkt. Letztes Jahr änderte es jedoch seinen Kurs und argumentierte, dass seine Daten – um es mit den Worten von CEO Steve Huffman zu sagen – nicht sein sollten: „[given] an einige der größten Unternehmen der Welt kostenlos.“
„[Our] „Daten-APIs sind in der Lage, Echtzeitzugriff auf sich entwickelnde und dynamische Themen wie Sport, Filme, Nachrichten, Mode und die neuesten Trends zu ermöglichen“, heißt es im Prospekt weiter. „Wir glauben, dass Reddits riesiger Korpus an Konversationsdaten und Wissen weiterhin eine Rolle beim Training und der Verbesserung großer Sprachmodelle spielen wird. Da unsere Inhalte täglich aktualisiert und erweitert werden, gehen wir davon aus, dass Models diese neuen Ideen berücksichtigen und ihr Training mithilfe von Reddit-Daten aktualisieren möchten.“
Inhaltsproduzenten, von Medienbibliotheken bis hin zu Nachrichtenverlegern, greifen zunehmend auf Datenlizenzvereinbarungen mit KI-Anbietern zurück, da Chatbots wie ChatGPT von OpenAI und Gemini von Google den Datenverkehr zu beeinträchtigen drohen. Ein aktuelles Modell von The Atlantic gefunden Wenn eine Suchmaschine wie Google KI in die Suche integrieren würde, würde sie die Anfrage eines Benutzers in 75 % der Fälle beantworten, ohne dass ein Klick auf die Website erforderlich wäre.
Anbieter wiederum wurden dazu ermutigt, Lizenzvereinbarungen abzuschließen, da sie mit einer Flut von Klagen konfrontiert sind, in denen ihnen vorgeworfen wird, sie hätten keine rechtliche Rechtfertigung dafür, ihre Modelle ohne Erlaubnis oder Bezahlung auf Daten zu trainieren. Kürzlich warf die New York Times OpenAI vor, mit seinen Werken effektiv Konkurrenten für Nachrichtenverleger aufzubauen und so seinem Geschäft zu schaden.
OpenAI hat zum einen Vereinbarungen mit der Bildergalerie Shutterstock sowie Verlagen wie Axel Springer, dem Eigentümer von Politico und Business Insider. Die Lizenzen sind gemeldet dürfte jedoch recht klein sein – mit einem Höchstwert von 5 Millionen US-Dollar pro Jahr.