Reddit angekündigt am Dienstag, dass es sein Robots Exclusion Protocol (Datei robots.txt) aktualisiert, das automatisierten Web-Bots mitteilt, ob sie eine Site crawlen dürfen.
In der Vergangenheit wurde die robots.txt-Datei verwendet, um Suchmaschinen das Durchsuchen einer Site zu ermöglichen und Benutzer dann zum Inhalt zu leiten. Mit dem Aufkommen der KI werden Websites jedoch gescrapt und zum Trainieren von Modellen verwendet, ohne die tatsächliche Quelle des Inhalts anzugeben.
Neben der aktualisierten robots.txt-Datei wird Reddit weiterhin die Geschwindigkeit begrenzen und unbekannte Bots und Crawler daran hindern, auf seine Plattform zuzugreifen. Das Unternehmen teilte Tech mit, dass Bots und Crawler begrenzt oder blockiert werden, wenn sie sich nicht an Reddits Richtlinien für öffentliche Inhalte halten und keine Vereinbarung mit der Plattform haben.
Reddit sagt, dass das Update die Mehrheit der Benutzer oder gutgläubige Akteure wie Forscher und Organisationen wie das Internetarchiv nicht betreffen sollte. Stattdessen soll das Update KI-Unternehmen davon abhalten, ihre großen Sprachmodelle mit Reddit-Inhalten zu trainieren. Natürlich könnten KI-Crawler Reddits robots.txt-Datei ignorieren.
Die Ankündigung erfolgt wenige Tage nach einer Kabelgebundene Untersuchung hat herausgefunden, dass das KI-gestützte Such-Startup Perplexity Inhalte stiehlt und ausspioniert. Wired hat herausgefunden, dass Perplexity Aufforderungen, seine Website nicht auszuspionieren, zu ignorieren scheint, obwohl es das Startup in seiner robots.txt-Datei blockiert hat. CEO von Perplexity Aravind Srinivas antwortete zu den Vorwürfen und sagte, dass die robots.txt-Datei keinen Rechtsrahmen darstelle.
Die bevorstehenden Änderungen von Reddit haben keine Auswirkungen auf Unternehmen, mit denen es eine Vereinbarung getroffen hat. Reddit hat beispielsweise eine 60-Millionen-Dollar-Deal mit Google Damit kann der Suchmaschinenriese seine KI-Modelle anhand der Inhalte der sozialen Plattform trainieren. Mit diesen Änderungen signalisiert Reddit anderen Unternehmen, die Reddit-Daten für KI-Training nutzen möchten, dass sie dafür zahlen müssen.
„Jeder, der auf Reddit-Inhalte zugreift, muss sich an unsere Richtlinien halten, einschließlich der Richtlinien zum Schutz von Reddit-Nutzern“, heißt es in einem Blogbeitrag von Reddit. „Wir sind sehr wählerisch, mit wem wir zusammenarbeiten und wem wir den Zugriff auf Reddit-Inhalte in großem Umfang anvertrauen.“
Die Ankündigung kommt nicht überraschend, da Reddit vor einigen Wochen eine neue Richtlinie veröffentlicht hat, die regeln soll, wie kommerzielle Unternehmen und andere Partner auf die Daten von Reddit zugreifen und sie verwenden.