Cloudflare bringt ein Tool zur Bekämpfung von KI-Bots auf den Markt

Cloudflare, der börsennotierte Cloud-Dienstleister, hat ein neues, kostenloses Tool herausgebracht, um zu verhindern, dass Bots die auf seiner Plattform gehosteten Websites nach Daten zum Trainieren von KI-Modellen durchsuchen.

Einige KI-Anbieter, darunter Google, OpenAI und Apple, erlauben es Websitebesitzern, die Bots, die sie für das Scraping von Daten und das Training von Modellen verwenden, zu blockieren, indem sie die robots.txt-Datei ihrer Website ändern, die Textdatei, die Bots mitteilt, auf welche Seiten einer Website sie zugreifen können. Aber, wie Cloudflare in einem Post Ankündigung seines Tools zur Bot-Bekämpfung, aber nicht alle KI-Scraper respektieren dies.

„Kunden wollen nicht, dass KI-Bots ihre Websites besuchen, insbesondere nicht solche, die dies auf betrügerische Weise tun“, schreibt das Unternehmen auf seinem offiziellen Blog. „Wir befürchten, dass einige KI-Unternehmen, die darauf aus sind, Regeln für den Zugriff auf Inhalte zu umgehen, ihre Systeme ständig anpassen werden, um der Bot-Erkennung zu entgehen.“

Um das Problem zu lösen, analysierte Cloudflare den Verkehr von KI-Bots und Crawlern, um die automatischen Bot-Erkennungsmodelle zu optimieren. Die Modelle berücksichtigen unter anderem, ob ein KI-Bot möglicherweise versucht, der Erkennung zu entgehen, indem er das Aussehen und Verhalten einer Person nachahmt, die einen Webbrowser verwendet.

„Wenn böswillige Akteure versuchen, Websites in großem Umfang zu crawlen, verwenden sie im Allgemeinen Tools und Frameworks, die wir mit einem Fingerabdruck versehen können“, schreibt Cloudflare. „Basierend auf diesen Signalen können unsere Modelle [are] in der Lage, den Datenverkehr von ausweichenden KI-Bots angemessen als Bots zu kennzeichnen.“

Cloudflare hat ein Formular für Hosts eingerichtet, mit dem sie verdächtige KI-Bots und Crawler melden können, und kündigt an, dass das Unternehmen KI-Bots im Laufe der Zeit weiterhin manuell auf die schwarze Liste setzen wird.

Das Problem der KI-Bots ist deutlich zutage getreten, da der Boom der generativen KI die Nachfrage nach Trainingsdaten für Modelle anheizt.

Viele Websites, die davor zurückschrecken, dass KI-Anbieter Modelle auf ihren Inhalt trainieren, ohne sie zu warnen oder zu entschädigen, haben sich dafür entschieden, KI-Scraper und -Crawler zu blockieren. Rund 26 % der 1.000 Top-Websites im Internet haben den Bot von OpenAI blockiert, so eine Studie; ein anderer stellte fest, dass mehr als 600 Nachrichtenverlage den Bot blockiert hatten.

Blockieren ist jedoch kein todsicherer Schutz. Wie bereits erwähnt, scheinen einige Anbieter Standardregeln zum Ausschluss von Bots zu ignorieren, um sich im KI-Rennen einen Wettbewerbsvorteil zu verschaffen. Die KI-Suchmaschine Perplexity wurde kürzlich beschuldigt, sich als legitime Besucher auszugeben, um Inhalte von Websites zu scrapen, und OpenAI und Anthropic sollen zeitweise ignoriert robots.txt-Regeln.

In einem Brief an die Verleger im letzten MonatDas Content-Lizenzierungs-Startup TollBit sagte, dass es tatsächlich „viele KI-Agenten“ beobachtet, die den robots.txt-Standard ignorieren.

Tools wie Cloudflare könnten helfen – aber nur, wenn sie sich bei der Erkennung von heimlichen KI-Bots als zuverlässig erweisen. Und sie Gewohnheit Lösen Sie das hartnäckigere Problem, dass Publisher Gefahr laufen, Empfehlungsverkehr durch KI-Tools wie die KI-Übersichten von Google zu verlieren, die Websites von der Aufnahme ausschließen, wenn sie bestimmte KI-Crawler blockieren.

tch-1-tech