Websites blockieren GPTbot: Die beliebtesten Websites der Welt blockieren OpenAI daran, Daten für ChatGPT zu sammeln

Websites blockieren GPTbot Die beliebtesten Websites der Welt blockieren OpenAI
Am 7. August OpenAI – der Schöpfer von ChatGPT – führte ein Tool namens GPTbot ein. OpenAIs GPTbot ist ein Webcrawler, der Daten aus dem Internet sammeln soll, um die Genauigkeit und Fähigkeiten von KI-Modellen zu verbessern. Es handelt sich um eine hochentwickelte Software, die im Internet navigieren und Informationen aus einer Vielzahl von Quellen extrahieren kann, darunter Text, Bilder und Code. „Wenn Sie GPTBot den Zugriff auf Ihre Website erlauben, können KI-Modelle genauer werden und ihre allgemeinen Fähigkeiten und Sicherheit verbessern“, sagte OpenAI. Nun geht aus einem Bericht hervor, dass 15 % der 100 größten Websites weltweit GPTbot blockiert haben.
Laut Originality.AI haben sich in den ersten 14 Tagen seit der Veröffentlichung der GPTBot-Dokumentation fast 10 % der 1000 größten Websites weltweit dafür entschieden, GPTBot zu blockieren. Zu den Websites, die GPTBot blockiert haben, gehören: AmazonasQuora, Wikihow und mehrere internationale Nachrichtenpublikationen.
In dem Bericht heißt es, dass GPTbot ins Leben gerufen wurde, weil OpenAI mit einer zunehmenden Zahl von Klagen konfrontiert ist, von denen einige im Zusammenhang mit der Nutzung von Inhalten ohne entsprechende Genehmigung stehen.

Wie funktioniert GPTbot?

GPTbot identifiziert zunächst potenzielle Datenquellen. Dazu wird das Web gecrawlt und nach Websites gesucht, die relevante Informationen enthalten. Sobald eine potenzielle Quelle identifiziert wurde, extrahiert GPTbot die Informationen von der Website. Diese Informationen werden dann in einer Datenbank gespeichert und können zum Trainieren von KI-Modellen verwendet werden.
Das Tool ist in der Lage, Informationen aus einer Vielzahl von Quellen zu extrahieren, darunter Text, Bilder und sogar Code. GPTbot kann Text aus Websites, Artikeln, Büchern und anderen Dokumenten extrahieren. GPTbot kann Informationen aus Bildern extrahieren, beispielsweise die im Bild dargestellten Objekte und den mit dem Bild verknüpften Text. Darüber hinaus kann GPTbot Code von Websites und GitHub extrahieren Repositories und andere Quellen.
ChatGPT von OpenAI und andere generative KI-Tools stützen sich auf Daten von Websites, um die Modelle effizienter zu trainieren. Vor ein paar Monaten – als es noch Twitter hieß – blockierte Elon Musk OpenAI daran, Daten von der Social-Media-Plattform zu extrahieren.

toi-tech