Laut Originality.AI haben sich in den ersten 14 Tagen seit der Veröffentlichung der GPTBot-Dokumentation fast 10 % der 1000 größten Websites weltweit dafür entschieden, GPTBot zu blockieren. Zu den Websites, die GPTBot blockiert haben, gehören: AmazonasQuora, Wikihow und mehrere internationale Nachrichtenpublikationen.
In dem Bericht heißt es, dass GPTbot ins Leben gerufen wurde, weil OpenAI mit einer zunehmenden Zahl von Klagen konfrontiert ist, von denen einige im Zusammenhang mit der Nutzung von Inhalten ohne entsprechende Genehmigung stehen.
Wie funktioniert GPTbot?
GPTbot identifiziert zunächst potenzielle Datenquellen. Dazu wird das Web gecrawlt und nach Websites gesucht, die relevante Informationen enthalten. Sobald eine potenzielle Quelle identifiziert wurde, extrahiert GPTbot die Informationen von der Website. Diese Informationen werden dann in einer Datenbank gespeichert und können zum Trainieren von KI-Modellen verwendet werden.
Das Tool ist in der Lage, Informationen aus einer Vielzahl von Quellen zu extrahieren, darunter Text, Bilder und sogar Code. GPTbot kann Text aus Websites, Artikeln, Büchern und anderen Dokumenten extrahieren. GPTbot kann Informationen aus Bildern extrahieren, beispielsweise die im Bild dargestellten Objekte und den mit dem Bild verknüpften Text. Darüber hinaus kann GPTbot Code von Websites und GitHub extrahieren Repositories und andere Quellen.
ChatGPT von OpenAI und andere generative KI-Tools stützen sich auf Daten von Websites, um die Modelle effizienter zu trainieren. Vor ein paar Monaten – als es noch Twitter hieß – blockierte Elon Musk OpenAI daran, Daten von der Social-Media-Plattform zu extrahieren.