Die Web-Publishing-Plattform Medium hat angekündigt, den GPTBot von OpenAI zu blockieren, einen Agenten, der Webseiten nach Inhalten durchsucht, die zum Trainieren der KI-Modelle des Unternehmens verwendet werden. Aber die wirkliche Neuigkeit könnte sein, dass eine Gruppe von Plattformen bald eine einheitliche Front gegen das bilden könnte, was viele als Ausbeutung ihrer Inhalte betrachten.
Medium schließt sich CNN, der New York Times und zahlreichen anderen Medien (allerdings noch nicht Tech) an und fügt „User-Agent: GPTBot“ zur Liste der nicht zugelassenen Agenten in seiner robots.txt-Datei hinzu. Hierbei handelt es sich um ein auf vielen Websites zu findendes Dokument, das Crawlern und Indexern, den automatisierten Systemen, die das Web ständig scannen, mitteilt, ob die Website dem Scannen zustimmt oder nicht. Wenn Sie beispielsweise aus irgendeinem Grund lieber nicht bei Google indexiert werden möchten, können Sie dies in Ihrer robots.txt-Datei angeben.
KI-Entwickler machen natürlich mehr als nur eine Indizierung: Sie extrahieren die Daten, um sie als Ausgangsmaterial für ihre Modelle zu verwenden. Nur wenige sind darüber glücklich, und schon gar nicht der CEO von Medium, Tony Stubblebine. Wer schreibt:
Ich bin kein Hasser, möchte aber auch klar zum Ausdruck bringen, dass der aktuelle Stand der generativen KI kein Nettovorteil für das Internet ist.
Sie verdienen Geld mit Ihren Texten, ohne Sie um Ihre Zustimmung zu bitten, und bieten Ihnen auch keine Vergütung oder Kredite an … KI-Unternehmen haben den Wert von Autoren ausgelaugt, um Internet-Leser zu spammen.
Deshalb, schreibt er, weist Medium OpenAI standardmäßig an, eine Wanderung durchzuführen, wenn sein Scraper anklopft. (Es ist eines der wenigen, das dieser Bitte nachkommen wird.)
Allerdings gibt er schnell zu, dass dieser im Wesentlichen freiwillige Ansatz wahrscheinlich keinen Einfluss auf die Handlungen von Spammern und anderen haben wird, die die Anfrage einfach ignorieren. Es besteht zwar auch die Möglichkeit aktiver Maßnahmen (z. B. die Vergiftung ihrer Daten, indem dumme Crawler auf gefälschte Inhalte verwiesen werden), aber dadurch entstehen Eskalation, Kosten und wahrscheinlich Klagen. Immer mit den Klagen.
Es gibt jedoch Hoffnung. Stubblebine schreibt:
Medium ist nicht allein. Wir rekrutieren aktiv für eine Koalition anderer Plattformen, um die Zukunft der fairen Nutzung im Zeitalter der KI herauszufinden.
Ich habe mit
, , , und gesprochen. Dies sind die großen Organisationen, die Sie wahrscheinlich erraten können, aber sie sind nicht bereit, öffentlich zusammenzuarbeiten.
Andere stehen vor dem gleichen Problem, und wie bei so vielen Dingen in der Technik führt die Ausrichtung mehrerer Menschen auf einen Standard oder eine Plattform zu einem Netzwerkeffekt und verbessert das Ergebnis für alle. Eine Koalition großer Organisationen wäre ein starkes Gegengewicht zu skrupellosen KI-Plattformen.
Was hält sie zurück? Leider entwickeln sich branchenübergreifende Partnerschaften aus allen erdenklichen Gründen im Allgemeinen nur langsam. Gemessen an den Standards der Veröffentlichung und des Urheberrechts ist KI absolut neu und es gibt unzählige rechtliche und ethische Fragen, auf die es keine klaren Antworten gibt, geschweige denn geklärte und allgemein akzeptierte.
Wie können Sie einer Partnerschaft zum Schutz geistigen Eigentums zustimmen, wenn die Definition von geistigem Eigentum und Urheberrecht im Wandel ist? Wie können Sie den Einsatz von KI verbieten, wenn Ihr Vorstand darauf drängt, Möglichkeiten zu finden, sie zum Vorteil des Unternehmens zu nutzen?
Es braucht vielleicht einen 900 Pfund schweren Internet-Gorilla wie Wikipedia, um einen mutigen ersten Schritt zu machen und das Eis zu brechen. Andere Organisationen mögen durch geschäftliche Bedenken gelähmt sein, aber es gibt auch andere, die von solchen Dingen nicht belastet sind und die ohne Angst vor einer Enttäuschung ihrer Aktionäre ruhig weitermachen können. Aber bis jemand eingreift, bleiben wir den Crawlern ausgeliefert, die unsere Zustimmung nach Belieben respektieren oder ignorieren.