Nachrichtenagenturen werfen Perplexity Plagiat und unethisches Web Scraping vor

Nachrichtenagenturen werfen Perplexity Plagiat und unethisches Web Scraping vor

Im Zeitalter generativer künstlicher Intelligenz, in dem Chatbots detaillierte Antworten auf Fragen auf Grundlage von aus dem Internet gezogenen Inhalten geben können, ist die Grenze zwischen fairer Verwendung und Plagiat sowie zwischen routinemäßigem Web Scraping und unethischer Zusammenfassung schmal.

Perplexity AI ist ein Startup, das eine Suchmaschine mit einem großen Sprachmodell kombiniert, das Antworten mit detaillierten Antworten statt nur Links generiert. Anders als ChatGPT von OpenAI und Claude von Anthropic trainiert Perplexity seine grundlegenden KI-Modelle nicht selbst, sondern verwendet offene oder kommerziell erhältliche Modelle, um die Informationen, die es aus dem Internet sammelt, in Antworten zu übersetzen.

Doch eine Reihe von Anschuldigungen im Juni deutet darauf hin, dass das Vorgehen des Startups an unethisches Verhalten grenzt. Forbes warf Perplexity vor, einen seiner Nachrichtenartikel in der Beta-Version der Perplexity Pages-Funktion des Startups plagiiert zu haben. Und Wired beschuldigt Perplexity des illegalen Scrapings seiner und anderer Websites.

Perplexity, das im April daran arbeitete, 250 Millionen Dollar bei einer Bewertung von fast 3 Milliarden Dollar einzusammeln, behauptet, nichts falsch gemacht zu haben. Das von Nvidia und Jeff Bezos unterstützte Unternehmen sagt, es habe den Aufforderungen der Herausgeber nachgekommen, keine Inhalte zu scrapen, und operiere im Rahmen der Fair-Use-Urheberrechtsgesetze.

Die Situation ist kompliziert. Im Kern geht es um Nuancen, die zwei Konzepte umgeben. Das erste ist das Robots Exclusion Protocol, ein Standard, mit dem Websites angeben, dass sie nicht möchten, dass ihre Inhalte von Webcrawlern abgerufen oder verwendet werden. Das zweite ist Fair Use im Urheberrecht, das den rechtlichen Rahmen für die Verwendung von urheberrechtlich geschütztem Material ohne Genehmigung oder Bezahlung unter bestimmten Umständen schafft.

Heimliches Scraping von Webinhalten

Schädlicher Internet-Crawler
Bildnachweise: Getty Images

In einem Artikel von Wired vom 19. Juni wird behauptet, dass Perplexity das Robots Exclusion Protocol ignoriert und heimlich Bereiche von Websites ausgelesen hat, auf die Bots nach Ansicht der Herausgeber keinen Zugriff haben sollen. Wired berichtete, dass es eine mit Perplexity verbundene Maschine dabei beobachtet habe, wie sie dies auf der eigenen Nachrichtenseite sowie auf anderen Publikationen der Muttergesellschaft Condé Nast getan habe.

Der Bericht stellte fest, dass Entwickler Robb Knight führte ein ähnliches Experiment durch und kam zum selben Schluss.

Sowohl die Wired-Reporter als auch Knight prüften ihre Vermutungen, indem sie Perplexity baten, eine Reihe von URLs zusammenzufassen und dann serverseitig beobachteten, wie eine mit Perplexity verbundene IP-Adresse diese Seiten besuchte. Perplexity „fasste“ dann den Text dieser URLs zusammen – im Fall einer Dummy-Website mit begrenztem Inhalt, die Wired zu diesem Zweck erstellte, gab es allerdings den Text der Seite wortwörtlich zurück.

Hier kommen die Nuancen des Robots Exclusion Protocol ins Spiel.

Web Scraping ist technisch wenn automatisierte Software, sogenannte Crawler, das Internet durchforsten, um Informationen von Websites zu indizieren und zu sammeln. Suchmaschinen wie Google tun dies, damit Webseiten in Suchergebnisse aufgenommen werden können. Andere Unternehmen und Forscher verwenden Crawler, um Daten aus dem Internet für Marktanalysen, akademische Forschung und, wie wir gelernt haben, zum Trainieren von Modellen des maschinellen Lernens zu sammeln.

Web Scraper, die dieses Protokoll einhalten, suchen zunächst im Quellcode einer Site nach der Datei „robots.txt“, um zu sehen, was erlaubt ist und was nicht. Heute ist es normalerweise nicht erlaubt, die Site eines Herausgebers zu scrapen, um riesige Trainingsdatensätze für KI zu erstellen. Suchmaschinen und KI-Unternehmen, darunter Perplexity, haben erklärt, dass sie das Protokoll einhalten, sind jedoch nicht gesetzlich dazu verpflichtet.

Der Geschäftsleiter von Perplexity, Dmitry Shevelenko, erklärte gegenüber Tech, dass das Zusammenfassen einer URL nicht dasselbe sei wie Crawling. „Crawling bedeutet, dass Sie einfach herumlaufen, Informationen aufsaugen und sie Ihrem Index hinzufügen“, sagte Shevelenko. Er merkte an, dass die IP von Perplexity nur dann als Besucher einer Website angezeigt werden könnte, die „ansonsten von robots.txt ausgeschlossen ist“, wenn ein Benutzer eine URL in seine Abfrage eingibt, die „nicht der Definition von Crawling entspricht“.

„Wir reagieren lediglich auf eine direkte und spezifische Benutzeranfrage, zu dieser URL zu gehen“, sagte Shevelenko.

Mit anderen Worten: Wenn ein Benutzer einer KI manuell eine URL bereitstellt, fungiert die KI laut Perplexity nicht als Webcrawler, sondern vielmehr als Tool, das dem Benutzer beim Abrufen und Verarbeiten der angeforderten Informationen hilft.

Für Wired und viele andere Herausgeber ist das jedoch ein Unterschied ohne Bedeutung, denn wenn man eine URL aufruft und daraus Informationen zieht, um den Text zusammenzufassen, gleicht das einem Scraping, wenn man das täglich tausende Male macht.

(Wired berichtete auch, dass Amazon Web Services, einer der Cloud-Dienstleister von Perplexity, Untersuchung des Startups für das Ignorieren des robots.txt-Protokolls zum Scrapen von Webseiten, die Benutzer in ihrer Eingabeaufforderung zitierten. AWS teilte Tech mit, dass der Bericht von Wired ungenau sei und dass es der Zeitung mitteilte, dass es ihre Medienanfrage wie jeden anderen Bericht über den Missbrauch des Dienstes bearbeite.)

Plagiat oder Fair Use?

Screenshot von Perplexity Pages
Forbes warf Perplexity vor, seinen Story über die Entwicklung KI-gesteuerter Kampfdrohnen durch den ehemaligen Google-CEO Eric Schmidt plagiiert zu haben.
Bildnachweise: Ratlosigkeit / Screenshot

Wired und Forbes haben Perplexity ebenfalls des Plagiats beschuldigt. Ironischerweise sagt Wired Perplexity plagiierte den Artikel in dem das Startup dafür gerügt wurde, heimlich seine Webinhalte zu scrapen.

Wired-Reporter berichteten, der Chatbot von Perplexity habe „einen sechs Absätze langen Text produziert, 287 Wörter langer Text fasst die Schlussfolgerungen der Geschichte und die Beweise, die zu ihnen geführt haben, genau zusammen.“ Ein Satz gibt einen Satz aus der Originalgeschichte exakt wieder; laut Wired handelt es sich dabei um Plagiat. Die Richtlinien des Poynter Institute sagen, es könnte sich um Plagiat handeln, wenn der Autor (oder die KI) sieben aufeinanderfolgende Wörter aus dem ursprünglichen Werk verwendet hat.

Forbes warf Perplexity außerdem Plagiat vor. Die Nachrichtenseite veröffentlichte eine Untersuchungsbericht Anfang Juni berichtete Google-Chef Eric Schmidt, dass sein neues Unternehmen massiv neue Mitarbeiter rekrutiert und KI-betriebene Drohnen für militärische Anwendungen testet. Am nächsten Tag berichtete Forbes-Redakteur John Paczkowski gepostet am X und sagte, dass Ratlosigkeit veröffentlichte den Knüller erneut als Teil der Betafunktion Perplexity Pages.

Ratlosigkeitsseitendas derzeit nur für bestimmte Perplexity-Abonnenten verfügbar ist, ist ein neues Tool, das den Benutzern laut Perplexity dabei helfen soll, Recherchen in „visuell beeindruckende, umfassende Inhalte“ umzuwandeln. Beispiele für solche Inhalte auf der Website stammen von den Mitarbeitern des Startups und umfassen Artikel wie „Ein Anfängerleitfaden zum Schlagzeugspielen“ oder „Steve Jobs: visionärer CEO“.

„Es raubt den Großteil unserer Berichterstattung aus“, schrieb Paczkowski. „Es zitiert uns und einige, die uns rebloggten, auf eine möglichst leicht zu ignorierende Art und Weise als Quellen.“

Forbes berichtete dass viele der vom Perplexity-Team kuratierten Beiträge „auffallend ähnlich zu Originalbeiträgen aus mehreren Publikationen sind, darunter Forbes, CNBC und Bloomberg“. Forbes sagte, die Beiträge hätten Zehntausende Aufrufe erhalten und keine der Publikationen im Artikeltext namentlich erwähnt. Vielmehr enthielten die Artikel von Perplexity Quellenangaben in Form von „kleinen, leicht zu übersehenden Logos, die auf sie verweisen“.

Darüber hinaus sagte Forbes, der Beitrag über Schmidt enthalte „nahezu identische Formulierungen“ wie Forbes‘ Kurzmeldung. Die Zusammenstellung enthielt auch ein vom Forbes-Designteam erstelltes Bild, das von Perplexity leicht verändert worden zu sein schien.

Aravind Srinivas, CEO von Perplexity, antwortete damals gegenüber Forbes, dass sein Startup in Zukunft Quellen deutlicher hervorheben werde – eine Lösung, die jedoch nicht hundertprozentig sicher ist, da es bei Zitaten selbst technische Schwierigkeiten gibt. ChatGPT und andere Modelle haben halluzinierte Linksund da Perplexity OpenAI-Modelle verwendet, ist es wahrscheinlich anfällig für solche Halluzinationen. Tatsächlich berichtete Wired, dass es beobachtet habe, wie Perplexity ganze Geschichten halluzinierte.

Srinivas und das Unternehmen haben nicht nur die „Ecken und Kanten“ von Perplexity bemerkt, sondern auch das Recht von Perplexity, solche Inhalte für Zusammenfassungen zu verwenden, weitgehend bekräftigt.

Hier kommen die Nuancen des Fair Use ins Spiel. Plagiate sind zwar verpönt, technisch gesehen jedoch nicht illegal.

Entsprechend der US-amerikanisches Urheberrechtsamtist es legal, begrenzte Teile eines Werks, einschließlich Zitate, für Zwecke wie Kommentare, Kritik, Nachrichtenberichte und wissenschaftliche Berichte zu verwenden. KI-Unternehmen wie Perplexity vertreten die Ansicht, dass die Bereitstellung einer Zusammenfassung eines Artikels im Rahmen der fairen Verwendung liegt.

„Niemand hat ein Monopol auf Fakten“, sagte Shevelenko. „Wenn Fakten erst einmal ans Licht gekommen sind, stehen sie jedem zur Verfügung.“

Shevelenko verglich die Zusammenfassungen von Perplexity damit, wie Journalisten häufig Informationen aus anderen Nachrichtenquellen verwenden, um ihre eigene Berichterstattung zu untermauern.

Mark McKenna, Professor für Recht am UCLA Institute for Technology, Law & Policy, sagte gegenüber Tech, die Situation sei nicht leicht zu entwirren. In einem Fair-Use-Fall würden die Gerichte abwägen, ob die Zusammenfassung viele der Formulierungen des Originalartikels verwendet oder nur die Ideen. Sie könnten auch prüfen, ob das Lesen der Zusammenfassung ein Ersatz für das Lesen des Artikels sein könnte.

„Es gibt keine klaren Grenzen“, sagte McKenna. „Also [Perplexity] Wenn man sachlich sagt, was ein Artikel sagt oder berichtet, würde man nicht urheberrechtlich geschützte Aspekte des Werks verwenden. Das wären nur Fakten und Ideen. Aber je mehr die Zusammenfassung tatsächliche Ausdrücke und Texte enthält, desto mehr sieht sie eher wie eine Reproduktion aus als nur wie eine Zusammenfassung.“

Unglücklicherweise für die Herausgeber gelten die Zusammenfassungen möglicherweise nicht als Verstoß gegen die Fair-Use-Regeln, sofern Perplexity nicht die vollständigen Ausdrücke verwendet (was in manchen Fällen offenbar der Fall ist).

So will sich Perplexity schützen

KI-Unternehmen wie OpenAI haben Medienverträge mit einer Reihe von Nachrichtenverlagen abgeschlossen, um auf deren aktuelle und archivierte Inhalte zuzugreifen und damit ihre Algorithmen zu trainieren. Im Gegenzug verspricht OpenAI, Nachrichtenartikel dieser Verlage als Antwort auf Benutzeranfragen in ChatGPT anzuzeigen. (Aber selbst das hat einige Probleme, die gelöst werden müssenwie Nieman Lab letzte Woche berichtete.)

Perplexity hat sich mit der Bekanntgabe seiner eigenen Medienverträge zurückgehalten, vielleicht weil es darauf wartet, dass die Vorwürfe gegen das Unternehmen sich legen. Aber das Unternehmen ist mit Volldampf dabei, eine Reihe von Verträgen mit Verlagen zur Beteiligung an Werbeeinnahmen abzuschließen.

Die Idee ist, dass Perplexity Anzeigen neben den Antworten auf Anfragen einfügt und Herausgeber, deren Inhalt in einer Antwort zitiert wird, einen Teil der entsprechenden Werbeeinnahmen erhalten. Shevelenko sagte, Perplexity arbeite auch daran, Herausgebern Zugriff auf seine Technologie zu gewähren, damit sie Q&A-Erlebnisse erstellen und Dinge wie verwandte Fragen nativ in ihre Websites und Produkte integrieren können.

Aber ist das bloß ein Feigenblatt für systematischen IP-Diebstahl? Perplexity ist nicht der einzige Chatbot, der droht, Inhalte so vollständig zusammenzufassen, dass die Leser nicht mehr erkennen, warum sie zum Originalmaterial weiterklicken müssen.

Und wenn KI-Scraper wie diese weiterhin die Arbeit der Verlage übernehmen und für ihre eigenen Geschäfte nutzen, wird es für die Verlage schwieriger, Werbedollar zu verdienen. Das bedeutet, dass es irgendwann weniger Inhalte zum Scrapen geben wird. Wenn es keine Inhalte mehr zum Scrapen gibt, werden generative KI-Systeme auf das Training mit synthetischen Daten umsteigen, was zu einer höllischen Rückkopplungsschleife potenziell verzerrter und ungenauer Inhalte führen könnte.

tch-1-tech