Ihre Website kann sich jetzt vom Training von Googles Bard und zukünftigen KIs abmelden

Große Sprachmodelle werden mit allen Arten von Daten trainiert, von denen die meisten offenbar ohne Wissen oder Zustimmung von irgendjemandem gesammelt wurden. Jetzt haben Sie die Wahl ob Sie zulassen möchten, dass Ihre Webinhalte von Google als Material für die Bard-KI und alle zukünftigen Modelle verwendet werden, die das Unternehmen entwickeln möchte.

Es ist so einfach wie das Verbieten von „User-Agent: Google-Extended“ in der robots.txt-Datei Ihrer Website, dem Dokument, das automatisierten Webcrawlern mitteilt, auf welche Inhalte sie zugreifen können.

Obwohl Google behauptet, seine KI auf ethische und integrative Weise zu entwickeln, unterscheidet sich der Anwendungsfall des KI-Trainings deutlich von der Indexierung des Webs.

„Wir haben auch von Web-Publishern gehört, dass sie eine größere Auswahl und Kontrolle darüber wünschen, wie ihre Inhalte für neue Anwendungsfälle der generativen KI verwendet werden“, schreibt die VP of Trust des Unternehmens, Danielle Romain, in einem Blogbeitrag, als ob das so wäre eine Überraschung.

Interessanterweise kommt das Wort „trainieren“ in dem Beitrag nicht vor, obwohl diese Daten eindeutig dafür verwendet werden: als Rohmaterial zum Trainieren von Modellen für maschinelles Lernen.

Stattdessen fragt Sie der VP of Trust, ob Sie wirklich nicht „bei der Verbesserung der generativen KI-APIs von Bard und Vertex helfen wollen“ – „damit diese KI-Modelle mit der Zeit genauer und leistungsfähiger werden“.

Sehen Sie, es geht nicht um Google nehmen etwas von dir. Es geht darum, ob Sie es sind Bereit zu helfen.

Einerseits ist dies vielleicht die beste Art, diese Frage zu stellen, da die Einwilligung ein wichtiger Teil dieser Gleichung ist und eine positive Entscheidung, einen Beitrag zu leisten, genau das ist, wonach Google fragen sollte. Zum anderen die Tatsache, dass Bard und seine anderen Modelle dies getan haben bereits auf wirklich enorme Datenmengen trainiert wurde, die von Benutzern ohne deren Zustimmung gesammelt wurden, raubt diesem Rahmen jegliche Authentizität.

Die unausweichliche Wahrheit, die durch die Handlungen von Google bestätigt wird, ist, dass das Unternehmen den uneingeschränkten Zugriff auf die Daten des Webs ausgenutzt hat, sich die benötigten Daten besorgt hat und nun im Nachhinein um Erlaubnis bittet, um den Anschein zu erwecken, dass die Einwilligung und die ethische Datenerfassung für das Unternehmen Priorität haben. Wenn es so wäre, hätten wir diese Einstellung schon vor Jahren gehabt.

Zufälligerweise hat Medium heute gerade angekündigt, solche Crawler generell zu blockieren, bis es eine bessere, detailliertere Lösung gibt. Und sie sind bei weitem nicht die Einzigen.

tch-1-tech