Als generative KI eintritt Im Mainstream bringt jeder neue Tag eine neue Klage.
Microsoft, GitHub und OpenAI werden derzeit verklagt in einem Antrag auf Sammelklage das ihnen vorwirft, gegen das Urheberrecht verstoßen zu haben, indem es Copilot, einem Code generierenden KI-System, das auf Milliarden von Zeilen öffentlichen Codes trainiert wurde, erlaubt, lizenzierte Codeschnipsel ohne Angabe von Quellen wiederzukäuen.
Zwei Unternehmen hinter beliebten KI-Kunstwerkzeugen, MidJourney und Stability AI, stehen im Fadenkreuz von a Rechtsfall die behauptet, sie hätten die Rechte von Millionen von Künstlern verletzt, indem sie ihre Werkzeuge auf webgekratzten Bildern trainierten.
Und erst letzte Woche verklagte der Bildlieferant Getty Images Stability AI angeblich Verwendung von Millionen von Bildern von seiner Website ohne Erlaubnis, um Stable Diffusion, eine kunstgenerierende KI, zu trainieren.
Hauptsächlich geht es um die Tendenz der generativen KI, Bilder, Texte und mehr – einschließlich urheberrechtlich geschützter Inhalte – aus den Daten zu replizieren, mit denen sie trainiert wurde. In einem kürzlich Beispielsweise wurde festgestellt, dass ein KI-Tool, das von CNET zum Schreiben von erklärenden Artikeln verwendet wird, plagiierte Artikel enthält, die von Menschen geschrieben wurden – Artikel, die vermutlich in seinen Trainingsdatensatz gefegt wurden. Unterdessen fand eine im Dezember veröffentlichte wissenschaftliche Studie heraus, dass bildgenerierende KI-Modelle wie DALL-E 2 und Stable Diffusion dies können und tun Aspekte von Bildern aus ihren Trainingsdaten replizieren.
Der Bereich der generativen KI bleibt gesund – er sammelte bis November 2022 1,3 Milliarden Dollar an Risikokapital, gemäß zu Pitchbook, 15 % mehr als im Vorjahr. Aber die rechtlichen Fragen beginnen, das Geschäft zu beeinflussen.
Einige Bildhosting-Plattformen haben KI-generierte Inhalte aus Angst vor einem rechtlichen Rückschlag verboten. Und mehrere Rechtsexperten haben davor gewarnt, dass generative KI-Tools Unternehmen gefährden könnten, wenn sie unwissentlich urheberrechtlich geschützte Inhalte, die von den Tools generiert wurden, in eines der von ihnen verkauften Produkte integrieren.
„Leider erwarte ich eine Flut von Rechtsstreitigkeiten für fast alle generativen KI-Produkte“, sagte Heather Meeker, Rechtsexpertin für Open-Source-Softwarelizenzierung und Komplementärin bei OSS Capital, per E-Mail gegenüber Tech. „Das Urheberrecht muss geklärt werden.“
Inhaltsersteller wie der polnische Künstler Greg Rutkowski, der für die Schaffung von Fantasielandschaften bekannt ist, sind zum Gesicht von Kampagnen geworden, die gegen die Behandlung von Künstlern durch generative KI-Startups protestieren. Rutkowski hat sich über die Tatsache beschwert, dass die Eingabe von Text wie „Zauberer mit Schwert und einer leuchtenden Kugel aus magischem Feuer kämpft gegen einen wilden Drachen Greg Rutkowski“ ein Bild erzeugt, das seiner ursprünglichen Arbeit sehr ähnlich sieht – und sein Einkommen bedroht.
Angesichts der Tatsache, dass die generative KI nirgendwohin führt, was kommt als nächstes? Welche Rechtsfälle haben sich bewährt und welche gerichtlichen Auseinandersetzungen stehen bevor?
Eliana Torres, eine Anwältin für geistiges Eigentum bei Nixon Peabody, sagt, dass die Behauptungen der Sammelklage gegen Stability AI, MidJourney und DeviantArt vor Gericht schwer zu beweisen sein werden. Sie glaubt insbesondere, dass es schwierig sein wird, festzustellen, welche Bilder zum Trainieren der KI-Systeme verwendet wurden, da die von den Systemen generierte Kunst nicht unbedingt genau wie eines der Trainingsbilder aussehen wird.
Moderne Bilderzeugungssysteme wie Stable Diffusion sind sogenannte „Diffusions“-Modelle. Diffusionsmodelle lernen, Bilder aus Textaufforderungen zu erstellen (z. B. „eine Skizze eines Vogels, der auf einer Fensterbank sitzt“), während sie sich durch riesige Trainingsdatensätze arbeiten. Die Modelle werden darauf trainiert, Bilder „neu zu erstellen“, anstatt sie von Grund auf neu zu zeichnen, beginnend mit reinem Rauschen und das Bild im Laufe der Zeit zu verfeinern, um es schrittweise näher an die Textaufforderung zu bringen.
Perfekte Erholungen kommen nicht oft vor, um Torres zu zeigen. Bei Bildern im Stil eines bestimmten Künstlers hat es sich als nahezu unmöglich erwiesen, den Stil durch das Urheberrecht abzuschirmen.
„Es wird … eine Herausforderung sein, eine allgemeine Akzeptanz der Definition von „im Stil von“ als „ein Werk, das andere als ein Werk akzeptieren würden, das von diesem Künstler geschaffen wurde, dessen Stil aufgerufen wurde“, was in der Beschwerde erwähnt wird [i.e. against Stability AI et al]“, sagte Torres Tech in einem E-Mail-Interview.
Torres glaubt auch, dass die Klage nicht gegen die Schöpfer dieser KI-Systeme gerichtet werden sollte, sondern gegen die Partei, die für die Zusammenstellung der Bilder verantwortlich ist, mit denen sie trainiert werden: Large-scale Artificial Intelligence Open Network (LAION), eine gemeinnützige Organisation. MidJourney, DeviantArt und Stability AI verwenden Trainingsdaten aus den Datensätzen von LAION, die Milliarden von Bildern aus dem gesamten Internet umfassen.
„Wenn LAION den Datensatz erstellt hat, dann ist die mutmaßliche Verletzung an diesem Punkt aufgetreten, nicht nachdem der Datensatz zum Trainieren der Modelle verwendet wurde“, sagte Torres. „Das ist genauso, wie ein Mensch in eine Galerie gehen und sich Gemälde ansehen, aber keine Fotos machen darf.“
Unternehmen wie Stability AI und OpenAI, das Unternehmen hinter ChatGPT, das jetzt mit TKTK $ bewertet wird, behaupten seit langem, dass „Fair Use“ sie schützt, falls ihre Systeme auf lizenzierte Inhalte trainiert wurden. Diese im US-Recht verankerte Doktrin erlaubt die eingeschränkte Nutzung von urheberrechtlich geschütztem Material, ohne dass zuvor die Genehmigung des Rechteinhabers eingeholt werden muss.
Befürworter verweisen auf Fälle wie Authors Guild gegen Google, in dem das in New York ansässige US-Berufungsgericht für den zweiten Gerichtsbezirk entschied, dass Google Millionen von urheberrechtlich geschützten Büchern manuell ohne Lizenz scannt, um sein Buchsuchprojekt zu erstellen. Was Fair Use ausmacht, wird ständig in Frage gestellt und überarbeitet, aber im Bereich der generativen KI ist es eine besonders ungeprüfte Theorie.
Ein kürzlich Artikel in Bloomberg Law behauptet, dass der Erfolg einer Fair-Use-Verteidigung davon abhängt, ob die von der KI generierten Werke berücksichtigt werden transformativ— mit anderen Worten, ob sie die urheberrechtlich geschützten Werke in einer Weise verwenden, die sich erheblich von den Originalen unterscheidet. Frühere Rechtsprechung, insbesondere die des Obersten Gerichtshofs von 2021 Google gegen Oracle Entscheidung, legt nahe, dass die Verwendung gesammelter Daten zur Erstellung neuer Werke transformativ sein kann. In diesem Fall wurde die Verwendung von Teilen des Java-SE-Codes durch Google zur Erstellung seines Android-Betriebssystems als faire Verwendung befunden.
Interessanterweise haben andere Länder einen Schritt hin zu einer freizügigeren Nutzung öffentlich zugänglicher Inhalte – ob urheberrechtlich geschützt oder nicht – signalisiert. Das Vereinigte Königreich plant beispielsweise, ein bestehendes Gesetz zu optimieren, um Text- und Data-Mining „für jeden Zweck“ zuzulassen, wodurch das Machtgleichgewicht von den Rechteinhabern weg und stark in Richtung Unternehmen und andere kommerzielle Einrichtungen verschoben wird. In den USA gab es jedoch keinen Appetit auf eine solche Veränderung, und Torres erwartet nicht, dass sich dies in absehbarer Zeit ändern wird – wenn überhaupt.
TKTK-Übergang (nuancierter als …)
Der Fall Getty ist etwas differenzierter. Getty – was Torres Notes hat noch keine formelle Beschwerde eingereicht – muss Schäden aufzeigen und jede behauptete Verletzung mit bestimmten Bildern in Verbindung bringen. Aber Getty erwähnt in seiner Erklärung, dass es kein Interesse an finanziellen Schäden habe und lediglich nach einem „neuen rechtlichen Status quo“ suche.
Andrew Burt, einer der Gründer der auf KI fokussierten Anwaltskanzlei BNH.ai, ist anderer Meinung Torres in dem Maße, in dem er glaubt, dass generative KI-Klagen, die sich auf Fragen des geistigen Eigentums konzentrieren, „relativ unkompliziert“ sein werden. Wenn urheberrechtlich geschützte Daten zum Trainieren von KI-Systemen verwendet wurden – sei es aufgrund von Einschränkungen des geistigen Eigentums oder der Privatsphäre – sollten und werden diese Systeme seiner Ansicht nach mit Bußgeldern oder anderen Strafen belegt werden.
Burt wies darauf hin, dass die Federal Trade Commission (FTC) diesen Weg bereits mit dem verfolgt, was sie „algorithmische Degorgierung“, wo es Technologiefirmen dazu zwingt, problematische Algorithmen zusammen mit allen unrechtmäßig erlangten Daten, mit denen sie sie trainiert haben, zu töten. In einem aktuellen Beispiel nutzte die FTC das Mittel der algorithmischen Degorgierung, um Everalbum, den Hersteller einer inzwischen nicht mehr existierenden mobilen App namens Ever, zu zwingen, Gesichtserkennungsalgorithmen zu löschen, die das Unternehmen unter Verwendung von Inhalten entwickelt hatte, die von Personen hochgeladen wurden, die seine App nutzten. (Everalbum machte nicht deutlich, dass die Daten der Benutzer zu diesem Zweck verwendet wurden.)
„Ich würde erwarten, dass sich generative KI-Systeme in dieser Hinsicht nicht von traditionellen KI-Systemen unterscheiden“, sagte Burt.
Was sollen Unternehmen also tun, wenn Präzedenzfälle und Leitlinien fehlen? Torres und Burt sind sich einig, dass es keine offensichtliche Antwort gibt.
Torres ihrerseits empfiehlt, sich die Nutzungsbedingungen für jedes kommerzielle generative KI-System genau anzusehen. Sie stellt fest, dass MidJourney unterschiedliche Rechte für bezahlte und unbezahlte Benutzer hat, während DALL-E von OpenAI Benutzern Rechte an generierter Kunst zuweist, sie gleichzeitig vor „ähnlichen Inhalten“ warnt und zur Sorgfaltspflicht auffordert, um Verstöße zu vermeiden.
„Unternehmen sollten sich der Nutzungsbedingungen bewusst sein und ihrer Sorgfaltspflicht nachkommen, z. B. durch umgekehrte Bildsuchen der erstellten Arbeit, die für die kommerzielle Nutzung bestimmt ist“, fügte sie hinzu.
Burt empfiehlt Unternehmen, Risikomanagement-Frameworks wie das vom National Institute of Standards and Technology herausgegebene AI Risk Management Framework einzuführen, das Anleitungen dazu gibt, wie Risiken beim Design und Einsatz von KI-Systemen angegangen und gemindert werden können. Er schlägt außerdem vor, dass Unternehmen ihre Systeme kontinuierlich auf potenzielle rechtliche Verpflichtungen testen und überwachen.
„Während generative KI-Systeme das KI-Risikomanagement erschweren – es ist, um fair zu sein, viel einfacher, ein KI-System zu überwachen, das binäre Vorhersagen für Risiken macht –, gibt es konkrete Maßnahmen, die ergriffen werden können“, sagte Burt.
Einige Firmen haben unter dem Druck von Aktivisten und Erstellern von Inhalten Schritte in die richtige Richtung unternommen. Stability AI plant, es Künstlern zu ermöglichen, den Datensatz abzulehnen, der zum Trainieren des Stable Diffusion-Modells der nächsten Generation verwendet wird. Über die Website HaveIBeenTrained.com können Rechteinhaber Opt-outs beantragen, bevor das Training in einigen Wochen beginnt. Der Rivale OpenAI bietet keinen solchen Opt-out-Mechanismus, aber das Unternehmen hat sich mit Organisationen wie Shutterstock zusammengetan, um Teile ihrer Bildergalerien zu lizenzieren.
Für Copilot hat GitHub einen Filter eingeführt, der Codevorschläge mit ihrem umgebenden Code von etwa 150 Zeichen gegen öffentlichen GitHub-Code prüft und Vorschläge ausblendet, wenn es eine Übereinstimmung oder „nahezu Übereinstimmung“ gibt. Es ist eine unvollkommene Maßnahme – das Aktivieren des Filters kann dazu führen, dass Copilot wichtige Teile der Zuordnung und des Lizenztextes weglässt – aber GitHub hat angekündigt, dass es plant, im Jahr 2023 zusätzliche Funktionen einzuführen, die darauf abzielen, Entwicklern dabei zu helfen, fundierte Entscheidungen darüber zu treffen, ob sie die Vorschläge von Copilot verwenden.
Mit Blick auf zehntausend Fuß glaubt Burt, dass die generative KI immer häufiger eingesetzt wird, ohne zu verstehen, wie man mit ihren Gefahren umgeht. Er lobt die Bemühungen, die offensichtlichen Probleme zu bekämpfen, wie zum Beispiel urheberrechtlich geschützte Werke, die zum Trainieren von Inhaltsgeneratoren verwendet werden. Er warnt jedoch davor, dass die Undurchsichtigkeit der Systeme Druck auf die Unternehmen ausüben wird, um zu verhindern, dass die Systeme Chaos anrichten – und einen Plan zu haben, um die Risiken der Systeme anzugehen, bevor sie in die Wildnis entlassen werden.
„Generative KI-Modelle gehören zu den aufregendsten und neuartigsten Anwendungen der KI – mit dem klaren Potenzial, die ‚Wissensökonomie‘ zu verändern“, sagte er. „Wie bei KI in vielen anderen Bereichen ist die Technologie weitgehend vorhanden und einsatzbereit. Was noch nicht ausgereift ist, sind die Möglichkeiten, alle Risiken zu managen. Ohne eine durchdachte, ausgereifte Bewertung und Bewältigung der Schäden dieser Systeme riskieren wir den Einsatz einer Technologie, bevor wir verstehen, wie wir verhindern können, dass sie Schaden anrichtet.“
Meeker ist pessimistischer und argumentiert, dass nicht alle Unternehmen – unabhängig von den Maßnahmen, die sie ergreifen – in der Lage sein werden, die mit der generativen KI verbundenen Rechtskosten zu tragen. Dies weise auf den dringenden Klärungs- oder Änderungsbedarf im Urheberrecht hin, sagt sie.
„Wenn KI-Entwickler nicht wissen, welche Daten sie zum Trainieren von Modellen verwenden können, könnte die Technologie um Jahre zurückgeworfen werden“, sagte Meeker. „In gewisser Weise können sie nichts tun, denn wenn Unternehmen nicht in der Lage sind, Modelle rechtmäßig mit frei verfügbaren Materialien zu trainieren, werden sie nicht genügend Daten haben, um die Modelle zu trainieren. Es gibt nur verschiedene langfristige Lösungen wie Opt-in- oder Opt-out-Modelle oder Systeme, die Lizenzgebühren für die Zahlung an alle Autoren aggregieren … Die Klagen gegen KI-Unternehmen wegen Aufnahme von urheberrechtlich geschütztem Material zum Trainieren von Modellen sind für die Branche potenziell lähmend. [and] könnte zu einer Konsolidierung führen, die die Innovation einschränken würde.“