Microsoft untersucht eine Möglichkeit, Mitwirkende für KI -Schulungsdaten zu kreditieren

Microsoft startet ein Forschungsprojekt, um den Einfluss spezifischer Schulungsbeispiele auf Text, Bilder und andere Medienarten zu schätzen, die generative KI -Modelle erstellen.

Das ist per eine Jobliste stammt aus dem Dezember, der kürzlich auf LinkedIn recirculiert wurde.

Laut der Auflistung, die einen Forschungspraktikum anstrebt, wird das Projekt versuchen zu zeigen, dass Modelle so geschult werden können, dass die Auswirkungen bestimmter Daten – z. B. Fotos und Bücher – auf ihre Ausgaben „effizient und sinnvoll geschätzt“ werden können.

„Die aktuellen neuronalen Netzwerkarchitekturen sind undurchsichtig, wenn es darum geht, Quellen für ihre Generationen bereitzustellen, und es gibt es […] Gute Gründe, dies zu ändern “, heißt es in der Auflistung.“[One is,] Anreize, Anerkennung und potenziell bezahlen für Menschen, die bestimmte wertvolle Daten zu unvorhergesehenen Arten von Modellen einbringen, die wir in Zukunft wünschen, vorausgesetzt, die Zukunft wird uns grundlegend überraschen. “

AI-betriebene Text-, Code-, Bild-, Video- und Songgeneratoren stehen im Zentrum von Mitte eine Reihe von IP -Klagen gegen KI -Unternehmen. Häufig schulen diese Unternehmen ihre Modelle mit massiven Datenmengen von öffentlichen Websites, von denen einige urheberrechtlich geschützt sind. Viele der Unternehmen argumentieren das Lehre faire Verwendung Schaltet ihre Datenbeschaffungs- und Schulungspraktiken. Aber Kreative – von Künstlern über Programmierer bis hin zu Autoren – sind sich weitgehend nicht einig.

Microsoft selbst steht vor mindestens zwei rechtlichen Herausforderungen von Urheberrechtsinhabern.

Die New York Times verklagte im Dezember den Tech -Riese und ihren irgendwanner Mitarbeiter Openai und beschuldigte die beiden Unternehmen, gegen das Urheberrecht der Zeiten verletzt, indem er Modelle einsetzte, die auf Millionen ihrer Artikel geschult wurden. Mehrere Softwareentwickler haben auch Klage gegen Microsoft eingereicht und behauptet, dass der Github Copilot AI -Codierungsassistent des Unternehmens mit ihren geschützten Arbeiten rechtswidrig geschult wurde.

Die neue Forschungsbemühungen von Microsoft, die die Auflistung als „Herkunftszeit für Trainingszeit“ bezeichnet, Berichten zufolge hat die Beteiligung von Jaron Lanier, Der versierte Technologe und interdisziplinäre Wissenschaftler bei Microsoft Research. In einem April 2023 im New YorkerLanier schrieb über das Konzept der „Datenwürde“, was für ihn bedeutete, „digitale Dinge“ mit „den Menschen zu verbinden, die dafür bekannt sein wollen, es geschafft zu haben.

„Ein Daten-Dignitäts-Ansatz würde die einzigartigsten und einflussreichsten Mitwirkenden zurückführen, wenn ein großes Modell eine wertvolle Ausgabe liefert“, schrieb Lanier. „Wenn Sie beispielsweise ein Modell für ‚einen animierten Film meiner Kinder in einer öllackierenden Welt von Katzen auf einem Abenteuer bitten, dann könnten bestimmte wichtige Ölmaler, Katzenporträtisten, Sprachdarsteller und Schriftsteller-oder deren Ländereien-berechnet werden, dass sie für die Erstellung des neuen Meisterwerks eindeutig wesentlich sind.“ Sie werden möglicherweise sogar bezahlt. „

Es gibt nicht für nichts, bereits mehrere Unternehmen, die dies versuchen. Der KI -Modellentwickler Bria, der kürzlich 40 Millionen US -Dollar an Risikokapital gesammelt hat, behauptet, Datenbesitzer „programmgesteuert“ nach ihrem „Gesamteinfluss“ zu entschädigen. Adobe und Shutterstock vergeben auch regelmäßige Auszahlungen an Datensatzversorgungsmitglieder, obwohl die genauen Auszahlungsbeträge in der Regel undurchsichtig sind.

Nur wenige große Labors haben individuelle Auszahlungsprogramme außerhalb von Inking -Lizenzvereinbarungen mit Verlage, Plattformen und Datenmakler festgelegt. Sie haben stattdessen den Urheberrechtsinhabern die Mittel zur Verfügung gestellt, um das Training zu „abgeben“. Einige dieser Opt-out-Prozesse sind jedoch belastend und gelten nur für zukünftige Modelle-nicht für zuvor ausgebildete.

Natürlich kann das Projekt von Microsoft kaum mehr als einen Proof of Concept sein. Dafür gibt es Präzedenzfälle. Bereits im Mai sagte OpenAI, dass es ähnliche Technologien entwickelte, mit denen die Ersteller angeben würden, wie ihre Arbeiten in den Schulungsdaten aufgenommen werden oder ausgeschlossen werden. Aber fast ein Jahr später hat das Tool noch nicht das Licht des Tages erblickt, und es wurde oft nicht als Priorität angesehen.

Microsoft versucht es möglicherweise auch “Ethikwäsche,”Hier – oder gehen Sie auf regulatorische und/oder gerichtliche Entscheidungen, die sich für das KI -Geschäft stören.

Das Unternehmen untersucht jedoch nach Möglichkeiten, die Schulungsdaten zu verfolgen, angesichts der kürzlich ausdrücklichen Stanzen anderer AI -Labors für den fairen Gebrauch. Einige der Top -Labore, einschließlich Google und Openai, haben Richtliniendokumente veröffentlicht, die empfehlen, dass die Trump -Verwaltung den Urheberrechtsschutz in Bezug auf die KI -Entwicklung schwächt. OpenAI hat die US -Regierung ausdrücklich aufgefordert, den fairen Gebrauch für das Modelltraining zu kodifizieren, was die Entwickler von belastenden Beschränkungen freigeben würden.

Microsoft antwortete nicht sofort auf eine Anfrage nach Kommentar.

tch-1-tech