Il New York Timesconsidéré par les locaux et les étrangers comme le journal le plus influent du monde, a décidé de mettre le pied sur le mur en ce qui concerne les libertés que pourraient prendre les entreprises impliquées dans le développement de l’Intelligence Artificielle avec leurs contenus et a poursuivi OpenAIcréateur des modèles GPT-4 et ChatGPT, déjà Microsoft, qui utilise la même technologie LLM dans plusieurs de ses programmes les plus populaires, devant les tribunaux américains. Après plusieurs mois de négociations infructueuses, comme l’a admis un porte-parole d’OpenAIet quelques semaines après, on a appris que le groupe Springer avait décidé de se mettre d’accord avec l’entreprise de Sam Altman et éviter de porter leurs différends devant les tribunaux, le journal du Famille Sulzberger Elle ouvre une bataille judiciaire risquée pour la défense de ses intérêts, qui apparaît longue et incertaine. Bien que cela puisse paraître autrement, il n’est pas clair que le New York Times puisse facilement gagner ce litige ni que les sociétés d’IA n’aient pas le droit d’utiliser le contenu protégé qu’elles ont utilisé. Quoi qu’il arrive, la décision de justice, s’il n’y a pas d’accord pour arrêter le processus, Ce sera historique et marquera un avant et un après dans l’utilisation, aujourd’hui essentielle, de contenus protégés par le droit d’auteur dans l’entraînement des modèles d’IA.
Nous avons déjà expliqué dans la première entrée de « La machine intelligente» comment il a été découvert, dans une enquête menée par le Washington Postl’utilisation aveugle de ce contenu « protégé par le droit d’auteur » par les entreprises qui ont créé ces « modèles fondamentaux » d’IA, une pratique qu’elles ont menée sans jamais consulter les propriétaires légitimes de ces données sur ce qu’elles en faisaient.
Le New York Times ne se contente pas de démontrer dans son demande (ici disponible) avec la preuve de cette utilisation non autorisée, mais va plus loin et révèle également les conséquences de cette utilisation. Le journal démontre que le contenu des articles du journal, même fermé derrière son paywall, est entièrement accessible sur ChatGPT si on pose une question précise au chatbot. Le journal new-yorkais utilise une référence aussi populaire que l’article «avalanche« , considéré comme le modèle fondateur du nouveaux récits journalistiques sur Internet. ChatGPT répond joyeusement en donnant le premier paragraphe de l’article et le deuxième, si nécessaire. Selon le procès, il copie même le style éditorial du journal new-yorkais en résumant le contenu de « Snowfall ». Dans un autre exemple de Bing, le moteur de recherche de Microsoft qui utilise déjà la technologie ChatGPT, le contenu d’un article de journal est cité textuellement.en ce sens qu’à aucun moment il n’est lié avec le contenu original. Les deux exemples démontreraient, d’une part, que les millions de contenus de la presse mondiale utilisés non seulement servaient de base à la formation et que l’IA les oubliait ensuite une fois utilisés, mais que Toujours làet, d’autre part, qu’il existe un utilisation inappropriée du contenu original sans citation. Pour cette raison, le journal souligne dans le procès que ces modèles d’IA sont en concurrence directe avec le New York Times, utilisant également ses informations dans un rôle « de source d’information fiable ». Une concurrence, si l’on partage le point de vue du journal, hautement déloyale. Comme si cela ne suffisait pas, non seulement ils entrent en concurrence avec le contenu des autres, mais les hallucinations de l’IA minent le prestige du journal en lui attribuant des articles qui ne sont pas les leurs.
Détail du procès du New York Times montrant que l’article original et la réponse de ChatGPT sont presque identiques. INFORMATIONS / NYT
Tout cela signifie-t-il que le New York Times a de bonnes chances de gagner demande? Il y a de nombreuses raisons de le penser et c’est pourquoi ils ont pris cette mesure, dans laquelle il y a un objectif juridique évident de réparation du préjudice sous la forme d’une indemnisation substantielle. compensation mais aussi beaucoup de acte de témoignage marquer les limites : l’étendard du journalisme mondialisé contre les grands mandarins de la technologie, intouchables jusqu’à présent. Mais il existe également de nombreux autres arguments qui suggèrent que que la victoire est difficile. Pour commencer, même pas dans le «Loi IA», La loi européenne sur l’intelligence artificielle établit l’obligation pour, rétroactivement, les développeurs des modèles fondamentaux d’IA révèlent les sources du contenu qu’ils ont utilisé dans la formation. Oui, ce sera dès l’entrée en vigueur de la nouvelle règle. Cependant, même si le Législation européenne protège très fortement le droit d’auteur, tout autant que le droit nord-américain, il existe des exceptions notables à ce droit, notamment dans ce dernier, auxquelles les entreprises numériques se sont accrochées comme un ongles brûlants remportant des victoires judiciaires notables.
Un exemple clair est la demande Quoi Google gagné Guilde des auteurs, le plus ancien syndicat d’auteurs aux États-Unis, pour une pratique courante chez Google Books : copier sans autorisation des parties de dizaines de millions de livres, parfois des chapitres entiers, qui étaient offerts gratuitement comme « apéritif » ou « réclamation » à des lecteurs comme des moyens de faciliter l’achat en faisant connaître son contenu. Les auteurs, qui détenaient des droits d’auteur évidents sur leurs propres œuvres, n’ont pas été consultés sur cette pratique et ont saisi les tribunaux. Mais étonnamment, ces Ils ont donné raison à Google. Selon les juges, ce que le moteur de recherche a fait était une stratégie « hautement transformatrice », qui a créé un nouveau concept à partir de contenu étranger et, par conséquent, en apportant une utilité sociale, c’était un exemple de «utilisation équitable». Le tweet de X sur ces lignes compare les deux cas et se demande dans quelle mesure ils ne peuvent pas être liés.
gardez ceux-là trois notions: « transformateur », « utilité sociale » et « usage légitime ». Tous trois ont de bonnes chances de constituer le clé du coffre-fort plus que probablement le stratégie juridique combien OpenAI comme Microsoft Ils seront déployés, on ne sait pas si séparément ou conjointement, pour démontrer que malgré l’utilisation de contenus protégés par le New York Times, ils n’ont en réalité rien fait d’illégal. De plus, son caractère transformateur et son utilité sociale justifieraient que l’utilisation de contenus protégés soit un cas de «utilisation équitable».
La doctrine du « fair use », envisagée par la loi nord-américaine sur le droit d’auteur, a été largement utilisée ces dernières années dans dossiers impliquant des litiges portant sur des créations technologiques et représente une limite claire à ces droits, donnant carte blanche à l’utilisation de contenus protégés. Un avocat nord-américain spécialisé dans ces litiges, Jenny Quangque j’ai déjà cité dans un précédent article de blog, a publié en janvier de cette année un long article très révélateur intitulé « La formation à l’IA viole-t-elle la loi sur le droit d’auteur ? » dans une publication juridique sur les questions technologiques de l’Université de Berkeley. Quang, qui travaille au cabinet d’avocats Kirkland&Ellis (l’un des plus grands au monde en matière de les fonds d’investissementinvestisseurs réguliers dans l’IA), défend que il n’y a pas de crime dans l’utilisation de contenus tels que les articles du NYT dans la formation à l’intelligence artificielle. Bien qu’il assume la doctrine du « fair use » comme la seule stratégie juridique possible pour défendre cet usage, il admet qu’elle n’est pas du tout sûre car les tribunaux ont à maintes reprises considéré cette doctrine pour favoriser l’auteur dans la défense de ses droits. comme le contraire. En fait, votre article est une revendication publique de laissez le Congrès créer une « sphère de sécurité » pour que l’IA puisse se développer, en privilégiant l’intérêt social du développement de cette technologie sur les intérêts privés des propriétaires des données qui seront utilisées pour créer le LLM. Ainsi, si cette stratégie se confirme, les majors de l’IA feraient également un pari risqué et hautement témoignage s’ils invoquent ces principes : une manière de créer un grand débat social sur l’avenir d’une technologie qui s’est placée au niveau de l’électricité dans le développement humain. Et, bien sûr, mettre les juges dans les cordes à cause de tout ce qui est en jeu. En fait, Jenny Quang ne veut pas abandonner l’IA. pari dangereux d’« utilisation légitime » et glisse sans dissimulation son argument selon lequel l’objectif américain de maintenir et de renforcer le leadership de l’IA dans le monde en vaut bien la peine. Congrès américain s’impliquer dans l’affaire.
Malgré les révélations du New York Times dans son procès ont indigné beaucoup Face aux grandes entreprises d’Intelligence Artificielle, il y en a bien d’autres qui pensent que l’IA est aujourd’hui un «plus grand bien » et pour l’arrêter, maintenant que c’est fait « démocratisé« , serait un pas en arrière inacceptable. Il faut prendre en compte qu’on parle de « démocratisation » car l’accès à la plupart des outils d’IA est aujourd’hui généralement gratuit, même s’il est clair que ce ne sera pas toujours comme ça. Exemple de ce poste C’est l’article signé par plusieurs professeurs de lois et de data scientists intitulé « La formation est tout », dans lequel il est souligné que puisque cette IA a besoin de ces données pour sa « formation » et que sans elle il n’y a pas d’IA, il faut créer une variante dans la loi américaine la loi sur le droit d’auteur sur le « fair use » : ils l’appellent « formation équitable » et soulignent le pouvoir transformateur incontestable de cette technologie (rappelez-vous l’argument dans le cas des livres et de Google).
Et puisque nous parlons du « big G », une dernière note sur une éventuelle faiblesse de l’affirmation du New York Times : pourquoi seuls OpenAI et Microsoft sont-ils inclus alors que le journal américain Sulzberger Savez-vous parfaitement que d’autres modèles d’IA ont utilisé votre contenu dans leurs formations respectives ? Trop de poursuites contre tout le monde dans un seul procès ? Divise et tu vaincras?