L’IA qui génère des textes est une source de plagiat déguisé

LIA qui genere des textes est une source de plagiat

Les systèmes d’Intelligence Artificielle qui génèrent du contenu paraphrasent et réutilisent des idées sans citer la source : ils plagient parce qu’on ne leur a pas demandé d’écrire correctement. Ils sont comme des perroquets répétant ce qu’ils apprennent des documents originaux. Les utilisateurs peuvent être victimes de cette incompétence.

Selon une équipe de recherche dirigée par l’État de Pennsylvanie qui a mené la première étude pour examiner le processus de génération de contenu de ces systèmes d’intelligence artificielle (IA).

Les chercheurs se sont concentrés sur l’identification de trois formes de plagiat : mot à mot, ou copier-coller directement du contenu ; paraphraser, reformuler et restructurer le contenu sans citer la source originale ; ou en utilisant l’idée principale d’un texte sans attribution appropriée.

Ils ont construit un pipeline pour la détection automatique du plagiat et l’ont testé avec le GPT-2 d’OpenAI car les données de formation du modèle de langage sont disponibles en ligne, ce qui a permis aux chercheurs de comparer les textes générés par cette IA aux 8 millions de documents utilisés pour pré-former GPT- 2.

plagiat vérifié

Les scientifiques ont utilisé 210 000 textes générés par l’IA pour tester le plagiat dans des modèles de langage pré-entraînés et des modèles de langage optimisés, et même des modèles formés pour cibler des domaines spécifiques.

Dans ce cas, l’équipe a ajusté trois modèles linguistiques pour se concentrer sur les articles scientifiques, les articles universitaires liés au COVID-19 et les revendications de brevet.

Ils ont utilisé un moteur de recherche open source pour récupérer les 10 documents de formation les plus similaires à chaque texte généré et ont modifié un algorithme d’alignement de texte existant pour mieux détecter les cas de verbatim, de paraphrase et de plagiat d’idées.

Plus de données, plus de plagiat

L’équipe a découvert que les modèles linguistiques commettent les trois types de plagiat et que plus l’ensemble de données et les paramètres utilisés pour former le modèle sont importants, plus le plagiat est fréquent.

Ils ont également noté que des modèles linguistiques affinés réduisaient le plagiat textuel, mais augmentaient les cas de paraphrase et de plagiat d’idées.

En outre, ils ont identifié des exemples du modèle linguistique exposant les informations privées des personnes à travers les trois formes de plagiat. Les chercheurs présenteront leurs découvertes lors de la conférence Web ACM 2023, qui se tiendra du 30 avril au 4 mai à Austin, au Texas. L’étude est maintenant publiée sur arXiv.

plus de recherche

L’étude souligne la nécessité de poursuivre les recherches sur les générateurs de textes et les questions éthiques et philosophiques qu’ils soulèvent, selon les chercheurs.

Bien que les résultats de l’étude ne s’appliquent qu’au GPT-2, le processus de détection automatique du plagiat mis en place par les chercheurs peut être appliqué à des modèles de langage plus récents comme ChatGPT pour déterminer si et à quelle fréquence ces modèles plagient le contenu de la formation.

Cependant, les tests de plagiat dépendent des développeurs qui rendent les données de formation utilisées par l’IA pour apprendre accessibles au public, ont déclaré les chercheurs.

Avis aux plaisanciers

Selon les scientifiques, l’étude actuelle pourrait aider les chercheurs en IA à construire des modèles de langage plus robustes, fiables et responsables à l’avenir. Pour l’instant, ils exhortent les gens à être prudents lorsqu’ils utilisent des générateurs de texte.

Le problème sous-jacent est que les modèles de langage sont programmés pour imiter l’écriture humaine, sans leur apprendre à générer du contenu sans réellement plagier.

Ces modèles sont comme des perroquets stochastiques qui répètent avec embellissement ce qu’ils voient dans les documents originaux, disent les auteurs de cette recherche dans un libérer.

Les chercheurs suggèrent qu’il est temps de leur apprendre à écrire plus correctement, une tâche qui ne fait que commencer.

Référence

Les modèles de langage plagient-ils ? Jooyoung Lee et al. arXiv:2203.07618v2 [cs.CL]. DOI : https://doi.org/10.48550/arXiv.2203.07618

fr-03