OpenAI créé un programme pour transcrire plus d’un million d’heures de vidéos de Youtube dans le but de former le modèle de génération de texte GPT-4, son modèle le plus avancé ouvert au public, selon une exclusivité du New York Times (NYT) publiée ce samedi.
Le journal assure qu’OpenAI, une société à but non lucratif, a développé un programme appelé « Whisper » qui extrayait le texte de plus d’un million d’heures de vidéos pour obtenir des données de formation pour les modèles de génération de langage, connus sous le nom de LLM.
Les sources consultées par le NYT assurent que l’équipe en charge de Whisper comprenait Greg Brockman, président d’OpenAI.
L’entreprise a eu un débat interne sur la question de savoir si l’extraction de texte à partir de vidéos hébergées sur la plateforme appartenant à Google représentait une violation des conditions d’utilisation.
Selon l’article, OpenAI a estimé qu’elle avait besoin de plus de données de formation en 2021 et On s’est demandé s’il fallait les obtenir à partir de Youtube, de podcasts ou de livres audio.
Dans une récente interview, le directeur exécutif de YouTube, Neal Mohan, a assuré que si OpenAI utilisait des vidéos de la plateforme pour entraîner « Sora », son modèle réaliste de génération de vidéos, cela violerait ses conditions de service.
« Les créateurs de contenu qui viennent sur YouTube ont certaines attentes, notamment le respect des conditions d’utilisation. Nos conditions vous permettent d’extraire certains contenus tels que le titre, le nom de la chaîne ou le nom du créateur. pour faciliter le Web ouvert », a expliqué Mohan.
« Il n’est pas permis de télécharger des transcriptions ou des parties de vidéos. « C’est une violation flagrante de nos conditions de contenu », a ajouté le responsable.
La porte-parole d’OpenAI, Lindsay Held, a indiqué dans une réponse à l’exclusivité obtenue par The Verge que la société crée et utilise des bases de données « uniques » « de nombreuses sources accessibles au public et conclut des accords pour obtenir des données qui ne sont pas publiques.
Google transcrit des vidéos YouTube pour obtenir du texte pour alimenter ses modèles de génération de texte, ce qui violerait les droits des créateurs qui téléchargent leurs vidéos sur la plateformeselon des sources consultées par le journal.
Les droits sur les contenus utilisés pour entraîner les modèles d’Intelligence Artificielle ne sont pas encore bien définis et la concurrence pour obtenir les modèles de génération de contenus les plus réalistes conduit à repousser les limites de la légalité du droit d’auteur.
Le géant de la technologie Meta, créateur de Facebook, a débattu l’année dernière Faut-il racheter l’éditeur Simon & Schuster pour avoir accès à son matériel longselon le contenu des réunions entre chefs d’entreprise, avocats et ingénieurs auxquelles le New York Times a eu accès.