Les chercheurs ont créé un outil d’intelligence artificielle qui utilise des séquences d’événements de la vie, tels que les antécédents médicaux, l’éducation, l’emploi et le revenu, pour tout prédire, de la personnalité d’une personne à sa mortalité.
Construit à l’aide de modèles de transformateur, qui alimentent des modèles de langage étendus (LLM) comme ChatGPT, le nouvel outil, life2vec, est formé sur un ensemble de données extrait de l’ensemble de la population du Danemark, soit 6 millions de personnes. L’ensemble de données a été mis à la disposition uniquement des chercheurs par le gouvernement danois.
L’outil que les chercheurs ont construit sur la base de cet ensemble complexe de données est capable de prédire l’avenir, y compris la durée de vie des individus, avec une précision qui dépasse les modèles de pointe. Mais malgré son pouvoir prédictif, l’équipe à l’origine de la recherche affirme qu’il est préférable de l’utiliser comme base pour des travaux futurs, et non comme une fin en soi.
« Même si nous utilisons la prédiction pour évaluer la qualité de ces modèles, l’outil ne doit pas être utilisé pour prédire sur des personnes réelles », déclare Tina Eliassi-Rad, professeur d’informatique et premier président Joseph E. Aoun, professeur à Université du Nord-Est. « Il s’agit d’un modèle de prédiction basé sur un ensemble de données spécifiques d’une population spécifique. »
Eliassi-Rad a apporté son expertise en éthique de l’IA au projet. « Ces outils vous permettent de voir votre société d’une manière différente : les politiques que vous avez, les règles et réglementations que vous avez », dit-elle. « On peut y voir une analyse de ce qui se passe sur le terrain. »
En impliquant des spécialistes des sciences sociales dans le processus de création de cet outil, l’équipe espère qu’il apportera une approche centrée sur l’humain au développement de l’IA qui ne perdra pas de vue les humains au milieu de l’ensemble massif de données sur lequel leur outil a été formé.
« Ce modèle offre une réflexion beaucoup plus complète du monde tel qu’il est vécu par les êtres humains que de nombreux autres modèles », déclare Sune Lehmann, auteur de le papierrécemment publié dans Science informatique de la nature. UN Briefing de recherche sur le sujet est présenté dans le même numéro de la revue.
Au cœur de life2vec se trouve l’ensemble massif de données que les chercheurs ont utilisé pour entraîner leur modèle. Les données sont détenues par Statistics Denmark, l’autorité centrale des statistiques danoises, et, bien que strictement réglementées, peuvent être consultées par certains membres du public, y compris les chercheurs. La raison pour laquelle il est si étroitement contrôlé est qu’il comprend un registre détaillé de chaque citoyen danois.
Les nombreux événements et éléments qui composent une vie et qui sont décrits dans les données, depuis les facteurs de santé et d’éducation jusqu’au revenu. Les chercheurs ont utilisé ces données pour créer de longs modèles d’événements de vie récurrents à alimenter dans leur modèle, en prenant l’approche du modèle de transformateur utilisée pour former les LLM au langage et en l’adaptant à une vie humaine représentée comme une séquence d’événements.
« L’histoire entière d’une vie humaine, d’une certaine manière, peut aussi être considérée comme une longue phrase géante sur les nombreuses choses qui peuvent arriver à une personne », explique Lehmann, professeur de réseaux et de sciences de la complexité au DTU Compute, Technical Université du Danemark et auparavant chercheur postdoctoral à Northeastern.
Le modèle utilise les informations apprises en observant des millions de séquences d’événements de la vie pour construire ce que l’on appelle des représentations vectorielles dans des espaces d’intégration, où il commence à catégoriser et à établir des liens entre les événements de la vie comme le revenu, l’éducation ou les facteurs de santé. Ces espaces d’intégration servent de base aux prédictions que le modèle finit par faire.
L’un des événements de la vie prédits par les chercheurs était la probabilité de mortalité d’une personne.
« Lorsque nous visualisons l’espace que le modèle utilise pour faire des prédictions, il ressemble à un long cylindre qui vous fait passer d’une faible probabilité de décès à une forte probabilité de décès », explique Lehmann. « Ensuite, nous pouvons montrer qu’en fin de compte, là où il y a une forte probabilité de décès, beaucoup de ces personnes sont réellement mortes, et qu’en fin de compte, là où il y a une faible probabilité de mourir, les causes de décès sont quelque chose que nous ne pouvons pas prédire, comme une voiture. les accidents. »
L’article illustre également comment le modèle est capable de prédire les réponses individuelles à un questionnaire de personnalité standard, notamment en matière d’extraversion.
Eliassi-Rad et Lehmann notent que bien que le modèle fasse des prédictions très précises, celles-ci sont basées sur des corrélations, des contextes culturels et sociétaux très spécifiques et sur les types de biais qui existent dans chaque ensemble de données.
« Ce type d’outil est comme un observatoire de la société, et pas de toutes les sociétés », explique Eliassi-Rad. « Cette étude a été réalisée au Danemark, et le Danemark a sa propre culture, ses propres lois et ses propres règles sociétales. Que cela puisse être fait en Amérique est une autre histoire. »
Compte tenu de toutes ces mises en garde, Eliassi-Rad et Lehmann considèrent leur modèle prédictif moins comme un produit final que comme le début d’une conversation. Lehmann affirme que les grandes entreprises technologiques créent probablement ce type d’algorithmes prédictifs depuis des années dans des pièces verrouillées. Il espère que ce travail pourra commencer à créer une compréhension publique plus ouverte du fonctionnement de ces outils, de ce dont ils sont capables et de la manière dont ils devraient et ne devraient pas être utilisés.
Plus d’information:
Allemands Savcisens et al, Utiliser des séquences d’événements de la vie pour prédire des vies humaines, Science informatique de la nature (2023). DOI : 10.1038/s43588-023-00573-5
Une méthode de transformation qui prédit les vies humaines à partir de séquences d’événements de la vie, Science informatique de la nature (2023). DOI : 10.1038/s43588-023-00586-0
Cette histoire est republiée avec l’aimable autorisation de Northeastern Global News news.northeastern.edu.