Des chercheurs testent ChatGPT et d’autres modèles d’IA auprès d’étudiants réels

Le docteur William Hersh, qui a enseigné à des générations d’étudiants en informatique médicale et clinique à l’université des sciences et de la santé de l’Oregon, s’est demandé comment l’intelligence artificielle allait se comporter dans sa propre classe.

Il a donc décidé de tenter une expérience.

Il a testé six formes de modèles d’IA génératifs à grand langage, par exemple ChatGPT, dans une version en ligne de son cours d’introduction populaire en informatique biomédicale et de santé pour voir comment ils se comportaient par rapport à des étudiants vivants et pensants. Une étude publié dans le journal Médecine numérique npja révélé la réponse : mieux que les trois quarts de ses étudiants humains.

« Cela soulève des inquiétudes quant à la tricherie, mais il y a un problème plus vaste ici », a déclaré Hersh. « Comment savons-nous que nos étudiants acquièrent et maîtrisent réellement les connaissances et les compétences dont ils ont besoin pour leur futur travail professionnel ? »

En tant que professeur d’informatique médicale et d’épidémiologie clinique à la faculté de médecine de l’OHSU, Hersh est particulièrement attentif aux nouvelles technologies. Le rôle de la technologie dans l’éducation n’est pas nouveau, a déclaré Hersh, se souvenant de sa propre expérience en tant qu’élève du secondaire dans les années 1970, lors de la transition des règles à calcul aux calculatrices.

Pourtant, le passage à l’IA générative représente un bond en avant exponentiel.

« Il est clair que tout le monde devrait avoir une certaine base de connaissances dans son domaine », a déclaré Hersh. « Quelles sont les bases de connaissances que les gens doivent posséder pour être capables de penser de manière critique ? »

Modèles à grands langages

Hersh et Kate Fultz Hollis, co-auteure et informaticienne à l’OHSU, ont extrait les résultats de l’évaluation des connaissances de 139 étudiants qui ont suivi le cours d’introduction à l’informatique biomédicale et de santé en 2023. Ils ont créé six grands modèles de langage d’IA générative avec les supports d’évaluation des étudiants du cours. Selon le modèle, l’IA a obtenu des résultats dans le 50e au 75e percentile supérieur aux questions à choix multiples utilisées dans les questionnaires et à un examen final qui exigeait de courtes réponses écrites aux questions.

« Les résultats de cette étude soulèvent des questions importantes pour l’avenir de l’évaluation des étudiants dans la plupart, sinon toutes, les disciplines académiques », écrivent les auteurs.

Cette étude est la première à comparer des modèles de langage étendu aux étudiants d’un cours universitaire complet dans le domaine biomédical. Hersh et Fultz Hollis ont noté qu’un cours basé sur les connaissances comme celui-ci peut être particulièrement propice aux modèles de langage étendu génératifs, contrairement aux cours universitaires plus participatifs qui aident les étudiants à développer des compétences et des capacités plus complexes.

Hersh se souvient de son expérience à l’école de médecine.

« Quand j’étais étudiant en médecine, l’un de mes médecins traitants m’a dit que je devais avoir toutes les connaissances en tête », a-t-il déclaré. « Même dans les années 1980, c’était exagéré. Les connaissances médicales dépassent depuis longtemps la capacité du cerveau humain à les mémoriser. »

Maintenir le contact humain

Il estime cependant qu’il existe une ligne fine entre l’utilisation judicieuse des ressources techniques pour faire progresser l’apprentissage et une dépendance excessive au point d’inhiber l’apprentissage. En fin de compte, l’objectif d’un centre de santé universitaire comme l’OHSU est de former des professionnels de la santé capables de prendre soin des patients et d’optimiser l’utilisation des données et des informations les concernant dans le monde réel.

En ce sens, a-t-il dit, la médecine aura toujours besoin du contact humain.

« Il y a beaucoup de choses que les professionnels de la santé font qui sont assez simples, mais il y a des cas où cela devient plus compliqué et où il faut faire preuve de discernement », a-t-il déclaré. « C’est là qu’il est utile d’avoir une perspective plus large, sans nécessairement avoir besoin d’avoir tous les faits en tête. »

Alors que les cours d’automne commencent bientôt, Hersh a déclaré qu’il ne craignait pas de tricher.

« Je mets à jour le cours chaque année », a-t-il déclaré. « Dans tout domaine scientifique, de nouvelles avancées surviennent en permanence et les modèles de langage étendu ne sont pas nécessairement à jour sur tous ces aspects. Cela signifie simplement que nous devrons envisager des tests plus récents ou plus nuancés pour lesquels vous n’obtiendrez pas la réponse à partir de ChatGPT. »

Plus d’informations :
William Hersh et al., Résultats et implications pour l’IA générative dans un grand cours d’introduction à l’informatique biomédicale et de santé, Médecine numérique npj (2024). DOI : 10.1038/s41746-024-01251-0

Fourni par l’Université de la Santé et des Sciences de l’Oregon

ph-tech