Dans une étude portant sur plus de 500 personnes, les participants n’ont correctement identifié les deepfakes de la parole que 73% du temps, et les efforts pour former les participants à détecter les deepfakes ont eu des effets minimes. Kimberly Mai et ses collègues de l’University College de Londres, au Royaume-Uni, ont présenté ces résultats dans la revue en libre accès PLOS ONE le 2 août 2023.
Les deepfakes de parole sont des voix synthétiques produites par des modèles d’apprentissage automatique. Les deepfakes peuvent ressembler à la voix d’une personne réelle spécifique, ou ils peuvent être uniques. Les outils permettant de créer des deepfakes de discours se sont récemment améliorés, ce qui soulève des inquiétudes quant aux menaces de sécurité. Par exemple, ils ont déjà été utilisés pour inciter les banquiers à autoriser des transferts d’argent frauduleux.
La recherche sur la détection des deepfakes vocaux s’est principalement concentrée sur les systèmes de détection automatisés d’apprentissage automatique, mais peu d’études ont porté sur les capacités de détection des humains.
Par conséquent, Mai et ses collègues ont demandé à 529 personnes de réaliser une activité en ligne consistant à identifier les deepfakes de parole parmi plusieurs clips audio de voix humaines réelles et de deepfakes. L’étude a été menée en anglais et en mandarin, et certains participants ont reçu des exemples de deepfakes de parole pour les aider à développer leurs compétences de détection.
Les participants ont correctement identifié les deepfakes 73 % du temps. La formation des participants à reconnaître les deepfakes n’a que légèrement aidé. Parce que les participants savaient que certains des clips seraient des deepfakes – et parce que les chercheurs n’ont pas utilisé la technologie de synthèse vocale la plus avancée – les personnes dans les scénarios du monde réel auraient probablement de moins bons résultats que les participants à l’étude.
Les anglophones et les mandarins ont montré des taux de détection similaires, bien que lorsqu’on leur a demandé de décrire les caractéristiques de la parole qu’ils utilisaient pour la détection, les anglophones ont plus souvent fait référence à la respiration, tandis que les locuteurs en mandarin ont plus souvent fait référence à la cadence, au rythme entre les mots et à la fluidité.
Les chercheurs ont également constaté que les capacités de détection au niveau individuel des participants étaient inférieures à celles des détecteurs automatisés les plus performants. Cependant, lorsqu’ils sont moyennés au niveau de la foule, les participants ont obtenu des performances à peu près aussi bonnes que les détecteurs automatisés et ont mieux géré les conditions inconnues pour lesquelles les détecteurs automatisés n’ont peut-être pas été directement formés.
Les deepfakes de parole ne feront que devenir plus difficiles à détecter. Compte tenu de leurs découvertes, les chercheurs concluent qu’il est irréaliste de former les gens à détecter les deepfakes de la parole et que les efforts devraient se concentrer sur l’amélioration des détecteurs automatisés. Cependant, ils suggèrent que les évaluations de crowdsourcing sur les discours potentiels de deepfake sont une atténuation raisonnable pour le moment.
Plus d’information:
Mai KT, Attention : les humains ne peuvent pas détecter de manière fiable les deepfakes de la parole, PLoS ONE (2023). DOI : 10.1371/journal.pone.0285333 , journaux.plos.org/plosone/arti … journal.pone.0285333