In einer Studie mit mehr als 500 Personen identifizierten die Teilnehmer Sprach-Deepfakes nur in 73 % der Fälle richtig, und Bemühungen, die Teilnehmer in der Erkennung von Deepfakes zu schulen, hatten nur minimale Auswirkungen. Kimberly Mai und Kollegen vom University College London, Großbritannien, präsentierten diese Ergebnisse in der Open-Access-Zeitschrift PLUS EINS am 2. August 2023.
Sprach-Deepfakes sind synthetische Stimmen, die durch Modelle des maschinellen Lernens erzeugt werden. Deepfakes können der Stimme einer bestimmten realen Person ähneln oder einzigartig sein. Die Tools zur Erstellung von Sprach-Deepfakes wurden in letzter Zeit verbessert, was Bedenken hinsichtlich Sicherheitsbedrohungen aufkommen lässt. Beispielsweise wurden sie bereits genutzt, um Banker dazu zu verleiten, betrügerische Geldüberweisungen zu genehmigen.
Die Forschung zur Erkennung von Sprach-Deepfakes konzentrierte sich hauptsächlich auf automatisierte, maschinell lernende Erkennungssysteme, aber nur wenige Studien haben sich mit den Erkennungsfähigkeiten von Menschen befasst.
Deshalb baten Mai und Kollegen 529 Personen, eine Online-Aktivität durchzuführen, bei der es darum ging, Sprach-Deepfakes unter mehreren Audioclips sowohl echter menschlicher Stimmen als auch Deepfakes zu identifizieren. Die Studie wurde sowohl auf Englisch als auch auf Mandarin durchgeführt und einigen Teilnehmern wurden Beispiele von Sprach-Deepfakes zur Verfügung gestellt, um ihre Erkennungsfähigkeiten zu trainieren.
Die Teilnehmer identifizierten Deepfakes in 73 % der Fälle richtig. Die Schulung der Teilnehmer zum Erkennen von Deepfakes half nur geringfügig. Da den Teilnehmern bewusst war, dass es sich bei einigen der Clips um Deepfakes handeln würde – und weil die Forscher nicht die fortschrittlichste Sprachsynthesetechnologie verwendeten – würden Menschen in realen Szenarien wahrscheinlich schlechter abschneiden als die Studienteilnehmer.
Englisch- und Mandarin-Sprecher zeigten ähnliche Erkennungsraten. Wenn man sie jedoch nach der Beschreibung der Sprachmerkmale fragte, die sie zur Erkennung nutzten, verwiesen Englisch-Sprecher häufiger auf die Atmung, während Mandarin-Sprecher häufiger auf Trittfrequenz, Tempo zwischen Wörtern und Geläufigkeit verwiesen.
Die Forscher fanden außerdem heraus, dass die Erkennungsfähigkeiten der Teilnehmer auf individueller Ebene schlechter waren als die der leistungsstärksten automatischen Detektoren. Im Durchschnitt auf Gruppenebene schnitten die Teilnehmer jedoch ungefähr so gut ab wie automatisierte Detektoren und kamen besser mit unbekannten Bedingungen zurecht, für die automatisierte Detektoren möglicherweise nicht direkt trainiert wurden.
Sprach-Deepfakes dürften nur noch schwieriger zu erkennen sein. Aufgrund ihrer Ergebnisse kommen die Forscher zu dem Schluss, dass es unrealistisch ist, Menschen darin zu schulen, Sprach-Deepfakes zu erkennen, und dass sich die Bemühungen auf die Verbesserung automatisierter Detektoren konzentrieren sollten. Sie schlagen jedoch vor, dass Crowdsourcing-Bewertungen potenzieller Deepfake-Rede vorerst eine vernünftige Abhilfe darstellen.
Mehr Informationen:
Mai KT, Warnung: Menschen können Sprach-Deepfakes nicht zuverlässig erkennen, Plus eins (2023). DOI: 10.1371/journal.pone.0285333 , Journals.plos.org/plosone/arti … Journal.pone.0285333