À l’approche de l’élection présidentielle américaine, les reportages et les réseaux sociaux sont de plus en plus remplis de données provenant de sondages d’opinion publique. Comment les sondeurs savent-ils quel candidat est en tête dans quel swing state ou avec quel groupe démographique clé ? Ou quelles questions sont les plus importantes pour le plus grand nombre 264 millions d’électeurs éligibles à travers un vaste pays ?
En d’autres termes : comment les sondeurs font-ils ce qu’ils font ?
Lors du sondage d’Emerson College, nous menons une opération d’enquête dynamique qui, comme beaucoup d’autres, a continuellement évolué pour suivre le rythme de l’évolution des tendances et des technologies dans la recherche par enquête. Au début de la recherche par enquête, il y a environ 100 ans, les données étaient principalement recueillies par courrier et lors d’entretiens en personne. Bien sûr, ce n’est plus vrai de nos jours.
Au début du secteur des enquêtes, être invité à participer à un sondage était une nouveauté et les taux de réponse étaient élevés. Aujourd’hui, nous sommes bombardés de demandes d’enquête par courrier électronique, SMS, fenêtres contextuelles en ligne et appels téléphoniques provenant de numéros inconnus. Avec moins de lignes fixes, des parents occupés qui jonglent entre travail et famille et des jeunes adultes qui répondent rarement aux appels, préférant la communication par SMS, il est devenu beaucoup plus difficile d’impliquer les répondants. Ce changement de comportement reflète défis évolutifs pour atteindre des populations diverses dans la recherche par enquête moderne.
Évolution de la collecte de données
Dans les termes les plus larges possibles, les sondages et les enquêtes comportent deux éléments : choisir qui contacter et les atteindre d’une manière susceptible d’obtenir une réponse. Ces éléments sont souvent liés.
Dans les années 1970, après les téléphones domestiques se sont généralisés aux États-Unis, les enquêteurs ont adopté une méthode d’échantillonnage aléatoire appelée numérotation aléatoiredans laquelle les concepteurs de l’enquête choisiraient les indicatifs régionaux qu’ils souhaitaient atteindre et les opérateurs en direct composeraient au hasard des numéros de téléphone à sept chiffres dans cet indicatif régional.
Dans les années 1990, les sondeurs ont commencé à abandonner la numérotation aléatoire, qui prenait du temps et coûtait cher, car la sélection aléatoire sélectionnait souvent des numéros de téléphone hors service ou pas utile pour les enquêtes d’opinioncomme les entreprises ou les bureaux gouvernementaux. Au lieu de cela, les sondeurs ont commencé à adopter échantillonnage basé sur l’enregistrementdans lequel les registres publics d’inscription des électeurs ont été utilisés pour compiler les listes à partir desquelles les répondants ont été sélectionnés au hasard.
Les informations contenues dans ces documents et dans d’autres dossiers publics associés, tels que ceux détaillant le sexe, l’âge et le niveau d’éducation, ont permis d’affiner l’échantillonnage aléatoire appelé échantillonnage stratifié. C’est là que la grande liste a été divisée en sous-groupes en fonction de ces différentes caractéristiques, telles que l’affiliation à un parti, la fréquence de vote, le sexe, la race ou l’origine ethnique, le revenu ou le niveau d’éducation.
Les enquêteurs ont ensuite choisi au hasard parmi ces sous-groupes proportionnellement à la population dans son ensemble. Ainsi, si 40 % de la population globale est titulaire d’un diplôme universitaire et 60 % n’en ont pas, un sondage auprès de 100 personnes sélectionnerait au hasard 40 personnes dans la liste de ceux qui ont un diplôme universitaire et 60 dans la liste de ceux qui n’en ont pas.
D’autres avancées dans les moyens d’atteindre les répondants sont apparues à la fin du 20e siècle, comme réponse vocale interactivelequel ne nécessitait pas d’opérateurs en direct. Au lieu de cela, des systèmes automatisés diffusaient des enregistrements des questions et enregistraient les réponses orales. En 2000, sondage sur Internet ont également commencé à émerger, dans lesquels les participants remplissaient des formulaires en ligne.
De l’échantillonnage probabiliste à l’échantillonnage non probabiliste
Au cours des deux dernières décennies, l’essor des téléphones portables, de la messagerie texte et des plateformes en ligne a radicalement modifié les recherches par sondage. L’étalon-or traditionnel consistant à utiliser uniquement des sondages téléphoniques en direct auprès d’opérateurs est devenu presque obsolète. Maintenant que les téléphones affichent qui appelle, moins de personnes répondent aux appels provenant de numéros inconnus et moins d’entre eux sont prêts à parler à un étranger de leurs opinions personnelles.
Même l’échantillonnage aléatoire qui était autrefois la norme a cédé la place à un échantillonnage non probabiliste approche basée sur des proportions de population de plus en plus spécifiques. Ainsi, si 6 % d’une population sont des hommes noirs ayant un certain niveau d’éducation et un certain revenu familial, alors une enquête s’efforcera d’avoir 6 % des répondants correspondant à ces caractéristiques.
Dans échantillonnage par quotasles participants ne peuvent pas être sélectionnés au hasard, mais plutôt choisis en tant que participants en raison de leurs caractéristiques démographiques spécifiques. Cette méthode est moins rigoureuse sur le plan statistique et plus sujette aux biais, même si elle peut produire un échantillon représentatif avec une efficacité relative. En revanche, l’échantillonnage stratifié sélectionne au hasard les participants au sein de groupes définis, réduisant ainsi les erreurs d’échantillonnage et fournissant des estimations plus précises des caractéristiques de la population.
Pour aider les opérations de sondage à trouver des répondants potentiels, des sociétés de conseil politique et marketing ont compilé des informations sur les électeurs, notamment des données démographiques et des coordonnées. Chez Emerson College Polling, nous avons accès à une base de données de 273 millions d’adultes américains, avec 123 millions de numéros de téléphone portable, 116 millions d’adresses e-mail et près de 59 millions de numéros de ligne fixe.
Une technique plus récente que les sondeurs utilisent pour atteindre les répondants s’appelle échantillonnage de rivièreune méthode en ligne dans laquelle les individus répondent à une enquête au cours de leur navigation régulière sur Internet et de leur activité sur les réseaux sociaux, souvent via une publicité ou une fenêtre contextuelle. Ils remplissent un court questionnaire de sélection et sont ensuite invités à rejoindre un panel d’inscription à l’enquête dont les membres seront invités à répondre à de futures enquêtes.
Méthodologie de sondage d’Emerson College
Notre opération de sondage a utilisé diverses approches pour atteindre les plus de 162 000 personnes qui ont répondu à nos sondages jusqu’à présent cette année aux États-Unis.
Contrairement aux sondeurs traditionnels, Emerson College Polling ne s’appuie pas sur la collecte de données en direct par des opérateurs en dehors des tests à petite échelle de nouvelles méthodes d’enquête pour évaluer et améliorer l’efficacité des différentes approches de sondage.
Au lieu de cela, comme la plupart des sondeurs modernes, nous utilisons un mélange d’approchesy compris des enquêtes textuelles sur le Web, une réponse vocale interactive sur les lignes fixes, une diffusion par courrier électronique et des panels d’adhésion. Cette combinaison nous permet d’atteindre un public plus large et plus représentatif, ce qui est essentiel pour un sondage précis dans le paysage social et médiatique fragmenté d’aujourd’hui. Cette population diversifiée comprend des individus plus jeunes qui communiquent via diverses plateformes distinctes de celles utilisées par les générations plus âgées.
Lorsque nous contactons les personnes de nos échantillons stratifiés, nous prenons en compte les différences entre chaque méthode de communication. Par exemple, les personnes âgées ont tendance à répondre aux lignes fixes, tandis que les hommes et les personnes d’âge moyen sont plus réactifs aux enquêtes mobiles par SMS. À atteindre les groupes sous-représentés— comme les adultes âgés de 18 à 29 ans et les répondants hispaniques — nous utilisons des bases de données en ligne auxquelles ils se sont volontairement inscrits, sachant qu’ils pourraient être interrogés.
Nous utilisons également des informations sur les personnes que nous échantillonnons et sur la manière de calculer la marge d’erreur, qui mesure la précision des résultats du sondage. Des échantillons de plus grande taille ont tendance à être plus représentatifs de la population globale et conduisent donc à une marge d’erreur plus petite.
Par exemple, un sondage auprès de 400 personnes interrogées présente généralement une marge d’erreur de 4,9 %, tandis qu’augmenter la taille de l’échantillon à 1 000 la réduit à 3 %, offrir des informations plus précises.
L’objectif, comme toujours, est de présenter au public un reflet fidèle de ce que la population dans son ensemble pense des candidats et des enjeux.
Cet article est republié à partir de La conversation sous licence Creative Commons. Lire le article original.