Sondons les sondages

11 novembre 2016 Mathématiques Comments 0 Comment

Suite à l’Election Day 2016 de mardi dernier, 306 grands électeurs favorables à Donald Drumpf ont été désignés pour le Collège électoral des États-Unis, à l’encontre de ce que prévoyaient les sondages, devant ainsi lui permettre de remporter l’élection présidentielle états-unienne le 19 décembre prochain. Je ne m’attarderai pas ici sur le fait qu’un mégalomane raciste, sexiste, xénophobe et sûrement beaucoup d’autres termes en -phobe prenne la tête de l’actuelle première puissance mondiale, mais plutôt sur les dits sondages.

Avec le référendum britannique sur la sortie du Royaume-Uni de l’Union Européenne, on a eu droit en quelques mois à deux scrutins dont l’issue n’a pas été identifiée par les sondages. Ce qui a engendré son lot de remarques désobligeantes sur les sondages qui brisent mon petit cœur de quelqu’un ayant failli faire carrière dans la statistique. Alors, histoire de conjurer un peu tout ça, d’évacuer le râlage et de parler un peu de maths, on va évoquer les sondages.

Petite définition pour commencer : un sondage est l’évaluation d’une propriété d’une population par l’étude d’un échantillon de cette population. On peut ainsi estimer le poids moyen d’une fraise, les intentions de vote d’un électorat humain ou la taille des girafes par exemple. Après avoir mesuré la valeur voulue sur les individus de l’échantillon, on peut, si notre échantillon est suffisamment grand, appliquer le théorème central limite à la variable étudiée. Peut alors s’appliquer à notre variable la loi normale, de densité de probabilité `1/(sigmasqrt(2pi))e^(-1/2 ((x-mu)/sigma)^2)` mieux connue sous le terme de courbe en cloche.

Cependant, tout ça, c’est en théorie et comme chacun le sait, la théorie est le pays où tout se passe bien. Dans notre monde réel de la réalité véritable, il va y avoir quelques problèmes avec la constitution de l’échantillon.

Premier problème : il faut que notre échantillon représente correctement l’ensemble de la population. Si vous achetez un tonneau de fraises et mesurez le poids de toutes celles au sommet de la pile, vous risquez de vous retrouver avec des fraises qui ont pourri au soleil et ont pu voir leur masse altérée. Et pour les humains, il faut que les caractéristiques démographiques de la population étudiée et de l’échantillon soient les mêmes : difficile d’analyser les opinions de l’ensemble de la population en se contentant de faire le tour des maisons de retraite.

Ce problème se règle en faisant gaffe à la constitution de l’échantillon. Dans les études biologiques, on va ainsi faire attention à ne pas choisir des individus manifestement difformes. Pour les humains, il faut s’assurer que les différentes catégories démographiques soient correctement représentées, avec un échantillon suffisamment important pour chacune de ces catégories. Et il ne faut pas oublier qu’on peut ne pas avoir de chance : par exemple, en étudiant un fait (une maladie par exemple) touchant en réalité 1% d’une population de 10000 individus mais en tirant un échantillon de 100 individus contenant tous les éléments concernés, on risque de surestimer la proportion d’individus atteints…

Concernant les sondages d’opinion, il y a un autre problème : les individus étudiés sont des humains. Et les humains ont de sales manies : ils changent d’avis, ils mentent, ils sont couards, timides, feignants… Le changement d’avis est bien normal, notamment au cours d’une campagne électorale et c’est précisément ce que cherchent à évaluer les différentes successions de sondage. Mais le reste va fortement compliquer la tâche des sondeurs. Comment s’assurer qu’un individu ne mente pas délibérément ? Ou qu’il n’ose pas révéler son opinion ? Ainsi, un sondeur états-unien a indiqué obtenir de meilleurs scores pour Drumpf lorsque les sondés avaient affaire à un répondeur plutôt qu’à un humain¹. On peut aussi imaginer un cas extrême où un candidat à une élection demande explicitement à ses partisans de ne pas répondre aux sondages : comment ces sondages pourraient-ils alors estimer les intentions de vote pour ce candidat ?

Encore un problème concernant les humains, cette fois-ci ceux qui les publient et ceux qui les lisent : en avoir rien à battre de ce que donne la loi normale. La loi normale ne donne pas une valeur précise et absolue mais une densité de probabilité et ne permet donc que de définir un intervalle de valeur dans lequel la valeur recherchée a X% de chances de se trouver.

On va ici se concentrer sur les sondages d’opinion, avec un résultat obtenu qui est un pourcentage `p`. Les bornes de l’intervalle de confiance à 95% (l’intervalle dans lequel la valeur recherchée a 95% d’être) sont approximativement de `p+-2es`, avec `es` désignant l’erreur standard et valant `es=sqrt((p(1-p))/(n-1))`, `n` étant la taille de notre échantillon. Illustration par l’exemple : un sondage sur 1000 individus donne une intention de vote pour un machin quelconque de `p=48%`. On obtient `es=sqrt((0.48xx0.52)/999)=1.58%`, ce qui nous permet d’affirmer que le pourcentage réel a 95% de se trouver entre 44,84% et 51,16%. Pour son adversaire, sondé à `q=52%`, cet intervalle va de 48,84% à 55,16%. J’espère que cet exemple suffit à montrer que quelques points d’écart dans un sondage ne suffisent pas à déterminer à coup sûr un favori pour une élection… D’autant que la courbe en cloche a une queue très fine mais très longue : le seul intervalle de confiance à 100% est `[-oo, +oo]` (dans les limites physiques de ce que l’on mesure; une taille ou une masse ne seront jamais négatives et des intentions de vote seront toujours entre 0% et 100%); par définition, notre valeur recherchée a 5% de chances de se trouver hors de l’intervalle de confiance à 95%…

Je profite de parler de statistiques pour parler d’un document fort sympathique traitant du sujet : Statistiques pour statophobes, de Denis Poinsot, docteur en biologie ayant été contraint d’enseigner les biostatistiques à des étudiants et qui en a profité pour rédiger un ouvrage expliquant le fonctionnement des statistiques sans trop de mathématiques et que je vous conseille fortement :).

¹FiveThirtyEight – The Polls Missed Trump. We Asked Pollsters Why. : «James Lee of Susquehanna Polling & Research Inc. said his firm combined live-interview and automated-dialer calls, and Trump did better when voters were sharing their voting intention with a recorded voice rather than a live one.»

Divagations

Sondons les sondages

11 novembre 2016 Mathématiques Comments 0 Comment

Laisser un commentaire Annuler la réponse