guyome@lechiennoir.net (avatar)

guyome@lechiennoir.net

Ingénieur en stats

Abonné·e de Mediapart

22 Billets

0 Édition

Billet de blog 6 mars 2012

guyome@lechiennoir.net (avatar)

guyome@lechiennoir.net

Ingénieur en stats

Abonné·e de Mediapart

Petit précis de maths pour comprendre les sondages.

guyome@lechiennoir.net (avatar)

guyome@lechiennoir.net

Ingénieur en stats

Abonné·e de Mediapart

Ce blog est personnel, la rédaction n’est pas à l’origine de ses contenus.

Tous le monde le sait, les sondages sont scientifiques, pour preuve ce sont des chiffres. Des chiffres, un peu compliqués. Enfin qui ont l'air suffisamment ésotériques pour que seuls les haruspices en costume-cravate en maîtrisent les entrailles. Mais, laisser moi briser le tabou mathématique de sondages et faire de vous un initié.

Voilà, le secret des sondages est de choisir aléatoirement les gens. C'est tout. Non, pas de maths, rien d'autre, juste ça: choisir aléatoirement. Historiquement Gallup, le père du sondage d'opinion, a prédit l'élection de Roosevelt en interrogeant seulement 5000 personnes - choisit aléatoirement -  alors que le journal à grand tirage Literary Digest se plantait en interrogeant ses centaines de milliers de lecteurs. Toute la science des sondages se résume à choisir aléatoirement.

Et la marge d'erreur ?

Prenons un exemple simple, 100 personnes dont 46 hommes et 54 femmes et vous interrogez 10 personnes pour estimer le nombre de femme. La première fois que vous tirez au hasard 10 personnes, vous tombez sur 5 hommes et 5 femmes, la deuxièmes fois 4 hommes et 6 femmes, la troisième fois, 3femmes et 6 hommes, etc... La théorie mathématique nous permets de quantifier cette incertitude lié au tirage, on parle de variance de l'estimateur. De façon usuelle, on donne un intervalle où on est sûr à 95% d'être juste. Pour reprendre notre exemple, on est sûr à 95% que le taux de femme est entre 4,2 et 5,9. Pour ce qui est de sondage d'opinion, cette marge d'erreur interdit de dire que, par exemple, les 21% d'intention de vote pour Sarkozy sont supérieur aux 19% de LePen. Car l'on est sûr à 95% que les intentions de votes pour Sarkozy sont entre 19% et 23% alors que ceux de LePen sont entre 17% et 21%. Il est donc possible que les intentions réels de vote de LePen soit supérieurs à ceux de Sarkozy, 22% contre 20% par exemple.

Et la méthode des quotas ?

Elle permets de réduire la marge d'erreur. L'idée - très marxiste - est que le vote est déterminé par la classe sociale, les ouvriers votent à gauche et les patrons à droite. Au final, la marge d'erreur dans chaque groupe est très faible et, comme les classes sont supposé indépendantes,  la somme des marges d'erreur de tous les groupes devrait être inférieure à celle d'un sondage purement aléatoire. In fine, cela coûte moins cher d'avoir un sondage précis par méthode des quotas qu'autrement. Et ça, les instituts, ils aiment.

Rien à voir avec les redressement, alors ?

Non. Il arrive que les déclarations de vote ne correspond pas exactement aux votes exprimés, notamment pour les hypocrites du FN. La question qui se pause est alors la suivante: sachant que 8% déclarent voter FN, combien vont réellement voter FN ? Il existe plein de méthode différentes pour calculer ce genre de chose. Au final, les redressements consistent à dire le vote FN est 10% supérieur à ce que les gens déclare. Cela peut conduire à sur ou sous estimer les intentions de vote. Le PCF avait fait un très faible score (2%) en 2007 qui était bien inférieur à ce que prédisaient les sondages, il est possible que les redressement conduisent aujourd'hui à sous-estimer les intentions de vote FdG.

À cette (très simple) théorie mathématique, il faut ajouté les demandes des clients. Il aurait l'air malins nous journaliste si à la question: "Pour qui aller vous voter entre l'UMP et le PS ?", les gens répondaient bof. Pour éviter ça, il suffit de ne pas mentionner (ou en tout petit) les marges d'erreur. Comme ça, Le Parisien peut titrer  "Marine en tête au premier tour" alors que les intentions de vote étaient de 23% pour le FN contre 21% pour l'UMP et le PS, c'est à dire statistiquement identique. À l'évidence, Le Parisien aurait moins vendu de papier en titrant: "Tous les candidats ex-aequo!", ce que disait son sondage.

La peur de la page de Une blanche conduit aussi au fameux tout petit NSP, "ne se prononce pas", voir à même de le couper en deux. Genre première question: êtes vous sûr de votre intention de vote? Deuxième question: Pour qui allez vous voter? Ce qui se résume, pour une large partie des sondés, à: sachant que vous ne savez pas pour qui voter, pour qui allez vous voter ?  Magnifique. Il faudrait un peu plus de courage pour demander "Pour qui allez vous voter ? l'UMP, le PS, ..., vous ne savez pas encore".  Qui irai titrer "À 4 mois de l'élection, les électeurs ne savent pas pour qui voter"... D'ailleurs, quand ce ne sont pas les journaux qui font n'importe quoi,  les sondeurs prennent le relais. Dans une émission d'@SI, les patrons des instituts de sondages, qui , en passant n'ont pas compris la méthode des quotas, déclarent qu'il n'y a pas de choix "NSP" dans les sondages auto-administré (par internet)  car les gens répondent alors trop souvent NSP...

Entre les sondages sur internet, qui ressemblent plus Literary Digest qu'à Gallup, et les questionnaires fait de tel sorte qu'on obtient les résultats voulus, le triste plus, c'est de les entendre chaque matin...

Ce blog est personnel, la rédaction n’est pas à l’origine de ses contenus.