Un sondage Ifop-Fiducial pour Sud Radio analyse "Le regard des Français sur Marine Le Pen à la suite de sa condamnation". "Depuis sa condamnation, Marine Le Pen peine à s'imposer comme une personnalité "honnête". [...] Plus de sept partisans des Républicains sur dix (73%), ainsi que 82% des sympathisants de Renaissance, jugent la députée RN malhonnête. En ce qui concerne la gauche, les sondés proches du Parti socialiste sont légèrement plus sévères à l'égard de Marine Le Pen (85%), que ceux proches de La France insoumise (78%)."
Avant d’entrer dans le vif du sujet, précisons une chose : la pertinence même de certaines questions du sondage est discutable. Interroger les Français·es sur l'honnêteté d'une personnalité politique juste après sa condamnation, ou leur demander si Marine Le Pen pourra finalement être candidate à la prochaine présidentielle, revient à transformer les sondé·es en juristes d'un clic ou en juges de moralité à chaud. Ces questions relèvent moins d’une analyse sociologique que d’un effet d’annonce. Je n’insisterai pas davantage sur ce point aujourd’hui.
Je préfère plutôt creuser la question des sous-groupes pour lesquels les instituts de sondage nous fournissent beaucoup de détails. En effet, un pourcentage général sur la population n’informe pas grand-chose, hormis imaginer qu'il est prédictif d’un vote prochain. Les instituts de sondage énonce que leurs résultats ne sont pas prédictifs, donc leur intérêt serait donc souvent dans l'étude des sous-groupes.
Un peu de théorie
Pour comprendre l’importance des intervalles de confiance, imaginons un sondage fictif portant sur 1 000 personnes interrogées de manière aléatoire et probabiliste. Le sondage indique que 60 % des répondants pensent que Marine Le Pen n’est pas honnête. Avec 1 000 personnes tirées avec un sondage aléatoire simple, on peut calculer aisément un intervalle de confiance autour de ce chiffre : il est environ de ±3 %. Autrement dit, le véritable chiffre dans la population se situe probablement entre 57 % et 63 %.

Agrandissement : Illustration 1

Mais si on regarde un sous-groupe précis, par exemple les sympathisants d’un parti, imaginons qu’il y en ait seulement 100 dans l’échantillon, cet intervalle grandit considérablement : il passe alors à environ ±10 %. Ainsi, un chiffre affiché de 60 % pour ce sous-groupe signifie en réalité entre 50 % et 70 %. Voilà pourquoi connaître précisément la taille des sous-groupes est crucial pour ne pas tirer de conclusions hâtives.
Or, les instituts nous fournissent des résultats par âge, par région de résidence, par proximité politique et souvent par profession, avec de grands tableaux remplis de pourcentages, mais sans intervalles de confiance spécifiques. L’intervalle de confiance est généralement mentionné uniquement en début de notice méthodologique, mais seulement pour l'échantillon global.
La France Insoumise et le Parti Socialiste pensent la même chose
Dans notre exemple, les Français ne sont pas tous proches du Parti socialiste ou de La France Insoumise. Lorsque vous regardez le pourcentage des sondés proches de ces partis, vous devez appliquer l’intervalle de confiance correspondant au nombre exact de personnes proches de ces partis. Le problème ? Nous n’avons pas ce nombre précis, et la note méthodologique ne garantit pas explicitement la représentativité de ces sous-groupes.
Oui, il y a peut-être seulement 200 sondé·es (soit environ 20 % de l’échantillon total), mais les biais de sélection des access panels (dont je parlais dans un précédent billet) impliquent qu’on ne peut pas en être sûr. L’Ifop pourrait et devrait indiquer ces informations. Par transparence scientifique, fournir le nombre exact d’individus dans chaque sous-groupe permettrait à chacun de vérifier et d’appliquer l’intervalle de confiance correspondant.
Doit-on réécrire entièrement l'article de Sud Radio ? Étrangement, le journal mélange fréquemment « les Français sondés » et les « six Français sur dix ». En parlant uniquement des personnes sondées, il n’y aurait pas besoin d’intervalles de confiance, car leur réponse à une question est fixée (à moins de changer d’avis du jour au lendemain). Cependant, si l'objectif est de tirer des conclusions sur l'ensemble de la population française, il devient impératif d'ajouter l’intervalle de confiance, réduisant ainsi la portée initiale du chiffre.
Ainsi, on pourrait lire : « Les Français proches du Parti socialiste jugent sévèrement Marine Le Pen (85% ± 5,7), tout comme ceux proches de La France insoumise (78% ± 5,7). »

Agrandissement : Illustration 2

Aparté : Pourcentage ligne, pourcentage colonne
Enfin, un autre exemple d’erreur dans l’article de Sud Radio : « Pour l'heure, six Français sur dix (60%) estiment que l'honnêteté s'applique "mal" à Marine Le Pen. Parmi eux, près de sept sondés sur dix (67%) n'entretiennent aucune proximité politique. » Ici, Sud Raio se trompe dans l'usage du chiffre. Le chiffre de l'Ifop indique que parmi les personnes sans proximité partisane, 67 % trouvent Marine Le Pen malhonnête. Une confusion notable, et à nouveau, sans connaître le nombre précis de personnes concernées, nous ne pouvons pas savoir ce que cela implique exactement. Je ne comptais pas parler de cela dans ce billet, c'est apparu durant l'analyse de l'article.
Recommandations
Afin d'améliorer la transparence et permettre à chacun de mieux comprendre la portée réelle des sondages, quelques mesures simples pourraient être systématisées par les instituts :
Publier explicitement le nombre précis de répondant·es pour chaque sous-groupe analysé.
Fournir systématiquement les intervalles de confiance correspondants à ces sous-groupes.
Mentionner clairement les biais potentiels liés au mode de recrutement des sondé·es (comme les access panels en ligne), par exemple, Statistics Canada a produit un document synthétique simple des avantages et inconvénients de ce type de sondages.
Ces pratiques favoriseraient une meilleure compréhension du public, renforçant ainsi la rigueur scientifique et démocratique des débats médiatiques autour des sondages.
En résumé, il n’y a pas un intervalle de confiance unique applicable à tous les chiffres d’un sondage. Chaque sous-groupe nécessite son propre calcul. Mettre une simple mention en début de notice méthodologique sans revenir spécifiquement sur chaque chiffre permet malheureusement d’oublier facilement ces nuances cruciales. Nul n’est censé ignorer la théorie des sondages, mais aider un peu les lecteurs en favorisant les bonnes pratiques serait un véritable progrès démocratique.