Nous aimons nous répéter que nous vivons à l’ère de la transparence : open data, replays, chiffres clés, tout semble disponible et vérifiable. Dans cette vision optimiste, toute mauvaise interprétation pourrait être corrigée en "remontant à la source".
Sauf que non. Entre ce qui est rendu public et ce qui ne l’est pas, il y a des choix, des cadrages, des absences. Et ces absences ne sont jamais neutres. Et remonter à la source ne suffit alors pas.
Cela faisait longtemps qu'aucune idée suffisamment solide ne me venait en tête pour rédiger un billet de blog, et l'IFOP a contribué à ma motivation avec deux actualités différentes sur un sujet proche. Tout d'abord la publication le 18 novembre 2025 d'un "rapport sur l'islamisme des musulmans de France". Je reviendrai rapidement en fin de billet, mais l'essentiel des retours critiques a été fait, ici sur Mediapart et là sur arrêt sur images. Ensuite la publication le 18 novembre d'un courrier du ministère de l'enseignement et de la recherche encourageant les personnels de l'université à compléter une enquête portant sur "l'antisémitisme" dans l'enseignement supérieur. Deux raisons de replonger dans les enquêtes par sondage, cette fois pour analyser ce qui ne sera pas dit, pas forcément montré à l'issue du sondage.
Ce billet parle donc de cela : des absents, des non-dits, et leurs causes. Je vais lister quelques exemples de cas récents, traités par moi ou par d'autres.
Open data, seulement en partie
Commençons par un cas que beaucoup citent comme modèle de transparence : l'open data. Derrière ce terme, on regroupe le fait de mettre à disposition, de manière régulière et documentée, des données brutes sur son activité. Cette pratique est fortement encouragée, notamment au sein des services publics, et de nombreuses bases de données sont ainsi mises à disposition du grand public ou des entreprises. Mais livrer des open data n'implique pas de livrer toutes ses données.
Prenons la SNCF comme exemple. On trouve des données sur les horaires, la ponctualité, parfois les suppressions de trains, des indicateurs globaux de fréquentation. On peut faire des cartes, développer des API pour compter les retards et calculer des moyennes de durée de trajet. On a une impression de contrôle citoyen et d'opportunité commerciale.
Mais combien coûte vraiment un Paris-Lyon réservé la veille, en fonction de l'horaire, du remplissage, des vacances scolaires ? Quelle est la distribution effective des tarifs pour un même trajet sur un mois donné ? Ces données existent évidemment dans les systèmes internes de la SNCF, mais elles ne figurent pas dans l’open data. Il faut scraper soi-même les sites de réservation pour espérer y voir clair (je l'avais fait dans un précédent billet).
Autrement dit : la transparence porte sur des dimensions jugées acceptables par l'opérateur. On vous montre les retards mais pas la structure fine des prix, qui poserait d'autres questions sur la rentabilité ou l'accessibilité sociale du service. Attention, je ne dis pas ici que l'entreprise devrait tout diffuser publiquement, juste que l'open data ne va pas de soi et qu'il y a un cadrage derrière.
Replays, archives et trous de mémoire
Autre terrain de diffusion large d'informations : les archives audiovisuelles. Sur YouTube ou sur les sites des radios et télévisions publiques, on a régulièrement un accès libre et permanent aux émissions diffusées. Ce sont ainsi des archives très riches à étudier pour des chercheur·euses en science sociale.
Mais régulièrement, certaines vidéos disparaissent, ou ne sont tout simplement jamais mises en ligne :
chroniques polémiques, émissions qui ont mal vieilli, séquences juridiques compliquées à rediffuser. On peut parfois retrouver des traces via d'autres comptes, via la Wayback Machine, mais la source officielle, elle, se réécrit constamment.
Il peut y avoir des raisons juridiques, éditoriales, ou même techniques, mais cela reste avant tout des choix, et des cadrages. Et surtout, pour l'analyste qui croit travailler sur "toutes les émissions de telle chronique entre 2018 et 2024", la réalité est différente : iel travaille sur les émissions qui ont survécu aux filtres. Je l'ai constaté récemment en travaillant sur un corpus de textes issus de chaînes d'info en continu : certaines émissions (dont "Le Pour et le Contre") ne sont tout simplement jamais mises en replay, alors que le reste de la grille l'est presque systématiquement.
Les notices come gage de transparence
Pour les sondages politiques, on pourrait penser que le problème est réglé. Après tout, tout sondage politique publié en France doit être accompagné d'une notice déposée auprès de la Commission des sondages. On s'attendrait donc à y trouver de quoi travailler et vérifier le travail des sondeur·euses : le plan de sondage, les pondérations, les variables de redressement, les filtres, les formulations précises, les modes de collecte… bref, de quoi comprendre vraiment ce qui a été fait.
En réalité, ces notices sont une obligation administrative, moins un outil d'information méthodologique. Elles se résument souvent à quelques lignes sur la méthode ("échantillon représentatif selon la méthode des quotas"), une liste partielle des critères de redressement (sans toujours savoir les résultats avec les différents redressements possibles ni les raisons du choix final). Et surtout, il manque ce dont on aurait vraiment besoin : les questions et leur ordre dans le questionnaire. L'ensemble donne une impression générale de vide.
Ces notices remplissent donc leur fonction légale… mais pas du tout leur fonction de transparence démocratique. Ce qu'on obtient, c'est une version résumée, aseptisée, qui rassure ("une notice existe") sans véritablement informer. Les éléments absents ne sont pas le fruit du hasard : ce sont précisément les éléments qui permettraient de vérifier la robustesse, les biais potentiels, les limites méthodologiques ou les décisions discutables lors de la production du sondage.
L'effet tiroir des questionnaires ou des questions
Lors de sondage par questionnaire, les médias insistent souvent, aidé par le communiqué de presse, sur un ou deux résultats phares : "46 % des jeunes pensent que…", "sept Belges sur dix estiment que…". Mais il est difficile de voir l'ordre des questions, les filtres ("on ne pose cette question qu'à ceux qui ont répondu X avant"), les formulations alternatives qui ont été testées puis écartées, les questions qui ont été posées mais jamais publiées, jugées finalement peu intéressantes ou confuses.
C'est ici qu'il faut insister sur le rôle central du commanditaire. La tonalité et l'angle des questions changent radicalement selon que l'étude est financée par un média conservateur, un parti politique libéral ou un syndicat progressiste. Si l'institut de sondage apporte son expertise technique pour construire le questionnaire, il le fait sur la base des directives reçues en amont. Surtout, en aval, le commanditaire reste bien souvent le propriétaire exclusif des données. Hormis quelques cadres légaux très spécifiques (comme la période électorale), rien n'oblige une organisation privée à dévoiler l'intégralité des résultats qu'elle a achetés. Elle conserve donc la liberté de ne diffuser que ce qui sert son narratif, ou d'enterrer purement et simplement une étude qui contredirait ses intérêts.
Il ne faut toutefois pas réduire les instituts à de simples exécutants dociles. Soucieux de leur crédibilité scientifique et souvent signataires de codes de déontologie internationaux (comme le code ESOMAR), ils posent certaines limites. Un institut sérieux refusera généralement de valider un communiqué de presse qui travestirait grossièrement la réalité des chiffres, car c'est sa propre réputation qui est en jeu. Cependant, la zone grise demeure vaste : tant que les données présentées sont techniquement exactes, le commanditaire garde une marge de manœuvre pour mettre en lumière les résultats flatteurs et laisser les autres dans l'ombre, sans que l'institut ne puisse formellement s'y opposer.
Agrandissement : Illustration 2
L’étude IFOP sur les musulman·nes illustre bien ce point : toutes les comparaisons sont faites avec "les autres religions", sauf l’endogamie religieuse. Là, la comparaison se fait avec "les Français·es" tout court. Pourquoi changer de groupe ici ? Manque de données ? Choix politique ? Effet cosmétique ? Sans questionnaire complet ni note méthodologique détaillée, impossible de trancher.
L'acceptabilité du questionnaire
Pour qu'un commanditaire puisse recruter un organisme de sondage pour créer un questionnaire, obtenir des résultats et produire des analyses, de nombreuses étapes d'acceptabilité du processus doivent être remplies. Un sondage peut être performatif, c'est à dire influencer les personnes y répondant simplement par la formulation des questions. Mais il peut aussi être rejeté, et mis en lumière comme problématique. Il y a un an, un sondage envoyé aux économistes ayant soutenu le programme politique du NFP avait provoqué l'indignation des destinataires. J'en parlais ici, et une tribune a été diffusée ici pour dénoncer la pratique.
Agrandissement : Illustration 3
Le 18 novembre 2025, un questionnaire envoyé au personnel de l'enseignement supérieur de la recherche a connu la même réaction indignée sur les réseaux sociaux. De nombreuses critiques portent sur le choix des questions, le cadrage toujours très fort sur un supposé antisémitisme de gauche de l'université (après la mission d'information il y a quelques temps sur l'islamo-gauchisme à l'université). J'imagine que plusieurs articles (sur mediapart ?) vont revenir sur l'objectif et la méthode de ce questionnaire. Pour ma part, j'ai expliqué sur Bluesky en quoi l'anonymat est ici non garanti, car il y a beaucoup trop de questions sur le profil de la personne interrogée. D'ailleurs, je faisais la même critique sur le questionnaire envoyé aux économistes...
Je crois que ces deux questionnaires ne conduiront à aucun papier d'analyse, pour plusieurs raisons. Ces sondages souffrent d'un problème classique : ils ne sont ni probabilistes ni contrôlés, chacun pouvant remplir le questionnaire (même plusieurs fois) avec la même url. Aussi, la médiatisation autour des problèmes de conception de ces questionnaires baisse le taux de réponse et biaise les réponses. Enfin, la publication dépend de si les résultats confirment l'hypothèse implicite, et du coût politique de sortir ces résultats après la mobilisation médiatique autour des questionnaires.
Il reste cependant de nombreuses analyses à réaliser sur ces deux événements. Celles-ci peuvent porter sur les questionnaires, les donneurs d'ordre, les raisons de poser telle question ou le choix des cibles. Ces éléments illustrent de manière très efficace certains phénomènes actuels de radicalisation politique.
Conclusion
Une fois encore, ce billet n'est pas un plaidoyer pour jeter les enquêtes, les rapports ou les open data. Au contraire : sans chiffres, il est difficile de documenter les inégalités, la pauvreté, les discriminations, les transformations du travail, etc. Le problème n'est pas l'existence des données, mais la façon dont on les fétichise, en oubliant tous les choix qui les précèdent. Le problème réside aussi dans l'identité de celles et ceux qui les créent, et la liberté qu'on nous laisse d'y fouiller.
Les instituts de sondage publics permettent aux universitaires d'obtenir les micro-données, et ainsi produire des analyses alternatives, vérifier qu'il n'y a pas d'erreurs ou de biais. Mais hormis cette exception, les données restent aux mains de leur propriétaire, et leur diffusion est tout sauf neutre.
Il est néanmoins possible de se poser quelques questions simples : Qui est présent·e et absent·e ? Qui a choisi les questions, et pourquoi ? Quelle est la part de cadrage du commanditaire, de la rédaction, de l'institution ? Pour contrôler tout cela, l'idéal est de détenir le processus de collecte. Mais en attendant, vous pouvez archiver les questionnaires que vous recevez, pour comparer avec la version finale. Ou extraire vous-mêmes les données lorsque celles-ci sont accessibles, même si de manière non structurée.
Les absents, les non-dits, les sondages enterrés, les questions retirées, les vidéos jamais mises en replay : tout cela fait partie des données. La transparence, c’est aussi apprendre à regarder ce qui manque et à se demander qui a choisi de l'enlever.