Le questionnaire du CEVIPOF par l’IFOP, adressé aux personnels de l’enseignement supérieur, a provoqué un véritable émoi dans la communauté universitaire. Ces derniers jours, les témoignages et mises en garde se sont multipliés sur les réseaux sociaux : beaucoup s’indignent qu’une telle démarche puisse être portée par leur ministère de tutelle. Et, au vu de la structure même du questionnaire, cette réaction me paraît parfaitement compréhensible.
Initialement, je voulais faire un billet sur le mélange que fait le questionnaire entre faits observés, sentiments, témoignages indirects, ou encore perceptions du climat. Mais cette critique a déjà été formulée, et mieux que je ne saurais le faire. Hugo Touzet a regroupé tous les articles parlant du sujet, vous trouverez tout ce dont vous avez besoin pour comprendre les problèmes posés par ce questionnaire.
Ce que je veux traiter ici est un autre angle, finalement moins commenté : l'anonymat. Lorsque l'on interroge des individus sur des sujets sensibles (antisémitisme, opinions politiques, religion, génocide des palestiniens), une part de la confiance dans l'enquête repose sur la promesse d'anonymat. Or, cette promesse n'est pas tenue, sur deux types d'anonymat :
- l'anonymat de profil : la capacité de ne pas être identifié à partir de son âge, sa fonction, son service, sa ville ;
- l'anonymat de diversité : la capacité de ne pas voir ses opinions sensibles déduites à partir de celles de quelques personnes semblables à soi.
Deux notions essentielles en dissémination statistique permettent de comprendre ces risques : le k-anonymat et la ℓ-diversité. Il me semble important d'expliquer ou de rappeler dans ce billet ces deux notions. Car même si l'IFOP ou le CEVIPOF n'ont aucune intention de publier les données brutes (je ne le suppose pas), iels y auront accès. Et le problème se situe là.
Avant d'entrer dans le cœur de l'analyse, il faut rappeler une évidence : l'anonymat ne signifie pas l'absence de nom, prénom ou adresse. Les enquêtes disposent de "quasi-identifiants", c'est à dire de petites informations apparemment anodines : âge, genre, ville, etc. Ces éléments, pris isolément, aident pour les statistiques et sont peu susceptibles de vous identifier mais, combinés, ils deviennent une signature de votre profil. C'est pourquoi les instituts statistiques et les autorités de protection des données ne parlent plus seulement "d'anonymisation", mais d'anonymat par design, de quasi-identifiants, de k-anonymat ou de ℓ-diversité.
Le k-anonymat : êtes-vous seul·e dans votre catégorie ?
Le k-anonymat, c'est l'idée qu'avant de diffuser un jeu de données, on doit s'assurer que chaque répondant·e est indistinguable d'au moins (k–1) autres répondant·es sur les variables dites quasi-identifiantes En théorie :
- si k = 2, cela signifie que si quelqu'un partage votre profil, iel pourrait théoriquement recouper et savoir ce que vous avez répondu ailleurs dans le questionnaire ;
- si k = 1, cela signifie que vous êtes unique, et donc que quiconque de votre administration peut relier vos réponses sensibles à votre profil professionnel.
Or, que collecte le questionnaire du CEVIPOF ? âge exact ; genre ; académie ; type d'établissement (une école d'ingénieurs dans une petite ville, c'est souvent 50 personnes, pas 5 000) ; statut public/privé ; fonction précise (administratif, technique, enseignant-chercheur) ; service ; corps d'appartenance (BIATSS, enseignant-chercheur) ; diplôme ; code postal ou ville de résidence.
Dans beaucoup d'établissements, croisez simplement âge exact × fonction × service × type d'établissement, et vous obtenez des individus uniques. Le questionnaire en cumule dix comme celles-ci. En pratique, cela signifie que dans une multitude de cas, le k-anonymat est de 1, ou de 2 tout au plus.
Pour en avoir le cœur net, j'ai codé une application interactive où, à partir de quelques quasi-identifiants, vous pouvez calculer votre k-anonymat. Seules quelques variables ont été inclues ou simulées ici, les informations demandées par le CEVIPOF restent bien plus détaillées.
Ce problème n'est pas un détail technique : il signifie que le·a répondant·e n'est pas protégé·e, et que ses réponses peuvent être reliées à son identité professionnelle avec un niveau élevé de confiance.
La ℓ-diversité : même si vous êtes "anonyme", vos opinions ne le sont pas
Supposons maintenant que l'on parvienne malgré tout à avoir un groupe de taille raisonnable. Disons k = 5 : cinq personnes ayant le même profil professionnel et sociodémographique. Est-on protégé·e ? C'est là qu'intervient la ℓ-diversité.
La ℓ-diversité exige que les valeurs sensibles (opinions politiques, religieuses, positions sur Israël/Palestine, soutien ou non à telle cause) soient suffisamment variées au sein d'un même groupe k-anonyme. Si cela n'est le cas, alors même si personne ne sait qui vous êtes, le simple fait que vous appartenez au groupe k-anonyme suffit pour déduire vos opinions.
Par exemple, vous êtes 5 personnes à avoir le même profil (k = 5) ; 4 d'entre vous déclarent être proches d'un même parti politique, ou partager une même position sur le génocide en Palestine. Alors ℓ = 1 ou ℓ = 2, ce qui n'est pas suffisant, car quelqu'un peut déduire vos opinions par simple proportion au sein du groupe. Et aussi de ce fait obtenir vos réponses à toutes les autres questions posées.
J'ai également intégré cette idée dans mon interface de test : j'estime une ℓ-diversité approximative, basée uniquement sur deux questions politiques et religieuses. J'ai utilisé pour cela les scores aux précédentes élections et les estimations de personnes religieuses selon ... l'IFOP (comme quoi j'utilise aussi leurs données...). Et là encore, pour une grande partie des profils, l'indicateur chute dangereusement.
Cela signifie que beaucoup de répondant·es sont identifiables non seulement par leur profil administratif (k-anonymat), mais aussi par leur homogénéité d'opinions dans un groupe donné (ℓ-diversité). Je ne peux directement estimer la ℓ-diversité dans le questionnaire, mais étant donné le nombre de questions de positionnement politique, elle est probablement très faible.
L'anonymat par design
Tout cela aurait pu être évité par une méthodologie respectueuse de l'anonymat dès la conception :
- regrouper l'âge en classes de 5 ou 10 ans ;
- demander le département, pas le code postal ;
- ne pas distinguer les services internes ;
- supprimer les distinctions trop fines de type d'établissement ;
- éviter d'interroger simultanément religion + parti + opinions politiques sur un même conflit.
En fait, il aurait fallu se demander en amont l'intérêt d'avoir une telle granularité d'informations. Et sans justification, retravailler le questionnaire. Ces mesures ne sont pas de la prudence excessive : elles constituent l'application normale du RGPD et des guides de la CNIL sur l'anonymisation.
Ce questionnaire n'aurait jamais dû exister
La conclusion est simple, et difficile à contourner : ce questionnaire n'aurait jamais dû exister. Pas sous cette forme, pas avec ce mélange de registres et cette granularité, pas avec des questions sensibles politiques et religieuses dans le même fichier, pas avec un tel risque d'identification.
Ce n'est pas forcément une question d'intention, mais c'est une question de méthodologie et de déontologie qui, j'espère, poussera à la réflexion pour le prochain questionnaire. De toute manière, celui-ci est mort-né suite à la mobilisation citoyenne et universitaire. Cette enquête mal conçue va, par contre, produire de la défiance, ce dont la statistique publique n'a vraiment pas besoin en ce moment. Car oui, je le répète une fois encore : les enquêtes par sondage sont nécessaires pour guider l'action citoyenne et politique.
Que peut-on retirer de cet épisode ? Pour ma part, sans doute un peu de pédagogie autour des notions d'anonymisation. Et c'est peut-être le seul aspect positif de cet épisode. Depuis dix ans, les statistiques publiques et la recherche en sciences sociales évoluent vers une culture plus robuste de la protection des données.
Or ce questionnaire, par son échec, offre une occasion rare : montrer concrètement ce que signifie l'anonymat, et pourquoi certaines conceptions naïves comme "on ne collecte pas les noms, donc c'est anonyme" sont tout simplement dépassées. Et, espérons le, encourager les instituts à concevoir des enquêtes respectueuses de leurs répondant·es, surtout lorsqu'elles portent sur des sujets aussi sensibles que l'antisémitisme, la religion, ou les convictions politiques.