Analyse des votes des motions au congrès de Reims par une grandeur statistique : le Chi 2
On parle beaucoup ces derniers jours de l'infame fraude qui aurait eu lieu dans l'horrible fédération du Nord lors du Congrès de Reims. Mais revenons rapidement sur le vote qui eu lieu quelques jours avant sur les motions. Car tout commence le 6 novembre 2008, lorsque l'on a demandé aux militants de voter sur les motions.En Bref quelles sont les fédérations qui ont vraiment déterminé le vote ? Et je vous laisserai seul juge des conclusions que vous pourriez en tirer.
Nous allons appliquer un test statistique sur le vote du 6 novembre relatifs aux choix des motions qui a eu lieu au Parti Socialiste. Nous voulons savoir si le nombre de voies par motions est réparti de façon aléatoire entre toutes les fédérations ou bien s'il existe une représentation plus forte de telles ou telles motions dans l'une des fédérations (FD). De cette manière, il nous est possible de dresser une carte démographique de la famille socialiste en France et de localiser les fiefs géographiques des motions. Nous entendons par fiefs une fédération qui a voté majoritairement pour une motion le 6 novembre.
Le but de cette analyse est de déterminer si l'existence de fiefs dans certaines fédérations (FD) est un événement fréquent (hypothèse d'indépendance entre FD et votes sur motions) ou un événement rare (rejet de l'hypothèse d'indépendance, c'est-à-dire que l'appartenance à une fédération prédétermine le vote).
Le principe du calcul du Chi 2 (X2) est d'analyser les écarts entre des effectifs théoriques et des effectifs observés. Dans le cas qui nous intéresse, les effectifs observés sont le nombre de voies qui se sont portées sur les différentes motions respectivement dans chacune des fédérations.
L'effectif théorique représente la quantité de voies des motions qui serait obtenue pour chacune des motions dans l'ensemble des fédérations s'il n'y avait aucun lien entre la fédération et le vote des motions. On considère qu'il y a une indépendance mathématique entre la fédération et les votes sur les motions cela veut dire que l'attribution de chaque modalité (choix d'un vote sur une motion) se fait de façon indépendante de la fédération.
L'étude de la relation entre les FD et le vote sur les motions repose sur la confrontation entre situation observée (résultats) et la situation théorique que présenterait le tableau des résultats dans le cas ou FD et vote sur les motions seraient mathématiquement indépendants.
On construit un tableau représentant le cas théorique de l'indépendance mathématique entre FD et motions.
Nous construisons en statistique ce que nous appelons un tableau de contingence. Nous prenons comme base de données les résultats des votes des motions par fédération qui ont eu lieu le 6 novembre 2008, étant bien entendu que si les résultats du 20 et 21 étaient disponibles nous aurions procédé à des test complémentaires sur les probabilités de report des voies.
Extraits du tableau des résultats des votes**:
FD
A
C
D
E
BOUCHES-DU-RHONE
547
391
542
4300
NORD
1101
939
3919
705
LANDES
85
1463
354
219
SEINE-MARITIME
511
282
2417
334
PAS-DE-CALAIS
1921
753
3537
905
AUDE
283
339
432
1727
GUADELOUPE
943
24
141
228
LA REUNION
929
31
32
657
HERAULT
849
469
568
2233
PYRENEES-ORIENTALES
84
179
942
312
**Les FD qui sont choisies sont celles qui, à elles seules, sont responsables de 60 % de la somme des écarts aux modèles théoriques de répartitions des votes (cf résultats du Chi2).
Dans les tableaux ci-dessous nous n'avons pas fait figurer les résultats sur les votes qui se sont portés sur la motion B et F pour des questions de lisibilité, mais ils ont été pris en compte dans tous les calculs.
Extraits des calculs des effectifs théoriques :
FD
A'
C'
D'
E'
BOUCHES-DU-RHONE
1486,21
1090,09
1431,71
1711,74
NORD
1709,63
1253,97
1646,94
1969,07
LANDES
541,52
397,19
521,66
623,69
SEINE-MARITIME
915,91
671,79
882,32
1054,90
PAS-DE-CALAIS
1840,41
1349,88
1772,92
2119,69
AUDE
707,89
519,21
681,93
815,31
GUADELOUPE
340,06
249,42
327,59
391,66
LA REUNION
420,34
308,31
404,93
484,13
HERAULT
1054,51
773,45
1015,84
1214,53
PYRENEES-ORIENTALES
387,27
284,05
373,07
446,04
Après avoir calculé les effectifs théoriques, nous calculons les écarts aux votes exprimés sur les motions.
Différence entre votes observés et votes théoriques
FD
A'
C'
D'
E'
BOUCHES-DU-RHONE
-939,21
-699,09
-889,71
2588,26
NORD
-608,63
-314,97
2272,06
-1264,07
LANDES
-456,52
1065,81
-167,66
-404,69
SEINE-MARITIME
-404,91
-389,79
1534,68
-720,90
PAS-DE-CALAIS
80,59
-596,88
1764,08
-1214,69
AUDE
-424,89
-180,21
-249,93
911,69
GUADELOUPE
602,94
-225,42
-186,59
-163,66
LA REUNION
508,66
-277,31
-372,93
172,87
HERAULT
-205,51
-304,45
-447,84
1018,47
PYRENEES-ORIENTALES
-303,27
-105,05
568,93
-134,04
Si les écarts sont négatifs (votes observés - votes théoriques), l'effectif observé est moins fort que ce qu'il serait s'il y avait indépendance entre une FD et le nombre de votes sur une motion. Cela signifie qu'il existe une sorte d'opposition ou de répulsion entre la FD et un certain type de motion.
Si les écarts sont positifs (votes observés - votes théoriques), l'effectif observé est plus fort que ce qu'il serait s'il y avait indépendance entre une FD et le nombre de votes sur une motion. Cela signifie qu'une motion se localise préférentiellement sur une FD, une motion est en quelque sorte attirée par une FD.
Plus le Chi-2 local d'une case est élevé, plus la déviation entre valeurs observées et valeurs estimées est significative sur le plan statistique (c'est-à-dire plus elle correspond à un événement rare ayant peu de chance de se produire si les variables département et votes sur les motions étaient indépendantes).
Contribution relative de chaque case valeur du Chi2 total
FD
A'''
C'''
D'''
E'''
% écarts
BOUCHES-DU-RHONE
1,26
0,95
1,17
8,29
11,77
NORD
0,46
0,17
6,64
1,72
9,08
LANDES
0,82
6,06
0,11
0,56
7,60
SEINE-MARITIME
0,38
0,48
5,66
1,04
7,59
PAS-DE-CALAIS
0,01
0,56
3,72
1,48
5,78
AUDE
0,54
0,13
0,19
2,16
3,11
GUADELOUPE
2,27
0,43
0,23
0,14
3,11
LA REUNION
1,30
0,53
0,73
0,13
2,74
HERAULT
0,08
0,25
0,42
1,81
2,64
PYRENEES-ORIENTALES
0,50
0,08
1,84
0,09
2,54
Cette grandeur représente la part que représente une association (fédération - vote sur motion) dans la somme totale des écarts. En d'autres termes cette grandeur statistique exprime l'importance que prend une fédération dans le vote national.
On peut ainsi constater que plus de 40 % de la somme des écarts sont le fait de 10 associations (Motions / fédération). D'après les distributions marginales, ces 10 fédérations interviennent pour 40 % dans la valeur du Chi 2 total: cela veut dire que ces fédérations sont très sélectives vis-à-vis du choix de la motion. En d'autres termes ces fédérations pèsent lourdement sur les résultats nationaux.
Le tableau ci-dessus montre les fédérations qui ont le plus participé à l'écart par rapport à une répartition théorique des votes des motions.
Nous pouvons ainsi conclure que la motion A et C possède chacune un fief, alors que les motion D et E en possèdent quatre. Il est à noter que ces fédérations sont exclusives car une fédération n'est le fief que d'une motion, à l'exception de la fédération du Nord qui permet à deux motions (D et E) d'émerger.
Il est rare qu'une distribution réelle corresponde exactement à une distribution théorique. Nous voulons, donc, savoir si les écarts entre les résultats observés et théoriques sont du au hasard où s'ils relèvent d'une corrélation significative entre les variables (appartenance à une fédérations et votes des motions). En d'autres termes, il s'agit ici de savoir si les écarts s'expliquent au hasard de l'appartenance de telles ou telles fédérations à une motion ou si ces écarts sont le fruit de caractéristiques locales (il est à noter que je ne parle pas ici de fraudes mais...)
Ce test est utilisé par exemple pour savoir, si la répartition homme / femme dans des groupes est due au hasard (création aléatoire) ou bien du à une corrélation que l'on pourrait expliquer par le fait que les groupes ont été créés avec des critères spécifiques.
Ce test statistique permet de mettre en évidence l'existence de corrélation mais en aucun cas ne définit le type de corrélation susceptible de lier les variables entre elles.
Le but du test est de déterminer si la valeur observée du Chi-2 correspond à un événement fréquent (en quel cas on ne peut rejeter l'hypothèse d'indépendance) ou à un événement rare (en quel cas on peut rejeter l'hypothèse d'indépendance). Par conséquent, nous utiliserons ce test afin de savoir si certaines fédérations qui ont un vote très marqué pour une motion² est un événement rare ou un événement fréquent.
Le résultat du test nous montre que t nous pouvons affirmer avec un risque d'erreur de 1 % que les fédérations et les votes sur les motions ne sont pas distribués au hasard les unes par rapport aux autres, il y a donc une dépendance mathématique qui permet d'affirmer que les fédérations ont des choix exclusifs..
Or lorsque nous procédons au test de Tschuprow (T), nous obtenons des résultats divergents.
Ce coefficient de Tschuprow calcule la valeur d'intensité de la relation entre les fédérations et les modalités du vote.
Pour l'ensemble de la France, nous avons T =0.12 par conséquent le département (ou localisation) n'est pas la seule composante qui déterminent les modalités de vote. On peut ainsi conclure qu'il y a une liaison qui n'est pas forte entre les variables fédérations et les votes.
Le vote au niveau national tente à montrer qu'il existe une indépendance mathématique entre les fédérations et les votes sur les motions.
Pourquoi cette différence ?
Le calcul du Chi2 est fortement dépendant des effets de tailles. Si des différences s'opèrent sur des effectifs importants alors le chi 2 va avoir tendance à se concentrer sur un nombre réduit d'individus (Fédérations) comme c'est le cas pour notre analyse. Par conséquent, le résultat des votes sur les motions est extrêmement lié aux résultats des grandes fédérations en nombre de militants. Pour ces dernières il existe une dépendance mathématique entre les votes sur les motions et la fédération quant aux petites fédérations il semble qu'elle entretiennent une indépendance mathématique entre appartenance à une fédération et les votes sur les motions.
En clair, cela veut dire que les petites Fédérations ont organisé un vote libre et démocratique et que les grosses ont suivi leur leader.
Par conséquent, on peut s'interroger sur le fait de savoir pourquoi certaines fédérations, et en particulier les plus importantes, votent si si différemment des petites alors qu'elles devraient se rapprocher de la moyenne puisque en statistique plus une population est grande plus elle tend vers la moyenne.
Il est très étonnant de voir de tels comportements statistiques. Que seules les plus grosses fédérations reconnues comme étant les plus cadenassées soient les seules à contribuer autant aux différences (Chi 2) est plus que suspects. Normalement ce rôle est dévolu à des ensembles peu nombreux susceptibles d'être plus sensibles aux variations.
Il est à noter que la fédération de Paris, la plus importante, avec 6999 votants sur 19801 ne participe qu'à hauteur de 1.27 % des fluctuations du Chi 2, en clair Bertrand Delonoé perd le congrès car il a laissé sa fédération de Paris voter démocratiquement.
Le plus étonnant concerne les Bouches du Rhône, une des plus grosses fédération du PS. C'est la seule fédération où aucune motion à l'exception de celle de Ségolène royale (73%) ne fait plus de 10 %. C'est étonnant, mais quand on sait que dans les statuts du PS, une motion qui fait moins de 10 % ne peut être représentée dans les instances fédérales alors certaines pratiques se font jour !
En conclusion, si j'avais mauvais esprit, je pourrai penser que lors du vote sur les motions du 6 novembre 2008, certaines fédérations ont bourré les urnes comme des cochons.


Tous les commentaires
Extraordinaire démonstration. Merci Fabrice.
Quand on parle de fief, on ne dit pas n'importe quoi.
On peut voir cela pour les votes au secrétariat général ou l'on ne connaît toujours pas les résultats?
Joli travail statistique qui montre bien le poids des effets locaux et de leurs leaders soit par verrouillage, soit par bourrage des urnes. Tout cela n'est pas vraiment rassurant sur la démocratie.
Merci Fabrice pour ce calcul qui apporte un éclairage précieux. e me ermets malgré tout d'apporter quelques petites nuances interprétatives, avec lesquelles vous serez je crois d'accord:
1) s'il s'agissait de choisir entre pile ou face, il y aurait en effet de très fortes raisons de s'inquiéter des écarts importants envec une répartition aléatoire, notamment dans les sections à effectifs nombreux; mais il s'agit de personnalités qui peuvent avoir un capital d'influence très inégal d'une région à l'autre (dynamisme de leurs éventuels clubs ou réseaux, participation fréquente, rare ou nulle à des événements locaux) et de programmes qui peuvent être également différemment perçus pour diverses raisons; je suppose entre autres que toutes les sections socialistes ne sont pas homogènes du point de vue de critères influençant les choix: catégories socio-professionnelles, statut public ou privé, sexe, classes d'âge...
2) s'il y a un effet "poids des barons locaux", il reste quand même une grande différence entre le bourrage d'urnes ou autres tricheries et la pratique d'un soutien politique actif et déclaré à tel leader, telle motion ; dans toutes les élections les "relais d'opinion" jouent un rôle important et en l'occurrence si la motion d' un leader est localement favorisé par le soutien apporté des dirigeants locaux, cela veut dire - s'il n'y a pas tricherie - primo que le leader favorisé aura su convaincre et mobiliser des cadres du parti, secundo que ces cadres ont suffisamment de crédit auprès de leur base pour infléchir significativement son vote;
3) il reste que l'ampleur de certains écarts est impressionnante et rend très plausible que les manipulations électorales aient été aussi importantes dans les Bouches du Rhône que dans le Nord, voire plus; mais si je ne me trompe pas, votre liste ne comprend pas la section locale où Ségolène Royal exerce la plus forte influence directe, ce qui permet au moins de supposer que si des fraudes lui ont profité, elle ne les a ni commandés ni dirigées. Cela rassure un peu non?
Vous avez raison, mais le Chi 2 est une distance statistique qui permet justement de tenir compte de caractéristiques spécifiques. Ce test ne permet que de mettre en évidence des associations soit fréquentes soit rares. En sociologie urbaine on peut l'utilser pour savoir s'il existe un type de population sureprésentée dans un quartier ou inversement, en environnement on peut s'en servir pour avoir une idée des conditions des associations sols / plantes...
Nous pourrions faire une analyse factorielle (ACP, AFC...) des votes des motions en fonction de critères départementaux (PIB,cadre de vie CSP...) et voir de quelle manière les variables se redistribuent en fonction de nouveaux critères (axes factorielles). Existe- t-il des associations de motions possibles ? De cette manière on pourrait établir des probabilités de vote au second tour en fonction des duels envisagés.
Je l'avoue, je n'ai pas eu le courage de le faire.