Webanalytics ou l’analyse d’audience des sites politiques: précisions méthodologiques

Selon Le Monde la méthodologie du classement de l'audience des sites politiques publié dans notre billet précédent le 21 octobre est contestable, car Alexa « a tendance à mésestimer les audiences des sites non anglophones ». Une affirmation non documentée reprise par d’autres médias. Voici quelques explications méthodologiques.

Le Monde.fr a publié le 26 octobre une information selon laquelle le hackeur franco-israelien Grégory Chelli a piraté le site d’Alain Soral, Égalité et Réconciliation. Le hackeur, plus connu sous le nom d’Ulcan, aurait expliqué qu’il s’est attaqué « au premier site politique ». Le Monde fait ensuite référence au billet de blog publié le 21 octobre sur Mediapart. Selon Le Monde la méthodologie de ce classement est contestable, car Alexa « a tendance à mésestimer les audiences des sites non anglophones ». Une affirmation non documentée reprise par d’autres médias. Je ne sais sur quelles données repose cette affirmation, mais voici quelques explications méthodologiques sur les raisons qui autorisent à considérer ce classement comme une mesure plutôt vraisemblable de l’audience des sites politiques français et à prendre au sérieux les atouts de l'extrême droite dans la bataille culturelle et idéologique en cours.

La « Webanalytics » désigne l’analyse d’audience (mesurer, collecter, présenter, étudier) d’un site. La Webanalytics des sites d’entreprises est un secteur économique assez florissant, en lien étroit avec le rôle économique croissant du Net pour les entreprises, et notamment le boom du e-commerce. Elle donne lieu à une littérature spécifique comme par exemple l’ouvrage d’Olivier Meyer (2016). À des fins d’analyse sociopolitique, la Webanalytics demeure cependant assez balbutiante malgré un intérêt affirmé des sciences sociales pour les réseaux sociaux et les big data. Quand on évoque l’audience de certains sites Internet, on cite le plus souvent des chiffres de l’audience « revendiquée », mais on ne mobilise guère des données de mesure indépendantes. Les datas mobilisés par les journalistes et les chercheurs concernent les plus souvent les likes et les followers sur les réseaux sociaux (Herrman John, 2016). Pourtant les outils d’analyse de la Webanalytics sont disponibles et méritent d’être examinés.

La mesure d’audience des sites médias fournit une première source de données. Produites pour des raisons économiques, ces données peuvent être mobilisées pour l’analyse de l’opinion, d’autant plus qu’on dispose pour les médias d’une base de données dont la fiabilité est avérée. Ainsi, l’APCM (alliance pour les chiffres de la presse et des médias) publie mensuellement des données sur la fréquentation de 186 Sites Fixes et Mobiles Grand Public (essentiellement des sites médias) ainsi que celle de 50 Sites Internet & Mobiles Professionnels.  Mais cette mesure n’intègre pas nombre de sites médias, soit parce que non français soit parce que n’entrant pas dans les classements faute d’audience jugée suffisante, et surtout laisse hors champ les sites politiques institutionnels et organisationnels.

Pourtant, des mesures de fréquentation des sites internet sont disponibles à une plus grande échelle, pour les médias comme pour les organisations sociales et politiques.  Il existe ainsi des mesures assez précises et régulières (quotidiennes dans certains cas) sur la fréquentation des sites d’organisations, institutions et personnalités sociopolitiques ainsi que des sites des médias d’informations n’entrant pas dans le panel de l’APCM. Certes ces données, mesurées par plusieurs outils différents, ne sont pas toujours faciles d’accès et au-delà d’un usage limité, payantes. Mais, notamment en période préélectorale, comme celle que nous vivons, ces données complètent avantageusement les sondages et autres analyses préélectorales. Leur contenu d’information dépasse largement l’intérêt des données de Google trends évoqués régulièrement dans les médias. Cette audience des sites Web permet notamment de saisir certaines évolutions socio-politiques, de façon assez fine et quasi instantanée après un événement politique (attentat, démission, déclaration de candidature…) ou dans la durée pluri-mensuelle ou pluriannuelle. Elle livre également certaines informations méconnues, comme par exemple, l’importance de l’audience des sites d’extrême droite en France.

Néanmoins ces données suscitent des interrogations légitimes. Dans le cadre de cette note, nous aborderons cette question à partir de quelques travaux de benchmarking des différents outils de la Web analytics disponibles en ligne et à partir de deux exemples de la dizaine de travaux pratiques que nous avons commencé à mener.

Parmi ces benchmarking d’outils de la Webanalytics, on retiendra plus particulièrement ceux de Rand Fishkin,(2015) (The Traffic Prediction Accuracy of 12 Metrics from Compete, Alexa, SimilarWeb, & More) et de Socialmedia.biz (2011), (15 Awesome Tools for SEO Competitor Analysis), accessibles en ligne. En français, on peut retenir l’article d’Olivier Ezratty, publié le 26/03/2012, mis à jour le 07/04/2014 sur L’Express.fr, [12 outils (gratuits et payants) pour mesurer l'audience d'un site Internet], un article cependant moins argumenté que les deux précédents.

Ces benchmarkings consistent à évaluer la fiabilité des données de mesure des outils examinés. Ils confrontent pour un panel de sites dont les audiences sont connues des auteurs de l’évaluation leurs données pour ainsi dire « certifiées » aux données produites par les outils de Webanalytics. Au terme de son travail de comparaison, Rand Fishkin estime Similar Web comme l’outil le plus fiable, alors que pour Social mediabiz, c’est Semrush, l’outil le plus robuste. Mais il faut souligner que l’analyse porte exclusivement sur l’audience de sites d’entreprise, que les outils évalués n’ont pas la même couverture géographique (certains outils ne concernent que les États-Unis). Les méthodologies de mesure diffèrent également, opposant notamment celle de Semrush (qui mesure le trafic occasionné par la seule recherche de mots clefs (« search visits ») aux autres outils censés mesurer le trafic global. Enfin, les data sont inégalement publiables, et le prix d’accès à ces données diffère assez grandement. Nous allons reprendre certains de ces différentes questions.

Pour mener nos premières tentatives de Webanalytics, nous avons utilisé Alexa, en confrontant une partie des données obtenues à celles mesurées par Similar Web et Semrush. Les données d’Alexa sont critiquées par Social mediabiz mais après avoir noté « Alexa: Too often, dubious numbers », l’auteur de l’analyse note que «  The tool is interesting for comparing similar sites or sites within an industry ». Nous avons également utilisé plus ponctuellement les données de Similarweb et de Semrush pour vérifier le degré de convergence des trois mesures d’audience.

Similar Web et Alexa offrent des extensions que l’on peut mettre sur la barre Firefox ou Chrome (pas sur Safari), extensions qui permettent une consultation instantanée de l’audience d’un site que l’on visite. Indépendamment de la fiabilité des données, il y a trois problèmes : l’autorisation de publication des datas, la saisie de données, et le prix. Alexa et Similar Web mesurent l’audience de façon un peu similaire, et sont assez aisément accessibles en ligne. Néanmoins, pour la rationalisation de la collecte de données, et certaines informations plus détaillées, il vaut mieux souscrire à une formule de service payant. Comme SimilarWeb n’a pas voulu accorder le droit de publier ses données en ligne, y compris pour des revues académiques, nous avons souscrit un abonnement à Alexa et obtenu un abonnement gratuit de trois mois pour accéder aux données Semrush.

Semrush est assez généralement considéré comme un des meilleurs outils, mais comme le formule un internaute dans un commentaire du benchmarking de Rand Fishkin « including SEMRush isn’t entirely fair in this dataset because they specifically track search visits, not all traffic ». Par ailleurs l’usage du site n’est pas aussi convivial que celui d’Alexa. En revanche, Semrush a l’immense avantage d’intégrer dans ses données les réseaux sociaux ce qui nous permet quelques explorations de cette dimension. À noter qu’il existe un outil spécialisé dans les réseaux sociaux, mais il plus compliqué et couteux d’accès.

Nous avons testé ces outils depuis juin en comparant d’une part, certaines données d’audience mesurées par les trois outils et, d’autre part, en vérifiant la cohérence des données d’audience avec les intentions de vote mesurées par les sondages. Nous nous sommes intéressés en particulier à l’audience des sites des candidats à la présidentielle états-unienne et à « la primaire ouverte de la droite et du centre française ». Le fait d’inclure dans notre panel de sites retenus des sites de médias nous offre par ailleurs la possibilité de comparer l’audience des sites mesurée par Alexa avec celle mesurée par l’APCM ou avec l’audience telle que mesurée dans le « Reuters Institute digital news report 2016 »[1] .

On peut en retenir que les données sont relativement critiquées et qu’il faut utiliser ces données avec beaucoup de précaution. Les données brutes sont très certainement à relativiser, c’est pour cela que nous privilégions les données de classement (Traffic Rank).

Pour tester l’intérêt des données, nous avons commencé par constituer une petite banque de données d’audience des sites et mener quelques études de cas pour vérifier la crédibilité des données obtenues. Nous avons notamment compilé les audiences des candidats à la présidentielle aux États-Unis et à la "Primaire ouverte de la droite et du centre" en France et examiné la cohérence de ces données avec la mesure de la popularité sondagière des candidats.

Les données accumulées

La compilation, depuis plusieurs mois, des données de plus de 200 sites socio-politiques et d’information en utilisant un des outils disponibles, fournit une moisson de chiffres qui constitue une base de données suffisante pour tester la vraisemblance des données. Cette ébauche de banque de données repose actuellement sur le suivi de l’audience d’environ 175 sites en France et de 30 sites politiques étrangers. Cet échantillon est constitué, d’une part, de près de 68 sites de médias d’information générale ou politique aussi bien presse écrite, radio télévision, médias en ligne, médias de la gauche comme de la droite radicale compris, d’autre part, de plus de 107 sites d’organisations (partis, associations, sites politiques divers, organisations syndicales et patronales) et d’institutions socio-politiques, complétés par une quinzaine de sites de personnalités politiques. Il comprend également le suivi de 30 sites politiques étrangers. Le suivi des médias est intéressant à un double titre. Au risque de nous répéter, d’une part, il existe des données d’audience sur les médias, d’autre part, le classement des certains sites peut être rapproché des opinions politiques. Nous avons constaté une très grande convergence entre le traffic rank des médias français par Alexa et les données de l’APCM ou du rapport Reuters.

Les données ainsi accumulées nous ont permis de tester l’intérêt analytique de la Webanalytics pour les sites politiques, nous permettant notamment de mener deux études sur la présidentielle américaine et la primaire de la droite et du centre.

Afin de tester la validité des données d’audience des sites, nous nous sommes d’abord intéressés à l’élection présidentielle états-unienne. Aux États-Unis, l’évolution de l’audience des sites de Clinton et de Trump (respectivement au 478è rang et 685è rang aux Etats-Unis, à la date du 24 octobre) se révèle ainsi assez cohérente avec les chiffres des sondages. Les courbes d’audience des deux sites (et même des quatre sites, puisqu’il y a quatre candidats) épousent assez bien les évolutions de la popularité sondagière des deux principaux candidats depuis la montée de l’audience de Clinton à l’issue de la convention démocrate au mois de juillet, la remontée de Trump au mois d’août, puis son recul notamment après le débat du 26 septembre.

Graphique 1. Évolution de l’audience quotidienne des sites de Hilary Clinton et de Donald Trump du le 4 septembre au 24 octobre 2016

 

Sources des données : ©Alexa 2016 (données de consultations des sites à partir des États-Unis)

Le deuxième test concerne la « Primaire ouverte de la droite et du centre ». Rappelons que nous nous ne confondons pas intérêt pour un site et intention de vote.  Néanmoins, nous faisons l’hypothèse que plus on se rapproche de la date du vote, plus l’audience relative des sites des candidats (partis, comités…) reflète l’audience politique telle que mesurée par exemple par les instituts de sondage.

Pour vérifier cette hypothèse dans le cas de la Primaire de la droite et du centre, nous utiliserons deux séries de données, représentées par deux graphiques. Le premier graphique décrit l’évolution hebdomadaire du classement des sites des principaux candidats depuis la fin juillet. Au début de l’été, Alain Juppé mène le bal et son site se classe assez nettement devant celui de Sarkozy qui n’a alors pas encore déclaré sa candidature. Ce qu’il fait fin août. L’annonce de sa candidature suscite un intérêt pour le site, dont l’audience double celle du site de Juppé au mois d’août. Mais l’effet d’annonce s’estompe en septembre et Juppé retrouve la première place le 28 septembre et la garde depuis. À l’approche de la date de la primaire, les données d’audience redeviennent cohérentes avec les sondages, non seulement pour Juppé et Sarkozy mais également pour les autres candidats.

Graphique 2. Évolution hebdomadaire du classement des sites des principaux candidats  à la Primaire ouverte de la droite et du centre du 27 juillet au 19 octobre 2016

Source des données :©Alexa 2016 (données de consultations des sites à partir de France)

En effet, entretemps, la sélection de l’ensemble de candidats à la primaire de la droite et du centre s’est terminée. L’évolution de l’audience des sites des 7 candidats retenus fait l’objet du deuxième graphique qui décrit l’évolution journalière du classement des sites des candidats depuis le 28 septembre. L’on voit sur ce deuxième graphique qu’Alain Juppé maintient l’écart avec Sarkozy, que l’audience du site de Bruno Lemaire double celle du site de François Fillon, qui devance NKM. Le site de JF Copé clôt le classement. Le site de Jean-Frédéric Poisson n’est classé qu’à partir du 17 octobre et navigue depuis lors autour de la 80 000ème place.

Graphique 3. Évolution quotidienne du classement des sites des candidats à la primaire du 28 septembre au 24 octobre 2016

Source des données : ©Alexa 2016 (données de consultations des sites à partir de France)

Conclusion

Les deux études de cas semblent confirmer la relative fiabilité de la mesure d’audience faite par Alexa, sa relative cohérence avec les sondages, notamment les classements de rang d’audience, aussi bien aux Etats-Unis qu'en France. Rappelons que ces données d’audience sont accessibles quotidiennement, relativement aisément accessibles, à un coût sans commune mesure avec celui des sondages. Bien entendu, cela ne signifie pas ipso facto que les données d’audience pour les sites soient fiables. Il est toujours possible de trafiquer les données. Comme pour les sondages, l’épreuve de l’élection permettra de vérifier la vraisemblance de certaines audiences flatteuses, comme celle de l’UPR par exemple. Il est vrai que cette épreuve n’est pas possible pour tous les sites, notamment pour Égalité et Réconciliation. Néanmoins, il me semble qu’à minima les données publiées apportent une mesure chiffrée confortant la thèse développée par les auteurs de l’ouvrage récent La Fachosphère « Comment l’extrême droite remporte la bataille du net ». Il faut certes mettre en question les données, mais aussi prendre la mesure des victoires de l’extrême droite dans la bataille culturelle et idéologique. Gramsci avait souligné l’importance de cette dimension du combat politique. Il serait dommage que l’extrême droite soit la seule à tirer les leçons de cette analyse.

Références

Ezratty, Olivier, (2014), 12 outils (gratuits et payants) pour mesurer l'audience d'un site Internet, publié le 26/03/2012 à 17:03 , mis à jour le 07/04/2014 à 15:45, l’express.fr.

http://lentreprise.lexpress.fr/high-tech-innovation/12-outils-gratuits-et-payants-pour-mesurer-l-audience-d-un-site-internet_1512233.html, consulté le 9-10-16.

Fishkin Rand, 2015,  Moz.com, The Traffic Prediction Accuracy of 12 Metrics from Compete, Alexa, SimilarWeb, & More, (2015), https://moz.com/rand/traffic-prediction-accuracy-12-metrics-compete-alexa-similarweb/, jun 2, 2015, consulté le 9-10-16.

Herrman John, 2016, Inside Facebook’s (Totally Insane, Unintentionally Gigantic, Hyperpartisan)Political-Media Machine,New York Times.,http://www.nytimes.com/2016/08/28/magazine/inside-facebooks-totally-insane-unintentionally-gigantic-hyperpartisan-political-media-machine.html?_r=0

Meyer Olivier (2016), Web analytics. Editions ENI.

Socialmedia.biz (2011), 7 tools to monitor your competitors’ traffic, (2011), http://socialmedia.biz/2011/01/10/7-tools-to-monitor-your-competitors-traffic/date, January 10, 2011, consulté le 9-10-16.


[1] Le Reuters Institute digital news report 2016 dressant un état des lieux de l’information numérique, étudie les modes de l’information dans 26 pays dont 20 pays européens plus l’Australie, le Brésil, Canada, la Corée du Sud, Etats-Unis, et  le Japon. Les données reposent sur l’interrogation en ligne en février 2016 de 2000 à 2197 personnes dans chaque pays. Pour chaque pays, le rapport donne un classement de la fréquentation des médias.

Le Club est l'espace de libre expression des abonnés de Mediapart. Ses contenus n'engagent pas la rédaction.