« Fake Traffic » ? Quelle fiabilité pour le classement des sites socio-politiques ?

Ce billet examine la question de la fiabilité des données d’audience des sites socio-politiques dont nous avons publié un classement sur ce blog. Un billet très méthodologique mais pas seulement puisqu’il pose la question de la certification des données d’audience des sites socio-politiques.

Nous avons publié sur la base de données de traffic ranking d’Alexa le classement des sites politiques les plus fréquentés en France (ici). Ces données ont été diversement critiquées, le plus souvent parce que Alexa évaluerait mal l’audience des sites francophones, ou parce que la présence ou l’absence de l’extension Alexa influencerait de façon excessive la mesure d’audience d’un site.  Quelques rares commentaires s’étonnaient plus globalement de l’audience de plusieurs sites. On peut et il faut s’interroger effectivement sur la fiabilité des données produites par Alexa, mais c’est moins l’outil qui nous semble en cause que le fait que l’audience d’un site puisse être gonflé artificiellement. Les informations nous manquaient cependant pour document le phénomène.

La découverte d’un billet intitulé “What is fake traffic? How can I identify it?”, mis en ligne le 30-9-16, apporte quelques réponses à cette question.Le billet est signé « Jospeh C » et est paru sur le site états-unien Flippa, un site conseil pour l’achat et la vente de sites web.  Le site est destiné à ceux qui souhaitent acheter un site et s’assurer que l’audience annoncée ne soit pas trafiquée. De façon générale, pour les sites commerciaux, l’audience est un argument important. On comprend donc aisément l’enjeu économique de la certification d’audience pour ces sites. L’audience représente également un enjeu pour les sites socio-politiques. D’une part, certains de ces sites vendent des emplacements publicitaires, et d’autre part, pour les organisations (ou personnalités) associatives et politiques, le nombre de visites de leurs sites est, comme leur nombre d’adhérents, un indicateur d’influence. Cependant, comme pour le nombre d’adhérents, les organisations associatives et politiques françaises ne brillent pas par leur transparence. Les conseils du billet What is fake traffic? How can I identify it?” pour identifier un « faux » trafic sont donc très utiles pour l’analyse d’audience d’un site socio-politique.

L’auteur qui signe Joseph C commence par définir le « faux trafic » comme un « trafic généré par des bots ou des logiciels, à la différence de l’interaction humaine. »  Selon Wikipédia, un bot informatique est un agent logiciel automatique ou semi-automatique qui interagit avec des serveurs informatiques. Un bot se connecte et interagit avec le serveur comme un programme client utilisé par un humain, d'où le terme « bot », qui est la contraction par aphérèse de « robot ». L’utilisation de bot peut donc générer donc une fausse audience. Il existe d’ailleurs des sociétés qui font « le sale boulot » et vendent une certaine quantité de faux trafic pour des tarifs assez faibles (5$ pour 5000 visites par exemple). Pour plus de détails sur ce service vendu, voir ici.

L’auteur du billet « Flippa » passe ensuite en revue les différents indicateurs « cause of concern » en matière de « fake traffic ». Il attire d’abord l’attention sur quatre « analytics » :

- Un taux de rebond élevé 

- Un faible nombre de pages vues par visite

- Une durée moyenne faible par visite

- Un pourcentage élevé de nouvelles visites

Tous ces analytics révèlent des visites assez rapides, témoignant d’un intérêt limité pour le contenu. Quand un site présente une audience importante, le fait d’avoir ce type d’indications, est un peu paradoxal. Par exemple, le taux de rebond (bounce rate) est un indicateur webanalytics qui mesure le rapport entre le nombre total de visites et le nombre de visites à une page. Un taux élevé indique que l'internaute ne reste pas sur le site.

Joseph C souligne trois autres « metrics » intéressants : la langue, le pays et la ville. Il faut regarder si les visites sont cohérentes avec les caractéristiques du site. Par exemple si le site vise principalement un site en français et reçoit une fraction conséquente de son trafic de pays non francophones, on peut s’interroger sur la fiabilité de l’audience. Il indique également que si un site revendique un nombre élevé de visiteurs uniques mais si les articles ne sont pas commentés et/ou si les comptes des réseaux sociaux suscitent peu ou pas d’interaction, c’est problématique. D’où l’intérêt des statistiques d’engagement d’un site. Interrogé, Flippa a confirmé qu’un pourcentage élevé d’audience générée par la voie d’accès direct (les quatre voies d’accès à un site sont direct, search, social media, links) est également « cause of concern ».

Aucun indicateur ne résume à lui seul la situation surtout quand un site reçoit à la fois du vrai et du faux trafic. Comme l’écrit Joseph C : “The more red flags which are raised the more skeptical you should be”.

Le problème bien sûr c’est d’obtenir ces « analytics » et « metrics ». Pour cela, il faut passer en revue les analytics d’un site, à l’aide, par exemple, de Google analytics. Quand on veut acheter un site commercial, le vendeur peut difficilement ne pas les communiquer. Rien ne contraint cependant un site politique à communiquer ces données. Il existe cependant certains outils, comme Alexa et Semrush, qui publient, en complément de leurs données d’audience, ce type d’informations.

Afin de tester le classement des sites que nous avons publiés, nous avons pu obtenir un certain nombre d’analytics accessibles pour une partie des 30 premiers sites que nous avions listé à partir des données Alexa. Pour notre enquête sur la fiabilité des données, nous avons privilégié les analytics de Semrush, considéré généralement comme un bon outil. Pour certains sites ces données ne sont toutefois pas disponibles, nous nous limitons ici à 25 sites documentés par Semrush. Les analytics sont récapitulés dans 2 tableaux. Un seul tableau aurait été trop illisible.

 En suivant l’ordre du classement de Semrush qui vient de créer un outil (en version beta) de Webranking similaire à ceux d’Alexa et de Similarweb, les tableaux ci-dessous exposent quelques analytics et metrics sur 25 sites appartenant au top 30 des sites associatifs et politiques français auquel nous avons ajouté le site de Mediapart, car nous avons publié le classement sur ce site. 

Tableau 1. Analytics et metrics des sites socio-politiques les plus visités en France

capture-d-ecran-2016-12-01-08-54-09

(1)   (1)    Le rang Alexa est un rang correspondant à une mesure d'audience du nombre de visiteurs uniques en France

(2)     (2) Le rang Semrush est une version beta prenant en compte les visites uniquement à partir des ordinateurs, au niveau mondial. Les données par pays ne sont pas encore disponibles.

(3)   (3)  Le taux de rebond (bounce rate) est un indicateur de web analytics.  Il mesure le pourcentage d'internautes qui sont entrés sur une page Web et qui ont quitté le site après. Plus le taux est élevé, moins le site accroche.

Le premier tableau permet tout d’abord de confronter le classement d’Alexa et de Semrush. Même si le classement utilisé sur la base de données Alexa se référait aux seuls sites consultés en France et si Semrush ne publie pour le moment qu’un classement mondial, on remarque que les deux classements sont assez proches. Nous n’avons retenu que les sites pour les quels Semrush fournit des analytics.

 Le premier tableau indique également les indicateurs de nombre moyen de pages vue, de durée moyenne et le taux de rebonds ; ainsi que l’activité d’engagement (( le nombre de like, partage, retweet, et commentaires) dans les réseaux sociaux et enfin le pourcentage de trafic sur le site provenant d’accès direct.

Tableau 2. Suite du tableau 1 et degré de fiabilité de l’audience des sites.

capture-d-ecran-2016-12-01-09-02-59

(4) Feedly.com, hootsuite.com, netvibes.com, live.com, typeforme.com sont des agrégateurs de contenu

(5) Fiabilité : 5 étoiles : données certifiées, c.a.d. après accès aux données de google analytics, ou après certification des données d’audience ; 4 étoiles : données très vraisemblables ; 3 étoiles : données qui suscitent quelques interrogations ; 2 étoiles : données douteuses ; 1 étoile : données très peu fiables.

Le deuxième tableau indique les sites qui envoient du trafic vers un site et le pourcentage de trafic que ces liens génèrent. Nous avons colorié en rouge les données qui suscitent de fortes interrogations, en orange les données qui suscitent des interrogations, et en jaune des données qui peuvent poser problème. (Ces couleurs ne concernent pas les noms des sites)

La dernière colonne du deuxième tableau tire les conclusions de toutes ces données, en donnant un degré de fiabilité de ces données selon l’échelle suivante :

5 étoiles : données certifiées, c.a.d. après accès aux données de google analytics, ou après certification des données d’audience,

4 étoiles : données très vraisemblables,

3 étoiles : données qui suscitent quelques interrogations,

2 étoiles : données douteuses,

1 étoile : données très peu fiables.

L’audience d’aucun site ne peut être certifiée comme absolument sûre. Pour cela il faudrait avoir accès aux analytics complets de ces sites. Ce qui n’est pour le moment le cas d’aucun site. En attendant, les audiences de 15 sites nous semblent très vraisemblables, 6 sites suscitent quelques interrogations, 3 sites présentent des données douteuses, et deux des données très peu fiables. Bien entendu les sites peuvent lever ces interrogations en autorisant d’accéder aux données de Google analytics. Nul doute que les sites contestant que leurs données posent question feront une démarche de transparence sur leurs données.

Pour terminer, quelques commentaires sur les sites dont les analytics suscitent des interrogations, du moins d’après les analytics et metrics auxquels nous avons pu accéder. Rien ne garantit que nous épuisons ainsi la question de la fiabilité des données, mais c’est une première approche.

Les données d’audience d’Égalité et Réconciliation suscitent quelques interrogations, liées principalement au % de trafic généré par jcr3.free.fr., soit 54% de leur trafic par des liens. Or le site jcr3.free.fr est un site à très faible audience (classement Alexa mondial : 2 872 243). Sa page d’accueil titre « Topinambours et billevesées » et le site présente peu d’actualités. Les archives n’indiquent pour beaucoup de mois qu’un seul billet. Cette statistique jette une ombre sur les données d’É&R.

Les données du site Fdesouche semblent à priori fiables, d’après les données disponibles. Ce qui n’est pas du tout le cas des sites de Wikistrike et de l’UPR. Wikistrike a un taux d’accès direct élevé, très peu d’interactions sur les réseaux sociaux, ce qui est selon le billet de Flippa « cause of concern ».  L’UPR présente un cas instructif. Les trois sites qui lui envoient des visites sont anglophones et germaniques. Le public de l’UPR semble très polyglotte. Cela jette un doute très fort sur son audience. Bien entendu, l’UPR qui dispose de fans très actifs sur le Web ne manquera pas de contester cette appréciation, mais l’UPR pourra lever les doutes en donnant accès aux analytics de son site.

Le site d’En Marche présente deux particularités : un pourcentage élevé d’accès direct, et le fait que télégramme.fr lui envoie le tiers de son trafic par liens. On est curieux de ses analytics.

Riposte laïque a des visiteurs très pressés.

La gauchematuer, un site qui n’avait pas été classé dans le top trente mais y appartient selon les données d’audience d’Alexa, a des analytics (faible nombre de pages, très faible durée, taux de rebonds élevé) qui suscitent des doutes sur son audience. Linsoumis, autre site oublié dans le top trente, a la particularité de devoir 86,68 % de son trafic par liens à un site en « .pl » c.a.d. polonais. Étonnante metrics. Par ailleurs ce site ne suscite qu’une très faible interaction sur les réseaux sociaux, ce qui semble bizarre.

Bien entendu nos observations sont prudentes et doivent être confirmées. Il faudrait d’une part des analyses complémentaires et d’autre part, pouvoir accéder aux analytics de tous les sites pour que leur audience soit certifiée.

Le Club est l'espace de libre expression des abonnés de Mediapart. Ses contenus n'engagent pas la rédaction.