Vincent Truffy (avatar)

Vincent Truffy

Journaliste à Mediapart

194 Billets

10 Éditions

Billet de blog 13 septembre 2010

Vincent Truffy (avatar)

Vincent Truffy

Journaliste à Mediapart

Données, donnez-moi

Il y a, dans le «journalisme de données», quelque chose qui me dérange. Cette idée que mesurer le monde permettrait d'atteindre sa vérité. Que le fait de donner au lecteur l'accès direct à des sources serait lui donner accès aux sources. Que la mise en scène de la collecte des données pourrait dispenser d'en tenter une lecture.

Vincent Truffy (avatar)

Vincent Truffy

Journaliste à Mediapart

Il y a, dans le «journalisme de données», quelque chose qui me dérange. Cette idée que mesurer le monde permettrait d'atteindre sa vérité. Que le fait de donner au lecteur l'accès direct à des sources serait lui donner accès aux sources. Que la mise en scène de la collecte des données pourrait dispenser d'en tenter une lecture.

Entendons-nous: il ne s'agit pas d'opposer le «data-journalism», ou le «computer-assisted reporting», ou le «data driven journalism» à la pratique d'Albert Londres: d'autres l'ont déjà fait avec assez de clarté pour qu'il ne soit pas nécessaire de ressasser ces arguments. Mais il me semble qu'avant de se vautrer dans les chiffres, il faut poser les limites du genre.

Le chiffre donne l'illusion de la science, mais tout n'est pas quantifiable et ce qui fait l'ordinaire du journalisme – le terrain, l'humain, l'imprévu, l'inattendu, la perception de premier abord plus souvent que la compréhension globale – moins encore que le reste.

Typiquement, le journaliste s'occupe du fait divers, le statisticien étudie la délinquance. Quand l'un montre une situation singulière, exceptionnelle, qui ne reflète pas ce qui se passe dans la société mais plutôt ce qui sort de ses normes, l'autre considère les grandes masses anonymisées et replace cela dans ses proportions dérisoires. Et ce dernier ne peut pas faire autrement parce que pour pouvoir additionner des situations particulières, il a besoin de les débarrasser de leur particularité. Ce faisant, une bonne partie du réel lui échappe. L'inquantifiable, justement.

Le chiffre donne l'illusion de l'objectivité. Pourtant, les données ont une source et leur recueil un objectif. L'accepter, c'est se soumettre à ses conclusions, mais l'ignorer, c'est encore faire fausse route. Exemple canonique: les chiffres dits «de la délinquance» rendent compte du nombre de plaintes enregistrée par la police et la gendarmerie; donc mesure si la population estime ou non nécessaire de faire la démarche du dépôt d'une plainte (mesure de la tolérance à tel ou tel crime et délit) et si la police l'a jugé recevable. Si je juge que le vol de mon portefeuille ne me permettra jamais de le récupérer, je ne déclarerais probablement pas cet acte réprimé par la loi; mais si j'ai besoin d'une déclaration de vol pour obtenir de nouveaux papier, je m'y soumettrai même si le vol s'avère en fait bénin.

De même, choisir un indicateur isolé sur une période bien particulière permet d'étayer à peu près n'importe quelle affirmation. Et même lorsque l'on montre l'évolution, le choix de l'échelle permet rendre négligeable ou révoltant toute baisse et toute hausse.

Enfin, comme en physique quantique, l'observation influe sur le système observé. Dès lors que l'on utilise comme mesure-étalon du chômage la catégorie A (demandeurs d'emploi tenus de faire des actes positifs de recherche d'emploi, sans emploi) et que la politique de l'emploi est jugée à cet aune, les organismes de reclassement et les pouvoirs publics concentreront leurs efforts sur ce chiffre, au détriment de ceux qui ne rendent pas compte de leurs recherches parce qu'ils n'en tireront aucune indemnisation ou de ceux qui vivotent avec quelques heures par mois.

Pour ces raisons, et probablement pour d'autres plus obscures, je n'ai jamais vu un rubricard débarquer dans le service infographie d'un journal (l'ancien nom du data-journalisme ;) pour dire «j'ai tel corpus de données et je voudrais savoir quelles informations on peut en tirer» et toujours «j'ai tel graphique qui illustre mon propos et je voudrais que vous le reproduisiez». Une façon de ne pas se laisser tyranniser par les chiffres certainement, mais aussi le moyen de s'abriter derrière un expert ou un organisme statistique qui assume le choix des statistiques, qui garantit sa scientificité et fournit ce qu'il faut en penser.

Pourquoi alors s'aventurer du côté d'une journalisme qui «apprivoise» les chiffres? De la même façon qu'il existe chez les lecteurs le fantasme d'une information laissée à l'abandon par la presse, il y a chez les journalistes l'espoir de mines de données délaissées par les statisticiens appointés. C'est ce qui anime le mouvement OpenData. Il existe même une agence française chargée de répertorier ce matériel, l'APIE, et plusieurs exécutifs (les Etats-Unis avec OpenGov, la Grande-Bretagne avec DirectGov...) s'y sont mis, souvent devancées par des organismes transnationaux (UNdata, OCDE, Banque mondiale, Eurostat...). Ponctuellement, des initiatives privées comme OpenSecrets, TransparencyData ou en France NosDéputés.fr et Numérisons les lobbyistes (ces deux dernières menées par Regards citoyens) permettent d'aller au-delà des données publiques. On peut citer enfin les véritables essais de journalisme de données tentés par quelques journaux fortunés: les Afghanistan War logs à partir de données divulguées par Wikileaks, les notes de frais des députés britanniques dépouillé par les journalistes du Guardian et ses lecteurs ou encore la carte des crimes à Los Angeles.


Simon Rodgers, qui tient le Datablog du Guardian a donné, fin août à Amsterdam, sa méthode.

Avant, les journalistes collectaient les données, les vérifiaient, les structuraient puis s'en débarrassaient une fois l'article écrit; pour ceux qui passent entre ses mains, l'objet journalistique passe de l'article simple à l'ensemble article + infographie + base de données.

  • D'abord, libérer les données, c'est-à-dire assurer la plus grande compatibilité des séries pour d'éventuelles utilisations ultérieures. Pour patrager les données, le Datablog utilise tout simplement une feuille de tableur Google spreadsheets incorporé dans la page Web et permet en outre de la télécharger au format .xls (Excel);
  • Détecter les anomalies, les chiffres étonnant et suspects pour permettre leur vérification. Il est possible, par exemple d'en mutualiser la lecture et la correction par le «crowdsourcing», c'est-à-dire l'appel à l'aide des lecteurs. Permettre de compléter, de «débuguer», de trier et filtrer les séries (voir ScraperWiki, HelpMeInvestigate);
  • Proposer une «visualisation», c'est-à-dire une infographie, et des outils d'exploitation des données (ManyEyes, Wordle, Tableau, Socrata, Swivel, Factual, Datamasher, Fusion Tables...)
  • Expliquer comment les chiffres ont été obtenus / construits. Le blog est le lieu privilégiés de cette discussion avec le public parmi lequel se trouve éventuellement des experts du sujet;
  • Proposer un article de synthèse, c'est-à-dire raconter une histoire (écrite ou dessinée) qui évite l'épluchage fastidieux de la masse de données. Fournir le contexte de ces chiffres, qui devient, en quelque sorte un ensemble de métadonnés (personnes, événements, lieux, etc., soit les éléments d'une narration classique).