Oliv92 (avatar)

Oliv92

Supply Chain

Abonné·e de Mediapart

105 Billets

2 Éditions

Billet de blog 30 août 2012

Oliv92 (avatar)

Oliv92

Supply Chain

Abonné·e de Mediapart

Garbage in, garbage out

Oliv92 (avatar)

Oliv92

Supply Chain

Abonné·e de Mediapart

Ce blog est personnel, la rédaction n’est pas à l’origine de ses contenus.

Le Docteur Antoinette Rouvroy refusant le dialogue avec des médiapartiens aussi vulgaires que moi (qui a en plus le mauvais goût d'être un homme et de me dissimuler derrière un pseudo), je me vois obligé d'écrire un billet pour m'exprimer. Pas question en effet de se faire dessaisir d'un débat passionnant sur des questions qui nous touchent tous : notre environnement de plus en plus numérisé nous manipule-t-il, prend-il le contrôle de nos vies ?

Evitant son texte inintelligible (d’autres auraient dit imbitable) proposés aux lecteurs de Médiapart il y a 3 jours, je vais repartir d’une transcription d’une émission de radio « grand public » où certaines idées clés du Dr Rouvroy sont présentées. Et quand ces idées sont présentées de manière claire, apparaît tout aussi clairement leur limite.

Sa théorie principale est « Des algorithmes puissants faisant des analyses statistiques sur les données personnelles disponibles de manière quasi-illimitée permettent d’anticiper les comportements humains » . Ces mécanismes sont déjà en place, selon elle, nous « gouvernent » déjà, ont déjà pris le contrôle de nos vie.

Premier écueil (objet de ce billet): « garbage in, garbage out ». Quiconque tente de maintenir dans un environnement fermé, tel qu’une entreprise, des bases de données, sait à quel point il est difficile de maintenir les données à jour. Le gestionnaire des données (c’est un métier, oui oui) corrige tous les jours des erreurs qui lui sont remontées par différents acteurs dans l’entreprise. Il sait que certaines bases sont fausses à 10, 20, 30%: la liste des clients contient des centaines de clients qui n’ont rien commandés depuis des mois. Leurs coordonnées sont elles à jour ? Probablement pas. Leur « profile de commande » est il toujours valable ? Personne n’en sait rien.

Penser donc, que dans un environnement « ouvert » tel qu’internet, sans procédure, sans contrainte ni contrôle, les bases de données sont raisonnablement à jour relève de la naïveté la plus complète. J’ai par exemple une vieille adresse internet que je n’utilise plus depuis 3 ans. Je suis persuadé que cette adresse est encore enregistrée dans des dizaines de base de données qui m’envoient toujours des mails automatiques, associée à mes anciennes coordonnées à Boulogne-Billancourt (d’où le 92), un statut de célibataire faux depuis 10 ans, etc etc etc. Les algorithmes les plus puissants peuvent toujours tourner sur ces données, ils ne prédiront que du « garbage ». Les personnes qui veulent nous faire peur ou nous culpabiliser vous nous dire « mais les individus eux-mêmes, dans une sorte de servitude volontaire, mettent à jour leurs données ». Vraiment ?? Qui n’a jamais créé un compte bidon sur un site qui l’intéressait sur le moment, « juste pour voir » et passer à autre chose ensuite ? Qui a une page « facebook » cohérente ? Sachant que ma fille utilise mon compte pour jouer à des jeux débiles, celui qui va visiter la mienne va avoir du mal à prédire qui je suis et ce que vais acheter demain pour le petit déj. Si Facebook est effectivement valorisé sur la qualité des infos qui s’y trouvent, je comprends que son cours de bourse se casse la figure. De manière générale, les gens sont sur internet comme dans la vraie vie : fainéants, déconneurs, approximatifs, lunatiques, menteurs, passent d’un site à l’autre, d’un sujet à l’autre, aime un jour ce qui les ennuie le lendemain… Tous les « data mining » du monde pourront toujours creuser, ils ont plus de chance de tomber sur la conduite des égouts que sur un filon d’or.

Pour finir, petit rappel de math, pour flinguer ce fameux fantasme du croisement des bases de données. Si vous croisez 5 bases de données qui sont chacune correcte à 70% , ce qui est déjà un bel exploit… vous obtenez un résultat incomplet ou faux à 78% !! (0,7 puissance 5).

Prochain billet « deuxième écueil : surévaluer la puissance des algorithmes »

Ce blog est personnel, la rédaction n’est pas à l’origine de ses contenus.