Le Renseignement aux portes du Big Data

Ce billet fait le rapprochement entre la loi relative au renseignement (votée 2015) et les techniques du Big Data. Le détail de l'analyse fait apparaître un nombre impressionnant de points obscurs : sous une formulation apparemment claire, le texte de loi peut être utilisé de facon abusive par les services d'espionnage. Le billet est une introduction à une analyse plus complète (en pdf).

Depuis environ un an, une nouvelle loi est en cours d’application. Il s’agit de la loi du 24 juillet 2015 relative au renseignement.

Cette loi sert pour l’essentiel à rendre légales les pratiques illégales des services de renseignement français sur le sol français.

Il existe pourtant une incontestable nouveauté : la légalisation du captage des données sur Internet dans le but final de repérer des intentions terroristes. Les techniques de captage qui vont être mises en oeuvre sont inconnues (et même mystérieuses) mais une chose paraît certaine : plus on capte de données, plus on améliore ses chances de repérer des données de connexion terroriste.
L’idéal est évidemment de capter tous les flux mais dans tous les cas de figure, les services de renseignement vont se trouver face à des volumes considérables de données.

Le stockage de ces données ne devrait pas poser de problèmes considérables si on tient compte du savoir-faire pré-existant des services spéciaux ainsi que de l’expérience accumulée autour des clouds souverains comme Numergy ou CloudWatt.

Mais comment traiter ces flux ? La solution qui saute à l’esprit est celle du Big Data. On regroupe sous ce nom un ensemble de techniques assez récentes spécialement dédiées aux données de faible qualité mais avec un fort volume et un fort renouvellement.

Je propose dans l’étude jointe de confronter les textes relatifs à la loi sur le renseignement et les logiques mises en oeuvre dans le Big Data.

Comme on le verra quelques conclusions s’imposent.

Que signifie l’utilisation du Big Data ?

En premier lieu, la captation massive des flux présente un indéniable attrait pour les politiques publiques. Mais la loi relative au renseignement soulève des problèmes majeurs qui impactent directement le droit à la vie privée mais également l’exercice de la démocratie. On a ainsi ouvert une boîte de Pandore inédite par son ampleur et ses effets.

La loi a souhaité que les techniques mises en oeuvre soit limitées à la recherche d’intentions terroristes. Comme je crois le montrer dans l’étude, il n’existe pas de procédure simple pour atteindre le résultat recherché.

Il ne faut pas non plus espérer découvrir une loi au sens des lois physiques qui relient une cause et des effets. Les traitements du Big Data se situent plutôt dans l’univers de la corrélation et non de la cause.

La corrélation découverte ne sera conservée que si elle se révèle utile à l’action. Ceci signifie donc qu’il faudrait aller jusqu’à une enquête finale pour juger de l’intérêt de la découverte. Le Big Data implique l’investigation policière.

La logique du Big Data va plutôt procéder selon des modes statistiques ou d’apprentissage et présenter une incertitude sur les résultats. Le seuil de signification retenu est donc un choix politique qui permet aux programmes de retourner des segments plus ou moins vastes de la population.

Le traitement peut être simple (comme par exemple toutes les IP qui n’ont aucune activité numérique à l’heure de la prière musulmane). Il peut être aussi beaucoup plus laborieux, s’étendre sur des années, s’intéresser à des corrélations à-priori sans lien avec le terrorisme, produire de nombreux fichiers intermédiaires.
Le texte de loi est remarquablement silencieux voire confus sur le détail des opérations mises en œuvre.

Pour résumer la démarche Big Data est une démarche neutre (les machines ne font pas d’a-priori positif ou négatif) mais a-scientifique, avec des choix algorithmiques mal ou pas explicités, aux résultats incertains et qui ne peut être validée que par l’observation directe des personnes suspectées.

Questions soulevées : l’anonymat et le gouvernement algorithmique

Par ailleurs, les données auxquelles la loi fait référence sont incontestablement des données de nature privée et cela soulève la question de savoir à qui appartiennent les données numériques.
Il faudrait donc pouvoir compter sur un anonymat absolu. Mais dans les traitements Big Data l’anonymat est très relatif. Certaines utilisations de fichiers obligent même à une levée temporaire de l’anonymat (comme pour les fichier Cristina, FSPRT, ou les fiches S du FPR qui peuvent définir des populations cibles).

Comme on le verra dans l’étude, le numérique fait exploser les notions du code civil : l’anonymat ne devrait plus être défini comme la simple ignorance du nom d’une personne mais comme l’impossibilité à retrouver physiquement la personne.

Pour éviter des dérapages majeurs, il ne reste donc qu’une seule contrainte : la présence d’une commission (la CNCTR) qui peut observer les résultats obtenus. Elle peut aussi produire des avis (classifiés défense) que l’administration n’est pas obligée de suivre.

La loi sur le renseignement est la première loi qui s’appuie ouvertement sur le Big Data au prix de ne poser aucune des questions politiques de fond que pose l’univers numérique.

Est-on entré dans une raison algorithmique où ce que font les machines est si obscur qu’on ne peut plus avoir d’avis citoyen ? Est-ce que le gouvernement par le nombre va remplacer le gouvernement par la loi ?

On en prend le chemin mais de la façon la pire qu’on puisse imaginer puisque la mise en oeuvre se fait dans les services du renseignement, l’administration la plus opaque et la plus dangereuse de la République. Comme on peut le voir dans l'étude jointe, l'imprécision des textes laisse une grande marge de manoeuvre à ces services d'espionnage.

Etude plus détaillée pour en savoir plus sur 12 pages (pdf, 847.1 kB)

Le Club est l'espace de libre expression des abonnés de Mediapart. Ses contenus n'engagent pas la rédaction.