Big data. Subir ou accompagner ?

 

 Thierry Berthier 28/06/2013

Nous avions présenté l'auteur, que nous remercions, en introduction à un précédent article de lui http://www.admiroutes.asso.fr/larevue/2013/136/OEA.htm

Les récentes révélations d' Edward Snowden sur le programme PRISM, initié en 2007 par la NSA, ont le mérite de mettre en lumière une problématique et des enjeux stratégiques largement sous-évalués au sein du débat public. L'objectif de PRISM s'inscrit dans une stratégie de lutte contre les menaces visant l'Amérique et consiste principalement en la mise en place d'un système d'écoute généralisé capable d'agir directement sur les serveurs centraux des neuf principales sociétés internet américaines. Dans l'hexagone, l'affaire fait peu de bruit en dehors de la sphère informatique et ne semble pas suffisamment porteuse pour occuper la une. Aveuglement ou négligence assumée ? Le feu médiatique illumine durant un instant l'affaire PRISM puis l'efface presque aussitôt alors qu'il serait si pertinent et si profitable de saisir cette occasion et de provoquer une réflexion nationale impliquant chaque citoyen.

Par un argument facile et définitif, certains objecteront que le citoyen d'aujourd'hui n'est guère disponible pour un débat de cette nature, tout affairé qu'il est à chercher des solutions lui permettant de remplir son caddy, faire le plein de son automobile, conserver son emploi ou se marier avec qui bon lui semble. Là encore, ce serait sous-estimer les enjeux et mutations technologiques qui vont l'impacter, avec ou sans son consentement. Ce serait occulter la puissance des changements exponentiels que nous et nos descendants devront subir ou accompagner dans un futur très proche.

Car c'est bien là que se situe la question centrale  : Souhaitons-nous subir ou accompagner ?

Notre espérance de vie augmente de trois mois chaque année ; la convergence NBIC (Nanotechnologies, Biotechnologies, Informatique, Cognitique) provoque ce « recul de la mort » et doit nous inciter à une introspection positive sur notre rapport à l'espace numérique et sur les arbitrages à fixer entre une exigence accrue de sécurité et une indispensable garantie des libertés individuelles (une forme de contrat social numérique...). Le juste équilibre est à chercher en un centre de gravité informationnel qui nous permettra d'engager sereinement notre ascension technologique.

Ainsi, nous devons nous interroger sans tarder sur la place du citoyen dans un espace dont la texture évolue fondamentalement, fusionnant ses dimensions physiques et numériques.

Projection algorithmique individuelle

Le questionnement nécessaire passe tout d'abord par une prise de conscience absolue et exhaustive de notre projection algorithmique personnelle. Cette entité désigne l'ensemble fluctuant des informations que nous transférons volontairement ou non vers les mémoires et archives des systèmes numériques à la suite de toutes nos interactions algorithmiques.

Lorsqu'un opérateur humain H décide d'utiliser un algorithme A exécuté sur un système de calcul S, une information est échangée entre H et S et une fraction de cette information est archivée sur S. Nous appelons projection algorithmique de H sur S selon A, l'ensemble fini de mots binaires PS(H/A) archivés sur S, résultant de l'exécution de A sur S décidée par H.

Nos communications numériques (mail, sms, tweets, messages postés sur des forums ou groupes de discussions) en font partie, mais également toutes les métadonnées associées (heure, durée, lieu d'émission d'un message par exemple).
Nos transactions : virements, achats ou ventes en ligne, enchères, échanges numériques, viennent compléter les précédentes sans relever pour autant du même type d'algorithmes.

Nos recherches en ligne via des moteurs ou annuaires fournissent elles aussi données et métadonnées porteuses de sens. L'information associée dépasse alors souvent la seule description factuelle de l'événement numérique ; elle en dit plus !
Un calcul déductif, croisant ces différentes sources, fournit de nouvelles informations engendrées par l'association ou la corrélation de données collectées séparément.

L'entité informationnelle constituant notre projection est souvent sous-estimée, quand elle n'est pas simplement ignorée de l'utilisateur des systèmes informatiques. Pourtant, cette empreinte numérique personnelle, constitue une ressource informationnelle de première importance et devient la cible de nombreux systèmes de collecte et d'analyse automatisés. Les enjeux corrélatifs de nos projections algorithmiques ne relèvent pas seulement des secteurs du marketing ou du e-commerce, mais concernent tout autant les sphères de la sécurité, de la détection de menaces ou de l'acquisition automatique de renseignements. L'identité numérique, qui fait l'objet de nombreuses études, s'intègre parfaitement, en tant que composante, à l'ensemble plus large formé des projections algorithmiques.

Mieux encore, le formalisme des projections permet de décomposer l'identité numériques en sous-ensembles associés aux algorithmes utilisés par l'opérateur. Cette décomposition peut alors être exploitée par un système automatisé d'analyse sémantique qui cherchera à structurer les données brutes ouvertes avant de les exploiter.

Collecte des données comme pratique stratégique

La surveillance généralisée et automatisée sous-entend une collecte de données ouvertes ou non.

Il faut en premier lieu accepter l'idée rugueuse que cette surveillance soit corrélative de l'agrégation et de la structuration de l'information au niveau planétaire. Il s'agit d'un postulat systémique qui peut facilement heurter sensibilité et libre-arbitre, mais c'est aussi une hypothèse qui permet d'aborder la réflexion sans tomber dans le piège grossier du rejet global, à la fois stérile et contre-productif.

Les tensions et conflits géostratégiques jusqu'à présent confinés à l'espace physique débordent et se projettent sur le cyberespace. Leurs projections se réifient et influencent à leur tour les événements géostratégiques. Des boucles de rétro-actions émergent de façon systémique entre les sphères cyber  et physiques. Elles déforment leurs frontières initiales et accélèrent leur fusion.

La surveillance des territoires physiques induit la surveillance des territoires numériques et réciproquement. Il faut y voir un seul et même transfert d'information sur des supports qui fusionnent. Cette tectonique informationnelle doit nous guider vers la mise en place de stratégies de collectes de données compatibles avec les notions relatives de liberté individuelle et de « morale numérique ». Abordée comme une ressource disponible et ouverte, la donnée constitue à la fois une garantie de souveraineté pour une nation évoluant dans un contexte de fortes concurrences stratégiques mais également un carburant nécessaire au bon fonctionnement du moteur informationnel produisant une ascension technologique.

Stockage de l'information

Au niveau économique, une étude récente « State of information Survey » réalisée par le groupe Symantec en 2012 auprès de plus de 4500 entreprises sur 38 pays, montre que les informations perdues coûtent chaque année 1100 milliards de dollars ! Fichiers clients, transactions financières ou propriétés intellectuelles, ces données numériques représentent jusqu'à 49% de la valeur totale d'une entreprise. L'étude montre en particulier que les sociétés françaises ont tendance à minimiser la valeur de leurs données, en estimant qu'elles représentent seulement 30% de la valeur globale de l'entreprise.

Le volume total des informations stockées par toutes les entreprises en 2012 était de 2.2 zettaoctets (un zettaoctet = 10 puissance 21 octets), avec en moyenne 563 téraoctets (un téraoctet = 10 puissance 12 octets) pour les PME et 100 000 téraoctets pour les grandes entreprises. L'étude montre que le volume d'information devrait augmenter de 67% durant 2013 pour les grands groupes et de 178% pour les PME. L'information rapporte mais elle a aussi un coût.

Ainsi, les PME dépensent en moyenne 332 000 dollars par an pour leurs informations contre 38 millions pour les grandes entreprises. La perte d'information pour une entreprise peut être rapidement fatale : perte de clientèle, dégradation de l'image de marque, dépenses supplémentaires et chiffre d'affaires diminué. Le stockage et la duplication de données s'imposent au premier rang de bonnes pratiques de l'entreprise ; il en est de même pour un Etat.

L'organisme gouvernemental américain, responsable du renseignement électronique, NSA, achève la construction d'un important Datacenter dans l'Utah. Ce centre dénommé Community Comprehensive National Cybersecurity Initiative Data Center offre une capacité de stockage de l'ordre du yottabytes (10 puissance 24 bytes) et est en mesure de capturer toute forme de communication (messages électroniques, appel téléphoniques, requêtes sur moteur de recherche, reçus de transactions commerciales, empreintes numériques privées...).

Le Sénat américain a voté en faveur d'une loi autorisant la surveillance sans mandat dans le cadre de la lutte contre le terrorisme FISAA ( Foreign Intelligence Surveillance Amendment Act), légalisant ainsi l'accès à toutes les données en ligne, en particulier celles stockées dans les services cloud US comme ceux de Google ou d'Apple.

Traitement et analyse des données

Après la collecte et le stockage et comme pour toute ressource minière, une phase de traitement, de structuration et d'analyse des données s'avère indispensable afin de rendre l'information exploitable. Puissance de calcul et intelligence artificielle se conjuguent alors pour trier, filtrer, détecter et sélectionner les données pertinentes puis pour établir des relations, des corrélations entre elles.

La qualité des machines et des algorithmes influence directement celle des résultats obtenus.L'exploitation des grosses bases de données, pour être efficace et rentable, doit savoir détecter des ressemblances fines liant des classes de données distinctes puis quantifier de façon précise le niveau de similarité mis en lumière, en un temps de calcul minimisé.

Mesurer les similarités existant entre deux objets est une activité que notre cerveau, associé à nos organes de perception, réalise presque instantanément sur des jeux de données « de taille humaine ». Les algorithmes d'analyse tentent de réaliser les mêmes mesures sur des ensembles d'informations de taille « big data » forcément incompatibles avec un traitement humain. Seules les puissances et les rapidités de calcul permettent un traitement efficace à partir d'un algorithme pertinent.

On comprend alors la course engagée dans le domaine du calcul haute performance (HPC) et en particulier la compétition féroce opposant États-Unis et Chine sur l'obtention de la pôle position HPC. On notera que la machine ou supercomputer la plus puissante est une machine chinoise depuis quelques jours. Il s'agit de Tianhe-2 (Milky way-2) offrant 3 120 000 cores et 33862.7 Tflop/s
exploitée par la National University of Defense Technology à Changsha.
Cette machine vient de ravir la première place à la machine américaine tenante du titre TITAN – Cray XK7. (ndlr. Cf notre brève sur ce sujet)

La compétition, ou course aux armements de calcul que se livrent Chine et USA doit nous interpeller et nous inciter à maintenir un niveau minimal (vital) en HPC Français.

Symétriquement, la même forme de compétition concerne les infrastructures de stockage et d'analyse de l'information : se maintenir à un niveau minimal relève d'une stratégie de bon sens. Cet effort nécessaire doit nous assurer une indépendance informationnelle (au même titre qu'une indépendance énergétique) et consolider notre souveraineté technologique.

Il serait du plus grand danger de laisser filer les navires chinois ou américain de la collecte des données, perdant ainsi tout contrôle sur cette ressource primordiale.

Thierry Berthier 28/06/2013

Le Club est l'espace de libre expression des abonnés de Mediapart. Ses contenus n'engagent pas la rédaction.