Usages et évaluation des modèles prédictifs (1)

Une tentative de rendre compréhensible au plus grand nombre tout un tas de techniques utilisées massivement dans la société mais souvent incomprises.

Si vous commencez à lire ce billet, vous allez probablement vous demander pourquoi je publie ce genre de choses sur un blog de Mediapart. Et je dois reconnaître qu'on est très très loin de la ligne éditoriale du journal. Mais après avoir fait le tour des plateformes de blogs et des conditions de leur utilisation, c'est finalement la plateforme qui m'offre le plus de liberté et de visibilité.
Or, il me semble que pour trouver les bons mots, les bonnes formules, les bons exemples, il faut procéder par tentatives et par retours. La tentative demande la liberté et le retour demande la visibilité...

Le devin, 1972. © © Goscinny René (scénario), Uderzo Albert (dessins) Le devin, 1972. © © Goscinny René (scénario), Uderzo Albert (dessins)

INTRODUCTION

Le but de ce document est d’explorer quelques bons et mauvais usages que l’on peut faire de ce qu’on appelle les “modèles prédictifs”, en particulier dans le cadre des approches dites “d’apprentissage automatique” (en anglais : machine learning). Je ne peux évidemment pas prétendre les connaître tous et d’ailleurs rien ne s’oppose à ce qu’il y en ait potentiellement une infinité. Je peux évidemment encore moins prétendre que je connais tous leurs usages. Je vais donc simplement lister avec un peu d’organisation les différentes problématiques que j’ai pu rencontrer au cours de mes lectures ou de mes propres recherches.

Questions de vocabulaire et de sens...

Étymologiquement, prédire, c’est dire d’avance. Mais d’avance sur quoi ? Sur la réalité ou sur notre perception de la réalité ?

Supposez que vous voyagez pour la première fois en Nouvelle-Zélande par train, et que par la fenêtre vous voyez un mouton noir, seul dans sa prairie. Quelle sera votre représentation de la Nouvelle-Zélande ?

  1. Un pays dans lequel tous les moutons sont noirs ?
  2. Un pays dans lequel au moins un mouton est noir ?
  3. Un pays dans lequel au moins un côté d’au moins un mouton est noir ?

On peut trouver un instant suffisamment court pour considérer que le nombre de moutons en Nouvelle-Zélande est fixe et nous appelons cet instant le présent. Pourtant, même dans un instant présent ces trois généralisations peuvent être considérées comme des prédictions, supputations, hypothèses, probabilités, présomptions, conjectures, postulats, interpolations, extrapolations, paris, assomptions, présomptions, préjugés, prévisions, possibilités, éventualités, etc.

Mais quelque soit le terme utilisé, il faut avoir conscience que l’on ne prédit pas forcément l’avenir d’une réalité mais plus généralement l’avenir de notre représentation de cette réalité.

Dans notre exemple, la prédiction la plus prudente est évidemment la troisième, mais si le train s’arrête, nous aurons peut-être la chance d’observer les deux côtés d’un mouton entièrement noir et prendre le risque d’opter pour la prédiction n°2. Peut être aussi que si nous voyageons suffisamment longtemps et n’observons que des moutons dont les côtés observables sont noirs, nous opterons pour l’hypothèse 1 (après tout ce ne serait qu’une version extrême de la spécialisation d’une économie nationale). Nous pouvons nous tromper parce que nous ne pouvons pas observer tous les moutons de Nouvelle-Zélande. Nous pouvons aussi  nous tromper parce qu’un nouveau mouton d’une autre couleur peut naître à tout instant postérieur à notre généralisation, mais ce n’est qu’un cas très particulier des erreurs potentielles.

Deviner c’est donc prendre le risque de décrire l’inconnu. Paradoxalement, il peut être plus difficile de prédire un inconnu passé qu’un inconnu futur ou même un inconnu proche qu’un inconnu lointain. Si vous n’en êtes pas convaincus, pensez à l’archéologie, l’astronomie, la physique quantique... Les paramètres qui influent sur la difficulté d’une prédiction peuvent être multiples et hétérogènes et les approches peuvent être prudentes ou audacieuses. Mais afin de nous placer dans une démarche constructive, nous limitons l’étude des approches prédictives à celles dont nous pouvons évaluer solidement la qualité, c’est à dire la distance qui sépare au bout du compte notre représentation de la réalité effective.

 Cliquez ici pour lire la suite.

Le Club est l'espace de libre expression des abonnés de Mediapart. Ses contenus n'engagent pas la rédaction.