Modéliser la diffusion du covid-19 ? (2)

Suite du billet sur les modèles agents de diffusion : le modèle de l'imperial college.

Le "modèle de l'Imperial College" : populations synthétiques

Ce modèle (article descriptif disponible ici) est celui dont les résultats bruts ont été rendus publics et ont influencé les décisions publiques d’un grand nombre de pays à travers l’Europe. Il fait partie d'une catégorie de modèles plutôt développée, au moyen desquels les auteurs cherchent à convaincre de la pertinence par la ressemblance, c’est-à-dire de l'adéquation à des données statistiques. Ils sont souvent utilisés dans les programmes de recherche appliquée concernant des questions précises sur des territoires précis - par exemple pour analyser l'évolution de l'usage des surfaces au sol, ou décrire l'organisation des transports dans une ville. Dans ce cadre, il est important que la population d'agents de l'univers artificiel - qu'on appelle une population synthétique dans ce cas-là - ait des caractéristiques "proches" des humains représentés.

Pour prendre un exemple : on voit mal comment organiser les transports d’une ville artificielle sans décrire des trajets crédibles et donc connaître le nombre d'habitants dans chaque quartier et leurs destinations de travail, pour représenter des flux de voitures qui sont équivalents à ceux qu'on observe dans la réalité. Dans ce type d'univers artificiel l'environnement est une carte, et elle est découpée en petits pixels sur lesquels des agents sont posés. A chaque agent est attribuée une identité initiale plus riche que précédemment : il habite dans un pixel et travaille dans un autre pixel, il est doté d’un niveau social, d’un nombre d'amis, d’enfants, d’une voiture, d’une moto, d’un vélo, d’un chien. Bref, tout ce qui peut être pertinent pour la question traitée. Grâce aux statistiques, la modélisation est capable de mettre cet agent au bon endroit sur la carte. Le choix de méthode consiste à utiliser des données agrégées pour fabriquer des individus portant des caractéristiques-type issues de moyennes afin de construire des algorithmes de décision des agents. Un facteur clef de la description est le grain de représentation, c'est-à-dire la précision du pixel. L'idée cruciale pour ceux qui élaborent ces modèles est celle de crédibilité : il s'agit de reconnaître la carte.  Dans beaucoup de recherches actuelles, la construction d'une bonne population synthétique est le centre du travail : la pertinence et la légitimité de cette façon de faire n'est plus discutée et seule la qualité de la représentation est jugée. D’autant que la crédibilité facilite leur présentation aux décideurs (potentiels financeurs), qui les "liront" plus simplement que les modèles abstraits simulés précédemment.

On imagine aisément que la construction de ce système initial est énorme. Pour ce faire, le nombre d'hypothèses à intégrer dans ce système est colossal et chacune va avoir un impact immense : rien que la finesse du grain choisi pour la carte est déterminante. On va supposer pour simplifier que la population synthétique de (Ferguson et al.) est réalisée de la meilleure façon possible.

Un modèle SIR probabiliste

Le modèle épidémique repose exactement sur le même principe que le modèle précédent (on appelle ces modèles les SIR) : Susceptible d'être infecté - Infecté - Remis et immunisé. A chaque pas de temps les agents se déplacent dans les lieux qui leurs sont attribués, interagissent avec ceux qui sont au même endroit qu'eux, se transmettent ou non la maladie (selon une probabilité), et vivent cette maladie avant d'être immunisé. De façon tout à fait explicite, on apprend ici que le modèle avait été réalisé et calibré pour la grippe (donc toutes les probabilités de transmission, et les règles d'immunisation sont adaptées à la grippe). Car il faut savoir que la plupart de ces hypothèses ne sont pas des "données" qu'on peut mesurer dans le monde réel : on n'a aucune idée du risque de transmettre la grippe à chaque rencontre. Pour connaître les probabilités "acceptables" de transmission il a fallu faire de la rétro-ingénierie sur des quantités énormes de données pour trouver la valeur qui correspondrait à des parcours d'épidémie connues (considérant qu'il y a aussi des hypothèses sur les réseaux sociaux dont je ne sais pas d'où sortent les données).

Pour atteindre la ressemblance, on sort un peu de ce qui fait l'avantage des simulations agents comme elles étaient utilisée précédemment, des expériences de pensée complexes. On ne part pas vraiment d'une réflexion sur ce que sont les interactions, quand et comment elles se déroulent, et quelles en sont les conséquences logiques. On fait comme si toutes les interactions se déroulaient selon des règles identiques partout et on "fitte" les probabilités de transmission à chaque interaction en produisant des données agrégées qui correspondent à des courbes réelles de l'épidémie. Il y a donc un mélange de forme de démonstration : déductives et statistiques. Et à la fin, on obtient ce qu'on appelle une "usine à gaz" : un modèle assez difficile à contester car les étapes techniques pour le comprendre sont excessivement complexes. On connaît la sensibilité extrême à toute variation de paramètres de ces programmes.

.

Les "données" par temps de Covid...

La démonstration sur le Covid se gâte un peu quand on sait que le modèle a simplement été "adapté". On reprend la localisation des agents et leurs habitudes de se rencontrer comme base. Ce qui change : la probabilité de transmission, le temps d'incubation, la probabilité de mourir. Mais les choix du modèle sont présentés un peu différemment : "incubation 5 jours pour les cas qui développent des symptômes", et "R0 = 2, 4", "on double le nombre d'infections tous les 5 jours", "on choisit les valeurs initiales pour que le nombre de morts soit le même qu'à date t en Angleterre", ou encore "que la courbe de progression soit la même qu'initialement à Wuhan".

On reconnaît là des exigences sur des données qui portent sur deux échelles en même temps : ce qui arrive à un individu (au bout de 5 pas de temps d'infection il tombe malade - c'est totalement la logique agent qui a été présenté précédemment) et ce qu'on observe au niveau global (le nombre de morts en Angleterre - on devra adapter le modèle pour qu'il fasse ça, même s'il doit ne plus être interprétable au niveau micro). On fait travailler le modèle sur des données globales et il permet de calculer par ingénierie inversée les valeurs possibles de la probabilité d'être infecté lors d'une rencontre, puis la  probabilité d'être malade si on est infecté, puis la probabilité d'être mort si on est malade

Etre fidèle aux données est une des modes actuelles en science, et est même très légitimante dans l'espace public. Pour autant, il n'est pas évident qu'on gagne en pertinence à décrire le réel avec une précision absolue, car ceci rend les modèles (ici dynamiques) outrageusement peu manipulables. Il est d'ailleurs temps de faire une pause et recommander la lecture Borges, "De la rigueur de la science" (initialement publié sous un pseudonyme), où il décrit une carte à l'échelle 1:1. Elle est une parfaite imitation, décrit chaque élément du paysage, chaque maison, parfaitement et précisément. Quand on la consulte, on doit la poser au sol, et elle recouvre alors totalement le territoire qu'elle décrit. C'est l'extrême de la ressemblance que j'ai signalée avant, et la question de la pertinence se pose : pourquoi la regarder plutôt que regarder le monde qu'elle reproduit avec fidélité ? Qu'en apprendrons-nous de plus ? Et comment gérer une petite erreur ?

Retournons au modèle : au-delà du fait que la temporalité ne permet en aucun cas d'avoir des règles crédibles avec certitudes, la qualité des données est un problème : les informations venues de Chine étaient connues pour être contradictoires selon la source. En outre, le lien entre nombres de morts et nombres d'infectés au covid n'est pas connu pour l'instant - c'est pourtant comme ça que l'état initial d'infection a été déterminé pour le modèle et... les conditions initiales sont fondamentales pour déterminer les trajectoires dynamiques de ces modèles (surtout si on s'intéresse au facteur important qui nous occupe en ce moment : le temps). Ce n'est pas seulement parce que le Covid chinois se cache bien, aime rester de 1 à 9 jours sur les surfaces, qu'il nous semble mystérieux, c'est aussi parce que nous ne savons apparemment pas compter de façon coordonnée et utile quand nous sommes collectivement affolés.

Ces observations rejoignent la discussion de l'article (très complète !) : les auteurs sont conscients qu'ils ne parlent pas du Covid mais ils font quand même "comme si", dans l'espace public. Faire des extrapolations sur un modèle en utilisant des valeurs un peu hasardeuses est même la norme intellectuelle dans notre milieu. Mais il y a peut-être un peu plus de précautions à prendre si les extrapolations sont considérées comme des prédictions "scientifiques" pour le grand public et les décideurs, en particulier sur le nombre brut de morts, si émotionnel (qui est plus ou moins de qui a été retenu des propositions de l'article). Et pour autant c'est l'aspect "fidèle aux données" qui donne confiance dans la dynamique extrapolée du modèle.

Les alternatives et leur représentation dans un modèle

Deux classes de politiques sont proposées dans ce modèle : 1/ suppression des liens sociaux (le fameux "social distancing") pour utiliser le principe "sans interaction directe, les infections à transmission directe s'éteignent" et 2/ une gestion des malades - détection, isolement, soin. La suppression des liens peut prendre plusieurs formes : éloigner les anciens, confiner tout le monde, arrêter les regroupements de masse, et la fermeture des lieux d'éducation (on reconnaît certaines étapes par lesquelles nous sommes effectivement passés dans les dernières semaines : il s'agit visiblement de mesures classiques). En observant le nombre de cas grave (l'indicateur "demande en soin intensif") le modèle permet d'analyser le déroulé de l'épidémie, en mettant bien en avant le paramètre-clef de la crise qui nous occupe (aspects sanitaires) "la surmortalité liée au non-accès à des lits en soin intensif" (au sens hospitalier lit + matériel + personnel). Ce qui est le centre des questionnements sur le Covid ne sont pas la mortalité brute mais la "surmortalité" - les morts qu'on pourrait éviter - c'est parce qu'il n'a pas assez d'offre de soins adaptés qu'il y a des morts inacceptables : les médecins doivent choisir, individuellement et de façon extrêmement traumatisante, qui mourra.

Les simulations sont alors telles que l'on a décrit précédemment : on laisse vivre la population artificielle et on observe pour chaque politique, les courbes de mortalité et d'occupation des lits (ça peut se regarder sur l'article) : lissage des courbes et décalage dans le temps sont des preuves de gestion de crise.

Certains ont signalé qu'aucune des stratégies utilisées en Chine (ou Corée du Sud, qui aura impressionné tout le monde dans sa gestion de la crise) n'est implémentée dans le modèle. Le fait de ne pas tester des politiques du type asiatique n’a rien de bien grave dans la mesure où les pays de l’espace européen ne disposent pas de l'infrastructure technologique suffisante et que la population de manifeste pas la "compliance" au contrôle instituée dans les pays qui ont pu développer ces outils de régulation épidémique (en particulier en utilisant les données liées aux téléphones portables). 

Pourtant, ce travail analysant les "politiques publiques possibles" aurait pu être l'occasion d'évoquer des questions fondamentales et typiquement dynamiques pour les décisions en temps de crise, en particulier les problèmes logistiques de mise en place de la politique. Dans le modèle, la suppression des relations sociales est réalisé en un pas de temps et on aura remarqué que le monde réel n'est pas si simplement organisé ! C'est également le cas de la mitigation où beaucoup de matériel et de modalités d'organisation pratiques ne sont pas forcément disponibles pour l'instant. Dans un problème dynamique, les pas de temps de "cafouillage" initial lors de la suppression des liens sociaux peut avoir un impact énorme sur la diffusion (ou pas - mais on ne peut pas décider sans y réfléchir). Cette représentation de politiques sans problèmes de mise en application peut être schématiquement et théoriquement intéressante, mais elle est pratiquement bien moins pertinente, d’autant que quelques problèmes pourtant simples de santé publique comme dépression, angoisse, addictions, précarisation, ne sont pas évoqués dans la perspective de choix public adoptée. On manque beaucoup d'aide pour imaginer les contrefactuels face à un tel modèle.

 

Conclusion du jour

Nous sommes dans un contexte où la décision politique est justifiée de façon massive par le recours à l'argument de la scientificité des décisions. J'espère que le lecteur est à peu près convaincu à ce stade que, sur la question de la dynamique de diffusion, le modèle de l'Imperial College contient des incertitudes cumulées qui rendent la prévision "scientifique" aussi robuste que celles de la Pythie. L'utilisation pour les politiques des arguments de l'Imperial College avait un intérêt : leur caractère impressionnant et sans appel (centaines de milliers de morts), et se basait sur des valeurs difficiles à contester publiquement (les morts), sans que beaucoup d'alternatives ou de cadres analytiques alternatifs ne soient proposés. On peut parler de praticité politique - sans grande originalité - mais prétendre que la décision a été imposée par les résultats de la science semble un peu abusif.

La science vit dans une temporalité longue, qui nécessite des débats contradictoires, et surtout repose sur quelques accords consensuels construits pas à pas sur les règles du monde qu'on observe. Au niveau d'incertitude dans lequel nous sommes, il est très délicat de faire des analogies simples et directes entre le Covid19 et le virus de la grippe (au moins dans sa dimension de diffusion) et donc prétendre que les extrapolations sont des prédictions crédibles. Ce que peuvent faire les scientifiques sans données, c'est au mieux de faire confiance à leur instinct (et je pense que c'est ce qu'ont fait, au final, les chercheurs de l'Imperial College) et de l'expliciter au mieux en fonction des bribes de connaissance qu'ils possèdent (cette partie là n'est faite qu'à destination des collègues - mais sans préciser le degré d'incertitude de leur modèle !). Sortir de ce rôle minimal me semble abusif, tout comme prétendre avoir des démonstrations meilleures que les autres, et parler du futur nécessite de construire un discours de précaution audible pour ceux qui lisent et écoutent - nous ne sommes pas des astrologues !

Les liens entre science et décision publique en temps de crise sont douloureux. Et même si j'ai critiqué les modèles de diffusion en considérant certains de leurs usages, je suis toujours persuadée qu'ils peuvent avoir un énorme intérêt pour construire des questions de recherche et structurer utilement les questionnements politiques complexes, dans une interface entre sciences qualitatives et sciences quantitatives. Pour aller plus loin que la critique, mon troisième billet de blog sera une proposition.

 

-------------

Dans la continuité du billet précédent et "pour aller plus loin", je recommande une lecture complémentaire, référence essentielle, non traduite de l'anglais malheureusement, mais plutôt facile à lire et ludique : "Growing artificial societies: social science from the bottom-up", par Joshua Epstein et Robert Axtell. Joshua Epstein a également co-écrit il y a plus de quinze ans un livre au goût du jour : "Toward a Containment Strategy for Smallpox Bioterror: An Individual-Based Computational Approach"

 Aussi : "Pourquoi la société ne se laisse pas mettre en équations" qui est une critique du même type que celle de ce billet, mais sur beaucoup d'exemples différents par Pablo Jensen (qui y critique même un de mes modèles - de façon très pertinente).

Un commentaire en anglais d'un collègue sur la question des prédictions, une façon d'expliquer différente. 

 

Le Club est l'espace de libre expression des abonnés de Mediapart. Ses contenus n'engagent pas la rédaction.