Modéliser la diffusion du covid-19 ? (1)

Les modèles de diffusion sont présentés dans les journaux grands public anglo-saxons. Aujourd'hui j'explique leur principe et je regarde ce que peut nous dire un de ces modèles popularisés par les journaux.

Les précautions habituelles s'appliquent : texte qui n'engage que son autrice, etc.. le choix du genre dans le texte est lié à ce point de vue.

 

Deux paragraphes pour expliquer le pourquoi du billet

Depuis une semaine, la communauté des chercheurs en simulation agents s'agite sur les forums de discussion à propos des différents modèles de diffusion qui sont présentés publiquement dans les médias pour "expliquer" l'épidémie (ex : Washington Post) ou pour pousser les décideurs européeens à un temps de retraite généralisée pour la population ("modèle de Ferguson" qui a annoncé un nombre de morts prévus très important et a engendré les décision de confinement). L'agitation est liée au fait que, en bons scientifiques, ils connaissent bien les limites de leurs outils et s'interrogent sur l'usage qui est fait des ces modèles en ces temps de crise, dans un monde où tout ce qui est "scientifique" devient un argument assez écrasant dans une discussion.

Si je comprends bien ce qui perce dans ces discussions, à la fois critiques et pleines de propositions, c'est un regret sous-jacent : contrairement à ce qu'ont fait les scientifiques du GIEC, nous n'avons pas préparé ensemble une explication pour les décideurs et le public, ni une réponse politique appropriée et adaptable à des situations de crise, ni prévu éventuellement une force de frappe d'analyse / codage / calcul rapide à mobiliser pour faire des recherches collectives*. Faute d'alliance et de visibilité, nous ne pouvons comme les climatologues parler d'une seule voix, et les modèles utilisés ne font pas complètement consensus - précisons toujours : pour l'usage qui en est fait (sinon ils ont de grandes qualités). Cette discussion est passionnante mais assez technique : elle implique de se pencher sur l'épistémologie, les usages possibles des modèles et leurs limites, les énormes problèmes de calibrage et d'entrée des données, la légitimité de l'outil pour prendre une décision et si oui laquelle... mine de rien tout ce que nous avons produit jusque là n'était pas baigné du sceau de l'urgence décisionnelle mais restait une sérieuse discussion savante et une expertise sans trop de conséquences pratiques.

Face à ce manque de discours prêt, des amis et collègues m'ont suggéré de faire au moins une petite introduction "vulgarisée"...

 

Modèles de diffusion avec agents : généralités

(introduction un peu technique)

Une simulation agent peut être pensée comme une partie de SimCity. Quand elle modélise, une modélisatrice construit elle-même les règles qui sont utilisées dans le "jeu" (alors que SimCity impose les règles de comportement possibles et les interactions, et laisse choisir le joueur). Pour faire un modèle de diffusion, elle définit (en allant au plus simple) : 

- un ensemble d'agents, chacun étant un programme qui a des règles de calcul autonomes : un agent peut faire plusieurs actions (ici : se déplacer, interagir avec un autre agent) et il décide quelle action faire, quand c'est son tour,

- les interactions peuvent être de plusieurs types :

  • si on modélise la diffusion d'une opinion, les agents se transmettent une opinion quand ils se rencontrent et chacun est potentiellement transformé par l'opinion qu'il a reçu de l'autre ;
  • si on modélise des changements de comportements dans une population, les agents observent le comportement de l'autre et changent éventuellement leur mode de décision pour l'imiter ;
  • si on modélise un virus, si l'un des deux agents est infecté, à chaque rencontre avec un agent il pourra lui transmettre le virus. Toutes les dynamiques sont liées à ces transmissions dans les interactions, c'est le point commun de ces modèles.

Une simulation de ce modèle consiste à créer une population artificielle (in silico) d'agents ; puis, le système exécute une série de "pas de temps" successif, durant lequel les agents exécutent les règles qu'on leur a données, dans l'ordre qui leur est attribué. Une simulation est donc une histoire où les agents font réellement ce qu'on leur a dit : les programmes se transforment, stockent les informations. On peut alors observer toutes les informations que l'on souhaite et qui les concerne : on est un peu Dieu dans ce genre de système - on pose les règles et on observe. Mais être Dieu n'est pas reposant car aucune observation n'est "naturelle" : il faut se doter des bons indicateurs et on passe en général beaucoup beaucoup de temps à décrire ce que les sondes d'observation doivent faire et chercher des choses intéressantes et non tautologiques à dire.

Pourquoi "tautologiques" ? : la modélisatrice construit les règles ; elle devrait pouvoir,  logiquement, dans sa tête, anticiper ce qui va se passer. L'intérêt du modèle agent est qu'il faudrait avoir un super cerveau pour déduire toutes les conclusions de toutes les interactions de tout ce qu'on a mis comme hypothèses - c'est une expérience de pensée "complexe". Or, on sait que l'ordinateur est beaucoup plus efficace que l'humain pour faire des grosses quantités de calculs à la file : c'est plus malin de lui déléguer les calculs et de lui poser des questions sur les caractéristiques des agents qu'on a fait exister. En observant, on confirme parfois que nos hypothèses font bien ce que l'on veut ; mais on est parfois surpris, et ces surprises constituent le plus intéressant des ces modèles : les conséquences de nos propres hypothèses, quand elles impliquent beaucoup d'agents et du temps, nous dépasse. C'est là qu'on doit recommencer à réfléchir....

Les modèles agents de diffusion forment une classe de modèle qui permet aux gens qui les connaissent de communiquer sur les paramètres et dynamiques structurelles essentielles du modèle, même s'ils ne l'appliquent pas aux mêmes questions scientifiques. On a donc besoin de réfléchir sur les structures d'interactions et leur contenu, relativement à ce virus-ci.

Les deux modèles que je cite en introduction sont intéressants car ils représentent les deux extrêmes de ce type de modèles : soit ultra stylisés, les modèles KISS ("keep it simple, stupid !") ; soit ceux qui sont très proches de la réalité, les KIDS ("keep it descriptive, stupid!"). Ceux qui aiment les modèles simples disent qu'ils sont meilleurs car on sait qu'ils sont faux, qu'ils sont juste des modèles et pas la réalité, et que donc seuls les résultats structurels y sont importants. Ils sont donc très pertinents même s'ils ne sont pas très ressemblants. Les autres sont ressemblants, mais leur trop grand nombre de paramètres les rend très fragiles aux modifications qu'on leur fait subir, et finalement les extrapolations produites ne sont pas robustes.

 

Modéliser la diffusion et l'impact du covid-19 : la version KISS (Le modèle Washington Post)

Comme ce blog est low tech, il est nécessaire de regarder sur le site proposé en parallèle des explications, donc cliquer sur le lien juste au-dessus. Les images sont intéressants car elles représentent le premier cour qu'on peut faire sur des dynamiques de diffusion, c'est la base que n'importe lequel de mes collègues connaît, et qu'on présente aux étudiants. On y voit d'abord une courbe exponentielle qui donne l'image de ce que les auteurs veulent représenter dans ce modèle, en comptant au niveau global le nombre d'agents infectés. Puis on voit deux petites vidéos horizontales qui représentent la définition des agents et des interactions du modèle :

- les agents se déplacent et peuvent se cogner lors de ces déplacements

- lorsqu'un agent infecté (rouge) touche un autre agent pour l'instant sain (gris) il lui transmet le virus, et celui-ci devient infecté (rouge).

- dans la seconde vidéo la dynamique est perfectionnée car les agents peuvent guérir (rose) : alors ils ne peuvent plus transmettre ni recevoir la maladie.

Sur la base de cette dynamique locale, le modèle est mis en simulation pour réaliser des tests sur une population dont on nous dit qu'elle a la taille d'une petite ville (information importante car les modèles de diffusion sont incroyablement sensibles à la taille de la population, et on le sait depuis un des modèles fondamentaux, celui d'Axelrod en 97). La première vidéo en deux dimensions montre donc des agents qui se promènent sans cesse dans la ville et se cognent jusqu'à ce que tout le monde soit infecté (courbe exponentielle). Là, le modèle n'est qu'une illustration tautologique et ne nous apprend pas grand chose : au vu des hypothèses un cerveau humain pouvait imaginer ce qui se passerait. Comme le résultat est logique, on se dit que le modèle est intéressant pour réfléchir, et on se permet de tester deux politiques publiques.

La première solution est d'isoler deux populations (les vidéo n'ont pas de nom, mais on est à la seconde, l'espace est coupé en deux), ce qui est représenté par un mur de séparation sur l'écran  - puis le mur s'ouvre un peu et des agents ont la possibilité de passer. Lorsque les deux populations sont totalement isolées, le virus ne diffuse pas d'une population à l'autre - je pense qu'on peut dire que ça correspond là encore à une illustration, mais celle-là du principe que Pasteur a découvert et qui est mis en scène dans une population : une maladie virale ne se propagent que si le virus peut se déplacer d'un hôte à un autre, et si les hôtes ne sont pas en contact, il n'y a pas d'épidémie générale. Malheureusement, ce qui est parfaitement prévisible, c'est qu'après l'ouverture du mur, dont on est témoin dans la vidéo, il suffira d'un seul agent qui passe pour contaminer l'intégralité de la population jusque là préservée. Ce résultat indique qu'il était prévisible pour des scientifiques que la fuite de nombreux parisiens vers la province** implique la diffusion massive du virus. Pourquoi personne n'a anticipé cela ni empêché à temps cette catastrophe semble un peu étrange, mais je reviendrai sur la question de l'écoute de la parole scientifique dans le contexte de crise, dans un autre billet.

La seconde vidéo qui propose une solution est celle qui s'intitule ici "social distancing". On y voit deux sous-populations : celle qui bouge (1/4 des agents) et celle qui ne bouge pas (3/4 des agents). Les agents qui bougent finissent par cogner tous les autres agents, mais ça met beaucoup plus de temps : entre temps certains ont eu le temps de guérir, et ils cognent sans n'être plus contagieux : une partie de la population n'est pas touchée par le virus à la fin. La dernière vidéo raffine cette solution en divisant par deux le nombre d'agents qui bougent : encore moins d'agents finissent infectés.

J'avoue que j'ai un peu de mal, à ce niveau de la description, à expliquer cette solution du "social distancing" et ce qu'elle signifierait précisément dans l'organisation de la vie publique. Je pense que cela est un signe du vague de la notion de "distanciation sociale" qui a été beaucoup utilisée dans la communication politique et médiatique il y a peu, mais dont on n'a toujours pas de définition claire ni de description pratique : les auteurs du modèle ont fait ce qu'ils pouvaient pour indiquer l'idée d'une hétérogénéité des pratiques entre des agents (certains ont beaucoup de contacts et d'autres très peu). Ceci permet de rendre compte du phénomène des super-disséminateurs (ce qu'on a identifié à l'heure actuelle comme étant : les médecins, les infirmières, les caissières/caissiers, les personnes qui gardent les enfants des soignants, et d'autres plus clandestins et précaires dont on parle moins). Par contre, il n'est pas clair pourquoi un agent qui ne bouge pas peut être infecté à tout moment par un autre qui bouge : les infirmières viendraient à la maison, où nous serions aussi vulnérables qu'ailleurs ?

Je dirais qu'ici le modèle sort de son spectre de pertinence pour penser une politique pour juguler l'épidémie qui nous intéresse car il ne décrit pas une procédure de réduction de rencontres qui est structurellement analogique avec une organisation sociale crédible. Là encore, on est dans la tautologie, avec des idées  basiques en épidémiologie : pour réduire la transmission, soit on réduit le risque de transmission entre les agents à chaque contact, soit on réduit les contacts : c'est évident et déjà connu. En mettant en place la seconde solution dans leur modèle, les auteurs du modèle restent très évasifs sur comment mettre cela réellement en place - le modèle ne sert donc pas à imaginer les conséquences réelles d'une pratique particulière. Ici, le modèle perd en ressemblance, et finalement ça lui fait perdre en pertinence du même coup. 

D'un point de vue pédagogique, je n'y trouve pas non plus mon compte pour expliquer cette épidémie, pour les mêmes raisons***.

Transmission du Covid ?

Si l'on compare à ce qu'on sait du covid, il y a un souci principal dans le modèle du dessus : les agents infectés ne sont jamais vraiment malades et ils continuent donc à se promener sans cesse. Si le Covid était ainsi, je ne pense pas que les chinois des grandes villes pourraient voir le ciel bleu à l'heure actuelle car être malade n'empêcherait pas de travailler, et n'amènerait pas souvent à la mort. Ce détail est d'importance pour la dynamique.

Pour la dynamique interne des agents, on sait qu'il existe donc au moins 4 états plutôt que 3 : rien (gris), infecté (rouge), malade (noir), immunisé (rose). L'état "malade" éloignerait les agents de presque tous les autres - ils sont soit au lit, soit à l'hôpital. On sait en sus que le seule véritable problème lié à l'épidémie est l'absence de lits d'hôpitaux, donc le nombre de malades est un indicateur essentiel concernant cette épidémie (et il n'est pas spécifiquement étudié dans le modèle décrit au-dessous)****.

On peut même penser à un état supplémentaire "légèrement malade, continuant à se promener dans le monde" - cet état pourrait être essentiel à penser car, apparemment, la charge virale lorsqu'un individu est déjà un peu malade permet une transmission plus rapide du virus entre deux individus que si le porteur est asymptomatique.

En outre ce modèle repose sur l'hypothèse que chaque interaction transmet le virus, ça se voit nettement : on se cogne, on change de couleur - ce qui n'est heureusement pas vrai ! La transmissibilité, la probabilité d'être infecté lors d'une interaction, est essentielle dans le modèle -  n'est sûrement pas 100% mais elle est inconnue ! On connaît des facteurs qui la réduisent drastiquement (distance, protections physiques), des facteurs qui facilitent, mais on n'a pas de probabilité de transmission de l'infection (et on peut dire que cette mesure n'existera pas dans l'absolu). Tout ce qu'on connaît un peu c'est le R0 - c'est-à-dire la statistique qui dit combien de personnes sont infectées en moyenne par un infecté initial. Dans un modèle agent, c'est très facile à observer (beaucoup plus que dans la vie).

La suite du billet : Modéliser la diffusion du Covid ? (2)

 

Conclusion du jour

Il n'y a pas vraiment de conclusion à ce jour, à part celle que nous allons apprendre tous les jours. Je tâcherai de faire la même analyse pour ce qui est nommé en ce moment "le modèle de Ferguson" - et cela ira avec la question des spécificités de ce virus dont on a compris que sa caractéristique la plus déroutante est qu'il reste longtemps caché dans un hôte (jusqu'à 20 jours), reste en majorité invisible (asymptomatiques) jusqu'à ce que l'immunité se construise ; mais qu'il peut à l'inverse se reproduire énormément au sein de l'individu et créer des lésions très importantes aux poumons, qui sont difficiles à traiter pour l'instant.

Je souhaite proposer dans quelques jours un modèle-jouet pour laisser les lecteurs explorer les hypothèses que j'ai pu collecter sur les éléments importants du virus et la traduction de différentes politiques publiques pour l'instant évoquées ("confinement total" vs "hypothèse Raoult", qui sont les deux proposées en France en ce moment) - dans leur théorie, mais aussi dans leur possibilité d'application...

Pourquoi il me semble qu'il est important que plusieurs modèles soient proposés au public, expliqués et testés éventuellement par ceux que ça intéresse ? Il me semble que face à une crise aussi stressante, tout outil qui peut aider à penser un phénomène complexe et angoissant peut être utile. En outre, fournir un modèle et quelques résultats minimaux ne risque pas (pas trop ?) d'être utilisé sous forme de buzz ou de slogan déformant le sens, car le coût d'entrée pour comprendre sélectionne un peu les lecteurs par leur motivation. On dira que ça me semble une entrée pas trop dangereuse pour exprimer un avis scientifique face au public, vu mes compétences.

http://www.lamsade.dauphine.fr/~jrouchier/homepage.htm 

 

* Il faut dire que, par exemple en France, les recherches en simulations agents appliquées au SHS n'ont "pas pris", c'est-à-dire qu'il existe quelques groupes spécialisés dans des formes de modélisation (très bons dans ce qu'ils font, en géographie, économie, science de l'environnement, recherches sur le développement, sciences cognitives, un peu de sociologie) : chacun innove au niveau méthodologique dans sa branche, travaille à l'international, mais il n'y a que peu de dialogue entre des gens qui n'appliquent pas les modèles aux mêmes thématiques. A l'échelle européenne la communauté existe, mais à l'échelle française elle n'a fait que se séparer en sous-groupes depuis les années 90. D'ailleurs, il n'existe même pas de page wikipédia en français sur l'entrée "multi-agents". On peut expliquer ce phénomène mais ce n'est pas le lieu.

** Sur ce point, je me suis fait reprendre de volée par un ami vigilant : j'ai moi-même pris le modèle pour la réalité en le regardant ! Personne ne peut dire aujourd'hui si le départ vers la campagne était "bon" ou pas, et ça dépendra des indicateurs choisis : on peut penser que le virus était déjà dans toutes les régions le 15 mars quand les Parisiens sont partis à la campagne ; ils ont changé la répartition spatiale de la maladie mais n'ont pas sûrement "plus infecté" puisqu'ils ont sûrement eu le même comportement que s'ils étaient à Paris (confinés ou au soleil, mais approximativement le même comportement) ;  on ne sait pas si le délestage de l'AP-HP, dont on sait qu'il était déjà exsangue depuis des mois, n'est pas une excellente idée alors que le pic est devant nous apparemment.

*** Attention cette critique est formulée afin d'enrichir la réflexion et en aucun cas pour disqualifier le travail des collègues qui a, justement, le mérite de faire réfléchir et avancer.

**** Alexis Tsoukias, LAMSADE, a bien identifié également que le seul chiffre valable et comparable entre les pays en ce moment est celui du nombre d'admission en soins intensifs - c'est le seul comptage qui est fait partout de la même façon, alors que le nombre de morts est contesté (pour l'Allemagne par exemple), le nombre d'infectés est compliqué à établir par manque de moyens, et le nombre de malades en début de maladie n'est pas connu en France, par exemple, puisqu'on n'a pas choisi l'option de tester tous les cas douteux pour l'instant.

Le Club est l'espace de libre expression des abonnés de Mediapart. Ses contenus n'engagent pas la rédaction.