L’Open data en santé aux Etats-Unis

Par Jean-Pierre Thierry, médecin santé publique, consultant

Publié http://www.cercle-decideurs-sante.fr/ressources/les-ressources/390-parole-libre-l-open-data-en-sante-aux-etats-unis.html

 

La « libération des données » est prévue par le gouvernement américain et le nombre des ressources accessibles est en forte croissance, y compris dans le secteur de la santé. Le mouvement pour « l’open data » prend plusieurs formes et l’évolution aux États-Unis est intéressante à analyser à plus d’un titre :


- Pour illustrer l’importance de la libération des données pour une politique de santé moderne. Les données sont utilisées aussi bien par les spécialistes de la santé publique, les associations de patients ou de « consommateurs » que par les acteurs économiques de « l’industrie de la santé » américaine ;

- Pour évaluer les risques et les barrières dans un environnement historiquement beaucoup plus permissif qu’en Europe, disposant de ressources comparativement très importantes, très réactif et vouant un culte au progrès technologique. Last but not least, la culture juridique nord-américaine privilégie la réparation sur la prévention, ce qui a pour effet de créer une forme de transparence qui permet d’étudier les pratiques contestées afin d’apprécier au mieux les nouveaux risques accompagnant le mouvement « open data » et « big data ».

Le parti-pris américain est d’ouvrir les données pour laisser les acteurs de la société civile et les acteurs économiques inventer de nouveaux services, proposer des améliorations et favoriser une meilleure qualité des soins. Il s’agit également de créer de la valeur ajoutée et des emplois. L’accès aux données de santé est donc considéré comme un carburant essentiel pour l’innovation. Les données publiques sont accessibles via un portail maintenu par le ministère de la santé et fédérant l’offre des différentes administrations et agences (Ministère de la santé, Center for Disease Control, Food and Drug Administration, NIH, pour ne citer que les plus importantes). Ainsi, les données concernant des indicateurs de santé sont directement accessibles et téléchargeables sur les sites du portail « http://www.healthindicators.gov/ » tandis que le CDC a mis en ligne les données de sa grande enquête sur les comportements à risque  (1) qui existe depuis 1984 mais a été généralisée à partir de 1993. En 2011, le nombre d’américains interrogés par téléphone était de 500.000 ce qui en fait le plus grand panel téléphonique au monde. Sur le même principe, des acteurs privés peuvent également choisir de donner l’accès aux données de santé anonymisées qu’ils sont en mesure de collecter et d’agréger. Ainsi, la société Philips a conclu un accord avec un laboratoire du Massachussets Institute of Technology (MIT, Boston) afin de permettre l’analyse détaillée des données anonymisées correspondant à plus de 100,000 hospitalisations en unité de soins intensifs. Ces données on été collectées grâce au système de télémédecine baptisé « eICU » figurant parmi les applications phares de la télémédecine aux États-Unis. La « eICU » s’est développée depuis le constat d’une baisse significative de la mortalité et de la durée de séjour notamment grâce à un système d’alerte définies à partir de l’analyse des données d’un très grand nombre de patients(2).

Un accès encadré et sécurisé


Les bases de données sur l’activité hospitalière (l’équivalent de notre PMSI) sont accessibles grâce à un programme mis en place par le Ministère de la santé et dont la gestion a été confiée à l’AHRQ, qui dépend du Ministère de la santé américain (Agency for Healthcare Research and Quality : une HAS qui n’aurait pas la responsabilité de certification). La base SID – pour State Inpatient Database - est équivalente à celle du PMSI en France. Les données, collectées à partir de 1988, couvrent aujourd’hui 90% des hospitalisations enregistrées chaque année aux États-Unis soit 34 millions de dossiers. Un échantillon national de 7 millions de dossiers représentatifs est disponible, le National Impatient Survey ou NIS. La base SID comme le NIS font partie du programme d’accès HCUP (Healthcare Cost and Utilization Project (3)) associant 12 administrations centrales et des associations professionnelles comme la fédération américaine des hôpitaux (AHA). Les bases annuelles concernent aussi bien les hospitalisations que les passages aux urgences ou encore la pédiatrie et la chirurgie ambulatoire. Les données sont accessibles librement grâce à une interface qui permet de lancer des requêtes sur l’ensemble de l’information disponible grâce à un accès dédié (www.hcupnet.org). Cependant, tout téléchargement d’une base de données, comme le NIS ou les SID, rend obligatoire l’enregistrement de la personne intéressée, une formation en ligne grâce à un didacticiel d’une durée d’environ 90 minutes (validée avec certificat) et le paiement d’une somme variable (environ 250€ par base annuelle par État ou pour l’échantillon national, les étudiants ne payant que 40€).
S’il y a téléchargement et exploitation des données d’une base, la loi américaine de 1996 (4) , baptisée HIPAA, vise à garantir la confidentialité et la sécurité des données individuelles de santé. Les accès aux données « déidentifiées » sont donc obligatoirement « filtrées » par des procédures particulières et par la signature d’un « contrat » qui stipule que l’utilisateur s’engage à ne pas chercher à réidentifier des patients ou des professionnels de santé. Le but du travail de recherche ou d’analyse doit également être précisé et sera étudiés par l’AHRQ, l’agence qui sponsorise le programme HCUP. En cas de violation de la loi HIPPA et du contrat précisant les conditions d’utilisations des données téléchargées ou obtenues via HCUP, la loi fédérale prévoit que le contrevenant est passible d’une amende maximum de 10.000 $ accompagné d’une peine de prison de 5 ans.
La loi HIPAA s’applique aux conditions d’utilisation des bases de données vendues aussi bien par le secteur public comme nous l’avons vu que par le secteur privé (à but lucratif ou non). En effet, de nombreuses bases peuvent être acquises auprès d’acteurs privés tels que les répartiteurs pharmaceutiques par exemple. Son application est plus floue dès lors qu’il s’agit d’informations non directement liées à la santé et qui peuvent être exploitées par des opérateurs de sites généralistes grand public, voire de sites web spécialisés dans la santé mais n’ayant pas à gérer de données de santé « officielles ». Or l’environnement concurrentiel, le développement du « management by number » et la culture juridique nord-américaine si particulière permettent déjà d’observer de nombreuses pratiques éventuellement contestables. Surtout, les moyens mis en œuvre outre-Atlantique offrent la possibilité d’observer le recours à des techniques qui pourraient, demain, être appliquées plus largement à l’échelle de la planète. Même s’il est utile de rappeler la différence de doctrine entre les États-Unis et l’Europe, la globalisation peut aboutir à leur généralisation, notamment parce que l’internet est par construction transfrontalier. Certaines d’entre elles doivent-elles être déjà considérées comme autant de « menaces » sur la confidentialité des données personnelles de santé telle qu’elle est conçue en France et en Europe ? Un exemple récent à l’origine d’un débat émergent aux États-Unis mérite d’être rapporté : il s’agit de l’utilisation des techniques de « matchback » à la demande de laboratoires pharmaceutiques qui souhaitent développer le marketing direct (5) vers les consommateurs américains (les patients).

Le « matchback » et le risque de réidentification


L’agence d’information Bloomberg a récemment rapporté une pratique nouvelle consistant à rapprocher les bases de données grâce à des algorithmes sophistiqués afin de « réidentifier » les patients à qui des « messages ciblés » pourront être envoyés par courrier électronique (6) . En effet, il est possible d’acheter les bases de données de prescription pharmaceutique à condition que les dossiers aient été déidentifiés proprement (c’est le même principe qui s’applique en France). Chaque dossier rendu accessible (il peut s’agit d’un dossier de prescription ou d’un compte rendu d’hospitalisation) sera traité informatiquement pour faire disparaître les données tel que le numéro de sécurité sociale, le nom, le prénom, l’adresse, etc. Les techniques utilisées, dites de cryptographies, sont les mêmes dans le monde et on parle de « hachage » à sens unique réalisant une occultation des informations nominatives (cette technique est appliquée aux bases française SNIIRAM et PMSI). Avec cette technique un nouvel identifiant ou « numéro d’anonymat » est cependant créé pour permettre si besoin de remonter à l’identité du patient par exemple pour les besoins de la recherche, pour des raisons épidémiologiques ou en cas d’alerte sanitaire. Dans ce cas de figure, seule l’autorité disposant des « clés » ayant permis le « hachage » peut réidentifier une personne. Aussi, un utilisateur, un chercheur accédant à une base de données ne trouvera que les numéros d’anonymat, que l’on peut donc en réalité assimiler à des « pseudonymes », et il lui est théoriquement impossible de « remonter » à l’identité du patient (7) . Or, la technique de « matchback » dévoilée par Bloomberg permet de remonter aux patients individuels grâce à un rapprochement des numéros d’anonymat de bases de données d’univers différents. Les sociétés ayant recours au « matchback » soutiennent qu’elles n’enfreignent pas la loi HIPAA mais une controverse est néanmoins en train de naître. Dans l’exemple donné par Bloomberg, la société Yahoo a extrait plusieurs dizaines de milliers de dossiers d’utilisateurs de ses services, cette base est confiée à une société qui va appliquer le logiciel de hachage et créer ainsi une base déidentifiée. Cette dernière est ensuite confiée à une autre société spécialisé dans le traitement des données de santé – un « broker » et qui aura fait l’acquisition d’autres bases déidentifiées portant sur la prescription de médicaments. Le rapprochement des numéros d’anonymat permet de faire le rapprochement des identités entre l’usager de Yahoo et le patient à qui un médicament a été prescrit (8). Bloomberg rapporte que Yahoo peut alors déclencher une campagne marketing ciblée sur certains patients et répondre ainsi à la demande d’un laboratoire pharmaceutique. Parmi les laboratoires cités par Bloomberg, on trouve Sanofi qui aurait eu recours au matchback pour le marketing ciblé de ses médicaments antidiabétiques (bénéficiant de l’un des plus gros budgets de marketing direct aux États-Unis (9) ) et AstraZeneca pour l’ensemble de sa gamme. GLacoSmithKline est le troisième laboratoire citée par l’agence Bloomberg mais son porte-parole a déclaré avoir renoncé au « matchback » après avoir récemment réévalué un risque juridique jugé en définitive comme trop important. Enfin le plus important « broker » cité, c’est-à-dire société chargée de « matcher » les dossiers déidentifiés, est la société IMS (10) . En pratique à partir de cet exemple, n’importe quel site grand public nécessitant une inscription en ligne avec un minimum de données personnelles pourrait mettre en œuvre une campagne de marketing direct ciblé, une fois le « matchback » réalisé par un tiers (le broker) à la demande d’un sponsor (un laboratoire pharmaceutique le plus souvent).L’un des points sensibles discutés actuellement résulte du fait que de nombreux utilisateurs de messagerie ou de services web grand public ne savent pas que leurs données personnelles peuvent être utilisées et rapprochées de bases de données médicales (par exemple s’ils ont acheté un médicament en pharmacie ou s’ils ont été hospitalisés). D’après Bloomberg, de nombreux prestataires, dont Yahoo, ne mentionneraient pas cette possibilité dans les conditions d’utilisation. Bien entendu, cette pratique de réidentification intéresse de nombreux secteurs d’activité même si le secteur de la santé semble particulièrement en pointe compte tenu du budget marketing disponible et des restrictions progressives qui limitent désormais les actions traditionnelles (après la mise en œuvre du Sunshine Act et l’enregistrement de ces premiers effets aux États-Unis, les laboratoires choisiraient de rediriger leurs efforts marketing des médecins vers les patients/consommateurs). Pour McKinsey, cité par Bloomberg, le « matchback » représente une innovation majeure en matière de marketing pharmaceutique et devrait rapidement générer un chiffre d’affaires annuel d’environ 20 milliards de $ d’ici 2020.
Le reportage de l’agence Bloomberg est d’autant plus intéressant qu’il témoigne du décalage entre l’imagination technologique d’opérateurs privés et la prise en compte par l’administration américaine des nouveaux sujets qu’elle devra juger comme « acceptable » ou non au regard de la Loi, et qui pourraient déboucher sur des aménagements. Contacté par les journalistes de Bloomberg, le ministère de la santé des États-Unis a avoué ignorer l’existence du « matchback ».
Aux États-Unis comme à l’international il s’agira sans doute de redéfinir les limites acceptables à l’exploitation des données « ouvertes » afin de garantir la protection de la vie privée mais dans le même temps poursuivre une indispensable « libération ». Qu’il s’agisse de la recherche médicale et de la santé publique ou des objectifs de création de valeur ajoutée susceptibles de favoriser la mise au point de nouveaux services (notamment grâce à la eSanté), un équilibre est encore à trouver. L’évolution constatée aux États-Unis est donc de nature à éclairer le débat et à obliger les acteurs à se situer et à justifier les options choisies. Une meilleure information des patients et des consommateurs semblent cependant constituer un préalable indispensable.

Par Jean-Pierre Thierry, consultant, membre du Cercle

(1) http://www.cdc.gov/brfss/
(2) http://www.hospitaltohome.philips.com/pdfs/CHEST-paper_Approved-copy_Dec-9_2013.pdf
(3) http://www.hcup-us.ahrq.gov/
(4) 20 années séparent le vote d’HIPAA (Health Insurance Portability and Accountability Act of 1996) de la création de la CNIL française en 1976.
(5) Contrairement à la situation qui prévaut en France, en Europe et dans le reste du monde, la publicité directe vers les patients est autorisée depuis 1997 aux Etats-Unis. Le seul autre pays à l’avoir autorisé est la Nouvelle-Zélande. Le débat sur les bénéfices et les risques du marketing direct (par exemple supposé améliorer l’observance ou l’information des patients) est récurrent en Europe et la Commission Européenne est régulièrement sollicitée. Il faut également sans doute tenir compte des perspectives ouvertes par les accords internationaux comme le TIPP en cours de négociation entre européens et américains.
(6) L’agence Bloomberg a publié une série de sujet concernant la question de la confidentialité des données de santé notamment sur les sujets en rapport avec la prescription de médicament. Les liens vers les principaux articles sont consultables dans un dossier spécial accessible via ce lien http://topics.bloomberg.com/putting-patient-privacy-at-risk/
(7) La DRESS du Ministère de la Santé français a récemment organisé un séminaire ouvert sur ce sujet http://www.drees.sante.gouv.fr/seminaire-risques-de-reidentification-dans-les-bases-de,11389.html
Séminaire organisé dans le prolongement du rapport de la commission open data de Juillet 2014 et du rapport sur la gouvernance et l’utilisation des données de santé de septembre 2014
http://www.drees.sante.gouv.fr/IMG/pdf/rapport_final_commission_open_data-2.pdf
http://www.drees.sante.gouv.fr/rapport-sur-la-gouvernance-et-l-utilisation-des-donnees-de,11202.html
(8) Le nombre de clients Yahoo susceptibles d’être « matché » avec un dossier pharmaceutique détenu par IMS serait de l’ordre de 100 millions mais les deux sociétés n’ont pas confirmé ce chiffre à Bloomberg.
(9) Le budget total du marketing direct sous forme électronique dans les seuls États-Unis (web, mailing, SMS) a été estimé à 3,7 milliards de $ en 2014.
(10) IMS Health est une société américaine cotée en bourse depuis avril 2014 (NYSE).
Après signature d’un contrat fin 2014, IMS devrait finaliser le rachat courant 2015 de la branche «gestion de la relation client » du français Cegedim pour 385 millions d’€ en numéraire. La branche CRM, créée en 1979 représente plus de la moitié de l’activité de ce groupe de 4500 personnes et la moitié du CA est réalisé en France.

Le Club est l'espace de libre expression des abonnés de Mediapart. Ses contenus n'engagent pas la rédaction.