Les scientifiques sécurisent les données qui alimentent la recherche sur l'autisme

Les patients doivent donner leur consentement éclairé aux recherches menées. Il est cependant difficile de comprendre jusqu'à quel point les données personnelles seront utilisées et si elles sont bien protégées. Le point sur les risques.

spectrumnews.org Traduction de "How scientists secure the data driving autism research"

Comment les scientifiques sécurisent les données qui alimentent la recherche sur l'autisme
par Jeremy Hsu / 30 septembre 2020

 © Spectrum News © Spectrum News
La boîte en carton se trouve dans la maison de Maya, dans l'Ohio, depuis des mois. La boîte, pas plus grande qu'un roman à couverture rigide, contient six tubes en plastique - un pour Maya, un pour son mari, Mark, et un pour chacun de leurs quatre enfants, dont deux sont autistes. Elle contient également des étiquettes avec le nom de chaque personne, sa date de naissance et un code barre imprimé, prêtes à être apposées sur les tubes une fois que la famille les aura remplis de crachat (Maya a demandé que seul son prénom soit utilisé dans cet article, pour protéger sa vie privée).

La boîte provient de SPARK, la plus grande étude génétique sur l'autisme à ce jour. Pour participer, Maya devra renvoyer les échantillons de la famille à un laboratoire de test ADN du Wisconsin. Mais elle continue d'hésiter.

D'une part, Maya applaudit la mission de SPARK qui vise à accélérer la recherche sur l'autisme en recueillant des données génétiques auprès de plus de 50 000 familles touchées par cette condition. (Le programme SPARK est financé par la Fondation Simons, l'organisation mère de Spectrum.) Elle espère que cet effort pourrait déboucher sur de meilleurs moyens de diagnostic et de traitement précoces. Mark ne savait pas avant l'université qu'il était autiste ; en revanche, leurs enfants, diagnostiqués à 23 et 32 mois, ont bénéficié d'un traitement précoce.

Mais Maya s'inquiète également de donner l'ADN de sa famille et des informations sur sa santé à un tiers. Lorsqu'elle était en troisième cycle, elle s'est vu refuser un emploi après qu'un employeur potentiel a trouvé un article sur le fait qu'elle était atteinte du syndrome de Marfan, une maladie génétique qui affecte le tissu conjonctif.

Les données du système SPARK sont dépouillées de tout identifiant, comme le nom et la date de naissance d'une personne. Et à de rares exceptions près, aucune des données ADN n'est partagée sans le consentement du participant. Mais Maya se demande si ces protections fonctionnent bien. Des personnes non autorisées pourraient-elles avoir accès aux données et trouver un moyen de les identifier, elle et sa famille ? Cela pourrait-il affecter l'avenir de ses enfants ? La plupart des bases de données de recherche sur l'autisme permettent aux participants de retirer ultérieurement leurs données. Mais si ces données ont déjà été utilisées dans une étude, elles ne peuvent généralement pas être extraites car cela pourrait modifier les résultats de l'étude, selon les experts.

"Je veux être vraiment sûre que les données seront anonymes", déclare Maya. "Je ne veux pas que mes décisions d'aujourd'hui affectent l'employabilité de mon enfant dans 10 ou 20 ans".

Maya n'est pas seule dans son appréhension. De nombreuses familles enthousiastes à l'idée de participer à la recherche sur l'autisme craignent également que leurs informations de santé personnelles ne soient divulguées en ligne ou ne tombent entre de mauvaises mains, ce qui les exposerait à la stigmatisation ou à la discrimination. Leur inquiétude n'est pas entièrement injustifiée : Les lois américaines sur la protection de la vie privée ne font rien pour empêcher un petit employeur ou une compagnie d'assurance-vie de discriminer une personne sur la base de ses informations génétiques. Et même lorsque les données sont anonymisées, les scientifiques ont montré comment les pirates informatiques peuvent faire correspondre des noms à des génomes et des scanners cérébraux stockés dans des bases de données.

Mais, selon les experts, il est moins risqué de partager des données avec un institut de recherche qu'avec des prestataires de soins de santé ou de nombreuses sociétés commerciales de tests génétiques. Les bases de données de recherche disposent de davantage de garanties, telles que le cryptage des données et la restriction de l'accès aux données à des chercheurs de confiance - des mesures qui ont largement dissuadé les pirates informatiques jusqu'à présent. "Les chercheurs sont certainement les meilleurs et les entreprises de vente directe aux consommateurs en général sont certainement les pires, car il existe des dizaines de ces entreprises, et beaucoup d'entre elles n'ont pas de politique de protection de la vie privée ou ne la suivent pas", déclare Mark Rothstein, directeur de l'Institut de bioéthique, de politique de santé et de droit de l'Université de Louisville dans le Kentucky.

Peu importe où vont les données d'ADN ou d'imagerie cérébrale, elles ne sont jamais complètement sécurisées - ce qui oblige des gens comme Maya à prendre une décision difficile. Pour l'instant, la plupart des participants devraient se sentir rassurés. "Si les bases de données scientifiques sont correctement protégées, le risque de vol de données est relativement faible", explique Jean-Pierre Hubaux, qui dirige le laboratoire de sécurité des données de l'École polytechnique fédérale de Lausanne en Suisse. Mais les chercheurs doivent garder une longueur d'avance s'ils veulent préserver la confiance des participants à leur étude.

Crise d'identité

La recherche sur l'autisme s'appuie de plus en plus sur des données de grande taille, et plus les études sont nombreuses à partager des données, plus certaines préoccupations en matière de protection de la vie privée deviennent pressantes. Les grandes bases de données peuvent constituer des cibles plus importantes, en particulier si elles sont associées à des informations numériques accessibles au public.

Le projet MSSNG, mené conjointement par quatre groupes, dont le groupe de défense de l'autisme Autism Speaks and Verily (anciennement Google Life Sciences), a séquencé plus de 10 000 génomes entiers de personnes autistes et de membres de leur famille.

La National Database for Autism Research [base de données nationale pour la recherche sur l'autisme] des Instituts nationaux de la santé (NIH) des États-Unis contient des informations sur plus de 100 000 personnes autistes et leurs proches, notamment des séquences de leurs exomes (régions du génome codant pour les protéines), des scanners du cerveau et des profils comportementaux. La Simons Simplex Collection contient les génomes entiers de 2 600 trios, ou familles avec un enfant autiste. Et fin 2019, SPARK - l'étude à laquelle Maya pourrait participer - disposait de séquences d'exomes et de données de génotypage pour plus de 27 000 participants, dont 5 279 atteints d'autisme. L'étude dispose également de données sur la santé, les traits et le comportement de plus de 150 000 personnes, dont 59 000 sur le spectre.

D'autres serveurs abritent des collections de scanners cérébraux. Le système ABIDE (Autism Brain Imaging Data Exchange), par exemple, associe les scanners cérébraux aux données cliniques de plus de 1 000 personnes autistes et d'un nombre similaire de témoins. De 2012 à 2018, un projet appelé EU-AIMS a permis de collecter des scanners cérébraux et des séquences du génome entier de 450 personnes autistes et de 300 " bébés frères et sœurs ", c'est-à-dire des frères et sœurs plus jeunes de personnes autistes, qui ont de fortes chances d'être eux-mêmes diagnostiqués comme atteints de cette condition.

Tous les participants à ces projets de recherche signent des documents qui décrivent comment leurs données seront collectées, anonymisées et partagées. Ce processus de "consentement éclairé" est censé leur permettre d'évaluer les risques en matière de vie privée et autres avant de s'inscrire, et il est exigé par la loi aux États-Unis et dans la plupart des autres pays. Mais ces documents peuvent être difficiles à analyser. "Même si vous êtes très bien éduqué, [le langage] n'est probablement pas aussi clair qu'il pourrait l'être", explique Kevin Pelphrey, un neuroscientifique et chercheur en autisme à l'université de Virginie à Charlottesville.

Les documents de consentement éclairé ne donnent pas non plus une image complète. Par exemple, la plupart des études précisent que les données seront dépouillées des informations d'identification telles que les noms, les dates de naissance et les villes de naissance. Les études remplacent couramment ces données par des codes alphanumériques, tels que des identificateurs uniques mondiaux. Ces codes offrent un moyen anonyme de suivre les personnes d'une étude à l'autre, mais ils ne sécurisent pas les données. En fait, à mesure que la quantité de données numériques pour chaque personne augmente, il devient plus facile pour des personnes extérieures de reconstituer l'identité et l'historique de santé d'une personne à partir de différentes sources.

"Je ne veux pas que mes décisions d'aujourd'hui affectent l'employabilité de mon enfant dans 10 ou 20 ans". Maya

Une personne qui a accès au génome d'une personne à partir d'une source peut facilement déterminer si ce génome est présent dans une autre base de données, ont montré les chercheurs en 2008. L'équipe a utilisé des marqueurs génétiques appelés polymorphismes mononucléotidiques (SNP) comme points de référence. Ils ont comparé la fréquence d'apparition de milliers de SNP dans le génome d'une personne avec la fréquence d'apparition de ces mêmes SNP à la fois dans la base de données et dans une population ayant une ascendance similaire. Si les fréquences dans le génome de la personne sont plus proches de celles de la base de données que de celles de la population de référence, le génome de la personne est susceptible de figurer dans la base de données. Si la base de données est centrée sur une condition particulière, l'individu identifié serait associé à cette condition.

Même sans accès au génome d'un participant, il peut être possible d'identifier la personne. Une autre équipe de chercheurs a utilisé un programme informatique qui extrait des séquences de marqueurs génétiques répétitifs de données génomiques anonymes pour créer des profils génétiques du chromosome Y de 50 hommes dont les génomes ont été séquencés dans le cadre du projet "1000 génomes", une étude des variations génétiques humaines. Les mêmes profils existent dans une base de données généalogiques publique, qui les relie aux noms de famille. L'équipe a rassemblé les noms avec l'âge, la ville natale et l'arbre généalogique de chaque homme - tels qu'ils figurent sur le site web du projet "1000 génomes" - pour les identifier dans les archives publiques.

Les dépôts de scanners cérébraux présentent des vulnérabilités similaires. Les logiciels de reconnaissance faciale, par exemple, peuvent être utilisés pour faire correspondre des photos de personnes accessibles au public avec des caractéristiques qui apparaissent par hasard dans certains scanners du cerveau, comme le montre une étude de 2019.

D'innombrables autres stratégies qui n'exigent pas de compétences de haut niveau en matière de piratage informatique permettent d'associer des noms et d'autres informations à des données génétiques et sanitaires. "Toute personne ayant une certaine expérience de la génomique ou des statistiques peut faire ce genre de choses", explique Erman Ayday, chercheur en sécurité et protection de la vie privée à l'université Case Western Reserve de Cleveland, dans l'Ohio.

Les failles de sécurité mises à part, les données sur la santé peuvent être divulguées de manière moins insidieuse : des millions de fois chaque année, des personnes signent des formulaires d'autorisation qui donnent aux employeurs et aux compagnies d'assurance la permission d'accéder à leur dossier de santé lorsqu'elles postulent à certains emplois, comme celui de policier, ou lorsqu'elles demandent une assurance vie, une indemnisation pour accident du travail ou des prestations d'invalidité de la sécurité sociale.

Et plus de 30 millions de personnes ont envoyé leur ADN à des sociétés de tests génétiques telles que 23andMe.

Cette entreprise, ainsi que six autres entreprises similaires, a accepté de suivre des lignes directrices volontaires pour la protection de la vie privée, notamment en promettant de ne pas partager les données génétiques avec les employeurs ou les compagnies d'assurance sans autorisation. Mais une enquête menée en 2018 auprès de 55 sociétés américaines de tests similaires a révélé que beaucoup d'entre elles ne disposent pas de protections fondamentales de la vie privée ou ne les expliquent pas ; 40 sociétés n'ont pas indiqué dans leur documentation qui est propriétaire du matériel ou des données génétiques, et seul un tiers a décrit de manière adéquate les mesures de sécurité utilisées pour protéger ces données.

Des protections en patchwork

Jusqu'à présent, les grandes bases de données de recherche ont échappé à l'attention des acteurs malhonnêtes, selon les experts. "Il n'y a pas vraiment de cas où des forces malveillantes ont piraté ces bases de données de recherche et causé un réel préjudice", déclare Benjamin Berkman, bioéthicien au NIH de Bethesda, dans le Maryland. Mais cela peut être dû en partie au fait que les prestataires de soins de santé dont la sécurité est médiocre sont des cibles plus tentantes. Les prestataires de soins de santé représentent plus de 36 % de toutes les violations de la sécurité connues du public, soit la plus grande proportion de tous les types d'organisations, selon une analyse de plus de 9 000 violations de données entre 2005 et 2018.

Après les premières manifestations très médiatisées de désidentification des données, le NIH et certains instituts de recherche ont renforcé les protections de la vie privée - en supprimant les fréquences SNP des sites web auxquels le public peut accéder, par exemple, ou en retirant certaines informations d'identification, comme l'âge, du site "1000 Genomes". Mais en 2018, alors qu'il devenait évident qu'il n'y avait pratiquement pas de violation de données, le NIH a de nouveau assoupli ses règles, permettant au public d'accéder aux données génomiques qu'il avait retirées des sites publics une décennie plus tôt. (Les chercheurs menant des études génétiques sur des groupes spécifiques peuvent toujours demander au NIH de limiter l'accès du public).

"Parfois, la science change et nous, c'est-à-dire les personnes chargées de protéger le public, nous réagissons de manière excessive", explique Thomas Lehner, directeur scientifique du Centre du génome de New York, qui coordonnait auparavant la recherche génomique au National Institute of Mental Health.

Les données des scanners cérébraux pourraient également être moins vulnérables que ne le suggère l'expérience de l'année dernière. Selon les experts, il est beaucoup plus difficile d'identifier des membres du grand public dans une vaste base de données de scanners cérébraux que de faire correspondre les scanners à quelques dizaines de photos conçues pour être similaires en termes de luminosité, de taille et d'autres caractéristiques, comme cela s'est produit dans cette étude. De plus, les chercheurs en autisme peuvent utiliser des logiciels pour supprimer les caractéristiques faciales des images du cerveau dans les bases de données - et certains de ces outils sont fournis avec des programmes d'analyse d'images. "Il est facile de supprimer simplement le visage - personne ne pourra jamais reconstruire qui est qui", explique Martin Styner, informaticien à l'université de Caroline du Nord à Chapel Hill.

"Il n'y a pas vraiment de cas où des forces malveillantes ont piraté ces bases de données de recherche et causé un réel préjudice". Benjamin Berkman

De nombreuses universités protègent activement les données relatives à l'ADN et aux scanners cérébraux en en limitant l'accès : les chercheurs doivent demander l'accès à ces données par l'intermédiaire d'un comité d'éthique universitaire et expliquer comment ils ont l'intention de les utiliser. De nombreuses études, telles que ABIDE, ont des protocoles pour s'assurer que les données collectées auprès de divers groupes de recherche sont anonymisées ou " altérées ". "Nous leur donnons des scripts pour les altérer", explique Michael Milham, qui dirige l'Initiative internationale de partage des données de neuroimagerie, qui soutient ABIDE. "Avant même de partager les données, nous vérifions que l'altération est bien réelle".

Au-delà des défis techniques, le décodage des identités à partir de données anonymes enfreint également la loi fédérale. "Si l'un de mes collègues essayait de faire quelque chose comme identifier une personne en particulier, je m'attendrais à ce qu'il perde son emploi, paie une énorme amende et aille probablement en prison", déclare M. Pelphrey. En 2010, un chercheur médical de l'université de Californie à Los Angeles a passé quatre mois en prison pour avoir examiné les dossiers médicaux confidentiels de son patron, de ses collègues et de clients célèbres tels que Tom Hanks, Drew Barrymore et Arnold Schwarzenegger. L'année précédente, en 2009, l'université de Caroline du Nord avait rétrogradé une chercheuse en cancérologie pour négligence et avait réduit son salaire de près de moitié lorsqu'une base de données d'imagerie mammaire qu'elle supervisait avait été piratée, mettant en danger les données personnelles de 100 000 femmes. "[Cette négligence] a eu des conséquences assez graves, qui l'ont conduite à la démission", explique Mme Styner.

Les chercheurs qui se voient accorder l'accès à de grandes bases de données de recherche sur l'autisme comme le MSSNG signent également des accords qui prévoient des sanctions sévères. "Outre les poursuites judiciaires, Autism Speaks révoquerait les privilèges des chercheurs et de l'institution grâce à notre point d'accès contrôlé à la base de données", déclare Dean Hartley, directeur principal de la découverte et des sciences translationnelles d'Autism Speaks.

Certaines lois fédérales américaines sur la confidentialité des données peuvent protéger les personnes contre les préjudices si leurs données personnelles tombent entre de mauvaises mains.

Le Genetic Information Nondiscrimination Act [loi américaine sur la non-discrimination en matière d'information génétique] (GINA), par exemple, empêche les fournisseurs d'assurance maladie et les grands employeurs d'exercer une discrimination à l'encontre des personnes sur la base d'une prédisposition génétique à une affection particulière. Mais la loi ne s'applique pas aux petites entreprises, aux fournisseurs d'assurance vie ou invalidité, ni aux personnes qui ont déjà une maladie. La loi de 2010 sur les" soins abordables" [Affordable Care Act = Obamacare] offre une protection de la vie privée plus complète que la loi GINA en étendant la protection aux personnes dont le diagnostic est confirmé et pas seulement à celles qui ont une prédisposition génétique.

Certains États ont adopté des lois pour combler les lacunes des lois fédérales et donner aux gens le droit de demander réparation en cas de violation de leur vie privée. Néanmoins, de nombreux experts en matière de sécurité et de protection de la vie privée restent préoccupés par le fait que de plus en plus de données personnelles sur la santé sont partagées entre un nombre croissant de bases de données. "Un certain nombre de personnes se demandent s'il est vraiment nécessaire d'examiner la GINA dans le contexte des données de grande taille et de la fusion de ces bases de données", explique Karen Maschke, chercheur au Hastings Center, un institut de recherche en bioéthique à but non lucratif situé à Garrison, dans l'État de New York.

Même avec des protections juridiques plus solides, les forces de l'ordre ou les tribunaux peuvent exiger l'accès à une base de données de recherche. Pour protéger les données contre de telles demandes, les instituts de recherche peuvent obtenir un "certificat de confidentialité" auprès du ministère américain de la santé et des services sociaux. Cette protection n'est toutefois pas absolue. La preuve de son efficacité repose sur un petit nombre d'affaires juridiques, et si les chercheurs ne savent pas qu'ils disposent de ce certificat, comme c'est souvent le cas, ils ne l'invoqueront pas, selon les experts. De plus, le certificat devient sans objet lorsque des lois exigent la déclaration d'informations sur les maladies infectieuses, comme la COVID-19, dans l'intérêt de la santé publique.

Sauver un sourire

En tant que chercheur dans le domaine de l'autisme et parent de deux enfants autistes, Pelphrey comprend les deux côtés du dilemme de la vie privée. Pelphrey et ses enfants autistes ont apporté leur ADN, par le biais de cinq études distinctes, à des bases de données telles que la National Database for Autism Research, et ils restent ouverts à toute contribution future. Mais il comprend pourquoi certaines personnes hésitent à s'impliquer. "Je pense qu'une façon intelligente pour les scientifiques de procéder est de réfléchir à ce qu'ils voudraient que leur famille fasse", déclare M. Pelphrey.

Dans ce cadre, les chercheurs ont la responsabilité d'expliquer les protections de la vie privée qu'ils mettent en place, et de fournir des exemples de la manière dont les données sur la santé d'un participant pourraient être utilisées, dit-il. "Dans cette section sur le partage des données, cela pourrait signifier que les données sont partagées avec d'autres chercheurs, et que ces chercheurs peuvent collaborer avec des entreprises", explique M. Pelphrey. "Nous n'énumérerons pas votre nom et vos informations d'identification, mais ce sont vos données qui contiennent des images de votre cerveau et des informations sur votre génome".

Les institutions scientifiques protègent généralement les données qu'elles stockent avec plusieurs niveaux de sécurité. De nombreuses bases de données sur l'autisme sont stockées sur des plates-formes dans le cloud qui utilisent des puces et des clés de sécurité ainsi que des outils de cryptage des données, tout en permettant à des chercheurs contrôlés de copier et de télécharger les données sur des serveurs locaux. Et les experts étudient des moyens encore plus sûrs de stocker et de partager des données sensibles, explique Adrian Thorogood, expert en droit et en protection de la vie privée à l'Alliance mondiale pour la génomique et la santé. L'une des approches consiste à n'autoriser l'accès que via le cloud, en empêchant les chercheurs de copier ou de télécharger des données. Une autre stratégie consiste à utiliser des "gestionnaires de données" pour fournir des informations aux chercheurs, qui ne pourraient pas accéder directement aux données mais pourraient soumettre des requêtes ou des modèles.

Les outils de protection de la vie privée apparaissent également dans les applications logicielles utilisées par les chercheurs sur l'autisme. Les fabricants d'une application de filtrage, qui signale les comportements clés dans les vidéos capturées par les caméras des smartphones, développent un filtre de confidentialité pour masquer les informations sensibles dans les vidéos. Ce filtre peut, par exemple, masquer le sexe d'une personne ou même son origine ethnique tout en capturant des expressions faciales utiles pour l'analyse du comportement. "Si je veux détecter un sourire, je pourrais filtrer l'image de telle sorte que seuls les points correspondant aux régions du visage pertinentes pour un sourire soient préservés, chacun de ces points étant simplement représenté par un point mobile", explique Guillermo Sapiro, professeur d'ingénierie à l'université Duke de Durham, en Caroline du Nord, qui dirige le projet.

Malgré ces progrès, les participants aux études génétiques courent toujours un certain risque pour leur vie privée. En échange, certains espèrent acquérir des connaissances sur leur propre constitution génétique, bien que de nombreux grands projets de recherche sur l'autisme ne soient pas conçus pour produire des résultats individuels.

En 2011, Maya et sa famille se sont inscrites à l'étude sur les gènes liés aux troubles du spectre autistique, conçue pour identifier les différences génétiques entre les garçons et les filles autistes.

Ils avaient espéré que leur participation à l'étude permettrait au mari de Maya et à son fils autiste d'obtenir le séquençage du génome recommandé par le médecin de leur fils. Mais les participants à cette étude ne pouvaient demander aux chercheurs de contacter un médecin de leur choix pour des tests de suivi que si une variante génétique cliniquement pertinente apparaissait - il n'y a pas de possibilité d'obtenir des résultats directement, explique la chercheuse principale Lauren Weiss, généticienne humaine à l'université de Californie, San Francisco.

Parfois, les participants sont prêts à prendre les risques liés à la protection de la vie privée pour faire avancer la science. Si Maya décide de participer au programme SPARK, elle ne s'attend pas à en tirer directement profit, dit-elle, mais elle espère que ces recherches alimenteront les progrès dans le domaine du diagnostic précoce de l'autisme. "Je ne pense pas que les recherches auxquelles nous participons puissent aider ma famille - la recherche est un long processus", déclare Maya. "Mais si nous pouvons aider les familles qui n'ont pas encore eu d'enfant autiste, alors cela en vaut la peine".

En attendant, la boîte de tubes reste fermée.

 A suivre : La nouvelle loi européenne sur la protection des données pourrait étouffer la science

Le Club est l'espace de libre expression des abonnés de Mediapart. Ses contenus n'engagent pas la rédaction.