Comment protéger la collecte de données en ligne contre la fraude

Comment des réponses à un questionnaire sur Internet ont été repérées comme frauduleuses, et des pistes pour s'en prémunir.

spectrumnews.org Traduction de "How to safeguard online data collection against fraud" par Grace Huckins / 30 mars 2021

Expert : Clare Harrop, Professeur adjoint, Université de Caroline du Nord à Chapel Hill

La pandémie de COVID-19 a obligé un grand nombre de chercheurs à déplacer leurs études du laboratoire vers Internet. D'une certaine manière, c'est une bonne chose : il y a quelques dizaines d'années, une pandémie mondiale aurait entraîné l'arrêt total de la recherche. Aujourd'hui, les scientifiques peuvent utiliser les médias sociaux, les registres en ligne et les outils de crowdsourcing tels que Amazon Mechanical Turk pour recruter des participants qui répondront à des enquêtes ou effectueront des tâches, sans investir beaucoup de temps ou d'argent.

Mais aussi utiles que soient ces outils en ligne, ils ne sont pas sans risques, explique Clare Harrop, professeure adjointe en sciences paramédicales à l'université de Caroline du Nord à Chapel Hill. Lorsqu'elle et son équipe ont essayé de recruter des participants pour une étude en 2019 en partageant un lien vers une enquête sur les médias sociaux, ils ont reçu un torrent de réponses frauduleuses - vraisemblablement de la part de quelqu'un qui voulait les cartes-cadeaux de 5 dollars que son équipe offrait aux répondants en guise de compensation.

Après le début de la pandémie et le déplacement de tant de recherches en ligne, Harrop et ses collègues savaient qu'ils devaient faire passer le mot sur ce qui leur était arrivé, ils ont donc écrit une "lettre à l'éditeur", publiée dans "Autism Research" en janvier. Harrop a parlé avec Spectrum de son expérience et a partagé quelques conseils sur la façon dont les autres chercheurs peuvent se protéger de la fraude.

Spectrum : Parlez-moi du projet sur lequel vous travailliez lorsque vous avez rencontré ce problème.

clare-harrop-170-170x170-acf-cropped
Clare Harrop : Cette collecte de données s'inscrivait dans le cadre d'une importante subvention pour la mesure des résultats, dirigée par Brian Boyd, visant à créer une mesure de l'inflexibilité comportementale des enfants autistes, puis à l'étendre aux enfants atteints de conditions neurogénétiques - syndrome de Down, syndrome de Prader-Willi et syndrome de l'X fragile. La plupart de mes recherches portent sur les différences entre les sexes, et la majorité de mes travaux ont été réalisés en personne, mais pour ce projet, nous avons utilisé une multitude de méthodes : groupes de discussion, enquêtes en ligne et évaluations en personne.

S : A quoi a ressemblé le processus de collecte de données en ligne ?

CH : Nous avions une enquête en ligne dirigée par Luc Lecavalier à l'Université d'État de l'Ohio que nous avons utilisée pour recueillir des données auprès de près de 1 000 parents d'enfants autistes afin de valider l'échelle d'inflexibilité comportementale que nous avons créée. Pour cette enquête, nous avons travaillé avec les bases de données de parents du Réseau interactif de l'autisme qui avaient accepté d'être contactés pour la recherche. Depuis, nous avons utilisé d'autres registres pour étendre l'enquête aux parents d'enfants atteints de l'X fragile ou du syndrome de Down.

Nous voulions également inclure le syndrome de Prader-Willi, mais l'ensemble des données de l'enquête a été victime d'une fraude. Ces données n'ont donc jamais été collectées.

S : Pourquoi la situation était-elle si différente avec le syndrome de Prader-Willi ?

CH : Nous avons travaillé avec une société nationale qui n'a pas de liste de diffusion comme les autres groupes. Nous avons donc lancé l'enquête via les médias sociaux, et elle a été partagée. Et c'est là que le problème est apparu. Au départ, nous avons eu une réponse très lente, ce qui est normal. Prader-Willi est un syndrome génétique rare - on ne s'attend pas à ce que 300 parents répondent à l'enquête en deux jours. Cette population n'est pas facilement accessible.

S : Comment avez-vous découvert que certaines de vos données étaient frauduleuses ?

CH : Vers le troisième jour, je me souviens que j'étais en réunion, j'avais mon ordinateur portable ouvert et je répondais à tous les courriels de notre équipe de gestion des données. Et ils m'ont dit : "L'enquête a atteint sa capacité, tout est rempli". Et j'ai dit : "Non, non, ce n'est pas normal" - notre capacité était d'environ 150 ou 200 - "ce n'est pas normal ; il est impossible que nous soyons passés d'une vingtaine de participants à tout cela. Ce n'est pas possible que toutes ces personnes aient rempli le questionnaire." Et notre équipe de gestion des données a répliqué en disant : "Oh, quelqu'un de très populaire a dû le partager, comme un parent qui connaît beaucoup de monde." Et j'ai dit, "Non, non, ce n'est pas le cas." Alors on l'a fermé.

Et puis nous avons dû passer au peigne fin les données, ce qui a pris des jours. Il était très clair qu'il s'agissait de données frauduleuses. Nous avons découvert que ces enquêtes avaient été lancées à quelques minutes d'intervalle, comme si quelqu'un les avait ouvertes sur plusieurs serveurs et que les enquêtes avaient été réalisées très rapidement. Nous disons aux parents, "Oh, cette enquête peut prendre entre 30 minutes et une heure." Alors quand toutes vos enquêtes sont remplies en deux minutes, vous savez qu'il y a probablement un problème. Nous avons relevé des noms dans l'enquête pour envoyer des cartes cadeaux, et il s'agissait de noms célèbres. Il y avait beaucoup de joueurs de baseball et de basketball.

S : Comment cela a-t-il affecté le reste de votre recherche ?

CH : Nous avons dû consulter tous nos autres ensembles de données pour vérifier que la même chose ne s'était pas produite. Et heureusement, ce n'était pas le cas. Nous avons examiné les taux de réponse, nous avons recherché les réponses en double. Et nous n'en avons trouvé qu'une poignée - je pense que nous en avions une dizaine. Certaines d'entre elles étaient peut-être intentionnelles, mais pour d'autres, il était clairement évident que les deux parents avaient rempli le formulaire parce qu'ils avaient tous deux reçu l'e-mail.

C'était effroyable, c'était vraiment stressant. Il fallait des heures pour le faire.

S : Que faites-vous pour vous protéger des données frauduleuses à l'avenir ?

CH : Nous avons une étude visant à étendre l'échelle d'inflexibilité comportementale aux troubles de l'hyperactivité avec déficit de l'attention qui a débuté juste après cet incident. Nous avons envoyé des liens uniques à chaque personne que nous avons contactée, ce qui représente beaucoup plus de travail de notre part.

J'ai remarqué que l'une des choses qui aide, parce que j'ai moi-même répondu à quelques enquêtes en ligne pendant le COVID, c'est d'ajouter des questions tests - par exemple, inverser soudainement l'ordre de notation, ou simplement une question aléatoire, comme "Combien font trois plus quatre ?". S'il s'agit d'un robot ou de quelqu'un qui va très vite, vous pouvez attraper les gens de cette façon.

Une autre option consiste à utiliser des tests simples appelés CAPTCHAS. Et il faut absolument collecter des paradonnées, comme le temps qu'il faut à un participant pour compléter ses réponses. C'est très important, tout comme le fait de connaître le taux de réponse typique. D'autres chercheurs utilisent parfois la rémunération par tirage au sort plutôt que la rémunération pour tous.

S : Pourquoi avez-vous décidé de partager cette expérience dans une lettre à l'éditeur ?

CH : Nous avons écrit cette lettre à la rédaction il y a plus d'un an, mais nous faisions avancer d'autres articles sur le projet. Une fois que le projet COVID a été lancé, je me suis tournée vers les coauteurs et je leur ai dit : " Écoutez, nous recueillons toutes ces données à distance. Et j'ai l'impression que nous devons faire circuler cette lettre, parce que cela va devenir un problème plus important en ce qui concerne le COVID." Nous l'avons donc retournée très rapidement et l'avons soumise en novembre.

S : En dehors du contexte de COVID-19, y a-t-il des avantages à collecter des données en ligne, malgré le risque de fraude ?

CH : Nous savons que les adultes autistes ont une préférence pour les médias sur écran. Les médias sociaux sont donc parfaits pour recruter des adultes d'une manière qui leur est confortable, plutôt que de les faire venir au laboratoire pour des entretiens intensifs. Ils nous permettent également d'élargir nos zones de recrutement et d'obtenir un échantillon représentatif. Et lorsque nous pensons à des conditions génétiques rares, ces participants sont par ailleurs particulièrement difficiles à obtenir. Je travaille avec des femmes autistes, et il n'est pas facile non plus de les faire entrer dans une structure de recherche. Les médias sociaux nous donnent donc un moyen d'obtenir des échantillons plus importants.

C'est difficile parce que nous savons que les gens utilisent beaucoup les médias sociaux, notamment pour travailler avec des adultes autistes. Je ne pense pas que nous devions cesser de les utiliser. Mais je pense qu'il existe des moyens de s'assurer qu'ils ne sont pas frauduleux.

Le Club est l'espace de libre expression des abonnés de Mediapart. Ses contenus n'engagent pas la rédaction.