La plupart des articles scientifiques n’ont aucune valeur.

La notion qu’un grand nombre, sinon la majorité, des études dites scientifiques seraient fausses n’est pas nouvelle. En 2005 déjà un chercheur, John P. A. Ioannidis, avait publié sur plos.org un article intitulé Why Most Published Research Findings are False , ou « Pourquoi la plupart des études publiées sont fausses » (1). Voici l’abstract de l’étude (ma traduction):

Il existe une inquiétude croissante selon laquelle la plupart des études publiées sont fausses. La probabilité qu’un résultat de recherche soit vrai dépend de l’envergure de l’étude et des biais, du nombre d’autres études sur le même sujet et, de manière importante, du ratio entre vraie relation et pas de relation parmi les relations sondées dans chaque champ scientifique. Dans ce cadre, un résultat de recherche sera probablement d’autant moins vrai dès lors que les études sont de petite taille, quand les échantillons sont petits, quand il y a un plus grand nombre et moins de présélection des relations étudiées, quand il y a plus de flexibilité dans le design, les définitions et les méthodes d’analyses, quand il y a plus d’intérêts financiers et autres intérêts et préjugés, et quand plus d’équipes sont impliquées dans un domaine scientifique recherchant la signifiance statistique. Les simulations montrent que pour la plupart des designs et cadres de recherche, il est plus probable qu’un résultat soit faux que vrai. De plus, pour beaucoup de domaines scientifiques, les résultats proclamés peuvent souvent n’être que des mesures précises de biais dominants. Dans cet essai j’examine les implications de ces problèmes pour la conduite et l’interprétation des résultats de recherche.

 

Autrement dit, l’existence de très nombreuses études supposées vérifiées par un calcul de signifiance statistique (j’y reviendrai) mais souffrant des divers maux cités (petits échantillons, méthodes non standardisées, biais, intérêts particuliers etc..), qui forment en fait la majorité des études publiées, sont probablement fausses. Cela ne les rend pas complètement inutiles pour autant, par exemple au sens où les hypothèses proposées peuvent être dignes d’intérêt, mais la démonstration de la validité de ces hypothèses est fortement suspecte et ne peut servir de fondement à d’autres actions.

En 2011 paraissait dans la revue Psychological Science une étude sur la « réjuvénation chronologique » démontrant que le fait d’écouter la chanson des Beatles When I’m Sixty-Four vous faisait rajeunir (2). Le but de l’article, en fait, était de démontrer à quel point on pouvait faire dire n’importe quoi aux données statistiques en choisissant certaines méthodes d’analyses et certaines données plutôt que d’autres. L’année suivante le psychologue et prix Nobel Daniel Kahneman publia une lettre ouverte à sa profession, les prévenant d’un gros crash en perspective si elle ne changeait pas son fusil d’épaule, autrement dit si elle continuait à publier des centaines d’études annuelles toutes plus farfelues les unes que les autres.

En 2014, ce même John P. A. Ioannidis, à la Stanford University de Californie, publiait un nouveau papier intitulé How to make more published research true (3), ou « Comment rendre la recherche publiée plus vraie », avec un résumé en cinq points:

  1. 85% des efforts de recherche sont gaspillés du fait de la haute proportion d’études fausses ou aux résultats exagérés.
  2. Un ensemble de changements opératoires et culturels: collaboration à grande échelle, tests de réplication systématiques, meilleures méthodes statistiques, standardisation des méthodes et analyses, etc…
  3. Plus grande rigueur dans la sélection des méthodes, avec examens approfondis et expérimentation.
  4. Prise en compte des motivations des participants, des promoteurs et des bénéficiaires des études.
  5. Modification du système de récompense en recherche scientifique.

En août 2015 le journal Science publiait une étude intitulée Estimating the reprocibility of psychological science (4), où l’on tentait de reproduire 100 études en psychologie, connues et publiées dans de grands journaux scientifiques. Ce ne fut possible que pour un tiers d’entre elles.

En 2015 également je publiais sur ce blog un article tiré d’une lettre par le rédac-chef du magasine de référence médical The Lancet, le Dr Richard Horton, intitulé La moitié des études biomédicales seraient fausses, selon The Lancet (5). Comme Ioannidis ci-dessus, et faisant suite à une conférence « secrète »ayant abordé ce problème dans le contexte médical, Horton tirait le signal d’alarme face à une culture scientifique dévoyée par la course au profit et à la réputation. Horton parle carrément de tricherie, de sélection frauduleuse de données en fonction des résultats désirés a priori, et cherche des moyens pour assainir tout cela. Je doute qu’il ait trouvé grand chose.

Le problème est sérieux, profond, et touche particulièrement les domaines qui nous impactent directement: la médecine, la psychologie, l’économie, les sciences sociales et politiques en général. Dès lors quand un politicien, un technocrate, un porte-parole de l’industrie pharmaceutique (et a fortiori ceux et celles qui combinent ces différentes qualités telle notre actuelle ministre de la santé) justifie telle ou telle position en disant que « des études ont montré que… », la plus grande vigilance s’impose car il est très probable que ces études ne démontrent en fait rien d’autre que les biais (inconscients) et les intérêts (conscients) particuliers de leurs commanditaires.

Certes la plupart de ces études passent par le filtre du peer review mais les gens qui conduisent ces relectures n’ont le plus souvent pas accès à l’ensemble des données ni aux méthodes de tri des données. Parce qu’elles ne sont pas publiées, et surtout par manque de temps. Le peer review, ou « relecture par les pairs », ne vérifie que la cohérence méthodologique globale de l’étude elle-même alors que le diable, comme chacun sait, se cache dans les détails.

La relecture vérifie aussi un paramètre présenté comme fondamental: la signifiance statistique. Celle-ci est nommée « valeur-p » et est généralement présentée comme la probabilité que tel ou tel résultat soit le fruit du hasard plutôt que d’un effet réel mesuré par l’étude. Si la valeur p est de moins de 5%, on considère que cela veut dire qu’il y a 95% de chance que l’effet mesuré est réel, et donc que l’étude est statistiquement signifiante. Un aspect du travail de recherche est donc de calculer cette valeur, d’où le risque de choisir les données expérimentales qui optimisent ce calcul au dépens des autres.

Outre ce problème de choix biaisé, il y a le fait que p ne mesure pas, en réalité, la probabilité d’un résultat du au hasard, mais la probabilité d’obtenir ce résultat s’il était effectivement du au hasard. Subtile, mais fondamental. Prenons un exemple. Vous êtes un docteur devant un patient se plaignant de mal de tête. Vous savez que s’il a un cancer, il a 60% de chances d’avoir un tel mal de tête. A t-il pour autant 60% de chance d’avoir un cancer s’il a un mal de tête? Bien sûr que non. Donc une valeur p calculée dans une étude à 5% veut simplement dire que si le résultat est dû au hasard il y a 5% de chance d’avoir cette valeur, et non pas qu’il y a 5% de chance qu’elle soit due au hasard.

Ce problème a été repéré par la American Statistical Association (ASA) qui, pas plus tard que la semaine dernière, organisait un symposium traitant de la problématique statistique, en vue d’amener vers un changement des méthodes de validation statistiques des études scientifiques (6), remettant directement en cause la méthode actuelle de valeur p de 5%. Mais pour la remplacer par quoi? Si on abaisse le seuil, par exemple avec un p à 2%, cela va tendre à décourager les tentatives de réplication (car plus difficile d’obtenir une signifiance statistique). Il ne semble pas y avoir de solution évidente en termes d’analyse statistique permettant de garantir un résultat réel. D’où la fondamentale nécessite d’un changement de culture dans le monde de la recherche, surtout dans les domaines à fort impact social, politique et économique où les biais et les petites manipulations bien comprises et bien rémunérées sont les plus présentes.

Il y a donc actuellement une prise de conscience, par les professionnels, de l’étendue du problème de la plausibilité des études dites scientifiques. Pas encore, malheureusement, dans le grand public ni dans les instances institutionnelles qui nous resservent le « des études montrent que… » pour justifier tout et n’importe quoi. Ces études existent, mais quand elles ne sont pas volontairement truquées elles sont probablement fausses de toute façon. Il faut donc, à chaque fois, demander la preuve de la véracité des études citées, véracité dont le premier gage est la réplication par d’autres équipes.

 

Notes

(1) http://journals.plos.org/plosmedicine/article?id=10.1371/journal.pmed.0020124

(2) https://www.newscientist.com/article/2149844-most-science-papers-turn-out-to-be-wrong-its-time-to-fix-that/

(3) http://journals.plos.org/plosmedicine/article?id=10.1371/journal.pmed.1001747

(4) http://science.sciencemag.org/content/349/6251/aac4716.full

(5) https://zerhubarbeblog.net/2015/06/29/la-moitie-des-etudes-biomedicales-seraient-fausses-selon-the-lancet/

(6) https://ww2.amstat.org/meetings/ssi/2017/

Article d'origine sur https://zerhubarbeblog.net/2017/10/18/la-plupart-des-articles-scientifiques-nont-aucune-valeur/

Le Club est l'espace de libre expression des abonnés de Mediapart. Ses contenus n'engagent pas la rédaction.