La science est elle reproductible ? Entre théorie des expériences, faits et statistique

Dernièrement, une étude scientifique écrite par un statisticien a fait grand bruit : elle expliquait que le fondement même des sciences expérimentales, la reproductibilité soit le fait de pouvoir refaire les expériences qui fondent une découverte n'était pas assuré. En particulier dans des domaines comme la biologie ou la recherche génétique, il avançait ainsi que plus de 25 % des travaux scientifiques ainsi considérés n'étaient plus considérés comme reproductible.

Dernièrement, une étude scientifique écrite par un statisticien a fait grand bruit : elle expliquait que le fondement même des sciences expérimentales, la reproductibilité soit le fait de pouvoir refaire les expériences qui fondent une découverte n'était pas assuré. En particulier dans des domaines comme la biologie ou la recherche génétique, il avançait ainsi que plus de 25 % des travaux scientifiques ainsi considérés n'étaient plus considérés comme reproductible.

Mais la reproductililité des expériences, qui est donnée comme étant au fondement même des sciences de la nature est elle un concept dépourvu de toute ambiguité ? C'est d'abord une conception historique et philosophique, qui dépend d'un certain état des sciences et des techniques, mais aussi des idées. C'est aussi une question de pratique de laboratoire, avec là aussi des aspects historiques (les normes et les pratiques ne sont pas les mêmes que celles ayant court ne serait ce qu'au début du XX° siécle dans la physique, où la distance entre "théoriciens" et "expérimentateurs" n'était pas si grande. Mais l'identification des sciences (en se limitant aux seules sciences de la nature et sciences physiques) aux seules sciences physiques n'est elle pas elle même problématique ? Panorama d'un probléme contreversé.revanche-de-frankenstein-08-g.jpg 

 

La « méthode expérimentale » a été formalisée au XIX°siécle par deux scientifiques, le chimiste Michel Eugéne Chevreul et le médecin Claude Bernard. Bien entendu, les expériences scientifiques n'ont pas attendues cette période de bouleversements scientifiques, politiques et sociaux, mais le développement formidable des sciences peut être mis en relation avec la formalisation d'une « méthode scientifique » qui permettait d'établir des relations communes entres savants (il n'était pas encore question de « scientifique ») et entre disciplines (la chimie et plus encore la biologie avait un considérable retard avec la physique, qui était à l'origine la seule discipline véritablement « expérimentale »

Laissons Michel Eugène Chevreul nous la décrire en 1856 : «  Un phénomène frappe vos sens ; vous l’observez avec l’intention d’en découvrir la cause, et pour cela, vous en supposez une dont vous cherchez la vérification en instituant une expérience. Le raisonnement suggéré par l'observation des phénomènes institue donc des expériences (…), et ce raisonnement constitue la méthode que j’appelle expérimentale, parce qu’en définitive l’expérience est le contrôle, le critérium de l’exactitude du raisonnement dans la recherche des causes ou de la vérité » 

chevreul_10.jpg

Michel Eugène Chevreul

 

Cette description (tirée de Wikipedia) annonce l'expérience au sens moderne du terme : un phénomène (naturel pour les sciences de la nature, humain pour les sciences sociales et historiques) trouve une explication à partir d'une théorie qui lui donne sens, et des hypothèses qui doivent être confirmé par une expérience (ou une série d'expérience) Dans ce cas, un phénomène répétable doit pouvoir etre répété par un autre scientifique, qui a partir des mêmes prémisses doit parvenir aux mêmes conditions. Ce qui passe également par le refus de l'empirisme par le grand développeur de la méthode expérimentale, le médecin Claude Bernard : « L'empirisme est un donjon étroit et abject d'où l'esprit emprisonné ne peut s'échapper que sur les ailes d'une hypothèse. »

C'est sinon une rupture, du moins une évolution par rapport aux conceptions passées des sciences, qui faisaient bien plus appel aux « coups de main », aux performances individuelles. Pour l’ancêtre de la chimie, l'alchimie par exemple, la conception de l'expérience est très éloignée de la vision moderne de la science. Le «bon » alchimiste garde soigneusement secrete ses « coups de mains », son habileté expérimentale, contrairement au scientifique moderne, plus sensible à l'idée de transparence (rien ne doit demeurer secret) La science au début du XIX siécle développe a cette époque la formalisation de l'expérience, avec tenue rigoureuse d'un « cahier d'expérience » expliquant clairement les manipulations, l'outillage requis. Cette formalisation poussée doit permettre à n'importe quel scientifique compétent d'arriver aux mêmes résultats expérimentaux avec les mêmes outillages. Elle va de pair avec un début d'industrialisation qui prone de façon générale la normalisation comme outil de rationalisation de la production.

La méthode expérimentale va également être utilisée par les philosophes des sciences comme critère de scientificité. Le premier système de pensée a mettre les sciences expérimentales au cœur de la science est la philosophie positiviste. Elle place la méthode expérimentale au cœur de sa définition des sciences. Un de ses concepts les plus discutés, le classement hiérarchique des sciences est justement fonction de l'importance d'une culture de l'expérimentation. Il ne faut pas oublier que c'est à partir de cette période (vers la fin du XIX siècle) que la chimie et la biologie deviennent des sciences vraiment expérimentales. Par contre, le courant de l'empirisme logique représenté par Karl Popper, dénie à la seule expérience reproductible le critère de scientificité. C'est au contraire le critère de réfutabilité qui confère à la science son aspect spécifique. Ce n'est pas qu'une expérience réussisse qui donne à la science son caractère spécifique, c'est qu'on puisse la réfuter par une expérience. Pour Popper, une expérience ne prouve rien en positif. Elle ne permet que d'éliminer une hypothèse erronée. Une théorie scientifique « solide » est celle qui a résistée à toutes les tentatives de réputation. Mais évidemment cette solidité, comme les vérités de la science selon Poppers est forcément « provisoire », jusqu'à ce qu'une expérience rondement menée contredise un des fondements de cette théorie.

116759.jpg

Karl Poppper

 

Mais les fondements théoriques ayant été expliqués, comment ça se passe  en pratique ? Car toutes les expériences ne sont pas répliquées. Déjà parce que certaines sont trop longues ou trop chères à réaliser. On a beaucoup parler de l'expérience de Séralini sur les Plantes génétiquement modifiées pour résister à un herbicides (maïs « roudup ready ») Celle ci visait a montrer que la durée des expériences menées sur trois mois par Monsanto ne permettait pas de mettre en évidence les problèmes de mutations. L'expérience consistait à reprendre celle qui avait permis de qualifier (selon Monsanto) ce mais GM mais a prolonger la durée d'essai et à la doubler. Or Monsanto, ses sbires et tout un tas de scientifiques ont critiqué vertement l'expérience de Séralini, mais sans refaire l'expérience, ce qui aurait permis définitivement de lever les doutes (puisque le principal reproche concernait la taille insuffisante de l'échantillon. Seulement voilà : ce genre d'expérience coûte particulièrement cher. Séralini parle d'un coût de son expérience de 3.2 millions d'euros.

De même, on a beaucoup parlé de l’expérience visant à mettre en évidence le boson de Higgs a partir d'un dispositif particulièrement performant : le LHC (large hadron Collisioner), un « accélérateur de particule » particulièrement puissant. La aussi, l’expérience est difficilement renouvelable « à volonté » car le dispositif qui permettrait de recommander l'expérience est unique, les scientifiques capables d'utiliser un tel équipement peu nombreux, et de toute façon, le planning des expériences est déterminées pour plusieurs années au LHC. Dans le même ordre d'idée, de plus en plus d'expériences sont réalisée dans des conditions de vol sub terrestre, quand elle ne sont pas spécifique à une recherche spatiale précise. Les expériences réalisées à l'occasion de la récente exploration de Mars ne sont pas reproductible (sauf a décider de reconstruire une nouvelle navette uniquement pour refaire les recherches)

Un autre probléme est que certaines recherches demandent des compétences et des « trucs de métier » qui ne sont pas forcément reproductible par n'importe quel scientifique. La découverte de la structure en double hélice de l'ADN est due a un ensemble de compétences théoriques et instrumentales, mais le rôle indiscutablement décisif de Rosalind Franklin, la cristallographe qui a pris le cliché, est indiscutable. Or à l'époque, personne d'autre qu'elle n'aurait pu refaire l'image, alors que celle ci était la « pierre de touche » de cette découverte décisive.

Il convient de tenir également compte de la durée des expériences. Certaines expériences durent en effet un temps considérable. On a parlé récemment du scientifique chargé de la plus longue expérience jamais tentée, celle de « la goutte de poix ». Le blog de science de libération « science 2 » parle ainsi de cette expérience : « L’expérience a été mise en place en 1927 par le professeur Thomas Parnell, à l’université du Queensland et est considérée comme étant l’expérience en continu la plus longue jamais réalisée. Il a fallu trois ans pour que la poix chauffée se stabilise dans un entonnoir en verre, fermé. En 1930, l’entonnoir est ouvert et sur les 83 dernières années, huit gouttes de poix seulement sont tombées, et jamais en présence de quelqu’un, a précisé l’université. » La dernière goutte est tombée en 1990, et on attend la neuvième d'un instant à l'autre. Instant qu'on peut attendre longtemps. On peut parier que les scientifiques ne se bousculerons pas pour vérifier si les résultats du professeur Parnell sont exacts.

Enfin, il y a également la question non résolue de l'étude des phénomènes non reproductibles. Ceux ci ballaient l'ensemble des disciplines scientifiques, qu'elles ressortent des sciences de la nature ou qu'elles découlent des sciences sociales et historiques. Un des sociologues les plus intéressant de la période, Luc Boltansky, a écrit des pages lumineuses sur l'impossibilité d'une certaine sociologie des révoltes et des révolutions. C'est que les révoltes et les révolutions sont par nature contingentes. Il ne peut donc y avoir les concernant d'expériences reproductibles. Un autre exemple de pages sur la contingence concerne l'évolution du vivant, elle aussi contingente. Dans « la vie est belle », Stephen Jay Gould raconte d'un façon à la fois belle et intelligente, la découverte et l'exploitation du « schiste de Burgess », un trésor contenant les premiers fossiles datant de 500 millions d'années (il en existe de plus vieux encore, mais ceux la sont d'une richesse et d'une diversité admirable) que les paléontologues vont mettre des années à reconstituer. On peut citer également la science qui tente d'analyser ou de reconstituer les accidents, pour en tirer des enseignements pratiques. Tous ces événements sont par nature étranger à la reproductibilité. Et les sciences qui les concernent ne sont pas des « sciences expérimentales » à proprement parler, puisque si des expériences peuvent exister, elle ne constituent pas le « hic et nunc » de la science en question.

Un domaine de la sociologie et de l'histoire des science est particulièrement attaché à l'étude fine de ces question, c'est un ensemble de travaux regroupé sous le vocable généraliste de l'« analyse de controverse », et découle d'une conception qui fait de la science quelque chose à étudier quand les résultats ne sont pas encore stabilisés et que les faits n'ont pas reçu leur explication définitive. Un des meilleurs ouvrage expliquant cette approche est due au grand historien des sciences Peter Galison. Celui ci a montré dans son ouvrage « comment se terminent les expériences » la progression des scientifiques vers une découverte scientifique établie (au début de la recherche, on a plusieurs savants avec plusieurs théories et résultats incompatibles et des expériences tout aussi incompatible (les autres savants n'arrivant pas à retrouver les mêmes résultats), avant d'arriver à une stabilisation qui peut prendre plusieurs dizaine d'années. Une autre piste de recherche a été la reconstitutions d'expériences « historiques », avec le matériel d'époques (de nombreuses expériences sont montrées comme modèle mais avec une méthodologie et des matériels différents de l'expérience historique. Le sociologue des sciences Dominique Peste nous en montre toutes les difficultés :

« La première idée à retenir, si l'on souhaite se faire une idée plus concrète du travail expérimental est de dire que toute expérience est un acte créatif et souvent délicat à réaliser, qu'elle n'est souvent imaginée et réussie que par quelques personnes – et que la reproduction des expériences de pointe est rarement aisée et non-problématique. La raison en est que toute expérience requiert, pour réussir, une habileté pratique encore non codifiée, des tours de main que leurs auteurs sont souvent bien en peine de pouvoir expliciter. »

La réalisation pratique de ces expériences va en montrer toute la difficultés Laissons dominique Pestre nous les raconter :

« De nombreuses expériences de physique des deux derniers siècles, celles de Coulomb ou de Joule par exemple, n'ont donc pas été reproduites pour vérification – même si elles sont devenues, bien plus tard, des expériences codifiées de 'travaux pratiques' ou des instruments-types conservés dans les laboratoires, ce qui est tout autre chose. D'autres l'ont été, comme celle de Hertz, mais avec des dispositifs matériels et des images de ce qui devait être compris très différents. On a douté de la véracité des résultats obtenus par Coulomb par exemple, et on a mis en cause son instrument trop personnel et fragile, trop capricieux et difficile à maîtriser. Concernant Joule, l’extraordinaire difficulté de sa mesure l'a conduit à prédire qu’il serait très difficile de refaire son travail -- et il fut le seul pendant longtemps à produire des résultats chiffrés. Quant à Hertz, si l'idée même de son dispositif fut universellement considérée comme un trait de génie, la polémique a été sans conclusion claire sur ce qu'il avait fait et mesuré. »

Tous ces éléments le montrent clairement : on est loin de la simplicité de la notion de « science reproductible » qu'enseigne la vulgate.C'est bien pourquoi l'article du statisticien Valen E Johnson est tout a fait intéressant, d'autant qu'il propose une solution au problème avancé. D'abord, il avance le chiffre (considérable) de 25 % d'études scientifiques n'ayant pas pu être répliquées. Cela voudrait il dire que 25 % des études n'ont réellement pas été répliquées, ce qui en donnerai un nombre plus important encore ?

L'analyse du statisticien s'attaque à une valeur importante dans toute étude scientifique reposant sur les données recueillis lors des expériences effectuées par les scientifiques. Dans ce cas, on a affaire à un « test d’hypothèse » reposant sur une valeur qui exprime la concordance entre l’hypothèse à confirmer et les résultats recueillis. Cette valeur est appelée « petit p » et exprime la corrélation permettant de valider l’hypothèse retenue. En effet, la vérification en laboratoire des grandeurs ou variables à mesurer fait apparaître des résultats négatifs qui doivent être pris en compte. Le calcul de « petit p » est donc indispensable à toute vérification expérimentale. Pour les expériences, sa valeur est fixée à 0.05 (ou « à 5%) arbitrairement. Cette valeur est cependant admise par l'ensemble de la communauté scientifique. Pour les expériences en physique, cette corrélation est encore meilleure, puisque dans ce cas, le nombre p doit être inférieur à 0,01.

Valen johnson a comparé les résultats obtenus par cette méthode avec ceux qui découlent d'une autre approche statistique, celle de l'inférence bayresienne. Celle ci consiste a comparer plusieurs hypothéses avec les résultats obtenus. En comparant les deux approches, il en a déduit d'une part que plus de 25 % des études proposées étaient fausse, et d'autre part que le nombre « petit p » était trop grand, il se propose d'adopter pour l'ensemble des recherches la valeur adoptée par les sciences physiques, soit une corrélation de 1 % (et non de cinq pour cent)

Il est à noter que l'ensemble de la communauté scientifique semble se réjouir que la discussion reste sur une question de statistique, sans remettre en cause fondamentalement d'autre sources d'artfact (« faux positifs », corrélations abusives, etc) Or la question de la réplicabilité des expériences statistiques semble bien plus complexe que la seule question du calcul d'un coeficient de corrélation.

 

Bibliographie :

Dominique Pestre : introduction aux sciences studies La découverte 2006

Peter Gallisson : Ainsi s'achévent les expériences La découverte 2002

Auguste Compte : Philosophie des sciences Tel/Gallimard 1996

Christian bonnet : l'age d'or de l'empirisme logique : textes de philosophie des sciences Nrf/Gallimard 2002

Stephen Jay Gould la vie est belle point/Le seuil 2002

articles et sites web  :

Science étonnante :Comment être sûr qu’un résultat scientifique est vrai 

https://sciencetonnante.wordpress.com/2013/11/18/comment-etre-sur-quun-resultat-scientifique-est-vrai/

Site consulté le 27/11/2013


Passeur de science : une étude ébranle un pan de la méthode scientifique.

http://passeurdesciences.blog.lemonde.fr/

Site consulté le 21/11/2013

 

National accademy of science : Valen E Johnson Revisited standard for standard evidence

http://www.pnas.org/content/early/2013/10/28/1313476110

Site consulté le 21/11/2013

 

Howto : comment calculer la valeur P

http://fr.wikihow.com/calculer-la-valeur-P

Site consulté le 24/11/20

 

Nature : Réplication studies bad copy

http://www.nature.com/news/replication-studies-bad-copy-1.10634

Site consulté le 24/11/2013

 

Il existe également en anglais une vaste littérature (disponible en accés libre sur le web) concernant les études de réplications sur le web

 

Le Club est l'espace de libre expression des abonnés de Mediapart. Ses contenus n'engagent pas la rédaction.