Compter et mesurer: l'obsession du nombre dans l'évaluation de la production scientifique

«En favorisant l'utilisation de mauvais indicateurs chiffrés» comme le facteur h ou le classement de Shanghai, l'État pousse les chercheurs à la compétition et induit une dégradation de la qualité de leur travail. Par François Blanchard, Cyril Roberto et Pascal Romon.

«En favorisant l'utilisation de mauvais indicateurs chiffrés» comme le facteur h ou le classement de Shanghai, l'État pousse les chercheurs à la compétition et induit une dégradation de la qualité de leur travail. Par François Blanchard, Cyril Roberto et Pascal Romon.

----------------

puceinvite.jpgDans l'université et la recherche comme dans tous les services publics, la Révision générale des politiques publiques (RGPP) pousse au développement d'un esprit de concurrence effrénée entre individus et entre institutions. Déjà, en 2000, le psychiatre Christophe Dejours (1) dénonçait les effets néfastes de la concurrence entre individus dans l'entreprise. Son constat pourrait bientôt se transposer tel quel au monde académique, tant les différentes réformes qui ont touché l'université et le mode de financement de la recherche ces dernières années tendent à mettre les individus en compétition.

Comme ailleurs, l'esprit gestionnaire qui touche aujourd'hui le secteur entraîne une frénésie d'évaluation. Pourtant, aucune réflexion méthodologique préalable n'a été menée à ce sujet. Et nous ne parlons ici que de l'évaluation de l'activité de recherche –les responsables ministériels proclament que l'enseignement doit être évalué, mais sont bien en peine de proposer des critères utilisables.

Voici quelques éléments de réflexion sur l'usage des indicateurs bibliométriques et des classements et sur ses conséquences.

La bibliométrie mesure la production d'articles dans les revues scientifiques (les livres étant, on ne sait pourquoi, exclus) et le nombre de citations que ces articles reçoivent dans les mêmes revues. Elle est utilisée pour étudier et maintenant évaluer l'activité des individus ou des équipes, et, accompagnée d'autres critères, celle d'institutions telles que les universités. Encore faudrait-il que son utilisation soit raisonnée. Poussés par la manie du classement, les différents acteurs (et souvent les scientifiques eux-mêmes) partent du principe qu'une donnée chiffrée est objective et par là irréfutable: «Du moment que l'on manipule des chiffres on raisonne scientifiquement» (2). Or les indicateurs les plus populaires, le facteur h et le classement de Shanghai, sont loin d'avoir la signification qu'on leur attribue. Et il est dangereux, sinon manipulateur, de fonder une quelconque politique sur une évaluation dévoyée qui a un impact négatif sur la recherche scientifique qu'elle prétend servir.
Évaluation individuelle, indicateurs bibliométriques et facteur h

Pour juger du travail d'un chercheur, il est logique de regarder sa production: ses articles. Pourtant, bien qu'incontournable, la publication ne reflète qu'en partie le travail du chercheur, et, partant, de son laboratoire, de son université, etc. De plus, tous les articles ne se valent pas. Leur qualité scientifique, soumise à divers aléas, n'est pas uniforme. La richesse de leur contenu varie selon la coutume des différents domaines de recherche. Le simple comptage des articles, hélas couramment pratiqué, constitue donc une mesure très imparfaite.

L'évaluateur peut alors émettre un avis subjectif assumé, dont on connaît les avantages et les limites, ou bien tenter de corriger ces données objectives dans l'espoir de les rendre plus facilement comparables. La deuxième piste conduit à créer des indicateurs bibliométriques.

La première idée pour corriger l'indicateur «nombre de publications» consiste à considérer aussi le nombre de citations. Certes, un bon article est souvent plus cité, mais dans quelle mesure? Si on inclut des références dans un article, ce n'est pas pour établir un palmarès: nous citons facilement un livre ou un article de survol plutôt que la source originale; un jeune chercheur en début de carrière est parfois moins cité; on cite fréquemment certains articles contestables. Ainsi, prendre les citations (et seulement les citations d'articles) comme données de base d'un indicateur induit des biais majeurs, au même titre que de compter les publications.
Afin de corriger le comptage des articles par une mesure de leur notoriété, J.E. Hirsch (3) a introduit le facteur h. Celui-ci se calcule de la manière suivante : un scientifique a un facteur h égal à n si il/elle a n publications citées chacune au moins n fois.

Une telle formule, qui mélange publications et citations sans les prendre toutes en compte, n'inspire pas confiance. Quand Hirsch avance que le facteur h permet de comparer l'activité scientifique des chercheurs, l'assertion est risible : imaginons deux scientifiques, l'un ayant exactement 10 publications avec 10 citations et l'autre exactement 10 publications citées 100 fois. Est-ce qu'ils ont le même impact réel ? Évidemment non. De plus, F. Laloë et R. Mosseri notent que «des valeurs très différentes peuvent être attribuées à des chercheurs dont la qualité de production scientifique est perçue comme très similaire par la communauté scientifique» (4). Et pourtant plusieurs sites proposent un calcul du facteur h des chercheurs, et les évaluateurs, dont ceux de notre propre université, ne cessent d'y avoir recours.
Mais voici le plus inquiétant: les effets en retour de l'évaluation sur indicateurs. «Le règne des indicateurs de performance», écrit S. Piron (5), «exacerbe des valeurs de concurrence et de compétition. De ce fait, il concourt à ruiner ce qui devrait être au contraire les valeurs centrales de la recherche scientifique: le partage, la collaboration et la critique éclairée au sein de communautés bienveillantes». Un article paru dans Science montre que ces valeurs ont une signification positive dans la recherche (6). Et l'individualisme fait mauvais ménage avec la conscience professionnelle. Afin d'améliorer leurs performances chiffrées, beaucoup de scientifiques modifient leur manière de chercher, de publier et de citer, au détriment de la qualité de leur travail. Se généralisent ainsi l'abandon des recherches risquées, la course à la publication, le plagiat, les citations de complaisance (7). Que reste-t-il alors du climat nécessaire aux vraies avancées des connaissances?
Évaluation des universités et classement de Shanghai

Appliquée aux individus, l'évaluation chiffrée se révèle donc dangereuse; les spécialistes ne l'utilisent que pour des groupes conséquents (universités, pays). Elle souffre là aussi de défauts importants comme l'illustre le classement de Shanghai (8). Celui-ci s'appuie sur 6 indicateurs dont 4 comptent pour 20% : (a) nombre de prix Nobel ou de médailles Fields, (b) nombre de chercheurs parmi la liste des «plus cités» de Thomson Reuters, (c) nombre d'articles publiés dans les revues Nature et Science, (d) nombre total d'articles recensés dans le Web of Science de Thomson Reuters. Les deux autres comptent pour 10% chacune : (e) nombre d'anciens étudiants ayant reçu un prix Nobel ou une médaille Fields, (f) ajustement des résultat précédents selon la taille de l'institution.
Y. Gingras (9) propose une excellente analyse de ce classement, dont voici l'essentiel. Il rassemble des données hétérogènes (le nombre de publications dans Nature et Science n'est pas comparable au nombre de prix Nobel !) ; le choix de ces revues est très discutable et fortement biaisé quand on sait que 72% des articles publiés dans la revue américaine Science le sont par des auteurs américains, et 67% de ceux parus dans la revue britannique Nature le sont par des Britanniques ; enfin comment se fier à un classement qui fait varier la position d'une université de plus de 100 places selon qu'on attribue le prix Nobel 1922 d'Albert Einstein à l'université de Berlin ou à l'université Humboldt? Il en souligne aussi la signification politique et idéologique: «Il est (...) probable que l'importance soudaine accordée à ce classement soit un effet (...) de la recherche de clientèles étrangères lucratives qui viendraient ainsi combler les revenus insuffisants provenant des gouvernements. (...) Il sert aussi de façon stratégique les acteurs qui veulent réformer le système universitaire (...) ».
Après cela, on est consterné d'apprendre que 61% des dirigeants de 79 universités et grandes écoles interrogés ont «pour objectif explicite d'(y) améliorer leur rang», et que 83% d'entre eux «ont pris des mesures concrètes destinées à améliorer leur rang dans les classement internationaux» (10).

Conclusion : réagir

Si la bibliométrie, employée avec précaution, se montre parfois utile, les éléments de réflexion présentés ici soulignent les dangers qu'elle présente pour la recherche. On pourra objecter que l'indice h n'est pas populaire dans la communauté mathématique. Pas encore ! Pour les scientifiques chargés d'évaluer et contraints à des prises de décision d'autant plus fréquentes que l'évaluation se répand, les indicateurs sont une solution de facilité, apparemment objective, qui les affranchit de leurs responsabilités et pourrait augurer d'un emploi bientôt systématique. Quant au classement de Shanghai, on ne voit guère quel usage légitime on pourrait en faire.
Nous estimons qu'en favorisant l'utilisation de mauvais indicateurs chiffrés pour formater les activités de ses agents et les pousser à la compétition, l'État induit une dégradation de la qualité de leur travail. Il appartient à la communauté scientifique tout entière de prendre la mesure du danger, et d'œuvrer partout où c'est possible à en limiter et contrôler l'usage.

(1) Christophe Dejours, Travail, usure mentale - De la psychopathologie à la psychodynamique du travail. Bayard éditions, 1980, Paris, nouvelles éditions augmentées en 1993 et 2000, 281 p.
(2) F. Laloë et R. Mosseri, L'évaluation bibliométrique des chercheurs: même pas juste... même pas fausse (pdf). Reflets de la Physique, no. 13.
(3) J.E. Hirsch, An index to quantify an individual's scientific research output. Proceedings of the National Academy of Sciences, 102 (46), 2005, 16569-16572.
(4) F. Laloë et R. Mosseri, op. cit.
(5) S. Piron, Lisons Peter Lawrence, ou les implications morales de l'évaluation bibliométrique. Nous recommandons vivement le site.
(6) A.W. Woolley, C.F. Chabris, A. Pentland, N. Hashmi, T.W. Malone, Evidence for a collective intelligence factor in the performance of human groups. Science 2010 Oct. 29; 330:686-688. Une présentation de cet article: http://www.fabula.org/actualites/article40823.php.
(7) Dans un éditorial récent, D. F. Arnold, président de la Society for Industrial and Applied Mathematics, montre à quel point les indicateurs peuvent perdre toute signification face aux fraudes systématiques qui se sont multipliées : D.F. Arnold, Integrity Under Attack: The State of Scholarly Publishing. SIAM, December 4, 2009, Talk of the Society.
(8) Ce classement des principales universités mondiales est actualisé chaque année par l'université Jiao-Tong de Shanghai depuis 2003: http://www.arwu.org/

(9) Yves Gingras, La fièvre de l'évaluation de la recherche. Du mauvais usage de faux indicateurs (pdf). CIRST, 2008, ISBN 978-2-92333 3-39-7.

(10) Rapport Bourdin (pdf); 2008, page 97.


N.B. Le présent article condense un texte plus complet et plus détaillé, consultable à l'adresse http://hal.archives-ouvertes.fr/hal-00533570/fr/

Auteurs: Evgeny Abakumov, Anne Beaulieu, François Blanchard, Matthieu Fradelizi, Nathaël Gozlan, Bernard Host, Thierry Jeantheau, Magdalena Kobylanski, Guillaume Lecué, Miguel Martinez, Mathieu Meyer, Marie-Hélène Mourgues, Frédéric Portal, Francis Ribaud, Cyril Roberto, Pascal Romon, Julien Roth, Paul-Marie Samson, Pierre Vandekerkhove, Abdellah Youssfi.
Université Paris Est Marne-la-Vallée - Laboratoire d'Analyse et de Mathématiques Appliquées, UMR 8050.
5 bd Descartes, 77454 Marne-la-Vallée cedex 2.

Le Club est l'espace de libre expression des abonnés de Mediapart. Ses contenus n'engagent pas la rédaction.