Dérives et effets pervers de l’évaluation quantitative de la recherche

Les professeurs et les chercheurs universitaires sont de plus en plus évalués à l’aide de mesures dites « objectives », qui mettent l’accent sur les publications et les citations. Mais le fondement même de cette approche est problématique. Le temps est-il venu d’abandonner ces méthodes de notation simplistes?

Avec l’arrivée en milieu universitaire de l’idéologie néolibérale adossée aux techniques du nouveau management public avec ses « tableaux de bord », surtout depuis les années 1990, les chercheurs et les administrateurs utilisent de plus en plus souvent les mots « évaluation », « facteurs d’impact », « indice h ». Le monde de la recherche et de l’enseignement supérieur, est ainsi la proie d’une véritable fièvre de l’évaluation. On veut tout évaluer: les enseignants, les professeurs, les chercheurs, les programmes de formation et les universités. Les indicateurs « d’excellence » et de « qualité » se multiplient sans que l’on sache toujours sur quelles bases ils ont été construits.

Les indicateurs « d’excellence » et de « qualité » se multiplient sans que l’on sache toujours sur quelles bases ils ont été construits.

Parmi les outils utilisés pour mettre au point les nombreux « indicateurs d’excellence » qu’une vision gestionnaire de l’enseignement supérieur et de la recherche tente d’imposer à tous comme une évidence, une place de choix est aujourd’hui accordée à la bibliométrie—méthode de recherche qui consiste à utiliser les publications scientifiques et leurs citations comme indicateurs de la production scientifique et de ses usages. Que ce soit pour classer les universités, les laboratoires ou les chercheurs, le calcul du nombre de publications et des citations qu’elles reçoivent sert souvent de mesure « objective » de la valeur des résultats de recherche des uns et des autres.

Il est donc important de rappeler, même brièvement, les nombreux dangers que comportent l’usage simpliste qui tend à se répandre de l’utilisation mécanique d’indicateurs bibliométriques supposés mesurer de façon « objective » la productivité et l’impact scientifique des chercheurs. Nous nous limiterons ici à analyser les usages des deux principaux indicateurs amplement utilisés tant par les chercheurs que par les administrateurs de la recherche. Nous nous pencherons aussi sur les effets pervers des usages simplistes de mauvais indicateurs sur la dynamique de la recherche scientifique particulièrement dans les domaines des sciences sociales et humaines.

Les mauvais usages du facteur d’impact

Calculé et publié chaque année depuis 1975 dans le Journal Citation Reports du Web of Science (maintenant propriété de Clarivate Analytics) le facteur d’impact (FI) d’une revue consiste en une simple moyenne arithmétique du nombre de citations obtenues une année donnée (disons 2016) par les articles publiés par une revue au cours des deux années précédentes (soit 2014 et 2015). Bien que, dès le milieu des années 1990, des experts en bibliométrie n’aient cessé d’attirer l’attention sur l’absurdité de confondre ainsi les articles et les revues, cela n’a pas empêché les « décideurs » et, il faut le souligner, de chercheurs supposément rationnels, d’utiliser le facteur d’impact des revues pour évaluer les chercheurs et instituer des systèmes de primes fondés directement sur la valeur numérique du facteur d’impact des revues! Comme le rapportait la revue Nature en 2006, le ministère de la Science du Pakistan calcule la somme des facteurs d’impact des articles sur une année pour fixer une prime variant entre 1 000 et 20 000 dollars! En Chine, l’Institut de biophysique de Beijing a établi un système semblable : un FI entre 3 et 5 rapporte.

 Dans un éditorial du même numéro, la revue dénonçait cette absurdité. Or, il est impossible que le FI d’une revue de mathématiques (par exemple) ait jamais la valeur de celui d’une revue de recherche biomédicale! Pourtant, aucune personne sensée ne peut croire que les articles de médecine sont tous supérieurs aux articles de mathématiques et justifient donc d’accorder à leurs auteurs une prime plus importante. Dernier exemple montrant le genre de corruption intellectuelle engendrée par la course aux classements : certaines universités contactent des chercheurs très cités qui sont employés par d’autres institutions et leur offrent d’ajouter leur adresse dans leurs publications en échange d’une rémunération1. Ces affiliations factices, auxquelles aucune tâche d’enseignement ou de recherche n’est attachée, et dont les chercheurs qui y participent sont complices, permettent à des institutions marginales d’améliorer facilement leur position dans les classements des universités sans avoir à créer de véritables laboratoires.

Ces cas extrêmes devraient suffire pour mettre en garde les gestionnaires d’université, ou leurs chargés de communication, contre les usages médiatiques de tels classements douteux. En somme, mieux vaut regarder à l’intérieur de la « boîte noire » des classements plutôt que de l’accepter telle quelle comme si elle contenait un beau cadeau de bienvenue…

L’usage abusif de classements et d’indicateurs faussement précis constitue en somme un comportement qui trahit l’ignorance des propriétés des indicateurs utilisés. Seul l’opportunisme des chercheurs, qui profitent de primes mal calculées, et des revues, qui profitent de l’usage évaluatif des facteurs d’impact, peut les amener à croire, ou à feindre de croire, qu’un tel système est juste et rationnel.

L’épidémie de « l’indice h »

Il est devenu courant de voir des chercheurs indiquer sur leur page face book ou dans leur curriculum vitae leur « indice h ». Au milieu des années 2000, alors que les milieux scientifiques avaient commencé à concocter des indices bibliométriques pour rendre les évaluations individuelles plus « objectives », le physicien américain Jorge E. Hirsch, de l’université de Californie à San Diego, y est allé de sa proposition : l’indice h. Cet indice est défini comme étant égal au nombre d’articles N qu’un chercheur a publiés et qui ont obtenu au moins N citations chacun depuis leur publication. Par exemple, un auteur qui a publié 20 articles parmi lesquels 10 sont cités au moins 10 fois chacun aura un indice h de 10.

Le caractère improvisé de cet indice se voit déjà au titre même de l’article paru dans une revue pourtant considérée comme « prestigieuse », les Proceedings de l’Académie nationale des sciences des États- Unis : « un indice pour quantifier la production (output) scientifique d’un chercheur ». En fait, cet indice n’est ni une mesure de quantité (ouput), ni une mesure de qualité ou d’impact, mais un composite des deux. Il combine de façon arbitraire le nombre d’articles publiés et le nombre de citations obtenues. Cet indice est supposé contrer l’usage du seul nombre d’articles, lequel ne tient pas compte de leur « qualité ». Le problème c’est qu’il a rapidement été démontré que l’indice h est lui-même très fortement corrélé au nombre total d’articles et se révèle ainsi redondant!

Pis encore, il n’a aucune des propriétés de base que doit posséder un bon indicateur. Comme l’ont montré Ludo Waltman et Nees Jan van Eck, l’indice h est en réalité incohérent dans la manière dont il classe des chercheurs dont le nombre de citations augmente de façon proportionnelle. Ces auteurs en concluent que l’indice h « ne peut être considéré comme un indicateur approprié de l’impact scientifique global d’un chercheur »2.

Cet indice mal construit est même dangereux lorsqu’il est utilisé comme aide à la prise de décisions car il peut générer des effets pervers. Un exemple simple suffit à le démontrer. Comparons deux cas de figure : un jeune chercheur a publié seulement cinq articles, mais ceux-ci ont été cités 60 fois chacun (pour une période de temps donnée) ; un second chercheur, du même âge, est deux fois plus prolifique et possède à son actif 10 articles, cités 11 fois chacun. Ce second chercheur a donc un indice h de 10, alors que le premier a un indice h de 5 seulement. Peut-on en conclure que le second est deux fois « meilleur » que le premier et devrait donc être embauché ou promu? Bien sûr que non… On voit ici que l’indice h ne mesure pas vraiment la qualité relative de deux chercheurs et est donc un indicateur techniquement invalide.

Malgré ces défauts techniques rédhibitoires, l’usage de l’indice h s’est généralisé dans plusieurs disciplines scientifiques. Il semble taillé sur mesure pour satisfaire d’abord le narcissisme de certains chercheurs. N’oublions pas que sa diffusion rapide a aussi été facilitée par le fait qu’il est calculé directement dans toutes banques de données et s’obtient donc sans aucun effort! Il est tout de même navrant de constater que des scientifiques pourtant supposés avoir fait des études en mathématiques perdent tout sens critique devant un chiffre simpliste—cela vient confirmer un vieil adage anglais qui a toutes les apparences d’une loi sociale : « Any number beats no number. » En d’autres termes, mieux vaut un mauvais chiffre que pas de chiffre du tout…

Un univers à plusieurs dimensions

Le plus irritant dans les débats sur l’évaluation de la recherche est la tendance à vouloir tout résumer par un seul chiffre. Le simplisme d’une telle démarche devient patent quand on observe que cela revient à transformer un espace à plusieurs dimensions en un espace de dimension zéro ! En effet, un nombre, considéré ici comme un point, est de dimension zéro et combiner différents indicateurs pondérés pour obtenir un seul chiffre fait perdre l’information sur chacun des axes (indicateurs) d’un espace à plusieurs dimensions. Au mieux, si on considère que le point est sur une ligne, on a quand même réduit le tout à une seule dimension.

Or, seule la prise en compte de plusieurs indicateurs différents permet de tenir compte des différentes dimensions d’un concept, tel ceux de qualité et d’impact de la recherche. Ainsi, le milieu académique est d’abord intéressé par l’impact scientifique des publications, mais on ne saurait négliger d’autres types d’impacts pour lesquels on trouve plus ou moins facilement des indicateurs valides. Pensons aux impacts économiques, sociétaux, culturels, environ-nementaux, politiques de la recherche scientifique.

Ainsi, dans le cas des universités, la recherche n’est qu’une fonction de l’institution, et la qualité de l’enseignement ne se mesure pas à l’aune de la recherche, en faisant abstraction de l’environnement dans lequel baignent les étudiants (qualité des édifices, ressources bibliothécaires, etc.). Si l’on veut faire émerger ces dimensions, il faut dépasser le « syndrome du lampadaire » (« lamp-post syndrome »), qui porte à chercher ses clés dans une zone éclairée plutôt qu’à l’endroit précis (mais sombre) où elles ont en fait été égarées. Il est donc nécessaire d’aller au-delà des indicateurs facilement accessibles et de faire des études de cas afin d’évaluer la présence de certains de ces impacts pour chacun des grands indicateurs. C’est une démarche qualitative coûteuse mais indispensable lorsqu’on a l’ambition de mesurer les impacts de la recherche dans
plusieurs secteurs.

Le simplisme des classements atteint son paroxysme avec la publication annuelle des classements des universités, censés identifier les « meilleures » universités au niveau mondial.

Le simplisme des classements atteint son paroxysme avec la publication annuelle des classements des universités, censés identifier les « meilleures » universités au niveau mondial.

Quantifier pour contrôler

Les discussions animées entourant l’utilisation d’indicateurs bibliométriques dans l’évaluation des chercheurs laissent le plus souvent dans l’ombre un aspect pourtant fondamental de l’évaluation, à savoir le rôle de l’expertise des chercheurs dans le processus d’évaluation. La volonté de mieux contrôler le système très ancien d’évaluation par les pairs (peer review), qui repose sur une connaissance de première main du domaine de recherche du chercheur évalué, fait lentement place à l’idée d’évaluation par des experts (expert review) lesquels sont souvent externes au domaine de recherche considéré. L’évaluation quantitative normalisée facilite ce déplacement en fournissant des données soi-disant « objectives » qui peuvent alors être utilisées par n’importe qui. C’est dans ce contexte qu’il faut comprendre la création de classement des revues en A, B et C pour faciliter, sinon mécaniser, l’évaluation individuelle. Cela constitue de facto une forme de taylorisation de l’évaluation, une déqualification de l’expertise nécessaire à l’évaluation.

On est ainsi face à un paradoxe. L’évaluation d’un chercheur exige la constitution d’un comité de pairs qui connaissent bien le domaine. Ces experts savent déjà, par définition, quelles sont les bonnes revues dans leur domaine et n’ont pas besoin d’une liste préétablie par on ne sait quel groupe d’experts les classant en A, B et C. Par contre, ces classements permettent à des personnes ignorant tout d’un domaine de prétendre quand même porter un jugement autorisé. Mais alors ils ne devraient justement pas faire partie d’un comité d’évaluation! La multiplication d’indicateurs mal construits sert donc en fait un processus de contournement de l’évaluation par les pairs, éva-luation qui doit prendre en compte des indices de productivité, mais qui doit les interpréter dans le contexte spécifique de l’évaluation. Que certains chercheurs contribuent à la mise en place de ces classements, comme à l’utilisation d’indicateurs pourtant invalides, ne change rien au fait que ces méthodes ont pour effet de minimiser le rôle de l’évaluation qualitative de la recherche en la remplaçant par des évaluations mécaniques.

Pseudo-internationalisation et déclin des recherches locales

Un aspect peu discuté de l’importance accordée aux facteurs d’impact et au classement des revues est qu’elle détourne indirectement de l’étude de sujets locaux, marginaux ou peu à la mode. Cela est particulièrement dangereux dans les sciences humaines et sociales, dont les objets sont par nature plus locaux que ceux des sciences de la nature. Il va de soi que certains sujets sont moins « exportables ».

Les revues les plus citées étant anglo-saxonnes (et non pas « internationales »), les chances d’y accéder dépendent de l’intérêt que ces revues portent aux objets étudiés. Un chercheur qui veut publier dans les revues les plus visibles a intérêt à étudier l’économie des États-Unis plutôt que les spécificités de la Banque du Canada ou l’économie régionale du Québec, sujet de peu d’intérêt pour une revue américaine. Le sociologue dont l’objet est « international », donc délocalisé, ou qui fait de la théorie a plus de chances d’exporter ses articles que celui qui propose l’étude empirique d’un aspect précis de sa propre société. Mais, si on souhaite étudier l’économie du nord de l’Ontario on risque aussi d’avoir plus de problèmes à « internationaliser » les résultats.

Or est-ce vraiment moins important de se pencher sur cet objet que d’étudier les variations du New York Stock Exchange? Il y a donc un danger réel que les objets locaux mais sociologiquement importants soient dévalorisés et donc, à terme, négligés si les indicateurs de citations sont utilisés mécaniquement sans que l’on tienne compte de l’intérêt social des objets de recherche en sciences humaines et sociales.

Conclusion : juger plutôt que compter

On entend souvent dire que ces classements sont inévitables et qu’il faut «vivre avec». Cela est tout à fait faux. La résistance des chercheurs est tout à fait capable de bloquer de tels projets malavisés. En Australie, notamment, la vive réaction des chercheurs au classement des revues a réussi à faire plier le gouvernement, qui a abandonné l’usage de ces classements pour l’évaluation de la recherche. En somme, le monde de la recherche n’a pas à céder devant des exigences qui n’ont rien de scientifique et appartiennent à des logiques qui lui sont étrangères. D’autant plus que ce sont en fait les revues francophones et les objets de recherche locaux mais très importants pour la société qui sortiront perdantes de ces dérives de l’évaluation.

Yves Gingras est professeur au département d’histoire et titulaire de la Chaire de recherche du Canada en histoire et sociologie des sciences de l’Université du Québec à Montréal.

NOTE :
Ce texte est une version plus courte d’un article intitulé « Dérives et effets pervers de l’évaluation quantitative de la recherche : sur les mauvais usages de la bibliométrie », paru dans la Revue internationale PME 28;2 (2015) : 7-14. Pour une analyse plus approfondie, voir: Yves Gingras, Bibliometrics and Research Evaluation : Uses and Abuses, Cambridge : MIT Press, 2016.

1. Yves Gingras, “How to boost your university up the rankings,” University World News, (2014) July 18;329, http://www.universityworldnews.com/article.php?story=20140715142345754. Voir aussi les nombreuses réactions dans Science, (2012), March 2;335: 1040-1042.
2. L Waltman and NJ van Eck, “The inconsistency of the h-index,” 2011, http://arxiv.org/abs/1108.3901.