La fausse science par l'Intelligence Artificielle

La pratique de la science consiste à essayer de découvrir des choses sur le monde en utilisant une logique rigide et en testant chaque hypothèse. Les chercheurs rédigent ensuite toutes les découvertes importantes dans des articles et les soumettent pour une éventuelle publication.

Après un processus d'examen par les pairs, dans lequel d'autres scientifiques vérifient que la recherche est solide, les revues publient des articles pour la consommation publique. La pratique de la science consiste à essayer de découvrir des choses sur le monde en utilisant une logique rigide et en testant chaque hypothèse. Les chercheurs rédigent ensuite toutes les découvertes importantes dans des articles et les soumettent pour une éventuelle publication. Après un processus d'examen par les pairs, dans lequel d'autres scientifiques vérifient que la recherche est solide, les revues publient des articles pour le public. Vous pouvez donc raisonnablement croire que les articles publiés sont assez fiables et répondent à des normes de qualité élevées. Vous pouvez aussi vous attendre à de petites erreurs qui ont été négligées lors de l'examen par les pairs, mais pas à des erreurs majeures. C'est de la science, après tout ! La vraie et bonne science existe, mais il y a aussi une quantité inquiétante de fausses recherches. Et ces dernières années, elles ont augmenté de volume à une vitesse fulgurante, comme en témoigne le nombre de rétractations de papier.

Fausse science

Un certain nombre de pratiques menacent actuellement de saper la légitimité de la recherche scientifique. Ils incluent des auteurs inventés, l'ajout de scientifiques qui n'avaient rien à voir avec un article en tant que co-auteur et des pratiques encore plus néfastes comme l'inondation de revues avec des soumissions de déchets de mauvaise qualité écrits par l'IA (Intelligence Artificielle). Ce processus est similaire à un rappel à l'épicerie. Si un produit déjà vendu est mauvais ou dangereux pour une raison quelconque, le magasin peut décider de le rappeler et demander à tous les clients de ne pas l'utiliser. De même, une revue peut se souvenir d'un article publié qui, avec le recul, s'est avéré être un faux. Bien sûr, les articles sont parfois retirés parce que les auteurs ont fait une erreur honnête dans leurs recherches. Cependant, dans plus de la moitié des cas, il s'agit d'une faute professionnelle ou d'une fraude. Jusqu'à il y a dix ans, ce type de comportement était plus ou moins limité aux chercheurs falsifiant les données expérimentales ou faussant les résultats pour favoriser leur théorie. Cependant, plus la technologie est devenue sophistiquée, plus les choses sont devenues beaucoup plus compliquées.

Une solution simple serait d'ignorer les faux papiers. Le problème, cependant, est qu'ils sont souvent difficiles à identifier. Aussi, une fois qu'un article est retiré d'une publication, cela ternit un peu l'ensemble de la revue. Que cela se produise assez souvent, et la confiance du public dans la science dans son ensemble diminue. Par conséquent, la communauté scientifique dans son ensemble doit prendre ce problème au sérieux.

Camille Noûs


Certains des problèmes sont analogiques. Camille Noûs n'a pas grand-chose à voir avec l'IA, mais elle mérite néanmoins une mention. Né en mars 2020, Noûs a déjà co-écrit plus de 180 articles dans des domaines aussi divers que l'astrophysique, l'informatique et la biologie Noûs n'est pas une vraie personne ; c'est plutôt un artefact inventé par le groupe français de défense des intérêts de la recherche RogueESR. Il porte le prénom français non sexiste Camille et une fusion du mot grec ancien « νοῦς », qui signifie raison ou cognition, et du mot français « nous ». Noûs a été créé en réponse à une nouvelle loi fortement critiquée pour réorganiser la recherche académique en France. Bien que l'objectif de la loi était d'améliorer la recherche, ses détracteurs pensent que les emplois des scientifiques seront injustement précaires et dépendants de financements externes en vertu de ses exigences. En particulier, le financement qu'un scientifique obtient doit dépendre de ses propres réalisations antérieures, bien que la recherche soit souvent un effort communautaire. Pour rendre visible cette préoccupation, de nombreux chercheurs ont choisi d'ajouter Noûs comme co-auteur. Les revues et les pairs évaluateurs chargés de vérifier ces articles n'étaient cependant pas toujours informés que Noûs n'est pas une vraie personne.

Bien que la partie recherche de tous ces articles semble jusqu'à présent légitime, il est préoccupant que l'on puisse si facilement ajouter un co-auteur qui n'a même pas de carte d'identité. Bien que mettre en évidence les efforts communs avec des auteurs comme Noûs soit un objectif honorable, l'idée que les scientifiques puissent être inventés à partir de rien de nos jours est assez alarmante. Mettre en évidence les défauts du système d'évaluation par les pairs et du milieu universitaire n'est cependant pas le seul endroit où ce problème se manifeste. Surtout dans les articles sur l'IA, les cas de faux co-auteurs se sont multipliés. Cette tromperie comprend la pratique consistant à ajouter un scientifique de haut niveau en tant que co-auteur à son insu ou sans son consentement. Une autre façon de procéder est d'ajouter un co-auteur fictif, un peu comme Camille Noûs, mais dans le but de simuler une collaboration internationale ou un discours scientifique plus large.

En plus de donner l'illusion d'une collaboration internationale, l'ajout de faux auteurs aux références respectables peut contribuer à la crédibilité d'un article. De nombreux scientifiques recherchent sur Google les noms de tous les auteurs avant de lire un article ou de le citer dans leur travail. Mais voir un co-auteur d'une institution prestigieuse peut les pousser à examiner de plus près un article, surtout s'il n'a pas encore été évalué par des pairs. Le prestige d'une institution peut alors fonctionner comme un proxy de crédibilité jusqu'à ce que l'examen par les pairs, qui peut prendre plusieurs mois, soit terminé.

On ne sait pas combien de faux auteurs ont été ajoutés à ce jour. D'une part, certains scientifiques peuvent choisir d'ignorer le fait que leur nom figure sur un article qu'ils n'ont pas écrit, d'autant plus que le contenu des articles en question n'est souvent pas terrible (mais pas génial) et que des poursuites judiciaires peuvent aussi être engagées. coûteux et chronophage. De plus, il n'existe actuellement aucune méthode standard pour vérifier l'identité d'un scientifique avant de publier un article. Cela donne aux faux auteurs un laissez-passer gratuit.

Tous ces problèmes montrent la nécessité d'un certain type de processus de vérification d'identité. Rien de formel n'est actuellement en place, et c'est bien dommage. À une époque où chaque banque peut vérifier votre identité en ligne et la faire correspondre avec le visage de votre webcam, la science ne peut même pas protéger ses contributeurs les plus précieux des escrocs.

Les algorithmes produisent de mauvais articles
En 1994, le physicien Alan Sokal a eu envie d'écrire un faux article sur un sujet lié aux sciences humaines et de le soumettre à un journal. Cela a été accepté, même si personne, y compris l'auteur lui-même, n'a compris ce qu'il disait. Non seulement c'est ridicule, mais cela montre aussi à quel point les évaluateurs paresseux peuvent devenir paresseux. Dans ce cas, ils ont littéralement accepté ce qui était essentiellement un article de charabia.

Dans le même esprit, en 2005, un trio d'étudiants en informatique a décidé de développer SCIgen comme une farce sur le monde de la recherche. Ce programme produit des articles complètement absurdes avec des graphiques, des chiffres et des citations, parsemés de nombreux mots à la mode de l'informatique. Un de leurs papiers charabia a été accepté pour une conférence à l'époque. De plus, en 2013, 120 articles ont été rétractés par divers éditeurs après avoir découvert que SCIgen les avait écrits. En 2015, le site enregistrait encore 600 000 pages visitées par an.

Malheureusement, les faux papiers ne sont pas seulement générés comme des farces. Des entreprises entières gagnent de l'argent en écrivant des articles de charabia et en les soumettant à des revues prédatrices qui ne rejettent pratiquement rien parce qu'elles facturent des frais de publication. Ces entreprises, également appelées papeteries, deviennent de plus en plus sophistiquées dans leurs méthodes. Bien que la détection des fraudes s'améliore également, les experts craignent légitimement que ces acteurs sans scrupules, ayant perfectionné leur art en ciblant des revues de mauvaise qualité, essaient d'en submerger les vraies. Cela pourrait conduire à une course aux armements entre les papeteries et les revues qui ne veulent pas publier de faux travaux.

Bien sûr, il y a une autre question à l'horizon : combien de temps encore les humains seront-ils les seuls à rédiger des articles de recherche ? Se pourrait-il que dans 10 ou 20 ans, des algorithmes basés sur l'IA soient capables de passer automatiquement au crible des pans de la littérature et de mettre leurs conclusions dans un nouvel article qui atteint les plus hauts standards de recherche ? Comment allons-nous donner du crédit à ces algorithmes ou à leurs créateurs ?

Aujourd'hui, cependant, nous sommes confrontés à une question bien plus idiote : comment pouvons-nous identifier les articles qui ont été écrits par des algorithmes relativement peu sophistiqués et qui ne produisent aucun contenu sensible ? Et comment les traitons-nous ? Mis à part les efforts bénévoles et le fait de forcer les auteurs frauduleux à retirer leurs articles, la communauté scientifique a étonnamment peu de réponses à cette question.

Agir contre la fausse science


La plupart des revues ayant une bonne réputation à perdre ont au moins un processus de vérification de base par e-mail pour les chercheurs souhaitant soumettre un article. Voici, par exemple, le système de vérification de la revue Science. Malgré cela, configurer une fausse adresse e-mail et suivre le processus avec elle est assez facile. Ce type de fraude se produit encore beaucoup, comme l'illustre le grand nombre d'articles qui sont retirés même de revues prestigieuses chaque année. Nous avons donc besoin de systèmes plus solides.

Une bonne approche pour vérifier l'identité d'un scientifique est ORCID. Fondamentalement, grâce à ce système, chaque chercheur peut obtenir un identifiant unique, qui est ensuite automatiquement lié à ses antécédents. L'utilisation d'ORCID tout au long des processus d'examen par les pairs et de publication d'une revue rendrait beaucoup plus difficile la création d'une fausse identité ou l'utilisation des informations d'identification d'autres chercheurs à leur insu ou sans leur consentement. Bien qu'il s'agisse d'une très bonne initiative, aucune revue majeure n'a encore rendu les identifiants d'ORCID ou d'ailleurs obligatoires pour tous les auteurs. C'est dommage, à mon avis, et quelque chose qui pourrait être corrigé assez facilement.

Enfin, l'IA pourrait être elle-même utile dans cette lutte. Certaines revues déploient des modèles d'IA pour détecter les fausses contributions. Pour l'instant, cependant, les revues n'ont pas réussi à s'entendre sur une norme commune. En conséquence, les revues qui manquent de ressources ou d'expertise ne peuvent pas appliquer les mêmes mesures de qualité que les publications de rang supérieur.

Cela élargit l'écart perçu entre les revues de haut niveau et de bas niveau et est, pour moi, la preuve claire que les revues à tous les niveaux devraient se réunir et trouver un moyen de partager les ressources pour la détection de la fraude. Bien entendu, les revues de haut niveau pourraient profiter du manque de concurrence à court terme. À long terme, cependant, le fait d'avoir plus de revues avec des normes faibles pourrait réduire la confiance dans l'édition scientifique dans son ensemble.

Ce n'est pas que les chercheurs et les revues scientifiques restent assis sur leur cul paresseux au lieu de traquer les auteurs frauduleux. Des publications individuelles font, en fait, un loto pour traquer les faux papiers. Mais si certaines revues ont les moyens et d'autres pas, les publications ne fonctionnent pas sur un pied d'égalité. De plus, les escrocs pourront toujours cibler certaines revues sous-financées avec leurs faux papiers. Les revues doivent agir collectivement pour trouver un moyen de traquer les usines de papier et de vérifier l'identité de tous leurs auteurs.

Au-delà de la science : les fake news deviennent de plus en plus fausses
Si vous pensez que le faux contenu est un problème limité à la science, vous vous trompez. Il y a seulement quelques années, au plus fort de l'ère Trump, les « fausses nouvelles » étaient le mot à la mode de la saison. Les méthodes pour générer du contenu pour influencer l'opinion publique n'ont fait que devenir plus sophistiquées depuis lors, et elles sont très similaires à celles des faux articles scientifiques.

Par exemple, de faux journalistes étaient les auteurs apparents d'éditoriaux dans divers médias conservateurs. Leurs tirs à la tête ont été générés avec des algorithmes d'IA. Leurs comptes LinkedIn et Twitter sont entièrement faux, et on ne sait toujours pas qui est vraiment derrière ces articles.

Il existe également plusieurs générateurs d'articles de fausses nouvelles qui facilitent la création de faux titres. Bien que vous ne puissiez peut-être pas convaincre un vérificateur de faits expérimenté avec un tel contenu, vous pourriez être en mesure d'impressionner suffisamment l'utilisateur moyen de Facebook pour le convaincre de partager l'article.

C'est pourquoi j'ai moi-même tendance à ne faire confiance qu'aux nouvelles et à la science provenant de sources établies, ou à un contenu que je peux vérifier suffisamment pour déterminer que c'est vrai. J'ignore totalement les autres sources parce que je sais que la plupart d'entre elles vont de « un peu fausses » à « totalement inventées ».

Je n'avais pas cette attitude il y a quelques années. Les gens autour de moi non plus. La confiance dans les nouvelles s'est considérablement érodée et je n'ai aucune idée de comment nous pourrons la restaurer. Maintenant, ce qui se passe déjà avec les nouvelles se passe avec la science. C’est déjà assez grave pour qu’il soit difficile de découvrir la vérité sur ce qui se passe dans le monde. Mais si les fondements mêmes de la connaissance humaine s'érodent, ce serait un désastre encore plus grand.

Si le débat autour des fake news s'est éteint depuis les élections de 2020, il est loin d'être clos. Étant donné que les outils de falsification de contenu deviennent de plus en plus sophistiqués, je pense que la conversation sera de plus en plus alimentée dans les années à venir. Espérons que d'ici là, nous aurons atteint un consensus sur la façon de lutter contre les faux contenus et les fausses recherches également.

Le Club est l'espace de libre expression des abonnés de Mediapart. Ses contenus n'engagent pas la rédaction.