« ChatGPT casse le cerveau », « détruit nos facultés mentales », « rend l’intelligence paresseuse »... Que n’a-t-on lu ces derniers jours sous la plume de commentateurs alarmés, voire extatiques dans leur propre sidération.
Une étude pré-publiée à la mi-juin par le prestigieux Massachusetts Institute of Technology (MIT), avance que l’usage de ChatGPT dans l’élaboration de textes induirait une forme de « dette cognitive » — expression désignant un affaiblissement de l’engagement cérébral, une appropriation plus superficielle des idées, et une performance dégradée dès lors que l’assistance de l’IA disparaît subitement. Il n’en fallait pas davantage pour que nombre de journalistes et commentateurs y voient la preuve que l’intelligence artificielle appauvrirait nos facultés mentales. Mais cette conclusion, si prompte qu’elle soit, mérite d’être interrogée. Car à ce jour, nulle démonstration rigoureuse ne permet d’affirmer que l’usage de l’IA entraîne une atrophie durable de la cognition humaine. Les corrélations observées ne suffisent pas à fonder un verdict.
L’étude du MIT, aussi stimulante soit-elle, trahit certaines lacunes méthodologiques et une compréhension partielle des dynamiques cognitives à l’œuvre. Elle se réclame d’un protocole rigoureux : électroencéphalographie, dispositif expérimental contrôlé, analyse fine des productions langagières, entretiens qualitatifs en appui. Mais à l’examen, un décalage manifeste apparaît entre la qualité, certes réelle, des données collectées, et l’ambition des conclusions qui en sont tirées. Comme souvent, le sérieux de la méthode ne suffit pas à garantir la justesse de l’interprétation, surtout lorsqu’elle prétend trancher, avec autorité, des débats aussi complexes que ceux touchant à la plasticité cognitive ou à l’intelligence instrumentée.
L’expérience elle-même mérite d’être résumée : pendant quatre mois, 54 adultes ont été invités à rédiger une série de trois essais à l’aide soit de ChatGPT, soit d’un moteur de recherche classique, soit de leurs seules capacités mentales. L’activité cérébrale des participants a été mesurée par électroencéphalographie, et leurs productions soumises à une analyse linguistique. Dans une quatrième session, les rôles ont été inversés. Ceux qui avaient utilisé l’IA devaient désormais se passer d’assistance, tandis que les autres découvraient l’outil. Résultat : les anciens utilisateurs de ChatGPT se sont montrés moins performants dans cette dernière phase, ce que les chercheurs interprètent comme un signe d’endettement cognitif, conséquence directe de leur « paresse mentale » antérieure.
Le récit proposé par l’étude est, à première vue, séduisant. Il épouse l’intuition dominante selon laquelle toute délégation cognitive affaiblirait notre esprit. Mais un problème de taille subsiste : la réalité expérimentale, elle, pourrait s’avérer un peu plus nuancée. Le groupe « cerveau seul », au moment de la quatrième session, avait déjà réalisé trois exercices analogues sans aucune assistance. Il avait donc eu le temps d’explorer la tâche, d’en assimiler les contraintes, et de renforcer, par la répétition, ses schémas cognitifs. À l’inverse, le groupe assisté par ChatGPT entrait pour la première fois dans la tâche sans le soutien de l’IA : un changement soudain de condition, impliquant une désadaptation temporaire plus qu’un déficit. Que ce groupe ait présenté un moindre engagement cérébral et une performance amoindrie n’a donc rien de surprenant ; c’est même ce que l’on attendrait classiquement en vertu de l’« effet de familiarisation », un phénomène bien documenté en neurosciences, qui décrit la progression de la performance cognitive à mesure que l’individu se familiarise avec une tâche donnée. Or, c’est précisément cette variation attendue que les auteurs interprètent comme une preuve de l’impact négatif de l’IA. Une telle confusion entre effet d’apprentissage et effet causal est plus qu’une maladresse ; c’est une erreur méthodologique majeure. Et comme l’a justement relevé un article du média The Conversation, la conclusion avancée par l’équipe du MIT apparaît pour le moins précipitée.
Il faut d’ailleurs s’étonner d’un autre choix, rarement discuté : celui d’avoir assigné exactement le même sujet aux participants, qu’ils disposent de ChatGPT ou non. Cette symétrie apparente pourrait en réalité traduire un biais profond. Car si l’on veut mesurer l’effet d’un outil, encore faut-il que la tâche confiée soit adaptée à sa puissance. On n’évalue pas la pertinence d’un microscope en lui demandant de lire un journal ; de même, on ne mesure pas la valeur ajoutée d’une intelligence artificielle sur un exercice que l’intelligence humaine peut aisément résoudre seule. L’histoire pédagogique offre à cet égard un précédent éclairant : l’introduction massive de la calculette n’a pas conduit à abaisser les exigences en mathématiques, mais à les déplacer, en confiant aux élèves des tâches plus complexes et conceptuelles. Rien de tel dans l’expérience du MIT. On a confié au groupe « IA » un exercice calibré pour le raisonnement individuel, puis on s’est étonné qu’il manifeste une forme d’atonie cognitive. Mais peut-être cette « paresse » n’est-elle qu’un effet secondaire du sous-emploi. Un sujet simple pour un outil puissant : voilà qui suffit à désamorcer l’effort, sans qu’il y ait pour autant déclin de la pensée.
Au-delà de cette erreur manifeste de raisonnement, il convient de rappeler un principe central des sciences cognitives, que l’étude du MIT semble ignorer ou traiter avec une légèreté regrettable : l’intensité de l’effort mental, mesurée notamment par les marqueurs de charge cognitive, ne constitue pas en soi un indicateur fiable de l’apprentissage, ni même de la performance. La littérature spécialisée est sans ambiguïté sur ce point : il n’existe aucun lien systématique entre le degré d’activation cognitive observé et la qualité des acquis. Il est même bien établi qu’un individu peut mobiliser un effort mental considérable sans pour autant apprendre efficacement — voire en apprenant moins bien, lorsque cet effort se traduit par une surcharge informationnelle ou une stratégie inefficiente. Des travaux récents menés dans le domaine des mathématiques supérieures ont ainsi mis en évidence l’absence de corrélation significative entre charge cognitive perçue et réussite aux examens. D’autres recherches, portant sur des paradigmes classiques comme le test de Stroop, confirment cette dissociation : une charge mentale élevée peut aussi bien signaler une difficulté inutilement prolongée qu’un traitement en profondeur — sans qu’il soit toujours possible, sur la base de la seule intensité, de distinguer l’un de l’autre.

Agrandissement : Illustration 1

En définitive, l’étude du MIT — et plus encore les articles qui s’en emparent — entretient une confusion entre l’intensité globale de l’effort et la qualité proprement cognitive de l’engagement. Comme si toute activation cérébrale était vertueuse par nature, et toute fluidité suspecte. Il faut pourtant oser l’énoncer clairement : transpirer abondamment, fût-ce du cortex, ne rend pas plus intelligent.