Doctorant : travailleurs de l'IA et protection des données

Abonné·e de Mediapart

15 Billets

0 Édition

Billet de blog 10 février 2024

Thomas Le Bonniec

Doctorant : travailleurs de l'IA et protection des données

Abonné·e de Mediapart

Dégénérescence numérique du journalisme

Les Intelligences Artificielles de génération de texte servent de prétexte à la précarisation et au déplacement du travail : c’est le cas du journalisme. Mais aussi d'autres secteurs. Et pour les travailleurs d’Onclusive, c’est une lutte déjà en cours. Rendez-vous Jeudi 15 février à la Grange aux Belles pour un cycle sur le syndicalisme et l’IA organisé par Solidaires et le SNJ.

Signalez ce contenu à notre équipe

Thomas Le Bonniec

Doctorant : travailleurs de l'IA et protection des données

Abonné·e de Mediapart

Ce blog est personnel, la rédaction n’est pas à l’origine de ses contenus.

Rendez-vous Jeudi 15 février à la Grange aux Belles pour un cycle sur le syndicalisme et l’IA organisé par Solidaires et le SNJ.

Le grand déplacement du travail

Il y a deux ans, j’ouvrais ce blog sur Médiapart avec une chronique intitulée "Infowashing, la manufacture numérique du consentement". J’y exprimais l’idée d’un processus d’intrication progressive entre les industries de production médiatique et celles du numérique. En voici deux paragraphes:

Souhaitant changer la perception sur leur responsabilité en tant que convoyeurs de propagande, Google et Facebook s’associent aux médias de masse pour produire un contenu à faible teneur en travail journalistique, qui permet aux premiers d’augmenter leur trafic et leur revenu, et aux seconds de s’asseoir légitimement à la table des médiateurs de l’information.(...)
En somme, c’est une opération classique de ré-étiquetage. On connaît le greenwashing et le pinkwashing : voici venu l’infowashing, quand les plateformes responsables du système de désinformation que nous connaissons font le ménage avec l’aide des meilleurs fact-checkers.

Nous sommes probablement en train de changer d’ "ère médiatique". Google News ne se contente plus de passer des accords avec l’industrie de la presse classique pour (re)produire des contenus des mauvaise qualité : les outils d’ "Intelligence Artificielle" générant du texte ont rebattu les cartes.

Mais il faut se méfier de la notion selon laquelle cette "nouvelle vague d’automation" va "grand-remplacer" le travail avec des IAs. En réalité, elle le déplace. Le métier de journaliste est en train de disparaître. Il est déjà en partie remplacé par ceux de publi-rédacteur, "opérateur de SEO" (Search Engine Optimization, production de mots-clés pour apparaître plus haut dans les moteurs de recherche), ou rédacteur web en freelance.

La prochaine étape de ce déplacement, qui se produit en ce moment même, consiste en la tâcheronnisation, l’externalisation et la délocalisation de tâches liées à l’entraînement des IA de génération de texte. Dans un entretien à la revue Soziopolis, paru le 24 janvier, intitu lé "Plus l’expansion de l’intelligence artificielle progresse, plus le besoin de travail humain devient grand" , le sociologue Antonio Casili (qui est aussi mon directeur de recherche) expliquait :

Le chatbot a été lancé fin novembre 2022 et le public a appris en janvier 2023 que la machine reposait toujours sur le recours à de nombreuses personnes qui continuent de la former et de la modérer. Dans le cas présent, ces personnes sont basées au Kenya et ont été recrutées via la plateforme SAMA, très connue dans le secteur.
Mais ces personnes ne sont qu’un des nombreux contingents de formateurs, d’examinateurs et, qui sait, peut-être d’imitateurs qui font fonctionner ChatGPT. Des documents internes de la société de développement OpenAI ont révélé que des personnes en Afrique du Sud, aux Philippines, en Inde, en Turquie et aux États-Unis étaient également utilisées pour ce type de travail. OpenAI a donc recruté des microtravailleurs partout dans le monde via diverses plateformes.¹

Ce sont des millions de tâcherons dont le travail agrégé permet d’entraîner - et de corriger - ces IAs de génération de texte, utilisées aujourd’hui pour plagier le travail authentique des rédactions.

Ecriture automatique

Les IAs de génération textuelles sont principalement le résultat d’une appropriation des écrits publiés, puis collectés (scraped) sur internet, mais aussi de bases de données contenant des livres, sans que leurs ayants droits le sachent.

C’est pourquoi plusieurs milliers d’auteurs accusent OpenAI de les avoir spoliés à des fins commerciales, sans les créditer ni les rétribuer, au mépris de tout droit de la propriété intellectuelle : ils sont quinze mille à avoir signé une lettre ouverte, publiée en juillet 2023 par la Guilde des Auteurs aux États-Unis (Authors Guild).

OpenAI a d’ailleurs reconnu en janvier devant le parlement britannique qu’il lui était impossible d’entraîner ses systèmes d'IA sans utiliser de contenu protégé par le droit d’auteur. Le journal britannique The Telegraph publie le 7 janvier dernier un article citant l’argumentaire de l’entreprise :

Dans un document présenté à la commission des communications et du numérique de la Chambre des Lords, OpenAI a déclaré : "parce que le copyright protège aujourd’hui virtuellement toutes sortes d’expressions humaines - y compris les posts de blog, les photographies, les posts dans les forums, les bouts de code de programme informatique, et les documents publics - il serait impossible d’entraîner les modèles de pointe d’IA contemporains sans utiliser des matériaux sous droit d’auteur."(…)

OpenAI affirme être en conformité avec toutes les lois relatives au droit d’auteurs lors de l’entraînement de ses modèles, et dit "croire que le droit d’auteur n’interdit pas l’entraînement" [de systèmes d'IA]

En décembre dernier, le New York Times à son tour portait plainte contre OpenAI et Microsoft, les producteurs de ChatGPT. La plainte met en évidence plusieurs dizaines d’exemples où, lorsque la requête formulée était le copié-collé du début d’un article, GPT-4 en reproduisait la suite à l’identique ou presque. Dans l’éditorial annonçant la nouvelle, le 27 décembre 2023, la rédaction écrivait :

La plainte, déposée auprès du district fédéral de Manhattan, affirme que des millions d’articles publiés par le Times ont été utilisés par des chatbots qui sont désormais en concurrence avec les médias en tant que sources fiables d’information.
La plainte n’inclut pas une demande de compensation chiffrée. Mais elle affirme que les accusés devraient être tenus pour responsables des "milliards de dollars de dommages réels et statutaires" liés à "la collecte et l’utilisation illégales des productions du Times dont la valeur est unique." Elle appelle également les entreprises à détruire tout modèle de robot conversationnel utilisant des données du Times protégées par le droit d’auteur.

C’est effectivement du plagiat à très (très) grande échelle. Mais les grandes entreprises du secteur, productrices de robots conversationnels (Google, Microsoft, Meta, et d’autres moins connues), ne sont pas les seules en cause. Car ces outils sont désormais répandus et permettent à toutes sortes d’acteurs intermédiaires de procéder également au vol du travail d’enquête et d’écriture journalistique. La rédaction du média 404 publie ainsi en janvier un article où elle explique :

En décembre, nous nous sommes aperçus que des articles, auxquels nous consacrions un temps considérable - du reportage qui prenait des semaines ou des mois de recherche, à parler à des sources et à les protéger, à déposer des demandes d’accès à des documents publics, à payer pour ces documents et à les analyser, des heures ou des jours d’écriture, d’édition et de mise en forme - étaient récupérés ("scraped") par des robots, moulinés par une IA de reformulation ou de paraphrase d’articles ("spinner") et republiés sur des sites inconnus.

Et ce procédé est en train de contaminer les canaux numériques de partage d’information - que j’avais qualifiés d’ "incontrôlés" par opposition aux médias "classiques". Thibault Prévost écrit ainsi dans une chronique pour Arrêt sur Images, datée du 28 janvier 2024 :

Google News est plein d’articles générés par IA, et ce ne serait que le début du processus de generative inbreeding – les logiciels d’IA entraînés sur du contenu générés par d’autres IA –, qui devrait aboutir à la destruction totale de la culture humaine. Même un truc aussi fondamental que le moteur de recherche Google s’est dégradé, irrémédiablement infecté par du contenu publicitaire.

Le vol d’articles et de contenu journalistique s’accompagne donc d’une dégradation régulière de la qualité des textes produits par des rédactions peu regardantes. Qu’elles fassent ouvertement appel à l’IA ou non, leur évolution va dans le sens de la précarisation du métier de journaliste, transformé progressivement en "tapeur de mots". Dans une interview publiée le 29 décembre 2023 par le journaliste canadien Paris Marx, John Lopez, scénariste et membre de la Writer’s Guild of America (Guilde des écrivains des États-Unis), raconte le combat contre les studios de production audiovisuelle qui souhaitaient faire écrire des scripts à des IA :

"Notre principale inquiétude était que cela servirait de matraque pour ôter du travail ou du revenu aux gens. [...]
La deuxième était cette notion de moins payer un écrivain pour la même quantité de travail, mais en se servant des résultats de l’IA générative comme excuse pour procéder ainsi. Ils pourraient dire ‘Ah mais votre boulot est tellement plus facile maintenant que ce truc peut produire du texte à un rythme qu’aucun humain n’atteindrait jamais’. J’ai l’habitude de le dire, l’acte d’écriture, ce n’est pas taper des mots. Si c’était taper des mots, ça serait facile. L’acte d’écriture, c’est penser à ce que vous avez à dire, comment vous voulez le dire et comment le dire de la manière la plus dramatiquement efficace quand il s’agit de scénarios.

Espionnage de masse, captation de la valeur

Tous les contenus écrits sur internet ont servi à générer ces IA. Mais puisqu’il est possible d’aller plus loin, Google (et Apple) ne comptent pas s’en priver. Dans un article publié le 28 janvier 2024, le magazine Forbes annon çait :

Google va déployer Bard dans les Messages. Une interface prête à l’emploi similaire à ChatGPT pour une base toute prête de plusieurs centaines de millions d’utilisateurs. "C’est un assistant d’IA " explique le chat de Bard lorsque la question lui est posée, "qui peut améliorer votre expérience de messagerie… de la facilitation de la communication à l’accroissement de la créativité et au pourvoi d’informations… Ce sera votre assistant personnel d’IA dans votre application de messagerie. "
Mais le chat de Bard reconnaît également qu’il pourra demander à analyser vos messages pour "comprendre le contexte de vos conversations, votre ton et vos intérêts". Il pourra analyser le sentiment des messages "pour personnaliser ses réponses à votre humeur". Et " analyser votre historique de messagerie pour comprendre la dynamique de vos relations… afin de personnaliser les réponses en fonction de la personne à laquelle vous parlez."

Les IA génératives, telles qu’elles fonctionnent aujourd’hui, sont le résultat de la disparition totale du droit à la protection des données et à la vie privée. Elles régurgitent en retour des textes mal digérés et mal rédigés à partir de travail exproprié.

Les contenus de bonne qualité, travaillés, avec la reconnaissance professionnelle associée au métier de journaliste (par exemple), ne seront finalement plus rémunérés. Le journalisme va rejoindre alors la cohorte des secteurs économiques où l’activité réelle de production est dévaluée, précarisée, ou tâcheronnisée en utilisant comme prétexte l’arrivée de nouveaux outils techniques.

Les textes dégorgés par une IA sont par conséquent des versions dégénérées du travail de production de connaissance et d’information. Le média 404 annonce alors le déchirement du monde médiatique entre deux pôles : celui des "grands standards" de la production journalistique incarné par le New York Times, étendard solitaire de l’ "excellence" journalistique, et tous les autres médias indépendants condamnés à des existences éphémères en barbotant dans la précarité. En guise de solution, dans le même article cité plus haut (26 janvier 2024), 404 propose l’envoi de newsletters directement par mail :

Sachez que les journaux font faillite au rythme de deux par semaine, presque tous nos amis ont été licenciés à un moment donné ces dernières années, qu’il y a très peu d’emplois de journaliste encore disponibles dans ce pays [NDLA les États-Unis], et que nombre d’entre eux sont au New York Times, qui est un très bon journal mais qui devient progressivement et de manière écrasante le média dominant, et qui ne pourra produire nombre de papiers que nous publions.

Nous refusons de rester les bras croisés et de laisser des IAs racler et reconditionner notre travail, ou de voir des cadres incompétents de l’industrie médiatique conduire les entreprises pour lesquelles nous avons travaillé à la faillite, et nous essayons de trouver un équilibre nous permettant de monétiser notre travail d’une manière qui ne soit pas préjudiciable tout en générant suffisamment de revenus pour poursuivre le travail que nous faisons.

Une lutte syndicale à venir

En tant qu’outils de captation de valeur, les IAs génératives de texte et d'image sont extraordinairement puissantes. Leur avènement fait largement gloser pour leur capacité à générer massivement de la propagande et de la désinformation. Pourtant, les entreprises de manipulation à très grande échelle n’ont pas attendu ce tournant : dès l’élection étatsunienne de 2016, il était connu que des services d’espionnage russe avaient instrumentalisé Facebook pour manipuler les utilisateurs de la plateforme.

Ces IAs créent donc un risque social et politique important, non pas tant du point de vue de la multiplication des "fake news" (il y en avait avant, il continuera à y en avoir), mais parce que les autres sources de connaissance publique risquent de se tarir, faute de pouvoir exister économiquement.

La guilde des écrivains des Etats-Unis fournit un contre-exemple de ce qui peut être fait afin d’éviter l’ "emmerdification" ² totale du numérique : faire reconnaître le travail et combattre collectivement l’arrivée de ces outils lorsqu’ils servent à virer des salariés au profit d’une production de moindre qualité.

Car la question se pose sur le plan de la lutte du travail et du partage de la valeur bien au-delà du journalisme et de l’écriture créative. Il y a un exemple concret en France en ce moment même. Il s’agit des salariés d’Onclusive.

La direction de l’entreprise a déclaré fin 2023 vouloir remplacer 60% des effectifs par des IA. Les travailleurs menacés de remplacement effectuent un travail de veille médiatique et stratégique pour les clients d’Onclusive. Eux aussi voient leurs métiers dévalués, non reconnus, et comme les journalistes ou les scénaristes, leur travail n’est pas tant remplacé par des machines que dégradé et déplacé.

Une réunion publique, à l’initiative de Solidaires est organisée à Paris ce Jeudi 15 février à l'Union Solidaires,(31, rue de la Grange aux Belles, 75010) de 18h30 à 21h. Il y sera question de syndicalisme, de travail, et... d’Intelligences Artificielles. J’espère vous y voir.

L'Union Solidaires, 15 février 2024, "Les Temps Artificiels", Solidaires, SNJ, Solidaires Onclusive © "Les Temps Artificiels", Solidaires, SNJ, Solidaires Onclusive

L'Union Solidaires, 15 février 2024, "Les Temps Artificiels", Solidaires, SNJ, Solidaires Onclusive © Solidaires, SNJ, Solidaires Onclusive

1Traduit automatiquement de l’allemand via Google Trad.

2Thibault Prévost, dans ASI, 28 janvier 2024 : « L'emmerdification (enshittification) du Web est un concept, formulé en version beta fin 2022 par l'infatigable technocritique Cory Doctorow, qui n'a depuis cessé de le polir. Dans sa version la plus concise, datée de janvier 2023, le principe d'emmerdification postule que "premièrement, [les plateformes] séduisent leurs utilisateurs ; ensuite, elles les exploitent au profit de leurs clients ; pour finir, elles exploitent leurs clients pour récupérer toute la valeur produite. Enfin, elles meurent." »

Ce blog est personnel, la rédaction n’est pas à l’origine de ses contenus.

2 commentaires

Gauche(s) — Analyse

Laisser vivre ou censurer : le PS tient l’avenir de Sébastien Lecornu entre ses mains

Après que les groupes de gauche et l’extrême droite ont annoncé leur intention de censurer le second gouvernement Lecornu, c’est en direction du Parti socialiste que se tournent les regards. Le parti dément tout « deal » avec le pouvoir exécutif mais repousse sa décision à la semaine prochaine. Une vingtaine de voix suffiraient à renverser le premier ministre.

par Sarah Benhaïda, Mathieu Dejean et Mathias Thépot
Élysée et gouvernement — Parti pris

Ce mépris venu de l’Élysée

La reconduction de Sébastien Lecornu à Matignon, cinq jours après sa démission, est stupéfiante parce qu’insensée. Le président de la République a définitivement renoncé à aligner ses décisions sur les aspirations populaires. Seule compte à présent la conservation du pouvoir.

par Ilyes Ramdani
Europe

Comment les drones russes ciblent civils, humanitaires et journalistes

Avec la multiplication des drones et l’élargissement de la zone où ils opèrent, il est de plus en plus difficile et risqué de s’approcher du front. Alors que le droit international est censé protéger le personnel humanitaire, la presse et les populations civiles.

par Clara Marchaud
Extrême droite

Le média Frontières fait appel aux services de la « GUD connection »

Prestataire de communication privilégié du Rassemblement national, la société e-Politic a notamment conçu le studio vidéo du média d’extrême droite. Dirigée par l’ancien numéro deux du Front national de la jeunesse, elle accompagne aussi Radio Courtoisie.

par Alexandre Berteau

Billet de blog

Des associations sous contrôle, la démocratie en danger

Les associations sont le ciment social de la société et leur rôle de contre-pouvoir démocratique doit être affermi et non démantelé.

par Nathalie Tehio présidente LDH
Billet de blog

« Ça ne tient plus ! » - Lettre ouverte des associations d'Aveyron et du Lot

À l'occasion de l'appel à mobilisation du milieu associatif « Ça ne tient plus ! », le 11 octobre, de nombreuses associations d'Aveyron et du Lot ont signé cette lettre ouverte pour souligner les difficultés du monde associatif et illustrer ce que serait une société sans les services qu'elles portent.

par Les invités de Mediapart
Billet de blog

Pour des villes garantes et protectrices des libertés associatives

À l’occasion de la mobilisation nationale « Ça ne tient plus » en défense des associations ce samedi 11 octobre, un large ensemble de maires, candidat·es et élu·es locaux écologistes, notamment Stéphane Baly, Grégory Doucet, Jeanne Barseghian et Léonore Moncond’huy appelle à défendre les associations en leur donnant les moyens d’agir. « La démocratie ne se résume pas qu’aux urnes, mais aussi à la vivacité des liens associatifs existant dans la société ».

par Maires, candidat·es et élu·es locaux écologistes
Billet de blog

L’argent de la riposte démocratique. Financer les contre-pouvoirs citoyens

L'époque est marquée par une remise en cause inquiétante des libertés associatives, passant notamment par les financements publics. Plus que jamais, des moyens doivent être trouvés pour financer les organisations citoyennes afin de leur redonner du temps et de la légitimité. Pour cela, il faudra mobiliser la philanthropie mais aussi réinventer des modes de financement « par le bas ».

par Thomas Chevallier