Future directive UE sur le droit d’auteur : chercheurs entre espoirs et inquiétudes

Frédéric Hélein, membre de la Bibliothèques Scientifique Numérique 7 et directeur scientifique du RNBM, analyse l'enjeu pour les chercheurs de la directive européenne sur le droit d’auteur en cours de révision à Bruxelles. Le futur texte aura des conséquences profondes sur la diffusion de la recherche et sur des nouvelles pratiques scientifiques, comme la fouille de textes et de données.

La directive européenne sur le droit d’auteur est en cours de révision à Bruxelles. L’enjeu est de prendre en compte les nouvelles technologies numériques et leur usage par tous les acteurs de la société. Ce sujet touche les écrivains, les artistes, les journalistes, ainsi que les prestataires commerciaux et les institutions publiques avec lesquels ils sont en rapport. Mais il aura aussi un impact sur les libertés dont disposent les « blogueurs », les usagers de Youtube, de Tweeter, etc., et enfin sur les scientifiques. Le futur texte aura ainsi des conséquences profondes sur la diffusion de la recherche et sur des nouvelles pratiques scientifiques, comme la fouille de textes et de données. Bien que le projet actuel de texte confère aux chercheurs le droit de pratiquer la fouille de textes et de données sans entraves et sans frais abusifs supplémentaires, de nombreux dispositions ajoutées dans le texte risquent en réalité d’anéantir ce droit. Les chercheurs se doivent d'agir sans tarder afin d'éviter que n'apparaisse de graves entraves à leur travail.

Les scientifiques furent parmi les premiers à bénéficier des possibilités fabuleuses offertes par internet, pour échanger leurs résultats et pour dénicher en quelques secondes des informations rares et précieuses. Mais beaucoup d’entre eux risquent de se retrouver parmi les plus mal lotis si leurs pratiques et leurs besoins spécifiques ne sont pas pris en compte dans les législations sur le droit d’auteur.

Ce paradoxe s’observe déjà dans le système de publications scientifiques, sur lequel repose la diffusion des résultats, leur évaluation et la constitution d’un corpus de connaissance réutilisable (parfois indéfiniment). Le système actuel est héritier du modèle ancien dans lequel les institutions de recherche avaient besoin des maisons d’édition pour imprimer sur papier et distribuer les revues contenant les articles et les chercheurs disposaient d’exemplaires gratuits de leurs articles qu’ils pouvaient distribuer à leurs collègues. En échange de ces services, les chercheurs ont pris l’habitude de renoncer à tout droit patrimonial et toute rémunération sur leurs écrits, bien qu’en plus, ils se chargent du travail d’évaluation anonyme des articles sans rémunération spécifique et que les comités éditoriaux des revues soient constitués de scientifiques, qui, pour la plupart d’entre eux, effectuent ce travail gracieusement .

A l’ère du numérique, les coûts d’impression ont été remplacés par des coûts de mise en ligne, les coûts de distribution ont quasiment disparu et les chercheurs pourraient se passer des éditeurs pour communiquer sous forme électronique leurs articles à leurs collègues. Restent donc les coûts de mise en ligne, qui représentent une charge importante pour les petites maisons d’édition, mais très faible pour les grosses maisons d’édition, grâce à d’importantes économies d’échelle. Cela n’a pas empêché les éditeurs, surtout les grosses maisons d’édition, d’augmenter régulièrement leurs tarifs d’abonnement électronique, au point qu’aujourd’hui des maisons d’édition comme Elsevier, Springer-Nature ou Wiley réalisent des bénéfices à en faire pâlir de jalousie les banques et l’industrie pharmaceutique. Car la matière première, les articles et leurs validation par la communauté scientifique, demeure gratuite ! De plus, la dématérialisation des articles sous forme électronique permet de multiplier les péages sur l’accès aux documents : payer pour s’abonner cette année, re-payer pour accéder aux archives publiées les années précédentes ou pour lire un article paru il y a trente ans et, maintenant, payer pour que l’article que l’on publie soit accessible gratuitement partout (même si, souvent l’article fait partie d’une revue électronique à laquelle des bibliothèques s’abonnent en payant). A cette liste de péages risquent de s’en ajouter d’autres, sur un territoire encore peu exploré : celui de la fouille de textes et de données (ou TDM, pour Text & Data Mining), dont nous parlerons plus loin.

Cette situation est choquante, mais elle n’en est pas moins légale. A tel point que la Cour de Justice de New-York a récemment attribué 15 millions de dollars à Elsevier en dommages et intérêt pour violation de ses droits d'auteur, à cause des millions d'articles téléchargés illégalement et gratuitement via les plate-formes Sci-hub et LibGen.

On aurait envie de dire que les chercheurs et leurs institutions sont bien bêtes de payer des fortunes pour récupérer des connaissances qu’ils ont produit patiemment et qu'ils fournissent gracieusement. Mais ceux-ci sont pris au piège, car ils ont besoin de publier dans des revues à la renommée bien établie pour obtenir un emploi, une promotion ou un financement pour leur recherche. Or ces revues sont détenues par les maisons d’édition, au sein desquelles dominent littéralement quelques groupes en possession d’une masse énorme de titres sans concurrents. De plus le management actuel de la recherche, de plus en plus fondé sur une évaluation des chercheurs par leurs publications (quand elle ne repose pas sur des indices bibliométriques grossiers et peu fiables) ne fait que renforcer cette dépendance des chercheurs vis à vis des maisons d’édition.

On réalise ainsi que les législations des différents pays sur les droits d'auteur ne répondent pas aux besoins de la recherche. En effet ces législations sont en priorité construites pour répondre soit, aux besoins des auteurs et artistes, qui vivent de leurs œuvres, soit à ceux de la presse.

Un pas important pour adapter la législation française aux besoins de la recherche fut l'adoption de la « Loi pour une République Numérique » en 2016. Un de ses articles (article 30, devenu L533-4 du code de la recherche) permet à un chercheur de diffuser librement la version finale d'un manuscrit accepté pour publication dans une revue, au-delà d'une période démarrant le jour de sa publication et ne dépassant pas 6 mois pour les sciences exactes et 12 mois pour les sciences humaines. Il est ainsi possible de déposer ce texte sur un site internet public de dépôt comme HAL ou arXiv. Néanmoins des efforts doivent être faits pour que ce droit soit pleinement utilisé et permettre ainsi à tous d'accéder gratuitement aux résultats de la recherche.

Venons-en maintenant à la fouille de texte et de données ou TDM. De quoi s'agit-il ? L’informatique permet aujourd'hui d'extraire des informations pertinentes diluées dans des masses colossales de données. Tout utilisateur de Google s'en rend compte quotidiennement. Cette démarche est pratiquée par les chercheurs sur des corpus d'articles et de documents scientifiques, mais aussi sur toutes sortes d’autres sources, comme les blogs, Wikipedia, les forums de discussion, etc. On peut par exemple visualiser sur une carte géographique des informations sur l'occurrence de feux de forêts, de végétaux ou de maladies infectieuses signalées dans une masse de documents et rendre ainsi évidentes certaines répartitions géographiques, qui n'auraient pas pu être décelées autrement. Cette approche ne se substitue pas aux activités de recherche traditionnelles, mais elle ouvre de nouvelles perspectives, comparables à celles offertes par l'invention de la lunette astronomique ou du microscope.

Or, pour que le TDM soit efficace, il faut disposer d'un corpus suffisamment riche et il faut que les institutions de recherche puissent récupérer une copie numérique des textes à fouiller. Il semblerait légitime qu'une institution ayant acquis des contenus scientifiques auprès d'un éditeur bénéficient de ce droit et, ce, d'autant plus qu'il s'agit d'un travail de recherche. Or il n'en est rien pour l'instant. La raison en est que les législations sur le droit d'auteur permettent aux éditeurs de limiter fortement la diffusion et la réutilisation du contenu d'une œuvre dans une autre œuvre. Cela se comprend aisément lorsqu'il s'agit d'œuvres littéraires ou artistiques, mais cela n'a pas de sens lorsqu'il s'agit de recherche scientifique. Cette inadaptation du droit est une bénédiction pour les grands éditeurs, propriétaires de très gros corpus d'articles, car elle empêche les chercheurs de pratiquer eux-mêmes le TDM, les obligeant pour cela à utiliser les outils développés par les éditeurs. C’est une occasion de plus pour les éditeurs de percevoir des droits sur le corpus qu'ils détiennent, auxquels il faudra ajouter la valeur ajoutée correspondant au service de fouille de données, vendu ainsi plus ou moins « de force » par l'éditeur. Outre le surcoût que cela représente pour les institutions de recherche et le fait que cela limite l'usage de ce nouvel outil aux institutions les mieux dotées, cela a aussi pour effet de morceler le corpus – chaque gros éditeur en détenant une portion uniquement – interdisant ainsi un TDM sur la totalité du corpus. Par un effet secondaire, cela interdit aussi l’exploitation d’autres formes de corpus.

Le droit doit donc être adapté, par exemple en prévoyant une exception à la protection de certains droits d'auteur, lorsque cela concerne la fouille de textes ou de données, en vertu de l’adage « the right to read is the right to mine ». L'article 38 de la « Loi pour une République Numérique » (devenu article L342-3 du code de la recherche) rend cela théoriquement possible, mais, en l'absence de décret d'application, il reste malheureusement pour l'instant inopérant, probablement faute de volonté politique, le motif invoqué étant que le cas n'est pas prévu dans la directive européenne sur le droit d'auteur. Or c'est cette directive qui est révisée actuellement à Bruxelles.

Le projet actuel de cette directive contient des avancées pour la recherche, notamment pour le TDM, mais certaines dispositions pourraient réduire à néant ces avancées :

– l’Article 3 introduit une exception au droit d’auteur nécessaire à la pratique du TDM par les institutions de recherche. Mais il autorise les « titulaires des droits » (en l’occurrence les éditeurs) à appliquer des « mesures destinées à assurer la sécurité et l’intégrité des réseaux et bases de données où les œuvres ou autres objets protégés sont hébergés ». Le grand flou qui entoure ces « mesures » confère une grande latitude aux éditeurs pour imposer des restrictions de toute sorte sur l’usage des données et ainsi limiter sérieusement les possibilités de TDM gratuit. Pour le dissiper, les droits essentiels des institutions de recherche devraient être précisés (notamment la possibilité de garder une copie des documents fouillés par l’institution, indispensable à la reproductibilité de toute expérience).

– l’Article 11 renforce considérablement les droits d’auteur des publications de la presse, leur permettant par exemple de refuser la diffusion publique de leur propriété intellectuelle. Cela devrait avoir une incidence négative sur le travail des chercheurs, en particulier en sciences humaines.Cet article devrait donc être l'objet d'une exception et ne pas s’appliquer à la recherche. Mais le pire pourrait venir de l’amendement 17 déposé par la commission ITRE-Industrie, Recherche et Energie qui propose d’étendre les dispositions de l’Article 11 aux publications scientifiques, totalement catastrophique pour la recherche !

– l’Article 12 pourrait, suivant ses traductions juridiques, autoriser un éditeur à revendiquer des droits supplémentaires pour toute utilisation de l’œuvre faite en vertu d’une exception au droit d’auteur, en l’occurrence pour ce qui nous intéresse, pour le TDM. Ce droit semble abusif lorsqu’il s’agit de fouille faite par des chercheurs sur des documents issus de la recherche et ne devrait donc pas s'appliquer dans ces cas.

– l’Article 13 concerne les « prestataires de services […] qui stockent et donnent accès à un grand nombre d’œuvres et d’autres objets protégés chargés par leurs utilisateurs ». Cet article rend ces prestataires responsables du respect des droits des auteurs des œuvres qu’ils diffusent. Ceux-ci doivent notamment « avoir recours à des techniques efficaces de reconnaissance des contenus » et « fournir aux titulaires des droits des informations suffisantes sur le fonctionnement et la mise en place des mesures, ainsi que, s’il y a lieu, des comptes rendus réguliers ». Cet article semble être une réponse aux problèmes de respect des droits d'auteur posés par des plate-formes comme YouTube ou Google News, ou des réseaux sociaux scientifiques aux finalités ambiguës comme ResearchGate ou Academia. Cependant il ne faudrait pas que cet Article s’applique à des archives de prépublications et d’articles scientifiques comme arXiv ou HAL et, plus généralement, aux plate-formes de blogging académique, comme Hypothèses, au risque de compliquer sérieusement leur fonctionnement. Cela devrait être précisé explicitement dans la directive.

Enfin on pourrait se demander pourquoi le projet de directive européenne ne reprend pas à son compte l'article 30 (ou L533-4) de la loi française permettant la mise en accès libre des contenus des articles publiés au-delà d'un certain délai, conformément aux recommandations Horizon 2020.

Comme on le voit, de nombreux points dans le texte de la directive européenne sont mal adaptés aux besoins de la recherche et risquent de compromettre gravement un des buts de cette directive, qui est de favoriser la recherche et l'innovation. Des propositions d’amendement, comme celui de la Commission ITRE sont aussi potentiellement dangereuses.

La plupart des communautés impliquées par cette directive parviennent à faire entendre leurs voix auprès de la Commission européenne : les auteurs et artistes, la presse et, bien sûr, les lobbys au services des grandes maisons d’édition. Il est capital que la communauté scientifique puisse aussi se faire entendre faire comprendre aux concepteurs de cette directive quelles sont ses contraintes et ses besoins.

Frédéric Hélein, mathématicien, Professeur, Université Paris Diderot,
membre de la Bibliothèques Scientifique Numérique 7, "édition scientifique et publique" et directeur scientifique du Réseau Nationale des Bibliothèques de Mathématiques

L’auteur tient à remercier Francis André (DIST, CNRS), Serge Bauin (DIST, CNRS), et Jean-Pierre Castelli (juriste à l’INRA) pour les informations précieuses qu’ils lui ont fournies.

Le Club est l'espace de libre expression des abonnés de Mediapart. Ses contenus n'engagent pas la rédaction.