Je relais là un texte de Jean-François Bonastre, Professeur des Universités en Informatique à l’Université d’Avignon, spécialiste de la biométrie vocale, Membre de l’Institut Universitaire de France (promotion Junior 2006), Président de l’International Speech Communication Association à propos de l'expertise scientifique en comparaison de voix dans l'affaire Cahuzac. Riches d'enseignement sur l'épistémologie de l'expertise et ses retombées.
Emmanuel ETHIS
Dans l’ « affaire Cahuzac », la publication du résultat d’une expertise scientifique en comparaison de voix par le Procureur de la République du Parquet de Grande Instance de Paris, dans son communiqué de presse du 19 mars 2013, a constitué sans nul doute un événement majeur, voire le moment clé de l’affaire. Le déroulé de celle-ci nous offre un exemple parfait pour poser la question primordiale du bon usage de tels éléments scientifiques par la Justice en général et dans une communication orientée vers le grand public en particulier.
Ce communiqué repose en effet très majoritairement sur « les investigations menées dans le cadre de l’enquête préliminaire » qui « ont fait apparaitre que » :
«… - trois témoins, à qui les enquêteurs ont fait écouter l'enregistrement, ont dit reconnaître la voix de Monsieur Jérôme CAHUZAC et un témoin des "intonations de la voix" ;
- les techniciens du laboratoire de police technique scientifique d'ECULLY requis pour procéder à une comparaison de voix entre celle de l'enregistrement et celle de Monsieur Jérôme CAHUZAC ont conclu dans un rapport remis le 18 mars 2013 :" Sur une échelle de -2 à +4, la puissance de l'indice, c'est à dire de notre comparaison phonétique et automatique se situe à +2. Autrement dit le résultat de notre analyse renforce l'hypothèse que Jérôme CAHUZAC est le locuteur inconnu. »
Ce communiqué fait référence à la reconnaissance « à l’oreille » et la comparaison « automatique » de voix, des éléments relevant d’un domaine scientifique très complexe. Ainsi agencés médiatiquement dans un communiqué, sans être accompagnés des précautions d’usage indispensables, ces éléments scientifiques mèneront probablement à une interprétation incomplète ou erronée. Pour avoir été confronté comme représentant de l’Association Francophone de la Communication Parlée et de la Société Français d’Acoustique à de telles expertises, en tant que spécialiste de la parole et de la reconnaissance du locuteur, il m’apparait essentiel d’analyser ces éléments scientifiques et d’apporter quelques clés de lecture, dans un contexte plus large que les quelques lignes de ce communiqué.
Le premier paragraphe du communiqué fait état d’une comparaison de voix par l’oreille humaine. Ce procédé est dénommé « voice lineup » et doit être mis en place en suivant un protocole identique au « tapissage » employé pour la reconnaissance visuelle d’un suspect par un témoin. Le « tapissage » consiste principalement à présenter au témoin un ensemble de candidats possibles parmi lesquels le suspect a été placé anonymement. En l’occurrence, cette précaution indispensable ne semble pas avoir été respectée. De plus, le « voice lineup » est connu pour ses performances très limitées, proches du hasard, comme le montrent de nombreuses études scientifiques publiées et validées. Dans le cas présent, l’enregistrement en question date de plus de dix ans, ce qui tend à annihiler l’espoir d’une quelconque fiabilité d’un « voice lineup ».
Le deuxième paragraphe présente - sous forme d’un extrait du rapport d’expertise - les conclusions de la police scientifique d’Ecully, basées sur un résultat chiffré unique, non expliqué : « la puissance de l’indice », située « à 2 » sur « une échelle de -2 à +4 ».
Ma connaissance du domaine me permet sans risque d’induire que l’indice utilisé est un rapport de vraisemblance, qui vise à exprimer de combien de fois l’hypothèse que le suspect ait prononcé l’extrait en question est plus probable (ou moins probable) que l’hypothèse inverse, celle où un autre locuteur aurait prononcé cet extrait. Traduit en langage courant, cette « puissance » située « à 2 » signifie qu’il y a environ 100 fois plus de chance pour que ce soit Jérôme Cahuzac qui ait prononcé ce message plutôt que quelqu’un d’autre.
Pour saisir la portée réelle du résultat de cette expertise, il est nécessaire d’exposer un exemple concret… En considérant que le locuteur inconnu est masculin et de langue française, environ trente millions de personnes sont susceptibles d’être ce locuteur inconnu et Jérôme Cahuzac aurait, par défaut, une chance sur 30 millions d’être celui-ci. L’analyse en comparaison de voix présentée dans ce communiqué estime que Jérôme Cahuzac a 100 fois plus de chance d’être le locuteur inconnu par rapport à un individu quelconque et induit alors, dans le contexte de cet exemple, qu’il y a une chance sur 300 000 pour que Jérôme Cahuzac ait prononcé cet extrait. Si ce résultat apparait décevant, il illustre cependant clairement les limites générales d’une expertise scientifique - qui ne porte que sur une pièce donnée du dossier - et les limites spécifiques de l’expertise vocale en question, qui n’offre qu’un ratio de 100 (soit une puissance de 2), à comparer à des facteurs couramment exprimés en milliers de milliards dans le cas des analyses génétiques (soit une puissance de 12).
C’est à ce stade que s’arrête le travail de l’expert. C’est en effet la Justice –et non l’expert- qui prend une décision à partir de l’ensemble des éléments du dossier, dont les expertises scientifiques… et cela en toute connaissance de cause des limites de celles-ci.
La science n’est pas infaillible. Bien au contraire, aucune analyse scientifique n’est exempte de défauts potentiels, provenant du prélèvement des pièces, de leur traitement ou encore d’erreurs humaines. Mais tous les types d’analyses scientifiques ne sont pas égalitaires en termes de risques d’erreur et il est important de revenir plus en profondeur sur le cas, complexe, de la comparaison de voix. Complexe en effet car, contrairement aux empreintes digitales ou génétiques, la voix n’est pas un élément physique stable et mesurable : il n’existe pas d’empreinte dans la voix ! La voix n’est que la conséquence externe de mouvements de l’appareil vocal, résultants de processus physiologiques et cognitifs, plus ou moins contrôlés et contrôlables. Cette complexité s’illustre par un exemple simple : nous sommes totalement incapables de reproduire à l’identique un message vocal donné alors que nous savons agir sur notre voix pour en modifier consciemment l’apparence… La superposition de signaux acoustiques, chère aux séries télévisées et au cinéma, n’est que trucage et illusion !
De plus, le mécanisme d’enregistrement de la parole introduit de nombreuses sources de perturbation liées notamment au bruit ambiant, à la nature du microphone, à son positionnement ou au canal téléphonique. Plus important sans doute, la parole est un élément vivant qui évolue au long de la journée et plus encore au fil des jours : notre voix d’aujourd’hui n’est pas celle d’il y a 10 ans. L’impact négatif de ce phénomène sur la fiabilité des analyses en comparaison de voix est bien connu.
Malgré les progrès permanents de la Science, les chercheurs du domaine considèrent quasi unanimement que les méthodes actuelles de comparaison vocale sont imprécises. Plusieurs associations scientifiques, regroupant des centaines de chercheurs, vont même plus loin en estimant que l’état actuel des connaissances ne permet tout simplement pas d’atteindre le niveau minimal de fiabilité indispensable à un usage de la comparaison de voix dans le contexte judicaire. En tant que scientifique spécialiste de la biométrie vocale, je souscris pleinement à cet avis, tout en appelant à ce que les recherches dans ce domaine se développent pour, un jour, que la Justice puisse exploiter sans crainte - mais avec prudence et discernement - la comparaison de voix
Maintenant que la suite des événements nous permet de nous interroger sur le bien-fondé de l’usage de ces éléments scientifiques dans un communiqué de presse orienté vers le grand public sans interférer avec l’affaire juridique en elle-même, j’invite à relire avec des lunettes véritablement scientifiques le communiqué du Parquet de Paris. Que devons-nous retenir dès lors après cette relecture ? Rien d’autre en réalité que des questionnements et des regrets. Pourquoi avoir employé une analyse scientifique dans un domaine aussi controversé ? Surtout, pourquoi avoir ainsi médiatisé des éléments scientifiques et ce dans un langage que le sens commun maîtrise si mal ?
D’évidence, cela nous amène à nous questionner, un peu plus de 10 ans après Outreau, sur le poids et les conséquences judiciaires et médiatiques de tels éléments scientifiques - parfois fragiles mais toujours difficiles à présenter et à contextualiser - dans le cadre d’affaires pour lesquelles le déroulé ne rendra pas caduque ce questionnement…
Jean-François Bonastre
Professeur des Universités en Informatique à l’Université d’Avignon, spécialiste de la biométrie vocale
Membre de l’Institut Universitaire de France (promotion Junior 2006)
Président de l’International Speech Communication Association
Membre de l’IEEE Biometrics Council
Ancien Président de l’Association Francophone de la Communication Parlée
Ancien Président du Groupe Francophone de la Communication Parlée, de la Société Française d’Acoustique
Communiqué de l’Association Francophone de la Communication Parlée : http://www.afcp-parole.org/doc/LE-2002-5-communique2.pdf
L.J. Boë et J.F. Bonastre, Expertise de la voix : identifier le locuteur à partir d’écoutes téléphoniques ? Des expertises à la recherche d’une caution scientifique… ou le cas du laboratoire Lipsadon, J’essaime, numéros 22 et 23, 2012 (http://www.syndicat-magistrature.org/IMG/pdf/J_essaime---_pour_une_autre_justice_-_numero_22_-_mars_juin_2012.pdf et http://www.syndicat-magistrature.org/IMG/pdf/J_essaime---_pour_une_autre_justice_-_numero_23_-_juillet_septembre_2012.pdf)
J.P. Campbell, W. Shen, W.M. Campbell, R. Schwartz, J.F. Bonastre, D. Matrouf, Forensic Speaker Recognition: A need for caution, IEEE Signal Processing Magazine, March 2009, vol 26 pp 95-103, 2009
J.F. Bonastre, F. Bimbot, L.J. Boë, J.P Campbell, D.A. Reynolds, I. Magrin-Chagnolleau, Authentification des personnes par leur voix : Un nécessaire devoir de précaution, Journées d’Etude de la Parole, Fèz (Maroc), 2004
J.F. Bonastre, F. Bimbot, L.J. Boë, J. P. Campbell, D. A. Reynolds, I. Magrin-Chagnolleau, Person Authentication by Voice: A Need for Caution, Eurospeech 2003, Genova, 2003
L. J. Boë, J.F. Bonastre and F. Bimbot, Pourquoi la Justice doit arrêter les expertises vocales, JUSTICE, n°169, Novembre 2001, pp 5-11, 2001
L.J. Boë, F. Bimbot, J.F. Bonastre, P. Dupont, De l’évaluation des systèmes de vérification du locuteur à la mise en cause des expertises vocales en identification judique, Langues, Vol.2, n°4 Décembre 1999, pp 270-288, 1999