Le bruit, frère jumeau du biais. Deux blessures de l’intelligence 1/3

« Dès lors qu’il y a jugement, il y a bruit [1] ».

A) Introduction

Ce génie qu’est Daniel Kahneman, prix Nobel d’économie 2002, ne s’est pas contenté de découvrir, avec Amos Tverski, les biais cognitifs. Il a élargi son champ d’étude et individué une autre blessure de l’esprit : le bruit. Toutefois, si, depuis leur découverte, « les biais ont fait l’objet de milliers d’articles et de centaines de livres », « il est rare qu’on y évoque ne fût-ce qu’en passant la question du bruit [2] ». Pourtant, nous allons le voir, leur importance est aussi (voire plus) grande que les biais, leur méconnaissance aussi abyssale et leur coût aussi considérable. En effet, le bruit est impliqué dans de nombreuses décisions par exemple, en matière juridique ou médicale ; or, ce sont des domaines de haute incidence pour les personnes.

Les bruits sont importants par leur fréquence. L’on sait combien les biais sont nombreux. Or, les chercheurs estiment que « le bruit contribue souvent plus que le biais à l’erreur globale [3] ». Ils sont aussi primordiaux par leur extension. En effet, ils existent dans tous les grands domaines : théoriques, éthiques et techniques [4]. Illustrons chacun de ces domaines.

1) Bruits en matière théorique

Par exemple, l’attribution des brevets est sujet à une très grande variabilité [5] – ce qui a de lourdes conséquences sur les contentieux en ce domaine : « Que l’office des brevets accorde ou rejette un brevet est lié de façon significative au hasard qui fait que le dossier sera confié à tel ou tel inspecteur [6] ». Nous verrons aussi plus loin que, dans un domaine qui a la réputation d’être très rigoureux, comme la police scientifique, plus précisément encore, la détermination de l’identité d’une personne à partir de l’ADN, l’on rencontre des bruits (et des biais).

Ce bruit est très présent dans une discipline de grande importance aujourd’hui : l’écologie et la politique écologique. Par exemple, on a demandé à des spécialistes de prévoir les bénéfices annuels d’une règlementation sur la pollution de l’air. Or, les estimations présentent une variabilité énorme, allant de 1 à 3, en l’occurrence, de 2 à 9 milliards de dollars [7].

2) Bruits en matière éthique

En matière, humains les plus variés : individuels, économiques et politiques.

a) En éthique

Nous le verrons, grandes sont les variabilités intra-individuelles dans les jugements éthiques que nous portons ou dans les décisions que nous prenons. Si l’on demande à une personne de reprendre en considération un discernement qu’elle a posé quelque temps plus tard, mieux encore, si l’on lui demande de réviser ce jugement et de convoquer d’autres facteurs qu’elle n’aurait pas pris en compte, on observe dans un pourcentage de cas significatif qu’elle change d’avis.

b) En économie

L’évaluation d’un candidat lors d’un entretien d’ébauche est éminemment sujette au bruit. Il en est de même une fois qu’il a été embauché : l’évaluation de la performance est extrêmement variable.

Les prévisions économiques sont d’une divergence impressionnante, qu’il s’agisse d’anticiper le taux de chômage, la faillite d’une entreprise ou les ventes d’un nouveau produit [8]. Cette diversité vaut même pour une unique personne. Par exemple l’on a demandé à deux reprises, à une distance de quelques semaines, à un groupe de développeurs de logiciels d’évaluer le temps nécessaire pour réaliser la même tâche. Or, les durées qui ont été estimées différaient de 71 % en moyenne [9].

c) En droit et politique

L’un des lieux où le bruit est le plus sensible et le plus injuste est la différence extrême entre les décisions de justice. Nous le reverrons plus en détail, mais disons déjà que les juges sont ceux qui décident de la remise en liberté ou non d’un prévenu en attente de procès. Or, grande est la variabilité en matière de clémence. Leur pouvoir discrétionnaire en matière de détermination de la peine est aussi vaste qu’injuste.

De même, on a demandé à des professeurs de droit de pronostiquer les décisions de la Cour suprême des États-Unis. Or, leur prédiction engendre un bruit considérable [10].

Un autre exemple est la demande d’asile politique. Une étude de Jaya Ramjo-Nogales et de ses coauteurs a montré que, dans un tribunal de Miami, les réponses favorables des juges à une requête d’asile variaient de 5 % à 88 %, au point que l’article s’intitule : « Refugee roulette : la roulette des réfugiés » [11].

3) Bruits en matière technique

On les rencontre dans beaucoup d’« arts » (au sens grec), c’est-à-dire d’activité transitive cherchant un bien utile, en particulier dans deux de grande portée : la médecine et l’éducation.

a) En médecine

Si, sans grande surprise, les diagnostics sont plus variables en psychiatrie, l’on est très étonné d’apprendre que le bruit est considérable pour des disciplines qui paraissent beaucoup plus objectives comme la radiologie…

b) En éducation

Il appartient aux travailleurs sociaux chargés de la protection de l’enfance de déterminer les enfants qui risquent de subir des violences familiales et donc qui bénéficieront d’un placement en famille d’accueil. Et une telle décision est d’importance, car un tel placement engendre des troubles plus fréquents comme la délinquance, des revenus inférieurs ou des grossesses précoces. Or, certains professionnels sont beaucoup plus enclins à placer les enfants que d’autres [12].

Épousant en partie le dense ouvrage de Kahneman, nous procéderons en trois étapes qui sont aussi les trois moments de toute démarche médicale : les signes (B-D) ; les causes (E) ; les remèdes (F), avant de proposer une brève relecture philosophique (G).

B) Induction. Quelques exemples

Multiples sont les domaines où les données sont sujet au bruit, ainsi que le disait l’introduction. Rentrons dans plus de détail, décrivons de manière précise quelques exemples (B), afin de pouvoir mieux comprendre la nature de cette noise (C) et les différentes espèces (D). Par souci pédagogique, pour ne pas obliger le lecteur à un trop gros effort de mémoire ou faire trop d’allers et retours dans le texte, à la faveur des faits, nous proposerons aussi les mécanismes qui les expliquent et les remèdes qui en découlent.

1) En matière judiciaire

Le niveau de bruit est accablant. Beaucoup ont longtemps pensé que l’équitabilité est proportionnelle au pouvoir discrétionnaire du juge. Il a fallu attendre les années 1970 pour que, dans le système américain, soit révélé « le niveau assourdissant de bruit dans la décision judiciaire [13] ». Un juge me disait avec réalisme : « Je ne souhaite à personne d’aller à l’hôpital et au tribunal ».

a) Le fait

L’un des premiers, Marvin Frankel, attira l’attention sur la variabilité extrême des décisions dans un ouvrage paru en 1973, qui marqua considérablement l’histoire du droit pénal étasunien, et en dehors du pays. Significativement, il s’intitulait : Peines criminelles : la loi sans l’ordre. Une anecdote entre des centaines. Un homme sans casier judiciaire qui a contrefait un chèque d’un montant de 58,40 dollars a été condamné à 15 ans de prison. Pour le même genre de délit, mais pour une somme de 35,20 dollars, un autre homme fut puni de 30 jours d’incarcération. Soit : pour une somme à peu près moitié moindre, le second subit une peine 180 fois moindre. Soit, toujours quantitativement, une différence d’environ 100 à 1… Après avoir cité d’autres exemples tout aussi scandaleux, Frankel conclut d’abord aux « pouvoirs étendus et presque sans contrôle [14] » et ensuite à « la perpétuation quotidienne de cruautés arbitraires [15] » qui sont inacceptables dans « un État de droit qui dépend des lois et pas des hommes [16] ».

Pour être spectaculaire, cette observation pèche toutefois par manque de données de chiffrées, donc de rigueur. Le même Frankel a réalisé ce qui constitue la première grande étude, en 1974. Pour cela, il a demandé à 50 magistrats fédéraux provenant de districts différents, de prononcer une peine pour des prévenus (hypothétiques) à partir d’un rapport identique. Or, les peines d’emprisonnement ont varié : pour un trafiquant d’héroïne, de 1 à 10 ans [17] ; pour un braqueur de banque, de 5 à 18 ans [18] ; pour une affaire d’extorsion de fonds, de 3 ans de prison sans amende à 20 ans de prison et 65 000 dollars d’amende [19]. Conclusion : non seulement l’« absence de consensus était la norme [20] », mais la disparité entre les condamnations était « stupéfiante [21] ».

Cette impressionnante et encore plus inquiétante variabilité a été confirmée dans une autre étude relative à 47 juges en 1977 [22] ou, dans une enquête plus importante, réalisée en 1981, sur 208 juges fédéraux [23].

b) Des causes explicatives

1’) Chez les juges américains

Peut-on passer du fait à la cause ? En affinant les résultats, certains facteurs émergent et le scandale s’aggrave… C’est ainsi que les juges accordent plus souvent la liberté sous caution en début de journée ou après la pause déjeuner qu’avant celle-ci [24]. Traduction concrète : plus le juge est affamé, plus il est sévère !

Une étude portant sur un millier de décisions rendues par des juges sur enfants a montré qu’ils rendent une décision plus sévère si l’équipe locale de football a perdu son match pendant le week-end : d’ailleurs, c’est vrai particulièrement le lundi et un peu moins les autres jours de la semaine [25]. Cette enquête fut confirmée par une autre prenant en compte 1,5 million de décisions de justice [26]. Or, on le sait, la victoire cause la joie et la défaite, la tristesse ou la colère. Donc, là encore, la variabilité des peines dépend de l’humeur du juge…

Autre facteur exogène qui passe aussi par la médiation affective : une température extérieure plus clémente rend la sentence du juge elle-même plus clémente [27].

Toutefois, les raisons les plus fondamentales sont liées aux valeurs auxquelles le juge est attaché. Par exemple, une juge femme ou nommée par un président démocrate exerce son pouvoir discrétionnaire davantage dans le sens de la clémence.

2’) Chez les juges français

N’allons pas nous consoler en imaginant que le bruit est une propriété du système pénal outre-Atlantique. Traversons l’océan ! Une recherche effectuée sur 6 millions de décisions rendues en France a montré que la peine est plus légère si elle est portée le jour de l’anniversaire du prévenu [28].

c) Objection et confirmation

On objectera que les études de Frankel corroborées par les autres chercheurs ont fait bouger le système. C’est ainsi qu’Edward M. Kennedy, le frère de l’ancien président John Fitzgerald, s’émut de cette variabilité injuste et injustifiée des condamnations pénales et, à force de ténacité, il obtint que le Congrès adopte en 1984, une loi sur la réforme de la peine, afin de réduire « le pouvoir discrétionnaire illimité que donne la loi aux juges et aux autorités compétentes, en matière d’application des peines [29] ». De fait, l’étude qu’avait diligentée le Congrès n’avait fait que confirmer que, pour une affaire identique, les peines s’étalaient entre 3 et 20 ans de prison. Et le Congrès mit alors en place des directives imposant aux juges de prendre en compte la nature de l’infraction et l’histoire criminelle du prévenu.

Sans rentrer dans le détail de l’histoire américaine [30], relevons que les écarts entre juges ont considérablement diminué [31]. Par exemple, selon une autre étude, la différence moyenne entre la durée des lourdes peines est passé de 17 % (soit 4,9 mois), en 1986-1987, à 11 % (soit 3,9 mois) en 1988-1993 [32], ce qui a été confirmé [33]. Toutefois, de nombreuses critiques furent émises contre ces directives. D’abord, quant aux effets : les peines étaient en moyenne plus longues de 2,8 mois. Ensuite, quant au principe : trop universelles, les directives ne pouvaient s’adapter à chaque affaire et donc s’avéraient finalement injustes. « Le jugement [doit] prend[re] en compte la complexité de chaque cas », affirme Kate Stith, professeur de droit à Yale, et José Cabranes, juge fédéral [34]. Se vérifie une nouvelle fois l’axiome : summa lex, summa injuria. Et surtout la raison : universelle est la loi, mais singulière est chaque situation jugée.

La conséquence en a été que la Cour suprême, en 2005, a rendu les directives non plus obligatoires, mais seulement indicatives [35] – ce qui a satisfait trois quarts des juges fédéraux [36]. Surtout, elle a été que les disparités entre les juges n’ont pas fait que croître à nouveau, elle s’est accrue – ainsi que l’atteste la vaste enquête d’un professeur de droit à Harvard, Crystal Yang, qui a analysé 400 000 condamnations [37]. Est réapparue la réalité dénoncée par le juge Frankel : la loi sans l’ordre.

d) Conclusions

L’on peut tirer quelques leçons de cette inquiétante histoire, concernant le diagnostic symptomatique, le diagnostic étiologique et le remède (préventif ou curatif). En matière de distribution des jugements, l’on a l’impression d’être à la loterie.

1’) Le fait du bruit

Le désaccord entre les juges est réel et très important. Il engendre un sentiment de colère et d’inquiétude : pourvu que je ne sois pas livré à l’arbitraire de la justice.

2’) La cause du bruit

Quoi qu’il en soit, la cause est aussi arbitraire (et extrinsèque) que le fait. Et elle est d’abord liée à la personne du juge. En effet, la loi est universelle ou, en tout cas, doit être commune à tous les coupables et à toutes les victimes ; or, le juge est une personne singulière, avec tous les paramètres subjectifs que cela comporte ; il convient donc au plus haut point de réduire l’impact de cette subjectivité. Voilà pourquoi le Congrès a proposé des directives. Mais était-ce le bon remède ?

3’) Le remède au bruit

Heureusement, l’histoire nous montre qu’il est possible de réduire le bruit. Toutefois, la solution proposée par le Congrès m’apparaît erronée non seulement dans l’application, qui a conduit à une plus grande sévérité, mais dans le principe même. D’abord, elle est universelle ; or, chaque cas est unique, avec des circonstances invitant à complexifier la situation et à moduler la responsabilité. Ensuite, la solution relève d’une logique uniquement déontologique et non pas téléologique et surtout arétique : le meilleur critère devient les vertus de justice et de prudence du juge qui seules permettent l’application de l’universel au singulier.

2) En matière médico-légale

L’exemple de la science médico-légale et de la police scientifique est intéressant parce qu’il est à la frontière entre le pratique et le théorique. Il permet, dans un domaine habituellement considéré comme fiable, c’est-à-dire comme le lieu de jugements certains, d’observer des erreurs, donc des blessures de l’intelligence, qui relèvent du biais et du bruit [38].

a) Les faits

Dans notre imaginaire, l’identification des empreintes digitales et, a fortiori, les tests ADN, permettent d’accéder à un jugement vrai assuré. C’est ainsi que, encore en 2002, le site Web du FBI affirmait de manière catégorique : « Les empreintes digitales sont un moyen infaillible d’identification personnelle [39] ». Double est la raison d’une telle représentation : l’identification entre science et certitude ; l’image véhiculée par des séries télévisées très prisées comme Les experts. Or, dans la réalité, les erreurs existent et, de plus, peuvent être dramatiques.

1’) Deux exemple tristement fameux

Une première illustration célèbre est celle d’Alphonse Bertillon. Il est connu pour avoir inventé un système de mesures anthropométriques, le « bertillonnage », et, en 1912, un système formel de comparaison des empreintes digitales [40]. Or, il apporta son témoignage d’expert lors des procès d’Alfred Dreyfus, en 1894 et 1899, témoignage qui s’avéra aussi décisif qu’erroné. Il fut très probablement victime d’un biais cognitif de confirmation de ses préjugés antisémites.

Le 11 mars 2004, plusieurs bombes placées dans divers trains de banlieue ont tué 192 personnes et blessé plus de 2 000. Les policiers espagnols ont trouvé une empreinte digitale sur un sac en plastique sur place. Or, l’analyse dactylographique identifia cette empreinte comme appartenant à Brandon Mayfield, un Américain résidant en Oregon. De plus, il constituait un suspect plausible puisqu’il faisait partie des suspects surveillés par le FBI : c’était un ancien officier de l’US Army, converti à l’Islam, devenu avocat et ayant défendu des personnes tentées de se rejoindre les talibans afghans.

Il fut donc arrêté et interrogé. En fait, aucun autre élément ne correspondait : par exemple, il n’avait pas quitté le pays depuis dix ans. De plus, l’empreinte digitale correspondait aussi à un autre suspect arrêté par la police espagnole.

Ainsi, le FBI présenta ses excuses et lui versa une indemnité négociée de 2 millions de départ. L’enquête approfondie sur les causes de l’erreur conclut : « L’erreur n’est pas méthodologique ou technologique. C’était une erreur humaine [41] ». Est-ce suffisant ?

2’) Les études

Itiel Dror, chercheur en sciences cognitives à l’University College de Londres fut le premier scientifique à remettre en question la prétendue certitude de l’analyse dactylographique et à auditer le bruit que celle-ci engendre : les « experts ne sont pas fiables au sens où ils ne sont pas constants dans leurs propres jugements [42] ». Pour cela, il a travaillé avec des experts suffisamment humbles pour accepter qu’on leur resoumette à leur insu des cas déjà traités au maximum cinq années auparavant. Dror comparait donc un spécialiste avec lui-même, ce qui correspond à ce que nous appellerons le bruit occasionnel.

b) Les causes

1’) Les biais

Un premier biais (porte-t-il un nom ?) est le modèle présent dans la grande majorité des esprits : l’empreinte recueillie pour établir notre carte d’identité. En effet, nous appuyons fermement la pulpe entière de notre doigt, voire de plusieurs doigts sur un lecteur standardisé de ces empreintes digitales. Or, sur une scène de crime, la trace est, le plus souvent : floue, partielle, abîmée ou déformée, multiple (dans le signe : plusieurs empreintes et, dans la cause : plusieurs personnes), souillée par différentes impuretés et parfois tardive. Donc, autant l’empreinte relevée dans un environnement contrôlé est fiable, autant la seconde l’est beaucoup moins et requiert le travail d’un expert qui aboutira à un jugement. Or, nous le savons désormais, qui dit jugement, dit bruit et biais.

Mais le biais le plus présent et le plus prégnant est le biais de confirmation.

a’) Dans l’analyse dactylographique

Dror a monté un protocole en deux temps où le même inspecteur qui avait analysé des traces digitales savait ou non que le suspect avait ou non alibi, donc, savait ou non s’il pouvait être coupable, dans un deuxième temps, disposait d’autres informations contextuelles pouvant biaiser leur étude. Dans une première enquête, 5 experts avaient en un premier temps rendu un verdict d’identification ; puis, dans le second temps, qui ajoutait ces données « biaisantes », en l’occurrence, allant dans le sens d’une exclusion, ils posèrent un diagnostic opposé [43]. Dans une seconde étude, portant sur 6 experts réexaminant 4 paires d’empreintes, il y eut 4 changements de décisions sur 24, soit un sixième [44]. Ces études ont été confirmées par d’autres chercheurs.

L’existence de ce biais est également confirmée par d’autres faits : les experts se laissent plus aisément influencer lorsque la décision est difficile ; ils changent plus facilement d’avis quand les informations sont fortes [45].

Ajoutons une donnée. Le biais porte non seulement sur l’interprétation, mais sur le fait interprété, c’est-à-dire sur l’observation. En effet, Dror et ses collègues ont comparé l’étude de la seule empreinte digitale et cette étude, accompagnée d’une empreinte cible (celle d’un suspect). Or, les détails (« minuties ») étaient beaucoup plus nombreux dans le premier cas que dans le second. Puisque la présence d’une comparaison joue le même rôle que la confirmation, il y a donc eu biais de confirmation [46]. Cette étude fut confirmée [47].

b’) Application à l’affaire Mayfield

Il semble bien que ce soit une multiplicité de biais de confirmation qui soit à l’origine de la dramatique erreur de jugement concernant Brandon Mayfield [48]. Le premier biais vient de « la puissance de corrélation » suggérée par le système automatisé de reconnaissance dactylographique. Le deuxième est la pression des médias. Le troisième est l’autorité de l’expert, tenu en haute estime par ses pairs, et qui a grandement rallié l’avis des autres professionnels, même indépendants.

c’) Élargissement à l’analyse ADN

Ajoutons que même ce qui est considéré comme le sanctuaire inviolable de la vérité médico-légale, l’analyse de l’ADN, peut aussi être victime d’un biais de confirmation, au moins quand il s’agit d’évaluer des mélanges complexes d’ADN [49].

Ici aussi jouent les cascades de biais de confirmation. C’est ainsi qu’une étude a montré que, lorsqu’un odontologue médico-légal a appris que l’analyse de l’ADN a identifié un suspect, il sera plus enclin à plaider en faveur d’une identification à partir des empreintes de dent [50].

2’) Le bruit

Jusqu’à maintenant, nous avons parlé de biais. Mais y a-t-il aussi du bruit, c’est-à-dire des variations et donc des erreurs alors qu’il n’y a pas d’influence (comme dans le cas du biais de confirmation) ? Dror a montré que des experts peuvent changer d’avis sans apport d’informations nouvelles – le taux de changement étant moins grand que lorsqu’il y a biais de confirmation [51]. Cette étude a été confirmée, élargie et précisée par une recherche commanditée par le FBI en 2012. 72 experts très qualifiés se sont prononcés sur 25 cas examinés 7 mois auparavant : 1 décision sur 10 changea [52].

c) Conséquences

Jusqu’ici, nous avons surtout parlé de l’erreur théorique. Quelle est l’incidence pratique ? Dit autrement, combien d’erreurs judiciaire sont-elles imputables à des erreurs de la police scientifique ?

Une étude d’une association non lucrative cherchant à annuler les condamnations injustes, Innocence Project, a analysé 350 cas de disculpations. Or, dans 45 % des cas, le facteur d’erreur relevait d’une mauvaise application de la science médico-légale [53].

Une autre étude, plus complète, donne un chiffre moins inquiétant. En 2016, un organe consultatif rattaché à la présidence des États-Unis, et composé d’éminents scientifiques, a publié un rapport sur l’utilisation de la science médico-légale et notamment un état des lieux complet sur la validité de l’analyse des traces digitales [54]. Il faisait état d’une seule étude à grande échelle, datée de 2011 : elle considérait 169 experts du FBI et comparait une centaine de ces empreintes. Le résultat principal est un taux de faux positifs d’environ 1 sur 600 [55]. Si ce pourcentage est heureusement faible, néanmoins, il est « beaucoup plus élevé [much higher] que ce que peut supposer le grand public (et, par extension, la plupart des jugés) [56] ».

Toutefois, selon une étude postérieure, mais seulement sur la Floride, le taux de faux positifs est beaucoup plus élevé [57].

Ajoutons quelques bonnes nouvelles : l’expert est plus prêt à changer d’avis dans le sens d’une décision non-conclusive que dans celui d’une décision conclusive [58] ; ensuite, les experts « opèrent dans culture où les faux positifs sont considérés comme plus graves que les faux négatifs [59] » ; enfin, ils font moins d’identifications erronées (c’est-à-dire de faux positifs) que d’exclusions erronées (c’est-à-dire de faux négatifs) [60].

d) Remèdes

Grâce à sa lucidité et sa persévérance, Dror a pu mettre en place des pratiques qui permettent d’améliorer les résultats en matière de science médico-légale et de police scientifique.

1’) Curatifs

a’) Reconnaître l’existence de bruits

1’’) En général

Ce point est d’autant plus important à souligner que les experts eux-mêmes sont dans le déni des biais de confirmation. Par exemple, les études de Dror furent accueillies avec scepticisme et ironie par de nombreux spécialistes en police scientifique, comme le président de la Fingerpoint Society [61]. Même, le FBI, à la suite de l’enquête interne sur l’affaire Mayfield, a l’ingénuité de conclure : il « est courant que les experts réalisent des vérifications alors qu’ils connaissent les conclusions des experts précédents, et que ces conclusions n’influencent pourtant pas les leurs [62] » !

2’’) Chez soi

Si les experts connaissent bien l’existence de ces biais, ils les observent beaucoup plus aisément chez les autres que chez eux. Une étude auprès de 400 experts dans 21 pays a montré qu’environ la moitié de ceux-ci sont conscients de ce biais chez leurs collègues mais pas chez eux [63].

b’) Séquencer les informations

La principale recommandation de Dror porte sur la séparation (ou indépendance) des informations. Comment s’en étonner, puisque la principale source réside dans le biais de confirmation, c’est-à-dire dans la contamination d’une information par une autre ? Double doit être la séparation, synchronique et diachronique.

1’’) La divulgation séquentielle linéaire

Cette formulation barbare élaborée par Dror et ses collègues désigne la procédure visant à donner à l’expert toute l’information dont il a besoin, mais aussi seulement celle dont il a besoin et quand il en a besoin [64].

2’’) La séparation des personnes

Dans le même ordre d’idées qui prévient le plus possible l’influence et donc le biais, un second expert chargé de vérifier une identification doit aussi ignorer qu’il opère une vérification et doit donc croire qu’il est le premier à faire une analyse.

3’’) La séparation des opérations

Les experts documentent leurs jugements à chaque étape, c’est-à-dire avant de passer à l’étape ultérieure. En l’occurrence, ils réalisent un compte-rendu de l’analyse de l’empreinte digitale, avant de la comparer à une autre ; ils donnent leur avis avant d’avoir accès à une autre information.

4’’) La justification des changements

Quand un expert modifie son expertise, il en donne explicitement la raison.

c’) Se méfier des intuitions

Je me permettrai d’ajouter une autre règle. Reprenant la distinction fameuse introduite par Kahnemann dans Système 1/Système 2, nous rappellerons que le premier est rapide, intuitif… et sujet à erreur, alors que le second est lent, réflexif et sinon inerrant, du moins chargé de corriger les illusions du premier.

2’) Préventif

Les experts ne sont pas (assez) protégés contre ces informations extérieures qui biaisent leur jugement. En effet, elles sont présentes dans les courriers accompagnant la demande d’expertise ; de plus, il n’est pas rare qu’ils soient en lien avec les policiers, les procureurs ou d’autres experts [65]. Ajoutons un fait que, étrangement, Kahneman ne pointe pas : l’extrême médiatisation des affaires criminelles ; or, les médias, comme leur public, prennent position de manière manichéenne, pour ou contre.

e) Conclusion pratique

Encore une fois, il ne s’agit pas d’incriminer les experts, puisque le jugement engendre toujours du biais et du bruit. Mais il s’agit d’alerter ceux qui les écoutent et doivent les écouter. C’est particulièrement le cas d’un jury qui se repose sur leurs témoignages.

Redisons-le aussi, toute la stratégie d’hygiène et de guérison des biais et des bruits (occasionnels) ici mise en place avec grande rigueur par Dror peut aisément se généraliser.

Pascal Ide

[1] Daniel Kahneman, Olivier Sibony et Cass R. Sunstein, Noise. Pourquoi nous faisons des erreurs de jugement et comment les éviter, trad. Christophe Jacquet et Olivier Sibony, Paris, Odile Jacob, 2021, p. 260. Cette phrase est le leitmotiv, plus, la thèse, du livre.

[2] Ibid., p. 11.

[3] Ibid., p. 219.

[4] Nous reprenons implicitement la tripartition aristotélicienne des disciplines : théorétiques ou spéculatives (le savoir) ; éthiques ou pratiques (l’agir ou le savoir-être) ; poïétiques ou techniques (le faire ou le savoir-faire).

[5] Cf. Mark A. Lemley & Bhaven Sampat, « Examiner characteristics and patent office outcomes », Review of Economics and Statistics, 94 (2012) n° 3, p. 817-827. Voir aussi Iain Cockburn, Samuel Kortum & Scott Stern, « Are all patent examiners equal ? The impact of examiner characteristics ››, NBER Working Paper, 8980 (juin 2002), www.nber.org/papers/w8980 ; et Michael D. Frakes & Melissa F. Wasserman, « Is the time allocated to review patent applications inducing examiners to grant invalid patents ? Evidence from microlevel application data », Review of Economics and Statistics, 99 (2017) n° 3, p. 550-563.

[6] Cf. Mark A. Lemley & Bhaven Sampat, « Examiner characteristics and patent office outcomes ». Cf. aussi Michael D. Frakes & Melissa Wasserman, « Is the time allocated to review patent applications inducing examiners to grant invalid patents ? », Review of Economics and Statistics, 99 (2017) n° 3, p. 550-563.

[7] Cass Sunstein, « Maximin », Yale Journal of Regulation (version préliminaire, 3 mai 2020), https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3476250.

[8] Pour de nombreux exemples, voir Ion Scott Armstrong (éd.), Principles of Forecasting, op. cit. Ion Scott Armstrong, « Combining Porecasts », Ion Scott Armstrong (éd.), Principles of Forecasting, op. cit., p. 417-439.

[9] Cf. Stein Grimstad & Magne Jorgensen, « Inconsistency of expert judgment-based estimates of software development effort », Journal of Systems and Software, 80 (2007) n° 11, p 1770-1777.

[10] Theodore W. Ruger, Pauline T. Kim, Andrew D. Martin & Kevin M. Quinn, « The Supreme Court Forecasting Project : Legal and political science approaches to predicting supreme court decision-making », Columbia Law Review, 104 (2004) n° 4, p. 1150-1209.

[11] Cf. Andrew I. Schoenholtz, Jaya Ramji-Nogales & Philip G. Schrag, « Refugee roulette: Disparities in asylum adjudication », Stanford Law Review, 60 (2007) n° 2, p. 295-411.

[12] Cf. Joseph J. Doyle Jr., « Child protection and child outcomes. Measuring the effects of Foster care », American Economic Review, 95 (2007) n° 5, p. 1583-1610.

[13] Daniel Kahneman, Olivier Sibony et Cass R. Sunstein, Noise, p. 19. Les références sont tirées de la première partie, chapitre 1 : « Crime et châtiment ».

[14] Marvin Frankel, Criminal Sentences : Law Without Order, New York, Hill and Wang, 1973, p. 5.

[15] Ibid., p. 103.

[16] lbid., p. 5.

[17] Anthony Partridge & William B. Eldridge, The Second Circuit sentencing study: A report to the judges of the Second Circuit, Washington, Federal Judicial Center, 1974, p. A11.

[18] Ibid., p. A9.

[19] Ibid., p. A5-A7.

[20] Ibid., p. 9.

[21] US Senate, Comprehensive Crime Control Act of 1983. Report of the Committee on the judiciary, United State: Senate, on S. 1762, Together with Additional and Minority Views, Washington, DC, US Government Printing Oﬂice, 1983, rapport n° 98-225.

[22] Cf. William Austin & Thomas A. III Williams, « A survey of judges’ responses to simulated legal cases: Research note on sentencing disparity », The Journal of Criminal Law and Criminology, 68 (1977) n° 2, p. 306-310, ici p. 306.

[23] Cf. John Bartolomeo, Kevin Clancy, David Richardson & Charles Wellford, « Sentence decisionmaking : The logic of sentence decisions and the extent and sources of sentence disparity », The Journal of Criminal Law and Criminology, 72 (1981) n° 2, a. 7. Cf. le chapitre 6 pour une présentation plus complète de cette étude. Cf. aussi Comprehensive Crime Control Act of 1983. Report of the Committee on the judiciary, United State: Senate, on S. 1762, Together with Additional and Minority Views, op. cit., p. 44.

[24] Cf. Shai Danziger, Jonathan Levav & Liora Avnaim-Pesso, « Extraneous factors in judicial decisions », Proceedings of the National Academy of Sciences of the United States of America, 108 (2011) n° 17, p. 6889-6892.

[25] Cf. Ozkan Eten & Naci Mocan, « Emotional judges and unlucky juveniles », American Economic Journal : Applied Economies, 10 (2018) n° 3, p. 171-205.

[26] Cf. Daniel L. Chen & Markus Loecher, « Mood and the malleability of moral reasoning », SSRN Electronic Journal, (21 septembre 2019), p. 1-70.

[27] Cf. Anthony Heyes & Soodeh Saberian, « Temperature and decisions: Evidence from 207,000 court cases », American Economic journal : Applied Economics, 11 (2018) n° 2, p. 238-265.

[28] Cf. Daniel L. Chen & Philippe Arnaud, « Clash of Norms: Judicial Leniency on Defendant Birthdays », Journal of Economic Behavior and Organization, 211 (juillet 2023), p. 324-344.

[29] Comprehensive Crime Control Act of 1983. Report of the Committee on the juditiary, United States Senate, p. 38.

[30] Elle est résumée par Daniel Kahneman, Olivier Sibony et Cass R. Sunstein, Noise, p. 23-25.

[31] Cf. U.S. Sentencing Commission, The Federal Sentencing Guidelines: A Report on the Operation of the Guidelines System and Short Term Impact on Disparity in Sentencing, Use of Incarceration, and Prosecutorial Discretion and Plea Bargaining, Rockville (Maryland), 1991, vol. 1 et 2.

[32] Cf. James M. Anderson, Jeffrey R. Kling & Kate Stith, « Measuring interjudges sentencing disparity : Before and after the federal sentencing guidelines », The Journal of Law and Economics, 42 (avril 1999) n° S1.

[33] Cf. Paul J. Hofer, Kevin R. Blackwell & R. Barry Ruback, « The effect of the Federal Senrencing Guidelines on inter-judge sentencing disparity », The Journal of Criminal Law and Criminology, 90 (1999) n° 1, p. 239-241.

[34] Cf. Kate Stith & José Cabranes, Fear of judging: Sentencing Guidelines in the Federal Courts, University of Chicago Press, 1998, p. 79.

[35] 543 U.S. 220, 2005 (United States v. Booker, 543 U.S. 220, est une décision de la Cour suprême des États-Unis sur la condamnation pénale).

[36] U.S. Sentencing Commission, Results of Survey of United State: District judges, janvier 2010 à mars 2010, juin 2010, question 19, tableau 19.

[37] Cf. Crystal Yang, « Have interjudge sentencing disparities increased in an advisory guidelines regime ? Evidence from Booker », New York University Law Review, 89 (2014) n° 4, p. 1278-1334.

[38] Pour le détail des faits et des références, cf. Daniel Kahneman, Olivier Sibony et Cass R. Sunstein, Noise, chap. 20. Osons le dire, le chapitre manque de précision, confondant souvent biais (surtout de confirmation) et bruit.

[39] Michael Specter, « Do fingerprints lie ? », The New Yorker, 27 mai 2002. C’est nous qui soulignons.

[40] Pour mémoire, on doit au médecine écossais Henry Faulds le premier article scientifique proposant d’employer les empreintes laissées par le bout des doigts comme technique d’identification des individus (cf. Henry Faulds, Guide to Fingerprint Identification, Wood, Mitchell and Co., 1905 ; A Manual of Practical Dactilography, London, Police Review, 1923).

[41] Cf. Robert B. Stacey, « A report on the erroneous ﬁngerprint individualisation in the Madrid train bombing case », Journal of Forensic Identification, 54 (2004) n° 6, p. 707-718.

[42] Cf. Itiel E. Dror & Robert Rosenthal, « Meta-analytically quantifying the reliability and biasability of forensic experts », Journal of Forensic Science, 53 (2008) n° 4, p. 900-903.

[43] Cf. Itiel E. Dror, David Charlton & Ailsa E. Peron, « Contextual information renders experts vulnerable to making erroneous identiﬁcations », Forensic Science International, 156 (2006) n° 1, p. 74-78.

[44] Cf. Itiel E. Dror & David Charlton, « Why experts make errors », Journal of Forensic Identification, 56 (2006) n° 4, p. 600-616.

[45] Cf. Itiel E. Dror & Simon A. Cole, « The vision in ‘blind’ justice : Expert perception, judgment, and visual cognition in forensic pattern recognition », Psychonomic Bulletin and Review, 17 (2010) n° 2, p. 161-167, ici p. 165. Cf. aussi Itiel E. Dror, « A hierarchy of expert performance (HEP) », Journal of Applied Research in Memory and Cognition, 5 (2016) n° 2, p. 1-6.

[46] Cf. Itiel E. Dror Christophe Champod, Glenn Langenburg, David Charlton, Heloise Hunt & Robert Rosenthal, « Cognitive issues in ﬁngerprint analysis: Inter and intra-expert consistency and the effect of a ‘target’ comparison », Forensic Science International, 208 (2011) n° 1-3, p. 10-17.

[47] Cf. Bradford T. Ulery, R. Austen Hicklin, Maria Antonia Roberts & JoAnn Buscaglia, « Changes in latent ﬁngerprint examiners’ markup between analysis and comparison », Forensic Science International, 247C (2015) n° 1, p. 54-61.

[48] Robert B. Stacey, « A report on the erroneous ﬁngerprint individualisation in the Madrid train bombing case ».

[49] Cf. Itiel E. Dror & Greg Hampikian, « Subjectivity and bias in forensic DNA mixture interpretation », Science and Justice, 51 (2011) n° 4, p. 204-208.

[50] Cf. Itiel E. Dror, « Biases in forensic experts », Science, 360 (2018) n° 6386, p. 243.

[51] Itiel E. Dror & David Charlton, « Why experts make errors ».

[52] Bradford T. Ulery, R. Austen Hicklin, JoAnn Buscaglia & Maria Antonia Roberts, « Repeatability and reproducibility of decisions by latent fingerprint examiners », PLoS One, 7 (2012) n° 3, p. e32800.

[53] Innocence Project, « Overturning wrongful convictions involving misapplied forensics », Misapplication of Forensic Science, 2018, p. 1-7, www.innocenceproject.org/ causes/misapplication-forensic-science. Cf. aussi Saul M. Kassin, Itiel E. Dror, Jeff Kukucka & Leonard Butt, « The forensic confirmation bias: Problems, perspectives, and proposed solutions », Journal of Applied Research in Memory and Cognition, 2 (2013) n° 1, p. 42-52.

[54] President’s Council of Advisors on Science and Technology (PCAST), Report to the President. Forensic Science in Criminal Courts, septembre 2016. Document accessible en ligne le 18 juillet 2024.

[55] Bradford T. Ulery, R. Austen Hicklin, JoAnn Buscaglia & Maria Antonia Roberts, « Accuracy and reliability of forensic latent ﬁngerprint decisions », Proceedings of the National Academy of Sciences, 108 (2011) n° 19, p. 7733-7738.

[56] PCAST, Report to the President, p. 95. Souligné dans le texte.

[57] Cf. Igor Pacheco, Brian Cetchiai & Stephanie Stoiloff, Miami-Dad. Research Study for the Reliability of the ACE-V Process: Accuracy and Precision in Latent Fingerprint Examinations, rapport final, Miami-Dacle Police Department Forensic Services Bureau, 2014, www. ncj rs. gov/pdﬂiles 1/nij/grants/248534.pdf.

[58] Cf. Itiel E. Dror & Simon A. Cole, « The vision in ‘blind’ justice : Expert perception, judgment, and visual cognition in forensic pattern recognition ». Voir aussi I. E. Dror, « A hierarchy of expert performance (HEP) ».

[59] Cf. Bradford T. Ulery et al., « Accuracy and reliability of forensic latent fingerprint decisions », p. 7735.

[60] Ralph N. Haber & Lyn Haber, « Experimental results of ﬁngerprint comparison validity and reliability : A review and critical analysis », Science and Justice, 54 (2014) n° 5, p. 375-389.

[61] Cf. Michael Leadbetter, « Letter to the Editor », Fingerprint World, 33 (2007), p. 231.

[62] Robert B. Stacey, « A report on the erroneous ﬁngerprint individualisation in the Madrid train bombing case », p. 713. C’est nous qui soulignons.

[63] Cf. Jeff Kukucka, Saul M. Kassin, Patricia A. Zapf & Itiel E. Dror, « Cognitive bias and blindness: A global survey of forensic science examiners », Journal of Applied Research in Memory and Cognition, 6 (2017) n° 4, p. 452-459.

[64] Cf. Itiel E. Dror, William C. Thompson, Christian A. Meissner, Irv Kornfield, Dan E. Krane, Michael Saks & Michael Risinger, lettre au rédacteur en chef : « Context management toolbox : A Linear Sequential Unmasking (LSU) Approach for minimizing cognitive bias in forensic decision making », Journal of Forensic Science, 60 (2015) n° 4, p. 1111-1112.

[65] Cf. Michael J. Saks, D. Michael Risinger, Robert Rosenthal & William C. Thompson, « Context effects in forensic science : A review and application of the science of science to crime laboratory practice in the United States », Science Justice Journal of Forensic Science Society, 43 (2003) n° 2, p. 77-90.

20.7.2024

, Blessure de l'intelligence, Inédit, Philosophie

Blog