3) En matière médicale
Passons du secteur public (la justice pénale) au secteur privé, en l’occurrence, la maladie et l’assurance. La médecine est sujette à de nombreux bruits et donc d’erreurs. En effet, le premier temps de l’acte médical est le diagnostic. Or, celui-ci est un jugement. Mais, certains de ces jugements sont peu sujet au doute, par exemple, la dégénérescence d’un tendon [1] ou l’évaluation d’une lésion mammaire [2] ; d’autres sont remplacés par des examens relatifs à la présence d’une entité comme un germe (c’est ainsi que le diagnostic d’angine à streptocoque dépend de la présence de la bactérie [3]) ou par des mesures quantitatives qui tiennent lieu de diagnostic (de fait, une glycémie égale ou supérieure à 126 mg par décilitre définit proprement le diabète [4]). En revanche, d’autres jugements sont soumis à une variabilité (entre médecins et aussi pour un même médecin).
Cette variabilité interindividuelle des diagnostics est aujourd’hui à la fois connue et pourtant déniée. Elle est à ce point connue – au moins en certaines spécialités comme la radiologie [5] – qu’elle porte un nom (on parle de concordance interjuges), qu’elle est mesurée par un indicateur statistique, le coefficient kappa [6] (qui s’étend de 0 qui est l’absence de convergence entre les jugements à 1 qui reflète l’accord parfait), et qu’elle conduit à l’adoption de mesures (certains hôpitaux ne se contentent pas de conseiller au patient de rechercher une seconde opinion, mais ils l’exigent [7] !)
Toutefois, elle est également déniée, parce qu’elle contredit notre conception d’une médecine quasiment identifiée à un savoir scientifique rigoureux et notre besoin de sécurité en une médecine capable de conjurer tous les maux.
a) Quelques exemples de bruit
1’) Les bruits en matière de diagnostic somatique
a’) Bruits interpersonnels
On pourrait distinguer la variabilité selon le type de pathologie, c’est-à-dire selon le jugement diagnostique lui-même, ou selon le type d’examens, c’est-à-dire selon les moyens conduisant à ce diagnostic (en premier lieu desquels nous trouvons les radiographies au sens large).
- Le cœur
Les maladies cardiaques sont le plus souvent des coronaropathies que l’on traite par pose d’un stent lorsqu’il y a obstruction à 70 %. Or, l’une des premières études a montré que, dans 31 % des cas, soit un peu moins d’un tiers, les médecins ne s’accordent pas sur l’obstruction à 70 % [8]. Le bruit est d’autant plus inquiétant qu’il s’agit de la première cause de mortalité aux États-Unis [9].
- Le poumon
Prenons le cas de la tuberculose, qui demeure l’une des maladies les plus répandues et les plus graves aujourd’hui : en 2016, il n’y avait pas moins de 10 millions de patients touchés et pas moins de 2 millions de morts. Or, la concordance interjuges dans le diagnostic des lésions évocatrices est « modérée » ou « correcte » [10] et la variabilité diagnostique entre les radiologues de différents pays est encore forte [11].
- Le sein
Le diagnostic de lésion néoplasique de la glande mammaire se fait par histologie. Or, l’accord entre pathologiques est seulement « correct » [12] ; et, en cas de cancers proliférants, il n’est, là aussi que « correct » [13].
Le diagnostic se fait aussi par la mammographie. Or, chez les radiologues, le taux de faux négatifs va de 0 % à plus de 50 % (il juge la radio normale dans plus de la moitié des cas) et celui des faux positifs varie de 1 à 64 % (ici, le radiologue juge faussement qu’il y a un cancer dans presque deux cas sur trois) [14].
- Le rein
Sur les différents stades de la néphropathie, l’accord entre les néphrologues est de « faible à modéré » [15].
- Le dos
De même, l’évaluation par IRM des sténoses du canal rachidien ne montre qu’une convergence « correcte » entre radiologues [16].
- La peau
Le mélanome est le plus dangereux des cancers de la peau. Or, une étude relative aux diagnostics portés par 8 pathologistes a montré qu’ils n’ont convergé que de manière modérée (unanimes dans l’accord ou le désaccord) que dans 62 % des cas [17]. On peut en rapprocher deux autres études sur la faible fiabilité des diagnostics : dans 64 % des cas (ce qui signifie que les oncologues font un mauvais diagnostic dans plus d’une lésion sur trois) [18] ; de même, le diagnostic sur biopsie de peau échoue dans un peu plus d’un tiers des cas (36 %) [19]. Donc, « s’agissant d’une maladie potentiellement mortelle, l’incapacité clinique à diagnostiquer correctement des mélanomes a des implications graves pour la survie des patients [20] ».
b’) Bruits intrapersonnels
Ils sont aussi qualifiés d’occasionnels, ce qui est un adjectif au minimum opaque, ou de variabilité intrajuge (par opposition à interjuge), ce qui est plus transparent. Quoi qu’il en soit de la dénomination, une étude a demandé à des radiologues de réévaluer une même image à plusieurs reprises ; or, ils ont manifesté un désaccord avec eux-mêmes, sans que celui-ci soit aussi fort qu’avec leurs collègues [21]. De même, 22 médecins à qui l’on a demandé de poser à nouveau un diagnostic d’obstruction d’artères ont pris une décision différente de la première fois dans 63 à 92 % des cas [22]. De manière plus générale, plus les critères sont vagues, plus les diagnostics sont difficiles, plus les variabilités intrapersonnelles sont grandes [23].
2’) Les bruits en matière de traitement
Une abondante littérature scientifique fait état de la diversité des évaluations thérapeutiques. Par exemple, depuis plus de vingt ans, le Darmouth Atlas Project recense « les variations manifestes dans la manière dont les ressources médicales sont distribuées et utilisées aux États-Unis [24] ». Il en est de même dans de nombreux autres pays [25]. Par exemple, il n’est pas rare qu’un patient prenne plusieurs médicaments ; or, en matière d’interaction médicamenteuse, les médecins généralistes présentent un accord « médiocre » [26].
b) Quelques causes
1’) Cause intellectuelle. La vertu médicale
La première cause de bruit est liée au médecin, à savoir la disparité des compétences. C’est ce qu’a montré une étude sur la dispersion de diagnostic de la pneumonie chez les radiologues [27].
Toutefois, « la variation des compétences peut expliquer 44 % de la variation des décisions de diagnostic », ce qui signifie que le bruit est causé à plus de la moitié (56 % pour être précis) par d’autres facteurs.
2’) Cause affective
D’autres causes ne sont pas sans rappeler celles identifiées chez les juges et qui relèvent de l’affectivité. Il est vrai toutefois qu’il ne s’agit pas tant de variabilité entre les diagnostics qu’entre les moyens de diagnostic que sont les examens. C’est ainsi que les médecins sont beaucoup plus enclins à prescrire des dépistages de cancer (par exemple du sein ou du côlon) tôt le matin (63,7 % à 8 heures) que tard (48,7 % à 11 heures), tôt dans l’après-midi (56,2 % à midi) que tard (47,8 % à 17 heures) [28]. Quel mécanisme invoquer ? Il est évident que, plus la matinée et plus l’après-midi avancent, plus le retard, la fatigue et le stress s’accumulent. Or, ceux-ci tendent à favoriser le plus important ou le plus urgent. Mais, au moins pour notre médecine occidentale, le curatif prime le préventif. Voilà pourquoi le patient a nettement moins de chance de se voir prescrire un programme de dépistage au fur et à mesure où la demi-journée avance. C’est ce que confirment d’autres pratiques : les cliniciens se lavent moins les mains en fin de gardes [29].
3’) Cause psychique
Une étude a porté sur la prescription des opioïdes par les médecins généralistes en fonction de l’horaire de la journée. 700 000 consultations ont été examinées. Le résultat, étonnant, a montré que les ordonnances de ces médicaments étaient plus nombreuses en fin d’une longue journée qu’en début [30]. Or, l’horaire de la consultation est indépendant de ses causes, c’est-à-dire des besoins du patient. Donc, de manière contre-intuitive, les prescriptions d’opioïdes ne sont pas dues au malade. Or, les deux principales causes sont le médecin et le malade. Il y a donc de fortes chances que le jugement du médecin soit influencé, biaisé par lui. En l’occurrence, une longue journée secrète avant tout de la fatigue et du stress (par exemple, lié au retard). Ainsi le biais de jugement thérapeutique est ici l’état psychique du médecin.
Il est d’ailleurs possible d’affiner la saisie du mécanisme de l’erreur. En effet, comparativement, la prescription des séances de kinésithérapie ou des anti-inflammatoires n’est pas aussi sensible à l’horaire de la journée. Or, elle demande plus de temps. Donc, la raison du biais est bien la diminution de temps disponible et l’on sait que celui-ci est la première raison du stress. Une confirmation en est donnée par le fait que les médecins prescrivent plus d’antibiotiques [31] et moins de vaccins antigrippaux [32] en fin de journée qu’en début ; or, les premiers sont plus simples et plus brefs à prescrire que les seconds.
c) Quelques remèdes
Comment réduire ces bruits aux conséquences si délétères, voire si léthales ? Le mal dicte le traitement !
1’) L’apprentissage
Si la diversité des compétences explique la variabilité des diagnostics, des directives visant à l’amélioration de la compétence, comme la formation et la sélection des candidats réduiront nécessairement les erreurs de bruit [33].
L’acquisition des compétences doit aussi se faire tôt après la formation initiale du médecin. Une étude montre ainsi que le « mélange » le plus efficace est celui de l’expérience des premières années de pratique avec une formation continue faite de la connaissance des données et des directives les plus récentes [34].
2’) Le croisement des jugements
Ces croisements peuvent s’opérer soit en intraindividuel en multipliant les propres diagnostics, soit en interindividuel lors de réunions de concertation [35].
3’) L’aide de la technique
Une médiation inattendue à cette confrontation entre diagnostic est offerte par les algorithmes – notamment parce qu’ils ne sont sujet ni aux bruits, ni aux biais ! Une étude a ainsi convoqué l’aide de l’intelligence artificielle pour détecter des métastases sur ganglions lymphatiques chez les femmes atteintes d’un cancer du sein ; or, les résultats des meilleurs algorithmes ont été supérieurs à ceux des meilleurs pathologistes [36]. Cette étude a été confirmée pour le diagnostic des problèmes oculaires consécutifs au diabète [37] ou des tumeurs cancéreuses à partir de mammographies (l’IA est aussi fiable que les radiologues) [38].
4’) L’aide des directives
Les normes peuvent aussi réduire les bruits. Un exemple célèbre le montre : celui du score d’Apgar, qui fut conçu en 1952 par Virginia Apgar, une anesthésiste-réanimatrice, pour évaluer la bonne santé du nouveau-né [39]. Or, son efficacité tient à ce qu’elle substitue à une évaluation vague, intuitive et qualitative, une évaluation précise, analytique (décomposant un jugement complexe en sous-jugements élémentaires) et quantitative (à partir d’une échelle de critères préétablis). C’est ainsi que procède le score de Centor [40] dans le diagnostic de l’angine streptococcique : il part d’un certain nombre de symptômes qu’il évalue à partir d’une échelle [41]. Il en est de même pour le BI-RADS (Breast Imaging Reporting and Data System) utilisé pour le diagnostic de cancer du sein qui réduit les variabilités entre diagnostics [42], et des directives proposées dans d’autres domaines [43].
d) Conclusion
Derechef, nous sommes conduits à affirmer l’omniprésence inquiétante du bruit en matière de jugement, ici diagnostique. Et la multiplication des examens complémentaires qui donnent la fausse sécurité des chiffres et des images ne doit pas faire illusion : plus de quantité n’équivaut pas à plus de certitude.
e) Les bruits en matière de diagnostic psychiatrique
Étudions à part la médecine psychiatrique.
1’) Le fait
Autant la médecine somatique a pu réduire les bruits, parfois de manière considérable, autant la psychiatrie peine à y arriver. Pourtant, ce n’est pas faute de prise de conscience et d’efforts entrepris dans ce domaine, puisque les premières tentatives remontent aux années 1940 [44].
De fait, une étude de 1964 sur 91 patients et 10 psychiatres montrait que la probabilité d’un accord entre deux opinions était de seulement 57 % [45]. Cette étude a été confirmée à plusieurs reprises, aboutissant à des scores avoisinants (50 % ou 54 %) [46].
2’) Les causes
Les facteurs expliquant ce niveau élevé de variabilité ne sont pas connus. Sans nul doute, une première tient à la grande variété des diagnostics possibles [47].
Une deuxième cause est le médecin ou, plus précisément, sa formation. En effet, multiples sont les écoles interprétatives : psychanalytique, comportementale, biomédicale, etc. [48] Dans les catégories plus loin exposées de la psychologie sociale, nous sommes face à ce que Kahneman appelle un bruit de pattern.
Une dernière cause relève de la nomenclature utilisée. En effet, au point de départ, elle ne proposait pas de critères explicites des maladies mentales. Voilà pourquoi, en 1980, la troisième version du DSM (Diagnostic and Statistical Manual of Mental Disorders) ou DSM-III a enfin offert une liste de signes pour classer les troubles psychiques [49]. S’il diminua le bruit, il fut toutefois loin de l’annuler. Le manuel connut une nouvelle version en 1994 (le DSM-IV), lui-même révisé en 2000. Néanmoins, le niveau de bruit est demeuré élevé [50]. Si ces critères psychiatriques « accroît la fiabilité des diagnostics », ceux-ci peuvent encore se multiplier [51]. L’on peut en dire de même du DSM-V, publié en 2013 [52], qui offre davantage de critères objectifs mieux calibrés [53], mais est encore loin de permettre l’unanimité dans l’application diagnostique. Par exemple, selon Samuel Lieblich et ses collègues, « les psychiatres ont de grandes difficultés à s’entendre sur qui souffre ou non d’un trouble dépressif grave [54] ». Concrètement, « des psychiatres spécialisés très bien formés n’ont été d’accord pour dire qu’un patient avait une dépression qu’entre 4 % et 15 % du temps [55] »…
J’ajoute une autre raison qui tient à la nature même de notre psychisme : quant aux signes, son caractère invisible et la dimension vécue, historique, donc subjective, plus importante [56] (voilà pourquoi « les signes diagnostiques de certains troubles sont toujours vagues et difficiles à rendre opérationnels [57] ») ; quant à la nature même de la maladie, sa grande singularité personnelle, alors qu’il n’y a de science que du général ; quant à la cause, sa grande interaction avec le corps, la liberté et, osons-le dire, sa finalité surnaturelle, ainsi que la perméabilité aux influences démoniaques.
3’) Les remèdes
Comme toujours, des directives ont été proposées, ici par des psychiatres éminents. En trois directions [58] :
- à l’instar de la méthode utilisée pour les scores, clarifier les composantes du diagnostic ;
- élaborer des « définitions de référence » des symptômes plutôt qu’aller trop vite au diagnostic ;
- utiliser des techniques d’entretien structuré, notamment à l’aide de 24 questions de dépistage.
Pour moi, ces trois directives standardisées manquent la dernière raison que nous avons avancée et me semblent biaisées (sic !) par le positivisme mécaniste latent de la psychiatrie.
4) En matière d’assurance
a) Le fait
De même, le niveau de bruit audité y est aussi impressionnant que contre-intuitif [59]. Comme pour le jugement pénal, ce qui est évalué est bien un jugement professionnel, expert. Ce qui est propre à l’assurance est son objet, à savoir la fixation de la prime d’assurance correspondant au risque présenté par la situation du souscripteur ou le sinistre qu’il a subi. Pour être moins grisant que les prescriptions pénales, le sujet est d’importance, parce que le coût de l’estimation pèse sur la société d’assurances. Pour notre sujet qui est le bruit, la question concrète devient : à quelle divergence moyenne doit-on s’attendre entre l’estimation de deux experts en prime d’assurance et de sinistre ?
Là encore, spontanément, nous nous attendons à une différence minime, justement parce que nous avons affaire à des experts qui, par définition, sont des connaisseurs. Kahneman et ses collègues ont interrogé 828 P-DG et cadres supérieurs qui ont répondu, en moyenne, que, selon leur opinion, la disparité était de 10 %.
Qu’en est-il en réalité ? L’écart médian entre les estimations effectuées pour la prime d’assurance était de 55 % et pour le sinistre, de 43 %. La divergence, plus de cinq fois et plus de quatre fois supérieure, est donc considérable. Or, ce niveau de bruit se traduit, pour l’entreprise, en des pertes financières de « centaines de millions de dollars [60] ».
b) La cause
1’) L’illusion d’accord
Ne nous trompons pas. Ici, nous avons affaire à un biais et non pas à un bruit. En effet, celui-ci se caractérise par une propriété, sa faible variabilité, et par sa cause. Or, la divergence est très peu disséminée entre les évaluateurs (environ 10 %). Elle doit aussi relever d’une même raison. Il s’agit donc d’un biais cognitif, en l’occurrence l’illusion d’accord. En effet, les professionnels de l’assurance savaient qu’il y avait des disparités entre eux ; mais ils ignoraient qu’elles étaient aussi importantes. Autrement dit, ils étaient convaincus qu’ils donnaient grosso modo les mêmes primes ou les mêmes indemnités.
2’) Le syllogisme de l’universalisme naïf
Le mécanisme responsable de cette illusion, c’est le réalisme naïf [61]. Pour ma part, eu égard à la signification philosophique (épistémologique) du terme « réalisme », je préfèrerais parler d’un universalisme naïf. Il est fondé sur la croyance suivante : nous partageons la même vision du réel. J’ajoute qu’on pourrait la systématiser dans un syllogisme qui est celui de l’universalisme naïf : la vérité est l’adéquation au monde, au réel ; or, le monde de l’assurance est commun sinon à tous les assureurs, du moins à tous ceux qui ont déjà du métier ; donc, la vérité édictée par le jugement professionnelle sera elle-même commune.
À cette cause rationnelle ou plutôt rationalisée s’ajoute une cause affective, voire volitive : l’inconfort, voire le coût affectif, du désaccord. J’ajouterais que nous sommes naturellement (c’est-à-dire par nature, selon ce qui est inscrit dans notre essence humaine) inclinés vers l’autre et faits pour vivre ensemble. Or, la désunion brise ce vivre-ensemble. Donc, nous sommes spontanément inclus à exclure ou, du moins, minimiser les divergences cognitives.
C) Nature du bruit
Pour comprendre ce qu’est le bruit, il peut être intéressant de le comparer à la notion voisine de bais cognitif, d’autant que les deux catégories ont été inventées par la même personne. En effet, tous deux sont des blessures de l’intelligence. Dès lors, celle-ci constitue le genre et ceux-là les espèces. Et la question qui devient : quelle différence existe-t-il entre biais et bruit ? porte sur la différence spécifique.
1) Une image
Avec le sens pédagogique qui le caractérise, le prix Nobel d’économie ouvre son livre sur la noise par une métaphore : celle du tir au fusil [62]. Quatre équipes, numérotées A, B, C et D, de cinq personnes tirent sur une cible. Les résultats, donc la cible finale sont tous différents.
Tous les tirs de l’équipe A sont regroupés près du centre. Tous ceux de l’équipe B sont à la fois loin du centre et regroupés dans un coin. Ceux de l’équipe C sont dispersés sur toute la cible. Enfin, ceux de l’équipe D sont dispersés tout en étant régionalisés, c’est-à-dire regroupés sur une partie de la cible.
Commentons ces résultats. Dans l’équipe A, non seulement les tireurs sont excellents, mais le matériel est aussi sans défaut. Dans l’équipe B, l’erreur des tireurs est à ce point systématique qu’elle est prévisible (s’il y a un autre tir, il y a fort à parier qu’elle ira dans le même coin). Elle donne aussi à penser qu’il y a une cause qui fausse les résultats (par exemple, une carabine qui présente un défaut), autrement dit qui les biaise. Dans l’équipe C, l’erreur présente deux caractéristiques opposées : d’une part, la dissémination est telle que le prochain tir est imprédictible ; d’autre part, le fait même de cette dispersion interdit de déterminer la cause de ces tirs médiocres. Enfin, dans l’équipe D, les deux mécanismes précédents se combinent : comme l’équipe B, les tirs sont regroupés ; comme l’équipe C, ils sont dispersés.
De quoi ces cibles sont-elles l’image ?
Cibles |
Description des tirs |
Erreur |
Description |
A |
regroupés près du centre |
Aucune |
La vérité est atteinte |
B |
loin du centre et regroupés dans un coin |
Biais |
L’erreur est prévisible. Elle est liée à une cause déterminée. |
C |
dispersés sur toute la cible |
Bruit |
L’erreur est imprévisible. Elle n’est pas liée à une cause déterminée. |
D |
dispersés et regroupés sur une partie de la cible |
Biais + bruit |
|
Notons que, en prenant l’exemple d’une cible centrée et en incarnant les tirs par un premier exemple où les tirs sont groupés, Kahneman plaide implicitement en faveur de la vérité et d’une conception normative de celle-ci : une personne est soit dans le mille, c’est-à-dire la vérité, soit s’écarte de ce centre, donc est dans l’erreur.
2) La notion
a) Exposé
Nous verrons plus loin l’origine du bruit (unique ou pluriel, subjectif ou objectif ?), ou les espèces de bruit, considérons ici son essence, c’est-à-dire sa notion.
Même si Kahneman et ses collègues ne définissent jamais formellement la noise, il me semble possible de proposer une définition. En l’occurrence, le bruit est la variabilité des jugements concernant un même objet. Autrement dit, il caractérise la dispersion des discernements posés principalement en matière pratique.
En fait, à cette définition descriptive se joint aussitôt une définition prescriptive. Les chercheurs ne se contentent pas de constater cette dispersion des jugements ; souvent, ils la mesurent à la vérité une qui est manquée par le bruit. Dès lors, à l’instar du biais, le bruit rentre dans le genre des erreurs involontaires (ou illusions). Plus encore, il en constitue l’une des deux espèces. Ainsi que le propose une systématisation, l’erreur se décompose en deux : le biais et le bruit systémique. La question devient alors de savoir en quoi consiste la différence spécifique. Elle ne tient pas au nombre d’opinions. Il suffit de deux jugements éloignés sur une même affaire pour que l’on soit en droit de parler de bruit. Elle tient à la variabilité qui est une composante intrinsèque et nécessaire (ce qui ne manque pas d’être paradoxal, puisque cette variabilité est liée à la contingence !). Dès lors, on définira le bruit comme une erreur caractérisée par la variabilité interne des jugements.
b) Difficultés
Trois difficultés d’importance pourraient surgir.
- Notre définition se fait par genre et différence. Or, Kahneman présente le bruit et le biais comme deux parties (intégrales) composant cette erreur [63].
Nous répondrons que : autre l’essence, autre l’existence. Quant à l’essence, bruit et biais sont effectivement des parties (subjectives ou spécifiques), parce qu’ils vérifient intégralement la définition de l’erreur. Quant à l’existence, ils se répartissent, sans recouvrement, les causes principales d’erreurs, donc de blessures de l’intelligence.
- Nous avons proposé une définition normative du bruit. Or, l’ouvrage Noise défend que l’on peut l’identifier indépendamment de la vérité. Voire, il affirme que « cette propriété générale est essentielle ». Si l’on reprend l’image de la cible, il suffit de la voir de dos pour diagnostiquer le bruit à partir de la seule dispersion ; or, celle-ci est indifférente à la position du centre qui symbolise la vérité.
Nous répondrons que le statut de la vérité est différent dans le cadre du biais et dans celui du bruit. Et c’est le travail d’une philosophie (et pas seulement d’une science) du bruit que de mieux cerner la nature de cette vérité et du jugement (éminemment dialectique) qui l’atteint et la formule.
- Nous avons défini la blessure comme une privation (de vérité). Or, le bruit (comme le biais) se présente comme une erreur, ce qui est le contraire de la vérité. Donc, de même que l’opposition de privation diffère de l’opposition de contrariété, de même doit-on affirmer que le bruit (et le biais avec lui) s’excepte du genre blessure de l’intelligence.
Nous répondrons que la contrariété inclut la privation, mais pas l’inverse. En effet, la contrariété ajoute une détermination ou une forme qui actualise la potentialité, ici celle de l’intelligence. De même, d’ailleurs, le mensonge ajoute à la contrariété de l’intelligence, celle de la volonté, à savoir l’intention de tromper. Donc, le bruit appartient au genre blessure en tant qu’il est considéré comme privation et non pas en tant qu’il est ignorance.
Mais il faut dire plus. Dans les faits, ni le bruit ni le biais ne se présentent comme de simples ignorances. Ils avancent masqués (aux yeux mêmes de ceux qui commettent ces erreurs de jugement). Pour autant, en leur essence, il s’agit bien non pas d’abord d’un autre savoir, mais d’un non-savoir, c’est-à-dire d’une réelle ignorance. Il en est analogiquement de même pour les blessures de l’affectivité : en leur essence, elles sont bien constituées par ce manque douloureux d’achèvement ; mais en leur apparence, elles se présentent dissimulées aux yeux mêmes de ceux qui la vivent, tant il est insupportable de vivre dans la pure absence, ici de vérité.
Cette réponse demanderait à être systématisée, en l’occurrence, en distinguant une double perspective (et source) : consciente et inconsciente, apparente et réelle.
Pascal Ide
[1] Laura Horton, Paul Emery & P Marshall, « Development and assessment of inter- and intra-rater reliability of a novel ultrasound tool for scoring tendon and sheath disease : A pilot study », Ultrasound, 24 (2016) n° 3, p. 134-141, www.ncbi.nlm.nih.gov/pmc/articles/PMC5105362.
[2] Laura C. Collins, James L. Connolly, David L. Page, Robert A. Goulart, Etta D. Pisano, Laurie L. Fajardo, Wendie A. Berg, Daryl J. Caudry, Barbara J. McNeil & Stuart J. Schnitt, « Diagnostic agreement in the evaluation of image-guided breast core needle biopsies », American Journal of Surgical Pathology, 28 (2004) n° 1, p. 126-131, https://journals.lww.com/ajsp/Abstract/2004/01000/Diagnostic_Agreement_ in_the_Evaluation_of.15.aspx.
[3] Julie L. Fierro, Priya A. Prasad, A. Russell Localio, Robert W. Grundmeier, Richard C. Wasserman, Theoklis E. Zaoutis & Jeffrey S. Gerber, « Variability in the diagnosis and treatment of group A streptococcal pharyngitis by primary care pediatricians », Infection Control and Hospital Epidemiology, 35 (2014) n° S3, p. S79, www.jstor.org/stable/10.1086/677820.
[4] Diabetes Tests, Centers for Disease Control and Prevention, https://www.cdc.gov/ diabetes/basics/getting-tested.html, consulté le 15 janvier 2020.
[5] C’est là son « talon d’Achille » (cf. P J Robinson, « Radiology’s Achilles’heel. Error and variation in the interpretation of the Röntgen image », British Journal of Radiology, 70 [1997], p. 1085-1098).
[6] Comme le coeffficient de corrélation, le kappa peut être négatif, mais cela est rare en pratique. Voici une caractérisation de la signification de différentes statistiques kappa : « faible (K = 0,00 à 0,20), honnête (K = 0,21 à 0,40), modérée (K = 0,41 zi 0,60), substantielle (K = 0,61 à 0,80) et presque parfaite (K > 0,80) ». Ron Wald, Chaim M. Bell, Rosane Nisenbaum, Samuel Perrone, Orfeas Liangos, Andreas Laupacis & Bertrand L. Jaber, « lnterobserver reliability of urine sediment interpretation », Clinical Journal of the American Society of Nephrology, 4 (2009) n° 3, p. 567-571.
[7] Joseph D. Kronz, William H. Westra & Jonathan I. Epstein, « Mandatory second opinion surgical pathology at a large referral hospital », Cancer, 86 (1999) n° 11, p. 2426-2435.
[8] Timothy A. DeRouen, John A. Murray & William Owen, « Variability in the analysis of coronary arteriograms », Circulation, 55 (1977) n° 2, p. 324.
[9] Centers for Disease Control and Prevention, « Heart disease facts », www.cdc.gov/ heartdisease/facts.htm, consulté le 16 juin 2020.
[10] Jean-Pierre Zellweger, Raphael Heinzer, Morro Touray, Beatriz Vidondo & Ekkehardt Altpeter, « Intra-observer and overall agreement in the radiological assessment of tuberculosis », International Journal of Tuberculosis & Lung Disease, 10 (2006) n° 10, p. 1123-1126. Au sujet de la concordance interjuges « correcte », voir Yanina Balabanova, Richard J. Coker, Ivan Fedorin, Sofia Zakharova, S Plavinskij, N Krukov, R Atun & Francis Drobniewski, « Variability in interpretation of chest radiographs among Russian clinicians and implications for screening programmes : Observational study », BMJ, 331(2005) n° 7513, p. 379-382.
[11] Shinsaku Sakurada, Nguyen T. L. Hang, Naoki Ishizuka, Emiko Toyota, Le D. Hung, Pham T. Chuc, Luu T. Lien, Pham H. Thuong, Bich Pham, Naoto Keicho & Nobuyuki Kobayashi, « Inter-rater agreement in the assessment of abnormal chest X-ray findings for tuberculosis between two Asian countries », BMC Infectious Diseases, 12 (2012) n° 1, p. 31.
[12] Juan P. Palazzo & Terry Hyslop, « Hyperplastic ductal and lobular lesions and carcinomas in situ of the breast : Reproducibility of current diagnostic criteria among community-and academic-based pathologists », Breast Journal, 4 (2003) n° 4, p. 230-237.
[13] Rohit K. Jain, Rosen Dimitrov & Lisbeth Larsson, « Atypical ductal hyperplasia: Interobserver and intraobserver variability », Modern Pathology, 24 (2011) n° 7, p. 917-923.
[14] Craig A. Beam, Peter M. Layde & Daniel C. Sullivan, « Variability in the interpretation of screening mammograms by US radiologists », Archives of Internal Medicine, 156 (1996) n° 2, p. 209-213.
[15] Ron Wald, Chaim M. Bell, Rosane Nisenbaum, Samuel Perrone, Orfeas Liangos, Andreas Laupacis & Bertrand L. Jaber, « lnterobserver reliability of urine sediment interpretation », Clinical Journal of the American Society of Nephrology, 4 (2009) n° 3, p. 567-571.
[16] Alex C. Speciale, Ricardo Pietrobon, Chris W. Urban, William J. Richardson, Clyde A. Helms, Nancy Major, David Enterline, Lloyd Hey, Michael Martin Haglund, Dennis A. Turner, « Observer variability in assessing lumbar spinal stenosis severity on magnetic resonance imaging and its relation to cross-sectional spinal canal area », Spine, 27 (2002) n° 10, p. 1082-1086.
[17] Evan R. Farmer, R Gonin & M P Hanna , « Discordance in the histopathologic diagnosis of melanoma and melanocytic nevi between expert pathologists », Human Pathology, 27 (1996) n° 6, p. 528-531.
[18] Alfred W. Kopf, M. Mintzis & R. S. Bart, « Diagnostic accuracy in malignant melanoma », Archives of Dermatology, 111 (1975) n° 10, p. 1291-1292.
[19] Maria Miller & A. Bernard Ackerman, « How accurate are dermatologists in the diagnosis of melanoma ? Degree of accuracy and implications », Archives of Dermatology, 128 (1992) n° 4, p. 559-560.
[20] Ibid.
[21] P. Robinson, D Wilson, A Coral, A Murphy & P Verow, « Variation between experienced observers in the interpretation of accident and emergency radiographs », British Journal of Radiology, 72 (1999) n° 856, p. 323-330.
[22] Katherine M. Detre, E Wright, M L Murphy & T Takaro, « Observer agreement in evaluating coronary angiograms », Circulation, 52 (1975) n° 6, p. 979-986.
[23] Laura Horton et al., « Development and assessment of inter- and intra-rater reliability of a novel ultrasound tool for scoring tendon and sheath disease : A pilot study », art. cit. ; et Megan Banky, Ross A. Clark, Yong Hao Pua, Benjamin F. Mentiplay, John H. Olver & Gavin Williams, « Inter- and intra-rater variability of testing velocitywhen assessing lower limb spasticity », Journal of Rehabilitation Medicine, 51 (2019) n° 1, p. 54-60.
[24] La plupart du contenu peut se trouver en ligne. Voir aussi Dartmouth Medical School, The Quality of Medical Care in the United States: A Report on the Medicare Program. The Dartmouth Atlas of Health Care 1999, American Hospital Publishers, 1999.
[25] Voir par exemple: OCDE, Geographic Variations in Health Care: What Do We Know and What Can Be Done to Improve Health System Performance ?, OECD Publishing, 2014, p. 137-169 ; Michael P. Hurley et al., « Geographic variation in surgical outcomes and cost between the United States and Japan », American Journal of Managed Care, 22 (2016) n° , p. 600- , www.ajmc.com/journals/issue/2016/2016-vol22-n9/geographic-variation-in-surgical-outcomes-and-cost-between-the-united-states-and-japan ; et John Appleby, Veena Raleigh, Francesca Frosini, Gwyn Bevan, Haiyan Gao & Tom Lyscom, Variations in Health Care: The Good, the Bad and the Inexplicable, The King’s Fund, 2011, www.kingsfund.org.uk/sites/default/files/Variations-in-health-care-good-bad-inexplicable-report-The-Kings-Fund-April-2011.pdf.
[26] Howard R. Strasberg et al., « Inter-rater agreement among physicians on the clinical significance of drug-drug interactions », AMIA Annual Symposium Proceedings, 2013, p. 1325, www.ncbi.nlm.nih.gov/pme/articles/PMC3900147.
[27] David C. Chan Ir et al., « Selection with variation in diagnostic skill : Evidence from radiologists », NBER Working Paper, 26467 (nov. 2019), www.nber.org/ papers/w26467.
[28] Esther Y. Hsiang et al., « Association of primary care clinic appointment time withclinician ordering and patient completion of breast and colorectal cancer screening », JAMA Networle Open, 51 (2019) n° , p. , https://jamanetwork.com/journals/jamanetworkopen/fullarticle/2733171.
[29] Hengchen Dai et al., « The impact of time at work and time off from work on rulecompliance : The case of hand hygiene in health care », Journal of Applied Psychology,100 (2015) n° , p. 846- .
[30] Hannah T. Neprash & Michael L. Barnett, « Association of primary care Clinic appointment time with opioid prescribing », JAMA Network Open, 2 (2019) n° 8, p. ; Lindsey M. Philpot et al., « Time of day is associated with opioid prescribing for low back pain in primary care », Journal of General Internal Medicine, 33 (2018) n° 11, p. 1828-1830.
[31] Jeffrey A. Linder, Jason N. Doctor, Mark W. Friedberg, Harry Reyes Nieva, Caroline Birks, Daniella Meeker & Craig R. Fox, « Time of day and the decision to prescribe antibiotics », JAMA Intern Med, 174 (2014) n° 12, p. 2029-2031.
[32] Rebecca H. Kim, Susan C. Day, Dylan S. Small, Christopher K. Snider, Charles A. L. Rareshide & Mitesh S. Patel, « Variations in influenza vaccination by clinic appointment time and an active choice intervention in the electronic health record to increase influenza vaccination », JAMA Network Open, 1 (2018) n° 5, p. .
[33] Jean-Pierre Zellweger et al., « Intra-observer and over all agreement in the radiologicalassessment of tuberculosis », International Journal of Tuberculosis and Lung Direase, 10 (2006) n° , p. 1123- ; Ibrahim Abubakar et al., « Diagnostic accuracy of digital chestradiography for pulmonary tuberculosis in a UK urban population », European Respiratory Journal, 35 (2010) n° , p. 689- .
[34] Cf. Yusuke Tsugawa, Joseph P Newhouse, Alan M Zaslavsky, Daniel M Blumenthal & Anupam B. Jena, « Physician age and outcomes in elderly patients in hospital in the US. Observational study », BMJ, 357 (16 mai 2017), j1797.
[35] Michael L. Barnett et al., « Comparative accuracy of diagnosis by collective intelligence of multiple physicians vs individual physicians », JAMA Network Open, 2019,2, https://jamanetwork.com/journals/jamanetworkopen/Fullarticle/2726709 ; Kimberly H. Allison et al., « Understanding diagnostic variability in breast pathology : Lessons learned from an expert consensus review panel », Histopathology, 2014, 65, p. 240.
[36] Babak Ehteshami Bejnordi et al., « Diagnostic assessment of deep learning algorithms for detection of lymph node metastases in women with breast cancer », JAMA, 318 (2017) n° , p. 2199- .
[37] Varun Gulshan ct al., « Development and validation of a deep learning algorithmfor detection of diabetic retinopathy in retinal fundus photographs », JAMA, 516 (2016) n° , p. 2402- .
[38] Mary Beth Massat, « A promising future for AI in breast cancer screening », Applied Radiology, 47 (2018) n° , p. 22- ; Alejandro Rodriguez-Ruiz et al., « Stand-alone artificial intelligence for breast cancer detection in mammography : Comparison with 101 radiologists », Journal of the National Cancer Institute, 111 (2019) n° , p. 916- .
[39] Pour mémoire, le nom de la personne correspond aussi à l’acronyme (on parle alors de rétroacronyme) des cinq critères pris en compte pour cette évaluation : Apparence (couleur de la peau) ; Pouls ; Grimace (réflexes) ; Activité (tonus musculaire) ; Respiration !
[40] D’ailleurs, comme Apgar, les quatre premières lettres du nom de famille de Robert Centor a donné le rétroacronyme énonçant le critère du score…
[41] Warren Mclsaac et al., « Empirical validation of guidelines for the management ofpharyngitis in children and adults », JAMA, 291 (2004) n° , p. 1587- .
[42] Emilie A. Ooms et al., « Mammography : Interobserver variability in breast density assessment », Breast, 16 (2007) n° , p. 568- .
[43] Frances P. O’Malley et al., « Interobserver reptoducibility in the diagnosis of flat epithelial atypia of the breast », Modern Pathology, 9 (2006) n° , p. 172- .
[44] Voir Ahmed Aboraya et al., « The reliability of psychiatric diagnosis revisited », Psychiatry (Edgmont), 3 (2006) n° , p. 41- . Pour une synthèse, voir N. Kreitman, « The reliability of psychiatric diagnosis », Journal of Mental Science, 107 (1961) n° , p. 876-886.
[45] Ahmed Aboraya et al., « The reliability of psychiatric diagnosis revisited », art. cit., p. 43.
[46] Daniel Kahneman et ses collègues ne donnent pas de référence (cf. Noise, p. 295).
[47] C. H. Ward et al., « The psychiatric nomenclature : Reasons for diagnostic disagreement », Archives of General Psychiatry, 7 (1962) n° , p. 198- .
[48] Ahmed Aboraya et al., « The reliability of psychiatric diagnosis revisited », art. cit.
[49] Samuel M. Lieblich, David J. Castle, Christos Pantelis, Malcolm Hopwood, Allan Hunter Young & lan P. Everall, « High heterogeneity and low reliability in the diagnosis of major depression will impair the development of new drugs », British Journal of Psychiatry Open, 1 (2015) n° 2, p. e5-e7.
[50] Cf. Elie Cheniaux et al., « The diagnoses of schizophrenia, schizoaffective disorder, bipolar disorder and unipolar depression. Interrater reliability and congruence between DSM-IX and ICD-10 », Psychopathology, 42 (2009) n° , p. 296-298, en particulier p. 293.
[51] Ahmed Aboraya et al., « The reliability of psychiatric diagnosis revisited », art. cit., p. 47.
[52] Cf. Michael Chmielewski et al., « Method matters. Understanding diagnostic reliability in DSM-IV and DSM-V », Journal of Abnormal Psychology, 124 (2015), p. 764.
[53] Voir par exemple Helena Chmura Kraemer et al., « DSM-5 : How reliable is reliable enough ? », American Journal of Psychiatry, 169 (2012) n° , p. 13-15.
[54] S. M. Lieblich et al., « High heterogeneity and low reliability in the diagnosis of major depression will impair the development of new drugs », p. e5.
[55] Ibid.
[56] Ahmed Aboraya et al., « The reliability of psychiatric diagnosis revisited », art. cit., p. 47.
[57] Ibid.
[58] Ibid.
[59] Pour le détail, cf. la première partie, chapitre 2 : « Un bruit systémique ».
[60] Ibid., p. 30, pour tous les chiffres avancés.
[61] Dale W. Griffin & Lee Ross, « Subjective construal, social inference, and human misun- derstanding », Advances in Experimental Social Psychology, 24 (1991) n° , p. 319-359. Voir aussi Robert J. Robinson, Dacher Keltner, Andrew Ward & Lee Ross, « Actual versus assumed differences in construal : ‘Naive realism’ in intergoup perception and conflict », Journal of Personality and Social Psychology, 68 (1995) n° 3, p. 404 sq. Voir également Lee Ross et Andrew Ward, « Naive realism in everyday life : Implications for social conflict and misunderstanding », in E. S. Reed, E. Turiel & T. Brown (dir.), The Jean Piaget Symposium Series. Values and Knowledge, , Lawrence Erlbaum Associates, 1997.
[62] Cf. Daniel Kahneman, Olivier Sibony et Cass R. Sunstein, Noise, p. 9-11.
[63] Cf. Ibid., p. 218-219.