L’effet probabilité Inversée est une manière trompeuse de présenter les chiffres en jouant sur les probabilités conditionnelles. Notre collègue physicien Florent Tournus a écrit en 2008 un article pour l’Observatoire zététique intitulé « Inconditionnel des probabilités conditionnelles« , si clair que que nous le reproduisons ici. Merci à lui !
Note : un groupe de doctorants-moniteurs du CIES de Grenoble a réalisé en 2010 un Zétéclip sur cet effet. Voir ici.
Les chiffres sont souvent utilisés à des fins de manipulation, de marketing par exemple (les fameux prix en 99 euros ou 99 centimes [1]). Tout le monde le sait, ce n’est pas un scoop. Et pourtant, même en le sachant, il est difficile de ne pas se laisser influencer, de ne pas tomber dans certains « pièges ». Essayer de garder un regard critique sur les chiffres qu’on nous présente (sondages etc.) demande une vigilance permanente. Je voudrais aborder ici un sujet qui, bien qu’éloigné du « paranormal », permet d’exercer son esprit critique : les probabilités ou proportions qui sont données de manière à être interprétées à tort, à créer un fort impact. Cet impact s’appuie sur une mauvaise perception des chiffres avancés, par ce que j’appellerai un effet de « probabilité inversée ».
Quelles sont les probabilités (ou proportions) qu’il faudrait connaître pour savoir à quel point mettre sa ceinture protège de la mort ? Il faudrait connaître la probabilité de mourir sachant qu’on a sa ceinture, et la comparer à la probabilité de mourir sachant qu’on n’a pas sa ceinture. C’est-à-dire, en notant A l’événement « mourir dans un accident de voiture », B « ne pas mettre sa ceinture » et C « mettre sa ceinture », comparer P(A/B) à P(A/C). Mais que nous donne le message « Pas de ceinture : 2 morts sur 5 » ? Ni P(A/C), ni même P(A/B), mais P(B/A) (la probabilité de ne pas avoir mis sa ceinture, sachant qu’on est mort d’un accident de voiture). Comment donc comparer P(A/B) à P(A/C) en connaissant uniquement P(B/A) ? Cela semble quasiment impossible ! Et pourtant, on sent bien malgré tout [9] que le slogan indique qu’on a plus de chances de survivre à un accident de voiture quand on met sa ceinture de sécurité. Cela vient peut-être du fait qu’on a une certaine « intuition » des probabilités mises en jeu, qui relient justement P(B/A) à P(A/B) [et P(A/C)].
Prenons notre courage à deux mains et lançons-nous dans une écriture mathématique du problème. Dans la suite, nous allons considérer que les probabilités sont confondues avec les proportions effectivement mesurées sur toute la population ou du moins, sur une grande population [10]. Commençons par préciser quelques notations : nous allons noter N le nombre total d’automobilistes [11], qui se répartissent en NB qui ne mettent pas leur ceinture et NC qui la mettent (on a donc NB + NC = N) et NA le nombre d’automobilistes qui sont morts dans un accident de voiture, qui se répartissent en NA&B qui n’avaient pas mis leur ceinture et NA&C qui l’avaient mise (on a donc NA&B + NA&C = NA). Les différentes probabilités correspondent alors aux proportions suivantes :
P(A&B) = NA&B/N (probabilité d’avoir A et B, « A&B » signifiant « A et B »)
P(B/A) = NA&B/NA et P(A/B) =NA&B/NB
P(A) = NA / N et P(B) = NB / N
P(A) = NA et P(B) = NB
Ces expressions nous permettent de retrouver la formule reliant les différentes probabilités :
P(A&B) = P(B) × P(A/B)
P(A&B) = P(A) × P(B/A)
En identifiant les deux expressions de P(A&B), le lien entre P(A/B) et P(B/A) apparaît [12] :
P(A) × P(B/A) = P(B) × P(A/B)
ce qui donne :
P(A/B) = P(B/A) × (P(A) / P(B))
et en faisant le rapport de P(A/B) et P(A/C) on obtient :
P(A/B) / P(A/C) = P(B/A) / P(C/A) × P(C) / P(B)
-
« 40 % des porteurs du VIH sont homosexuels » pour laisser penser : « Gare aux homosexuels, ils ont souvent le sida !»
-
« Aux États-Unis, 60 % des condamnés pour viol sont noirs » pour laisser penser : « Attention aux Noirs, ce sont des violeurs ! »
-
« 85 % des pédophiles consultent des sites web pornographiques » pour laisser penser : « Il est sur un site porno, tu te rends comptes, il est peut-être pédophile ! »
-
« 65 % des personnes qui payent l’impôt sur la fortune votent à droite » pour laisser penser : « Ceux qui votent à droite sont très riches »
-
« 70 % des élèves en échec scolaire regardent la télévision plus de 2h par jour » pour laisser penser : « Si mes enfants regardent trop la télévision, ils feront de mauvais élèves »
-
« 80 % des personnes atteintes d’une tumeur au cerveau possèdent un téléphone portable » pour laisser penser : « Les téléphones portables sont dangereux pour la santé ! »
- « 40 % des chasseurs aiment écouter Robert Charlebois » pour laisser penser : « Tu dois être chasseur, je t’ai entendu siffloter du Robert Charlebois… Non ? Ah bon ! »
Notes
[2] Vous me direz, ce n’est pas le but d’un message publicitaire !
[3] On l’écrit aussi parfois PB(A).
[4] Cette notion est au programme de mathématiques de terminale S, ES et L.
[5] Dans certains cas, les deux probabilités conditionnelles P(A/B) et P(B/A) se « ressemblent » et il faut vraiment réfléchir pour savoir quelle probabilité nous intéresse. Par exemple, dans le cas d’un test permettant de détecter une maladie, est-il préférable de connaître la probabilité que le test soit positif sachant qu’on est malade, ou celle qu’on soit malade sachant que le test est positif ?
[6] Ils meurent, mais quand ça ? Peu doivent se poser la question…
[7] En fait, même ce point n’est pas forcément clair. On peut en effet comprendre différemment le message de la sécurité routière : non pas « sur 5 morts d’un accident, 2 n’avaient pas mis leur ceinture » (ce qui revient effectivement à dire qu’il y a plus de morts « avec ceinture » que « sans ceinture ») mais : « sur 5 morts d’un accident, 2 sont morts à cause du fait qu’ils n’avaient pas mis leur ceinture, et 3 sont morts pour une autre raison ». Notons néanmoins que pour arriver à cette conclusion, il faudrait intégrer au raisonnement une analyse des causes réelles du décès, ce qui est très difficile (impossible ?). Cette ambiguïté du slogan est due à son caractère elliptique et à l’emploi des deux points : ils peuvent exprimer soit la concomitance des deux événements « ne pas avoir sa ceinture » et « être mort », soit un rapport de cause à effet. Et de fait, on peut tout à fait être mort et n’avoir pas mis sa ceinture, et imaginer que, d’après les circonstances de l’accident, on serait mort même si l’on avait mis sa ceinture… Pour la suite, nous considérons que le slogan indique bien uniquement une concomitance : « sur 5 morts d’un accident, 2 n’avaient pas mis leur ceinture ».
[8] On peut d’ailleurs lire ce raisonnement tenu par certains sur le net (certainement de façon humoristique…).
[9] Sauf si l’on suit le raisonnement erroné décrit ci-dessus.
[10] En toute rigueur, comme pour les sondages, on devrait indiquer des intervalles de confiance… mais ce n’est pas de cela que je voudrais parler ici.
[11] Au sens large, car rien n’indique dans le message que seuls les conducteurs sont concernés.
[12] C’est une forme du théorème de Bayes.
[13] Voir la note 7.
[14] Nous disposons d’une masse d’informations via une branche de recherche nommée « accidentologie » qui étudie les accidents et leurs causes. On peut consulter par exemple la section correspondante sur le site de la Sécurité routière.
On y trouve notamment un document intitulé « Les grandes données de l’accidentologie 2006 » qui nous donne cette information sur le port de la ceinture : « Si le port de la ceinture à l’avant était inférieur à 93 % sur les routes de rase campagne il y a dix ans, il atteint aujourd’hui plus de 98 %. En milieu urbain, la progression est spectaculaire, passant de 69,4 % en 1994 à 92,5 % aujourd’hui. Le taux de port de la ceinture aux places arrière est par contre beaucoup plus faible (74,2 % en milieu urbain) ».
Ce document rassemble par ailleurs un grand nombre de données présentant un effet de « probabilité inversée ». En voici quelques unes à titre d’exemple : « 79 % des motocyclistes tués ont entre 15 et 44 ans, et 52 % entre 20 et 34 ans » ; « 51,4 % des personnes tuées à cyclomoteur sont âgées de 15 à 19 ans » ; « 70 % des piétons tués le sont en ville » ; « 74 % des victimes sont des victimes locales : des piétons ou des occupants d’un véhicule immatriculé dans le département » ; « 11,8 % des accidents se sont produits par temps de pluie »… Telles quelles, ces données ne permettent pas de se faire une idée des différents facteurs de risque (mais il y a d’autres informations qui montrent de façon claire que certaines situations correspondent à un risque accru d’accident, comme par exemple « La nuit représente moins de 10 % du trafic mais 35 % des blessés hospitalisés et 44 % des personnes tuées »).
[15] Avec P(B) encore plus faible, le facteur multiplicatif serait encore plus grand.
[16] En fait, comme rappelé dans la note 14, nous disposons d’un grand nombre d’informations…
[17] Peut-être qu’il y a eu des études là-dessus…
[18] C’est le nom donné par Henri Broch à l’erreur qui consiste à confondre causalité et corrélation (voir p. 197 du livre « Le paranormal » d’Henri Broch, Éd. du Seuil).