Sciences politiques & Statistiques – TP Analyse de chiffres sur la délinquance – 3/3

Chiffres et statistiques pleuvent régulièrement dans les nombreux débats sur la délinquance(*), la plupart du temps sans qu’aucune précaution ne soit prise pour replacer ces chiffres dans leur contexte ou pour expliquer ce qu’ils traduisent réellement. Pourtant, ces chiffres, particulièrement difficiles à obtenir aussi bien pour des raisons techniques qu’éthiques, ont un impact très fort sur les représentations que nous nous faisons. Il m’a donc semblé important de faire un bilan de ce qui était vérifié et ce qui ne l’était pas.
Le matériau de base de cet article est le fameux débat entre B. Murat et E. Zemmour chez T. Ardisson.
Une des notions statistiques clés abordées est la notion de surreprésentation.

Dans cette troisième et dernière partie, nous analysons la pertinence des données statistiques ethniques relatives à la délinquance.
* Il y a un effet paillasson dans le mot délinquance, ainsi qu’un effet impact à très forte consonnance négative.  Délinquance, violence ou insécurité sont en effet souvent utilisés à tord et à travers, comme s’il étaient tous trois synonymes et interchangeables. Pourtant, cela ne va pas de soi  (voir l’article de Les Mots Sont Importants) : certains actes délinquants -dans le sens illégaux- ne sont pas violents tandis que d’autres actes violents ne sont pas considérés comme de la délinquance. Comme ce mot est ambigü, l’idéal serait de ne plus l’utiliser.


Extrait de Salut les terriens, 6 Mars 2010.

Retranscription de la fin de la discussion :
B. Murat :
Quand on est contrôlé 17 fois dans la journée, ça modifie le caractère
E. Zemmour :
Mais pourquoi on est contrôlé 17 fois par jour ? Pourquoi ? Parce que la plupart des trafiquants sont noirs et arabes. C’est comme ça, c’est un fait !
B. Murat :
Pas forcément, pas forcément.
E. Zemmour :
Ben, si.

A la suite de cette émission, E. Zemmour déclare dans Le Parisien du 08.03.2010 :
Ce n’est pas un dérapage, c’est une vérité. Je ne dis pas que tous les Noirs et les Arabes sont des délinquants ! Je dis juste qu’ils sont contrôlés plus souvent parce qu’il y a plus de délinquance parmi eux. Demandez à n’importe quel policier.

Analyse des propos d’E. Zemmour : « La plupart des trafiquants sont noirs et arabes. »

  • Quelles statistiques ethniques de la délinquance ?
  • Quelles variables aléatoires ? Quelles sources ? Quelles conclusions ?

Trame du raisonnement :
(a) La plupart des trafiquants sont noirs et arabes
+   (b) Le contrôle d’identité permet d’attraper les trafiquants
=> (c) En contrôlant plus les noirs et les arabes, on attrapera plus de trafiquants,
Pour tester la validité de la prémisse (a), notons que la phrase La plupart des trafiquants sont Noirs et Arabes est une affirmation statistique, mal énoncée certes, mais relevant de la statistique tout de même. E Zemmour sous-entend donc que ces satistiques existent et que quelqu’un a dénombré tous les trafiquants (T), puis les trafiquants Arabes (Ta) ou Noirs (Tn) et a calculé le rapport  (Ta+Tn)/T et a trouvé ainsi une probabilité supérieure à 0,5.

  • Quelles variables statistiques dans la prémisse (a) ?

Le « nombre de trafiquants » est une mauvaise variable statistique. On ne sait même pas de quel trafic on parle : de voitures, de drogue, de subprimes, d’armes, de sous-marins, de cigarettes, d’organes, de diamants, d’oeuvres d’art… ?
On peut supposer qu’E. Zemmour pense au trafic de drogue. Soit. Mais de quelle drogue ?
Comment peut-on compter les trafiquants ? Ceux qu’on a attrapés ? Ceux qui détenaient beaucoup de drogue ? Un peu ? Sont-ils représentatifs de la population des trafiquants ? Considère-t-on qu’on est trafiquant dès lors qu’on a « trafiqué » une fois ?
Une variable statistique pertinente – dans le sens : que l’on peut dénombrer convenablement – serait, par exemple, le « nombre de personnes condamnées pour détention de cannabis ».

« Etre Noir » ou « être Arabe » ou « être Blanc » sont également de mauvaises variables statistiques. Quand commence-t-on ou arrête-t-on d’être Noir, Arabe  ou  Blanc ? Quand un des parents l’est ? Ou bien les deux ? Ou une grand-mère suffirait ? Pour « trancher » la question, certains pensent même à utiliser la consonance du nom de famille, comme cela a déjà été fait dans un article du Point du 24/06/2004 :
Le Point a pu consulter ces notes, dans lesquelles il apparaît que plus de la moitié, voire 60 ou 70%, des suspects répertoriés ont des noms à consonance étrangère. Cet élément est délicat à manipuler. En aucun cas l’on ne saurait déduire avec certitude une origine d’un patronyme. Il ne s’agit pas non plus de tirer des conclusions absurdes sur un caractère « culturel » de la criminalité. Mais écarter ces constatations d’un revers de manche est une grave erreur qui occulte l’échec de l’intégration.
On remarquera que la gravité de la conclusion, occulter l’échec de l’intégration, méritait pourtant qu’on s’assure de la qualité des prémisses du raisonnement.Plus récemment, on a pu lire dans cet article de Marianne2 datant du 12/01/2011 sur le procès d’E. Zemmour :
De son côté, comme l’a révélé Rue89, la défense d’Eric Zemmour a produit une lettre de soutien de Jean-Pierre Chevènement dans laquelle ce dernier confirme la réalité du constat qui vaut l’assignation du prévenu : « Il suffit, comme j’ai eu l’occasion de le faire de consulter les listings de la Direction centrale de la Sécurité publique du ministère de l’intérieur, pour constater que plus de 50% des infractions constatées étaient imputables à des jeunes dont le patronyme est de consonance africaine ou maghrébine. »
On notera également l’effet paillasson : infractions constatées = délinquance, analysé dans la première partie de ce TP.
 
 
  • Quelles sources pour les statistiques ethniques ou raciales dans la prémisse (a) ?

Si le fait d’établir des statistiques ethniques est en général illégal, certaines dérogations sont accordées par la CNIL. Par exemple, elle  peut autoriser sous certaines conditions la collecte d’informations sur le pays d’origine des individus ou de leurs parents (on pourra aller consulter les 10 recommandations de la CNIL ). Comme le rapporte un article du Monde du 05/02/2010 :

De fait, si la loi Informatique et liberté de 1978 énonce une interdiction de principe sur le traitement statistique des données sensibles, elle permet d’y déroger, sous contrôle de la Commission nationale informatique et libertés (CNIL) et à condition de respecter certains critères (consentement individuel, anonymat, intérêt général…).

Notons toutefois qu’il n’existe pas de statistiques sur des « variables » du type Blancs, Arabes et Noirs, à une exception près, exception de taille : à mon grand étonnement je l’avoue, il existe un fichier confidentiel, nommé  Fichier Canonge, qui classe les « délinquants » par « type » physique. Voici ce qu’en dit l’Express du 07/02/2006 :

A quoi ressemblent les délinquants de tous les jours? Pour le savoir, il suffit de se plonger dans un fichier méconnu, baptisé «Canonge», qui comporte l’état civil, la photo et la description physique très détaillée des personnes «signalisées» lors de leur placement en garde à vue. Grâce à cette base de données présentée à la victime, celle-ci peut espérer identifier son agresseur. Or ce logiciel, réactualisé en 2003, retient aujourd’hui 12 «types» ethniques: blanc-caucasien, méditerranéen, gitan, moyen-oriental, nord-africain-maghrébin, asiatique-eurasien, amérindien, indien, métis-mulâtre, noir, polynésien, mélanésien.

Cet outil est à manier avec prudence. D’abord, parce que, même si le Canonge est légal, la Commission nationale de l’informatique et des libertés (Cnil) interdit d’exploiter ses renseignements à d’autres fins que celle de la recherche d’un auteur présumé. Ensuite, parce qu’il ne dit rien de la nationalité et de l’origine de l’individu – qui peut être français depuis plusieurs générations malgré un physique méditerranéen, par exemple. Enfin, parce que les mentions sont portées par l’officier de police, avec la part de subjectivité que cela suppose.

Remarque : les mêmes précautions sont à prendre qu’avec les chiffres du rapport Criminalité et délinquance constatées en France (tris sélectifs de données, prédicion auto-réalisatrice, subjectivité des observateurs…)

  • Quelle population de référence pour établir la surreprésentation dans la prémisse (a) ?

Quand E. Zemmour prétend que la plupart des trafiquants sont Noirs ou Arabes, il énonce un résultat de surreprésentation : les Noirs ou les Arabes sont surreprésentés dans la population des trafiquants. Mais, cela ne vous a pas échappé, cette notion n’a de sens que si l’on connaît la population de référence. Il est probable qu’E. Zemmour considère la population résidant en France, mais cela n’a pas vraiment de sens, puisque toutes ces personnes ne vivent pas forcément dans des conditions externes égales. Pour savoir si les Noirs ou les Arabes sont surreprésentés, il serait préférable de considérer la population « susceptible d’être délinquante » (si tant est qu’on puisse donner un sens rigoureux à cette expression), c’est-à-dire celle qui vit dans les mêmes conditions que les « délinquants ».

  • Quelle probabilité conditionnelle dans l’implication (a)+(b) => c ?

Les prémisses (a) et (b) n’entraînent pas (c). Nous avons là un bel exemple de sophisme Non sequitur, dû à une erreur d’inversion de probabilité conditionnelle.
On retrouve le même sophisme dans les phrases suivantes, où il est plus facile à repérer

La plupart des pédophiles sont Blancs donc il faut plus contrôler les Blancs.
OU
La plupart des inculpés français dans l’affaire des frégates de Taïwan sont Blancs donc il faut plus contrôler les Blancs.
OU
Tous les incestes sont commis par un membre de la famille donc il faut contrôler tous les membres de sa famille

En fait, E. Zemmour s’emmèle les probabilités conditionnelles.

Certes, avec tous les guillemets nécessaires, il est vrai qu’il y a plus de personnes dites « Noires ou Arabes » dans le fichier Canonge que de Blanches ; dans la population totale, les proportions sont inversées. Sans avoir de chiffres précis, on peut donc quand même affirmer qu’on a une probabilité plus grande de tomber sur une personne figurant dans le fichier Canonge (*) en contrôlant les Noirs et les Arabes qu’en contrôlant les Blancs.
Cependant, ce n’est pas ce chiffre qui est important dans le contexte. La question est en fait de savoir si le contrôle d’identité ciblé permet d’arrêter des « délinquants ». Or, ce n’est pas parce que la proportion de Noirs et d’Arabes est importante dans la population des trafiquants – dans ce cas on considère P(N U A/T) – que la proportion de trafiquants est importante dans la population Noire et Arabe – ici on regarde P(T/N U A). Vous en serez encore plus convaincu si vous prenez les autres versions du sophisme.

Exemple :
Imaginons une population composée de 1 000 personnes, dont :
– 400 Noirs ou Arabes
– 600 Blancs
– 7 trafiquants : 5 Noirs ou Arabes et 2 Blancs
Dans cet exemple,
P(NUA / T) = Nombre de Trafiquants Noirs ou Arabes / Nombre de Trafiquants ≈ 71,4%
P(T / NUA) = Nombre de Trafiquants Noirs ou Arabes / Nombre de Noirs ou Arabes ≈ 1,2%
Les ordres de grandeur sont radicalement différents.

Notons qu’E. Zemmour revient sur ce point dans le Parisien et le rectifie. Cependant, quand il dit « Je dis juste qu’ils sont contrôlés plus souvent parce qu’il y a plus de délinquance parmi eux« ,  le parce que légitime la pratique du contrôle et sous-entend qu’on a des chances d’attraper des « trafiquants » de cette manière et donc que la probabilité P(T/A U N) est élevée ; sa prémisse de départ est, rappelons-le, que P(A U N/T)  est élevée.

(*) « Figurer dans le fichier Canonge » et « être délinquant » ne sont pas les mêmes variables ; attention à l’effet paillasson.

  • Quelles conséquences des approximations contenues dans les propos d’E. Zemmour  ?
Ces propos sont très essentialistes même, encore une fois, si ce n’était pas l’intention de l’auteur.  La phrase « la plupart des trafiquants sont Noirs ou Arabes » est très souvent entendue comme « Ils sont délinquants parce qu’ils sont Noirs ou Arabes » (effet cigogne), ce qui n’a aucun fondement scientifique et qui exacerbe le racisme.

Si les statistiques ethniques de la délinquance n’existent pas, certaines personnes ne se privent pourtant pas de les « interpréter ».


Mais au fait, quelle est la probabilité d’attraper un trafiquant lors d’une journée de contrôles d’identité ?
 
Cette partie est conçue pour pousser votre public à être vigilant quand il est question de statistiques, y compris quand c’est vous qui les présentez. Je vous propose pour cela de faire de mauvaises statistiques sans en avoir l’air. Si un membre du public réagit, vous avez gagné la partie. S’il n’y a pas de réactions spontanées, cela vous donnera l’occasion de pointer du doigt

1. la nécessité d’être vigilant en permanence : même averti, on n’est pas à l’abri d’une entourloupe, volontaire ou non,
2. qu’il ne faut pas croire sur parole la personne qui essaie de vous transmettre des outils critiques.

Attention : Mauvaises statistiques ! Les chiffres obtenus dans ce qui suit ne représentent absolument rien.
– Dans l’article de l’Express sur le fichier Canonge, il est dit que sur 103 000 trafiquants fichés, il y a 29% de Nord-Africains et 19% de Noirs.
En tout, cela fait 49 440 trafiquants Noirs ou Arabes.

– On peut évaluer à environ 2 988 745 personnes Noires ou Arabes en France.

– La probabilité de tomber sur un délinquant en contrôlant un Noir ou un Arabe au hasard est donc à peu près de 49 440 / 2 988 745  ≈ 1,7%.

– F. Jobard et R. Lévy rapportent p. 62 que le nombre moyen de contrôles observés par heure est de 1,25. Ce qui fait 8,75 contrôles pour 7 heures travaillées. Disons 9 contrôles par jour.

– En remarquant que la variable aléatoire « nombre de trafiquants attrapés dans la journée » suit une loi binomiale, on obtient la conclusion suivante :
la probabilité d’attraper au moins un trafiquant dans la journée en contrôlant les Noirs et les Arabes est d’environ 14,2%. Sur 100 journées de contrôles d’identité, une équipe qui pratique les contrôles d’identité revient sans trafiquant 85 fois.

Vous venez de créer une occasion pour votre public d’analyser vos propos :
Vous êtes-vous posé la question de savoir d’où sortait le chiffre du nombre de Noirs et Arabes en France ? Ce n’est en fait qu’une estimation, très mauvaise, faite avec les moyens du bord et très critiquable.
Je suis allée sur le site de l’INSEE où figurent des données – cliquer sur Données complémentaires, sur cette page et consulter le graphique 2 – sur le nombre de personnes entre 15 et 50 ans dont au moins un des parents est immigré de Turquie, d’Afrique Subsaharienne, du Maroc, de Tunisie ou d’Algérie : il y en a 1 282 000.
Par ailleurs, sur le site de l’INED, on peut télécharger le document Immigrés selon le sexe, l’âge et le pays de naissance 2007. Dans l’onglet France détail, on peut lire qu’il y a en France en 2007, 1 706 745 immigrés issus du continent Africain et qui ont entre 18 ans et 59 ans.

Ensuite, j’ai appliqué une grande dose de racisme ordinaire : ceux qui viennent (ou dont un parent vient) d’Europe sont blancs, ceux qui viennent du Maghreb sont Arabes et ceux qui viennent d’Afrique Noire sont Noirs. Les Antillais qui sont Français sont comptés comme Blancs, les Français dont les deux parents sont Français sont comptés comme Blancs etc…

Remarquez que, sur wikipedia (version du 19/01/2011), on peut lire

En 2010, la France accueille 6,7 millions d’immigrés (nés étrangers hors du territoire) soit 11% de la population. Elle se classe au sixième rang mondial, derrière les Etats-Unis (42,8 millions), la Russie (12,3), l’Allemagne (9,1), l’Arabie Saoudite (7,3), le Canada (7,2) mais elle devance en revanche le Royaume-uni (6,5) et l’Espagne (6,4). Les enfants d’immigrés, descendants directs d’un ou de deux immigrés, représentaient, en 2008, 6,5 millions de personnes, soit 11 % de la population également. Trois millions d’entre eux avaient leurs deux parents immigrés. Les immigrés sont principalement originaires de l’Union européenne (34 %), du Maghreb (30 %), d’Asie (14 %, dont le tiers de la Turquie) et d’Afrique subsaharienne (11 %).

En reprenant les calculs avec ces chiffres – à savoir 41% de 6,7 millions + 6,5 millions-, on obtient une probabilité d’attraper au moins un trafiquant en une journée de 8% environ. Encore faudrait-il savoir à quoi correspondent ces données exactement ? Les sources de l’article de wikipedia sont :

Les immigrés constituent 11% de la population française [archive], TF1, Alexandra Guillet, le 24 novembre 2010, source : Ined
Etre né en France d’un parent immigré
[archive], Insee Première, N° 1287, mars 2010, Catherine Borel et Bertrand Lhommeau, Insee
 
Bref, le calcul est biaisé et il m’est impossible d’évaluer la marge d’erreur commise. Ce chiffre n’a aucune légitimité et ne pourra être brandi d’aucune manière sur un quelconque plateau télé ou lors d’un quelconque dîner de famille ; il permet tout de même d’énoncer une conclusion : les chiffres ne parlent pas d’eux-mêmes. Il est primordial de savoir comment ils ont été élaborés avant de les utiliser. 
G.R.
 
 
Autres articles sur le sujet (liste non exhaustive) :
Le fait et la justification selon E. Zemmour (Statistix)
« Police et minorité visibles, les contrôles d’identité à Paris » – Quelques réflexions satistiques sur une enquête (Statistix):
présentation de différents indices permettant de mesurer l’intensité de la sur-représentation de certaines populations lors des contrôles de police à 
   la Gare du Nord à Paris.