Mensonges, sacrés mensonges et modèles de régression

Quel sera le record du 100m en 2100 ? C’est une question que se sont posée des chercheurs anglais dans un article de 2004 et qui, pour y répondre, ont déployé leurs outils statistiques de manière assez maladroite. Une erreur qui n’est qu’une perche tendue pour faire une lecture critique d’un article scientifique et montrer comment on peut prédire n’importe quoi en ayant l’air scientifique.

Et quand on dit “statistiques”, on entend déjà un chuchotement dans l’oreille qui nous rappelle à la prudence avec ces mots popularisés¹ par Mark Twain : “Il y a trois sortes de mensonges : les mensonges, les sacrés mensonges et les statistiques” ²

Mensonge ou erreur, peu importe, toujours est-il qu’il est facile de (se) tromper avec des chiffres. Et une de ces erreurs potentielles concerne les prédictions que l’on peut faire à partir des données passées. Pour faire de telles prédictions, bien souvent la méthode est la suivante : on observe les données passées puis on prolonge la tendance observée dans le futur.
Il est donc nécessaire de décider comment prolonger ces données : c’est ce que l’on appelle le modèle de régression. Et ce choix peut-être assez fallacieux. Pour illustrer ceci, reprenons l’exemple des performances athlétiques sur 100m.

Les Jeux-Olympiques de 2156 seront historiques !

Pour prédire l’avenir des perfomances athlétiques, une manière de faire consiste à analyser l’évolution des performances passés pour en déduire l’évolution future. On trace sur un graphique les données passées, on trace une courbe qui a l’air de coller aux données et on peut prédire le futur ! Facile !

C’est ce qui a, donc, été fait dans un article publié en 2004 dans la revue Nature et dont le titre peut se traduire par “Un sprint historique aux Jeux Olympiques de 2156 ?”³.
Les auteurs de l’étude ont collecté tous les temps des champions olympiques, masculins et féminins, du 100m (depuis 1900 pour les hommes et -seulement- depuis 1928 pour les femmes, et jusqu’en 2004 date de publication de l’article). Ces données ont ensuite été tracées sur un graphique et approchées par une courbe supposée représenter la tendance (voir ci dessous).

Tiré de « Momentous sprint at the 2156 Olympics? ».
Les points bleus et rouge correspondent aux données passées : temps du vainqueur (respectivement masculin et féminin) du 100m aux JO par année.
Les pointillés épais représentent la prédiction future et les pointillés fins représentent les intervalles de confiances.

Ainsi l’étude prédit qu’en 2100 le temps féminin du 100m olympique sera d’environ 8.9sec et le record masculin sera d’environ 8.5sec. Il prédit également qu’aux Jeux Olympiques de 2156, le temps de la course féminine pourrait, pour la première fois, passer en dessous de celui de la course masculine. En prenant en compte une marge d’erreur, ils prédisent plus exactement que ce dépassement devrait avoir lieu entre 2064 et 2788 (!)

Cette information a été reprise dans différents médias, par exemple dans Les Echos, sur RDS média sportif canadien, ou en anglais dans The Telegraph ou dans Manchester Eveningnews.

Quelques critiques générales peuvent être émises sur ce résultat, notamment sur la qualité des données qui sont assez peu nombreuses (elle ne comprend qu’une information tous les 4 ans; d’autres articles sur le sujet, considèrent les meilleures performances annuelles) et pas très consistantes (le chronométrage et le règlement ont évolué pendant cette période).
Mais la critique principale concerne le modèle de régression utilisé, autrement dit le choix des tracés bleu et rouge supposés approximer les données.

Préparez le chronométrage négatif

Les auteurs de l’étude proposent d’utiliser une régression linéaire, c’est-à-dire une ligne droite qui passe au plus près des données. Ce choix peut être tout à fait opportun si le phénomène étudié correspond effectivement à une évolution linéaire, au moins localement. Mais est-ce le cas ici ?

Avec le jeu de données qui est proposé, on s’aperçoit qu’une approximation avec une droite semble, en effet, assez bien coller aux données et c’est ce que remarquent les auteurs : “Une gamme de modèles a été testée, […]. Les modèles linéaires (proposés ici) ont donc été adoptés car ils représentaient l’option la plus simple.”⁴.
Il semble donc que localement, à l’échelle de quelques décennies l’utilisation d’un modèle linéaire pourrait être pertinent.

Mais vous avez certainement remarqué le piège ici : en suivant les prédictions de ce modèle, dans un futur lointain, on finit par tomber sur des résultats absurdes : les temps finiront par arriver à 0s (aux alentours de 2615 pour les femmes et de 2876 pour les hommes) puis négatif (les Jeux Olympiques de l’an 3000 devraient se gagner en -6,67sec pour les femmes et en -1,39sec pour les hommes !). Cette absurdité a d’ailleurs été pointée du doigt dans le numéro suivant de Nature par la chercheuse en biostatistiques Kenneth Rice ⁵Si l’on prolonge dans le passé, on remarque aussi que les premiers athlètes olympiques (vers -800) auraient couru le 100m en environ 41 secondes pour les hommes et 59 secondes pour les femme (s’il y en avait eu).
Pour comparaison, le record actuel du 100m des plus de 105 ans est de 34”50).

Dans ce cas, l’utilisation d’une régression linéaire pour modéliser l’évolution des performances en sprint sur le long terme n’est pas du tout adaptée et ne nous dit en réalité rien de très intéressant sur les Jeux Olympiques de 2156.
Une critique de l’utilisation d’un modèle linéaire dans cette situation a également été publiée dans le numéro suivant de Nature par Weia Reinboud ⁶ (qui n’est pas une scientifique mais une athlète).

Affutez son regard critique sur les modèles de régression

Un exercice intéressant consisterait à réfléchir, en premier lieu, aux propriétés que doit avoir un bon modèle de régression, autrement dit quelle forme devrait avoir la courbe pour approximer les données de manière cohérente.
Dans le cas de la prédiction des performances athlétiques futures, en voici trois :

Comme on l’a vu, le modèle ne devrait pas décroitre indéfiniment. La courbe d’approximation doit atteindre un minimum, on dit qu’elle doit avoir une borne inférieure.
Cette borne inférieure doit être strictement positive (évidemment, le temps de course ne peut être ni négatif, ni nul).⁷.
Si l’on souhaite étendre l’extrapolation dans le passé pour estimer le meilleur coureur à chaque époque, il faut également que le modèle aie une borne supérieure.

Ces contraintes théoriques étant établies (et possiblement d’autres), il est alors possible de choisir un modèle de régression qui les respecte. C’est ce qui est fait par exemple dans l’image ci-dessous extrait d’un autre article⁸ sur cette même problématique.

Meilleurs performances annuelles en 100m masculin connues (croix) ou estimées (points). Les cercles représentent les records. Tiré de Volf (2011).
Le modèle de régression utilisé ici (en trait plein) a une pente qui diminue dans le temps ce qui correspond bien à un phénomène qui a une borne inférieure.

Une fois le modèle choisi, les paramètres doivent être ajustés pour coller au plus près aux données existantes et pouvoir ainsi prédire la tendance future.
Cette recherche d’un modèle de régression adéquat qui est ensuite ajusté aux données illustre le fait que souvent, un résultat scientifique robuste se nourrit d’une part d’une cohérence théorique et d’autre part d’une conformité aux données factuelles.

Alors évidemment ici l’enjeu est minimal et si ces chercheurs anglais et leurs prédictions pour 2156 ont fait cette erreur, par maladresse ou pour le buzz, les conséquences sont négligeables.
Il peut, cependant, être utile de garder à l’esprit que faire des prédictions futures à partir de données passées est assez périlleux et peut amener à des conclusions hasardeuses. Si l’on se soustrait à une rigueur scientifique, aux méthodes mathématiques qui encadrent ce type d’estimation et que l’on confie au cerveau humain le soin de tracer les lignes qui prolongent des tendances, il y a fort à parier que l’on retrouvera les biais que l’on connait déjà par ailleurs.

Bonus

Et en bonus quelques planches supplémentaires de xkcd qui n’en finit pas d’extrapoler des données au delà du raisonnable.

La résolution de Google Earth augmentera-t-elle jusqu’à dépasser la résolution de la réalité elle-même ? (qui correspond à la longueur de planck)

En 2012, il prédisait que le nombre de personnages légo surpassera le nombre d’humains autour de 2020. En 2022, il semblerait que ce soit effectivement le cas⁹.

La fréquence d’utilisation du mot « durable » semble croitre exponentiellement depuis les années 50.
Il prédit qu’en 2036, le mot durable apparaitra en moyenne une fois par page; qu’en 2061 ce sera en moyenne une fois par phrase puis qu’en 2109, les phrases ne seront composées que du mot durable répété inlassablement. Au-delà de cette date, c’est « terra incognita ».

xkcd: Curve-Fitting — Les méthodes de régression et ce qu’elle signifie. Linéaire : « Hey, j’ai fait une regression »; Quadratique : « Je voulais une ligne courbe, du coup j’en ai tracé une mathématiquement »; Logarithmique : « Regardez, ça plafonne ! « ; Exponentielle : « Regardez, c’est hors de contrôle »; LOESS : « Je suis sophistiqué, pas comme ces empotés de polynomieux »; Constante : « Je fais un graphique, mais j’ai pas envie »; Logistique : » Il faut connecter ces deux lignes, mais ma première idée n’était pas assez mathématique ». Intervalle de confiance : « Bon, la science c’est compliqué. Mais je suis une personne consciencieuse qui fait de son mieux ». Par morceaux : « J’ai une théorie, et ce sont les seuls données que j’ai pu trouver ». Lignes connectées : « J’ai cliqué sur « Lisser les données » sur excel; Filtre ad-hoc « J’ai eu une idée pour nettoyer les données, tu en penses quoi ? »; Château de cartes : « Comme vous pouvez le voir, le modèle colle parfaitem- attends, non non ne prolonge paaaaaaas »

En version originale « Lies, damned lies, and statistics ». L’origine exacte de cette expression est incertaine. Mark Twain en est souvent considéré comme l’auteur alors que quand il l’emploie dans son autobiographie, il l’attribue (probablement à tort) au premier ministre anglais Benjamin Disrael
Concernant plus spécifiquement les modèles prédictifs, Mark Twain raconte la chose suivante dans La Vie sur le Mississippi :
« Si je voulais faire comme l’un de ces scientifiques fastidieux et que je m’aventurais à démontrer ce qu’il adviendra dans le future lointain à partir de ce qui s’est passé ces dernières années, quelle opportunité ! … Regardez donc :
Au cours des cent soixante-seize dernières années, la partie inférieure du Mississippi s’est rétrécie de presque 400 mètres. Ce qui fait, en moyenne, à peine plus de 2m20 par an. Ainsi, n’importe quelle personne sensée, qui n’est ni aveugle ni stupide, peut constater qu’au cours de la période silurienne oolithique supérieure; ça fera un million d’année en Novembre prochain; la partie inférieure du Mississippi était plus longue de 2200km et se plantait dans le golf du Mexique comme une canne à pêche. Et, de même, n’importe qui de sensé peut constater que d’ici sept cent quarante six ans le Mississippi inférieur ne fera plus que 2km800 de long et alors Cairo et la Nouvelle-Orléans auront joint leurs rues et vivoteront joyeusement dirigées par un unique maire et un conseil municipal commun.
Il y a quelque chose de fascinant par rapport à la science. Il est possible de produire une énorme quantité de prédictions à partir d’un investissement minime en données factuelles »
http://www.twainquotes.com/Conjecture.html
Momentous sprint at the 2156 Olympics? https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3173856/
A range of curve-fitting procedures were tested, […] the r2 values for the linear models did not differ significantly from the maximum r2 values. Linear models were therefore adopted as each represented the simplest option.
« [Les auteurs] ont cependant omis de mentionner que (d’après leurs analyses) une course bien plus intéressante devrait avoir lieu autour de 2636, quand des temps inférieur à zéro seront enregistrés » Rice, K. Sprint research runs into a credibility gap. Nature 432, 147 (2004). https://doi.org/10.1038/432147b
Reinboud, W. Linear models can’t keep up with sport gender gap. Nature 432, 147 (2004). https://doi.org/10.1038/432147a
En prenant en compte la physique, on peut même remonter cette limite à 0,00000033 seconde en considérant la vitesse de la lumière comme limite. Mais ça n’aide pas tellement.
Pour information, au regard du reste de la littérature, la limite humaine semblerait se situer entre 9″20 et 9”50 pour les hommes et entre 10” et 10”50 pour les femmes :
« A stochastic model of progression of athletic records » (2010) estime à 9.227sec la limite pour les hommes; rien pour les femmes.
« Limit to improvement in running and swimming » (2011) donne 10.49sec pour les femmes (déjà atteint) et 9.506sec pour les hommes; .
« Ultimate 100M World Records through Extreme-Value Theory » (2009) donne 10.33sec pour les femmes; 9.51sec pour les hommes.
« Records in Athletics Through Extreme-Value Theory » (2006) donne 10.11sec pour les femmes; 9.29sec pour les hommes.
Volf, P. (2011). A stochastic model of progression of athletic records. IMA Journal of Management Mathematics, 22(2), 157-169.
Voir cet échange https://bricks.stackexchange.com/questions/10667/are-there-more-lego-minifigures-than-humans