Peut-on modéliser le monde social ?


Suite à ma conférence donnée le samedi 26 mars 2022 à Bruxelles au skeptics in the pub organisé par le comité para, je reviens dans cet article sur quelques points, dans le but de préciser certaines choses en complément de mon intervention. On va (re)parler de modèles en sciences et en sciences sociales tout particulièrement, en prenant comme exemple le modèle de ségrégation urbaine dû à Thomas Schelling. Ensuite, je reviendrai sur des remarques et des questions qui ont été soumises lors de mon intervention et auxquelles je n’ai pas apporté, à mon goût, de réponse satisfaisante. Il est conseillé de visionner la conférence dans un premier temps afin d’avoir à l’esprit l’entièreté du contexte de la discussion, et en particulier l’ensemble des sources sur lesquelles je m’appuie et que je ne recite pas en détail ici.

Modéliser le social

Le but de ma conférence était de présenter certains contre-exemples à opposer à des arguments souvent entendus pour soutenir le fait que les sciences sociales, et la sociologie en particulier, doivent jouir d’une épistémologie à part. Elles seraient, dans leur essence même, différentes des sciences dites « naturelles » à tel point que les critères épistémologiques habituellement appliqués à ces dernières, par exemple le fameux falsicationnisme poppérien, ne pourraient avoir prise ou de pertinence à l’égard de leur scientificité.

Je ne reviens pas sur ces questions que j’ai déjà exposées un peu plus en détail dans mon intervention. D’autres articles s’y sont d’ailleurs attelés ici-même. Ce qui m’intéresse ici, c’est de revenir sur un des modèles que j’y ai présenté, à savoir le modèle de Thomas Schelling ayant pour but de modéliser certains aspects des processus de ségrégation urbaine.

Le modèle de Schelling

Ce modèle, hautement stylisé, considère un processus dynamique prenant place sur un quadrillage. Sur ce quadrillage, on considère des agents de deux types représentés par deux couleurs (par exemple, rouge et bleu) disposés initialement sans ordre précis, et laissant un certain nombre de cases vacantes. On encode ensuite une dynamique où, à chaque pas de temps, les agents rouges et bleus peuvent changer de place en suivant une règle extrêmement simple. Chaque agent a huit plus proches voisins que l’on appelle son voisinage, ou quartier. On considère que les agents d’une couleur donnée ont un certain degré de tolérance envers les agents de l’autre couleur : chaque agent accepte que son voisinage soit constitué d’un certain pourcentage d’agents d’autres couleurs. Si ce pourcentage est supérieur au seuil de tolérance, alors l’agent « déménage », c’est-à-dire prend, sur le quadrillage, la place vacante la plus proche qui le satisfait de nouveau. Or, en ayant déménagé, il a légérement changé le quartier d’où il est parti tout autant que le quartier où il est arrivé, ce qui a pour conséquence de modifier l’état dans lequel se trouvent les occupants de ce quartier : le seuil de tolérance de certains agents présents dans ces quartiers a peut-être été dépassé. S’en suit une réaction en chaine.

Simulation avec un seuil de tolérance de 50%.
(Crédit : https://github.com/b3rnoulli/schelling-segregation-model)

En simulant cette dynamique pour un grand nombre de pas de temps, on observe la chose suivante : même avec un seuil de tolérance relativement élevé, par exemple 70% (ce qui signifie que chaque agent accepte d’être entouré jusqu’à 70% d’agents de l’autre couleur), en partant d’une situation où tous les agents sont disposés au hasard, on obtient inéluctablement une forte ségrégation. Ce qui veut dire que, selon ce modèle, même des individus assez tolérants peuvent, sans même s’en rendre compte, prendre des décisions individuelles qui, une fois agrégées les unes avec les autres, finissent par produire une forte ségrégation au niveau macro-social. D’autre part, on observe aussi que si le seuil de tolérance est très bas, donc si on a des individus très peu tolérants, alors on obtient une situation assez instable où la ségrégation est, paradoxalement, très faible : les individus qui arrivent quelque part sont si peu tolérants qu’ils déménagent rapidement, avant qu’ait pu se former un voisinage leur ressemblant assez pour qu’ils restent.

Si vous êtes intéressés, vous pouvez faire jouer vous-même la simulation via ce site : https://ncase.me/polygons/ et tester plusieurs configurations et paramétrages de départ.

Un peu d’épistémologie des modèles

Ce modèle, comme tous les modèles, est stylisé à l’extrême et repose sur des hypothèses loin de recouvrir l’ensemble des réalités dont on a connaissance au sujet des phénomènes de ségrégation. Par exemple, les seuls facteurs intervenant dans la dynamique du processus sont les décisions des individus qui habitent la ville, réduits à des couleurs dans une case, et ne reposant que sur un choix binaire (rester/déménager) commandé par un seuil de tolérance. Beaucoup d’aspects, comme les politiques publiques en termes d’aménagement, parfois elles-mêmes ségrégationnistes, le marché de l’immobilier ou encore les décisions des propriétaires (parfois eux-mêmes racistes) ne sont pas implémentées dans ce modèle. En gardant en tête ces limites – et tout modèle, de la physique quantique à la génétique des populations, a ses limites – le modèle de Schelling nous dit-il tout de même quelque chose d’intéressant ?

Un modèle est une représentation simplifiée de la réalité et ce que l’on perd en détail, on le gagne en manipulabilité. En d’autres termes, il y a une sorte d’équilibre entre, d’une part, un niveau de détails que l’on veut atteindre, et d’autre part la facilité avec laquelle on peut le manipuler et donc lui faire dire des choses. Pensez à une carte géographique : si la carte est trop complexe, par exemple si c’est la carte d’une région et qu’elle représente chaque rue de toutes les villes de la région, cette complexité va empiéter sur ce que l’on va pouvoir faire de la carte, c’est-à-dire sur l’aide cognitive qu’elle va nous apporter pour nous repérer. Si elle est trop simple, alors elle sera plus facilement manipulable, mais, bien sûr, on pourra faire moins de choses avec. Par exemple, on saura que telle ville est au dessus de telle autre et qu’il faut prendre cette route pour les relier, par contre une fois arrivée dans la ville il faudra utiliser une autre source d’information pour trouver, par exemple, la meilleure pizzéria. Dans tous les cas, même si elle est très simple, l’important est qu’elle parvienne à capturer un certain aspect du monde et de ses mécanismes. L’équilibre à trouver entre complexité et manipulabilité dépend entièrement de ce que l’on veut faire avec ce modèle, c’est-à-dire quel aspect du monde on souhaite qu’il nous rende intelligible – et jusqu’à quelle précision. On sait que les hypothèses sur lesquelles il repose sont parcelaires et manquent de nombreux détails qui pour d’autres raisons sont extrêmement importants à prendre en compte, et une erreur serait de tomber, en physique comme en sociologie, dans un réalisme naïf qui nous fait directement prendre nos modèles pour ce à quoi ressemble la réalité que l’on tente d’approcher.

Pour revenir au modèle de Schelling, ce qui intéressant est que, justement, même dans le cas où des hypothèses pouvant expliquer plus directement la ségrégation (comme par exemple le racisme de certains propriétaires) ne sont pas prises en compte et qu’au niveau micro-social les agents seraient d’accord pour qu’il n’y ait pas de ségrégation, une ségrégation apparaît inéluctablement. Ce qu’il nous montre, ce n’est évidemment pas la réalité dans toute sa complexité – car, en fait, aucun modèle ne fait une telle chose. Utiliser ce modèle et en parler, ce n’est pas non plus nier que d’autres facteurs jouent également dans le phénomène de ségrégation – à moins d’être d’une extrême naïveté épistémologique ou bien de vouloir faire dire à ce modèle des choses qu’il ne dit pas, dans le but, par exemple, de minimiser des politiques racistes. Non, modéliser la ségrégation avec le modèle de Schelling, c’est simplement analyser le problème comme une composition de plusieurs phénomènes conjugués et extraire l’un de ces phénomènes supposés pour le modéliser à part. En regardant ce que ce simple phénomène produirait comme effet – ici un effet dit « pervers » où le résultat macro-social va à l’encontre des opinions ou des attentes micro-sociales – il nous apporte une information importante. Au niveau méthodologique, un modèle n’est ni plus ni moins qu’un guide cognitif, des planches en bois posées sur le sable mouvant de la réalité pour nous aider à la regarder de plus près.1

Notons que ce modèle possède par ailleurs un certain succès empirique, puisqu’aux États-Unis où la ségrégation raciale a été très étudiée, il apparaît que le niveau de tolérance au niveau individuel augmente au cours du temps alors qu’une ségrégation urbaine élévée se maintient encore aujourd’hui.

Pour plus d’informations à ce sujet, je ne peux que vous conseiller ce cours en vidéo (en anglais) du sociologue Thomas Grund sur la ségrégation en général et sur le modèle de Schelling en particulier. https://www.youtube.com/watch?v=me9DBTsmUgo

Ce type de modèles et d’approches du monde social se reconnaît sous le vocable de « sociologie analytique », un ensemble de programmes de recherche assez peu connus en France – où la sociologie repose plus traditionnellement sur une approche holiste. Notons que le processus d’idéalisation en sociologie n’est absolument pas nouveau puisque la notion de type idéal, qui recouvre bien cette idée de décrire une réalité complexe en en stylisant à l’extrême certains aspects, remonte à Max Weber (1920). 2

Ce n’est pas de la sociologie

Je voudrais maintenant aborder un type de commentaires que l’on m’a adressé pendant la conférence et auquel je voudrais donner ici une réponse un peu plus claire. Ce type de commentaires, le voici :

« C’est sympa, mais ce n’est pas de la sociologie ».

J’ai présenté dans ma conférence un exemple de résultat typique de l’approche mécanistique propre à la sociologie analytique : on parvient à reproduire une régularité empirique portant sur la distribution des votes lors d’élections proportionnelles dans de nombreux pays différents et à différentes époques – ce qui est déjà en soi un résultat intéressant – en modélisant simplement l’influence sociale de proche en proche à l’aide d’un modèle en réseaux. À chaque nœud du réseau, représentant un individu, l’influence qu’il peut avoir sur les personnes avec qui il est en contact est modélisée par une certaine probabilité de les convaincre de voter pour tel ou tel candidat. En mettant la bonne distribution de probabilité (de forme classique pour ce type de phénomènes), on reproduit effectivement la distribution finale des votes observée macroscopiquement.

On m’a fait la remarque que ce n’était pas de la sociologie, mais de la théorie des réseaux – c’est-à-dire un simple modèle mathématique. Or, certains éléments de ce modèle possèdent une signification empirique, c’est-à-dire font référence à des grandeurs mesurables. Certes, le phénomène est expliqué au sein d’un cadre où l’on a accepté de manière a priori certaines hypothèses – et en particulier la forme de la probabilité modélisant l’influence sociale de proche en proche sur le réseau. Une explication plus « profonde » consisterait à dériver cette hypothèse à partir d’autres hypothèses appartenant à la sociologie ou à la psychologie cognitive, par exemple. Mais ça n’en reste pas moins une explication sociologique puisqu’en supposant cela, on redérive de manière non triviale une observation empirique portant sur le monde social. On pourrait faire le parallèle avec les modèles en mécanique newtonienne : on modélise un phénomène à l’aide d’un ensemble de forces qui s’exercent sur un système, mais la forme même de ces forces n’est adoptée que parcequ’elles parviennent ainsi à redériver un certain nombre d’observations empiriques. Pour autant, ils restent des modèles explicatifs – c’est simplement que l’explication est adossée à un certain cadre que l’on doit se donner a priori, contenu dans ce que Imre Lakatos appelait le noyau dur des théories. Le modèle cité plus haut n’est donc pas un simple modèle de la théorie des réseaux, mais le modèle d’un phénomène social, puisqu’il contient des éléments qui ont une signification empirique et qui portent sur le monde social (ici, le nombre de votes qu’un candidat obtient, le nombre de candidats dans sa liste, etc.) De la même façon, par exemple, que la théorie de la relativité générale n’est pas simplement de la géométrie lorenztienne (le cadre mathématique dans lequel cette théorie est écrite) puisqu’elle contient des hypothèses de correspondance entre des éléments de ses modèles et des éléments observables empiriquement.

Il se trouve que l’on peut dériver certains résultats empiriques portant sur un aspect du monde social sans faire référence – ou alors d’une manière minimale – aux intentions des individus prenant part au processus. Si on regarde la taille des villes en fonction de leur rang, par exemple au sein d’un pays, on tombe quasiment à chaque fois sur la même distribution (dite « en loi de puissance ») qui est typique des phénomènes d’agrégation asymétriques (où des choses s’agrègent et ont plus de probabilité de s’agréger là où quelque chose est déjà agrégé). On retrouve la même distribution pour d’autres phénomènes qui ne sont pas sociaux, comme par exemple les amas d’étoiles. Il est assez étonnant qu’un phénomène comme l’expansion d’une ville, qui en soit fait intervenir un nombre incalculables d’intentions et d’intérêts conflictuels, mais aussi des facteurs non humains, etc. finissent par produire une telle régularité. On m’a alors rétorqué que si un modèle pouvait reproduire un phénomène social sans qu’il n’y ait rien d’humain dedans, c’est-à-dire qui marche même « si c’est pas des humains », alors ce n’était pas de la sociologie.

Il y a deux réponses à apporter ici. Premièrement, le comportement humain est, comme tout le reste, modélisé au sein d’une théorie de l’action servant de support à une explication basée sur l’exhibition de mécanismes microsociaux qui, une fois agrégés, reproduise le phénomène macro-social à expliquer. Il faut, très souvent, modéliser l’action humaine pour que le mécanisme explicatif puisse s’incarner. Certes, cette modélisation est souvent stylisée pour pouvoir être facilement manipulable au sein de modèles, mais il n’en reste pas moins qu’elle existe et est souvent nécessaire (mais parfois, non!) On modélise l’action humaine jusqu’à la finesse nécessaire pour reproduire ce que l’on cherche à reproduire – de la même façon que modéliser une planète comme un point matériel qui ne subit que la force du soleil est une approche très stylisée et qui repose sur des hypothèses que l’on sait, en quelque sorte, fausses, mais cela permet néanmoins de reproduire de manière non triviale un certain nombre d’observations.

Deuxièmement, cet argument, me semble-t-il, dissimule une circularité dans le raisonnement. Devant le constat que l’on peut modéliser certains phénomènes sociaux à l’aide d’une théorie de l’action on ne peut plus minimaliste, dire que ce n’est pas de la sociologie c’est déjà faire le présupposé d’à quoi doivent ressembler les explications en sociologie, donc cela ne permet pas d’écarter logiquement ce type d’explications (à base de modèles) puisque c’est la prémisse de laquelle ce raisonnement démarre. Si on part du principe que les explications en sociologie ne peuvent pas reposer sur des mécanismes fondés sur des modélisations stylisées de l’action inviduelle, alors face aux inombrables contre-exemples offerts par la sociologie analytique, on ne peut sortir de la circularité qu’en remettant en question ce principe. En effet, peut-être que les phénomènes sociaux, malgré la grande complexité avec laquelle ils peuvent nous apparaître, sont, dans certains de leurs aspects, modélisables bien plus simplement que ce que l’on croyait. C’est bien l’une des caractéristiques de la science de nous être parfois si subversive en ce qu’elle bouscule nos a priori et certainement nos croyances à propos de notre caractère si spécial en tant qu’humain et du fait que le social ne saurait être – même en partie – dompté par aucun modèle.

Conclusion : tout est modèle

Pour conclure, je pense qu’en fait même si on n’utilise pas de modèle aussi stylisé que ce qu’on a présenté, qu’on ne cherche pas à généraliser, qu’on en reste à aller voir en détail ce qui se passe sur le terrain, et que notre but est de décrire aussi précisément que possible ce qu’il s’y joue, il n’en reste pas moins qu’on est toujours en train… de faire un modèle. En effet, malgré le fait que nous sommes des êtres sociaux et que de ce fait le ou la sociologue peut interagir dans un langage naturel avec les sujets de son étude, il n’en reste pas moins que cette interaction est toute sauf « directe ». En effet, outre que la présence de l’ethnologue modifie l’objet même de sa recherche et qu’il existe un grand nombre de biais possibles bien connus de la profession, décrire une situation c’est déjà la styliser inmanquablement. Tout simplement parce que les mots que nous utilisons réfèrent à des catégories proprement humaines et à des concepts qui ne sont rien d’autres que des généralisations – par définition – idéaliséees. Un concept est déjà modélisateur. Une enquête de terrain, nécessaire à la connaissance sociologique, c’est déjà le modèle de quelque chose. On a déjà tranché dans la réalité sociale, on l’a déjà immanquablement simplifiée. On ne peut à aucun moment la connaître qu’à travers le cadre conceptuel que l’on se donne.

On ne peut donc récuser une approche basée sur des modèles (au sens de la sociologie analytique) sur le seul principe qu’ils simplifient la réalité, puisqu’il semble proprement impossible de faire autrement. Bien sûr, on peut montrer qu’ils la simplifient trop. Cela ne peut néanmoins pas reposer sur nos a priori d’à quoi elle devrait ressembler, puisque c’est justement nos modèles qui peuvent nous le dire en dernière instance ! Non, le seul juge reste la confrontation avec les données empiriques et les autres modèles concurrents. Cela et uniquement cela peut nous indiquer si la simplification a été trop un peu trop raide ou bien, le cas échéant, qu’elles en sont ses limites.

Internet et désinformation : une fake news ?

Internet est-il un vecteur puissant de désinformation ? Une vision très souvent partagée à ce sujet, notamment dans le milieu de la zététique (je l’avoue, je l’ai moi-même déjà fait) suggère le mécanisme suivant : 1/ internet est un marché de l’information dérégulé, c’est-à-dire que n’importe qui peut écrire et diffuser quasiment n’importe quoi sur internet ; 2/ cette dérégulation se couple à la propention naturelle des individus à tomber dans des pièges de la pensée (biais cognitifs et biais de raisonnement) ; 3/ ce couplage explique pourquoi tant de gens croient tant de choses fausses et les partagent massivement. On se propose dans cet article de regarder dans quelle mesure ce constat et l’explication convoquée sont soutenus par la littérature scientifique sur ce sujet. Deux aspects sont abordés conjointement. Premièrement, l’ampleur du phénomène : à quel point adhérons-nous à notre époque à des croyances non épistémiquement garanties ? À quel point partageons-nous, sur les réseaux sociaux, des « fakenews » et des narratifs dits « complotistes » ? Deuxièmement, le rôle spécifique d’internet dans ce phénomène : un tel marché de l’information dérégulé conduit-il, ou participe-t-il activement, à une diffusion et une adhésion accrues à ces thèses ? (Edit après reception de la première version de cet article.1)

N’y allons pas par quatre chemins : le constat alarmant d’un partage et d’une adhésion massive à des croyances fausses sur internet et son rôle actif dans ce processus est loin de faire consensus parmi les spécialistes du sujet. Même si la première étude s’intéressant au lien entre fakenews et nouveaux outils de communication remonte à 1925 2, c’est surtout avec le développement d’internet, et donc ces toutes dernières années, que la littérature scientifique sur le sujet s’est considérablement accrue. Pour autant, elle reste naissante, et aucun constat définif ne peut être tiré. Ceci est déjà un premier argument contre l’élan catastrophiste qui peut caractériser parfois certains discours sur internet et les fakenews. Mais de plus, on peut observer que rien ne semble aller dans ce sens. Au contraire même, la tendance générale qui se dégage de ces études est que la diffusion et le partage de fakenews est un phénomène extrêmement marginal. Par exemple, deux études ont porté sur la diffusion et le partage de fakenews pendant l’élection présidentielle de 2016, sur twitter 3 et facebook 4 respectivement. La première montre notamment que 1 % des comptes étudiés représentent à eux seuls 80 % des fakenews diffusées, et 0,1 % des comptes représentent 80 % des fakenews partagées. La seconde est du même acabit : le partage d’articles provenant de domaines identifiés comme produisant des fakenews est un phénomène rare : il touche environ 10 % à peine des comptes présent dans le panel de l’étude (les autres 90 % n’ont partagé aucun lien de ce type durant l’élection présidentielle.) Ce phénomène semble donc être assez marginal, au point que d’autres auteurs se sont même demandé « pourquoi si peu de gens partagent des fakenews ? » 5 Dans cet article, ils reviennent justement sur ce constat émergeant et assez contre-intuitif dans une période historique qui est sensée être celle de la « post-vérité », et tentent d’y apporter une explication.

Un second type de questions à se poser pour mesurer l’ampleur du phénomène est la relation entre le fait d’être exposé à des fakenews et le fait d’y croire. Si beaucoup de gens sont exposés à des fakenews (ce qui n’est déjà pas le cas), vont-ils pour autant y croire ? Et si c’est le cas, comment être sûr que ce n’est pas justement parcequ’ils y croient déjà qu’ils vont avoir tendance à s’y exposer selectivement ? Comme on le dit souvent, corrélation n’est pas causalité ! On reviendra sur cet argument plus loin, au sujet des théories du complot. Mais avant, une autre relation est à questionner : celle qui pourrait exister entre le fait de partager des fakenews et le fait d’y croire. Ici, cela semble a priori plus évident : si on partage une fakenews, c’est qu’on y croit forcément. De nouveau, les résultats des quelques études qui existent sur le sujet sont assez contre-intuitifs. Cette étude6 réfute la thèse selon laquelle les personnes partagent des fakenews car elles ne sont pas capables de faire la distinction avec une vraie information. Selon cette étude, c’est la polarisation politique qui joue un grand rôle dans le partage de fakenews, c’est-à-dire que l’on va partager principalement des informations qui confirment nos prédispositions politiques, sans forcément vérifier la véracité de ce que l’on partage – mais tout en étant capable de le faire. Celle-ci7 montre également que bien qu’elles partagent des fakenews, les personnes interrogées sont capables de différencier entre une vraie et une fausse information (en tout cas dans une proportion plus grande que ce qu’elles partagent.) Cette étude suggère que c’est principalement parce que le contexte des réseaux sociaux focalisent leur attention sur d’autres facteurs que la véracité, comme par exemple le fait de plaire aux yeux de ses suiveurs/amis sur ces mêmes réseaux, qui fait que des personnes partagent des fakenews. D’ailleurs, en primant les personnes à propos de l’attention avant qu’elles ne partagent quoique ce soit, ils observent en effet une diminution du partage de fakenews. Cette dernière étude8 a cherché à mettre en évidence la caractéristique que les fakenews devaient posséder pour être plus partagées. Elle a mis en évidence que le facteur « interestingness-if-true » était prépondérant, c’est-à-dire que les fakenews qui sont le plus partagées sont celles qui seraient vraiment intéressantes/pertinentes si elles étaient vraies. Pour approfondir ces questions, je ne peux que vous conseiller le visionnage de la conférence d’Hugo Mercier, l’un des auteurs de certains papiers sus-cités, intitulée: « Les fakenews doivent-elles nous inquiéter ? »

Parlons maintenant de ce qu’on appelle les « théories du complot ». On peut les définir9 comme la croyance que certains phénomènes sociaux et évènements politiques (voire une grande majorité d’entre eux) peuvent être expliqués par l’action concertée d’un petit nombre d’individus qui se réunissent en secret en vue d’orienter la marche du monde dans leur intérêt personnel. Nous ne reviendrons pas sur la façon de déconstruire certains narratifs complotistes, déjà exposée dans plusieurs articles sur ce site, en particulier ici. Les théories du complot représentent elles aussi un phénomène largement étudié dans la littérature spécialisée. Des enquêtes régulières montrent qu’une partie non négligeable de la population française croit à une ou plusieurs théories du complot. Ce n’est donc sûrement pas un phénomène marginal. Cependant, la question que l’on va se poser ici est la suivante : quel est le rôle d’internet, et plus spécifiquement des réseaux sociaux, dans la diffusion et la croyance dans les théories du complot ? L’article de Joseph E. Uscinski, Darin DeWitt et Matthew D. Atkinson intitulé « A web of conspiracy ? Internet and conspiracy theory »10 explore spécifiquement l’effet d’internet sur la diffusion et l’adhésion à des narratifs conspirationistes. Encore une fois, les preuves empiriques manquent pour soutenir l’idée qu’internet favorise ce phénomène. Trois points sont importants à retenir de cet article : 1/ les narratifs complotistes ont toujours existé et rien ne permet d’affirmer qu’internet, malgré le fait que l’information y circule beaucoup plus vite qu’avant, ait engendré une quelconque « nouvelle ère » du conspirationnisme ; 2/ les individus ne sont pas si malléables que cela et c’est principalement leurs dispositions a priori qui va les pousser à croire à telle ou telle chose, et non pas l’outil particulier qu’ils utilisent ; 3/ les sites conspirationnistes sont loin d’être les sites les plus fréquentés, et être exposé à une information ne signifie pas y croire – ce qui rejoint un constat déjà énoncé plus haut. Un article récent11 confirme ces tendances. Dans cet article, ils partent du constat que l’adhésion à des narratifs complotistes est fortement corrélé à l’usage des réseaux sociaux. Ce qu’ils explorent dans cette étude, c’est le lien de causalité sous-jacent : est-ce que c’est le fait d’utiliser beaucoup les réseaux sociaux qui rend complotiste, ou bien le fait d’avoir déjà des prédispositions à adhérer à ces formes d’explications qui pousse à aller voir et diffuser du complotisme sur internet ? Leur conclusion penche clairement pour la deuxième option, une fois controlés les potentiels facteurs confondants : « La relation conditionnelle que nous dévoilons suggère que l’impact des réseaux sociaux sur les croyances aux théories du complot et à la mésinformation est probablement négligeable, sauf sur les individus attirés ou autrement prédisposés à accepter de telles idées. »12

On pourrait reprocher au présent article de reposer sur du cherry-picking, c’est-à-dire de ne choisir que des études qui vont dans le sens de notre propos. C’est vrai qu’on ne peut clairement pas déduire un constat général et immuable à partir d’un petit nombre d’études. Si on s’est appuyé sur ces études, c’est pour deux raisons principales : 1/ voir comment de telles hypothèses peuvent être effectivement testées, ce qui est intéressant du point de vue méthodologique ; 2/ l’introduction de ces articles consiste souvent en un bon résumé de l’état de l’art sur la question, d’où le fait qu’on se soit appuyé sur des publications assez récentes. Il faut toutefois garder à l’esprit que les résultats de ces études sont conditionnés par la définition de « fakenews » adoptée. Dans nombre de ces études, par exemple, on mesure l’exposition à des fakenews en identifiant certains sites comme sources de fakenews et en comptant le nombre d’articles provenant de ces sites qui sont ensuite partagés sur les réseaux sociaux. Évidemment, ce ne sont qu’une partie des fakenews auxquelles nous sommes exposé-e-s, et ceci constitue une limite de ce type d’études. Mais dans tous les cas, cela montre aussi, comme on l’a déjà remarqué, que la thèse contraire – celle que l’on critique ici – n’a pas de raisons d’être affirmée avec autant d’assurance, en cela même que le phénomène que l’on souhaite étudier est, justement, technique et difficile à cerner.

Une dernière remarque s’impose sur le premier postulat de la thèse que l’on met à l’épreuve ici : le caractère « dérégulé » d’internet vu comme un marché de l’information. Ce que l’on entend par là habituellement, c’est que « tout le monde peut écrire et diffuser tout et n’importe quoi sur internet », sous-entendu sans la vérification rigoureuse que l’on pourrait attendre des médias et des journalistes professionnels. Ce que l’on peut sous-entendre aussi, c’est l’idée que le monde d’internet serait en quelque sorte déconnecté du monde « extérieur » des médias traditionnels, et que toutes les informations diffusées en ligne pourraient se retrouver sur un pied d’égalité en terme d’exposition. C’est une idée à balayer très vite. Dans sa conférence intitulée « Les infox et les nouveaux circuits de l’information numérique »13 le sociologue Dominique Cardon montre, entre autres choses extrêmement intéressantes pour notre propos, que la libéralisation du marché de l’information en ligne n’implique aucunement que ce dernier s’horizontalise d’une quelconque manière. Au contraire, il se trouve qu’il est fortement structuré et reproduit la hiérarchie déjà présente hors ligne. Plus précisément, lorsque l’on étudie l’architecture des citations entre les différents sites internet de médias via les liens hypertextes, on se rend compte que les sites des médias mainstream, c’est-à-dire ceux qui sont déjà en situation de domination du marché hors internet, restent de loin les sites qui se citent le plus entre eux et qui sont cités par les plus « petits » sites, alors que l’inverse n’est pas vrai. Cela signifie que la structure du marché de l’information, même si fondamentalement « tout le monde peut écrire ce qu’il veut sur internet », se modèle sur celle qui existe hors internet. Le fait qu’une information, même complètement aberrante, soit présente en ligne ne signifie pas qu’elle est vue et encore moins crue par beaucoup de personnes. Une synthèse de la littérature au sujet de la mésinformation en ligne14 va plus loin et tente de quantifier le rôle des médias mainstream dans la diffusion des fakenews. Ils partent d’une situation paradoxale dans laquelle se retrouvent ces médias : lorsqu’ils parlent des fakenews, ne serait-ce que pour les démentir, ils participent aussi à leur diffusion. Le résultat de cette étude est clair : les médias mainstream font partie du problème, dans le sens où il s’avère que ce sont eux qui sont les principales sources de diffusion de fakenews, bien devant les réseaux sociaux et sites conspirationnistes obscures. Ce résultat se comprend d’autant mieux en ayant en tête les résultats présentés par Dominique Cardon dans sa conférence sus-citée : les médias mainstream, sur internet ou ailleurs, restent – et de très loin – les médias les plus visibles. En partageant et en répétant des fakenews, même pour les démentir, ces médias les rendent probablement beaucoup plus visibles que si leur diffusion restait confinée à internet. Ils prennent également le risque que le « démenti » soit oublié et qu’à force de répétition, les personnes exposées à ces fakenews puissent finir par y croire. C’est bien entendu aussi quelque chose qu’il faut garder à l’esprit si l’on vulgarise du contenu sceptique, basé notamment sur du « débunkage », sur internet ou ailleurs.

De ces différents constats, il est clair qu’une tendance émerge : internet, en tant que « marché dérégulé de l’information » n’a pas l’air d’avoir d’impact spécifique (c’est-à-dire en lui-même) sur l’adhésion à des thèses conspirationnistes, ni sur la diffusion, le partage ou l’adhésion à des fakenews. La littérature spécialisée sur le sujet des théories du complot émet pourtant des hypothèses assez bien consensuelles sur des facteurs qui pourraient jouer sur l’adhésion, à l’échelle d’une population, à des narratifs conspirationnistes. Les premiers chapitre de la thèse d’Anthony Lantian15 ainsi que le chapitre « Sociologie, théorie sociale et théorie de la conspiration » de Türkay Salim Nefes & Alejandro Romero-Reche, dans le récent Routledge handbook of conspiracy theories (2020) reviennent sur ces aspects et précisent que l’adhésion aux théories du complot tend à augmenter lorsque la confiance dans les autorités epistémiques officielles diminue, ainsi que dans des contextes d’incertitude ou de tragédies, et seraient prépondérante dans des groupes sociaux se percevant comme exclus du pouvoir politique.

La conclusion de ces différents constats n’est pas qu’il est inutile d’enseigner comment fonctionne le cerveau, quels sont les pièges cognitifs à l’oeuvre, ou encore transmettre des outils pratiques pour dégager le vrai du faux sur internet, bien entendu. L’éducation aux médias et à l’information reste une nécessité. Il faut simplement remarquer qu’en mettant en exergue le narratif, soutenu de plus par aucune preuve empirique, que c’est principalement la dérégulation d’internet alliée à nos biais cognitifs qui produit une adhésion massive à des théories du complot ou à des fakenews, on met complètement de coté les aspects purement politiques de la question : pourquoi a-t-on moins confiance dans les autorités ? Cette confiance est-elle due, ou bien doit-elle se mériter ? Quel est l’impact et donc la responsabilité des médias de masse dans le maintien du lien entre décideurs, scientifiques et population ? Éluder ces questions fondamentales ne relève pas uniquement d’une certaine malhonnêteté intellectuelle (surtout lorsqu’on prétend combattre la désinformation!) mais nous condamne immanquablement à ne jamais combattre proprement le problème.

La charge de la preuve sous l’angle bayésien

Un ami du cortecs, Antonin, en dernière année de licence de philosophie et avec un bon nombre d’années de réflexions critiques derrière lui, nous propose cette petite discussion autour du concept de charge de la preuve. Une occasion de s’inscrire dans la continuité de l’éclaircissement par l’approche bayésienne des outils pédagogiques de la zététique.

La charge de la preuve est un argument couramment utilisé par les sceptiques. Lors d’un débat, c’est à la partie qui porte la charge de la preuve d’amener des preuves de ce qu’elle affirme, et si elle ne le fait pas, il n’y a pas de raisons d’accepter ses affirmations. Il est souvent utilisé face à des défenseurs de médecines alternatives, de scénarios complotistes ou autres croyances ésotériques. Mais il n’est pas toujours évident de déterminer de manière rigoureuse qui doit porter la charge de la preuve, et d’expliciter les critères qui permettent d’assigner cette charge. Je me propose ici d’apporter quelques clarifications, en m’aidant de l’approche bayésienne.

L’argument de la charge de la preuve est souvent exprimé sous cette forme “c’est à la personne qui affirme quelque chose de prouver ce qu’elle affirme”, ou encore “ce qui est affirmé sans preuve peut être rejeté sans preuve”. Mais il importe de clarifier ce que l’on entend par “affirmer”, et ce que signifie le rejet d’une affirmation.

Prenons un exemple : je me promène en forêt avec un ami lorsque nous tombons sur un champignon. J’affirme « ce champignon est comestible », ce à quoi mon ami me répond : « je suis prêt à te croire si tu me le prouves, mais tant que tu ne me l’as pas prouvé, je n’accepte pas ton affirmation. Je considère donc a priori que ce champignon n’est pas comestible. » Cela semble sensé, si l’on considère que la négation de l’affirmation est la position par défaut. Mais c’est en réalité un écueil à éviter.

Car si j’avais au contraire affirmé en apercevant ce champignon « Il est vénéneux », en suivant les mêmes principes, mon ami aurait dû avoir comme position a priori la négation de cette affirmation, « ce champignon n’est pas vénéneux », à savoir « ce champignon est comestible », soit la négation de la proposition a priori du premier cas ! Le fait que j’affirme en premier que ce champignon soit comestible ou vénéneux semble contingent et arbitraire ; cela ne peut pas déterminer une position rationnelle a priori sur la toxicité du champignon.

On voit ici que la notion de ce qu’est une affirmation ou une négation semble floue : je peux affirmer qu’un champignon est vénéneux : d’un point de vue logique, cela est strictement équivalent à affirmer qu’il est pas comestible, c’est-à-dire à nier qu’un champignon est comestible. Nous nous sommes fait piéger ici par la grammaire de notre langage. Cela est très fréquent et a incité les philosophes à essayer de construire un langage purement logique. Mais la syntaxe et la grammaire de nos langues façonnent tellement notre manière de penser qu’il est extrêmement difficile de voir à travers elles pour déceler la structure logique réelle de nos idées. Retenons simplement que l’affirmation logique n’est pas liée à la forme grammaticale de l’affirmation. Une affirmation, dans le sens qui nous intéresse ici, c’est le fait de défendre une position, même si cette position consiste à nier grammaticalement une proposition.

Il faut donc bien garder en tête que “rejeter une affirmation” qui n’est pas soutenue par des preuves, ce n’est pas “accepter la négation de cette affirmation” : c’est simplement suspendre son jugement. Que l’on fasse une affirmation positive ou négative, on porte la charge de la preuve.

Mais lors d’un débat, on a bien souvent deux opinions contraires qui s’opposent. Lorsque quelqu’un m’affirme que le crop circle qui est apparu dans la nuit est d’origine extra-terrestre, je ne me contente pas de rejeter son affirmation et de suspendre mon jugement, je fais une affirmation à mon tour en disant que ce crop circle n’a PAS été réalisé par des extra-terrestres. Qui porte la charge de la preuve dans ce cas ?

Examinons plusieurs catégories d’affirmations.

Premièrement, celles qui touchent directement à des questions scientifiques.

A l’échelle du débat scientifique dans sa généralité, la partie qui porte la charge de la preuve est celle qui vient contredire le résultat scientifique le plus solide dont on dispose. La charge de la preuve a déjà été remplie par ce résultat scientifique même, qui porte en lui sa justification. Cela peut-être une étude isolée qui n’a pas été répliquée, qui ne présente donc qu’un faible degré de confiance, mais si c’est la seule étude dont on dispose sur un sujet donné, elle a rempli son devoir de la charge de la preuve. La charge de la preuve réside donc sur la partie qui viendrait contredire ce résultat. Elle devra fournir au moins une étude de portée au moins équivalente pour remettre en cause l’affirmation du statu-quo, ou bien mettre en évidence le manque de fiabilité de l’étude précédente. Si elle présente une étude statistiquement plus fiable, ou une méta-analyse, ce sont ces nouveaux résultats qui contredisent les précédents qui deviennent le statu-quo scientifique, et la charge de la preuve revient maintenant à qui veut remettre en cause ce nouveau statu-quo, (cela peut être en produisant une méta-analyse plus impactante, en prouvant que les données sur lesquelles s’appuie la méta-analyse sont mauvaises, ou que les scientifiques qui l’ont produite sont corrompus…) et ainsi de suite.

Lors d’un débat entre deux individus sur une question scientifique, il suffit donc d’introduire l’état de l’art du débat scientifique dans le débat personnel pour porter la charge de la preuve qui soutient le statu-quo scientifique. Encore faut-il apporter la preuve, en fournissant les sources, que l’avis scientifique se range bien de son côté.

Mais souvent, le débat porte sur des questions qui n’ont pas encore traitées directement par la science, soit qui sortent du cadre de la science, soit qui n’ont pas encore été tranchées. Qui doit donc commencer par porter la charge de la preuve dans ce cas ?

Cela nous amène à une deuxième catégorie, celles qui affirment l’existence d’une entité, métaphysique ou non.

Par exemple, Dieu. On observe souvent une utilisation fallacieuse de la charge de la preuve dans ce débat. L’existence de Dieu est affirmée par une des parties, et fait porter la charge de la preuve à la partie adverse pour réfuter son existence. Si la partie adverse ne le peut pas, la première partie en conclut donc que Dieu existe.

Un argument pour répondre à cela est celui de la théière de Russell. Il reprend la structure de l’argument, mais en remplaçant Dieu par une petite théière en orbite dans le système solaire, indétectable par les télescopes. Puisqu’il n’est pas possible de prouver la non-existence de cette théière, si on suit le même raisonnement, alors on doit conclure qu’elle existe. Pourtant, peu de personnes seraient prêtes à accepter la conclusion de cet argument, qui semble absurde, et il faut donc rejeter la validité de l’inférence. Ce que cherche à illustrer cette théière cosmique, c’est que l’irréfutabilité de l’existence d’une entité, quelle quelle soit, ne permet pas d’affirmer l’existence de cette entité.

Mais si la charge de la preuve ne repose pas sur la partie qui nie l’existence de Dieu, repose-t-elle pour autant sur celle qui l’affirme ? On l’a vu, affirmer ou nier l’affirmation sont tous deux des affirmations. Et pourtant, dans ce cas, la charge de la preuve repose bien sur la personne qui affirme l’existence de Dieu. C’est le fameux rasoir d’Occam qui permet de justifier cela, qui dit qu’il faut préférer les hypothèses les moins “ontologiquement coûteuse”, c’est-à-dire les hypothèses qui mobilisent le moins d’entité possible pour expliquer un phénomène. Affirmer l’existence d’une entité à un coût qui doit se justifier : ce coût est la charge de la preuve.

Pour assumer la charge de la preuve d’une hypothèse ontologiquement plus coûteuse qu’une autre, il faut montrer qu’elle permet de rendre compte de certains phénomènes qui ne peuvent pas être expliqué avec les hypothèses plus parcimonieuses.

Il y a ensuite une 3ème catégorie, les questions qui touchent à des cas qui n’ont pas été traités directement par la science.

Par exemple, lorsque quelqu’un affirme : “ce crop circle a été fait par des aliens”, je ne me contente pas de rejeter cette affirmation, et de suspendre mon jugement. Je vais affirmer que ce crop circle n’a PAS été réalisé par des aliens, même si je n’ai aucune information sur ce crop circle précis. A l’aide d’un calcul bayésien, basé sur des données antécédentes à ce crop circle particulier, il semble peu probable que le CC soit fait par des aliens.

Voyons en détail : pour la théorie T : “les extra-terrestres ont fait ce CC”, la donnée D « un CC est apparu pendant la nuit”, on a la probabilité que « la théorie T soit vrai en sachant la donnée D » égale à P(D|T)xP(T) / P(D). P(D) peut s’exprimer sous la forme P(D|T)P(T) + P(D|A)P(A) ou A est l’ensemble des théories alternatives qui expliqueraient D (principalement, et pour la totalité des CC jusque ici, des humains blagueurs).

Il faut maintenant estimer subjectivement la valeur de ces probabilités. P(D|T)=1, puisqu’il est certain que si des aliens étaient venus faire un CC, nous observerions un CC. J’estime ensuite que la probabilité a priori de la visite des aliens est très faible, mais soyons charitable et admettons une probabilité de 0,5 (cette valeur influe peu sur le calcul de toute façon), j’estime P(D|A) à environ 0,95 puisqu’on a été capable d’expliquer la majorité des CC avec une explication autre que celle extra-terrestre (il est donc très probable d’observer un CC même si les aliens ne visitaient pas la terre), et P(A) très élevée (disons 0,999 puisqu’on observe tous les jours des humains blagueurs).

Le résultat du calcul nous donne une probabilité de 0,34 (inférieur à 0,5)

Je vais donc affirmer qu’il a une autre origine que celle extra-terrestre. Mon interlocuteur devra m’apporter des nouvelles données sur ce CC particulier de manière à modifier le résultat du calcul bayésien et faire pencher la probabilité du côté opposé (supérieur à 0,5), c’est-à-dire qu’il devra m’apporter des nouvelles données qui ont une probabilité très faible d’arriver dans le cadre d’une explication alternative, ou de me fournir des éléments qui amèneraient à penser que la probabilité a priori de la visite des extra-terrestres est proche de 1. S’il le fait, la charge de la preuve pèse maintenant sur mes épaule si je veux continuer à affirmer qu’il a une origine autre qu’extra-terrestre.

Cette approche bayésienne de la charge de la preuve permet de la faire porter aux personnes qui prétendent qu’une nouvelle médecine alternative fonctionne. Ces dernières fleurissent à un rythme bien supérieur à celui de la marche de la science, il est donc impossible de toute les réfuter scientifiquement. Mais même sans information précise sur une médecine alternative particulière, on peut quand même se permettre d’en nier l’efficacité et de faire porter la charge de la preuve à la personne qui affirme son efficacité. Du fait que ces déclarations du pouvoir guérisseur miraculeux de toutes sortes de choses pullulent autant, et que beaucoup ont quand même pu être réfutées, on sait que la probabilité qu’une personne affirme qu’une médecine alternative marche alors qu’elle ne marche pas est très élevée, ainsi que le probabilité a priori qu’elle ne marche pas. Du fait de ces hautes grandeurs dans le dénominateur de la formule de Bayes, la probabilité qu’une médecine marche en sachant qu’une personne affirme qu’elle marche est toujours inférieur à 0,5 a priori.

En conclusion, la charge de la preuve n’est pas une règle épistémologique absolue, elle reflète simplement la position du curseur de probabilité bayésien en fonction des nouvelles données qui s’ajoute au calcul. Mais ce calcul reste lié à des données subjectives a priori, antécédente au débat, et la position de ce curseur ne peut donc être une position objective. La charge de la preuve est un outil pratique dans le débat, mais il serait peut-être plus judicieux de le traduire en terme bayésien, et plutôt que de dire “tu portes la charge de la preuve”, dire “mon curseur bayésien attribue une faible probabilité à la croyance que tu défends. A toi de m’apporter des nouveaux éléments susceptible de faire pencher ce curseur de l’autre côté.”

À propos du critère de réfutabilité et des hypothèses ad hoc

Le critère de réfutabilité est bien connu dans le milieu zététique : élément clé permettant de distinguer sciences et pseudosciences, il est pourtant plus difficile à manier qu’il n’y paraît. Afin d’éviter que le corps astral de Karl Popper ne se retourne dans son plan cosmique sépulcral, notre collègue Jérémy Attard nous aide à nous y retrouver, rappelant les bases de ce concept majeur d’épistémologie, puis en pointant les écueils à contourner lorsqu’il est question de le vulgariser.

Simplifier, sans déformer

Dans notre enseignement de la zététique nous avons souvent coutume de déclarer : « Une proposition irréfutable n’est pas scientifique ! » ce qui pourrait sous-entendre qu’une telle proposition ne mérite pas notre attention. Nous entendons par « proposition irréfutable » indistinctement les propositions du type « demain il va pleuvoir ou bien il ne va pas pleuvoir » comme celles du genre « oui, certes, on a des photos de la Terre vue de l’espace, mais c’est des montages de la NASA pour nous cacher que la Terre est plate ! » Le premier cas correspond à une proposition vraie indépendamment de l’expérience et donc qui n’a pas beaucoup de chance de nous apporter une quelconque information substantielle sur le monde ; le second est un cas bien connu d’immunisation contre la réfutation consistant à rajouter une hypothèse ad hoc pour sauver une thèse à laquelle on tient. Lorsque nous parlons de ce critère de réfutabilité, nous faisons évidemment référence à l’éminent philosophe des sciences Karl Popper qui l’a établi et popularisé dans les années 1930 [1]. Cependant, de même qu’il ne viendrait à l’idée de personne, a priori, de présenter l’effet placebo tel que décrit dans la première méta-analyse de Henry Beecher en 1955 sans tenir compte des travaux plus récents qui le remettent assez profondément en question, il nous semble étrange de résumer l’épistémologie, et notamment la réfutabilité, à Karl Popper sans prendre en compte ce qu’il s’est passé après lui. Il ne s’agit pas, dans un enseignement de zététique consacré aux bases épistémologiques, de faire un cours à proprement parler d’épistémologie, bien entendu. Il s’agit simplement de glisser quelques nuances, qui apporteront un peu de profondeur au problème sans pour autant nous perdre dans des considérations stratosphérico-métaphysiques désincarnées des besoins d’outils pratiques de celles et ceux venu-e-s nous écouter.

Photo et citation de Karl Popper

Il s’agit, d’abord, de réaliser une meilleure vulgarisation que celle que nous faisons. Dans toute démarche de vulgarisation, il y a un équilibre subtil à trouver entre la simplicité du propos, dans un but pédagogique de transmission, et sa solidité scientifique. Ce que l’on gagne en simplicité, on le perd très souvent en rigueur et inversement. Ce que nous proposons ici est une façon de présenter le critère de réfutabilité qui améliore cet équilibre par rapport à la façon dont il est habituellement enseigné. N’oublions pas que comprendre le critère de réfutabilité est un objectif pédagogique avant tout : donner un outil simple d’utilisation pour identifier rapidement, au moins dans un premier temps, ce qui distingue une science d’une pseudoscience. Mais une trop grande simplification, pour toute pédagogique qu’elle soit, peut se retourner contre son but initial si l’on ne transmet pas en même temps l’idée que « c’est un peu plus compliqué que ça » ainsi que des pistes pour aller chercher plus loin.

En effet, si l’on creuse un peu l’histoire des sciences d’une part, et la philosophie des sciences d’autre part, on se rend rapidement compte de deux choses : 1/ les théories les plus scientifiques sont fondées sur des propositions irréfutables ; 2/ le fait d’ajouter des hypothèses pour « sauver » une théorie constitue la majeure partie du travail des scientifiques. Une fois ces deux faits établis, et donc mis à jour le caractère un peu « léger » de notre critique usuelle de l’irréfutabilité, nous verrons comment l’améliorer sans trop d’efforts et ainsi ne plus tendre l’homme de paille1 pour nous faire battre. En effet, une personne défendant un contenu pseudoscientifique et un tant soit peu au fait de l’histoire ou de la philosophie des sciences pourrait nous rétorquer que la science, telle qu’on la présente, fonctionne en réalité de la même manière (et elle n’aurait pas tort…) C’est aussi l’occasion de donner quelques références supplémentaires en épistémologie si l’on veut aller creuser le sujet.

La théorie peut-elle réfuter l’expérience ?

C’est un fait bien accepté qu’une théorie scientifique doit pouvoir rentrer en contradiction avec l’expérience. Le raisonnement est relativement simple : une théorie scientifique prétend dire quelque chose de non trivial sur le monde, et donc tirer sa validité de l’expérience. Si une théorie est irréfutable, c’est-à-dire si elle ne produit que des énoncés tautologiques, vrais en dehors de toute expérience, sa validité ne va pas être conditionnée par celle-ci. L’expérience est pourtant in fine la seule manière que l’on a de rentrer en contact avec la réalité objective dont on prétend pouvoir obtenir une information fiable. Une théorie qui ne produit que des énoncés tautologiques ou qui est immunisée d’une manière ou d’une autre contre la réfutation ne pourra donc pas obtenir d’information non triviale sur le monde, et ainsi ne pourra pas être considérée comme scientifique. En d’autres termes, ce qui est intéressant lorsque l’on prétend dire quelque chose sur le monde, ce n’est pas simplement d’avoir raison, mais d’avoir raison alors qu’on aurait très bien pu avoir tort : c’est de ce type de validation qu’une théorie tire sa valeur scientifique.

Il faut donc que la théorie ait une possibilité de rentrer en contradiction avec l’expérience. Mais, plus précisément, qu’est-ce qui rentre en contact avec l’expérience, dans une théorie ? Prenons un exemple concret, tiré de la physique : le principe de conservation de l’énergie. Dans le cadre de la physique newtonienne, celui-ci s’énonce de la manière suivante : « L’énergie totale d’un système isolé se conserve », un système isolé étant défini comme un système qui n’échange ni énergie ni matière avec l’extérieur. En gros, l’énergie peut changer de forme au sein du système mais ne peut pas disparaître ou apparaître si le système est isolé. Posons-nous alors la question : est-ce que ce principe est réfutable par l’expérience ? On a envie de dire oui, à première vue : si l’on observe un système qu’on a de bonnes raisons de considérer comme isolé et dont l’énergie totale augmente ou diminue, alors on pourrait dire que l’on a réfuté ce principe. Pourtant, penser de cette façon est une erreur à la fois au regard de l’histoire que de la philosophie des sciences. En effet, historiquement, à chaque fois que ce principe a été remis en question, on ne l’a jamais abandonné : on l’a au contraire considéré comme vrai a priori, ce qui a poussé les physicien-ne-s à inventer de nouvelles entités ou des nouveaux phénomènes (par exemple, des formes d’énergies ou des particules inconnues jusqu’alors) pour « sauver » ce principe contre l’expérience : la théorie peut en quelque chose parfois réfuter l’expérience2.

Et cette méthode a très souvent porté ses fruits puisqu’elle a conduit à la découverte de Neptune, des forces de frottements, des neutrinos ou encore du boson de Higgs : dans chacun de ces cas précis, face à une réfutation par l’expérience, on a imaginé des hypothèses pour expliquer pourquoi l’expérience ne collait pas avec ce que l’on avait prédit, tout simplement parce que la solidité de la théorie était posée comme une certitude acquise au vu de ses nombreux succès expérimentaux précédents. On trouvera de nombreux exemples de cette façon de fonctionner en particulier dans les travaux de Thomas Kuhn. Celui-ci, dans son ouvrage majeur [2], décrit en effet l’activité « normale » du ou de la scientifique comme étant la résolution de problèmes au sein d’un paradigme donné. Les « problèmes » dont il s’agit ne sont donc absolument pas considérés, de ce point de vue, comme des réfutations de la théorie dans son ensemble, mais simplement comme des anomalies qu’une reconfiguration de la théorie doit pouvoir absorber. Les anomalies fondamentales, comme celle de l’avancée du périhélie de Mercure, ne sont considérées comme telles que rétrospectivement, et peuvent très bien être parfaitement connues de la communauté scientifique pendant des décennies sans que cela n’implique la remise en question profonde de la théorie sous-jacente.

Du point de vue philosophique, maintenant, cela n’a pas vraiment de sens de considérer qu’un principe fondamental comme celui de la conservation de l’énergie puisse être vrai ou faux : en effet, si face à une contradiction avec l’expérience, on déclare que ce principe est faux, on ne peut plus rien faire ; on n’a pas réglé le problème, on est juste sorti du cadre au sein duquel c’était un problème – ce qui n’est pas du tout la même chose. Par exemple, le problème de l’accélération de l’expansion de l’univers, en cosmologie, est fondamentalement un problème de conservation de l’énergie. Si l’on déclare qu’en fait l’énergie ne se conserve pas, que ce principe est faux, l’accélération de l’expansion n’est plus un problème – son aspect problématique n’existe qu’au sein d’un paradigme où l’énergie se conserve. L’ennui est qu’une fois considéré ce principe comme réfuté, on se retrouve démuni pour faire de nouvelles prédictions, puisque tout ce que l’on avait pour parler de ce pan de la réalité était justement le principe de conservation de l’énergie !

Les programmes de recherche

Ainsi, devant ce double constat, il est intéressant d’affiner ce critère de réfutabilité et d’emprunter à Imre Lakatos, philosophe hongrois et disciple de Karl Popper, la notion de programme de recherche [3]. Pour Lakatos, un programme de recherche est constitué d’une part d’un noyau dur formé de définitions, de principes, de propositions définissant un cadre avec lequel on va investiguer un pan du réel, et d’autre part d’une certaine quantité d’hypothèses auxiliaires desquelles on va déduire, à l’aide des règles du noyau dur, des prédictions qui pourront rentrer en contradiction avec l’expérience. Ce sont ces prédictions-là qui doivent être réfutables, et rien d’autre. Si une prédiction rentre en contradiction avec l’expérience, alors on va modifier des hypothèses auxiliaires afin de résoudre cette contradiction. Un programme de recherche génère alors une suite de théories où l’on passe de l’une à l’autre par un changement d’hypothèses auxiliaires. Le problème, bien sûr, est qu’il y a toujours beaucoup de façons de réajuster notre édifice théorique afin de faire coller une prédiction avec l’expérience3. Karl Popper en est d’ailleurs lui-même bien conscient. Comme l’écrit Lakatos :

« Popper (…) en convient : le problème est de pouvoir distinguer entre des ajustements qui sont scientifiques et d’autres qui sont pseudoscientifiques, entre des modifications rationnelles et des modifications irrationnelles de théorie. Selon Popper, sauver une théorie à l’aide d’hypothèses auxiliaires qui satisfont des conditions bien définies représente un progrès scientifique ; mais sauver une théorie à l’aide d’hypothèses auxiliaires qui n’y satisfont pas représente une dégénérescence. »4

La planète Vulcain : trajectoire calculée mais jamais observée…

Pour le falsificationnisme méthodologique dont se réclame Karl Popper, on a le droit de rajouter ou de modifier certaines hypothèses suite à une contradiction avec l’expérience si cette modification augmente le niveau de réfutabilité de la théorie, c’est-à-dire si cela nous pousse à faire de nouvelles prédictions indépendantes du fait de simplement résoudre la contradiction initiale. Si ces nouvelles prédictions, réfutables, sont validées, alors on a augmenté notre connaissance sur le monde, et c’était une bonne chose de « protéger » notre théorie de la réfutation par l’ajout d’hypothèses. L’exemple de la découverte de Neptune est parlant. Au début du dix-neuvième siècle, la planète du système solaire la plus lointaine alors connue était Uranus, et il s’est vite avéré que sa trajectoire semblait ne pas se soumettre à ce que la théorie de Newton prédisait. Plusieurs solutions s’offraient aux astronomes de l’époque, comme par exemple admettre que la théorie de Newton n’était plus valable à cette échelle. Cependant, la première explication qui fût considérée était qu’il existait une planète encore inconnue à l’époque, dont l’attraction gravitationnelle sur Uranus rendrait compte de sa trajectoire problématique. L’éminent astronome français Le Verrier5 calcula alors les caractéristiques de cette planète (en supposant qu’elle existait) à l’aide des lois de Newton, c’est-à-dire en les considérant comme valides. Neptune fut effectivement observée en 1846 à l’observatoire de Berlin, et ce qui aurait pu être une défaite de la théorie de Newton finit en réalité par en constituer une victoire de plus. Le programme de recherche, selon Lakatos, est alors dans sa phase progressive. Par contre, dès l’instant où la modification d’hypothèses ne permet pas de faire des prédictions réfutables mais simplement de résoudre la contradiction sans augmenter notre niveau de connaissance sur le monde, on se trouve alors dans une phase dégénérative, et la nécessité d’un nouveau programme de recherche, reposant sur un noyau dur différent, se fait sentir. La difficulté est évidemment qu’au pied du mur, on ne peut jamais savoir avec certitude si l’on est dans un cas où l’on peut encore modifier des hypothèses auxiliaires et augmenter notre connaissance ou bien si l’on est face à une aporie intrinsèque du programme de recherche. Ce n’est que rétrospectivement que la situation s’éclaircit. Dans la continuité de la découverte de Neptune, les astronomes de l’époque avaient aussi conjecturé l’existence d’une autre planète hypothétique, Vulcain, censée se trouvait entre le Soleil et Mercure et expliquait une anomalie, tout aussi bien connue, dans la trajectoire de cette dernière. Pour autant, cette planète ne sera jamais observée6. Il faudra attendre 1915 et la théorie de la relativité générale d’Einstein pour comprendre le mouvement apparemment inexplicable (dans le paradigme newtonien) de Mercure.

Willard Quine [4] parle aussi de ce phénomène – en allant toutefois encore plus loin dans sa critique. Il soutient la thèse du holisme de la confirmation, aussi connue sous le nom de thèse de Duhem-Quine : une proposition particulière ne fait pas face « toute seule » au tribunal de l’expérience, mais c’est l’ensemble de la théorie à laquelle elle appartient et in fine l’ensemble de notre savoir qui est testé lorsque l’on fait une expérience particulière. L’ensemble de notre savoir est un système conceptuel où il existe des connections fortes entre les différents domaines de recherche qui pourrait être pensés a priori comme indépendants. Il traduit donc autrement le fait déjà énoncé qu’il y a toujours plusieurs manières de modifier la toile d’araignée de nos connaissances pour ajuster une prédiction à l’expérience. Il énonce alors un principe de parcimonie : il est rationnel, parmi tous les ajustements possibles, de choisir en premier lieu celui qui modifie le moins de choses dans le reste de nos connaissances. Cela rejoint la métaphore de la grille de mots croisés de Susan Haack [5]. L’état d’ébriété d’un expérimentateur en neurosciences utilisant une IRM ou la fausseté de ses hypothèses seront toujours des explications plus parcimonieuses, face à une contradiction avec l’expérience, que la remise en question des lois de la mécanique quantique régissant le phénomène de résonance magnétique nucléaire sous-jacent au fonctionnement d’un dispositif d’IRM.

Irréfutabilité et méthode

Cette façon de voir les choses, pas beaucoup plus compliquée que la simple présentation du critère de réfutabilité, permet de résoudre le double problème rencontré plus haut. Les principes de bases d’une théorie sont ses règles de grammaire ; cela n’a aucun sens, ni logique, ni pratique, de penser qu’ils puissent être réfutés à l’intérieur de cette même théorie. Pour reprendre ce que dit Lakatos, cité plus haut, ce n’est pas tant une théorie qui est scientifique ou pseudoscientifique, mais plutôt la méthode avec laquelle on va la reconfigurer pour faire face à une réfutation. Plus précisément, face à une réfutation, on va modifier des hypothèses auxiliaires pour faire coller la théorie à l’expérience. La différence entre des astronomes découvrant Neptune et des platistes est alors double : 1/ face à une observation contradictoire, les astronomes « sauvent » une théorie qui est extrêmement bien corroborée par ailleurs, ce qui n’est pas le cas des platistes ; 2/ la reconfiguration de la théorie, dans le premier cas, satisfait à une exigence épistémologique contraignante de parcimonie et de prédictibilité, ce qui n’est pas le cas pour les platistes.

Comme on l’a dit, il reste indispensable, en zététique, de mettre en garde contre les propositions irréfutables en général. C’est un premier pas nécessaire, notamment pour mettre le doigt sur le fait que le propre de la science n’est pas de confirmer à tout prix ses prédictions mais d’échouer à les mettre en défaut – ce qui est impossible, ou trivial, plutôt, si l’on n’a affaire qu’à des propositions irréfutables. Pour autant, il ne semble pas non plus très coûteux de nuancer un peu ce propos, et de reconnaître que dire simplement d’une proposition isolée qu’elle est irréfutable et donc qu’elle n’est pas scientifique est un peu léger comme critique.

Lorsque la proposition en question est un principe de la théorie, sa valeur épistémique ne se juge pas par son aspect réfutable mais à l’aune de son potentiel heuristique, c’est-à-dire de sa capacité à nous faire découvrir de nouvelles entités ou des nouveaux phénomènes. Par exemple, le fait que le principe de refoulement au sein de la théorie psychanalytique soit irréfutable n’est pas un problème en soi ; le problème épistémologique de ce corpus théorique est que ses principes ne mènent à aucune prédiction validée qui aurait pu être réfutée.

S’il s’agit au contraire d’une prédiction dont la réfutation pourrait être résolue par l’ajout d’une hypothèse auxiliaire, la critique ne tient pas non plus : ce n’est pas le fait de sauver une proposition ou un noyau dur tout entier par l’ajout d’hypothèses qui est critiquable, c’est la manière avec laquelle cela est fait. Ainsi, face à toutes les observations terrestres et astronomiques que nous pouvons réaliser, on peut toujours les ajuster pour nous persuader que la Terre est plate. Cet ajustement, comme la plupart, est logiquement possible ; le problème est qu’il ne permet de faire aucune nouvelle prédiction, qu’il est hautement coûteux en hypothèses et qu’il ne tient pas face au modèle concurrent et éminemment plus parcimonieux de la Terre sphérique.

Les outils d’autodéfense intellectuelle issus de cette réflexion sont les mêmes qu’ailleurs : dans l’élaboration d’une connaissance synthétique et objective sur le monde, prédictibilité et parcimonie sont deux maîtres mots pour mener à bien cet art difficile.

Références

[1] K. Popper, La logique des découvertes scientifiques, Payot, 1973 (1934).

[2] T. Kuhn, La structure des révolutions scientifiques, Flammarion, 1972 (1962).

[3] I. Lakatos, A methodology of research programs, Cambridge, 1978.

[4] W.V. Quine, Les deux dogmes de l’empirisme, Harper, 1953

[5] Susan Haack, Le bras long du sens commun : en guise de théorie de la méthode scientifique, Philosophiques, vol. 30 , n°2, 2003, p. 295-320.

[6] W. V. Quine, On empirically equivalent Systems of the World, Erkenntnis, 3, 13–328, 1975.