Paradoxe de l’inspection – Introduction à la fatalité mathématique

Nous nous sommes tous déjà confrontés à une forme d’acharnement divin, une situation pénible qui semble se répéter irrémédiablement. Certains l’appellent « loi de Murphy », d’autres « fatalité » mais rares sont ceux qui désirent y voir une forme de causalité mathématique.
Voyons ensemble un des plus célèbres paradoxes statistiques, j’ai nommé le paradoxe de l’inspection (parfois aussi appelé paradoxe du temps d’attente ou paradoxe de l’autobus).

 Mise en situation – votre problème

Inspection_Bus_Image

Vous voilà l’heureux propriétaire d’un joli pavillon en proche banlieue parisienne. Certes ce n’est pas Paris, mais à ce qu’on vous a dit, la ville est bien desservie. En fait, un arrêt de bus se trouve à juste deux encablures de chez vous. Vous avez même mis la main sur un prospectus indiquant le passage régulier de bus vers la capitale (selon la compagnie: en moyenne toutes les 15 minutes!).
Vous voilà rassuré.
Les semaines passent… et peu à peu, le doute vous envahit. A chaque fois qu’il vous a fallu prendre ce bus, il vous a semblé attendre drôlement longtemps.
Inquisiteur, vous décidez alors de mesurer votre temps d’attente moyen à la station.
A priori, si vous tentez de prendre le bus aléatoirement en cours de la journée, vous devriez attendre en moyenne 7,5 minutes (le temps moyen de passage entre deux bus divisé par deux). En effet, les coups où vous arrivez juste avant le passage d’un bus devraient équilibrer les coups où vous arrivez juste après le passage d’un bus.
En statisticien zélé, vous persuadez même vos nouveaux voisins de vous aider à collecter ces données.
Après un peu plus de 3 mois d’observation et 500 inspections faites à l’arrêt de bus, le constat est sans appel: le temps d’attente moyen observé est de 15 minutes ! En fait, vous pouvez même assurer que le temps de passage observé entre deux bus est de 30 minutes en moyenne (alors que le prospectus indiquait un temps moyen de 15 minutes entre deux bus).
[L’ensemble des données collectées ainsi que les résultats obtenus sont joints à ce billet dans l’onglet « Inspection » du fichier téléchargeable [ici]]

 Explication qualitative du problème

En fait, ici encore, le terme paradoxe est utilisé abusivement. La dimension paradoxale de ce problème émane d’un biais logique introduit par notre méthode d’observation.
Prenons un exemple plus gourmand, imaginons que je vous dise de couper un gâteau en 10 parts inégales (avec 5 grosses parts pour les gros mangeurs et 5 toutes petites parts pour les appétits d’oiseau). Maintenant, laissez tomber aléatoirement un couteau sur votre gâteau. Vous me croirai volontiers si je vous dis que votre couteau a plus de chance de tomber sur les plus grosses parts de gâteau.

Inspection_Gateau

Et bien dans notre histoire, c’est un peu ce qui s’est passé lorsque vous avez décidé d’inspecter les temps de passage des bus.
A chaque fois que vous vous rendiez à la station, vous aviez plus de chance de tomber sur un temps d’attente long (ex: deux bus espacés de 25 minutes) qu’un temps d’attente court (ex: deux bus espacés de deux minutes).
Résultat des comptes, la moyenne observée (30 minutes entre deux bus) est deux fois supérieure à la moyenne réelle de passage entre deux bus (15 minutes).
Pour le cas d’un réseau de bus dont l’arrivée à la station suit un processus de Poisson [1] , ce facteur 2 peut même être démontré mathématiquement. [Si cela vous intéresse, je vous invite à jeter un œil aux pages 64 et 65 du polycopié ci joint (Attention, quelques notions avancées de probabilité sont toutefois requises)] 

Inspection_Bus_Illustration_ParadoxeInspection

Autres exemples d’application et extension au problème de confusion entre unité de sondage et unité d’analyse

Jusqu’à présent nous nous étions placés dans le cas particulier d’un problème de file d’attente suivant un processus de Poisson [1]. Ce contexte spécifique se retrouve également sous d’autres formes dans la nature:

  • Intervalle de temps entre deux pannes d’une machine
  • Délai d’attente entre deux clients dans une fille d’attente
  • Durée de présence d’un internaute sur une page web

Ce cas spécifique est appelé ‘paradoxe de l’autobus’ mais n’est qu’un cas particulier d’un paradoxe plus général appelé ‘paradoxe de l’inspection’.
En fait, à bien y regarder, l’erreur de raisonnement tient au fait que notre échantillonnage (nos inspections à la station de bus) n’est pas aléatoire mais est biaisé par une probabilité d’observation corrélée à l’objet observé (le temps d’attente entre deux bus).
Cette confusion dans l’observation d’un phénomène peut apparaître quelque soit la loi de distribution de l’objet d’analyse et on la retrouve fréquemment dans notre quotidien comme l’illustrent les deux exemples suivants:

  • Il y a encore quelques années (cela a bien changé depuis), les grandes compagnies aériennes affichaient des taux de remplissage inférieurs à 60% sur leurs vols européens. Pourtant, vous et moi n’avons jamais vraiment eu la chance de pouvoir nous étaler sur deux sièges. Une fois encore la probabilité plus élevé de voyager dans un vol plein nous oriente vers une reconstitution biaisée de la réalité.
  • « Dans l’après-guerre, un quart des mères avaient quatre enfants ou plus. Pourtant dans ma classe, comme dans les autres, nous étions la moitié à appartenir à une famille d’au moins quatre enfants ».  Cet exemple rapporté par le démographe  Laurent Toulemon illustre lui aussi le biais significatif tenant à la confusion entre l’unité de sondage (les mères) et l’unité d’analyse (les enfants). 

Dans chacun de ces deux exemples, l’aspect paradoxal de l’énoncé résulte d’une erreur de raisonnement. Nous ne pouvons pas grossièrement confondre l’objet à observer sur lequel porte le sondage (respectivement les avions et les mères) et l’objet mesuré possédant sa propre probabilité d’observation (respectivement les passagers et les enfants).
Professionnellement ce biais induit par la probabilité d’observation peut parfois avoir une importance fondamentale. Imaginez que vous confiez une tache répétitive à un groupe de stagiaires et que désiriez apprécier le temps requis pour effectuer une tache unique (histoire d’adapter au mieux vos ressources). Vous pourriez alors être tenté d’aller inspecter chaque collaborateur à différents moments de la journée (histoire de prendre en compte la variation de productivité au cours de la journée). Et bien le paradoxe de l’inspection prédit que vos inspections ont ‘plus de chance’ de se dérouler durant les traitements de tâche les plus longs et donc de vous donner une image dépréciée de la productivité de vos employés.

Conclusion

Le caractère paradoxal du phénomène décrit dans ce billet témoigne de la difficulté pour un individu de reconstituer une réalité à partir de son expérience (aussi large soit-elle).
Alors la prochaine fois que les mots ‘loi de Murphy’ ou ‘pas de bol’ pointent leur nez dans une conversation, demandez vous si tout cela n’était finalement pas un peu prévisible (mathématiquement parlant j’entends).
Enfin, pour le plaisir, terminons ce billet par un échange rapporté entre le truculent Boris Vian et le réalisateur Pierre Kast. Bien sûr les mots sont, à l’image de l’homme,virulents et impérieux. Mais nous sommes dans un monde où l’on avoue plus volontiers son inaptitude mathématique que son insuffisance littéraire, et ne serait-ce que pour ça, ces quelques lignes donnent à sourire.

BORIS VIAN. — […]  Je parle du Français littéraire qui prétend s’intéresser à la science-fiction.
Quel est le lecteur idéal, alors?
Le lecteur idéal pour les romans de science-fiction, c’est le mathématicien, le physicien ou les gens très cultivés du modèle de Raymond Queneau, qui savent à la fois ce que l’on fait en littérature, ce que l’on fait en mathématiques, ce que l’on fait en physique. Ce sont les gens qui ne font pas un mur entre eux et une partie de la connaissance.

PIERRE KAST. — Des coordinateurs.

BORIS VIAN. — Des coordinateurs, les gens qui sont pour la synthèse.Parce que c’est très joli, c’est extrêmement connu et extrêmement courant de dire en français, de dire avec orgueil: «Moi, je ne comprends rien aux maths.» Personnellement, je fais la réflexion suivante : «Si je ne comprends rien aux maths, j’aurais plutôt honte de le dire.» Se présenter de but en blanc comme un imbécile n’est pas le meilleur moyen de se présenter. Un type-qui- ne-comprend-rien-aux-maths est un fieffé imbécile, un point c’est tout!

[1] Processus de Poisson: Un processus de Poisson permet de définir la façon dont  va se dérouler une succession d’événements indépendants entre eux. Ce processus se retrouve souvent dans la nature: décroissance radioactive, modélisation de file d’attente, … Il tient son nom du mathématicien Siméon Denis Poisson (l’un des 72 scientifiques dont le nom figure sur la périphérie du premier étage de la tour Eiffel).
Mathématiquement, on définit un processus de Poisson comme ce qui suit.
Si on appelle N(t) le nombre d’événements (ex: arrivée de bus à la station) qui se sont déroulés pendant l’intervalle de temps [0;t]. On dit que N est un processus de Poisson d’intensité  l si les variables représentant les intervalles de temps entre deux événements consécutifs suivent toutes une loi exponentielle de paramètre l (avec l>0) [c’est à dire que la probabilité d’occurrence de ces événements (leur fonction de masse) évolue exponentiellement avec le temps].

Références:
https://www-fourier.ujf-grenoble.fr/~decauwer/polyscilab.pdf
http://www.infres.enst.fr/~decreuse/downloads/poisson.pdf
http://www.recherche.enac.fr/math/oldenseignement/procstochF04/Poly/poisson.pdf
publications-sfds.math.cnrs.fr/index.php/StatEns/article/download/5/3
http://w3.bretagne.ens-cachan.fr/math/people/benoit.cadre/fichiers/LIVRE_PROC.pdf

Pour aller plus loin

Afficher

Méthode de création de l’exemple du bus [ici] (notion requises: Probabilités (Mathématiques élémentaires))
Dans l’exemple de l’autobus illustré dans ce billet, il m’a d’abord fallu créer un processus de Poisson pour simuler les horaires réels de passage des bus.
Pour cela, nous allons tenter de modéliser les temps passage entre deux bus. Comme expliqué dans la note 1, ces variables suivent une loi exponentielle de paramètre λ > 0. Une variable aléatoire réelle suit la loi exponentielle de paramètre λ > 0 si elle admet la densité de probabilité (ou fonction de masse) λe^(−λx) sur ]0, +∞[.
Par intégration de sa densité sur ]0, t[, on peut définir la probabilité qu’un bus arrive dans cet intervalle de temps. On appelle cette probabilité la fonction de répartition de la loi exponentielle. Cette fonction vaut F(t) = 1−e^(−λt).
On a notre probabilité (F(t) compris entre 0 et 1) en fonction du temps. Problème, c’est « t » qui nous intéresse…
Il nous faudrait donc ce que l’on appelle la fonction réciproque de F(t), c’est à dire une fonction qui quelque soit une probabilité A donnée entre 0 et 1, nous donne le temps « T » tel que F(T)=A.
Par chance, la fonction F définit une bijection de ]0, +∞[ sur ]0, 1[ et sa fonction réciproque est :
G(ω) = − ln(1 − ω)/ λ  avec ω une variable aléatoire suivant la loi uniforme sur ]0, 1[.
On peut finalement remplacer 1 − ω par ω (ces deux variables suivent la même loi) et l’on peut finalement simuler autant de ‘temps d’attente de bus’ que désirés en calculant les valeurs :
-ln(rand())/λ avec rand() une fonction aléatoire uniforme sur ]0, 1[ ; et λ=1/Moyenne de passage entre deux bus=1/15.

Vous pouvez à priori tout faire sur Excel, pour ma part j’ai utilisé Scilab (une alternative Open-source à Matlab) pour générer mes échantillons.
Ci-dessous, la fonction Scilab de génération d’une valeur par un processus de Poisson de paramètre Lambda:
lambda=1/15;n=1000;m=1;
-log(grand(n,m, »def »))/lambda 

Vous avez alors vos horaires de passage des bus, la moyenne de passage entre deux bus est bien de 15 minutes (15.32min dans mon exemple). Ne reste plus qu’à générer vos horaires d’inspection aléatoirement (via Excel [fonctions Alea() ou rand()], ou via Scilab) et le tour est joué.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>