Le Paradoxe de Simpson

Introduction

Parfois, les chiffres semblent parler d’eux-mêmes… mais en réalité, ils peuvent nous tromper. 📊

C’est ce qui se passe avec le paradoxe de Simpson : une situation où une tendance observée dans plusieurs groupes peut complètement s’inverser lorsqu’on regroupe les données.

Ce paradoxe a surpris plus d’un statisticien, car il remet en cause notre intuition et nous rappelle que les moyennes globales ne disent pas toujours la vérité.

Problématique : Comment les mathématiques du paradoxe de Simpson montrent-elles que l’interprétation des données peut être trompeuse, et quelles précautions prendre pour éviter ces pièges ?

I. L’effet trompeur des échantillons déséquilibrés

1. Cas classique : médicament vs placebo

Imaginons une étude médicale qui compare l’efficacité d’un médicament (M) et d’un placebo (P), séparément chez les hommes et chez les femmes.

Tableau 1 : Hommes

GroupeNombre totalGuérisTaux
Médicament (M)10060[math]\tfrac{60}{100} = 60%[/math]
Placebo (P)10020[math]\tfrac{20}{100} = 20%[/math]

Tableau 2 : Femmes

GroupeNombre totalGuérisTaux
Médicament (M)109[math]\tfrac{9}{10} = 90%[/math]
Placebo (P)10080[math]\tfrac{80}{100} = 80%[/math]

Dans chaque sous-groupe (hommes ou femmes), on voit que le médicament marche mieux que le placebo :

  • Chez les hommes : 60 % vs 20 %.
  • Chez les femmes : 90 % vs 80 %.
?
Mais que se passe-t-il si on regroupe toutes les données ?

Au total :

  • Médicament : [math]60+9=69[/math] guéris sur [math]100+10=110[/math], soit [math]\tfrac{69}{110}\approx 62,7%[/math].
  • Placebo : [math]20+80=100[/math] guéris sur [math]100+10=110[/math], soit [math]\tfrac{100}{110}\approx 90,9%[/math].
!
Résultat paradoxal : globalement, le placebo semble plus efficace (91 % contre 63 %), alors que dans chaque sous-groupe, c’est l’inverse !

2. Explication mathématique

En fait, la proportion globale est une moyenne pondérée des sous-proportions.

Si on appelle [math]p_1[/math] et [math]p_2[/math] les taux de guérison dans les deux sous-groupes, et [math]n_1[/math], [math]n_2[/math] leurs effectifs, alors le taux global est :

p = \frac{n_1p_1 + n_2p_2}{n_1+n_2}.

Ici, l’astuce est que les tailles de groupes sont très déséquilibrées :

  • Le médicament a surtout été donné aux hommes (où il marche « moins bien »).
  • Le placebo a surtout été donné aux femmes (où les taux semblent très élevés).

C’est ce déséquilibre qui crée l’illusion et inverse la conclusion.

!
C’est exactement le paradoxe de Simpson : ce qui est vrai dans chaque sous-groupe peut s’inverser quand on regroupe les données.

II. Facteurs cachés et confusion

1. Exemple sportif : vitesse au 100 m et fast-food

Imaginons une étude où l’on mesure la vitesse de course au 100 m et la consommation de fast-food par semaine.

Résultat global (regroupé) : Les gros consommateurs de fast-food semblent courir plus vite.

?
Surprenant, non ?

Mais en réalité, il y a un facteur caché : l’âge.

  • Les jeunes (15–20 ans) consomment souvent beaucoup de fast-food et courent plus vite.
  • Les adultes plus âgés consomment moins de fast-food et courent plus lentement.

Ainsi, ce n’est pas le fast-food qui rend plus rapide, c’est simplement que les jeunes sont surreprésentés dans le groupe des gros consommateurs.

Modélisation mathématique :

  • On note [math]v[/math] la vitesse au 100 m, [math]F[/math] la consommation de fast-food, et [math]A[/math] l’âge.
  • Globalement, on regarde [math]v=f(F)[/math] et on croit voir une tendance positive.
  • Mais si on scinde par âge (jeunes/adultes), la tendance réelle apparaît : à âge égal, plus on consomme de fast-food, moins on est rapide.

🔒 La suite est réservée aux membres Premium

Accédez à l’intégralité des 40 sujets rédigés pour le Grand Oral de Maths.

Je veux le Pack Premium

Mises à jour de la newsletter

Saisissez votre adresse e-mail ci-dessous et abonnez-vous à notre newsletter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

error: Content is protected !!