Le Paradoxe de Simpson

Introduction
Parfois, les chiffres semblent parler d’eux-mêmes… mais en réalité, ils peuvent nous tromper. 📊
C’est ce qui se passe avec le paradoxe de Simpson : une situation où une tendance observée dans plusieurs groupes peut complètement s’inverser lorsqu’on regroupe les données.
Ce paradoxe a surpris plus d’un statisticien, car il remet en cause notre intuition et nous rappelle que les moyennes globales ne disent pas toujours la vérité.
Problématique : Comment les mathématiques du paradoxe de Simpson montrent-elles que l’interprétation des données peut être trompeuse, et quelles précautions prendre pour éviter ces pièges ?
I. L’effet trompeur des échantillons déséquilibrés
1. Cas classique : médicament vs placebo
Imaginons une étude médicale qui compare l’efficacité d’un médicament (M) et d’un placebo (P), séparément chez les hommes et chez les femmes.
Tableau 1 : Hommes
Groupe | Nombre total | Guéris | Taux |
---|---|---|---|
Médicament (M) | 100 | 60 | [math]\tfrac{60}{100} = 60%[/math] |
Placebo (P) | 100 | 20 | [math]\tfrac{20}{100} = 20%[/math] |
Tableau 2 : Femmes
Groupe | Nombre total | Guéris | Taux |
---|---|---|---|
Médicament (M) | 10 | 9 | [math]\tfrac{9}{10} = 90%[/math] |
Placebo (P) | 100 | 80 | [math]\tfrac{80}{100} = 80%[/math] |
Dans chaque sous-groupe (hommes ou femmes), on voit que le médicament marche mieux que le placebo :
- Chez les hommes : 60 % vs 20 %.
- Chez les femmes : 90 % vs 80 %.
Au total :
- Médicament : [math]60+9=69[/math] guéris sur [math]100+10=110[/math], soit [math]\tfrac{69}{110}\approx 62,7%[/math].
- Placebo : [math]20+80=100[/math] guéris sur [math]100+10=110[/math], soit [math]\tfrac{100}{110}\approx 90,9%[/math].
2. Explication mathématique
En fait, la proportion globale est une moyenne pondérée des sous-proportions.
Si on appelle [math]p_1[/math] et [math]p_2[/math] les taux de guérison dans les deux sous-groupes, et [math]n_1[/math], [math]n_2[/math] leurs effectifs, alors le taux global est :
p = \frac{n_1p_1 + n_2p_2}{n_1+n_2}.
Ici, l’astuce est que les tailles de groupes sont très déséquilibrées :
- Le médicament a surtout été donné aux hommes (où il marche « moins bien »).
- Le placebo a surtout été donné aux femmes (où les taux semblent très élevés).
C’est ce déséquilibre qui crée l’illusion et inverse la conclusion.
II. Facteurs cachés et confusion
1. Exemple sportif : vitesse au 100 m et fast-food
Imaginons une étude où l’on mesure la vitesse de course au 100 m et la consommation de fast-food par semaine.
Résultat global (regroupé) : Les gros consommateurs de fast-food semblent courir plus vite.
Mais en réalité, il y a un facteur caché : l’âge.
- Les jeunes (15–20 ans) consomment souvent beaucoup de fast-food et courent plus vite.
- Les adultes plus âgés consomment moins de fast-food et courent plus lentement.
Ainsi, ce n’est pas le fast-food qui rend plus rapide, c’est simplement que les jeunes sont surreprésentés dans le groupe des gros consommateurs.
Modélisation mathématique :
- On note [math]v[/math] la vitesse au 100 m, [math]F[/math] la consommation de fast-food, et [math]A[/math] l’âge.
- Globalement, on regarde [math]v=f(F)[/math] et on croit voir une tendance positive.
- Mais si on scinde par âge (jeunes/adultes), la tendance réelle apparaît : à âge égal, plus on consomme de fast-food, moins on est rapide.
🔒 La suite est réservée aux membres Premium
Accédez à l’intégralité des 40 sujets rédigés pour le Grand Oral de Maths.
Je veux le Pack Premium