Le Paradoxe de Simpson

Introduction
Parfois, les chiffres semblent parler d’eux-mêmes… mais en réalité, ils peuvent nous tromper. 📊
C’est ce qui se passe avec le paradoxe de Simpson : une situation où une tendance observée dans plusieurs groupes peut complètement s’inverser lorsqu’on regroupe les données.
Ce paradoxe a surpris plus d’un statisticien, car il remet en cause notre intuition et nous rappelle que les moyennes globales ne disent pas toujours la vérité.
Problématique : Comment les mathématiques du paradoxe de Simpson montrent-elles que l’interprétation des données peut être trompeuse, et quelles précautions prendre pour éviter ces pièges ?
I. L’effet trompeur des échantillons déséquilibrés
1. Cas classique : médicament vs placebo
Imaginons une étude médicale qui compare l’efficacité d’un médicament (M) et d’un placebo (P), séparément chez les hommes et chez les femmes.
Tableau 1 : Hommes
Groupe | Nombre total | Guéris | Taux |
---|---|---|---|
Médicament (M) | 100 | 60 | [math]\tfrac{60}{100} = 60%[/math] |
Placebo (P) | 100 | 20 | [math]\tfrac{20}{100} = 20%[/math] |
Tableau 2 : Femmes
Groupe | Nombre total | Guéris | Taux |
---|---|---|---|
Médicament (M) | 10 | 9 | [math]\tfrac{9}{10} = 90%[/math] |
Placebo (P) | 100 | 80 | [math]\tfrac{80}{100} = 80%[/math] |
Dans chaque sous-groupe (hommes ou femmes), on voit que le médicament marche mieux que le placebo :
- Chez les hommes : 60 % vs 20 %.
- Chez les femmes : 90 % vs 80 %.
Au total :
- Médicament : [math]60+9=69[/math] guéris sur [math]100+10=110[/math], soit [math]\tfrac{69}{110}\approx 62,7%[/math].
- Placebo : [math]20+80=100[/math] guéris sur [math]100+10=110[/math], soit [math]\tfrac{100}{110}\approx 90,9%[/math].
2. Explication mathématique
En fait, la proportion globale est une moyenne pondérée des sous-proportions.
Si on appelle [math]p_1[/math] et [math]p_2[/math] les taux de guérison dans les deux sous-groupes, et [math]n_1[/math], [math]n_2[/math] leurs effectifs, alors le taux global est :
p = \frac{n_1p_1 + n_2p_2}{n_1+n_2}.
Ici, l’astuce est que les tailles de groupes sont très déséquilibrées :
- Le médicament a surtout été donné aux hommes (où il marche « moins bien »).
- Le placebo a surtout été donné aux femmes (où les taux semblent très élevés).
C’est ce déséquilibre qui crée l’illusion et inverse la conclusion.
II. Facteurs cachés et confusion
1. Exemple sportif : vitesse au 100 m et fast-food
Imaginons une étude où l’on mesure la vitesse de course au 100 m et la consommation de fast-food par semaine.
Résultat global (regroupé) : Les gros consommateurs de fast-food semblent courir plus vite.
Mais en réalité, il y a un facteur caché : l’âge.
- Les jeunes (15–20 ans) consomment souvent beaucoup de fast-food et courent plus vite.
- Les adultes plus âgés consomment moins de fast-food et courent plus lentement.
Ainsi, ce n’est pas le fast-food qui rend plus rapide, c’est simplement que les jeunes sont surreprésentés dans le groupe des gros consommateurs.
Modélisation mathématique :
- On note [math]v[/math] la vitesse au 100 m, [math]F[/math] la consommation de fast-food, et [math]A[/math] l’âge.
- Globalement, on regarde [math]v=f(F)[/math] et on croit voir une tendance positive.
- Mais si on scinde par âge (jeunes/adultes), la tendance réelle apparaît : à âge égal, plus on consomme de fast-food, moins on est rapide.
2. Exemple physique : cinétique chimique
En chimie, on étudie l’avancement d’une réaction [math]x(t)[/math] en fonction du temps.
Naïvement, on pourrait croire que la courbe est linéaire ou «régulière» pour toutes les expériences.
Mais en réalité, plusieurs facteurs influencent la vitesse :
- la concentration initiale [math]C[/math] des réactifs,
- la température [math]T[/math].
Si on mélange les résultats de plusieurs expériences (avec des [math]C[/math] et [math]T[/math] différents), on peut obtenir une courbe globale qui semble « bizarre » : par exemple une réaction qui accélère puis ralentit sans logique.
En fait :
- Pour [math]C[/math] et [math]T[/math] fixés, les lois cinétiques sont claires (souvent exponentielles ou linéaires selon l’ordre de la réaction).
- C’est seulement le mélange de données hétérogènes qui crée une illusion.
On retrouve l’idée du paradoxe de Simpson : une conclusion erronée quand on oublie de séparer les bons sous-groupes.
III. Du paradoxe aux applications concrètes
1. Débats célèbres et controverses
Le paradoxe de Simpson n’est pas une simple curiosité de mathématiciens : il a eu des conséquences réelles dans des débats de société.
- Université de Berkeley (1973) : les statistiques globales semblaient montrer que les femmes avaient moins de chances d’être admises que les hommes. Cela a été présenté comme une preuve de discrimination sexiste. Mais en réalité, les femmes postulaient davantage aux départements très sélectifs (médecine, droit), où les taux de réussite étaient faibles pour tout le monde. Une fois les données corrigées par sous-départements, on voyait que les taux d’admission étaient comparables, voire favorables aux femmes. Un même chiffre avait donc mené à deux interprétations opposées !
- Essais cliniques : dans la recherche médicale, on a parfois cru qu’un traitement était inefficace, voire nocif, en analysant seulement les résultats globaux. Mais en séparant les patients par âge ou par état initial, on retrouvait un effet positif clair. Ignorer la variable cachée (comme l’âge ou la gravité de la maladie) pouvait donc conduire à des conclusions dangereuses.
Ces exemples montrent que le paradoxe a pu influencer des décisions importantes en justice, en santé publique, ou en politique.
2. Comment l’éviter en pratique
Aujourd’hui, les statisticiens et scientifiques prennent en compte le paradoxe de Simpson grâce à des méthodes bien établies :
- Stratification systématique : avant d’annoncer un résultat, on vérifie qu’il est vrai dans les principaux sous-groupes (hommes/femmes, jeunes/vieux, catégories sociales). Cela permet de repérer rapidement un effet de confusion.
- Pondérations : dans les sondages, on «rééquilibre» les réponses pour que la répartition (par âge, sexe, région) corresponde à la population réelle. Par exemple, si un échantillon contient trop d’étudiants, leurs réponses seront pondérées pour ne pas biaiser le résultat.
- Modèles de régression : on peut intégrer plusieurs variables explicatives dans une équation. Par exemple, on estime la probabilité de guérison en fonction à la fois du traitement, de l’âge, et du sexe. Mathématiquement, cela permet de «neutraliser» les effets des variables cachées et d’isoler l’impact réel du facteur étudié.
Cela rappelle que les mathématiques seules ne suffisent pas : il faut toujours regarder le contexte et les variables cachées avant de tirer une conclusion.
Conclusion
Le paradoxe de Simpson nous montre que les chiffres bruts peuvent être trompeurs : ce qui est vrai dans chaque sous-groupe peut s’inverser lorsqu’on les regroupe. Les mathématiques nous montrent que la clé réside dans la manière de pondérer les données et d’identifier les variables cachées.
On espère que ce sujet vous aidera, et que vous saurez l’exploiter au mieux pour briller à votre épreuve !