Quel est le paradoxe de Simpson dans les statistiques?

UNE paradoxe est une affirmation ou un phénomène qui à première vue semble contradictoire. Les paradoxes aident à révéler la vérité sous-jacente sous la surface de ce qui semble être absurde. Dans le domaine des statistiques, le paradoxe de Simpson montre quels types de problèmes résultent de la combinaison des données de plusieurs groupes.

Avec toutes les données, nous devons faire preuve de prudence. D'où vient-il? Comment a-t-il été obtenu? Et que dit-il vraiment? Ce sont toutes de bonnes questions que nous devrions poser lorsqu'elles sont présentées avec des données. Le cas très surprenant du paradoxe de Simpson nous montre que parfois ce que les données semblent dire n'est pas vraiment le cas.

Un aperçu du paradoxe

Supposons que nous observons plusieurs groupes et établissons une relation ou corrélation pour chacun de ces groupes. Le paradoxe de Simpson dit que lorsque nous combinons tous les groupes ensemble et examinons les données sous forme agrégée, la corrélation que nous avons remarquée auparavant peut s'inverser. Cela est le plus souvent dû à des variables cachées qui n'ont pas été prises en compte, mais parfois à des valeurs numériques des données.

instagram viewer

Exemple

Pour donner un peu plus de sens au paradoxe de Simpson, regardons l'exemple suivant. Dans un certain hôpital, il y a deux chirurgiens. Le chirurgien A opère sur 100 patients et 95 survivent. Le chirurgien B opère sur 80 patients et 72 survivent. Nous envisageons de nous faire opérer dans cet hôpital et de vivre l'opération est quelque chose d'important. Nous voulons choisir le meilleur des deux chirurgiens.

Nous examinons les données et les utilisons pour calculer le pourcentage de patients du chirurgien A qui ont survécu à leurs opérations et le comparer au taux de survie des patients du chirurgien B.

  • 95 patients sur 100 ont survécu avec le chirurgien A, donc 95/100 = 95% d'entre eux ont survécu.
  • 72 patients sur 80 ont survécu avec le chirurgien B, donc 72/80 = 90% d'entre eux ont survécu.

D'après cette analyse, quel chirurgien choisir pour nous soigner? Il semblerait que le chirurgien A soit le pari le plus sûr. Mais est-ce réellement vrai?

Et si nous effectuions des recherches supplémentaires sur les données et constations qu'à l'origine l'hôpital avait envisagé deux types différents de chirurgies, mais ensuite regroupé toutes les données ensemble pour faire rapport sur chacun de ses chirurgiens. Toutes les chirurgies ne sont pas égales, certaines étaient considérées comme des chirurgies d'urgence à haut risque, tandis que d'autres étaient de nature plus routinière et avaient été planifiées à l'avance.

Sur les 100 patients traités par le chirurgien A, 50 présentaient un risque élevé, dont trois sont décédés. Les 50 autres ont été considérés comme routiniers et parmi eux 2 sont décédés. Cela signifie que, pour une chirurgie de routine, un patient traité par le chirurgien A a un taux de survie de 48/50 = 96%.

Maintenant, nous examinons plus attentivement les données du chirurgien B et constatons que sur 80 patients, 40 présentaient un risque élevé, dont sept sont décédés. Les 40 autres étaient de routine et un seul est décédé. Cela signifie qu'un patient a un taux de survie de 39/40 = 97,5% pour une chirurgie de routine avec le chirurgien B.

Maintenant, quel chirurgien semble le mieux? Si votre chirurgie doit être de routine, le chirurgien B est en fait le meilleur chirurgien. Si nous regardons toutes les chirurgies effectuées par les chirurgiens, A est mieux. C'est assez contre-intuitif. Dans ce cas, la variable cachée du type de chirurgie affecte les données combinées des chirurgiens.

Histoire du paradoxe de Simpson

Le paradoxe de Simpson tire son nom d'Edward Simpson, qui a décrit ce paradoxe pour la première fois dans l'article de 1951 intitulé "The Interpretation of Interaction in Contingency Tables" du Journal de la Royal Statistical Society. Pearson et Yule ont chacun observé un paradoxe similaire un demi-siècle plus tôt que Simpson, de sorte que le paradoxe de Simpson est parfois également appelé effet Simpson-Yule.

Il existe de nombreuses applications du paradoxe dans des domaines aussi divers que les statistiques sportives et données sur le chômage. Chaque fois que les données sont agrégées, faites attention à ce que ce paradoxe apparaisse.

instagram story viewer