Différences entre corrélation et causalité

Un jour, au déjeuner, une jeune femme mangeait un grand bol de crème glacée, et un collègue a marché vers elle et lui a dit: «Tu ferais mieux de faire attention, il y a un statistiquecorrélation entre la crème glacée et la noyade. " Elle a dû lui donner un regard confus, alors qu'il élaborait un peu plus. "Les jours avec le plus de ventes de glaces voient également le plus de gens se noyer."

Quand elle a fini ma crème glacée, les deux collègues ont discuté du fait que le fait qu’une variable soit statistiquement associée à une autre ne signifie pas que l’une est la cause de l’autre. Parfois, une variable se cache en arrière-plan. Dans ce cas, le jour de l'année se cache dans les données. Plus de crème glacée est vendue les jours chauds d'été que ceux d'hiver neigeux. Plus de gens nagent en été, et donc se noient plus en été qu'en hiver.

Méfiez-vous des variables cachées

L'anecdote ci-dessus est un excellent exemple de ce que l'on appelle une variable cachée. Comme son nom l'indique, une variable cachée peut être insaisissable et difficile à détecter. Lorsque nous constatons que deux ensembles de données numériques sont fortement corrélés, nous devons toujours nous demander: «Pourrait-il y avoir autre chose à l'origine de cette relation?»

instagram viewer

Voici des exemples de forte corrélation causée par une variable cachée:

  • Le nombre moyen d'ordinateurs par personne dans un pays et l'espérance de vie moyenne de ce pays.
  • Le nombre de pompiers lors d'un incendie et les dommages causés par l'incendie.
  • La taille d'un élève du primaire et son niveau de lecture.

Dans tous ces cas, la relation entre les variables est très forte. Ceci est généralement indiqué par un Coefficient de corrélation qui a une valeur proche de 1 ou de -1. Peu importe à quel point ce coefficient de corrélation est proche de 1 ou de -1, cette statistique ne peut pas montrer qu'une variable est la cause de l'autre variable.

Détection des variables cachées

De par leur nature, les variables cachées sont difficiles à détecter. Une stratégie, si elle est disponible, consiste à examiner ce qui arrive aux données au fil du temps. Cela peut révéler des tendances saisonnières, comme l'exemple de la crème glacée, qui sont obscurcies lorsque les données sont regroupées. Une autre méthode consiste à regarder valeurs aberrantes et essayez de déterminer ce qui les rend différents des autres données. Parfois, cela donne un aperçu de ce qui se passe dans les coulisses. Le meilleur plan d'action est d'être proactif; remettre soigneusement en question les hypothèses et concevoir les expériences.

En quoi est-ce important?

Dans le scénario d'ouverture, supposons qu'un membre du Congrès bien intentionné mais statistiquement non informé ait proposé de proscrire toutes les glaces afin d'éviter la noyade. Un tel projet de loi gênerait de larges segments de la population, forcerait plusieurs entreprises à la faillite et supprimerait des milliers d’emplois avec la fermeture de l’industrie des glaces du pays. Malgré les meilleures intentions, ce projet de loi ne diminuerait pas le nombre de morts par noyade.

Si cet exemple semble un peu trop tiré par les cheveux, considérez ce qui suit, ce qui s'est réellement passé. Au début des années 1900, les médecins ont remarqué que certains nourrissons mouraient mystérieusement dans leur sommeil à cause de problèmes respiratoires perçus. Cela s'appelait la mort en crèche et est maintenant connu sous le nom de SMSN. Une chose qui sortait des autopsies effectuées sur ceux qui sont morts du SMSN était un thymus élargi, une glande située dans la poitrine. À partir de la corrélation d'hypertrophie des glandes du thymus chez les bébés SMSN, les médecins ont supposé qu'un thymus anormalement gros provoquait une respiration incorrecte et la mort.

La solution proposée était de rétrécir le thymus avec de fortes doses de rayonnement, ou de retirer complètement la glande. Ces procédures avaient un taux de mortalité élevé et ont entraîné encore plus de décès. Ce qui est triste, c'est que ces opérations n'ont pas dû être effectuées. Des recherches ultérieures ont montré que ces médecins se sont trompés dans leurs hypothèses et que le thymus n'est pas responsable du SMSN.

Corrélation ne signifie pas causalité

Ce qui précède devrait nous faire réfléchir lorsque nous pensons que des preuves statistiques sont utilisées pour justifier des éléments tels que les régimes médicaux, la législation et les propositions éducatives. Il est important de bien interpréter les données, surtout si les résultats impliquant une corrélation vont affecter la vie des autres.

Quand quelqu'un déclare: «Les études montrent que A est une cause de B et certaines statistiques le confirment», soyez prêt à répondre, "la corrélation n'implique pas la causalité." Soyez toujours à l'affût de ce qui se cache sous le Les données.