Comprendre les quantiles: définitions et utilisations

Statistiques récapitulatives telles que la médiane, premier quartile et troisième quartile sont des mesures de position. En effet, ces chiffres indiquent où se situe une proportion spécifiée de la distribution des données. Par exemple, la médiane est la position médiane des données sous enquête. La moitié des données ont des valeurs inférieures à la médiane. De même, 25% des données ont des valeurs inférieures au premier quartile et 75% des données ont des valeurs inférieures au troisième quartile.

Ce concept peut être généralisé. Une façon de le faire est de considérer centiles. Le 90e centile indique le point où 90% des données ont des valeurs inférieures à ce nombre. Plus généralement, pe centile est le nombre n Pour qui p% des données est inférieur à n.

Variables aléatoires continues

Bien que les statistiques d’ordre de la médiane, du premier quartile et du troisième quartile soient généralement introduites avec un ensemble discret de données, ces statistiques peuvent également être définies pour un variable. Puisque nous travaillons avec une distribution continue, nous utilisons l'intégrale. le

instagram viewer
pe centile est un nombre n tel que:

-₶nF ( X ) dx = p/100.

Ici F ( X ) est une fonction de densité de probabilité. Ainsi, nous pouvons obtenir n'importe quel centile que nous voulons pour un continu Distribution.

Quantiles

Une autre généralisation consiste à noter que nos statistiques de commande divisent la distribution avec laquelle nous travaillons. La médiane divise l'ensemble de données en deux, et la médiane, ou 50e centile d'une distribution continue divise la distribution en deux en termes de surface. Le premier quartile, médian et le troisième quartile partitionne nos données en quatre morceaux avec le même nombre dans chacun. Nous pouvons utiliser l'intégrale ci-dessus pour obtenir les 25e, 50e et 75e centiles, et diviser une distribution continue en quatre parties de superficie égale.

Nous pouvons généraliser cette procédure. La question que nous pouvons commencer est donnée un nombre naturel n, comment diviser la distribution d'une variable en n pièces de taille égale? Cela rejoint directement l'idée de quantiles.

le n les quantiles d'un ensemble de données sont trouvés approximativement en classant les données dans l'ordre, puis en divisant ce classement par n - 1 points également espacés sur l'intervalle.

Si nous avons une fonction de densité de probabilité pour une variable aléatoire continue, nous utilisons l'intégrale ci-dessus pour trouver les quantiles. Pour n quantiles, nous voulons:

  • Le premier à avoir 1 /n de la zone de distribution à gauche de celle-ci.
  • Le deuxième à avoir 2 /n de la zone de distribution à gauche de celle-ci.
  • le re avoir r/n de la zone de distribution à gauche de celle-ci.
  • Le dernier à avoir (n - 1)/n de la zone de distribution à gauche de celle-ci.

Nous voyons que pour tout nombre naturel n, les n les quantiles correspondent aux 100r/ncentiles, où r peut être n'importe quel nombre naturel de 1 à n - 1.

Quantiles communs

Certains types de quantiles sont utilisés assez couramment pour avoir des noms spécifiques. En voici une liste:

  • Le quantile 2 est appelé la médiane
  • Les 3 quantiles sont appelés terciles
  • Les 4 quantiles sont appelés quartiles
  • Les 5 quantiles sont appelés quintiles
  • Les 6 quantiles sont appelés sextiles
  • Les 7 quantiles sont appelés septiles
  • Les 8 quantiles sont appelés octiles
  • Les 10 quantiles sont appelés déciles
  • Les 12 quantiles sont appelés duodéciles
  • Les 20 quantiles sont appelés vigintiles
  • Les 100 quantiles sont appelés centiles
  • Les 1000 quantiles sont appelés permilles

Bien sûr, d'autres quantiles existent au-delà de ceux de la liste ci-dessus. Plusieurs fois, le quantile spécifique utilisé correspond à la taille de l'échantillon à partir d'un Distribution.

Utilisation des quantiles

En plus de spécifier la position d'un ensemble de données, les quantiles sont utiles à d'autres égards. Supposons que nous ayons un échantillon aléatoire simple d'une population et que la distribution de la population soit inconnue. Pour aider à déterminer si un modèle, tel qu'une distribution normale ou une distribution de Weibull, convient bien à la population à partir de laquelle nous avons échantillonné, nous pouvons examiner les quantiles de nos données et le modèle.

En faisant correspondre les quantiles de nos données d'échantillon aux quantiles d'un particulier distribution de probabilité, le résultat est une collection de données appariées. Nous traçons ces données dans un nuage de points, connu sous le nom de tracé quantile-quantile ou tracé q-q. Si le diagramme de dispersion résultant est à peu près linéaire, le modèle correspond bien à nos données.

instagram story viewer