Intervalle de confiance pour la différence de deux proportions de population

Intervalles de confiance font partie de statistiques déductives. L'idée de base derrière ce sujet est d'estimer la valeur d'une population inconnue paramètre en utilisant un échantillon statistique. Nous pouvons non seulement estimer la valeur d'un paramètre, mais nous pouvons également adapter nos méthodes pour estimer la différence entre deux paramètres liés. Par exemple, nous pouvons vouloir trouver la différence dans le pourcentage de la population masculine votante américaine qui soutient une loi particulière par rapport à la population féminine votante.

Nous verrons comment faire ce type de calcul en construisant un intervalle de confiance pour la différence de deux proportions de population. Dans le processus, nous examinerons une partie de la théorie derrière ce calcul. Nous verrons quelques similitudes dans la façon dont nous construisons un intervalle de confiance pour une seule proportion de la population ainsi qu'un intervalle de confiance pour la différence de deux moyennes de population.

instagram viewer

Généralités

Avant d'examiner la formule spécifique que nous utiliserons, considérons le cadre général dans lequel s'inscrit ce type d'intervalle de confiance. La forme du type d'intervalle de confiance que nous allons examiner est donnée par la formule suivante:

Estimation +/- marge d'erreur

De nombreux intervalles de confiance sont de ce type. Il y a deux nombres que nous devons calculer. La première de ces valeurs est l'estimation du paramètre. La deuxième valeur est la marge d'erreur. Cette marge d'erreur explique le fait que nous ayons une estimation. L'intervalle de confiance nous fournit une gamme de valeurs possibles pour notre paramètre inconnu.

Conditions

Nous devons nous assurer que toutes les conditions sont remplies avant d'effectuer tout calcul. Pour trouver un intervalle de confiance pour la différence de deux proportions de population, nous devons nous assurer que les éléments suivants sont valables:

Nous avons deux échantillons aléatoires simples de grandes populations. Ici, «grande» signifie que la population est au moins 20 fois plus grande que la taille de l'échantillon. Les tailles d'échantillon seront désignées par n₁ et n₂.
Nos individus ont été choisis indépendamment les uns des autres.
Il y a au moins dix succès et dix échecs dans chacun de nos échantillons.

Si le dernier élément de la liste n'est pas satisfait, il peut y avoir un moyen de contourner cela. Nous pouvons modifier le intervalle de confiance plus quatre construction et obtention des résultats solides. À mesure que nous progressons, nous supposons que toutes les conditions ci-dessus sont remplies.

Échantillons et proportions de population

Nous sommes maintenant prêts à construire notre intervalle de confiance. Nous commençons par l'estimation de la différence entre nos proportions de population. Ces deux proportions de population sont estimées par une proportion d'échantillon. Ces proportions d'échantillon sont des statistiques que l'on trouve en divisant le nombre de succès dans chaque échantillon, puis en divisant par la taille de l'échantillon respectif.

La première proportion de la population est indiquée par p₁. Si le nombre de succès dans notre échantillon de cette population est k₁, alors nous avons un échantillon de k₁ / n_1.

On note cette statistique par p̂₁. Nous lisons ce symbole comme "p₁-hat "car il ressemble au symbole p₁ avec un chapeau sur le dessus.

De la même manière, nous pouvons calculer une proportion d'échantillon à partir de notre deuxième population. Le paramètre de cette population est p₂. Si le nombre de succès dans notre échantillon de cette population est k₂, et notre proportion d'échantillon est p̂₂= k₂ / n_2.

Ces deux statistiques deviennent la première partie de notre intervalle de confiance. L'estimation de p₁ est p̂₁. L'estimation de p₂ est p̂_2.Donc, l'estimation de la différence p₁ - p₂ est p̂₁- p̂_2.

Distribution d'échantillonnage de la différence des proportions d'échantillons

Ensuite, nous devons obtenir la formule de la marge d'erreur. Pour ce faire, nous considérerons d'abord distribution d'échantillonnage de p̂₁. Il s'agit d'une distribution binomiale avec probabilité de succès p₁ et n₁ essais. La moyenne de cette distribution est la proportion p₁. L'écart type de ce type de variable aléatoire a une variance de p₁(1 - p₁)/n₁.

La distribution d'échantillonnage de p̂₂est similaire à celle de p̂₁. Changez simplement tous les indices de 1 à 2 et nous avons une distribution binomiale avec une moyenne de p₂et variance de p₂(1 - p₂)/n₂.

Nous avons maintenant besoin de quelques résultats de statistiques mathématiques afin de déterminer la distribution d'échantillonnage de p̂₁- p̂₂. La moyenne de cette distribution est p₁ - p₂. Étant donné que les variances s'additionnent, nous voyons que la variance de la distribution d'échantillonnage est p₁(1 - p₁)/n₁ + p₂(1 - p₂)/n_2.L'écart type de la distribution est la racine carrée de cette formule.

Il y a quelques ajustements que nous devons faire. La première est que la formule de l'écart type de p̂₁- p̂₂ utilise les paramètres inconnus de p₁et p₂. Bien sûr, si nous connaissions vraiment ces valeurs, ce ne serait pas du tout un problème statistique intéressant. Nous n'aurions pas besoin d'estimer la différence entre p₁et p_2..Au lieu de cela, nous pourrions simplement calculer la différence exacte.

Ce problème peut être résolu en calculant une erreur standard plutôt qu'un écart type. Il nous suffit de remplacer les proportions de la population par des proportions d'échantillon. Les erreurs standard sont calculées à partir de statistiques plutôt que de paramètres. Une erreur standard est utile car elle estime efficacement un écart type. Ce que cela signifie pour nous, c'est que nous n'avons plus besoin de connaître la valeur des paramètres p₁ et p₂. .Étant donné que ces proportions d'échantillon sont connues, l'erreur standard est donnée par la racine carrée de l'expression suivante:

p̂₁(1 - p̂₁)/n₁ + p̂₂(1 - p̂₂)/n_2.

Le deuxième élément que nous devons aborder est la forme particulière de notre distribution d'échantillonnage. Il s'avère que nous pouvons utiliser une distribution normale pour approximer la distribution d'échantillonnage de p̂₁- p̂₂. La raison en est quelque peu technique, mais elle est décrite dans le paragraphe suivant.

Les deux p̂₁et P₂avoir une distribution d'échantillonnage binomiale. Chacune de ces distributions binomiales peut être assez bien approchée par une distribution normale. Ainsi p̂₁- p̂₂est une variable aléatoire. Il est formé comme une combinaison linéaire de deux variables aléatoires. Chacun d'eux est approximé par une distribution normale. Par conséquent, la distribution d'échantillonnage de p̂₁- p̂₂est également normalement distribué.

Formule d'intervalle de confiance

Nous avons maintenant tout ce dont nous avons besoin pour assembler notre intervalle de confiance. L'estimation est (p̂₁- p̂₂) et la marge d'erreur est z * [p̂₁(1 - p̂₁)/n₁ + p̂₂(1 - p̂₂)/n_2.]^0.5. La valeur que nous saisissons z * est dicté par le niveau de confiance C. Valeurs couramment utilisées pour z * sont 1,645 pour une confiance de 90% et 1,96 pour une confiance de 95%. Ces valeurs pour z * dénoter la partie de la distribution normale standard où exactement C pour cent de la distribution se situe entre -z * et z *.

La formule suivante nous donne un intervalle de confiance pour la différence de deux proportions de population:

(p̂₁- p̂₂) +/- z * [p̂₁(1 - p̂₁)/n₁ + p̂₂(1 - p̂₂)/n_2.]^0.5