Intervalles de confiance: 4 erreurs courantes

Les intervalles de confiance sont un élément clé des statistiques inférentielles. Nous pouvons utiliser des probabilités et des informations distribution de probabilité estimer un paramètre de population à l'aide d'un échantillon. La déclaration d'un Intervalle de confiance est fait de telle manière qu'il est facilement mal compris. Nous examinerons l'interprétation correcte des intervalles de confiance et étudierons quatre erreurs commises concernant ce domaine des statistiques.

Qu'est-ce qu'un intervalle de confiance?

Un intervalle de confiance peut être exprimé sous la forme d'une plage de valeurs ou sous la forme suivante:

Estimer ± Marge d'erreur

Un intervalle de confiance est généralement indiqué avec un niveau de confiance.Niveaux de confiance communs sont de 90%, 95% et 99%.

Nous allons voir un exemple où nous voulons utiliser une moyenne d'échantillon pour déduire la moyenne d'une population. Supposons que cela donne un intervalle de confiance de 25 à 30. Si nous disons que nous sommes convaincus à 95% que la population inconnue

instagram viewer
signifier est contenu dans cet intervalle, alors nous disons vraiment que nous avons trouvé l'intervalle en utilisant une méthode qui réussit à donner des résultats corrects 95% du temps. À long terme, notre méthode sera infructueuse 5% du temps. En d'autres termes, nous ne parviendrons pas à capturer la vraie population, c'est-à-dire seulement une fois sur 20.

Erreur # 1

Nous allons maintenant examiner une série d'erreurs différentes qui peuvent être commises lors du traitement des intervalles de confiance. Une déclaration incorrecte qui est souvent faite au sujet d'un intervalle de confiance à un niveau de confiance de 95% est qu'il y a 95% de chances que l'intervalle de confiance contienne la vraie moyenne de la population.

La raison pour laquelle il s'agit d'une erreur est en fait assez subtile. L'idée clé d'un intervalle de confiance est que la probabilité utilisée entre dans l'image avec la méthode utilisée, pour déterminer l'intervalle de confiance, est qu'elle se réfère à la méthode qui est utilisé.

Erreur # 2

Une deuxième erreur consiste à interpréter un intervalle de confiance à 95% comme disant que 95% de toutes les valeurs de données dans la population se situent dans l'intervalle. Encore une fois, 95% parlent de la méthode du test.

Pour voir pourquoi l'énoncé ci-dessus est incorrect, nous pourrions considérer une population normale avec un écart-type de 1 et une moyenne de 5. Un échantillon qui avait deux points de données, chacun avec des valeurs de 6, a une moyenne d'échantillon de 6. Un intervalle de confiance à 95% pour la moyenne de la population serait de 4,6 à 7,4. Cela ne chevauche clairement pas 95% des distribution normale, il ne contiendra donc pas 95% de la population.

Erreur # 3

Une troisième erreur consiste à dire qu'un intervalle de confiance à 95% implique que 95% de tous les moyens d'échantillonnage possibles se situent dans la plage de l'intervalle. Revoyez l'exemple de la dernière section. Tout échantillon de taille deux qui ne comportait que des valeurs inférieures à 4,6 aurait une moyenne inférieure à 4,6. Ainsi, ces moyennes d'échantillon se situeraient en dehors de cet intervalle de confiance particulier. Les échantillons qui correspondent à cette description représentent plus de 5% du montant total. C'est donc une erreur de dire que cet intervalle de confiance capture 95% de toutes les moyennes de l'échantillon.

Erreur # 4

Une quatrième erreur dans le traitement des intervalles de confiance est de penser qu'ils sont la seule source d'erreur. Bien qu'il existe une marge d'erreur associée à un intervalle de confiance, il existe d'autres endroits où les erreurs peuvent se glisser dans une analyse statistique. Quelques exemples de ces types d'erreurs pourraient provenir d'une conception incorrecte de l'expérience, d'un biais dans l'échantillonnage ou d'une incapacité à obtenir des données d'un certain sous-ensemble de la population.