Exemple de test T à deux échantillons et intervalle de confiance

Parfois, dans les statistiques, il est utile de voir des exemples élaborés de problèmes. Ces exemples peuvent nous aider à trouver des problèmes similaires. Dans cet article, nous allons parcourir le processus de réalisation de statistiques inférentielles pour un résultat concernant deux moyennes de population. Non seulement verrons-nous comment mener une test d'hypothèse sur la différence de deux moyennes de population, nous allons également construire un Intervalle de confiance pour cette différence. Les méthodes que nous utilisons sont parfois appelées test t à deux échantillons et intervalle de confiance t à deux échantillons.

L'énoncé du problème

Supposons que nous souhaitons tester l'aptitude mathématique des enfants des écoles primaires. Une question que nous pouvons nous poser est de savoir si les niveaux supérieurs ont des scores moyens aux tests plus élevés.

Un échantillon aléatoire simple de 27 élèves de troisième année est soumis à un test de mathématiques, leurs réponses sont notées et les résultats se révèlent avoir un score moyen de 75 points avec un

instagram viewer
exemple d'écart type de 3 points.

Un échantillon aléatoire simple de 20 élèves de cinquième est soumis au même test de mathématiques et leurs réponses sont notées. Le score moyen pour les élèves de cinquième année est de 84 points avec un écart-type d'échantillon de 5 points.

Dans ce scénario, nous posons les questions suivantes:

  • Les données de l'échantillon nous fournissent-elles des preuves que le score de test moyen de la population de tous les élèves de cinquième année dépasse le score de test moyen de la population de tous les élèves de troisième année?
  • Quel est un intervalle de confiance à 95% pour la différence des scores moyens aux tests entre les populations de troisième année et de cinquième année?

Conditions et procédure

Nous devons sélectionner la procédure à utiliser. Ce faisant, nous devons nous assurer et vérifier que les conditions de cette procédure sont remplies. On nous demande de comparer deux moyennes de population. Une collection de méthodes pouvant être utilisées pour ce faire est celle des procédures t à deux échantillons.

Afin d'utiliser ces procédures t pour deux échantillons, nous devons nous assurer que les conditions suivantes sont remplies:

  • Nous avons deux échantillons aléatoires simples des deux populations d'intérêt.
  • Nos simples échantillons aléatoires ne constituent pas plus de 5% de la population.
  • Les deux échantillons sont indépendants l'un de l'autre et il n'y a pas de correspondance entre les sujets.
  • La variable est normalement distribuée.
  • La moyenne de la population et l'écart type sont inconnus pour les deux populations.

Nous constatons que la plupart de ces conditions sont remplies. On nous a dit que nous disposions d'échantillons aléatoires simples. Les populations que nous étudions sont nombreuses car il y a des millions d'élèves dans ces classes.

La condition que nous ne pouvons pas supposer automatiquement est que les résultats des tests soient normalement distribués. Comme nous avons une taille d'échantillon suffisamment grande, par la robustesse de nos procédures t, nous n'avons pas nécessairement besoin que la variable soit distribuée normalement.

Les conditions étant remplies, nous effectuons quelques calculs préliminaires.

Erreur standard

L'erreur type est une estimation d'un écart type. Pour cette statistique, nous ajoutons la variance d'échantillon des échantillons, puis prenons la racine carrée. Cela donne la formule:

(s1 2 / n1 + s22 / n2)1/2

En utilisant les valeurs ci-dessus, nous voyons que la valeur de l'erreur standard est

(32 / 27+ 52 / 20)1/2 =(1 / 3 + 5 / 4 )1/2 = 1.2583

Degrés de liberté

Nous pouvons utiliser l'approximation prudente pour notre degrés de liberté. Cela peut sous-estimer le nombre de degrés de liberté, mais il est beaucoup plus facile à calculer que d'utiliser la formule de Welch. Nous utilisons la plus petite des deux tailles d'échantillon, puis soustrayons une de ce nombre.

Pour notre exemple, le plus petit des deux échantillons est 20. Cela signifie que le nombre de degrés de liberté est de 20 - 1 = 19.

Test d'hypothèse

Nous souhaitons tester l'hypothèse selon laquelle les élèves de cinquième année ont un score de test moyen supérieur au score moyen des élèves de troisième année. Soit μ1 être le score moyen de la population de tous les élèves de cinquième année. De même, nous laissons μ2 être le score moyen de la population de tous les élèves de troisième année.

Les hypothèses sont les suivantes:

  • H0: μ1 - μ2 = 0
  • Hune: μ1 - μ2 > 0

La statistique de test est la différence entre les moyennes de l'échantillon, qui est ensuite divisée par l'erreur standard. Comme nous utilisons des échantillons d'écarts-types pour estimer l'écart-type de la population, la statistique de test de la distribution t.

La valeur de la statistique de test est (84 - 75) /1,2583. C'est environ 7h15.

Nous déterminons maintenant quelle est la valeur de p pour ce test d'hypothèse. Nous regardons la valeur de la statistique de test, et où elle est située sur une distribution t avec 19 degrés de liberté. Pour cette distribution, nous avons 4,2 x 10-7 comme notre valeur p. (Une façon de déterminer cela est d'utiliser la fonction T.DIST.RT dans Excel.)

Puisque nous avons une si petite valeur de p, nous rejetons l'hypothèse nulle. La conclusion est que la note moyenne au test pour les élèves de cinquième année est supérieure à la note moyenne pour les élèves de troisième année.

Intervalle de confiance

Puisque nous avons établi qu'il existe une différence entre les scores moyens, nous déterminons maintenant un intervalle de confiance pour la différence entre ces deux moyennes. Nous avons déjà une grande partie de ce dont nous avons besoin. L'intervalle de confiance pour la différence doit avoir à la fois une estimation et une marge d'erreur.

L'estimation de la différence de deux moyennes est simple à calculer. On retrouve simplement la différence des moyennes d'échantillon. Cette différence des moyennes de l'échantillon estime la différence des moyennes de la population.

Pour nos données, la différence dans les moyennes d'échantillonnage est de 84 à 75 = 9.

La marge d'erreur est légèrement plus difficile à calculer. Pour cela, nous devons multiplier la statistique appropriée par l'erreur standard. La statistique dont nous avons besoin se trouve en consultant un tableau ou un logiciel statistique.

Toujours en utilisant l'approximation conservatrice, nous avons 19 degrés de liberté. Pour un intervalle de confiance à 95%, nous voyons que t* = 2.09. Nous pourrions utiliser le Fonction T.INV dans Excel pour calculer cette valeur.

Nous assemblons maintenant tout et voyons que notre marge d'erreur est de 2,09 x 1,2583, ce qui représente environ 2,63. L'intervalle de confiance est de 9 ± 2,63. L'intervalle est de 6,37 à 11,63 points au test choisi par les cinquième et troisième élèves.