Raccourci de formule de somme des carrés

Le calcul d'un échantillon variance ou écart-type est généralement indiqué sous forme de fraction. Le numérateur de cette fraction implique une somme des écarts au carré de la moyenne. En statistiques, la formule de cette somme totale des carrés est

Σ (xje - X)2

Ici, le symbole x̄ fait référence à la moyenne de l'échantillon, et le symbole Σ nous dit de additionner les différences au carré (xje - x̄) pour tous je.

Bien que cette formule fonctionne pour les calculs, il existe une formule de raccourci équivalente qui ne nous oblige pas à calculer d'abord le échantillon moyen. Cette formule de raccourci pour la somme des carrés est

Σ (xje2) - (Σ xje)2/n

Ici la variable n fait référence au nombre de points de données dans notre échantillon.

Exemple de formule standard

Pour voir comment fonctionne cette formule de raccourci, nous allons considérer un exemple calculé à l'aide des deux formules. Supposons que notre échantillon soit 2, 4, 6, 8. La moyenne de l'échantillon est (2 + 4 + 6 + 8) / 4 = 20/4 = 5. Maintenant, nous calculons la différence de chaque point de données avec la moyenne 5.

instagram viewer
  • 2 – 5 = -3
  • 4 – 5 = -1
  • 6 – 5 = 1
  • 8 – 5 = 3

Nous plaçons maintenant chacun de ces nombres et les additionnons ensemble. (-3)2 + (-1)2 + 12 + 32 = 9 + 1 + 1 + 9 = 20.

Exemple de formule de raccourci

Nous allons maintenant utiliser le même ensemble de données: 2, 4, 6, 8, avec la formule de raccourci pour déterminer la somme des carrés. Nous mettons d'abord en carré chaque point de données et les additionnons ensemble: 22 + 42 + 62 + 82 = 4 + 16 + 36 + 64 = 120.

L'étape suivante consiste à additionner toutes les données et à mettre cette somme au carré: (2 + 4 + 6 + 8)2 = 400. Nous divisons cela par le nombre de points de données pour obtenir 400/4 = 100.

Nous soustrayons maintenant ce nombre de 120. Cela nous donne que la somme des écarts au carré est de 20. C'est exactement le nombre que nous avons déjà trouvé dans l'autre formule.

Comment cela marche-t-il?

Beaucoup de gens accepteront simplement la formule à leur valeur nominale et ne savent pas pourquoi cette formule fonctionne. En utilisant un peu d'algèbre, nous pouvons voir pourquoi cette formule de raccourci est équivalente à la manière traditionnelle et traditionnelle de calculer la somme des écarts au carré.

Bien qu'il puisse y avoir des centaines, sinon des milliers de valeurs dans un ensemble de données réelles, nous supposerons qu'il n'y a que trois valeurs de données: x1, X2, X3. Ce que nous voyons ici pourrait être étendu à un ensemble de données contenant des milliers de points.

Nous commençons par noter que (x1 + x2 + x3) = 3 x̄. L'expression Σ (xje - X)2 = (x1 - X)2 + (x2 - X)2 + (x3 - X)2.

Nous utilisons maintenant le fait de l'algèbre de base que (a + b)2 = a2 + 2ab + b2. Cela signifie que (x1 - X)2 = x12 -2x1 x̄ + x̄2. Nous faisons cela pour les deux autres termes de notre résumé, et nous avons:

X12 -2x1 x̄ + x̄2 + x22 -2x2 x̄ + x̄2 + x32 -2x3 x̄ + x̄2.

Nous réorganisons cela et avons:

X12+ x22 + x32+ 3x̄2 - 2x̄ (x1 + x2 + x3) .

En réécrivant (x1 + x2 + x3) = 3x̄ ce qui précède devient:

X12+ x22 + x32 - 3x̄2.

Maintenant depuis 3x̄2 = (x1+ x2 + x3)2/ 3, notre formule devient:

X12+ x22 + x32 - (X1+ x2 + x3)2/3

Et ceci est un cas particulier de la formule générale mentionnée ci-dessus:

Σ (xje2) - (Σ xje)2/n

Est-ce vraiment un raccourci?

Il ne semble pas que cette formule soit vraiment un raccourci. Après tout, dans l'exemple ci-dessus, il semble qu'il y ait autant de calculs. Cela tient en partie au fait que nous n'avons examiné qu'un échantillon de petite taille.

À mesure que nous augmentons la taille de notre échantillon, nous constatons que la formule de raccourci réduit le nombre de calculs d'environ la moitié. Nous n'avons pas besoin de soustraire la moyenne de chaque point de données, puis de quadriller le résultat. Cela réduit considérablement le nombre total d'opérations.

instagram story viewer