Statistiques et analyse de régression linéaire

La régression linéaire est une technique statistique utilisée pour en savoir plus sur la relation entre une variable indépendante (prédicteur) et une variable dépendante (critère). Lorsque vous avez plusieurs variables indépendantes dans votre analyse, cela est appelé régression linéaire multiple. En général, la régression permet au chercheur de poser la question générale "Quel est le meilleur prédicteur de ???"

Par exemple, disons que nous étudions les causes de obésité, mesuré par l'indice de masse corporelle (IMC). En particulier, nous voulions voir si les variables suivantes étaient des prédicteurs significatifs de l'IMC d'une personne: nombre de fast-food repas consommés par semaine, nombre d’heures de télévision regardées par semaine, nombre de minutes consacrées à l’exercice par semaine et IMC. Une régression linéaire serait une bonne méthodologie pour cette analyse.

L'équation de régression

Lorsque vous effectuez une analyse de régression avec une variable indépendante, l'équation de régression est Y = a + b * X où Y est la variable dépendante, X est la variable indépendante, a est la constante (ou intersection) et b est le

instagram viewer
pente de la droite de régression. Par exemple, supposons que la GPA soit mieux prédite par l'équation de régression 1 + 0,02 * IQ. Si un étudiant avait un QI de 130, alors son GPA serait de 3,6 (1 + 0,02 * 130 = 3,6).

Lorsque vous effectuez une analyse de régression dans laquelle vous avez plusieurs variables indépendantes, l'équation de régression est Y = a + b1 * X1 + b2 * X2 +… + bp * Xp. Par exemple, si nous voulions inclure plus de variables dans notre analyse GPA, telles que des mesures de motivation et d'autodiscipline, nous utiliserions ceci équation.

R Carré

R-square, également connu sous le nom de coefficient de détermination, est une statistique couramment utilisée pour évaluer l'ajustement du modèle d'une équation de régression. Autrement dit, quelle est la qualité de toutes vos variables indépendantes pour prédire votre variable dépendante? La valeur du carré R varie de 0,0 à 1,0 et peut être multipliée par 100 pour obtenir un pourcentage de variance expliqué. Par exemple, pour revenir à notre équation de régression GPA avec une seule variable indépendante (QI)… Disons que notre Le carré R de l'équation était de 0,4. Nous pourrions interpréter cela comme signifiant que 40% de la variance du GPA s'explique par QI. Si nous ajoutons ensuite nos deux autres variables (motivation et autodiscipline) et le carré R augmente à 0,6, cela signifie que le QI, la motivation et l'autodiscipline expliquent ensemble 60% de la variance du GPA scores.

Les analyses de régression sont généralement effectuées à l'aide de logiciels statistiques, tels que SPSS ou SAS, de sorte que le carré R est calculé pour vous.

Interprétation des coefficients de régression (b)

Les coefficients b des équations ci-dessus représentent la force et la direction de la relation entre les variables indépendantes et dépendantes. Si nous regardons l'équation GPA et IQ, 1 + 0,02 * 130 = 3,6, 0,02 est le coefficient de régression pour la variable IQ. Cela nous indique que la direction de la relation est positive de sorte que lorsque le QI augmente, le GPA augmente également. Si l'équation était de 1 à 0,02 * 130 = Y, cela signifierait que la relation entre le QI et le GPA était négative.

Hypothèses

Il existe plusieurs hypothèses sur les données qui doivent être satisfaites pour effectuer une analyse de régression linéaire:

  • Linéarité: On suppose que la relation entre les variables indépendantes et dépendantes est linéaire. Bien que cette hypothèse ne puisse jamais être pleinement confirmée, nuage de points de vos variables peut aider à faire cette détermination. Si une courbure est présente dans la relation, vous pouvez envisager de transformer les variables ou d'autoriser explicitement des composants non linéaires.
  • Normalité: On suppose que le résidus de vos variables sont normalement distribuées. C'est-à-dire que les erreurs dans la prédiction de la valeur de Y (la variable dépendante) sont distribuées d'une manière qui se rapproche de la courbe normale. Vous pouvez regarder histogrammes ou des tracés de probabilité normaux pour inspecter la distribution de vos variables et leurs valeurs résiduelles.
  • Indépendance: On suppose que les erreurs de prédiction de la valeur de Y sont toutes indépendantes les unes des autres (non corrélées).
  • Homoscédasticité: On suppose que la variance autour de la droite de régression est la même pour toutes les valeurs des variables indépendantes.

La source

  • StatSoft: Manuel de statistiques électroniques. (2011). http://www.statsoft.com/textbook/basic-statistics/#Crosstabulationb.
instagram story viewer