Le domaine des statistiques est divisé en deux grandes divisions: descriptive et déductive. Chacun de ces segments est important, offrant différentes techniques permettant d'atteindre différents objectifs. Les statistiques descriptives décrivent ce qui se passe dans un population ou base de données. Les statistiques inférentielles, en revanche, permettent aux scientifiques de tirer des conclusions d'un échantillon et de les généraliser à une population plus large. Les deux types de statistiques présentent des différences importantes.
Statistiques descriptives
Les statistiques descriptives sont le type de statistiques qui vient probablement à l’esprit de la plupart des gens quand ils entendent le mot «statistiques». Dans cette branche de la statistique, le but est de décrire. Des mesures numériques sont utilisées pour indiquer les caractéristiques d'un ensemble de données. Il existe un certain nombre d'éléments qui appartiennent à cette partie des statistiques, tels que:
- le moyenneou mesure du centre d'un ensemble de données, composé de la moyenne, de la médiane, du mode ou du milieu de gamme
- La propagation d'un ensemble de données, qui peut être mesurée avec intervalle ou écart-type
- Descriptions générales de données telles que résumé de cinq chiffres
- Des mesures telles que asymétrie et kurtosis
- L'exploration des relations et corrélation entre les données appariées
- La présentation des résultats statistiques graphique forme
Ces mesures sont importantes et utiles car elles permettent aux scientifiques de voir les tendances parmi les données, et donc de donner un sens à ces données. Les statistiques descriptives ne peuvent être utilisées que pour décrire la population ou l'ensemble de données à l'étude: Les résultats ne peuvent être généralisés à aucun autre groupe ou population.
Types de statistiques descriptives
Les spécialistes des sciences sociales utilisent deux types de statistiques descriptives:
Mesures de tendance centrale capturer les tendances générales dans les données et sont calculées et exprimées en tant que moyenne, médiane et mode. Une moyenne indique aux scientifiques la moyenne mathématique de l'ensemble d'un ensemble de données, comme l'âge moyen au premier mariage; la médiane représente le milieu de la distribution des données, comme l'âge qui se situe au milieu de la tranche d'âge à laquelle les gens se marient pour la première fois; et, le mode pourrait être l'âge le plus courant auquel les gens se marient pour la première fois.
Les mesures de la diffusion décrivent comment les données sont distribuées et interagissent entre elles, notamment:
- La plage, la plage entière des valeurs présentes dans un ensemble de données
- La distribution de fréquence, qui définit combien de fois une valeur particulière se produit dans un ensemble de données
- Quartiles, sous-groupes formés dans un ensemble de données lorsque toutes les valeurs sont divisées en quatre parties égales sur toute la plage
- Signifie une déviation absolue, la moyenne de l'écart de chaque valeur par rapport à la moyenne
- Variance, qui illustre l'étendue de l'écart dans les données
- L'écart type, qui illustre la dispersion des données par rapport à la moyenne
Les mesures de la propagation sont souvent représentées visuellement dans des tableaux, des graphiques circulaires et à barres et des histogrammes pour aider à comprendre les tendances au sein des données.
Statistiques déductives
Les statistiques inférentielles sont produites par des calculs mathématiques complexes qui permettent aux scientifiques de déduire les tendances concernant une population plus importante en se basant sur l'étude d'un échantillon prélevé. Les scientifiques utilisent des statistiques inférentielles pour examiner les relations entre les variables d'un échantillon puis faire des généralisations ou des prévisions sur la façon dont ces variables seront liées à un plus grand population.
Il est généralement impossible d'examiner individuellement chaque membre de la population. Les scientifiques choisissent donc un sous-ensemble représentatif de la population, appelé échantillon statistique, et à partir de cette analyse, ils sont capables de dire quelque chose sur la population dont provient l'échantillon. Il existe deux grandes divisions de statistiques inférentielles:
- Un intervalle de confiance donne une plage de valeurs pour un paramètre inconnu de la population en mesurant un échantillon statistique. Ceci est exprimé en termes d'intervalle et le degré de confiance que le paramètre est dans l'intervalle.
- Tests de signification ou tests d'hypothèses où les scientifiques font une affirmation sur la population en analysant un échantillon statistique. De par sa conception, il existe une certaine incertitude dans ce processus. Cela peut être exprimé en termes de niveau de signification.
Les techniques que les spécialistes des sciences sociales utilisent pour examiner les relations entre les variables, et ainsi créer des statistiques inférentielles, incluent analyses de régression linéaire, analyses de régression logistique, ANOVA, analyses de corrélation, modélisation d'équations structurelleset analyse de survie. Lorsqu'ils effectuent des recherches à l'aide de statistiques inférentielles, les scientifiques effectuent un test de signification pour déterminer s'ils peuvent généraliser leurs résultats à une population plus large. Les tests de signification courants comprennent chi carré et test t. Ceux-ci indiquent aux scientifiques la probabilité que les résultats de leur analyse de l'échantillon soient représentatifs de la population dans son ensemble.
Descriptif vs Statistiques déductives
Bien que les statistiques descriptives soient utiles pour apprendre des choses telles que la répartition et le centre des données, rien dans les statistiques descriptives ne peut être utilisé pour faire des généralisations. Dans les statistiques descriptives, des mesures telles que la moyenne et l'écart type sont exprimées en nombres exacts.
Même si les statistiques inférentielles utilisent des calculs similaires - tels que la moyenne et l'écart type - l'accent est différent pour les statistiques inférentielles. Les statistiques inférentielles commencent par un échantillon puis se généralisent à une population. Cette information sur une population n'est pas indiquée sous forme de nombre. Au lieu de cela, les scientifiques expriment ces paramètres comme une gamme de nombres potentiels, avec un degré de confiance.