Dans statistiques, le terme robustesse ou robustesse fait référence à la force d'un modèle statistique, de tests et de procédures selon les conditions spécifiques de l'analyse statistique qu'une étude espère réaliser. Étant donné que ces conditions d'une étude sont remplies, les modèles peuvent être vérifiés comme étant vrais en utilisant des preuves mathématiques.
De nombreux modèles sont basés sur des situations idéales qui n'existent pas lorsque vous travaillez avec des données réelles et, par conséquent, le modèle peut fournir des résultats corrects même si les conditions ne sont pas remplies exactement.
Par conséquent, les statistiques robustes sont toutes les statistiques qui donnent de bonnes performances lorsque les données sont tirées d'un large éventail de distributions de probabilités qui ne sont en grande partie pas affectées par les valeurs aberrantes ou les petites dérogations aux hypothèses du modèle dans une période donnée base de données. En d'autres termes, une statistique robuste résiste aux erreurs dans les résultats.
Pour observer une procédure statistique robuste communément utilisée, il suffit de regarder les procédures t, qui utilisent des tests d'hypothèse pour déterminer les prévisions statistiques les plus précises.
Observer les procédures T
Pour un exemple de robustesse, nous considérerons t-les procédures, qui comprennent la Intervalle de confiance pour une moyenne de population avec un écart-type de population inconnu ainsi que des tests d'hypothèse sur la moyenne de la population.
L'utilisation de t-Les procédures supposent ce qui suit:
- L'ensemble de données avec lequel nous travaillons est un échantillon aléatoire simple de la population.
- La population que nous avons échantillonnée est normalement distribuée.
Dans la pratique avec des exemples concrets, les statisticiens ont rarement une population qui est normalement distribuée, donc la question devient plutôt: «Quelle est la robustesse de nos t-procédures?"
En général, la condition que nous avons un échantillon aléatoire simple est plus importante que la condition que nous avons échantillonnée à partir d'une population normalement distribuée; la raison en est que le théorème central limite assure une distribution d'échantillonnage qui est approximativement normal - plus notre taille d'échantillon est grande, plus la distribution d'échantillonnage de la moyenne de l'échantillon est proche Ordinaire.
Comment les procédures T fonctionnent comme des statistiques robustes
Donc robustesse pour t-les procédures dépendent de la taille de l'échantillon et de la distribution de notre échantillon. Les considérations à prendre en compte incluent:
- Si la taille des échantillons est grande, ce qui signifie que nous avons 40 observations ou plus, alors t-les procédures peuvent être utilisées même avec des distributions asymétriques.
- Si la taille de l'échantillon est comprise entre 15 et 40, alors nous pouvons utiliser t-procédures pour toute distribution façonnée, sauf s'il y a des valeurs aberrantes ou un degré élevé d'asymétrie.
- Si la taille de l'échantillon est inférieure à 15, nous pouvons utiliser t- procédures pour les données qui n'ont pas de valeurs aberrantes, un seul pic et sont presque symétriques.
Dans la plupart des cas, la robustesse a été établie grâce à des travaux techniques en statistique mathématique et, heureusement, nous n'avons pas nécessairement besoin de faire ces calculs mathématiques avancés afin de bien les utiliser; nous avons seulement besoin de comprendre quelles sont les directives générales pour la robustesse de notre méthode statistique spécifique.
Les procédures T fonctionnent comme des statistiques robustes car elles donnent généralement de bonnes performances pour ces modèles en tenant compte de la taille de l'échantillon dans la base d'application de la procédure.