Qu'est-ce que l'amorçage en ce qui concerne les statistiques?

click fraud protection

Le bootstrap est une technique statistique qui s'inscrit dans le cadre plus large du rééchantillonnage. Cette technique implique une procédure relativement simple mais répétée tant de fois qu'elle dépend fortement des calculs informatiques. Le bootstrapping fournit une méthode autre que les intervalles de confiance pour estimer un paramètre de population. Le bootstrap semble beaucoup fonctionner comme par magie. Lisez la suite pour voir comment il obtient son nom intéressant.

Une explication du bootstrap

Un objectif de statistiques déductives est de déterminer la valeur d'un paramètre d'une population. Il est généralement trop coûteux, voire impossible de mesurer cela directement. Nous utilisons donc échantillonnage statistique. Nous échantillonnons une population, mesurons une statistique de cet échantillon, puis utilisons cette statistique pour dire quelque chose paramètre correspondant de la population.

Par exemple, dans une chocolaterie, nous pourrions vouloir garantir que les barres de bonbons ont un

instagram viewer
signifier poids. Il n'est pas possible de peser chaque barre chocolatée produite. Nous utilisons donc des techniques d'échantillonnage pour choisir au hasard 100 barres chocolatées. Nous calculons la moyenne de ces 100 barres chocolatées et disons que la moyenne de la population se situe dans une marge d'erreur par rapport à la moyenne de notre échantillon.

Supposons que quelques mois plus tard, nous voulons savoir avec une plus grande précision - ou moins d'une marge d'erreur - quel était le poids moyen des barres chocolatées le jour où nous avons échantillonné la chaîne de production. Nous ne pouvons pas utiliser les barres chocolatées d'aujourd'hui, de nombreuses variables sont entrés en scène (différents lots de lait, de sucre et de fèves de cacao, différentes conditions atmosphériques, différents employés sur la ligne, etc.). Tout ce que nous avons du jour qui nous intéresse, ce sont les 100 poids. Sans une machine à remonter le temps à cette époque, il semblerait que la marge d'erreur initiale soit la meilleure que nous puissions espérer.

Heureusement, nous pouvons utiliser le technique de bootstrapping. Dans cette situation, nous avons au hasard échantillon avec remplacement des 100 poids connus. Nous appelons ensuite cela un échantillon bootstrap. Étant donné que nous autorisons le remplacement, cet échantillon d'amorçage n'est probablement pas identique à notre échantillon initial. Certains points de données peuvent être dupliqués et d'autres points de données du 100 initial peuvent être omis dans un échantillon d'amorçage. À l'aide d'un ordinateur, des milliers d'échantillons d'amorçage peuvent être construits en un temps relativement court.

Un exemple

Comme mentionné, pour vraiment utiliser les techniques d'amorçage, nous devons utiliser un ordinateur. L'exemple numérique suivant aidera à démontrer le fonctionnement du processus. Si nous commençons par l'exemple 2, 4, 5, 6, 6, tous les éléments suivants sont des exemples d'amorçage possibles:

  • 2 ,5, 5, 6, 6
  • 4, 5, 6, 6, 6
  • 2, 2, 4, 5, 5
  • 2, 2, 2, 4, 6
  • 2, 2, 2, 2, 2
  • 4,6, 6, 6, 6

Histoire de la technique

Les techniques de bootstrap sont relativement nouvelles dans le domaine des statistiques. La première utilisation a été publiée dans un article de 1979 de Bradley Efron. Comme la puissance de calcul a augmenté et devient moins chère, les techniques de bootstrap sont devenues plus répandues.

Pourquoi le nom Bootstrapping?

Le nom «bootstrapping» vient de la phrase «se soulever par ses bootstraps». Cela fait référence à quelque chose de ridicule et impossible. Essayez aussi fort que vous le pouvez, vous ne pouvez pas vous lever dans les airs en tirant sur des morceaux de cuir sur vos bottes.

Il existe une théorie mathématique qui justifie les techniques d'amorçage. Cependant, l'utilisation du bootstrapping donne l'impression que vous faites l'impossible. Bien qu'il ne semble pas que vous puissiez améliorer l'estimation d'une statistique de population en réutilisant le même échantillon encore et encore, le bootstrap peut en fait le faire.

instagram story viewer