Échantillonnage statistique peut se faire de différentes manières. En plus du type de méthode d'échantillonnage que nous utilisons, il y a une autre question concernant ce qui arrive spécifiquement à un individu que nous avons choisi au hasard. Cette question qui se pose lors de l'échantillonnage est: "Après avoir sélectionné un individu et enregistré la mesure de l'attribut que nous étudions, que faisons-nous avec l'individu?"
Il y a deux options:
- Nous pouvons replacer l'individu dans le pool à partir duquel nous échantillonnons.
- Nous pouvons choisir de ne pas remplacer l'individu.
On voit très facilement que celles-ci conduisent à deux situations différentes. Dans la première option, le remplacement laisse la possibilité que l'individu soit choisi au hasard une deuxième fois. Pour la deuxième option, si nous travaillons sans remplacement, il est impossible de choisir deux fois la même personne. Nous verrons que cette différence affectera le calcul des probabilités liées à ces échantillons.
Effet sur les probabilités
Pour voir comment nous gérons le remplacement affecte le calcul des probabilités, considérons l'exemple de question suivant. Quelle est la probabilité de tirer deux as d'un jeu de cartes standard?
Cette question est ambiguë. Que se passe-t-il une fois que nous avons tiré la première carte? Le remettons-nous dans le jeu ou le laissons-nous de côté?
Nous commençons par calculer la probabilité avec remplacement. Il y a quatre as et 52 cartes au total, donc la probabilité de tirer un as est de 4/52. Si nous remplaçons cette carte et tirons à nouveau, la probabilité est de nouveau de 4/52. Ces événements sont indépendants, nous multiplions donc les probabilités (4/52) x (4/52) = 1/169, soit environ 0,592%.
Maintenant, nous allons comparer cela à la même situation, à l'exception que nous ne remplaçons pas les cartes. La probabilité de tirer un as lors du premier tirage est toujours de 4/52. Pour la deuxième carte, nous supposons qu'un as a déjà été tiré. Il faut maintenant calculer une probabilité conditionnelle. En d'autres termes, nous devons savoir quelle est la probabilité de tirer un deuxième as, étant donné que la première carte est également un as.
Il reste maintenant trois as sur un total de 51 cartes. La probabilité conditionnelle d'un deuxième as après avoir tiré un as est donc 3/51. La probabilité de tirer deux as sans remplacement est de (4/52) x (3/51) = 1/221, soit environ 0,425%.
Nous voyons directement d'après le problème ci-dessus que ce que nous choisissons de faire avec remplacement a une incidence sur les valeurs des probabilités. Il peut modifier considérablement ces valeurs.
Tailles de population
Dans certains cas, l'échantillonnage avec ou sans remplacement ne modifie pas sensiblement les probabilités. Supposons que nous choisissions au hasard deux personnes dans une ville de 50 000 habitants, dont 30 000 femmes.
Si nous échantillonnons avec remplacement, la probabilité de choisir une femelle lors de la première sélection est donnée par 30000/50000 = 60%. La probabilité d'une femelle sur la deuxième sélection est toujours de 60%. La probabilité que les deux personnes soient des femmes est de 0,6 x 0,6 = 0,36.
Si nous échantillonnons sans remplacement, la première probabilité n'est pas affectée. La deuxième probabilité est désormais 29999/49999 = 0,5999919998..., ce qui est extrêmement proche de 60%. La probabilité que les deux soient des femmes est de 0,6 x 0,5999919998 = 0,359995.
Les probabilités sont techniquement différentes, cependant, elles sont suffisamment proches pour être presque indiscernables. Pour cette raison, plusieurs fois, même si nous échantillonnons sans remplacement, nous traitons la sélection de chaque individu comme si elles étaient indépendantes des autres individus de l'échantillon.
Autres applications
Il y a d'autres cas où nous devons déterminer s'il faut échantillonner avec ou sans remplacement. Par exemple, bootstrapping. Cette technique statistique s'inscrit dans le cadre d'une technique de rééchantillonnage.
Dans le bootstrap, nous commençons par un échantillon statistique d'une population. Nous utilisons ensuite des logiciels pour calculer des échantillons de bootstrap. En d'autres termes, l'ordinateur rééchantillonne avec remplacement de l'échantillon initial.