Le nettoyage des données est une partie cruciale de l'analyse des données, en particulier lorsque vous collectez vos propres données quantitatives. Après avoir collecté les données, vous devez les saisir dans un programme informatique tel que SAS, SPSS ou Excel. Au cours de ce processus, que cela soit fait à la main ou qu'un scanner d'ordinateur le fasse, il y aura des erreurs. Peu importe la précision avec laquelle les données ont été saisies, les erreurs sont inévitables. Cela peut signifier un codage incorrect, une lecture incorrecte des codes écrits, une détection incorrecte des marques noircies, des données manquantes, etc. Le nettoyage des données est le processus de détection et de correction de ces erreurs de codage.
Il existe deux types de nettoyage des données qui doivent être effectués sur les ensembles de données. Il s'agit de nettoyage de code possible et de nettoyage d'urgence. Les deux sont cruciaux pour le processus d'analyse des données, car s'ils sont ignorés, vous produirez presque toujours des résultats de recherche trompeurs.
Nettoyage de code possible
Toute variable donnée aura un ensemble spécifié de choix de réponses et de codes pour correspondre à chaque choix de réponse. Par exemple, la variable le sexe aura trois choix de réponse et codes pour chacun: 1 pour homme, 2 pour femme et 0 pour pas de réponse. Si vous avez un répondant codé 6 pour cette variable, il est clair qu'une erreur a été commise puisque ce n'est pas un code de réponse possible. Le nettoyage des codes possibles est le processus de vérification pour voir que seuls les codes attribués aux choix de réponse pour chaque question (codes possibles) apparaissent dans le fichier de données.
Certains programmes informatiques et progiciels statistiques disponibles pour la saisie des données vérifient ces types d'erreurs lors de la saisie des données. Ici, l'utilisateur définit les codes possibles pour chaque question avant la saisie des données. Ensuite, si un nombre en dehors des possibilités prédéfinies est entré, un message d'erreur apparaît. Par exemple, si l'utilisateur a tenté d'entrer un 6 pour le sexe, l'ordinateur peut émettre un bip et refuser le code. D'autres programmes informatiques sont conçus pour tester les codes illégitimes dans les fichiers de données terminés. Autrement dit, s'ils n'ont pas été vérifiés pendant le processus de saisie des données, comme il vient d'être décrit, il existe des moyens de vérifier les fichiers pour les erreurs de codage une fois la saisie des données terminée.
Si vous n'utilisez pas de programme informatique qui vérifie les erreurs de codage pendant le processus de saisie des données, vous pouvez localiser certaines erreurs en examinant simplement la distribution des réponses à chaque élément des données ensemble. Par exemple, vous pouvez générer une table de fréquences pour la variable le sexe et ici vous verriez le numéro 6 qui a été mal entré. Vous pouvez ensuite rechercher cette entrée dans le fichier de données et la corriger.
Nettoyage d'urgence
Le deuxième type de Les données le nettoyage est appelé nettoyage d'urgence et est un peu plus compliqué que le nettoyage à code possible. La structure logique des données peut imposer certaines limites aux réponses de certains répondants ou à certaines variables. Le nettoyage d'urgence est le processus de vérification que seuls les cas qui devraient avoir des données sur une variable particulière ont effectivement de telles données. Par exemple, supposons que vous ayez un questionnaire dans lequel vous demandez aux répondants combien de fois elles ont été enceintes. Toutes les répondantes devraient avoir une réponse codée dans les données. Les hommes, cependant, doivent être laissés en blanc ou doivent avoir un code spécial pour ne pas répondre. Si des hommes dans les données sont codés comme ayant 3 grossesses, par exemple, vous savez qu'il y a une erreur et qu'elle doit être corrigée.
Les références
Babbie, E. (2001). La pratique de la recherche sociale: 9e édition. Belmont, Californie: Wadsworth Thomson.