Il n'y a vraiment aucune règle pour le nombre de classes. Il y a quelques éléments à considérer concernant le nombre de classes. S'il n'y avait qu'une seule classe, alors toutes les données tomberaient dans cette classe. Notre histogramme serait simplement un rectangle unique avec une hauteur donnée par le nombre d'éléments dans notre ensemble de données. Cela ne serait pas très utile ou histogramme utile.
À l'autre extrême, nous pourrions avoir une multitude de classes. Il en résulterait une multitude de barres, dont aucune ne serait probablement très haute. Il serait très difficile de déterminer des caractéristiques distinctives à partir des données en utilisant ce type d'histogramme.
Pour se prémunir contre ces deux extrêmes, nous avons une règle de base à utiliser pour déterminer le nombre de classes pour un histogramme. Lorsque nous avons un ensemble de données relativement petit, nous n'utilisons généralement qu'environ cinq classes. Si l'ensemble de données est relativement volumineux, nous utilisons environ 20 classes.
Encore une fois, soulignons qu'il s'agit d'une règle empirique, et non d'un principe statistique absolu. Il peut y avoir de bonnes raisons d'avoir un nombre différent de classes pour les données. Nous en verrons un exemple ci-dessous.
Avant de considérer quelques exemples, nous verrons comment déterminer ce que sont réellement les classes. Nous commençons ce processus en trouvant le intervalle de nos données. En d'autres termes, nous soustrayons la valeur de données la plus basse de la valeur de données la plus élevée.
Lorsque l'ensemble de données est relativement petit, nous divisons la plage par cinq. Le quotient est la largeur des classes de notre histogramme. Nous aurons probablement besoin d'arrondir dans ce processus, ce qui signifie que le nombre total de classes pourrait ne pas finir par être de cinq.
Lorsque l'ensemble de données est relativement volumineux, nous divisons la plage par 20. Comme précédemment, ce problème de division nous donne la largeur des classes pour notre histogramme. De plus, comme nous l'avons vu précédemment, notre arrondi peut entraîner un peu plus ou un peu moins de 20 classes.
Dans les cas de grands ou de petits ensembles de données, nous faisons commencer la première classe à un point légèrement inférieur à la plus petite valeur de données. Nous devons le faire de telle manière que la première valeur de données tombe dans la première classe. Les autres classes suivantes sont déterminées par la largeur qui a été définie lorsque nous avons divisé la plage. Nous savons que nous sommes à la dernière classe lorsque notre valeur de données la plus élevée est contenue par cette classe.
Pour un exemple, nous déterminerons une largeur de classe et des classes appropriées pour l'ensemble de données: 1.1, 1.9, 2.3, 3.0, 3.2, 4.1, 4.2, 4.4, 5.5, 5.5, 5.6, 5.7, 5.9, 6.2, 7.1, 7.9, 8.3, 9.0, 9.2, 11.1, 11.2, 14.4, 15.5, 15.5, 16.7, 18.9, 19.2.
Nous voyons qu'il y a 27 points de données dans notre ensemble. Il s'agit d'un ensemble relativement petit et nous allons donc diviser la plage par cinq. La plage est de 19,2 - 1,1 = 18,1. Nous divisons 18,1 / 5 = 3,62. Cela signifie qu'une largeur de classe de 4 serait appropriée. Notre plus petite valeur de données est 1,1, nous commençons donc la première classe à un point inférieur à celui-ci. Puisque nos données sont constituées de nombres positifs, il serait logique de faire passer la première classe de 0 à 4.
Par exemple, supposons qu'il y ait un test à choix multiples avec 35 questions dessus et que 1000 élèves d'un lycée passent le test. Nous souhaitons former un histogramme montrant le nombre d'étudiants qui ont atteint certains scores au test. On voit que 35/5 = 7 et que 35/20 = 1,75. Bien que notre règle empirique nous donne le choix des classes de largeur 2 ou 7 à utiliser pour notre histogramme, il peut être préférable d'avoir des classes de largeur 1. Ces classes correspondraient à chaque question à laquelle un étudiant a répondu correctement au test. Le premier serait centré sur 0 et le dernier serait centré sur 35.