Vous êtes sur la page 1sur 7

Chapitre 2 : Mesure des fréquences et représentation

graphique des données


Au Chapitre 1, nous avons souligné que différentes variables contiennent différents niveaux
d'informations. Lors de la synthèse ou de la visualisation d'une ou plusieurs variables, ce sont ces
informations qui déterminent les méthodes statistiques appropriées à utiliser.

2.1 Fréquences relatives et absolus.

Considérons d'abord un exemple simple pour illustrer notre notation :

Données discrètes

Supposons, ils existent dix personnes dans une salle. Chaque personne est codée par F (s’il s’agit d’une
femelle) ou par M (s’il s’agit d’un mal). Les données collectées se présentent comme suit :

M, F, M, F, M, M, M, F, M, M.

On distingue maintenant deux catégories : Male (M) et Femelle (F). On attribue a1 à la catégorie male
et a2 à la catégorie femelle. Donc nous avons sept males et trois femelles, c’est-à-dire nous avons sept
valeurs dans la catégorie a1 dont on le note par n1= 7, et trois valeurs dans la catégorie a2 dont on le
note par n2= 3.

Le nombre d’observation dans chaque catégorie est appelé fréquence absolue. Donc n1 et n2 sont
respectivement les fréquences absolues de a1 et a2. Notons que n1 + n2 = 10, ce qui est égale au
nombre total des observations collectées.

On peut aussi calculer les fréquences relatives :

𝑛1 7
𝑓1 = 𝑓(𝑎1) = 𝑛
= 10 = 0,7 = 70%

𝑛2 3
𝑓2 = 𝑓(𝑎2) = = = 0,3 = 30%
𝑛 10

Cela donne une idée sur les proportions des mâles et des femelles dans la salle.

En généralise ce concept afin de résumé les données des variables discrètes, on suppose qu’il ya K
catégories notées a1, a2, …, ak avec nj (j=1, 2, 3…,k) observations dans la catégories aj :
𝑘
La somme des fréquences absolue nj est égale au nombre total des unités ∑ 𝑛𝑗 = 𝑛
𝑗=1
𝑛𝑗
La fréquence relative de la catégorie aj est définie par : 𝑓𝑗 = 𝑓(𝑎𝑗) = , 𝑗 = 1,2,3 … , 𝑘.
𝑛

Les fréquences relatives restent toujours entre 0 et 1 : ∑𝑘𝑗=1 𝑓𝑗 = 1

Données continues groupées

Les données sur les variables continues ont généralement un grand nombre (k) de valeurs différentes.
Parfois, k peut même être le même que n et dans un tel cas les fréquences relatives deviennent

𝒇𝒋 = 𝟏/𝒏 pour tout j. Cependant, il est possible de définir des intervalles dans lesquels les valeurs
observées sont contenues.

Exemple :

Considérant les résultats suivantes d’un examen écrit d’un module de (la note maximale est 100) : 28,
35, 42, 90, 70, 56, 75, 66, 30, 89, 75, 64, 81, 69, 55, 83, 72, 68, 73, 16. On peut résumer ces résultats
dans des classes sous forme des intervalles comme suit : 0–20, 21–40, 41–60, 61–80, et 81–100, et
par conséquent les données peuvent être présenter comme ci-dessous (Tab. 2.1) :

Classes 0-20 21-40 41-60 61-80 81-100


Fréquences absolues n1 = 1 n2 = 3 n3 = 3 n4 = 9 n5 = 4
Fréquences relatives f1 = 1/20 f2 = 3/20 f3 = 3/20 f4 = 9/20 f5 = 4/20

Tableau 2.1 :

5 5
On a 𝛴𝑗=1 𝑛𝑗 = 20 = 𝑛 et 𝛴𝑗=1 𝑓𝑗 = 1

Classes (aj) a1 a2 …. ak
Fréquences absolues (nj) n1 n2 …. nk
Fréquences relatives (fj) f1 f2 …. fk
Tableau 2.2 :
Supposant on a n observations qu’on peut classer dans k classes (intervalles) a1, a2, …, ak où aj (j=1,
𝑘
2,…, k) contient nj observations avec 𝛴𝑗=1 𝑛𝑗 = 𝑛 :

𝑘
La fréquence relative de la classe aj 𝑓𝑗 = 𝑛𝑗/𝑛 et 𝛴𝑗=1 𝑓𝑗 = 1 (Tab.2.2).

Fonction de distribution cumulative empirique

Une autre approche qui sert à résumer et bien visualiser la distribution des variables est la fonction de
distribution cumulative empirique (ECDF). Cette ECDF donne une idée sur les fréquences relatives
cumulées jusqu’à certain point.
Prenant l’exemple du tableau 2. 1, On cherche à dénombrer le nombre des personnes qui ont des
résultats aux dessous de 60. Celui-ci peut être calculer par l’addition du nombre de personnes dans les
classes (intervalles) 0-20 ; 21-40 ; et 41- 60, qui correspond au n1+n2+n3=1+3+3=7 et qui présente la
fréquence cumulée. Si on cherche à savoir la fréquence relative des personnes qui ont des résultats
au-dessous de 60 points, on doit additionner les fréquences relatives des personnes dans les classes
1 3 3 7
(intervalles) 0-20 ; 21-40 ; et 41- 60 : 𝑓1 + 𝑓2 + 𝑓3 = + + = .
20 20 20 20

Avant de discuter la fonction de distribution cumulative dans un cadre générale, on doit comprendre
la notion des valeurs ordonnées :
Supposant les valeurs suivantes : x1 = 180 cm, x2 = 160 cm, x3 = 175 cm, et x4 = 170 cm, qui présentent
la longueur de quatre personnes. Nous arrangeons ces valeurs dans un ordre croissant et nous
obtenons :
x(1) = x2 = 160 cm, x(2) = x4 = 170 cm,
x(3) = x3 = 175 cm, x(4) = x1 = 180 cm.

Les valeurs x(1), x(2), x(3) et x(4) sont nommées valeurs ordonnées.
Noté que X1 n’est pas nécessairement la valeur minimale mais (X1) est obligatoirement la valeur
minimale.
Considérant n observations x1, x2, …, xn d’une variable X qui sont ordonnées dans un ordre croissant
x(1) ≤ x(2) ≤ ·· · ≤ x(n).
La fonction de distribution cumulative F(x) est le cumule des fréquences relatives de tous les valeurs aj

qui sont inférieurs ou égalent à x : 𝐹(𝑥) = ∑ 𝑓(𝑎𝑗 )


𝑎𝑗≤𝑥

Cette définition implique que F(x) est une fonction monotone croissante ; 0≤F(x)≤1, lim 𝐹(𝑥) = 0 ,
𝑥→−∞

lim 𝐹(𝑥) = 1 . F(x) est continue à droite.


𝑥→+∞

ECDF pour des variables ordinales


La fonction de distribution cumulée des variables ordinales est une fonction d’étape ;
Exemple :
Une enquête de satisfaction client d’une entreprise de services automobiles à été réalisé. Les 200
clients, qui ont eu un service de voiture effectué au cours des 30 derniers jours, ont été invités à
répondre à une question concernant leur niveau global de satisfaction à l'égard de la qualité du service
de voiture sur une échelle de 1 à 5, et cela en fonction des options suivantes : 1 = pas du tout satisfait,
2 = insatisfait, 3 = satisfait, 4 = très satisfait et 5 = parfaitement satisfait.
On peut calculer les fréquences relatives et tracer la fonction de distribution cumulée :
Niveau de satisfaction J=1 J=2 J=3 J=4 J=5
nj 4 16 90 70 20
fj 4/200 16/200 90/200 70/200 20/200
Fj 4/200 20/200 110/200 180/200 200/200

Fonction de distribution cumulée du service de satisfaction client.

Les Fj sont calculées comme suivants :


F1 = f1, F3 = f1 + f2 + f3,
F2 = f1 + f2, F4 = f1 + f2 + f3 + f4.

2. 3. Représentation graphique d’une variable


Les tableaux de fréquences et les fonctions de distribution cumulative empirique sont utiles pour
fournir un résumé numérique d'une variable. Aussi bien, les graphiques présentent une autre façon de
résumer les informations d’une variable dont de nombreuses situations, ils ont l'avantage d’exprimer
mieux les informations cachées dans les données d’une manière plus solide.

2.3.1 Diagramme en bâtons (barres)


Le diagramme en bâtons est un outil simple pour visualiser les fréquences relatives ou absolues des
valeurs observées d'une variable. Il peut être utilisé pour les variables nominales et ordinales, tant que
le nombre de catégories n'est pas très grand. Il se compose d'une barre pour chaque catégorie. La
hauteur de chaque barre est déterminée soit par la fréquence absolue (effectif), soit par la fréquence
relative de la catégorie respective et qui est indiquée sur l'axe des y.
Exemple :
Prenons l'exemple de la paragraphe 2.1, dont dix personnes existent dans une salle et qui sont classées
par genre ; F (s’il s’agit d’une femelle) ou M (s’il s’agit d’un mal). Les fréquences absolues des mâles et
femelles sont respectivement n1 = 7 et n2 = 3. Donc il y a deux catégories, M et F, qui nécessitent deux
bâtons pour construire le diagramme. La hauteur des bâtons est déterminée soit par n1 = 7 et n2 = 3,
soit par f1 = 0.7 et f2 = 0.3. Ces diagrammes sont présentés comme suit :

Diagrammes en bâtons (barres).

2.3.2 Diagramme circulaire


C’est une autre façon de bien visualiser les fréquences relatives et absolues des variables nominales et
ordinales. Ce diagramme est un cercle partitionné en segments où chaque segment présente une
catégorie précise. La taille de chaque segment dépend de la fréquence relative et elle est déterminé
par l’angle f j. 360°.
Exemple :
Pour illustrer la construction d’un diagramme circulaire, on considère une autre fois le même exemple
de la paragraphe 2.1 variable discrète. Le diagramme circulaire sera composé de deux segments ; un
pour les mâles et l’autre pour les femelles. Les fréquences relatives de ces deux catégories sont
respectivement f1 = 7/10 and f2 = 3/10. La taille de segments de la première catégorie (M) est f1 · 360° =
(7/10) · 360° = 252°, et la taille de segment de la deuxième catégorie (F) est f2 · 360° = (3/10) · 360° =

108°. Le diagramme circulaire est montré ci-dessous :


Fig. Genre des étudiants dans la classe.

2.3.3 Histogrammes
Si une variable se compose d’un grand nombre de valeurs différentes, le nombre de catégorie
nécessaire pour la construction d’un diagramme en bâtons sera par conséquent grand. Donc, Un
diagramme en barres peut ne pas donner un résumé clair lorsqu’il est appliqué sur une variable
continue. Tandis qu’un histogramme est un choix très approprié pour représenter la distribution des
valeurs d’une variable continue.
Il est basé sur l’idée de catégoriser les données en groupes différents et de tracer les barres pour
chaque catégorie avec une hauteur hj = fj / dj, où dj== ej - ej1 désigne la largeur du j ème intervalle de
classe ou catégorie.
Une considération importante pour ce concept est que l'aire (surface) des barres (= hauteur x largeur)
est proportionnelle à la fréquence relative. Cela signifie que les largeurs des barres ne doivent pas
nécessairement être les mêmes car différentes largeurs peuvent être ajustées avec différentes
hauteurs des barres.
Exemple :
On considère l’exemple de la paragraphe 2. 1. donnée continue, où n= 20 étudiants classés dans 5
classes 0–20, 21–40, 41–60, 61–80, et 81–100. Le tableau des fréquences est donné comme suit :
Classes 0-20 21-40 41-60 61-80 81-100
Fréquences absolues n1 = 1 n2 = 3 n3 = 3 n4 = 9 n5 = 4
Fréquences relatives f1 = 1/20 f2 = 3/20 f3 = 3/20 f4 = 9/20 f5 = 4/20
Hauteur fj/dj h1=1/400 h2=3/400 h3=3/400 h4=9/400 h5=4/400
Fig : Histogramme des résultats des étudiants.
Noté que :
- 5 classes exigent 5 barres ;
- Les largeurs des barres sont égales ;
- La hauteur d’une barre est proportionnelle à la fréquence relative de la classe
correspondante.

TD 2

Vous aimerez peut-être aussi