Académique Documents
Professionnel Documents
Culture Documents
Données discrètes
Supposons, ils existent dix personnes dans une salle. Chaque personne est codée par F (s’il s’agit d’une
femelle) ou par M (s’il s’agit d’un mal). Les données collectées se présentent comme suit :
M, F, M, F, M, M, M, F, M, M.
On distingue maintenant deux catégories : Male (M) et Femelle (F). On attribue a1 à la catégorie male
et a2 à la catégorie femelle. Donc nous avons sept males et trois femelles, c’est-à-dire nous avons sept
valeurs dans la catégorie a1 dont on le note par n1= 7, et trois valeurs dans la catégorie a2 dont on le
note par n2= 3.
Le nombre d’observation dans chaque catégorie est appelé fréquence absolue. Donc n1 et n2 sont
respectivement les fréquences absolues de a1 et a2. Notons que n1 + n2 = 10, ce qui est égale au
nombre total des observations collectées.
𝑛1 7
𝑓1 = 𝑓(𝑎1) = 𝑛
= 10 = 0,7 = 70%
𝑛2 3
𝑓2 = 𝑓(𝑎2) = = = 0,3 = 30%
𝑛 10
Cela donne une idée sur les proportions des mâles et des femelles dans la salle.
En généralise ce concept afin de résumé les données des variables discrètes, on suppose qu’il ya K
catégories notées a1, a2, …, ak avec nj (j=1, 2, 3…,k) observations dans la catégories aj :
𝑘
La somme des fréquences absolue nj est égale au nombre total des unités ∑ 𝑛𝑗 = 𝑛
𝑗=1
𝑛𝑗
La fréquence relative de la catégorie aj est définie par : 𝑓𝑗 = 𝑓(𝑎𝑗) = , 𝑗 = 1,2,3 … , 𝑘.
𝑛
Les données sur les variables continues ont généralement un grand nombre (k) de valeurs différentes.
Parfois, k peut même être le même que n et dans un tel cas les fréquences relatives deviennent
𝒇𝒋 = 𝟏/𝒏 pour tout j. Cependant, il est possible de définir des intervalles dans lesquels les valeurs
observées sont contenues.
Exemple :
Considérant les résultats suivantes d’un examen écrit d’un module de (la note maximale est 100) : 28,
35, 42, 90, 70, 56, 75, 66, 30, 89, 75, 64, 81, 69, 55, 83, 72, 68, 73, 16. On peut résumer ces résultats
dans des classes sous forme des intervalles comme suit : 0–20, 21–40, 41–60, 61–80, et 81–100, et
par conséquent les données peuvent être présenter comme ci-dessous (Tab. 2.1) :
Tableau 2.1 :
5 5
On a 𝛴𝑗=1 𝑛𝑗 = 20 = 𝑛 et 𝛴𝑗=1 𝑓𝑗 = 1
Classes (aj) a1 a2 …. ak
Fréquences absolues (nj) n1 n2 …. nk
Fréquences relatives (fj) f1 f2 …. fk
Tableau 2.2 :
Supposant on a n observations qu’on peut classer dans k classes (intervalles) a1, a2, …, ak où aj (j=1,
𝑘
2,…, k) contient nj observations avec 𝛴𝑗=1 𝑛𝑗 = 𝑛 :
𝑘
La fréquence relative de la classe aj 𝑓𝑗 = 𝑛𝑗/𝑛 et 𝛴𝑗=1 𝑓𝑗 = 1 (Tab.2.2).
Une autre approche qui sert à résumer et bien visualiser la distribution des variables est la fonction de
distribution cumulative empirique (ECDF). Cette ECDF donne une idée sur les fréquences relatives
cumulées jusqu’à certain point.
Prenant l’exemple du tableau 2. 1, On cherche à dénombrer le nombre des personnes qui ont des
résultats aux dessous de 60. Celui-ci peut être calculer par l’addition du nombre de personnes dans les
classes (intervalles) 0-20 ; 21-40 ; et 41- 60, qui correspond au n1+n2+n3=1+3+3=7 et qui présente la
fréquence cumulée. Si on cherche à savoir la fréquence relative des personnes qui ont des résultats
au-dessous de 60 points, on doit additionner les fréquences relatives des personnes dans les classes
1 3 3 7
(intervalles) 0-20 ; 21-40 ; et 41- 60 : 𝑓1 + 𝑓2 + 𝑓3 = + + = .
20 20 20 20
Avant de discuter la fonction de distribution cumulative dans un cadre générale, on doit comprendre
la notion des valeurs ordonnées :
Supposant les valeurs suivantes : x1 = 180 cm, x2 = 160 cm, x3 = 175 cm, et x4 = 170 cm, qui présentent
la longueur de quatre personnes. Nous arrangeons ces valeurs dans un ordre croissant et nous
obtenons :
x(1) = x2 = 160 cm, x(2) = x4 = 170 cm,
x(3) = x3 = 175 cm, x(4) = x1 = 180 cm.
Les valeurs x(1), x(2), x(3) et x(4) sont nommées valeurs ordonnées.
Noté que X1 n’est pas nécessairement la valeur minimale mais (X1) est obligatoirement la valeur
minimale.
Considérant n observations x1, x2, …, xn d’une variable X qui sont ordonnées dans un ordre croissant
x(1) ≤ x(2) ≤ ·· · ≤ x(n).
La fonction de distribution cumulative F(x) est le cumule des fréquences relatives de tous les valeurs aj
Cette définition implique que F(x) est une fonction monotone croissante ; 0≤F(x)≤1, lim 𝐹(𝑥) = 0 ,
𝑥→−∞
2.3.3 Histogrammes
Si une variable se compose d’un grand nombre de valeurs différentes, le nombre de catégorie
nécessaire pour la construction d’un diagramme en bâtons sera par conséquent grand. Donc, Un
diagramme en barres peut ne pas donner un résumé clair lorsqu’il est appliqué sur une variable
continue. Tandis qu’un histogramme est un choix très approprié pour représenter la distribution des
valeurs d’une variable continue.
Il est basé sur l’idée de catégoriser les données en groupes différents et de tracer les barres pour
chaque catégorie avec une hauteur hj = fj / dj, où dj== ej - ej1 désigne la largeur du j ème intervalle de
classe ou catégorie.
Une considération importante pour ce concept est que l'aire (surface) des barres (= hauteur x largeur)
est proportionnelle à la fréquence relative. Cela signifie que les largeurs des barres ne doivent pas
nécessairement être les mêmes car différentes largeurs peuvent être ajustées avec différentes
hauteurs des barres.
Exemple :
On considère l’exemple de la paragraphe 2. 1. donnée continue, où n= 20 étudiants classés dans 5
classes 0–20, 21–40, 41–60, 61–80, et 81–100. Le tableau des fréquences est donné comme suit :
Classes 0-20 21-40 41-60 61-80 81-100
Fréquences absolues n1 = 1 n2 = 3 n3 = 3 n4 = 9 n5 = 4
Fréquences relatives f1 = 1/20 f2 = 3/20 f3 = 3/20 f4 = 9/20 f5 = 4/20
Hauteur fj/dj h1=1/400 h2=3/400 h3=3/400 h4=9/400 h5=4/400
Fig : Histogramme des résultats des étudiants.
Noté que :
- 5 classes exigent 5 barres ;
- Les largeurs des barres sont égales ;
- La hauteur d’une barre est proportionnelle à la fréquence relative de la classe
correspondante.
TD 2