Académique Documents
Professionnel Documents
Culture Documents
de Constantine
COURS DE STATISTIQUE
DESCRIPTIVE
Zaher MOHDEB
3- Caractères
Pour étudier une population, le statisticien ne retient que
les caractères qui l’intéressent.
Un caractère ou une variable statistique est une
variable qui caractérise les individus de cette
population. Par exemple : le poids, la taille, la couleur
des yeux, etc. . .
Les modalités sont les différentes situations
susceptibles d’être prises par le caractère.
2- Série statistique :
Considérons une variable X observée sur une population de n
individus. Si la variable X prend k valeurs ou ensemble de valeurs
(appelés modalités), le premier traitement des données brutes consiste
à compter le nombre ni d’individus qui présentent le i e modalité,
i = 1, 2, . . . , k.
Exemple 1 : (Cas quantitatitif discret) Dans une classe de 26
étudiants, le professeur a relevé les notes suivantes :
8, 8, 10, 6, 2, 10, 8, 12, 4, 8, 6, 10, 10, 10, 0, 8, 10, 12, 6, 6, 10, 4,
10, 8, 8, 6.
Afin d’y voir plus clair, il regroupe les notes dans un tableau
Notes Etudiants
Observations i Valeurs : xi Effectifs : ni
1 0 1
2 2 1
3 4 2
4 6 5
5 8 7
6 10 8
7 12 2
Effectif total
X7
n= ni = 26
i =1
Définition
On appelle série statistique ou distribution statistique la donnée
simultannée (dans un tableau) des valeurs du caractère étudié, notées
{x1 , x2 , . . . , xk }, (resp. {[a0 , a1 [, . . . , [ak−1 , ak [} dans le cas d’un
caractère continu), rangées dans l’ordre croissant et des effectifs notés
n1 , n2 , . . . , nk de ces valeurs.
Remarque : Une série statistique peut décrire un échantillon ou bien
la totalité d’une population statistique.
En résumé : On a vu qu’à chaque modalité Ci , (xi dans le cas
discret et [ai −1 , ai [ dans le cas continu), est associé son effectif ni .
Les couples (Ci , ni ) forment une suite qu’on appelle série statistique.
Ainsi pour les exemples précédents, la série statistique est pour :
1 l’exemple 1 : (0 ;1), (2 ;1), (4 ;2), (6 ;5), (8 ;7), (10 ;8), (12 ;2).
2 l’exemple 2 : ([43-45[ ;2), ([45-47[ ;3), ([47-49[ ;7), ([49-51[ ;11),
([51-53[ ;8), ([53-55[ ;6), ([55-57[ ;3).
Zaher Mohdeb (E. N. P. de Constantine) 10 / 68
Série statistique
Effectif ni en %
Agriculteurs exploitants 5750 23 %
Artisans, commerçants, chefs d’entreprise 7250 29 %
Cadres et professions intellectuelles supérieures 6000 24 %
Professions intermédiaires 1500 6%
Employés 750 3%
Ouvriers 3750 15 %
Effectif total 25000 100 %
Modalité Effectif
x1 n1
.. ..
. .
xi ni
.. ..
. .
xk nk
Pk
n= i =1 ni
Pk
i =1 fi =1
5
i
n
0
0 2 4 6 8 10 12
x
i
αi = ai − ai−1 .
α = a −a
i i i−1
Surface = f
i
h
i
10
0
44 46 48 50 52 54 56
Employés 3%
Professions intermédiaires 6%
Ouvriers 15%
Cadres 24%
Artisans, commerçants, chefs d entreprise 29%
Représentation en tuyau :
• Pour représenter les données en tuyau, on respecte le
principe de proportionnalité de la surface du tuyau
attribué à chaque modalité Ci , i = 1, . . . , k du caractère
dans la population étudiée.
• On peut également associer à chaque modalité Ci ,
i = 1, . . . , k un rectangle (tuyau) de base constante
(étant donné que la longueur de la base n’a pas de
signification) et de hauteur égale à l’effectif ni ,
i = 1, . . . , k correspondant.
• Pour obtenir un graphique plus lisible, on peut trier les
données avant, par ordre croissant ou décroissant.
Zaher Mohdeb (E. N. P. de Constantine) 25 / 68
Série statistique
30
Répartition des actifs
25
20
15
10
0
C1 C2 C3 C4 C5 C6
i
X
Ni = nj , pour i = 1, . . . , k .
j=1
X nj i
Ni
Fi = = , pour i = 1, . . . , k .
n n
Zaher Mohdeb (E. N. P. de Constantine) j=1 27 / 68
Série statistique
Remarque :
On peut aussi définir les fréquences pour lesquelles le caractère étudié
X est supérieur à xi . Quand on ne spécifie pas le type de fréquences
cumulées, on sous-entend qu’il s’agit des fréquences cumulées
ascendantes.
Exemples
- Cas discret : L’unité statistique (ou l’individu) étant la famille de
quatre enfants dont l’ainé(e) a moins de 16 ans. On s’intéresse au
nombre X de garçons qui la compose. La variable statistique X peut
donc prendre les valeurs : 0, 1, 2, 3 ou 4.
L’étude statistique ci-dessous porte sur un échantillon de n = 250
familles.
0 13 0.052 13 0.052
1 61 0.244 74 0.296
2 93 0.372 167 0.668
3 65 0.260 232 0.928
4 18 0.072 250 1
5
X 5
X
ni = 250 fi = 1
i =1 i =1
90
80
70
60
50
40
30
20
10
0
0 1 2 3 4
1
y=F(t)
0.8
0.6
y
0.4
0.2
0
−3 −2 −1 0 1 2 3 4 5 6 7
t
Table: Tableau 3
Zaher Mohdeb (E. N. P. de Constantine) 35 / 68
Série statistique
350
300
250
200
150
100
50
0
0 50 100 150 200 250
Remarque importante :
Si = hi (ai − ai −1 ) = fi , i = 1, . . . , n,
0.8
0.6
0.4
0.2
0
15 45 75 105 135 165
Remarque :
- Lorsque la variable statistique est discrète, le mode se définit donc à
l’aide du tableau de distribution ou du diagramme en bâtons.
- Lorsque la variable statistique est continue, la classe modale est la
classe dont la fréquence par unité d’amplitude est la plus élevée.
- Par ailleurs, le mode peut ne pas être unique.
Zaher Mohdeb (E. N. P. de Constantine) 41 / 68
Les indicateurs de tendance centrale et de position
k
X k
X k
X
fi (xi − x) = fi x i − x fi = x − x ,
i=1 i=1 i=1
Pk Pk ni
puisque i=1 fi = i=1 n = 1.
• Si X et Y sont deux variables statistiques vérifiant la
relation affine Y = aX + b, alors sa moyenne arithmétique
subit la même transformation : y = a x + b.
Exemples
- Reprenons l’exemple de la variable statistique X représentant le nombre
de garçons composant les n = 250 familles de quatre enfants dont
l’aı̂ne(e) a moins de 16 ans (série statistique du tableau 2). La valeur
moyenne de X est :
1
x= (13 × 0 + 61 × 1 + 93 × 2 + 65 × 3 + 18 × 4) = 2.056 .
250
- Pour ce qui est de l’exemple de la variable statistique X représentant la
durée de service d’un guichet qui peut servir au plus un client à la fois
(n = 1000 clients) (série statistique du tableau 3), la valeur moyenne du
temps de service :
1
x= (369×15+251×45+148×75+98×105+65×135+43×165+26×210)
1000
P
(x = ki=1 ni xi , les xi étant les centres de classe).
Zaher Mohdeb (E. N. P. de Constantine) 45 / 68
Les indicateurs de tendance centrale et de position
Exemples
1) On considère la série statistique sivante (tableau 4)
P Pi nj
X ni fi = nni Ni = ij=1 nj Fi = j=1 n
7 2 2/10 2 2/10
8 1 1/10 3 3/10
9 1 1/10 4 4/10
10 1 1/10 5 5/10
11 2 2/10 7 7/10
14 1 1/10 8 8/10
16 2 2/10 10 1
P7 P7
i =1 ni = 10 i =1 fi =1
7; 7; 8; 9; 10;
| {z 11}; 11; 14; 16; 16
Me
0.9
0.8 y=F(t)
0.7
0.6
y=0.5
0.5
y
0.4
0.3
0.2
0.1
0 2 4 6 8 10 12 14 16 18
t
6 3 3/13 3 3/13
8 1 1/13 4 4/13
9 2 2/13 6 6/13
12 1 1/13 7 7/13
13 3 3/13 10 10/13
17 3 3/13 13 1
P6 P6
i =1 ni = 13 i =1 fi =1
Table:
Zaher Mohdeb (E. N. P. de Constantine) 52 / 68
Les indicateurs de tendance centrale et de position
0.9
y=F(t)
0.8
0.7
0.6
y=0.5
0.5
y
0.4
0.3
0.2
0.1
0 5 10 15 20
t
C
Fi
B
0.5
F
i−1
A D E
0
xi−1 Me xi
Remarques
1) Notons qu’une seule observation très élevée (ou très
faible) peut influencer fortement la valeur de la moyenne ;
alors que la médiane peut supporter sans être modifiée
qu’une moitié des observations soit très élevée (ou très
faible). On dit que la médiane est résistante (robuste).
2) Dans le cas de distribution unimodale, la médiane est
fréquemment comprise entre la moyenne arithmétique et
le mode et plus près de la moyenne que du mode.
Si la distribution est symétrique, ces trois caractéristiques
de tendance centrale sont confondues (voir les figures 13).
Zaher Mohdeb (E. N. P. de Constantine) 57 / 68
Les indicateurs de tendance centrale et de position
0
Mode=Med=Moy
0 0
Mode Med Moy Moy. Med. Mode
b) Les quantiles
Les quantiles sont des indicateurs de position.
Définition
Le quantile d’ordre α, (0 ≤ α ≤ 1), noté xα est tel qu’une
proportion α des individus de la population (l’échantillon)
ait une valeur du caractère X inférieure ou égale à xα .
On utilise couramment les quantiles d’ordre 1/4, 1/2 et 3/4. Ils sont
ainsi notés et nommés :
Remarques
• Q3 − Q1 est appelé l’écart interquartile,
• ]Q1 , Q3 [ est appelé intervalle interquartile.
- Interprétation
• 25% de la population admet une valeur de la variable (du caractère)
entre la plus petite valeur des observations et Q1 .
• 25% de la population admet une valeur de la variable entre Q 1 et
Me.
• 25% de la population admet une valeur de la variable entre Me et
Q3 .
• 25% de la population admet une valeur de la variable entre Q 3 et la
plus grande valeur des observations.
Exemples
1) Reprenons l’exemple des données du tableau 4. On a
1
Q1 = min{x ∈ IR / F (x) ≥ = 0.25} ,
4
où F est la fonction cumulative.
D’après le tableau 4, on a F (7) = 0.20 et F (8) = 0.30
=⇒ Q1 = 8 .
Par ailleurs
3
Q3 = min{x ∈ IR / F (x) ≥ = 0.75} ,
4
d’après le tableau 4, on a F (11) = 0.7 et F (14) = 0.8
=⇒ Q3 = 14 .
Zaher Mohdeb (E. N. P. de Constantine) 62 / 68
Les indicateurs de tendance centrale et de position
Propriétés
1. On montre que la variance est le plus petit écart
quadratique moyen, c’est-à-dire :
k
1X
Var (X ) ≤ ni (xi − C )2 , ∀C ∈ IR .
n
i=1
1h 2 2
i
Var (X ) = n1 Var (X1 ) + n2 Var (X2 ) + n1 (x 1 − x) + n2 (x 2 − x) .
n