Vous êtes sur la page 1sur 56

Statistiques

Descriptives
Boujema Achchab


2012
Plan
1. Dfinitions et notations
2. Les tableaux
3. Les graphiques
4. Les caractristiques statistiques
Tendance centrale
La dispersion
5. Applications
1. Dfinitions et notations
Statistique: Science de ltat:
- conomie, Dmographie, Ressources,
Statistique descriptive: Traduction des
donnes
- simplifie
- classe
- clairement prsentes .

a. Dfinitions
1. Unit statistique ou individu: Cest llment de base de
lensemble que lon veut tudier.
Exemple
Si lon sintresse au parc automobile national, lunit
statistique est une voiture.
2. Population:
Cest lensemble des units statistiques.
Exemple:
Parc automobile

Dfinitions

3. Caractre: (Variable) Cest laspect des
units statistiques sur lequel porte lanalyse

Exemple: Prix, couleur, catgorie,sexe,
satisfaction..

Nature de variable
Quantitative:
- Discrte: Nombre denfants,.
- Continue: Age, poids, taille, revenu

Qualitative:
- Ordinale (Satisfaction, Niveau scolaire).
- Nominale: (Sexe, CSP, Religion)

Donnes
Tableau entre simple: Variable discrte

Valeurs X
i
Effectif n
i
X
1
n
1

X
2
n
2

X
3
n
3

X
p
n
p

Total n
Nombre d'enfants Xi Effectif ni Effectifs cumuls
croissant
Effectifs cumuls dcroissants
0 15 15 70
1 20 35 55
2 19 54 35
4 5 59 16
5 11 70 11
Total 70

Interprtation du C :
59 familles ont au plus 4 enfant

Interprtation du C :
55 familles ont au moins 1 enfant
Variable continue: Age des salaris dune
entreprise
Interprtation des cumuls croissants: se fait par rapport la borne
suprieure de la classe: 72 salaris ont moins 35 ans
Interprtation des cumuls croissants: se fait par rapport la borne
infrieure de la classe: 99 salaris ont au moins 30 ans



X
i
n
i
Cumul
croissant
Cumul
dcroissant
[20-25[ 9 9 135
[25-30[ 27 36 126
[30-35[ 36 72 99
[35-40[ 45 117 63
[40-45[ 18 135 18
Total 135
Reprsentations graphiques
1. Variable discrte
Diagramme en btons:
Effectifs
0
5
10
15
20
25
30
35
Voyages effectus
E
f
f
e
c
t
i
f
Effectifs
0 1 2 3 4 5 6
2. Variable continue
Histogramme

0
5
10
15
20
25
30
35
40
45
50
Reprsentation graphique des effectifs
[20-25[ [25-30[ [30-35[ [35-40[ [40-45[
2. Variable qualitative
Diagramme circulaire

Secteur A
39%
Secteur C
44%
Secteur B
17%
Secteur A
Secteur B
Secteur C
Part relative Part
Secteur A 39% 9000
Secteur B 17% 4000
Secteur C 44% 10000
Total 1 23000

A
=0,39 x 360= 140,4

B
=0,1739 x 360= 62,604

C
=0,4361 x 360= 156,996

Chapitre 2: Caractristiques de
variables statistiques
I Caractristiques de tendance centrale
1. Mode: (cas discret)
Cest la valeur du caractre Xi
correspondant leffectif le plus lev.


X
i
n
i
0 2
1 3
2 15
3 3
Total 23
Mo=2
Dtermination du mode en srie
continue
Amplitude dune classe [a
i
, b
i
[
W
i
=b
i
-a
i
Le classement doit se faire entre classe amplitudes
identiques, sinon, on transforme les donnes avec une
amplitude de rfrence
Amplitude de rfrence: 10


Xi ni
effectif
corrig
[5,10[ 6 12
[10,20[ 8 8
[20,30[ 9 9
La moyenne arithmtique
N
n X
X
p
i
i i
=
=
1
X
i
n
i
X
i
n
i
0 2 0
1 3 3
2 15 30
3 3 9
Total 23 42
1,826
23
42
= = X
La mdiane
Cest la valeur du caractre qui spare leffectif global
en deux groupes deffectifs gaux.
1. Mdiane dune srie discrte:

Voyages
effectus
Effectifs
Cumuls
croissants
0 5 5
1 17 22
2 31 53
3 20 73
4 11 84
5 4 88
6 1 89
On cherche la valeur N/2

Cest 44,5 qui ne figure pas
sur la colonne des cumuls
croissant, on prend la valeur
qui lui est juste suprieure.
Cest--dire 53, donc la
mdiane est

Me=2
Mdiane dune srie continue
On cherche N/2= 67,5
Xi ni
Cumul
croissant
Cumul
dcroissant
[20-25[ 9 9 135
[25-30[ 27 36 126
[30-35[ 36 72 99
[35-40[ 45 117 63
[40-45[ 18 135 18
Total 135
On procde par interpolation
linaire:
36 30
67,5 Me
72 35



Me= 34,375
30 35
30
36 - 72
36 - 67,5

=
Me
IV- Reprsentation dune variable continue

1) Lhistogramme :
Xi ni
Cumul
croissant
Cumul
dcroissant
[20-25[ 9 9 135
[25-30[ 27 36 126
[30-35[ 36 72 99
[35-40[ 45 117 63
[40-45[ 18 135 18
Total 135
Exemple:
Une tude sur lge des employs dune entreprise nous livres les rsultats suivants :
Reprsentation graphique des effectifs
[20-25[ [25-30[ [30-35[ [35-40[ [40-45[
0
5
10
15
20
25
30
35
40
45
50
1
[20-25[
[25-30[
[30-35[
[35-40[
[40-45[
Remarque :
Dans ce type de graphique, limportance est donne aux aires de chaque rectangles.
Cette aire est proportionnelle au contenu du caractre.

IV- Reprsentation dune variable continue

2) Le polygone statistique :
Cette courbe est obtenu en joignant les sommets au niveau du centre des classes.
Reprsentation graphique des effectifs
1
IV- Reprsentation dune variable continue


3) Les polygones cumulatifs :
La ralisation de ces deux courbes sappuie sur linterprtation faite sur les cumuls
croissants et dcroissants. On utilisera donc les bornes suprieures pour les valeurs
ascendantes, et les bornes infrieures pour les valeurs descendantes.
0
20
40
60
80
100
120
140
160
1 2 3 4 5
Cumul croissant
Cumul dcroissant
mdiane
IV- Reprsentation dune variable qualitative


4) Les graphiques circulaires :
Il sagit dun cercle dont le degr douverture maximal est 360. Cette ouverture de 360
correspond la totalit de leffectif. Le degr douverture de chaque secteur sera donc
dtermin de le faon suivante:
Ouverture du secteur = PR . 360
PR : Port relative de chaque secteur
Exemple :
Soit les quantits produites par une entreprise des trois produits suivants :
A = 9 000 ; B = 4 000 ; C = 10 000
;

39 , 0
23000
9000
= =
A
PR 1739 , 0
23000
4000
= =
B
PR
4361 , 0
23000
10000
= =
C
PR
: louverture du secteur de chaque produit
IV- Reprsentation dune variable qualitative


4) Les graphiques circulaires :
u
4 , 140 360 39 , 0 = =
A
u
604 , 62 360 1739 , 0 = =
B
u
996 , 156 360 4361 , 0 = =
C
u
43%
39%
17%
PRA
PRB
PRC
Les caractristiques de variables statistiques

I- Les caractristiques de tendance centrale :

1) Le mode :
Dfinition :
On appelle mode la valeur du caractre Xi correspondant la frquence la plus
importante, on la note : Mo
a) Dtermination du mode en srie discrte




La dtermination du mode partir dun tableau ou dun graphique est immdiate.
Ici le mode de la srie est Mo = 2
i
n
0
2
4
6
8
10
12
14
16
1 2 3 4
Les caractristiques de variables statistiques

I- Les caractristiques de tendance centrale :
Les caractristiques de variables statistiques

I- Les caractristiques de tendance centrale :
b Dtermination du mode en srie continue
Dans ce cas, la notion de mode fait place a notion de classe modale.
Amplitude dune classe
Cest la diffrence entre la plus grande et la plus petite valeur de la srie.
Exemple : [ 5 , 10 [ a pour amplitude : 10 5 = 5
Les classes peuvent tre damplitudes ingales, dans ce cas, il est ncessaire de procder
un certain nombre de modifications.
Une amplitude de rfrence qui servira dunit de base la ralisation du graphique
sera choisie.

Si lon prend comme amplitude de rfrence la valeur 10, amplitude de la 2
me
classe, on
ramnera las effectifs des autres proportionnellement celle-ci. Ainsi, on multipliera le
premier effectif par 2, lamplitude tant 2 fois plus petite et lon divisera le dernier par
1,5 , lamplitude tant 1,5 fois plus grande.
Les effectifs des classes reprsenter devenant respectivement : 12,10,10 et on obtient la
reprsentation suivante:
Les caractristiques de variables statistiques

I- Les caractristiques de tendance centrale :
9
9,5
10
10,5
11
11,5
12
12,5
1
Srie1
Srie2
Srie3
Rgle :
A amplitude gale, la classe modale correspond la frquence maximale par intervalle
unitaire. Ici cest [ 5 , 10[
Remarque :
Il est possible de donner une valeur unique du mode. La valeur unique est obtenue
en faisant la moyenne arithmtique des bornes de lintervalle de la classe modale, soit :

Le mode ou la classe modale nest pas toujours unique.
En pratique, on prend le PGCD des amplitudes, comme amplitude de rfrence.


Les caractristiques de variables statistiques

I- Les caractristiques de tendance centrale :
5 , 7
2
10 5
=
+
2) Les moyennes :
a) La moyenne arithmtique
X
Les caractristiques de variables statistiques

I- Les caractristiques de tendance centrale :
N
n X
X
p
i
i i
=
=
1

=
=
P
i
i
n N o
1
:
Exemple :
5 , 9
6
1 13 2 10 3 8
3 2 1
3 3 2 2 1 1
=
+ +
=
+ +
+ +
=
n n n
n X n X n X
X
Remarque :
On peut aussi exprimer la moyenne laide des frquences relatives :


Les caractristiques de variables statistiques

I- Les caractristiques de tendance centrale :
b) La moyenne gomtrique
La moyenne gomtrique de n nombres positifs est la racine nime du produit de ces
nombres.


Gnralisation Soit une srie quelconque:

=
=
P
i
i i
f X X
1
n
n
n
n
i
i
X X X X X G ...... . . .
3 2 1
1
= =
[
=
Les caractristiques de variables statistiques

I- Les caractristiques de tendance centrale :
Alors la moyenne gomtrique est gale :


P
P P
P
N
np n n
n n n
X n X n X n
G
aussi ou
n n n N o X X X G
P
+ + +
+ + +
=
+ + + = =
.....
log ......... log log
log
..... ...... . .
2 1
2 2 1 1
2 1
2
2
1
1
Exemple :
344 , 9 13 10 8
6 1 2 3
= = G
c) La moyenne harmonique

=
=
+ + +
+ + +
=
p
i
i
i
p
p
p
X
n
N n n n
X
n
X
n
X
n
H
1
2 1
2
2
1
1
1
.........
. ..........
1

=
=
= =
p
i
i p
i
i
i
n N o
X
n
N
H
1
1
Les caractristiques de variables statistiques

I- Les caractristiques de tendance centrale :
ou
Exemple : Calculer la moyenne harmonique de la srie des notes suivantes
2 , 9
13
1
10
2
8
3
6
=
+ +
= H
Remarque :
X G H s s
3) La mdiane Me :
Dfinition: On appelle mdiane la valeur du caractre qui spare leffectif en deux
parties gales.
Remarque: Cette dfinition implique le classement pralable des variables de la
srie, en ordre croissant ou dcroissant.
a) La mdiane en srie discrte:
Deux cas peuvent tre retenues
1) La srie est impaire :
Dans ce cas, il existe une valeur rpondant parfaitement la dfinition, et le rang de
la mdiane est obtenu par la formule :

Les caractristiques de variables statistiques

I- Les caractristiques de tendance centrale :
2
1 +
=
N
Rg
Les caractristiques de variables statistiques

I- Les caractristiques de tendance centrale :
Exemple : la srie statistique suivante a pour effectif total N = 7 ;



Calcul du rang : = 4 me position dans la srie donc la mdiane est Me = 16
2) La srie est paire :
Dans ce cas il nexiste pas de valeur du caractre rpondant la dfinition. Il faut donc
faire appel la notion dintervalle mdian
Exemple : Leffectif total de cette srie est gal 6

Me = 16
2
1 7 +
= Rg
3 termes 3 termes
2 termes 2 termes
5 , 3
2
1 6
=
+
= Rg 5 , 14
2
16 13
=
+
= Me
Les caractristiques de variables statistiques

I- Les caractristiques de tendance centrale :
Mthode pratique pour calculer la mdiane dune srie statistique
Exemple :



On cherche la valeur N/2 dans la colonne . N/2=3,5 ne se trouve pas dans , on
considre alors la valeur qui est suprieur N/2 soit 1 do Me = 16
Exemple :

| C
| C
Les caractristiques de variables statistiques

I- Les caractristiques de tendance centrale :
N/2 = 3 , donc on conclut quil ny a pas de mdiane, mais on a un intervalle
mdian cest lintervalle [13,16]. On donne une estimation de la mdiane par : Me
b) La mdiane en srie discrte:
Dans le cas dune srie continue, on cherchera lintervalle sur lequel se trouve la mdiane.
Les effectifs tant supposs quitablement rpartis sur lintervalle mdian, le calcul se fera
par interpolation linaire (ou proportionnelle).
Exemple: Soit les classes de rmunration des 40 employs dans lentreprise SALAUN.
Calculer la mdiane.

e
| C
~
5 , 14
2
16 13
=
+
Le centre de leffectif est N/2 = 40/2 = 20.
Or 20 napparat pas dans les cumuls.
On procde donc par encadrement :
(Cumuls croissants)
Les caractristiques de variables statistiques

I- Les caractristiques de tendance centrale :
37 9000
20
18 8000

e
i i
M
n X
i
X
| C
37
20
18
8 000 Me 9 000
Exprimons le fait que les trois points se trouvent sur la mme droite : y = ax + b
18 = ax8000+b (1)
20 = axMe+b (2)
37 = ax2000+b (3)
8000 9000
18 37
8000
18 20
8000 9000
18 37
) 1 3 (
8000
18 20
) 1 2 (


Me
a
a
Me
Les caractristiques de variables statistiques

I- Les caractristiques de tendance centrale :
2632 , 8105
19
2000
8000
19
2000
8000
1000
19
8000
2
= + =
= =

Me
Me
Me
Remarque:
1) On peut obtenir la valeur de la mdiane partir des cumuls dcroissants par interpolation
linaire, le principe est le mme :
3 9000
20
22 8000

e
i i
M
n X
i
X
| C
22
20
3
8 000 Me 9 000
2632 , 8105 8000 ) 2 (
19
1000
22 3
8000 9000
20 20
8000
= +

Me
Me
Les caractristiques de variables statistiques

I- Les caractristiques de tendance centrale :
2) Le point dintersection entre la courbe des cumuls croissants et celle des cumuls
dcroissants a pour abscisse la valeur Me.
Exemple:
Calcul de la mdiane par frquences relatives cumules : taille des lves dune classe :

Me = 172,8125
Les caractristiques de variables statistiques

II- Les caractristiques de dispersion :
1) Ltendue
On appelle tendue dune srie la diffrence entre la plus petite et la plus grande
des valeurs dune distribution elle est note W:
Exemple:
Soit la srie suivante :
W = 19 1 = 18
2) Lintervalle interquartile :
a) Les quartiles : les quartiles sont les trois valeurs du caractre qui sparent leffectif en
quatre groupes deffectifs gaux. On les note Q
1,
Q
2 ,
Q
3.
On pourra identifier de
la faon suivante :
1
X X W
n
=
25% 75%
50% 50%
75%
25%
Q
1
Q
2
Q
3
Les caractristiques de variables statistiques

II- Les caractristiques de dispersion :
Remarque : Q
2
= Me : mdiane
Les deux autre quartiles (Q
1
, Q
2
) se dterminent selon la mme procdure : interpolation
linaire.
a) Intervalle interquartile :
Cest la diffrence entre le troisime et le premier quartile : Q
1
Q
3
= Intervalle interquartile
Exemple : Soit la srie suivante :
X
i
n
i
[0,10[ 5 5
[10,20[ 15 20
[20,30[ 2 22
[30,40[ 20 42
Total 42
| C
Calcul de Q
1
: N/4 = 10,5
10 5
Q
1
10,5
20 20
Interpolation linaire
Q1=13,67
5 20
5 5 , 10
10 - 20
10 - Q
1

=
Calcul de Q
2
= Me
Calcul de Q
3
: 3N/4= 31,5
Interpolation linaire:



22 42
30 40
22 5 , 31
30
3

Q
Q
3
= 34,75
Lcart interquartile est
Q
3
-Q
1
= 34,75 - 13,67 = 21,08
Interprtation:
50% de la population est comprise entre Q
3
et Q
1
25% de la population est infrieure Q
1
25% de la population est suprieure Q
3

Les caractristiques de variables statistiques

II- Les caractristiques de dispersion :
Mdiane dune srie continue
On peut retrouver la valeur de la mdiane en se basant
sur les cumuls dcroissants
63 35
67,5 Me
99 30



Me=34,375

35 30
35
63 - 99
63 - 67,5

=
Me
Caractristiques de dispersion
1. Ltendue
Cest la diffrence entre la plus grande et la plus petite
valeur de la variable.
2. Lintervalle interquartiles
Les quartiles sont les trois valeurs du caractre qui
partagent la population en quatre groupes deffectifs
gaux chacun 25% de la population
25% Q1 25% Q2 25% Q3 25%
Remarques:

1- Q2 = Me

2- Les quartiles se calculent de faon analogue celle de la mdiane
Intervalle interquartile
Soit la srie suivante
X
i
n
i
C
[0,10[ 5 5
[10,20[ 15 20
[20,30[ 2 22
[30,40[ 20 42
Total 42
Calcul de Q
1
: N/4= 10,5
10 5
Q
1
10,5
20 20
Interpolation linaire



Q1=13,67
5 20
5 5 , 10
10 - 20
10 - Q
1

=
Intervalle interquartile
Calcul de Q
2
=Me
Calcul de Q
3
: 3N/4= 31,5
Interpolation linaire:



22 42
30 40
22 5 , 31
30
3

Q
Q
3
= 34,75
Lcart interquartile est
Q
3
-Q
1
= 34,75-13,67= 21,08
Interprtation:
50% de la population est comprise entre Q
3
et Q
1
25% de la population est infrieure Q
1
25% de la population est suprieure Q
3

X
i
n
i
C
[0,10[ 5 5
[10,20[ 15 20
[20,30[ 2 22
[30,40[ 20 42
Total 42
La variance

=
=
p
i
i i
n X X
N
X V
1
2
) (
1
) (
2
1
2
1
) (

=
=
p
i
i i
X n X
N
X V
cart type:

) ( ) ( X V X = o
Variance et cart-type:
Exemple:
X
i
n
i
C
i
n
i
C
i
2
n
i
[0,10[ 5 25 125
[10,20[ 15 225 3375
[20,30[ 2 50 1250
[30,40[ 20 700 24500
Total 42 1000 29250
23,80
42
1000
= = X
129,98 23,80) (
42
29250
) (
2
= = X V
11,40 (X) = o
Coefficient de variation
X
(X)
(X)
o
v =

On lappelle aussi coefficient de risque: Il mesure le risque de
se tremper si on prend comme prvision la moyenne
arithmtique des observations.
Anne universitaire 2007/2008
Sries deux variables
: dcrits par deux caractres quantitatifs X et Y
Premier tableau si n est faible




Deuxime tableau double entre ou de contingence
O
X
i
Y
i

X
1
Y
1
X
2
Y
2
X
n
Y
n
ij
n
Nombre dindividus tels que

=
=
j
i
Y Y
X X
Anne universitaire 2007/2008
Exemple :
X reprsente le poids ; Y reprsente la taille
Loi marginal de X Loi marginal de Y
Anne universitaire 2007/2008
kg X
X V
kg X
4 , 10 ) (
16 , 108 ) (
2 , 72
=
=
=
o
m Y
Y V
m Y
1 , 0 ) (
01 , 0 ) (
69 , 1
=
=
=
o
Caractristiques marginales de X Caractristiques marginale de Y
Anne universitaire 2007/2008
Notion de corrlation entre deux caractres quantitatifs:


Coefficient de corrlation linaire :

] 1 , 0 [ ) , ( e Y X r
1 ~ r
1 ~ r
Si : corrlation forte positive
Si : corrlation forte ngative
Si
0 ~ r
: corrlation faible ou absence de corrlation
Anne universitaire 2007/2008
Dfinition
Y X
Y X Cov
Y X r
o o
) , (
) , ( =
Y X n Y X
n
Y X Cov
m n
j i
ij j i
.
1
) , (
,
,

|
|
.
|

\
|
=

o
Cov(X,Y)=-2,34
Exemple:
1 , 0 . 4 , 10
38 , 2
= r
= -0,412
Anne universitaire 2007/2008
Ajustement et prvision

Modle rgression linaire :

) (
) , cov(
X V
Y X
a =
b aX Y D
X Y
+ = :
/
X a Y b =
Anne universitaire 2007/2008