Académique Documents
Professionnel Documents
Culture Documents
1
La Statistique Descriptive est l'ensemble des méthodes et
techniques mathématiques permettant de présenter, décrire,
résumer de telles données.
L'interprétation des résumés obtenus, leur extrapolation éventuelle à
un ensemble plus vaste (utilisation de sondages par exemple), et leur
utilisation pour prendre des décisions constituent un autre domaine de
la Statistique.
2
3
INTRODUCTION
VOCABULAIRE STATISTIQUE
Population statistique :
Une population statistique est l'ensemble sur lequel on effectue des observations.
Echantillon
Est une partie de la population statistique
4
VARIABLES QUANTITATIVES
Variable quantitative :
Une variable statistique est quantitative si ses valeurs sont des nombres exprimant
une quantité, sur lesquels les opérations arithmétiques ont un sens.
5
VARIABLES QUALITATIVES
Variable qualitative :
Une variable statistique est qualitative si ses valeurs, ou modalités, s'expriment de
façon littérale ou par un codage sur lequel les opérations arithmétiques telles que
moyenne, somme, ... , n'ont pas de sens.
6
L ’opérateur somme
DEFINITION: q
p et q étant 2 entiers relatifs x
i p
i x p x p 1 ...... xq
q q q
REMARQUE 2: n
7
(2) UN OUTIL : L ’OPERATEUR SOMME S
PROPRIETE 1: ka
i
i k ai
i
q q
a b a
i p
i i p bp a p 1 bp 1 ..... aq bq
PROPRIETE 3 : k a b k a kb
i
i i
i
i
i
i
q q
a p a p 1 ..... aq bp bp 1 ..... bq ai bi
i p i p
n
PROPRIETE 4 : k nk
i 1
n
k k
i 1
k
..... k nk
q
n
PROPRIETE 5: k q p 1 k
i p
8
TABLEAUX
ET
GRAPHIQUES
9
(1) VARIABLES QUALITATIVES NOMINALES
10
(2) VARIABLES QUALITATIVES NOMINALES
11
VARIABLES QUALITATIVES ORDINALES
130 personnes ont été interrogées sur leur dépendance au chocolat
35 32
30
25
25 23
20
15
10
10
0
A B C D E
12
(1) VARIABLES QUANTITATIVES DISCRETES
EFFECTIFS ET FREQUENCES
Clients Nombre de produits Nombre de Nombre de clients
financiers produits financiers
Badre 2
Jamal 3
0 103
Laila 0 1 115
Chakir 0 2 95
Latifa 1 3 35
Ali 0 4 10
Aicha 1
5 2
Driss 0
Salah 2 Valeurs de Effectifs Fréquences %
Bilal 4
la variable
Mariem 1
Jalal 3 x1 n1 f1= n1/n f1×100
Dadi 2 … … …
David 0 xi ni fi= ni/n f i ×100
Yves 0 … … …
Papin 1
Asmae 2
xk nk fk= nk/n f k ×100
…… ……. Total : n i = n fi =1 100
13
(2) VARIABLES QUANTITATIVES DISCRETES
REPRESENTATION GRAPHIQUE DES EFFECTIFS ET FREQUENCES
Diagramme en bâtons
140
120
100
80
60
40
20
0
0 1 2 3 4 5 6
14
(3) VARIABLES QUANTITATIVES DISCRETES
EFFECTIFS ET FREQUENCES CUMULES
Nbre Nombre de Effectifs cumulés Effectifs cumulés
produits Clients croissants décroissants
financiers
0 103 103 360
Effectifs cumulés croissants: 1 115 218 257
Nombre d'individus pour lesquels la 2 95 313 142
variable est inférieure ou égale à xi.
3 35 348 47
4 10 358 12
Résultat de l'addition, de proche en 5 2 360 2
proche, des effectifs d'une distribution Total : 360
observée en commençant par le 1er.
15
TABLEAUX ET GRAPHIQUES Qualitative nominale Qualitative ordinale Quantitative discrète Quantitative continue
La proportion de clients possédant un nombre de pro. fin. supérieur ou égal à 1 est de 71,39%
16
(5) VARIABLES QUANTITATIVES DISCRETES
COURBES CUMULATIVES
400
x xi ni Ni N(x) N’i N ’(x)
350
360
0 300
0 0 103 103 360
103 257 250
1 1 115 218 257
218 142 200
2 2 95 313 142 n/2
313 47 150
35 348 47
3 3 348 12 100
10 358 12
4 4 358 2 50
2 360 2 0
5 5 360 0 -2 -1 0 1 2 3 4 5 6
On appelle courbe cumulative croissante le tracé de la fonction N (ou F pour les fréquences)
qui à tout réel x associe N( x ) = nombre d'observations inférieur ou égal à x.
On appelle courbe cumulative décroissante le tracé de la fonction N' (ou F’ pour les fréquences)
qui a tout réel x associe N'( x ) = nombre d'observations supérieur strictement à x.
Les courbes cumulatives N(x) et N’(x) sont symétriques par rapport à n/2 : N(x) + N’(x) = n
Les courbes cumulatives F(x) et F’(x) sont symétriques par rapport à 0,5 : F(x) + F’(x) = 1
17
Quantitative continue
Remarque 1: Le choix des classes et arbitraire, mais elles doivent être contigües
et recouvrir l’ensemble des valeurs.
Remarque 2: Il est préférable de prendre des classes d’amplitudes égales.
19
20
(3) VARIABLES QUANTITATIVES CONTINUES
REPRESENTATION GRAPHIQUE DES EFFECTIFS ET FREQUENCES
900 effectif
Classes Effectifs 800
[0 – 3[ 830 700
[3 – 5[ 615 600
[5 – 10[ 510 500
[10 – 20 [ 92 400
30
50
0
3
350
Effectif rectifié
Classes Effectifs Amplitude Effectifs
300
ni ai rectifiés
ni /ai 250
[0 – 3[ 830 3 276,7 200
HISTOGRAMME
[3 – 5[ 615 2 307,5
[5 – 10[ 510 5 102,0 150
30
50
0
3
21
(4) VARIABLES QUANTITATIVES CONTINUES
REPRESENTATION GRAPHIQUE DES EFFECTIFS ET FREQUENCES
30
50
0
3
La surface = ai × (ni/ai) est de 830 unités
23
(6) VARIABLES QUANTITATIVES CONTINUES
COURBES CUMULATIVES
x
[ei – ei+1[ Fi F(x)
F’ F’i F’(x)
?
?0 i 1Al’intérieur
d cl fait
0 A 1
[0-3[ 0,391 1,000
? 1,000 ?
3 0,391 l’hypothèse
0,609
de chaque
0,9
[3-5[ 0,680 0,609
? 0,609 queon
la fait 0,8
Fi
5 0,680 classe,
0,320 0,7
[ 5 - 10 [ 0,920 0,320 0,320 répartition est
0,920 l’hypothèse
0,080
0,6 F’i
10 [10 - 20 [ 0,963 0,080 0,080 uniforme 0,5
que la
20 0,963 0,037 0,4
[20 - 30 [ 0,993 0,037 0,037 répartition est 0,3
30 0,993 0,007
uniforme
[30 - 50 [ 1,000 0,007 0,007 0,2
50 1 0 0,1
0
-10 0 10 20 30 40 50 60
On appelle courbe cumulative croissante le tracé de la fonction F (N pour les effectifs) qui à tout réel x
associe F( x ) = nombre d'observations inférieur ou égal à x.
On appelle courbe cumulative décroissante le tracé de la fonction F’ (N’ pour les effectifs) qui a tout réel
Remarque: Pour une variable continue, il est indifférent de dire « inférieur ou égal » ou
x associe F’( x ) = nombre d'observations supérieur strictement à x.
« strictement inférieur ». Il en est de même pour « supérieur ou égal » ou « strictement
supérieur ».
Les courbes cumulatives F(x) et F’(x) sont symétriques par rapport à 0,5 : F(x) + F’(x) = 1
Il n’y a aucune chance qu’une observation tombe sur une borne. C’est l’imprécision de
l’instrument de mesure et un mauvais choix des bornes qui pourrait conduire à ce résultat.
24
(7) VARIABLES QUANTITATIVES CONTINUES
COURBES CUMULATIVES
Quelle est la proportion p d’employés dont l’augmentation est inférieure à 17 € ?
[ei – ei+1[ Fi F(x)
x
0 0
1
[0-3[ 0,391 0,950,9
3 0,391 0,8
[3-5[ 0,680 0,7
5 0,680 0,6
0,5
[ 5 - 10 [ 0,920 0,4
10 0,920 0,3
17 - 10 p - 0,92 17 10
D'où p 0,92 0,963 0,920 95%
20 10
20 - 10 0,963-0,920
25
RESUME
Modalités dans
l ’ordre
Diagramme circulaire Courbes cumulatives des effectifs ou des fréquences
26
PARAMETRES
STATISTIQUES
27
Les représentations graphiques ont permis une première synthèse visuelle de la
distribution des observations
Un paramètre statistique permet de résumer par une seule quantité numérique une
information contenue dans une distribution d’observations.
0 0 0
0 N° individu 0 N° individu 0 N° individu
28
(1) PARAMETRES DE TENDANCE CENTRALE
LE MODE
Une distribution est unimodale si elle présente un maximum marqué, et pas d'autres
maxima relatifs.
La lecture s’effectue sur le diagramme en bâtons ou l'histogramme.
100
140 90
80
120
70
100
60
80 50
60 40
30
40
20
20
10
0 0
0 1 2 3 4 5 6 900 1400 1900 2400 2900 3500 ou plus...
29
(2) PARAMETRES DE TENDANCE CENTRALE
LE MODE
80
140
70
120
60
100
50
80
40
60
30
40 20
20 10
0 0
0 1 2 3 4 5 6 900 1400 1900 2400 2900 3500 4000 4500 ou
plus...
La médiane M est la valeur du milieu de la série d’observations, c.à.d. telle qu'il y ait
autant d'observations "au-dessous" que "au-dessus".
3 4 4 5 6 8 8 9 10 3 4 4 5 6 8 8 9
31
(4) PARAMETRES DE TENDANCE CENTRALE
LA MEDIANE à partir d’une distribution discrète
F(x) F(x)
xi ni Fi xi ni Fi
0 103 0,286 0 0
0 103 0,286
1 115 0,606 0,286 0,286
0,5 Intervalle médian 1 77 0,500
M 0,606 0,500 0,5
2 95 0,869 M = milieu = 1,5 2 95 0,764
3 35 0,967 0,869 0,764
3 35 0,861
4 10 0,994
0,967 0,861
4 10 0,889
5 2 1
0,994 0,889
5 40 1
1 1
1 1
0,5 0,5
0 0
-2 -1 0 1 2 3 4 5 6 -2 -1 0 1 2 3 4 5 6
Intervalle médian
M M = milieu = 1,5
32
(5) PARAMETRES DE TENDANCE CENTRALE
LA MEDIANE à partir d’une distribution continue
5 0,680 0,6
0,5 0,5
[ 5 - 10 [ 0,920 0,4
10 0,920 0,3
0,2
[10 - 20 [ 0,963 0,1
20 0,963 0
30 0,993 M
[30 - 50 [ 1
50 1
M-3 0,5-0,391 0,5 0,391
D'où M 3 5 3 3, 22
0,680 0,391
5-3 0,680-0,391
33
(6) PARAMETRES DE TENDANCE CENTRALE
LA MOYENNE ARITHMETIQUE
1 n
Série brute x1, x2, … , xn x = xi
n i=1
34
(7) PARAMETRES DE TENDANCE CENTRALE
LA MOYENNE ARITHMETIQUE
Classes Effectifs Fréquences Centres de classe
Série classée
[e1 – e2[ n1 f1 x 1= ( e 1 + e 2)/2
[e2 – e3[ n2 f2 x 2= ( e 2 + e 3)/2
…. …. …. ….
[ek – ek+1[ nk fk x k= ( e k + e k+1)/2
1 k k
x = n i x i fi x i
n i=1 i=1
35
(8) PARAMETRES DE TENDANCE CENTRALE
LA MOYENNE ARITHMETIQUE
Population P1 Population P2
Effectif n1 Effectif n2
Moyenne x1 Moyenne x 2
Population P = P1 P2
Effectif n = n 1+ n2
Moyenne x?
n1 x1 + n 2 x 2
x= Moyenne globale = moyenne des moyennes
n
36
(9) PARAMETRES DE TENDANCE CENTRALE
PROPRIETES GENERALES
z=ax+b
y=ax
37
(10) PARAMETRES DE TENDANCE CENTRALE
MOYENNES GEOMETRIQUE ET HARMONIQUE
Moyenne géométrique
G= n x1n1 x 2n 2 .....x kn k
Moyenne harmonique
n
H= k n
x
i=1
i
99 centiles C1, C2, …, C99 qui divisent les observations en 100 parties égales
39
(2) PARAMETRES DE POSITION
LES FRACTILES OU QUANTILES
0,9 0,9
1 0,8
0,75 0,7
0,75 0,6
0,5 0,5
0,5 0,4
0,3
0,2
0,2 0,1
0
0
-2 -1 0 1 2 3 4 5 6 -10 0 MQ3D
10 20 30 40 50 60
9
D2 M Q3
40
(3) PARAMETRES DE POSITION
PROPRIETES GENERALES
z=ax+b
100 % - A %
y=ax
100 % - A % A%
x
100 % - A %
A%
A%
41
Dispersion
Intervalle interquartile : IQ = Q3 - Q1
1 n 2 1 k 2
k
2
V = xi - x V = n i x i - x fi x i - x
n i=1 n i=1 i=1
1 k
V = n i x i2 x 2 = Moyenne des carrés - Carré de la moyenne
n i=1
Ecart-type : σ= V
42
43
(2) PARAMETRES DE DISPERSION
Comment faire la variance de plusieurs populations ?
Population P1 Population P2
Effectif n1 Effectif n2
Moyenne x1 Moyenne x 2
Variance V1 Variance V2
Population P = P1 P2
Effectif n = n 1+ n2
Moyenne x
Variance V ?
1 k 1 k 2
V = n i Vi + n i x i -x
n i=1 n i=1
Variance globale = Moyenne des variances + Variance des moyennes
44
(3) PARAMETRES DE DISPERSION
PROPRIETES GENERALES
z=ax+b
y=ax
xi y i = a xi + b
xi
zi = xi + yi
yi
z= x+ y V(z) V(x)+ V(y)
46
(4) PARAMETRES DE FORME
47
48
49
50
51
fi
leptocurti
mésocurti
platicurti
x
Pour une loi très connue en statistique, la loi normale centré réduite, 2 = 0 ; la courbe
de la distribution est similaire à une distribution normale centrée réduite N(0,1) ; elle
est mésokurtique
la courbe de la distribution est moins plate que la distribution normale ; elle est
leptocurtique.
la courbe de la distribution est plus plate que la distribution normale, elle est
platicurtique.
52
ETUDE DE 2 VARIABLES
QUANTITATIVES
53
ETUDE DE 2 VARIABLES QUANTITATIVES
(1) MESURE DE LA LIAISON ENTRE 2
VARIABLES QUANTITATIVES
95
90
Poids
Nom Taille xi (cm) Poids yi (kg)
85
Pierre 175 73
80
Arantxa 168 56
….. ….. ….. 75
Martin 185 87 70
65
60
55
50
Taille
150 160 170 180 190 200
54
ETUDE DE 2 VARIABLES QUANTITATIVES
(2) MESURE DE LA LIAISON ENTRE 2
VARIABLES QUANTITATIVES
1 n
Covariance : Cov x,y = x i -x yi -y
n i=1
Propriétés :
cov(x,y)
Corrélation linéaire: ρ =
σ(x) σ(y)
Propriétés :
1 ρ 1
ρ = 1 si a > 0
y=ax+b
ρ = -1 si a < 0
ρ 1 Il existe une relation fonctionnelle entre x et y
ρ0 x et y sont indépendantes
0 < ρ < 1 Il existe une dépendance linéaire d’autant plus forte que |r| est grand
57
ETUDE DE 2 VARIABLES QUANTITATIVES
90
y = Poids
85
80
75
70
65
60
55
50
x = Taille
150 160 170 180 190 200
Si une telle fonction existe, on dit que f est un modèle du phénomène étudié.
58
ETUDE DE 2 VARIABLES QUANTITATIVES
90
y = Poids
85
80
75
70
65
60
55
50
x = Taille
150 160 170 180 190 200
59
ETUDE DE 2 VARIABLES QUANTITATIVES
« au mieux »
n n
Minimiser S = e 2
i
Minimiser S' = e'i2
i=1 i=1
95 95
90
y = Poids 90
y = Poids
85 85
80 80
e'i
75 ei 75
70 70
65 65
60 60
55 55
50
x = Taille 50
x = Taille
150 160 170 180 190 200 150 160 170 180 190 200
60
ETUDE DE 2 VARIABLES QUANTITATIVES
90
y = Poids
85
f(x) = y = ax+b
Droite de régression y80i
75
linéaire de y en x
y = f(x) = ax + b axi+b70 ei = |yi-axi-b|
65
60
55
50
x = Taille
150 160 170 180 190 200
xi
n n
2 2
La droite de régression linéaire de y en x, notée Dy/x , minimise S =
i=1
e =
i yi -ax i -b
i=1
n
x -x y -y
i i
Cov x,y
a= i=1
= b = y - ax
n
2 V(x)
x i -x
i=1
Dy/x passe par le point moyen x , y
61
ETUDE DE 2 VARIABLES QUANTITATIVES
90
y = Poids
85
f(x) = y = ax+b
Droite de régression y80i
75
linéaire de y en x
y = f(x) = ax + b axi+b70 ei = |yi-axi-b|
65
60
55
x = Taille
50
150 160 170 180 190 200
xi
y=ax+b définit un modèle affine
ŷ i = a x i + b = valeur de y prévue par le modèle
i
62
ETUDE DE 2 VARIABLES QUANTITATIVES
70
x = f(y) = a’y + b’ 65
60
55
50
x = Taille
150 160 170 180 190 200
xi a’yi+b’
n n
2 2
La droite de régression linéaire de x en y, notée Dx/y , minimise S' =
i=1
e' =
i x i -a'yi -b'
i=1
n
x -x y -y
i i
Cov x,y
a' = i=1
n
= b' = x - a' y
2 V(y)
y -y
i=1
i
Dx/y passe par le point moyen x , y
63
ETUDE DE 2 VARIABLES QUANTITATIVES
LIENS ENTRE CORRELATION
ET DROITES DE REGRESSION
Cov x,y
Dy/x : y = ax + b a= b = y - ax
σ(x) σ(y)
V(x) r² = a a’ ρ=a = a'
σ(y) σ(x)
Cov x,y
Dx/y : x = a’y + b’ a' = b' = x - a' y
1 b' V(y)
y= x
a' a'
x, y x, y
x, y
r² = a a’ = 0 0< r² = a a’ < 1 r² = a a’ = 1
Le degré de dépendance linéaire
Indépendance linéaire se mesure à la proximité des Liaison fonctionnelle linéaire
droites de régression 64
ETUDE DE 2 VARIABLES QUANTITATIVES
…. ….
4,0 3,1 5,0
0,0
0 10 20 30 40 50 60
2
Analyse des résidus
1
0
Les résidus devraient se répartir
-1
0 10 20 30 40 50 60 au hasard autour de l’axe des
-2 abscisses:
-3 le modèle affine ne convient pas
65
Exemple avec xl
taille xi poids yi
150 55
155 62
165 63 80
160 61
70
170 65
172 65 60
163 67 50
175 70
174 72 40
180 75 30
20
66
ETUDE DE 2 VARIABLES QUANTITATIVES
20,0
Modèle exponentiel
y = ex exponentielle de base e
15,0
10,0
y = ax exponentielle de base a
20,00
Série initiale (xi,yi)
15,00 Série prévue par le modèle x i ,yˆ i
10,00
5,00
0,00
0 10 20 30 40 50 60
1,50
1,00
0,50
-0,50
900
800
700
600
500 Droite de régression linéaire de y en x
400
300
200
100
0
0 20 40 60
150
100
50
0
0 10 20 30 40 50 60
Analyse des résidus
-50
Le modèle affine ne
-100
convient pas
-150
69
ETUDE DE 2 VARIABLES QUANTITATIVES
70
ETUDE DE 2 VARIABLES QUANTITATIVES
80
60
40
20
-40
Le modèle puissance est mieux
-60
adapté que le modèle affine
-80 71
ETUDE DE 2 VARIABLES QUANTITATIVES
2 2 2
On montre que yi -y yˆ i -y yi -yˆ i
SCM SCR
SCT = SCM + SCR 1
SCT SCT
Somme des carrés des Somme des carrés des Somme des
= +
écarts à la moyenne écarts du modèle carrés des résidus
L’ajustement est d’autant meilleur que SCR est proche de 0, c.à.d. que SCR/SCT est
proche de 0 ou SCM/SCT est proche de 1.
SCM
R = Coefficient de détermination = r² = (coef. de corrélation)²
SCT
0 R 1
72
ETUDE DE 2 VARIABLES QUALITATIVES
73
74
75
76
Paramètre de liaison
77