Académique Documents
Professionnel Documents
Culture Documents
STATISTIQUES DESCRIPTIVES
1
La Statistique Descriptive est l'ensemble des méthodes et
techniques mathématiques permettant de présenter, décrire,
résumer de telles données.
L'interprétation des résumés obtenus, leur extrapolation éventuelle à
un ensemble plus vaste (utilisation de sondages par exemple), et leur
utilisation pour prendre des décisions constituent un autre domaine de
la Statistique.
2
3
INTRODUCTION
VOCABULAIRE STATISTIQUE
Population statistique :
Une population statistique est l'ensemble sur lequel on effectue des observations.
Modalités :
les modalités sont les valeurs du caractère statistique étudié.
4
VARIABLES QUANTITATIVES
Variable quantitative :
Une variable statistique est quantitative si ses valeurs sont des nombres exprimant
une quantité, sur lesquels les opérations arithmétiques ont un sens.
5
VARIABLES QUALITATIVES
Variable qualitative :
Une variable statistique est qualitative si ses valeurs, ou modalités, s'expriment de
façon littérale ou par un codage sur lequel les opérations arithmétiques telles que
moyenne, somme, ... , n'ont pas de sens.
6
L ’opérateur somme
L ’OPERATEUR SOMME: S
DEFINITION: q
p et q étant 2 entiers relatifs x
i p
i x p x p 1 ...... xq
q q q
REMARQUE 2: n
7
PROPRIETE 1: ka
i
i k ai
i
q q
a b a
i p
i i p bp a p 1 bp 1 ..... aq bq
PROPRIETE3: k a b k a k b
i i i i
q q
a p a p 1 ..... aq bp bp 1 ..... bq ai bi
i i i
i p i p
n
PROPRIETE 4 : k nk
i 1
n
k k k ..... k nk
i 1 q
k q p 1 k
n
PROPRIETE 5:
i p
8
TABLEAUX
ET
GRAPHIQUES
9
VARIABLES QUALITATIVES NOMINALES
10
VARIABLES QUALITATIVES NOMINALES
80
60
60
40 40
40
20
Noir
54% 0
Bleu Noir Noisette Vert
11
VARIABLES QUALITATIVES ORDINALES
130 personnes ont été interrogées sur leur dépendance au chocolat
35 32
30
25
25 23
20
15
10
10
0
A B C D E
12
VARIABLES QUANTITATIVES DISCRETES
EFFECTIFS ET FREQUENCES
Clients Nombre de produits Nombre de Nombre de clients
financiers produits financiers
Badre 2
Jamal 3
0 103
Laila 0 1 115
Chakir 0 2 95
Latifa 1 3 35
Ali 0 4 10
Aicha 1
5 2
Driss 0
Salah 2 Valeurs de Effectifs Fréquences %
Bilal 4
la variable
Mariem 1
x1 n1 f1= n1/n f1×100
Jalal 3
Dadi 2 … … …
David 0 xi ni fi= ni/n f i ×100
Yves 0 … … …
Papin 1 f k ×100
Asmae 2
xk nk fk= nk/n
…… ……. Total : n i = n fi =1 100
13
VARIABLES QUANTITATIVES DISCRETES
REPRESENTATION GRAPHIQUE DES EFFECTIFS ET FREQUENCES
Diagramme en bâtons
140
120
100
80
60
40
20
0
0 1 2 3 4 5 6
14
VARIABLES QUANTITATIVES DISCRETES
EFFECTIFS ET FREQUENCES CUMULES
Nbre Nombre de Effectifs cumulés Effectifs cumulés
produits Clients croissants décroissants
financiers
0 103 103 360
Effectifs cumulés croissants: 1 115 218 257
Nombre d'individus pour lesquels la 2 95 313 142
variable est inférieure ou égale à xi.
3 35 348 47
4 10 358 12
Résultat de l'addition, de proche en 5 2 360 2
proche, des effectifs d'une distribution Total : 360
observée en commençant par le 1er.
15
VARIABLES QUANTITATIVES DISCRETES
EFFECTIFS ET FREQUENCES CUMULES
Nombre de Nombre de Effectifs Effectifs Fréquences Fréquences Fréquences
produits clients cumulés cumulés cumulées cumulées
financiers croissants décroissants croissantes décroissantes
xi ni Ni N’i fi Fi F’i
0 103 103 360 0,2861 0,2861 1
1 115 218 257 0,3194 0,6055 0,7139
2 95 313 142 0,2639 0,8694 0,3945
3 35 348 47 0,0972 0,9666 0,1306
4 10 358 12 0,0278 0,9944 0,0334
5 2 360 2 0,0056 1 0,0056
Total : 360 1
La proportion de clients possédant un nombre de pro. fin. supérieur ou égal à 1 est de 71,39%
16
VARIABLES QUANTITATIVES DISCRETES
COURBES CUMULATIVES
400
x xi ni Ni N(x) N’i N ’(x)
360
350
0 300
0 0 103 103 360
103 257 250
1 1 115 218 257
218 142 200
2 2 95 313 142 n/2
313 47 150
35 348 47
3 3 348 12 100
10 358 12
4 4 358 2 50
2 360 2 0
5 5 360 0
-2 -1 0 1 2 3 4 5 6
On appelle courbe cumulative croissante le tracé de la fonction N (ou F pour les fréquences)
qui à tout réel x associe N( x ) = nombre d'observations inférieur ou égal à x.
On appelle courbe cumulative décroissante le tracé de la fonction N' (ou F’ pour les fréquences)
qui a tout réel x associe N'( x ) = nombre d'observations supérieur strictement à x.
Les courbes cumulatives N(x) et N’(x) sont symétriques par rapport à n/2 : N(x) + N’(x) = n
Les courbes cumulatives F(x) et F’(x) sont symétriques par rapport à 0,5 : F(x) + F’(x) = 1
17
Quantitative continue
Remarque 1: Le choix des classes et arbitraire, mais elles doivent être contigües
et recouvrir l’ensemble des valeurs.
Remarque 2: Il est préférable de prendre des classes d’amplitudes égales.
19
20
VARIABLES QUANTITATIVES CONTINUES
REPRESENTATION GRAPHIQUE DES EFFECTIFS ET FREQUENCES
900 effectif
Classes Effectifs 800
[0 – 3[ 830 700
[3 – 5[ 615 600
[5 – 10[ 510 500
[10 – 20 [ 92 400
0
3
30
50
350
Effectif rectifié
Classes Effectifs Amplitude Effectifs
300
ni ai rectifiés
ni /ai 250
[0 – 3[ 830 3 276,7 HISTOGRAMME
200
[3 – 5[ 615 2 307,5
[5 – 10[ 510 5 102,0 150
30
50
21
(4) VARIABLES QUANTITATIVES CONTINUES
REPRESENTATION GRAPHIQUE DES EFFECTIFS ET FREQUENCES
0
3
30
50
La surface = ai × (ni/ai) est de 830 unités
23
(6) VARIABLES QUANTITATIVES CONTINUES
COURBES CUMULATIVES
x
[ei – ei+1[ Fi F’i
F(x) F’i F’(x)
?
?0 1Al’intérieur
d cl fait
0 A 1
[0-3[ 0,391 1,000
? 1,000 ?
3 0,391 l’hypothèse
0,609
de chaque
0,9
[3-5[ 0,680 0,609
? 0,609 queon
la fait 0,8
Fi
5 0,680 classe,
0,320 0,7
[ 5 - 10 [ 0,920 0,320 0,320 répartition est
0,920 l’hypothèse
0,080
0,6 F’i
10 [10 - 20 [ 0,963 0,080 0,080 uniforme 0,5
que la
20 0,963 0,037 0,4
[20 - 30 [ 0,993 0,037 0,037 répartition est 0,3
30 0,993 0,007
uniforme
[30 - 50 [ 1,000 0,007 0,007 0,2
50 1 0 0,1
-10
0
0 10 20 30 40 50 60
On appelle courbe cumulative croissante le tracé de la fonction F (N pour les effectifs) qui à tout réel x
associe F( x ) = nombre d'observations inférieur ou égal à x.
On appelle courbe cumulative décroissante le tracé de la fonction F’ (N’ pour les effectifs) qui a tout réel
Remarque: Pour une variable continue, il est indifférent de dire « inférieur ou égal » ou
x associe F’( x ) = nombre d'observations supérieur strictement à x.
« strictement inférieur ». Il en est de même pour « supérieur ou égal » ou « strictement
supérieur ».
Les courbes cumulatives F(x) et F’(x) sont symétriques par rapport à 0,5 : F(x) + F’(x) = 1
Il n’y a aucune chance qu’une observation tombe sur une borne. C’est l’imprécision de
l’instrument de mesure et un mauvais choix des bornes qui pourrait conduire à ce résultat.
24
(7) VARIABLES QUANTITATIVES CONTINUES
COURBES CUMULATIVES
Quelle est la proportion p d’employés dont l’augmentation est inférieure à 17 € ?
[ei – ei+1[ Fi F(x)
x
0 0
1
[0-3[ 0,391 0,950,9
3 0,391 0,8
[3-5[ 0,680 0,7
5 0,680 0,6
0,5
[ 5 - 10 [ 0,920 0,4
10 0,920 0,3
Modalités dans
l ’ordre
Diagramme circulaire Courbes cumulatives des effectifs ou des fréquences
26
PARAMETRES
STATISTIQUES
27
Les représentations graphiques ont permis une première synthèse visuelle de la
distribution des observations
Un paramètre statistique permet de résumer par une seule quantité numérique une
information contenue dans une distribution d’observations.
28
LE MODE
Une distribution est unimodale si elle présente un maximum marqué, et pas d'autres
maxima relatifs.
La lecture s’effectue sur le diagramme en bâtons ou l'histogramme.
100
140 90
80
120
70
100
60
80 50
60 40
30
40
20
20
10
0 0
0 1 2 3 4 5 6
900 1400 1900 2400 2900 3500 ou plus...
29
Plusieurs MODES
80
140
70
120
60
100
50
80
40
60
30
40 20
20 10
0 0
0 1 2 3 4 5 6 900 1400 1900 2400 2900 3500 4000 4500 ou
plus...
La médiane M est la valeur du milieu de la série d’observations, c.à.d. telle qu'il y ait
autant d'observations "au-dessous" que "au-dessus".
3 4 4 5 6 8 8 9 10 3 4 4 5 6 8 8 9
31
LA MEDIANE à partir d’une distribution discrète
F(x) F(x)
xi ni Fi xi ni Fi
0 103 0,286 0 0
0 103 0,286
1 115 0,606 0,286 0,286
0,5 Intervalle médian 1 77 0,500
M 0,606 0,500 0,5
2 95 0,869 M = milieu = 1,5 2 95 0,764
3 35 0,967 0,869 0,764
3 35 0,861
4 10 0,994
0,967 0,861
4 10 0,889
0,994 0,889
5 2 1 5 40 1
1 1
1 1
0,5 0,5
0 0
-2 -1 0 1 2 3 4 5 6 -2 -1 0 1 2 3 4 5 6
Intervalle médian
M M = milieu = 1,5
32
LA MEDIANE à partir d’une distribution continue
5 0,680 0,6
0,5 0,5
[ 5 - 10 [ 0,920 0,4
10 0,920 0,3
0,2
[10 - 20 [ 0,963
0,1
20 0,963 0
30 0,993 M
[30 - 50 [ 1
50 1
0,5 0,391
M-3
0,5-0,391
D'où M 3 5 3 3,22
0,680 0,391
5-3 0,680-0,391
33
(6) PARAMETRES DE TENDANCE CENTRALE
LA MOYENNE ARITHMETIQUE
1 n
Série brute x1, x2, … , xn x = xi
n i=1
34
(7) PARAMETRES DE TENDANCE CENTRALE
LA MOYENNE ARITHMETIQUE
Classes Effectifs Fréquences Centres de classe
Série classée
[e1 – e2[ n1 f1 x1= ( e1 + e2)/2
[e2 – e3[ n2 f2 x2= ( e2 + e3)/2
…. …. …. ….
[ek – ek+1[ nk fk xk= ( ek + ek+1)/2
1 k k
x = n i x i fi x i
n i=1 i=1
35
(8) PARAMETRES DE TENDANCE CENTRALE
LA MOYENNE ARITHMETIQUE
Population P1 Population P2
Effectif n1 Effectif n2
Moyenne x1 Moyenne x 2
Population P = P1 P2
Effectif n = n 1+ n2
Moyenne x?
n1 x1 + n 2 x 2
x= Moyenne globale = moyenne des moyennes
n
36
(9) PARAMETRES DE TENDANCE CENTRALE
PROPRIETES GENERALES
z=ax+b
y=ax
37
(10) PARAMETRES DE TENDANCE CENTRALE
MOYENNES GEOMETRIQUE ET HARMONIQUE
Moyenne géométrique
G = n x1n1 x n2 2 .....x nk k
Moyenne harmonique
n
H= k n
x
i=1
i
99 centiles C1, C2, …, C99 qui divisent les observations en 100 parties égales
39
(2) PARAMETRES DE POSITION
LES FRACTILES OU QUANTILES
0,9 0,9
1 0,8
0,75 0,7
0,75 0,6
0,5 0,5
0,5 0,4
0,3
0,2
0,2 0,1
0
0
-2 -1 0 1 2 3 4 5 6 -10 0 MQ3D
10 20 30 40 50 60
9
D2 M Q3
40
(3) PARAMETRES DE POSITION
PROPRIETES GENERALES
z=ax+b
100 % - A %
y=ax
100 % - A % A%
x
100 % - A %
A%
A%
41
Dispersion
Intervalle interquartile : IQ = Q3 - Q1
1 n 1 k k
V = xi - x V = n i x i - x fi x i - x
2 2 2
1 k
V = n i x i2 x 2 = Moyenne des carrés - Carré de la moyenne
n i=1
Ecart-type : σ= V
42
43
(2) PARAMETRES DE DISPERSION
Comment faire la variance de plusieurs populations ?
Population P1 Population P2
Effectif n1 Effectif n2
Moyenne x1 Moyenne x 2
Variance V1 Variance V2
Population P = P1 P2
Effectif n = n 1+ n2
Moyenne x
Variance V ?
1 k 1 k
V = n i Vi + n i x i -x
2
n i=1 n i=1
Variance globale = Moyenne des variances + Variance des moyennes
44
(3) PARAMETRES DE DISPERSION
PROPRIETES GENERALES
z=ax+b
y=ax
xi y i = a xi + b
xi
z i = xi + y i
yi
z= x+ y V(z) V(x)+ V(y)
46
48
49
50
51
53
(4) PARAMETRES DE FORME
54
55
56
57
ETUDE DE 2 VARIABLES
QUANTITATIVES
58
ETUDE DE 2 VARIABLES QUANTITATIVES
(1) MESURE DE LA LIAISON ENTRE 2
VARIABLES QUANTITATIVES
95
90
Poids
Nom Taille xi (cm) Poids yi (kg)
85
Pierre 175 73
Arantxa 168 56 80
Martin 185 87 70
65
60
55
Taille
50
150 160 170 180 190 200
59
ETUDE DE 2 VARIABLES QUANTITATIVES
(2) MESURE DE LA LIAISON ENTRE 2
VARIABLES QUANTITATIVES
1 n
Covariance : Cov x,y = x i -x y i -y
n i=1
Propriétés :
cov(x,y)
Corrélation linéaire: ρ =
σ(x) σ(y)
Propriétés :
1 ρ 1
ρ = 1 si a > 0
y=ax+b
ρ = -1 si a < 0
ρ 1 Il existe une relation fonctionnelle entre x et y
ρ0 x et y sont indépendantes
0 ρ 1 Il existe une dépendance linéaire d’autant plus forte que |r| est grand
62
ETUDE DE 2 VARIABLES QUANTITATIVES
90
y = Poids
85
80
75
70
65
60
55
x = Taille
50
150 160 170 180 190 200
Si une telle fonction existe, on dit que f est un modèle du phénomène étudié.
63
ETUDE DE 2 VARIABLES QUANTITATIVES
90
y = Poids
85
80
75
70
65
60
55
x = Taille
50
150 160 170 180 190 200
64
ETUDE DE 2 VARIABLES QUANTITATIVES
« au mieux »
n n
Minimiser S = e 2
i
Minimiser S' = e'
i=1
2
i
i=1
95 95
90
y = Poids 90
y = Poids
85 85
80 80
e'i
75 ei 75
70 70
65 65
60 60
55 55
x = Taille x = Taille
50 50
150 160 170 180 190 200 150 160 170 180 190 200
65
ETUDE DE 2 VARIABLES QUANTITATIVES
90
y = Poids
85
f(x) = y = ax+b
Droite de régression y80i
75
linéaire de y en x
y = f(x) = ax + b axi+b70 ei = |yi-axi-b|
65
60
55
x = Taille
50
150 160 170 180 190 200
xi
n n
e y -ax -b
2 2
La droite de régression linéaire de y en x, notée Dy/x , minimise S = i = i i
i=1 i=1
n
x -x y -y
i i
Cov x,y
a= i=1
= b = y - ax
n
x i -x
2 V(x)
i=1
Dy/x passe par le point moyen x , y
66
ETUDE DE 2 VARIABLES QUANTITATIVES
90
y = Poids
85
f(x) = y = ax+b
Droite de régression y80i
75
linéaire de y en x
y = f(x) = ax + b axi+b70 ei = |yi-axi-b|
65
60
55
x = Taille
50
150 160 170 180 190 200
xi
y = a x + b définit un modèle affine
67
ETUDE DE 2 VARIABLES QUANTITATIVES
70
x = f(y) = a’y + b’ 65
60
55
x = Taille
50
xi a’yi+b’
150 160 170 180 190 200
n n
x i -a'yi -b'
2 2
La droite de régression linéaire de x en y, notée Dx/y , minimise S' = e' =
i
i=1 i=1
n
x -x y -y
i i
Cov x,y
a' = i=1
n
= b' = x - a' y
y -y
2 V(y)
i=1
i
Dx/y passe par le point moyen x , y
68
ETUDE DE 2 VARIABLES QUANTITATIVES
LIENS ENTRE CORRELATION
ET DROITES DE REGRESSION
Cov x,y
Dy/x : y = ax + b a= b = y - ax
σ(x) σ(y)
V(x) r² = a a’ ρ=a = a'
σ(y) σ(x)
Cov x,y
Dx/y : x = a’y + b’ a' = b' = x - a' y
1 b' V(y)
y= x
a' a'
x, y x, y
x, y
r² = a a’ = 0 0 r² = a a’ < 1 r² = a a’ = 1
Le degré de dépendance linéaire
Indépendance linéaire se mesure à la proximité des Liaison fonctionnelle linéaire
droites de régression 69
ETUDE DE 2 VARIABLES QUANTITATIVES
25,0
xi yi
2,8 0,8 20,0
4,3 1,2 droite de régression linéaire
2,7 1,5 15,0 de y en x
4,2 1,9
4,1 2,3 10,0
…. ….
4,0 3,1 5,0
0,0
0 10 20 30 40 50 60
2
Analyse des résidus
1
0
Les résidus devraient se répartir
-1
0 10 20 30 40 50 60 au hasard autour de l’axe des
-2
abscisses:
-3 le modèle affine ne convient pas
70
ETUDE DE 2 VARIABLES QUANTITATIVES
20,0
Modèle exponentiel
y = ex exponentielle de base e
15,0
10,0
y = ax exponentielle de base a
Y=AX + B avec Y = ln y
X=x
A = ln a
L’ajustement affine de Y en fonction de X donne A et B, B = ln b
d ’où a = e A , b = e B , et le modèle y = b a x
71
ETUDE DE 2 VARIABLES QUANTITATIVES
20,00
Série initiale (xi,yi)
15,00 Série prévue par le modèle x i ,yˆ i
10,00
5,00
0,00
0 10 20 30 40 50 60
1,50
1,00
0,50
-0,50
900
800
700
600
500 Droite de régression linéaire de y en x
400
300
200
100
0
0 20 40 60
150
100
50
0
0 10 20 30 40 50 60
Analyse des résidus
-50
Le modèle affine ne
-100
convient pas
-150
73
ETUDE DE 2 VARIABLES QUANTITATIVES
74
ETUDE DE 2 VARIABLES QUANTITATIVES
80
60
40
20
-40
Le modèle puissance est mieux
-60
adapté que le modèle affine
-80 75
ETUDE DE 2 VARIABLES QUANTITATIVES
y -y yˆ -y y -yˆ
2 2 2
On montre que i i i i
SCM SCR
SCT = SCM + SCR 1
SCT SCT
Somme des carrés des Somme des carrés des Somme des
= +
écarts à la moyenne écarts du modèle carrés des résidus
L’ajustement est d’autant meilleur que SCR est proche de 0, c.à.d. que SCR/SCT est
proche de 0 ou SCM/SCT est proche de 1.
SCM
R = Coefficient de détermination = r² = (coef. de corrélation)²
SCT
0 R 1
76
ETUDE DE 2 VARIABLES QUALITATIVES
77
78
79
80
Paramètre de liaison
81
Effectifs observés :
H F Total
V 442 514 956
A 38 6 44
Total 480 520 1000
Effectifs théoriques :
H F Total
V 458,880 497,120 956,000
A 21,120 22,880 44,000
Total 480 520 1000
Khi² (Valeur
observée) 27,139
Khi² (Valeur
critique) 3,841
DDL 1
p-value < 0,0001
alpha 0,05
Interprétation du test :
H0 : Les lignes et les colonnes du tableau sont indépendantes.
Ha : Il existe un lien entre les lignes et les colonnes du tableau.
Etant donné que la p-value calculée est inférieure au niveau de signification alpha=0,05, on doit rejeter l'hypothèse
nulle H0, et retenir l'hypothèse alternative Ha.
82