Académique Documents
Professionnel Documents
Culture Documents
Statistique Descriptive PDF
Statistique Descriptive PDF
Introduction la
Statistique Descriptive
DAKHMOUCHE Meghlaoui
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4
4
5
5
6
6
6
7
8
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
9
9
11
11
12
13
13
18
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . .
. . .
din. . .
. . .
. . .
. . .
. . .
26
. 27
. 27
.
.
.
.
.
28
30
33
34
35
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
35
36
36
38
40
42
42
43
44
45
46
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
48
48
48
49
51
52
52
53
53
56
60
60
61
62
63
65
65
67
68
68
70
71
72
73
73
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
73
75
75
76
77
78
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
83
83
85
85
86
87
87
88
90
91
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
INTRODUCTION
Dun point de vue pdagogique, il nous apparat ncessaire de distinguer
trois tapes naturelles pour lenseignement des probabilits et des statistiques : la statistique descriptive, le calcul des probabilits lmentaires et
thoriques, et la statistique thorique ou infrencielle. La statistique descriptive vise rsumer quantitativement et graphiquement linformation recueillie sur un ensemble concret au moyen dune investigation exhaustive.
Son but nest pas dexpliquer mais de dcrire et de dgager lessentiel de linformation vhicule par les donnes. Elle synthtise numriquement et graphiquement cette information. Le calcul de probabilit, quant lui, a pour
objet ltude des phnomnes alatoires. Il est fond sur une axiomatique approprie et se dveloppe suivant une logique mathmatique trangre toute
proccupation concrte immdiate. Enn, la statistique thorique se rapporte
ltude de linduction statistique, cest dire lanalyse de linformation obtenue partir dun mcanisme alatoire. Tandis que la statistique descriptive
"constate" laide dune analyse exhaustive, en gnral coteuse et parfois
impossible entreprendre, la statistique mathmatique vise cerner les caractristiques de la population mre sur la base de ltude dchantillons
alatoires. Le dveloppement historique de la connaissance dans ce domaine
a plus ou moins respect ces trois tapes. Souvent, on introduit la notion
de probabilit comme une frquence relative avant mme la dnition de la
notion lmentaire de frquence. Les lments du langage des probabilits
tels que, ensemble fondamental, vnement, probabilit, sont des gnralisations naturelles des notions de population, caractre, frquence. De mme,
la variable alatoire est un prolongement naturel de la variable statistique.
Comme le cheminement de la pense va de lobservation des faits vers leur
idalisation abstraite, la statistique descriptive apparat, par les problmes
quelle pose et les limites de ses possibilits, comme une introduction heuristique pour aborder le calcul des probabilits.
La statistique descriptive est, comme son nom lindique, une mthode descriptive base sur les observations recueillies propos de ltude de certains
phnomnes dordre conomique, sociologique ou exprimental. Lanalyse des
donnes se fait essentiellement dans deux directions principales. La premire,
dessence gomtrique, consiste les classer et les disposer de la manire la
plus explicite possible, sous forme de tableaux, de graphiques ou de courbes.
4
Chapitre 1
Notions fondamentales de la
statistique descriptive
La statistique est une mthode danalyse des ensembles comportant un
grand nombre dlments. Cest une science qui permet de traiter et danalyser les rsultats des mesures eectues sur les individus dune population
relativement un certain nombre de caractres. Les rsultats des mesures
sont, en gnral, appels observations. Pour extraire linformation contenue
dans ces observations il est ncessaire dutiliser un certain nombre doprations logiques qui caractrisent les mthodes statistiques. Les lments soumis
lanalyse doivent appartenir un ensemble homogne et tre dlimits avec
prcision. Par la suite, ces lments sont ordonns et classs relativement
leurs mesures.
Pour tre e cace, les mthodes statistiques doivent formaliser simplement le problme pos en utilisant des concepts mathmatiques abstraits.
Par exemple, tous les lments classs dans le mme sous-groupe sont considrs comme quivalents.
1.1
Les observations constituent la source principale de linformation statistique. Le statisticien doit dnir avec prcision lensemble tudi et les
critres qui permettent sa description chire. De ses origines historiques,
la statistique a conserv en partie la terminologie de la dmographie. On y
6
1.1.1
Population - Individu
Denition 1 On appelle population lensemble des units statistiques ou individus tudis par le statisticien.
Remarque 2 Chaque observation porte sur un individu. On emploiera les
termes de population et dindividu aussi bien lorsquil sagit dun ensemble
dtres humains (population algrienne la date du recensement, lves dun
tablissement scolaire, etc) ou dun ensemble dobjets inanims (production
de pices dune usine, stocks de marchandises, etc) ou mme dun ensemble
plus ou moins abstrait (ensemble des accidents de la route survenus au cours
dun mois de lanne, ensemble des jours ouvrables de lanne, etc). Les individus dune population peuvent donc tre, selon les cas, des tres humains,
des objets ou des vnements.
1.1.2
Caractre - Modalit
1.1.3
Tableau statistique
1.2
1.2.1
Caractre qualitatif
1.2.2
Caractre quantitatif
0 1 2 3 4 5 6
24 57 75 53 33 7 4
1.2.3
Notion de classe
10
Chapitre 2
Les distributions statistiques
une dimension
Aprs la dnition du caractre tudier sur la population, les observations obtenues sont ordonnes et forment ainsi une distribution statistique.
Les distributions les plus simples sont naturellement celles relatives un seul
caractre. Elles sont gnralement prsentes sous forme de tableaux statistiques simple entre. Linformation synthtise dans un tableau statistique
nest pas souvent facile obtenir par simple lecture. Alors la reprsentation
de cette distribution statistique sous forme de diagramme rend plus simple
laccs cette information. Selon que le caractre tudi soit qualitatif ou
quantitatif, et suivant quil soit de nature discrte ou continue, on est amen
utiliser des reprsentations graphiques de dirents types.
2.1
Consquence
La somme des eectifs ni est gale leectif total n de la population ,
i.e.
n = n1 + n2 + ::: + nk =
k
X
ni
i=1
Alors, il en rsulte que la somme des frquences relatives fi est gale 1 , i.e.
k
X
i=1
fi =
k
X
ni
i=1
1X
ni = 1
n i=1
k
12
Un tableau statistique dcrivant une population P relativement un caractre C, sera prsent sous la forme gnrale suivante :
Modalits du caract. C
M1
M2
:::
Mi
:::
Mk
2.2
Eectifs ni
n1
n2
:::
ni
:::
nk
La prsentation dun tableau statistique concernant un caractre qualitatif suit les rgles gnrales. Une premire synthse de linformation contenue
dans un tableau statistique est fournie par un graphique. Le principe de la
reprsentation graphique des caractres qualitatifs est la proportionnalit des
surfaces reprsentatives aux eectifs (ou aux frquences) reprsents. Il existe
deux types de reprsentations frquemment utilises.
2.2.1
13
2.2.2
Dans cette reprsentation les aires et par consquent les angles au centre
sont proportionnels aux eectifs (ou aux frquences) des direntes modalits. En eet,
ni
= 360 fi
i = 360
n
Example 25 Mieux que les tuyaux dorgue, ce mode de guration permet de
visualiser limportance relative de chaque modalit dans lensemble de la population. Pour des comparaisons dans lespace, la reprsentation par secteur
permet de mieux faire apparatre les dirences entre les classes dindividus
en valeurs absolues et en valeurs relatives.
Example 26 Reprenons lexemple 5 et a chons la reprsentation par secteur de la distribution des trangers en France.
14
2.3
2.3.1
Tableau statistique
Les direntes modalits sont constitues par les valeurs possibles xi de la
variable statistique x. En face de chacune de ces valeurs on inscrit leectif ni
correspondant. Pour permettre les comparaisons entre populations deectifs
dirents, le tableau est complt par lindication de la frquence relative fi
correspondant chaque valeur xi .
Denition 27 La frquence cumule croissante, note Fi , est la somme des
frquences correspondantes aux valeurs de la variable statistique infrieures
ou gales xi , i.e.
Fi = f1 + f2 + ::: + fi =
i
X
h=1
15
fh
La distribution statistique dune variable quantitative discrte est en gnral prsente dans un tableau statistique tel que :
M odalites
x1
x2
:::
xi
:::
xk
T otal
i
X
nh
h=1
Proposition 30 La frquence cumule croissante et leectif cumul croissant sont lis par la relation :
Fi =
Ni
n
Dmonstration : En eet,
i
X
Ni X n h X
=
=
Ni =
nh =)
fh = Fi
n
n
h=1
h=1
h=1
i
Nk = n k ; N k
= nk + nk
; ::: ; Ni = nk + nk
+ ::: + ni
Ni = nombre de valeurs de x
xi
Il est clair que lon peut dnir les frquences cumules dcroissantes,
notes Gi , telles que :
0
Gi =
Ni
nk + nk 1 + ::: + ni
=
= fk + fk
n
n
+ ::: + fi
Example 33 Considrons la distribution des jours douverture dun magasin suivant le nombre de ventes dun certain appareil A.
Nombre de ventes xi
0
1
2
3
4
5
6
7
Totaux
nombre de jours
fi
Ni
Fi
24
0; 096 24 0; 096
57
0; 228 81 0; 324
75
0; 300 156 0; 624
53
0; 212 209 0; 836
33
0; 132 242 0; 968
4
0; 016 246 0; 984
3
0; 012 249 0; 996
1
0; 004 250 1; 00
250
1
17
Courbe cumulative
Denition 36 La courbe cumulative est la reprsentation graphique des effectifs cumuls ou des frquences cumules. Cest un graphique en escalier
dont les paliers horizontaux ont pour ordonnes respectivement Fi ou Ni . Les
marches de lescalier correspondent aux valeurs possibles xi de la variable
statistique x et sont des hauteurs proportionnelles aux eectifs cumuls ou
aux frquences cumules.
18
19
2.3.2
Variable continue
Tableau statistique
Dans le cas dun caractre quantitatif continu x, ltablissement du tableau de frquences implique deectuer au pralable une rpartition en
classes des donnes. Cela ncessite de dnir le nombre de classes attendu
et donc lamplitude associe chaque classe ou intervalle de classe. En rgle
gnrale, on choisit des classes de mme amplitude. Pour que la distribution
des frquences ait un sens, il faut que chaque classe comprenne un nombre
(ni ) su sant de valeurs. Diverses formules empiriques permettent dtablir
le nombre de classes pour un chantillon de taille n. Les plus frquemment
utilises sont :
La rgle de Sturge : N ombre de classes = 1 +p(3; 3 ln n)
La rgle de Yule : N ombre de classes = 2; 54 4 n
Lamplitude a des classes est obtenue de la manire suivante :
a=
xmax xmin
N ombre de classes
20
x < ei
T otal
ni
n1
n2
n3
:::
ni
:::
nk
k
X
ni = n
i=1
fi
f1
f2
f3
:::
fi
:::
fk
k
X
Ni
N1
N2
N3
:::
Ni
:::
Nk = n
Fi
F1
F2
F3
:::
Fi
:::
Fk = 1
fi = 1
i=1
Histogramme
Denition 41 Lhistogramme est la reprsentation graphique de la distribution des eectifs ou des frquences dune variable statistique continue. A
chaque classe de valeurs de la variable statistique porte en abscisse, on fait
correspondre un rectangle bas sur cette classe. Alors chaque modalit est reprsente par un rectangle dont laire (et non la hauteur) est proportionnelle
la frquence ou leectif de cette classe.
21
ei ei
ai
=
u
u
fi
Ai
= fi
Example 43 Considrons la rpartition des ouvriers dune entreprise suivant leur salaire mensuel net :
Classe de Salaire(DA) ni
12000 x < 14000
26
14000 x < 16000
33
16000 x < 20000
64
20000 x < 24000
7
24000 x < 30000
10
T otal
140
fi
Ni
Fi
0; 186 26 0; 186
0; 235 59 0; 421
0; 458 123 0; 879
0; 050 130 0; 929
0; 071 140 1; 000
1; 000
22
23
Au moment de ltude des lois de probabilit on comprendra mieux la signication de cette courbe des frquences. Elle reprsente une approximation
(ou estimation) de la distribution de probabilit thorique de la population
relativement au caractre tudi.
Courbe cumulative
Denition 47 Comme pour les variables discrtes, la coube cumulative ou
histogramme des frquences cumules, est la reprsentation graphique de la
fonction cumulative ou fonction de rpartition F (x).
Les observations tant regroupes en classes, on ne connait de cette fonction que les valeurs correspondant aux extrmits suprieures des classes,
i.e.
F (ei ) = Fi
i = 1; 2; :::; k
Elle est estime par le polygne des frquences cumules qui est la ligne brise
joignant les milieux des cots suprieurs des rectangles de lhistogramme des
frquences cumules.
24
Conclusion 50 La notion de courbe des frquences (resp. la courbe des frquences cumules) dcoule de lide suivante : si les amplitudes des classes
diminuent et si le nombre des observations est su samment grand pour viter les irrgularits dues la faiblesse des eectifs, alors lhistogramme des
25
x < 145 [145; 148[ [148; 151[ [151; 154[ [154; 157[ [157; 160[ [160; 163[
2
4
14
41
83
169
394
2
6
20
61
144
313
707
[163; 166[ [166; 169[ [169; 172[ [172; 175[ [175; 178[ [178; 181[ [181; 184[
669
990
1223
1329
1230
1063
640
1376
2366
3589
4918
6148
7211
7851
[184; 187[ [187; 190[ [190; 193[ [193; 196[ [196; 199[ [199; 202[ 202 x
392
202
84
33
16
5
2
8243
8445
8529
8562
8578
8583
8585
En traant la courbe des frquences de cette distribution statistique, on
peut remarquer que lallure de cette courbe a une forme qui se raproche trs
nettement de celle dune courbe normale. De mme, si on trace la courbe
des frquences cumules de cette distribution, on remarque que son allure est
trs voisine de celle de la fonction de rpartition dune loi normale.
.
26
27
Chapitre 3
Caractristiques de tendance
centrale
La reprsentation graphique des distributions statistiques a permis une
premire synthse de linformation contenue dans les tableaux statistiques.
On peut comparer les direntes sries statistiques par simple comparaison
de leurs reprsentations graphiques. Cette comparaison reste toutefois incommode et devient quasi-impossible si elle doit porter sur un grand nombre
de distributions statistiques. Il est inconcevable de classer 1500 candidats
un concours de grandes coles au vu de la reprsentation graphique des 1500
sries de 25 notes obtenues aux diverses preuves par chaque candidat. Il
est videmment plus commode de calculer une note moyenne pour chacun
des candidats et ensuite faire un classement. La tendance centrale caractrise
lordre de grandeur de la variable statistique. Quant la notion de dispersion,
elle mesure la uctuation des observations autour de cette tendance centrale.
Le statisticien Yule a prcis les proprits souhaitables que doit satisfaire
une caractristique de tendance centrale ou de dispersion : elle doit tre dnie de faon objective ; elle doit dpendre de toutes les observations ; elle doit
avoir une signication concrte ; elle ne doit pas tre sensible aux uctuations
dchantillonnage ; elle doit tre simple calculer et doit se prter aisment
au calcul algbrique.
Trois caractristiques de tendance centrale sont couremment utilises : le
mode, la mdiane et la moyenne arithmtique. Dans certains cas,usage dautres
caractristiques de tendance centrale telles que la moyenne gomtrique ou la
moyenne harmonique, simpose. Mais la caractristique de tendance centrale
la plus couramment utilise est la moyenne arithmtique.
28
3.1
3.1.1
prcise, conduit une bonne estimation du mode dans le cas o les classes
sont dgale amplitude.
3.1.2
Considrons une srie statistique continue regroupe en classes damplitudes ingales. Le mode est alors dtermin lintrieure de la classe modale
(correspondant la frquence ou leectif le plus grand). On peut identier
le mode comme la valeur mdiane de la classe modale ou bien eectuer une
interpolation linaire pour obtenir la valeur exacte du mode comme suit :
Mo = ei
ai (ni ni 1 )
(ni ni+1 ) (ni ni 1 )
o
ei 1 est la limite infrieure de la classe modale
30
(3.1)
= ni
ni
et
= ni
ni+1
ai
= 41, ai = 40,
1920
40 48
= 41 +
= 57; 55 hectares
48 + 68
116
m
= 98
50 = 48 et
= 98
30 = 68
Proprits
Les principaux avantages du mode font quil est facile dterminer et
quil a une signication immdiate. Par contre sa dtermination nest pas
assez prcise dans le cas continu. Elle dpend en partie du dcoupage en
classes. Ainsi, il est sensible aux uctuations dchantillonnage et se prte
trs mal au calcul algbrique.
3.1.3
La mdiane
1
2
Dtermination pratique
Cas dune variable discrte
Dans une srie statistique compose de 2k + 1 observations et dispose
par ordre croissant ou dcroissant, la valeur de la (k + 1)ieme observation
correspond la mdiane.
Example 58 Considrons une srie statistique compose de 9 mesures :
18; 17; 13; 9; 8; 24; 19; 23; 28. Alors, la srie dispose par ordre croissant donne :
8; 9; 13; 17; 18; 19; 23; 24; 28. Donc la mdiane est Me = 18.
Dans le cas dune srie statistique comportant 2k observations, il ny a
pas proprement parler de mdiane. Ainsi, on introduit la notion dintervalle
mdian dont les extrmits correspondent aux valeurs de la k ieme et de la
(k + 1)ieme observations.
32
Example 59 Supposons que la srie statistique soit : 8; 9; 13; 15; 17; 18; 19; 23; 24; 28.
On convient de retenir pour valeur mdiane la valeur Me telle que :
F (xi ) <
1
< F (xi+ )
2
<
1
< f1 + f2 + ::: + fi
2
0
1
2
3
4
5
6
24
81
156
205
240
248
250
0; 096 0; 324 0; 624 0; 820 0; 960 0; 992 1; 00
A00 C 00
A00 B 00
et par suite
A00 C 00
A00 B 00
En remplaant ces quantits par leurs mesures algbriques, on obtient :
OM = OA0 + A0 B 0
OM = ei
+ ai
n
2
nF (ei 1 )
nF (ei ) nF (ei 1 )
Do
Me = ei
+ ai
n
2
Ni
ni
3.1.4
La mdiale
35
ni
25
30
28
25
10
118
Fi
Somme des salaires
0,212
21250
0,466
28500
0,703
29400
0,915
32500
1
17500
129150
Alors, la mdiale est dterminer par interpolation dans la classe [1000; 1100[,
i.e.
0; 5 0; 385
M ediale = 1000 + (1100 1000)
= 1050; 4 euros
0; 613 0; 385
Par comparaison, la mdiane est dtermine par interpolation telle que :
M ediale = 1000 + (1100
1000)
0; 5 0; 466
= 1014; 3 euros
0; 703 0; 466
3.2
La moyenne arithmtique
3.2.1
3.2.2
8300 + 3
9600 + 2
8
10800 + 12500
= 9937; 50 D:A
k
X
ni
i=1
xi x =
k
X
fi xi
i=1
3.3
3.3.1
Alors,
1 X
557
x=
ni xi =
253 i=1
253
k
2; 20
x0 , on obtient
x0
ni x0
i = 1; 2; :::; k
(3.3)
ni x0i
k
X
ni xi
i=1
k
X
ni x0
i=1
P
Comme ki=1 ni = n, alors en divisant par n les deux membres de lgalit
ci-dessus, il vient :
k
k
1X
1X
0
ni xi =
ni xi x0
n i=1
n i=1
Do
x0 = x
x0
Example 76 Reprenons lexemple 84 ci-dessus et prenons pour nouvelle origine x0 = 2. La variable auxiliaire est alors dnie par :
x"i = xi
3.3.2
1
n
Pk
i=1
ni
24
57
75
53
33
7
4
Pk
i=1 ni = 253
ni x0i =
51
253
0; 20.
x0i
2
1
0
1
2
3
4
ni x0i
48
57
0
53
66
21
16
Pk
0
i=1 ni xi = 51
x = x0 + 2 = 2; 20
La distribution dune variable statistique continue est prsente, en gnral, sous forme de classes. La formule de dnition de la moyenne ne peut
tre applique directement car on ne connait pas les valeurs exactes prises
par la variable statistique, mais seulement le nombre dobservations lintrieur de chaque classe. On supposera alors que les observations sont rparties
uniformment dans chaque classe. Cest dire nimporte quelle valeur lintrieur de la classe peut reprsenter cette dernire. Par convention et sans
trop de perte dinformation, on prendra le centre de la classe comme reprsentant. Cette convention implique un biais systmatique dans le calcul de
la moyenne. Le centre de la classe n i sera not en gnral Xi , et il est donn
par la relation suivante :
ei + ei 1
Xi =
2
o ei et ei 1 dsignent respectivement la borne suprieure et la borne infrieure de la classe n i.
40
Xi
18000
1000
1 X
=
ni Xi0 =
148 i=1
5
X0
Et par consquent
Xi
13000
15000
18000
22000
27000
Xi0
2
1
0
1
2
58
140
X = 1000X 0 + 18000
ni Xi0
52
33
0
7
20
Pk
0
i=1 ni xi =
58
0; 414
17586 D:A
Dune faon gnrale, le choix dune nouvelle origine XMo et dune nouvelle chelle de mesure u va permettre de rduire le volume des calculs.
On dnit une variable auxiliaire Xi0 par la transformation linaire :
Xi0 =
Xi
XMo
u
(3.4)
3.3.3
En eet
k
X
ni (xi
x) =
i=1
k
X
ni xi
i=1
k
X
ni = nx
nx = 0
i=1
La somme des carrs des carts des observations la moyenne est infrieure la somme des carrs des carts par rapport toute autre valeur.
En eet, soit :
k
X
S(b) =
ni (xi b)2
i=1
Do
k
X
ni xi
i=1
Et par consquent
k
X
ni (xi
i=1
k
X
ni = nb
i=1
1X
ni xi = x
b=
n i=1
k
42
b) = 0
k
1 X
n1i xi
n1 i=1
et x2 =
k
1 X
n2i xi
n2 i=1
k
k
n1
1 X
n2
1 X
=
n1i xi +
n2i xi
n1 + n2 n1 i=1
n1 + n2 n2 i=1
Do
1
(n1 x1 + n2 x2 )
n
Donc la moyenne de la population totale apparait comme la moyenne
pondre des moyennes des sous populations.
Plus gnralement, pour h populations on a :
x=
1X
x=
ni xi
n i=1
h
43
3.4
3.4.1
Moyenne gomtrique
ln G =
(3.6)
Example 80 Considrons une srie de neuf nombres : 18; 17; 13; 9; 8; 24; 19; 23; 28.
Leur moyenne gomtrique est alors :
G = (18
17
13
24
19
23
28) 9 = 16; 36
1
ln (18
9
17
13
8
44
24
19
23
28) = 2; 795
Alors
eln G = e2;795 = 16; 36
Denition 81 Soit x une variable statistique pouvant prendre les k valeurs
x1 ; x2 ; :::; xn . On dispose dune srie statistique de taille n comportant n1
fois x1 , n2 fois x2 ,..., nk fois xk . Alors la moyenne gomtrique pondre est
donne par lexpression :
! n1
k
Y
(3.7)
G=
xni i
i=1
(3.8)
o fi =
3.4.2
ni
n
i=1
et y1 ; y2 ; :::; yn
n
Y
i=1
zi
! n1
n
Y
i=1
xi yi
! n1
n
Y
i=1
xi
! n1
n
Y
i=1
yi
! n1
= G(x)G(y)
G (q) =
n
Y
qi
i=1
! n1
xi
yi
n
Y
xi
yi
i=1
! n1
n
Y
xi
! n1
G (x)
1 =
!
G (y)
n
n
Y
yi
i=1
i=1
3.4.3
x
y
Moyenne harmonique
1
x1
n
n
Pn
1 =
+ + ::: xn
i=1
1
x2
1
xi
9
1
18
1
17
1
13
1
9
1
8
+ + +
1
24
1
19
1
23
1
28
= 14; 97
1
1
1
1
+
+
+
5400 5500 5800 6400
4S
=
q1 + q2 + q3 + q4
1
5400
46
1
5500
4
+
1
5800
1
6400
= 5750; 6
Denition 86 Considrons une variable statistique pouvant prendre les valeurs x1 ; x2 ; :::; xk . Et supposons que lon a obtenu n ralisations
de cette
P
variable avec les eectifs respectifs n1 ; n2 ; :::; nk tels que ki=1 ni = n. Alors
la moyenne harmonique pondre est donne par lexpression suivante :
n
n
H = n1 n2
nk = Pk
ni
+ x2 + ::: xn
x1
i=1 x
i
5
2
3
+
+
40 60 70
3.4.4
47
(3.9)
n
=) H = Pk
ni
i=1 xi
3.4.5
48
Example 90 Pour la srie des nombres 18; 17; 13; 9; 8; 24; 19; 23 et 28, les
dirents types de moyennes sont telles que :
H = 14; 97
G = 16; 36
x = 17; 66
49
M Q = 18; 78
Chapitre 4
Les caractristiques de
dispersion
Les caractristiques de dispersion les plus frquemment utilises sont
ltendue, lintervalle interquartile, lcart absolu moyen, la variance et lcarttype. Ces deux dernires caractristiques sont les plus couramment utilises.
Le calcul de lindice de concentration peut tre recommand dans certains
cas. Ltendue et lintervalle interquartile sont, dans leur principe, du type
de la mdiane. Les observations y interviennent par leurs rangs et non par
leurs valeurs. Lcart absolu moyen et lcart-type, au contraire, font intervenir lcart la moyenne arithmtique de chacune des observations. Ceux
sont des moyennes dcart la moyenne. Lindice de concentration repose,
quant lui, sur un principe tout fait dirent.
4.1
4.1.1
Denition 91 Ltendue dune distribution statistique, note w, est la diffrence entre la plus grande et la plus petite des valeurs observes, i.e.
w = x(n)
o x(n) = max (xi ) et x(1) = min (xi ).
i
50
x(1)
Proprits
La signication de ltendue est vidente et son calcul est immdiat.
Mais cette caractristique prsente des inconvnients. Elle ne dpend que
des termes extrmes de la srie et elle est donc trs sensibles aux uctuations dchantillonnage. La forme de la distribution entre les extrmes nest
pas prise en compte. Donc, ltendue est une caractristique de dispersion
imparfaite.
4.1.2
Q1
51
formule de dtermination des quartiles est la mme que celle utilise pour la
dtermination de la mdiane Me = Q2 . En eet,
Qh = eh
1 + ah
hn
4
Nh
nh
Proprits
Les avantages de lintervalle interquartile sont la rapidit de son calcul et
sa signication immdiate. Sa dtermination nest pas prcise et il se prte
mal au calcul algbrique.
Diagramme en bote (ou bote moustaches) Il sagit dun diagramme permettant de positionner les quartiles Q1 , Q2 , Q3 , au moyen de
rectangles de largeur arbitraire, prolongs par des "moustaches" de part et
dautre, de longueur au plus gale une fois et demie Q3 Q1 .
Ces diagrammes sont surtout utiles pour comparer rapidement lallure gnrale de plusieurs distributions.
52
4.1.3
Les dciles
Pour obtenir les quartiles on a divis en quatre parties gales leectif de la
srie statistique pralablement ordonne par ordre croissant. Les dciles, au
nombre de 9, sparent leectif de la population tudie en 10 parties gales.
1
des observations lui est infrieur et dune
Le premier dcile D1 est tel que 10
1
faon gnrale 10 des observations est compris entre deux dciles successifs
et on a :
F (D1 ) = 0; 1 ; F (D2 ) = 0; 2 ; F (D3 ) = 0; 3 ; :::; F (D9 ) = 0; 9
Remarque 95 Les dciles sont dtermins de la mme manire que les quartiles. La formule de dtermination des dciles est la mme que celle utilise
pour la dtermination de la mdiane Me = Q2 . En eet,
Qh = eh
+ ah
hn
10
Nh
nh
Les percentiles
Pour des sries comportant su samment dobservations on peut dnir les
percentiles tels que 1% des observations est compris entre deux percentiles
successifs, i.e.
F (P1 ) = 0; 01 ; F (P2 ) = 0; 02 ; :::; F (P99 ) = 0; 99
Les quantiles
Plus gnralement, on peut dnir les quantiles.
Denition 96 Le quantile dordre (0
1), not q , est la solution de
lquation F (x) = . Ainsi, en dsignant par F 1 la fonction inverse de la
fonction F on a alors :
q = F 1( )
53
4.1.4
xj
Proprits
Lcart absolu moyen satisfait assez bien aux premires conditions de
Yule. Mais il se prte trs mal au calcul algbrique. Lcart absolu moyen est
minimum lorsquon prend les carts par rapport la mdiane.
4.1.5
La variance et lcart-type
Lcart-type sera dni partir des carrs des carts des observations
leur moyenne arithmtique. On dterminera de cette faon une sorte de distance moyenne des observations la moyenne arithmtique. Cette distance,
au sens mathmatique du terme, servira comme mesure de dispersion de la
variable statistique autour de sa caractristique de tendance centrale.
Denition 99 Considrons une variable statistique x pouvant prendre k valeurs
Pk x1 ; x2 ; :::; xk auxquelles correspondent les eectifs n1 ; n2 ; :::; nk tels que
i=1 ni = n. Alors la variance de la variable statistique x , note V ar(x)
ou bien 2x , est la moyenne arithmtique des carrs des carts la moyenne
arithmtique :
k
1X
2
ni (xi x)2
V ar (x) = x =
n i=1
Denition 100 Lcart-type, not x , est gal la racine carre de la variance :
v
u k
u1 X
p
t
=
V
ar
(x)
=
ni (xi x)2
x
n i=1
54
Remarque 101 Lcart-type est appel parfois cart quadratique moyen (EQM ).
Example 102 Considrons la srie des salaires horaires de sept ouvriers
dune entreprise : 30; 45; 51; 62; 70; 78; 84 D.A. Alors
x = 60 D:A
Les carts la moyenne arithmtique (xi x) sont : 30; 15; 9; 2; 10; 18; 24.
Leurs carrs (xi x)2 sont : 900; 225; 81; 4; 100; 324; 576.
Do
p
p
2210
V ar (x) =
= 315; 71 et x = V ar (x) = 315; 71 = 17; 76 DA
7
4.2
Les calculs de la moyenne arithmtique et de lcart-type vont gnralement de pair. On conservera le tableau dj utilis dans le calcul de la
moyenne.
4.2.1
ni
ni xi
25
25
55
110
75
225
50
200
35
175
10
60
Pk
Pk
i=1 ni = 250
i=1 ni xi = 795
2
x
= 1; 78 et
xi x
2; 18
1; 18
0; 18
0; 82
1; 82
2; 82
ni (xi x)2
136; 81
76; 582
2; 43
33; 62
115; 934
79; 524
Pk
x)2 = 444; 9
i=1 ni (xi
1; 78 = 1; 335
Notons que mme pour une distribution statistique aussi simple que celle
tudie, le calcul de lcart-type est assez long et fastidieux
55
1X
ni x2i
=
n i=1
k
Do
1X
x) =
ni x2i
n i=1
k
2xxi + x2
k
k
2x X
x2 X
ni xi +
ni
n i=1
n i=1
1X
V ar (x) =
ni x2i
n i=1
k
x2
(4.1)
Alors , x = 3; 18 et V ar(x) =
Do
2
x
= 11; 82
p
1; 71 = 1; 31
Remarque 106 Le rsultat ainsi obtenu est plus prcis que celui obtenu par
la mthode prcdente, car lapproximation nintervient qu travers le terme
x. Il est encore possible de simplier les calculs en utilisant une translation
dorigine.
56
(4.2)
x0
(4.3)
x0
2
x
1X
x) =
ni x0i
n i=1
k
x0
x0
ni
25
55
75
50
35
10
Pk
i=1 ni = 250
x0i
2
1
0
1
2
3
ni x0i
ni x02
i
50
100
55
55
0
0
50
50
70
140
30
90
Pk
Pk
2
0
i=1 ni xi = 45
i=1 ni x = 435
Alors, x0 = 0; 18 do x = 0; 18 + 3 = 3; 18
Et
435
V ar (x") = 2x" =
(0; 18)2 = 1; 70
250
Do
x = x0 = 1; 3
57
4.2.2
Xi0
X0 =
Xi
XMo
u
XMo
Xi X
=
u
u
Do
2
X
= u2
58
2
X0
2
X,
=u
X0
Xi0
2
1
0
1
2
Xi
13000
15000
18000
22000
27000
ni Xi0
52
33
0
7
20
Pk
0
i=1 ni xi =
ni Xi02
104
33
0
7
40
58 184
= 103
X0
= 1069
Correction de Sheppard
Lorsque les observations sont regroupes par classe, lhypothse de la
concentration au centre de la classe des observations se situant dans le mme
intervalle (i.e. quand le centre de la classe est substitu aux direntes valeurs
observes) implique une approximation dans le calcul de lcart-type. Pour le
calcul de la moyenne arithmtique en gnral les erreurs se compensent, alors
que pour celui de lcart-type elles se rajoutent . Si la distribution statistique
est unimodale et support compact (i.e. si la courbe de la distribution est
tangente laxe des abscisses aux extrmits), alors on peut corriger la valeur
de lecart-type calule partir des observations regroupes en classe, avec la
formule propose par W.F. Sheppard :
r
u2
2
corrige =
X
12
o u reprsente le P GCD de lamplitude des classes.
59
Proprits de lcart-type
Lcart-type satisfait assez bien lensemble des conditions de Yule. Il
tient compte de toutes les observations. Il se prte facilement au calcul algbrique. Cest la caractristique de dispersion la moins sensible aux uctuations dchantillonnage.
Proprits de la variance
La variance dune population P compose de deux sous-populations P1
et P2 de moyennes respectives x1 et x2 , et de variances respectives 21 et 22 ,
peut sexprimer simplement en fonction de x1 , x2 , 21 et 22 . Supposons que
leectif de la population P soit n et que les eectifs des sous-populations
sont respectivement n1 et n2 tels que :
n = n1 + n2 et ni = n1i + n2i i = 1; 2; :::; k
Par dnition, la variance de la sous-population P1 a pour expression :
2
1
k
1 X
n1i (x1i
n1 i=1
x1 )2
k
1 X
n1i (x1i
=
n1 i=1
x)2
(x1
x)2
(4.6)
k
1 X
=
n2i (x2i
n2 i=1
x2 )2
k
1 X
n2i (x2i
n2 i=1
60
x)2
(x2
x)2
(4.7)
1X
=
n1i (xi
n i=1
k
n1
=
n
1X
x) =
(n1i + n2i ) (xi
n i=1
2
1X
x) +
n2i (xi x)2
n i=1
!
k
k
1 X
n2 1 X
2
n1i (x1i x) +
n2i (x2i
n1 i=1
n n2 i=1
k
x)2
n1
n
2
1
x)2 +
+ (x1
n2
n
2
2
x)2
+ (x2
x)2
Finalement
2
1
n1
n
2
1
2
2
+ n2
1
n1 (x1
n
x)2 + n2 (x2
x)2
(4.8)
h
X
ni et ni =
i=1
k
X
nij
j=1
1X
+
ni (xi
n i=1
h
2
i
x)2
2
intra
2
inter
4.3
4.3.1
et
62
= 2500 DA
x2 = 18000 DA
et
= 1400 DA
2500
1400
= 0; 1275 et CV2 =
= 0; 0778
19600
18000
Supposons que lon dsire comparer ces distributions avec celle observe
propos dune entreprise amricaine comparable, avec les caractristiques :
x = 2800 $ ;
CV =
4.3.2
= 450 $
450
= 0; 0143
2800
Courbe de concentration
Remarque 117 La courbe de concentration ou courbe de Lorenz est notamment utilise en conomie pour mesurer les ingalits de possession de
richesse (on supposera donc que x reprsente un certain bien possd par les
individus de la population). Elle est fabrique de la faon suivante. Soit xi
une valeur prise par x. On note F (x) la proportion de la population pour
laquelle x < xi (F est donc la courbe cumulative (fonction de rpartition)
de x). On note F Q(xi ) la proportion du bien possd par ces individus par
rapport au bien total. Alors la courbe de Lorenz est la courbe joignant tous
les points (F (xi ); F Q(xi )). La courbe de Lorenz joint donc toujours le point
(0; 0) au point (1; 1). Elle est situe sous le segment joignant ces deux points.
Denition 118 La diagonale du carr circonscrit la courbe de Lorenz sappelle droite dqui-rpartition.
Remarque 119 La diagonale principale du graphique (droite dquirpartition)
reprsente une distribution parfaitement galitaire. Plus la courbe de concentration scarte de la droite dquirpartition, plus la distribution est ingalitaire. Dautre part, plus la dispersion est faible plus la courbe de concentration
sapplatit sur la diagonale.
4.3.3
4.3.4
k
X
(Fi
Fi 1 ) (F Qi
+ F Qi )
i=1
Example 122 Reprenons lexemple de la rpartition des employs dune entreprise selon leur salaire mensuel net.
Salaires (euros)
[800; 900[
[900; 1000[
[1000; 1100[
[1100; 1500[
[1500;
P2000[
ni
25
30
28
25
10
118
Fi
0; 212
0; 466
0; 703
0; 915
1
F Qi Fi Fi
0; 164
0; 212
0; 385
0; 254
0; 613
0; 237
0; 865
0; 212
1
0; 085
65
F Qi 1 + F Qi
0; 164
0; 549
0; 998
1; 478
1; 865
(Fi
Fi 1 ) (F Qi 1 + F Qi )
0; 034768
0; 139446
0; 236526
0; 313336
0; 158525
0; 882601
0; 8826
66
0; 117
4.4
En plus des caractristiques de tendance centrale et de dispersion, il serait instructif de dnir des indices pour rsumer linformation vhicule par
les donnes, sur lallure et la forme de la distribution dune srie statistique.
Pour une distribution statistique symtrique la moyenne, le mode et la mdiane concident. Il est donc naturel de considrer la dviation de la moyenne
par rapport au mode ou bien par rapport la mdiane, comme mesure dasymtrie de la distribution statistique. K. Pearson a propos comme mesure de
lasymtrie une quantit fonction du mode. Mais cette quantit est sujette
linconvnient dterminer le mode. Cependant, pour une large classe de
distributions de frquences, la mesure dasymtrie peut tre dtermine exactement laide des quatre premiers moments de la distribution.
Denition 123 Soit x1 ; x2 ; :::; xn une distribution statistique dune variable
x. On appelle moment centr dordre r de la variable statistique x, not r ,
la quantit dnie telle que :
1X
(xi
n i=1
n
4.4.1
x)r
Une distribution statistique symtrique a tous ses moments centrs impairs nuls et a fortiori la moyenne 1 .
Denition 124 Soit 3 et 2 les moments centrs dordre respectifs 3 et
2 de la distribution statistiques. On appelle caractristique dasymtrie le
coe cient 1 dni tel que :
1
3
3
3
3
2
67
Distributions asymtriques
Distribution symtrique
Remarque 125 Le coe cient 1 est sans dimension, invariant par changement dorigine et dchelle. Il est nul pour les distributions symtriques.
On utilise galement comme indice dasymtrie le rapport :
d=
Q1 + Q3 2Me
2Me
4.4.2
et
Remarque 127 Le coe cient 2 est sans dimension. Il est invariant par
changement dorigine et dchelle. La constante 3 est choisie de telle sorte
que le coe cient 2 soit nul pour les distributions normales.
Le coe cient 2 est positif si la distribution est moins aplatie que la distribution normale et il est ngatif dans le cas contraire.
Les courbes pour lesquelles 2 = 0 sont dites msokurtiques, celles pour
lesquelles 2 > 0 sont dites leptokurtiques et celles pour lesquelles 2 < 0
sont dites platicurtiques.
2
Du fait de lingalit 4
2 , le coe cient daplatissement est toujours suprieur 2.
69
Chapitre 5
Distributions statistiques
deux dimensions
Pour ltude de certains phnomnes complexes, il savre insu sant de
prendre en compte un seul caractre. Alors il en faut considrer deux caractres ou plus. Lanalyse et la reprsentation des tableaux statistiques obtenus deviennent videmment plus complexes. La reprsentation graphique,
par exemple, nest possible que dans un espace trois dimensions au plus. En
dnissant les distributions marginales et conditionnelles, on peut ramener
la reprsentation dune distribution plusieurs dimensions quelques reprsentations unidimensionnelles. Dans la suite, on ne considrera que les sries
statistiques deux dimensions.
5.1
Pour allger les notations on indiquera par un point (.)la sommation eectue suivant lindice iou lindice j, i.e.
m
X
nij = ni:
; i = 1; 2; :::; k
nij = n:j
; j = 1; 2; :::; m
j=1
k
X
i=1
k
X
ni: =
i=1
m
X
n:j =
j=1
nij = n:: = n
i;j
B1
n11
n21
B2
n12
n22
ni1
ni2
nk1
n:1
nk2
n:2
:::
Bj
n1j
n2j
:::
Bm
n1m
n2m
T otal
n1:
n2:
nij
nim
ni:
nkj
n:j
nkm
n:m
nk:
n:: = n
nij
n
Remarque 129 Si on adopte les mmes conventions dcriture que pour les
eectifs, en indiquant par un pointles sommations eectues par rapport
lindice iou par rapport lindice j, alors fi: est la somme des frquences
de la ligne n i.
71
ni:
n
et
i = 1; 2; :::; k
f:j =
n:j
n
j = 1; 2; :::; m
Dmonstration :
fi: =
m
X
fij =
j=1
et
f:j =
k
X
m
X
nij
j=1
fij =
i=1
k
X
nij
i=1
ni:
n
n:j
n
5.2
fij =
k
X
fi: =
i=1
m
X
f:j = 1
j=1
Distributions marginales
Denition 132 La sommation suivant les lignes ou les colonnes des eectifs
ou des frquences, dnit la distribution marginale du caractre A ou celle de
B respectivement.
Remarque 133 La distribution marginale est la distribution statistique de
lun des caractres indpendamment de lautre. Elle est lue sur lune ou
lautre des marges du tableau, do son nom. Par exemple, la distribution
marginale associe au caractre A est :
n1: ; n2: ; :::; nk: ou bien
Example 134 Ltude dune population de 50 individus suivant le poids (caractre B) et la taille (caractre A), a donn les rsultats suivants :
A/ B 60 70 80 90 M arge
160
2 5 4 1
12
170
2 8 9 4
23
180
0 4 6 5
15
M arge 4 17 19 10
50
A/ B
160
170
180
M arge
60
0; 04
0; 04
0; 00
0; 08
70
0; 10
0; 16
0; 08
0; 34
80
0; 08
0; 18
0; 12
0; 38
90 M arge
0; 02
0; 24
0; 08
0; 46
0; 10
0; 30
0; 20
1; 00
Les rsultats peuvent tre rsums dans un tableau statistique double entre
en fonction des ectifs ou des frquences relatives.
5.3
Distributions conditionnelles
nij
n:j
j = 1; 2; :::; m
nij
ni:
i = 1; 2; :::; k
Remarque 140 Les distributions conditionnelles conservent les mmes proprits que les distributions statistiques normales, i.e.
k
X
fi=j = 1 , j = 1; 2; :::; m
i=1
m
X
fj=i = 1 , i = 1; 2; :::; k
j=1
60
0; 50
0; 50
0; 00
1; 00
70
80
90
0; 30 0; 211 0; 10
0; 47 0; 474 0; 40
0; 23 0; 315 0; 50
1; 00 1; 00 1; 00
160
0; 167
0; 416
0; 334
0; 083
1; 00
170
180
0; 087 0; 00
0; 350 0; 267
0; 391 0; 400
0; 172 0; 333
1; 00 1; 00
5.3.1
En eet,
nij
nij ni:
nij n:j
=
=
n
ni: n
n:j n
5.4
5.4.1
5.4.2
senter cet eectif par un cercle centr au point (xi ; yj ) et de surface proportionnelle nij .
Denition 142 La reprsentation graphique dune distribution deux variables continues regroupes par classes est appele strogramme. Cest un
solide constitu par un ensemble de paralllpipdes rectangles dont la base
est forme par les couples dintervalles de classe et dont les volumes sont
proportionnels aux frquences fij ou aux eectifs nij .
Remarque 143 Le paralllpipde relatif la classe n i damplitude ai de
x, et la classe n j damplitude bi de y, a pour hauteur :
hij =
fij
ai b j
fij
ai b j
= fij
5.5
5.5.1
Covariance
Cov (x; y) =
x) (yj
y)
Remarque 146 Pour le calcul pratique, on utilisera souvent la formule dveloppe de la covariance dnie telle que :
1 XX
nij xi yj
Cov (x; y) =
n i=1 j=1
k
xy
Dans certaines situations il arrive que que les observations dune population suivant deux caractres (x; y) soient apparies, i.e. les observations sont
disponibles sous forme dune suite (xi ; yi ), i = 1; 2; :::; n, alors dans cette
situation la covariance est dnie telle que :
Denition 147 Soit (xi ; yi ), i = 1; 2; :::; n une srie dobservation dun
couple de variables statistiques (x; y). On appelle covariance des variables
statistiques x et y , note Cov(x; y), la quantit dnie telle que :
1X
Cov (x; y) =
(xi
n i=1
n
77
x) (yi
y)
Remarque 148 Pour le calcul pratique, on utilisera souvent la formule dveloppe de la covariance dnie telle que :
n
1X
Cov (x; y) =
xi yi xy
n i=1
5.5.2
Il arrive souvent de vouloir comparer la variation dune variable statistique par rapport une autre dnie sur les mmes individus dune quelconque population. Mais ces variables ne sexpriment pas souvent dans la
mme unit. Pour cela on dnit le coe cient de corrlation qui est un
coe cient normalis sans dimension.
Denition 149 On appelle coe cient de corrlation de deux variables statistiques x et y, et on le note Corr(x; y) ou , la quantit dnie telle que :
= Corr(x; y) =
Cov (x; y)
x y
Proprit
Quelque soit le couple de variables statistiques (x; y) leur coe cient de
corrlation = Corr (x; y) vrie lingalit suivante :
1
= Corr (x; y)
+1
(5.1)
Do
= Corr (x; y) = 0; 3
5.5.3
Corrlations positives
Corrlation nulle
79
Corrlations ngatives
5.6
n
X
(yj
b)2
axi
(5.2)
i=1
Eectuer une rgression linaire, cest trouver la droite qui minimise lcart
total, i.e. la somme des carrs des dirences. On parle alors de droite des
moindres carrs.
Proposition 153 Soient x et y deux variables statistiques dnies sur la
mme population. La fonction numrique dnie sur R2 par lquation (5:2) admet
un minimum au point ( ; ) tel que :
=
Cov (x; y)
= Corr (x; y)
V ar (x)
=y
y
x
2
2
n
X
i=1
n
X
xi (yi
xi yi + 2a
i=1
Sachant que
n
X
i=1
axi
n
X
b)
x2i
+ 2b
i=1
n
X
i=1
xi = 0
et
n
X
x2i
= n V ar (x) + x
n
X
et
i=1
i=1
On dduit
xi = nx
a V ar (x) + x2
(5.3)
bx = 0
Dautre part
@f (a; b)
=
@b
n
X
(yi
axi
i=1
n
X
yi + 2a
i=1
Sachant que
n
X
yj = ny
n
X
xi + 2
i=1
n
X
et
n
X
b=0
i=1
xi = nx
i=1
j=1
On dduit
b)
ax
(5.4)
b=0
k X
m
X
nij xi (yj
axi
k X
m
X
nij xi yj + 2a
i=1 j=1
b)
i=1 j=1
k X
m
X
k X
m
X
nij x2i
+ 2b
i=1 j=1
nij xi yj + 2a
i=1 j=1
k
X
k X
m
X
i=1 j=1
ni: x2i + 2b
i=1
k
X
ni: xi = 0
i=1
Sachant que
k X
m
X
i=1 j=1
et
k
X
i=1
et
k
X
i=1
82
nij xi
ni: xi = nx
On dduit
a V ar (x) + x2
(5.5)
bx = 0
Dautre part
@f (a; b)
=
@b
=
k X
m
X
nij (yj
axi
i=1 j=1
k X
m
X
nij yj + 2a
i=1 j=1
b)
m
X
k X
m
X
nij xi + 2b
i=1 j=1
n:j yj + 2a
j=1
k
X
k X
m
X
nij
i=1 j=1
ni: xi + 2nb = 0
i=1
Sachant que
m
X
n:j yj = ny
et
j=1
On dduit
k
X
ni: xi = nx
i=1
ax
(5.6)
b=0
Cov (x; y)
V ar (x)
=y
Remarque 154 Il est vident que les couples dquations f(5:3) ; (5:4)g et
f(5:5) ; (5:6)g sont les mmes. Donc, que lon utilise les donnes brutes ou les
donnes disposes dans un tableau de contingence, le minimum de la fonction
f (a; b) est le mme.
La quantit = Cov(x;y)
peut tre exprime telle que :
V ar(x)
=
Cov (x; y)
= Corr (x; y)
V ar (x)
83
y
x
En eet
=
Cov (x; y)
Cov (x; y)
=
V ar (x)
x x
Cov (x; y)
x y
y
x
= Corr (x; y)
y
x
84
Chapitre 6
Les sries chronologiques
6.1
Gnralits
Reprsentation graphique
Pour la reprsentation graphique des sries chronologiques un certain
nombre de prcautions doivent tre prises :
Sil sagit dun stock de leectif de la population une date dtermine,
le point reprsentatif se place exactement laplomb de la date de
rfrence.
Sil sagit dun ux comme la production mensuelle dnergie lectrique
par exemple, ou dune moyenne comme le prix moyen mensuel du kilogramme de pomme de terre par exemple, le point reprsentatif sera
alors plac la verticale du milieu de la plage.
85
Yt
2614
3010
2765
4856
3010
3397
3168
5624
3406
86
6.2
6.2.1
Proprits
Les variations saisonnires se caractrisent par deux principes :
Principe de rptition lidentique : Les variations saisonnires sont
priodiques de priode p (nombre de mois) :
St+p = St
Principe de conservation des aires : Par an, linuence des variations
saisonnires est nulle. Cela sera traduit laide de la moyenne des St .
87
6.2.2
Le modle additif
Denition 165 Un modle additif suppose que les trois composantes : tendance, variations saisonnires et variations accidentelles sont indpendantes
les unes des autres. La srie Yt scrit comme la somme de ces 3 composantes :
Yt = Ct + St + "t
Remarque 166 Graphiquement, lamplitude des variations est constante
autour de la tendance. En eet, si on joint les minima et les maxima de
la srie chronologique on obtient deux droites parallles la tendance.
Le modle multiplicatif
Il ya deux forme de modles multiplicatifs.
Denition 167 (1re forme) Les variations saisonnires sont supposes
dpendre de la tendance. Alors, on considre que Yt scrit de la manire
suivante :
Yt = Ct St + "t
Remarque 168 Graphiquement, lamplitude des variations (saisonnires)
varie. En eet, en joignant les minima et les maxima de la srie chronologique
on constate que les deux droites ne sont pas parallles entre elles.
Denition 169 (2me forme) On suppose que les variations saisonnires
et les variations accidentelles dpendent de la tendance. Alors, on considre
que Yt scrit de la manire suivante :
Yt = Ct
St
88
"t
Remarque 170 1) Dans le cas dune srie chronologique Yt valeurs positives, le deuxime modle multiplicatif se ramne un modle additif en
considrant la srie des logarithmes de Yt :
ln (Yt ) = ln (Ct ) + ln (St ) + ln ("t )
2) La seule dirence entre les deux modles multiplicatifs rside dans lestimation des "t , qui na pas une grande importance pour linstant.
6.2.3
Choix du modle
Mthode de la bande
On utilise le graphe de la srie et la droite passant par les minima et celle
passant par les maxima.
Si ces 2 droites sont peu prs parallles : le modle est additif.
Si ces 2 droites ne sont pas parallles : le modle est multiplicatif.
6.3
Pour ltude de certains phnomnes conomiques et sociaux, on est souvent amen dcrire ou comparer les variations de grandeurs simples telles
que le prix du bl, la production dacier ou le taux de fcondit dune certaine
population, etc. Pour les comparaisons dans le temps et dans lespace de ces
grandeurs, on introduit la notion dindice statistique lmentaire. Ceux sont
gnralement des rapports de ces grandeurs. Mais il est plus instructif de
89
pouvoir suivre les volutions de grandeurs plus complexes telles que le niveau gnral des prix, la production industrielle, le volume des importations,
etc. Ces volutions sont rsumes par lune ou lautre des caractristiques
de tendance centrale de la srie des indices lmentaires correspondants. On
parle dans ce cas dindices synthtiques.
6.3.1
16500
100 = 266; 13
6200
Plus gnralement, considrons la variation dans le temps dune grandeur simple X, prenant les valeurs X0 ; X1 ; :::; Xt ; :::, aux dates (ou priodes)
successives 0; 1; 2; :::; t; :::.
I1988=1973 =
Xt
X0
Xt
100
X0
On dit alors que lindice la date t est exprim base 100 la date de rfrence
0.
90
0; 5
100 = 3; 4
14; 6
Proprits
Les indices lmentaires possdent deux proprits fondamentales, la circularit et la rversibilit.
La circularit On dit quun indice statistique I est circulaire si 8 t, t0on
a:
It=0 = It=t0 It0 =0
En eet,
Xt
Xt
=
X0
Xt0
Xt0
X0
Remarque 175 On peut comparer les grandeurs aux dates t et t0en prenant
le quotient des indices It=0 et It0 =0 . On obtient ainsi un changement de base
(la date de rfrence t0a t substitue la date 0) . La proprit de circularit
peut tre gnralise une suite dindices, i.e.
It=0 = It=t
It
1=t 2
91
:::
I2=1
I1=0
1
It=0
En eet,
1
X0
= Xt
Xt
X0
Remarque 176 Lvolution dun phnomne est souvent prsente sous forme
dune augmentation ou dune diminution en pourcentage laide de la formule suivante :
V aleur nouvelle
V aleur primitive
V aleur primitive
100
6.3.2
Position du problme
Soit X une grandeur complexe compose des lments X 1 ; X 2 ; :::; X j ; :::; X h .
La variable complexe X est, par exemple, le niveau gnral des prix, et
X 1 ; X 2 ; :::; X j ; :::; X h reprsentent les prix des dirents produits ou services
oerts au public . Les indices lmentaires des constituants X j , j = 1; 2; :::; h,
Xj
j
de X sont calculs par la formule It=0
= Xtj , j = 1; 2; :::; h. Mais cette suite
0
dindices napporte aucune information sur lvolution du niveau gnral des
prix. Il serait judicieux de les rsumer ou de les synthtiser par un seul indice
quon appellera indice synthtique de la grandeur complexe X.
Remarque 177 Les coe cients aj0 et ajt sont appels coe cients de pondration.
Indice de Laspeyres
Denition 178 Lindice de Laspeyres, not L, est la moyenne arithmtique
des indices lmentaires pondrs par les coe cients aj0 la date de rfrence :
X j
X j Xtj
Lt=0 =
a0 It=0 =
a0 j
X0
j
j
Indice de Paasche
Denition 179 Lindice de Paasche, not P, est la moyenne harmonique
des indices lmentaires pondrs par les coe cients ajt la date courante :
Pt=0 = P
1
ajt
j It=0
Indice de Fisher
=P
1
Xj
ajt X0j
t
6.3.3
Dsignons par pj0 , pjt et q0j , qtj respectivement les prix et les quantits
(volumes) correspondant au constituant j entrant dans le calcul dindice.
93
Indice de valeur
Denition 181 La valeur, pour un constituant j, est le produit du prix par
la quantit correspondante.
Denition 182 Lindice de valeur, not V, est le rapport de la somme des
valeurs relatives la priode courante, la somme des valeurs relatives la
priode de base :
P j j
j p 0 qt
Vt=0 = P j j
j p 0 q0
Indice des prix
Lindice des prix comme lindice de quantit peut tre calcul selon lune
des formules de Laspeyres , de Paasche ou de Fisher .
Denition 183 Lindice de Laspeyres des prix est donn par la formule suivante :
P j j pjt
j q0 p 0
pj
Lt=0 (p) = P j j 0
j q0 p 0
Remarque 184 Les coe cients de pondration sont constitus par la part
de la dpense totale des familles consacre la consommation des dirents
constituants pendant la priode de base :
q j pj
aj0 = P 0 j0 j
j q0 p 0
Dans le cas dun indice de prix de dtail, les coe cients de pondration sont
appels coe cients budgtaires.
Lindice de Laspeyres des prix peut aussi tre dni tel que :
Lt=0 (p) =
Denition 185 Lindice de Paasche des prix est donn par la formule suivante :
P j j
j qt p t
Pt=0 (p) = P
pj0
j j
j qt p t
pj
t
94
Remarque 186 Les coe cients de pondration sont constitus par la part
de la dpense totale des familles consacre la consommation des dirents
constituants pendant la priode courante :
ajt
qtj pjt
=P j j
j qt p t
Lindice de Paasche des prix peut aussi tre dni tel que :
Pt=0 (p) =
Proprits
Les indice de Laspeyres et de Paasche nont pas les proprits de circularit et de rversibilit. Lindice de Fisher na pas la proprit de circularit,
mais il est rversible :
F0=t =
p
L0=t
P0=t = p
1
Lt=0
Pt=0
1
Ft=0
Ft=0
95
Pt=0
Bibliographie
[1] Calot, G. (1969) Cours de statistique descriptive, Dunod.
[2] Delmas, B. (2009) Statistique descriptive pour lconomie et la gestion,
Presses universitaires du Septentrion, 978-2-7574-0074-6
[3] Delmas, J. F. (2010) Introduction au calcul des probabilits et la
statistique, ENSTA, 978-2-7225-0922-1
[4] Duthil, G. (1998) Initiation la statistique descriptive , Ellipse Marketing
[5] Grais, B. (2003) Statistique descriptive : Techniques statistiques , Dunod.
[6] Lejeune, M. (2010) Statistique : la thorie et ses applications, Springer,
978-2-8178-0156-8
[7] Olivier, E. (2008) Lessentiel de statistique descriptive, Gualino, 978-2297-01103-7
[8] Mazerolle, F. (2005) Statistique descriptive : sries statistiques une et
deux variables, sries chronologiques, indices, Gualino, 2-84200-891-X
[9] Moore, D. and McCABE G. P. (2002) Introduction to the Practice of
Statistics, 4me dition, W.H. Freeman & Company.
[10] Morgenthaler, S. (2007) Introduction la statistique, Presses polytechniques et universitaires romandes, 978-2-88074-734-3
[11] Spiegel, M. et Stephens, L. Statistique : Cours et problmes, 3me dition, Srie Schaum/McGraw Hill
[12] Tassi, P. (2004) Mthodes statistiques, Economica, 2-7178-4859-2
96