Académique Documents
Professionnel Documents
Culture Documents
Prsidence du Gouvernement
Ecole Nationale dAdministration
24, Avenue du Dr Calmette Mutuelle-ville 1082 Tunis
Tl. (+216) 848 300 Fax (+216) 794 188
www.ena.nat.tn
Septembre 2013
1
Introduction
Gnralits
Les statistiques
Le mot statistiques , au pluriel, dsigne lensemble des donnes
chiffres qui regroupent toutes les observations faites sur des faits
relatifs un mme phnomne qui concerne un groupe dindividus ou
dobjets. Ces donnes sont essentiellement tires des recensements de
la population, des dclarations du registre dtat civil ou denqutes
appropries et sont groupes sous forme de tableaux, de graphiques et
dindicateurs statistiques. On trouve des statistiques qui concernent la
dmographie, lemploi, la sant, lindustrie, les transports, le commerce
intrieur, le commerce extrieur, les indices de prix, la finance ..etc.
La statistique
Le mot statistique , au singulier, dsigne la discipline scientifique
constitue par lensemble des procds, des techniques ou des
mthodes danalyse visant, dune part, fournir, au moyen dun
nombre limit de caractristiques, une Description simple et la plus
complte possible dune population envisage sous langle dun
caractre donn. Dautre part, la statistique permet dinterprter les
caractristiques ainsi dtermines afin de tirer des conclusions
concernant la population tudie et de prendre des dcisions.
La statistique, en tant que mthode danalyse des donnes quantitatives
et qualitatives , comporte deux niveaux :
La statistique descriptive, qui consiste en la collecte et la
prsentation de donnes, ainsi que leur premire analyse. Le but est
de reprsenter dune manire comprhensible et utilisable
linformation fournie par les donnes.
La statistique infrentielle ou statistique mathmatique , qui cherche
trouver les caractristiques de la population mre partir des
observations faites sur un chantillon. Elle prend la suite de la
statistique descriptive et fait appel au calcul des probabilits.
Une opration statistique se droule en gnral en 4 tapes :
1. La collecte des donnes. Cette tape peut se raliser de deux manires :
i1
Leffectif ni dune modalit, appel aussi frquence absolue, est le
nombre de fois o la modalit numro i a t observe.
La frquence relative fi dune modalit est le rapport de leffectif ni
leffectif total N
n
n
fi
i
i
r
N
ni
i1
r
f 1
i
i1
Remarque : les frquences relatives peuvent tre exprimes en
pourcentage.
Lorsque les modalits ne permettent pas lexhaustivit, cest dire
lorsquil y a des individus quon ne peut classer dans le tableau, on
peut rajouter une modalit, en bas du tableau, quon appelle autres
ou non rponses
Caractre quantitatif ou variable
quantitative
Lorsque les observations relatives un caractre sont mesurables, le
caractre est dit quantitatif (taille, ge, poids, moyenne du
baccalaurat, superficie du logement,....). A chaque modalit correspond
4
un nombre diffrent.
Exemple : lors de ltude de la population estudiantine, on peut
sintresser quelques-unes de ses caractristique telles que :
Le nombre denfants par mnage, Le nombre dannes dtudes.
nombre de voitures par mnage,)
Lge, le poids, la taille, Le revenu des parents, la facture de
llectricit et du gaz, les dpenses en loyer, )
On distingue deux types de caractres quantitatifs :
Les caractres quantitatifs discrets, auxquels cas, les valeurs
possibles de la variable sont des nombres isols (en gnral des
2
n2
f2
F 2= f 1
.
.
.
F
3= f 1+ f 2
.
.
.
.
.
.
.
x
p
np
fp
Fp
Ensemble
N
1
Frquences cumules croissantes Fi: le cumul des frquences
associes aux valeurs du caractre infrieures strictement la valeur xi
i 1
F
i
f
pour i
,
3
,
2
... p
.
et F 0
j
1
j 1
[bb[
c
n
f
i
i
i
F
i
i 1
i
[b
b[
c
n
f
F
0
1
1
1
1
1= f 1
[b b[
c
n
f
F
1
2
2
2
2
2= f 1+ f 2
[b
b[
.
.
.
F
2
3
3= f 1+ f 2+ f 3
.
.
.
.
.
.
.
.
.
[b
b[
c
n
f
F
p 1
p
p
p
p
p
Ensemble
N
1
Remarque : Par convention, les classes sont fermes gauche et
ouvertes droite. Une classe est dite borne si : b
,b
i1
i
b
b
le centre dune classe borne est :
i 1
i
c
,c
x
i
i
i
2
lamplitude dune classe borne est : a b b
i
i
i 1
6
Loprateur somme
Loprateur (lettre grecque sigma majuscule) permet dcrire de
manire compacte la somme dune variable indice entre deux bornes.
5
On peut par exemple crire : x x x x x
x
1
2
3
4
5
i
i 1
n
Dune manire gnrale : x x x
x
1
2
n
i
i1
Cette formule se lit de bas en haut : somme de i gal 1 i gal n de x
indice i
Remarque : On peut tablir les rsultats suivants :
i n
i n
i n
1)
x
y
(xy)
i
ii
i
i 1
i 1
i 1
i n
2)
a na
i1
i n
i n
3) ( x a)
x
na
i
i
i1
i1
i n
i n
4) ax a
x
i
i
i1
i1
i n
i n
i n
5) x y
x
y
i
i
ii
i1
i1
i1
i n
x
i n
x
i
6)
i
i
i n
i
y
1
i
yi
i1
2
i n
i
n
7)
2
x
x
i
i
i1
i1
i n
i n
i n
i n
8) ( x y 2
)
x2
y 2
2
xy
i
i
i
ii
i1
i1
i1
i1
n
j m
j m i n
i n
j m
j m
i n
9) x y
xy
x
y
y
x
i
j
i
j
i
j
ji
i1
j1
j1
i1
i1
j1
j1
i1
Chapitre 1 :
Sries statistiques un seul caractre
CHAPITRE I : SERIES STATISTIQUES A UN SEUL CARACTERE
9
I. SERIE STATISTIQUE SIMPLE
9
I.A.
Variable discrte
9
I.B.
Variable continue
9
II. PRINCIPALES REPRESENTATIONS GRAPHIQUES
9
II.A.
Cas dune variable qualitative
9
II.B.
Cas dune variable quantitative
11
II.B.1.
Srie statistique discrte
11
II.B.2.
Srie statistique continue
12
II.B.2.a
Principe de construction de lhistogramme
13
II.B.2.b
Polygone des frquences
14
II.B.3.
Frquences cumuls croissantes, fonction de rpartition et diagrammes cumulatif
14
II.B.3.a
Cas dune variable statistique discrte
15
II.B.3.b
Cas dune variable statistique continue
17
8
Chapitre I : Sries Statistiques un
seul caractre
Srie statistique simple
Variable discrte
On appelle srie statistique dune variable discrte tout ensemble de
couples( x , n )
,
1
ou encore ( x , f )
,
1
, o les x
i
i
i
,....p
i
i
i
,....p
i
dsignent les valeurs possibles prises par la variable et les ni les effectifs
correspondants.
Variable continue
On appelle srie statistique dune variable continue tout ensemble de
couples( b
[,b[,
n
)
,
1
ou encore ( b
[ , b [, f )
,1
.
i
i 1
i
,....p
i
i 1
i
i
,....p
Principales reprsentations graphiques
Les tableaux statistiques donnent un premier rsum statistique des
rsultats dune enqute. Cependant, dans le cas o la variable prsente
plusieurs modalits ou dans le cas ou nous avons comparer deux ou
plusieurs distributions, il est prfrable de reprsenter les rsultats
laide de graphiques.
Cas dune variable qualitative
Il y a plusieurs manires de reprsenter graphiquement une variable
Section du baccalaurat
Effectifs
Frquences
Angles
M
i
ni
fi
i
Economie et gestion
25
0,5
180
Mathmatiques
15
0,3
108
Sciences exp. et autres
10
0,2
72
Ensemble
50
1
360
0,30
0,20
0
Eco. et gestion
Maths
Sc. Exp. et autres
fi ou ( ni)
f1
f4
fi
f2
0
x 1 x 2 x i x 4 Valeurs x i 11
Uniforme
Symtrique
Asymtrique
Lintrt de cette reprsentation est double. Dune part, elle permet de
donner une ide gnrale sur la forme de la distribution. Dautre part,
elle permet de reprer les valeurs aberrantes.
Exemple : La distribution du mme chantillon dtudiants selon le
nombre de personnes par mnage est rsume dans le tableau suivant :
Valeurs
Effectifs Frquences
Frquences cumules
x
i
ni
fi
F
i
1
20
0,40
0
2
15
0,30
0,40
3
10
0,20
0,70
4
5
0,10
0,90
Total
50
1,00
ni
20
15
10
5
0
1234
Diagramme en btons des effectifs
Srie statistique continue
Graphiquement, on reprsente une srie statistique continue par un
histogramme. Il sagit dune figure obtenue sur un repre cartsien en
reprsentant pour chaque classe [ b
b [ un rectangle de surface S
i 1
i
i
proportionnelle leffectif ni ou la frquence fi. Les rectangles de
lhistogrammes sont contigus.
12
Principe de construction de lhistogramme
n
S base hauteur a h n a
* do, h
i
*
ada*
i
i
i
i
i
a
i
i
Le a* est appele amplitude de rfrence. Elle est choisie arbitrairement
de manire faciliter la reprsentation graphique (valeurs sur laxe des
ordonnes).
La hauteur hi est dans ce cas appele effectif corrig quon note par c
n.
i
n
La densit d
i
i dune classe est : d
. Il sagit du nombre dindividus
i
ai
par unit damplitude.
Remarque : on peut utiliser les frquences corriges la place des
effectifs corrigs.
Dans le cas de classes damplitudes gales, il nest pas ncessaire
de calculer les frquences corriges ou les effectifs corrigs. On peut
utiliser directement les effectifs ou les frquences comme hauteurs
bi bi+1 Classes
Exemple : La rpartition de 100 individus par classes dges est donne
par le tableau suivant :
Classes
Effectif Amplitudes Densit Effectifs
Frquences Frquences
dges
s
corrigs
a
corriges
i
di
fi
n
c
i
n
c
i
f
i
[5 , 10[
11
5
2,2
22
0,11
0,22
[10 , 15[
10
5
2
20
0,10
0,20
[15 , 20[
15
5
3
30
0,15
0,30
[20 , 30[
20
10
2
20
0,20
0,20
[30 , 40[
18
10
1,8
18
0,18
0,18
13
[40 , 60[
16
20
0,8
8
0,16
0,8
Effectif corrigs
30
22
20
18
8
5
0
2,5 5 10 15 20 30 40 60 80 90
Classes dges
[60 , 80[
10
20
0,5
5
0,10
0,5
Total
100
cumulatif
On appelle fonction de rpartition dune variable statistique quantitative
toute application dfinie par :
F:
0
,
1
x
F ( x ) prop (
Xx)
i
i
i
F ( xi) est gale la proportion des individus ayant une valeur du
caractre strictement infrieur xi.
Cas dune variable statistique discrte
On donne, dans le tableau suivant, la distribution du mme
chantillon dtudiants selon le nombre de personnes par mnage.
Frquence
Effectifs
Frquences
x
cumule
i
n
i
fi
F
i
20
0,40
0
1
15
0,30
0,40
2
10
0,20
0,70
3
5
0,10
0,90
4
50
1,00
Ensemble
F)
1
( prop( x )
10
F
)
5
,
1
(
prop( x
)
5
,
1
prop( x )
1,
0 40
F()
2 prop( x )
2 prop( x )
1,
0 40
F(
)
5
,
2
prop( x
)
5
,
2
prop( x )
1 prop( x )
2
7
,
00
F)
3
(
prop( x )
3 prop( x )
1 prop( x 2) ,
0 70
F()
4 prop( x )
4 prop( x )
1 prop( x 2) prop( x )
3
9
,
00
Ainsi, la formulation de la fonction de rpartition de cette distribution
statistique est :
0
s
ix1
,
04
0s
i1
x2
F,
07
0s
i2
x3
9
,
0
0s
i3
x4
1
s
ix4
15
La reprsentation graphique de la fonction de rpartition, appele
Fi
100%
0,90
0,70
0,40
0 1 2 3 4 xi diagramme cumulatif ou diagramme intgral, est :
Ce diagramme permet de visualiser lvolution des frquences cumules
lies aux valeurs de la variable. Le caractre tant discret, la courbe des
frquences cumules croissante est la reprsentation graphique dune
fonction en escalier.
Dune manire gnrale, La fonction de rpartition est constante par
intervalle. Sa formulation est la suivante :
0
x
x1
f x
xx
1
1
2
f
f
xxx
1
2
2
3
F
:
f
f
....... f x
xx
1
2
1
p
p1
p
1
x xp
La reprsentation graphique de la fonction de rpartition, appele
diagramme intgral, est :
Fi
100%
Fp- 1
F2
F1
0 X 1 X 2 X p-1 X p valeurs xi 16
16
90
0,16
0,9
[60 , 80[
10
100
0,10
1
total
100
1
La lecture des frquences cumules croissantes se fait par rapport la
borne suprieure de chaque classe.
La reprsentation graphique de la fonction de rpartition appele courbe
cumulative est la suivante :
Dune manire gnrale, la courbe cumulative, dans le cas dune
variable continue, est une ligne brise obtenue en joignant diffrents
points de coordonns ( b ,
F ) o bi dsigne la borne suprieure de la
i
i
classe i, et Fi la frquence cumule croissante correspondante.
17
Fi
1
0,90
0,74
0,56
0,36
0,21
0,11
0 5 10 15 20 30 40 60 80 Classes
dges
Remarque : on peut aussi reprsenter graphiquement la courbe des
frquences cumules dcroissantes, lesquelles sont dfinies par la
proportion des individus ayant une valeur du caractre suprieure ou
gale la borne infrieure de la classe i.
18
Chapitre 2 :
Les paramtres de position dune srie
statistique
CHAPITRE II : LES PARAMETRES DE POSITION DUNE SERIE STATISTIQUE 20
I. LE MODE
20
I.A.
Cas dune variable discrte
20
I.B.
Cas dune variable continue
21
I.B.1.
Cas damplitudes identiques
21
I.B.2.
Cas damplitudes ingales
22
II. LA MEDIANE
24
II.A.
Cas dune variable discrte
24
II.B.
Cas dune variable continue
27
III.
LA MOYENNE ARITHMETIQUE
29
III.A.1.
Cas de donnes non groupes
29
III.A.2.
Cas de donnes groupes
29
IV.
AUTRES MOYENNES
31
IV.A.
La moyenne gomtrique
31
IV.A.1.
Cas de donnes non groupes
31
IV.A.2.
Cas de donnes groupes
31
IV.B.
La moyenne harmonique
33
IV.B.1.
Cas de donnes non groupes
33
IV.B.2.
Cas de donnes groupes
33
IV.C.
La moyenne quadratique
34
IV.C.1.
Cas de donnes non groupes
34
IV.C.2.
Cas de donnes groupes
34
19
Chapitre II : Les paramtres de
position dune srie statistique
La reprsentation graphique dune srie statistique nous donne une ide
assez gnrale sur la distribution. Pour confirmer certaines impressions sur
la srie et pour en donner plus de prcision, nous serons amens trouver
une ou plusieurs valeurs centrales de la variable, capables de rsumer la
srie en caractrisant lordre de grandeur des observations. De telles valeurs
centrales sont appeles paramtres de tendance centrale ou caractristiques
de position. Un indicateur de position doit tre dfini de manire rigoureuse
et objective, doit tenir compte de lensemble des observations de la srie et
doit tre exprim dans la mme unit que la variable.
Le mode
On appelle mode ou valeur dominante dune srie statistique la valeur
observe de la variable ayant le plus grand effectif (ou la frquence la
plus leve). On note gnralement le mode MO.
Remarques :
Le mode de cette srie est : Mo=1. Il signifie que la plupart des mnages
ont un seul enfant.
Graphiquement, le mode correspond labscisse du bton le plus lev.
ni
32
29
23
16
0
1234
M
o
Cas dune variable continue
Dans le cas dune variable continue groupe en classes, on parle plutt
de classe modale. La classe modale est la base du rectangle ayant la
hauteur la plus leve.
Cependant, on distingue deux cas selon que les amplitudes des classes
sont gales ou ingales.
Cas damplitudes identiques
Dans ce cas, la classe modale est la classe deffectif ni le plus lev, soit
[ b b [ . Leffectif de la classe qui prcde la classe modale est n
et
i 1
i
i 1
bmbm
1
i 1
2
i
1
Mb
a
0
i 1
i
m m
mm
1
2
1
2
avec :
bi-1 : borne infrieure de la classe modale
bi : borne suprieure de la classe modale
21
ai : amplitude de la classe modale
mnn
1
i
i 1
mnn
2
i
i 1
100
60
0,30
m2
[400-500[
100
30
0,15
[500-600[
100
50
0,25
[600-700[
100
20
0,10
Total
200
1
La classe modale est la classe ayant la frquence la plus leve. Cest la
classe 3
[ 00 40 [
0 dans notre exemple. Dans ce cas, le mode est calcul
par :
60 40
M 300 100
340 D
T.
0
(60 4 )
0 (60 3 )
0
3
,
00,
0 20
M 300 100
340 D
T.
0
( 3
,
00,
02)
0(3
,
001
,
0
)
5
bmbm
Le mode est donn par :
1
i 1
2
i
1
Mb
a
0
i 1
i
m m
mm
1
2
1
2
bi-1 : borne infrieure de la classe modale
bi : borne suprieure de la classe modale
ai : amplitude de la classe modale
22
mhh
,(
c
c
m n n );
1
i
i 1
1
i
i 1
mhh,(
c
c
mnn)
2
i
i 1
2
i
i 1
o h , h e
th
sont les effectifs corrigs
i
i 1
i 1
Classes
Amplitudes
Effectifs
Frquences
numrote
corriges
c
[b
b
[
a
i
ni
i 1
i
c
f ou h
i
i
[bb
[
a
n
f c ou h
0
1
1
1
1
1
[bb
[
a
n
f c ou h
1
2
2
2
2
2
.
c
n
c
f ou h
i 1
i 1
i 1
m1
[b
b
[
a
c
n
c
f o
uh
i 1
i
i
i
i
i
m2
.
c
n
c
f
o
uh
i 1
i 1
i 1
[b
b
[
a
c
n
c
f o
uh
p 1
p
p
p
p
p
Ensemble
N
1
E ffe c t i f c o r r i g s
D e n s i t s o u e ff e c t i fs c o r r i g s
o u fr q u e n c e s c o r r ig e s
Dterminationgraphiquedumode
hi
m 2
m
h
1
i+1
h i-1
0
b i-1 M o b i
Classes
Exemple : Soit la rpartition de 100 personnes selon leur ge :
23
Classes
Effectifs Amplitudes Densits
Effectifs corrigs
dges
n
c
i
ai
di
n o
uh
i
i
[5 , 10[
11
5
2,2
22
[10 , 15[
10
5
2
20
[15 , 20[
15
5
3
30
[20 , 30[
20
10
2
20
[30 , 40[
18
10
1,8
18
[40 , 60[
16
20
0,8
8
[60 , 80[
10
20
0,5
5
total
100
30 20
15 10 20 10
et M 15 5
17 5
,
0
3
(02)
0 (30 2 )
0
10 10
3
,
0,
02
15 1
,
0 0 20 1
,
00
M 15 5
17 5
,
0
( 3
,
0,
0 2) ( 3
,
0,
0)
2
1
,
01
,
0
La mdiane
Soit une srie statistique ordonne par valeurs croissantes ou
dcroissante. La mdiane, note gnralement Me , est la valeur de la
variable qui partage la population en deux groupes deffectifs gaux. En
dautres termes, la mdiane est la valeur de la variable situe au
milieu dune srie ordonne telle que la moiti des individus prenne
une valeur qui lui soit infrieure, lautre moiti prenant par consquent
une valeur qui lui soit suprieure.
4
5ime
6
7
8
9
croissant)
4 observations
M
4 observations
La mdiane, dans ce cas, correspond la cinquime valeur : M 2
enfants par mnage. On dit quil y a autant de mnage qui ont moins de
2 enfants que de mnage qui ont plus de 2 enfants.
Exemple 2 :
On considre la rpartition de 10 mnages selon le nombre denfants
par mnage.
nombre denfants
0
0
1
1
2
3
3
3
4
4
par mnage
Rang (ordre
1
2
3
4
5ime 6ime
7
8
9
10
croissant)
4 observations
Intervalle
4 observations
mdian
Dans ce cas on parle plutt dintervalle mdian ]2 , 3], correspondant
e
5
,
2
nfants. Cette valeur ne
2
correspond pas une valeur rellement observe.
Exemple 3 :
nombre denfants
0
0
1
1
2
2
3
3
3
4
par mnage
Rang (ordre
1
2
3
4
5ime 6ime
7
8
9
10
croissant)
4 observations
Intervalle
4 observations
mdian
Dans le cas de cette distribution statistique, lintervalle mdian est :
]2 , 2]. La valeur mdiane est donc gale 2 .
Les reprsentation groupe des donnes des exemple 2 et 3 nous
donnent les deux tableaux suivants :
25
Exemple 2
x
Effectifs
Frquences Frquences cumules
i
n
i
fi
F
i
0
2
0,2
0
1
2
0,2
0,2
2
1
0,1
0,4
3
3
0,3
0,5
4
2
0,2
0,8
Ensemble
10
1
Fi
1
0,8
0,5
0,4
0,2
0 1 2 3 4 xi Intervalle mdian
Exemple 3
x
Effectifs
Frquences
Frquences cumules
i
n
i
fi
F
i
0
2
0,2
0
1
2
0,2
0,2
2
2
0,2
0,4
3
3
0,3
0,6
4
1
0,1
0,9
Ensemble
10
1
26
Fi
1
0,9
0,6
0,5
0,4
0,2
0 1 M =2 3 4 xi
Cas dune variable continue
Il ny a aucune diffrence de calcul pour la mdiane selon que les
classes sont damplitudes constantes ou variables.
Le calcul de la mdiane dans le cas de variable continue passe, dabord,
par la dtermination de la classe mdiane. Ensuite, par interpolation
linaire, on peut calculer la valeur prcise de la mdiane lintrieur de
la classe mdiane.
Soit [ b
b
[ la classe mdiane, a lamplitude de la classe mdiane, N
i 1
i
i
i
leffectif cumul croissant de la classe mdiane, N
leffectif cumul
i 1
Ni1
M b
a2
i1
iNN
i
i1
5
,
0
F
i 1
M b
a
,
i 1
FF
i
i 1
F
i
[5 , 10[
11
11
0,11
0,11
[10 , 15[
10
21
0,10
0,21
[15 , 20[
36
50
2
[20 , 30 [
20
56
[30 , 40[
18
74
0,18
0,74
[40 , 60[
16
90
0,16
0,9
[60 , 80[
10
100
0,10
1
Total
100
1
Le calcul, par interpolation linaire, de la mdiane donne :
20 ------ 0,36
M 20
5
,
00
3
,
06
M ------ 0,50
30 20
5
,
06
3
,
06
30 ---- ---- 0,56
Ou encore, en utilisant les effectifs cumuls croissants :
20 -------- 36
M 20
50 36
M ------- 50
30 20
56 36
30 --------- 56
Fi
1
0,9
0,74
0,56
0,5
0,36
0,21
0,11
0 5 10 15 20 M 30 40 60 80 Classes
28
N
Dans notre exemple :
50 . La classe mdiane est la classe laquelle
2
appartient la valeur mdiane, cest dire la classe [20 3 [
0 , do :
50 36
M 20 10
2a
7 ns
56 36
Cest dire que 50% des individus sont gs de moins de 27 ans.
La moyenne arithmtique
La moyenne arithmtique, dite simplement moyenne est note x , est la
caractristique de tendance centrale la plus usuelle.
Cas de donnes non groupes
En entend par donnes non groupes, celles qui ne sont pas prsentes
dans un tableau statistique.
Soit une srie statistique de N observations : x
,x
, x ,
, x . La
1
2
3
n
moyenne arithmtique (appele simple) de ces observations est donne
par :
i N
x
xxxx
i
x
1
2
3
n
i
1
N
N
Exemple :
On observe les notes en statistique dun groupe dtudiants :
14, 16, 12, 9, 11, 16, 7, 9, 7, 9. La moyenne simple de ces notes est :
14 16 12 9 11 16 7 9 7 9
x
11
10
Cas de donnes groupes
Dans le cas dune variable discrte :
i p
nx
nxnxnxnx
i
i
x
1
1
2
2
3
3
p
p
i
1
N
N
o x , e
tn
,i
,
2
,
1
, p reprsentent respectivement la valeur du
i
i
caractre et leffectif correspondant, et p est le nombre de valeurs prises
par la variable.
Dans le cas dune variable continue, o les donnes sont groupes en
classes, on applique la mme formule, en remplaant les valeurs x par
i
29
ip
i p
nc
nx
iiii
les centres de classes. Dans ce cas on a : x
i 1
i
1
N
N
Exemple : soit la distribution par classe dges suivante :
Classes dges
f
Centre de
i
nx
i
i
Effectifs
classe
n
c
i
i
( not aussi) xi
[5 , 10[
11
0,11
7,5
82,5
[10 , 15[
10
0,10
12,5
125
[15 , 20[
15
0,15
17,5
262,5
[20 , 30[
20
0,20
25
500
[30 , 40[
18
0,18
35
630
[40 , 60[
16
0,16
50
800
[60 , 80[
10
0,10
70
700
total
100
1
3100
3100
Lge moyen est donn par : x
31 a
ns
100
Remarques :
La somme des carts la moyenne arithmtique est nulle :
N
pour des donnes non groupes
x
x
. En effet :
i
0
i i
N
i N
i N
i N
x x
x
x
x
N. x
N. x
N. x
0
i
i
i i
i1
i1
i1
N
pour des donnes groupes en classes, On a n c
x
.
i
i
0
i i
i N
En effet : n c N. x N. x N. x 0
i
i
i1
La moyenne arithmtique x dune population deffectif N compose de k
sous-populations deffectifs N et de moyenne x est gale :
k
k
i p
Nx
N x .... N x
i
i
x
1
1
p
p
i
1
N
N
La moyenne arithmtique est le critre le plus frquemment utilis pour
dfinir une valeur moyenne dobservations dune variable additive comme
par exemple : la taille, le poids, lge, ...etc. Il y a dautres variables dont
le calcul de la moyenne se traite autrement, comme, par exemple, le taux
de chmage ou dinflation, le taux de change, la vitesse sur diffrents
parcours, ...etc.
30
Autres moyennes
La moyenne gomtrique
La moyenne gomtrique dune variable, note gnralement G , est
gale la racine N- ime du produit des N valeurs observes de cette
variable. Elle est utilise souvent dans le calcul des taux de croissance
moyens et de certains indices statistiques synthtiques.
Cas de donnes non groupes
La moyenne gomtrique simple est donne par :
N
G
x.x.x.
.
x
1
2
3
n
Cas de donnes groupes
.
x
x 1.x 2.x 3.
.
x
1
2
3
p
1
2
3
p
Remarques :
Le logarithme de la moyenne gomtrique est gale la moyenne
arithmtique des logarithmes des xi .
En pratique, le calcul de la moyenne gomtrique passe par le
logarithme. Ainsi, dans le cas des donnes non groupes, on a :
N
1
lnG
lx
n
i
N i1
et dans le cas des donnes groupes par classes, on a :
p
1
lnG
nlx
n
i
i
N i1
La moyenne gomtrique est utilise quand les valeurs de la variable sont
lies de faon multiplicative les unes aux autres.
La moyenne gomtrique dun produit de deux variables est gale au
produit de leurs moyennes gomtriques.
La moyenne gomtrique dun rapport de deux variables ( 0 ) est gale au
rapport de leurs moyennes gomtriques.
Exemple :
Ltude des bnfices dune entreprise sur 5 ans montre que les
31
2
2
FF1
,
10F,
1
(0)
6
)
1
,
1
(
4
3
0
- A la fin de la 5ime anne : F F 0
,
18F
0
,
1
(
)
62
)
1
,
1
(
20
,
18
5
4
0
Le taux de croissance annuel moyen, c , doit satisfaire la relation :
5
FF 1
( c)
5
0
On peut alors crire :
2
2
5
FF
0
,
1
(
)
6
)
1
,
1
(
0
,
18F 1
( c)
5
0
0
2
2
5
0
,
1
(
)
6
)
1
,
1
(
0
,
181
( c)
1
0
,
1
(
)
62
)
1
,
1
(
20
,
1 85 1 c
(Cest lcriture de la moyenne gomtrique des augmentations)
2
2
1
ln( 0
,
1
)
6
ln( )
1
,
1
ln( 0
,
1
)
8 ln 1
( c)
5
5
5
2 ln( 0
,
1
)
6 2 ln(
)
1
,
1
ln( 0
,
1 8)
ln 1
( c)
5
0
,
0 7682 ln 1
( c)
0,07682
e
1c
c
0
,
0 798
ln 1
( c) apparat ainsi comme la moyenne arithmtique des
logarithmes des taux de croissance. 1
( c) est donc la moyenne
gomtrique des diffrents taux de croissance du bnfice.
On peut dire que laugmentation annuelle moyenne est de
9
,
7
%
8
32
La moyenne harmonique
La moyenne harmonique, note H, est gale linverse de la moyenne
arithmtique des inverses des valeurs :
Cas de donnes non groupes
N
1
H
i N
i N
1
1
1
( )
i1
x
N i1 x
i
i
Cas de donnes groupes
1
1
H
i p
i
1
n
pf
i
i
N i1 x
i
1
x
i
i
Remarques :
Linverse de la moyenne harmonique est gale la moyenne arithmtique
des inverses des x .
i
La moyenne harmonique est gnralement employe lorsque la variable
observe est gale au rapport de deux variables exprimes dans deux
units diffrentes, par exemple le prix dun bien exprim en units
montaires par unit de bien, la vitesse exprime en units de distance
par unit de temps.
Exemple :
Un tudiant a consacr la mme somme de 36 D pendant trois ans
3
,
63D
3
En effet, ltudiant a dpens durant les trois ans 3 36 10 D
8 . Il a
achet :
36 9 livres pendant la premire anne,
4
36 6 durant la deuxime anne
6
36
et
4 au cours de la troisime anne.
9
33
1
1
1
Il a donc achet : 36
9 6 4 19 livres
4
6
9
et le prix moyen dun livre est donc :
3 36
3 36
3
H
6
,
5
D
8.
19
1
1
1
1
1
1
36
4
6
9
4
6
9
H est donc la moyenne harmonique des diffrents prix 4, 6 et 9.
La moyenne quadratique
La moyenne quadratique dune variable statistique, note Q , est gale
la racine carre de la moyenne arithmtique des carres des valeurs de
la variable.
Cas de donnes non groupes
i N
1
Q
x2i
N i1
Cas de donnes groupes
i p
i p
1
Q
nx2
fx2
i
i
ii
N i1
i1
Exemple :
Quelle est la mesure du ct moyen de trois plaques mtalliques
carres dont les cts mesurent 3 cm, 6 cm et 9 cm.
369
x
c
6m
3
Le calcul de la moyenne arithmtique des cts est faux. En effet, les
superficies des plaques sont : 9 cm2, 36 cm2 et 81 cm2.
La superficie moyenne est de :
9 36 81
x
42 c
m
3
Ainsi, le ct moyen mesure : c
42 . Il sagit de la moyenne
quadratique des cts :
1
c
3
( 2 62 92 ) 42 c
m.
3
Remarques :
La moyenne quadratique est souvent utilise dans le calcul de la variance
34
(voir le section suivante).
Les moyennes quadratique et arithmtique tiennent compte davantage des
valeurs les plus leves de la srie statistique. En revanche, Les
moyennes gomtrique et harmonique rduisent linfluence des
observations les plus leves.
Les relations existantes entre les diffrentes moyennes est :
x
HGxQx
min
max
Exemple :
Calculer les moyennes arithmtique, gomtrique, harmonique et
quadratique de la srie suivante :2, 5, 11, 18.
2 5 11 18
1
;
x
9
;
4
G 2 5 11 18 2 5 11184 ,
6 67
4
4
;
1
H
,
4 72
;
Q
(2 2 52 112 182 ) 10 8
,8
1
1
1
1
4
2
5
11
18
On peut vrifier la relation tablie entre les diffrentes moyennes :
2,
4 72 ,
6 67 9 10 8
, 8 18
35
Chapitre 3 :
Les paramtres de dispersion et de forme
CHAPITRE III : LES CARACTERISTIQUES DE DISPERSION ET DE FORME 37
I.
LETENDUE 37
II.
LES ECARTS INTERQUANTILES
37
II.B.
Les quantiles
37
II.B.1.
Les quartiles
38
II.B.2.
Les dciles
38
II.B.3.
Les centiles
39
III.
MESURE DE LA DISPERSION AUTOUR DE LA MOYENNE
41
III.B.
Ecart absolu moyen par rapport la moyenne
42
III.B.1.
Cas de donnes non groupes
42
III.B.2.
Cas de donnes groupes
42
III.C.
Variance et cart type
43
III.C.1.
Cas de donnes non groupes
43
III.C.2.
Cas de donnes groupes
43
III.C.3.
Cas de donnes non groupes
43
III.C.4.
Cas de donnes groupes
43
III.D.
Variance intra-population et variance inter-populations
45
III.E.
Le coefficient de variation
49
IV.
MESURE DE LA DISPERSION AUTOUR DE LA MEDIANE 50
IV.B.1.
Cas de donnes non groupes
50
IV.B.2.
Cas de donnes groupes
50
V.
MOMENTS D'UNE SERIE STATISTIQUE
51
V.B.
Moments non centrs
51
V.B.1.
Cas de donnes non groupes
51
V.B.2.
ii) Cas de donnes groupes
51
V.C.
Moments centrs
51
V.C.1.
Cas de donnes non groupes
51
V.C.2.
Cas de donnes groupes
51
VI.
INDICATEURS DE FORME
52
VI.B.
Asymtrie
52
VI.C.
Aplatissement
53
36
Chapitre III : Les caractristiques
de dispersion et de forme
Trs souvent les indicateurs de tendance centrale (mode, mdiane et
moyenne) savrent insuffisants pour permettre de rsumer eux seuls
et de comparer deux ou plusieurs sries statistiques. Prenons, titre
dexemple, les deux sries de notes en statistique obtenues par deux
groupes dtudiants :
Groupe I
1
3
4
10
10
16
17
19
Groupe II
8
9
10
10
10
10
11
12
Nous pouvons constater que les deux sries ont un mme mode
( Mo=10), une mme mdiane ( M=10) et une mme moyenne ( x 10) .
Cependant, leur distribution se fait dune manire nettement diffrente.
En effet, pour le groupe II, les notes ne scartent pas trop des valeurs
centrales ( M x 10 ). Ce qui nest pas le cas pour le groupe I. Do la
ncessit de calculer dautres indicateurs capables de rendre compte
des carts entre les diffrentes valeurs observes et la valeur centrale.
Ces indicateurs, qui nous informent sur la variabilit des valeurs
observes, sont appels indicateurs de dispersion.
Ltendue
On appelle tendue dune srie statistique, la diffrence entre la plus
leve et la plus faible des valeurs observes, soit :
ex
x
max
min
i laquelle appartient
1
i
leffectif cumul croissant de cette classe, N
leffectif cumul
i 1
Ni1
2
,
05F
Qba4
b
i1
a
1
i
i
i
i
NN
F
F
i
i1
i
i1
i
i 1
N 1
i
5
,
0
F
Qba2
ba
i1
M
2
i
iNN
i
i
1
FF
i
i
i
i1
N Ni1
7
,
05F
Qba4
b
i1
a
3
i
i
i
i
NN
F
F
i
i1
i
i1
N Ni1
1
,
00F
D b a 10
b
i1
a
1
i
i
i
i
NN
F
F
i
i1
i
i1
N Ni1
2
,
00F
D b a 10
b
i1
a
2
i
i
i
i
NN
F
F
i
i1
i
i1
N Ni1
9
,
00F
D b a 10
b
i1
a
9
i
i
i
i
NN
F
F
i
i1
i
i1
N Ni1
,
01F
C b a 100
b
i 1
a
1
i
i
i
i
NN
F
F
i
i 1
i
i1
N Ni1
0
,
02F
C b a 100
b
i1
a
2
i
i
i
NN
F
F
i
i1
i
i1
99
N Ni1
9
,
09F
D
b a 100
b
i1
a
99
i
i
i
i
NN
F
F
i
i1
i
i1
, D ].
1
9
Lcart interdcile est gal : e
D-D.
D
9
1
Lintervalle intercentile, qui contient 98% des observations, est :
[C
, C ].
1
99
Lcart intercentile est gal : e C
-C.
C
99
1
Exemple : Soit la rpartition de 100 individus par classe dges :
Classes
Effectifs
Effectifs cumules
Frquences cumules
dges
croissantes
n i
n
i
F
i
[5 , 10[
11
11
0,11
[10 , 15[
10
21
0,21
[15 , 20[
15
36
0,36
[20 , 30[
20
56
0,56
[30 , 40[
18
74
0,74
[40 , 60[
16
90
0,9
[60 , 80[
10
100
1
total
100
Calculons les quantiles et les intervalles interquartiles.
40
2
,
05
2
,
0 1
Q1
[52[
0 Q 15 5
16 3
,3a
ns
1
1
3
,
06
2
,
0 1
Ce qui signifie que 25% des individus sont gs de moins de 16
ans et 4
mois.
7
,
05
7
,
04
Q [40 6 [
0 Q 40 20
41 2
,5a
ns
3
3
9
,
00
7
,
04
Ce qui signifie que 75% des individus sont gs de moins de 41 ans et
3 mois.
1
,
000
D5
[1[
0 D 5 5
a
5
,
9
ns
1
1
1
,
010
Ce qui signifie que 10% des individus sont gs de moins
de 9 ans et 6
mois.
1
2
3
x x 18 10 ,
8 x x 3 10
,
7 x x 13 10 3
4
5
6
Calculons maintenant la moyenne des six distances :
xxxxxxxxxxxx1
2
3
4
5
5
6
i6
x6x
i
1 i6
1
i 1
( x x) ( 8
7 3 8 7 3) 0
6
6
i
i 1
6
1N
Remarque : On a toujours :
( x x) 0
.
i
Ni 1
Ceci traduit le fait que certains tudiants ont des notes suprieures la
moyenne et dautres ont des notes qui lui sont infrieures (certaines
diffrences sont positives et dautres sont ngatives).
Une premire solution consiste prendre les valeurs absolues de ces
carts et de calculer leur moyenne.
Ecart absolu moyen par rapport la
moyenne
Lcart absolu moyen par rapport la moyenne, not e , dune srie
x
statistique est gal la moyenne arithmtique de la valeur absolu des
carts entre les valeurs observes et leur moyenne.
Cas de donnes non groupes
i N
1
e
x
x
x
i
N i1
Cas de donnes groupes
i p
i p
1
e
nx
x
fx
x
x
i
i
i
i
N i1
i1
Cet indicateur de dispersion tient compte de tous les carts entre
chaque valeur observe et la moyenne. Ces carts sont exprims dans la
42
mme unit que la variable. Le calcul de lcart absolue moyen nest pas
6
On peut calculer maintenant la racine carre de la moyenne des carrs
des diffrences pour retrouver la moyenne des carts par rapport la
moyenne.
1 i6 ( x x)2 40 6,6 3,
67
6
i
i 1
N
N
1
n
V ( x)
n ( x x)2 =
f ( x x)2 o f
i
N
i
i
i
i
i
N
i1
i1
Remarques :
La variance peut tre crite sous une autre forme dite formule
dveloppe :
Cas de donnes non groupes
N
1
V ( x) (
x2)x2
i
N i1
Cas de donnes groupes
43
N
N
1
V ( x)
nx2x2=
fx2
x 2
i
i
i
i
N i1
i1
Cette formule dveloppe de la variance est plus aise retenir et plus
rapide calculer.
La variance dune srie statistique correspond la plus petite des
moyennes des carrs des carts par rapport une constante k :
N
N
1
2
1
V ( x)
( x x)
( x k)2 , k
.
N
i
i1
N
i
i1
La variance dune variable y dfinie par : y ax b , est :
V ( y)
2
a V ( x).
La variance est exprime dans le carr de lunit de la variable. Par
exemple, la variance de la variable ge est exprime en annes au
carr (anne2). Cest la raison pour laquelle on ne doit pas
interprter la variance, mais plutt sa racine carre.
On appelle cart type que lon le note par , La racine carre de la
x
variance. Il est utilis comme un indicateur de la dispersion de la srie
statistique :
V ( x)
x
Lcart type est exprim dans la mme unit de mesure que la
8
( 10)2 1
( 2 10)2 9
( 10)2 1
( 1 10)2
4
5
,
2.
V ( x)
5
,
18
x
La dispersion des notes dans lexemple 1 est deux fois plus importante
que celle de lexemple 2. Le second groupe dtudiant est un groupe
plus homogne que le groupe 1.
44
Exemple 3 :
Soit la rpartition de 100 salaris selon leur salaire mensuel :
Salaire en
Effectifs
Centres de
2
x
xn
2
nx
i
i
i
i
i
(DT)
n
classe xi
i
[200 - 300[
15
250
62500
3750
937500
[300 - 400[
20
350
122500
7000
2450000
[400 - 600[
35
500
250000
17500
8750000
[600- 700[
15
650
422500
9750
6337500
[700 - 900[
10
800
640000
8000
6400000
[900 - 1100[
5
1000
1000000
5000
5000000
Total
100
------51000
29875000
Calculer la variance et lcart type des salaires.
1
6
51000
x
nx
510 D
inars .
100
i
i
i 1
100
1k
1
2
2
2
2
V ( x)
nxx=
29875000 510 38650 (
Dinars)
i
i
Ni 1
100
V ( x)
38650 196 5
,9D
inars.
x
Variance intra-population et variance
inter-populations
On considre une population P de taille N compose de deux
sous-populations : P e
t P . Leffectif et la moyenne de chaque
1
2
sous-population sont :
N,
x p
ou
rP
1
1
1
N,
x p
ou
rP
2
2
2
Ou N N N
1
2
Calculons la moyenne arithmtique de la population P.
On sait que :
i N
i
1
1
1
N
x
x
Nx
x
1
i
11
i
N i1
i1
1
et
45
i N
i
2
2
1
N
x
x
Nx
x
2
i
2
2
i
N
i1
i1
2
La moyenne de la population P est donne par :
1 i N
1 i 1
N
N2
1
x
x
xx
i
i
i
Nx
Nx
11
2
2
Ni 1
Ni 1
i 1
N
Calculons la variance de la population P.
Soit c une constante, on peut crire :
N
N
N
1
1
1
xc 2
x
c
x
x 2
x
x)
(x
c 2
i
N i1
N i1
N i1
iN
1
xx 2
x
c 2
2x
xx
c
i
i
N i1
i N
iN
iN
1
1
xx 2
1
x
c 2
2
x
xx
c
i
i
N i1
N i1
N i1
i N
iN
iN
1
1
xx 2
1
x
c 2
2
x
c
x
x
i
N i1
N i1
N
i 1
i N
Comme x x
0 , on obtient alors :
i
i1
1N
x c2 V ( x) x c2
N
i
i 1
N
1
V ( x)
xc 2
2,
x c
c
N i1
Revenons maintenant au calcul de la variance de la population P.
N
N
N
1
2
1
1
V ( x)
xx
x
x
x
x
i
2
1
i
2
i
2
N i1
N i1
N i1
1
1N
2
Par dfinition la variance de P est donn par : V ( x)
x
x
1
i
1
1
N i1
1
N2
1
2
et celle de P par : V ( x)
x
x
2
i
2
2
N i1
2
N1
N V ( x)
x
x
1
1
i
1 2
i 1
N2
N V ( x)
x
x
2
2
i
2 2
i 1
En utilisant le rsultat prcdent et en prenant c x (o x est la
moyenne de la population P), les deux variances V ( x) et V ( x) peuvent 1
2
tre exprimes sous la forme suivante :
46
1
N
1
1
1N
V ( x)
x
x
x
x
x
x
V ( x)
x
x
1
i
2
1
2
i
2
1
2
1
N
N
1 i1
1 i1
N1
xx
NVx
Nx
x
i
2
()
1
1
1
2
1
i 1
N2
N2
1
1
V ( x)
x
x
x
x
x
x
V ( x)
x
x
2
i
2
2
2
i
2
2
2
2
N
N
2 i1
2 i1
N 2
xx
NVx
N
x
x
i
2
()
2
2
2
2
2
i 1
1
V ( x)
N V ( x) N x x N V ( x) N x x
1
1
1
2
1
2
2
2
2
2
N
1
V ( x)
1
N V ( x) N V ( x)
Nxx
Nxx
1
1
2
2
1
2
1
2
2
2
Moyenne d
es v
ariances
Variance d
es m
oyennes
La moyenne des variances est note par : V ( x).
La variance des moyennes est note par : V ( x) .
La variance totale est dcompose en deux parties :
V ( x) V ( x) V ( x)
Effectifs
en102 Dinars
en102 Dinars
n
i
ni
[4 8[
40
[8 12[
60
[8 12[
30
[12 20[
50
[12 - 28[
20
[20 - 40[
30
1) Calculer la moyenne des salaires pour lentreprise E :
2) Calculer la variance totale des salaires dans lentreprise E.
47
3) Dcomposer la variance totale en variance intra-tablissements et
inter-tablissements. Commenter.
Solution :
Etablissement 1
Classes
n
x
nx
i
i
i
i
n
2
x
i
i
[4 8[
40
6
240
1440
[8 12[
30
10
300
3000
[12 - 28[
20
20
400
8000
Total
90
940
12440
Etablissement 2
Classes
n
x
nx
i
i
i
i
n
2
x
i
i
[8 12[
60
10
600
6000
[12 20[
50
16
800
12800
[20 - 40[
30
30
900
27000
Total
140
2300
45800
1) Calcul de la moyenne des salaires pour lentreprise E :
1 i6
1
X
nx
.
i
i
940 2300 14 0
, 8 102 DT
Ni 1
230
2) Calcul de la variance totale des salaires de lentreprise E :
i 6
1
1
2
2
4
2
4
V ( x)
nxx
1
( 2440 45800) 10 14 0
, 8 10
N
i
i
i 1
230
6
V ( x) 54 9
, 7 10
3) Dcomposition de la variance totale des salaires de lentreprise E :
La variance totale est donne par :
V ( x) V ( x) V ( x)
La moyenne des variances est :
1
V ( x)
N V ( x) N V ( x)
11
22
N
La variance des salaires de ltablissement 1 est :
1
4
2
4
4
V ( x)
12440 10 1 ,
0 444 10 29 1
, 3 10
1
90
La variance des salaires de ltablissement 2 est :
48
1
4
2
4
4
V ( x)
45800 10 1 ,
6 42 10 5 ,
7 26 10
2
140
1
V ( x)
4
90 29 1
, 3 140 5 ,
72)
6 10
2
4,
6 25 10
230
La variance des moyenne est :
j 2
1
1
V ( x)
Nx
x
Nx
x
Nx
x
1
1
2 2 2
2
22
j
j
N
N j1
1
V ( x)
2
2
90 10 4
, 4 140 16 4
,2
4
2
4
4
10 14 0
, 8 10
5
,
8 1 10
230
4
4
V ( x) V ( x) V ( x) (46 2
,5
5
,
8
)
1 10 54 7
, 6 10
La variance des salaires est donc imputable pour une grande partie la
variance intra-tablissement des salaires.
Remarque :
Plus gnralement, La variance totale V ( x) dune population P, de taille
N compose de k sous-populations, P
, P ,..., P , de tailles respectives
1
2
k
N
, N ,..., N , de moyennes respectives
x,
x ,...... ,
x , et de
1
2
k
1
2
k
variances respectives V ( x ,
)V(x,
) ...... ,
V ( x), est donne par :
1
2
k
1K
1K
V ( x)
N V ( x)
Nx
x
k
k
k
k
2
k 1
Nk 1
Variance i
ntra-population
Variance i
nter-populations
K
1
Avec N N N N , et x
Nx
1
2
k
k
k
N k1
Le coefficient de variation
Aussi bien lcart-type que les indicateurs de tendance centrale (mode,
mdiane et moyenne) sont exprims dans la mme unit de mesure de
la variable. Dautre part, lcart-type dpend de lordre de grandeur des
observations de la variable. Ainsi, pour comparer la dispersion de deux
ou plusieurs distributions exprimes dans des units diffrentes, il est
indispensable dutiliser un indicateur de dispersion indpendant de
lunit de mesure et de lordre de grandeur des valeurs observes. Pour
ce faire, on utilise Le coefficient de variation, quon note par : CV( x),
et que lon dfinit par :
CV ( x
x
)
x
Remarque : Le coefficient de variation est un nombre pur sans unit.
Cest un indicateur de dispersion relatif.
Exemple :
Reprenons lexemple de la distribution des salaires dans une entreprise
E, compose de deux tablissements :
49
Etablissement 1
Etablissement 2
Salaires
Effectifs
Salaires
Effectifs
en102 Dinars
en102 Dinars
n
i
ni
[4 8[
40
[8 12[
60
[8 12[
30
[12 20[
50
[12 - 28[
20
[20 - 40[
30
On peut rsumer les caractristiques principales de ces deux
tablissements dans le tableau suivant
Etablissement 1
Etablissement 2
Moyenne
10,44. 102
16,42. 102
Variance
29,13. 104
57,26. 104
Ecart-type
5,39. 102
7,56. 102
Coefficient de
O,51
0,46
variation
La comparaison directe des carts-types indique une dispersion des
salaires plus forte dans ltablissement 2 que dans ltablissement 1
(7,56. 102 contre 5,39. 102).
La comparaison des dispersions partir du coefficient de variation,
indique au contraire une dispersion plus forte (O,51) pour
ltablissement 1, que pour ltablissement 2 (0,46).
En conclusion, on peut dire que les salaires sont plus disperss dans
ltablissement 1 que dans ltablissement 2.
Mesure de la dispersion autour de la
mdiane
Lcart absolu moyen par rapport la mdiane, not e
dune srie
M
statistique est gal la moyenne arithmtique de la valeur absolue des
carts entre les valeurs observes et leur mdiane.
Cas de donnes non groupes
iN
1
e
x
M
M
i
N i1
Cas de donnes groupes
i p
i p
1
e
nx
M
fx
M
M
i
i
i
i
N i1
i1
Cet indicateur de dispersion tient compte de tous les carts entre
chaque valeur observe et la mdiane. Ces carts sont exprims dans la
50
mme unit que la variable.
Remarque :
Pour toute srie statistique on a :
e
e
M
x
x
Moments d'une srie statistique
Moments non centrs
Cas de donnes non groupes
Le moment non centr d'ordre r, quon note m ( x), dune srie
r
statistique est :
iN
1
m ( x)
x
r
ri
N i1
ii)
Cas de donnes groupes
ip
ip
1
m ( x)
nx
fx
r
i
i
r
i
i
N i1
i 1
Remarque :
Le moment non centr dordre 1 est : m x
1
Le moment non centr dordre 2 est : m ( 2
x)
2
Moments centrs
Cas de donnes non groupes
Le moment centr d'ordre r , quon note ( x), dune srie statistique
r
est :
iN
1
r
( x)
( x x)
r
i
Ni 1
i
i
r
i
i
N i1
i 1
Remarque :
Le moment centr dordre 1 est : 0
1
51
Le moment centr dordre 2 est :
V ( x)
2
A partir de la formule dveloppe de la variance, on a :
2
V ( x) m ( m )
2
2
1
En gnral, les moments centrs d'ordre pair donnent une indication
sur la dispersion des observations autour de la moyenne. Les
moments centrs d'ordre impair donnent une indication sur le degr
de symtrie de la distribution.
Exemple : La rpartition de 100 individus par classes dges est donne
par le tableau suivant :
Classes
f
Centres
2
i
nx
nx
n x x n x M
dges
i
i
i
i
i
i
i
i
n
x
i
i
[5 , 10[
11
0,11
7,5
82,5
618,75
258,5
214,5
[10 , 15[
10
0,10
12,5
125
1562,5
185
145
[15 , 20[
15
0,15
17,5
262,5
4593,75
202,5
142,5
[20 , 30[
20
0,20
25
500
12500
120
40
[30 , 40[
18
0,18
35
630
22050
72
144
[40 , 60[
16
0,16
50
800
40000
304
368
[60 , 80[
10
0,10
70
700
49000
390
430
total
100
1
3100
130325
1532
1484
3100
x
31 a
ns
, M 27 a
ns
, e 15 3
,2a
ns
,e
14 8
,4a
ns
100
x
M
V(x) 1303,25 - (31)2 342 2
,
5(
annes)2
342 2
, 5 18
a
5
,
ns
x
On remarque bien que : e
e
M
x
x
Indicateurs de forme
Les polygones des frquences nous livrent une reprsentation
approximative de la distribution relle des frquences. Pour avoir une
ide satisfaisante et plus prcise sur la forme de la distribution, il est
recommand de calculer des indicateurs de forme. On distingue les
indicateurs dasymtrie et les indicateurs daplatissement. Ces
indicateurs sont sans unit de mesure. Ils sont indpendants dun
changement dchelle et/ou dorigine.
Asymtrie
Une distribution est dite symtrique si les observations se rpartissent
dans la mme proportion de part et dautre des trois valeurs centrales
(mode, mdiane et moyenne).
Les mesures d'asymtrie permettent de quantifier le degr de dviation
de la forme de distribution par rapport une distribution symtrique.
i) Le coefficient dasymtrie de Fisher, quon note par :
1
52
moment c
entr d
'ordre 3
3
3
3
(cart - type)
La distribution est dite symtrique dans le cas o
0.
1
La distribution est dite tale gauche dans le cas o
0.
1
La distribution est dite tale droite dans le cas o
0.
1
ii) Le coefficient dasymtrie de Yule, bas sur les quartiles, quon
note par C :
Y
(QQ)(QQ)
3
2
2
1
C
Y
(QQ)
3
1
La distribution est dite symtrique dans le cas o C
0.
Y
La distribution est dite tale gauche dans le cas o C 0 .
Y
La distribution est dite tale droite dans le cas o C
0.
Y
iii) Le coefficient dasymtrie de Pearson, bas sur la moyenne, le
mode et lcart-type, quon note par C :
P
x Mo
C
P
x
La distribution est dite symtrique dans le cas o C
0.
P
moment c
entr d
'ordre 4
4
4
4
(cart - type)
La distribution est dite normale dans le cas o 3 .
La distribution est dite hyponormale (plus aplatie que la normale)
dans le cas o 3 .
La distribution est dite hypernormale (moins aplatie que la normale)
dans le cas o 3 .
ii) Le coefficient daplatissement de Fisher, quon note par :
2
4
33
2
4
53
La distribution est dite normale dans le cas o
0.
2
La distribution est dite hyponormale (plus aplatie que la normale)
dans le cas o
0.
2
Chapitre 4 :
Concentration dune srie statistique
CHAPITRE IV : CONCENTRATION DUNE SERIE STATISTIQUE
56
I.
VALEURS GLOBALES ET VALEURS GLOBALES RELATIVES 56
II.
MEDIALE
57
II.A.
Dfinition
57
II.B.
Dtermination graphique
57
II.C.
Calcul de la mdiale
58
III.
ECART MEDIALE- MEDIANE
59
IV.
COURBE DE CONCENTRATION 60
Dfinition
60
IV.B.
Interprtation
60
IV.C.
Cas extrmes
60
V.
INDICE DE CONCENTRATION DE GINI
61
V.A.
Surface de concentration
61
V.B.
Dfinition de lindice de Gini
61
V.C.
Calcul de lindice de Gini
62
55
Chapitre IV : Concentration dune
srie statistique
Ltude de concentration a pour objet de mesurer et de mettre en
exergue dventuelles ingalits de rpartition dune valeur globale
totale. Cette tude nest pas centre sur lindividu, elle est plutt
globale. Lanalyse porte davantage sur la rpartition de la masse totale.
Elle permet de complter lanalyse de la dispersion relative dune
distribution.
Les
domaines
dapplications
sont
nombreux :
concentration des salaires, des revenus, des superficies agricoles, etc.
Le concept de concentration a t labor dans les annes 1910-1914
par le statisticien italien Corrado Gini (1884-1965).
Ltude de la concentration porte sur toute srie positive La notion de
concentration ne sapplique qu des variables quantitatives continues
valeurs positives cumulables, celles o le cumul a un sens.
La question fondamentale, laquelle on doit rpondre est, par exemple :
La masse salariale totale est-elle rpartie dune manire galitaire ?
Dans le cas o elle sest faite dune manire ingalitaire, on observe un
faible nombre dindividus dtenir une grande partie de cette masse, la
partie restante tant dtenue par un grand nombre dindividus.
Valeurs globales et valeurs globales
relatives
Soit X une variable statistique continue. On considre la srie
statistique correspondante.
On appelle valeur globale associe au couple ( x , n ), le produit dfini
i
i
par :
VG n x
i
i
i
On appelle valeur globale totale, quon note VGT :
p
VGT n x
i
i
i1
On appelle valeur globale relative associe au couple ( x , n ), le
i
i
rapport, quon note qi, dfini par :
xn
q
i
i
i
p
xn
i
i
i1
On appelle valeur globale relative cumule croissante associe la
valeur x , centre de la classe b
b
,
, quon note Q
i 1
i
i
i, :
ji
Q
q
i
j
j1
56
Exemple :
Superficie Centre Effectif
Valeurs
Valeurs
Valeurs
en ha
s
s
globales
globales
globales
relatives
relatives
nixi
cumules
nx
x
i
i
i
ni
q
i
croissantes
nx
i
i
Q
i
[1 5[
3
11
33
0,008
0,008
[5 10[
7,5
12
90
0,022
0,030
[10 20[
15
15
225
0,056
0,086
[20 50[
35
26
910
0,229
0,315
[50 100[
75
36
2700
0,685
1
Total
100
3958
1
On peut interprter la cinquime ligne en disant que les exploitation qui
ont moins de 50 ha se partagent 31,5% de la superficie totale qui est
gale 3958 ha.
Mdiale
Dfinition
On appelle mdiale dune srie statistique, quon note par Mle, la
valeur de la variable telle que :
(
Q Mle)
5
,
0
50%
Dtermination graphique
La mdiale est dtermine graphiquement comme tant labscisse du
point dordonne 0,5 de la courbe des valeurs globales relatives
cumules croissantes. Cette courbe est dfinie en tant quune ligne
brise obtenue sur un repre cartsien, en joignant les points de
coordonnes ( b
,
Q ), o b
i
i
i dsigne la borne suprieure de la classe
b
b
,
et Q
i 1
i
i la valeur globale cumule croissante.
57
Qi
1
Courbe des valeurs globales relatives
cumules croissantes
0,5
0,315
0,086
0,030
0,008
1 5 10 20 50 Mle 100 Classes
Calcul de la mdiale
La mdiale se dtermine, par interpolation linaire, de la mme manire
que la mdiane. Seulement, les calculs ne se font plus sur les
frquences cumules croissantes de la srie statistique, mais sur les
valeurs globales relatives cumules croissantes.
Le calcul de la mdiale passe dabord par la dtermination de la classe
mdiale. Dans un deuxime temps, on dtermine la valeur prcise de la
mdiale par interpolation linaire.
Soit [ b
b
[ la classe mdiale, a lamplitude de la classe mdiane, Q
i 1
i
i
i
la valeur globale relative cumule croissante de la classe mdiale, Q
i 1
la valeur globale relative cumule croissante de la classe qui prcde la
classe mdiale.
Lexpression de la mdiale est alors donne par :
5
,
0
Q
Mle b
i1
a
i1
i
QQ
i
i1
58
Superficie Amplitude
Valeurs
Valeurs
Valeurs
s
globales
globales
globales
en
relatives
relatives
a
n
ha
i
ixi
cumules
nx
q
i
i
i
croissantes
nx
i
i
Q
i
[1 5[
4
33
0,008
0,008
[5 10[
5
90
0,022
0,030
[10 20[
10
225
0,056
0,086
[20 , 50[
0,315
30
910
0,229
Mle
1
5
,
0
[50 , 100 [
2
50
2700
0,685
1
Total
3958
1
Le calcul de la mdiale par interpolation linaire donne :
Mle 50
5
,
00
3
,
0 15
100 50
1
3
,
0 15
5
,
00
3
,
0 15
Mle 50 50
63 5
, ha
1
3
,
0 15
Mle M
Cet cart nous fournit un premier renseignement sur la concentration
dune distribution statistique. Son interprtation se fait par rapport
ltendue de la srie. En dautres termes, on calcule :
M
Intervalle d
ev
ariation
Si
M
est nul.
59
Dans notre exemple, la mdiane est gale :
5
,
00
3
,
08
M 20 30
33 8
,
h
4a
6
,
04
3
,
08
Donc, lcart mdiale-mdiane est :
M 63 5
, 0 33 8
, 4 29 6
,6
29 6
,6
Par consquent, lcart mdiale-mdiane relatif est :
2
,
0
9
100 -1
On peut dire que la concentration est relativement moyenne.
Courbe de concentration
Dfinition
On appelle courbe de concentration (ou courbe de Lorenz), Le polygone
obtenu en joignent, les points de coordonnes( F , Q ), dans un repre
i
i
orthonorm, o les Fi sont ports sur laxe des abscisses et les Qi sur
laxes des ordonnes. Cette reprsentation se fait dans un carr de cte
gal lunit.
Valeurs globales relatives
cumules croissantes
Qi
B
1
Diagonale
Q4
Surface
de
concentration
Q3
S
Courbe de
concentration
Q2
Q
S
1
A
O
F1 F2 F3 F4 1 Fi Frquences cumules croissantes
Interprtation
Plus la courbe de concentration se rapproche de la diagonale, plus la
rpartition est galitaire, et plus la courbe sloigne de la diagonale, plus
la distribution est concentre, cest--dire ingalement rpartie.
Cas extrmes
60
Courbe de concentration
Courbe de concentration
3
Q3
Q2
Q2
Q1
Q
A
1
A
O
O
F1 F2 F3 F4 1 Fi F1 F2 F3 F4 1 Fi Frquences cumules croissantes
Frquences cumules croissantes
Indice de concentration de Gini
Surface de concentration
On appelle surface de concentration, quon note par S, la surface
comprise entre la diagonale principale OB et la courbe de concentration.
Plus la courbe sloigne de la diagonale et plus la surface de
concentration est grande.
Remarque :
La courbe de concentration se situe toujours en dessous de la diagonale
car on a, pour toute valeur de x : F( x)
(
Q x)
Dfinition de lindice de Gini
On appelle indice de Gini (ou indice de concentration), le rapport entre
laire de la surface de concentration et laire du triangle OAB. On le note
par IG. :
61
Aire d
el
as
urface d
ec
oncentra i
t on
S
I
2 S.
G
Aire d
ut
riangl
eO
AB
1
2
Remarque :
Lindice de Gini est compris entre [0 , 1]
Dans le Cas 1, o la courbe de concentration se confond avec la
diagonale, lindice de Gini est gal zro.
Dans le Cas 2, o la courbe de concentration se confond avec les cts OA
et AB du triangle OAB, lindice est gal un.
Plus lindice de Gini tend vers 1, plus la concentration est forte.
Plus lindice de Gini tend vers 0, plus la concentration est faible
Calcul de lindice de Gini
Pour le calcul de lindice de Gini, on retient la mthode des trapzes.
Celle-ci consiste calculer laire de la surface complmentaire S par
rapport laire du triangle OAB. Pour ce faire, il suffit de crer une
nouvelle colonne f ( Q Q ).
i
i
i 1
i
i
i 1
i 1
La surface de chaque trapze est :
g
( rande b
ase petite b
as e )
hauteur
S
i
2
(Q
Q)(FF)
(Q
Q)(f)
i 1
i
i
i 1
i 1
i
i
2
2
Par exemple :
(QQ)(FF)
(f)(QQ)
3
4
4
3
4
3
4
S
4
2
2
62
Qi
1
Q4
Q
Q
3
4
S4
Q2
Q
Q
3
1
f4
F1 F2 F3 F4 1 Fi
Superficie
xi
ni
fi
Fi
nixi
nx
Q
f(QQ)
q
i
i
i
i
i
i 1
en ha
i
nx
( VGi)
ii
[1 5[
3
11
0,11 0,11
33
0,008
0,008
0,00088
[5 10[
7,5
12
0,12 0,23
90
0,022
0,030
0,00456
[10 20[
15
15
0,15 0,38
225
0,056
0,086
0,0174
[20 50[
35
26
0,26 0,64
910
0,229
0,315
0,10426
[50 100[
75
36
0,36
1
2700
0,685
1
0,4734
Total
100
1
3958
1
0,6005
En reprenant notre exemple concernant la rpartition des exploitations
agricoles, lindice de Gini est gal :
I
1
6
,
0 005
3
,
0 995
4
,
0
.
G
Cette valeur indique que la concentration est relativement
moyenne.
63
Chapitre 5 :
Les indices statistiques
CHAPITRE V : LES INDICES STATISTIQUES
65
I.
LES INDICES ELEMENTAIRES 65
I.A.
Dfinition
65
I.B.
Les proprits de lindice lmentaire :
66
I.B.1.
La circularit ou transitivit
66
I.B.2.
La rversibilit :
67
I.B.3.
Autres proprits de lindice lmentaire :
67
II.
LES INDICES SYNTHETIQUES 68
II.A.
64
Chapitre V : Les indices statistiques
Lanalyse conomique et sociale fait appel la comparaison et ltude de
lvolution de grandeurs simples, telles que la production de bl, le prix
de ptrole, .etc. La comparaison peut se faire dans le temps ou dans
100
/
10
x0
La date t 1 est appele date courante ou priode courante, ou encore
situation courante, dans le cas dun indice spatial. La date t 0 est
dite date de rfrence, ou priode de base, ou encore situation de base,
dans le cas dun indice spatial.
Exemple 1:
Le prix dun billet davion Tunis - Toulouse est pass de 310 D en 1985
400 D en 1998.
Lindice de prix dans ce cas est donn par :
65
P
400
98
100
100 107 7
,5
98/85
P
310
85
On dit que le prix dun billet davion a augment de (107,75-100), soit
7,75% entre 1995 et 1998.
Exemple 2:
Le loyer dun studio Tunis est de 240 D, alors qu Bizerte il est de
120 D.
Dans ce cas lindice de loyer entre Bizerte et Tunis est de :
P
120
Bizerte
I
100
100 5 %
0
Bizerte/T n
u is
P
240
Tunis
Donc le loyer dun studio Bizerte est le moiti de celui Tunis.
Les proprits de lindice lmentaire :
La circularit ou transitivit
Cette proprit est intressante dans le cas dun changement de lanne
de base.
Si une grandeur conomique prend les valeurs
x , x et x
0
1
2
respectivement aux dates t
,
0
e
1t2
, lindice lmentaire satisfait :
1
I
I
I
2/0
21
/
/
10
100
Ainsi on a :
I 2/0
I
100
21
/
I
base 1
/
10
base 0
Dmonstration :
x
x
100 x
1
x
x
2
2
1
2
1
I
100
100
100
100
2/0
x
x
100 x
100
x
x
0
0
1
1
0
1
I
I
I
2/0
21
/
/
10
100
Dune manire gnrale :
I
I
I
I
t / t 1
t1/ t 2
t2 / t 3
1/ 0
I
100
t/0
100
100
100
100
Exemple :
Le prix dun bien Z pour trois dates est donn dans le tableau suivant :
66
Date
Prix
1985
150
1990
210
1995
230
Calculons les diffrents indices lmentaires:
210
230
I
100 14 %
0,
I
100 153 3
,
90 / 85
150
95 / 85
150
230
I
100 109 5
,
95 / 90
210
On vrifie que :
1
1
I
I
I
109 5
, 140 153 %
3
,
95 / 85
100
95/ 90
90 / 85
100
Ainsi, pour comparer deux variables entre deux dates, il suffit de faire le
rapport de leur indice.
La rversibilit :
Cette proprit est prenante dans le cas du calcul dindice spatial car le
choix de lespace de rfrence est arbitraire.
La proprit de la rversibilit peut tre prsente sous la forme
suivante :
4
10
4
I
I
10 ou encore I
/
10
01
/
01
/
I/
10
Dmonstration :
x
x
1
0
4
100 100
100 100 10 I
I
/
10
01
/
x
x
0
1
Exemple :
En reprenant les donnes de lexemple prcdent, on peut vrifier que :.
210
150
I
100 14 %
0,
I
100 7 ,
1 42 %
8
90 / 85
85/ 90
150
210
4
I
I
140 7 ,
1 428 10
90 / 85
85 / 90
Autres proprits de lindice lmentaire :
Si a bc alors lindice lmentaire de a est donn par :
1
I
( a) I
( b)
.I
( c).
/
10
/
10
/
10
100
67
Exemple :
Supposons que I
( p) 110% et I
( q) 12 %
0
.
/
10
/
10
La recette tant gale au produit du prix par la quantit , R pq ,
lindice lmentaire de la recette est :
1
1
I
( R) I
( p) I
( q)
110 120
132%
/
10
/
10
/
10
100
100
Entre la date 0 et la date 1 la recette a augment de 32%
b
Si a
, alors lindice lmentaire de a est donn par :
c
I
( b)
I
( a)
/
10
100
/
10
I
( c)
/
10
Les indices synthtiques
Soit G une grandeur complexe compose de plusieurs autres grandeurs
simples :
G1
2
k
g , g , , g
Pour chaque grandeur simple g i , i
,
2
,
1
, k on peut calculer un
indice lmentaire simple :
gi
I
(gi
t
)
10 ,
0
i
,
2
,
1
, k
t/0
gi0
On peut rsumer cette srie dindices lmentaires par un indice
synthtique not I
( G).
t/0
En conomie on sintresse souvent aux variations des prix, des
quantits et de la valeur globale (prix fois quantits). Ainsi, on peut
calculer trois indices synthtiques, savoir lindice des prix, lindice des
quantits et lindice de valeur globale.
Soient
i
i
p , q respectivement le prix et la quantit du bien i la date 0 ,
0
0
et
i
i
p , q respectivement le prix et la quantit du mme bien la date t.
t
t
Considrons un panier compos de k biens.
Les valeurs globales de ce panier values la date 0 et la date 1 sont
donnes respectivement par :
i k
ik
V
et V
pq
t
ii
0
ii
pq
0
0
t
t
i1
i 1
Lindice de la valeur globale est donn par :
68
i k
ii
pq
t
t
V
I
(V)I
(.
p q)
t
100
i 1
100
t /0
t /0
i k
V
i
i
0
pq
0
0
i 1
Par exemple, I
( V ) 130% signifie que la valeur du panier a
t/0
augment de 30% entre la date 0 et la date t. A ce niveau, une question
importante se pose : quelle est lorigine de cette augmentation ?
rsulte-elle de laugmentation des prix, des quantit ou des deux ?
En effet, dans ce cas, plusieurs cas de figures peuvent se prsenter :
les prix augmentent et les quantits restent constantes.
les quantits augmentent et les prix restent constants.
les prix augmentent et les quantits baissent, mais la hausse des prix
lemporte sur la baisse des quantits.
les quantits augmentent et les prix baissent, mais la hausse des
quantits lemporte sur la baisse des prix.
les quantits et les prix augmentent simultanment.
Afin de cerner avec prcision les origines de la variation, on fixe les
quantits et on calcule un indice de prix, ensuite on fixe les prix et on
calcule un indice de quantits
Gnralement, on distingue deux types dindices selon que lon fixe les
quantits ou les prix la date de base 0 ou la date courante t. Dans le
premier cas, lorsque lon fixe les prix ou les quantits la date de
base 0 : on calcule les indices synthtiques de Laspeyres. Dans le
deuxime cas, lorsque lon fixe les prix ou les quantits la date
courante t, on calcule les indices synthtiques de Paasche.
Indices synthtiques de Laspeyres
Indice de prix de Laspeyres:
Cet indice indique lvolution de la valeur dun panier de biens
composition constante. Les quantits fixes sont values la date de
base 0 :
ik
ii
pq
t
0
P
i 1
L
100
t/0
ik
ii
pq
0
0
i 1
100
t /0
i k
ii
pq
0
0
i 1
courante t.
ik
ii
pq
t
t
P
i 1
P
100
t/0
ik
ii
pq
0
t
i 1
100
t /0
i k
ii
pq
t
0
i 1
i
i
pq
i
i
pq
i
W
0
0
et
i
W
t
t
0
i k
t
i k
ii
pq
i
i
pq
0
0
tt
i 1
i 1
Les coefficients budgtaires ont les proprits suivantes :
0W1
i
k
W1
i
i 1
70
Indices synthtiques de Laspeyres et moyenne
arithmtique
Lindice synthtique de Laspeyres peut tre dfini comme tant la
moyenne arithmtique des indices lmentaires pondrs par les
100
t /0
i k
ii
pq
0
0
i 1
i k
i
i
pq
P
t
0
L
100
/0
i k
i 1
ii
pq
0
0
i 1
100
t /0
i k
i
i 1
i
i
p0
pq
0
0
i 1
i
i
i
i k
qp
p
0
0
t
100
i k
i
i 1
i
i
p
pq
0
0
i 1
Ii
(p)
t/O
i
0
W
i k
LP W i I i ( p)
t /0
0
t/O
i 1
i 1
P
100
t /0
i k
ii
pq
0
t
i 1
P
i k
P
i
i
100
t /0
pq
t
t
i 1
1
i k
i
i
pq
1
i k
P
i 1
i
i
100
t /0
pq
t
t
i 1
t
t
i k
i
P
i 1
i
p
100
t /0
t
pq
t
t
i 1
i k
i
i
i
pq
p
t
t
(0
)
i k
i
i 1
i
i
p 1
00
t
pq
t
t
i 1
i
Ii
(p)
t/0
Wt
1
i k
i
1
W
PP
t
i
i 1
I
( p)
t /0
t /0
Limites et extension des indices de laspeyres
et de Paasche
Limites
Les deux indices de Laspeyers et de Paasche ne sont pas rversibles
4
L
L
10
t /0
0/ t
et
4
P
P
10
t /0
0/ t
Ces proprits sont valables pour les deux indices, prix et quantit.
Les indices de Laspeyers et de Paasche ne vrifient pas la proprit de
circularit :
1
L
L
L
t /0
t/t'
t/
'0
100
et
1
P
P
P
t /0
t/t'
t/
'0
100
Dune manire gnrale lindice de Paasche est toujours infrieur ou
gal lindice de Laspeyers.
72
Lindice de Laspeyers surestime lvolution des prix.
Lindice de Paasche sous-estime lvolution des prix.
Indices de Fisher
On peut dfinir un troisime indice, dit indice de Fisher, comme la
moyenne gomtrique des deux indices de Paasche et de Laspeyers.
Lindice de prix de Fisher est donc :
1
P
F
P
L
2
P
L
t /0
P
P
t /0
t /0
P
P
t /0
t /0
Lindice de quantits de Fisher est donc :
1
q
F
P
L
2
P
L
t /0
q
q
t /0
t /0
q
q
t /0
t /0
Proprits de lindice de Fisher
Lindice de Fisher est compris entre ceux de Laspeyers et Paasche
PFL
Lindice de Fisher est rversible :
4
F
F
10
t/0
0/t
Lindice de Fisher nest pas transitif :
1
F
F
F
t /0
t/t'
t/
'0
100
Remarques :
Lindice de la valeur globale ou de la recette totale peut tre exprim en
fonction des trois indices : Laspeyers, Paasche et Fisher
P
q
q
P
P
q
I V I pq
L
P
L
P
F
F
100
100
100
Exemple 1
On dispose des donnes suivantes sur les prix et les quantits de deux
biens en 1995 et 1998 :
Bien 1
Bien 2
Prix
Quantit
Prix
Quantit
1995
10
5
25
10
1998
15
6
32
14
1) Calculer les indices de prix et de quantit de Laspeyers, de Paasche
et de Fisher.
2) Calculer lindice de la valeur globale et vrifier que :
73
p
q
q
p
p
q
I V I pq
L
P
L
P
F
F
100
100
100
1) Le calcul des indices
i2
ii
pq
98
95
p
15 5 32 10
i 1
L
100
100 131 6
,7
98/95
i2
i
i
10 5 25 10
pq
95
95
i 1
i2
ii
pq
95
98
q
10 6 25 14
i 1
L
100
100 136 6
,7
98/95
i2
i
i
10 5 25 10
pq
95
95
i 1
i2
ii
pq
98
98
p
15 6 32 14
i 1
P
100
100 131 2
,2
98/95
i2
i
i
10 6 25 14
pq
95
98
i 1
i2
ii
pq
98
98
q
15 6 32 14
i 1
P
100
100 136 2
,0
98/95
i2
i
i
15 5 32 10
pq
98
95
i 1
p
F
p
P
p
L
131 4
,4
98/95
98/95
98 /95
q
F
q
P
q
L
136 4
,3
98/95
98/95
98/95
On remarque que P F L
2) Lindice de la valeur
i2
ii
pq
98
98
15 6 32 14
I
(V)
i 1
100
100 179 3
,4
98/95
i2
i
i
10 5 25 10
pq
95
95
i 1
p
q
q
p
p
q
LP
LP
FF
I
VI
pq
98/95
98/95
100
100
100
p
q
q
p
p
q
LP
LP
FF
I
VI
pq
98/95
98/95
100
100
100
74
1
1
131 6
, 7 136 2
,0
136 6
, 7 131 2
,2
100
100
179 3
,4
Exemple 2
Bien
1995 : (0)
1998 : (t)
Indices
Indices
lementaires
lementaires
pq
i
i
pq
W
W
pq pq
95 95
98 98
98 95
95 98
p q p q I
()
p
95
98
I
()
q
95
95
98
98
98 8
/5
98 8
/5
A
12
6
15
7
125
116
72
105
0,33
0,37
90
84
B
5
13
8
11
160
84
65
88
0,30
0,31
104
55
C
8
10
10
9
125
90
80
90
0,37
0,32
100
72
Total
217
283
1
1
294
211
1) Le calcul des indices synthtiques
i3
ii
pq
98
95
p
294
i 1
L
100
100 135
98/95
i3
i
i
217
pq
95
95
i 1
i3
ii
pq
95
98
q
211
i 1
L
100
100 97
98/95
i3
i
i
217
pq
95
95
i 1
i3
ii
pq
98
98
p
283
i 1
P
100
100 134
98/95
i3
i
i
211
pq
95
98
i 1
i3
ii
pq
98
98
q
283
i 1
P
100
100 96
98/95
i3
i
i
294
pq
98
95
i 1
p
F
p
P
p
L
134 4
,
98/95
98/95
98/95
q
F
q
P
q
L
96 4
,9
98/95
98/95
98/95
Lindice de la valeur est :
75
i3
ii
pq
98
98
283
I
(V)
i 1
100
100 130 4
,1
98/95
i3
i
i
217
pq
95
95
i 1
3
,
0
(
3 125)
3
,
0
(
0 160)
3
,
0
(
7 125) 130
i3
Lq
WiIi
( q)
98/95
95
98/95
i 1
3
,
0
(
3 116)
3
,
0
(
0 84)
3
,
0
(
7 90) 97
et que :
1
i k
i
1
W
P
98
P
i
i 1
I
( p)
98/95
98/95
1
1
1
1
3
,
0
(
7
)
3
,
0
(
1
)
3
,
0
(
2
)
125
160
125
134
1
i k
i
1
W
q
98
P
i
i 1
I
( q)
98/95
98/95
1
1
1
1
3
,
0
(
7
)
3
,
0
(
1
)
3
,
0
(
2
)
116
84
90
96
76
Chapitre 6 :
Introduction lanalyse des distributions
deux variables
CHAPITRE VI : INTRODUCTION A LANALYSE DES DISTRIBUTIONS A DEUX
VARIABLES 78
I.
PRESENTATION DUN TABLEAU A DOUBLE ENTREE 78
I.A.
Exemple
78
I.B.
Tableau de contingence
78
II.
DISTRIBUTIONS MARGINALES
80
II.A.
Dfinition
80
II.B.
Exemple
80
III.
DISTRIBUTIONS CONDITIONNELLES 85
III.A.
Dfinition
85
III.B.
Exemple
86
IV.
DEPENDANCE ET INDEPENDANCE ENTRE LES VARIABLES X ET Y
87
77
Chapitre VI : Introduction
lanalyse des distributions deux
variables
On considre une population de N individus mesurs simultanment
par les deux caractres X et Y, de modalits x ,.. x
. ,... x
. pour la
1
i
L
variable X et y ,... y ,.... y pour la variable Y. On note par n le nombre 1
j
K
ij
dindividus appartenant la fois une classe de rang i ( pour la
variable X) et une classe de rang j ( pour la variable Y).
Prsentation dun tableau double
entre
Exemple
On considre le tableau suivant, relatif une population de 100
mnages, o X dsigne le nombre denfants du mnage et Y est le
nombre de pices du logement.
Yj
3
4
5
Total
(j)
1
(j)
2
( j 3)
Xi
2(i)
1
15
10
5
30
3(i)
2
30
5
10
45
4 ( i 3)
10
5
0
15
5(i)
4
10
0
0
10
Total
65
20
15
100
Remarques :
La valeur 30 indique que, parmi les 100 mnages observs, il y a 30
mnages qui ont 3 enfants et qui habitent dans des logements de 3
pices.
La valeur 65 indique que, parmi les 100 mnages observs, il y a 65
mnages habitent dans des logements de 3 pices.
La valeur 45 indique que, parmi les 100 mnages observs, il y a 45
78
Y
y
y
y y
j
1
2
j
K
Total
X i
x
n n
n
n
n
1
11
12
1j
1K
1.
x
n n
n
n
n
2
21
22
2j
2K
2.
..
x
n n
n
n
n
i
1
i
i 2
ij
iK
i.
..
x
n n
n
n
n
L
1
L
L 2
Lj
LK
L.
Total
n n
n
n
N
1
.
.2
.j
.K
Les effectifs situs lintrieur du tableau sont nots par n , o n
ij
ij
dsigne le nombre de fois o la modalit x de la variable X et la
i
modalit y de la variable Y ont t observes simultanment.
j
Leffectif n , appel effectif marginal de X, est le nombre total
i.
dobservations de la modalit x de la variable X quelque soit la
i
modalit de la variable :
jK
n
n
i.
ij
j 1
Leffectif n , appel effectif marginal de Y, reprsente le nombre total
.j
dobservations de la modalit y de la variable Y quelque soit la
j
modalit de la variable X :
i L
n
n
.j
ij
i1
Leffectif total de la distribution conjointe, not N, peut tre obtenu
partir de leffectif marginal de X ou bien partir de leffectif marginal de
Y:
i L
jK
i L j K
Nn
n
n
i.
.j
ij
i1
j 1
i1 j 1
Remarque : la distribution conjointe des variables X et Y peut tre
dfinie partir des frquences relatives :
79
n
jK
n
i L
n
i L j K
f
ij
i.
.j
avec f
f ;f
f et f 1
.j
i.
ij
ij
N
ij
N
ij
j 1
N
i1
i 1
j 1
Distributions marginales
Dfinition
A partir de la distribution conjointe des variables X et Y, on peut
dduire la distribution marginale de chacune des deux variables. Ceci
nous permet danalyser sparment la distribution de chacune des
deux variables.
On appelle distribution marginale de la variable X, la donne des L
couples ( x , n ) .
i
i.
On appelle distribution marginale de la variable Y, la donne des K
couples ( y , n ) .
j
.j
Ces deux distributions peuvent se prsenter sous forme de tableaux
statistiques.
Distribution marginale de X
Y
Effectif marginal
j
X
Effectif marginal
i
y
n
1
1
.
x
n
1
1.
y
n
2
.2
x
n
2
2.
..
..
y
n
j
.j
x
n
i
i.
..
..
y
n
K
.K
x
n
L
L.
Total
N
Total
N
Distribution marginale de Y
Remarque : la distribution marginale de chacune des variables X et Y
peut tre dfinie partir des frquences relatives :
n
n
f
i.
.
et
f
j
i.
N
.j
N
Exemple
En reprenant lexemple de la distribution des 100 mnages selon le
nombre denfants du mnage et le nombre de pices du logement, la
distribution marginale selon chacun des deux caractres peut se
80
prsenter de la manire suivante :
Distribution marginale de X
X
Effectif marginal
i
2
30
3
45
4
15
5
10
Total
100
Distribution marginale de Y
Y
Effectif marginal
j
3
65
4
20
5
15
Total
100
Distributions conditionnelles
Dfinition
On appelle distribution conditionnelle de Y pour X x , la distribution
i
x
n
y
n
i
ij
j
ij
x
n
y
n
L
Lj
K
iK
Total
n
n
i
.j
Total
.
Remarque : la distribution conditionnelle de chacune des variables X et
Y peut tre dfinie partir des frquences relatives .
Dans le cas de la distribution conditionnelle de X pour Y y , on a :
j
nij
i L
n
f
f
ij
N
ij
;
f
i
j
1
/
i/j
n
n
f
i 1
.
.
j
j
.j
N
Dans le cas de la distribution conditionnelle de Y pour X x , on a :
i
nij
jK
n
f
f
ij N
ij
;
f
ji
1
/
j/i
n
n
f
j 1
i.
i.
i.
N
Exemple
En reprenant lexemple de la distribution des 100 mnages selon le
nombre denfants du mnage et le nombre de pices du logement, la
distribution conditionnelle de X sachant Y 4 et la distribution
conditionnelle de Y sachant X 3 se prsentent ainsi :
marginale de la variables X.
Lindpendance se traduit en termes de frquences relatives par :
fff
i
,j
ij
i.
.j
Chapitre 7 :
Corrlation et Ajustement linaire
CHAPITRE VII : CORRELATION ET AJUSTEMENT LINEAIRE 89
I.
LA COVARIANCE ENTRE X ET Y
89
I.A.
Dfinition
89
I.B.
Proprits
89
II.
LE COEFFICIENT DE CORRELATION LINEAIRE ENTRE X ET Y
90
II.A.
Dfinition
90
II.B.
Proprits
91
II.C.
Interprtation de la valeur de rx,y
91
III.
AJUSTEMENT LINEAIRE DUN NUAGE DE POINTS 92
III.A.
La droite de rgression de y sur x
92
III.A.1.
Critre des moindres carrs
93
III.B.
La droite de rgression de x sur y
95
IV.
DECOMPOSITION DE LA VARIANCE TOTALE
96
V.
COEFFICIENT DE DETERMINATION 97
V.A.
Interprtation de la valeur de R2
97
VI.
AJUSTEMENT NON LINEAIRE 98
i
) ( cy
d)
(y
c
d
i
)
Ni 1
1 i N
1 i N
( ax ax () cy y
c)
i
i
(
ax
x
i
) .
(
cy
y
i
)
Ni 1
Ni 1
1 i N
a c( x x)( y y
i
i
) a c Co (
v,
x y)
Ni 1
ii)
Co (
v,
y x) Co (
v,
x y)
Dmonstration
1 i N
1 i N
Co (
v,
x y)
( x x () y y)
( y y)( x x) Co (
v,
y x)
N
i
i
i
i
i 1
Ni 1
iii)
Co (
v,
x x) V ( x)
Dmonstration
1 i N
1 i N
Co (
v,
x x)
( x x)( x x)
( x x)2 V( x)
N
i
i
i
i 1
Ni 1
i N
1
iv)
Cov( x, y)
xy.
i
i
x y
N
i 1
Dmonstration
i N
i N
1
1
Cov( x, y)
( x x () y y)
( x y yx xy xy)
N
i
i
i 1
N
i
i
i
i
i 1
i N
i N
i N
i N
1
( x y ) ( yx ) ( xy ) ( x. y)
N
i
i
i
i
i 1
i 1
i 1
i 1
i N
i N
i N
i N
1
( x y ) y( x ) x( y ) ( x. y)
N
i
i
i
i
i 1
i 1
i 1
i 1
N.x
N.y
N . y. x
i N
1
( x y ) N. x. y N. x. y N. y. x
N
i
i
i 1
i N
i N
1
( x y ) N. y. x
( x y ) .
i
i
i
i
x y
N
i 1
Ni 1
v,
x y)
Co (
v,
x y)
r
x, y
x
y
V ( x) V ( y)
La covariance indique le sens de la relation entre les variables X et Y.
Ainsi, On peut distinguer les cas suivants :
Si r
0 , les deux variables varient dans le mme sens.
x, y
Si r
0 , les deux variables varient en sens inverse.
x, y
Si r
0 , les deux variables sont linairement indpendantes.
x, y
Proprits
i)
r
signe d
ea
)s
( igne d
ec
r
ax b c
, y d
x, y
Dmonstration
Cov( ax b, cy d )
( a c) C
. ov( x, y)
r
ax b c
, y d
V ( ax b) V c
(yd)
a V ( x) c V ( y)
( a c) C
. ov( x, y)
( a c) Cov( x, y)
a c V ( x) V ( y)
ac
V ( x) V ( y)
signe d
ea
)s
( igne d
ec
rx, y
r
r
y, x
x, y
Dmonstration
Cov( x, y)
Cov( y, x)
r
r
x, y
y, x
x
y
y
x
r
1
x, x
Dmonstration
Co (
v,
x x)
V ( x)
r
1
x, x
x
x
x
x
1 r 1
Interprtation de la valeur de rx,y
Si r
1 : on dit quil y a une parfaite corrlation linaire positive entre
x, y
les deux variables.
Si r
1
: on dit quil y a une parfaite corrlation linaire ngative
x, y
entre les deux variables.
Si r
0 , on dit quil y a absence de corrlation linaire entre les deux
x, y
variables.
On dit quil y a une forte corrlation linaire entre les deux variables (ou
forte dpendance linaire) si r est proche de 1. En revanche, si r est
proche de zro, on dit quil y a une faible corrlation linaire entre les
deux variables.
Ajustement linaire dun nuage de
points
On considre deux variables statistiques quantitatives x et y et on
sintresse une relation ventuelle entre elles.
La reprsentation du nuage de points peut nous renseigner sur lallure
de la distribution deux caractres. La forme de la relation entre les
deux variables peut tre mise en vidence graphiquement par les
courbes de rgression.
Gnralement, on exprime y en fonction de x, on parle alors de la droite
de rgression de y sur x (ou de y en x). Dans ce cas, on cherche expliquer la variable y
par la variable x. De ce fait, y est dite variable explique ou variable endogne et x est appele
variable explicative ou
variable exogne.
La droite de rgression de y sur x
On considre N observations sur les deux variables x et y. Ces
observations peuvent tre reprsentes par un nuage de points. Dune
manire gnrale, lajustement dun nuage de point par une fonction
mathmatique, revient estimer les valeurs des coefficients de cette
fonction de telle sorte que sa courbe reprsentative se rapproche au
mieux du nuage de points.
Lorsquil sagit dune liaison linaire entre les deux variables, on parle
alors dajustement linaire. Lajustement linaire consiste estimer les
coefficients de la droite de rgression du type y ax b , cest dire trouver la valeur
de a et celle de b.
Cette droite est suppose reflter lvolution moyenne de la variable y
(variable explique) en fonction de la variable explicative x.
La mthode dajustement que nous allons exposer est appele mthode
des Moindres Carrs Ordinaires ou simplement MCO .
Y
Droite de
rgression
yi
i
axi+b
xi
X
Critre des moindres carrs
Considrons N couples dobservations ( x , y ) tels que :
i
i
y ( ax b)
i
i
i
o reprsente le rsidu du couple ( x , y ). On peut alors crire :
i
i
i
y ( ax b)
i
i
i
(y
ax
b 2
)
f ( a, b)
i
i
i
i1
i1
Les deux conditions de premier ordre de la minimisation de cette
fonction f par rapport a et b sont :
i N
iN
2
i 1
0
1
et
0
a
b
iN
e 2 i
iN
iN
i 1
2
( y ax b)
(x)0
(y
ax
b)( x )
0
(1)
i
i
i
i
i
a
i 1
i 1
iN
e 2 i
iN
iN
i 1
2
( y ax b)( )
10
(y
ax
b)
0
(2)
i
i
i
i
b
i 1
i 1
Le dveloppement de ces deux quations nous donne :
i N
i N
i N
i N
)
1
(
(
2
y x ax bx )
2
yxa
xb
x0
(3)
ii
i
i
ii
i
i
i 1
i 1
i 1
i 1
i N
i N
i N
()
2
( y ax b)
ya
x Nb 0
(4)
i
i
i
i
i 1
i 1
i 1
0
N
N
N
Sachant que :
iN
1
iN
1
x
x et que y
y
i
N
i
i 1
N i1
Lquation (4) devient :
y
axb0
(5)
En remplaant, dans lquation (3), b par : y a x (daprs lquation (5)), on a :
iN
iN
iN
yxa
i
i
2
x(yx
a
i
)
x0
i
i 1
i 1
i 1
iN
iN
iN
iN
yxa
i
i
2
xy
i
xx
a
i
x0
i
i 1
i 1
i 1
i 1
Nx
Nx
iN
iN
yxa
i
i
2
x Nx. y aN
i
x2 0
i 1
i 1
iN
i N
y x Nx. y a
i
i
2
xN
i
x2
i 1
i1
i N
x2Nx2
i
i1
et par l la valeur estime de b :
b y x
a
Remarque :
On peut aussi calculer la valeur estime de la pente de la droite de
rgression en utilisant lune de ces deux expressions
i N
( x x)( y y)
i
i
Co (
v,
x y)
i
a
1
ou
a
i N
V ( x)
( x x 2
)
i
i1
Enfin, lquation de la droite de rgression est donne par :
yx
a
b
i
i
Remarque :
La droite de rgression passe par le point moyen de coordonnes ( x, y). En
effet, Comme, b y x
a , on a alors y ax
b
.
Ltude de la droite de rgression de y sur x permet de prvoir y en
fonction x :
y x
a b
ii
i
a
1
'
et b' x a' y
i N
y2Ny2
i
i1
On peut montrer aussi que :
i N
1 i N
( x x)( y y)
( x x)( y y)
i
i
i
i
Co (
v,
x y)
'
i 1
Ni 1
a
i N
i N
2
1
2
V ( y)
( y y)
i
(y
y)
i
i 1
Ni 1
Remarque :
Ltude de la droite de rgression de x sur y permet de prvoir x en
fonction de y :
x a y b'
'
i
i
i
i 1
i 1
iN
iN
iN
yy 2
y
y 2
2
(y
y ) ( y
y)
i
i
i
i
i
i 1
i 1
i 1
)
1
(
(2)
( y y) ( a x b)
( a x b
.
) a(
x x)
i
i
i
(2)
( y y ) ( y y) ( y y) ( y y) a(
x x)
i
i
i
i
i
i
)
1
(
)
1
(
)
2
(
a(
x x)
(y
y)
a(
x
x)
i
i
i
iN
i N
iN
)
1
(
)
2
(
a ( x x)( y y)
a
(x
x 2
)
i
i
i 1
i1
i 1
i N
( x x)( y y)
i
i
i N
i N
or
i
a 1
a
(xx 2
)
( x x)( y y)
i N
i
i
i
2
i1
i
(xx
1
)
i
i1
iN
i N
iN
do )
1
(
)
2
(
a ( x x)( y y
x
xy
y
i
i
) ( )(
i
i
) 0
i 1
i 1
i 1
i N
i N
i N
( y y)2
y
y
y
y
i
i
i 2
i
2
i 1
i 1
i 1
Somme d
es C
arr
s Totale
Somme d
es C
arrs d
es R
sidus
Somme d
es C
arrs E
xplique
S
C
T
S
CR
S
CE
En divisant par les deux membres par N on obtient lquation danalyse
de la variance.
1 i N
1 i N
1 i N
2
( y y)
y
y
y
y
i
i
i 2
i
2
Ni
1
Ni
1
Ni
1
VARIANC
E TOTALE
VARIANCE R
ESIDUELLE
VARIANCE E
XPLIQUEE
Coefficient de dtermination
Lquation danalyse de la variance nous permet davoir une ide sur la
qualit dajustement. Afin de mesurer la qualit de cet ajustement, on
dfini le coefficient de dtermination, not
2
R , par la part de la variance
explique dans la variance totale :
2
VARIANCE E
XPLIQUEE
R
VARIANC
E TOTALE
SCE
SCR
1
SCT
SCT
Remarque :
on peut retenir le coefficient de dtermination comme tant le carr du
coefficient de corrlation linaire entre x et y.
2
Co (
v,
x y)
2
2
R(r)
x, y
x
y
(,)
R
a'
a
V ( x) V ( y)
V ( x)
V ( y)
x
y
Remarque :
r
s
( igne d
e Co (
v,
x y))
a a'
x, y
Interprtation de la valeur de R2
Si
2
R 1 : on dit quil y a dpendance totale ou liaison fonctionnelle
entre les deux variables. Les deux droites de rgression, de y sur x et de
x sur y, sont alors confondues.
Si
2
R 0 , on dit quil y a indpendance totale ou liaison nulle entre les
deux
variables.
Les
deux
droites
de
rgression
sont
alors
perpendiculaires .
Si 0
2
R 1 : on dit quil y a liaison relative entre les deux variables.
On dit que la qualit dajustement est bonne si
2
R est proche de 1. En
revanche, si
2
R est proche de zro, on dit que la qualit de lajustement
est mauvaise.
Exemple :
Cas 1
x
y
2
8
5
12
9
18
11
24
Cas 2
x
y
5
90
8
12
10
1
2
4
9
45
Pour les deux cas, on dtermine les deux droites de rgression, en
utilisant les formules de a , a' , b et b' .
Cas 1 :
1)
y ax b y 7
,
11x
9
,
33
i
i
i
i
2)
x a' y '
bx
5
,
06y
0
,
25
i
i
i
i
Dans ce cas :
a'
a
7
,
11
5
,
06
9
,
0 576
Cas 2 :
1)
y ax b y 5
,
1 x 40 6
,6
i
i
i
i
2)
x a' y '
bx0
,
0 11 y
1
,
74
i
i
i
i
Dans ce cas :
a a'
5
,
1 ( 0
,
01)
1
0
,
0 165
Dans le cas 1, le produit
a
a'
9
,
0 576 est proche de 1 alors que dans
cas 2, le mme produit
a
a'
0
,
0 165 est proche de zro. Lexamen des
donnes (cas 1) montre que x et y varient dans le mme sens et que la
variation de x conditionne celle de y. Par contre, lexamen des donnes
(cas 2) indique que la variation de y est indpendante de celle de x.
Ainsi, on remarque que lorsque les deux variables sont lies entre elles,
le produit
a
a' est proche de 1. Ce mme produit sera proche de zro
dans le cas contraire.
Ajustement non linaire
Lajustement linaire suppose que la forme de la fonction reliant y et x
est linaire du type : y ax b . Cependant, dans dautres cas, la
et
log y
log x
V (log x)
On peut maintenant retrouver la valeur de b et la valeur de a :
log
be
a
a
xemple 2
a
et b y a
z
V ( z)
Remarque :Le choix entre lajustement linaire et lajustement non
linaire peut tre bas sur la forme gnrale du nuage de points. En
effet, si cette forme est linaire on applique directement la mthode des
MCO. Dans le cas inverse (forme de nuage non linaire), on doit au
pralable passer par une transformation approprie afin dobtenir une
relation linaire quon peut estimer par les MCO.
Exemple illustratif du calcul des coefficients de la rgression de Y
sur X ainsi que la dcomposition de la variance totale.
X : note obtenue en test dintelligence.
Y : note obtenue en statistique.
Pour calculer la valeur de at b , on effectue les calculs suivants :
i
x
y
2
2
xy
i
i
x
y
i
i
i
i
1
2
6
4
36
12
2
1
5
1
25
5
3
7
15
49
225
105
4
5
11
25
121
55
5
3
9
9
81
27
Total
18
46
88
488
204
On a :
i N
1
1
i N
1
1
x
x
18
6
,
3x2
x2
88 17 6
,
i
N
i
i1
5
N i1
5
V ( x)
2
x ( x)2 17 6
, 12 9
,6
6
,
44
1 i N
1
i N
2
1
2
1
y
y
46
2
,
9
y
y
488 97 6
,
i
N
i
i 1
5
Ni 1
5
V ( y)
2
y ( y)2 97 6
, 84 6
, 4 12 9
,6
1 i N
1
xy
xy
204 40 8
,
i
i
Ni 1
Co (
v,
x y) xy .
x y 40 8
,
6
,
3
(
)
2
,
9
6
,
78
Co (
v,
x y)
6
,
78
6
,
15
V ( x)
6
,
44
b y
a. x 9
,2 1
6
,53
6
,
3
,26
Donc, la droite de rgression est :
y
6
,
15x
2
,
36
i
i
Signifie que pour celui qui a eu zro en test dintelligence, sa note en
statistique est en moyenne gale 3,26. Un point supplmentaire
obtenu en test dintelligence entrane une augmentation de 1,65 point
de la note en statistique.
Cette droite de rgression nous permet davoir une estimation de la note
en statistique dun individu ayant obtenu 5 en test dintelligence. En
effet, sa note en statistique est estime : 6
,
155
2
,
3 6 11 5
,1
Co (
v,
x y)
6
,
78
r
9
,
09
x, y
7
,
75
x
y
On dit quil y a parfaite corrlation linaire positive entre les deux notes
obtenues.
2
R ( r )2
9
,
08
x, y
Dcomposition de la variance totale
i
y6
,
15x
2
,
3 6 y y
yy
y y
y
i
2
y
i
i 2
i
i
i
i
i
1
6,56
-0,56
0,3136
-2,64
6,9696
2
4,91
0,09
0,0081
-4,29
18,4041
3
14,81
0,19
0,036
5,61
31,4721
4
11,51
-0,51
0,2601
2,31
5,3361
5
8,21
0,79
0,6241
-0,99
0,9801
Total
1,2419
63,162
i N
1
63 1
, 62
N
5
i1
i N
1
,
1 2419
La variance rsiduelle est gale :
y y 2
,
0 25
i
i
N
5
i1
On peut remarquer que La variance totale est gale la somme de ces
deux variances :
VT
VE
VR
1,
2 96
12,89
Bibliographie
Bavaud, F. (1998) Modles et donnes: Une introduction la Statistique
uni-, bi- et trivarie. L'Harmattan, Paris.
Bernard GRAIS (2000), Techniques statistiques , Tome 1 : Statistique
descriptive, Tome 2 : Mthodes statistiques, Editions Dunod, collection
Economie.
Bernard PY (1990), Exercices corrigs de statistique descriptive , 3me
dition Economica.