Vous êtes sur la page 1sur 240

Rpublique Tunisienne

Prsidence du Gouvernement
Ecole Nationale dAdministration
24, Avenue du Dr Calmette Mutuelle-ville 1082 Tunis
Tl. (+216) 848 300 Fax (+216) 794 188
www.ena.nat.tn

STATISTIQUE ET CALCUL DE PROBABILITE


(COURS)
Par
Hassen MZALI
Professeur en mthodes quantitatives

Septembre 2013
1

Introduction
Gnralits
Les statistiques
Le mot statistiques , au pluriel, dsigne lensemble des donnes

chiffres qui regroupent toutes les observations faites sur des faits
relatifs un mme phnomne qui concerne un groupe dindividus ou
dobjets. Ces donnes sont essentiellement tires des recensements de
la population, des dclarations du registre dtat civil ou denqutes
appropries et sont groupes sous forme de tableaux, de graphiques et
dindicateurs statistiques. On trouve des statistiques qui concernent la
dmographie, lemploi, la sant, lindustrie, les transports, le commerce
intrieur, le commerce extrieur, les indices de prix, la finance ..etc.
La statistique
Le mot statistique , au singulier, dsigne la discipline scientifique
constitue par lensemble des procds, des techniques ou des
mthodes danalyse visant, dune part, fournir, au moyen dun
nombre limit de caractristiques, une Description simple et la plus
complte possible dune population envisage sous langle dun
caractre donn. Dautre part, la statistique permet dinterprter les
caractristiques ainsi dtermines afin de tirer des conclusions
concernant la population tudie et de prendre des dcisions.
La statistique, en tant que mthode danalyse des donnes quantitatives
et qualitatives , comporte deux niveaux :
La statistique descriptive, qui consiste en la collecte et la
prsentation de donnes, ainsi que leur premire analyse. Le but est
de reprsenter dune manire comprhensible et utilisable
linformation fournie par les donnes.
La statistique infrentielle ou statistique mathmatique , qui cherche
trouver les caractristiques de la population mre partir des
observations faites sur un chantillon. Elle prend la suite de la
statistique descriptive et fait appel au calcul des probabilits.
Une opration statistique se droule en gnral en 4 tapes :
1. La collecte des donnes. Cette tape peut se raliser de deux manires :

par recensement, auquel cas linformation porte sur la totalit


des individus qui forment la population en question. (exemple : le
recensement de la population et de lhabitat effectu par lInstitut
National de la Statistique, une fois tous les dix ans).

par sondage, auquel cas on se limite une partie de la


population quon appelle chantillon. Un chantillon est un sous
ensemble de la population totale. Il doit tre reprsentatif, cest--dire doit
tre choisi de telle sorte quil ait la mme structure et les mmes
proprits fondamentales de lensemble dont il est issu (population mre).
2
2. La reprsentation et lorganisation statistique des donnes. Cette tape
peut se raliser, soit laide par de graphiques soit laide dindicateurs
statistiques.

3. La modlisation. On distingue deux types de modles : les modles


explicatifs et les modles prvisionnels
4. Linterprtation des rsultats.
Concepts statistiques de base
Population statistique :
Cest lensemble de rfrence, cest--dire lensemble des units
observes, qui constitue lobjet de ltude de la statistique que lon
cherche connatre. (La population des tudiants de luniversit de
Tunis, la population des salaris dune entreprise industrielle). Une
population ne signifie pas exclusivement un ensemble de personnes
physiques, mais peut concerner des personnes morales ou des objets
(entreprises, exploitations agricoles, universits, ampoules, voitures).
Une population doit tre bien dfinie. Sa dfinition est importante car
elle conditionne lhomognit des units observes et aussi la fiabilit
des rsultats.
Individu
Un individu ou unit statistique est tout lment de la population ou de
lchantillon. La totalit des individus correspond la population.
Caractre et modalit
Pour chaque individu extrait dune population ou dun chantillon, on
relve la valeur dune ou plusieurs de ses caractristiques. Le caractre
ou variable statistique est un aspect particulier de lindividu que lon
dsire tudier.
On distingue deux types de caractres : caractre qualitatif et caractre
quantitatif.
Caractre qualitatif ou variable qualitative
Un caractre est dit qualitatif lorsquil est li une observation qui
nest pas mesurable.
(Exemple : lors de ltude de la population estudiantine on peut
sintresser quelques unes de ses caractristique telles que : La
section du baccalaurat ; Le milieu de rsidence (urbain, rural) ; Le sexe
(masculin, fminin) ; La rgion de rsidence (nord, centre, sud) ; Ltat
matrimonial (mari, veuf, divorc, clibataire).
Les modalits dun caractre sont simplement les diffrentes rubriques
dune nomenclature dfinie a priori et associes un caractre
qualitatif. Une modalit est donc une des rponses possibles un
caractre. Par exemple le caractre milieu de rsidence comporte deux
modalits : milieu rural et milieu urbain. Ces modalits doivent former
3
une partition, cest dire doivent tre exhaustives et disjointes : pour
chaque individu on doit pouvoir lui associer une modalit et une seule.
La Nomenclature dsigne lensemble des modalits dun caractre
prcdes dun numro.

Prsentation du tableau statistique associ un caractre


qualitatif
Modalits (numrotes)
Effectifs
Frquences
M
i
ni
fi
M
1 (1)
n1
f1
M
2 (2)
n2
f2
.
.
.
.
.
M
r ( r)
nr
fr
Ensemble
N
1
Leffectif total N est le nombre total dindividus observs
r
Nnnn
n
1
2
r
i

i1
Leffectif ni dune modalit, appel aussi frquence absolue, est le
nombre de fois o la modalit numro i a t observe.
La frquence relative fi dune modalit est le rapport de leffectif ni
leffectif total N
n
n
fi
i
i
r
N
ni
i1
r
f 1
i
i1
Remarque : les frquences relatives peuvent tre exprimes en
pourcentage.
Lorsque les modalits ne permettent pas lexhaustivit, cest dire
lorsquil y a des individus quon ne peut classer dans le tableau, on
peut rajouter une modalit, en bas du tableau, quon appelle autres
ou non rponses
Caractre quantitatif ou variable
quantitative
Lorsque les observations relatives un caractre sont mesurables, le
caractre est dit quantitatif (taille, ge, poids, moyenne du
baccalaurat, superficie du logement,....). A chaque modalit correspond
4
un nombre diffrent.
Exemple : lors de ltude de la population estudiantine, on peut
sintresser quelques-unes de ses caractristique telles que :
Le nombre denfants par mnage, Le nombre dannes dtudes.
nombre de voitures par mnage,)
Lge, le poids, la taille, Le revenu des parents, la facture de
llectricit et du gaz, les dpenses en loyer, )
On distingue deux types de caractres quantitatifs :
Les caractres quantitatifs discrets, auxquels cas, les valeurs
possibles de la variable sont des nombres isols (en gnral des

nombres entiers comme par exemple le nombre denfants dun


mnage, le nombre de voyages effectus ltranger
Les caractres quantitatifs continus, auxquels cas, les valeurs
possibles de la variable sont a priori en nombre infini dans un
intervalle de valeurs (comme par exemple la taille, lge, moyenne du
baccalaurat .)
Remarque : certains caractres discrets sont de prfrence traits en
tant que caractres continus. Exemple : le nombre douvriers dans
chaque entreprise, nombre de places de cinmas associes chaque
salle, .. )
Prsentation du tableau statistique associ un
caractre quantitatif discret
Valeur observes
Effectifs
Frquences
Frquences cumules
x
i
ni
fi
F
i
x
1
n1
f1
F 1=0
x

2
n2
f2
F 2= f 1
.
.
.
F

3= f 1+ f 2
.
.
.
.
.
.
.
x

p
np
fp
Fp
Ensemble
N
1
Frquences cumules croissantes Fi: le cumul des frquences
associes aux valeurs du caractre infrieures strictement la valeur xi
i 1

F
i
f
pour i
,
3
,
2
... p
.
et F 0
j
1
j 1

Prsentation du tableau statistique associ un


caractre quantitatif continu
Classes
Centres
Effectifs
Frquences Frquence cumule
numrote

[bb[
c
n
f
i
i
i
F
i
i 1

i
[b
b[

c
n
f
F
0
1
1
1
1
1= f 1
[b b[

c
n
f
F
1
2
2
2
2
2= f 1+ f 2
[b
b[
.
.
.
F
2
3
3= f 1+ f 2+ f 3
.
.
.
.
.
.
.
.
.
[b
b[

c
n
f
F
p 1


p
p
p
p
p
Ensemble
N
1
Remarque : Par convention, les classes sont fermes gauche et
ouvertes droite. Une classe est dite borne si : b

,b

i1
i
b
b
le centre dune classe borne est :
i 1
i
c

,c
x
i
i
i
2
lamplitude dune classe borne est : a b b
i
i
i 1

6
Loprateur somme
Loprateur (lettre grecque sigma majuscule) permet dcrire de
manire compacte la somme dune variable indice entre deux bornes.
5
On peut par exemple crire : x x x x x

x
1
2
3
4
5
i
i 1
n
Dune manire gnrale : x x x
x
1
2
n
i
i1
Cette formule se lit de bas en haut : somme de i gal 1 i gal n de x
indice i
Remarque : On peut tablir les rsultats suivants :
i n
i n
i n
1)
x
y
(xy)

i
ii
i
i 1

i 1

i 1

i n
2)
a na

i1
i n
i n

3) ( x a)
x
na
i

i
i1
i1
i n
i n
4) ax a
x
i
i
i1
i1
i n
i n
i n
5) x y
x
y
i
i
ii
i1
i1
i1
i n
x
i n

x
i
6)
i
i

i n
i
y
1

i
yi
i1
2
i n
i

n
7)
2
x

x
i

i
i1

i1
i n
i n
i n
i n
8) ( x y 2
)
x2
y 2
2
xy
i
i

i
ii
i1
i1
i1
i1
n
j m
j m i n

i n
j m
j m
i n
9) x y
xy
x
y
y
x
i
j

i
j
i

j
ji
i1
j1
j1
i1
i1
j1
j1
i1

Chapitre 1 :
Sries statistiques un seul caractre
CHAPITRE I : SERIES STATISTIQUES A UN SEUL CARACTERE
9
I. SERIE STATISTIQUE SIMPLE
9
I.A.
Variable discrte
9

I.B.
Variable continue
9
II. PRINCIPALES REPRESENTATIONS GRAPHIQUES
9
II.A.
Cas dune variable qualitative
9
II.B.
Cas dune variable quantitative
11
II.B.1.
Srie statistique discrte
11
II.B.2.
Srie statistique continue
12
II.B.2.a
Principe de construction de lhistogramme
13
II.B.2.b
Polygone des frquences
14
II.B.3.
Frquences cumuls croissantes, fonction de rpartition et diagrammes cumulatif
14
II.B.3.a
Cas dune variable statistique discrte
15
II.B.3.b
Cas dune variable statistique continue
17
8
Chapitre I : Sries Statistiques un
seul caractre
Srie statistique simple
Variable discrte
On appelle srie statistique dune variable discrte tout ensemble de
couples( x , n )
,
1
ou encore ( x , f )
,

1
, o les x
i
i
i
,....p
i
i
i
,....p
i
dsignent les valeurs possibles prises par la variable et les ni les effectifs
correspondants.
Variable continue
On appelle srie statistique dune variable continue tout ensemble de
couples( b
[,b[,
n
)
,
1
ou encore ( b
[ , b [, f )
,1
.
i
i 1

i
,....p
i
i 1
i
i
,....p
Principales reprsentations graphiques
Les tableaux statistiques donnent un premier rsum statistique des
rsultats dune enqute. Cependant, dans le cas o la variable prsente
plusieurs modalits ou dans le cas ou nous avons comparer deux ou
plusieurs distributions, il est prfrable de reprsenter les rsultats
laide de graphiques.
Cas dune variable qualitative
Il y a plusieurs manires de reprsenter graphiquement une variable

qualitative. Le choix du type de la reprsentation graphique dpend des


diffrentes modalits du caractre. On distingue essentiellement le
diagramme circulaire, appel aussi diagramme secteurs et le
diagramme en tuyaux dorgues, appel aussi diagramme bandes ou
encore diagramme en barres.
Exemple : Daprs une enqute mene lEole Suprieure de Commerce
de Tunis, la rpartition de 50 tudiants selon la section du baccalaurat
est reporte dans le tableau suivant :

Section du baccalaurat
Effectifs
Frquences
Angles
M
i
ni
fi
i
Economie et gestion
25
0,5
180
Mathmatiques
15
0,3
108
Sciences exp. et autres
10
0,2
72
Ensemble
50
1
360

Le principe de la reprsentation du diagramme secteurs est le


suivant : effectif total reprsent par un disque, modalit reprsente
par un secteur circulaire dont la surface est proportionnelle la
frquence, angle de chaque secteur est gale :
360 f
i
i
Mathmatiques
30%
Economie et
gestion
50%
Sciences exp. et
autres
20%
Le principe de la reprsentation du diagramme bandes ou en tuyaux
dorgues est le suivant : Association chacune des modalits Mi du
caractre, qui sont places sur un axe horizontal, une bande verticale
ayant une hauteur proportionnelle la frquence fi (ou leffectif ni. ).
Les bases des bandes doivent tre gales et quidistantes.
fi
f1
f3
fi
M1
Mi
M3
10

Concernant lexemple de la distribution de la population active agricole


en Tunisie, la reprsentation par un diagramme en tuyaux dorgue est
la suivante :
fi
0,50

0,30
0,20
0
Eco. et gestion
Maths
Sc. Exp. et autres

Cas dune variable quantitative


Srie statistique discrte
La reprsentation utilise sappelle diagramme en bton.
Il sagit de la figure obtenu sur un repre cartsien en associant
chaque point de coordonns ( xi, 0) un segment vertical dont la longueur
est proportionnelle la frquence fi (ou leffectif ni).

fi ou ( ni)
f1
f4
fi
f2
0
x 1 x 2 x i x 4 Valeurs x i 11

Uniforme
Symtrique
Asymtrique
Lintrt de cette reprsentation est double. Dune part, elle permet de
donner une ide gnrale sur la forme de la distribution. Dautre part,
elle permet de reprer les valeurs aberrantes.
Exemple : La distribution du mme chantillon dtudiants selon le
nombre de personnes par mnage est rsume dans le tableau suivant :

Valeurs
Effectifs Frquences
Frquences cumules
x
i
ni
fi
F
i
1
20
0,40
0
2
15
0,30
0,40
3
10
0,20
0,70
4
5
0,10
0,90
Total
50
1,00
ni
20
15
10
5
0
1234
Diagramme en btons des effectifs
Srie statistique continue
Graphiquement, on reprsente une srie statistique continue par un
histogramme. Il sagit dune figure obtenue sur un repre cartsien en
reprsentant pour chaque classe [ b

b [ un rectangle de surface S
i 1

i
i
proportionnelle leffectif ni ou la frquence fi. Les rectangles de
lhistogrammes sont contigus.
12
Principe de construction de lhistogramme
n
S base hauteur a h n a
* do, h
i

*
ada*
i
i
i
i
i
a
i
i
Le a* est appele amplitude de rfrence. Elle est choisie arbitrairement
de manire faciliter la reprsentation graphique (valeurs sur laxe des
ordonnes).
La hauteur hi est dans ce cas appele effectif corrig quon note par c
n.
i
n
La densit d
i
i dune classe est : d
. Il sagit du nombre dindividus
i
ai
par unit damplitude.
Remarque : on peut utiliser les frquences corriges la place des
effectifs corrigs.
Dans le cas de classes damplitudes gales, il nest pas ncessaire
de calculer les frquences corriges ou les effectifs corrigs. On peut
utiliser directement les effectifs ou les frquences comme hauteurs

des rectangles. En revanche, dans le cas de classes damplitudes


ingales, les hauteurs des rectangles doivent tre proportionnelles
la densit, afin davoir une surface proportionnelle leffectif.
c
c
n o
uf
i
i
h
S
i
i

bi bi+1 Classes
Exemple : La rpartition de 100 individus par classes dges est donne
par le tableau suivant :
Classes
Effectif Amplitudes Densit Effectifs
Frquences Frquences
dges
s
corrigs
a
corriges
i
di
fi
n
c
i
n
c

i
f
i
[5 , 10[
11
5
2,2
22
0,11
0,22
[10 , 15[
10
5
2
20
0,10
0,20
[15 , 20[
15
5
3
30
0,15
0,30
[20 , 30[
20
10
2
20
0,20
0,20
[30 , 40[
18
10
1,8
18
0,18
0,18
13
[40 , 60[
16
20
0,8
8

0,16
0,8
Effectif corrigs
30
22
20
18
8
5
0
2,5 5 10 15 20 30 40 60 80 90
Classes dges
[60 , 80[
10
20
0,5
5
0,10
0,5
Total
100

Remarque : Dans certains cas, la borne infrieure de la premire


classe et la borne suprieure de la dernire classe ne sont pas
donnes. Par convention, on retient comme amplitude de la premire
classe celle de la deuxime classe et comme amplitude de la dernire
classe celle de lavant dernire classe.
Polygone des frquences
Il sagit dune ligne brise reliant les milieux des sommets des
rectangles de lhistogramme. La fermeture se fait par deux points sur
laxe des abscisses situs respectivement un demi-intervalle de la
borne infrieure de la premire classe et de la borne suprieure de la
dernire classe. Dans notre exemple, le polygone des effectifs est
prsent par la ligne en pointille gras.
Frquences cumuls croissantes, fonction de
rpartition et diagrammes
14

cumulatif
On appelle fonction de rpartition dune variable statistique quantitative
toute application dfinie par :
F:

0
,

1
x
F ( x ) prop (
Xx)
i
i
i
F ( xi) est gale la proportion des individus ayant une valeur du
caractre strictement infrieur xi.
Cas dune variable statistique discrte
On donne, dans le tableau suivant, la distribution du mme
chantillon dtudiants selon le nombre de personnes par mnage.

Frquence
Effectifs
Frquences
x
cumule
i
n
i
fi
F
i
20
0,40
0

1
15
0,30
0,40
2
10
0,20
0,70
3
5
0,10
0,90
4
50
1,00
Ensemble
F)
1
( prop( x )
10
F
)
5
,
1
(
prop( x
)
5
,
1
prop( x )
1,
0 40
F()
2 prop( x )
2 prop( x )
1,
0 40
F(
)
5
,

2
prop( x
)
5
,
2
prop( x )
1 prop( x )
2
7
,
00
F)
3
(
prop( x )
3 prop( x )
1 prop( x 2) ,
0 70
F()
4 prop( x )
4 prop( x )
1 prop( x 2) prop( x )
3
9
,
00
Ainsi, la formulation de la fonction de rpartition de cette distribution
statistique est :

0
s
ix1
,
04
0s
i1
x2

F,
07
0s
i2

x3
9
,
0
0s
i3
x4

1
s
ix4
15
La reprsentation graphique de la fonction de rpartition, appele
Fi
100%
0,90
0,70
0,40
0 1 2 3 4 xi diagramme cumulatif ou diagramme intgral, est :
Ce diagramme permet de visualiser lvolution des frquences cumules
lies aux valeurs de la variable. Le caractre tant discret, la courbe des
frquences cumules croissante est la reprsentation graphique dune
fonction en escalier.
Dune manire gnrale, La fonction de rpartition est constante par
intervalle. Sa formulation est la suivante :

0
x
x1
f x
xx
1
1
2

f
f
xxx
1
2
2
3
F
:

f
f
....... f x
xx
1
2
1
p
p1
p

1
x xp
La reprsentation graphique de la fonction de rpartition, appele
diagramme intgral, est :
Fi
100%
Fp- 1
F2
F1
0 X 1 X 2 X p-1 X p valeurs xi 16

Lintrt de la reprsentation graphique est quelle permet de retrouver


pour toute valeur de xi donne, la proportion des individus ayant une

valeur de la variable strictement infrieure xi.


Cas dune variable statistique continue
Classes
Effectifs
Effectifs cumuls Frquences Frquences cumules
dges
croissants
relatives
n
croissantes F
i
i
n
fi
i
F( b )
i
[5 , 10[
11
11
0,11
0,11
[10 , 15[
10
21
0,10
0,21
[15 , 20[
15
36
0,15
0,36
[20 , 30[
20
56
0,20
0,56
[30 , 40[
18
74
0,18
0,74
[40 , 60[

16
90
0,16
0,9
[60 , 80[
10
100
0,10
1
total
100
1
La lecture des frquences cumules croissantes se fait par rapport la
borne suprieure de chaque classe.
La reprsentation graphique de la fonction de rpartition appele courbe
cumulative est la suivante :
Dune manire gnrale, la courbe cumulative, dans le cas dune
variable continue, est une ligne brise obtenue en joignant diffrents
points de coordonns ( b ,
F ) o bi dsigne la borne suprieure de la
i
i
classe i, et Fi la frquence cumule croissante correspondante.
17

Fi
1
0,90
0,74
0,56
0,36
0,21
0,11
0 5 10 15 20 30 40 60 80 Classes
dges
Remarque : on peut aussi reprsenter graphiquement la courbe des
frquences cumules dcroissantes, lesquelles sont dfinies par la
proportion des individus ayant une valeur du caractre suprieure ou
gale la borne infrieure de la classe i.

18

Chapitre 2 :
Les paramtres de position dune srie
statistique
CHAPITRE II : LES PARAMETRES DE POSITION DUNE SERIE STATISTIQUE 20
I. LE MODE
20
I.A.
Cas dune variable discrte
20
I.B.
Cas dune variable continue
21
I.B.1.
Cas damplitudes identiques
21
I.B.2.
Cas damplitudes ingales
22
II. LA MEDIANE
24
II.A.
Cas dune variable discrte
24
II.B.
Cas dune variable continue
27
III.
LA MOYENNE ARITHMETIQUE
29
III.A.1.
Cas de donnes non groupes
29
III.A.2.
Cas de donnes groupes
29
IV.
AUTRES MOYENNES
31
IV.A.

La moyenne gomtrique
31
IV.A.1.
Cas de donnes non groupes
31
IV.A.2.
Cas de donnes groupes
31
IV.B.
La moyenne harmonique
33
IV.B.1.
Cas de donnes non groupes
33
IV.B.2.
Cas de donnes groupes
33
IV.C.
La moyenne quadratique
34
IV.C.1.
Cas de donnes non groupes
34
IV.C.2.
Cas de donnes groupes
34
19
Chapitre II : Les paramtres de
position dune srie statistique
La reprsentation graphique dune srie statistique nous donne une ide
assez gnrale sur la distribution. Pour confirmer certaines impressions sur
la srie et pour en donner plus de prcision, nous serons amens trouver
une ou plusieurs valeurs centrales de la variable, capables de rsumer la
srie en caractrisant lordre de grandeur des observations. De telles valeurs
centrales sont appeles paramtres de tendance centrale ou caractristiques
de position. Un indicateur de position doit tre dfini de manire rigoureuse
et objective, doit tenir compte de lensemble des observations de la srie et
doit tre exprim dans la mme unit que la variable.
Le mode
On appelle mode ou valeur dominante dune srie statistique la valeur
observe de la variable ayant le plus grand effectif (ou la frquence la
plus leve). On note gnralement le mode MO.
Remarques :

Le mode est exprim dans la mme unit que la variable.


Si toutes les modalits ont la mme frquence alors la distribution
statistique ne possde pas de mode. On parle alors de distribution
uniforme.
Lorsquune srie possde un seul mode, on dit que la distribution est
unimodale. En revanche, lorsquelle en possde deux ou plusieurs elle est
respectivement qualifie de bimodale et multimodale.
Le calcul du mode dpend de la nature de la variable, discrte ou continue.
Cas dune variable discrte
Exemple 1 :
On considre les notes obtenues en statistique par un groupe de 20
tudiants : 7, 13, 5, 15, 12, 9, 7, 8, 14, 16, 13, 6, 13, 10, 13, 12, 10, 7,
12, 13.
Le mode de cette srie correspond la note la plus frquente, soit
M 13, valeur qui apparat cinq fois. Linterprtation en est que la
0
note la plus frquente est 13.
Exemple 2 :
On considre une distribution statistique dune population de 100
mnages selon le nombre denfants :
20
Valeurs
Effectifs Frquences
x
i
ni
fi
1
32
0,32
2
16
0,16
3
23
0,23
4
29
0,29
Total
100
1,00

Le mode de cette srie est : Mo=1. Il signifie que la plupart des mnages
ont un seul enfant.
Graphiquement, le mode correspond labscisse du bton le plus lev.
ni
32
29
23
16
0
1234
M
o
Cas dune variable continue
Dans le cas dune variable continue groupe en classes, on parle plutt
de classe modale. La classe modale est la base du rectangle ayant la
hauteur la plus leve.
Cependant, on distingue deux cas selon que les amplitudes des classes
sont gales ou ingales.
Cas damplitudes identiques
Dans ce cas, la classe modale est la classe deffectif ni le plus lev, soit
[ b b [ . Leffectif de la classe qui prcde la classe modale est n
et
i 1

i
i 1

celui de la classe qui suit la classe modale est n


. La dtermination du
i 1

mode partir de la classe modale se fait de la faon gnrale suivante :

bmbm
1
i 1

2
i
1
Mb
a

0
i 1

i
m m
mm
1
2
1
2
avec :
bi-1 : borne infrieure de la classe modale
bi : borne suprieure de la classe modale
21
ai : amplitude de la classe modale
mnn
1
i
i 1

mnn
2
i
i 1

Exemple : Soit la distribution de la population de 20 mnages selon le


revenu des deux parents :
Classe de
Amplitudes
Effectifs
Frquences
Revenu en DT
n
f
i
i
[200-300[
100
40
0,20
m1
[300-400[

100
60
0,30
m2
[400-500[
100
30
0,15
[500-600[
100
50
0,25
[600-700[
100
20
0,10
Total
200
1
La classe modale est la classe ayant la frquence la plus leve. Cest la
classe 3
[ 00 40 [
0 dans notre exemple. Dans ce cas, le mode est calcul
par :

60 40

M 300 100
340 D
T.
0
(60 4 )
0 (60 3 )
0

On interprte en disant que le salaire le plus frquent est de 340 Dinars.


Remarque : On peut aussi utiliser les frquences relatives au lieu des
effectifs.
Dans ce cas, on aura :

3
,
00,
0 20


M 300 100
340 D
T.
0
( 3
,
00,
02)
0(3
,
001
,
0
)
5

Cas damplitudes ingales


Dans le cas o les amplitudes sont diffrentes, la classe modale est la
classe de densit (ou de frquence corrige) la plus leve, ou encore
deffectif corrig le plus lev.

bmbm
Le mode est donn par :
1
i 1

2
i
1
Mb
a

0
i 1
i
m m
mm
1
2
1

2
bi-1 : borne infrieure de la classe modale
bi : borne suprieure de la classe modale
ai : amplitude de la classe modale
22
mhh
,(
c
c
m n n );
1
i
i 1

1
i
i 1

mhh,(
c
c
mnn)
2
i
i 1

2
i
i 1

o h , h e
th
sont les effectifs corrigs
i
i 1

i 1

Classes
Amplitudes
Effectifs
Frquences

numrote
corriges
c
[b
b
[
a
i
ni
i 1

i
c
f ou h
i
i
[bb
[

a
n
f c ou h
0
1
1
1
1
1
[bb
[

a
n
f c ou h
1
2
2

2
2
2

.
c
n
c
f ou h
i 1

i 1

i 1

m1
[b
b
[
a
c
n
c
f o
uh
i 1

i
i
i
i
i
m2

.
c
n
c
f
o
uh
i 1

i 1

i 1

[b
b
[
a
c
n
c
f o
uh
p 1

p
p
p
p
p
Ensemble
N
1
E ffe c t i f c o r r i g s
D e n s i t s o u e ff e c t i fs c o r r i g s

o u fr q u e n c e s c o r r ig e s
Dterminationgraphiquedumode
hi
m 2
m
h
1
i+1
h i-1
0
b i-1 M o b i
Classes
Exemple : Soit la rpartition de 100 personnes selon leur ge :
23
Classes
Effectifs Amplitudes Densits
Effectifs corrigs
dges
n
c
i
ai
di
n o
uh
i
i
[5 , 10[
11
5
2,2
22
[10 , 15[
10
5
2
20
[15 , 20[
15
5
3

30
[20 , 30[
20
10
2
20
[30 , 40[
18
10
1,8
18
[40 , 60[
16
20
0,8
8
[60 , 80[
10
20
0,5
5
total
100

La plus grande hauteur appartient la classe 1


[52[
0 . Donc :
M1
[52[
0
0

30 20

15 10 20 10
et M 15 5
17 5
,
0
3
(02)
0 (30 2 )
0

10 10

On interprte en disant que lge observ le plus frquemment est denviron


17ans et 6mois.
Remarque : On peut aussi utiliser les frquences corriges la place
des effectifs corrigs. Dans ce cas on aura

3
,
0,
02

15 1
,
0 0 20 1
,
00
M 15 5
17 5
,
0
( 3
,
0,
0 2) ( 3
,
0,
0)
2
1
,
01
,
0

La mdiane
Soit une srie statistique ordonne par valeurs croissantes ou
dcroissante. La mdiane, note gnralement Me , est la valeur de la
variable qui partage la population en deux groupes deffectifs gaux. En
dautres termes, la mdiane est la valeur de la variable situe au
milieu dune srie ordonne telle que la moiti des individus prenne
une valeur qui lui soit infrieure, lautre moiti prenant par consquent
une valeur qui lui soit suprieure.

Comme pour le mode, le calcul de la mdiane dpend de la nature de la


variable, discrte ou continue.
Cas dune variable discrte
La dtermination de la mdiane dune srie statistique ncessite dabord
de ranger par ordre croissant (ou dcroissant) les valeurs observes.
Si la srie comporte un nombre impair de valeurs, soit N valeurs, la
N1
mdiane sera la valeur de rang (
)
2
.
Si la srie comporte un nombre pair de valeurs, on parle dintervalle
mdian. Ce dernier est dfini par :
N
N
]la (
) ime valeur , la (
)
1 ime valeur].
2
2
24
Toute valeur appartenant cet intervalle fait fonction de mdiane.
Remarque : certains proposent de choisir comme mdiane le centre de
lintervalle mdian. La mdiane, dans ce cas, nest pas forcment une
valeur observe.
Exemple 1 :
On considre la rpartition de 9 mnages selon le nombre denfants par
mnage.
nombre denfants
0
0
1
1
2
3
3
3
4
par mnage
Rang (ordre
1
2
3

4
5ime
6
7
8
9
croissant)
4 observations
M
4 observations
La mdiane, dans ce cas, correspond la cinquime valeur : M 2
enfants par mnage. On dit quil y a autant de mnage qui ont moins de
2 enfants que de mnage qui ont plus de 2 enfants.
Exemple 2 :
On considre la rpartition de 10 mnages selon le nombre denfants
par mnage.
nombre denfants
0
0
1
1
2
3
3
3
4
4
par mnage
Rang (ordre
1
2
3
4
5ime 6ime
7
8
9
10
croissant)
4 observations
Intervalle
4 observations
mdian
Dans ce cas on parle plutt dintervalle mdian ]2 , 3], correspondant

la ]cinquime valeur , sixime valeur].


Remarque : certains retiennent comme valeur mdiane le centre de
23
lintervalle mdian, soit M

e
5
,
2
nfants. Cette valeur ne
2
correspond pas une valeur rellement observe.
Exemple 3 :
nombre denfants
0
0
1
1
2
2
3
3
3
4
par mnage
Rang (ordre
1
2
3
4
5ime 6ime
7
8
9
10
croissant)
4 observations
Intervalle
4 observations
mdian
Dans le cas de cette distribution statistique, lintervalle mdian est :
]2 , 2]. La valeur mdiane est donc gale 2 .
Les reprsentation groupe des donnes des exemple 2 et 3 nous
donnent les deux tableaux suivants :

25
Exemple 2
x
Effectifs
Frquences Frquences cumules
i
n
i
fi
F
i
0
2
0,2
0
1
2
0,2
0,2
2
1
0,1
0,4
3
3
0,3
0,5
4
2
0,2
0,8
Ensemble
10
1

Fi
1
0,8
0,5
0,4

0,2
0 1 2 3 4 xi Intervalle mdian
Exemple 3
x
Effectifs
Frquences
Frquences cumules
i
n
i
fi
F
i
0
2
0,2
0
1
2
0,2
0,2
2
2
0,2
0,4
3
3
0,3
0,6
4
1
0,1
0,9
Ensemble
10
1
26

Fi

1
0,9
0,6
0,5
0,4
0,2
0 1 M =2 3 4 xi
Cas dune variable continue
Il ny a aucune diffrence de calcul pour la mdiane selon que les
classes sont damplitudes constantes ou variables.
Le calcul de la mdiane dans le cas de variable continue passe, dabord,
par la dtermination de la classe mdiane. Ensuite, par interpolation
linaire, on peut calculer la valeur prcise de la mdiane lintrieur de
la classe mdiane.
Soit [ b
b
[ la classe mdiane, a lamplitude de la classe mdiane, N
i 1

i
i
i
leffectif cumul croissant de la classe mdiane, N
leffectif cumul
i 1

croissant de la classe avant la classe mdiane et N leffectif total.


Lexpression de la mdiane est donne par :
N

Ni1
M b
a2

i1
iNN
i
i1

La mme dmarche pourrait tre utilise en remplaant les frquences


absolues par les frquences relatives :

5
,
0
F
i 1
M b

a
,
i 1

FF
i
i 1

o F dsigne la frquence cumule croissante de la classe mdiane,


i
F
la frquence cumule croissante de la classe qui prcde la classe
i1
mdiane.
Exemple : En reprenant notre exemple sur la rpartition des 100
individus selon leur ge :
27
Classes
Effectifs Effectifs cumule
Frquences
Frquences
dges
n
croissants
cumules
i
fi
n
croissantes
i

F
i
[5 , 10[
11
11
0,11
0,11
[10 , 15[
10
21
0,10
0,21
[15 , 20[
36

50
2
[20 , 30 [
20
56
[30 , 40[
18
74
0,18
0,74
[40 , 60[
16
90
0,16
0,9
[60 , 80[
10
100
0,10

1
Total
100
1
Le calcul, par interpolation linaire, de la mdiane donne :
20 ------ 0,36
M 20
5
,
00
3
,
06
M ------ 0,50

30 20
5
,
06
3
,
06
30 ---- ---- 0,56
Ou encore, en utilisant les effectifs cumuls croissants :
20 -------- 36
M 20
50 36
M ------- 50

30 20
56 36
30 --------- 56

Fi
1
0,9
0,74
0,56
0,5

0,36
0,21
0,11
0 5 10 15 20 M 30 40 60 80 Classes
28
N
Dans notre exemple :
50 . La classe mdiane est la classe laquelle
2
appartient la valeur mdiane, cest dire la classe [20 3 [
0 , do :
50 36
M 20 10
2a
7 ns
56 36
Cest dire que 50% des individus sont gs de moins de 27 ans.
La moyenne arithmtique
La moyenne arithmtique, dite simplement moyenne est note x , est la
caractristique de tendance centrale la plus usuelle.
Cas de donnes non groupes
En entend par donnes non groupes, celles qui ne sont pas prsentes
dans un tableau statistique.
Soit une srie statistique de N observations : x
,x
, x ,
, x . La
1
2
3
n
moyenne arithmtique (appele simple) de ces observations est donne
par :
i N
x
xxxx
i
x
1
2
3
n
i

1
N
N
Exemple :
On observe les notes en statistique dun groupe dtudiants :
14, 16, 12, 9, 11, 16, 7, 9, 7, 9. La moyenne simple de ces notes est :
14 16 12 9 11 16 7 9 7 9
x
11
10
Cas de donnes groupes
Dans le cas dune variable discrte :
i p
nx
nxnxnxnx
i
i
x
1
1
2
2
3
3
p
p
i

1
N
N
o x , e
tn
,i
,
2
,
1
, p reprsentent respectivement la valeur du
i
i
caractre et leffectif correspondant, et p est le nombre de valeurs prises

par la variable.
Dans le cas dune variable continue, o les donnes sont groupes en
classes, on applique la mme formule, en remplaant les valeurs x par
i
29
ip
i p
nc
nx
iiii
les centres de classes. Dans ce cas on a : x
i 1
i

1
N
N
Exemple : soit la distribution par classe dges suivante :
Classes dges
f
Centre de
i
nx
i
i
Effectifs
classe
n
c
i
i
( not aussi) xi
[5 , 10[
11
0,11
7,5
82,5
[10 , 15[
10
0,10

12,5
125
[15 , 20[
15
0,15
17,5
262,5
[20 , 30[
20
0,20
25
500
[30 , 40[
18
0,18
35
630
[40 , 60[
16
0,16
50
800
[60 , 80[
10
0,10
70
700
total
100
1
3100
3100
Lge moyen est donn par : x
31 a
ns
100
Remarques :
La somme des carts la moyenne arithmtique est nulle :
N
pour des donnes non groupes
x

x
. En effet :

i
0
i i
N
i N
i N
i N
x x
x
x
x
N. x
N. x
N. x
0
i

i
i i
i1
i1
i1
N
pour des donnes groupes en classes, On a n c
x
.
i

i
0
i i
i N
En effet : n c N. x N. x N. x 0
i
i
i1
La moyenne arithmtique x dune population deffectif N compose de k
sous-populations deffectifs N et de moyenne x est gale :
k
k

i p
Nx
N x .... N x
i
i
x
1
1
p
p
i

1
N
N
La moyenne arithmtique est le critre le plus frquemment utilis pour
dfinir une valeur moyenne dobservations dune variable additive comme
par exemple : la taille, le poids, lge, ...etc. Il y a dautres variables dont
le calcul de la moyenne se traite autrement, comme, par exemple, le taux
de chmage ou dinflation, le taux de change, la vitesse sur diffrents
parcours, ...etc.
30
Autres moyennes
La moyenne gomtrique
La moyenne gomtrique dune variable, note gnralement G , est
gale la racine N- ime du produit des N valeurs observes de cette
variable. Elle est utilise souvent dans le calcul des taux de croissance
moyens et de certains indices statistiques synthtiques.
Cas de donnes non groupes
La moyenne gomtrique simple est donne par :
N
G
x.x.x.
.
x
1
2
3
n
Cas de donnes groupes

La moyenne gomtrique pondre est dfinie par :


1
n
n
n
n
N
p
p
G
x 1.x 2.x 3.
.
x
x 1.x 2.x 3.
.
x
1
2
3
p
nnn
n
1
2
3
p
N
La moyenne gomtrique peut tre exprime en fonction des frquences
relatives de la manire suivante :
n
n
n
np
1
2
3
f
f
f
fp
N
N
N
N
Gx.x.x.

.
x
x 1.x 2.x 3.
.
x
1
2
3
p
1
2
3
p
Remarques :
Le logarithme de la moyenne gomtrique est gale la moyenne
arithmtique des logarithmes des xi .
En pratique, le calcul de la moyenne gomtrique passe par le
logarithme. Ainsi, dans le cas des donnes non groupes, on a :
N
1
lnG
lx
n
i
N i1
et dans le cas des donnes groupes par classes, on a :
p
1
lnG
nlx
n
i
i
N i1
La moyenne gomtrique est utilise quand les valeurs de la variable sont
lies de faon multiplicative les unes aux autres.
La moyenne gomtrique dun produit de deux variables est gale au
produit de leurs moyennes gomtriques.
La moyenne gomtrique dun rapport de deux variables ( 0 ) est gale au
rapport de leurs moyennes gomtriques.
Exemple :
Ltude des bnfices dune entreprise sur 5 ans montre que les
31

bnfices ont augment de 6% pendant les deux premires annes, de


10% pendant les deux annes suivantes et de 8% pendant la dernire
anne. Quel est laugmentation moyenne sur 5 ans ?
En utilisant la moyenne arithmtique des taux observs, et en
dsignant par x , le taux moyen ainsi dfini, on obtient :
2 6% 2 10% 1 8%
x
8%
5
Mais ce rsultat est un rsultat erron. En effet :
Soit F le bnfice de lentreprise au dbut de la priode dtude.
0
- A la fin de la premire anne le bnfice augmente de 6%. Il est gal
FF0
,
16
1
0
- A la fin de la deuxime anne :
2
FF0
,
16F
0
,
1
(
6)
2
1
0
- A la fin de la troisime anne : F F 1
,
10F
0
,
1
(
)
621
,
1
3
2
0
- A la fin de la quatrime anne :

2
2
FF1
,
10F,
1
(0)
6

)
1
,
1
(
4
3
0
- A la fin de la 5ime anne : F F 0
,
18F
0
,
1
(
)
62
)
1
,
1
(
20
,
18
5
4
0
Le taux de croissance annuel moyen, c , doit satisfaire la relation :
5
FF 1
( c)
5
0
On peut alors crire :
2

2
5
FF
0
,
1
(
)
6
)
1
,
1
(
0
,
18F 1
( c)
5
0
0
2
2
5

0
,
1
(
)
6

)
1
,
1
(
0
,
181
( c)
1
0
,
1
(

)
62
)
1
,
1
(
20
,
1 85 1 c
(Cest lcriture de la moyenne gomtrique des augmentations)
2
2
1

ln( 0
,
1
)
6
ln( )
1
,
1

ln( 0
,
1
)
8 ln 1
( c)
5
5
5
2 ln( 0
,
1
)
6 2 ln(
)
1
,
1
ln( 0
,

1 8)

ln 1
( c)
5
0
,
0 7682 ln 1
( c)
0,07682
e
1c
c
0
,
0 798
ln 1
( c) apparat ainsi comme la moyenne arithmtique des
logarithmes des taux de croissance. 1
( c) est donc la moyenne
gomtrique des diffrents taux de croissance du bnfice.
On peut dire que laugmentation annuelle moyenne est de
9
,
7
%
8
32
La moyenne harmonique
La moyenne harmonique, note H, est gale linverse de la moyenne
arithmtique des inverses des valeurs :
Cas de donnes non groupes
N
1
H

i N
i N

1
1
1
( )

i1
x
N i1 x
i
i
Cas de donnes groupes
1
1
H

i p
i
1
n
pf

i
i


N i1 x
i

1
x
i
i
Remarques :
Linverse de la moyenne harmonique est gale la moyenne arithmtique
des inverses des x .
i
La moyenne harmonique est gnralement employe lorsque la variable
observe est gale au rapport de deux variables exprimes dans deux
units diffrentes, par exemple le prix dun bien exprim en units
montaires par unit de bien, la vitesse exprime en units de distance
par unit de temps.
Exemple :
Un tudiant a consacr la mme somme de 36 D pendant trois ans

lachat de livres aux prix respectifs de 4 D, 6 D et 9 D le livre.


Dans ce cas le prix dachat moyen dun livre nest pas la moyenne
469
arithmtique des prix : x

3
,
63D
3
En effet, ltudiant a dpens durant les trois ans 3 36 10 D
8 . Il a
achet :
36 9 livres pendant la premire anne,
4
36 6 durant la deuxime anne
6
36
et
4 au cours de la troisime anne.
9
33

1
1
1
Il a donc achet : 36
9 6 4 19 livres
4
6
9
et le prix moyen dun livre est donc :
3 36
3 36
3
H

6
,
5
D
8.

19
1
1
1
1
1
1
36

4
6
9
4
6
9
H est donc la moyenne harmonique des diffrents prix 4, 6 et 9.
La moyenne quadratique
La moyenne quadratique dune variable statistique, note Q , est gale
la racine carre de la moyenne arithmtique des carres des valeurs de
la variable.
Cas de donnes non groupes
i N
1
Q
x2i
N i1
Cas de donnes groupes
i p
i p
1
Q
nx2
fx2
i
i

ii
N i1
i1
Exemple :
Quelle est la mesure du ct moyen de trois plaques mtalliques
carres dont les cts mesurent 3 cm, 6 cm et 9 cm.
369
x

c
6m
3
Le calcul de la moyenne arithmtique des cts est faux. En effet, les
superficies des plaques sont : 9 cm2, 36 cm2 et 81 cm2.
La superficie moyenne est de :
9 36 81
x
42 c
m
3
Ainsi, le ct moyen mesure : c
42 . Il sagit de la moyenne
quadratique des cts :
1
c
3
( 2 62 92 ) 42 c
m.
3
Remarques :
La moyenne quadratique est souvent utilise dans le calcul de la variance
34
(voir le section suivante).
Les moyennes quadratique et arithmtique tiennent compte davantage des
valeurs les plus leves de la srie statistique. En revanche, Les
moyennes gomtrique et harmonique rduisent linfluence des
observations les plus leves.
Les relations existantes entre les diffrentes moyennes est :
x
HGxQx

min
max
Exemple :
Calculer les moyennes arithmtique, gomtrique, harmonique et
quadratique de la srie suivante :2, 5, 11, 18.
2 5 11 18
1
;
x
9
;
4
G 2 5 11 18 2 5 11184 ,
6 67
4
4
;
1
H
,
4 72
;
Q
(2 2 52 112 182 ) 10 8
,8
1
1
1
1
4

2
5
11
18
On peut vrifier la relation tablie entre les diffrentes moyennes :
2,
4 72 ,
6 67 9 10 8
, 8 18
35

Chapitre 3 :
Les paramtres de dispersion et de forme
CHAPITRE III : LES CARACTERISTIQUES DE DISPERSION ET DE FORME 37
I.
LETENDUE 37
II.
LES ECARTS INTERQUANTILES
37
II.B.
Les quantiles
37
II.B.1.
Les quartiles
38
II.B.2.
Les dciles
38
II.B.3.
Les centiles
39
III.
MESURE DE LA DISPERSION AUTOUR DE LA MOYENNE
41
III.B.
Ecart absolu moyen par rapport la moyenne
42
III.B.1.
Cas de donnes non groupes
42
III.B.2.
Cas de donnes groupes
42
III.C.
Variance et cart type
43
III.C.1.
Cas de donnes non groupes
43
III.C.2.
Cas de donnes groupes
43
III.C.3.
Cas de donnes non groupes

43
III.C.4.
Cas de donnes groupes
43
III.D.
Variance intra-population et variance inter-populations
45
III.E.
Le coefficient de variation
49
IV.
MESURE DE LA DISPERSION AUTOUR DE LA MEDIANE 50
IV.B.1.
Cas de donnes non groupes
50
IV.B.2.
Cas de donnes groupes
50
V.
MOMENTS D'UNE SERIE STATISTIQUE
51
V.B.
Moments non centrs
51
V.B.1.
Cas de donnes non groupes
51
V.B.2.
ii) Cas de donnes groupes
51
V.C.
Moments centrs
51
V.C.1.
Cas de donnes non groupes
51
V.C.2.
Cas de donnes groupes
51
VI.
INDICATEURS DE FORME
52
VI.B.
Asymtrie
52
VI.C.

Aplatissement
53
36
Chapitre III : Les caractristiques
de dispersion et de forme
Trs souvent les indicateurs de tendance centrale (mode, mdiane et
moyenne) savrent insuffisants pour permettre de rsumer eux seuls
et de comparer deux ou plusieurs sries statistiques. Prenons, titre
dexemple, les deux sries de notes en statistique obtenues par deux
groupes dtudiants :
Groupe I
1
3
4
10
10
16
17
19
Groupe II
8
9
10
10
10
10
11
12
Nous pouvons constater que les deux sries ont un mme mode
( Mo=10), une mme mdiane ( M=10) et une mme moyenne ( x 10) .
Cependant, leur distribution se fait dune manire nettement diffrente.
En effet, pour le groupe II, les notes ne scartent pas trop des valeurs
centrales ( M x 10 ). Ce qui nest pas le cas pour le groupe I. Do la
ncessit de calculer dautres indicateurs capables de rendre compte
des carts entre les diffrentes valeurs observes et la valeur centrale.
Ces indicateurs, qui nous informent sur la variabilit des valeurs
observes, sont appels indicateurs de dispersion.
Ltendue
On appelle tendue dune srie statistique, la diffrence entre la plus
leve et la plus faible des valeurs observes, soit :
ex
x
max
min

Ltendue est un indicateur de dispersion. Il est simple et facile


calculer. Toutefois, il est trs sensible aux valeurs extrmes
aberrantes .
Les carts interquantiles
Il sagit des carts entre les premiers et les derniers principaux
quantiles.
Les quantiles
Comme pour la mdiane o lon sest intress la valeur de la variable
qui partage la population en deux parties dgal effectif, on sintresse
ici aux valeurs qui partagent la population en quatre, en dix ou en cent
parties de mme effectif. Ces valeurs sont appeles respectivement
quartiles, dciles et centiles.
Dune manire gnrale, on appelle quantile dordre , La valeur de la
variable x telle que % des valeurs observes lui sont infrieures.

On peut alors crire : F ( x ) % , o F dsigne la fonction de

rpartition de la variable. La dtermination des diffrents quantiles se


fait de la mme manire que la mdiane (par interpolation linaire).
37
Les principaux quantiles sont les quartiles, les dciles et les centiles
Les quartiles
Les quartiles, en nombre de trois nots Q
,Q e
t Q , sont les valeurs
1
2
3
dune variable, ranges par ordre croissant ou dcroissant, qui
partagent la population tudie en quatre parties de mme effectif.
Lexpression des trois quartiles peut tre drive de la mme manire
que la mdiane.
Soit [ b b [ la classe damplitude a
Q,N
i
i 1

i laquelle appartient
1
i
leffectif cumul croissant de cette classe, N
leffectif cumul

i 1

croissant de la classe prcdant la classe [ b b [ et N leffectif total.


i
i 1

Lexpression du premier quartile est donne par :


N

Ni1

2
,
05F
Qba4
b
i1
a
1
i
i
i
i

NN
F
F
i
i1

i
i1

Q (premier quartile) : valeur de la variable telle que 25% des


1
observations lui soient infrieures
Si Q appartient [ b b [ alors :
2

i
i 1

N 1
i

5
,
0
F
Qba2
ba
i1
M
2
i
iNN
i
i

1
FF

i
i

i
i1

Q (deuxime quartile) : valeur de la variable telle que 50% des


2
observations lui soient infrieures
Si Q appartient [ b b [ alors :
3
i
i 1
3


N Ni1

7
,
05F
Qba4
b
i1
a
3
i
i
i
i

NN
F
F
i
i1

i
i1

Q (troisime quartile) : valeur de la variable telle que 75% des


3
observations lui soient infrieures
Les dciles
Les dciles, en nombre de neuf, nots D
,D,e

t D sont les valeurs


1
2
9
de la variable qui partagent la population en dix sous-populations de
mme effectif.

De la mme manire, on peut dfinir les expressions des dciles :


38
1

N Ni1
1
,
00F
D b a 10
b
i1
a
1
i
i
i
i

NN
F
F
i
i1

i
i1

N Ni1

2
,
00F

D b a 10
b
i1
a
2
i
i
i
i

NN
F
F
i
i1

i
i1

N Ni1

9
,
00F
D b a 10
b
i1
a
9
i
i
i
i

NN
F
F
i
i1

i
i1

D (premier dcile) : valeur de la variable telle que 10% des


1
observations lui soient infrieures.
D (deuxime dcile) : valeur de la variable telle que 20% des
2
observations lui soient infrieures.
D (neuvime dcile) : valeur de la variable telle que 90% des
9
observations lui soient infrieures.
Remarque : Q M D
2
5
Les centiles
Les centiles, en nombre de 99, nots C
, C , e
,
t C et appels aussi
1
2
99
percentiles, sont les valeurs de la variable qui partagent la population
en cent sous-populations dgal effectifs.
On peut dfinir les centiles de la manire suivante :
1

N Ni1

,
01F
C b a 100
b
i 1
a
1
i
i
i
i

NN
F
F
i
i 1

i
i1

N Ni1

0
,
02F
C b a 100
b
i1
a
2
i
i
i

NN
F
F
i
i1

i
i1

99

N Ni1

9
,
09F
D
b a 100
b
i1
a
99
i
i
i
i

NN
F
F
i
i1

i
i1

C (premier centile) : valeur de la variable telle que 1% des observations


1
lui soient infrieures.
39
C (deuxime centile) : valeur de la variable telle que 2% des
2
observations lui soient infrieures.
C (99ime centile) : valeur de la variable telle que 99% des observations
99
lui soient infrieures.
Remarques :
Q Me D C et Q C
2
5
50
3
75
Les quartiles, les dciles et les centiles permettent de calculer les
diffrents intervalles interquantiles. La longueur de ces intervalles
correspond aux carts interquantiles qui sont des indicateurs de
dispersion. Plus la longueur de lintervalle est grande, plus la
dispersion est forte.
On distingue :
Lintervalle interquartile, qui contient 50% des observations, est :
[Q
, Q ].
1
3
Lcart interquartile est gal : e Q - Q .
Q
3
1
Lintervalle interdcile, qui contient 80% des observations, est :
[D

, D ].
1
9
Lcart interdcile est gal : e
D-D.
D
9
1
Lintervalle intercentile, qui contient 98% des observations, est :
[C
, C ].
1
99
Lcart intercentile est gal : e C
-C.
C
99
1
Exemple : Soit la rpartition de 100 individus par classe dges :
Classes
Effectifs
Effectifs cumules
Frquences cumules
dges
croissantes
n i
n
i
F
i
[5 , 10[
11
11
0,11
[10 , 15[
10
21
0,21
[15 , 20[
15
36
0,36
[20 , 30[
20

56
0,56
[30 , 40[
18
74
0,74
[40 , 60[
16
90
0,9
[60 , 80[
10
100
1
total
100
Calculons les quantiles et les intervalles interquartiles.
40

2
,
05
2
,
0 1
Q1
[52[
0 Q 15 5
16 3
,3a
ns
1
1

3
,
06
2
,
0 1
Ce qui signifie que 25% des individus sont gs de moins de 16
ans et 4

mois.

7
,
05
7
,
04
Q [40 6 [
0 Q 40 20
41 2
,5a
ns
3
3

9
,
00
7
,
04
Ce qui signifie que 75% des individus sont gs de moins de 41 ans et
3 mois.
1
,
000
D5
[1[
0 D 5 5

a
5
,
9
ns
1
1

1
,
010
Ce qui signifie que 10% des individus sont gs de moins
de 9 ans et 6
mois.

En ce qui concerne le neuvime dcile, on peut lire sa valeur


directement sur le tableau. Il sagit de la borne suprieure de la classe
ayant une frquence cumule croissante gale 0,90 (puisque la valeur
Fi
C o u rb e d e s frq u e n c es
1
cu m u le s cro issa n tes
0 ,9
0,7 5
0,5
0,2 5
0,1 0
0 5 1 0 15 20 M 30 4 0 60 8 0 C lasses
D1Q1Q2Q3D9
0,9 figure dans la colonne des Fi du tableau). Donc D 60 .
9
Ce qui signifie que 90% des individus sont gs de moins de 60 ans.
Mesure de la dispersion autour de la
moyenne
Exemple 1 :
Considrons les notes suivantes en statistique dun groupe de 6
tudiants :
2, 17, 7,18, 3, 13.
41
La moyenne des notes est : x 10 . Faut-il conclure alors que ce groupe
est homogne ? En dautres termes, faut-il conclure que les tudiants
ont le mme niveau ? La rponse est non, car 50% des tudiants
seulement ont la moyenne.
Pour mesurer cette dispersion autour de la moyenne on peut calculer
les diffrentes distances (carts) entre la moyenne et les notes
observes. On obtient :
x x 2 10
,
8 x x 17 10
,
7 x x 7 10 3

1
2
3
x x 18 10 ,

8 x x 3 10
,
7 x x 13 10 3
4
5
6
Calculons maintenant la moyenne des six distances :
xxxxxxxxxxxx1
2
3
4
5
5

6
i6
x6x
i
1 i6
1
i 1

( x x) ( 8
7 3 8 7 3) 0
6
6
i
i 1

6
1N
Remarque : On a toujours :
( x x) 0

.
i
Ni 1

Ceci traduit le fait que certains tudiants ont des notes suprieures la
moyenne et dautres ont des notes qui lui sont infrieures (certaines
diffrences sont positives et dautres sont ngatives).
Une premire solution consiste prendre les valeurs absolues de ces
carts et de calculer leur moyenne.
Ecart absolu moyen par rapport la

moyenne
Lcart absolu moyen par rapport la moyenne, not e , dune srie
x
statistique est gal la moyenne arithmtique de la valeur absolu des
carts entre les valeurs observes et leur moyenne.
Cas de donnes non groupes
i N
1
e
x
x
x

i
N i1
Cas de donnes groupes
i p
i p
1
e
nx
x
fx
x
x

i
i

i
i
N i1
i1
Cet indicateur de dispersion tient compte de tous les carts entre
chaque valeur observe et la moyenne. Ces carts sont exprims dans la
42
mme unit que la variable. Le calcul de lcart absolue moyen nest pas

commode pour le calcul algbrique (expression de la valeur absolue).


Variance et cart type
Une solution alternative consiste considrer la moyenne des carrs
des diffrences (dans ce cas toutes les valeurs ngatives deviennent
positives).
1 i6
2
1
( x x)
i
( 8
)2 72 ( 3
)2 82 ( 7
)2 32 40 6
,6
6i 1

6
On peut calculer maintenant la racine carre de la moyenne des carrs
des diffrences pour retrouver la moyenne des carts par rapport la
moyenne.
1 i6 ( x x)2 40 6,6 3,
67

6
i
i 1

Donc, certains tudiants (les bons) auront approximativement la note


moyenne (10) plus 6,37, les autres (les mauvais) auront la note
moyenne (10) moins 6,37.
On appelle variance dune variable la moyenne des carrs des carts
des valeurs de cette variable sa moyenne :
Cas de donnes non groupes
N
1
V ( x)
( x x 2
)
i
N i1
Cas de donnes groupes

N
N
1
n
V ( x)
n ( x x)2 =
f ( x x)2 o f
i

N
i
i
i
i
i
N
i1
i1
Remarques :
La variance peut tre crite sous une autre forme dite formule
dveloppe :
Cas de donnes non groupes
N
1
V ( x) (
x2)x2
i
N i1
Cas de donnes groupes
43
N
N
1
V ( x)
nx2x2=
fx2

x 2
i
i

i
i
N i1
i1
Cette formule dveloppe de la variance est plus aise retenir et plus
rapide calculer.
La variance dune srie statistique correspond la plus petite des
moyennes des carrs des carts par rapport une constante k :
N
N
1
2
1
V ( x)
( x x)
( x k)2 , k
.
N
i
i1
N
i
i1
La variance dune variable y dfinie par : y ax b , est :
V ( y)
2
a V ( x).
La variance est exprime dans le carr de lunit de la variable. Par
exemple, la variance de la variable ge est exprime en annes au
carr (anne2). Cest la raison pour laquelle on ne doit pas
interprter la variance, mais plutt sa racine carre.
On appelle cart type que lon le note par , La racine carre de la
x
variance. Il est utilis comme un indicateur de la dispersion de la srie
statistique :
V ( x)
x
Lcart type est exprim dans la mme unit de mesure que la

variable. Plus lcart type est grand, plus la dispersion des


observations autour de la moyenne de la variable est forte.
Exemple:
Considrons les notes suivantes en statistique dun groupe de 4
tudiants :
8, 12, 9, 11
Calculer lcart type des notes et comparer le rsultat obtenu avec le
rsultat de lexemple 1.
4
1
40
x
x
10
4
i
i1
4
14
V ( x)
( x x)2
4
i
i 1

8
( 10)2 1
( 2 10)2 9
( 10)2 1
( 1 10)2
4

5
,
2.
V ( x)
5
,
18
x
La dispersion des notes dans lexemple 1 est deux fois plus importante
que celle de lexemple 2. Le second groupe dtudiant est un groupe
plus homogne que le groupe 1.
44

Exemple 3 :
Soit la rpartition de 100 salaris selon leur salaire mensuel :
Salaire en
Effectifs
Centres de
2
x
xn
2
nx
i
i
i
i
i
(DT)
n
classe xi
i
[200 - 300[
15
250
62500
3750
937500
[300 - 400[
20
350
122500
7000
2450000
[400 - 600[
35
500
250000
17500
8750000
[600- 700[
15
650
422500

9750
6337500
[700 - 900[
10
800
640000
8000
6400000
[900 - 1100[
5
1000
1000000
5000
5000000
Total
100
------51000
29875000
Calculer la variance et lcart type des salaires.
1
6
51000
x
nx
510 D
inars .
100
i
i
i 1

100
1k
1
2
2
2
2
V ( x)
nxx=
29875000 510 38650 (
Dinars)

i
i
Ni 1

100
V ( x)
38650 196 5
,9D
inars.
x
Variance intra-population et variance
inter-populations
On considre une population P de taille N compose de deux
sous-populations : P e
t P . Leffectif et la moyenne de chaque
1
2
sous-population sont :
N,
x p
ou
rP
1
1
1
N,
x p
ou
rP
2
2
2
Ou N N N
1
2
Calculons la moyenne arithmtique de la population P.
On sait que :
i N
i
1
1

1
N
x
x
Nx
x
1

i
11
i
N i1
i1
1
et
45
i N
i
2
2
1
N
x
x
Nx
x
2

i
2
2
i
N
i1
i1
2
La moyenne de la population P est donne par :
1 i N
1 i 1
N

N2

1
x
x
xx

i
i
i
Nx
Nx
11
2
2
Ni 1

Ni 1

i 1

N
Calculons la variance de la population P.
Soit c une constante, on peut crire :
N
N
N
1
1
1
xc 2
x
c
x
x 2
x
x)
(x
c 2
i

N i1
N i1
N i1
iN
1

xx 2
x
c 2
2x
xx
c
i

i

N i1
i N
iN
iN
1
1

xx 2
1
x
c 2
2
x
xx
c
i

i

N i1

N i1
N i1
i N
iN
iN
1
1

xx 2
1
x
c 2
2
x
c
x
x
i

N i1
N i1
N
i 1
i N
Comme x x
0 , on obtient alors :
i

i1
1N
x c2 V ( x) x c2
N
i
i 1

N
1
V ( x)
xc 2

2,

x c
c
N i1
Revenons maintenant au calcul de la variance de la population P.
N
N
N
1
2
1
1
V ( x)
xx
x
x
x
x
i
2
1

i
2

i
2
N i1
N i1
N i1
1
1N
2
Par dfinition la variance de P est donn par : V ( x)
x
x
1

i
1
1

N i1
1
N2
1
2
et celle de P par : V ( x)
x
x
2

i
2
2
N i1
2

N1
N V ( x)
x
x
1
1

i
1 2

i 1
N2
N V ( x)
x
x
2
2

i
2 2

i 1
En utilisant le rsultat prcdent et en prenant c x (o x est la
moyenne de la population P), les deux variances V ( x) et V ( x) peuvent 1
2
tre exprimes sous la forme suivante :

46
1
N
1
1
1N
V ( x)
x
x
x
x
x
x
V ( x)
x
x
1

i
2
1
2

i
2

1
2
1
N
N
1 i1
1 i1
N1
xx
NVx
Nx
x
i
2
()
1

1
1
2
1
i 1
N2
N2
1
1
V ( x)
x
x
x
x
x
x
V ( x)
x
x
2

i
2
2
2

i
2

2
2
2
N
N
2 i1
2 i1
N 2
xx
NVx
N
x
x
i
2

()
2
2
2
2
2
i 1
1
V ( x)
N V ( x) N x x N V ( x) N x x
1
1
1
2
1
2
2
2
2
2

N
1
V ( x)

1
N V ( x) N V ( x)
Nxx
Nxx
1
1
2
2

1
2
1
2
2
2

Moyenne d
es v
ariances
Variance d
es m
oyennes
La moyenne des variances est note par : V ( x).
La variance des moyennes est note par : V ( x) .
La variance totale est dcompose en deux parties :
V ( x) V ( x) V ( x)

La premire composante, V ( x) , nous renseigne sur la dispersion


au sein de chaque population. On lappelle variance intra-population.

La deuxime composante, V ( x), nous indique la dispersion de la


moyenne de chaque sous population par rapport la moyenne de la
population totale. On lappelle variance inter-populations.
Exemple :
La distribution des salaires dans une entreprise E, compose de deux
tablissements, est la suivante :
Etablissement 1
Etablissement 2
Salaires
Effectifs
Salaires

Effectifs
en102 Dinars
en102 Dinars
n
i
ni
[4 8[
40
[8 12[
60
[8 12[
30
[12 20[
50
[12 - 28[
20
[20 - 40[
30
1) Calculer la moyenne des salaires pour lentreprise E :
2) Calculer la variance totale des salaires dans lentreprise E.
47
3) Dcomposer la variance totale en variance intra-tablissements et
inter-tablissements. Commenter.
Solution :
Etablissement 1
Classes
n
x
nx
i
i
i
i
n
2
x
i
i
[4 8[
40
6
240
1440

[8 12[
30
10
300
3000
[12 - 28[
20
20
400
8000
Total
90
940
12440
Etablissement 2
Classes
n
x
nx
i
i
i
i
n
2
x
i
i
[8 12[
60
10
600
6000
[12 20[
50
16
800
12800
[20 - 40[
30
30
900
27000
Total

140
2300
45800
1) Calcul de la moyenne des salaires pour lentreprise E :
1 i6
1
X
nx

.
i
i
940 2300 14 0
, 8 102 DT
Ni 1

230
2) Calcul de la variance totale des salaires de lentreprise E :
i 6
1
1
2
2
4
2
4
V ( x)
nxx
1
( 2440 45800) 10 14 0
, 8 10
N
i
i
i 1

230
6
V ( x) 54 9
, 7 10
3) Dcomposition de la variance totale des salaires de lentreprise E :
La variance totale est donne par :

V ( x) V ( x) V ( x)
La moyenne des variances est :
1
V ( x)
N V ( x) N V ( x)
11
22

N
La variance des salaires de ltablissement 1 est :
1
4
2
4
4
V ( x)
12440 10 1 ,
0 444 10 29 1
, 3 10
1
90
La variance des salaires de ltablissement 2 est :
48
1
4
2
4
4
V ( x)
45800 10 1 ,
6 42 10 5 ,
7 26 10
2
140
1
V ( x)

4
90 29 1
, 3 140 5 ,
72)
6 10
2
4,

6 25 10
230
La variance des moyenne est :
j 2
1
1
V ( x)

Nx
x
Nx
x
Nx
x
1

1
2 2 2
2

22
j
j
N
N j1
1
V ( x)

2
2
90 10 4
, 4 140 16 4
,2
4
2
4
4
10 14 0
, 8 10
5
,
8 1 10
230
4
4

V ( x) V ( x) V ( x) (46 2
,5
5
,
8
)
1 10 54 7
, 6 10
La variance des salaires est donc imputable pour une grande partie la
variance intra-tablissement des salaires.
Remarque :
Plus gnralement, La variance totale V ( x) dune population P, de taille
N compose de k sous-populations, P
, P ,..., P , de tailles respectives
1
2
k
N
, N ,..., N , de moyennes respectives
x,
x ,...... ,
x , et de
1
2
k
1
2
k
variances respectives V ( x ,
)V(x,
) ...... ,
V ( x), est donne par :
1
2
k
1K
1K
V ( x)
N V ( x)
Nx
x
k
k
k

k
2

k 1

Nk 1

Variance i
ntra-population
Variance i
nter-populations
K
1
Avec N N N N , et x
Nx
1
2
k
k
k
N k1
Le coefficient de variation
Aussi bien lcart-type que les indicateurs de tendance centrale (mode,
mdiane et moyenne) sont exprims dans la mme unit de mesure de
la variable. Dautre part, lcart-type dpend de lordre de grandeur des
observations de la variable. Ainsi, pour comparer la dispersion de deux
ou plusieurs distributions exprimes dans des units diffrentes, il est
indispensable dutiliser un indicateur de dispersion indpendant de
lunit de mesure et de lordre de grandeur des valeurs observes. Pour
ce faire, on utilise Le coefficient de variation, quon note par : CV( x),
et que lon dfinit par :

CV ( x
x
)

x
Remarque : Le coefficient de variation est un nombre pur sans unit.
Cest un indicateur de dispersion relatif.
Exemple :
Reprenons lexemple de la distribution des salaires dans une entreprise
E, compose de deux tablissements :
49
Etablissement 1
Etablissement 2
Salaires
Effectifs
Salaires
Effectifs
en102 Dinars
en102 Dinars
n
i
ni
[4 8[
40
[8 12[
60
[8 12[
30
[12 20[
50
[12 - 28[
20
[20 - 40[
30
On peut rsumer les caractristiques principales de ces deux
tablissements dans le tableau suivant
Etablissement 1
Etablissement 2
Moyenne
10,44. 102
16,42. 102
Variance
29,13. 104
57,26. 104
Ecart-type
5,39. 102

7,56. 102
Coefficient de
O,51
0,46
variation
La comparaison directe des carts-types indique une dispersion des
salaires plus forte dans ltablissement 2 que dans ltablissement 1
(7,56. 102 contre 5,39. 102).
La comparaison des dispersions partir du coefficient de variation,
indique au contraire une dispersion plus forte (O,51) pour
ltablissement 1, que pour ltablissement 2 (0,46).
En conclusion, on peut dire que les salaires sont plus disperss dans
ltablissement 1 que dans ltablissement 2.
Mesure de la dispersion autour de la
mdiane
Lcart absolu moyen par rapport la mdiane, not e
dune srie
M
statistique est gal la moyenne arithmtique de la valeur absolue des
carts entre les valeurs observes et leur mdiane.
Cas de donnes non groupes
iN
1
e

x
M
M

i
N i1
Cas de donnes groupes
i p
i p
1
e

nx
M
fx
M
M

i
i

i
i
N i1
i1
Cet indicateur de dispersion tient compte de tous les carts entre
chaque valeur observe et la mdiane. Ces carts sont exprims dans la
50
mme unit que la variable.
Remarque :
Pour toute srie statistique on a :
e
e
M
x
x
Moments d'une srie statistique
Moments non centrs
Cas de donnes non groupes
Le moment non centr d'ordre r, quon note m ( x), dune srie
r
statistique est :
iN
1
m ( x)
x
r
ri
N i1
ii)
Cas de donnes groupes
ip
ip
1
m ( x)
nx

fx
r

i
i

r
i
i
N i1
i 1

Remarque :
Le moment non centr dordre 1 est : m x
1
Le moment non centr dordre 2 est : m ( 2
x)
2
Moments centrs
Cas de donnes non groupes
Le moment centr d'ordre r , quon note ( x), dune srie statistique
r
est :
iN
1
r
( x)
( x x)
r
i
Ni 1

Cas de donnes groupes


ip
ip
1
( x)
n(x
x)
f(x
x)
r

i
i

r
i
i
N i1
i 1
Remarque :
Le moment centr dordre 1 est : 0
1
51
Le moment centr dordre 2 est :
V ( x)
2
A partir de la formule dveloppe de la variance, on a :
2
V ( x) m ( m )
2
2
1
En gnral, les moments centrs d'ordre pair donnent une indication
sur la dispersion des observations autour de la moyenne. Les
moments centrs d'ordre impair donnent une indication sur le degr
de symtrie de la distribution.
Exemple : La rpartition de 100 individus par classes dges est donne
par le tableau suivant :
Classes
f
Centres
2
i
nx
nx
n x x n x M
dges
i
i
i

i
i
i
i
i
n
x
i
i
[5 , 10[
11
0,11
7,5
82,5
618,75
258,5
214,5
[10 , 15[
10
0,10
12,5
125
1562,5
185
145
[15 , 20[
15
0,15
17,5
262,5
4593,75
202,5
142,5
[20 , 30[
20
0,20
25
500
12500
120
40
[30 , 40[
18
0,18
35
630

22050
72
144
[40 , 60[
16
0,16
50
800
40000
304
368
[60 , 80[
10
0,10
70
700
49000
390
430
total
100
1
3100
130325
1532
1484
3100
x
31 a
ns
, M 27 a
ns
, e 15 3
,2a
ns
,e
14 8
,4a
ns
100
x
M
V(x) 1303,25 - (31)2 342 2
,

5(
annes)2
342 2
, 5 18
a
5
,
ns
x
On remarque bien que : e
e
M
x
x
Indicateurs de forme
Les polygones des frquences nous livrent une reprsentation
approximative de la distribution relle des frquences. Pour avoir une
ide satisfaisante et plus prcise sur la forme de la distribution, il est
recommand de calculer des indicateurs de forme. On distingue les
indicateurs dasymtrie et les indicateurs daplatissement. Ces
indicateurs sont sans unit de mesure. Ils sont indpendants dun
changement dchelle et/ou dorigine.
Asymtrie
Une distribution est dite symtrique si les observations se rpartissent
dans la mme proportion de part et dautre des trois valeurs centrales
(mode, mdiane et moyenne).
Les mesures d'asymtrie permettent de quantifier le degr de dviation
de la forme de distribution par rapport une distribution symtrique.
i) Le coefficient dasymtrie de Fisher, quon note par :
1
52

moment c
entr d
'ordre 3
3

3
3

(cart - type)
La distribution est dite symtrique dans le cas o
0.
1
La distribution est dite tale gauche dans le cas o
0.
1
La distribution est dite tale droite dans le cas o
0.
1
ii) Le coefficient dasymtrie de Yule, bas sur les quartiles, quon
note par C :
Y
(QQ)(QQ)
3
2
2
1
C
Y
(QQ)
3
1
La distribution est dite symtrique dans le cas o C
0.
Y
La distribution est dite tale gauche dans le cas o C 0 .
Y
La distribution est dite tale droite dans le cas o C
0.
Y
iii) Le coefficient dasymtrie de Pearson, bas sur la moyenne, le
mode et lcart-type, quon note par C :
P
x Mo
C
P
x
La distribution est dite symtrique dans le cas o C
0.
P

La distribution est dite tale gauche dans le cas o C


0.
P
La distribution est dite tale droite dans le cas o C
0.
P
Aplatissement
Une distribution est dautant plus plate que la dispersion des
observations autour des valeurs centrales est forte.
i) Le coefficient daplatissement de Pearson, quon note par :

moment c
entr d
'ordre 4
4

4
4

(cart - type)
La distribution est dite normale dans le cas o 3 .
La distribution est dite hyponormale (plus aplatie que la normale)
dans le cas o 3 .
La distribution est dite hypernormale (moins aplatie que la normale)
dans le cas o 3 .
ii) Le coefficient daplatissement de Fisher, quon note par :
2
4

33
2
4

53
La distribution est dite normale dans le cas o
0.
2
La distribution est dite hyponormale (plus aplatie que la normale)
dans le cas o
0.
2

La distribution est dite hypernormale (moins aplatie que la normale)


dans le cas o
0.
2
54

Chapitre 4 :
Concentration dune srie statistique
CHAPITRE IV : CONCENTRATION DUNE SERIE STATISTIQUE
56
I.
VALEURS GLOBALES ET VALEURS GLOBALES RELATIVES 56
II.
MEDIALE
57
II.A.
Dfinition
57
II.B.
Dtermination graphique
57
II.C.
Calcul de la mdiale
58
III.
ECART MEDIALE- MEDIANE
59
IV.
COURBE DE CONCENTRATION 60
Dfinition
60
IV.B.
Interprtation
60
IV.C.
Cas extrmes
60
V.
INDICE DE CONCENTRATION DE GINI
61
V.A.

Surface de concentration
61
V.B.
Dfinition de lindice de Gini
61
V.C.
Calcul de lindice de Gini
62
55
Chapitre IV : Concentration dune
srie statistique
Ltude de concentration a pour objet de mesurer et de mettre en
exergue dventuelles ingalits de rpartition dune valeur globale
totale. Cette tude nest pas centre sur lindividu, elle est plutt
globale. Lanalyse porte davantage sur la rpartition de la masse totale.
Elle permet de complter lanalyse de la dispersion relative dune
distribution.
Les
domaines
dapplications
sont
nombreux :
concentration des salaires, des revenus, des superficies agricoles, etc.
Le concept de concentration a t labor dans les annes 1910-1914
par le statisticien italien Corrado Gini (1884-1965).
Ltude de la concentration porte sur toute srie positive La notion de
concentration ne sapplique qu des variables quantitatives continues
valeurs positives cumulables, celles o le cumul a un sens.
La question fondamentale, laquelle on doit rpondre est, par exemple :
La masse salariale totale est-elle rpartie dune manire galitaire ?
Dans le cas o elle sest faite dune manire ingalitaire, on observe un
faible nombre dindividus dtenir une grande partie de cette masse, la
partie restante tant dtenue par un grand nombre dindividus.
Valeurs globales et valeurs globales
relatives
Soit X une variable statistique continue. On considre la srie
statistique correspondante.
On appelle valeur globale associe au couple ( x , n ), le produit dfini
i
i
par :
VG n x
i

i
i
On appelle valeur globale totale, quon note VGT :
p
VGT n x
i
i
i1
On appelle valeur globale relative associe au couple ( x , n ), le
i
i
rapport, quon note qi, dfini par :
xn
q
i
i
i
p
xn
i
i
i1
On appelle valeur globale relative cumule croissante associe la
valeur x , centre de la classe b
b
,
, quon note Q
i 1

i
i
i, :
ji
Q
q
i
j
j1
56
Exemple :
Superficie Centre Effectif

Valeurs
Valeurs
Valeurs
en ha
s
s
globales
globales
globales
relatives
relatives
nixi
cumules
nx
x
i
i
i
ni
q
i
croissantes
nx
i
i
Q
i
[1 5[
3
11
33
0,008
0,008
[5 10[
7,5
12
90
0,022
0,030
[10 20[
15
15

225
0,056
0,086
[20 50[
35
26
910
0,229
0,315
[50 100[
75
36
2700
0,685
1
Total
100
3958
1
On peut interprter la cinquime ligne en disant que les exploitation qui
ont moins de 50 ha se partagent 31,5% de la superficie totale qui est
gale 3958 ha.
Mdiale
Dfinition
On appelle mdiale dune srie statistique, quon note par Mle, la
valeur de la variable telle que :
(
Q Mle)
5
,
0
50%
Dtermination graphique
La mdiale est dtermine graphiquement comme tant labscisse du
point dordonne 0,5 de la courbe des valeurs globales relatives
cumules croissantes. Cette courbe est dfinie en tant quune ligne
brise obtenue sur un repre cartsien, en joignant les points de
coordonnes ( b
,
Q ), o b
i

i
i dsigne la borne suprieure de la classe
b
b
,
et Q
i 1

i
i la valeur globale cumule croissante.
57

Qi
1
Courbe des valeurs globales relatives
cumules croissantes
0,5
0,315
0,086
0,030
0,008
1 5 10 20 50 Mle 100 Classes
Calcul de la mdiale
La mdiale se dtermine, par interpolation linaire, de la mme manire
que la mdiane. Seulement, les calculs ne se font plus sur les
frquences cumules croissantes de la srie statistique, mais sur les
valeurs globales relatives cumules croissantes.
Le calcul de la mdiale passe dabord par la dtermination de la classe
mdiale. Dans un deuxime temps, on dtermine la valeur prcise de la
mdiale par interpolation linaire.
Soit [ b
b
[ la classe mdiale, a lamplitude de la classe mdiane, Q
i 1

i
i
i
la valeur globale relative cumule croissante de la classe mdiale, Q
i 1


la valeur globale relative cumule croissante de la classe qui prcde la
classe mdiale.
Lexpression de la mdiale est alors donne par :

5
,
0
Q

Mle b

i1
a
i1
i

QQ
i
i1

Dans notre exemple, la classe mdiale laquelle appartient la


mdiale, est la classe 5
[ 0 10 [
0 do :

58
Superficie Amplitude
Valeurs
Valeurs
Valeurs
s
globales
globales
globales
en
relatives
relatives
a
n

ha
i
ixi
cumules
nx
q
i
i
i
croissantes
nx
i
i
Q
i
[1 5[
4
33
0,008
0,008
[5 10[
5
90
0,022
0,030
[10 20[
10
225
0,056
0,086
[20 , 50[
0,315
30
910
0,229
Mle
1

5
,
0

[50 , 100 [
2
50
2700
0,685
1
Total
3958
1
Le calcul de la mdiale par interpolation linaire donne :
Mle 50

5
,
00
3
,
0 15

100 50
1
3
,
0 15

5
,
00
3
,
0 15
Mle 50 50
63 5
, ha
1
3
,
0 15

On interprte en disant que les exploitations qui ont individuellement


moins de 63,5 ha totalisent 50% de la superficie totale.

Ecart mdiale- mdiane


On appelle cart mdiale-mdiane dune srie statistique, quon note
par M , le nombre dfini par :
M

Mle M
Cet cart nous fournit un premier renseignement sur la concentration
dune distribution statistique. Son interprtation se fait par rapport
ltendue de la srie. En dautres termes, on calcule :
M

Intervalle d
ev
ariation
Si
M

est grand par rapport lintervalle de variation, alors la


concentration est forte
Si M est petit par rapport lintervalle de variation, alors la
concentration est faible
Sil y a absence de concentration ou situation dquipartition
parfaite, alors M

est nul.
59
Dans notre exemple, la mdiane est gale :

5
,
00
3
,
08
M 20 30
33 8
,
h
4a

6
,
04

3
,
08
Donc, lcart mdiale-mdiane est :
M 63 5
, 0 33 8
, 4 29 6
,6
29 6
,6
Par consquent, lcart mdiale-mdiane relatif est :

2
,
0
9
100 -1
On peut dire que la concentration est relativement moyenne.
Courbe de concentration
Dfinition
On appelle courbe de concentration (ou courbe de Lorenz), Le polygone
obtenu en joignent, les points de coordonnes( F , Q ), dans un repre
i
i
orthonorm, o les Fi sont ports sur laxe des abscisses et les Qi sur
laxes des ordonnes. Cette reprsentation se fait dans un carr de cte
gal lunit.
Valeurs globales relatives
cumules croissantes
Qi
B
1
Diagonale
Q4
Surface
de
concentration
Q3
S
Courbe de
concentration
Q2
Q
S

1
A
O
F1 F2 F3 F4 1 Fi Frquences cumules croissantes
Interprtation
Plus la courbe de concentration se rapproche de la diagonale, plus la
rpartition est galitaire, et plus la courbe sloigne de la diagonale, plus
la distribution est concentre, cest--dire ingalement rpartie.
Cas extrmes
60

Cas 1. La courbe de concentration se confond avec la diagonale. Cest le


cas dune quirpartition parfaite. On dit aussi que la concentration est
nulle.
Cas 2. La courbe de concentration se confond avec les cts OA et AB
du triangle OAB. Cest le cas, hypothtique, o un seul individu possde
toute la richesse. On dit aussi que la srie est totalement concentre.
Valeurs globales relatives
Valeurs globales relatives
cumules croissantes Cas 1
cumules croissantes
Cas 2
Qi
B
Qi
B
1
1
Diagonale
Diagonale
Q4
Q4
Q

Courbe de concentration
Courbe de concentration
3
Q3
Q2
Q2
Q1
Q
A
1
A
O
O
F1 F2 F3 F4 1 Fi F1 F2 F3 F4 1 Fi Frquences cumules croissantes
Frquences cumules croissantes
Indice de concentration de Gini
Surface de concentration
On appelle surface de concentration, quon note par S, la surface
comprise entre la diagonale principale OB et la courbe de concentration.
Plus la courbe sloigne de la diagonale et plus la surface de
concentration est grande.
Remarque :
La courbe de concentration se situe toujours en dessous de la diagonale
car on a, pour toute valeur de x : F( x)
(
Q x)
Dfinition de lindice de Gini
On appelle indice de Gini (ou indice de concentration), le rapport entre
laire de la surface de concentration et laire du triangle OAB. On le note
par IG. :
61
Aire d
el
as
urface d
ec
oncentra i
t on
S
I

2 S.
G

Aire d
ut
riangl
eO
AB
1
2
Remarque :
Lindice de Gini est compris entre [0 , 1]
Dans le Cas 1, o la courbe de concentration se confond avec la
diagonale, lindice de Gini est gal zro.
Dans le Cas 2, o la courbe de concentration se confond avec les cts OA
et AB du triangle OAB, lindice est gal un.
Plus lindice de Gini tend vers 1, plus la concentration est forte.
Plus lindice de Gini tend vers 0, plus la concentration est faible
Calcul de lindice de Gini
Pour le calcul de lindice de Gini, on retient la mthode des trapzes.
Celle-ci consiste calculer laire de la surface complmentaire S par
rapport laire du triangle OAB. Pour ce faire, il suffit de crer une
nouvelle colonne f ( Q Q ).
i
i
i 1

Lindice est alors gal :


p
I
1
fQ
(
Q)
G

i
i
i 1
i 1
La surface de chaque trapze est :
g
( rande b
ase petite b
as e )
hauteur
S

i
2
(Q
Q)(FF)
(Q
Q)(f)
i 1

i
i
i 1

i 1

i
i

2
2
Par exemple :
(QQ)(FF)
(f)(QQ)
3
4
4
3
4
3
4
S

4
2
2

62
Qi

1
Q4
Q
Q
3
4
S4
Q2
Q
Q
3
1
f4
F1 F2 F3 F4 1 Fi
Superficie
xi
ni
fi
Fi
nixi
nx
Q
f(QQ)
q
i
i
i
i
i
i 1

en ha
i
nx
( VGi)
ii
[1 5[
3
11
0,11 0,11
33
0,008
0,008
0,00088

[5 10[
7,5
12
0,12 0,23
90
0,022
0,030
0,00456
[10 20[
15
15
0,15 0,38
225
0,056
0,086
0,0174
[20 50[
35
26
0,26 0,64
910
0,229
0,315
0,10426
[50 100[
75
36
0,36
1
2700
0,685
1
0,4734
Total
100
1
3958
1
0,6005
En reprenant notre exemple concernant la rpartition des exploitations
agricoles, lindice de Gini est gal :
I

1
6
,
0 005
3
,
0 995
4
,
0
.
G
Cette valeur indique que la concentration est relativement
moyenne.

63
Chapitre 5 :
Les indices statistiques
CHAPITRE V : LES INDICES STATISTIQUES
65
I.
LES INDICES ELEMENTAIRES 65
I.A.
Dfinition
65
I.B.
Les proprits de lindice lmentaire :
66
I.B.1.
La circularit ou transitivit
66
I.B.2.
La rversibilit :
67
I.B.3.
Autres proprits de lindice lmentaire :
67
II.
LES INDICES SYNTHETIQUES 68
II.A.

Indices synthtiques de Laspeyres


69
II.A.1.
Indice de prix de Laspeyres:
69
II.A.2.
Indice de quantit de Laspeyres:
69
II.B.
Indices synthtiques de Paasche
70
II.B.1.
Indice de prix de Paasche :
70
II.B.2.
Indice de quantit de Paasche :
70
II.C.
Les coefficients budgtaires
70
II.D.
Indices synthtiques de Laspeyres et moyenne arithmtique
71
II.E.
Indices synthtiques de Paasche et moyenne harmonique
71
II.F.
Limites et extension des indices de laspeyres et de Paasche
72
II.F.1.
Limites
72
II.F.2.
Indices de Fisher
73

64
Chapitre V : Les indices statistiques
Lanalyse conomique et sociale fait appel la comparaison et ltude de
lvolution de grandeurs simples, telles que la production de bl, le prix
de ptrole, .etc. La comparaison peut se faire dans le temps ou dans

lespace, moyennant le calcul dun rapport entre deux valeurs de cette


grandeur, prises par consquent en deux priodes diffrentes ou dans
deux lieux diffrents.
Il est aussi important de pouvoir suivre lvolution de grandeurs
complexes telles que la production agricole, les exportations dun pays,
etc. Ces comparaisons se font au moyen dindices synthtiques.
Ainsi, on distingue deux types dindices : Lindice lmentaire et lindice
synthtique.
Les Indices lmentaires
Lindice lmentaire permet de calculer lvolution dune grandeur
simple (comme, par exemple, le prix ou la production dun bien donn),
soit dans le temps, auquel cas on appelle cet indice un indice
lmentaire temporel, soit entre deux lieux gographiques diffrents,
auquel cas on parle dindice lmentaire spatial.
Dfinition
On peut dfinir lindice lmentaire temporel ou spatial comme un
nombre pur (sans dimension) rsultant du rapport de deux valeurs
prises par la mme grandeur, soit deux dates diffrentes, soit sur
deux espaces diffrents.
Soit x la valeur de la grandeur G la date t 1 et x la valeur de la 1
0
variable la date t 0 .
Lindice lmentaire de la grandeur G est donn par :
x1
I

100
/
10
x0
La date t 1 est appele date courante ou priode courante, ou encore
situation courante, dans le cas dun indice spatial. La date t 0 est
dite date de rfrence, ou priode de base, ou encore situation de base,
dans le cas dun indice spatial.
Exemple 1:
Le prix dun billet davion Tunis - Toulouse est pass de 310 D en 1985
400 D en 1998.
Lindice de prix dans ce cas est donn par :
65
P
400
98

100
100 107 7
,5
98/85
P
310
85
On dit que le prix dun billet davion a augment de (107,75-100), soit
7,75% entre 1995 et 1998.
Exemple 2:
Le loyer dun studio Tunis est de 240 D, alors qu Bizerte il est de
120 D.
Dans ce cas lindice de loyer entre Bizerte et Tunis est de :
P
120
Bizerte
I

100
100 5 %
0
Bizerte/T n
u is
P
240
Tunis
Donc le loyer dun studio Bizerte est le moiti de celui Tunis.
Les proprits de lindice lmentaire :
La circularit ou transitivit
Cette proprit est intressante dans le cas dun changement de lanne
de base.
Si une grandeur conomique prend les valeurs
x , x et x
0
1
2
respectivement aux dates t
,
0
e
1t2
, lindice lmentaire satisfait :

1
I

I
I
2/0
21
/
/
10
100
Ainsi on a :
I 2/0
I

100

21
/
I
base 1

/
10
base 0
Dmonstration :
x
x
100 x
1
x
x
2
2
1
2
1
I

100
100


100
100
2/0
x
x
100 x
100
x
x
0
0
1
1
0
1
I

I
I
2/0
21
/
/
10
100
Dune manire gnrale :
I
I
I
I
t / t 1
t1/ t 2
t2 / t 3
1/ 0
I
100

t/0

100
100
100
100
Exemple :
Le prix dun bien Z pour trois dates est donn dans le tableau suivant :
66
Date
Prix
1985
150
1990
210
1995
230
Calculons les diffrents indices lmentaires:
210
230
I

100 14 %
0,
I

100 153 3
,
90 / 85
150
95 / 85
150
230
I

100 109 5
,
95 / 90
210
On vrifie que :
1
1
I

I
I

109 5
, 140 153 %
3
,
95 / 85
100
95/ 90
90 / 85
100
Ainsi, pour comparer deux variables entre deux dates, il suffit de faire le
rapport de leur indice.
La rversibilit :
Cette proprit est prenante dans le cas du calcul dindice spatial car le
choix de lespace de rfrence est arbitraire.
La proprit de la rversibilit peut tre prsente sous la forme
suivante :
4
10
4
I
I
10 ou encore I

/
10
01
/
01
/
I/
10
Dmonstration :
x
x
1
0
4
100 100

100 100 10 I

I
/
10
01
/
x
x
0
1
Exemple :
En reprenant les donnes de lexemple prcdent, on peut vrifier que :.
210
150
I

100 14 %
0,
I

100 7 ,
1 42 %
8
90 / 85
85/ 90
150
210
4
I
I
140 7 ,
1 428 10
90 / 85
85 / 90
Autres proprits de lindice lmentaire :
Si a bc alors lindice lmentaire de a est donn par :
1
I
( a) I
( b)
.I
( c).
/
10

/
10
/
10
100
67
Exemple :
Supposons que I
( p) 110% et I
( q) 12 %
0
.
/
10
/
10
La recette tant gale au produit du prix par la quantit , R pq ,
lindice lmentaire de la recette est :
1
1
I
( R) I
( p) I
( q)
110 120
132%
/
10
/
10
/
10
100
100
Entre la date 0 et la date 1 la recette a augment de 32%
b
Si a
, alors lindice lmentaire de a est donn par :
c
I
( b)
I
( a)
/

10

100
/
10
I
( c)
/
10
Les indices synthtiques
Soit G une grandeur complexe compose de plusieurs autres grandeurs
simples :
G1
2
k
g , g , , g
Pour chaque grandeur simple g i , i
,
2
,
1
, k on peut calculer un
indice lmentaire simple :
gi
I
(gi
t
)
10 ,
0
i
,
2
,
1
, k
t/0
gi0
On peut rsumer cette srie dindices lmentaires par un indice
synthtique not I
( G).
t/0
En conomie on sintresse souvent aux variations des prix, des
quantits et de la valeur globale (prix fois quantits). Ainsi, on peut

calculer trois indices synthtiques, savoir lindice des prix, lindice des
quantits et lindice de valeur globale.
Soient
i
i
p , q respectivement le prix et la quantit du bien i la date 0 ,
0
0
et
i
i
p , q respectivement le prix et la quantit du mme bien la date t.
t
t
Considrons un panier compos de k biens.
Les valeurs globales de ce panier values la date 0 et la date 1 sont
donnes respectivement par :
i k
ik
V
et V
pq
t
ii
0
ii
pq
0
0
t
t
i1
i 1
Lindice de la valeur globale est donn par :
68
i k
ii
pq
t
t
V
I
(V)I
(.

p q)
t
100
i 1

100
t /0
t /0
i k
V
i
i
0
pq
0
0
i 1

Par exemple, I
( V ) 130% signifie que la valeur du panier a
t/0
augment de 30% entre la date 0 et la date t. A ce niveau, une question
importante se pose : quelle est lorigine de cette augmentation ?
rsulte-elle de laugmentation des prix, des quantit ou des deux ?
En effet, dans ce cas, plusieurs cas de figures peuvent se prsenter :
les prix augmentent et les quantits restent constantes.
les quantits augmentent et les prix restent constants.
les prix augmentent et les quantits baissent, mais la hausse des prix
lemporte sur la baisse des quantits.
les quantits augmentent et les prix baissent, mais la hausse des
quantits lemporte sur la baisse des prix.
les quantits et les prix augmentent simultanment.
Afin de cerner avec prcision les origines de la variation, on fixe les
quantits et on calcule un indice de prix, ensuite on fixe les prix et on
calcule un indice de quantits
Gnralement, on distingue deux types dindices selon que lon fixe les
quantits ou les prix la date de base 0 ou la date courante t. Dans le
premier cas, lorsque lon fixe les prix ou les quantits la date de
base 0 : on calcule les indices synthtiques de Laspeyres. Dans le
deuxime cas, lorsque lon fixe les prix ou les quantits la date
courante t, on calcule les indices synthtiques de Paasche.
Indices synthtiques de Laspeyres
Indice de prix de Laspeyres:
Cet indice indique lvolution de la valeur dun panier de biens
composition constante. Les quantits fixes sont values la date de
base 0 :

ik
ii
pq
t
0
P
i 1
L

100
t/0
ik
ii
pq
0
0
i 1

Indice de quantit de Laspeyres:


Cet indice indique lvolution de la valeur dun panier de biens prix
constants. Les prix constants sont valus la date de base 0 :
69
i k
ii
pq
0
t
q
i 1
L

100
t /0
i k
ii
pq
0
0
i 1

Indices synthtiques de Paasche


Indice de prix de Paasche :
Cet indice indique lvolution de la valeur dun panier de biens
composition constante. Les quantits fixes sont values la date

courante t.
ik
ii
pq
t
t
P
i 1
P

100
t/0
ik
ii
pq
0
t
i 1

Indice de quantit de Paasche :


Cet indice indique lvolution de la valeur dun panier de biens prix
constants. Les prix constants sont valus la date courante t :
i k
ii
pq
t
t
q
i 1
P

100
t /0
i k
ii
pq
t
0
i 1

Les coefficients budgtaires


On appelle coefficient budgtaire associ au bien i , la part de la
dpense consacre ce bien. Ainsi, les coefficients budgtaires dun
bien i, respectivement la date 0 et la date t sont :

i
i
pq
i
i
pq
i
W
0
0
et
i
W
t
t
0
i k
t
i k
ii
pq
i
i
pq
0
0
tt
i 1
i 1
Les coefficients budgtaires ont les proprits suivantes :
0W1
i
k
W1
i
i 1

70
Indices synthtiques de Laspeyres et moyenne
arithmtique
Lindice synthtique de Laspeyres peut tre dfini comme tant la
moyenne arithmtique des indices lmentaires pondrs par les

coefficients budgtaires de la date de base.


Dmonstration : Nous allons la faire pour le cas de lindice de prix de
Laspeyres. Le cas de lindice de quantit de Laspeyres se fait dune
manire similaire.
i k
ii
pq
t
0
P
i 1
L

100
t /0
i k
ii
pq
0
0
i 1

i k
i
i
pq
P
t
0
L

100
/0
i k
i 1

ii
pq
0
0
i 1

En multipliant et en divisant par


i
p , on obtient :
0
i
i
i
i k
qp
p
P
0
t
0
L

100
t /0
i k
i
i 1

i
i
p0
pq
0
0
i 1

i
i
i
i k
qp
p
0
0
t

100
i k

i
i 1

i
i
p
pq
0
0

i 1

Ii
(p)
t/O
i
0
W
i k
LP W i I i ( p)
t /0
0
t/O
i 1

Indices synthtiques de Paasche et moyenne


harmonique
Lindice synthtique de Paasche peut tre dfini comme tant la
moyenne harmonique des indices lmentaires pondrs par les
coefficients budgtaires de la date courante.
Dmonstration : Nous allons le faire pour le cas de lindice de prix de
Paasche. Le cas de lindice de quantit de Paasche se fait dune manire
similaire.
i k
ii
pq
t
t
P

i 1
P

100
t /0
i k
ii
pq
0
t
i 1

On calcul linverse de lindice de Paasche


71
i k
i
i
pq
1
0t
1
i 1

P
i k
P
i
i
100
t /0
pq
t
t
i 1

1
i k
i
i
pq
1

i k
P
i 1

i
i
100
t /0
pq
t
t
i 1

En multipliant et en divisant par


i
p , on obtient :
t
1
i k
i
i
i
pq
p
1
0

t
t

i k
i
P
i 1

i
p
100
t /0

t
pq
t
t
i 1

i k
i
i
i
pq
p

t
t
(0
)
i k
i
i 1

i
i
p 1
00

t
pq

t
t
i 1


i
Ii
(p)
t/0
Wt
1
i k
i
1
W
PP
t
i
i 1

I
( p)
t /0
t /0
Limites et extension des indices de laspeyres
et de Paasche
Limites
Les deux indices de Laspeyers et de Paasche ne sont pas rversibles
4
L
L
10
t /0
0/ t
et
4
P
P
10
t /0
0/ t
Ces proprits sont valables pour les deux indices, prix et quantit.
Les indices de Laspeyers et de Paasche ne vrifient pas la proprit de
circularit :
1
L

L
L

t /0
t/t'
t/
'0
100
et
1
P

P
P
t /0
t/t'
t/
'0
100
Dune manire gnrale lindice de Paasche est toujours infrieur ou
gal lindice de Laspeyers.
72
Lindice de Laspeyers surestime lvolution des prix.
Lindice de Paasche sous-estime lvolution des prix.
Indices de Fisher
On peut dfinir un troisime indice, dit indice de Fisher, comme la
moyenne gomtrique des deux indices de Paasche et de Laspeyers.
Lindice de prix de Fisher est donc :
1
P
F
P
L
2
P
L
t /0
P
P
t /0
t /0
P
P
t /0

t /0
Lindice de quantits de Fisher est donc :
1
q
F
P
L
2
P
L
t /0
q
q
t /0
t /0
q
q
t /0
t /0
Proprits de lindice de Fisher
Lindice de Fisher est compris entre ceux de Laspeyers et Paasche
PFL
Lindice de Fisher est rversible :
4
F
F
10
t/0
0/t
Lindice de Fisher nest pas transitif :
1
F

F
F
t /0
t/t'
t/
'0
100
Remarques :
Lindice de la valeur globale ou de la recette totale peut tre exprim en
fonction des trois indices : Laspeyers, Paasche et Fisher
P

q
q
P
P
q

I V I pq
L
P
L
P
F
F

100
100
100
Exemple 1
On dispose des donnes suivantes sur les prix et les quantits de deux
biens en 1995 et 1998 :
Bien 1
Bien 2
Prix
Quantit
Prix
Quantit
1995
10
5
25
10
1998
15
6
32
14
1) Calculer les indices de prix et de quantit de Laspeyers, de Paasche

et de Fisher.
2) Calculer lindice de la valeur globale et vrifier que :
73

p
q
q
p
p
q

I V I pq
L
P
L
P
F
F

100
100
100
1) Le calcul des indices
i2
ii
pq
98
95
p
15 5 32 10
i 1
L

100
100 131 6
,7
98/95

i2
i
i
10 5 25 10
pq
95
95
i 1

i2
ii
pq
95
98
q
10 6 25 14
i 1
L

100
100 136 6
,7
98/95
i2
i
i
10 5 25 10
pq
95
95
i 1

i2
ii
pq
98
98
p
15 6 32 14
i 1
P

100
100 131 2

,2
98/95
i2
i
i
10 6 25 14
pq
95
98
i 1

i2
ii
pq
98
98
q
15 6 32 14
i 1
P

100
100 136 2
,0
98/95
i2
i
i
15 5 32 10
pq
98
95
i 1

p
F

p
P
p
L
131 4
,4
98/95

98/95
98 /95
q
F

q
P
q
L
136 4
,3
98/95
98/95
98/95
On remarque que P F L
2) Lindice de la valeur
i2
ii
pq
98
98
15 6 32 14
I
(V)
i 1

100
100 179 3
,4
98/95
i2
i
i
10 5 25 10
pq
95
95
i 1

p
q
q
p
p
q

LP
LP
FF
I
VI
pq

98/95

98/95

100
100
100
p
q
q
p
p
q
LP
LP
FF
I
VI
pq

98/95

98/95

100
100
100
74
1
1
131 6
, 7 136 2

,0
136 6
, 7 131 2
,2
100
100
179 3
,4
Exemple 2
Bien
1995 : (0)
1998 : (t)
Indices
Indices
lementaires
lementaires
pq
i
i
pq
W
W
pq pq
95 95
98 98
98 95
95 98
p q p q I
()
p
95
98
I
()
q
95
95
98
98
98 8
/5

98 8
/5
A
12
6
15
7
125
116
72
105
0,33
0,37
90
84
B
5
13
8
11
160
84
65
88
0,30
0,31
104
55
C
8
10
10
9
125
90
80
90
0,37
0,32
100
72
Total

217
283
1
1
294
211
1) Le calcul des indices synthtiques
i3
ii
pq
98
95
p
294
i 1
L

100
100 135
98/95
i3
i
i
217
pq
95
95
i 1

i3
ii
pq
95
98
q
211
i 1
L

100
100 97
98/95

i3
i
i
217
pq
95
95
i 1

i3
ii
pq
98
98
p
283
i 1
P

100
100 134
98/95
i3
i
i
211
pq
95
98
i 1

i3
ii
pq
98
98
q
283
i 1
P

100
100 96
98/95

i3
i
i
294
pq
98
95
i 1

p
F

p
P
p
L
134 4
,
98/95
98/95
98/95
q
F

q
P
q
L
96 4
,9
98/95
98/95
98/95
Lindice de la valeur est :
75
i3
ii
pq
98
98
283
I
(V)

i 1

100
100 130 4
,1
98/95
i3
i
i
217
pq
95
95
i 1

On peut vrifier que :


i3
LP
WiIi
( p)
98/95
95
98/95
i 1

3
,
0
(
3 125)
3
,
0
(
0 160)
3
,
0
(
7 125) 130
i3
Lq
WiIi
( q)

98/95
95
98/95
i 1

3
,
0
(
3 116)
3
,
0
(
0 84)
3
,
0
(
7 90) 97
et que :
1
i k
i
1
W
P
98
P
i
i 1

I
( p)
98/95
98/95
1
1
1
1

3
,
0

(
7
)
3
,
0
(
1
)
3
,
0
(
2
)
125
160
125
134
1
i k
i
1
W
q
98
P
i
i 1

I
( q)
98/95
98/95
1
1
1
1

3
,
0
(
7

)
3
,
0
(
1
)
3
,
0
(
2
)
116
84
90
96

76

Chapitre 6 :
Introduction lanalyse des distributions
deux variables
CHAPITRE VI : INTRODUCTION A LANALYSE DES DISTRIBUTIONS A DEUX
VARIABLES 78
I.
PRESENTATION DUN TABLEAU A DOUBLE ENTREE 78
I.A.
Exemple
78
I.B.
Tableau de contingence
78
II.
DISTRIBUTIONS MARGINALES
80
II.A.
Dfinition
80
II.B.

Exemple
80
III.
DISTRIBUTIONS CONDITIONNELLES 85
III.A.
Dfinition
85
III.B.
Exemple
86
IV.
DEPENDANCE ET INDEPENDANCE ENTRE LES VARIABLES X ET Y
87
77
Chapitre VI : Introduction
lanalyse des distributions deux
variables
On considre une population de N individus mesurs simultanment
par les deux caractres X et Y, de modalits x ,.. x
. ,... x
. pour la
1
i
L
variable X et y ,... y ,.... y pour la variable Y. On note par n le nombre 1
j
K
ij
dindividus appartenant la fois une classe de rang i ( pour la
variable X) et une classe de rang j ( pour la variable Y).
Prsentation dun tableau double
entre
Exemple
On considre le tableau suivant, relatif une population de 100
mnages, o X dsigne le nombre denfants du mnage et Y est le
nombre de pices du logement.
Yj
3
4
5
Total

(j)
1
(j)
2
( j 3)
Xi
2(i)
1
15
10
5
30
3(i)
2
30
5
10
45
4 ( i 3)
10
5
0
15
5(i)
4
10
0
0
10

Total
65
20
15
100
Remarques :
La valeur 30 indique que, parmi les 100 mnages observs, il y a 30
mnages qui ont 3 enfants et qui habitent dans des logements de 3
pices.
La valeur 65 indique que, parmi les 100 mnages observs, il y a 65
mnages habitent dans des logements de 3 pices.
La valeur 45 indique que, parmi les 100 mnages observs, il y a 45

mnages qui ont 3 enfants.


Tableau de contingence

78
Y
y
y
y y
j
1
2
j
K
Total
X i
x
n n
n
n
n
1
11
12
1j
1K
1.
x
n n
n
n
n
2
21
22
2j
2K
2.

..
x
n n
n
n
n
i
1
i
i 2
ij
iK
i.

..
x
n n
n
n
n
L
1
L
L 2
Lj
LK
L.

Total
n n
n
n
N
1
.
.2
.j
.K
Les effectifs situs lintrieur du tableau sont nots par n , o n
ij
ij
dsigne le nombre de fois o la modalit x de la variable X et la
i
modalit y de la variable Y ont t observes simultanment.
j
Leffectif n , appel effectif marginal de X, est le nombre total
i.
dobservations de la modalit x de la variable X quelque soit la
i
modalit de la variable :
jK
n
n
i.
ij
j 1
Leffectif n , appel effectif marginal de Y, reprsente le nombre total
.j
dobservations de la modalit y de la variable Y quelque soit la
j
modalit de la variable X :
i L
n
n
.j
ij
i1
Leffectif total de la distribution conjointe, not N, peut tre obtenu
partir de leffectif marginal de X ou bien partir de leffectif marginal de
Y:
i L

jK
i L j K
Nn
n
n
i.

.j
ij
i1
j 1
i1 j 1
Remarque : la distribution conjointe des variables X et Y peut tre
dfinie partir des frquences relatives :
79
n
jK
n
i L
n
i L j K
f
ij

i.
.j
avec f

f ;f

f et f 1
.j

i.

ij
ij
N
ij
N
ij

j 1
N
i1
i 1

j 1

Distributions marginales
Dfinition
A partir de la distribution conjointe des variables X et Y, on peut
dduire la distribution marginale de chacune des deux variables. Ceci
nous permet danalyser sparment la distribution de chacune des
deux variables.
On appelle distribution marginale de la variable X, la donne des L
couples ( x , n ) .
i
i.
On appelle distribution marginale de la variable Y, la donne des K
couples ( y , n ) .
j
.j
Ces deux distributions peuvent se prsenter sous forme de tableaux
statistiques.
Distribution marginale de X
Y
Effectif marginal
j
X
Effectif marginal
i
y
n
1
1
.
x
n
1
1.
y
n
2
.2
x

n
2
2.
..
..
y
n
j
.j
x
n
i
i.
..
..
y
n
K
.K
x
n
L
L.
Total
N
Total
N
Distribution marginale de Y
Remarque : la distribution marginale de chacune des variables X et Y
peut tre dfinie partir des frquences relatives :
n
n
f
i.

.
et

f
j

i.
N
.j
N
Exemple
En reprenant lexemple de la distribution des 100 mnages selon le
nombre denfants du mnage et le nombre de pices du logement, la
distribution marginale selon chacun des deux caractres peut se
80
prsenter de la manire suivante :
Distribution marginale de X
X
Effectif marginal
i
2
30
3
45
4
15
5
10
Total
100
Distribution marginale de Y
Y
Effectif marginal
j
3
65
4
20
5
15
Total
100
Distributions conditionnelles
Dfinition
On appelle distribution conditionnelle de Y pour X x , la distribution
i

des individus correspondant une modalit x de la variable X suivant


i
les modalits de la variable Y.
On appelle distribution conditionnelle de X pour Y y , la distribution
j
des individus correspondant une modalit y la variable Y suivant les
j
modalits de la variable X.
Ces deux distributions peuvent se prsenter sous forme de tableaux
statistiques.

Distribution conditionnelle de X sachant


Distribution conditionnelle de Y sachant
YY
XX
j
i
X
n
Y
n
YYj
i/j
X xi
j/i
x
n
y
n
1
1j
1
1
i

x
n
y
n
i
ij
j
ij

x
n
y
n
L
Lj
K
iK
Total
n
n
i
.j
Total
.
Remarque : la distribution conditionnelle de chacune des variables X et
Y peut tre dfinie partir des frquences relatives .
Dans le cas de la distribution conditionnelle de X pour Y y , on a :
j
nij
i L
n
f
f

ij

N
ij
;
f
i
j

1
/
i/j
n
n
f
i 1
.

.
j
j
.j
N
Dans le cas de la distribution conditionnelle de Y pour X x , on a :
i
nij
jK
n
f
f
ij N
ij
;
f
ji

1
/
j/i
n
n
f
j 1
i.


i.
i.
N
Exemple
En reprenant lexemple de la distribution des 100 mnages selon le
nombre denfants du mnage et le nombre de pices du logement, la
distribution conditionnelle de X sachant Y 4 et la distribution
conditionnelle de Y sachant X 3 se prsentent ainsi :

Distribution conditionnelle de X sachant


Y4
2
10
3
5
4
5
5
0
Total
20
Distribution conditionnelle de Y sachant
X3
3
30
4
5
5
10
Total
45
Dpendance et indpendance entre les
variables X et Y
Les variables X et Y sont dites statistiquement indpendantes lorsque la
distribution de la variables X ne dpend pas de la variable Y ou vice
versa. Dans ce cas, la connaissance de la variable Y ne donne aucune
information sur la variables X, auquel cas , toutes les distributions
conditionnelles de la variables X sont identiques la distribution

marginale de la variables X.
Lindpendance se traduit en termes de frquences relatives par :
fff
i
,j
ij
i.
.j

Chapitre 7 :
Corrlation et Ajustement linaire
CHAPITRE VII : CORRELATION ET AJUSTEMENT LINEAIRE 89
I.
LA COVARIANCE ENTRE X ET Y
89
I.A.
Dfinition
89
I.B.
Proprits
89
II.
LE COEFFICIENT DE CORRELATION LINEAIRE ENTRE X ET Y
90
II.A.
Dfinition
90
II.B.
Proprits
91
II.C.
Interprtation de la valeur de rx,y
91
III.
AJUSTEMENT LINEAIRE DUN NUAGE DE POINTS 92
III.A.
La droite de rgression de y sur x
92
III.A.1.
Critre des moindres carrs

93
III.B.
La droite de rgression de x sur y
95
IV.
DECOMPOSITION DE LA VARIANCE TOTALE
96
V.
COEFFICIENT DE DETERMINATION 97
V.A.
Interprtation de la valeur de R2
97
VI.
AJUSTEMENT NON LINEAIRE 98

Chapitre VII : Corrlation et


Ajustement linaire
Dans le cadre de ce chapitre, on sintresse ltude dune ventuelle
relation entre deux variables statistiques. En dautres termes, nous
allons voir, dabord, comment dterminer le sens de la liaison entre ces
deux variables, ensuite, comment mesurer lintensit ou le degr de la
liaison entre elles, et enfin fournir une expression mathmatique de la
liaison entre ces deux variables.
La covariance entre X et Y
Dfinition
La covariance est gale la moyenne des carts des couples ( x , y ) de X
i
i
et Y par rapport au point ( x, y).
1 i N
Co (
v,
x y)
( x x () y y)
N
i
i
i 1

La covariance indique le sens de la relation entre les variables X et Y.


Ainsi, On peut distinguer les cas suivants :
Si Co (
v,

x y) 0 , alors on peut dire que la relation entre les deux


variables est positive. Dans ce cas, ces deux variables varient dans le
mme sens.
Si Co (
v,
x y) 0 , alors on peut dire que la relation entre les deux
variables est ngative. Dans ce cas, ces deux variables varient en sens
inverse.
Si Co (
v,
x y) 0 , alors on peut dire quil ny a pas de relation entre les
deux variables. Dans ce cas, les variations de lune nentranent pas la
variation de lautre.
Proprits
i)
Co (
v ax ,
b cy d ) a .
c Co (
v,
x y)
Dmonstration
1 i N
Co (
v ax ,
b cy d )
( ax b) ( x
ab

i
) ( cy
d)
(y
c
d
i
)
Ni 1

1 i N
1 i N

( ax ax () cy y

c)

i
i
(
ax
x
i
) .
(
cy
y
i
)
Ni 1

Ni 1

1 i N

a c( x x)( y y

i
i
) a c Co (
v,
x y)
Ni 1

ii)
Co (
v,
y x) Co (
v,
x y)
Dmonstration
1 i N

1 i N
Co (
v,
x y)
( x x () y y)
( y y)( x x) Co (
v,
y x)
N
i
i
i
i
i 1

Ni 1

iii)
Co (
v,
x x) V ( x)
Dmonstration
1 i N
1 i N
Co (
v,
x x)
( x x)( x x)
( x x)2 V( x)
N
i
i
i
i 1

Ni 1

i N
1

iv)
Cov( x, y)
xy.
i

i
x y
N

i 1

Dmonstration
i N
i N
1
1
Cov( x, y)
( x x () y y)
( x y yx xy xy)
N
i
i
i 1

N
i
i
i
i
i 1

i N
i N
i N
i N
1

( x y ) ( yx ) ( xy ) ( x. y)
N
i
i
i
i

i 1

i 1

i 1


i 1

i N
i N
i N
i N
1

( x y ) y( x ) x( y ) ( x. y)
N
i
i
i
i

i 1

i 1

i 1

i 1

N.x
N.y
N . y. x

i N
1

( x y ) N. x. y N. x. y N. y. x
N
i
i

i 1

i N
i N
1

( x y ) N. y. x
( x y ) .
i
i
i
i
x y
N

i 1

Ni 1

Le coefficient de corrlation linaire


entre X et Y
Dfinition
Le coefficient de corrlation linaire est un nombre sans dimension qui
permet de mesurer le degr ou lintensit de la liaison linaire entre
deux variables statistiques. Ainsi, la formule du coefficient de
corrlation linaire entre X et Y est :
Co (

v,
x y)
Co (
v,
x y)
r

x, y

x
y
V ( x) V ( y)
La covariance indique le sens de la relation entre les variables X et Y.
Ainsi, On peut distinguer les cas suivants :
Si r
0 , les deux variables varient dans le mme sens.
x, y
Si r
0 , les deux variables varient en sens inverse.
x, y
Si r
0 , les deux variables sont linairement indpendantes.
x, y
Proprits
i)
r
signe d
ea
)s
( igne d
ec
r
ax b c
, y d

x, y
Dmonstration
Cov( ax b, cy d )
( a c) C
. ov( x, y)
r

ax b c
, y d
V ( ax b) V c
(yd)
a V ( x) c V ( y)
( a c) C
. ov( x, y)
( a c) Cov( x, y)

a c V ( x) V ( y)
ac
V ( x) V ( y)
signe d
ea
)s
( igne d
ec
rx, y
r
r
y, x
x, y
Dmonstration
Cov( x, y)
Cov( y, x)
r

r
x, y
y, x

x
y
y
x
r
1
x, x
Dmonstration

Co (
v,
x x)
V ( x)
r

1
x, x

x
x
x
x
1 r 1
Interprtation de la valeur de rx,y
Si r
1 : on dit quil y a une parfaite corrlation linaire positive entre
x, y
les deux variables.
Si r
1
: on dit quil y a une parfaite corrlation linaire ngative
x, y
entre les deux variables.
Si r
0 , on dit quil y a absence de corrlation linaire entre les deux
x, y
variables.
On dit quil y a une forte corrlation linaire entre les deux variables (ou
forte dpendance linaire) si r est proche de 1. En revanche, si r est
proche de zro, on dit quil y a une faible corrlation linaire entre les
deux variables.
Ajustement linaire dun nuage de
points
On considre deux variables statistiques quantitatives x et y et on
sintresse une relation ventuelle entre elles.
La reprsentation du nuage de points peut nous renseigner sur lallure
de la distribution deux caractres. La forme de la relation entre les
deux variables peut tre mise en vidence graphiquement par les
courbes de rgression.
Gnralement, on exprime y en fonction de x, on parle alors de la droite
de rgression de y sur x (ou de y en x). Dans ce cas, on cherche expliquer la variable y

par la variable x. De ce fait, y est dite variable explique ou variable endogne et x est appele
variable explicative ou
variable exogne.
La droite de rgression de y sur x
On considre N observations sur les deux variables x et y. Ces
observations peuvent tre reprsentes par un nuage de points. Dune
manire gnrale, lajustement dun nuage de point par une fonction
mathmatique, revient estimer les valeurs des coefficients de cette
fonction de telle sorte que sa courbe reprsentative se rapproche au
mieux du nuage de points.
Lorsquil sagit dune liaison linaire entre les deux variables, on parle
alors dajustement linaire. Lajustement linaire consiste estimer les
coefficients de la droite de rgression du type y ax b , cest dire trouver la valeur
de a et celle de b.
Cette droite est suppose reflter lvolution moyenne de la variable y
(variable explique) en fonction de la variable explicative x.
La mthode dajustement que nous allons exposer est appele mthode
des Moindres Carrs Ordinaires ou simplement MCO .
Y
Droite de
rgression
yi
i
axi+b
xi
X
Critre des moindres carrs
Considrons N couples dobservations ( x , y ) tels que :
i
i
y ( ax b)
i
i
i
o reprsente le rsidu du couple ( x , y ). On peut alors crire :
i
i
i
y ( ax b)
i
i
i

La mthode MCO consiste ajuster le nuage de points par une droite de


manire minimiser la somme des carrs des distances entre les points
du nuage et cette droite. Ceci revient minimiser la somme des carrs
des rsidus.
Remarque : On minimise la somme des carrs des rsidus et non la
i N
somme des rsidus car : 0
i
i 1

Dtermination des deux paramtres a et b par la mthode MCO.


2
2
y ( ax b) ( y ax b)
i
i
i
i
i
i
La somme des carrs des rsidus pour i ,
1,
2 , N est donne par :
N
i N
2

(y
ax
b 2
)
f ( a, b)
i

i
i
i1
i1
Les deux conditions de premier ordre de la minimisation de cette
fonction f par rapport a et b sont :
i N

iN
2

i 1

0
1
et
0
a
b
iN
e 2 i
iN
iN
i 1

2
( y ax b)
(x)0
(y
ax
b)( x )
0
(1)
i
i
i

i
i
a
i 1
i 1
iN
e 2 i
iN
iN
i 1

2
( y ax b)( )
10
(y
ax
b)
0
(2)
i
i

i
i
b
i 1
i 1
Le dveloppement de ces deux quations nous donne :
i N
i N
i N
i N
)
1
(
(
2
y x ax bx )
2

yxa
xb
x0

(3)
ii
i
i
ii
i
i
i 1

i 1

i 1

i 1

i N
i N
i N
()
2
( y ax b)
ya
x Nb 0

(4)
i
i
i
i
i 1

i 1

i 1

En divisant les deux membres de lquation (4) par N, on obtient :


iN
iN
yi
xi
i
i
Nb
1

0
N
N
N
Sachant que :
iN
1
iN
1
x
x et que y
y
i
N
i
i 1
N i1
Lquation (4) devient :
y
axb0

(5)
En remplaant, dans lquation (3), b par : y a x (daprs lquation (5)), on a :
iN
iN

iN

yxa
i
i
2
x(yx
a
i

)
x0
i
i 1
i 1
i 1
iN
iN
iN
iN
yxa
i
i
2
xy
i
xx
a
i
x0
i
i 1
i 1

i 1

i 1
Nx
Nx
iN
iN
yxa
i
i

2
x Nx. y aN
i
x2 0
i 1
i 1
iN
i N
y x Nx. y a
i
i
2
xN
i
x2

i 1
i1

Ainsi, on obtient la valeur estime de la pente de la droite de


rgression :
i N
yxNxy
ii
i
a
1

i N
x2Nx2
i
i1
et par l la valeur estime de b :
b y x
a
Remarque :
On peut aussi calculer la valeur estime de la pente de la droite de
rgression en utilisant lune de ces deux expressions
i N
( x x)( y y)
i

i
Co (
v,
x y)
i
a
1
ou
a
i N
V ( x)
( x x 2
)
i
i1
Enfin, lquation de la droite de rgression est donne par :
yx
a
b

i
i
Remarque :
La droite de rgression passe par le point moyen de coordonnes ( x, y). En
effet, Comme, b y x
a , on a alors y ax
b
.
Ltude de la droite de rgression de y sur x permet de prvoir y en
fonction x :
y x
a b

La droite de rgression de x sur y


On peut exprimer x en fonction de y . Dans ce cas, on appelle x une
variable endogne ou explique et y une variable exogne ou
explicative, et on parle de la droite de rgression de x sur y :
x a' y b'.
En utilisant la mthode des moindres carrs ordinaires, on retrouve la
valeur de a' et de b' exprimes par :
i N
yxNxy

ii
i
a
1
'
et b' x a' y
i N
y2Ny2
i
i1
On peut montrer aussi que :
i N
1 i N
( x x)( y y)
( x x)( y y)
i
i
i
i
Co (
v,
x y)
'

i 1

Ni 1
a

i N
i N
2
1
2
V ( y)
( y y)

i
(y

y)
i
i 1

Ni 1

Remarque :
Ltude de la droite de rgression de x sur y permet de prvoir x en
fonction de y :
x a y b'

'

Dcomposition de la variance totale


iN
iN
( y y 2
)
(y
y ) ( y
y 2
)
i

i
i
i

i 1
i 1
iN
iN
iN

yy 2

y
y 2
2
(y
y ) ( y

y)
i
i

i
i
i

i 1
i 1
i 1
)
1
(
(2)
( y y) ( a x b)

( a x b
.

) a(
x x)
i
i
i

(2)
( y y ) ( y y) ( y y) ( y y) a(
x x)
i

i
i
i
i
i

)
1
(
)
1
(
)
2
(
a(
x x)
(y
y)
a(
x
x)
i

i
i

iN
i N
iN
)
1
(
)
2
(
a ( x x)( y y)
a
(x
x 2

)
i
i

i 1
i1
i 1

i N
( x x)( y y)
i
i
i N
i N
or
i
a 1
a
(xx 2
)
( x x)( y y)
i N
i
i
i

2
i1
i
(xx
1
)
i
i1
iN
i N
iN

do )
1

(
)
2
(

a ( x x)( y y
x
xy
y

i
i
) ( )(
i
i
) 0

i 1

i 1

i 1

i N
i N
i N
( y y)2

y
y
y
y
i

i
i 2

i
2
i 1

i 1

i 1

Somme d
es C
arr
s Totale
Somme d
es C
arrs d
es R
sidus
Somme d
es C
arrs E
xplique
S
C
T
S
CR
S
CE
En divisant par les deux membres par N on obtient lquation danalyse
de la variance.
1 i N
1 i N
1 i N
2
( y y)
y

y
y
y
i

i
i 2


i
2

Ni
1

Ni
1

Ni
1

VARIANC
E TOTALE
VARIANCE R
ESIDUELLE
VARIANCE E
XPLIQUEE
Coefficient de dtermination
Lquation danalyse de la variance nous permet davoir une ide sur la
qualit dajustement. Afin de mesurer la qualit de cet ajustement, on
dfini le coefficient de dtermination, not
2
R , par la part de la variance
explique dans la variance totale :
2
VARIANCE E

XPLIQUEE
R
VARIANC
E TOTALE
SCE
SCR

1
SCT
SCT
Remarque :
on peut retenir le coefficient de dtermination comme tant le carr du
coefficient de corrlation linaire entre x et y.
2
Co (
v,
x y)
2
2
R(r)

x, y

x
y

Le coefficient de dtermination est aussi gal au produit des pentes des


deux droites de rgression, de y sur x et de x sur y.
2
Ra'
a
En effet,
2
Cov x y
Cov x y Cov y x
Cov x y
Cov y x
2
(,)
(,)
(,)
(,)

(,)
R

a'
a

V ( x) V ( y)
V ( x)
V ( y)
x
y

Remarque :
r
s
( igne d
e Co (
v,
x y))

a a'

x, y
Interprtation de la valeur de R2
Si
2
R 1 : on dit quil y a dpendance totale ou liaison fonctionnelle
entre les deux variables. Les deux droites de rgression, de y sur x et de
x sur y, sont alors confondues.
Si
2
R 0 , on dit quil y a indpendance totale ou liaison nulle entre les
deux
variables.
Les
deux
droites
de
rgression
sont
alors

perpendiculaires .
Si 0
2
R 1 : on dit quil y a liaison relative entre les deux variables.
On dit que la qualit dajustement est bonne si
2
R est proche de 1. En
revanche, si
2
R est proche de zro, on dit que la qualit de lajustement
est mauvaise.
Exemple :
Cas 1
x
y
2
8
5
12
9
18
11
24

Cas 2
x
y
5
90
8
12
10
1
2
4
9
45
Pour les deux cas, on dtermine les deux droites de rgression, en
utilisant les formules de a , a' , b et b' .
Cas 1 :
1)

y ax b y 7
,
11x
9
,
33
i
i
i
i
2)
x a' y '
bx
5
,
06y
0
,
25
i
i
i
i
Dans ce cas :
a'

a
7
,
11
5
,
06
9
,
0 576
Cas 2 :
1)
y ax b y 5
,
1 x 40 6
,6
i
i
i
i

2)
x a' y '
bx0
,
0 11 y
1
,
74
i
i
i
i
Dans ce cas :
a a'
5
,
1 ( 0
,
01)
1
0
,
0 165
Dans le cas 1, le produit
a
a'
9
,
0 576 est proche de 1 alors que dans
cas 2, le mme produit
a
a'
0
,
0 165 est proche de zro. Lexamen des
donnes (cas 1) montre que x et y varient dans le mme sens et que la
variation de x conditionne celle de y. Par contre, lexamen des donnes
(cas 2) indique que la variation de y est indpendante de celle de x.
Ainsi, on remarque que lorsque les deux variables sont lies entre elles,
le produit
a
a' est proche de 1. Ce mme produit sera proche de zro
dans le cas contraire.
Ajustement non linaire
Lajustement linaire suppose que la forme de la fonction reliant y et x
est linaire du type : y ax b . Cependant, dans dautres cas, la

relation entre y et x semble tre plutt non linaire.


Exemple 1
La fonction permettant de reprsenter le nuage de points est une
fonction hyperbolique du type :
b
y
,b0
xa
Comment peut-on estimer b et a ?
Nous sommes en prsence dune relation non linaire entre y et x . Afin
dutiliser la mthode des MCO, il faut dabord retrouver, moyennant une
transformation, dans ce cas logarithmique, une forme linaire :
On a :
b
y
bx a log y log bx a log b a log x
xa
Supposons que : log b et a , le modle linaire est alors de la
forme :
log y log x
En utilisant la mthode des MCO, on peut retrouver lexpression et
de :
Co (
v log ,
x log y)

et
log y
log x
V (log x)
On peut maintenant retrouver la valeur de b et la valeur de a :

log
be
a
a
xemple 2

La fonction permettant de reprsenter le nuage de points est une


fonction parabolique du type :
y ax 2 b
Comment peut-on estimer b et a ?
Nous sommes en prsence dune relation non linaire entre y et x . Afin
dutiliser la mthode des MCO, il suffit de poser
2
z x . On obtient ainsi
une forme linaire entre y et z :
y az b
En utilisant la mthode des MCO, on peut retrouver lexpression a et
de b :
Co (
v z, y)

a
et b y a
z
V ( z)
Remarque :Le choix entre lajustement linaire et lajustement non
linaire peut tre bas sur la forme gnrale du nuage de points. En
effet, si cette forme est linaire on applique directement la mthode des
MCO. Dans le cas inverse (forme de nuage non linaire), on doit au
pralable passer par une transformation approprie afin dobtenir une
relation linaire quon peut estimer par les MCO.
Exemple illustratif du calcul des coefficients de la rgression de Y
sur X ainsi que la dcomposition de la variance totale.
X : note obtenue en test dintelligence.
Y : note obtenue en statistique.
Pour calculer la valeur de at b , on effectue les calculs suivants :
i
x
y
2
2
xy
i
i
x
y
i
i
i
i

1
2
6
4
36
12
2
1
5
1
25
5
3
7
15
49
225
105
4
5
11
25
121
55
5
3
9
9
81
27
Total
18
46
88
488
204
On a :
i N
1
1
i N
1
1
x
x
18

6
,
3x2
x2
88 17 6
,
i
N
i
i1
5
N i1
5
V ( x)
2
x ( x)2 17 6
, 12 9
,6
6
,
44
1 i N
1
i N
2
1
2
1
y
y
46
2
,
9
y
y
488 97 6
,
i
N
i
i 1

5
Ni 1

5
V ( y)
2
y ( y)2 97 6
, 84 6
, 4 12 9
,6
1 i N
1
xy
xy
204 40 8
,
i
i
Ni 1

Co (
v,
x y) xy .
x y 40 8
,
6
,
3
(

)
2
,
9

6
,
78
Co (
v,
x y)
6
,
78


6
,
15
V ( x)
6
,
44

b y
a. x 9
,2 1
6
,53
6
,
3
,26
Donc, la droite de rgression est :
y
6
,
15x
2
,
36
i
i
Signifie que pour celui qui a eu zro en test dintelligence, sa note en
statistique est en moyenne gale 3,26. Un point supplmentaire
obtenu en test dintelligence entrane une augmentation de 1,65 point
de la note en statistique.
Cette droite de rgression nous permet davoir une estimation de la note
en statistique dun individu ayant obtenu 5 en test dintelligence. En
effet, sa note en statistique est estime : 6
,
155
2
,
3 6 11 5
,1
Co (
v,
x y)

6
,
78
r

9
,
09
x, y

7
,
75
x
y
On dit quil y a parfaite corrlation linaire positive entre les deux notes
obtenues.

2
R ( r )2
9
,
08
x, y
Dcomposition de la variance totale
i
y6
,
15x
2
,
3 6 y y
yy
y y
y
i
2

y
i
i 2
i
i
i

i
i

1
6,56
-0,56
0,3136
-2,64
6,9696
2
4,91
0,09
0,0081
-4,29
18,4041
3
14,81
0,19
0,036
5,61
31,4721
4
11,51
-0,51
0,2601
2,31
5,3361
5
8,21
0,79
0,6241
-0,99
0,9801
Total
1,2419
63,162
i N
1
63 1
, 62

La variance explique est gale :


y y 2
1,
2 64
i

N
5
i1
i N
1
,
1 2419
La variance rsiduelle est gale :
y y 2

,
0 25
i
i

N
5
i1
On peut remarquer que La variance totale est gale la somme de ces
deux variances :
VT

VE

VR
1,
2 96
12,89
Bibliographie
Bavaud, F. (1998) Modles et donnes: Une introduction la Statistique
uni-, bi- et trivarie. L'Harmattan, Paris.
Bernard GRAIS (2000), Techniques statistiques , Tome 1 : Statistique
descriptive, Tome 2 : Mthodes statistiques, Editions Dunod, collection
Economie.
Bernard PY (1990), Exercices corrigs de statistique descriptive , 3me
dition Economica.

Calot, G (1975)., Cours de statistique descriptive , Dunod, Paris,


Droesbeke, J.- J. (1997), lments de Statistique , Ellipses, 3me
dition
Goldfarb, B., Pardoux, C. (2000) Introduction la mthode statistique,
3me dition. Dunod.
J.L. BOURSIN, "Comprendre les statistiques descriptives", A. Colin.
Lvy, M.-L. (1979), Comprendre les statistiques, Points conomie
M. Lethielleux (1998) , Statistique descriptive , Editions Dunod,
collection Express.
Reuchlin, M( 1991). Prcis de statistique , Paris: PUF, Le Psychologue,
(5e d.).
Rouanet , H., Leroux, B. & Bert, M.-C (1987). Statistique en sciences
humaines: procdures naturelles , Paris: Dunod,.
Vincent Giard, Statistique descriptive pour les gestionnaires ,
Editions Economica.
Wonnacott, T.H., Wonnacott, R.J. (1991) Statistique, 4me dition.
Economica.