Vous êtes sur la page 1sur 98

Rpublique Tunisienne

Prsidence du Gouvernement

Ecole Nationale dAdministration


24, Avenue du Dr Calmette Mutuelle-ville 1082 Tunis
Tl. (+216) 848 300 Fax (+216) 794 188
www.ena.nat.tn

STATISTIQUE ET CALCUL DE PROBABILITE


(COURS)
Par
Hassen MZALI
Professeur en mthodes quantitatives

Septembre 2013
1

Introduction
Gnralits
Les statistiques
Le mot statistiques , au pluriel, dsigne lensemble des donnes
chiffres qui regroupent toutes les observations faites sur des faits
relatifs un mme phnomne qui concerne un groupe dindividus ou
dobjets. Ces donnes sont essentiellement tires des recensements de
la population, des dclarations du registre dtat civil ou denqutes
appropries et sont groupes sous forme de tableaux, de graphiques et
dindicateurs statistiques. On trouve des statistiques qui concernent la
dmographie, lemploi, la sant, lindustrie, les transports, le commerce
intrieur, le commerce extrieur, les indices de prix, la finance ..etc.

La statistique
Le mot statistique , au singulier, dsigne la discipline scientifique
constitue par lensemble des procds, des techniques ou des
mthodes danalyse visant, dune part, fournir, au moyen dun
nombre limit de caractristiques, une Description simple et la plus
complte possible dune population envisage sous langle dun
caractre donn. Dautre part, la statistique permet dinterprter les
caractristiques ainsi dtermines afin de tirer des conclusions
concernant la population tudie et de prendre des dcisions.
La statistique, en tant que mthode danalyse des donnes quantitatives
et qualitatives , comporte deux niveaux :

La statistique descriptive, qui consiste en la collecte et la


prsentation de donnes, ainsi que leur premire analyse. Le but est
de reprsenter dune manire comprhensible et utilisable
linformation fournie par les donnes.

La statistique infrentielle ou statistique mathmatique , qui cherche


trouver les caractristiques de la population mre partir des
observations faites sur un chantillon. Elle prend la suite de la
statistique descriptive et fait appel au calcul des probabilits.

Une opration statistique se droule en gnral en 4 tapes :


1. La collecte des donnes. Cette tape peut se raliser de deux manires :

par recensement, auquel cas linformation porte sur la totalit


des individus qui forment la population en question. (exemple : le
recensement de la population et de lhabitat effectu par lInstitut
National de la Statistique, une fois tous les dix ans).

par sondage, auquel cas on se limite une partie de la


population quon appelle chantillon. Un chantillon est un sous
ensemble de la population totale. Il doit tre reprsentatif, cest--dire doit
tre choisi de telle sorte quil ait la mme structure et les mmes
proprits fondamentales de lensemble dont il est issu (population mre).
2

2. La reprsentation et lorganisation statistique des donnes. Cette tape


peut se raliser, soit laide par de graphiques soit laide dindicateurs
statistiques.
3. La modlisation. On distingue deux types de modles : les modles
explicatifs et les modles prvisionnels
4. Linterprtation des rsultats.

Concepts statistiques de base


Population statistique :
Cest lensemble de rfrence, cest--dire lensemble des units
observes, qui constitue lobjet de ltude de la statistique que lon
cherche connatre. (La population des tudiants de luniversit de
Tunis, la population des salaris dune entreprise industrielle). Une
population ne signifie pas exclusivement un ensemble de personnes
physiques, mais peut concerner des personnes morales ou des objets
(entreprises, exploitations agricoles, universits, ampoules, voitures).
Une population doit tre bien dfinie. Sa dfinition est importante car
elle conditionne lhomognit des units observes et aussi la fiabilit
des rsultats.

Individu
Un individu ou unit statistique est tout lment de la population ou de
lchantillon. La totalit des individus correspond la population.

Caractre et modalit
Pour chaque individu extrait dune population ou dun chantillon, on
relve la valeur dune ou plusieurs de ses caractristiques. Le caractre
ou variable statistique est un aspect particulier de lindividu que lon
dsire tudier.
On distingue deux types de caractres : caractre qualitatif et caractre
quantitatif.

Caractre qualitatif ou variable qualitative


Un caractre est dit qualitatif lorsquil est li une observation qui
nest pas mesurable.
(Exemple : lors de ltude de la population estudiantine on peut
sintresser quelques unes de ses caractristique telles que : La
section du baccalaurat ; Le milieu de rsidence (urbain, rural) ; Le sexe
(masculin, fminin) ; La rgion de rsidence (nord, centre, sud) ; Ltat
matrimonial (mari, veuf, divorc, clibataire).
Les modalits dun caractre sont simplement les diffrentes rubriques
dune nomenclature dfinie a priori et associes un caractre
qualitatif. Une modalit est donc une des rponses possibles un
caractre. Par exemple le caractre milieu de rsidence comporte deux
modalits : milieu rural et milieu urbain. Ces modalits doivent former
3

une partition, cest dire doivent tre exhaustives et disjointes : pour


chaque individu on doit pouvoir lui associer une modalit et une seule.
La Nomenclature dsigne lensemble des modalits dun caractre
prcdes dun numro.

Prsentation du tableau statistique associ un caractre


qualitatif
Modalits (numrotes)

Effectifs

Frquences

Mi

ni

fi

M1 (1)

n1

f1

M2 (2)

n2

f2

Mr (r)

nr

fr

Ensemble

Leffectif total N est le nombre total dindividus observs


r

N n1 n2 nr ni
i 1

Leffectif ni dune modalit, appel aussi frquence absolue, est le


nombre de fois o la modalit numro i a t observe.
La frquence relative fi dune modalit est le rapport de leffectif ni
leffectif total N

ni
n
r i
N
ni

fi

i 1

i 1

Remarque : les frquences relatives peuvent tre exprimes en


pourcentage.
Lorsque les modalits ne permettent pas lexhaustivit, cest dire
lorsquil y a des individus quon ne peut classer dans le tableau, on
peut rajouter une modalit, en bas du tableau, quon appelle autres
ou non rponses

Caractre quantitatif ou variable


quantitative
Lorsque les observations relatives un caractre sont mesurables, le
caractre est dit quantitatif (taille, ge, poids, moyenne du
baccalaurat, superficie du logement,....). A chaque modalit correspond
4

un nombre diffrent.
Exemple : lors de ltude de la population estudiantine, on peut
sintresser quelques-unes de ses caractristique telles que :
Le nombre denfants par mnage, Le nombre dannes dtudes.
nombre de voitures par mnage,)
Lge, le poids, la taille, Le revenu des parents, la facture de
llectricit et du gaz, les dpenses en loyer, )
On distingue deux types de caractres quantitatifs :
Les caractres quantitatifs discrets, auxquels cas, les valeurs
possibles de la variable sont des nombres isols (en gnral des
nombres entiers comme par exemple le nombre denfants dun
mnage, le nombre de voyages effectus ltranger
Les caractres quantitatifs continus, auxquels cas, les valeurs
possibles de la variable sont a priori en nombre infini dans un
intervalle de valeurs (comme par exemple la taille, lge, moyenne du
baccalaurat .)
Remarque : certains caractres discrets sont de prfrence traits en
tant que caractres continus. Exemple : le nombre douvriers dans
chaque entreprise, nombre de places de cinmas associes chaque
salle, .. )

Prsentation du tableau statistique


caractre quantitatif discret

associ

un

Valeur observes

Effectifs

Frquences

Frquences cumules

xi

ni

fi

Fi

x1
x2

n1
n2

f1
f2

.
.

.
.
.

.
.
.

F1=0
F2= f1
F3= f1+ f2

xp
Ensemble

np
N

fp
1

.
.

Fp

Frquences cumules croissantes Fi: le cumul des frquences


associes aux valeurs du caractre infrieures strictement la valeur xi

i 1

Fi

f j pour i 2, 3,... p. et F1 0

j 1

Prsentation du tableau statistique


caractre quantitatif continu
Classes
numrote

associ

un

Centres

Effectifs

[bi 1 bi [

ci

ni

fi

Fi

[b0 b1 [

c1

n1

f1

F1= f1

[b1 b2 [

c2

n2

f2

F2= f1+ f2

[b2 b3 [

F3= f1+ f2+ f3

cp

np

fp

Fp

[b p 1 b p [

Ensemble

Frquences Frquence cumule

Remarque : Par convention, les classes sont fermes gauche et


ouvertes droite. Une classe est dite borne si : bi 1 , bi
le centre dune classe borne est : ci

bi 1 bi
,
2

lamplitude dune classe borne est : ai bi bi 1

ci xi

Loprateur somme

Loprateur

(lettre grecque sigma majuscule) permet dcrire de

manire compacte la somme dune variable indice entre deux bornes.


5

On peut par exemple crire : x1 x 2 x 3 x 4 x 5 x i


i 1

Dune manire gnrale : x1 x2 xn

xi
i 1

Cette formule se lit de bas en haut : somme de i gal 1 i gal n de x


indice i
Remarque : On peut tablir les rsultats suivants :
i n

1)

in

i n

x i y i ( xi y i )
i 1

i 1

i 1

i n

2)

a na
i 1
i n

3)

i n

( xi a) xi na
i 1

i 1

i n

4)

5)

i n

axi a xi
i 1

i 1

i n

i n

i n

xi y i x i y i
i 1

i 1

i 1

i n
i n

x
6) i
i 1 y i

xi
i 1
i n

yi
i 1

i n
i n
2
7) xi xi
i 1
i 1

8)

i n

i n

in

in

i 1

i 1

i 1

i 1

( xi yi ) 2 xi2 yi2 2 xi yi
n

9)

j m

j m i n

j m

i n

j m

i n

xi y j xi y j xi y j y j xi
i 1

j 1

j 1

i 1

i 1

j 1

j 1

i 1

Chapitre 1 :
Sries statistiques un seul caractre

CHAPITRE I : SERIES STATISTIQUES A UN SEUL CARACTERE

I.

SERIE STATISTIQUE SIMPLE

I.A.

Variable discrte

I.B.

Variable continue

II. PRINCIPALES REPRESENTATIONS GRAPHIQUES

II.A.

Cas dune variable qualitative

II.B.
Cas dune variable quantitative
II.B.1.
Srie statistique discrte
II.B.2.
Srie statistique continue
II.B.2.a
Principe de construction de lhistogramme
II.B.2.b
Polygone des frquences
II.B.3.
Frquences cumuls croissantes, fonction de rpartition et diagrammes cumulatif
II.B.3.a
Cas dune variable statistique discrte
II.B.3.b
Cas dune variable statistique continue

11
11
12
13
14
14
15
17

Chapitre I : Sries Statistiques un


seul caractre
Srie statistique simple
Variable discrte
On appelle srie statistique dune variable discrte tout ensemble de
couples ( xi , ni ) , i 1,....p ou encore ( xi , f i ) , i 1,....p , o les xi
dsignent les valeurs possibles prises par la variable et les ni les effectifs
correspondants.

Variable continue
On appelle srie statistique dune variable continue tout ensemble de
couples ([bi , bi 1 [ , ni ) , i 1,....p ou encore ([bi , bi 1 [, f i ) , i 1,....p .

Principales reprsentations graphiques


Les tableaux statistiques donnent un premier rsum statistique des
rsultats dune enqute. Cependant, dans le cas o la variable prsente
plusieurs modalits ou dans le cas ou nous avons comparer deux ou
plusieurs distributions, il est prfrable de reprsenter les rsultats
laide de graphiques.

Cas dune variable qualitative


Il y a plusieurs manires de reprsenter graphiquement une variable
qualitative. Le choix du type de la reprsentation graphique dpend des
diffrentes modalits du caractre. On distingue essentiellement le
diagramme circulaire, appel aussi diagramme secteurs et le
diagramme en tuyaux dorgues, appel aussi diagramme bandes ou
encore diagramme en barres.
Exemple : Daprs une enqute mene lEole Suprieure de Commerce
de Tunis, la rpartition de 50 tudiants selon la section du baccalaurat
est reporte dans le tableau suivant :

Section du baccalaurat
Mi
Economie et gestion
Mathmatiques
Sciences exp. et autres
Ensemble

Effectifs
ni

Frquences
fi

Angles

25
15
10
50

0,5
0,3
0,2
1

180
108
72
360

Le principe de la reprsentation du diagramme secteurs est le


suivant : effectif total reprsent par un disque, modalit reprsente
par un secteur circulaire dont la surface est proportionnelle la
frquence, angle de chaque secteur est gale :

i 360 f i

Mathmatiques
30%

Economie et
gestion
50%

Sciences exp. et
autres
20%

Le principe de la reprsentation du diagramme bandes ou en tuyaux


dorgues est le suivant : Association chacune des modalits Mi du
caractre, qui sont places sur un axe horizontal, une bande verticale
ayant une hauteur proportionnelle la frquence fi (ou leffectif ni.).
Les bases des bandes doivent tre gales et quidistantes.

fi
f1
f3

fi
Mi

M1
10

M3

Concernant lexemple de la distribution de la population active agricole


en Tunisie, la reprsentation par un diagramme en tuyaux dorgue est
la suivante :

fi
0,50

0,30
0,20

0
Eco. et gestion

Maths

Sc. Exp. et autres

Cas dune variable quantitative


Srie statistique discrte
La reprsentation utilise sappelle diagramme en bton.
Il sagit de la figure obtenu sur un repre cartsien en associant
chaque point de coordonns (xi, 0) un segment vertical dont la longueur
est proportionnelle la frquence fi (ou leffectif ni).

f i ou (n i)
f1
f4
fi
f2

x1

x2

xi

11

x4

Valeurs x i

Uniforme

Symtrique

Asymtrique

Lintrt de cette reprsentation est double. Dune part, elle permet de


donner une ide gnrale sur la forme de la distribution. Dautre part,
elle permet de reprer les valeurs aberrantes.
Exemple : La distribution du mme chantillon dtudiants selon le
nombre de personnes par mnage est rsume dans le tableau suivant :

Valeurs
xi

Effectifs
ni

Frquences
fi

Frquences cumules

1
2
3
4
Total

20
15
10
5
50

0,40
0,30
0,20
0,10
1,00

0
0,40
0,70
0,90

Fi

ni
20

15
10
5
0

Diagramme en btons des effectifs

Srie statistique continue


Graphiquement, on reprsente une srie statistique continue par un
histogramme. Il sagit dune figure obtenue sur un repre cartsien en
reprsentant pour chaque classe [bi 1 bi [ un rectangle de surface Si
proportionnelle leffectif ni ou la frquence fi. Les rectangles de
lhistogrammes sont contigus.

12

Principe de construction de lhistogramme


S i base hauteur ai hi ni a * do,

hi

ni
a* d i a *
ai

Le a* est appele amplitude de rfrence. Elle est choisie arbitrairement


de manire faciliter la reprsentation graphique (valeurs sur laxe des
ordonnes).

La hauteur hi est dans ce cas appele effectif corrig quon note par ni .
La densit di dune classe est : d i

ni
. Il sagit du nombre dindividus
ai

par unit damplitude.


Remarque : on peut utiliser les frquences corriges la place des
effectifs corrigs.
Dans le cas de classes damplitudes gales, il nest pas ncessaire
de calculer les frquences corriges ou les effectifs corrigs. On peut
utiliser directement les effectifs ou les frquences comme hauteurs
des rectangles. En revanche, dans le cas de classes damplitudes
ingales, les hauteurs des rectangles doivent tre proportionnelles
la densit, afin davoir une surface proportionnelle leffectif.

nic ou fic
hi

Si
bi

bi+1

Classes

Exemple : La rpartition de 100 individus par classes dges est donne


par le tableau suivant :

Classes
dges

Effectif Amplitudes Densit


s

ni

ai

di

Effectifs
corrigs
c
i

Frquences Frquences

fi

corriges

fi c

[5 , 10[

11

2,2

22

0,11

0,22

[10 , 15[

10

20

0,10

0,20

[15 , 20[

15

30

0,15

0,30

[20 , 30[

20

10

20

0,20

0,20

[30 , 40[

18

10

1,8

18

0,18

0,18

13

[40 , 60[

16

20

0,8

0,16

0,8

Effectif corrigs

30
22
20
18

8
5
0
2,5 5

10 15 20

[60 , 80[

10

Total

100

20

30

40

0,5

60

80
90
Classes dges

0,10

0,5

Remarque : Dans certains cas, la borne infrieure de la premire


classe et la borne suprieure de la dernire classe ne sont pas
donnes. Par convention, on retient comme amplitude de la premire
classe celle de la deuxime classe et comme amplitude de la dernire
classe celle de lavant dernire classe.

Polygone des frquences


Il sagit dune ligne brise reliant les milieux des sommets des
rectangles de lhistogramme. La fermeture se fait par deux points sur
laxe des abscisses situs respectivement un demi-intervalle de la
borne infrieure de la premire classe et de la borne suprieure de la
dernire classe. Dans notre exemple, le polygone des effectifs est
prsent par la ligne en pointille gras.

Frquences cumuls croissantes, fonction de


rpartition et diagrammes
14

cumulatif
On appelle fonction de rpartition dune variable statistique quantitative
toute application dfinie par :
F : 0 , 1
xi F ( xi ) prop ( X xi )
F (xi) est gale la proportion des individus ayant une valeur du
caractre strictement infrieur xi.

Cas dune variable statistique discrte


On donne, dans le tableau suivant, la distribution du mme
chantillon dtudiants selon le nombre de personnes par mnage.

xi

Effectifs

Frquences

ni

fi

Frquence
cumule

Fi
1
2
3
4

Ensemble

20

0,40

15

0,30

0,40

10

0,20

0,70

0,10

0,90

50

1,00

F (1) prop( x 1) 0
F (1,5) prop ( x 1,5) prop ( x 1) 0,40
F (2) prop( x 2) prop ( x 1) 0,40
F (2,5) prop ( x 2,5) prop ( x 1) prop ( x 2) 0,70
F (3) prop ( x 3) prop ( x 1) prop ( x 2) 0,70
F (4) prop( x 4) prop ( x 1) prop ( x 2) prop ( x 3) 0,90

Ainsi, la formulation de la fonction de rpartition de cette distribution


statistique est :

0
0,40

F 0,70
0,90

si x 1
si 1 x 2
si 2 x 3
si 3 x 4
si x 4

15

La reprsentation graphique de la fonction de rpartition, appele

Fi
100%
0,90
0,70
0,40

xi

diagramme cumulatif ou diagramme intgral, est :


Ce diagramme permet de visualiser lvolution des frquences cumules
lies aux valeurs de la variable. Le caractre tant discret, la courbe des
frquences cumules croissante est la reprsentation graphique dune
fonction en escalier.
Dune manire gnrale, La fonction de rpartition est constante par
intervalle. Sa formulation est la suivante :

0
f
1
f1 f 2
F
:
f1 f 2 ....... f p-1

x x1
x1 x x2
x2 x x 3
x p 1 x x p
x xp

La reprsentation graphique de la fonction de rpartition, appele


diagramme intgral, est :

Fi
100%
F p-1

F2
F1

X1

X2

16

X p-1

Xp

valeurs

xi

Lintrt de la reprsentation graphique est quelle permet de retrouver


pour toute valeur de xi donne, la proportion des individus ayant une
valeur de la variable strictement infrieure xi.

Cas dune variable statistique continue


Classes
dges

Effectifs

ni

Effectifs cumuls
croissants

Frquences Frquences cumules


relatives
croissantes Fi

fi

ni

F (bi )

[5 , 10[

11

11

0,11

0,11

[10 , 15[

10

21

0,10

0,21

[15 , 20[

15

36

0,15

0,36

[20 , 30[

20

56

0,20

0,56

[30 , 40[

18

74

0,18

0,74

[40 , 60[

16

90

0,16

0,9

[60 , 80[

10

100

0,10

total

100

La lecture des frquences cumules croissantes se fait par rapport la


borne suprieure de chaque classe.
La reprsentation graphique de la fonction de rpartition appele courbe
cumulative est la suivante :
Dune manire gnrale, la courbe cumulative, dans le cas dune
variable continue, est une ligne brise obtenue en joignant diffrents
points de coordonns (bi , Fi ) o bi dsigne la borne suprieure de la
classe i, et Fi la frquence cumule croissante correspondante.

17

Fi
1
0,90
0,74
0,56
0,36
0,21
0,11
0 5 10 15 20

30

40

60

80

Classes
dges

Remarque : on peut aussi reprsenter graphiquement la courbe des


frquences cumules dcroissantes, lesquelles sont dfinies par la
proportion des individus ayant une valeur du caractre suprieure ou
gale la borne infrieure de la classe i.

18

Chapitre 2 :
Les paramtres de position dune srie
statistique
CHAPITRE II : LES PARAMETRES DE POSITION DUNE SERIE STATISTIQUE 20
I.

LE MODE

I.A.

20

Cas dune variable discrte

20

I.B.
Cas dune variable continue
I.B.1.
Cas damplitudes identiques
I.B.2.
Cas damplitudes ingales

21
21
22

II. LA MEDIANE

24

II.A.

Cas dune variable discrte

24

II.B.

Cas dune variable continue

27

III.

LA MOYENNE ARITHMETIQUE

III.A.1.
III.A.2.

IV.

29

Cas de donnes non groupes


Cas de donnes groupes

29
29

AUTRES MOYENNES

31

IV.A.
La moyenne gomtrique
IV.A.1.
Cas de donnes non groupes
IV.A.2.
Cas de donnes groupes

31
31
31

IV.B.
La moyenne harmonique
IV.B.1.
Cas de donnes non groupes
IV.B.2.
Cas de donnes groupes

33
33
33

IV.C.
La moyenne quadratique
IV.C.1.
Cas de donnes non groupes
IV.C.2.
Cas de donnes groupes

34
34
34

19

Chapitre II : Les paramtres de


position dune srie statistique
La reprsentation graphique dune srie statistique nous donne une ide
assez gnrale sur la distribution. Pour confirmer certaines impressions sur
la srie et pour en donner plus de prcision, nous serons amens trouver
une ou plusieurs valeurs centrales de la variable, capables de rsumer la
srie en caractrisant lordre de grandeur des observations. De telles valeurs
centrales sont appeles paramtres de tendance centrale ou caractristiques
de position. Un indicateur de position doit tre dfini de manire rigoureuse
et objective, doit tenir compte de lensemble des observations de la srie et
doit tre exprim dans la mme unit que la variable.

Le mode
On appelle mode ou valeur dominante dune srie statistique la valeur
observe de la variable ayant le plus grand effectif (ou la frquence la
plus leve). On note gnralement le mode MO.
Remarques :
Le mode est exprim dans la mme unit que la variable.
Si toutes les modalits ont la mme frquence alors la distribution
statistique ne possde pas de mode. On parle alors de distribution
uniforme.
Lorsquune srie possde un seul mode, on dit que la distribution est
unimodale. En revanche, lorsquelle en possde deux ou plusieurs elle est
respectivement qualifie de bimodale et multimodale.
Le calcul du mode dpend de la nature de la variable, discrte ou continue.

Cas dune variable discrte


Exemple 1 :
On considre les notes obtenues en statistique par un groupe de 20
tudiants : 7, 13, 5, 15, 12, 9, 7, 8, 14, 16, 13, 6, 13, 10, 13, 12, 10, 7,
12, 13.
Le mode de cette srie correspond la note la plus frquente, soit
M 0 13 , valeur qui apparat cinq fois. Linterprtation en est que la
note la plus frquente est 13.
Exemple 2 :
On considre une distribution statistique dune population de 100
mnages selon le nombre denfants :

20

Valeurs
xi
1
2
3
4
Total

Effectifs
ni
32
16
23
29
100

Frquences
fi
0,32
0,16
0,23
0,29
1,00

Le mode de cette srie est : Mo=1. Il signifie que la plupart des mnages
ont un seul enfant.
Graphiquement, le mode correspond labscisse du bton le plus lev.

ni
32
29
23
16

1
Mo

Cas dune variable continue


Dans le cas dune variable continue groupe en classes, on parle plutt
de classe modale. La classe modale est la base du rectangle ayant la
hauteur la plus leve.
Cependant, on distingue deux cas selon que les amplitudes des classes
sont gales ou ingales.

Cas damplitudes identiques


Dans ce cas, la classe modale est la classe deffectif ni le plus lev, soit
[bi 1 bi [ . Leffectif de la classe qui prcde la classe modale est ni 1 et
celui de la classe qui suit la classe modale est ni 1 . La dtermination du
mode partir de la classe modale se fait de la faon gnrale suivante :

m1 bi 1 m2 bi m1

M 0 bi 1 ai
m1 m2
m1 m2
avec :

bi-1 : borne infrieure de la classe modale


bi : borne suprieure de la classe modale
21

ai : amplitude de la classe modale


m1 ni ni 1
m2 ni ni 1
Exemple : Soit la distribution de la population de 20 mnages selon le
revenu des deux parents :

Classe de

Amplitudes

Effectifs

Frquences

ni

fi

Revenu en DT

[200-300[

100

40

[300-400[

100

60

[400-500[

100

30

[500-600[

100

50

0,25

[600-700[

100

20

0,10

Total

m1
m2

200

0,20
0,30
0,15

La classe modale est la classe ayant la frquence la plus leve. Cest la


classe [300 400[ dans notre exemple. Dans ce cas, le mode est calcul
par :

60 40
M 0 300 100
340 DT.
(
60

40
)

(
60

30
)

On interprte en disant que le salaire le plus frquent est de 340 Dinars.


Remarque : On peut aussi utiliser les frquences relatives au lieu des
effectifs.
Dans ce cas, on aura :

0,30 0,20
M 0 300 100
340 DT.
(0,30 0,20) (0,30 0,15)

Cas damplitudes ingales


Dans le cas o les amplitudes sont diffrentes, la classe modale est la
classe de densit (ou de frquence corrige) la plus leve, ou encore
deffectif corrig le plus lev.

m1 bi 1 m2 bi m1

m

m
m1 m2
1
2

Le mode est donn par : M 0 bi 1 ai

bi-1 : borne infrieure de la classe modale


bi : borne suprieure de la classe modale
ai : amplitude de la classe modale
22

m1 hi hi 1 , ( m1 nic nic1 );
m2 hi hi 1 , ( m2 nic nic1 )
o hi , hi 1 et hi 1 sont les effectifs corrigs

Classes
numrote

Amplitudes

Effectifs

[bi 1 bi [

ai

nic

[b0 b1[

a1

n1

f1c ou h1

[b1 b2 [

a2

n2

f 2c ou h2

[bi 1 bi [

[b p 1 b p [

nic1

ai

nic

nic1

ap

m1
m2

Frquences
corriges

f i c ou hi

f i c1ou hi 1
f i c ou hi
f i c1 ou hi 1

n cp

f pc ou h p

Ensemble

E ffe c t i f c o r r i g s
D e n s i t s o u e ff e c t i fs c o r r i g s
o u fr q u e n c e s c o r r ig e s

D t e rm i n a t i o n g r a p h i q u e d u m o d e

hi
m2
h i+ 1

m1

h i -1

0
b i -1 M

bi

C lasses

Exemple : Soit la rpartition de 100 personnes selon leur ge :

23

Classes
dges

Effectifs

Amplitudes

Densits

Effectifs corrigs

ni

ai

di

nic ou hi

[5 , 10[
[10 , 15[
[15 , 20[
[20 , 30[
[30 , 40[
[40 , 60[
[60 , 80[
total

11
10
15
20
18
16
10
100

5
5
5
10
10
20
20

2,2
2
3
2
1,8
0,8
0,5

22
20
30
20
18
8
5

La plus grande hauteur appartient la classe [15 20[ . Donc :

M 0 [15 20[

30 20
15 10 20 10
17,5
10 10
(30 20) (30 20)

et M 0 15 5

On interprte en disant que lge observ le plus frquemment est denviron


17ans et 6mois.
Remarque : On peut aussi utiliser les frquences corriges la place
des effectifs corrigs. Dans ce cas on aura

0,3 0,2
15 0,10 20 0,10
M 0 15 5
17,5
0,1 0,1
(0,3 0,2) (0,3 0,2)

La mdiane
Soit une srie statistique ordonne par valeurs croissantes ou
dcroissante. La mdiane, note gnralement Me , est la valeur de la
variable qui partage la population en deux groupes deffectifs gaux. En
dautres termes, la mdiane est la valeur de la variable situe au
milieu dune srie ordonne telle que la moiti des individus prenne
une valeur qui lui soit infrieure, lautre moiti prenant par consquent
une valeur qui lui soit suprieure.
Comme pour le mode, le calcul de la mdiane dpend de la nature de la
variable, discrte ou continue.

Cas dune variable discrte


La dtermination de la mdiane dune srie statistique ncessite dabord
de ranger par ordre croissant (ou dcroissant) les valeurs observes.

Si la srie comporte un nombre impair de valeurs, soit N valeurs, la


N 1
)
mdiane sera la valeur de rang (
2 .
Si la srie comporte un nombre pair de valeurs, on parle dintervalle
mdian. Ce dernier est dfini par :
]la (

N
N
) ime valeur , la ( 1) ime valeur].
2
2
24

Toute valeur appartenant cet intervalle fait fonction de mdiane.


Remarque : certains proposent de choisir comme mdiane le centre de
lintervalle mdian. La mdiane, dans ce cas, nest pas forcment une
valeur observe.
Exemple 1 :
On considre la rpartition de 9 mnages selon le nombre denfants par
mnage.
nombre denfants
par mnage

Rang (ordre
croissant)

5ime

4 observations

4 observations

La mdiane, dans ce cas, correspond la cinquime valeur : M 2


enfants par mnage. On dit quil y a autant de mnage qui ont moins de
2 enfants que de mnage qui ont plus de 2 enfants.
Exemple 2 :
On considre la rpartition de 10 mnages selon le nombre denfants
par mnage.
nombre denfants
par mnage

Rang (ordre
croissant)

5ime 6ime

10

Intervalle
mdian

4 observations

4 observations

Dans ce cas on parle plutt dintervalle mdian ]2 , 3], correspondant


la ]cinquime valeur , sixime valeur].
Remarque : certains retiennent comme valeur mdiane le centre de
lintervalle mdian, soit

23
2,5 enfants. Cette valeur ne
2

correspond pas une valeur rellement observe.


Exemple 3 :
nombre denfants
par mnage

Rang (ordre
croissant)

5ime 6ime
Intervalle
mdian

4 observations

10

4 observations

Dans le cas de cette distribution statistique, lintervalle mdian est :


]2 , 2]. La valeur mdiane est donc gale 2 .
Les reprsentation groupe des donnes des exemple 2 et 3 nous
donnent les deux tableaux suivants :

25

Exemple 2

xi

Effectifs

Frquences Frquences cumules

ni

fi

Fi

0,2

0,2

0,2

0,1

0,4

0,3

0,5

0,2

0,8

Ensemble

10

Fi
1
0,8

0,5
0,4
0,2

2
3
Intervalle mdian

xi

Exemple 3
Effectifs

Frquences

Frquences cumules

ni

fi

Fi

0,2

0,2

0,2

0,2

0,4

0,3

0,6

0,1

0,9

Ensemble

10

xi

26

Fi
1
0,9
0,6
0,5
0,4
0,2

M =2

xi

Cas dune variable continue


Il ny a aucune diffrence de calcul pour la mdiane selon que les
classes sont damplitudes constantes ou variables.
Le calcul de la mdiane dans le cas de variable continue passe, dabord,
par la dtermination de la classe mdiane. Ensuite, par interpolation
linaire, on peut calculer la valeur prcise de la mdiane lintrieur de
la classe mdiane.
Soit [bi 1 bi [ la classe mdiane, ai lamplitude de la classe mdiane, N i
leffectif cumul croissant de la classe mdiane, N i 1 leffectif cumul
croissant de la classe avant la classe mdiane et N leffectif total.
Lexpression de la mdiane est donne par :

M bi 1

N i 1

ai 2
N i N i 1

La mme dmarche pourrait tre utilise en remplaant les frquences


absolues par les frquences relatives :

0,5 Fi 1
,
M bi 1 ai
Fi Fi 1
o Fi dsigne la frquence cumule croissante de la classe mdiane,

Fi 1 la frquence cumule croissante de la classe qui prcde la classe


mdiane.
Exemple : En reprenant notre exemple sur la rpartition des 100
individus selon leur ge :

27

Classes
dges

Effectifs

ni

Effectifs cumule
croissants

Frquences

fi

ni
[5 ,
[10 ,
[15 ,

10[
15[
20[
M

[20 , 30 [
[30 , 40[
[40 , 60[
[60 , 80[
Total

Frquences
cumules
croissantes

Fi

11
10

11
21
36

0,11
0,10

N
50
2

20
18
16
10
100

56
74
90
100

0,11
0,21

0,18
0,16
0,10
1

0,74
0,9
1

Le calcul, par interpolation linaire, de la mdiane donne :


20 ------ 0,36
M 20 0,50 0,36

30 20 0,56 0,36

M ------ 0,50
30 ---- ---- 0,56

Ou encore, en utilisant les effectifs cumuls croissants :


20 -------- 36
M 20 50 36

30 20 56 36

M ------- 50
30 --------- 56

Fi
1
0,9
0,74
0,56
0,5
0,36
0,21
0,11
0 5 10 15 20 M 30

28

40

60

80

Classes

N
50 . La classe mdiane est la classe laquelle
2
appartient la valeur mdiane, cest dire la classe [ 20 30[ , do :

Dans notre exemple :

50 36
M 20 10
27ans
56 36
Cest dire que 50% des individus sont gs de moins de 27 ans.

La moyenne arithmtique
La moyenne arithmtique, dite simplement moyenne est note x , est la
caractristique de tendance centrale la plus usuelle.

Cas de donnes non groupes


En entend par donnes non groupes, celles qui ne sont pas prsentes
dans un tableau statistique.
Soit une srie statistique de N observations : x1 , x2 , x3 , , xn . La
moyenne arithmtique (appele simple) de ces observations est donne
par :
iN

xi
x1 x2 x3 xn
i 1
x

N
N
Exemple :
On observe les notes en statistique dun groupe dtudiants :
14, 16, 12, 9, 11, 16, 7, 9, 7, 9. La moyenne simple de ces notes est :

14 16 12 9 11 16 7 9 7 9
11
10

Cas de donnes groupes


Dans le cas dune variable discrte :
i p

n1 x1 n2 x2 n3 x3 n p x p
N

n x
i

i 1

o xi , et ni , i 1, 2,, p reprsentent respectivement la valeur du


caractre et leffectif correspondant, et p est le nombre de valeurs prises
par la variable.
Dans le cas dune variable continue, o les donnes sont groupes en
classes, on applique la mme formule, en remplaant les valeurs xi par

29

i p

i p

n c

n x

i i

les centres de classes. Dans ce cas on a : x

i 1

i 1

Exemple : soit la distribution par classe dges suivante :


Classes dges

Centre de
classe

fi

Effectifs

ci

ni

xi

(not aussi)

[5 , 10[
[10 , 15[
[15 , 20[
[20 , 30[
[30 , 40[
[40 , 60[
[60 , 80[
total

11
10
15
20
18
16
10
100

ni xi

0,11
0,10
0,15
0,20
0,18
0,16
0,10
1

Lge moyen est donn par : x

7,5
12,5
17,5
25
35
50
70

82,5
125
262,5
500
630
800
700
3100

3100
31 ans
100

Remarques :
La somme des carts la moyenne arithmtique est nulle :
N

pour des donnes non groupes

xi x 0 . En effet :
i i

x
i i

i N

iN

i N

i 1

i 1

i 1

x xi x x i N . x N . x N . x 0
N

pour des donnes groupes en classes, On a

n c
i

x 0.

i i
iN

En effet :

nc
i

N .x N . x N .x 0

i 1

La moyenne arithmtique x dune population deffectif N compose de k


sous-populations deffectifs N k et de moyenne x k est gale :
i p

N1 x1 ....N p x p
N

N x
i

i 1

La moyenne arithmtique est le critre le plus frquemment utilis pour


dfinir une valeur moyenne dobservations dune variable additive comme
par exemple : la taille, le poids, lge, ...etc. Il y a dautres variables dont
le calcul de la moyenne se traite autrement, comme, par exemple, le taux
de chmage ou dinflation, le taux de change, la vitesse sur diffrents
parcours, ...etc.
30

Autres moyennes
La moyenne gomtrique
La moyenne gomtrique dune variable, note gnralement G , est
gale la racine N-ime du produit des N valeurs observes de cette
variable. Elle est utilise souvent dans le calcul des taux de croissance
moyens et de certains indices statistiques synthtiques.

Cas de donnes non groupes


La moyenne gomtrique simple est donne par :

G N x1.x 2 .x3 ..xn

Cas de donnes groupes


La moyenne gomtrique pondre est dfinie par :
np

np

G N x1n .x2n .x3n ..x p x1n .x2n .x3n ..x p


1

1
N

La moyenne gomtrique peut tre exprime en fonction des frquences


relatives de la manire suivante :
n1
N
1

n2
N
2

n3
N
3

np
fp

G x .x .x ..x pN x1f .x2f .x3f ..x p


1

Remarques :
Le logarithme de la moyenne gomtrique est gale la moyenne
arithmtique des logarithmes des xi .
En pratique, le calcul de la moyenne gomtrique passe par le
logarithme. Ainsi, dans le cas des donnes non groupes, on a :

1 N
ln G lnxi
N i 1
et dans le cas des donnes groupes par classes, on a :

1 p
ln G ni lnxi
N i 1
La moyenne gomtrique est utilise quand les valeurs de la variable sont
lies de faon multiplicative les unes aux autres.
La moyenne gomtrique dun produit de deux variables est gale au
produit de leurs moyennes gomtriques.
La moyenne gomtrique dun rapport de deux variables ( 0 ) est gale au
rapport de leurs moyennes gomtriques.
Exemple :
Ltude des bnfices dune entreprise sur 5 ans montre que les
31

bnfices ont augment de 6% pendant les deux premires annes, de


10% pendant les deux annes suivantes et de 8% pendant la dernire
anne. Quel est laugmentation moyenne sur 5 ans ?
En utilisant la moyenne arithmtique des taux observs, et en
dsignant par x , le taux moyen ainsi dfini, on obtient :

2 6% 2 10% 1 8%
8%
5

Mais ce rsultat est un rsultat erron. En effet :


Soit F0 le bnfice de lentreprise au dbut de la priode dtude.
- A la fin de la premire anne le bnfice augmente de 6%. Il est gal
F1 F0 1,06
- A la fin de la deuxime anne : F2 F1 1,06 F0 (1,06)

- A la fin de la troisime anne : F3 F2 1,10 F0 (1,06) 1,1


2

- A la fin de la quatrime anne : F4 F3 1,10 F0 (1,06) (1,1)


2

- A la fin de la 5ime anne : F5 F4 1,08 F0 (1,06) (1,1) 1,08


Le taux de croissance annuel moyen, c , doit satisfaire la relation :

F5 F0 (1 c) 5
On peut alors crire :

F5 F0 (1,06) 2 (1,1) 2 1,08 F0 (1 c) 5


(1,06) 2 (1,1) 2 1,08 (1 c) 5
1

(1,06) 2 (1,1) 2 1,085 1 c


(Cest lcriture de la moyenne gomtrique des augmentations)

2
2
1
ln(1,06) ln(1,1) ln(1,08) ln(1 c)
5
5
5

2 ln(1,06) 2 ln(1,1) ln(1,08)


ln(1 c )
5
0,07682 ln(1 c )
e 0,07682 1 c
c 0,0798

ln(1 c ) apparat

ainsi

comme

la

moyenne

arithmtique

des

logarithmes des taux de croissance. (1 c ) est donc la moyenne


gomtrique des diffrents taux de croissance du bnfice.
On peut dire que laugmentation annuelle moyenne est de 7,98%

32

La moyenne harmonique
La moyenne harmonique, note H, est gale linverse de la moyenne
arithmtique des inverses des valeurs :

Cas de donnes non groupes


H

N
1

i N
1
1 iN 1
( )

i 1 xi
N i 1 xi

Cas de donnes groupes


H

1 i p ni

N i 1 xi

1
i p
fi

i 1 xi

Remarques :
Linverse de la moyenne harmonique est gale la moyenne arithmtique
des inverses des xi .
La moyenne harmonique est gnralement employe lorsque la variable
observe est gale au rapport de deux variables exprimes dans deux
units diffrentes, par exemple le prix dun bien exprim en units
montaires par unit de bien, la vitesse exprime en units de distance
par unit de temps.
Exemple :
Un tudiant a consacr la mme somme de 36 D pendant trois ans
lachat de livres aux prix respectifs de 4 D, 6 D et 9 D le livre.
Dans ce cas le prix dachat moyen dun livre nest pas la moyenne
arithmtique des prix : x

469
6,33 D
3

En effet, ltudiant a dpens durant les trois ans 3 36 108D. Il a


achet :

36
9 livres pendant la premire anne,
4
36
6 durant la deuxime anne
6
et

36
4 au cours de la troisime anne.
9

33

1 1 1
9 6 4 19 livres
4 6 9

Il a donc achet : 36

et le prix moyen dun livre est donc :

3 36

19

3 36
3

5,68D.
1 1 1 1 1 1
36
4 6 9 4 6 9

H est donc la moyenne harmonique des diffrents prix 4, 6 et 9.

La moyenne quadratique
La moyenne quadratique dune variable statistique, note Q , est gale
la racine carre de la moyenne arithmtique des carres des valeurs de
la variable.

Cas de donnes non groupes


Q

1 i N 2
xi
N i 1

Cas de donnes groupes


Q

1 i p 2
ni xi
N i 1

i p

fx
i

2
i

i 1

Exemple :
Quelle est la mesure du ct moyen de trois plaques mtalliques
carres dont les cts mesurent 3 cm, 6 cm et 9 cm.

3 69
6 cm
3

Le calcul de la moyenne arithmtique des cts est faux. En effet, les


superficies des plaques sont : 9 cm2, 36 cm2 et 81 cm2.
La superficie moyenne est de :

9 36 81
42 cm
3

Ainsi, le ct moyen mesure : c


quadratique des cts :

42 . Il sagit de la moyenne

1 2
(3 6 2 9 2 ) 42 cm.
3

Remarques :
La moyenne quadratique est souvent utilise dans le calcul de la variance
34

(voir le section suivante).


Les moyennes quadratique et arithmtique tiennent compte davantage des
valeurs les plus leves de la srie statistique. En revanche, Les
moyennes gomtrique et harmonique rduisent linfluence des
observations les plus leves.
Les relations existantes entre les diffrentes moyennes est :

xmin H G x Q xmax
Exemple :
Calculer les moyennes arithmtique, gomtrique, harmonique et
quadratique de la srie suivante :2, 5, 11, 18.
1
;
2 5 11 18
9 ; G 4 2 5 11 18 2 5 11 18 4 6,67
4
;
4
1 2
H
4,72 ; Q
(2 5 2 112 18 2 ) 10,88
1 1 1
1
4

2 5 11 18

On peut vrifier la relation tablie entre les diffrentes moyennes :

2 4,72 6,67 9 10,88 18

35

Chapitre 3 :
Les paramtres de dispersion et de forme
CHAPITRE III : LES CARACTERISTIQUES DE DISPERSION ET DE FORME 37
I.

LETENDUE 37

II.

LES ECARTS INTERQUANTILES

II.B.
II.B.1.
II.B.2.
II.B.3.

III.

37

Les quantiles
Les quartiles
Les dciles
Les centiles

37
38
38
39

MESURE DE LA DISPERSION AUTOUR DE LA MOYENNE

41

III.B.
Ecart absolu moyen par rapport la moyenne
III.B.1.
Cas de donnes non groupes
III.B.2.
Cas de donnes groupes

42
42
42

III.C.
Variance et cart type
III.C.1.
Cas de donnes non groupes
III.C.2.
Cas de donnes groupes
III.C.3.
Cas de donnes non groupes
III.C.4.
Cas de donnes groupes

43
43
43
43
43

III.D.

Variance intra-population et variance inter-populations

45

III.E.

Le coefficient de variation

49

IV.

MESURE DE LA DISPERSION AUTOUR DE LA MEDIANE 50

IV.B.1.
IV.B.2.

V.

Cas de donnes non groupes


Cas de donnes groupes

50
50

MOMENTS D'UNE SERIE STATISTIQUE

51

V.B.
V.B.1.
V.B.2.

Moments non centrs


Cas de donnes non groupes
ii) Cas de donnes groupes

51
51
51

V.C.
V.C.1.
V.C.2.

Moments centrs
Cas de donnes non groupes
Cas de donnes groupes

51
51
51

VI.

INDICATEURS DE FORME

52

VI.B.

Asymtrie

52

VI.C.

Aplatissement

53

36

Chapitre III : Les caractristiques


de dispersion et de forme
Trs souvent les indicateurs de tendance centrale (mode, mdiane et
moyenne) savrent insuffisants pour permettre de rsumer eux seuls
et de comparer deux ou plusieurs sries statistiques. Prenons, titre
dexemple, les deux sries de notes en statistique obtenues par deux
groupes dtudiants :
Groupe I

10

10

16

17

19

Groupe II

10

10

10

10

11

12

Nous pouvons constater que les deux sries ont un mme mode
(Mo=10), une mme mdiane (M=10) et une mme moyenne ( x 10) .
Cependant, leur distribution se fait dune manire nettement diffrente.
En effet, pour le groupe II, les notes ne scartent pas trop des valeurs
centrales ( M x 10 ). Ce qui nest pas le cas pour le groupe I. Do la
ncessit de calculer dautres indicateurs capables de rendre compte
des carts entre les diffrentes valeurs observes et la valeur centrale.
Ces indicateurs, qui nous informent sur la variabilit des valeurs
observes, sont appels indicateurs de dispersion.

Ltendue
On appelle tendue dune srie statistique, la diffrence entre la plus
leve et la plus faible des valeurs observes, soit :

e xmax xmin
Ltendue est un indicateur de dispersion. Il est simple et facile
calculer. Toutefois, il est trs sensible aux valeurs extrmes
aberrantes .

Les carts interquantiles


Il sagit des carts entre les premiers et les derniers principaux
quantiles.

Les quantiles
Comme pour la mdiane o lon sest intress la valeur de la variable
qui partage la population en deux parties dgal effectif, on sintresse
ici aux valeurs qui partagent la population en quatre, en dix ou en cent
parties de mme effectif. Ces valeurs sont appeles respectivement
quartiles, dciles et centiles.
Dune manire gnrale, on appelle quantile dordre , La valeur de la
variable x telle que % des valeurs observes lui sont infrieures.
On peut alors crire : F ( x ) % , o F dsigne la fonction de
rpartition de la variable. La dtermination des diffrents quantiles se
fait de la mme manire que la mdiane (par interpolation linaire).
37

Les principaux quantiles sont les quartiles, les dciles et les centiles

Les quartiles
Les quartiles, en nombre de trois nots Q1 , Q2 et Q3 , sont les valeurs
dune variable, ranges par ordre croissant ou dcroissant, qui
partagent la population tudie en quatre parties de mme effectif.
Lexpression des trois quartiles peut tre drive de la mme manire
que la mdiane.
Soit [bi bi 1[ la classe damplitude ai laquelle appartient Q1 , N i

N i 1 leffectif cumul
croissant de la classe prcdant la classe [bi bi 1[ et N leffectif total.
leffectif cumul croissant de cette classe,

Lexpression du premier quartile est donne par :

N i 1
0,25 Fi 1
bi ai

Q1 bi ai 4
F

F
N i N i 1
i
i 1

Q1 (premier quartile) : valeur de la variable telle que 25% des


observations lui soient infrieures
Si Q2 appartient [bi bi 1[ alors :

N i 1
0,5 Fi 1
bi ai
Q2 bi ai 2
F F M
N i N i 1
i
i 1

Q2 (deuxime quartile) : valeur de la variable telle que 50% des


observations lui soient infrieures
Si Q3 appartient [bi bi 1[ alors :

N N i 1
0,75 Fi 1
bi ai

Q3 bi ai 4
F

F
N i N i 1
i 1
i

Q3 (troisime quartile) : valeur de la variable telle que 75% des


observations lui soient infrieures

Les dciles
Les dciles, en nombre de neuf, nots D1 , D2 ,et D9 sont les valeurs
de la variable qui partagent la population en dix sous-populations de
mme effectif.
De la mme manire, on peut dfinir les expressions des dciles :
38

N N i 1

0,10 Fi 1
bi ai
D1 bi ai 10
F F
N i N i 1
i
i 1

N N i 1

0,20 Fi 1
bi ai

D2 bi ai 10
N

N
F

i
i 1
i 1

N N i 1

0,90 Fi 1
bi ai

D9 bi ai 10
F

F
N i N i 1
i
i 1

D1 (premier dcile) : valeur de la variable telle que 10% des


observations lui soient infrieures.

D2 (deuxime dcile) : valeur de la variable telle que 20% des


observations lui soient infrieures.

D9 (neuvime dcile) : valeur de la variable telle que 90% des


observations lui soient infrieures.
Remarque : Q2 M D5

Les centiles
Les centiles, en nombre de 99, nots C1 , C2 ,, et C99 et appels aussi
percentiles, sont les valeurs de la variable qui partagent la population
en cent sous-populations dgal effectifs.
On peut dfinir les centiles de la manire suivante :

N N i 1

0,01 Fi 1
bi ai
C1 bi ai 100
F F
N i N i 1
i 1
i

N N i 1

0,02 Fi 1
bi ai
C2 bi ai 100
F F
N i N i 1
i
i 1

99

N N i 1

0,99 Fi 1
bi ai

D99 bi ai 100
Fi Fi 1
N i N i 1

C1 (premier centile) : valeur de la variable telle que 1% des observations


lui soient infrieures.
39

C2 (deuxime centile) : valeur de la variable telle que 2% des


observations lui soient infrieures.

C99 (99ime centile) : valeur de la variable telle que 99% des observations
lui soient infrieures.
Remarques :

Q2 Me D5 C50 et Q3 C75
Les quartiles, les dciles et les centiles permettent de calculer les
diffrents intervalles interquantiles. La longueur de ces intervalles
correspond aux carts interquantiles qui sont des indicateurs de
dispersion. Plus la longueur de lintervalle est grande, plus la
dispersion est forte.
On distingue :
Lintervalle interquartile, qui contient 50% des observations, est :

[Q1 , Q3 ] .
Lcart interquartile est gal : eQ Q3 - Q1 .
Lintervalle interdcile, qui contient 80% des observations, est :

[ D1 , D9 ] .
Lcart interdcile est gal : eD D9 - D1 .
Lintervalle intercentile, qui contient 98% des observations, est :

[C1 , C99 ] .
Lcart intercentile est gal : eC C99 - C1 .
Exemple : Soit la rpartition de 100 individus par classe dges :
Classes
dges

Effectifs

ni

Effectifs cumules

ni

Frquences cumules
croissantes

Fi

[5 , 10[

11

11

0,11

[10 , 15[

10

21

0,21

[15 , 20[

15

36

0,36

[20 , 30[

20

56

0,56

[30 , 40[

18

74

0,74

[40 , 60[

16

90

0,9

[60 , 80[
total

10
100

100

Calculons les quantiles et les intervalles interquartiles.

40

0,25 0,21
Q1 [15 20[Q1 15 5
16,33 ans
0
,
36

0
,
21

Ce qui signifie que 25% des individus sont gs de moins de 16 ans et 4


mois.

0,75 0,74
Q3 [40 60[Q3 40 20
41,25 ans
0,90 0,74
Ce qui signifie que 75% des individus sont gs de moins de 41 ans et
3 mois.

0,10 0
D1 [5 10[ D1 5 5
9,5 ans
0,11 0
Ce qui signifie que 10% des individus sont gs de moins de 9 ans et 6
mois.
En ce qui concerne le neuvime dcile, on peut lire sa valeur
directement sur le tableau. Il sagit de la borne suprieure de la classe
ayant une frquence cumule croissante gale 0,90 (puisque la valeur

Fi
1

C o u rb e des frq u ences


cu m u les cro issa ntes

0,9
0,75

0,5

0,25
0,10
0 5 1 0 15 20 M 30 4 0
D1 Q1
Q2
Q3

60
D9

80

C lasses

0,9 figure dans la colonne des Fi du tableau). Donc D9 60 .


Ce qui signifie que 90% des individus sont gs de moins de 60 ans.

Mesure de la dispersion autour de la


moyenne
Exemple 1 :
Considrons les notes suivantes en statistique dun groupe de 6
tudiants :

2, 17, 7,18, 3, 13.


41

La moyenne des notes est : x 10 . Faut-il conclure alors que ce groupe


est homogne ? En dautres termes, faut-il conclure que les tudiants
ont le mme niveau ? La rponse est non, car 50% des tudiants
seulement ont la moyenne.
Pour mesurer cette dispersion autour de la moyenne on peut calculer
les diffrentes distances (carts) entre la moyenne et les notes
observes. On obtient :

x1 x 2 10 8, x2 x 17 10 7, x3 x 7 10 3
x4 x 18 10 8, x5 x 3 10 7, x6 x 13 10 3
Calculons maintenant la moyenne des six distances :

x x2 x x3 x x4 x x5 x x5 x
6

i 6

6x

i 1

1 i 6
1
( xi x ) (8 7 3 8 7 3) 0

6 i 1
6

1 N
Remarque : On a toujours :
( xi x ) 0 .
N i 1
Ceci traduit le fait que certains tudiants ont des notes suprieures la
moyenne et dautres ont des notes qui lui sont infrieures (certaines
diffrences sont positives et dautres sont ngatives).
Une premire solution consiste prendre les valeurs absolues de ces
carts et de calculer leur moyenne.

Ecart absolu moyen par rapport la


moyenne
Lcart absolu moyen par rapport la moyenne, not e x , dune srie
statistique est gal la moyenne arithmtique de la valeur absolu des
carts entre les valeurs observes et leur moyenne.

Cas de donnes non groupes


ex

1
N

iN

i 1

Cas de donnes groupes


ex

1
N

i p

i p

ni xi x

i 1

xi x

i 1

Cet indicateur de dispersion tient compte de tous les carts entre


chaque valeur observe et la moyenne. Ces carts sont exprims dans la

42

mme unit que la variable. Le calcul de lcart absolue moyen nest pas
commode pour le calcul algbrique (expression de la valeur absolue).

Variance et cart type


Une solution alternative consiste considrer la moyenne des carrs
des diffrences (dans ce cas toutes les valeurs ngatives deviennent
positives).

1 i 6
1
( xi x )2 (8)2 7 2 (3)2 8 2 (7)2 32 40,66

6 i 1
6
On peut calculer maintenant la racine carre de la moyenne des carrs
des diffrences pour retrouver la moyenne des carts par rapport la
moyenne.

1 i 6
( xi x ) 2 40,66 6,37

6 i 1
Donc, certains tudiants (les bons) auront approximativement la note
moyenne (10) plus 6,37, les autres (les mauvais) auront la note
moyenne (10) moins 6,37.
On appelle variance dune variable la moyenne des carrs des carts
des valeurs de cette variable sa moyenne :

Cas de donnes non groupes


V ( x)

1
N

(x

x )2

i 1

Cas de donnes groupes


N
n
1 N
2
V ( x) ni ( xi x ) = f i ( xi x ) 2 o f i i
N i 1
N
i 1

Remarques :
La variance peut tre crite sous une autre forme dite formule
dveloppe :

Cas de donnes non groupes


V ( x) (

1
N

2
i

) x2

i 1

Cas de donnes groupes

43

V (x)

1
N

i 1

i 1

ni xi2 x 2 = f i xi2 x 2

Cette formule dveloppe de la variance est plus aise retenir et plus


rapide calculer.
La variance dune srie statistique correspond la plus petite des
moyennes des carrs des carts par rapport une constante k :

V ( x)

1
N

( xi x )2
i 1

1
N

(x

k )2 ,

k .

i 1

La variance dune variable y dfinie par : y ax b , est :

V ( y ) a 2V ( x ) .
La variance est exprime dans le carr de lunit de la variable. Par
exemple, la variance de la variable ge est exprime en annes au
carr (anne2). Cest la raison pour laquelle on ne doit pas
interprter la variance, mais plutt sa racine carre.
On appelle cart type que lon le note par x , La racine carre de la
variance. Il est utilis comme un indicateur de la dispersion de la srie
statistique :

x V (x)
Lcart type est exprim dans la mme unit de mesure que la
variable. Plus lcart type est grand, plus la dispersion des
observations autour de la moyenne de la variable est forte.
Exemple:
Considrons les notes suivantes en statistique dun groupe de 4
tudiants :

8, 12, 9, 11
Calculer lcart type des notes et comparer le rsultat obtenu avec le
rsultat de lexemple 1.

1 4
40
x xi
10
4 i 1
4

1 4
( xi x )2

4 i 1
1
(8 10)2 (12 10)2 (9 10)2 (11 10)2
4
2,5.

V ( x)

x V ( x ) 1,58
La dispersion des notes dans lexemple 1 est deux fois plus importante
que celle de lexemple 2. Le second groupe dtudiant est un groupe
plus homogne que le groupe 1.
44

Exemple 3 :
Soit la rpartition de 100 salaris selon leur salaire mensuel :

Salaire en

Effectifs

Centres de
classe

xi

xi2

x i ni

ni xi2

(DT)

ni

[200 - 300[

15

250

62500

3750

937500

[300 - 400[

20

350

122500

7000

2450000

[400 - 600[

35

500

250000

17500

8750000

[600- 700[

15

650

422500

9750

6337500

[700 - 900[

10

800

640000

8000

6400000

[900 - 1100[

1000

1000000

5000

5000000

Total

100

-------

51000

29875000

Calculer la variance et lcart type des salaires.

1 6
51000
ni xi
510 Dinars .

100 i 1
100
1 k
1
V ( x ) ni xi2 x 2 =
29875000 510 2 38650 (Dinars)2
N i 1
100
x

x V ( x ) 38650 196,59 Dinars.

Variance intra-population et variance


inter-populations
On considre une population P de taille N compose de deux
sous-populations : P1 et P2 . Leffectif et la moyenne de chaque
sous-population sont :

N1 , x1 pour P1
N 2 , x2 pour P2
Ou N N1 N 2

Calculons la moyenne arithmtique de la population P.


On sait que :

1 iN
xi N1 x1
N1 i 1
1

x1

et

45

i N1

x
i 1

1
x2
N2

i N2

i N2

N 2 x2

i 1

i 1

La moyenne de la population P est donne par :

1
N

iN

N
1 i N
1
x

i xi N1 x1 N 2 x2
N i 1
i 1
N
2

xi
i 1

Calculons la variance de la population P.


Soit c une constante, on peut crire :
1
N

i 1

1
N

x
1
N

1
N
1

Comme

i 1

iN

1
N

c x x

iN

x ) ( x c

i 1

x x c 2 xi x x c

i 1

i N

i 1

i N

1
N
1

x
2

i 1

iN

x c
i 1

iN

x c
i 1

1 iN
xi x x c
N i 1
iN
1
2 x c xi x
N
i 1
2

x 0 , on obtient alors :

i 1

1 N
xi c 2 V ( x) x c 2

N i 1
V ( x)

1
N

c x c ,

i 1

Revenons maintenant au calcul de la variance de la population P.

V ( x)

1
N

1
N

i 1

N1

x
i 1

1
N

N2

i 1

1
Par dfinition la variance de P1 est donn par : V1 ( x )
N1
1 N
x i x 2 2
et celle de P2 par : V2 ( x )

N 2 i 1

N1

x1

i 1

xi x1 2
N 1V1 ( x )
i 1

N
N 2V2 ( x ) x i x 2 2

i 1
1

En utilisant le rsultat prcdent et en prenant c x (o x est la


moyenne de la population P), les deux variances V1 ( x) et V2 ( x) peuvent
tre exprimes sous la forme suivante :

46

V1 ( x)

1 N1
1 N1
2
2
x

xi x 2 V1 ( x) x1 x 2

i
1
N1 i 1
N1 i 1
N1

x i x N 1V1 ( x ) N 1 x1 x
2

i 1

1 N2
1 N2
2
2
V2 ( x)
xi x x2 x xi x 2 V2 ( x) x2 x 2

N 2 i 1
N 2 i 1
N2

x i x N 2V2 ( x ) N 2 x 2 x
2

i 1

V ( x)

V ( x)

1
2
2
N 1V1 ( x ) N 1 x1 x N 2V2 ( x ) N 2 x 2 x
N

1
N1V1( x ) N 2V2 ( x) 1 N1 x1 x 2 N 2 x2 x 2
N
N

Moyenne des variances

Variance des moyennes

La moyenne des variances est note par : V (x ) .


La variance des moyennes est note par : V (x ) .
La variance totale est dcompose en deux parties :

V ( x) V ( x) V ( x )

La premire composante, V (x) , nous renseigne sur la dispersion


au sein de chaque population. On lappelle variance intra-population.

La deuxime composante, V (x ) , nous indique la dispersion de la


moyenne de chaque sous population par rapport la moyenne de la
population totale. On lappelle variance inter-populations.
Exemple :
La distribution des salaires dans une entreprise E, compose de deux
tablissements, est la suivante :
Etablissement 1
Salaires
en102 Dinars

Effectifs

[4 8[

Etablissement 2
Salaires
en102 Dinars

Effectifs

40

[8 12[

60

[8 12[

30

[12 20[

50

[12 - 28[

20

[20 - 40[

30

ni

ni

1) Calculer la moyenne des salaires pour lentreprise E :


2) Calculer la variance totale des salaires dans lentreprise E.

47

3) Dcomposer la variance totale en variance intra-tablissements et


inter-tablissements. Commenter.
Solution :
Etablissement 1

Classes

ni

xi

ni xi

ni xi2

[4 8[

40

240

1440

[8 12[

30

10

300

3000

[12 - 28[

20

20

400

8000

Total

90

940

12440

ni xi

ni xi2

Etablissement 2

Classes

ni

xi

[8 12[

60

10

600

6000

[12 20[

50

16

800

12800

[20 - 40[

30

30

900

27000

Total

140

2300

45800

1) Calcul de la moyenne des salaires pour lentreprise E :

1
N

i 6

n x
i

i 1

1
940 2300 14,08 10 2 DT .
230

2) Calcul de la variance totale des salaires de lentreprise E :

1 i 6
1
ni xi2 x 2
(12440 45800) 10 4 14,08 2 10 4

N i 1
230
6
V ( x ) 54,97 10
V (x)

3) Dcomposition de la variance totale des salaires de lentreprise E :


La variance totale est donne par :

V ( x) V ( x) V ( x )
La moyenne des variances est :

V ( x)

1
N1V1 ( x) N 2V2 ( x)
N

La variance des salaires de ltablissement 1 est :

V1 ( x)

1
12440 10 4 10,444 2 10 4 29,13 10 4
90

La variance des salaires de ltablissement 2 est :

48

V2 ( x)
V ( x)

1
45800 10 4 16,42 2 10 4 57,26 10 4
140

1
90 29,13 140 57,26) 10 4 46,25 10 2
230

La variance des moyenne est :

V (x )

1
1
2
2
N1 x1 x N 2 x2 x
N
N

j 2

x 2j x 2

j 1

1
90 10,44 2 140 16,422 10 4 14,08 2 10 4 8,51 10 4
230
V ( x ) V ( x ) V ( x ) (46,25 8,51) 10 4 54,76 10 4

V (x )

La variance des salaires est donc imputable pour une grande partie la
variance intra-tablissement des salaires.
Remarque :
Plus gnralement, La variance totale V (x ) dune population P, de taille
N compose de k sous-populations, P1 , P2 ,..., Pk , de tailles respectives

N1 , N 2 ,..., N k , de moyennes respectives x1 , x2 ,...... , xk , et de


variances respectives V1 ( x ) , V2 ( x ),...... , Vk ( x ) , est donne par :

V ( x)

1 K
1 K
2
N k Vk ( x ) N k x k x

N
N
k 1
k 1

Variance intra -population

Avec N N1 N 2 N k , et x

Variance inter -population s

1
N

xk

k 1

Le coefficient de variation
Aussi bien lcart-type que les indicateurs de tendance centrale (mode,
mdiane et moyenne) sont exprims dans la mme unit de mesure de
la variable. Dautre part, lcart-type dpend de lordre de grandeur des
observations de la variable. Ainsi, pour comparer la dispersion de deux
ou plusieurs distributions exprimes dans des units diffrentes, il est
indispensable dutiliser un indicateur de dispersion indpendant de
lunit de mesure et de lordre de grandeur des valeurs observes. Pour
ce faire, on utilise Le coefficient de variation, quon note par : CV(x),
et que lon dfinit par :

CV ( x )

x
x

Remarque : Le coefficient de variation est un nombre pur sans unit.


Cest un indicateur de dispersion relatif.
Exemple :
Reprenons lexemple de la distribution des salaires dans une entreprise
E, compose de deux tablissements :

49

Etablissement 1

Etablissement 2

Salaires
en102 Dinars

Effectifs

Salaires
en102 Dinars

Effectifs

[4 8[

40

[8 12[

60

[8 12[

30

[12 20[

50

[12 - 28[

20

[20 - 40[

30

ni

On peut rsumer les caractristiques


tablissements dans le tableau suivant
Etablissement 1

ni

principales

de

ces

deux

Etablissement 2

Moyenne

10,44. 102

16,42. 102

Variance

29,13. 104

57,26. 104

Ecart-type

5,39. 102

7,56. 102

Coefficient de
variation

O,51

0,46

La comparaison directe des carts-types indique une dispersion des


salaires plus forte dans ltablissement 2 que dans ltablissement 1
(7,56. 102 contre 5,39. 102).
La comparaison des dispersions partir du coefficient de variation,
indique au contraire une dispersion plus forte (O,51) pour
ltablissement 1, que pour ltablissement 2 (0,46).
En conclusion, on peut dire que les salaires sont plus disperss dans
ltablissement 1 que dans ltablissement 2.

Mesure de la dispersion autour de la


mdiane
Lcart absolu moyen par rapport la mdiane, not e M dune srie
statistique est gal la moyenne arithmtique de la valeur absolue des
carts entre les valeurs observes et leur mdiane.

Cas de donnes non groupes


e M

1
N

iN

i 1

Cas de donnes groupes


eM

1
N

i p

i p

xi M

i 1

xi M

i 1

Cet indicateur de dispersion tient compte de tous les carts entre


chaque valeur observe et la mdiane. Ces carts sont exprims dans la
50

mme unit que la variable.


Remarque :
Pour toute srie statistique on a :

eM ex x

Moments d'une srie statistique


Moments non centrs
Cas de donnes non groupes
Le moment non centr d'ordre r, quon note m r (x ) , dune srie
statistique est :

mr ( x)

ii)

1
N

iN

r
i

i 1

Cas de donnes groupes


1
mr (x)
N

i p

i p

n x
i

r
i

i 1

x ir

i 1

Remarque :
Le moment non centr dordre 1 est : m1 x
2

Le moment non centr dordre 2 est : m2 ( x )

Moments centrs
Cas de donnes non groupes
Le moment centr d'ordre r , quon note
est :

r ( x)

1
N

i N

(x

r (x ) , dune srie statistique

x )r

i 1

Cas de donnes groupes


r ( x)

1
N

i p

i p

ni ( x i x )r f i ( x i x )r
i 1

i 1

Remarque :
Le moment centr dordre 1 est :
51

1 0

Le moment centr dordre 2 est :

2 V ( x)

A partir de la formule dveloppe de la variance, on a :

2 V ( x ) m2 (m1 )2
En gnral, les moments centrs d'ordre pair donnent une indication
sur la dispersion des observations autour de la moyenne. Les
moments centrs d'ordre impair donnent une indication sur le degr
de symtrie de la distribution.
Exemple : La rpartition de 100 individus par classes dges est donne
par le tableau suivant :
Classes
dges

fi

Centres

11
10
15
20
18
16
10
100

n i x i2

82,5
125
262,5
500
630
800
700
3100

618,75
1562,5
4593,75
12500
22050
40000
49000
130325

n i x i x n i x i M

xi

ni
[5 , 10[
[10 , 15[
[15 , 20[
[20 , 30[
[30 , 40[
[40 , 60[
[60 , 80[
total

ni xi

0,11
0,10
0,15
0,20
0,18
0,16
0,10
1

7,5
12,5
17,5
25
35
50
70

258,5
185
202,5
120
72
304
390
1532

214,5
145
142,5
40
144
368
430
1484

3100
31 ans, M 27 ans, e x 15,32 ans, e M 14,84 ans
100
V(x) 1303,25 - (31)2 342,25 (annes)2
x

x 342,25 18,5 ans


On remarque bien que : eM e x x

Indicateurs de forme
Les polygones des frquences nous livrent une reprsentation
approximative de la distribution relle des frquences. Pour avoir une
ide satisfaisante et plus prcise sur la forme de la distribution, il est
recommand de calculer des indicateurs de forme. On distingue les
indicateurs dasymtrie et les indicateurs daplatissement. Ces
indicateurs sont sans unit de mesure. Ils sont indpendants dun
changement dchelle et/ou dorigine.

Asymtrie
Une distribution est dite symtrique si les observations se rpartissent
dans la mme proportion de part et dautre des trois valeurs centrales
(mode, mdiane et moyenne).
Les mesures d'asymtrie permettent de quantifier le degr de dviation
de la forme de distribution par rapport une distribution symtrique.
i) Le coefficient dasymtrie de Fisher, quon note par

52

1 :

3 moment centr d' ordre 3

3
(cart - type)3

La distribution est dite symtrique dans le cas o

1 0.

La distribution est dite tale gauche dans le cas o


La distribution est dite tale droite dans le cas o

1 0.

1 0.

ii) Le coefficient dasymtrie de Yule, bas sur les quartiles, quon


note par C Y :

CY

(Q3 Q2 ) (Q2 Q1 )
(Q3 Q1 )

La distribution est dite symtrique dans le cas o C Y 0 .


La distribution est dite tale gauche dans le cas o C Y 0 .
La distribution est dite tale droite dans le cas o C Y 0 .
iii) Le coefficient dasymtrie de Pearson, bas sur la moyenne, le
mode et lcart-type, quon note par C P :

CP

x Mo

La distribution est dite symtrique dans le cas o C P 0 .


La distribution est dite tale gauche dans le cas o C P 0 .
La distribution est dite tale droite dans le cas o C P 0 .

Aplatissement
Une distribution est dautant plus plate que la dispersion des
observations autour des valeurs centrales est forte.
i) Le coefficient daplatissement de Pearson, quon note par

4 moment centr d' ordre 4

4
(cart - type)4

La distribution est dite normale dans le cas o

3.

La distribution est dite hyponormale (plus aplatie que la normale)


dans le cas o 3 .
La distribution est dite hypernormale (moins aplatie que la normale)
dans le cas o 3 .
ii) Le coefficient daplatissement de Fisher, quon note par

4
3 3
4
53

2 :

La distribution est dite normale dans le cas o

2 0.

La distribution est dite hyponormale (plus aplatie que la normale)


dans le cas o 2 0 .
La distribution est dite hypernormale (moins aplatie que la normale)
dans le cas o 2 0 .

54

Chapitre 4 :
Concentration dune srie statistique
CHAPITRE IV : CONCENTRATION DUNE SERIE STATISTIQUE

56

I.

VALEURS GLOBALES ET VALEURS GLOBALES RELATIVES 56

II.

MEDIALE

57

II.A.

Dfinition

57

II.B.

Dtermination graphique

57

II.C.

Calcul de la mdiale

58

III.

ECART MEDIALE- MEDIANE

59

IV.

COURBE DE CONCENTRATION 60

Dfinition

60

IV.B.

Interprtation

60

IV.C.

Cas extrmes

60

V.

INDICE DE CONCENTRATION DE GINI

61

V.A.

Surface de concentration

61

V.B.

Dfinition de lindice de Gini

61

V.C.

Calcul de lindice de Gini

62

55

Chapitre IV : Concentration dune


srie statistique
Ltude de concentration a pour objet de mesurer et de mettre en
exergue dventuelles ingalits de rpartition dune valeur globale
totale. Cette tude nest pas centre sur lindividu, elle est plutt
globale. Lanalyse porte davantage sur la rpartition de la masse totale.
Elle permet de complter lanalyse de la dispersion relative dune
distribution.
Les
domaines
dapplications
sont
nombreux :
concentration des salaires, des revenus, des superficies agricoles, etc.
Le concept de concentration a t labor dans les annes 1910-1914
par le statisticien italien Corrado Gini (1884-1965).
Ltude de la concentration porte sur toute srie positive La notion de
concentration ne sapplique qu des variables quantitatives continues
valeurs positives cumulables, celles o le cumul a un sens.
La question fondamentale, laquelle on doit rpondre est, par exemple :
La masse salariale totale est-elle rpartie dune manire galitaire ?
Dans le cas o elle sest faite dune manire ingalitaire, on observe un
faible nombre dindividus dtenir une grande partie de cette masse, la
partie restante tant dtenue par un grand nombre dindividus.

Valeurs globales et valeurs globales


relatives
Soit X une variable statistique continue. On considre la srie
statistique correspondante.
On appelle valeur globale associe au couple ( xi , ni ) , le produit dfini
par :

VGi ni xi
On appelle valeur globale totale, quon note VGT :
p

n x

VGT

i 1

On appelle valeur globale relative associe au couple ( xi , ni ) , le


rapport, quon note qi, dfini par :

xi ni

qi

xn
i

i 1

On appelle valeur globale relative cumule croissante associe la


valeur xi , centre de la classe bi 1 , bi , quon note Qi, :
j i

Qi

q
j 1

56

Exemple :
Superficie Centre Effectif Valeurs
en ha
s
s
globales
nixi
xi

ni

Valeurs
globales
relatives
qi

ni xi
ni x i

Valeurs
globales
relatives
cumules
croissantes

Qi
[1 5[

11

33

0,008

0,008

[5 10[

7,5

12

90

0,022

0,030

[10 20[

15

15

225

0,056

0,086

[20 50[

35

26

910

0,229

0,315

[50 100[

75

36

2700

0,685

100

3958

Total

On peut interprter la cinquime ligne en disant que les exploitation qui


ont moins de 50 ha se partagent 31,5% de la superficie totale qui est
gale 3958 ha.

Mdiale
Dfinition
On appelle mdiale dune srie statistique, quon note par Mle, la
valeur de la variable telle que :

Q( Mle) 0,5 50%

Dtermination graphique
La mdiale est dtermine graphiquement comme tant labscisse du
point dordonne 0,5 de la courbe des valeurs globales relatives
cumules croissantes. Cette courbe est dfinie en tant quune ligne
brise obtenue sur un repre cartsien, en joignant les points de
coordonnes (bi , Qi ) , o bi dsigne la borne suprieure de la classe

i 1

, bi et Qi la valeur globale cumule croissante.

57

Qi
1

Courbe des valeurs globales relatives


cumules croissantes

0,5
0,315

0,086
0,030
0,008
1 5

10

20

50 Mle

100 Classes

Calcul de la mdiale
La mdiale se dtermine, par interpolation linaire, de la mme manire
que la mdiane. Seulement, les calculs ne se font plus sur les
frquences cumules croissantes de la srie statistique, mais sur les
valeurs globales relatives cumules croissantes.
Le calcul de la mdiale passe dabord par la dtermination de la classe
mdiale. Dans un deuxime temps, on dtermine la valeur prcise de la
mdiale par interpolation linaire.
Soit [bi 1 bi [ la classe mdiale, ai lamplitude de la classe mdiane, Qi
la valeur globale relative cumule croissante de la classe mdiale, Qi 1
la valeur globale relative cumule croissante de la classe qui prcde la
classe mdiale.
Lexpression de la mdiale est alors donne par :

0,5 Qi 1

Mle bi 1 ai
Qi Qi 1
Dans notre exemple, la classe mdiale laquelle appartient la
mdiale, est la classe [50 100[ do :

58

Superficie Amplitude Valeurs


s
globales
en
ha

ai

nixi

Valeurs
globales
relatives
qi

ni xi
ni x i

Valeurs
globales
relatives
cumules
croissantes

Qi
[1 5[

33

0,008

0,008

[5 10[

90

0,022

0,030

[10 20[

10

225

0,056

0,086

30

910

0,229

50

2700

0,685

3958

[20 , 50[

Mle

[50 , 100 [
Total

0,315

1
0,5
2
1

Le calcul de la mdiale par interpolation linaire donne :

Mle 50 0,50 0,315

100 50 1 0,315
0,50 0,315
Mle 50 50
63,5ha
1

0
,
315

On interprte en disant que les exploitations qui ont individuellement


moins de 63,5 ha totalisent 50% de la superficie totale.

Ecart mdiale- mdiane


On appelle cart mdiale-mdiane dune
par M , le nombre dfini par :

srie statistique, quon note

M Mle M
Cet cart nous fournit un premier renseignement sur la concentration
dune distribution statistique. Son interprtation se fait par rapport
ltendue de la srie. En dautres termes, on calcule :

M
Intervalle de variation
Si M est grand par rapport lintervalle de variation, alors la
concentration est forte
Si M est petit par rapport lintervalle de variation, alors la
concentration est faible
Sil y a absence de concentration ou situation dquipartition
parfaite, alors M est nul.

59

Dans notre exemple, la mdiane est gale :

0,50 0,38
M 20 30
33,84ha
0,64 0,38
Donc, lcart mdiale-mdiane est :

M 63,50 33,84 29,66


Par consquent, lcart mdiale-mdiane relatif est :

29,66
0,29
100 - 1

On peut dire que la concentration est relativement moyenne.

Courbe de concentration
Dfinition
On appelle courbe de concentration (ou courbe de Lorenz), Le polygone
obtenu en joignent, les points de coordonnes ( Fi , Qi ), dans un repre
orthonorm, o les Fi sont ports sur laxe des abscisses et les Qi sur
laxes des ordonnes. Cette reprsentation se fait dans un carr de cte
gal lunit.

Valeurs globales relatives


cumules croissantes

Qi
B

Diagonale

Q4
Surface
de
concentration

Q3

S
Courbe de
concentration

Q2
Q1

S
A
O
F1

F2

F3

Fi
F4
1
Frquences cumules croissantes

Interprtation
Plus la courbe de concentration se rapproche de la diagonale, plus la
rpartition est galitaire, et plus la courbe sloigne de la diagonale, plus
la distribution est concentre, cest--dire ingalement rpartie.

Cas extrmes
60

Cas 1. La courbe de concentration se confond avec la diagonale. Cest le


cas dune quirpartition parfaite. On dit aussi que la concentration est
nulle.
Cas 2. La courbe de concentration se confond avec les cts OA et AB
du triangle OAB. Cest le cas, hypothtique, o un seul individu possde
toute la richesse. On dit aussi que la srie est totalement concentre.

Valeurs globales relatives


cumules croissantes

Valeurs globales relatives

Cas 1

Qi

Cas 2

cumules croissantes

Qi

Diagonale

Diagonale

Q4

Q4

Courbe de concentration

Q3
Q2
Q1

Q2
Q1

A
O
F1

F2

F3

Courbe de concentration

Q3

Fi
F4
1
Frquences cumules croissantes

A
O
F1

F2

F3

Fi
F4
1
Frquences cumules croissantes

Indice de concentration de Gini


Surface de concentration
On appelle surface de concentration, quon note par S, la surface
comprise entre la diagonale principale OB et la courbe de concentration.
Plus la courbe sloigne de la diagonale et plus la surface de
concentration est grande.
Remarque :
La courbe de concentration se situe toujours en dessous de la diagonale
car on a, pour toute valeur de x : F ( x ) Q( x )

Dfinition de lindice de Gini


On appelle indice de Gini (ou indice de concentration), le rapport entre
laire de la surface de concentration et laire du triangle OAB. On le note
par IG. :

61

IG

Aire de la surface de concentration S


1 2S .
Aire du triangle OAB
2

Remarque :
Lindice de Gini est compris entre [0 , 1]
Dans le Cas 1, o la courbe de concentration se confond avec la
diagonale, lindice de Gini est gal zro.
Dans le Cas 2, o la courbe de concentration se confond avec les cts OA
et AB du triangle OAB, lindice est gal un.
Plus lindice de Gini tend vers 1, plus la concentration est forte.
Plus lindice de Gini tend vers 0, plus la concentration est faible

Calcul de lindice de Gini


Pour le calcul de lindice de Gini, on retient la mthode des trapzes.
Celle-ci consiste calculer laire de la surface complmentaire S par
rapport laire du triangle OAB. Pour ce faire, il suffit de crer une
nouvelle colonne f i (Qi Qi 1 ) .
Lindice est alors gal :
p

I G 1 f i (Qi Qi 1 )
i 1

La surface de chaque trapze est :

(grande base petite base ) hauteur


2
(Q Qi ) ( Fi Fi 1 ) (Qi 1 Qi ) ( f i )
i 1

2
2

Si

Par exemple :

S4

(Q3 Q4 ) ( F4 F3 ) ( f 4 ) (Q3 Q4 )

2
2

62

Qi
1

Q4

Q3

S4

Q2
Q1

Q3

F1

fi

f4
F3

Fi

F4

Superficie
en ha

xi

[1 5[

11

0,11

0,11

33

[5 10[

7,5

12

0,12

0,23

[10 20[

15

15

0,15

[20 50[

35

26

[50 100[

75

Total

ni

F2

Q4

nixi

Fi

ni xi
ni x i

Qi

f i (Qi Qi 1 )

0,008

0,008

0,00088

90

0,022

0,030

0,00456

0,38

225

0,056

0,086

0,0174

0,26

0,64

910

0,229

0,315

0,10426

36

0,36

2700

0,685

0,4734

100

3958

(VGi)

qi

0,6005

En reprenant notre exemple concernant la rpartition des exploitations


agricoles, lindice de Gini est gal :

I G 1 0,6005 0,3995 0,4 .


Cette valeur indique
moyenne.

que la concentration est relativement

63

Chapitre 5 :
Les indices statistiques
CHAPITRE V : LES INDICES STATISTIQUES
I.

65

LES INDICES ELEMENTAIRES 65

I.A.

Dfinition

65

I.B.
Les proprits de lindice lmentaire :
I.B.1.
La circularit ou transitivit
I.B.2.
La rversibilit :
I.B.3.
Autres proprits de lindice lmentaire :

II.

66
66
67
67

LES INDICES SYNTHETIQUES 68

II.A.
II.A.1.
II.A.2.

Indices synthtiques de Laspeyres


Indice de prix de Laspeyres:
Indice de quantit de Laspeyres:

69
69
69

II.B.
II.B.1.
II.B.2.

Indices synthtiques de Paasche


Indice de prix de Paasche :
Indice de quantit de Paasche :

70
70
70

II.C.

Les coefficients budgtaires

70

II.D.

Indices synthtiques de Laspeyres et moyenne arithmtique

71

II.E.

Indices synthtiques de Paasche et moyenne harmonique

71

II.F.
Limites et extension des indices de laspeyres et de Paasche
II.F.1.
Limites
II.F.2.
Indices de Fisher

64

72
72
73

Chapitre V : Les indices statistiques


Lanalyse conomique et sociale fait appel la comparaison et ltude de
lvolution de grandeurs simples, telles que la production de bl, le prix
de ptrole, .etc. La comparaison peut se faire dans le temps ou dans
lespace, moyennant le calcul dun rapport entre deux valeurs de cette
grandeur, prises par consquent en deux priodes diffrentes ou dans
deux lieux diffrents.
Il est aussi important de pouvoir suivre lvolution de grandeurs
complexes telles que la production agricole, les exportations dun pays,
etc. Ces comparaisons se font au moyen dindices synthtiques.
Ainsi, on distingue deux types dindices : Lindice lmentaire et lindice
synthtique.

Les Indices lmentaires


Lindice lmentaire permet de calculer lvolution dune grandeur
simple (comme, par exemple, le prix ou la production dun bien donn),
soit dans le temps, auquel cas on appelle cet indice un indice
lmentaire temporel, soit entre deux lieux gographiques diffrents,
auquel cas on parle dindice lmentaire spatial.

Dfinition
On peut dfinir lindice lmentaire temporel ou spatial comme un
nombre pur (sans dimension) rsultant du rapport de deux valeurs
prises par la mme grandeur, soit deux dates diffrentes, soit sur
deux espaces diffrents.
Soit x1 la valeur de la grandeur G la date t 1 et x0 la valeur de la
variable la date t 0 .
Lindice lmentaire de la grandeur G est donn par :

I1/0

x1
100
x0

La date t 1 est appele date courante ou priode courante, ou encore


situation courante, dans le cas dun indice spatial. La date t 0 est
dite date de rfrence, ou priode de base, ou encore situation de base,
dans le cas dun indice spatial.
Exemple 1:
Le prix dun billet davion Tunis - Toulouse est pass de 310 D en 1985
400 D en 1998.
Lindice de prix dans ce cas est donn par :

65

I 98 /85

P98
400
100
100 107,75
P85
310

On dit que le prix dun billet davion a augment de (107,75-100), soit


7,75% entre 1995 et 1998.
Exemple 2:
Le loyer dun studio Tunis est de 240 D, alors qu Bizerte il est de
120 D.
Dans ce cas lindice de loyer entre Bizerte et Tunis est de :

I Bizerte/Tunis

PBizerte
120
100
100 50%
PTunis
240

Donc le loyer dun studio Bizerte est le moiti de celui Tunis.

Les proprits de lindice lmentaire :


La circularit ou transitivit
Cette proprit est intressante dans le cas dun changement de lanne
de base.
Si une grandeur conomique prend les valeurs x0 , x1 et x2
respectivement aux dates t 0, 1 et 2 , lindice lmentaire satisfait :

I 2 /0

1
I 2 /1 I1/0
100

Ainsi on a :

I
I 2/1 2/0 100
I1/0
base 1

base 0

Dmonstration :

I 2 /0

x2
x
x
100 x1
x
1
100 2 100

2 100 1 100
x0
x0
100 x1 100 x1
x0

I 2 /0

1
I 2/1 I1/0
100

Dune manire gnrale :

I
I
I
I
I t / 0 100 t / t 1 t 1/ t 2 t 2 / t 3 1 / 0
100
100
100
100
Exemple :
Le prix dun bien Z pour trois dates est donn dans le tableau suivant :

66

Date

Prix

1985

150

1990

210

1995

230

Calculons les diffrents indices lmentaires:

210
100 140%,
150
230

100 109,5
210

I 90 / 85
I 95 / 90

I 95 / 85

230
100 153,3
150

On vrifie que :

I 95 / 85

1
1
I 95 / 90 I 90 / 85
109,5 140 153,3%
100
100

Ainsi, pour comparer deux variables entre deux dates, il suffit de faire le
rapport de leur indice.

La rversibilit :
Cette proprit est prenante dans le cas du calcul dindice spatial car le
choix de lespace de rfrence est arbitraire.
La proprit de la rversibilit peut tre prsente sous la forme
suivante :

I1/0 I 0 /1 10

ou encore I 0 /1

10 4

I1/0

Dmonstration :

100 100

x1 x0

100 100 10 4 I1/0 I 0 /1


x0 x1

Exemple :
En reprenant les donnes de lexemple prcdent, on peut vrifier que :.

210
150
100 140%, I 85 / 90
100 71,428%
150
210
I 90 / 85 I 85 / 90 140 71,428 10 4
I 90 / 85

Autres proprits de lindice lmentaire :


Si a bc alors lindice lmentaire de a est donn par :

I1/0 (a ) I1/0 (b ). I1/0 (c ).


67

1
100

Exemple :
Supposons que I1/0 ( p ) 110% et I1/0 (q ) 120% .
La recette tant gale au produit du prix par la quantit , R pq ,
lindice lmentaire de la recette est :

I1/0 ( R ) I1/0 ( p ) I1/0 (q )

1
1
110 120
132%
100
100

Entre la date 0 et la date 1 la recette a augment de 32%


Si a

b
, alors lindice lmentaire de a est donn par :
c
I1/0 (a )

I1/0 (b )
I1/0 (c )

100

Les indices synthtiques


Soit G une grandeur complexe compose de plusieurs autres grandeurs
simples :

G g 1 , g 2 , , g k

Pour chaque grandeur simple g , i 1, 2, , k on peut calculer un

indice lmentaire simple :

g ti
I t / 0 ( g ) i 100, i 1, 2,, k
g0
i

On peut rsumer cette srie dindices lmentaires par un indice


synthtique not I t / 0 (G ) .
En conomie on sintresse souvent aux variations des prix, des
quantits et de la valeur globale (prix fois quantits). Ainsi, on peut
calculer trois indices synthtiques, savoir lindice des prix, lindice des
quantits et lindice de valeur globale.
i

Soient p0 , q0 respectivement le prix et la quantit du bien i la date 0 ,


i

et p t , q t respectivement le prix et la quantit du mme bien la date t.


Considrons un panier compos de k biens.
Les valeurs globales de ce panier values la date 0 et la date 1 sont
donnes respectivement par :

V0

i k

i k

p0i q0i et Vt

pq

i 1

Lindice de la valeur globale est donn par :

68

i
t

i 1

i
t

ik

I t /0 (V ) I t /0 ( p.q )

Vt
100
V0

i
t

i
t

i
0

i
0

pq

i 1
ik

100
q

i 1

Par exemple,

I t / 0 (V ) 130% signifie que la valeur du panier a

augment de 30% entre la date 0 et la date t. A ce niveau, une question


importante se pose : quelle est lorigine de cette augmentation ?
rsulte-elle de laugmentation des prix, des quantit ou des deux ?
En effet, dans ce cas, plusieurs cas de figures peuvent se prsenter :
les prix augmentent et les quantits restent constantes.
les quantits augmentent et les prix restent constants.
les prix augmentent et les quantits baissent, mais la hausse des prix
lemporte sur la baisse des quantits.
les quantits augmentent et les prix baissent, mais la hausse des
quantits lemporte sur la baisse des prix.
les quantits et les prix augmentent simultanment.
Afin de cerner avec prcision les origines de la variation, on fixe les
quantits et on calcule un indice de prix, ensuite on fixe les prix et on
calcule un indice de quantits
Gnralement, on distingue deux types dindices selon que lon fixe les
quantits ou les prix la date de base 0 ou la date courante t. Dans le
premier cas, lorsque lon fixe les prix ou les quantits la date de
base 0 : on calcule les indices synthtiques de Laspeyres. Dans le
deuxime cas, lorsque lon fixe les prix ou les quantits la date
courante t, on calcule les indices synthtiques de Paasche.

Indices synthtiques de Laspeyres


Indice de prix de Laspeyres:
Cet indice indique lvolution de la valeur dun panier de biens
composition constante. Les quantits fixes sont values la date de
base 0 :
ik

LPt/ 0

i
t

i
0

i
0

i
0

pq
i 1

100

ik

i 1

Indice de quantit de Laspeyres:


Cet indice indique lvolution de la valeur dun panier de biens prix
constants. Les prix constants sont valus la date de base 0 :

69

ik
i
0

qti

i
0

i
0

Lqt/0

i 1
ik

100

i 1

Indices synthtiques de Paasche


Indice de prix de Paasche :
Cet indice indique lvolution de la valeur dun panier de biens
composition constante. Les quantits fixes sont values la date
courante t.
ik

i
t

i
t

i
0

i
t

pq

Pt P/ 0

i 1
ik

100

i 1

Indice de quantit de Paasche :


Cet indice indique lvolution de la valeur dun panier de biens prix
constants. Les prix constants sont valus la date courante t :
i k
i
t

i
t

i
t

i
0

pq

Pt /q 0

i 1
i k

100

pq
i 1

Les coefficients budgtaires


On appelle coefficient budgtaire associ au bien i , la part de la
dpense consacre ce bien. Ainsi, les coefficients budgtaires dun
bien i, respectivement la date 0 et la date t sont :
W0i

p 0i q 0i

i
et Wt

ik
i
0

p q

i
0

p ti q ti
ik
i
t

p q

i 1

i
t

i 1

Les coefficients budgtaires ont les proprits suivantes :

0 Wi 1
k

i 1

70

Indices synthtiques de Laspeyres et moyenne


arithmtique
Lindice synthtique de Laspeyres peut tre dfini comme tant la
moyenne arithmtique des indices lmentaires pondrs par les
coefficients budgtaires de la date de base.
Dmonstration : Nous allons la faire pour le cas de lindice de prix de
Laspeyres. Le cas de lindice de quantit de Laspeyres se fait dune
manire similaire.
ik
i
t

i
0

i
0

i
0

pq

LPt/0

i 1
ik

100

i 1

P
t /0

pti q0i

i k

i 1

i k

i
0

100
i
0

i 1

En multipliant et en divisant par p0 , on obtient :


P
t /0

q0i pti

p0i
i k
i 100
i
i
i 1
p0 q 0 p0
ik

i 1

pti
i k
i 100
i
i
p0
i 1
p0 q0

i 1
I
(
p
)

i k

q0i p0i

i
t /O

W0i

i k

LPt/0

i
0

I ti/O ( p )

i 1

Indices synthtiques de Paasche et moyenne


harmonique
Lindice synthtique de Paasche peut tre dfini comme tant la
moyenne harmonique des indices lmentaires pondrs par les
coefficients budgtaires de la date courante.
Dmonstration : Nous allons le faire pour le cas de lindice de prix de
Paasche. Le cas de lindice de quantit de Paasche se fait dune manire
similaire.
i k

Pt /P0

i
t

i
t

i
0

i
t

pq
i 1
i k

100
q

i 1

On calcul linverse de lindice de Paasche

71

ik

Pt /P0

i
0

qti

i 1
ik

i
t

pq

i
t

1
100

i 1

Pt /P0

p0i qti

ik

i 1

ik

i
t

pq

i
t

1
100

i 1

En multipliant et en divisant par pt , on obtient :

Pt /P0

pti
1

i k
i
i 1
pti qti pt 100
i k

p0i qti

i 1

pti qti

p0i 1
i k
( i
)
i i
p
100
i 1
t
pt qt

i 1
1

i k

I ti / 0 ( p )

Wti

Pt /P0

i k

i 1

1
I ( p)
i
t /0

Limites et extension des indices de laspeyres


et de Paasche
Limites
Les deux indices de Laspeyers et de Paasche ne sont pas rversibles

Lt /0 L0 /t 10 4
et

Pt /0 P0 /t 10 4
Ces proprits sont valables pour les deux indices, prix et quantit.
Les indices de Laspeyers et de Paasche ne vrifient pas la proprit de
circularit :

Lt /0

1
Lt /t ' Lt '/0
100

Pt /0

1
Pt /t ' Pt '/0
100

et

Dune manire gnrale lindice de Paasche est toujours infrieur ou


gal lindice de Laspeyers.
72

Lindice de Laspeyers surestime lvolution des prix.


Lindice de Paasche sous-estime lvolution des prix.

Indices de Fisher
On peut dfinir un troisime indice, dit indice de Fisher, comme la
moyenne gomtrique des deux indices de Paasche et de Laspeyers.
Lindice de prix de Fisher est donc :
1

Ft /P0 Pt /P0 LPt/0 2

Pt /P0 LPt/0

Lindice de quantits de Fisher est donc :


q
t /0

q
t /0

1
q
2
t /0

Pt /q 0 Lqt/0

Proprits de lindice de Fisher


Lindice de Fisher est compris entre ceux de Laspeyers et Paasche

PF L
Lindice de Fisher est rversible :

Ft / 0 F0 / t 10 4
Lindice de Fisher nest pas transitif :

Ft /0

1
Ft /t ' Ft '/0
100

Remarques :
Lindice de la valeur globale ou de la recette totale peut tre exprim en
fonction des trois indices : Laspeyers, Paasche et Fisher

LP P q
Lq P P
FP Fq
I V I pq

100
100
100
Exemple 1
On dispose des donnes suivantes sur les prix et les quantits de deux
biens en 1995 et 1998 :
Bien 1

Bien 2

Prix

Quantit

Prix

Quantit

1995

10

25

10

1998

15

32

14

1) Calculer les indices de prix et de quantit de Laspeyers, de Paasche


et de Fisher.
2) Calculer lindice de la valeur globale et vrifier que :
73

Lp P q
Lq P p
F p Fq
I V I pq

100
100
100
1) Le calcul des indices
i 2
p
L98
/ 95

i
98

i
q95

i 1
i 2

i
95

i
q95

i
95

i
q98

100

15 5 32 10
100 131,67
10 5 25 10

100

10 6 25 14
100 136,67
10 5 25 10

100

15 6 32 14
100 131,22
10 6 25 14

100

15 6 32 14
100 136,20
15 5 32 10

i 1

i 2

Lq98 /95

p
i 1
i 2

i
95

i
q95

i
98

i
q98

p
i 1

i 2

P98p /95

p
i 1
i 2

i
95

i
q98

i
98

i
q98

i 1

i 2

P98q /95

p
i 1
i 2

i
98

i
q95

i 1

F98p /95

p
P98p /95 L98
/ 95 131,44

F98q /95

P98q /95 Lq98 /95 136,43

On remarque que P F L
2) Lindice de la valeur
i 2

p
I 98 /95 (V )

i
98

i
q98

i 1
i 2

100
i
95

i
q95

15 6 32 14
100 179,34
10 5 25 10

i 1

Lp P q
Lq P p
F p Fq
I 98 /95 V I 98 /95 pq

100
100
100
Lp P q
Lq P p
F p Fq
I 98 /95 V I 98 /95 pq

100
100
100

74

131,67 136,20

1
1
136,67 131,22
100
100

179,34
Exemple 2
Bien

Indices
lementaires

Indices
lementaires

p95 q95 p98 q98 I98/85( p)

I98/85(q)

1995 : (0)

1998 : (t)

p95q95 p98q98

W95i

W98i

p98q95 p95q98

12

15

125

116

72

105

0,33

0,37

90

84

13

11

160

84

65

88

0,30

0,31

104

55

10

10

125

90

80

90

0,37

0,32

100

72

217

283

294

211

Total

1) Le calcul des indices synthtiques


i 3
p
L98
/ 95

i
98

i
q95

i 1
i 3

i
95

i
q95

i
95

i
q98

100

294
100 135
217

100

211
100 97
217

100

283
100 134
211

100

283
100 96
294

i 1

i 3

Lq98 /95

p
i 1
i 3

i
95

i
q95

i
98

i
q98

p
i 1

i 3

P98p /95

p
i 1
i 3

i
95

i
q98

i
98

i
q98

i 1

i 3

P98q /95

p
i 1
i 3

i
98

i
q95

i 1

F98p /95

p
P98p /95 L98
/ 95 134,4

F98q /95

P98q /95 Lq98 /95 96,49

Lindice de la valeur est :

75

i 3

i
98

i
q98

i 1
i 3

I 98 /95 (V )

100

i
95

i
q95

283
100 130,41
217

i 1

On peut vrifier que :


i 3

LP98 /95

i
95

i
I 98
/ 95 ( p )

i 1

(0,33 125 ) (0,30 160 ) (0,37 125 ) 130


i 3

Lq98 /95

i
95

i
I 98
/ 95 ( q )

i 1

(0,33 116) (0,30 84) (0,37 90 ) 97


et que :

1
P
98 / 95

ik

i
98

i 1

(0,37
1
q
98 / 95

ik

i
98

W
i 1

i
98 / 95

( p)

1
1
1
1
) (0,31
) (0,32
)
125
160
125 134
1

(0,37

i
98 / 95

(q )

1
1
1
1
) (0,31
) (0,32
)
116
84
90
96

76

Chapitre 6 :
Introduction lanalyse des distributions
deux variables
CHAPITRE VI : INTRODUCTION A LANALYSE DES DISTRIBUTIONS A DEUX
VARIABLES 78
I.

PRESENTATION DUN TABLEAU A DOUBLE ENTREE

78

I.A.

Exemple

78

I.B.

Tableau de contingence

78

II.

DISTRIBUTIONS MARGINALES

80

II.A.

Dfinition

80

II.B.

Exemple

80

III.

DISTRIBUTIONS CONDITIONNELLES 85

III.A.

Dfinition

85

III.B.

Exemple

86

IV.
87

DEPENDANCE ET INDEPENDANCE ENTRE LES VARIABLES X ET Y

77

Chapitre VI : Introduction
lanalyse des distributions deux
variables
On considre une population de N individus mesurs simultanment
par les deux caractres X et Y, de modalits x1 ,...xi ,....x L pour la
variable X et y1 ,... y j ,.... y K pour la variable Y. On note par nij le nombre
dindividus appartenant la fois une classe de rang i (pour la
variable X) et une classe de rang j (pour la variable Y).

Prsentation dun tableau double


entre
Exemple
On considre le tableau suivant, relatif une population de 100
mnages, o X dsigne le nombre denfants du mnage et Y est le
nombre de pices du logement.

( j 1)

( j 2)

( j 3)

2 (i 1)

15

10

30

3 (i 2)

30

10

45

4 (i 3)

10

15

5 (i 4)

10

10

65

20

15

100

Yj

Total

Xi

Total

Remarques :
La valeur 30 indique que, parmi les 100 mnages observs, il y a 30
mnages qui ont 3 enfants et qui habitent dans des logements de 3
pices.
La valeur 65 indique que, parmi les 100 mnages observs, il y a 65
mnages habitent dans des logements de 3 pices.
La valeur 45 indique que, parmi les 100 mnages observs, il y a 45
mnages qui ont 3 enfants.

Tableau de contingence

78

Yj

y1

y j

y2

y K
Total

Xi
n11 n12

n1 j

n1K

n1.

x2

n21 n22

n2 j

n2 K

n2.

ni1

ni 2

nij

niK

ni.

xL

nL1 nL 2

nLj

nLK

n L.

Total

n.1

n. j

n. K

..

x1

..

xi

n.2

Les effectifs situs lintrieur du tableau sont nots par nij , o nij
dsigne le nombre de fois o la modalit xi de la variable X et la
modalit y j de la variable Y ont t observes simultanment.

ni. , appel effectif marginal de X, est le nombre total


dobservations de la modalit xi de la variable X quelque soit la
Leffectif

modalit de la variable :
jK

ni.

ij

j 1

Leffectif n. j , appel effectif marginal de Y, reprsente le nombre total


dobservations de la modalit y j de la variable Y quelque soit la
modalit de la variable X :
iL

n. j

ij

i 1

Leffectif total de la distribution conjointe, not N, peut tre obtenu


partir de leffectif marginal de X ou bien partir de leffectif marginal de
Y:
jK

i L

i L j K

ni. n. j nij
i 1

j 1

i 1 j 1

Remarque : la distribution conjointe des variables X et Y peut tre


dfinie partir des frquences relatives :

79

f ij

nij
N

n
avec f i. i.
N

jK

ij

j 1

f. j

n. j
N

iL jK

iL

f
i 1

ij

et

ij

i 1 j 1

Distributions marginales
Dfinition
A partir de la distribution conjointe des variables X et Y, on peut
dduire la distribution marginale de chacune des deux variables. Ceci
nous permet danalyser sparment la distribution de chacune des
deux variables.
On appelle distribution marginale de la variable X, la donne des L
couples ( xi , ni. ) .
On appelle distribution marginale de la variable Y, la donne des K
couples ( y j , n. j ) .
Ces deux distributions peuvent se prsenter sous forme de tableaux
statistiques.
Distribution marginale de X

Effectif marginal

y1

n.1

y2

n.2

Effectif marginal

n1.

x2

n2.

..

x1

..

Xi

Yj

yj
..

ni.

..

xi

xL

n L.

Total

n. j

yK

n. K

Total

Distribution marginale de Y

Remarque : la distribution marginale de chacune des variables X et Y


peut tre dfinie partir des frquences relatives :

f i.

ni.
N

et

f. j

n. j
N

Exemple
En reprenant lexemple de la distribution des 100 mnages selon le
nombre denfants du mnage et le nombre de pices du logement, la
distribution marginale selon chacun des deux caractres peut se

80

prsenter de la manire suivante :


Distribution marginale de X
Effectif marginal

Xi
2

30

45

15

10

Total

100

Distribution marginale de Y
Effectif marginal

Yj
3

65

20

15

Total

100

Distributions conditionnelles
Dfinition
On appelle distribution conditionnelle de Y pour X xi , la distribution
des individus correspondant une modalit xi de la variable X suivant
les modalits de la variable Y.
On appelle distribution conditionnelle de X pour Y y j , la distribution
des individus correspondant une modalit y j la variable Y suivant les
modalits de la variable X.
Ces deux distributions peuvent se prsenter sous forme de tableaux
statistiques.

Distribution conditionnelle de X sachant

Distribution conditionnelle de Y sachant

Y Yj

X Xi

Y Y j

ni / j

n j /i

X xi

y1

ni1

nij

yj

nij

xL

nLj

yK

Total

n. j

Total

niK
ni.

n1 j

xi

x1

Remarque : la distribution conditionnelle de chacune des variables X et


Y peut tre dfinie partir des frquences relatives .
Dans le cas de la distribution conditionnelle de X pour Y y j , on a :

nij
fi/ j

nij

f
N ij
n. j
n. j
f. j
N

i L

i/ j

i 1

Dans le cas de la distribution conditionnelle de Y pour X xi , on a :

nij
f j /i

nij

f
N ij
ni.
ni.
f i.
N

jK

j /i

j 1

Exemple
En reprenant lexemple de la distribution des 100 mnages selon le
nombre denfants du mnage et le nombre de pices du logement, la
distribution conditionnelle de X sachant Y 4 et la distribution
conditionnelle de Y sachant X 3 se prsentent ainsi :

Distribution conditionnelle de X sachant

Y 4
2

10

Total

20

Distribution conditionnelle de Y sachant

X 3
3

30

10

Total

45

Dpendance et indpendance entre les


variables X et Y
Les variables X et Y sont dites statistiquement indpendantes lorsque la
distribution de la variables X ne dpend pas de la variable Y ou vice
versa. Dans ce cas, la connaissance de la variable Y ne donne aucune
information sur la variables X, auquel cas, toutes les distributions
conditionnelles de la variables X sont identiques la distribution
marginale de la variables X.
Lindpendance se traduit en termes de frquences relatives par :

f ij f i. f . j

i, j

Chapitre 7 :
Corrlation et Ajustement linaire
CHAPITRE VII : CORRELATION ET AJUSTEMENT LINEAIRE
I.

LA COVARIANCE ENTRE X ET Y

89

89

I.A.

Dfinition

89

I.B.

Proprits

89

II.

LE COEFFICIENT DE CORRELATION LINEAIRE ENTRE X ET Y

90

II.A.

Dfinition

90

II.B.

Proprits

91

II.C.

Interprtation de la valeur de rx,y

91

III.

AJUSTEMENT LINEAIRE DUN NUAGE DE POINTS 92

III.A.
La droite de rgression de y sur x
III.A.1.
Critre des moindres carrs

92
93

III.B.

95

IV.
V.
V.A.

VI.

La droite de rgression de x sur y

DECOMPOSITION DE LA VARIANCE TOTALE

96

COEFFICIENT DE DETERMINATION 97
Interprtation de la valeur de R2

AJUSTEMENT NON LINEAIRE 98

97

Chapitre VII : Corrlation et


Ajustement linaire
Dans le cadre de ce chapitre, on sintresse ltude dune ventuelle
relation entre deux variables statistiques. En dautres termes, nous
allons voir, dabord, comment dterminer le sens de la liaison entre ces
deux variables, ensuite, comment mesurer lintensit ou le degr de la
liaison entre elles, et enfin fournir une expression mathmatique de la
liaison entre ces deux variables.

La covariance entre X et Y
Dfinition
La covariance est gale la moyenne des carts des couples ( xi , y i ) de X
et Y par rapport au point ( x , y ) .

Cov( x, y )

1
N

i N

(x

x )( yi y )

i 1

La covariance indique le sens de la relation entre les variables X et Y.


Ainsi, On peut distinguer les cas suivants :
Si Cov( x, y ) 0 , alors on peut dire que la relation entre les deux
variables est positive. Dans ce cas, ces deux variables varient dans le
mme sens.
Si Cov( x, y ) 0 , alors on peut dire que la relation entre les deux
variables est ngative. Dans ce cas, ces deux variables varient en sens
inverse.
Si Cov( x, y ) 0 , alors on peut dire quil ny a pas de relation entre les
deux variables. Dans ce cas, les variations de lune nentranent pas la
variation de lautre.

Proprits
i)

Cov(ax b, cy d ) ac.Cov( x, y )

Dmonstration

1 iN
Cov(ax b, cy d ) (axi b) (ax b )(cyi d ) (cy d )
N i 1
1 iN
1 iN
(axi ax )(cyi cy ) a( xi x ) . c( yi y )
N i 1
N i 1
iN
1
a c ( xi x )( yi y ) a c Cov( x, y )
N i 1
ii)

Cov( y, x ) Cov( x, y )

Dmonstration

Cov( x, y )

1
N

1
N

iN

( xi x )( yi y )
i 1

iN

(y

y )( xi x ) Cov( y, x )

x )2 V ( x )

i 1

Cov( x, x ) V ( x )

iii)

Dmonstration

Cov( x, x )

1
N

( xi x )( xi x )
i 1

1
Cov( x, y )
N

iv)

1
N

i N

iN

iN

(x
i 1

x y x . y
i

i 1

Dmonstration

Cov( x, y )

1
N

iN

( xi x )( yi y )
i 1

1
N

iN

(x y
i

yx i x y i x y )

i 1

iN
iN
iN
1 i N

( xi yi ) ( yxi ) ( x yi ) ( x. y )

N i 1
i 1
i 1
i 1

iN
iN
i N
1 i N

( xi yi ) y ( xi ) x ( yi ) ( x. y )
N i 1
i 1
i 1
i 1

N .x
N.y
N . y.x

1 iN
( xi yi ) N .x. y N .x. y N . y.x

N i 1
1 iN
1 iN

( xi yi ) N . y.x ( xi yi ) x. y
N i 1
N i 1

Le coefficient de corrlation linaire


entre X et Y
Dfinition
Le coefficient de corrlation linaire est un nombre sans dimension qui
permet de mesurer le degr ou lintensit de la liaison linaire entre
deux variables statistiques. Ainsi, la formule du coefficient de
corrlation linaire entre X et Y est :

rx , y

Cov( x, y )

x y

Cov( x, y )
V ( x) V ( y )

La covariance indique le sens de la relation entre les variables X et Y.

Ainsi, On peut distinguer les cas suivants :


Si rx , y 0 , les deux variables varient dans le mme sens.
Si rx , y 0 , les deux variables varient en sens inverse.
Si rx, y 0 , les deux variables sont linairement indpendantes.

Proprits
rax b,cy d signe de a ) (signe de c rx, y

i)

Dmonstration

rax b,cy d

Cov(ax b, cy d )
(a c ).Cov( x, y )

V (ax b ) V (cy d ) a V ( x ) c V ( y )

(a c ).Cov( x, y )
(a c ) Cov( x, y )

a c V ( x) V ( y) a c V (x) V ( y)

signe de a ) (signe de c rx, y


ry ,x rx, y
Dmonstration

rx, y

Cov( x, y )

x y

Cov( y, x )

y x

ry ,x

rx,x 1
Dmonstration

rx ,x

Cov( x, x )

x x

V ( x)

x x

1 r 1

Interprtation de la valeur de rx,y


Si rx , y 1 : on dit quil y a une parfaite corrlation linaire positive entre
les deux variables.
Si rx , y 1 : on dit quil y a une parfaite corrlation linaire ngative
entre les deux variables.
Si rx, y 0 , on dit quil y a absence de corrlation linaire entre les deux
variables.
On dit quil y a une forte corrlation linaire entre les deux variables (ou
forte dpendance linaire) si r est proche de 1 . En revanche, si r est
proche de zro, on dit quil y a une faible corrlation linaire entre les

deux variables.

Ajustement linaire dun nuage de


points
On considre deux variables statistiques quantitatives x et y et on
sintresse une relation ventuelle entre elles.
La reprsentation du nuage de points peut nous renseigner sur lallure
de la distribution deux caractres. La forme de la relation entre les
deux variables peut tre mise en vidence graphiquement par les
courbes de rgression.
Gnralement, on exprime y en fonction de x, on parle alors de la droite
de rgression de y sur x (ou de y en x). Dans ce cas, on cherche
expliquer la variable y par la variable x. De ce fait, y est dite variable
explique ou variable endogne et x est appele variable explicative ou
variable exogne.

La droite de rgression de y sur x


On considre N observations sur les deux variables x et y. Ces
observations peuvent tre reprsentes par un nuage de points. Dune
manire gnrale, lajustement dun nuage de point par une fonction
mathmatique, revient estimer les valeurs des coefficients de cette
fonction de telle sorte que sa courbe reprsentative se rapproche au
mieux du nuage de points.
Lorsquil sagit dune liaison linaire entre les deux variables, on parle
alors dajustement linaire. Lajustement linaire consiste estimer les
coefficients de la droite de rgression du type y ax b , cest dire
trouver la valeur de a et celle de b.
Cette droite est suppose reflter lvolution moyenne de la variable y
(variable explique) en fonction de la variable explicative x.

La mthode dajustement que nous allons exposer est appele mthode


des Moindres Carrs Ordinaires ou simplement MCO .

Droite de
rgression

yi

i
axi+b

xi

Critre des moindres carrs


Considrons N couples dobservations ( xi , y i ) tels que :

yi (axi b ) i
o

i reprsente le rsidu du couple ( xi , yi ) . On peut alors crire :


i yi (axi b)

La mthode MCO consiste ajuster le nuage de points par une droite de


manire minimiser la somme des carrs des distances entre les points
du nuage et cette droite. Ceci revient minimiser la somme des carrs
des rsidus.
Remarque : On minimise la somme des carrs des rsidus et non la
iN

somme des rsidus car :

i 1

Dtermination des deux paramtres a et b par la mthode MCO.

i yi (axi b) i2 ( yi axi b)2


La somme des carrs des rsidus pour i 1,2,, N est donne par :
N

i2
i 1

i N

(y
i 1

axi b)2 f (a, b )

Les deux conditions de premier ordre de la minimisation de cette


fonction f par rapport a et b sont :
iN

i2
i 1
0 et
a

iN

i2
i 1
0
b

iN

ei2

iN

i 1

iN

2 ( y i ax i b )( x i ) 0

i 1

(y

ax i b )( x i ) 0

(1)

i 1

iN

ei2

iN

i 1

iN

2 ( y i ax i b )(1) 0

i 1

(y

ax i b ) 0

(2)

i 1

Le dveloppement de ces deux quations nous donne :


i N

(1) ( yi xi

axi2

i N

i N

bxi ) yi xi a

i 1

i 1

i N

xi2

i N

b xi 0

i 1

i N

i N

(2) ( yi axi b) yi a xi Nb 0
i 1

(3)

i 1

i 1

(4)

i 1

En divisant les deux membres de lquation (4) par N, on obtient :


iN

iN

yi

i 1

i 1

Nb
0
N

Sachant que :

1
N

iN

xi et que y
i 1

1
N

iN

i 1

Lquation (4) devient :

ya x b 0

(5)

En remplaant, dans lquation (3), b par : y a x (daprs lquation


(5)), on a :
iN

iN

iN

y i x i a x i2 ( y ax ) x i 0
i 1

i 1

iN

iN

iN

iN

i 1

iN

Nx

iN

y i x i a x i2 y x i ax x i 0

i 1
i 1
i 1
i 1

y x
i

i 1

iN

Nx

a x i2 Nx. y aN x 0
2

i 1

iN
2

y i x i Nx. y a x i2 N x
i 1
i 1

Ainsi, on obtient la valeur estime de la pente de la droite de


rgression :
i N

y i xi N x y
a

i 1
i N

xi2 N x 2
i 1

et par l la valeur estime de b :

b y ax
Remarque :
On peut aussi calculer la valeur estime de la pente de la droite de
rgression en utilisant lune de ces deux expressions
i N

( xi x )( yi y )
a

i 1

ou a

i N

( xi x ) 2

Cov( x, y )
V ( x)

i 1

Enfin, lquation de la droite de rgression est donne par :

yi axi b
Remarque :
La droite de rgression passe par le point moyen de coordonnes ( x , y ) . En
effet, Comme, b y ax , on a alors y ax b .
Ltude de la droite de rgression de y sur x permet de prvoir y en
fonction x :

y ax b

La droite de rgression de x sur y


On peut exprimer x en fonction de y . Dans ce cas, on appelle x une
variable endogne ou explique et y une variable exogne ou
explicative, et on parle de la droite de rgression de x sur y :

x a ' y b' .
En utilisant la mthode des moindres carrs ordinaires, on retrouve la
valeur de a ' et de b' exprimes par :
i N

y i xi N x y
a '

i 1
i N

yi2 N y 2
i 1

et b' x a ' y

On peut montrer aussi que :

1 i N
( xi x )( yi y )
( xi x )( yi y )

Cov( x, y )
N
i 1
i 1
a'

iN
1 i N
V ( y)
( yi y )2
( yi y )2

i 1
N i 1
iN

Remarque :
Ltude de la droite de rgression de x sur y permet de prvoir x en
fonction de y :

x a' y b'

Dcomposition de la variance totale


iN

iN

i 1

i 1

( y i y )2 ( y i y i ) ( y i y )

iN

iN

iN

y i y i y 2 ( y i y i ) ( y i y )

i 1
i 1
2

i 1

(1)

(2)

( y i y ) (a.x i b) (a.x b) a( x i x )

(2)

( y i y i ) ( y i y ) ( y i y ) ( y i y ) a( x i x )

(1)

(1) (2) a( x i x ) ( y i y ) a( x i x )
iN

iN

i 1

i 1

(1) (2) a ( x

iN

x )( y i y ) a ( x i x )2

i 1

iN

(x
or a

x )( yi y )

iN

(x

iN

a ( xi x )2

i 1

i 1

x)

iN

(x

x )( yi y )

i 1

i 1

do

iN

iN

i 1

i 1

(1) (2) a ( x

iN

iN

( yi y )2

i 1

Somme des Carrs Totale

SCT

iN
x )( y i y ) ( x i x )( y i y ) 0

i 1

iN

i
i y
i 1

Somme des Carrs des Rsidus

SCR

y
i 1

Somme des Carrs Explique

SCE

En divisant par les deux membres par N on obtient lquation danalyse


de la variance.

1 iN
1 iN
1 i N
2
2

yi y 2
(
y

y
)

i
i
i
N
N
N
i 1
i 1
i 1

VARIANCE TOTALE

VARIANCE RESIDUELLE

VARIANCE EXPLIQUEE

Coefficient de dtermination
Lquation danalyse de la variance nous permet davoir une ide sur la
qualit dajustement. Afin de mesurer la qualit de cet ajustement, on
2
dfini le coefficient de dtermination, not R , par la part de la variance
explique dans la variance totale :

VARIANCE EXPLIQUEE
VARIANCE TOTALE
SCE
SCR

1
SCT
SCT

R2

Remarque :
on peut retenir le coefficient de dtermination comme tant le carr du
coefficient de corrlation linaire entre x et y.

Cov( x, y )

R 2 (rx, y )2

x
y

Le coefficient de dtermination est aussi gal au produit des pentes des


deux droites de rgression, de y sur x et de x sur y.

R 2 a a'
En effet,
2

Cov( x, y )
Cov( x, y ) Cov( y, x ) Cov( x, y ) Cov( y, x )
R

a a'

V
(
x
)

V
(
y
)
V
(
x
)
V
(
y
)
x
y

Remarque :

rx , y (signe de Cov( x, y )) a a'

Interprtation de la valeur de R2
2

Si R 1 : on dit quil y a dpendance totale ou liaison fonctionnelle


entre les deux variables. Les deux droites de rgression, de y sur x et de
x sur y, sont alors confondues.
2

Si R 0 , on dit quil y a indpendance totale ou liaison nulle entre les


deux variables. Les deux droites de rgression sont alors
perpendiculaires .
2

Si 0 R 1 : on dit quil y a liaison relative entre les deux variables.


2

On dit que la qualit dajustement est bonne si R est proche de 1 . En

revanche, si R est proche de zro, on dit que la qualit de lajustement


est mauvaise.
Exemple :
Cas 1

2
5
9
11

8
12
18
24

Cas 2

x
5
8
10
2
9

y
90
12
1
4
45

Pour les deux cas, on dtermine les deux droites de rgression, en


utilisant les formules de a , a ' , b et b' .
Cas 1 :
1)

yi axi b yi 1,71xi 3,93

2)

xi a' yi b' xi 0,56 y i 2,05

Dans ce cas : a a' 1,71 0,56 0,9576


Cas 2 :
1)

yi axi b yi 1,5 xi 40,66

2)

xi a' yi b' xi 0,011 yi 7,14

Dans ce cas : a a' 1,5 (0,011) 0,0165


Dans le cas 1, le produit a a ' 0,9576 est proche de 1 alors que dans
cas 2, le mme produit a a ' 0,0165 est proche de zro. Lexamen des
donnes (cas 1) montre que x et y varient dans le mme sens et que la
variation de x conditionne celle de y. Par contre, lexamen des donnes
(cas 2) indique que la variation de y est indpendante de celle de x.
Ainsi, on remarque que lorsque les deux variables sont lies entre elles,
le produit a a ' est proche de 1. Ce mme produit sera proche de zro
dans le cas contraire.

Ajustement non linaire


Lajustement linaire suppose que la forme de la fonction reliant y et x
est linaire du type : y ax b . Cependant, dans dautres cas, la

relation entre y et x semble tre plutt non linaire.


Exemple 1
La fonction permettant de reprsenter le nuage de points est une
fonction hyperbolique du type :

b
, b0
xa

Comment peut-on estimer b et a ?


Nous sommes en prsence dune relation non linaire entre y et x . Afin
dutiliser la mthode des MCO, il faut dabord retrouver, moyennant une
transformation, dans ce cas logarithmique, une forme linaire :
On a :

b
bx a log y log bx a log b a log x
a
x

Supposons que : log b


forme :

et a , le modle linaire est alors de la


log y log x

En utilisant la mthode des MCO, on peut retrouver lexpression


de :

et

Cov(log x, log y )
et log y log x
V (log x )

On peut maintenant retrouver la valeur de b et la valeur de a :

log b b e

a a
Exemple 2
La fonction permettant de reprsenter le nuage de points est une
fonction parabolique du type :

y ax 2 b
Comment peut-on estimer b et a ?
Nous sommes en prsence dune relation non linaire entre y et x . Afin
2

dutiliser la mthode des MCO, il suffit de poser z x . On obtient ainsi


une forme linaire entre y et z :

y az b
En utilisant la mthode des MCO, on peut retrouver lexpression a et
de b :

Cov( z, y )
et b y a z
V (z)

Remarque :Le choix entre lajustement linaire et lajustement non


linaire peut tre bas sur la forme gnrale du nuage de points. En
effet, si cette forme est linaire on applique directement la mthode des
MCO. Dans le cas inverse (forme de nuage non linaire), on doit au
pralable passer par une transformation approprie afin dobtenir une
relation linaire quon peut estimer par les MCO.
Exemple illustratif du calcul des coefficients de la rgression de Y
sur X ainsi que la dcomposition de la variance totale.
X : note obtenue en test dintelligence.
Y : note obtenue en statistique.
Pour calculer la valeur de a et b , on effectue les calculs suivants :

xi

yi

xi2

yi2

xi y i

1
2
3
4
5
Total

2
1
7
5
3
18

6
5
15
11
9
46

4
1
49
25
9
88

36
25
225
121
81
488

12
5
105
55
27
204

On a :

1
N

1
1
18 3,6 x 2
5
N

iN

xi
i 1

2
i

1
88 17,6
5

2
i

1
488 97,6
5

iN

x
i 1

V ( x ) x ( x ) 17,6 12,96 4,64

1
y
N

1
1
yi 46 9,2 y 2

5
N
i 1
iN

iN

y
i 1

V ( y ) y ( y ) 97,6 84,64 12,96

1
204 40,8
5
i 1

Cov( x, y ) xy x. y 40,8 (3,6 9,2) 7,68


xy

1
N

iN

x y
i

Cov( x, y ) 7,68

1,65
V ( x)
4,64

b y a.x 9,21,653,63,26

Donc, la droite de rgression est :

yi 1,65 xi 3,26
Signifie que pour celui qui a eu zro en test dintelligence, sa note en
statistique est en moyenne gale 3,26. Un point supplmentaire
obtenu en test dintelligence entrane une augmentation de 1,65 point
de la note en statistique.

Cette droite de rgression nous permet davoir une estimation de la note


en statistique dun individu ayant obtenu 5 en test dintelligence. En
effet, sa note en statistique est estime : 1,65 5 3,26 11,51
rx , y

Cov( x, y )

x y

7,68
0,99
7,75

On dit quil y a parfaite corrlation linaire positive entre les deux notes
obtenues.
2

R (rx , y ) 0,98
Dcomposition de la variance totale

yi 1,65 xi 3,26yi yi

yi

yi y

6,56

-0,56

0,3136

-2,64

6,9696

4,91

0,09

0,0081

-4,29

18,4041

14,81

0,19

0,036

5,61

31,4721

11,51

-0,51

0,2601

2,31

5,3361

8,21

0,79

0,6241

-0,99

0,9801

Total

1,2419

La variance explique est gale :

1 i N
y i y 2 63,162 12,64

N i 1
5

La variance rsiduelle est gale :

1 i N
yi y i 2 1,2419 0,25

N i 1
5

63,162

On peut remarquer que La variance totale est gale la somme de ces

VR
deux variances : VT
VE

12, 96

12,89

Bibliographie
Bavaud, F. (1998) Modles et donnes: Une introduction la Statistique
uni-, bi- et trivarie. L'Harmattan, Paris.
Bernard GRAIS (2000), Techniques statistiques , Tome 1 : Statistique
descriptive, Tome 2 : Mthodes statistiques, Editions Dunod, collection
Economie.
Bernard PY (1990), Exercices corrigs de statistique descriptive , 3me
dition Economica.
Calot, G (1975)., Cours de statistique descriptive , Dunod, Paris,

Droesbeke, J.- J. (1997), lments de Statistique , Ellipses, 3me


dition
Goldfarb, B., Pardoux, C. (2000) Introduction la mthode statistique,
3me dition. Dunod.
J.L. BOURSIN, "Comprendre les statistiques descriptives", A. Colin.
Lvy, M.-L. (1979), Comprendre les statistiques, Points conomie
M. Lethielleux (1998) , Statistique descriptive , Editions Dunod,
collection Express.
Reuchlin, M( 1991). Prcis de statistique , Paris: PUF, Le Psychologue,
(5e d.).
Rouanet , H., Leroux, B. & Bert, M.-C (1987). Statistique en sciences
humaines: procdures naturelles , Paris: Dunod,.
Vincent Giard, Statistique descriptive pour les gestionnaires ,
Editions Economica.
Wonnacott, T.H., Wonnacott, R.J. (1991) Statistique, 4me dition.
Economica.