Vous êtes sur la page 1sur 172

sume

du Cours de Statistique
Re
Descriptive
Yves Tille
15 decembre 2010

Objectif et moyens
Objectifs du cours
Apprendre les principales techniques de statistique descriptive univariee
et bivariee.

Etre
capable de mettre en oeuvre ces techniques de mani`ere appropriee
dans un contexte donne.

Etre
capable dutiliser les commandes de base du Language R. Pouvoir
appliquer les techniques de statistiques descriptives au moyen du language
R.
References
Dodge Y.(2003), Premiers pas en statistique, Springer.
ements de statistique, Editions de lUniversite
Droesbeke J.-J. (1997), El
libre de Bruxelles/Ellipses.

Moyens
2 heures de cours par semaine.
2 heures de TP par semaine, repartis en TP theoriques et applications en
Language R.

Le language R
Shareware : gratuit et installe en 10 minutes.
Open source (on sait ce qui est reellement calcule).
Developpe par la communaute des chercheurs, contient enormement de
fonctionnalites.
Possibilite de programmer.
Desavantage : pas tr`es convivial.
Manuel :
http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf

Table des mati`


eres
1 Variables, donn
ees statistiques, tableaux, eectifs
1.1 Denitions fondamentales . . . . . . . . . . . . . . . .
1.1.1 La science statistique . . . . . . . . . . . . . .
1.1.2 Mesure et variable . . . . . . . . . . . . . . . .
1.1.3 Typologie des variables . . . . . . . . . . . . .
1.1.4 Serie statistique . . . . . . . . . . . . . . . . . .
1.2 Variable qualitative nominale . . . . . . . . . . . . . .
1.2.1 Eectifs, frequences et tableau statistique . . .
1.2.2 Diagramme en secteurs et diagramme en barres
1.3 Variable qualitative ordinale . . . . . . . . . . . . . . .
1.3.1 Le tableau statistique . . . . . . . . . . . . . .
1.3.2 Diagramme en secteurs . . . . . . . . . . . . .
1.3.3 Diagramme en barres des eectifs . . . . . . . .
1.3.4 Diagramme en barres des eectifs cumules . . .
1.4 Variable quantitative discr`ete . . . . . . . . . . . . . .
1.4.1 Le tableau statistique . . . . . . . . . . . . . .
1.4.2 Diagramme en batonnets des eectifs . . . . .
1.4.3 Fonction de repartition . . . . . . . . . . . . .
1.5 Variable quantitative continue . . . . . . . . . . . . . .
1.5.1 Le tableau statistique . . . . . . . . . . . . . .
1.5.2 Histogramme . . . . . . . . . . . . . . . . . . .
1.5.3 La fonction de repartition . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

9
9
9
9
9
10
11
11
12
13
13
15
15
16
17
17
18
19
19
19
21
23

2 Statistique descriptive univari


ee
2.1 Param`etres de position . . . . . .
2.1.1 Le mode . . . . . . . . . .
2.1.2 La moyenne . . . . . . . .
2.1.3 Remarques sur le signe de
2.1.4 Moyenne geometrique . .
2.1.5 Moyenne harmonique . .
2.1.6 Moyenne ponderee . . . .
2.1.7 La mediane . . . . . . . .
2.1.8 Quantiles . . . . . . . . .
2.2 Param`etres de dispersion . . . .

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

27
27
27
27
29
31
31
32
33
35
37

. . . . . . . . .
. . . . . . . . .
. . . . . . .
. .
sommation
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

`
TABLE DES MATIERES

2.2.1 Letendue . . . . . . . . . . . . . . . . . . .
2.2.2 La distance interquartile . . . . . . . . . . .
2.2.3 La variance . . . . . . . . . . . . . . . . . .
2.2.4 Lecart-type . . . . . . . . . . . . . . . . . .
2.2.5 Lecart moyen absolu . . . . . . . . . . . . .
2.2.6 Lecart median absolu . . . . . . . . . . . .
Moments . . . . . . . . . . . . . . . . . . . . . . .
Param`etres de forme . . . . . . . . . . . . . . . . .
2.4.1 Coecient dasymetrie de Fisher (skewness)
2.4.2 Coecient dasymetrie de Yule . . . . . . .
2.4.3 Coecient dasymetrie de Pearson . . . . .
Param`etre daplatissement (kurtosis) . . . . . . . .
Changement dorigine et dunite . . . . . . . . . .
Moyennes et variances dans des groupes . . . . . .
Diagramme en tiges et feuilles . . . . . . . . . . . .
La bote `a moustaches . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

37
37
37
38
40
40
40
41
41
41
41
42
42
44
45
46

3 Statistique descriptive bivari


ee
3.1 Serie statistique bivariee . . . . . . . . . . . . . . .
3.2 Deux variables quantitatives . . . . . . . . . . . . .
3.2.1 Representation graphique de deux variables
3.2.2 Analyse des variables . . . . . . . . . . . . .
3.2.3 Covariance . . . . . . . . . . . . . . . . . .
3.2.4 Correlation . . . . . . . . . . . . . . . . . .
3.2.5 Droite de regression . . . . . . . . . . . . .
3.2.6 Residus et valeurs ajustees . . . . . . . . .
3.2.7 Sommes de carres et variances . . . . . . .
3.2.8 Decomposition de la variance . . . . . . . .
3.3 Deux variables qualitatives . . . . . . . . . . . . .
3.3.1 Donnees observees . . . . . . . . . . . . . .
3.3.2 Tableau de contingence . . . . . . . . . . .
3.3.3 Tableau des frequences . . . . . . . . . . . .
3.3.4 Prols lignes et prols colonnes . . . . . . .
3.3.5 Eectifs theoriques et khi-carre . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

53
53
53
53
55
55
56
57
60
61
62
64
64
64
65
66
67

4 Th
eorie des indices, mesures din
egalit
e
4.1 Nombres indices . . . . . . . . . . . . .
4.2 Denition . . . . . . . . . . . . . . . . .
4.2.1 Proprietes des indices . . . . . .
4.2.2 Indices synthetiques . . . . . . .
4.2.3 Indice de Laspeyres . . . . . . .
4.2.4 Indice de Paasche . . . . . . . . .
4.2.5 Lindice de Fisher . . . . . . . .
4.2.6 Lindice de Sidgwick . . . . . . .
4.2.7 Indices chanes . . . . . . . . . .
4.3 Mesures de linegalite . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

77
77
77
78
78
78
80
80
81
81
82

2.3
2.4

2.5
2.6
2.7
2.8
2.9

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

`
TABLE DES MATIERES
4.3.1
4.3.2
4.3.3
4.3.4
4.3.5
4.3.6
4.3.7

Introduction . . . . . . . . .
Courbe de Lorenz . . . . . .
Indice de Gini . . . . . . . . .
Indice de Hoover . . . . . . .
Quintile et Decile share ratio
Indice de pauvrete . . . . . .
Indices selon les pays . . . . .

7
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

82
82
84
84
84
85
85

5 Calcul des probabilit


es et variables al
eatoires
5.1 Probabilites . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
enement . . . . . . . . . . . . . . . . . . . . . . . . .
5.1.1 Ev
5.1.2 Operations sur les evenements . . . . . . . . . . . . . .
5.1.3 Relations entre les evenements . . . . . . . . . . . . . .
5.1.4 Ensemble des parties dun ensemble et syst`eme complet
5.1.5 Axiomatique des Probabilites . . . . . . . . . . . . . . .
5.1.6 Probabilites conditionnelles et independance . . . . . .
5.1.7 Theor`eme des probabilites totales et theor`eme de Bayes
5.2 Analyse combinatoire . . . . . . . . . . . . . . . . . . . . . . .
5.2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . .
5.2.2 Permutations (sans repetition) . . . . . . . . . . . . . .
5.2.3 Permutations avec repetition . . . . . . . . . . . . . . .
5.2.4 Arrangements (sans repetition) . . . . . . . . . . . . . .
5.2.5 Combinaisons . . . . . . . . . . . . . . . . . . . . . . . .
5.3 Variables aleatoires . . . . . . . . . . . . . . . . . . . . . . . . .
5.3.1 Denition . . . . . . . . . . . . . . . . . . . . . . . . . .
5.4 Variables aleatoires discr`etes . . . . . . . . . . . . . . . . . . . .
5.4.1 Denition, esperance et variance . . . . . . . . . . . . .
5.4.2 Variable indicatrice ou bernoullienne . . . . . . . . . . .
5.4.3 Variable binomiale . . . . . . . . . . . . . . . . . . . . .
5.4.4 Variable de Poisson . . . . . . . . . . . . . . . . . . . .
5.5 Variable aleatoire continue . . . . . . . . . . . . . . . . . . . . .
5.5.1 Denition, esperance et variance . . . . . . . . . . . . .
5.5.2 Variable uniforme . . . . . . . . . . . . . . . . . . . . .
5.5.3 Variable normale . . . . . . . . . . . . . . . . . . . . . .
5.5.4 Variable normale centree reduite . . . . . . . . . . . . .
5.5.5 Distribution exponentielle . . . . . . . . . . . . . . . . .
5.6 Distribution bivariee . . . . . . . . . . . . . . . . . . . . . . . .
5.6.1 Cas continu . . . . . . . . . . . . . . . . . . . . . . . . .
5.6.2 Cas discret . . . . . . . . . . . . . . . . . . . . . . . . .
5.6.3 Remarques . . . . . . . . . . . . . . . . . . . . . . . . .
5.6.4 Independance de deux variables aleatoires . . . . . . . .
5.7 Proprietes des esperances et des variances . . . . . . . . . . . .
5.8 Autres variables aleatoires . . . . . . . . . . . . . . . . . . . . .
5.8.1 Variable khi-carree . . . . . . . . . . . . . . . . . . . . .
5.8.2 Variable de Student . . . . . . . . . . . . . . . . . . . .
5.8.3 Variable de Fisher . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

87
87
87
87
88
89
89
92
93
94
94
94
95
95
95
96
96
97
97
97
98
102
103
103
105
108
108
110
110
111
112
113
113
114
116
116
117
117

`
TABLE DES MATIERES

8
5.8.4

Loi normale bivariee . . . . . . . . . . . . . . . . . . . . . 118

6 S
eries temporelles, ltres, moyennes mobiles et d
esaisonnalisation127
6.1 Denitions generales et exemples . . . . . . . . . . . . . . . . . . 127
6.1.1 Denitions . . . . . . . . . . . . . . . . . . . . . . . . . . 127
6.1.2 Traitement des series temporelles . . . . . . . . . . . . . . 128
6.1.3 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
6.2 Description de la tendance . . . . . . . . . . . . . . . . . . . . . . 133
6.2.1 Les principaux mod`eles . . . . . . . . . . . . . . . . . . . 133
6.2.2 Tendance lineaire . . . . . . . . . . . . . . . . . . . . . . . 134
6.2.3 Tendance quadratique . . . . . . . . . . . . . . . . . . . . 134
6.2.4 Tendance polynomiale dordre q . . . . . . . . . . . . . . 134
6.2.5 Tendance logistique . . . . . . . . . . . . . . . . . . . . . 134
6.3 Operateurs de decalage et de dierence . . . . . . . . . . . . . . . 136
6.3.1 Operateurs de decalage . . . . . . . . . . . . . . . . . . . 136
6.3.2 Operateur dierence . . . . . . . . . . . . . . . . . . . . . 136
6.3.3 Dierence saisonni`ere . . . . . . . . . . . . . . . . . . . . 138
6.4 Filtres lineaires et moyennes mobiles . . . . . . . . . . . . . . . . 140
6.4.1 Filtres lineaires . . . . . . . . . . . . . . . . . . . . . . . . 140
6.4.2 Moyennes mobiles : denition . . . . . . . . . . . . . . . . 140
6.4.3 Moyenne mobile et composante saisonni`ere . . . . . . . . 141
6.5 Moyennes mobiles particuli`eres . . . . . . . . . . . . . . . . . . . 143
6.5.1 Moyenne mobile de Van Hann . . . . . . . . . . . . . . . . 143
6.5.2 Moyenne mobile de Spencer . . . . . . . . . . . . . . . . . 143
6.5.3 Moyenne mobile de Henderson . . . . . . . . . . . . . . . 144
6.5.4 Medianes mobiles . . . . . . . . . . . . . . . . . . . . . . . 145
6.6 Desaisonnalisation . . . . . . . . . . . . . . . . . . . . . . . . . . 145
6.6.1 Methode additive . . . . . . . . . . . . . . . . . . . . . . . 145
6.6.2 Methode multiplicative . . . . . . . . . . . . . . . . . . . 145
6.7 Lissage exponentiel . . . . . . . . . . . . . . . . . . . . . . . . . . 147
6.7.1 Lissage exponentiel simple . . . . . . . . . . . . . . . . . . 147
6.7.2 Lissage exponentiel double . . . . . . . . . . . . . . . . . . 150
7 Tables statistiques

157

Chapitre 1

Variables, donn
ees
statistiques, tableaux,
eectifs
1.1
1.1.1

D
enitions fondamentales
La science statistique

Methode scientique du traitement des donnees quantitatives.


Etymologiquement : science de letat.
La statistique sapplique `a la plupart des disciplines : agronomie, biologie,
demographie, economie, sociologie, linguistique, psychologie, . . .

1.1.2

Mesure et variable

On sinteresse `a des unites statistiques ou unites dobservation : par exemple


des individus, des entreprises, des menages. En sciences humaines, on
sinteresse dans la plupart des cas `a un nombre ni dunites.
Sur ces unites, on mesure un caract`ere ou une variable, le chire daaires
de lentreprise, le revenu du menage, lage de la personne, la categorie socioprofessionnelle dune personne. On suppose que la variable prend toujours une seule valeur sur chaque unite. Les variables sont designees par
simplicite par une lettre (X, Y, Z).
Les valeurs possibles de la variable, sont appelees modalites.
Lensemble des valeurs possibles ou des modalites est appele le domaine
de la variable.

1.1.3

Typologie des variables

Variable qualitative : La variable est dite qualitative quand les modalites


9


10CHAPITRE 1. VARIABLES, DONNEES
STATISTIQUES, TABLEAUX, EFFECTIFS
sont des categories.
Variable qualitative nominale : La variable est dite qualitative nominale
quand les modalites ne peuvent pas etre ordonnees.
Variable qualitative ordinale : La variable est dite qualitative ordinale
quand les modalites peuvent etre ordonnees. Le fait de pouvoir ou non
ordonner les modalites est parfois discutable. Par exemple : dans les
categories socioprofessionnelles, on admet dordonner les modalites :
ouvriers, employes, cadres. Si on ajoute les modalites sans profession, enseignant, artisan, lordre devient beaucoup plus discutable.
Variable quantitative : Une variable est dite quantitative si toute ses valeurs possibles sont numeriques.
Variable quantitative discr`ete : Une variable est dite discr`ete, si lensemble des valeurs possibles est denombrable.
Variable quantitative continue : Une variable est dite continue, si lensemble des valeurs possibles est continu.
Remarque 1.1 Ces denitions sont `a relativiser, lage est theoriquement
une variable quantitative continue, mais en pratique, lage est mesure dans le
meilleur des cas au jour pr`es. Toute mesure est limitee en precision !

Exemple 1.1 Les modalites de la variable sexe sont masculin (code M) et


feminin (code F). Le domaine de la variable est {M, F }.

Exemple 1.2 Les modalites de la variable nombre denfants par famille sont
0,1,2,3,4,5,. . .Cest une variable quantitative discr`ete.

1.1.4

S
erie statistique

On appelle serie statistique la suite des valeurs prises par une variable X sur
les unites dobservation.
Le nombre dunites dobservation est note n.
Les valeurs de la variable X sont notees
x1 , . . . , xi , . . . , xn .
Exemple 1.3 On sinteresse `a la variable etat-civil notee X et `a la serie statistique des valeurs prises par X sur 20 personnes. La codication est
C:
M:
V:
D:

celibataire,
marie(e),
veuf(ve),
divorcee.

1.2. VARIABLE QUALITATIVE NOMINALE

11

Le domaine de la variable X est {C, M, V, D}. Considerons la serie statistique


suivante :
M M D C C M C C C M
C M V M V D C C C M
Ici, n = 20,
x1 = M, x2 = M, x3 = D, x4 = C, x5 = C, . . . ., x20 = M.

1.2

Variable qualitative nominale

1.2.1

Eectifs, fr
equences et tableau statistique

Une variable qualitative nominale a des valeurs distinctes qui ne peuvent


pas etre ordonnees. On note J le nombre de valeurs distinctes ou modalites.
Les valeurs distinctes sont notees x1 , . . . , xj , . . . , xJ . On appelle eectif dune
modalite ou dune valeur distincte, le nombre de fois que cette modalite (ou
valeur distincte) apparat. On note nj leectif de la modalite xj . La frequence
dune modalite est leectif divise par le nombre dunites dobservation.
fj =

nj
, j = 1, . . . , J.
n

Exemple 1.4 Avec la serie de lexemple precedent, on obtient le tableau statistique :


xj
C
M
V
D

nj
9
7
2
2
n = 20

fj
0.45
0.35
0.10
0.10
1


12CHAPITRE 1. VARIABLES, DONNEES
STATISTIQUES, TABLEAUX, EFFECTIFS
En langage R

>X=c(Mari
e(e),Mari
e(e),Divorc
e(e),C
elibataire,C
elibataire,Mari
e(e),C
eli
C
elibataire,C
elibataire,Mari
e(e),C
elibataire,Mari
e(e),Veuf(ve),Mar
Veuf(ve),Divorc
e(e),C
elibataire,C
elibataire,C
elibataire,Mari
e(e))
> T1=table(X)
> V1=c(T1)
> data.frame(Eff=V1,Freq=V1/sum(V1))
Eff Freq
C
elibataire
9 0.45
Divorc
e(e)
2 0.10
Mari
e(e)
7 0.35
Veuf(ve)
2 0.10

1.2.2

Diagramme en secteurs et diagramme en barres

Le tableau statistique dune variable qualitative nominale peut etre represente


par deux types de graphique. Les eectifs sont representes par un diagramme
en barres et les frequences par un diagramme en secteurs (ou camembert ou
piechart en anglais) (voir Figures 1.1 et 1.2).
Clibataire

Divorc(e)
Veuf(ve)

Mari(e)

Figure 1.1 Diagramme en secteurs des frequences

En langage R
> pie(T1,radius=1.0)

13

10

1.3. VARIABLE QUALITATIVE ORDINALE

Clibataire

Divorc(e)

Mari(e)

Veuf(ve)

Figure 1.2 Diagramme en barres des eectifs


En langage R
>m=max(V1)
>barplot(T1, ylim=c(0,m+1))

1.3
1.3.1

Variable qualitative ordinale


Le tableau statistique

Les valeurs distinctes dune variable ordinale peuvent etre ordonnees, ce


quon ecrit
x1 x2 xj1 xj xJ1 xJ .
La notation x1 x2 se lit x1 prec`ede x2 .
Si la variable est ordinale, on peut calculer les eectifs cumules :
Nj =

nk , j = 1, . . . , J.

k=1

On a N1 = n1 et NJ = n. On peut egalement calculer les frequences cumulees

Nj
=
fk , j = 1, . . . , J.
n
j

Fj =

k=1

Exemple 1.5 On interroge 50 personnes sur leur dernier diplome obtenu (variable Y ). La codication a ete faite selon le Tableau 1.1. On a obtenu la serie


14CHAPITRE 1. VARIABLES, DONNEES
STATISTIQUES, TABLEAUX, EFFECTIFS

Table 1.1 Codication de la variable Y


Dernier diplome obtenu
Sans diplome
Primaire
Secondaire
Superieur non-universitaire
Universitaire

xj
Sd
P
Se
Su
U

Table 1.2 Serie statistique de la variable Y


Sd
Se
Su

Sd
Se
Su

Sd
Se
Su

Sd
Se
Su

P
Se
U

P
Se
U

P
Se
U

P
Se
U

P
Se
U

P
Se
U

P
Se
U

P
Se
U

P
Su
U

P
Su
U

P
Su
U

Se
Su
U

Se
Su

Table 1.3 Tableau statistique complet


xj
Sd
P
Se
Su
U

nj
4
11
14
9
12
50

Nj
4
15
29
38
50

fj
0.08
0.22
0.28
0.18
0.24
1.00

Fj
0.08
0.30
0.58
0.76
1.00

statistique presentee dans le tableau 1.2. Finalement, on obtient le tableau statistique complet presente dans le Tableau 1.3.
En langage R
> YY=c("Sd","Sd","Sd","Sd","P","P","P","P","P","P","P","P","P","P","P",
"Se","Se","Se","Se","Se","Se","Se","Se","Se","Se","Se","Se","Se","Se",
"Su","Su","Su","Su","Su","Su","Su","Su","Su",
"U","U","U","U","U","U","U","U","U","U","U","U")
YF=factor(YY,levels=c("Sd","P","Se","Su","U"))
T2=table(YF)
V2=c(T2)
> data.frame(Eff=V2,EffCum=cumsum(V2),Freq=V2/sum(V2),FreqCum=cumsum(V2/sum(V2)))
Eff EffCum Freq FreqCum
Sd
4
4 0.08
0.08

1.3. VARIABLE QUALITATIVE ORDINALE


P
Se
Su
U

11
14
9
12

1.3.2

15
29
38
50

0.22
0.28
0.18
0.24

15

0.30
0.58
0.76
1.00

Diagramme en secteurs

Les frequences dune variable qualitative ordinale sont representees au moyen


dun diagramme en secteurs (voir Figure 1.3).
P

Se
Sd

U
Su

Figure 1.3 Diagramme en secteurs des frequences


En langage R
> pie(T2,radius=1)

1.3.3

Diagramme en barres des eectifs

Les eectifs dune variable qualitative ordinale sont representes au moyen


dun diagramme en barres (voir Figure 1.4).
En langage R
> barplot(T2)

10

12

14

16CHAPITRE 1. VARIABLES, DONNEES


STATISTIQUES, TABLEAUX, EFFECTIFS

Sd

Se

Su

Figure 1.4 Diagramme en barres des eectifs

1.3.4

Diagramme en barres des eectifs cumul


es

10

20

30

40

50

Les eectifs cumules dune variable qualitative ordinale sont representes au


moyen dun diagramme en barres (voir Figure 1.5).

Sd

Se

Su

Figure 1.5 Diagramme en barres des eectifs cumules

`
1.4. VARIABLE QUANTITATIVE DISCRETE

17

En langage R
> T3=cumsum(T2)
> barplot(T3)

1.4
1.4.1

Variable quantitative discr`


ete
Le tableau statistique

Une variable discr`ete a un domaine denombrable.


Exemple 1.6 Un quartier est compose de 50 menages, et la variable Z represente
le nombre de personnes par menage. Les valeurs de la variable sont
1
2
3
4
5

1
2
3
4
5

1
2
3
4
5

1
2
3
4
5

1
3
3
4
5

2
3
3
4
6

2
3
3
4
6

2
3
3
4
6

2
3
3
4
8

2
3
4
5
8

Comme pour les variables qualitatives ordinales, on peut calculer les eectifs,
` nouveau, on peut
les eectifs cumules, les frequences, les frequences cumulees. A
construire le tableau statistique :
xj
1
2
3
4
5
6
8

nj
5
9
15
10
6
3
2
50

Nj
5
14
29
39
45
48
50

fj
0.10
0.18
0.30
0.20
0.12
0.06
0.04
1.0

Fj
0.10
0.28
0.58
0.78
0.90
0.96
1.00

En langage R
>
+
>
>
>

Z=c(1,1,1,1,1,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,4,
4,4,4,4,4,4,4,4,4,5,5,5,5,5,5,6,6,6,8,8)
T4=table(Z)
T4c=c(T4)
data.frame(Eff=T4c,EffCum=cumsum(T4c),Freq=T4c/sum(T4c),FreqCum=cumsum(T4c/sum(T4c)))
Eff EffCum Freq FreqCum


18CHAPITRE 1. VARIABLES, DONNEES
STATISTIQUES, TABLEAUX, EFFECTIFS
1
2
3
4
5
6
8

5
9
15
10
6
3
2

1.4.2

5
14
29
39
45
48
50

0.10
0.18
0.30
0.20
0.12
0.06
0.04

0.10
0.28
0.58
0.78
0.90
0.96
1.00

Diagramme en b
atonnets des eectifs

10

15

Quand la variable est discr`ete, les eectifs sont representes par des batonnets
(voir Figure 1.6).

Figure 1.6 Diagramme en batonnets des eectifs pour une variable quantitative discr`ete

En langage R
> plot(T4,type="h",xlab="",ylab="",main="",frame=0,lwd=3)

1.5. VARIABLE QUANTITATIVE CONTINUE

1.4.3

19

Fonction de r
epartition

0.0

0.2

0.4

0.6

0.8

1.0

Les frequences cumulees sont representees au moyen de la fonction de repartition.


Cette fonction, presentee en Figure 1.7,est denie de R dans [0, 1] et vaut :

x < x1
0
Fj xj x < xj+1
F (x) =

1
xJ x.

Figure 1.7 Fonction de repartition dune variable quantitative discr`ete


En langage R
> plot(ecdf(Z),xlab="",ylab="",main="",frame=0)

1.5
1.5.1

Variable quantitative continue


Le tableau statistique

Une variable quantitative continue peut prendre une innite de valeurs possibles. Le domaine de la variable est alors R ou un intervalle de R. En pratique,
une mesure est limitee en precision. La taille peut etre mesuree en centim`etres,
voire en millim`etres. On peut alors traiter les variables continues comme des
variables discr`etes. Cependant, pour faire des representations graphiques et


20CHAPITRE 1. VARIABLES, DONNEES
STATISTIQUES, TABLEAUX, EFFECTIFS
construire le tableau statistique, il faut proceder `a des regroupements en classes.
+
Le tableau regroupe en classe est souvent appele distribution groupee. Si [c
j ; cj [
designe la classe j, on note, de mani`ere generale :

c
erieure de la classe j,
j la borne inf
+
cj la borne superieure de la classe j,

cj = (c+
j + cj )/2 le centre de la classe j,

aj = c+
j cj lamplitude de la classe j,
nj leectif de la classe j,
Nj leectif cumule de la classe j,
fj la frequence de la classe j,
Fj la frequence cumulee de la classe j.

La repartition en classes des donnees necessite de denir a priori le nombre


de classes J et donc lamplitude de chaque classe. En r`egle generale, on choisit
au moins cinq classes de meme amplitude. Cependant, il existent des formules
qui nous permettent detablir le nombre de classes et lintervalle de classe (lamplitude) pour une serie statistique de n observations.
La r`egle de Sturge : J = 1
+ (3.3 log10 (n)).
La r`egle de Yule : J = 2.5 4 n.
Lintervalle de classe est obtenue ensuite de la mani`ere suivante : longueur
de lintervalle = (xmax xmin )/J, o`
u xmax (resp. xmin ) designe la plus grande
(resp. la plus petite) valeur observee.

Remarque 1.2 Il faut arrondir le nombre de classe J `a lentier le plus proche.


Par commodite, on peut aussi arrondir la valeur obtenue de lintervalle de classe.
A partir de la plus petite valeur observee, on obtient les bornes de classes
en additionnant successivement lintervalle de classe (lamplitude).

Exemple 1.7 On mesure la taille en centimetres de 50 el`eves dune classe :


152
154
156
157
159
161
162
164
168
170

152
154
156
157
159
160
162
164
168
171

152
154
156
157
160
160
163
165
168
171

153
155
156
158
160
161
164
166
169
171

153
155
156
158
160
162
164
167
169
171

1.5. VARIABLE QUANTITATIVE CONTINUE

21

On a les classes de tailles denies preablement comme il suit :


[151, 5; 155, 5[
[155, 5; 159, 5[
[159, 5; 163, 5[
[163, 5; 167, 5[
[167, 5; 171, 5[
On construit le tableau statistique.
+
[c
j , cj ]
[151, 5; 155, 5[
[155, 5; 159, 5[
[159, 5; 163, 5[
[163, 5; 167, 5[
[167, 5; 171, 5[

nj
10
12
11
7
10
50

Nj
10
22
33
40
50

fj
0.20
0.24
0.22
0.14
0.20
1.00

Fj
0.20
0.44
0.66
0.80
1.00

En langage R
> S=c(152,152,152,153,153,154,154,154,155,155,156,156,156,156,156,
+ 157,157,157,158,158,159,159,160,160,160,161,160,160,161,162, +
162,162,163,164,164,164,164,165,166,167,168,168,168,169,169, +
170,171,171,171,171)
> T5=table(cut(S, breaks=c(151,155,159,163,167,171)))
> T5c=c(T5)
> data.frame(Eff=T5c,EffCum=cumsum(T5c),Freq=T5c/sum(T5c),FreqCum=cumsum(T5c/sum(T5c)))
Eff EffCum Freq FreqCum
(151,155] 10
10 0.20
0.20 (155,159] 12
22 0.24 0.44
(159,163] 11
33 0.22
0.66 (163,167]
7
40 0.14 0.80
(167,171] 10
50 0.20
1.00

1.5.2

Histogramme

Lhistogramme consiste `a representer les eectifs (resp. les frequences) des


classes par des rectangles contigus dont la surface (et non la hauteur) represente
leectif (resp. la frequence). Pour un histogramme des eectifs, la hauteur du
rectangle correspondant `a la classe j est donc donnee par :
hj =
On appelle hj la densite deectif.

nj
aj


22CHAPITRE 1. VARIABLES, DONNEES
STATISTIQUES, TABLEAUX, EFFECTIFS
Laire de lhistogramme est egale `a leectif total n, puisque laire de
chaque rectangle est egale `a leectif de la classe j : aj hj = nj .
Pour un histogramme des frequences on a
dj =

fj
aj

0.00

0.02

0.04

0.06

On appelle dj la densite de frequence.


Laire de lhistogramme est egale `a 1, puisque laire de chaque rectangle
est egale `a la frequence de la classe j : aj dj = fj .
Figure 1.8 represente lhistogramme des frequences de lexemple precedent :

151.5

155.5

159.5

163.5

167.5

171.5

Figure 1.8 Histogramme des frequences

En langage R
> hist(S,breaks=c(151.5,155.5,159.5,163.5,167.5,171.5), freq=FALSE,
xlab="",ylab="",main="",xaxt = "n")
> axis(1, c(151.5,155.5,159.5,163.5,167.5,171.5))

Si les deux derni`eres classes sont agregees, comme dans la Figure 1.9, la
surface du dernier rectangle est egale `a la surface des deux derniers rectangles
de lhistogramme de la Figure 1.8.
En langage R
> hist(S,breaks=c(151.5,155.5,159.5,163.5,171.5),
xlab="",ylab="",main="",xaxt = "n")
> axis(1, c(151.5,155.5,159.5,163.5,171.5))

23

0.00

0.02

0.04

0.06

1.5. VARIABLE QUANTITATIVE CONTINUE

151.5

155.5

159.5

163.5

171.5

Figure 1.9 Histogramme des frequences avec les deux derni`eres classes
agregees
Remarque 1.3 Dans le cas de classes de meme amplitude certains auteurs
et logiciels representent lhistogramme avec les eectifs (resp. les frequences)
reportes en ordonnee, laire de chaque rectangle etant proportionnelle `a leectif
(resp. la frequence) de la classe.

1.5.3

La fonction de r
epartition

La fonction de repartition F (x) est une fonction de R dans [0, 1], qui est
denie par

x < c

1
0
fj

Fj1 + c+ c (x cj ) c

x < c+
F (x) =
j
j
j
j

1
c+

x
J


24CHAPITRE 1. VARIABLES, DONNEES
STATISTIQUES, TABLEAUX, EFFECTIFS

0.0 0.2 0.4 0.6 0.8 1.0

Figure 1.10 Fonction de repartition dune distribution groupee

151.5

155.5

159.5

163.5

167.5

171.5

1.5. VARIABLE QUANTITATIVE CONTINUE


En langage R
>
>
>
>

y=c(0,0,cumsum(T5c/sum(T5c)),1)
x=c(148,151.5,155.5,159.5,163.5,167.5,171.5,175)
plot(x,y,type="b",xlab="",ylab="",xaxt = "n")
axis(1, c(151.5,155.5,159.5,163.5,167.5,171.5))

25


26CHAPITRE 1. VARIABLES, DONNEES
STATISTIQUES, TABLEAUX, EFFECTIFS

Chapitre 2

Statistique descriptive
univari
ee
2.1
2.1.1

Param`
etres de position
Le mode

Le mode est la valeur distincte correspondant `a leectif le plus eleve ; il est


note xM .
Si on reprend la variable Etat civil , dont le tableau statistique est le suivant :
xj
nj
fj
C
9
0.45
M
7
0.35
V
2
0.10
D
2
0.10
n = 20
1
le mode est C : celibataire.
Remarque 2.1
Le mode peut etre calcule pour tous les types de variable, quantitative et
qualitative.
Le mode nest pas necessairement unique.
Quand une variable continue est decoupee en classes, on peut denir une
classe modale (classe correspondant `a leectif le plus eleve).

2.1.2

La moyenne

La moyenne ne peut etre denie que sur une variable quantitative.


27

28

CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

La moyenne est la somme des valeurs observees divisee par leur nombre, elle
est notee x
:
x1 + x2 + + xi + + xn
1
xi .
x
=
=
n
n i=1
n

La moyenne peut etre calculee `a partir des valeurs distinctes et des eectifs
1
n j xj .
n j=1
J

x
=

Exemple 2.1 Les nombres denfants de 8 familles sont les suivants 0, 0, 1, 1, 1, 2, 3, 4.


La moyenne est
x
=

0+0+1+1+1+2+3+4
12
=
= 1.5.
8
8

On peut aussi faire les calculs avec les valeurs distinctes et les eectifs. On
consid`ere le tableau :
xj nj
0
2
1
3
2
1
3
1
4
1
8

20+31+12+13+14
8
3+2+3+4
=
8
= 1.5.

x
=

Remarque 2.2 La moyenne nest pas necessairement une valeur possible.


En langage R
E=c(0,0,1,1,1,2,3,4)
n=length(E)
xb=sum(E)/n
xb
xb=mean(E)
xb

`
2.1. PARAMETRES
DE POSITION

2.1.3

29

Remarques sur le signe de sommation

D
enition 2.1

xi = x1 + x2 + + xn .

i=1

1. En statistique les xi sont souvent les valeurs observees.


n
n

2. Lindice est muet :


xi =
xj .
i=1

j=1

3. Quand il ny a pas de confusion possible, on peut ecrire

xi .

Exemple 2.2
1.

xi = x1 + x2 + x3 + x4 .

i=1

2.

xi2 = x32 + x42 + x52 .

i=3

3.

i = 1 + 2 + 3 = 6.

i=1

4. On peut utiliser plusieurs sommations embotees, mais il faut bien distinguer les indices :
3
2

xij

= x11 + x12

(i = 1)

+ x21 + x22
+ x31 + x32

(i = 2)
(i = 3)

i=1 j=1

5. On peut exclure une valeur de lindice.


5

xi = x1 + x2 + x4 + x5 .

i=1
i=3

Propri
et
e 2.1
1. Somme dune constante
n

i=1

a = a + a + + a = na
{z
}
|
n fois

(a constante).


CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

30
Exemple

3 = 3 + 3 + 3 + 3 + 3 = 5 3 = 15.

i=1

2. Mise en evidence
n

axi = a

i=1

xi

(a constante).

i=1

Exemple
3

2 i = 2(1 + 2 + 3) = 2 6 = 12.

i=1

3. Somme des n premiers entiers


n

i = 1 + 2 + 3 + + n =

i=1

n(n + 1)
.
2

4. Distribution
n

(xi + yi ) =

i=1

xi +

i=1

yi .

i=1

5. Distribution
n

(xi yi ) =

i=1

xi

i=1

yi .

i=1

1
xi )
n i=1
n

Exemple (avec x
=
n

(xi x
) =

i=1

i=1

xi

1
xi n
x = n
x n
x = 0.
n i=1
n

x
=n

i=1

6. Somme de carres
n

i=1

(xi yi )2 =

(x2i 2xi yi + yi2 ) =

i=1

x2i 2

i=1

Cest une application de la formule


(a b)2 = a2 2ab + b2 .

i=1

xi y i +

i=1

yi2 .

`
2.1. PARAMETRES
DE POSITION

2.1.4

31

Moyenne g
eom
etrique

Si xi 0, on appelle moyenne geometrique la quantite


( n )1/n

1/n
xi
= (x1 x2 xn )
.
G=
i=1

On peut ecrire la moyenne geometrique comme lexponentielle de la moyenne


arithmetique des logarithmes des valeurs observees
( n )1/n
n
n

1
1
G = exp log G = exp log
xi = exp
xi
= exp log
log xi .
n
n i=1
i=1
i=1
La moyenne geometrique sutilise, par exemple, quand on veut calculer la moyenne
de taux dinteret.
Exemple 2.3 Supposons que les taux dinteret pour 4 annees consecutives
soient respectivement de 5, 10, 15, et 10%. Que va-t-on obtenir apr`es 4 ans si je
place 100 francs ?
Apr`es 1 an on a, 100 1.05 = 105 Fr.
Apr`es 2 ans on a, 100 1.05 1.1 = 115.5 Fr.
Apr`es 3 ans on a, 100 1.05 1.1 1.15 = 132.825 Fr.
Apr`es 4 ans on a, 100 1.05 1.1 1.15 1.1 = 146.1075 Fr.
Si on calcule la moyenne arithmetique des taux on obtient
1.05 + 1.10 + 1.15 + 1.10
= 1.10.
4
Si on calcule la moyenne geometrique des taux, on obtient
x
=

G = (1.05 1.10 1.15 1.10)

1/4

= 1.099431377.

Le bon taux moyen est bien G et non x


, car si on applique 4 fois le taux moyen
G aux 100 francs, on obtient
100 Fr G4 = 100 1.0994313774 = 146.1075 Fr.

2.1.5

Moyenne harmonique

Si xi 0, on appelle moyenne harmonique la quantite


n
H = n
.
i=1 1/xi
Il est judicieux dappliquer la moyenne harmonique sur des vitesses.
Exemple 2.4 Un cycliste parcourt 4 etapes de 100km. Les vitesses respectives
pour ces etapes sont de 10 km/h, 30 km/h, 40 km/h, 20 km/h. Quelle a ete sa
vitesse moyenne ?


CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

32

Un raisonnement simple nous dit quil a parcouru la premi`ere etape en


10h, la deuxi`eme en 3h20 la troisi`eme en 2h30 et la quatri`eme en 5h. Il a
donc parcouru le total des 400km en
10 + 3h20 + 2h30 + 5h = 20h50 = 20.8333h,
sa vitesse moyenne est donc
400
= 19.2 km/h.
20.8333

Moy =

Si on calcule la moyenne arithmetique des vitesses, on obtient


x
=

10 + 30 + 40 + 20
= 25 km/h.
4

Si on calcule la moyenne harmonique des vitesses, on obtient


H=

1
10

1
30

4
+

1
40

1
20

= 19.2 km/h.

La moyenne harmonique est donc la mani`ere appropriee de calculer la


vitesse moyenne.

Remarque 2.3 Il est possible de montrer que la moyenne harmonique est toujours inferieure ou egale `a la moyenne geometrique qui est toujours inferieure
ou egale `a la moyenne arithmetique
HGx
.

2.1.6

Moyenne pond
er
ee

Dans certains cas, on naccorde pas le meme poids `a toutes les observations.
Par exemple, si on calcule la moyenne des notes pour un programme detude, on
peut ponderer les notes de letudiant par le nombre de credits ou par le nombre
dheures de chaque cours. Si wi > 0, i = 1, . . . , n sont les poids associes `a chaque
observation, alors la moyenne ponderee par wi est denie par :
n
w i xi
x
w = i=1
.
n
i=1 wi
Exemple 2.5 Supposons que les notes soient ponderees par le nombre de
credits, et que les notes de letudiant soient les suivantes :

`
2.1. PARAMETRES
DE POSITION
Note
Credits

33

5
6

4
3

3
4

6
3

5
4

La moyenne ponderee des notes par les credits est alors


x
w =

65+34+43+36+45
30 + 12 + 12 + 18 + 20
92
=
=
= 4.6.
6+3+4+3+4
20
20

2.1.7

La m
ediane

La mediane, notee x1/2 , est une valeur centrale de la serie statistique obtenue
de la mani`ere suivante :
On trie la serie statistique par ordre croissant des valeurs observees. Avec
la serie observee :
3 2 1 0 0 1 2,
on obtient :
0 0

1 1

2 2

3.

La mediane x1/2 est la valeur qui se trouve au milieu de la serie ordonnee :


0 0

1 1

2 2

3.

On note alors x1/2 = 1.


Nous allons examiner une mani`ere simple de calculer la mediane. Deux cas
doivent etre distingues.
Si n est impair, il ny a pas de probl`eme (ici avec n = 7), alors x1/2 = 1 :
0

3.

La Figure 2.1 montre la fonction de repartition de la serie. La mediane


peut etre denie comme linverse de la fonction de repartition pour la
valeur 1/2 :
x1/2 = F 1 (0.5).
En langage R
x=c(0 , 0 , 1 , 1 , 2 , 2 , 3)
median(x)
plot(ecdf(x),xlab="",ylab="",main="",frame=FALSE,yaxt = "n")
axis(2, c(0.0,0.25,0.50,0.75,1.00))
arrows(-1,0.5,1,0.50,length=0.14,col="blue")
arrows(1,0.50,1,0,length=0.14,col="blue")


CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

34

0.00

0.50

1.00

Figure 2.1 Mediane quand n est impair

Si n est pair, deux valeurs se trouvent au milieu de la serie (ici avec n = 8)


0

0 1

1 2

La mediane est alors la moyenne de ces deux valeurs :


x1/2 =

1+2
= 1.5.
2

La Figure 2.2 montre la fonction de repartition de la serie de taille paire.


La mediane peut toujours etre denie comme linverse de la fonction de
repartition pour la valeur 1/2 :
x1/2 = F 1 (0.5).
Cependant, la fonction de repartition est discontinue par palier. Linverse
de la repartition correspond exactement `a un palier.

0.00

0.50

1.00

Figure 2.2 Mediane quand n est pair

En langage R

`
2.1. PARAMETRES
DE POSITION

35

x=c(0 , 0 , 1 , 1 , 2 , 2 , 3 , 4)
median(x)
plot(ecdf(x),xlab="",ylab="",main="",frame=FALSE,yaxt = "n")
axis(2, c(0.0,0.25,0.50,0.75,1.00))
arrows(-1,0.5,1,0.50,length=0.14,col="blue")
arrows(1.5,0.50,1.5,0,,length=0.14,col="blue")
En general on note
x(1) , . . . , x(i) , . . . , x(n)
la serie ordonnee par ordre croissant. On appelle cette serie ordonnee la statistique dordre. Cette notation, tr`es usuelle en statistique, permet de denir la
mediane de mani`ere tr`es synthetique.
Si n est impair
x1/2 = x( n+1 )
2

Si n est pair
x1/2 =

}
1{
x( n ) + x( n +1) .
2
2
2

Remarque 2.4 La mediane peut etre calculee sur des variables quantitatives
et sur des variables qualitatives ordinales.

2.1.8

Quantiles

La notion de quantile dordre p (o`


u 0 < p < 1) generalise la mediane.
Formellement un quantile est donne par linverse de la fonction de repartition :
xp = F 1 (p).
Si la fonction de repartition etait continue et strictement croissante, la denition
du quantile serait sans equivoque. La fonction de repartition est cependant discontinue et par palier. Quand la fonction de repartition est par palier, il existe
au moins 9 mani`eres dierentes de denir les quantiles selon que lon fasse ou
non une interpolation de la fonction de repartition. Nous presentons une de ces
methodes, mais il ne faut pas setonner de voir les valeurs des quantiles dierer
leg`erement dun logiciel statistique `a lautre.
Si np est un nombre entier, alors
xp =

}
1{
x(np) + x(np+1) .
2

Si np nest pas un nombre entier, alors


xp = x(np) ,
o`
u np represente le plus petit nombre entier superieur ou egal `a np.


CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

36

Remarque 2.5
La mediane est le quantile dordre p = 1/2.
On utilise souvent
x1/4
le premier quartile,
x3/4
le troisi`eme quartile,
x1/10 le premier decile ,
x1/5
le premier quintile,
x4/5
le quatri`eme quintile,
x9/10 le neuvi`eme decile,
x0.05 le cinqui`eme percentile ,
x0.95 le nonante-cinqui`eme percentile.
Si F (x) est la fonction de repartition, alors F (xp ) p.

Exemple 2.6 Soit la serie statistique 12, 13, 15, 16, 18, 19, 22, 24, 25, 27, 28,
34 contenant 12 observations (n = 12).
Le premier quartile : Comme np = 0.25 12 = 3 est un nombre entier, on
a
x(3) + x(4)
15 + 16
x1/4 =
=
= 15.5.
2
2
La mediane : Comme np = 0.5 12 = 6 est un nombre entier, on a
x1/2 =

}
1{
x(6) + x(7) = (19 + 22)/2 = 20.5.
2

Le troisi`eme quartile : Comme np = 0.75 12 = 9 est un nombre entier,


on a
x(9) + x(10)
25 + 27
x3/4 =
=
= 26.
2
2

En langage R
x=c(12,13,15,16,18,19,22,24,25,27,28,34)
quantile(x,type=2)

Exemple 2.7 Soit la serie statistique 12, 13, 15, 16, 18, 19, 22, 24, 25, 27
contenant 10 observations (n = 10).
Le premier quartile : Comme np = 0.25 10 = 2.5 nest pas un nombre
entier, on a
x1/4 = x(2.5) = x(3) = 15.

`
2.2. PARAMETRES
DE DISPERSION

37

La mediane : Comme np = 0.5 10 = 5 est un nombre entier, on a


x1/2 =

}
1{
x(5) + x(6) = (18 + 19)/2 = 18.5.
2

Le troisi`eme quartile : Comme np = 0.75 10 = 7.5 nest pas un nombre


entier, on a
x3/4 = x(7.5) = x(8) = 24.

En langage R
x=c(12,13,15,16,18,19,22,24,25,27)
quantile(x,type=2)

2.2
2.2.1

Param`
etres de dispersion
L
etendue

Letendue est simplement la dierence entre la plus grande et la plus petite


valeur observee.
E = x(n) x(1) .

2.2.2

La distance interquartile

La distance interquartile est la dierence entre le troisi`eme et le premier


quartile :
IQ = x3/4 x1/4 .

2.2.3

La variance

La variance est la somme des carres des ecarts `a la moyenne divisee par le
nombre dobservations :
n
1
s2x =
(xi x
)2 .
n i=1
Th
eor`
eme 2.1 La variance peut aussi secrire
1 2
x x
2 .
n i=1 i
n

s2x =

(2.1)


CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

38

D
emonstration
=

1 2
1
(xi x
)2 =
(x 2xi x
+x
2 )
n i=1
n i=1 i

1
1 2
1 2
1
1 2
xi 2
xi x
+
x
=
xi 2
x
xi + x
2
n i=1
n i=1
n i=1
n i=1
n i=1

1 2
1 2
xi 2
xx
+x
2 =
x x
2 .
n i=1
n i=1 i

s2x

2
La variance peut egalement etre denie `a partir des eectifs et des valeurs
distinctes :
J
1
s2x =
nj (xj x
)2 .
n j=1
La variance peut aussi secrire
1
nj x2j x
2 .
n j=1
J

s2x =

Quand on veut estimer une variance dune variable X `a partir dun echantillon
(une partie de la population selectionnee au hasard) de taille n, on utilise la variance corrigee divisee par n 1.
1
n
(xi x
)2 = s2x
.
n 1 i=1
n1
n

Sx2 =

La plupart des logiciels statistiques calculent Sx2 et non s2x .

2.2.4

L
ecart-type

Lecart-type est la racine carree de la variance :

sx = s2x .
Quand on veut estimer lecart-type dune variable X partir dun echantillon
de taille n, utilise la variance corrigee pour denir lecart type

n
2
Sx = Sx = sx
.
n1
La plupart des logiciels statistiques calculent Sx et non sx .
Exemple 2.8 Soit la serie statistique 2, 3, 4, 4, 5, 6, 7, 9 de taille 8. On a
x
=

2+3+4+4+5+6+7+9
= 5,
8

`
2.2. PARAMETRES
DE DISPERSION

39

1
(xi x
)2
n i=1
n

s2x

]
1[
(2 5)2 + (3 5)2 + (4 5)2 + (4 5)2 + (5 5)2 + (6 5)2 + (7 5)2 + (9 5)2
8
1
=
[9 + 4 + 1 + 1 + 0 + 1 + 4 + 16]
8
36
=
8
= 4.5.

On peut egalement utiliser la formule (2.1) de la variance, ce qui necessite moins


de calcul (surtout quand la moyenne nest pas un nombre entier).
1 2
2
x x
n i=1 i
n

s2x

1 2
(2 + 32 + 42 + 42 + 52 + 62 + 72 + 92 ) 52
8
1
=
(4 + 9 + 16 + 16 + 25 + 36 + 49 + 81) 25
8
236
=
25
8
= 29.5 25 = 4.5.
=

En langage R
> x=c(2,3,4,4,5,6,7,9)
> n=length(x)
> s2=sum((x-mean(x))^2)/n
> s2
[1] 4.5
> S2=s2*n/(n-1)
> S2
[1] 5.142857
> S2=var(x)
> S2
[1] 5.142857
> s=sqrt(s2)
> s
[1] 2.121320
> S=sqrt(S2)
> S
[1] 2.267787
> S=sd(x)

40

CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

> S
[1] 2.267787
> E=max(x)-min(x)
> E
[1] 7

2.2.5

L
ecart moyen absolu

Lecart moyen absolu est la somme des valeurs absolues des ecarts `a la
moyenne divisee par le nombre dobservations :
1
=
|xi x
| .
n i=1
n

emoy

2.2.6

L
ecart m
edian absolu

Lecart median absolu est la somme des valeurs absolues des ecarts `a la
mediane divisee par le nombre dobservations :

1
xi x1/2 .
n i=1
n

emed =

2.3

Moments

D
enition 2.2 On appelle moment `
a lorigine dordre r N le param`etre
1 r
x .
n i=1 i
n

mr =

D
enition 2.3 On appelle moment centre dordre r N le param`etre
1
(xi x
)r .
n i=1
n

mr =

Les moments generalisent la plupart des param`etres. On a en particulier


m1 = x
,
m1 = 0,
1 2
m2 =
x = s2x + x
2 ,
n i i
m2 = s2x .
Nous verrons plus loin que des moments dordres superieurs (r=3,4) sont utilises
pour mesurer la symetrie et laplatissement.

`
2.4. PARAMETRES
DE FORME

2.4
2.4.1

41

Param`
etres de forme
Coecient dasym
etrie de Fisher (skewness)

Le moment centre dordre trois est deni par


1
(xi x
)3 .
n i=1
n

m3 =

Il peut prendre des valeurs positives, negatives ou nulles. Lasymetrie se mesure


au moyen du coecient dasymetrie de Fisher
g1 =

m3
,
s3x

o`
u s3x est le cube de lecart-type.

2.4.2

Coecient dasym
etrie de Yule

Le coecient dasymetrie de Yule est base sur les positions des 3 quartiles
(1er quartile, mediane et troisi`eme quartile), et est normalise par la distance
interquartile :
x3/4 + x1/4 2x1/2
AY =
.
x3/4 x1/4

2.4.3

Coecient dasym
etrie de Pearson

Le coecient dasymetrie de Pearson est base sur une comparaison de la


moyenne et du mode, et est standardise par lecart-type :
AP =

x
xM
.
sx

Tous les coecients dasymetrie ont les memes proprietes, ils sont nuls si la
distribution est symetrique, negatifs si la distribution est allongee `a gauche (left
asymmetry), et positifs si la distribution est allongee `a droite (right asymmetry)
comme montre dans la Figure 2.3.

Figure 2.3 Asymetrie dune distribution


CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

42

Remarque 2.6 Certaines variables sont toujours tr`es asymetriques `a droite,


comme les revenus, les tailles des entreprises, ou des communes. Une methode
simple pour rendre une variable symetrique consiste alors `a prendre le logarithme de cette variable.

2.5

Param`
etre daplatissement (kurtosis)

Laplatissement est mesure par le coecient daplatissement de Pearson


2 =

m4
,
s4x

ou le coecient daplatissement de Fisher


g2 = 2 3 =

m4
3,
s4x

o`
u m4 est le moment centre dordre 4, et s4x est le carre de la variance.
Une courbe mesokurtique si g2 0.
Une courbe leptokurtique si g2 > 0. Elle est plus pointue et poss`ede des
queues plus longues.
Une courbe platykurtique si g2 < 0. Elle est plus arrondie et poss`ede des
queues plus courtes.
Dans la Figure 2.4, on presente un exemple de deux distributions de meme
moyenne et de meme variance. La distribution plus pointue est leptokurtique,
lautre est mesokurtique. La distribution leptokurtique a une queue plus epaisse.
0.0175

0.6

0.015
0.5
0.0125
0.4

0.01

0.3

-4

-2

0.0075

0.2

0.005

0.1

0.0025
2

2.6 2.8

3.2 3.4 3.6 3.8

Figure 2.4 Distributions mesokurtique et leptokurtique

2.6

Changement dorigine et dunit


e

D
enition 2.4 On appelle changement dorigine loperation consistant `
a ajouter (ou soustraire) la meme quantite a R `
a toutes les observations
yi = a + xi , i = 1, . . . , n


2.6. CHANGEMENT DORIGINE ET DUNITE

43

D
enition 2.5 On appelle changement dunite loperation consistant `
a multiplier (ou diviser) par la meme quantite b R toutes les observations
yi = bxi , i = 1, . . . , n.
D
enition 2.6 On appelle changement dorigine et dunite loperation consistant `
a multiplier toutes les observations par la meme quantite b R puis `
a
ajouter la meme quantite a R `
a toutes les observations :
yi = a + bxi , i = 1, . . . , n.
Th
eor`
eme 2.2 Si on eectue un changement dorigine et dunite sur une variable X, alors sa moyenne est aectee du meme changement dorigine et dunite.
D
emonstration Si yi = a + bxi , alors
1
1
(a + bxi ) = a + b
xi = a + b
x.
n i=1
n i=1
n

y =

2
Th
eor`
eme 2.3 Si on eectue un changement dorigine et dunite sur une variable X, alors sa variance est aectee par le carre du changement dunite et
pas par le changement dorigine.
D
emonstration Si yi = a + bxi , alors
1
1
1
2
2
(yi y)2 =
(a + bxi a b
x) = b 2
(xi x
) = b2 s2x .
n i=1
n i=1
n i=1
n

s2y =

2
Remarque 2.7
1. Les param`etres de position sont tous aectes par un changement dorigine
et dunite.
2. Les param`etres de dispersion sont tous aectes par un changement dunite
mais pas par un changement dorigine.
3. Les param`etres de forme et daplatissement ne sont aectes ni par un
changement dunite ni par un changement dorigine.


CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

44

2.7

Moyennes et variances dans des groupes

Supposons que les n observations soient reparties dans deux groupes GA et


GB . Les nA premi`eres observations sont dans le groupe GA et les nB derni`eres
observations sont dans le groupe GB , avec la relation
nA + nB = n.
On suppose que la serie statistique contient dabord les unites de GA puis les
unites de GB :
x1 , x2 , . . . , xnA 1 , xnA , xnA +1 , xnA +2 , . . . , xn1 , xn .
|
{z
} |
{z
}
observations de GA
observations de GB
On denit les moyennes des deux groupes :
nA
1
la moyenne du premier groupe x
A =
xi ,
nA i=1
n
1
xi .
la moyenne du deuxi`eme groupe x
B =
nB i=n +1
A
La moyenne generale est une moyenne ponderee par la taille des groupes des
moyennes des deux groupes. En eet
(n
)
n
A

1
1
x
=
xi +
xi = (nA x
A + nB x
B ) .
n i=1
n
i=n +1
A

On peut egalement denir les variances des deux groupes :


nA
1
la variance du premier groupe s2A =
(xi x
A )2 ,
nA i=1
n
1
la variance du deuxi`eme groupe s2B =
(xi x
B )2 .
nB i=n +1
A

Th
eor`
eme 2.4 (de Huygens) La variance totale, denie par
1
(xi x
)2 ,
n i=1
n

s2x =

se decompose de la mani`ere suivante :


nA s2A + nB s2B
n
{z
}
|

s2x =

variance intra-groupes

nA (
xA x
)2 + nB (
xB x
)2
.
n
{z
}
|
variance inter-groupes

D
emonstration
s2x

[n
]
n
n
A

1
1
2
2
2
=
(xi x
) =
(xi x
) +
(xi x
)
n i=1
n i=1
i=n +1
A

(2.2)

2.8. DIAGRAMME EN TIGES ET FEUILLES

45

On note que
nA

(xi x
)2

i=1

nA

(xi x
A + x
A x
)2

i=1

nA

(xi x
A )2 +

i=1

nA

(
xA x
)2 + 2

i=1

nA

(xi x
A )(
xA x
)

i=1

{z

=0

= nA s2A + nA (
xA x
)2 .
On a evidemment la meme relation dans le groupe GB :
n

(xi x
)2 = nB s2B + nB (
xB x
)2 .

i=nA +1

En revenant `a lexpression (2.2), on obtient


[n
]
n
A

1
2
2
2
sx =
(xi x
) +
(xi x
)
n i=1
i=n +1
A

=
=

]
1[
nA s2A + nA (
xA x
)2 + nB s2B + nB (
xB x
)2
n
nA (
xA x
)2 + nB (
xB x
)2
nA s2A + nB s2B
+
.
n
n
2

2.8

Diagramme en tiges et feuilles

Le diagramme en tiges et feuilles ou Stem and leaf diagram est une mani`ere
rapide de presenter une variable quantitative. Par exemple, si lon a la serie
statistique ordonnee suivante :
15, 15, 16, 17, 18, 20, 21, 22, 23, 23, 23, 24, 25, 25, 26,
26, 27, 28, 28, 29, 30, 30, 32, 34, 35, 36, 39, 40, 43, 44,
la tige du diagramme sera les dizaines et les feuilles seront les unites. On obtient
le graphique suivant.
The decimal point is 1 digit(s) to the right of the |
1
2
3
4

|
|
|
|

55678
012333455667889
0024569
034


CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

46

Ce diagramme permet davoir une vue synthetique de la distribution. Evidemment,


les tiges peuvent etre denies par les centaines, ou des millers, selon lordre de
grandeur de la variable etudiee.
En langage R
#
# Diagramme en tige et feuilles
#
X=c(15,15,16,17,18,20,21,22,23,23,23,24,25,25,26,26,
27,28,28,29,30,30,32,34,35,36,39,40,43,44)
stem(X,0.5)

2.9

La bote `
a moustaches

La bote `a moustaches, ou diagramme en bote, ou encore boxplot en anglais, est un diagramme simple qui permet de representer la distribution dune
variable. Ce diagramme est compose de :
Un rectangle qui setend du premier au troisi`eme quartile. Le rectangle
est divise par une ligne correspondant `a la mediane.
Ce rectangle est complete par deux segments de droites.
Pour les dessiner, on calcule dabord les bornes
b = x1/4 1.5IQ et b+ = x3/4 + 1.5IQ,
o`
u IQ est la distance interquartile.
On identie ensuite la plus petite et la plus grande observation comprise
entre ces bornes. Ces observations sont appelees valeurs adjacentes.
On trace les segments de droites reliant ces observations au rectangle.
Les valeurs qui ne sont pas comprises entre les valeurs adjacentes, sont
representees par des points et sont appelees valeurs extremes.
Exemple 2.9 On utilise une base de donnees de communes suisses de 2003
fournie par lOce federal de la statistique (OFS) contenant un ensemble de
variables concernant la population et lamenagement du territoire. Lobjectif
est davoir un apercu des supercies des communes du canton de Neuchatel. On
sinteresse donc `a la variable HApoly donnant la supercie en hectares des 62
communes neuch
ateloises. La bote `a moustaches est presentee en Figure 2.5.
Lexamen du graphique indique directement une dissymetrie de la distribution,
au sens o`
u il y a beaucoup de petites communes et peu de grandes communes. Le
graphique montre aussi que deux communes peuvent etre considerees communes
des points extremes, car elles ont plus de 3000 hectares. Il sagit de la Brevine
(4182ha) et de la Chaux-de-Fonds (5566ha).
En langage R

` MOUSTACHES
2.9. LA BOITE A

1000

2000

47

3000

4000

5000

Figure 2.5 Botes `a moustaches pour la variable supercie en hectares (HApoly) des communes du canton de Neuchatel
#
Etape 1: installation du package sampling
#
dans lequel se trouve la base de donn
ees des communes belges
#
choisir "sampling" dans la liste
utils:::menuInstallPkgs()
# Etape 2: charge le package sampling
#
choisir "sampling" dans la liste
local({pkg <- select.list(sort(.packages(all.available = TRUE)))
+ if(nchar(pkg)) library(pkg, character.only=TRUE)})
# Utilisation des donn
ees
data(swissmunicipalities)
attach(swissmunicipalities)
# boxplot de la s
election des communes neuch^
ateloises
# le num
ero du canton est 24
boxplot(HApoly[CT==24],horizontal=TRUE)
% selection des communes neuch^
ateloises de plus de 3000 HA
data.frame(Nom=Nom[HApoly>3000 & CT==24],Superficie=HApoly[HApoly>3000 & CT==24])

Exemple 2.10 On utilise une base de donnees belges fournie par lInstitut
National (belge) de Statistique contenant des informations sur la population
et les revenus des personnes physiques dans les communes. On sinteresse `a la
variable revenu moyen en euros par habitant en 2004 pour chaque commune
(variable averageincome) et lon aimerait comparer les 9 provinces belges : Anvers, Brabant, Flandre occidentale, Flandre orientale, Hainaut, Li`ege, Limboug,
Luxembourg, Namur. La Figure 2.6 contient les botes `a moustaches de chaque
province. Les communes ont ete triees selon les provinces belges. De ce graphique, on peut directement voir que la province du Brabant contient `a la fois
la commune la plus riche (Lasne) et la plus pauvre (Saint-Josse-ten-Noode). On
voit egalement une dispersion plus importante dans la province du Brabant.
En langage R

48

CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

40000
35000
30000
25000
20000

Anv.

Brab.

Fl.occ.

Fl.or.

Hainaut

Lige

Limb.

Lux.

Namur

Figure 2.6 Botes `a moustaches du revenu moyen des habitants des communes selon les provinces belges

# Utilisation des donn


ees
data(belgianmunicipalities)
attach(belgianmunicipalities)
# Construction dune liste avec les noms des provinces
b=list(
"Anv."=averageincome[Province==1],
"Brab."=averageincome[Province==2],
"Fl.occ."=averageincome[Province==3],
"Fl.or."=averageincome[Province==4],
"Hainaut"=averageincome[Province==5],
"Li`
ege"=averageincome[Province==6],
"Limb."=averageincome[Province==7],
"Lux."=averageincome[Province==8],
"Namur"=averageincome[Province==9]
)
boxplot(b)

` MOUSTACHES
2.9. LA BOITE A

49

Exercices
Exercice 2.1 On p`ese les 50 el`eves dune classe et nous obtenons les resultats
resumes dans le tableau suivant :
43
48
49
52
54
59
63
67
72
81

43
48
50
53
56
59
63
68
72
83

43
48
50
53
56
59
65
70
73
86

47
49
51
53
56
62
65
70
77
92

48
49
51
54
57
62
67
70
77
93

1. De quel type est la variable poids ?


2. Construisez le tableau statistique en adoptant les classes suivantes :
[40 ;45] ]45 ;50] ]50 ;55] ]55 ;60] ]60 ;65] ]65 ;70] ]70 ;80] ]80 ;100]
3. Construisez lhistogramme des eectifs ainsi que la fonction de repartition.
Solution
1. La variable poids est de type quantitative continue.
2.
+
[c
nj Nj
fj
Fj
j , cj ]
[40; 45]
3
3 0.06 0.06
]45; 50]
10 13 0.20 0.26
]50; 55]
8 21 0.16 0.42
]55; 60]
7 28 0.14 0.56
]60; 65]
6 34 0.12 0.68
]65; 70]
6 40 0.12 0.80
]70; 80]
5 45 0.10 0.90
]80; 100]
5 50 0.10 1.00
50
1
3.

Exercice 2.2 Calculez tous les param`etres (de position, de dispersion et de


forme) `a partir du tableau de lexemple 1.7 sans prendre en compte les classes.
Solution


CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

50

Mediane : Comme n est pair,


x1/2 =

1
1
(x25 + x26 ) = (160 + 160) = 160.
2
2

quantiles
Premier quartile :
x1/4 = x13 = 156
Deuxi`eme quartile :
x3/4 = x38 = 165

Etendue
:
E = 171 152 = 19.
Distance interquartile :
IQ = x3/4 x1/4 = 165 156 = 9
Variance :

1
1
(xi x
)2 =
1668 = 33, 36.
n i=1
50
n

s2x =

Ecart
type :

sx =

s2x = 5, 7758.

Ecart
moyen absolu :
1
1
|xi x
| =
245, 2 = 4, 904.
n i=1
50
n

emoy =

Ecart
median absolu :

1
1
|xi x1/2 | =
242 = 4, 84.
=
n i=1
50
n

emed

Moment centre dordre trois :


1
1
(xi x
)3 =
2743, 2 = 54, 864.
n i=1
50
n

m3 =

Exercice 2.3
1. Montrez que
s2x =

n
n
1
(xi xj )2 .
2n2 i=1 j=1

` MOUSTACHES
2.9. LA BOITE A

51

2. Montrez que

sx Et

n1
.
2n

3. Montrez que, si xi > 0,

1
|xi x
| 2
x.
n i=1
n

Solution

1.

n
n
1
(xi xj )2
2n2 i=1 j=1

n
n
1 2
(x + x2j 2xi xj )
2n2 i=1 j=1 i

n
n
n
n
n
n
1 2
1 2
1
x
+
x

2xi xj
2n2 i=1 j=1 i
2n2 i=1 j=1 j 2n2 i=1 j=1

1 2
1 2 1 1
xi +
x
xi
xj
2n i=1
2n j=1 j n i=1 n j=1

1 2 1
x
xi x

n i=1 i
n i=1

1 2
x x
2
n i=1 i

= s2x .


CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIEE

52
2.

s2x

n
n
1
(xi xj )2
2n2 i=1 j=1

n
n
1
(xi xj )2
2n2 i=1
n

j=1,j=i
n

1
2n2

n
n
1
Et2
2n2 i=1

(x(1) x(n) )2

i=1 j=1,j=i

j=1,j=i

=
=

1
n(n 1)Et2
2n2
n1 2
E .
2n t

Donc,

sx E

n1
.
2n

Chapitre 3

Statistique descriptive
bivari
ee
3.1

S
erie statistique bivari
ee

On sinteresse `a deux variables x et y. Ces deux variables sont mesurees sur


les n unites dobservation. Pour chaque unite, on obtient donc deux mesures. La
serie statistique est alors une suite de n couples des valeurs prises par les deux
variables sur chaque individu :
(x1 , y1 ), . . . , (xi , yi ), . . . , (xn , yn ).
Chacune des deux variables peut etre, soit quantitative, soit qualitative. On
examine deux cas.
Les deux variables sont quantitatives.
Les deux variables sont qualitatives.

3.2
3.2.1

Deux variables quantitatives


Repr
esentation graphique de deux variables

Dans ce cas, chaque couple est compose de deux valeurs numeriques. Un


couple de nombres (entiers ou reels) peut toujours etre represente comme un
point dans un plan
(x1 , y1 ), . . . , (xi , yi ), . . . , (xn , yn ).
53


CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE

54

Exemple 3.1 On mesure le poids Y et la taille X de 20 individus.


xi
yi
155 75
162 76
157 78
170 80
164 85
162 90
169 96
170 96
178 98
173 101

xi
180
175
173
175
179
175
180
185
189
187

80
60

70

poids

90

100

yi
60
61
64
67
68
69
70
70
72
73

155

160

165

170

175

180

185

190

taille

Figure 3.1 Le nuage de points

En langage R

# nuage de points
poids=c(60,61,64,67,68,69,70,70,72,73,75,76,78,80,85,90,96,96,98,101)
taille=c(155,162,157,170,164,162,169,170,178,173,180,175,173,175,179,175,180,185,189
plot(taille,poids)

3.2. DEUX VARIABLES QUANTITATIVES

3.2.2

55

Analyse des variables

Les variables x et y peuvent etre analysees separement. On peut calculer


tous les param`etres dont les moyennes et les variances :
x
=

1
xi ,
n i=1

s2x =

1
(xi x
)2 ,
n i=1

y =

1
yi ,
n i=1

s2y =

1
(yi y)2 .
n i=1

Ces param`etres sont appeles param`etres marginaux : variances marginales, moyennes


marginales, ecarts-types marginaux, quantiles marginaux, etc.. . .

3.2.3

Covariance

La covariance est denie


1
(xi x
)(yi y).
=
n i=1
n

sxy

Remarque 3.1
La covariance peut prendre des valeurs positives, negatives ou nulles.
Quand xi = yi , pour tout i = 1, . . . , n, la covariance est egale `a la variance.

Th
eor`
eme 3.1 La covariance peut egalement secrire :
1
xi yi x
y.
n i=1
n

D
emonstration
=

1
(xi x
)(yi y)
n i=1

1
(xi yi yi x
yxi + x
y)
n i=1

1
1
1
1
xi yi
yi x

yxi +
x
y
n i=1
n i=1
n i=1
n i=1

1
xi yi x
y x
y + x
y
n i=1

1
xi yi x
y.
n i=1

sxy


CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE

56

3.2.4

Corr
elation

Le coecient de correlation est la covariance divisee par les deux ecart-types


marginaux :
sxy
.
rxy =
sx sy
Le coecient de determination est le carre du coecient de correlation :
2
rxy
=

s2xy
.
s2x s2y

Remarque 3.2
Le coecient de correlation mesure la dependance lineaire entre deux variables :
1 rxy 1,
2
1.
0 rxy
Si le coecient de correlation est positif, les points sont alignes le long
dune droite croissante.
Si le coecient de correlation est negatif, les points sont alignes le long
dune droite decroissante.
Si le coecient de correlation est nul ou proche de zero, il ny a pas de
dependance lineaire. On peut cependant avoir une dependance non-lineaire
avec un coecient de correlation nul.
r=1

r=1

r=0

r>0

r<0

r=0

Figure 3.2 Exemples de nuages de points et coecients de correlation

3.2. DEUX VARIABLES QUANTITATIVES

3.2.5

57

Droite de r
egression

La droite de regression est la droite qui ajuste au mieux un nuage de points


au sens des moindres carres.
On consid`ere que la variable X est explicative et que la variable Y est
dependante. Lequation dune droite est
y = a + bx.
Le probl`eme consiste `a identier une droite qui ajuste bien le nuage de points.
Si les coecients a et b etaient connus, on pourrait calculer les residus de la
regression denis par :
ei = yi a bxi .

yi
ei

70

80

y *i

60

poids

90

100

Le residu ei est lerreur que lon commet (voir Figure 3.3) en utilisant la droite
de regression pour predire yi `a partir de xi . Les residus peuvent etre positifs ou
negatifs.

155

160

165

170

175

180

taille

Figure 3.3 Le nuage de points, le residu

185

190

58

CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE

En langage R
# Graphique avec le r
esidus
plot(taille,poids)
segments(158,a+b*158,190,a+b*190)
segments(180,a+b*180,180,96,col="red")
#
text(178,90,expression(e))
text(178.7,89.5,"i")
#
arrows(180,a+b*180,156,a+b*180,col="blue",length=0.14)
arrows(180,60,180,a+b*180,col="blue",length=0.14)
arrows(180,96,156,96,col="blue",length=0.14)
#
text(154.8,86,expression(y))
text(155.5,85.5,"i")
#
text(154.8,97,expression(y))
text(155.5,97.8,"*")
text(155.5,96.5,"i")
Pour determiner la valeur des coecients a et b on utilise le principe des
moindres carres qui consiste `a chercher la droite qui minimise la somme des
carres des residus :
n
n

2
M (a, b) =
e2i =
(yi a bxi ) .
i=1

i=1

Th
eor`
eme 3.2 Les coecients a et b qui minimisent le crit`ere des moindres
carres sont donnes par :
sxy
et a = y b
x.
b= 2
sx
D
emonstration Le minimum M (a, b) en (a, b) sobtient en annulant les derivees
partielles par rapport `a a et b.

M (a, b) =
2 (yi a bxi ) = 0

a
i=1
n

M (a, b)

2 (yi a bxi ) xi = 0

b
i=1
On obtient un syst`eme de deux equations `a deux inconnues. En divisant les
deux equations par 2n, on obtient :

n
1

(yi a bxi ) = 0

n
i=1
n
1

(yi a bxi ) xi = 0,

n i=1

3.2. DEUX VARIABLES QUANTITATIVES


ou encore

59

n
n
n
1
1
1

b
xi = 0

i
n
n i=1
n i=1
i=1
n
n
n
1
1
1 2

yi xi
axi
bx = 0,

n i=1
n i=1
n i=1 i

ce qui secrit aussi

y =na + b
n
1
1 2
y
x

a
x

bx = 0.

i
i
n
n i=1 i
i=1

La premi`ere equation montre que la droite passe par le point (


x, y). On obtient
a = y b
x.
En remplacant a par y b
x dans la seconde equation, on a
1 2
1
xi yi (
y b
x)
xb
x
n i=1
n i=1 i
)
( n
n
1
1 2
=
2
xi yi x
y b
x x
n i=1
n i=1 i
n

= sxy bs2x
= 0,
ce qui donne
sxy bs2x = 0.
Donc

sxy
.
s2x
On a donc identie les deux param`etres

sxy

b = 2 (la pente)
sx
sxy

x = y 2 x
(la constante).
a = y b
sx
b=

On devrait en outre verier quil sagit bien dun minimum en montrant que la
matrice des derivees secondes est denie positive.
2
La droite de regression est donc
sxy
sxy
y = a + bx = y 2 x
+ 2 x,
sx
sx
ce qui peut secrire aussi
y y =

sxy
(x x
).
s2x

Remarque 3.3 La droite de regression de y en x nest pas la meme que la


droite de regression de x en y.


CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE

60

80
60

70

poids

90

100

Figure 3.4 La droite de regression

155

160

165

170

175

180

185

190

taille

3.2.6

R
esidus et valeurs ajust
ees

Les valeurs ajustees sont obtenues au moyen de la droite de regression :


yi = a + bxi .
Les valeurs ajustees sont les predictions des yi realisees au moyen de la variable
x et de la droite de regression de y en x.
Remarque 3.4 La moyenne des valeurs ajustees est egale `a la moyenne des
valeurs observees y. En eet,
1
1
1
yi =
(a + bxi ) = a + b
xi = a + b
x.
n i=1
n i=1
n i=1
n

Or, y = a + b
x, car le point (
x, y) appartient `a la droite de regression.
Les residus sont les dierences entre les valeurs observees et les valeurs
ajustees de la variable dependante.
ei = yi yi .
Les residus representent la partie inexpliquee des yi par la droite de regression.
Remarque 3.5

3.2. DEUX VARIABLES QUANTITATIVES

61

La moyenne des residus est nulle. En eet


1
1
ei =
(yi yi ) = y y = 0.
n i=1
n i=1
n

De plus,

xi ei = 0.

i=1

La demonstration est un peu plus dicile.

3.2.7

Sommes de carr
es et variances

D
enition 3.1 On appelle somme des carres totale la quantite
SCT OT =

(yi y)2

i=1

La variance marginale peut alors etre denie par


1
SCT OT
=
(yi y)2 .
n
n i=1
n

s2y =

D
enition 3.2 On appelle somme des carres de la regression la quantite
SCREGR =

(yi y)2 .

i=1

D
enition 3.3 La variance de regression est la variance des valeurs ajustees.
1
(y y)2 .
n i=1 i
n

s2y =

D
enition 3.4 On appelle somme des carres des residus (ou residuelle) la
quantite
n

SCRES =
e2i .
i=1

D
enition 3.5 La variance residuelle est la variance des residus.
1 2
SCRES
=
e .
n
n i=1 i
n

s2e =

Note : Il nest pas necessaire de centrer les residus sur leurs moyennes pour
calculer la variance, car la moyenne des residus est nulle.


CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE

62
Th
eor`
eme 3.3

SCT OT = SCREGR + SCRES .


D
emonstration
SCT OT

(yi y)2

i=1

(yi yi + yi y)2

i=1

(yi yi )2 +

i=1

(yi y)2 + 2

i=1

(yi yi )(yi y)

i=1

= SCRES + SCREGR + 2

(yi yi )(yi y).

i=1

Le troisi`eme terme est nul. En eet,


n

(yi yi )(yi y) =

(yi a bxi )(a + bxi y)

i=1

i=1

En remplacant a par y b
x, on obtient
n

(yi yi )(yi y) =

i=1

=
=

i=1
n

[yi y b(xi x
))] b(xi x
)
[(yi y) b(xi x
)] b(xi x
)

i=1
n

(yi y)(xi x
) b2

i=1

(xi x
)(xi x
)

i=1

bnsxy b2 ns2x

s2xy 2
sxy
ns

ns
xy
s2x
s4x x
= 0.

3.2.8

D
ecomposition de la variance

Th
eor`
eme 3.4 La variance de regression peut egalement secrire
s2y = s2y r2 ,
o`
u r2 est le coecient de determination.

3.2. DEUX VARIABLES QUANTITATIVES

63

D
emonstration
1
(y y)2
n i=1 i
}2
n {
1
sxy
y + 2 (xi x
) y
n i=1
sx
n

s2y

=
=
=

n
s2xy 1
(xi x
)2
s4x n i=1

s2xy
s2x
s2xy
= s2y 2 2
sx sy
=

= s2y r2 .
2
La variance residuelle est la variance des residus.
1 2
e .
n i=1 i
n

s2e =

Th
eor`
eme 3.5 La variance residuelle peut egalement secrire
s2e = s2y (1 r2 ),
o`
u r2 est le coecient de determination.
D
emonstration
1 2
e
n i=1 i
n

s2e

1
(yi yi )2
n i=1
}2
n {
1
sxy
yi y 2 (xi x
)
n i=1
sx
n

=
=
=
=
=

n
n
n
s2xy 1
1
sxy 1
(yi y)2 + 4
(xi x
)2 2 2
(xi x
)(yi y)
n i=1
sx n i=1
sx n i=1

s2xy
s2xy
s2y + 2 2 2
s
s
)x
( x
2
sxy
s2y 1 2 2 .
sx sy
2


CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE

64

Th
eor`
eme 3.6 La variance marginale est la somme de la variance de regression
et de la variance residuelle,
s2y = s2y + s2e .
La demonstration decoule directement des deux theor`emes precedents.

3.3
3.3.1

Deux variables qualitatives


Donn
ees observ
ees

Si les deux variables x et y sont qualitatives, alors les donnees observees sont
une suite de couples de variables
(x1 , y1 ), . . . , (xi , yj ), . . . , (xn , yn ),
chacune des deux variables prend comme valeurs des modalites qualitatives.
Les valeurs distinctes de x et y sont notees respectivement
x1 , . . . , xj , . . . , xJ
et
y1 , . . . , yk , . . . , yK .

3.3.2

Tableau de contingence

Les donnees observees peuvent etre regroupees sous la forme dun tableau de
contingence
y1 yk yK total
x1
n11 n1k n1K
n1.
..
..
..
..
.
.
.
.
nj1
..
.

njk
..
.

njK
..
.

nj.

xJ
nJ1
total n.1

nJk
n.k

nJK
n.K

nJ.
n

xj
..
.

Les nj. et n.k sont appeles les eectifs marginaux. Dans ce tableau,
nj. represente le nombre de fois que la modalite xj apparat,
n.k represente le nombre de fois que la modalite yk apparat,
njk represente le nombre de fois que les modalites xj et yk apparaissent
ensemble.
On a les relations
J

njk = n.k , pour tout k = 1, . . . , K,

j=1
K

k=1

njk = nj. , pour tout j = 1, . . . , J,

3.3. DEUX VARIABLES QUALITATIVES

65

et
J

nj. =

j=1

n.k =

J
K

njk = n

j=1 k=1

k=1

Exemple 3.2 On sinteresse `a une eventuelle relation entre le sexe de 200 personnes et la couleur des yeux. Le Tableau 3.1 reprend le tableau de contingence.
Table 3.1 Tableau des eectifs njk
Bleu
10
20
30

Homme
Femme
Total

3.3.3

Vert
50
60
110

Marron
20
40
60

Total
80
120
200

Tableau des fr
equences

Le tableau de frequences sobtient en divisant tous les eectifs par la taille


de lechantillon :
njk
fjk =
, j = 1, . . . , J, k = 1, . . . , K
n
fj. =

nj.
, j = 1, . . . , J,
n

f.k =

n.k
, k = 1, . . . , K.
n

Le tableau des frequences est

x1
..
.

y1
f11
..
.

yk
f1k
..
.

yK
f1K
..
.

total
f1.

xj
..
.

fj1
..
.

fjk
..
.

fjK
..
.

fj.

xJ
total

fJ1
f.1

fJk
f.k

fJK
f.K

fJ.
1

Exemple 3.3 Le Tableau 3.2 reprend le tableau des frequences.

66

CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE

Table 3.2 Tableau des frequences

Homme
Femme
Total

3.3.4

Bleu
0.05
0.10
0.15

Vert
0.25
0.30
0.55

Marron
0.10
0.20
0.30

Total
0.40
0.60
1.00

Prols lignes et prols colonnes

Un tableau de contingence sinterpr`ete toujours en comparant des frequences


en lignes ou des frequences en colonnes (appeles aussi prols lignes et prols
colonnes).
Les prols lignes sont denis par
(j)

fk

njk
fjk
=
, k = 1, . . . , K, j = 1, . . . , J,
nj.
fj.

et les prols colonnes par


(k)

fj

njk
fjk
=
, j = 1, . . . , J, k = 1, . . . , K.
n.k
f.k

Exemple 3.4 Le Tableau 3.3 reprend le tableau des prols lignes, et le Tableau
3.4 reprend le tableau des prols colonnes.
Table 3.3 Tableau des prols lignes

Homme
Femme
Total

Bleu
0.13
0.17
0.15

Vert
0.63
0.50
0.55

Marron
0.25
0.33
0.30

Total
1.00
1.00
1.00

Table 3.4 Tableau des prols colonnes

Homme
Femme
Total

Bleu
0.33
0.67
1.00

Vert
0.45
0.55
1.00

Marron
0.33
0.67
1.00

Total
0.40
0.60
1.00

3.3. DEUX VARIABLES QUALITATIVES

3.3.5

67

Eectifs th
eoriques et khi-carr
e

On cherche souvent une interaction entre des lignes et des colonnes, un lien
entre les variables. Pour mettre en evidence ce lien, on construit un tableau
deectifs theoriques qui represente la situation o`
u les variables ne sont pas liees
(independance). Ces eectifs theoriques sont construits de la mani`ere suivante :
njk =

nj. n.k
.
n

Les eectifs observes njk ont les memes marges que les eectifs theoriques njk .
Enn, les ecarts `
a lindependance sont denis par
ejk = njk njk .
La dependance du tableau se mesure au moyen du khi-carre deni par
2obs =

K
J

(njk njk )2
k=1 j=1

njk

J
K

e2jk
.
n
j=1 jk

(3.1)

k=1

Le khi-carre peut etre normalise pour ne plus dependre du nombre dobservations. On denit le phi-deux par :
2 =

2obs
.
n

Le 2 ne depend plus du nombre dobservations. Il est possible de montrer


que
2 min(J 1, K 1).
Le V de Cramer est denit par

2obs
2
V =
=
.
min(J 1, K 1)
n min(J 1, K 1)
Le V de Cramer est compris entre 0 et 1. Il ne depend ni de la taille
de lechantillon ni de la taille du tableau. Si V 0, les deux variables
sont independantes. Si V = 1, il existe une relation fonctionnelle entre les
variables, ce qui signie que chaque ligne et chaque colonne du tableau de
contingence ne contiennent quun seul eectif dierent de 0 (il faut que le
tableau ait le meme nombre de lignes que de colonnes).
Exemple 3.5 Le Tableau 3.5 reprend le tableau des eectifs theoriques, le
Tableau 3.6 reprend le tableau des ecarts `a lindependance. Enn, les e2jk /njk
sont presentes dans le tableau 3.7.
Le khi-carre observe vaut 2obs = 3.03.
Le phi-deux vaut 2 = 0.01515.
Comme le tableau a deux lignes
min(J 1, K 1) = min(2 1, 3 1) = 1.
Le V de Cramer est egal `a 2 .


CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE

68

Table 3.5 Tableau des eectifs theoriques njk

Homme
Femme
Total

Bleu
12
18
30

Vert
44
66
110

Marron
24
36
60

Total
80
120
200

Table 3.6 Tableau des ecarts `a lindependance ejk

Homme
Femme
Total

Bleu
-2
2
0

Vert
6
-6
0

Marron
-4
4
0

Total
0
0
0

Table 3.7 Tableau des e2jk /njk

Homme
Femme
Total

Bleu
0.33
0.22
0.56

Vert
0.82
0.55
1.36

Marron
0.67
0.44
1.11

Total
1.82
1.21
3.03

On a V = 0.123. La dependance entre les deux variables est tr`es faible.

En langage R
yeux= c(rep("bleu",times=10),rep("vert",times=50),rep("marron",times=20),
rep("bleu",times=20),rep("vert",times=60),rep("marron",times=40))
sexe= c(rep("homme",times=80),rep("femme",times=120))
yeux=factor(yeux,levels=c("bleu","vert","marron"))
sexe=factor(sexe,levels=c("homme","femme"))
T=table(sexe,yeux)
T
plot(T,main="")
summary(T)

Exemple 3.6 Le tableau suivant est extrait de Boudon (1979, p. 57). La


variable X est le niveau dinstruction du ls par rapport au p`ere (plus eleve,

3.3. DEUX VARIABLES QUALITATIVES

69

egal, inferieur), et la variable Y est le statut professionnel du ls par rapport


au p`ere (plus eleve, egal, inferieur).

Table 3.8 Tableau de contingence : eectifs njk


Niveau dinstruction Statut professionnel du ls
du ls par rapport
par rapport au p`ere
au p`ere
Plus eleve Egal inferieur total
plus eleve
134
96
61
291
egal
23
33
24
80
inferieur
7
16
22
45
total
164
145
107
416

Table 3.9 Tableau des frequences fjk


X\Y
Plus eleve
plus eleve
0.322
egal
0.055
inferieur
0.017
total
0.394

Egal
0.231
0.079
0.038
0.349

inferieur
0.147
0.058
0.053
0.257

total
0.700
0.192
0.108
1.000

Table 3.10 Tableau des prols lignes


X\Y
Plus eleve
plus eleve
0.460
egal
0.288
inferieur
0.156
total
0.394

Egal
0.330
0.413
0.356
0.349

inferieur total
0.210
1
0.300
1
0.489
1
0.257
1

Table 3.11 Tableau des prols colonnes


X\Y
Plus eleve Egal
plus eleve
0.817
0.662
egal
0.140
0.228
0.043
0.110
inferieur
total
1
1

inferieur total
0.570
0.700
0.224
0.192
0.206
0.108
1
1


CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE

70

Table 3.12 Tableau des eectifs theoriques njk


X\Y
Plus eleve Egal
plus eleve
114.72
101.43
egal
31.54
27.88
inferieur
17.74
15.69
total
164
145

inferieur total
74.85
291
20.58
80
11.57
45
107
416

Table 3.13 Tableau des ecarts `a lindependance ejk


X\Y
Plus eleve Egal inferieur total
plus eleve
19.28
5.43 13.85
0
egal
8.54
5.12
3.42
0
inferieur
10.74
0.31
10.43
0
total
0
0
0
0

Table 3.14 Tableau des e2jk /njk


Plus eleve Egal
X\Y
plus eleve
3.24
0.29
2.31
0.94
egal
inferieur
6.50
0.01
total
12.05
1.24

inferieur
total
2.56
6.09
0.57
3.82
9.39
15.90
12.52
2obs = 25.81

On a donc
2obs
2
V

= 25.81
2obs
25.81
=
=
= 0.062
n
416

2
=
min(J 1, K 1)

0.062
= 0.176.
2

Exercices
Exercice 3.1 La consommation de cr`emes glacees par individus a ete mesuree
pendant 30 periodes. Lobjectif est determine si la consommation depend de la
temperature. Les donnees sont dans le tableau 3.15. On sait en outre que

3.3. DEUX VARIABLES QUALITATIVES

71

Table 3.15 Consommation de cr`emes glacees


consommation y
386
374
393
425
406
344
327
288
269
256

temperature x consommation y
41
286
56
298
63
329
68
318
69
381
65
381
61
470
47
443
32
386
24
342

yi = 10783,

i=i
n

temperature x consommation y
28
319
26
307
32
284
40
326
55
309
63
359
72
376
72
416
67
437
60
548

xi = 1473,

i=i

yi2 = 4001293,

i=i

x2i = 80145,

i=i
n

xi yi = 553747,

i=i

1. Donnez les moyennes marginales, les variances marginales et la covariance


entre les deux variables.
2. Donnez la droite de regression, avec comme variable dependante la consommation de glaces et comme variable explicative la temperature.
3. Donnez la valeur ajustee et le residu pour la premi`ere observation du
tableau 3.15.

Solution
y = 359.4333333, x
= 49.1,
2
y2 = 4184.112222, x2 = 260.69, xy
= 810.0566667,

= 0.77562456, b = 3.107356119, a = 206.8621479, y1 = 334.2637488, e1 = 51.73625123,

temperature x
44
40
32
27
28
33
41
52
64
71


CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE

72

Exercice 3.2 Neuf etudiants emettent un avis pedagogique vis-`a-vis dun professeur selon une echelle dappreciation de 1 `a 20. On rel`eve par ailleurs la note
obtenue par ces etudiants lannee precedente aupr`es du professeur.

y = Avis
x = Resultat

5
8

7
11

Etudiants
16
6 12
10 13
9

14
17

10
7

9
15

8
16

1. Representez graphiquement les deux variables.


2. Determinez le coecient de correlation entre les variables X et Y. Ensuite,
donnez une interpretation de ce coecient.
3. Determinez la droite de regression Y en fonction de X.

4. Etablissez,
sur base du mod`ele, lavis pour un etudiant ayant obtenu 12/20.
5. Calculez la variance residuelle et le coecient de determination.

Solution

18 6
q

16
14

q
q

12

10
q

q
q

6
4
2
0
0

10

15

20

3.3. DEUX VARIABLES QUALITATIVES


yi
xi
5
8
7
11
16 10
6
13
12
9
14 17
10
7
9
15
8
16
87 106
y =

73

yi2
x2i xi yi
25
64
40
49
121
77
256
100
160
36
169
78
144
81
108
196
289
238
100
49
70
81
225
135
64
256
128
951 1354 1034
87
= 9, 667
9

951
9, 6672 = 12, 22
9
106
= 11, 78
x
=
9
1354
s2x =
11, 782 = 11, 73
9
1034
9, 667 11, 78 = 1, 037
sxy =
9
1, 037
rxy =
= 0.087
12, 22 11, 73
Ajustement lineaire de y en x
s2y =

Dy|x : y y =

Sxy
(x x
)
Sx2

Dy|x : y = 0.088x + 8, 625


Valeur ajustee pour une cote de 12/20, (x=12)
y = 0.088 12 + 8, 625 = 9, 686
Mesure de la qualite du mod`ele :
Variance residuelle
s2y|x

= s2y (1 r2 )
= 12, 22(1 0.0872 )
= 12, 13 `a comparer avec s2y = 12, 22

Coecient de determination
r2 = 0.0872 = 0.008
ce coecient represente la proportion de variance expliquee par le mod`ele (ici
0.8% faible).


CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE

74

Exercice 3.3 Considerons un echantillon de 10 fonctionnaires (ayant entre 40


et 50 ans) dun minist`ere. Soit X le nombre dannees de service et Y le nombre
de jours dabsence pour raison de maladie (au cours de lannee precedente)
determine pour chaque personne appartenant `a cet echantillon.
xi
yi

2 14
3 13

16
17

8
12

13
10

20
8

24
20

7
7

5
2

11
8

1. Representez le nuage de points.


2. Calculez le coecient de correlation entre X et Y.
3. Determinez lequation de la droite de regression de Y en fonction de X.
4. Determinez la qualite de cet ajustement.

5. Etablissez,
sur base de ce mod`ele, le nombre de jours dabsence pour un
fonctionnaire ayant 22 ans de service.
Solution
2)
xi
2
14
16
8
13
20
24
7
5
11
somme
120
moyenne 12.00
n

yi2
yi
x2i
3
4
9
13
196
169
17
256
289
12
64
144
10
169
100
8
400
64
20
576
400
7
49
49
2
25
4
8
121
64
100
1860
1292
10.00 186.00 129.20

xi = 120;

i=l
n

xi yi
6
182
272
96
130
160
480
49
10
88
1473
147.30

yi = 100;

i=l

x2i = 1860;

i=l

yi2 = 1292;

i=l
n

xi yi = 1473

i=1

x
= 120/10 = 12;

y = 100/10 = 10;

s2x = (1860/10) 122 = 42; s2y = (1292/10) 102 = 29, 2


sxy = (1473/10) (10.12) = 27, 3

3.3. DEUX VARIABLES QUALITATIVES


rxy =

27, 3
= 0.78
42 29, 2

3)
Dxy y y =

Sxy
(x x
)
Sx2

27, 3
(x 12)
42
y = 0.65x + 2, 2

Dxy y 10 =
Dxy
4)

r2 = 60.8%;
s2e

s2y (1

r ) = 29, 2 (1 0.608) = 11, 43


2

s2e = 11, 43 est beaucoup plus petit que Sy2 = 29, 2


5)
y = 0.65 22 + 2, 2 = 16, 5 jours.

75

76

CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIEE

Chapitre 4

Th
eorie des indices,
mesures din
egalit
e
4.1

Nombres indices

4.2

D
enition

Un indice est la valeur dune grandeur par rapport `a une valeur de reference.
Prenons lexemple du tableau 4.1 contenant le prix (ctif) dun bien de consommation de 2000 `a 2006. Le temps varie de 0, 1, 2, . . . , 6 et 0 est considere comme
le temps de reference par rapport auquel lindice est calcule.
Table 4.1 Tableau du prix dun
annee
2000
2001
2002
2003
2004
2005
2006

bien de consommation de 2000 `a 2006


t prix pt
0
2.00
1
2.30
2
2.40
3
2.80
4
3.00
5
3.50
6
4.00

Lindice simple est deni par


I(t/t ) = 100

pt
, t, t = 0, 1, . . . , 6.
pt

Le tableau 4.2 contient la matrice des indices de prix du bien. Par exemple de
2000 `a 2006, le prix a double, donc I(6/0) = 200.
77

CHAPITRE 4. THEORIE
DES INDICES, MESURES DINEGALIT
E

78

Table 4.2 Tableau de lindice simple du prix du tableau 4.1


t = 0
1
2
3
4
5
6

4.2.1

t=0
1
2
100.00 115.00 120.00
86.96 100.00 104.35
83.33 95.83 100.00
71.43 82.14
85.71
66.67 76.67
80.00
57.14 65.71
68.57
50.00 57.50
60.00

3
140.00
121.74
116.67
100.00
93.33
80.00
70.00

4
150.00
130.43
125.00
107.14
100.00
85.71
75.00

5
175.00
152.17
145.83
125.00
116.67
100.00
87.50

6
200.00
173.91
166.67
142.86
133.33
114.29
100.00

Propri
et
es des indices

Considerons un indice quelconque I(t/0). On dit que cet indice poss`ede les
proprietes de
1
,
reversibilite si I(t/0) = 1002 I(0/t)
identite si I(t/t) = 100,
circularite (ou transitivite) si I(t/u) I(u/v) = 100 I(t/v).
Il est facile de montrer que ces trois proprietes sont satisfaites pour un indice
simple.

4.2.2

Indices synth
etiques

Quand on veut calculer un indice `a partir de plusieurs prix, le probl`eme


devient sensiblement plus complique. Un indice synthetique est une grandeur
dun ensemble de biens par rapport `a une annee de reference. On ne peut pas
construire un indice synthetique en additionnant simplement des indices simples.
Il faut, en eet, tenir compte des quantites achetees.
Pour calculer un indice de prix de n biens de consommation etiquetes de
1, 2, . . . , n, on utilise la notation suivante :
pti represente le prix du bien de consommation i au temps t,
qti represente la quantite de biens i consommee au temps t.
Considerons par exemple le Tableau 4.3 qui contient 3 biens de consommation
et pour lesquels ont connat les prix et les quantites achetees.
Il existe deux methodes fondamentales pour calculer les indices de prix,
lindice de Paasche et lindice de Laspeyres.

4.2.3

Indice de Laspeyres

Lindice de Laspeyres, est deni par


n
q0i pti
L(t/0) = 100 ni=1
.
q
i=1 0i p0i
On utilise pour le calculer, les quantites q0i du temps de reference.


4.2. DEFINITION

79

Table 4.3 Exemple : prix et quantites de trois bien pendant 3 ans


Temps
Bien 1
Bien 2
Bien 3

0
Prix (p0i )
100
60
160

Quantites (q0i )
14
10
4

1
Prix (p1i )
150
50
140

Quantites (q1i )
10
12
5

2
Prix (p2i )
200
40
140

Lindice de Laspeyres peut aussi etre presente comme une moyenne ponderee
des indices simples. Soient lindice simple du bien i :
Ii (t/0) = 100

pti
,
p0i

et le poids w0i correspondant `a la recette totale du bien i au temps 0


w0i = p0i q0i .
Lindice de Laspeyres peut alors etre deni comme une moyenne des indices
simples ponderes par les recettes au temps 0 :
n
n
w0i Ii (t/0)
i=1 p0i q0i 100
i=1
n
n
=
L(t/0) =
i=1 w0i
i=1 p0i q0i

pti
p0i

n
q0i pti
= 100 ni=1
.
p
i=1 0i q0i

Lindice de Laspeyres ne poss`ede ni la propriete de circularite ni de reversibilite.


Lindice de Laspeyres est facile `a calculer, car seules les quantites q0i du temps
de reference sont necessaires pour le calculer.
Exemple 4.1 Si on utilise les donnees du tableau 4.3, les indices de Laspeyres
sont les suivants
n
q0i p1i
14 150 + 10 50 + 4 140
L(1/0) = 100 i=1
= 100
= 119.6970,
n
14 100 + 10 60 + 4 160
q
p
i=1 0i 0i
n
q0i p2i
14 200 + 10 40 + 4 140
= 142.4242,
L(2/0) = 100 i=1
= 100
n
14 100 + 10 60 + 4 160
i=1 q0i p0i
n
q1i p2i
10 200 + 12 40 + 5 140
L(2/1) = 100 i=1
= 113.5714.
= 100
n
10 150 + 12 50 + 5 140
i=1 q1i p1i

Quantites (q2i )
8
14
5

CHAPITRE 4. THEORIE
DES INDICES, MESURES DINEGALIT
E

80

4.2.4

Indice de Paasche

Lindice de Paasche, est deni par


n
qti pti
P (t/0) = 100 ni=1
.
q
i=1 ti p0i
On utilise, pour le calculer, les quantites qti du temps par rapport auquel on
veut calculer lindice.
Lindice de Paasche peut aussi etre presente comme une moyenne harmonique ponderee des indices simples. Soient lindice simple du bien i :
Ii (t/0) = 100

pti
,
p0i

et le poids wti correspondant `a la recette totale du bien i au temps t


wti = pti qti .
Lindice de Paasche peut alors etre deni comme une moyenne harmonique des
indices simples ponderes par les recettes au temps t :
n
n
n
qti pti
wti
pti qti
i=1
i=1
= 100 ni=1
P (t/0) = n
= n
.
p0i
i=1 wti /Ii (t/0)
i=1 pti qti 100pti
i=1 qti p0i
Lindice de Paasche ne poss`ede ni la propriete de circularite ni de reversibilite.
Lindice de Paasche est plus dicile `a calculer que lindice de Laspeyres, car on
doit connatre les quantites pour chaque valeur de t.
Exemple 4.2 Si on utilise les donnees du tableau 4.3, les indices de Paasche
sont les suivants
n
q1i p1i
10 150 + 12 50 + 5 140

P (1/0) = 100 ni=1


= 100
= 111.1111,
10 100 + 12 60 + 5 160
q
p
i=1 1i 0i
n
q2i p2i
8 200 + 14 40 + 5 140
= 100
P (2/0) = 100 i=1
= 117.2131,
n
8 100 + 14 60 + 5 160
q
p
i=1 2i 0i
n
q2i p2i
8 200 + 14 40 + 5 140
= 100
P (2/1) = 100 i=1
= 110.
n
8 150 + 14 50 + 5 140
q
p
i=1 2i 1i

4.2.5

Lindice de Fisher

Lindice de Laspeyres est en general plus grand que lindice de Paasche,


ce qui peut sexpliquer par le fait que lindice de Laspeyres est une moyenne
arithmetique dindices elementaires tandis que lindice de Paasche est une moyenne
harmonique. Nous avons vu quune moyenne harmonique est toujours inferieure


4.2. DEFINITION

81

ou egale `a une moyenne arithmetique (voir la remarque de la page 32). Cependant ici, ce resultat est approximatif, car on nutilise pas les memes poids pour
calculer lindice de Paasche (wti ) et de Laspeyres (w0i ).
Fisher a propose dutiliser un compromis entre lindice de Paasche et de
Laspeyres en calculant simplement la moyenne geometrique de ces deux indices

F (t/0) = L(t/0) P (t/0).


Lavantage de lindice de Fisher est quil jouit de la propriete de reversibilite.
Exemple 4.3 Si on utilise toujours les donnees du tableau 4.3, les indices de
Fisher sont les suivants :

F (1/0) = L(1/0) P (1/0) = 115.3242,

F (2/0) = L(2/0) P (2/0) = 129.2052,

F (2/1) = L(2/1) P (2/1) = 111.7715.

4.2.6

Lindice de Sidgwick

Lindice de Sidgwick est la moyenne arithmetique des indices de Paasche et


de Laspeyres.
L(t/0) + P (t/0)
S(t/0) =
.
2

4.2.7

Indices chanes

Le defaut principal des indices de Laspeyres, de Paasche, de Fisher et de Sidgwick est quil ne poss`edent pas la propriete de circularite. Un indice qui poss`ede
cette propriete est appele indice chane. Pour construire un indice chane, avec
lindice de Laspeyres, on peut faire un produit dindice de Laspeyres annuels.
L(t/t 1) L(t 1/t 2)
L(2/1) L(1/0)

.
100
100
100
100
Pour calculer un tel indice, on doit evidemment connatre les quantites pour
chaque valeur de t. Lindice suisse des prix `a la consommation est un indice
chane de Laspeyres.
CL(t/0) = 100

Exemple 4.4 En utilisant encore les donnees du tableau 4.3, les indices chanes
de Laspeyres sont les suivants :
CL(1/0) = L(1/0) = 119.6970,
CL(2/1) = L(2/1) = 113.5714,
L(2/1) L(1/0)
= 135.9416.
CL(2/0) =
100

CHAPITRE 4. THEORIE
DES INDICES, MESURES DINEGALIT
E

82

4.3
4.3.1

Mesures de lin
egalit
e
Introduction

Des indicateurs particuliers ont ete developpes pour mesurer les inegalites
des revenus ou les inegalites de patrimoine. On consid`ere quune societe est parfaitement egalitaire si tous les individus recoivent le meme revenu. La situation
theorique la plus inegalitaire est la situation o`
u un individu percoit la totalite
des revenus, et les autre individus nont aucun revenu.

4.3.2

Courbe de Lorenz

Plusieurs indices dinegalite sont lies `a la courbe de Lorenz. On note


x1 , . . . , xi , . . . , xn
les revenus des n individus de la population etudiee. On note egalement
x(1) , . . . , x(i) , . . . , x(n) ,
la statistique dordre, cest-`a-dire la serie de revenus tries par ordre croissant.
Notons maintenant qi la proportion de revenus par rapport au revenu total
quont gagne les i individus ayant les plus bas revenus, ce qui secrit
i
j=1
qi = n

x(j)

j=1 x(j)

avec q0 = 0 et qn = 1.

La courbe de Lorenz est la representation graphique de la fonction qui `a


la part des individus les moins riches associe la part y du revenu total quils
percoivent. Plus precisement, la courbe de Lorenz relie les points (i/n, qi ) pour
i = 1, . . . , n. En abscisse, on a donc une proportion dindividus classes par ordre
de revenu, et en ordonnee la proportion du revenu total recu par ces individus.
Exemple 4.5 On utilise une enquete menage sur le revenu dans une region
des Philippines appelee Ilocos. Cette enquete de 1997 sur le revenu des menages
a ete produite par lOce philippin de Statistique. La courbe de Lorenz est
presentee en Figure 4.1.

Remarque 4.1 Sur le graphique, on indique toujours la diagonale. La courbe


de Lorenz est egale `a la diagonale si tous les individus ont le meme revenu. Plus
lecart entre la courbe de Lorenz et la diagonale est important, plus les revenus
sont distribues de mani`ere inegalitaire.

En langage R

4.3. MESURES DE LINEGALIT


E

83

Figure 4.1 Courbe de Lorenz


1.0

proportion de revenu

0.8

0.6

0.4

0.2

0.0
0.0

0.2

0.4

0.6

0.8

1.0

proportion de menages

#
# Courbe de Lorenz et indices din
egalit
e
#
# Etape 1 : on installe la package ineq
utils:::menuInstallPkgs()
# choisir ineq dans la liste
#
#Etape 2 : on charge le package ineq
local({pkg <- select.list(sort(.packages(all.available = TRUE)))
+ if(nchar(pkg)) library(pkg, character.only=TRUE)})
# choisir ineq dans la liste
#
# Utilisation de la base de donn
ees Ilocos
# Enqu^
ete sur le revenu de lOffice de Statistique Philippin
data(Ilocos)
attach(Ilocos)
#
plot(Lc(income),xlab="proportion de menages",
ylab="proportion de revenu",main="")

84

4.3.3

CHAPITRE 4. THEORIE
DES INDICES, MESURES DINEGALIT
E

Indice de Gini

Lindice de Gini, note G est egal `a deux fois la surface comprise entre la
courbe de Lorenz et la diagonale. Il est possible de montrer que :
n n
1
i=1
j=1 |xi xj |
n(n1)
G=
.
2
x
En utilisant la statistique dordre x(1) , . . . , x(i) , . . . , x(n) , lindice de Gini peut
egalement secrire
]
[ n
2 i=1 ix(i)
1
G=
(n + 1) .
n1
n
x
Lindice de Gini est compris entre 0 et 1. Sil est proche de 0, tous le revenus
sont egaux. Sil est proche de 1, les revenus sont tr`es inegaux.

4.3.4

Indice de Hoover

Lindice dequirepartition de Hoover (ou Robin Hood index) est deni comme
la proportion de revenus quil faudrait prendre aux individus gagnant plus que
la moyenne et redistribuer aux individus gagnant moins que la moyenne pour
que tout le monde ait le meme revenu. Il est formellement denit par :
n
1
|
i=1 |xi x
n
H=
.
2
x
Cet indice est egalement compris entre 0 et 1. Il vaut 0 si tous les individus ont
le meme revenu.
Cet indice est egalement lie `a la courbe de Lorenz, car il est possible de
montrer quil correspond `a la plus grande distance verticale entre la courbe de
Lorenz et la diagonale.

4.3.5

Quintile et Decile share ratio

On denit dabord :
S10 revenu moyen des individus ayant un revenu inferieur au premier decile
x1/10 ,
S20 revenu moyen des individus ayant un revenu inferieur au premier quintile ou deuxi`eme decile x1/5 ,
S80 revenu moyen des individus ayant un revenu superieur au quatri`eme
quintile ou huiti`eme decile x4/5 ,
S90 revenu moyen des individus ayant un revenu superieur au neuvi`eme
decile x9/10 .
Le quintile share ratio est denit par
QSR =

S80
.
S20

4.3. MESURES DE LINEGALIT


E

85

Le decile share ratio est denit par


DSR =

S90
.
S10

Ces quantites sont toujours plus grandes que 1 et augmentent avec linegalite.
Ces deux rapports sont facilement interpretables, par exemple si le QSR = 5,
cela signie que le revenu moyen de 20% des plus riches est 5 fois plus grand
que le revenu moyen de 20% des plus pauvres.

4.3.6

Indice de pauvret
e

Un indice simple de pauvrete consiste `a calculer le pourcentage de la population gagnant moins que la moitie de la mediane.

4.3.7

Indices selon les pays

Le tableau 4.4 reprend pour tous les pays lindice de Gini et le rapport des
20% les plus riches sur les 20% les plus pauvres. (reference : United Nations
2005 Development Programme Report, page 270).

Exercices

Exercice 4.1 Etudiez


les proprietes (circularite, reversibilite, identite et transitivite) de tous les indices de prix presentes.

86

CHAPITRE 4. THEORIE
DES INDICES, MESURES DINEGALIT
E

Table 4.4 Mesures de linegalite par pays


Rang
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
61
65
92
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124

Pays
Denmark
Japan
Sweden
Belgium
Czech Republic
Norway
Slovakia
Bosnia and Herzegovina
Uzbekistan
Finland
Hungary
Republic of Macedonia
Albania
Germany
Slovenia
Rwanda
Croatia
Ukraine
Austria
Ethiopia
Romania
Mongolia
Belarus
Netherlands
Russia
South Korea
Bangladesh
Lithuania
Bulgaria
Kazakhstan
Spain
India
Tajikistan
France
Pakistan
Canada
Switzerland
Sri Lanka
Burundi
Estonia
Portugal
United States
Peru
Malawi
Mali
Niger
Nigeria
Papua New Guinea
Argentina
Zambia
El Salvador
Mexico
Honduras
Panama
Zimbabwe
Chile
Colombia
Paraguay
South Africa
Brazil
Guatemala
Swaziland
Central African Republic
Sierra Leone
Botswana
Lesotho
Namibia

Indice
de Gini
24.7
24.9
25
25
25.4
25.8
25.8
26.2
26.8
26.9
26.9
28.2
28.2
28.3
28.4
28.9
29
29
30
30
30.3
30.3
30.4
30.9
31
31.6
31.8
31.9
31.9
32.3
32.5
32.5
32.6
32.7
33
33.1
33.1
33.2
33.3
37.2
38.5
46.6
49.8
50.3
50.5
50.5
50.6
50.9
52.2
52.6
53.2
54.6
55
56.4
56.8
57.1
57.6
57.8
57.8
59.3
59.9
60.9
61.3
62.9
63
63.2
70.7

DSR

QSR

8.1
4.5
6.2
7.8
5.2
6.1
6.7
5.4
6.1
5.6
5.5
6.8
5.9
6.9
5.9
5.8
7.3
6.4
7.6
6.6
8.1
17.8
6.9
9.2
7.1
7.8
6.8
7.9
9.9
7.5
9
7.3
7.8
9.1
7.6
10.1
9.9
8.1
19.3
14.9
15
15.9
49.9
22.7
23.1
46
24.9
23.8
39.1
41.8
47.4
45
49.1
62.3
22
40.6
57.8
73.4
33.1
68
55.1
49.7
69.2
87.2
77.6
105
128.8

4.3
3.4
4
4.5
3.5
3.9
4
3.8
4
3.8
3.8
4.4
4.1
4.3
3.9
4
4.8
4.3
4.7
4.3
5.2
9.1
4.6
5.1
4.8
4.7
4.6
5.1
5.8
5.1
5.4
4.9
5.2
5.6
4.8
5.8
5.8
5.1
9.5
7.2
8
8.4
18.4
11.6
12.2
20.7
12.8
12.6
18.1
17.2
19.8
19.3
21.5
24.7
12
18.7
22.9
27.8
17.9
26.4
24.4
23.8
32.7
57.6
31.5
44.2
56.1

Ann
ee
de lenqu
ete
1997
1993
2000
1996
1996
2000
1996
2001
2000
2000
2002
1998
2002
2000
1998
1983
2001
1999
1997
1999
2002
1998
2000
1999
2002
1998
2000
2000
2001
2003
1990
1999
2003
1995
1998
1998
1992
1999
1998
2000
1997
2000
2000
1997
1994
1995
1996
1996
2001
1998
2000
2000
1999
2000
1995
2000
1999
2002
2000
2001
2000
1994
1993
1989
1993
1995
1993

Chapitre 5

Calcul des probabilit


es et
variables al
eatoires
5.1

Probabilit
es

5.1.1

enement
Ev

Une experience est dite aleatoire si on ne peut pas predire a priori son
resultat. On note un resultat possible de cette experience aleatoire. Lensemble
de tous les resultats possibles est note . Par exemple, si on jette deux pi`eces
de monnaie, on peut obtenir les resultats
= {(P, P ), (F, P ), (P, F ), (F, F )} ,
avec F pour face et P pour pile. Un evenement est une assertion logique
sur une experience aleatoire comme avoir deux fois pile ou avoir au moins
une fois pile. Formellement, un evenement est un sous-ensemble de .
Levenement avoir deux fois pile est le sous ensemble {(P, P )}.
Levenement avoir au moins une fois pile est le sous ensemble {(P, P ), (F, P ), (P, F )}.
Lensemble est appele evenement certain, et lensemble vide est appele
evenement impossible.

5.1.2

Op
erations sur les
ev
enements

Sur les evenements, on peut appliquer les operations habituelles de la theorie


des ensembles.
Lunion
Levenement A B est realise d`es que A ou B est realise. Dans un lancer de
de, si levenement A est obtenir un nombre pair et levenement B obtenir
un multiple de 3, levenement A B est levenement obtenir un nombre pair
OU un multiple de 3, cest-`a-dire {2, 3, 4, 6}.
87

ET VARIABLES ALEATOIRES

88CHAPITRE 5. CALCUL DES PROBABILITES


Lintersection
Levenement A B est realise d`es que A et B sont realises conjointement
dans la meme experience. Dans un lancer de de, si levenement A est obtenir un
nombre pair et levenement B obtenir un multiple de 3, levenement A B
est levenement obtenir un nombre pair ET multiple de 3, cest-`a-dire {6}.
La di
erence
Levenement A\B est realise quand A est realise et que B ne lest pas.
Le compl
ementaire
Le complementaire de levenement A est levenement \A. Le complementaire
est note A.
Exemple 5.1 Lexperience peut consister `a jeter un de, alors
= {1, 2, 3, 4, 5, 6},
et un evenement, note A, est obtenir un nombre pair. On a alors
A = {2, 4, 6} et A = {1, 3, 5}.

5.1.3

Relations entre les


ev
enements

enements mutuellement exclusifs


Ev
Si A B = on dit que A et B sont mutuellement exclusifs, ce qui signie
que A et B ne peuvent pas se produire ensemble.
Exemple 5.2 Si on jette un de, levenement obtenir un nombre pair et
levenement obtenir un nombre impair ne peuvent pas etre obtenus en meme
temps. Ils sont mutuellement exclusifs. Dautre part, si lon jette un de, les
evenements A : obtenir un nombre pair nest pas mutuellement exclusif avec
levenement B : obtenir un nombre inferieur ou egal `a 3. En eet, lintersection de A et B est non-vide et consiste en levenement obtenir 2.

Inclusion
Si A est inclus dans B, on ecrit A B. On dit que A implique B.
Exemple 5.3 Si on jette un de, on consid`ere les evenements A obtenir 2 et
B obtenir un nombre pair.
A = {2} et B = {2, 4, 6}.


5.1. PROBABILITES

89

On dit que A implique B.

5.1.4

Ensemble des parties dun ensemble et syst`


eme complet

On va associer `a lensemble A de toutes les parties (ou sous-ensembles)


de .
Exemple 5.4 Si on jette une pi`ece de monnaie alors = {P, F }, et
A = {, {F }, {P }, {F, P }} .

D
enition 5.1 Les evenements A1 , . . . , An forment un syst`eme complet devenements,
si ils constituent une partition de , cest-`
a-dire si
tous
les
couples
A
,
A
sont
mutuellement
exclusifs quand i = j,
i
j
n
i=1 Ai = .
Table 5.1 Syst`eme complet devenements

A1

5.1.5

1111111
0000000

1111111
0000000

An

Axiomatique des Probabilit


es

D
enition 5.2 Une probabilite P (.) est une application de A dans [0, 1], telle
que :
Pr() = 1,
Pour tout ensemble denombrable devenements A1 , .., An mutuellement exclusifs (tels que Ai Aj = , pour tout i = j),
Pr (A1 A2 A3 An ) = Pr(A1 ) + Pr(A2 ) + Pr(A3 ) + + Pr(An ).
A partir des axiomes, on peut deduire les proprietes suivantes :
Propri
et
e 5.1 Pr() = 0.

ET VARIABLES ALEATOIRES

90CHAPITRE 5. CALCUL DES PROBABILITES


Demonstration
Comme est dintersection vide avec , on a que
Pr( ) = Pr() + Pr().
Donc,
Pr() = 2Pr(),
2

ce qui implique que Pr() = 0.


Propri
et
e 5.2 Pr(A) = 1 Pr(A).
Demonstration
On sait que
A A = et A A = .
Ainsi, on a que
Pr() = Pr(A A) = Pr(A) + Pr(A).
Mais, par la denition dune probabilite, Pr() = 1. Donc,
Pr(A) + Pr(A) = 1
On en deduit que Pr(A) = 1 Pr(A).

Propri
et
e 5.3 Pr(A) Pr(B) si A B.
Demonstration
Comme A B, on a

B = (B A) A.

Mais on a que
(B A) A = .
Ainsi, on a
Pr(B) = Pr(B A) + Pr(A).
Or une probabilite est `a valeur dans [0,1], donc Pr(B A) 0. On a alors
Pr(B) Pr(A).
2
Propri
et
e 5.4 Pr(A B) = Pr(A) + Pr(B) Pr(A B).
Demonstration
On a
A B = A (B A),
et
A (B A) = .


5.1. PROBABILITES

91

Donc
Pr(A B) = Pr(A) + Pr(B A).
Il reste `a montrer que
Pr(B A) = Pr(B) Pr(A B)
En eet,
B = (B A) (B A)
avec
(B A) (B A) =
Donc
Pr(B) = Pr(B A) + Pr(B A),
ce qui donne
Pr(B A) = Pr(B) Pr(A B).
(
Propri
et
e 5.5 Pr

)
Ai

i=1

Pr(Ai )

i=1

Demonstration
Notons respectivement
B1 = A1 ,

B2 = (A2 \A1 ), B3 = (A3 \(A1 A2 )),

B4 = (A4 \(A1 A2 A3 )), . . . , Bn = (An \(A1 A2 A3 An1 )).


Comme

i=1

Ai =

Bi ,

i=1

et que Bi Bj = pour tout j = i, alors


(n
)
n

Pr
Bi =
Pr (Bi ) .
i=1

i=1

De plus, comme, pour tout i, Bi Ai , on a que Pr(Bi ) Pr(Ai ), ce qui donne


nalenent
( n
)
(n
)
n
n

Pr
Ai = Pr
Bi =
Pr (Bi )
Pr (Ai ) .
i=1

i=1

i=1

i=1

2
Propri
et
e 5.6 Si A1 , . . . , An forment un syst`eme complet devenements, alors
n

i=1

Pr(B Ai ) = Pr(B).

ET VARIABLES ALEATOIRES

92CHAPITRE 5. CALCUL DES PROBABILITES


Demonstration
Si A1 , . . . , An forment un syst`eme complet devenements, alors
B=

(B Ai ).

i=1

Mais on a, pour tout i, j tels que i = j


(B Ai ) (B Aj ) = .
Finalement, on a que
(
Pr(B) = Pr

)
(B Ai )

i=1

Pr(B Ai ).

i=1

5.1.6

Probabilit
es conditionnelles et ind
ependance

D
enition 5.3 Soient deux evenements A et B, si Pr(B) > 0, alors
Pr(A|B) =

Pr(A B)
.
Pr(B)

Exemple 5.5 Si on jette un de, et que lon consid`ere les deux evenements
suivants :
A lev`enement avoir un nombre pair et
B lev`enement avoir un nombre superieur ou egal `a 4.
On a donc
1
Pr(A) = Pr({2, 4, 6}) = ,
2
1
3
Pr(B) = Pr({4, 5, 6}) = = ,
6
2
2
1
Pr(A B) = Pr({4, 6}) = = ,
6
3
Pr(A B)
1/3
2
Pr(A|B) =
=
= .
Pr(B)
1/2
3

D
enition 5.4 Deux evenements A et B sont dits independants si
Pr(A|B) = Pr(A).
On peut montrer facilement que si A et B sont independants, alors
Pr(A B) = Pr(A)Pr(B).


5.1. PROBABILITES

5.1.7

93

Th
eor`
eme des probabilit
es totales et th
eor`
eme de
Bayes

Th
eor`
eme 5.1 (des probabilites totales) Soit A1 , . . . , An un syst`eme complet
devenements, alors
n

Pr(B) =
Pr(Ai )Pr(B|Ai ).
i=1

Table 5.2 Illustration du theor`eme des probabilites totales

A1

An

Ai

1111111
0000000

111111
000000
En eet,

Pr(Ai )Pr(B|Ai ) =

i=1

Pr(B Ai ).

i=1

Comme les evenements Ai B sont mutuellement exclusifs,


n

i=1

Pr(B Ai ) = Pr

(B Ai ) = Pr(B).

i=1

Th
eor`
eme 5.2 (de Bayes) Soit A1 , . . . , An un syst`eme complet devenements,
alors
Pr(Ai )Pr(B|Ai )
Pr(Ai |B) = n
.
j=1 Pr(Aj )Pr(B|Aj )
En eet, par le theor`eme des probabilites totales,
Pr(Ai )Pr(B|Ai )
Pr(B Ai )
n
=
= Pr(Ai |B).
Pr(B)
j=1 Pr(Aj )Pr(B|Aj )
Exemple 5.6 Supposons quune population dadultes soit composee de 30% de
fumeurs (A1 ) et de 70% de non-fumeurs (A2 ). Notons B levenement mourir
dun cancer du poumon. Supposons en outre que la probabilite de mourir
dun cancer du poumon est egale `a Pr(B|A1 ) = 20% si lon est fumeur et de
Pr(B|A2 ) = 1% si lon est non-fumeur. Le theor`eme de Bayes permet de calculer

ET VARIABLES ALEATOIRES

94CHAPITRE 5. CALCUL DES PROBABILITES


les probabilites a priori, cest-`a-dire la probabilite davoir ete fumeur si on est
mort dun cancer du poumon. En eet, cette probabilite est notee Pr(A1 |B) et
peut etre calculee par
Pr(A1 |B) =

Pr(A1 )Pr(B|A1 )
0.3 0.2
0.06
=
=
0.896.
Pr(A1 )Pr(B|A1 ) + Pr(A2 )Pr(B|A2 )
0.3 0.2 + 0.7 0.01
0.06 + 0.007

La probabilite de ne pas avoir ete non-fumeur si on est mort dun cancer du


poumon vaut quant `a elle :
Pr(A2 |B) =

5.2
5.2.1

0.7 0.01
0.07
Pr(A2 )Pr(B|A2 )
=
=
0.104.
Pr(A1 )Pr(B|A1 ) + Pr(A2 )Pr(B|A2 )
0.3 0.2 + 0.7 0.01
0.06 + 0.007

Analyse combinatoire
Introduction

Lanalyse combinatoire est letude mathematique de la mani`ere de ranger des


objets. Lanalyse combinatoire est un outil utilise dans le calcul des probabilites.

5.2.2

Permutations (sans r
ep
etition)

Une permutation sans repetition est un classement ordonne de n objets distincts. Considerons par exemple lensemble {1, 2, 3}. Il existe 6 mani`eres dordonner ces trois chires :
{1, 2, 3}, {1, 3, 2}, {2, 1, 3}, {2, 3, 1}, {3, 1, 2}, {3, 2, 1}.
Si on dispose de n objets, chacun des n objets peut etre place `a la premi`ere place.
Il reste ensuite n 1 objets qui peuvent etre places `a la deuxi`eme place, puis
n2 objets pour la troisi`eme place, et ainsi de suite. Le nombre de permutations
possibles de n objets distincts vaut donc
n (n 1) (n 2) 2 1 = n!.
La notation n! se lit factorielle de n (voir tableau 5.3).
Table 5.3 Factorielle des nombres de 1 `a 10
n 0 1 2 3
n! 1 1 2 6

4
24

5
120

6
720

7
5040

8
40320

9
362880

10
3628800

5.2. ANALYSE COMBINATOIRE

5.2.3

95

Permutations avec r
ep
etition

On peut egalement se poser la question du nombre de mani`eres de ranger


des objets qui ne sont pas tous distincts. Supposons que nous ayons 2 boules
rouges (notees R) et 3 boules blanches (notees B). Il existe 10 permutations
possibles qui sont :
{R, R, B, B, B}, {R, B, R, B, B}, {R, B, B, R, B}, {R, B, B, B, R}, {B, R, R, B, B},
{B, R, B, R, B}, {B, R, B, B, R}, {B, B, R, R, B}, {B, B, R, B, R}, {B, B, B, R, R}.
Si lon dispose de n objets appartenant `a deux groupes de tailles n1 et n2 , le
nombre de permutations avec repetition est
n!
.
n1 !n2 !
Par exemple si lon a 3 boules blanches et 2 boules rouges, on obtient
n!
5!
120
=
=
= 10.
n1 !n2 !
2!3!
26
Si lon dispose de n objets appartenant `a p groupes de tailles n1 , n2 , . . . , np ,
le nombre de permutations avec repetition est
n!
.
n1 !n2 ! np !

5.2.4

Arrangements (sans r
ep
etition)

Soit n objets distincts. On appelle un arrangement une mani`ere de selectionner


k objets parmi les n et de les ranger dans des botes numerotees de 1 `a k.
Dans la premi`ere bote, on peut mettre chacun des n objets. Dans la seconde
bote, on peut mettre chacun des n 1 objets restants, dans la troisi`eme bote,
on peut mettre chacun des n 2 objets restants et ainsi de suite. Le nombre
darrangements possibles est donc egal `a :
Akn = n (n 1) (n 2) (n k + 1) =

5.2.5

n!
.
(n k)!

Combinaisons

Soit n objets distincts. On appelle une combinaison une mani`ere de selectionner


k objets parmi les n sans tenir compte de leur ordre. Le nombre de combinaisons
est le nombre de sous-ensembles de taille k dans un ensemble de taille n. Soit
lensemble {1, 2, 3, 4, 5}. Il existe 10 sous-ensembles de taille 3 qui sont :
{1, 2, 3}, {1, 2, 4}, {1, 2, 5}, {1, 3, 4}, {1, 3, 5}, {1, 4, 5}, {2, 3, 4}, {2, 3, 5}, {2, 4, 5}, {3, 4, 5}.
De mani`ere generale, quel est le nombre de combinaisons de k objets parmi
n ? Commencons par calculer le nombre de mani`eres dierentes de selectionner

ET VARIABLES ALEATOIRES

96CHAPITRE 5. CALCUL DES PROBABILITES


k objets parmi n en tenant compte de lordre : cest le nombre darrangements
sans repetition Akn . Comme il existe k! mani`eres dordonner ces k elements, si
lon ne veut pas tenir compte de lordre on divise Akn par k!. Le nombre de
combinaisons de k objets parmi n vaut donc
Akn
n!
=
.
k!
k!(n k)!
Le nombre de combinaisons de k objets parmi n secrit parfois
Cnk :
(n)
n!
= Cnk =
.
k
k!(n k)!

(n)
k

et parfois

Par exemple, si on cherche `a determiner le nombre de combinaisons de 3 objets


parmi 5, on a
( )
5
5!
120
= C53 =
=
= 10.
3
3!(5 3)!
62

5.3
5.3.1

Variables al
eatoires
D
enition

La notion de variable aleatoire formalise lassociation dune valeur au resultat


dune experience aleatoire.
D
enition 5.5 Une variable aleatoire X est une application de lensemble fondamental dans R.

Exemple 5.7 On consid`ere une experience aleatoire consistant `a lancer deux


pi`eces de monnaie. Lensemble des resultats possibles est
= {(F, F ), (F, P ), (P, F ), (P, P )}.
Chacun des elements de a une probabilite 1/4. Une variable aleatoire va
associer une valeur `a chacun des elements de . Considerons la variable aleatoire
representant le nombre de Faces obtenus :

0 avec une probabilite 1/4


1 avec une probabilite 1/2
X=

2 avec une probabilite 1/4.


Cest une variable aleatoire discr`ete dont la distribution de probabilites est
presentee en Figure 5.1.


`
5.4. VARIABLES ALEATOIRES
DISCRETES

0.0

0.1

0.2

0.3

0.4

0.5

97

Figure 5.1 Distribution de faces obtenus.

5.4

Variables al
eatoires discr`
etes

5.4.1

D
enition, esp
erance et variance

Une variable aleatoire discr`ete prend uniquement des valeurs enti`eres (de Z).
Une distribution de probabilites pX (x) est une fonction qui associe `a chaque
valeur enti`ere une probabilite.
pX (x) = Pr(X = x), x Z.
La fonction de repartition est denie par
FX (x) = Pr(X x) =

pX (z).

zx

Lesperance mathematique dune variable aleatoire discr`ete est denie de la


mani`ere suivante :

= E(X) =
xpX (x),
xZ

et sa variance

[
]

2
2 = var(X) = E {X E(X)} =
pX (x)(x )2 =
pX (x)x2 2 .
xZ

xZ

On peut aussi calculer les moments et tous les autres param`etres.

5.4.2

Variable indicatrice ou bernoullienne

La variable indicatrice X de param`etre p [0, 1] a la distribution de probabilites suivante :


{
1 avec une probabilite p
X=
0 avec une probabilite 1 p.

ET VARIABLES ALEATOIRES

98CHAPITRE 5. CALCUL DES PROBABILITES


Lesperance vaut
= E(X) = 0 (1 p) + 1 p = p,
et la variance vaut
2 = var(X) = E(X p)2 = (1 p)(0 p)2 + p(1 p)2 = p(1 p).
Exemple 5.8 On tire au hasard une boule dans une urne contenant 18 boules
rouges et 12 boules blanches. Si X vaut 1 si la boule est rouge et 0 sinon, alors
X a une loi bernoullienne de param`etre p = 18/(18 + 12) = 0.6.

5.4.3

Variable binomiale

La variable aleatoire binomiale de param`etres n et p correspond `a lexperience


suivante. On renouvelle n fois de mani`ere independante une epreuve de Bernoulli
de param`etre p, o`
u p est la probabilite de succ`es pour une experience elementaire.
Ensuite, on note X le nombre de succ`es obtenus. Le nombre de succ`es est une
variable aleatoire prenant des valeurs enti`eres de 0 `a n et ayant une distribution
binomiale.
Une variable X suit une loi binomiale de param`etre 0 < p < 1 et dexposant
n, si
(n)
Pr(X = x) =
px q nx , x = 0, 1, . . . , n 1, n,
x
o`
u q = 1 p, et
(n)
n!
=
.
x
x!(n x)!
De mani`ere synthetique, si X a une distribution binomiale, on note :
X B(n, p).
Rappel Cette variable est appelee binomiale car sa distribution de probabilites est un terme du developpement du binome de Newton (p + q)n .
(p + q)0
(p + q)1

= 1
= p+q =1

(p + q)2
(p + q)3

= p2 + 2pq + q 2 = 1
= p3 + 3p2 q + 3pq 2 + q 3 = 1

(p + q)4

= p4 + 4p3 q + 6p2 q 2 + 4pq 3 + q 4 = 1


..
.
n ( )

n x nx
=
p q
= 1.
x
x=0

(p + q)n


`
5.4. VARIABLES ALEATOIRES
DISCRETES

99

La somme de ces probabilites vaut 1. En eet

Pr(X = x) =

x=0

n ( )

n
x=0

px q nx = (p + q)n = 1.

Lesperance se calcule de la mani`ere suivante :

E(X) =
=

x=0
n

x=0
n

xPr(X = x)
x

(n)
x

px q nx

(n)

px q nx (on peut enlever le terme x = 0)


x
x=1
(
)
n

n1
=
n
px q nx
x

1
x=1
)
n (

n1
= np
px1 q (n1)(x1)
x

1
x=1
n1
(n 1)
= np
pz q (n1)z (en posant z = x 1)
z
z=0
=

= np(p + q)n1
= np.

Th
eor`
eme 5.3 La variance est donnee par

var(X) = npq.

D
emonstration
Pour calculer cette variance, nous allons dabbord calculer E[X(X 1)]. Ce

ET VARIABLES ALEATOIRES

100CHAPITRE 5. CALCUL DES PROBABILITES


resultat preliminaire nous permettra de determiner ensuite la variance.
E[X(X 1)] =
=

x=0
n

x=0
n

x(x 1)Pr(X = x)
x(x 1)
x(x 1)

(n)
x

px q nx

(n)

px q nx (on peut enlever les termes x = 0 et x = 1)


x
x=2
(
)
n

n2
=
n(n 1)
px q nx
x

2
x=2
)
n (

n2
2
= n(n 1)p
px2 q (n2)(x2)
x

2
x=2
n2
(n 2)
2
= n(n 1)p
pz q (n2)z (en posant z = x 2)
z
z=0
=

= n(n 1)p2 (p + q)n2


= n(n 1)p2 .
Comme
var(X) = E(X 2 ) E2 (X)
et que
E[X(X 1)] = E(X 2 ) E(X),
on obtient
var(X) = E[X(X1)]+E(X)E2 (X) = n(n1)p2 +np(np)2 = np(1p) = npq.
2

Exemple 5.9 On tire au hasard avec remise et de mani`ere independante 5


boules dans une urne contenant 18 boules rouges et 12 boules blanches. Si X est
le nombre de boules rouges obtenues, alors X a une loi binomiale de param`etre
p = 18/(18 + 12) = 0.6, et dexposant n = 5. Donc,

Pr(X = x) =

( )
5
0.6x 0.45x , x = 0, 1, . . . , 4, 5,
x


`
5.4. VARIABLES ALEATOIRES
DISCRETES

101

ce qui donne
Pr(X = 0)

Pr(X = 1)

Pr(X = 2)

Pr(X = 3)

Pr(X = 4)

Pr(X = 5)

5!
0.60 0.450
0!(5 0)!
5!
0.61 0.451
1!(5 1)!
5!
0.62 0.452
2!(5 2)!
5!
0.63 0.453
3!(5 3)!
5!
0.64 0.454
4!(5 4)!
5!
0.65 0.455
5!(5 5)!

= 1 0.45 = 0.01024
= 5 0.61 0.44 = 0.0768
= 10 0.62 0.43 = 0.2304
= 10 0.63 0.42 = 0.3456
= 5 0.64 0.41 = 0.2592
= 1 0.65 = 0.07776.

0.00

0.15

0.30

La distribution de probabilites de la variable X est presentee dans la Figure 5.2.

Figure 5.2 Distribution dune variable aleatoire binomiale avec n = 5 et


p = 0.6.

Exemple 5.10 Supposons que, dans une population delecteurs, 60% des
electeurs sappretent `a voter pour le candidat A et 40% pour le candidat B
et que lon selectionne un echantillon aleatoire de 10 electeurs avec remise dans
cette population. Soit X le nombre de personnes sappretant `a voter pour le
candidat A dans lechantillon. La variable X a une distribution binomiale de
param`etres n = 10 et p = 0.6 et donc
(
Pr(X = x) =

10
x

)
0.6x (0.4)10x , x = 0, 1, . . . , n 1, n.

ET VARIABLES ALEATOIRES

102CHAPITRE 5. CALCUL DES PROBABILITES

5.4.4

Variable de Poisson

La variable X suit une loi de Poisson, ou loi des evenements rares, de param`etre R+ si
Pr(X = x) =

e x
, x = 0, 1, 2, 3, . . . .
x!

On note alors X P(). La somme des probabilites est bien egale `a 1, en eet

Pr(X = x) =

x=0

e x

x!

x=0

= e

x
x=0

x!

= e e = 1.

Cette loi exprime la probabilite de loccurence dun nombre devenements dans


un laps de temps xe si ces evenements se produisent avec un taux moyen connu
() et independamment du temps doccurrence du dernier evenement.
Lesperance et la variance dune loi de Poisson sont egales au param`etre .
En eet
E(X) =
=

x=0

xPr(X = x)
x

x=0

e x
x!

x
x
x!
x=1

x1
(x 1)!
x=1

z
z=0

e e

z!

en posant z = x 1

En outre, il est possible de montrer que


var(X) = .
La distribution de probabilites dune variable de Poisson P( = 1) est presentee
dans la Figure 5.3.
En langage R
#
# distributions de probabilit
es discr`
etes
#


5.5. VARIABLE ALEATOIRE
CONTINUE

0.0

0.2

103

Figure 5.3 Distribution dune variable de Poisson avec = 1.


# nombre de faces obtenues en lan
cant deux pi`
eces
plot(0:2,dbinom(0:2, 2,0.5),type = "h", lwd=3,
ylim=c(0,0.5),xlab="",ylab="",xaxt = "n",frame = FALSE)
axis(1, 0:2, 0:2, col.axis = "blue")
# binomiale B(5,0.6)
plot(dbinom(0:5, 5,0.6),type = "h",
lwd=3,xlab="",ylab="",main="",frame=FALSE)
# Poisson P(1)
plot(dpois(0:7, 1),type = "h",
lwd=3,xlab="",ylab="",main="",frame=FALSE)

5.5
5.5.1

Variable al
eatoire continue
D
enition, esp
erance et variance

Une variable aleatoire continue prend des valeurs dans R ou dans un intervalle de R.
La probabilite quune variable aleatoire continue soit inferieure `a une valeur
particuli`ere est donnee par sa fonction de repartition.
Pr(X x) = F (x).
La fonction de repartition dune variable aleatoire continue est toujours :
derivable,
positive : F (x) 0, pour tout x,
croissante,
limx F (x) = 1,
limx F (x) = 0.
On a
Pr(a X b) = F (b) F (a).

ET VARIABLES ALEATOIRES

104CHAPITRE 5. CALCUL DES PROBABILITES


La fonction de densite dune variable aleatoire continue est la derivee de la
fonction de repartition en un point
f (x) =

dF (x)
.
dx

Une fonction de densite est toujours :


positive : f (x) 0, pour tout x,

daire egale `a un : f (x)dx = 1.


On a evidemment la relation :
b
F (b) =
f (x)dx.

La probabilite que la variable aleatoire soit inferieure `a une valeur quelconque


vaut :
a
Pr(X a) =

f (x)dx = F (a).

Dans la Figure 5.4, la probabilite Pr[X a] est laire sous la densite de `a


a.

Pr[X a] = F (a)

Figure 5.4 Probabilite que la variable aleatoire soit inferieure `a a


La probabilite que la variable aleatoire prenne une valeur comprise entre a
et b vaut
b
Pr(a X b) =
f (x)dx = F (b) F (a).
a

Si la variable aleatoire est continue, la probabilite quelle prenne exactement


une valeur quelconque est nulle :
Pr(X = a) = 0.
Lesperance dune variable aleatoire continue est denie par :

= E(X) =
xf (x)dx,

et la variance
2 = var(X) =

(x )2 f (x)dx.


5.5. VARIABLE ALEATOIRE
CONTINUE

5.5.2

105

Variable uniforme

Une variable aleatoire X est dite uniforme dans un intervalle [a,b] (avec
a < b), si sa repartition est :

0
(x a)/(b a)
F (x) =

si x < a
si a x b
si x > b.

Sa densite est alors

0
1/(b a)
f (x) =

si x < a
si a x b
si x > b.

De mani`ere synthetique, on ecrit :


X U (a, b).
Les logiciels gen`erent en general des variables aleatoires uniformes dans [0,1].
Les Figures 5.5 et 5.6 representent respectivement les fonctions de densite et de
repartition dune variable uniforme.
f (x)
1
ba

a
b
Figure 5.5 Fonction de densite dune variable uniforme
On peut calculer lesperance et la variance :
R
esultat 5.1
= E(X) =

b+a
2

ET VARIABLES ALEATOIRES

106CHAPITRE 5. CALCUL DES PROBABILITES

"
"
"
"
a

"
"
"
"
"
F (x)
"
"

"
"
"
"

Figure 5.6 Fonction de repartition dune variable uniforme

D
emonstration
=

E(X)
b
=
xf (x)dx

=
=
=
=
=
=

a
b

1
dx
b

a
a
b
1
xdx
ba a
[ 2 ]b
x
1
ba 2 a
( 2
)
1
b
a2

ba 2
2
1 1
(b + a)(b a)
ba2
a+b
.
2
x

R
esultat 5.2
2 = var(X) =

(b a)2
.
12

D
emonstration
De mani`ere generale, une variance peut toujours secrire comme un moment `a


5.5. VARIABLE ALEATOIRE
CONTINUE

107

lorigine dordre 2 moins le carre de la moyenne. En eet,


2

var(X)
b
=
(x )2 f (x)dx

(x2 + 2 2x)f (x)dx

2 f (x)dx 2

x2 f (x)dx +

xf (x)dx
a

x2 f (x)dx + 2 22

=
b

x2 f (x)dx 2 .

=
a

On calcule ensuite un moment `a lorigine dordre 2 :


b
b
1
x2 f (x)dx =
x2
dx
ba
a
a
b
1
=
x2 dx
ba a
[ 3 ]b
x
1
=
ba 3 a
( 3
)
1
b
a3
=

ba 3
3
1 1 2
=
(b + ab + a2 )(b a)
ba3
b2 + ab + a2
=
.
3
On obtient enn la variance par dierence :
b
2
=
x2 f (x)dx 2
a

=
=
=
=

b2 + ab + a2
(a + b)2

3
4
4b2 + 4ab + 4a2
3a2 + 6ab + 3b2

12
12
b2 2ab + a2
12
(b a)2
.
12
2

ET VARIABLES ALEATOIRES

108CHAPITRE 5. CALCUL DES PROBABILITES

5.5.3

Variable normale

Une variable aleatoire X est dite normale si sa densite vaut


(
)2
1
1 x
f,2 (x) = exp
,
2

(5.1)

o`
u R et R+ sont les param`etres de la distribution. Le param`etre est
appele la moyenne et le param`etre lecart-type de la distribution.

Figure 5.7 Fonction de densite dune variable normale


De mani`ere synthetique, pour noter que X suit une loi normale (ou gaussienne, dapr`es Carl Friedrich Gauss) de moyenne et de variance 2 on ecrit :
X N (, 2 ).
La loi normale est une des principales distributions de probabilite. Elle a de
nombreuses applications en statistique. Sa fonction de densite dessine une courbe
dite courbe de Gauss. On peut montrer (sans demonstration) que
E(X) = ,
et
var(X) = 2 .
La fonction de repartition vaut

F,2 (x) =

5.5.4

(
)2
1
1 u
exp
du.
2

Variable normale centr


ee r
eduite

La variable aleatoire normale centree reduite est une variable normale, desperance
nulle, = 0, et de variance 2 = 1. Sa fonction de densite vaut
x2
1
f0,1 (x) = exp .
2
2


5.5. VARIABLE ALEATOIRE
CONTINUE

109

0.5

Figure 5.8 Fonction de repartition dune variable normale


et sa repartition vaut

(x) = F0,1 (x) =

1
exp
2

u2
2

)
du.

Du fait de la symetrie de la densite, on a la relation


(x) = 1 (x),
qui se comprend facilement en examinant la Figure 5.9.

Figure 5.9 Densite dune normale centree reduite, symetrie


De plus, le calcul de la repartition dune variable normale de moyenne et
de variance 2 peut toujours etre ramene `a une normale centree reduite.
(

R
esultat 5.3
F,2 (x) =
D
emonstration
On a
F,2 (x) =

1
exp
2

En posant
z=

)
.

{ (
)2 }
1 u
du.
2

u
,

ET VARIABLES ALEATOIRES

110CHAPITRE 5. CALCUL DES PROBABILITES


on obtient u = z + , et donc du = dz. Donc,

F,2 (x) =

1
exp
2

z2
2

(
dz =

)
.

2
Les tables de la variable normale ne sont donnees que pour la normale centree
reduite. Les tables ne donnent (x) que pour les valeurs positives de x, car les
valeurs negatives peuvent etre trouvees par la relation de symetrie.

5.5.5

Distribution exponentielle

Soit une variable aleatoire X qui denit la duree de vie dun phenom`ene ou
don objet. Si la duree de vie est sans vieillissement, cest-`a-dire la duree de
vie au dela dun instant T est independante de linstant T , alors sa fonction de
densite est donnee par :
{
exp (x), si x > 0
f (x) =
0
sinon
On dit que X suit une loi exponentielle de param`etre positif. De mani`ere
synthetique, on ecrit :
X ().
Quand x > 0, sa fonction de repartition vaut :
x
x
[
]x
F (x) =
f (u)du =
eu du = eu 0 = 1 ex .
0

On peut alors calculer la moyenne :


R
esultat 5.4 E(X) =

D
emonstration

E(X) =
xf (x)dx =
0

[
] (
)
1 + x x
1
1
xex dx =
e
= 0+
= .

0
2

Il est egalement possible de montrer que la variance vaut :


var(X) =

5.6

1
.
2

Distribution bivari
ee

Deux variables aleatoires peuvent avoir une distribution jointe.


5.6. DISTRIBUTION BIVARIEE

0.0

0.2

0.4

0.6

0.8

1.0

111

Figure 5.10 Fonction de densite dune variable exponentielle avec = 1.

5.6.1

Cas continu

Soit deux variables aleatoires X et Y continues, leur distribution de densite


f (x, y) est une fonction continue, positive, et telle que

f (x, y)dxdy = 1.

La fonction de repartition jointe est denie par


x
F (x, y) = Pr(X x et Y y) =

f (u, v)dvdu.

On appelle densites marginales les fonctions


fX (x) =
f (x, y)dy, et fY (y) =

f (x, y)dx.

Avec les distributions marginales, on peut denir les moyennes marginales, et


les variances marginales :


X =
xfX (x)dx, et Y =
yfY (y)dy,

2
X
=

(x X )2 fX (x)dx, et Y2 =

(y Y )2 fY (y)dy.

ET VARIABLES ALEATOIRES

112CHAPITRE 5. CALCUL DES PROBABILITES


On appelle densites conditionnelles, les fonctions
f (x, y)
f (x, y)
et f (y|x) =
.
fY (y)
fX (x)

f (x|y) =

Avec les distributions conditionnelles, on peut denir les moyennes conditionnelles, et les variances conditionnelles :


X (y) = E(X|Y = y) =
xf (x|y)dx, et Y (x) = E(Y |X = x) =
yf (y|x)dy,

2
X
(y)

= var(X|Y = y) =

{x X (y)} f (x|y)dx, et

Y2

(x) = var(Y |X = x) =

Enn, la covariance entre X et Y est denie par



xy = cov(X, Y ) =
(x X )(y Y )f (x, y)dxdy.

5.6.2

Cas discret

Soit deux variables aleatoires X et Y discr`etes, leur distribution de probabilite jointe p(x, y) est telle que

p(x, y) = 1.
xZ yZ

La fonction de repartition jointe est denie par


F (x, y) = Pr(X x et Y y) =

p(u, v).

ux vv

On appelle distributions de probabilte marginales les fonctions

pX (x) =
p(x, y), et pY (y) =
p(x, y).
yZ

xZ

Avec les distributions marginales, on peut denir les moyennes marginales, et


les variances marginales :

X =
xpX (x), et Y =
ypY (y),
xZ
2
X
=

yZ

(x X )2 pX (x), et Y2 =

(y Y )2 pY (y).

yZ

xZ

On appelle densites conditionnelles, les fonctions


p(x|y) =

p(x, y)
p(x, y)
et p(y|x) =
.
pY (y)
pX (x)

{y Y (x)


5.6. DISTRIBUTION BIVARIEE

113

Avec les distributions conditionnelles, on peut denir les moyennes conditionnelles, et les variances conditionnelles :

X (y) =
xp(x|y), et Y (x) =
yp(y|x),
xZ
2
(y) =
X

yZ
2

{x X (y)} p(x|y), et Y2 (x) =

xZ

{y Y (x)} p(y|x).

xZ

Enn, la covariance entre X et Y est denie par

xy = cov(X, Y ) =
(x X )(y Y )p(x, y).
xZ yZ

5.6.3

Remarques

Dans les deux cas discrets et continus, on peut toujours ecrire


[
]
var(X) = E[X E(X)]2 = E X 2 2XE(X) + E2 (X)
=

E(X 2 ) 2E(X)E(X) + E2 (X) = E(X 2 ) E2 (X).

De meme,
var(X|Y = y) =

{
}
E [X E(X|Y = y)]2 |Y = y = E(X 2 |Y = y) E2 (X|Y = y).

On a egalement
cov(X, Y )

E[X E(X)][Y E(Y )] = E [XY Y E(X) XE(Y ) + E(X)E(Y )]

= E(XY ) E(X)E(Y ) E(X)E(Y ) + E(X)E(Y ) = E(XY ) E(X)E(Y ).


Loperateur esperance permet donc de denir la variance et la covariance.

5.6.4

Ind
ependance de deux variables al
eatoires

Deux variables aleatoires X et Y sont dites independantes, si


Pr(X x et Y y) = Pr(X x)Pr(Y y), pour tout x, y R.
Si X et Y sont discr`etes, cela implique que
Pr(X = x et Y = y) = Pr(X = x)Pr(Y = y), pour tout x, y Z.
Si X et Y sont continues, en notant fX (.) et fY (.) les fonctions de densite
respectives de X et Y , et en notant fXY (x, y) la densite jointe des deux
variables, alors X et Y sont independants si
fXY (x, y) = fX (x)fY (y), x, y R.

ET VARIABLES ALEATOIRES

114CHAPITRE 5. CALCUL DES PROBABILITES

5.7

Propri
et
es des esp
erances et des variances

De mani`ere generale, pour des variables aleatoires X et Y , et avec a et b


constants, on a les resultats suivants qui sont demontrees pour le cas continu. Ces
resultats sont egalement valables pour le cas discret pour lequel les demonstrations
sont similaires.
R
esultat 5.5
E(a + bX) = a + bE(X)
D
emonstration

E(a + bX) =

(a + bx)f (x)dx = a
R

f (x)dx + b

xf (x)dx = a + bE(X).
R

2
R
esultat 5.6
E(aY + bX) = aE(Y ) + bE(X).
D
emonstration

E(aY + bX) =

(ay + bx)f (x, y)dxdy




= a
yf (x, y)dxdy + b
xf (x, y)dxdy
R R
R R
= a y f (x, y)dxdy + b x f (x, y)dydx
R
R
R R

= a yf (y)dy + b xf (x)dx
R

= aE(Y ) + bE(X)

2
Quand a et b valent 1, on obtient que lesperance de la somme de deux
variables aleatoires est egale `a la somme de leur esperances :
E(X + Y ) = E(X) + E(Y ).
R
esultat 5.7
var(a + bX) = b2 var(X).

ES
DES ESPERANCES

5.7. PROPRIET
ET DES VARIANCES

115

D
emonstration

var(a + bX) =

[a + bx E(a + bX)]2 f (x)dx


[a + bx (a + bE(X))]2 f (x)dx

[bx bE(X)]2 f (x)dx


R

2
[x E(X)]2 f (x)dx
= b

= b2 var(X).
2 La variance nest donc pas sensible `a un changement dorigine, mais est
aectee par le carre dun changement dunite.
R
esultat 5.8
var(X + Y ) = var(X) + var(Y ) + 2cov(X, Y ).
D
emonstration

var(X + Y )

=
R

[x + y E(X + Y )]2 f (x, y)dxdy

[x E(X) + y E(Y )]2 f (x, y)dxdy

}
[x E(X)]2 + [y E(Y )]2 + 2[x E(X)][y E(Y )] f (x, y)dxdy
R R

=
[x E(X)]2 f (x, y)dxdy +
[y E(Y )]2 ]f (x, y)dxdy
R R
R R

+2
[x E(X)][y E(Y )]f (x, y)dxdy
R R

=
[x E(X)]2 f (x, y)dydx + [y E(Y )]2 ] f (x, y)dxdy + 2cov(X, Y )
R
R
R
R

2
2
=
[x E(X)] fX (x)dx + [y E(Y )] ]fy (Y )dy + 2cov(X, Y )
=

= var(X) + var(Y ) + 2cov(X, Y )

2
R
esultat 5.9 De plus, si X et Y sont independantes, on a f (x, y) = fX (x)Y f (y)
pour tout x, y
E(XY ) = E(X)E(Y ).

ET VARIABLES ALEATOIRES

116CHAPITRE 5. CALCUL DES PROBABILITES


D
emonstration

E(XY ) =

xyfX (x)fY (y)dxdy

=
xfX (x)dx yfY (y)dy
R

= E(X)E(Y ).
2
Comme, de mani`ere generale cov(X, Y ) = E(XY ) E(X)E(Y ), on deduit
directement du Resultat 5.9 que, si X et Y sont independantes, on a cov(X, Y ) =
0, et donc
var(X + Y ) = var(X) + var(Y ).
Attention, la reciproque nest pas vraie. Une covariance nulle nimplique pas
que les deux variables sont independantes.
Enn, il est possible de calculer lesperance et la variance dune somme de
variables aleatoires independantes, et identiquement distribuees.
Th
eor`
eme 5.4 Soit X1 , . . . , Xn une suite de variables aleatoires, independantes
et identiquement distribuees et dont la moyenne et la variance 2 existent et
sont nies, alors si
n

= 1
X
Xi ,
n i=1
on a
= , et var(X)
=
E(X)

2
.
n

D
emonstration
( )
=E
E X
et

5.8
5.8.1

( )
= var
var X

1
Xi
n i=1
n

1
Xi
n i=1
n

1
1
E (Xi ) =
= .
n i=1
n i=1
n

)
=

n
n
1
1 2
2
var
(X
)
=

=
.
i
n2 i=1
n2 i=1
n

Autres variables al
eatoires
Variable khi-carr
ee

Soit une suite de variables aleatoires independantes, normales centrees reduites,


X1 , . . . , Xp , (cest-`
a-dire de moyenne nulle et de variance egale `a 1), alors la variable aleatoire
p

2
p =
Xi2 ,
i=1


5.8. AUTRES VARIABLES ALEATOIRES

117

est appelee variable aleatoire khi-carre `a p degres de liberte.


Il est possible de montrer que
E(2p ) = p,
et que
var(2p ) = 2p.

0.35

0.3

0.25

0.2

0.15

0.1

0.05

10

12

14

Figure 5.11 Densite dune variable de chi-carre avec p = 1, 2, . . . , 10

5.8.2

Variable de Student

Soit une variable aleatoire X normale centree reduite, et une variable aleatoire
khi-carre 2p `a p degres de liberte, independante de X, alors la variable aleatoire
X
tp =
2p /p
est appelee variable aleatoire de Student `a p degres de liberte.

5.8.3

Variable de Fisher

Soient deux variables aleatoires khi-carres independantes 2p , 2q , respectivement `a p et q degres de liberte, alors la variable aleatoire
Fp,q =

2p /p
2q /q

est appelee variable aleatoire de Fisher `a p et q degres de liberte.


Remarque 5.1 Il est facile de montrer que le carre dune variable de Student
`a q degres de liberte est une variable de Fisher `a 1 et q degres de liberte.

ET VARIABLES ALEATOIRES

118CHAPITRE 5. CALCUL DES PROBABILITES


0.4

0.3

0.2

0.1

-4

-2

Figure 5.12 Densites de variables de Student avec p = 1, 2 et 3 et dune


variable normale
0.7

0.6

0.5

0.4

0.3

0.2

0.1

Figure 5.13 Densite dune variable de Fisher

5.8.4

Loi normale bivari


ee

Les variables X et Y suivent une loi normale bivariee si leur densite jointe
est donnee par
{
[
]}
2(x x )(y y ) (y y )2
1
1
(x x )2

f (x, y) =
exp
+
.
2(1 2 )
x2
x y
y2
2x y 1 2
(5.2)
La fonction de densite depend de 5 param`etres
les deux moyennes marginales x R et y R,
les deux variances marginales x2 > 0 et y2 > 0,
le coecient de correlation 1 < < 1.
Un exemple de normale bivariee est presentee dans la Figure 5.14.
La Figure 5.15 montre le nuage de points de 1000 realisations dune normale
bivariee avec les param`etres suivants : x = 8, y = 20, x2 = 9, y2 = 25,
= 0.6.
En langage R


5.8. AUTRES VARIABLES ALEATOIRES

119

Figure 5.14 Densite dune normale bivariee

20
5

10

15

25

30

35

a=8; b=3 ;c=12 ; d=4


X=a+ b*rnorm(2000)
Y=c+X+d*rnorm(2000)
plot(X,Y,type="p")

10

15

Figure 5.15 Nuage de points de realisations dune normale bivariee


Th
eor`
eme 5.5 Les deux distributions marginales dune distribution normale

ET VARIABLES ALEATOIRES

120CHAPITRE 5. CALCUL DES PROBABILITES


bivariee ont une distribution normale donnee par :

1
(x x )2
fX (x) =
f (x, y)dy = exp
2x2
x 2


1
(y y )2
fY (y) =
f (x, y)dx = exp
2y2
y 2

D
emonstration (pour fX (x))
On peut verier que la densite jointe peut egalement secrire :
{
(
)
(
)2 }
1
(x x )2
1
1 y y (x)
exp
exp
,
f (x, y) =
2x2
2
y (x)
x 2
y (x) 2
o`
u
y (x) = y +

y
(x x ) et y2 (x) = y2 (1 2 ).
x

On a

fX (x) =

f (x, y)dy

(
=

(x x )2
exp
2x2
2

)
|

1
exp
y (x) 2

1
2
{z

y y (x)
y (x)

)2 }

=1

2
Le Theor`eme 5.5 montre que les deux distributions marginales sont normales,
que x et y sont les moyennes marginales, et que x2 et x2 sont les deux variance
marginales de la distribution jointes. On peut egalement montrer `a partir du
Theor`eme 5.5 que le volume sous la courbe vaut bien 1. En eet


f (x, y)dxdy =
fY (y)dy = 1.

Attention, la reciproque du Theor`eme 5.5 nest pas necessairement vraie. Une


distribution bivariee dont les deux distributions marginales sont normales, nest
pas necessairement normale.
Th
eor`
eme 5.6 Toutes les distributions conditionnelles dune distribution normale bivariee ont une distribution normale donnee par :
{
(
)2 }
1
1 y y (x)
exp
f (y|x) =
2
y (x)
y (x) 2
o`
u
y (x) = y +

y
(x x ) et y2 (x) = y2 (1 2 ).
x

dy .
}


5.8. AUTRES VARIABLES ALEATOIRES
et
1
exp
f (x|y) =
x (y) 2
o`
u
x (y) = x +

1
2

121
(

x x (y)
x (y)

)2 }

x
(y y ) et x2 (y) = x2 (1 2 ).
y

D
emonstration (pour f (y|x))
f (y|x) =

=
=
=

f (x, y)
fX (x)
2x y

{
1 2

exp

[
]}
2(x x )(y y ) (y y )2
1
(x x )2

+
2(1 2 )
x2
x y
y2

1
(x x )2
exp
2x2
x 2
{
[
]
}
1
1
2(x x )(y y ) (y y )2
(x x )2
(x x )2

exp

+
+
2(1 2 )
x2
x y
y2
2x2
y 2(1 2 )
{
[ 2
]}
2(x x )(y y ) (y y )2
1
1
(x x )2

exp
+
2(1 2 )
x2
x y
y2
y 2(1 2 )
{
(
)2 }
1
1
y y
(x x )

exp

2
2
y
x
y 2(1 )
2 1

(
)2

y y xy (x x )
1
1

exp
2 1 2

y
y 2(1 2 )
{
}
(
)2
1
1 y y (x)
exp
.
2
y (x)
y (x) 2

2
Le Theor`eme 5.6 montre que toutes les distributions conditionnelles sont
egalement normales. La variance conditionnelle de Y pour une valeur xee de x
de la variable X vaut :
E(Y |X = x) = y (x) = y +

y
(x x ).
x

De meme, lesperance conditionnelle de X pour une valeur xee de y de la


variable Y vaut :
E(X|Y = y) = x (y) = x +

x
(y y ).
y

La variance conditionnelle de Y pour une valeur xee de x de la variable X


vaut :
var(Y |X = x) = y2 (x) = y2 (1 2 ).

ET VARIABLES ALEATOIRES

122CHAPITRE 5. CALCUL DES PROBABILITES


Cette variance conditionnelle ne depend pas de x. La variance conditionnelle de
X pour une valeur xee de y de la variable Y vaut :
var(X|Y = y) = x2 (y) = x2 (1 2 ),
et ne depend pas de y. Cette variance conditionnelle ne depend pas de y. Les
variances conditionnelles sont donc homoscedastiques (meme variance).
Th
eor`
eme 5.7

cov(X, Y ) =

(x x )(y y )f (x, y)dydx = x y .

D
emonstration
La covariance peut egalement secrire

cov(X, Y ) = E(XY ) E(X)E(Y ) =


On a :

xyf (x, y)dydx x y .




xyf (x, y)dxdy =
xyfX (x)f (y|x)dydx =
xfX (x)
yf (y|x)dydx

]
[


y
y
(x x ) dx = y
xfX (x)dx +
xfX (x)(x x )dx
=
xfX (x) y +
x
x

y 2
= y x + x y .
= y x +
x x

Donc

(x x )(y y )f (x, y)dxdy = x y .

2
Le param`etre est bien un coecient de correlation entre les variables X et
X car il peut secrire :
cov(X, Y )
x y
=
=
= .
x y
var(X)var(Y )
Th
eor`
eme 5.8 Si les deux variables X et Y ont une distribution normale bivariee et que leur coecient de correlation est nul, alors X et Y sont independantes.
D
emonstration
Si = 0, alors de lExpression 5.2, la distribution jointe vaut :
{
[
]}
1
1 (x x )2
(y y )2
f (x, y) =
exp
+
2x y
2
x2
y2
(
{
})
{
})
(
(x x )2
1
(y y )2
1

exp
exp
=
2x2
2y2
2x
2y
= fX (x)fY (y).


5.8. AUTRES VARIABLES ALEATOIRES

123

Dans ce cas, la densite jointe peut secrire comme le produit des deux densites
marginales. Les deux variables sont donc independantes.
2
Attention, si les deux variables nont pas une distribution normale bivariee,
une covariance nulle nimplique plus que les variables sont independantes.

Exercices
Exercice 5.1 Soit Z N (0, 1). Determinez :
1. Pr[Z 1, 23] ;
2. Pr[Z 1, 23] ;
3. Pr[Z [0, 36; 1, 23]] ;
4. Pr[Z [0, 88; 1, 23]] ;
5. Pr[Z > 2, 65 ou Z 1, 49].

Solution
1. Pr[Z 1, 23] = F (1, 23) = 0, 8907
2. Pr[Z 1, 23] = 1 F (1, 23) = 0.1093
3. Pr[Z [0, 36; 1, 23]] = F (1, 23) F (0, 36) = 0, 8907 0, 6406 = 0, 2501
4. Pr[Z [0, 88; 1, 23] = F (1, 23) F (0, 88) = 0, 8907 (1 F (0, 88)) =
0, 8907 0, 1894 = 0, 7013
5. Pr[Z > 2, 65 ou Z 1, 49] = Pr[Z > 2, 65] + Pr[Z 1, 49] = 1
F (2, 65) + F (1, 49) = 1 F (2, 65) + 1 F (1, 49) = 2 0, 9960 0, 9319 =
0, 0721

Exercice 5.2 Determinez les valeurs j de la variable normale centree reduite


Z telles que :
1. Pr[Z j] = 0, 9332 ;
2. Pr[j Z j] = 0, 3438 ;
3. Pr[Z j] = 0, 0125 ;
4. Pr[Z j] = 0, 0125 ;
5. Pr[j Z 3] = 0, 7907.

Solution
Lecture inverse de la table.
1. Pr[Z j] = 0, 9332 F (j) = 0, 9332 j = 1, 5

ET VARIABLES ALEATOIRES

124CHAPITRE 5. CALCUL DES PROBABILITES


2. Pr[j Z j] = 0, 3438 F (j)F (j) = F (j)1+F (j) = 2F (j)1 =
0, 3438 F (j) = 0, 6719 j = 0, 45
3. Pr[Z j] = 0, 0125 F (j) = 0, 0125(j est negatif) 1 F (j) =
0, 0125 F (j) = 0, 9875 j = 2, 24
4. Pr[Z j] = 0, 0125 = 1 F (j) F (j) = 0, 9875 j = 2, 24
5. Pr[j Z 3] = 0, 7907 = F (3) F (j) 0, 7907 = 0, 9987 F (j)
F (j) = 0, 2080 (negatif) F (j) = 0, 7920 j = 0, 81 j = 0, 81.

Exercice 5.3 Soit une variable aleatoire X N (53; 2 = 100) representant le


resultat dun examen pour un etudiant dune section. Determinez la probabilite
pour que le resultat soit compris entre 33,4 et 72,6.
Solution
Soit X N (53, 100) Z =

X 53
N (0, 1)
10

Pr[33, 4 X 72, 6]
[
]
33, 4 53
X 53
72, 6 53
= Pr

10
10
10
= Pr[1, 96 Z 1, 96]
= 2F(1, 96) 1 = 2 0, 975 1
= 0, 95

Exercice 5.4 Soit une variable aleatoire X N (50; 2 = 100). Determinez le


premier quartile de cette distribution.
Solution
Si X N (50, 10), alors Z = (X 50)/10 N (0, 1). Par denition le premier
quartile x1/4 est tel que
[
]
Pr X x1/4 = 1/4.
Donc

[
]
[
]
1/4 50
X 50
Pr X x1/4 = P

10
10
= P [Z z1/4 ] = 0, 25,

o`
u z1/4 est le premier quartile dune variable aleatoire normale centree reduite.
Si F (.) est la fonction de repartition dune variable aleatoire normale centree
reduite, on a par la denition du quartile que
F (z1/4 ) = 0, 25.


5.8. AUTRES VARIABLES ALEATOIRES

125

Le premier quartile z1/4 est donc negatif. On a cependant. par la symetrie de la


distribution, que
F (z1/4 ) = 1 F (z1/4 ) = 0, 25,
ce qui donne
F (z1/4 ) = 0, 75.
La table nous donne que z1/4 = 0, 67 et donc z1/4 = 0, 67. Enn, comme
x1/4 50
= z1/4 = 0, 67,
10
on a une equation en x1/4 quil sut de resoudre
x1/4 = 50 0, 67 10 = 43, 3.

Exercice 5.5 En supposant que les tailles en cm des etudiants dun pays admettent la distribution normale N (172; 2 = 9). On demande de determiner le
pourcentage theorique :
a) detudiants mesurant au moins 180 cm.
b) detudiants dont la taille est comprise entre 168 et 180.
Solution
a) 0,0038 ; b) 0,9044.

Exercice 5.6 Sur une route principale o`


u la vitesse est limitee `a 80 km/h, un
radar a mesure la vitesse de toutes les automobiles pendant une journee. En
supposant que les vitesses recueillies soient distribuees normalement avec une
moyenne de 72 km/h et un ecart-type de 8 km/h, quelle est approximativement
la proportion dautomobiles ayant commis un exc`es de vitesse ?
Solution
La proportion dautomobiles ayant commis un exc`es de vitesse vaut
[
]
X x

80 72
P [X > 80] = 1P [X 80] = 1P

= 1P [Z 1] = 0, 159,
s
8
o`
u X represente la vitesse.

ET VARIABLES ALEATOIRES

126CHAPITRE 5. CALCUL DES PROBABILITES


Exercice 5.7 Pour lassemblage dune machine, on produit des cylindres dont
le diam`etre varie dapr`es une loi normale de moyenne 10 cm et decart-type 0,2
cm. On groupe les cylindres en 3 categories :
A : defectueux et inutilisable si le diam`etre est 9.95, le cylindre est alors
detruit.
B : utilisable et vendu au prix reduit de Fr. 5.-, si 9,95 le diam`etre 9,99.
C : correspond aux normes et est vendu Fr. 15.-, si le diam`etre est 9,99.
a) Calculer les proportions de cylindres produits de chaque type A, B et C.
b) La production dun cylindre co
ute Fr. 7.-. Quel est le prot moyen par cylindre
produit ?
Solution
a) Soit X le diam`etre, ainsi X N (10, 0.22 )
]
[
X 10
P [X 9.95] = P
0.25 = 0.401
0.2
[
]
X 10
P [9.95 < X 9.99] = P 0.25 <
0.05 = 0.079,
0.2
P [X > 9.99] = 1 (P [X 9.95] + P [9.95 < X 9.99] = 0.52.
b) prot= 5 0.079 + 15 0.52 7 = 1.195 fr.

Exercice 5.8 Donnez les quantiles dordre 99%, 97.5% et 95% :


1. dune variable normale centree reduite ;
2. dune variable Khi-carree `a 17 degres de liberte ;
3. dune variable de Student `a 8 degres de liberte ;
4. dune variable de Fisher (uniquement dordre 95%) `a 5 et 7 degres de
liberte.
Solution
1. `a 99% : 2.3263, `a 97.5% : 1.9600, `a 95% : 1.6449 ;
2. `a 99% : 33.41, `a 97.5% : 30.19, `a 95% : 27.59 ;
3. `a 99% : 2.896, `a 97.5% : 2.306, `a 95% : 1.860 ;
4. `a 95% : 3.972.

Chapitre 6

S
eries temporelles, ltres,
moyennes mobiles et
d
esaisonnalisation
6.1
6.1.1

D
enitions g
en
erales et exemples
D
enitions

D
enition 6.1 Une serie temporelle est une suite dobservations dune quantite
repetee dans le temps.
On enonce en general lhypoth`ese que les intervalles de temps sont equidistants.
La serie temporelle est notee
y1 , . . . , yt , . . . , yT .
On note egalement T = {1, 2, . . . , t, . . . , T } lensemble des instants auxquels les
observations sont realisees.
Une serie temporelle peut se composer de :
une tendance Tt ,
une composante cyclique Ct (nous netudierons pas cette question),
une composante saisonni`ere St ,
un residu Et (partie inexpliquee).
On etudie deux types de mod`eles :
Le mod`ele additif :
yt = Tt + Ct + St + Et
Le mod`ele multiplicatif :
yt = Tt Ct St Et .
Il peut etre interessant de decomposer la serie, ce qui consiste `a separer les
composantes Tt , Ct , St , Et .
127

128CHAPITRE 6. SERIES
TEMPORELLES, FILTRES, MOYENNES MOBILES ET DESAISONNA

6.1.2

Traitement des s
eries temporelles

Le traitement des series temporelles peut avoir plusieurs objectifs.


isoler et estimer une tendance,
isoler et estimer une composante saisonni`ere, et desaisonnaliser la serie,
realiser une prevision pour des valeurs inconnues manquantes, futures ou
passees,
construire un mod`ele explicatif en terme de causalite,
determiner la duree dun cycle.

6.1.3

Exemples

240 280 320 360

DUR

Exemple 6.1 Extrait de The Data and Story Library Ces donnees trimestrielles, ont ete produites par le service des statistiques dentreprise du Bureau

of Census (Etats-Unis).
Les donnees concernant les ventes reprennent le nombre
de biens expedies durant 32 trimestres.
QTR : Quarter, trimestres depuis le 1er trimestre 1978 jusquau 4`eme
trimestre 1985
DISH : Nombre de lave-vaisselles (dishwashers) expedies (milliers)
DISP : Nombre de broyeurs dordures (disposers) expedies (milliers)
FRIG : Nombre de refrigerateurs expedies (milliers)
WASH : Nombre de machines `a laver (washing machine) expediees (milliers)
DUR : Depenses en biens durables USA (milliards de dollars de 1982)
RES : Investissement residentiel prive USA (milliards de dollars de 1982)

1978

1980

1982

1984

1986

Time

Figure 6.1 Depenses en biens durables USA (milliards de dollars de 1982)

Exemple 6.2 La variable nombre de refrigerateurs vendus a manifestement


une composante saisonni`ere et une tendance.


ERALES

6.1. DEFINITIONS
GEN
ET EXEMPLES

129

Table 6.1 Biens manufactures aux USA


QTR
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32

DISH
841
957
999
960
894
851
863
878
792
589
657
699
675
652
628
529
480
530
557
602
658
749
827
858
808
840
893
950
838
884
905
909

DISP
798
837
821
858
837
838
832
818
868
623
662
822
871
791
759
734
706
582
659
837
867
860
918
1017
1063
955
973
1096
1086
990
1028
1003

FRIG
1317
1615
1662
1295
1271
1555
1639
1238
1277
1258
1417
1185
1196
1410
1417
919
943
1175
1269
973
1102
1344
1641
1225
1429
1699
1749
1117
1242
1684
1764
1328

WASH
1271
1295
1313
1150
1289
1245
1270
1103
1273
1031
1143
1101
1181
1116
1190
1125
1036
1019
1047
918
1137
1167
1230
1081
1326
1228
1297
1198
1292
1342
1323
1274

DUR
252.6
272.4
270.9
273.9
268.9
262.9
270.9
263.4
260.6
231.9
242.7
248.6
258.7
248.4
255.5
240.4
247.7
249.1
251.8
262.0
263.3
280.0
288.5
300.5
312.6
322.5
324.3
333.1
344.8
350.3
369.1
356.4

RES
172.9
179.8
180.8
178.6
174.6
172.4
170.6
165.7
154.9
124.1
126.8
142.2
139.3
134.1
122.3
110.4
101.2
103.4
100.1
115.8
127.8
147.4
161.9
159.9
170.5
173.1
170.3
169.6
170.3
172.9
175.0
179.4

En langage R
QTR=c(1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,
26,27,28,29,30,31,32)
DISH=c(841,957,999,960,894,851,863,878,792,589,657,699,675,652,628,
529,480,530,557,602,658,749,827,858,808,840,893,950,838,884,905,909)
DISP=c(798,837,821,858,837,838,832,818,868,623,662,822,871,791,759,734,706,
582,659,837,867,860,918,1017,1063,955,973,1096,1086,990,1028,1003)

1400
1000

FRIG

130CHAPITRE 6. SERIES
TEMPORELLES, FILTRES, MOYENNES MOBILES ET DESAISONNA

1978

1980

1982

1984

1986

Time

Figure 6.2 Nombre de refrigerateurs vendus de 1978 `a 1985

FRIG=c(1317,1615,1662,1295,1271,1555,1639,1238,1277,1258,1417,1185,1196,
1410,1417,919,943,1175,1269,973,1102,1344,1641,1225,1429,1699,1749,1117
1242,1684,1764,1328)
WASH=c(1271,1295,1313,1150,1289,1245,1270,1103,1273,1031,1143,1101,1181,
1116,1190,1125,1036,1019,1047,918,1137,1167,1230,1081,1326,1228,1297,
1198,1292,1342,1323,1274)
DUR=c(252.6,272.4,270.9,273.9,268.9,262.9,270.9,263.4,260.6,231.9,242.7,248.6,
258.7,248.4,255.5,240.4,247.7,249.1,251.8,262,263.3,280,288.5,300.5,
312.6,322.5,324.3,333.1,344.8,350.3,369.1,356.4)
RES=c(172.9,179.8,180.8,178.6,174.6,172.4,170.6,165.7,154.9,124.1,126.8,
142.2,139.3,134.1,122.3,110.4,101.2,103.4,100.1,115.8,127.8,147.4,161
159.9,170.5,173.1,170.3,169.6,170.3,172.9,175,179.4)
plot(QTR,DUR,type="l") plot(QTR,FRIG,type="l")

Exemple 6.3 Le tableau 6.2 reprend lindice des prix `a la consommation (base
100 en juillet 1970). La Figure 6.3 reprend lindice brut yt tel quil est presente
dans le Tableau 6.2. La Figure 6.4 presente le rapport mensuel de cet indice
yt /yt1 . Enn, la Figure 6.5 presente le rapport en glissement annuel yt /yt12 .

En langage R
# # Indices des prix # Diff
erences dordre 1 et 12 #
Iprix=c(97.9,98.2,98.5,99,99.4,99.8,100,100.4,100.8,101.2,101.6,101.9,
102.5,103,103.4,104,104.7,105.1,105.6,106,106.5,107.1,107.5,108,
108.3,108.9,109.4,109.8,110.4,111,111.9,112.5,113.2,114.2,114.9,115.5,
115.5,115.8,116.4,117.2,118.3,119.2,120.2,121,122.1,123.4,124.5,125.3,


ERALES

6.1. DEFINITIONS
GEN
ET EXEMPLES

131

Table 6.2 Indice des prix `a la consommation (France)


1970
97.9
98.2
98.5
99.0
99.4
99.8
100.0
100.4
100.8
101.2
101.6
101.9

1971
102.5
103.0
103.4
104.0
104.7
105.1
105.6
106.0
106.5
107.1
107.5
108.0

1972
108.3
108.9
109.4
109.8
110.4
111.0
111.9
112.5
113.2
114.2
114.9
115.5

1973
115.5
115.8
116.4
117.2
118.3
119.2
120.2
121.0
122.1
123.4
124.5
125.3

1974
127.4
129.1
130.6
132.7
134.3
135.8
137.5
138.6
140.1
141.8
143.1
144.3

1975
145.9
147.0
148.2
149.5
150.6
151.7
152.8
153.8
155.1
156.3
157.3
158.2

1976
159.9
161.0
162.4
163.8
164.9
165.6
167.2
168.4
170.2
171.8
173.2
173.8

1977
174.3
175.5
177.1
179.4
181.1
182.5
184.1
185.1
186.7
188.2
188.9
189.4

1978
190.3
191.7
193.4
195.5
197.4
198.9
201.5
202.5
203.8
205.7
206.8
207.8

140
100

Iprix

180

pt
janvier
fevrier
mars
avril
mai
juin
juillet
ao
ut
septembre
octobre
novembre
decembre

1970

1972

1974

1976

1978

Time

1.010
1.000

Iprix/lag(Iprix, 1)

Figure 6.3 Indice des prix `a la consommation pt

1970

1972

1974

1976

1978

Time

Figure 6.4 Rapport mensuel des indices de prix pt /pt1


127.4,129.1,130.6,132.7,134.3,135.8,137.5,138.6,140.1,141.8,143.1,144.3,
145.9,147,148.2,149.5,150.6,151.7,152.8,153.8,155.1,156.3,157.3,158.2,
159.9,161,162.4,163.8,164.9,165.6,167.2,168.4,170.2,171.8,173.2,173.8,

1.14
1.10
1.06

Iprix/lag(Iprix, 12)

132CHAPITRE 6. SERIES
TEMPORELLES, FILTRES, MOYENNES MOBILES ET DESAISONNA

1972

1974

1976

1978

Time

Figure 6.5 Rapport en glissement annuel des indices de prix pt /pt12


174.3,175.5,177.1,179.4,181.1,182.5,184.1,185.1,186.7,188.2,188.9,189.4,
190.3,191.7,193.4,195.5,197.4,198.9,201.5,202.5,203.8,205.7,206.8,207.8)
Iprix <- ts(Iprix,start = c(1970, 1), frequency = 12) plot(Iprix)
plot(Iprix/lag(Iprix,-1)) plot(Iprix/lag(Iprix,-12))

Exemple 6.4 Donnees du nombre de voyageurs-kilom`etres en deuxi`eme classe


exprimees en millions de kilom`etres.
Table 6.3 Trac du nombre de voyageurs SNCF
mois/annee

janv.

fev.

mars

avril

mai

juin

juil.

ao
ut

sept.

oct.

nov.

dec.

1963
1964
1965
1966
1967
1968
1969
1970
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980

1750
1710
1670
1810
1850
1834
1798
1854
2008
2084
2081
2223
2481
2667
2706
2820
3313
2848

1560
1600
1640
1640
1590
1792
1850
1823
1835
2034
2112
2248
2428
2668
2586
2857
2644
2913

1820
1800
1770
1860
1880
1860
1981
2005
2120
2152
2279
2421
2596
2804
2796
3306
2872
3248

2090
2120
2190
1990
2210
2138
2085
2418
2304
2522
2661
2710
2923
2806
2978
3333
3267
3250

1910
2100
2020
2110
2110
2115
2120
2219
2264
2318
2281
2505
2795
2976
3053
3141
3391
3375

2410
2460
2610
2500
2480
2485
2491
2722
2175
2684
2929
3021
3287
3430
3463
3512
3682
3640

3140
3200
3190
3030
2880
2581
2834
2912
2928
2971
3089
3327
3598
3705
3649
3744
3937
3771

2850
2960
2860
2900
2670
2639
2725
2771
2738
2759
2803
3044
3118
3053
3095
3179
3284
3259

2090
2190
2140
2160
2100
2038
1932
2153
2178
2267
2296
2607
2875
2764
2839
2984
2849
3206

1850
1870
1870
1940
1920
1936
2085
2136
2137
2152
2210
2525
2754
2802
2966
2950
3085
3269

1630
1770
1760
1750
1670
1784
1856
1910
2009
1978
2135
2160
2588
2707
2863
2896
3043
3181

2420
2270
2360
2330
2520
2391
2553
2537
2546
2723
2862
2876
3266
3307
3375
3611
3541
4008

133

trafic

1500 2500 3500

6.2. DESCRIPTION DE LA TENDANCE

1965

1970

1975

1980

Time

Figure 6.6 Trac du nombre de voyageurs SNCF

6.2

Description de la tendance

6.2.1

Les principaux mod`


eles

Plusieurs types de mod`eles peuvent etre utilises pour decrire la tendance.


Mod`eles dependant du temps. La serie depend directement du temps. Le
mod`ele peut etre additif
yt = f (t) + Et ,
ou multiplicatif
yt = f (t) Et .
Mod`eles explicatifs statiques : la serie chronologique depend des valeurs
prises par une ou plusieurs autres series chronologiques.
yt = f (xt ) + Et
Le cas lineaire est le plus facile `a traiter
yt = b0 + b1 xt + Et .
Mod`eles auto-projectifs. La serie chronologique au temps t depend de ses
propres valeurs passees
yt = f (yt1 , yt2 , yt3 , . . . , ytp ) + Et
Mod`eles explicatifs dynamiques : la serie chronologique depend des valeurs
presentes et passees dune ou de plusieurs autres series chronologiques, par
exemple :
yt = +1 yt1 +2 yt2 + +p ytp +1 xt1 +2 xt2 + +q xtq +Et .

134CHAPITRE 6. SERIES
TEMPORELLES, FILTRES, MOYENNES MOBILES ET DESAISONNA

6.2.2

Tendance lin
eaire

La tendance la plus simple est lineaire. On peut estimer les param`etres au


moyen de la methode des moindres carres. Cest une regression simple.
Tt = a + bt.

6.2.3

Tendance quadratique

On peut utiliser une tendance parabolique. Les param`etres peuvent etre


estimes au moyen de la methode des moindres carres. Cest une regression avec
deux variables explicatives.
Tt = a + bt + ct2

6.2.4

Tendance polynomiale dordre q

On peut ajuster la serie par un polynome dordre q. Les param`etres peuvent


etre estimes au moyen de la methode des moindres carres. Cest une regression
avec q variables explicatives.
Tt = b0 + b1 t + b2 t2 + + bq tq

6.2.5

Tendance logistique

La fonction logistique permet de modeliser des processus ne pouvant depasser


une certaine valeur c (par exemple des taux).
Tt =

c
o`
u a, b, c R+
1 + beat

Meme sil sagit dune tendance non-lineaire, on peut se ramener `a un probl`eme


lineaire. En posant zt = 1/Tt , on a
zt =

zt+1

=
=
=
=

En posant
=

1 + beat
c

1 + bea(t+1)
c
1 + beat ea
c
1 + (1 + beat )ea ea
c
1 ea
+ zt ea .
c
1 ea
, et = ea .
c

6.2. DESCRIPTION DE LA TENDANCE

135

on obtient
zt+1 = + zt ,
ce qui est un mod`ele auto-projectif. On peut alors determiner les valeurs de et
par une simple regression lineaire. Ensuite on deduit a de la mani`ere suivante :
a = log ,
et comme
=

1 ea
1
=
,
c
c

on determine c par
c=

1
.

Enn, on remarque que


zt

1
beat
=
,
c
c

on peut determiner autant de valeurs de b que lon a dobservations


bt =

czt 1
.
eat

On calcule alors la moyenne de ces valeurs


T
1
bt .
T t=1

0.3
0.2
0.0

0.1

logis (x)

0.4

0.5

b =

Figure 6.7 Exemple de fonction logistique avec c = 0.5

136CHAPITRE 6. SERIES
TEMPORELLES, FILTRES, MOYENNES MOBILES ET DESAISONNA

6.3

Op
erateurs de d
ecalage et de di
erence

6.3.1

Op
erateurs de d
ecalage

An de simplier la notation, on utilise des operateurs de decalage. On denit


loperateur de decalage retard (en anglais lag operator) L par
Lyt = yt1 ,
et loperateur avance (en anglais forward operator) F
F yt = yt+1 .
Loperateur identite est donne par
Iyt = yt .
Loperateur avance est linverse de loperateur retard
F L = LF = I.
On peut donc ecrire
On a

F 1 = L et L1 = F.

egalement
L2 yt = LLyt = yt2 ,
Lq yt = ytq ,
F q yt = yt+q ,
L0 = F 0 = I,
Lq yt = F q yt = yt+q .

6.3.2

Op
erateur di
erence

Loperateur dierence dordre un est un ltre lineaire


= I L.
Loperateur dierence permet denlever une tendance lineaire. En eet, si la
serie secrit
yt = a + b t + Et ,
alors
yt = a + b t + Et a b (t 1) Et1 = b + Et Et1 .
Exemple 6.5 On gen`ere une serie selon un mod`ele lineaire dependant du temps
yt = 10 + 0.3 t + Et , avec t = 1, . . . , 50.
La serie brute yt est representee dans la graphique 6.8 et la dierence dordre 1
de la serie yt est representee dans le graphique 6.9.
En langage R

6.3. OPERATEURS
DE DECALAGE
ET DE DIFFERENCE

10

15

20

25

137

10

20

30

40

50

0 1 2

Figure 6.8 Serie avec une tendance lineaire dependant du temps

10

20

30

40

50

Figure 6.9 Dierence dordre un de la serie avec une tendance lineaire


# # Tendance lin
eaire et diff
erence #
lin=10+0.3*(0:50)+rnorm(50,0,1) plot(lin,main="",xlab="",ylab="")
Dlin=diff(lin) plot(Dlin,main="",xlab="",ylab="")

On peut construire loperateur dierence dordre deux en elevant au carre :


2 = = I 2L + L2
Loperateur dierence dordre deux permet denlever une tendance quadratique.
En eet, si la serie secrit
yt = a + b t + c t2 + Et ,
alors
2 y t

= (I 2L + L2 )yt
= a + b t + c t2 + Et
2a 2b (t 1) 2c (t 1)2 2Et1
+a + b (t 2) + c (t 2)2 + Et2
= 2c + Et 2Et1 + Et2 .

Une tendance polynomiale dordre q peut egalement etre supprimee grace `a q ,


la dierence dordre q.

138CHAPITRE 6. SERIES
TEMPORELLES, FILTRES, MOYENNES MOBILES ET DESAISONNA

6.3.3

Di
erence saisonni`
ere

Loperateur de dierence saisonni`ere secrit :


s = I Ls ,
o`
u s vaut 4 pour des donnees trimestrielles, 7 pour des donnees journali`eres et
12 pour des donnees mensuelles :

200
0
300

FRIGm4

Exemple 6.6 Si on applique une dierence saisonni`ere dordre 4 sur les donnees
de ventes de refrigerateurs, la composante saisonni`ere disparat.

1979

1980

1981

1982

1983

1984

1985

1986

Time

Figure 6.10 Dierence dordre 4 de la variable vente de refrigerateurs


En langage R
# # Vente de r
efrig
erateurs diff
erence dordre 4 #
FRIGm4=FRIG-lag(FRIG,-4) plot(FRIGm4)

Exemple 6.7 Si on applique une dierence saisonni`ere dordre 12 sur les


donnees du nombre de voyageurs-kilom`etres yt en deuxi`eme classe exprimees
en millions de kilom`etres de la SNCF, la tendance saisonni`ere disparat (voir
Figure 6.12). On a ainsi la nouvelle variable
zt = 12 yt = (I L12 )yt = yt yt12 .
Une autre mani`ere de faire consiste `a prendre le logarithme de la variable et
ensuite `a calculer la dierence, ce qui revient `a prendre le logarithme du rapport
de la variable (voir Figure 6.13). On denit ainsi une nouvelle variable vt :
vt = 12 log yt = (I L12 ) log yt = log yt log yt12 = log

yt
.
yt12

139

1500 2500 3500

trafic

6.3. OPERATEURS
DE DECALAGE
ET DE DIFFERENCE

1965

1970

1975

1980

Time

1.0
0.8

difftrafic

1.2

Figure 6.11 Trac du nombre de voyageurs SNCF

1965

1970

1975

1980

Time

0.0
0.2

raptrafic

0.2

Figure 6.12 Dierence dordre 12 sur la serie trac du nombre de voyageurs


SNCF

1965

1970

1975

1980

Time

Figure 6.13 Logarithme du rapport dordre 12 sur la serie trac du nombre


de voyageurs SNCF

En langage R

140CHAPITRE 6. SERIES
TEMPORELLES, FILTRES, MOYENNES MOBILES ET DESAISONNA
trafic=c(1750,1560,1820,2090,1910,2410,3140,2850,2090,1850,1630,2420,
1710,1600,1800,2120,2100,2460,3200,2960,2190,1870,1770,2270,
1670,1640,1770,2190,2020,2610,3190,2860,2140,1870,1760,2360,
1810,1640,1860,1990,2110,2500,3030,2900,2160,1940,1750,2330,
1850,1590,1880,2210,2110,2480,2880,2670,2100,1920,1670,2520,
1834,1792,1860,2138,2115,2485,2581,2639,2038,1936,1784,2391,
1798,1850,1981,2085,2120,2491,2834,2725,1932,2085,1856,2553,
1854,1823,2005,2418,2219,2722,2912,2771,2153,2136,1910,2537,
2008,1835,2120,2304,2264,2175,2928,2738,2178,2137,2009,2546,
2084,2034,2152,2522,2318,2684,2971,2759,2267,2152,1978,2723,
2081,2112,2279,2661,2281,2929,3089,2803,2296,2210,2135,2862,
2223,2248,2421,2710,2505,3021,3327,3044,2607,2525,2160,2876,
2481,2428,2596,2923,2795,3287,3598,3118,2875,2754,2588,3266,
2667,2668,2804,2806,2976,3430,3705,3053,2764,2802,2707,3307,
2706,2586,2796,2978,3053,3463,3649,3095,2839,2966,2863,3375,
2820,2857,3306,3333,3141,3512,3744,3179,2984,2950,2896,3611,
3313,2644,2872,3267,3391,3682,3937,3284,2849,3085,3043,3541,
2848,2913,3248,3250,3375,3640,3771,3259,3206,3269,3181,4008)
trafic <- ts(trafic,start = c(1963, 1), frequency = 12)
plot(trafic) difftrafic=trafic-lag(trafic,-12) plot(difftrafic)
raptrafic=log(trafic/lag(trafic,-12)) plot(raptrafic)

6.4

Filtres lin
eaires et moyennes mobiles

6.4.1

Filtres lin
eaires

Un ltre lineaire dordre m = p1 + p2 + 1 est deni par


FL

p2

wj Lj

j=p1

= wp1 Lp1 + wp1 +1 Lp1 1 + + w1 L + w0 I + w1 F + + wp2 1 F p2 1 + wp2 F p2 ,


o`
u p1 , p2 N et wj R.

6.4.2

Moyennes mobiles : d
enition

Une moyenne mobile dordre m = p1 + p2 + 1 est un ltre lineaire tel que


p2

wj = 1, pour tout j = p1 , . . . , p2 .

j=p1

Beaucoup de moyennes mobiles ont des poids wj positifs, mais pas toutes.


6.4. FILTRES LINEAIRES
ET MOYENNES MOBILES

141

Une moyenne mobile est symetrique si p1 = p2 = p, et


wj = wj , pour tout j = 1, . . . , p.
Une moyenne mobile symetrique est dite non-ponderee si
wj = cst pour tout j = p1 , . . . , p2 .

6.4.3

Moyenne mobile et composante saisonni`


ere

Une moyenne mobile est un outil interessant pour lisser une serie temporelle
et donc pour enlever une composante saisonni`ere. On utilise de preference des
moyennes mobiles non-ponderees dordre egal `a la periode, par exemple dordre
7 pour des donnees journali`eres, dordre 12 pour des donnees mensuelles. Par
exemple, pour enlever la composante saisonni`ere due au jour de la semaine, on
peut appliquer une moyenne mobile non-ponderee dordre 7.
)
1( 3
MM(7) =
L + L2 + L + I + F + F 2 + F 3 .
7
Cette moyenne mobile accorde le meme poids `a chaque jour de la semaine. En
eet,
1
(yt3 + yt2 + yt1 + yt + yt+1 + yt+2 + yt+3 ) .
7
Pour les composantes saisonni`eres dune periode paire, il nexiste pas de
moyennes mobiles centrees non-ponderees. Il existe deux types de moyenne mobile centree ponderee :
Si la periode est paire et egale `a m (m = 4 pour des donnees trimestrielles),
on utilise une moyenne mobile dordre impair accordant un demi-poids aux
deux extremites. Par exemple, pour des donnees trimestrielles, la moyenne
mobile est denie par
)
1( 2
MM(4) =
L + 2L + 2I + 2F + F 2 .
8
Ainsi, chaque trimestre conserve le meme poids. En eet,
MM(7)yt =

1
(yt2 + 2yt1 + 2yt + 2yt+1 + yt+2 ) .
8
Si la periode est paire et egale `a m, on peut aussi utiliser la composee de
deux moyennes mobiles non-ponderees et non-centrees an dobtenir une
moyenne mobile centree :
)1(
)
1( 2
MMC =
L +L+I +F
L + I + F + F2
4
4
)
1 ( 3
=
L + 2L2 + 3L + 4I + 3F + 2F 2 + F 3 .
16
` nouveau, chaque trimestre est aecte du meme poids, mais cette methode
A
est moins avantageuse car la moyenne mobile est plus etendue. Donc, plus
des donnees seront perdues aux extremites de la series.
MM(4)yt =

142CHAPITRE 6. SERIES
TEMPORELLES, FILTRES, MOYENNES MOBILES ET DESAISONNA
Exemple 6.8 La variable refrigerateur est lissee grace `a une moyenne mobile
qui accorde le meme coecient de ponderation `a chaque trimestre.

`
6.5. MOYENNES MOBILES PARTICULIERES

1000

FRIG

1400

143

1978

1980

1982

1984

1986

Time

Figure 6.14 Nombre de refrigerateurs et moyenne mobile dordre 4

En langage R
dec=decompose(FRIG) moving_average= dec$trend plot(FRIG)
lines(moving_average)

Une moyenne mobile qui accorde le meme poids `a chaque saison permet
denlever une tendance saisonni`ere.

6.5
6.5.1

Moyennes mobiles particuli`


eres
Moyenne mobile de Van Hann
MMV H =

6.5.2

MMS

1
1
1
(I + F ) (L + I) = (L + 2I + F )
2
2
4

Moyenne mobile de Spencer


1
1
(L + I + F + F 2 ) (L2 + L + I + F )
4
4
1
1 2
(L + L + I + F + F 2 ) (3L2 + 3L + 4I + 3F 3F 2 )
5
4
1
=
(3L7 6L6 5L5 + 3L4 + 21L3 + 46L2 + 67L + 74I
320
+67F + 46F 2 + 21F 3 + 3F 4 5F 5 6F 6 3F 7 )
=

La moyenne mobile de Spencer supprime les composantes saisonni`eres de periode


4 et 5 et conserve les tendances polynomiales jusqu`a lordre 3.

144CHAPITRE 6. SERIES
TEMPORELLES, FILTRES, MOYENNES MOBILES ET DESAISONNA

6.5.3

Moyenne mobile de Henderson

Les moyennes mobiles dHenderson conservent les tendances polynomiales


de degre 2 tout en conservant une souplesse aux coecients de la moyenne
mobile. La souplesse est obtenue en minimisant la quantite

(I L)3 j .
j

Moyenne mobile de Henderson dordre 2m 3, o`


u m4

MMH =

m+1

j Lj ,

j=m1

o`
u
j =

315((m 1)2 i2 )(m2 i2 )((m + 1)2 i2 )(3m2 16 11i2 )


8m(m2 1)(4m2 1)(4m2 9)(4m2 25)

Moyenne mobile de Henderson dordre 2m 3 = 5 (m = 4)


1
(21L2 + 84L + 160I + 84F 21F 2 )
286
Moyenne mobile de Henderson dordre 2m 3 = 9 (m = 6)

1
(99L4 24L3 288L2 + 648L + 805I + 648F + 288F 2 24F 3 99F 4 )
2431
Moyenne mobile de Henderson dordre 2m 3 = 11 (m = 7)

1
(2574L5
92378

2475L4 + 3300L3 + 13050L2 + 22050L + 25676I


+ 22050F + 13050F 2 + 3300F 3 2475F 4 2574F 5 )

Moyenne mobile de Henderson dordre 2m 3 = 15 (m = 9)

1
(2652L7
193154

4732L6 2730L5 + 4641L4 + 16016L3 + 28182L2 + 37422L + 40860I


+ 37422F + 28182F 2 + 16016F 3 + 4641F 4 2730F 5 4732F 6 2652F 7 )


6.6. DESAISONNALISATION

6.5.4

145

M
edianes mobiles

Si les donnees contiennent des valeurs aberrantes ou extremes, on peut remplacer la moyenne mobile par une mediane mobile. Par exemple la mediane
mobile dordre 5 est denie par :
M ed(5)t = Mediane(yt2 , yt1 , yt , yt+1 , yt+2 ).

6.6
6.6.1

D
esaisonnalisation
M
ethode additive

Soit une serie temporelle regie par un mod`ele additif du type


Yam = Tam + Sm + Eam .
o`
u a = 1, . . . , A, represente par exemple lannee et m = 1, . . . , M represente
par exemple le mois. La tendance est supposee connue soit par un ajustement,
soit par une moyenne mobile. On isole la composante saisonni`ere en faisant,
pour chaque mois, la moyenne des dierences entre les valeurs observees et la
tendance
1
(Yam Tam ).
Sm =
A1 a
En general, on ne dispose pas du meme nombre dobservations, pour chaque
mois. On proc`ede `a un ajustement an que la somme des composantes saisonni`eres soit egale `a zero :

Sm
= Sm

1
Sm .
M m

On peut ensuite proceder `a la desaisonnalisation de la serie par

.
Yeam = Yam Sm

6.6.2

M
ethode multiplicative

Soit une serie temporelle regie par un mod`ele multiplicatif du type


Yam = Tam Sm Eam .
o`
u a = 1, . . . , A represente par exemple lannee et m = 1, .., M represente par
exemple le mois. La tendance est supposee connue soit par un ajustement, soit
par une moyenne mobile.
On isole la composante saisonni`ere en faisant, pour chaque mois, la moyenne
des rapports entre les valeurs observees et la tendance :
Sm =

1 Yam
.
A 1 a Tam

146CHAPITRE 6. SERIES
TEMPORELLES, FILTRES, MOYENNES MOBILES ET DESAISONNA
` nouveau, on realise un ajustement an que la moyenne des composantes
A
saisonni`eres soit egale `a 1. On corrige donc les coecients Sm par

Sm
= Sm

1
M

Sm

La desaisonnalisation se realise alors par une division


Yam
Yeam = = Tam Eam
Sm
Exemple 6.9 Lobjectif est de desaisonnaliser la serie trimestrielle des ventes
de refrigerateurs. Le Tableau 6.4 contient la variable vente de refrigerateurs,
la moyenne mobile dordre 4, la composante saisonni`ere et serie desaisonnalisee
au moyen de la methode additive. Le Tableau 6.6 presente la desaisonnalisation
au moyen de la methode multiplicative.
Figure 6.15 Decomposition de la serie de ventes de refrigerateurs 6.1

trend

1400
1500
1000
1300
1.15
1100
1.00

seasonal

100
0.85
0

random

100

observed

Decomposition of multiplicative time series

1978

1980

1982

1984

Time

En langage R
deco=decompose(FRIG,type="multiplicative") plot(deco)

1986

6.7. LISSAGE EXPONENTIEL

147

Table 6.4 Decomposition de la variable FRIG, methode additive


QTR
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32

6.7
6.7.1

FRIG
1317
1615
1662
1295
1271
1555
1639
1238
1277
1258
1417
1185
1196
1410
1417
919
943
1175
1269
973
1102
1344
1641
1225
1429
1699
1749
1117
1242
1684
1764
1328

MM

FRIG-MM

1466.50
1453.25
1442.88
1432.88
1426.50
1390.13
1325.25
1290.88
1274.13
1283.00
1302.00
1268.75
1203.88
1142.88
1095.00
1083.25
1109.88
1150.88
1218.50
1296.50
1368.88
1454.13
1512.00
1512.00
1475.13
1449.88
1449.88
1478.13

195.50
-158.25
-171.88
122.13
212.50
-152.13
-48.25
-32.88
142.88
-98.00
-106.00
141.25
213.13
-223.88
-152.00
91.75
159.13
-177.88
-116.50
47.50
272.13
-229.13
-83.00
187.00
273.88
-332.88
-207.88
205.88

Desaison
1442.58
1505.13
1451.20
1490.09
1396.58
1445.13
1428.20
1433.09
1402.58
1148.13
1206.20
1380.09
1321.58
1300.13
1206.20
1114.09
1068.58
1065.13
1058.20
1168.09
1227.58
1234.13
1430.20
1420.09
1554.58
1589.13
1538.20
1312.09
1367.58
1574.13
1553.20
1523.09

Lissage exponentiel
Lissage exponentiel simple

Une mani`ere simple de realiser une prediction est de realiser un lissage exponentiel simple. On suppose que lon dispose de T observations X1 , . . . , XT
indicees par les dates 1, . . . , T. On veut realiser une prediction pour les dates
suivantes T + k, k 1. La prediction faite `a la date T pour la date T + k est

148CHAPITRE 6. SERIES
TEMPORELLES, FILTRES, MOYENNES MOBILES ET DESAISONNA

Table 6.5 Moyenne des composantes saisonni`eres


S1 126.50
S1 125.58
S2
108.95
S2
109.87
S3
209.88
S3
210.80
S4 196.02
S4 195.09
Total
3.70 Total
0.00

bT (k) (prediction au temps T et `a lhorizon k). Le lissage exponentiel


notee X
simple donne une prediction `a lhorizon 1, et consiste `a realiser une moyenne
des valeurs passees en aectant des poids moins importants aux valeurs qui sont
eloignees de la prediction :
bT (1) = (1 )
X

T
1

j XT j = (1 )

j=0

T
1

j Lj XT ,

j=0

o`
u est un coecient appartenant `a ]0, 1[. Comme
bT 1 (1) = (1 )
X

T
2

j XT 1j =

j=0

on a
bT (1) = (1 )
X

T
1

T 1
(1 ) j
XT j ,

j=1

bT 1 (1).
j XT j = (1 )XT + X

j=0

Cette formule peut etre utilisee pour mettre `a jour le lissage exponentiel simple.
An dinitialiser le lissage exponentiel on peut prendre
b0 (1) = X1 .
X
Le lissage exponentiel simple est adapte au cas ou la serie peut etre ajustee
par une droite horizontale. Autrement dit, on suppose que
XT a.
Le lissage exponentiel peut etre obtenu au moyen de la methode des moindres
carres en minimisant en a le crit`ere
Q=

T
1

j (XT j a) .

j=0

En annulant la derivee par rapport `a a, on obtient


2

T
1

j=0

j (XT j a) = 0,

6.7. LISSAGE EXPONENTIEL

149

Table 6.6 Decomposition de la variable FRIG, methode multiplicative


QTR
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32

FRIG
1317
1615
1662
1295
1271
1555
1639
1238
1277
1258
1417
1185
1196
1410
1417
919
943
1175
1269
973
1102
1344
1641
1225
1429
1699
1749
1117
1242
1684
1764
1328

MM

FRIG/MM

1466.50
1453.25
1442.88
1432.88
1426.50
1390.13
1325.25
1290.88
1274.13
1283.00
1302.00
1268.75
1203.88
1142.88
1095.00
1083.25
1109.88
1150.88
1218.50
1296.50
1368.88
1454.13
1512.00
1512.00
1475.13
1449.88
1449.88
1478.13

1.13
0.89
0.88
1.09
1.15
0.89
0.96
0.97
1.11
0.92
0.92
1.11
1.18
0.80
0.86
1.08
1.14
0.85
0.90
1.04
1.20
0.84
0.95
1.12
1.19
0.77
0.86
1.14

Desaison
1453.85
1493.76
1434.00
1516.45
1403.07
1438.26
1414.15
1449.70
1409.70
1163.56
1222.61
1387.64
1320.28
1304.15
1222.61
1076.15
1040.99
1086.79
1094.91
1139.39
1216.51
1243.10
1415.88
1434.48
1577.49
1571.45
1509.06
1308.01
1371.06
1557.58
1522.01
1555.09

ce qui donne
bT (1) = a =
X

T 1

j
j=0 XT j
T 1 j
j=0

(1 )

T
1

j XT j .

j=0

On peut choisir sur base de crit`eres subjectifs, cependant on peut egalement


determiner une valeur optimale au moyen de la methode des moindres carres.

150CHAPITRE 6. SERIES
TEMPORELLES, FILTRES, MOYENNES MOBILES ET DESAISONNA

Table 6.7 Moyenne des composantes saisonni`eres


S1
S2
S3
S4
Total

0.90
S1
1.08
S2
1.16
S3
0.85
S4
3.99 Total

0.91
1.08
1.16
0.85
4.00

On minimise alors en :
T
1 (

)2
bT j1 (1) ,
XT j X

j=0

ce qui aboutit `a un syst`eme non-lineaire quil est cependant possible de resoudre


numeriquement.

6.7.2

Lissage exponentiel double

Si la serie peut etre ajustee par une droite quelconque de type a + b(t T ).
On applique alors un lissage exponentiel double pour obtenir la prediction
bT (k) = a + bk.
X
Comme

bT (j) = a bj,
X

on obtient les valeurs de a et b au moyen de la methode des moindres carres en


minimisant en a et b le crit`ere
T
1
1
(
)2 T

2
bT (j) =
Q=
j XT j X
j (XT j a + bj) .
j=0

j=0

En annulant les derivees partielles par rapport `a a et b, on obtient


T 1

2
j (XT j a + bj) = 0

j=0

T
1

2
j (XT j a + bj) j = 0.

j=0

ce qui donne

T 1
T
1
T
1

j
j

+
b
j j = 0
T
j

j=0

j=0

j=0

T
1
T
1
T
1

j
j

j
X

a
j
+
b
j 2 j = 0.
T j

j=0

j=0

j=0

6.7. LISSAGE EXPONENTIEL


Comme on a

151

j =

j=0

j j =

(1 )2

j2j =

(1 + )
(1 )3

j=0

j=0

on a

1
1

T 1

b
a

+
=0
j XT j

(1

)2
j=0
T
1

a
b(1 + )

j j XT j
+
= 0.

2
(1 )
(1 )3
j=0

En notant maintenant ST1 la serie lissee


ST1 = (1 )

T
1

j XT j ,

j=0

et ST2 la serie doublement lissee


ST2

= (1 )

T
1

j ST1 j

j=0

= (1 )

T
1

(1 )
j

j=0

= (1 )2

j=0

= (1 )2

i XT ji

i=0

1j
T
1 T

T
1

T
1j

i+j XT ji

i=0

(k + 1) k XT k

k=0

= (1 )2

T
1

k k XT k + (1 )ST1 .

k=0

On obtient nalement
T
1

k=0

k k XT k =

ST2
ST1

.
2
(1 )
(1 )1

(6.1)

152CHAPITRE 6. SERIES
TEMPORELLES, FILTRES, MOYENNES MOBILES ET DESAISONNA
Le syst`eme (6.1) peut alors secrire

ST1
a
b

+
=0

1
1
(1 )2
ST2
ST1
a
b(1 + )

+
= 0.

2
(1 )
1
(1 )2
(1 )3
En resolvant ce syst`eme en a et b, on obtient nalement

a = 2ST1 ST2
1 1
(ST ST2 ).
b=

Exemple 6.10 Le tableau 6.8 rend compte du prix moyen du mazout pour 100
(achat entre 800 et 1500 ) en CHF pour chaque mois de 2004 `a 2007 (Source :
Oce federal de la statistique, 2008).

Table 6.8 Prix moyen du Mazout pour 100 (achat entre 800 et 1500 )
mois/annee
janvier
fevrier
mars
avril
mai
juin
juillet
ao
ut
septembre
octobre
novembre
decembre

2004
54.23
51.51
55.60
55.72
58.71
58.82
58.41
64.92
63.95
72.98
70.25
68.24

2005
63.00
67.32
75.52
79.83
73.22
75.38
83.97
84.23
97.29
99.31
89.88
87.18

2006
86.16
88.70
88.92
92.58
93.65
91.88
95.35
95.83
91.16
87.63
84.57
84.10

2007
79.39
81.32
82.06
88.05
88.24
88.95
92.10
91.65
95.35
97.54
106.94
108.94

Nous allons eectuer un lissage exponentiel double avec = 0.7.


On realise dabord un premier lissage en utilisant la formule recursive
bt (1) = (1 ) Xt + X
bt1 (1) ,
X
b0 (1) = X1 ,
X

6.7. LISSAGE EXPONENTIEL

153

bt (1).
o`
u St1 = X
On obtient :
b1 (1) = (1 )X1 + X
b0 (1) = (1 0.7)X1 + 0.7X1 = X1 = 54.23,
S11 = X
b2 (1) = (1 )X2 + X
b1 (1) = 0.3 51.51 + 0.7 54.23 = 53.414,
S21 = X
b3 (1) = (1 )X3 + X
b2 (1) = 0.3 55.60 + 0.7 53.41 = 54.070,
S31 = X
et ainsi de suite.
On realise ensuite un second lissage que lon applique `a la serie lissee.
2
St2 = (1 )St1 + St1
,

S02 = S11 .
bt (k) = a + bk
On cherche alors X
bt (1) = a + b avec :
pour chaque t. On prend ici k = 1, X
a = 2St1 St2
) 0.3 ( 1
)
1 ( 1
b =
St St2 =
St St2

0.7
Le tableau 6.9 rend compte des resultats pour les annees 2004 `a 2007.
La gure 6.16 represente la serie initiale, le lissage exponentiel simple et le
lissage exponentiel double.

154CHAPITRE 6. SERIES
TEMPORELLES, FILTRES, MOYENNES MOBILES ET DESAISONNA

Table 6.9 Lissage exponentiel simple et double de la serie temporelle Prix


moyen du Mazout pour 100 litres (achat entre 800 et 1500 litres) en CHF
Ann
ee
2004

2005

2006

2007

2008

mois
1
2
3
4
5
6
7
8
9
10
11
12
1
2
3
4
5
6
7
8
9
10
11
12
1
2
3
4
5
6
7
8
9
10
11
12
1
2
3
4
5
6
7
8
9
10
11
12
1

Xt
54.23
51.51
55.60
55.72
58.71
58.82
58.41
64.92
63.95
72.98
70.25
68.24
63.00
67.32
75.52
79.83
73.22
75.38
83.97
84.23
97.29
99.31
89.88
87.18
86.16
88.70
88.92
92.58
93.65
91.88
95.35
95.83
91.16
87.63
84.57
84.10
79.39
81.32
82.06
88.05
88.24
88.95
92.10
91.65
95.35
97.54
106.94
108.94

bLES (1)
St1 = X
54.23
54.23
53.41
54.07
54.56
55.81
56.71
57.22
59.53
60.86
64.49
66.22
66.83
65.68
66.17
68.98
72.23
72.53
73.38
76.56
78.86
84.39
88.87
89.17
88.57
87.85
88.10
88.35
89.62
90.83
91.14
92.41
93.43
92.75
91.21
89.22
87.68
85.20
84.03
83.44
84.82
85.85
86.78
88.38
89.36
91.16
93.07
97.23
100.74

St2
54.23
54.23
54.23
53.99
54.01
54.18
54.67
55.28
55.86
56.96
58.13
60.04
61.89
63.37
64.07
64.70
65.98
67.86
69.26
70.50
72.31
74.28
77.31
80.78
83.30
84.88
85.77
86.47
87.03
87.81
88.71
89.44
90.33
91.26
91.71
91.56
90.86
89.91
88.49
87.16
86.04
85.68
85.73
86.04
86.74
87.53
88.62
89.95
92.14

a
54.23
54.23
52.60
54.15
55.12
57.44
58.76
59.16
63.20
64.75
70.86
72.40
71.76
67.98
68.28
73.25
78.48
77.20
77.51
82.62
85.41
94.50
100.42
97.56
93.85
90.82
90.44
90.23
92.20
93.85
93.57
95.37
96.53
94.24
90.72
86.88
84.51
80.49
79.57
79.73
83.61
86.02
87.83
90.71
91.97
94.78
97.53
104.51
109.35

b
0
0
-0.350
0.036
0.238
0.699
0.877
0.832
1.572
1.669
2.727
2.649
2.114
0.988
0.902
1.834
2.679
2.002
1.768
2.599
2.805
4.333
4.952
3.597
2.262
1.273
1.000
0.805
1.108
1.294
1.041
1.269
1.329
0.638
-0.212
-1.003
-1.360
-2.019
-1.911
-1.592
-0.522
0.074
0.451
0.999
1.121
1.555
1.909
3.120
3.689

bLED (1) = a + b
X
54.23
54.23
52.25
54.19
55.36
58.14
59.63
59.99
64.77
66.42
73.58
75.05
73.87
68.97
69.18
75.09
81.16
79.20
79.28
85.22
88.21
98.83
105.37
101.16
96.11
92.09
91.44
91.03
93.31
95.14
94.61
96.64
97.86
94.88
90.51
85.88
83.15
78.47
77.66
78.14
83.09
86.10
88.28
91.71
93.09
96.34
99.44
107.63
113.04

155

80
60

70

prix

90

100

110

6.7. LISSAGE EXPONENTIEL

Lissage exponentiel simple

50

Lissage exponentiel double

2004

2005

2006

2007

temps

Figure 6.16 Evolution du prix du mazout en CHF (achat entre 800 et 1500
), lissage exponentiel double et lissage exponentiel simple

2008

156CHAPITRE 6. SERIES
TEMPORELLES, FILTRES, MOYENNES MOBILES ET DESAISONNA

Exercices
Exercice 6.1 Desaisonnalisez la serie suivante (cest une serie trimestrielle sur
3 annees)
2417, 1605, 1221, 1826, 2367, 1569, 1176, 1742, 2804, 1399, 1063, 1755
par la methode additive, en utilisant une moyenne mobile dordre 4.
Solution
Il sagit de
M A(4) =
Nr.
1
2
3
4
5
6
7
8
9
10
11
12

Serie
2417
1605
1221
1826
2367
1569
1176
1742
2804
1399
1063
1755

Trim.
1
2
3
4
1
2
3
4
1
2
3
4

MM(4)

1761
1750.25
1740.125
1724
1768.125
1801.5
1766.125
1753.625

L2 + 2L + 2I + 2F + F 2
.
8
Serie-MM(4)

-540
75.75
626.875
-155
-592.125
-59.5
1037.875
-354.625

Desaison.
1589.53125
1864.71875
1791.96875
1822.78125
1539.53125
1828.71875
1746.96875
1738.78125
1976.53125
1658.71875
1633.96875
1751.78125

1
2
3
4
Total

S
832.375
-254.8125
-566.0625
8.125
19.625

Exercice 6.2 En langage R utilisez la serie ldeaths qui est une serie qui
se trouve dans le package de base datasets. Lisez la documentation, puis
desaisonnalisez cette serie par les methodes additive et multiplicative.

S
827.46875
-259.71875
-570.96875
3.21875
0

Chapitre 7

Tables statistiques

157

158

CHAPITRE 7. TABLES STATISTIQUES

Table 7.1 Table des quantiles zp = 1 (p) dune variable normale centree
reduite

Ordre du quantile (p)


0.500
0.550
0.600
0.650
0.700
0.750
0.800
0.850
0.900
0.950
0.970
0.971
0.972
0.973
0.974

quantile (zp )
0.0000
0.1257
0.2533
0.3853
0.5244
0.6745
0.8416
1.0364
1.2816
1.6449
1.8808
1.8957
1.9110
1.9268
1.9431

zp

Ordre du quantile (p)


0.975
0.976
0.977
0.978
0.979
0.990
0.991
0.992
0.993
0.994
0.995
0.996
0.997
0.998
0.999

Quantile (zp )
1.9600
1.9774
1.9954
2.0141
2.0335
2.3263
2.3656
2.4089
2.4573
2.5121
2.5758
2.6521
2.7478
2.8782
3.0902

159

Table 7.2 Fonction de repartition de la loi normale centree reduite


(Probabilite de trouver une valeur inferieur `
a u)

p = (u)

u
0.0
0.1
0.2
0.3
0.4

0.0
.5000
.5398
.5793
.6179
.6554

.01
.5040
.5438
.5832
.6217
.6591

.02
.5080
.5478
.5871
.6255
.6628

.03
.5120
.5517
.5910
.6293
.6664

.04
.5160
.5557
.5948
.6331
.6700

.05
.5199
.5596
.5987
.6368
.6736

.06
.5239
.5636
.6026
.6406
.6772

.07
.5279
.5675
.6064
.6443
.6808

.08
.5319
.5714
.6103
.6480
.6844

.09
.5359
.5753
.6141
.6517
.6879

0.5
0.6
0.7
0.8
0.9

.6915
.7257
.7580
.7881
.8159

.6950
.7291
.7611
.7910
.8186

.6985
.7324
.7642
.7939
.8212

.7019
.7357
.7673
.7967
.8238

.7054
.7389
.7704
.7995
.8264

.7088
.7422
.7734
.8023
.8289

.7123
.7454
.7764
.8051
.8315

.7157
.7486
.7794
.8078
.8340

.7190
.7517
.7823
.8106
.8365

.7224
.7549
.7852
.8133
.8389

1.0
1.1
1.2
1.3
1.4

.8413
.8643
.8849
.9032
.9192

.8438
.8665
.8869
.9049
.9207

.8461
.8686
.8888
.9066
.9222

.8485
.8708
.8907
.9082
.9236

.8508
.8729
.8925
.9099
.9251

.8531
.8749
.8944
.9115
.9265

.8554
.8770
.8962
.9131
.9279

.8577
.8790
.8980
.9147
.9292

.8599
.8810
.8997
.9162
.9306

.8621
.8830
.9015
.9177
.9319

1.5
1.6
1.7
1.8
1.9

.9332
.9452
.9554
.9641
.9713

.9345
.9463
.9564
.9649
.9719

.9357
.9474
.9573
.9656
.9726

.9370
.9484
.9582
.9664
.9732

.9382
.9495
.9591
.9671
.9738

.9394
.9505
.9599
.9678
.9744

.9406
.9515
.9608
.9686
.9750

.9418
.9525
.9616
.9693
.9756

.9429
.9535
.9625
.9699
.9761

.9441
.9545
.9633
.9706
.9767

2.0
2.1
2.2
2.3
2.4

.9772
.9821
.9861
.9893
.9918

.9778
.9826
.9864
.9896
.9920

.9783
.9830
.9868
.9898
.9922

.9788
.9834
.9871
.9901
.9925

.9793
.9838
.9875
.9904
.9927

.9798
.9842
.9878
.9906
.9929

.9803
.9846
.9881
.9909
.9931

.9808
.9850
.9884
.9911
.9932

.9812
.9854
.9887
.9913
.9934

.9817
.9857
.9890
.9916
.9936

2.5
2.6
2.7
2.8
2.9

.9938
.9953
.9965
.9974
.9981

.9940
.9955
.9966
.9975
.9982

.9941
.9956
.9967
.9976
.9982

.9943
.9957
.9968
.9977
.9983

.9945
.9959
.9969
.9977
.9984

.9946
.9960
.9970
.9978
.9984

.9948
.9961
.9971
.9979
.9985

.9949
.9962
.9972
.9979
.9985

.9951
.9963
.9973
.9980
.9986

.9952
.9964
.9974
.9981
.9986

3.0
3.1
3.2
3.3
3.4

.9987
.9990
.9993
.9995
.9997

.9987
.9991
.9993
.9995
.9997

.9987
.9991
.9994
.9995
.9997

.9988
.9991
.9994
.9996
.9997

.9988
.9992
.9994
.9996
.9997

.9989
.9992
.9994
.9996
.9997

.9989
.9992
.9994
.9996
.9997

.9989
.9992
.9995
.9996
.9997

.9990
.9993
.9995
.9996
.9997

.9990
.9993
.9995
.9997
.9998

CHAPITRE 7. TABLES STATISTIQUES


160

0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9

1.6449
1.2816
1.0364
0.8416
0.6745
0.5244
0.3853
0.2533
0.1257

0.02
2.3263
1.5548
1.2265
0.9945
0.8064
0.6433
0.4958
0.3585
0.2275
0.1004

/2
u

0.03
2.1701
1.5141
1.2004
0.9741
0.7892
0.6280
0.4817
0.3451
0.2147
0.0878

0.04
2.0537
1.4758
1.1750
0.9542
0.7722
0.6128
0.4677
0.3319
0.2019
0.0753

+u

/2

0.05
1.9600
1.4395
1.1503
0.9346
0.7554
0.5978
0.4538
0.3186
0.1891
0.0627

0.06
1.8808
1.4051
1.1264
0.9154
0.7388
0.5828
0.4399
0.3055
0.1764
0.0502

0.07
1.8119
1.3722
1.1031
0.8965
0.7225
0.5681
0.4261
0.2924
0.1637
0.0376

0.08
1.7507
1.3408
1.0803
0.8779
0.7063
0.5534
0.4125
0.2793
0.1510
0.0251

Table 7.3 quantiles de la loi normale centree reduite


(u : valeur ayant la probabilite detre depasse en valeur absolue)

0.01
2.5758
1.5982
1.2536
1.0152
0.8239
0.6588
0.5101
0.3719
0.2404
0.1130

0.09
1.6954
1.3106
1.0581
0.8596
0.6903
0.5388
0.3989
0.2663
0.1383
0.0125

161

Table 7.4 Table des quantiles dune variable 2 `a n degres de liberte


ordre du quantile
0.05
0.95
0.003932
3.841
0.103
5.991
0.352
7.815
0.711
9.488
1.145
11.07
1.635
12.59
2.167
14.07
2.733
15.51
3.325
16.92

n=1
2
3
4
5
6
7
8
9

0.01
0.000157
0.02010
0.115
0.297
0.554
0.872
1.239
1.646
2.088

0.025
0.000982
0.05064
0.216
0.484
0.831
1.237
1.690
2.180
2.700

0.975
5.024
7.378
9.348
11.14
12.83
14.45
16.01
17.53
19.02

0.99
6.635
9.210
11.34
13.28
15.09
16.81
18.48
20.09
21.67

10
11
12
13
14
15
16
17
18
19

2.558
3.053
3.571
4.107
4.660
5.229
5.812
6.408
7.015
7.633

3.247
3.816
4.404
5.009
5.629
6.262
6.908
7.564
8.231
8.907

3.940
4.575
5.226
5.892
6.571
7.261
7.962
8.672
9.390
10.12

18.31
19.68
21.03
22.36
23.68
25.00
26.30
27.59
28.87
30.14

20.48
21.92
23.34
24.74
26.12
27.49
28.85
30.19
31.53
32.85

23.21
24.72
26.22
27.69
29.14
30.58
32.00
33.41
34.81
36.19

20
21
22
23
24
25
26
27
28
29

8.260
8.897
9.542
10.20
10.86
11.52
12.20
12.88
13.56
14.26

9.591
10.28
10.98
11.69
12.40
13.12
13.84
14.57
15.31
16.05

10.85
11.59
12.34
13.09
13.85
14.61
15.38
16.15
16.93
17.71

31.41
32.67
33.92
35.17
36.42
37.65
38.89
40.11
41.34
42.56

34.17
35.48
36.78
38.08
39.36
40.65
41.92
43.19
44.46
45.72

37.57
38.93
40.29
41.64
42.98
44.31
45.64
46.96
48.28
49.59

30
31
32
33
34
35
36
37
38
39

14.95
15.66
16.36
17.07
17.79
18.51
19.23
19.96
20.69
21.43

16.79
17.54
18.29
19.05
19.81
20.57
21.34
22.11
22.88
23.65

18.49
19.28
20.07
20.87
21.66
22.47
23.27
24.07
24.88
25.70

43.77
44.99
46.19
47.40
48.60
49.80
51.00
52.19
53.38
54.57

46.98
48.23
49.48
50.73
51.97
53.20
54.44
55.67
56.90
58.12

50.89
52.19
53.49
54.78
56.06
57.34
58.62
59.89
61.16
62.43

40
42
44
46
48

22.16
23.65
25.15
26.66
28.18

24.43
26.00
27.57
29.16
30.75

26.51
28.14
29.79
31.44
33.10

55.76
58.12
60.48
62.83
65.17

59.34
61.78
64.20
66.62
69.02

63.69
66.21
68.71
71.20
73.68

50
60
70
80
90
100
110
120

29.71
37.48
45.44
53.54
61.75
70.06
78.46
86.92

32.36
40.48
48.76
57.15
65.65
74.22
82.87
91.57

34.76
43.19
51.74
60.39
69.13
77.93
86.79
95.70

67.50
79.08
90.53
101.88
113.15
124.34
135.48
146.57

71.42
83.30
95.02
106.63
118.14
129.56
140.92
152.21

76.15
88.38
100.43
112.33
124.12
135.81
147.41
158.95

162

CHAPITRE 7. TABLES STATISTIQUES

Table 7.5 Table des quantiles dune variable de Student `a n degres de liberte

n=1
2
3
4
5
6
7
8
9

0.95
6.314
2.920
2.353
2.132
2.015
1.943
1.895
1.860
1.833

ordre du
0.975
12.71
4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.262

quantile
0.99
31.82
6.965
4.541
3.747
3.365
3.143
2.998
2.896
2.821

0.995
63.66
9.925
5.841
4.604
4.032
3.707
3.499
3.355
3.250

10
11
12
13
14
15
16
17
18
19

1.812
1.796
1.782
1.771
1.761
1.753
1.746
1.740
1.734
1.729

2.228
2.201
2.179
2.160
2.145
2.131
2.120
2.110
2.101
2.093

2.764
2.718
2.681
2.650
2.624
2.602
2.583
2.567
2.552
2.539

3.169
3.106
3.055
3.012
2.977
2.947
2.921
2.898
2.878
2.861

20
21
22
23
24
25
26
27
28
29

1.725
1.721
1.717
1.714
1.711
1.708
1.706
1.703
1.701
1.699

2.086
2.080
2.074
2.069
2.064
2.060
2.056
2.052
2.048
2.045

2.528
2.518
2.508
2.500
2.492
2.485
2.479
2.473
2.467
2.462

2.845
2.831
2.819
2.807
2.797
2.787
2.779
2.771
2.763
2.756

30
31
32
33
34
35
36
37
38
39

1.697
1.696
1.694
1.692
1.691
1.690
1.688
1.687
1.686
1.685

2.042
2.040
2.037
2.035
2.032
2.030
2.028
2.026
2.024
2.023

2.457
2.453
2.449
2.445
2.441
2.438
2.434
2.431
2.429
2.426

2.750
2.744
2.738
2.733
2.728
2.724
2.719
2.715
2.712
2.708

40
50
60
70
80
90
100
120

1.684
1.676
1.671
1.667
1.664
1.662
1.660
1.658
1.645

2.021
2.009
2.000
1.994
1.990
1.987
1.984
1.980
1.960

2.423
2.403
2.390
2.381
2.374
2.368
2.364
2.358
2.327

2.704
2.678
2.660
2.648
2.639
2.632
2.626
2.617
2.576

163

Table 7.6 Table des quantiles dordre 0.95 dune variable de Fisher `a n1 et
n2 degres de liberte

n2 =1
2
3
4
5
6
7
8
9

n1 =1
161.4
18.51
10.13
7.709
6.608
5.987
5.591
5.318
5.117

2
199.5
19.00
9.552
6.944
5.786
5.143
4.737
4.459
4.256

3
215.7
19.16
9.277
6.591
5.409
4.757
4.347
4.066
3.863

4
224.6
19.25
9.117
6.388
5.192
4.534
4.120
3.838
3.633

5
230.2
19.30
9.013
6.256
5.050
4.387
3.972
3.687
3.482

6
234.0
19.33
8.941
6.163
4.950
4.284
3.866
3.581
3.374

7
236.8
19.35
8.887
6.094
4.876
4.207
3.787
3.500
3.293

8
238.9
19.37
8.845
6.041
4.818
4.147
3.726
3.438
3.230

9
240.5
19.38
8.812
5.999
4.772
4.099
3.677
3.388
3.179

10
241.9
19.40
8.786
5.964
4.735
4.060
3.637
3.347
3.137

12
243.9
19.41
8.745
5.912
4.678
4.000
3.575
3.284
3.073

14
245.4
19.42
8.715
5.873
4.636
3.956
3.529
3.237
3.025

16
246.5
19.43
8.692
5.844
4.604
3.922
3.494
3.202
2.989

20
248.0
19.45
8.660
5.803
4.558
3.874
3.445
3.150
2.936

30
250.1
19.46
8.617
5.746
4.496
3.808
3.376
3.079
2.864

254.3
19.50
8.526
5.628
4.365
3.669
3.230
2.928
2.707

10
11
12
13
14
15
16
17
18
19

4.965
4.844
4.747
4.667
4.600
4.543
4.494
4.451
4.414
4.381

4.103
3.982
3.885
3.806
3.739
3.682
3.634
3.592
3.555
3.522

3.708
3.587
3.490
3.411
3.344
3.287
3.239
3.197
3.160
3.127

3.478
3.357
3.259
3.179
3.112
3.056
3.007
2.965
2.928
2.895

3.326
3.204
3.106
3.025
2.958
2.901
2.852
2.810
2.773
2.740

3.217
3.095
2.996
2.915
2.848
2.790
2.741
2.699
2.661
2.628

3.135
3.012
2.913
2.832
2.764
2.707
2.657
2.614
2.577
2.544

3.072
2.948
2.849
2.767
2.699
2.641
2.591
2.548
2.510
2.477

3.020
2.896
2.796
2.714
2.646
2.588
2.538
2.494
2.456
2.423

2.978
2.854
2.753
2.671
2.602
2.544
2.494
2.450
2.412
2.378

2.913
2.788
2.687
2.604
2.534
2.475
2.425
2.381
2.342
2.308

2.865
2.739
2.637
2.554
2.484
2.424
2.373
2.329
2.290
2.256

2.828
2.701
2.599
2.515
2.445
2.385
2.333
2.289
2.250
2.215

2.774
2.646
2.544
2.459
2.388
2.328
2.276
2.230
2.191
2.155

2.700
2.570
2.466
2.380
2.308
2.247
2.194
2.148
2.107
2.071

2.538
2.404
2.296
2.206
2.131
2.066
2.010
1.960
1.917
1.878

20
21
22
23
24
25
26
27
28
29

4.351
4.325
4.301
4.279
4.260
4.242
4.225
4.210
4.196
4.183

3.493
3.467
3.443
3.422
3.403
3.385
3.369
3.354
3.340
3.328

3.098
3.072
3.049
3.028
3.009
2.991
2.975
2.960
2.947
2.934

2.866
2.840
2.817
2.796
2.776
2.759
2.743
2.728
2.714
2.701

2.711
2.685
2.661
2.640
2.621
2.603
2.587
2.572
2.558
2.545

2.599
2.573
2.549
2.528
2.508
2.490
2.474
2.459
2.445
2.432

2.514
2.488
2.464
2.442
2.423
2.405
2.388
2.373
2.359
2.346

2.447
2.420
2.397
2.375
2.355
2.337
2.321
2.305
2.291
2.278

2.393
2.366
2.342
2.320
2.300
2.282
2.265
2.250
2.236
2.223

2.348
2.321
2.297
2.275
2.255
2.236
2.220
2.204
2.190
2.177

2.278
2.250
2.226
2.204
2.183
2.165
2.148
2.132
2.118
2.104

2.225
2.197
2.173
2.150
2.130
2.111
2.094
2.078
2.064
2.050

2.184
2.156
2.131
2.109
2.088
2.069
2.052
2.036
2.021
2.007

2.124
2.096
2.071
2.048
2.027
2.007
1.990
1.974
1.959
1.945

2.039
2.010
1.984
1.961
1.939
1.919
1.901
1.884
1.869
1.854

1.843
1.812
1.783
1.757
1.733
1.711
1.691
1.672
1.654
1.638

30
32
34
36
38

4.171
4.149
4.130
4.113
4.098

3.316
3.295
3.276
3.259
3.245

2.922
2.901
2.883
2.866
2.852

2.690
2.668
2.650
2.634
2.619

2.534
2.512
2.494
2.477
2.463

2.421
2.399
2.380
2.364
2.349

2.334
2.313
2.294
2.277
2.262

2.266
2.244
2.225
2.209
2.194

2.211
2.189
2.170
2.153
2.138

2.165
2.142
2.123
2.106
2.091

2.092
2.070
2.050
2.033
2.017

2.037
2.015
1.995
1.977
1.962

1.995
1.972
1.952
1.934
1.918

1.932
1.908
1.888
1.870
1.853

1.841
1.817
1.795
1.776
1.760

1.622
1.594
1.569
1.547
1.527

40
50
60
120

4.085
4.034
4.001
3.920
3.841

3.232
3.183
3.150
3.072
2.996

2.839
2.790
2.758
2.680
2.605

2.606
2.557
2.525
2.447
2.372

2.449
2.400
2.368
2.290
2.214

2.336
2.286
2.254
2.175
2.099

2.249
2.199
2.167
2.087
2.010

2.180
2.130
2.097
2.016
1.938

2.124
2.073
2.040
1.959
1.880

2.077
2.026
1.993
1.910
1.831

2.003
1.952
1.917
1.834
1.752

1.948
1.895
1.860
1.775
1.692

1.904
1.850
1.815
1.728
1.644

1.839
1.784
1.748
1.659
1.571

1.744
1.687
1.649
1.554
1.459

1.509
1.438
1.389
1.254
1.000

164

CHAPITRE 7. TABLES STATISTIQUES

Table 7.7 Table des quantiles dordre 0.99 dune variable de Fisher `a n1 et
n2 degres de liberte

n2 =1
2
3
4
5
6
7
8
9

n1 =1
4052
98.50
34.12
21.20
16.26
13.75
12.25
11.26
10.56

2
5000
99.00
30.82
18.00
13.27
10.93
9.547
8.649
8.022

3
5403
99.17
29.46
16.69
12.06
9.780
8.451
7.591
6.992

4
5625
99.25
28.71
15.98
11.39
9.148
7.847
7.006
6.422

5
5764
99.30
28.24
15.52
10.97
8.746
7.460
6.632
6.057

6
5859
99.33
27.91
15.21
10.67
8.466
7.191
6.371
5.802

7
5928
99.36
27.67
14.98
10.46
8.260
6.993
6.178
5.613

8
5981
99.37
27.49
14.80
10.29
8.102
6.840
6.029
5.467

9
6022
99.39
27.35
14.66
10.16
7.976
6.719
5.911
5.351

10
6056
99.40
27.23
14.55
10.05
7.874
6.620
5.814
5.257

12
6106
99.42
27.05
14.37
9.888
7.718
6.469
5.667
5.111

14
6143
99.43
26.92
14.25
9.770
7.605
6.359
5.559
5.005

16
6170
99.44
26.83
14.15
9.680
7.519
6.275
5.477
4.924

20
6209
99.45
26.69
14.02
9.553
7.396
6.155
5.359
4.808

30
6261
99.47
26.51
13.84
9.379
7.229
5.992
5.198
4.649

6366
99.50
26.13
13.46
9.020
6.880
5.650
4.859
4.311

10
11
12
13
14
15
16
17
18
19

10.04
9.646
9.330
9.074
8.862
8.683
8.531
8.400
8.285
8.185

7.559
7.206
6.927
6.701
6.515
6.359
6.226
6.112
6.013
5.926

6.552
6.217
5.953
5.739
5.564
5.417
5.292
5.185
5.092
5.010

5.994
5.668
5.412
5.205
5.035
4.893
4.773
4.669
4.579
4.500

5.636
5.316
5.064
4.862
4.695
4.556
4.437
4.336
4.248
4.171

5.386
5.069
4.821
4.620
4.456
4.318
4.202
4.102
4.015
3.939

5.200
4.886
4.640
4.441
4.278
4.142
4.026
3.927
3.841
3.765

5.057
4.744
4.499
4.302
4.140
4.004
3.890
3.791
3.705
3.631

4.942
4.632
4.388
4.191
4.030
3.895
3.780
3.682
3.597
3.523

4.849
4.539
4.296
4.100
3.939
3.805
3.691
3.593
3.508
3.434

4.706
4.397
4.155
3.960
3.800
3.666
3.553
3.455
3.371
3.297

4.601
4.293
4.052
3.857
3.698
3.564
3.451
3.353
3.269
3.195

4.520
4.213
3.972
3.778
3.619
3.485
3.372
3.275
3.190
3.116

4.405
4.099
3.858
3.665
3.505
3.372
3.259
3.162
3.077
3.003

4.247
3.941
3.701
3.507
3.348
3.214
3.101
3.003
2.919
2.844

3.909
3.602
3.361
3.165
3.004
2.868
2.753
2.653
2.566
2.489

20
21
22
23
24
25
26
27
28
29

8.096
8.017
7.945
7.881
7.823
7.770
7.721
7.677
7.636
7.598

5.849
5.780
5.719
5.664
5.614
5.568
5.526
5.488
5.453
5.420

4.938
4.874
4.817
4.765
4.718
4.675
4.637
4.601
4.568
4.538

4.431
4.369
4.313
4.264
4.218
4.177
4.140
4.106
4.074
4.045

4.103
4.042
3.988
3.939
3.895
3.855
3.818
3.785
3.754
3.725

3.871
3.812
3.758
3.710
3.667
3.627
3.591
3.558
3.528
3.499

3.699
3.640
3.587
3.539
3.496
3.457
3.421
3.388
3.358
3.330

3.564
3.506
3.453
3.406
3.363
3.324
3.288
3.256
3.226
3.198

3.457
3.398
3.346
3.299
3.256
3.217
3.182
3.149
3.120
3.092

3.368
3.310
3.258
3.211
3.168
3.129
3.094
3.062
3.032
3.005

3.231
3.173
3.121
3.074
3.032
2.993
2.958
2.926
2.896
2.868

3.130
3.072
3.019
2.973
2.930
2.892
2.857
2.824
2.795
2.767

3.051
2.993
2.941
2.894
2.852
2.813
2.778
2.746
2.716
2.689

2.938
2.880
2.827
2.781
2.738
2.699
2.664
2.632
2.602
2.574

2.778
2.720
2.667
2.620
2.577
2.538
2.503
2.470
2.440
2.412

2.421
2.360
2.305
2.256
2.211
2.169
2.131
2.097
2.064
2.034

30
32
34
36
38

7.562
7.499
7.444
7.396
7.353

5.390
5.336
5.289
5.248
5.211

4.510
4.459
4.416
4.377
4.343

4.018
3.969
3.927
3.890
3.858

3.699
3.652
3.611
3.574
3.542

3.473
3.427
3.386
3.351
3.319

3.304
3.258
3.218
3.183
3.152

3.173
3.127
3.087
3.052
3.021

3.067
3.021
2.981
2.946
2.915

2.979
2.934
2.894
2.859
2.828

2.843
2.798
2.758
2.723
2.692

2.742
2.696
2.657
2.622
2.591

2.663
2.618
2.578
2.543
2.512

2.549
2.503
2.463
2.428
2.397

2.386
2.340
2.299
2.263
2.232

2.006
1.956
1.911
1.872
1.837

40
50
60
120

7.314
7.171
7.077
6.851
6.635

5.179
5.057
4.977
4.787
4.605

4.313
4.199
4.126
3.949
3.782

3.828
3.720
3.649
3.480
3.319

3.514
3.408
3.339
3.174
3.017

3.291
3.186
3.119
2.956
2.802

3.124
3.020
2.953
2.792
2.639

2.993
2.890
2.823
2.663
2.511

2.888
2.785
2.718
2.559
2.407

2.801
2.698
2.632
2.472
2.321

2.665
2.562
2.496
2.336
2.185

2.563
2.461
2.394
2.234
2.082

2.484
2.382
2.315
2.154
2.000

2.369
2.265
2.198
2.035
1.878

2.203
2.098
2.028
1.860
1.696

1.805
1.683
1.601
1.381
1.000

Liste des tableaux


1.1
1.2
1.3

Codication de la variable Y . . . . . . . . . . . . . . . . . . . .
Serie statistique de la variable Y . . . . . . . . . . . . . . . . . .
Tableau statistique complet . . . . . . . . . . . . . . . . . . . . .

14
14
14

3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
3.10
3.11
3.12
3.13
3.14
3.15

Tableau des eectifs njk . . . . . . . . .


Tableau des frequences . . . . . . . . .
Tableau des prols lignes . . . . . . . .
Tableau des prols colonnes . . . . . .
Tableau des eectifs theoriques njk . .
Tableau des ecarts `a lindependance ejk
Tableau des e2jk /njk . . . . . . . . . . .
Tableau de contingence : eectifs njk . .
Tableau des frequences fjk . . . . . . . .
Tableau des prols lignes . . . . . . . .
Tableau des prols colonnes . . . . . . .
Tableau des eectifs theoriques njk . . .
Tableau des ecarts `a lindependance ejk
Tableau des e2jk /njk . . . . . . . . . . .
Consommation de cr`emes glacees . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

65
66
66
66
68
68
68
69
69
69
69
70
70
70
71

4.1
4.2
4.3
4.4

Tableau du prix dun bien de consommation de 2000 `a 2006


Tableau de lindice simple du prix du tableau 4.1 . . . . . .
Exemple : prix et quantites de trois bien pendant 3 ans . .
Mesures de linegalite par pays . . . . . . . . . . . . . . . .

.
.
.
.

.
.
.
.

.
.
.
.

77
78
79
86

5.1
5.2
5.3

Syst`eme complet devenements . . . . . . . . . . . . . . . . . . .


Illustration du theor`eme des probabilites totales . . . . . . . . . .
Factorielle des nombres de 1 `a 10 . . . . . . . . . . . . . . . . .

89
93
94

6.1
6.2
6.3
6.4
6.5

Biens manufactures aux USA . . . . . . . . . . . . . .


Indice des prix `a la consommation (France) . . . . . .
Trac du nombre de voyageurs SNCF . . . . . . . . .
Decomposition de la variable FRIG, methode additive
Moyenne des composantes saisonni`eres . . . . . . . . .
165

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

129
131
132
147
148

166
6.6
6.7
6.8
6.9

7.1
7.2
7.3
7.4
7.5
7.6
7.7

LISTE DES TABLEAUX


Decomposition de la variable FRIG, methode multiplicative . . .
Moyenne des composantes saisonni`eres . . . . . . . . . . . . . . .
Prix moyen du Mazout pour 100 (achat entre 800 et 1500 ) . .
Lissage exponentiel simple et double de la serie temporelle Prix
moyen du Mazout pour 100 litres (achat entre 800 et 1500 litres)
en CHF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

149
150
152

154

Table des quantiles zp = 1 (p) dune variable normale centree


reduite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
Fonction de repartition de la loi normale centree reduite . . . . . 159
quantiles de la loi normale centree reduite . . . . . . . . . . . . . 160
Table des quantiles dune variable 2 `a n degres de liberte . . . . 161
Table des quantiles dune variable de Student `a n degres de liberte162
Table des quantiles dordre 0.95 dune variable de Fisher `a n1 et
n2 degres de liberte . . . . . . . . . . . . . . . . . . . . . . . . . . 163
Table des quantiles dordre 0.99 dune variable de Fisher `a n1 et
n2 degres de liberte . . . . . . . . . . . . . . . . . . . . . . . . . . 164

Table des gures


1.1
1.2
1.3
1.4
1.5
1.6

Diagramme en secteurs des frequences . . . . . . . . . . . . . . .


Diagramme en barres des eectifs . . . . . . . . . . . . . . . . . .
Diagramme en secteurs des frequences . . . . . . . . . . . . . . .
Diagramme en barres des eectifs . . . . . . . . . . . . . . . . .
Diagramme en barres des eectifs cumules . . . . . . . . . . . .
Diagramme en batonnets des eectifs pour une variable quantitative discr`ete . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.7 Fonction de repartition dune variable quantitative discr`ete . . .
1.8 Histogramme des frequences . . . . . . . . . . . . . . . . . . . . .
1.9 Histogramme des frequences avec les deux derni`eres classes agregees
1.10 Fonction de repartition dune distribution groupee . . . . . . . .
2.1
2.2
2.3
2.4
2.5

12
13
15
16
16
18
19
22
23
24

Mediane quand n est impair . . . . . . . . . . . . . . . . . . . . .


Mediane quand n est pair . . . . . . . . . . . . . . . . . . . . . .
Asymetrie dune distribution . . . . . . . . . . . . . . . . . . . .
Distributions mesokurtique et leptokurtique . . . . . . . . . . . .
Botes `a moustaches pour la variable supercie en hectares (HApoly) des communes du canton de Neuchatel . . . . . . . . . . .
Botes `a moustaches du revenu moyen des habitants des communes selon les provinces belges . . . . . . . . . . . . . . . . . . .

48

3.1
3.2
3.3
3.4

Le nuage de points . . . . . .
Exemples de nuages de points
Le nuage de points, le residu
La droite de regression . . . .

.
.
.
.

54
56
57
60

4.1

Courbe de Lorenz . . . . . . . . . . . . . . . . . . . . . . . . . . .

83

5.1
5.2

Distribution de faces obtenus. . . . . . . . . . . . . . . . . . . .


Distribution dune variable aleatoire binomiale avec n = 5 et
p = 0.6. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Distribution dune variable de Poisson avec = 1. . . . . . . . .
Probabilite que la variable aleatoire soit inferieure `a a . . . . . .
Fonction de densite dune variable uniforme . . . . . . . . . . . .

97

2.6

5.3
5.4
5.5

. . . . . . . .
et coecients
. . . . . . . .
. . . . . . . .

167

. . . . . . . .
de correlation
. . . . . . . .
. . . . . . . .

.
.
.
.

.
.
.
.

.
.
.
.

34
34
41
42
47

101
103
104
105

168

TABLE DES FIGURES

5.6
5.7
5.8
5.9
5.10
5.11
5.12

Fonction de repartition dune variable uniforme . . . . . . . . . .


Fonction de densite dune variable normale . . . . . . . . . . . .
Fonction de repartition dune variable normale . . . . . . . . . .
Densite dune normale centree reduite, symetrie . . . . . . . . . .
Fonction de densite dune variable exponentielle avec = 1. . . .
Densite dune variable de chi-carre avec p = 1, 2, . . . , 10 . . . . . .
Densites de variables de Student avec p = 1, 2 et 3 et dune
variable normale . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.13 Densite dune variable de Fisher . . . . . . . . . . . . . . . . . .
5.14 Densite dune normale bivariee . . . . . . . . . . . . . . . . . . .
5.15 Nuage de points de realisations dune normale bivariee . . . . . .

106
108
109
109
111
117

6.1
6.2
6.3
6.4
6.5
6.6
6.7
6.8
6.9
6.10
6.11
6.12

128
130
131
131
132
133
135
137
137
138
139

6.13
6.14
6.15
6.16

Depenses en biens durables USA (milliards de dollars de 1982) .


Nombre de refrigerateurs vendus de 1978 `a 1985 . . . . . . . . .
Indice des prix `a la consommation pt . . . . . . . . . . . . . . . .
Rapport mensuel des indices de prix pt /pt1 . . . . . . . . . . . .
Rapport en glissement annuel des indices de prix pt /pt12 . . . .
Trac du nombre de voyageurs SNCF . . . . . . . . . . . . . . .
Exemple de fonction logistique avec c = 0.5 . . . . . . . . . . . .
Serie avec une tendance lineaire dependant du temps . . . . . .
Dierence dordre un de la serie avec une tendance lineaire . . .
Dierence dordre 4 de la variable vente de refrigerateurs . . . .
Trac du nombre de voyageurs SNCF . . . . . . . . . . . . . . .
Dierence dordre 12 sur la serie trac du nombre de voyageurs
SNCF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Logarithme du rapport dordre 12 sur la serie trac du nombre
de voyageurs SNCF . . . . . . . . . . . . . . . . . . . . . . . . . .
Nombre de refrigerateurs et moyenne mobile dordre 4 . . . . . .
Decomposition de la serie de ventes de refrigerateurs 6.1 . . . . .
Evolution du prix du mazout en CHF (achat entre 800 et 1500
), lissage exponentiel double et lissage exponentiel simple . . . .

118
118
119
119

139
139
143
146
155

Index
analyse combinatoire, 94
arrangement, 95
axiomatique, 89
Bernoulli, 98
bernoullienne, 98
binome de Newton, 98
bote `a moustaches, 46
Boudon, 68
boxplot, 46
changement dorigine et dunite, 42
circularite, 78
coecient
dasymetrie de Fisher, 41
dasymetrie de Pearson, 41
dasymetrie de Yule, 41
de correlation, 56
de determination, 56
combinaison, 95
complementaire, 88
composante saisonni`ere, 141
correlation, 56
courbe
de Lorenz, 82
leptokurtique, 42
mesokurtique, 42
platykurtique, 42
covariance, 55, 122
decile, 36
share ratio, 84
derivees partielles, 58
desaisonnalisation, 145
densite
marginale, 123
diagramme

en barres, 12
des eectifs, 15
en batonnets des eectifs, 18
en boite, 46
en feuilles, 45
en secteurs, 12, 15
en tiges, 45
dierence, 88, 136
saisonni`ere, 138
distance interquartile, 37
distribution
binomiale, 98, 101
bivaree, 120
bivariee, 110
conditionnelle, 112, 113
de probabilite, 97
exponentielle, 110
groupee, 20
leptokurtique, 42
mesokurtique, 42
marginale, 111, 112, 119, 120
normale bivariee, 120, 122
domaine, 9
donnees observees, 64
droite de regression, 57
ecart
`a lindependance, 67
median absolu, 40
moyen absolu, 40
ecart-type, 38
marginal, 55
eectif, 11
dune modalite, 11
dune valeur disctincte, 11
marginal, 64
theorique, 67
169

170
ensemble
parties dun ensemble, 89
syst`eme complet, 89
esperance, 97, 114
conditionnelle, 121
dune variable
binomiale, 99
indicatrice, 98
proprietes, 114
etendue, 37
evenements, 87
independants, 92
mutuellement exclusifs, 88
experience aleatoire, 87
ltre lineraire, 140
fonction, 104
de densite, 108
conditionnelle, 112
dune variable aleatoire continue,
104
dune variable exponentielle, 111
dune variable uniforme, 105
marginale, 111, 112
de repartition, 19, 23, 33
discontinue, 35
jointe, 111, 112
par palier, 34
forward operator, 136
frequence, 11
groupe, 44
histogramme, 21
histogramme des frequence, 22
homoscedastique, 122
identite, 78
independance, 113
indice, 77
chaine, 81
dequirepartition, 84
de Fisher, 80
de Gini, 84
de Hoover, 84
de Laspeyres, 78

INDEX
de Paasche, 80
de pauvrete, 85
de Sidgwick, 81
proprietes, 78
selon les pays, 85
simple, 78
synthetique, 78
intersection, 88
khi-carre, 67
lag operator, 136
lissage exponentiel, 147
double, 150
simple, 147
loi
normale bivariee, 118
mediane, 35
mobile, 145
methode
additive, 145
multiplicative, 145
mediane, 33
mesures dinegalite, 77
mise en evidence, 30
mod`ele lineaire, 136
modalites, 9
mode, 27
moindres carres, 58, 150
moment, 40
`a lorigine, 40
centre, 40, 41
dordres superieurs, 40
moyenne, 27, 28, 31, 34, 43, 44, 55, 71
conditionnelle, 112, 113
geometrique, 31, 81
harmonique, 31, 80
marginale, 55, 111, 112, 118, 120
mobile, 140
Henderson, 144
non-ponderee, 141
Spencer, 143
symetrique, 141
Van Hann, 143
ponderee, 32, 44

INDEX
normale bivariee, 118
operateur
avance, 136
de decalage, 136
de dierence, 136
forward, 136
identite, 136
lag, 136
retard, 136

171
signe de sommation, 29
skewness, 41
somme
dune constante, 29
des carres, 30
de la regression, 61
des residus, 58, 61
totale, 61
statistique, 9
descriptive
bivariee, 53
univariee, 27
syst`eme complet devenements, 89

param`etres
daplatissement, 42
de dispersion, 37
de forme, 41
tableau
de position, 27
de contingence, 64
marginaux, 55
de frequences, 65
percentile, 36
des prols colonnes, 66
permutation
des prols lignes, 66
avec repetition, 95
statistique, 12, 13, 17, 19
sans repetition, 94
tendance, 133
piechart, 12
lineaire, 134, 136
probabilite, 87, 89
logistique, 134
conditionnelle et independance, 92
parabolique, 134
theor`eme des probabilites totales,
polynomiale, 134
93
quadratile, 134
prols
quadratique, 137
colonnes, 66
theor`eme
lignes, 66
de Bayes, 93
proprietes, 116
de Huygens, 44
proprietes des esperances et des variances,
transitivite, 78
114
quantile, 35, 36, 50, 55, 126, 158, 160 union, 87
unites
162
dobservation, 9
quartile, 36
statistiques, 9
quintile, 36
share ratio, 84
valeurs
adjacentes, 46
residus, 60
ajustees, 60
reversibilite, 78
possibles, 9
variable, 9
serie
aleatoire, 96
chronologique, 133
continue, 103
statistique, 10
discr`ete, 96, 97
bivariee, 53
independante, 113
temporelle, 127

172
binomiale, 98
de Fisher, 117
de Poisson, 102
de Student, 117
esperance, 97
indicatrice, 97
khi-carree, 116
normale, 108
centree reduite, 108
ordinale, 13
qualitative, 9
nominale, 10, 11
ordinale, 10, 13
quantitative, 10, 53
continue, 10, 19
discr`ete, 10, 17
uniforme, 105
variance, 3739, 4244, 55, 61, 62, 97
99, 102104, 108, 109, 111
114, 116
conditionnelle, 112, 113, 121
dune variable
binomiale, 99
indicatrice, 98
de regression, 61, 62
marginale, 55, 111, 112, 118, 120
proprietes, 114
residuelle, 61, 63

INDEX

Vous aimerez peut-être aussi