Vous êtes sur la page 1sur 156

Dpartement de Mathmatiques et Informatique

Abdelhamid El Mossadeq
P rofesseu r lE H T P

2006-2007

A. El Mossadeq
Juin 2006

TABLE DES MATIERES

Chapitre 1 : Statistique Descriptive


1. Concepts gnraux de la statistique descriptive
2. Les types de caractres et de variables statistiques
2.1. Les caractres qualitatifs
2.2. Les caractres quantitatifs
2.2.1. Les variables statistiques discrtes
2.2.2. Les variables statistiques continues
3. Prsentation gnrale des tableaux statistiques
4. Prsentation des distributions caractres qualitatifs
5. Prsentation des distributions caractres quantitatifs discrets
6. Prsentation des distributions caractres quantitatifs continus
7.Le rsum num rique dune distribution statistique
8. Les caractristiques de tendance centrale
8.1. Le mode
8.1.1. Dtermination pratique
8.1.2. Proprits
8.2. La mdiane
8.2.1. Dtermination pratique
8.2.2. Proprits
8.3. La moyenne arithmtique
8.2.1. Calcul pratique
8.2.2. Proprits
8.4. La moyenne gomtrique
8.5. La moyenne harmonique
9. Les caractristiques de dispersion
9.1.Ltendue
9.1.1. Calcul pratique
9.1.2. Proprits
9.2.Lintervalle interquartile
9.2.1. Dtermination pratique
9.2.2. Proprits
9.2.3. Dciles et percentiles
9.3.Lcart absolu moyen
9.3.1. Calcul pratique
9.3.2. Proprits

3
3
3
3
4
4
4
5
7
9
12
13
13
13
13
14
14
15
16
16
16
17
18
19
19
19
20
20
20
21
21
21
21
22

9.4.Lcart-type
9.4.1. Dtermination pratique
9.4.2. Correction de W. F. Sheppard
9.4.3. Proprits
10. Aplatissement et dissymtrie
10.1.Les m om ents dordre r
10.2.Le coefficient daplatissem ent
10.3. Le coefficient de dissymtrie

22
22
23
23
23
23
24
25

Chapitre 2 : Structures Statistiques et Estimation


1. Statistique et structure statistique
2. Fonction de vraisemblance
2.1. Structure statistique discrte
2.2. Structure statistique continue
3. Statistiques exhaustives
4. Information concernant un paramtre
4.1.M atrice dinformation
4.2. Ingalit de Cramer-Rao
5. Estimateurs
6.Lestim ation par la m thode de la vraisem lance
8. Exercices

29
31
31
31
32
38
38
43
45
50
54

Chapitre 3 : Les Procdures Usuelles des Tests


dH ypothses : Les Frquences
1.Fluctuations dchantillonnage dune frquence
2. Les sondages
3.Test de com paraison dune frquence une norm e
4. Test de comparaison de deux frquences
5. Exercices

61
62
64
65
68

Chapitre 4 : Les Procdures Usuelles des Tests


dH ypothses : Les Tests du Khi-Deux
1.Test de com paraison dune proportion observe une
proportion thorique
2.Test dindpendance du Khi-deux
3. Exercices

73
76
82

Chapitre 5 : Les Procdures Usuelles des Tests


dH ypothses : Moyennes et Variances
..1.Estim ation de la m oyenne et de la variance dune population
2.Intervalle de confiance dune variance
3.Intervalle de confiance dune m oyenne
3.1. n30
3.2. n<30
..4.Test de com paraison dune variance observe une norme
..5.Test de com paraison dune m oyenne observe une norme
5.1. n30
5.2. n<30
6. Test de comparaison de deux variances
7. Test de comparaison de deux moyennes
7.1. n30
7.2. n<30
8. Exercices

91
91
93
93
94
95
97
97
98
100
102
102
104
107

Chapitre 6 : Le Modle Linaire Simple


1. Le modle linaire simple
2. Analyse du modle linaire simple par la mthode des
moindres carrs
3. Proprits statistiques des estimateurs
3.1. Etude de
3.2. Etude de
3.3. Etude de
3.4. Etude de la covariance de et
4. Etude de la variance des estimateurs
5. Estimation de
6. Analyse de la variance
7. Tests et intervalles de confiance
7.1. Intervalle de confiance de
7.2. Rgion de confiance et tests concernant (,)
7.3. Intervalle de confiance et test concernant
7.4. Intervalle de confiance et test concernant
7.5. Intervalle de confiance de
7.6. Coefficient de corrlation
8. Le test de linarit du modle
9. Prdiction
10. Exemple
10.1. Estimation des paramtres du modle
10.2. Validation du modle
10.3 Intervalles de confiance

115
117
120
120
121
122
123
124
128
129
130
130
130
131
132
134
135
136
140
142
142
144
146

Chapitre 1
Statistique Descriptive

A. El Mossadeq

Statistique Descriptive

1. CONCEPTS GNRAUX DE LA
STATISTIQUE DESCRIPTIVE
Une population est lensemble des units statistiques ou individus tudi par le
statisticien.
Pour dcrire une population, on seorce de classer les individus qui la composent
en un certain nombre de sous ensembles.
Cette opration aboutit la confection de tableaux statistiques.
Le classement peut se faire relativement un ou plusieurs caractres.
Le choix dun caractre dtermine le critre qui servira classer les individus de la
population tudies en deux ou plusieurs sous ensembles.
Le nombre de ses sous ensembles correspond aux direntes situations possibles ou
modalits de ce caractre.
Les direntes modalits dun caractre doivent tre la fois incompatibles et exhaustives : un individu appartient un et un seul des sous ensembles dfinis par ces
modalits.

2. LES TYPES DE CARACTRES ET


DE VARIABLES STATISTIQUES
Un caractre peut tre soit qualitatif soit quantitatif.
Dans ce dernier cas, on lui associe une variable statistique.

2.1. LES CARACTRES QUALITATIFS


Un caractre qualitatif est un caractre dont les modalits chappent la mesure.
Elles peuvent seulement tre constates : le sexe, la nationalit et la profession sont
des caractres qualitatifs.

2.2. LES CARACTRES QUANTITATIFS


On dit quun caractre est quantitatif lorsquil est mesurable.
A chaque unit statistique correspond alors un nombre qui est la mesure ou la valeur
du caractre.
A ce nombre, on donne le nom de variable statistique.
Elle peut tre discrte ou continue.

Statistique Descriptive

A. El Mossadeq

2.2.1. LES VARIABLES STATISTIQUES DISCRTES


Une variable statistique est discrte lorsquelle ne prend que certaines valeurs
isoles : le nombre denfants charge dune famille, le nombre de ventes journalier
dun certain type dappareils, le nombre de jours pluvieux dans une rgion donne.

2.2.2. LES VARIABLES STATISTIQUES CONTINUES


Une variable statistique est continue lorsquelle peut prendre toutes les valeurs
lintrieur de son intervalle de variation : la taille, le poids, lage dune personne, la
teneur en nickel dun alliage, le dbit dune canalisation, la pression atmosphrique,
la force du vent.
Les valeurs dune telle variable sont groupes en classes qui peuvent avoir une amplitude constante ou variable.

3. PRSENTATION GNRALE DES


TABLEAUX STATISTIQUES
Soit une population P comprenant n individus pour chacun desquels on a fait une
observation concernant le caractre X qui comporte les modalits M1 , ..., Mk .
Le nombre ni dindividus prsentant la modalit Mi est leectif de Mi .
La frquence fi de la modalit Mi est le rapport entre leectif de Mi et la taille
de la population :
ni
fi =
n
Un tableau statistique dcrivant une population P suivant un caractre X se prsente
en gnral comme suit :
Distribution de la population Psuivant le caractre X
Source : .......

Modalits de X
M1
M2
..
Mk
Total

Eectifs des modalits Frquence des modalits


n1
f1
n2
f2
..
..
nk
fk
k
k
P
P
n=
ni
1=
fi
i=1

i=1

Une premire synthse de linformation contenue dans un tableau statistique peut


tre fournie par sa traduction sous forme de graphe.

A. El Mossadeq

Statistique Descriptive

4. PRSENTATION DES
DISTRIBUTIONS A CARACTRES
QUALITATIFS
La prsentation dun tableau statistique concernant un tel caractre suit exactement
les rgles gnrales exposes ci-dessus.
Deux types de reprsentation graphique sont surtout utiliss : les tuyaux dorgues
et les secteurs :
Dans la reprsentation par tuyaux dorgues, les direntes modalits du caractre sont figures par des rectangles dont la base est constante et dont la
hauteur, et lair par consquent, est proportionnelle aux eectifs. Trs souvent,
les modalits sont ordonnes sur le graphique dans le sens des eectifs croissants
ou dcroissants.
Dans la reprsentation par secteurs, ces derniers ont une aire, et par consquent
un angle au centre proportionnel aux eectifs des modalits correspondantes.
Ce systme de figuration permet de mieux visualiser la part de chaque modalit.
Exemple 1
Cet exemple fournit la rpartition de la population active occupe de la France par
catgorie socio-professionnelle en 1987.
Tableau 1. Rpartition de la population active occupe de la France
par catgorie socio-professionnelle
Source : I.N.S.E.E. , enqute par sondage sur lemploi en mars 1987

Catgorie Socio-Professionnelle

Eectif (103 ) frquence

Agriculteurs Exploitants

1385.5

6.4

Artisans, Commerants et Chefs dEntreprises

1709.0

8.0

Cadres et Professions Intellectuelles Suprieures

2117.2

9.9

Professions Intermdiaires

4317.5

20.2

Employs

5709.2

26.7

Ouvriers

6167.6

28.8

Total

21405

100

Statistique Descriptive

A. El Mossadeq

Fig 1.1. Reprsentation par tuyaux dorgue


Rpartition de la population active occupe par
catgorie socio-professionnelle

Fig 1.2. Reprsentation par secteur


Rpartition de la population active occupe par
catgorie socio-professionnelle

A. El Mossadeq

Statistique Descriptive

5. PRSENTATION DES
DISTRIBUTIONS A CARACTRES
QUANTITATIFS DISCRETS
Les direntes modalits sont constitues par les valeurs possibles de la variable
statistique discrte.
En face de chacune de ses valeurs xi , on fait figurer dans le tableau leectif ni , la
frquence fi , et la frquence cumule Fi :

F1 = 0

F2 = f1

F = f + ... + f
i
1
i1
Le tableau statistique dune telle distribution se prsente comme ci-aprs :

Tableau Statistique. Distribution Statistique Discrte


Source : .......

V aleurs xi

Effectifs ni

F r
equences fi

F r
equences Cumul
ees Fi

x1

n1

f1

F1 = 0

x2

n2

f2

F2 = f1

xk

nk

fk

Fk = f1 + ... + fk1

T otal

n=

k
P

ni

1=

i=1

k
P

fi

i=1

Il existe deux types de reprsentation graphique pour les sries statistiques caractres quantitatifs discrets :
le diagramme direntiel ou diagramme en btons, qui correspond la
reprsentation des frquences ou des eectifs,
le diagramme intgral ou courbe cumulative, qui correspond la reprsentation des frquences cumules ou eectifs cumuls.

Statistique Descriptive

A. El Mossadeq

Exemple 2
Au cours dune anne, comportant 253 jours douverture, on a relev chaque jour le
nombre de ventes xi dun appareil A.
Tableau 2. Distribution des jours douverture dun magasin
suivant le nombre de vente dun appareil A
Source : Service Commercial

xi

ni

fi

Fi

24

9.5

57

22.5 09.5

75

29.6 32.0

53

21.0 61.6

33

13.0 82.6

07

02.8 95.6

04

01.6 98.4

T otal

253

100

100

Fig 2.1. Diagramme en btons


Reprsentation graphique du nombre de ventes par jour

A. El Mossadeq

Statistique Descriptive

Fig 2.2. Courbe cumulative


Reprsentation graphique du nombre de ventes par jour

6. PRSENTATION DES
DISTRIBUTIONS A CARACTRES
QUANTITATIFS CONTINUS
Les observations sont ncessairement regroupes par classe. Les modalits du caractre sont constitues par les direntes classes.
Si lon dsigne par xi1 et xi les extrmits infrieure et suprieure de la ie`me classe,
celle-ci est gnralement dfinie par :
xi1 x < xi
En face de la ie`me classe, on fait figurer, dans le tableau statistique, leectif ni , la
frquence fi et la frquence cumule Fi :

F1 = 0

F2 = f1

F = f + ... + f
i
1
i1

Statistique Descriptive

A. El Mossadeq

Tableau Statistique. Distribution Statistique Continue


Source : .......

V aleurs xi

Eff ectif s ni

F r
equences fi

F r
equences Cumul
ees Fi

(x0 , x1 [

n1

f1

F1 = 0

[x1 , x2 [

n2

f2

F2 = f1

[xk1 , xk )

nk

fk

Fk = f1 + ... + fk1

T otal

n=

k
P

ni

1=

i=1

k
P

fi

i=1

Deux types de reprsentation graphique sont possibles pour les sries statistiques
continues :
le diagramme direntiel appel histogramme,
le diagramme intgral appel courbe cumulative.
Lhistogramme est la reprsentation graphique de la distribution des eectifs ou des
frquences de la variable statistique continue.
A chaque classe de valeurs de la variable, porte en abscisse, on fait correspondre
un rectangle bas sur cette classe.
Or deux frquences ne sont directement comparables que sils concernent des classes
de mme amplitude.
Dans le cas dune srie dont les amplitudes des classes sont ingales, on choisit une
amplitude de classe u (pour simplifier les calculs, on retiendra le plus grand commun
diviseur des diverses amplitudes).
Lexpression des amplitudes dans cette nouvelle unit est :
ai =

xi xi1
u

La hauteur hi des rectangles reprsentatifs de chaque classe est alors :


hi =

fi
ai

La courbe cumulative, comme pour les variables statistiques discrtes, est la reprsentation graphique de la fonction cumulative F (fonction de rpartition).
Les observations tant groupes par classe [xi , xi+1 [, la valeur de F en xi est :

F (x1 ) = 0
F (xi ) = f1 + ... + fi1 , 2 i n

10

A. El Mossadeq

Statistique Descriptive

Exemple 3
Dans cet exemple, on tudie la rpartition des ouvriers dun tablissement industriel
selon leur salaire mensuel net.
Tableau 3. Rpartition des ouvriers dun tablissement industriel
selon leur salaire mensuel net
Source : Service du personnel

Salaire

Eff ectif

F r
equence F. cumul
ee Amplitude Hauteur

[800, 1000[

26

18.6

2.102

09.30

[1000, 1100[

33

23.5

18.6

1.102

23.50

[1100, 1200[

64

45.8

42.1

1.102

45.80

[1200, 1300[

07

05.0

87.9

1.102

05.00

[1300, 1500[

10

07.1

92.9

2.102

03.55

T otal

140

100

100

Fig 3.1. Reprsentation par histogramme


Rpartition des ouvriers selon le salaire mensuel net

11

Statistique Descriptive

A. El Mossadeq

Fig 3.2. Courbe cumulative


Rpartition des ouvriers selon le salaire mensuel net

7. LE RSUME NUMRIQUE DUNE


DISTRIBUTION STATISTIQUE
La reprsentation graphique des distributions statistiques permet une premire synthse des informations contenues dans les tableaux.
De lexamen de cette reprsentation, loeil retire deux impressions :
la premire concerne lordre de grandeur de la variable statistique, caractris
par les valeurs de la variable situes au centre de la distribution : cest la
tendance centrale de la srie statistique,
la seconde est relative la plus ou moins grande fluctuations des observations
autour de la tendance centrale : cest la dispersion.
Le statisticien britanique Yule a prcis les proprits souhaitables que doit prsenter
une bonne caractristique de tendance centrale ou de dispersion :
(1) tre dfinie dune manire objective.
(2) Dpendre de toutes les observations.
(3) Avoir une signification concrte et facile concevoir
(4) tre simple calculer.
(5) tre peu sensible aux fluctuations dchantillonnage
(6) Se prter aisment au calcul algbrique.

12

A. El Mossadeq

Statistique Descriptive

8. LES CARACTRISTIQUES DE
TENDANCE CENTRALE
Les caractristiques de tendance centrale les plus utilises sont :
le mode,
la mdiane,
la moyenne arithmtique.
On peut leur ajouter :
la moyenne gomtrique,
la moyenne harmonique
dont lusage simpose dans certains cas particuliers.

8.1. LE MODE
Cest la valeur de la variable statistique pour laquelle la frquence est la plus leve.
Cest donc la valeur de la variable qui se rencontre le plus frquemment dans la srie
statistique.

8.1.1. DTERMINATION PRATIQUE


Lorsque la variable est discrte, le mode est dfini avec prcision.
Ainsi, dans lexemple 2, le mode est gal 2 appareils.
Si deux valeurs successives de la variable statistique ont la frquence maximum, il
y a un intervalle modal dont les extrmits correspondent ces valeurs.
Lorsque la variable est continue, la dtermination du mode est beaucoup moins
prcise : on peut dfinir la classe modale comme la classe dont la frquence par
unit dintervalle est la plus leve.
Ainsi dans lexemple 3, le salaire modale de la distribution des ouvriers est compris
entre 1100 et 1200.

8.1.2. PROPRITS
Le principal avantage du mode cest davoir une signification immdiate.
Si son calcul dans le cas discret est trs facile, par contre, sa dtermination dans le
cas dune variable statistique continue nest pas absolument prcise : elle dpend en
partie du dcoupage en classes retenu.
Il ne dpend des observations que par leur frquence et non par leur valeur.
Il se prte mal au calcul algbrique et est trs sensible aux fluctuations dchantillonnage.
Il sera surtout utilis lorsquon dsire se faire rapidement une premire ide de la
tendance centrale dune srie statistique.

13

Statistique Descriptive

A. El Mossadeq

Les distributions statistiques les plus rpandues nont quun seul mode : distribution unimodale, mais il arrive de rencontrer des distributions prsentant deux ou
plusieurs mode : distribution bimodale ou plurimodale. Chacun deux, correspond un maximum local de la courbe de frquence.
Gnralement, la prsence de plusieurs modes indique que la population observe est,
en ralit, htrogne et compose de sous-populations ayant des caractristiques de
tendace centrale direntes.

8.2. LA MDIANE
Cest la valeur M da la variable statistique pour laquelle la frquence cumule est
1
gale :
2
1
F (M) =
2
Elle partage donc en deux eectifs gaux les observations constituant la srie pralablement range par ordre croissant ou dcroissant du caractre.

8.2.1. DTERMINATION PRATIQUE


Si la variable est discrte, alors dans une srie comportant (2k + 1) observations ordonnes dans le sens croissant ou dcroissant, la valeur de la (k + 1)e`me
observation correspond la mdiane.
Si la srie comporte 2k observations, les extrmits de lintervalle mdian
correspondent la ke`me et la (k + 1)e`me observation.
Lorsque certaines valeurs de la variable statistique correspondent plusieurs
observations, lquation :
1
F (M) =
2
peut ne pas avoir de solution.
On convient de retenir pour la valeur mdiane, la valeur xi telle que :
F (xi ) <

1
< F (xi +)
2

cest dire telle que :


1
< f1 + ... + fi
2
On peut aussi dterminer la mdiane en utilisant la courbe des frquences cumule.
f1 + ... + fi1 <

14

A. El Mossadeq

Statistique Descriptive

Ainsi, dans lexemple 2, il y a 253 observations, la mdiane correspond la


valeur de la 127e`me observations. La valeur de la mdiane est 2.
Il ny a que 38.4% des observations dont la valeur soit suprieure la mdiane.
Dans le cas dune variable statistique continue, la mdiane est toujours strictement dfinie.
On dtermine dabord la classe mdiane [xi , xi+1 [ telle que :
1
< f1 + ... + fi
2
Lestimation de la valeur prcise de la mdiane sobtient par interpolation
linaire :
si n est impair gal 2k + 1 alors :

!
i1
P
k+1
nj
f1 + ... + fi1 <

j=1

M = xi + (xi+1 xi )

ni

si n est pair gal 2k alors les extrmits de lintervalle mdian sont :


!

i1
P
k
nj
M1

M2

xi + (xi+1 xi )

xi + (xi+1 xi )

j=1

ni

k+1
ni

i1
P

j=1

nj

On peut aussi dterminer la valeur de la mdiane graphiquement en utilisant la


courbe des frquences cumules.
Il est prfrable de retenir cette valeur puisque celle-ci nimplique pas dhypothse
de rpartition uniforme lintrieur de la classe mdiane.

8.2.2. PROPRITS
Linconvnient principal de la mdiane est de ne pas satisfaire la dernire condition
de Yule : dfinie comme la racine dune quation, elle ne se prte pas au calcul algbrique., la mdiane dune srie constitue par le mlange de plusieurs populations
ne peut tre dduite des mdianes des sries composantes.
Son emploi nest pas recommand dans le cas de sries statistiques discrtes prsentants des sauts importants ou dans le cas de sries statistiques continues ne comportant que peu dobservations, car sa signification devient alors trs incertaines.

15

Statistique Descriptive

A. El Mossadeq

8.3. LA MOYENNE ARITHMTIQUE


8.3.1. CALCUL PRATIQUE
Soit une variable statistique discrte prenant les valeurs x1 , ..., xk auxquelles
correspondent respectivement les eectifs n1 , ..., nk , et n = n1 + ... + nk .
la moyenne arithmtique de cette srie est :
1X
m=
ni xi
n i=1
k

Ainsi, dans lexemple 2, le nombre moyen de ventes de lappareil A par jour


douverture est 2.2.
Soit une variable statistique continue o x1 , ..., xk sont respectivement les centres des classes [c1 , c2 [ , ..., [ck , ck+1 [ auquelles correspondent les eectifs n1 , ..., nk
respectivement, et n = n1 + ... + nk .
la moyenne arithmtique de cette srie est :
1X
ni xi
n i=1
k

m=

Ainsi, dans lexemple 3, la salaire moyen net des ouvriers de ltablissement est
1103F .

8.3.2. PROPRITS
La moyenne arithmtique satisfait assez bien les conditions de Yule.
Son principal mrite est davoir une signification concrte, simple et se prte au calcul algbrique.
Elle possde les proprits suivantes :
(1) On a :
1X
ni (xi m) = 0
n i=1
k

cest dire, lcart moyen des observations par rapport la moyenne arithmtique est nulle.
(2) La quantit :

v
u k
u1 X
S (t) = t
ni (xi t)2
n i=1
16

A. El Mossadeq

Statistique Descriptive

est minimal pour :


t=m
cest dire, la distance moyenne des observations la moyenne arithmtique
est minimale.
(3) Si des populations P1 , ..., Pk deectifs n1 , ..., nk ont pour moyennes arithmtiques m1 , ..., mk alors la population P constitue des populations P1 , ..., Pk
a pour moyenne arithmtique :
1X
m=
ni mi
n i=1
k

8.4. LA MOYENNE GOMTRIQUE


Soit une srie statistique prenant les valeurs x1 , ..., xk auxquelles correspondent
respectivement les eectifs n1 , ..., nk , et n = n1 + ... + nk .
la moyenne gomtrique de cette srie est :
v
u k
u
Y n
n
xi i
G= t
i=1

On a :

1X
ln G =
ni ln xi
n i=1
k

ln G est donc la moyenne arithmtique de la srie statistique ln x1 , ..., ln xk .

Exemple 4
Trois quipes se sont succdes la direction dune entreprise.
Pendant la premire priode, qui a dure trois ans, les bnifices raliss ont augment
de 5.6% par an. Pendant la seconde priode de deux ans, de 4.5% et pendant la
dernire priode de cinq, de 11.3%.
Calculons lindice moyen daccroissement des bnifices pendant ces dix ans.
Soit B0 le bnifice ralis pendant lanne prcdente, alors :
Bi

= Bi1 + 0.056Bi1

= 1.056Bi1

Bi

= Bi1 + 0.045Bi1

= 1.045Bi1

Bi

= Bi1 + 0.113Bi1

= 1.113Bi1

17

105.6
Bi1
100
104.5
Bi1
100
111.3
Bi1
100

, 1i3
, 4i5
, 6 i 10

Statistique Descriptive

A. El Mossadeq

On en dduit :
B10 =

105.6
100

104.5
100

111.3
100

B0

Soit bm lindice moyen annuel de variation des bnifices pendant ces dix annes.
On a :

10
bm
B10 =
B0
100
do :

q
bm =
(105.5)3 (104.5)2 (111.3)5 = 108.2
10

8.5. LA MOYENNE HARMONIQUE


Soit une srie statistique prenant les valeurs x1 , ..., xk auxquelles correspondent respectivement les eectifs n1 , ..., nk , et n = n1 + ... + nk .
la moyenne harmonique de cette srie est :
n
H= k
P ni
i=1 xi
On a :

1
1 X ni
=
H
n i=1 xi
k

1
1
1
est donc la moyenne arithmtique de la srie statistique , ..., .
H
x1
xk
Exemple 5
Une entreprise a n camions qui font la rotation Casablanca et Rabat.
Au cours dune de celle-ci, le trajet Casablanca-Rabat (distance D) a t couvert
par ces vhicules aux vitesses moyennes :
v1 pour n1 camions
v2 pour n2 camions
v3 pour n3 camions
o
n1 + n2 + n3 = n
Dterminons la vitesse moyenne vm mise pour parcourir cette distance.

18

A. El Mossadeq

Statistique Descriptive

Le temps mis est :


t1

t2

t3

D
pour n1 camions
v1
D
pour n2 camions
v2
D
pour n3 camions
v3

La distance totale parcourue par les n camions est nD alors que le temps total mis
est :
t = n1 t1 + n2 t2 + n3 t3
Pour lensemble des camions, la vitesse moyenne est :
vm

nD
t

n
n1 n2 n3
+
+
v1
v2
v3

9. LES CARACTRISTIQUES DE
DISPERSION
Les caractristiques de dispersion les plus utilises sont :
ltendue,
lintervalle interquartile,
lcart absolu moyen,
lcart-type.

9.1. LTENDUE
9.1.1. CALCUL PRATIQUE
Soit une srie statistique prenant les valeurs x1 , ..., xk auxquelles correspondent respectivement les eectifs n1 , ..., nk .
Ltendue est la dirence entre la plus grande et la plus petite des valeurs
observes :
k

i=1

i=1

= max xi min xi

19

Statistique Descriptive

A. El Mossadeq

9.1.2. PROPRITS
La signification de ltendue est claire et son calcul est extrmement rapide.
Ces avantages la font frquemment utiliser dans le contrle de fabrication industrielle o lon prfre eectuer un plus grand nombre dobservations plutt que de
confier, compte tenu des conditions de travail dun atelier, des calculs complexes
des agents sans formation statistique.
Mais cette caractristique prsente des inconvnients srieux qui conduisent lcarter
chaque fois que cela est possible.
Ne dpendant que des termes extrmes, qui sont souvent exceptionnels, voir abrrants, et non de tous les termes, elle est sujette des fluctuations considrables dun
chantillon lautre.
Cest une caractristique de dispersion trs imparfaite.

9.2. LINTERVALLE INTERQUARTILE


Les trois quartiles Q1 , Q2 et Q3 sont les valeurs de la variables pour lesquels la
3
1 1
frquence cumule est respectivement , et :
4 2
4

F
(Q
1) =

1
F (Q2 ) =

F (Q3 ) = 3
4

Le 2e`me quartile est la mdiane.


Q3 Q1 est appel lintervalle interquartile. Cest lintervalle qui contient 50%
des observations en laissant 25% droite et 25% gauche.

9.2.1. DTERMINATION PRATIQUE


Les quartiles se dterminent la manire de la mdiane, soit par le calcul, soit
graphiquement partir de la courbe des frquences cumules.
Pour lexemple 2, la variable tant discrte, en utilisant les mmes conventions
que pour la mdiane, on trouve :

Q =1

1
Q2 = 2
Q3 = 3

Q Q =2
3
1
Comme pour la mdiane, la signification des quartiles dans le cas discret est
trs incertaines : dans cet exemple, lintervalle interquartile contient 73% et
non 50% des observations.

20

A. El Mossadeq

Statistique Descriptive

Pour lexemple 3, linterpolation linaire lintrieur des intervalles contenant


Q1 et Q3 , savoir les intervalles [1000, 1100[ et [1100, 1200[ respectivement,
conduit :

140
(1100 1000)
26
4
= 1027F
Q1 = 1000 +
33

3 140
(1200 1100)
59
4
Q3 = 1100 +
= 1172F
64
La dtermination graphique fournit des valuations peu direntes mais plus
prcises :
Q1 = 1040F

Q3 = 1150F

50% des ouvriers se trouvent dans cet intervalle.

9.2.2. PROPRITS
Les avantages de lintervalle interquartile sont la rapidit de son calcul et la simplicit
de sa signification.
Mais il ne tient compte que de lordre des observations et non de leurs valeurs et
des carts qui existe entre elles. En outre, sa dtermination dans le cas discret nest
pas prcise et il ne se prte pas au calcul algbrique. Cest une caractristique trs
imparfaite qui ne convient qu des mesures de dispersion lmentaires.

9.2.3. DCILES ET PERCENTILES


Les 9 dciles D1 , ..., D9 sont dfinies de manire analogue par :

k
, 1k9
10
Lintervalle D9 D1 , qui contient 80% des observations, est utilis parfois comme
mesure de dispersion.
Les 99 percentiles P1 , ..., P99 divisent leectif de la srie en 100 partie gales :
F (Dk ) =

F (Pk ) =

k
, 1 k 99
100

9.3. LCART ABSOLU MOYEN


9.3.1. DTERMINATION PRATIQUE
Soit une variable statistique X prenant les valeurs x1 , ..., xk auxquelles correspondent
respectivement les eectifs n1 , ..., nk , et n = n1 + ... + nk .
Lcart absolu moyen e [X] est la moyenne arithmtique des valeurs absolues des

21

Statistique Descriptive

A. El Mossadeq

carts la moyenne arithmtique :


1X
ni |xi m|
e [X] =
n i=1
k

o m est la moyenne arithmtique da la variable.


Ainsi, dans lexemple 3, lcart absolu moyen est
e = 100.26F

9.3.2. PROPRITS
Lcart absolu moyen satisfait assez bien aux premires conditions de Yule, mais se
prte mal au calcul algbrique puisquil fait intervenir des valeurs absolues.

9.4. LCART-TYPE
9.4.1. DTERMINATION PRATIQUE
Soit une variable statistique X prenant les valeurs x1 , ..., xk auquelles correspondent
respectivement les eectifs n1 , ..., nk , et n = n1 + ... + nk .
La variance V [X] de la variable statistique X est :
1X
1X
ni (xi m)2 =
ni xi 2 m2
n i=1
n i=1
k

V [X] =

o m est la moyenne arithmtique da la variable.


Cest la moyenne arithmtique des carrs des carts la moyenne arithmtique.
Lcart-type [X] est la racine carre de la variance :
p
[X] = V [X]
Cest une sorte de distance moyenne des observations la moyenne arithmtique.

Ainsi, dans lexemple 2 :


m [X]
V [X]
[X]

=
=
=

2.2
1.8
1.34

et pour lexemple 3 :
m [X]
V [X]
[X]

=
=
=

22

1102.95F
19719.5
129.3

A. El Mossadeq

Statistique Descriptive

9.4.2. CORRECTION DE W. F. SHEPPARD


Lorsque les observations sont groupes par classe, lhypothse de la concentration
des observations au centre de chaque classe entraine une approximation dans le
calcul.
Si toutes les classes ont une mme amplitude a et si la courbe de distribution est
unimodale et se raccorde, en ses extrmits, tangentiellement laxe des abscisses,
alors on introduit la correction suivante de lcart-type , dite la correction de
Sheppard :
r
a2
corrige = 2
12

9.4.3. PROPRITS
Lcart-type satisfait assez bien les conditions de Yule.
Sa signification napparait clairement que dans ltude des distributions dchantillonnages.
Il jouera un rle essentiel dans les applications pratiques.

10. APLATISSEMENT ET
DISSYMTRIE
10.1. LES MOMENTS DORDRE r
Soit une variable statistique X prenant les valeurs x1 , ..., xk auxquelles correspondent
respectivement les eectifs n1 , ..., nk , et n = n1 + ... + nk .
Le moment dordre r de X est :
1X
ni xri
mr =
n i=1
k

Le moment dordre r de X par rapport est :


1X
mr () =
ni (xi )r
n i=1
k

Le moment centr dordre r de X est :

1X
r =
ni (xi m1 )r
n i=1
k

23

Statistique Descriptive

A. El Mossadeq

En particulier :
m1
1

=
=

m2

m [X] = m
0
k

1X
ni x2i = m X 2
n i=1


1X
ni (xi m)2 = 2 = m X 2 m2
n i=1
k

On peut aussi, dans les mmes conditions que pour lcart-type, introduire les
corrections de Sheppard :
3 (corrig
e)

4 (corrig
e)

1
7 4
4 a2 2corrige
a
2
240

o a est lamlitude de classe.

10.2. LE COEFFICIENT DAPLATISSEMENT


Le coecient daplatissement peut tre dfini selon le sens de Fisher ( 2F )
ou selon le sens de Paerson ( 2P ) :
4
2F =
4
4
2P =
3 = 2F 3
4
Pour une loi normale :
4 = 3 4
et par suite :
2F
2P

=
=

3
0

Le coecient daplatissement permet de comparer laplatissement dune courbe


de frquence celui dune courbe de Gauss de mme cart-type : lorsque
2P > 0, la courbe de frquence est moins aplatie que celle de Gauss; cest
linverse lorsque 2P < 0.

24

A. El Mossadeq

Statistique Descriptive

10.3. LE COEFFICIENT DE DISSYMTRIE


Le coecient de dissymtrie peut tre dfini selon le sens de Fisher ( 1F )
ou selon le sens de Paerson ( 1P ) :
3
1F =
3
23
1P =
= ( 1F )2
6
Pour une courbe symtrique
3 = 0
et par consquent :
1F = 1P = 0
Il est prfrable dutiliser le coecient de dissymtrie selon le sens de Fisher
1F puisquil permet de distinguer la dissymtrie gauche [ 1F < 0] de la
dissymtrie droite [ 1F > 0] .

1F < 0 : dissym
etrie a` gauche

1F > 0 : dissym
etrie a` droite

25

Chapitre 2

Structure Statistique
et
Estimation

A. El Mossadeq

Structures Statistiques et Estimation

1. STATISTIQUE ET STRUCTURE
STATISTIQUE
Dfinition 1
Soit X un ala dfini sur un espace probabilis (, T ,P ) valeurs dans un espace
probabilisable (E, B) .
(X1 , ..., Xn ) est un chantillon de taille n de variable parente X, ou plus
simplement un n-chantillon issu de X, si X1 , ..., Xn sont n alas indpendants
qui suivent la mme loi que X.

Dfinition 2
Soit (X1 , ..., Xn ) un n-chantillon issu dun ala X dfini sur un espace probabilis
(, T ,P ) valeurs dans un espace probabilisable (E, B) et soit g un ala dfini sur
(E, B)n .
Lala g (X1 , ..., Xn ) est appel une statistique.
La loi de g (X1 , ..., Xn ) est appel une distribution dchantillonnage.

Exemple 1
Soit (X1 , ..., Xn ) un n-chantillon issu dune variables alatoire X.
Les variables alatoires :

n
1X

M
=
Xi

n i=1

1X
(Xi M)2
n i=1
n

sont des statistiques.


M est la moyenne empirique et S 2 est la variance empirique.

Dfinition 3
Soit P une famille de lois de probabilit sur un espace probabilisable (, T ).
Le triplet (, T ,P) est appel une structure statistique.

29

Structures Statistiques et Estimation

A. El Mossadeq

Remarque 1
Le plus souvent, la famille de lois de probabilit P est dcrite laide dun paramtre
appartenant un sous ensemble de Rp , p 1. On crit alors :
P = {P | }
et la structure statistique scrit :
(, T , {P | })

Exemple 2
Soit X une variable alatoire de P oisson de paramtre , > 0 :
p () =


e
!

o N.
La structure statistique associe est (N, {p | > 0}) .

Exemple 3
Soit X une variable alatoire exponentielle de paramtre , > 0 :

si x 0
0
f (x) =
exp x si x > 0

La structure statistique associe est (R, BR , {f | > 0}) .

Dfinition 4
On appelle un r-chantillon dune structure statistique (, T , {P | }), la
structure produit :
(, T , {P | })r = (r , r T , {r P | })

30

A. El Mossadeq

Structures Statistiques et Estimation

2. FONCTION DE VRAISEBLANCE
2.1. STRUCTURE STATISTIQUE DISCRTE
Dfinition 5
Soit (, {p | > 0}) une structure statistique discrte.
On appelle fonction de vraisemblance, de cette structure, la fonction numrique
L dfinie pour tout (; x) par :
L (; x) = p (x)
La fonction de vraisemblance dun r-chantillon de cette structure est dfinie
pour tout (; x1 , ..., xr ) r par :
L (; x1 , ..., xr ) =

r
Y

p (xi )

i=1

Exemple 4
Si (X1 , ..., Xr ) est un r-chantillon issu dune variables alatoire de P oisson de
paramtre , > 0, sa fonction de vraisemlance est :
L (; 1 , ..., r )

r
Y

p ( i )

i=1

r
P

er
1 !... r !
i=1

2.2. STRUCTURE STATISTIQUE CONTINUE


Dfinition 6
Soit (Rn , BRn , {P | > 0}) une structure statistique dans laquelle les probabilits
P sont dfinies partir de densit f .
On appelle fonction de vraisemblance, de cette structure, la fonction numrique
L dfinie pour tout (; x) Rn par :
L (; x) = f (x)

31

Structures Statistiques et Estimation

A. El Mossadeq

La fonction de vraisemblance dun r-chantillon de cette structure est dfinie


pour tout (; x1 , ..., xr ) (Rn )r par :
L (; x1 , ..., xr ) =

r
Y

f (xi )

i=1

Exemple 5
Si (X1 , ..., Xr ) est un r-chantillon issu dune variables alatoire exponentielle de
paramtre , > 0, sa fonction de vraisemlance est :
L (; x1 , ..., xr )

r
Y

f (xi )

i=1

exp

r
X
i=1

xi , xi > 0 , 1 i r

Exemple 6
Si (X1 , ..., Xr ) est un r-chantillon issu dune variables alatoire qui suit la loi uniforme sur lintervalle [0, ], > 0, sa fonction de vraisemlance est :
L (; x1 , ..., xr )

r
Y

f (xi )

i=1

1
, xi [0, ] , 1 i r
r

3. STATISTIQUES EXHAUSTIVES
Soit (, T ,P ) un espace probabilis et T une sous-tribu de T .
Si A est un vnement de T et A la fonction caractristique de A, lesprence
conditionnelle E [A | T ], que lon note P [A | T ], sappelle la probabilit
conditionnelle de A relativement la sous-tribu T .
P [A | T ] est une variable alatoire dfinie sur (, T ) dune faon unique
(P -p.p) par :
Z
Z

P [A | T ] dP =
A dP
B

32

P [AB]

A. El Mossadeq

Structures Statistiques et Estimation

pour tout B T .
Si T est la sous-tribu engendre par une partition A1 , ..., Ar de , alors :
P [A | T ] = P [A | Ai ] sur Ai

cest dire :

P [A | T ] =

r
X
i=1

P [A | Ai ] Ai

Si T est un ala dfini sur un espace probabilis (, T ,P ) valeurs dans un


espace probabilisable (E, B), on dfinit la probabilit conditionnelle de A
relativement T par :

P [A | T ] = P A | T 1 (B)

et comme :
alors :

P [A | T ] = u T = u (T )
P [A | T = t] = u (t)

Dfinition 7
Soit (, T , {P | }) une structure statistique.
Une sous-tribu T de T est dite exhaustive pour la famille {P | } si pour
tout A dans T , la probabilit conditionnelle P [A | T ] est indpendante de .

Dfinition 8
On dit que la statistique T dfinie sur (, T , {P | }) valeurs dans un
espace probabilisable (E, B) est exhaustive pour la famille {P | } si la sous
tribu T 1 (B) est exhaustive pour cette famille.
Une statistique exhaustive est appele aussi un rsum exhaustif.

Proposition 1
Soit (, {p | }) une structure statistique discrte.
Une statistique T dfinie sur (, T , {P | }) valeurs dans un espace probabilisable (E, B) est exhaustive pour la famille {P | } si et seulement si il existe
une fonction positive g dfinie sur et une fonction h dfinie sur telle que
pour tout (; ) on ait :
p () = g (; T ()) h ()

33

Structures Statistiques et Estimation

A. El Mossadeq

Preuve 1
Supposons T exhaustif.
Si :

P [T = T ()] = 0

il sut de prendre :
g (; T ()) = 0
et :
h () = 0
Si :

P [T = T ()] 6= 0

alors :
p ()

=
=

P [{} {T = T ()}]
P [T = T ()] P [ | T = T ()]

On peut poser donc :


g (; T ()) = P [T = T ()]
et :
h () = P [ | T = T ()]

puisque daprs lexhaustuvit, cette probabilit conditionnelle ne dpend


pas de .
Inversement, supposons que pour tout (; ) on a :
p () = g (; T ()) h ()
Il sut de prouver que pour tout (, t) E, la probabilit P [ | T = t]
ne dpend pas de .
En eet, supposons :
P [T = t] 6= 0
si :

T () 6= t

alors :
P [ | T = t]

=
=

P [{} {T = t}]
P [T = t]
0

34

A. El Mossadeq

Structures Statistiques et Estimation

si :

T () = t

alors :
P [ | T = t]

P [{} {T = t}]
P [T = t]
g (; T ()) h ()
P
g (; T ()) h ()

=
=

{|T ()=t}

h ()
P

h ()

{|T ()=t}

Exemple 7
Soit (, {p | }) une structure statistique discrte.
Les familles de lois exponentielles :
" k
#
X
p () = exp
i () ai () + () + b ()
i=1

admettent des rsums exhaustifs.

Exemple 8
Soit X une variable alatoire de Bernouilli de paramtre , 0 < < 1 :
p () = exp [(1 ) ln (1 ) + ln ]
Si (X1 , ..., Xr ) est un r-chantillon de cette structure alors :
p (1 , ..., r ) = exp

r
X
i=1

Posons :

[(1 i ) ln (1 ) + i ln ]

1X
T (1 , ..., r ) =
i
r i=1
r

alors :
p ( 1 , ..., r )

r
X

[(1 i ) ln (1 ) + i ln ]

exp

=
=

exp r [(1 T ( 1 , ..., r )) ln (1 ) + T ( 1 , ..., r ) ln ]


g [; T (1 , ..., r )]

i=1

35

Structures Statistiques et Estimation

A. El Mossadeq

T est alors un rsum exhaustif pour la famille des lois de Bernouilli de paramtre
, 0 < < 1.

Proposition 2
Soit (Rn , BRn , {P | > 0}) une structure statistique dans laquelle les probabilits
P sont dfinies partir de densit f .
Une statistique T dfinie sur (Rn , BRn , {P | > 0}) valeurs dans (Rs , BRs ) est
exhaustive pour la famille {P | } si et seulement si il existe une fonction positive g dfinie sur Rs mesurable pour tout fix dans et une fonction positive
et mesurable h dfinie sur Rn telle que pour tout (; x) Rn on ait :
f (x) = g (; T (x)) h (x)

Preuve 2
Admis

Exemple 9
Soit (Rn , BRn , {P | > 0}) une structure statistique dans laquelle les probabilits
P sont dfinies partir de densit f .
Les familles de lois exponentielles :
" k
#
X
f (x) = exp
i () ai (x) + () + b (x)
i=1

admettent des rsums exhaustifs.

Exemple 10
Soit X une variable alatoire exponentielle de paramtre , > 0 :

si x 0
0
f (x) =
exp x si x > 0

Si (X1 , ..., Xr ) un r-chantillon de cette structure alors :

r
P

exp xi si xi > 0 , 1 i r
i=1
f (x1 , ..., xr ) =

0
ailleurs
36

A. El Mossadeq

Structures Statistiques et Estimation

Posons :
1X
xi
r i=1
r

T (x1 , ..., xr ) =
alors :
f (1 , ..., r )

r
X

exp

=
=

r exp rT (x1 , ..., xr )


g [; T (x1 , ..., xr )]

xi

i=1

T est alors un rsum exhaustif pour la famille des lois exponentielles de paramtres
, > 0.

Exemple 11
Soit X une variable alatoire normale de paramtres R et 2 , > 0 :
1
1
f (, ; x) = exp 2 (x )2
2
2
Si (X1 , ..., Xr ) est un r-chantillon de cette structure alors :

Posons :

r
1
1 X
f (, ; x1 , ..., xr ) = r exp 2
(xi )2
2
2
i=1

1X
xi
r i=1
n

M (x1 , ..., xr )

S 2 (x1 , ..., xr )

1X
[xi M (x1 , ..., xr )]2
r i=1
n

On a :
f (, ; x1 , ..., xr )

=
=

puisque :
r
X
i=1

1
r
r exp 2 S 2 (x1 , ..., xr ) + (M (x1 , ..., xr ) )2
2
2

g , ; M (x1 , ..., xr ) , S 2 (x1 , ..., xr )

(xi )2 = r S 2 (x1 , ..., xr ) + (M (x1 , ..., xr ) )2

(M, S ) est alors un rsum exhaustif pour la famille des lois normales de paramtres
R et 2 , > 0.

37

Structures Statistiques et Estimation

A. El Mossadeq

4. INFORMATION CONCERNANT
UN PARAMTRE
Dans tout ce paragraphe, on suppose donn un vecteur alatoire n dimensions dfini sur une structure statistique (, T , {P | }), ce qui permet
de trasporter la structure statistique sur Rn .
Par abus, on note P , la loi (P )X du vecteur alatoire X, et on suppose que
P possde une densit f .
On dsigne par D le domaine :
D = {x Rn | f (; x) > 0}

4.1. MATRICE DINFORMATION


Proposition 3
Soit (Rn , BRn , {P | }), Rk , une structure statistique dans laquelle les
probabilits P sont dfinies partir des densits f .
Sous rserve de lgitimit de drivations sous le signe intgrale et en supposant le
domaine :
D = {x Rn | f (; x) > 0}

indpendant de , pour tout , le vecteur alatoire :

ln f (; X)
j
1ik
est centr.
Preuve 3
Puisque :

f (, x) dx = 1

Rn

alors, en supposant lgitimes les drivations sous le signe dintgration et le domaine


D indpendant de , pour tout , on obtient :

Z
Z

f (, x) dx =
ln f (, x) f (, x) dx
Rn j
Rn j
= 0
pour tout j, 1 j k.

38

A. El Mossadeq

Structures Statistiques et Estimation

Dfinition 9
La matrice des variances et covariances du vecteur alatoire :

ln f (; X)
j
1ik
est appele, lorsquelle existe, la matrice dinformation concernant le paramtre
fourni par la structure statistique (Rn , BRn , {P | }).
On la note I [X, ] .
Lorsque n = 1, I [X, ] na quun seul lment appel la quantit dinformation
de Fisher.

Pour calculer les lments de la matrice I [X, ] = [Iij ], partons de la relation :


Z
f (, x) dx = 1
Rn

donc, pour tout j, 1 j n, on a :


Z

f (, x) dx = 0
j Rn

Sous reserve de validit des drivations sous le signe intgrale et en supposant


le domaine :
D = {x Rn | f (; x) > 0}

indpendant de , on obtient :
Z

f (, x) dx =
Rn j
=

Rn

ln f (, x) f (, x) dx
j

Sous les mmes conditions on a :

ln f (, x) f (, x) dx +
ln f (, x)
ln f (, x) f (, x) dx = 0
i
j
Rn i j

do :
Iij

=
=

E
ln f (, X)
ln f (, X)
i
j

2
ln f (, X)
E
i j

39

Structures Statistiques et Estimation

A. El Mossadeq

Remarque 2
En tant que matrice des variances et covariances, I [X, ] est symtrique et positive.

Exemple 12
Soit X une variable alatoire normale de paramtres R et 2 , > 0.
La matrice dinformation concernant les paramtres et est donne par :
1

0
2

I [X; , ] =

2
0
2
Remarque 3
Lorsque n = 1, la quantit dinformation de Fisher est :
"
2 #

I [X, ] = E
ln f (, X)

ln f (, X)
= E
2

Proposition 4
Soit I [X, ] la matrice dinformation de la structure statistique (Rn , BRn , {P | }),
o Rk et les probabilits P sont dfinies partir des densits f , et soit
I [X1 , ..., Xr ; ] un r-chantillon de cette structure.

40

A. El Mossadeq

Structures Statistiques et Estimation

Sous reserve de lgtimit de drivations sous le signe intgrale et en supposant le


domaine :
D = {x Rn | f (; x) > 0}

indpendant de , pour tout , alors :

I [X1 , ..., Xr ; ] = rI [X, ]

Preuve 4
Puisque :
L (; x1 , ..., xr ) =
alors :

2
ln L (; X1 , ..., Xr )
E
i j

r
Y

f (, xi )

i=1

=
=
=

"

#
r
Y
2
E
ln
f (; Xi )
i j i=1

r
X
2
E
ln f (; Xi )

i
j
i=1

2
ln f (; X)
rE
i j

Exemple 13
Soit X une variable alatoire normale de paramtres R et 2 , > 0. On suppose
que est connu.
"
2 #

I [X, ] = E
ln f (, X)

1
2
= E 4 (X )

1
=
2
Si X1 , ..., Xr est un r-chantillon de cette structure, alors :
I [X1 , ..., Xr ; ]

=
=

41

rI [X, ]
r
2

Structures Statistiques et Estimation

A. El Mossadeq

Proposition 5
Soit T1 , ..., Ts un systme de s statistiques dfinies sur un r-chantillon de la structure
statistique (Rn , BRn , {P | }), s r.
On suppose quil existe des statistiques Ts+1 , ..., Tr telles que les quations :
ti = Ti (x1 , ..., xr ) , 1 i r
dfinissent un changement de variables continument direntiable.
Sous rserve de lgtimit de drivations sous le signe intgrale et en supposant le
domaine :
D = {x Rn | f (; x) > 0}

indpendant de , pour tout , la matrice :

I [X1 , ..., Xr ; ] I [T1 , ..., Ts ; ]


est positive.
Elle est nulle si et seulement si T1 , ..., Ts est un rsum exhaustif.

Preuve 5
Le changement de variables :
ti = Ti (x1 , ..., xr ) , 1 i r
permet dcrire :

do :

D (t1 , ..., tr )

L (; x1 , ..., xr ) = g (; t1 , ..., ts ) g (; ts+1 , ..., tr | t1 , ..., ts )


D (x1 , ..., xr )

2
2
2
ln L (; x1 , ..., xr ) =
ln g (; t1 , ..., ts )
ln g (; ts+1 , ..., tr | t1 , ..., ts )
i j
i j
i j

Il en dcoule que :
I [X1 , ..., Xr ; ] = I [T1 , ..., Ts ; ] + J
La matrice J est positive puisquelle sobtient comme moyenne des matrices des
variances et covariances associes :

ln g (; ts+1 , ..., tr | t1 , ..., ts )


i
Elle est nulle si et seulement si la fonction :
g (; ts+1 , ..., tr | t1 , ..., ts )
est indpendant de , donc si et seulement si (T1 , ..., Ts ) est un rsum exaustif.

42

A. El Mossadeq

Structures Statistiques et Estimation

Remarque 4
Dans ces conditions, il est quivalent de travailler avec le r-chantillon ou le rsum
exhaustif.

Remarque 5
Lorsque est un paramtre rel, la quantit dinformation fournie par un rsum T
dfini sur un r-chantillon est majore par celle qui est fournie par le r-chantillon :
I [T ; ] I [X1 , ..., Xr ; ]
Lgalit a lieu si et seulement si T est un rsum exhaustif.

Exemple 14
Soit X une variable alatoire normale de paramtres R et 2 , > 0.
On suppose que est connu.
Considrons la statistique :
r
1X
M=
Xi
r i=1
o X1 , ..., Xr est un r-chantillon issu de X.

Puisque M est une variable alatoire normale de paramtres et

2
, alors :
r

r
2
M est alors un rsum exhaustif pour concernant la structure statistique considre.
I [M, ] =

4.2. INGALIT DE CRAMER-RAO


Proposition 6
Soit (Rn , BRn , {P | }), Rk , une structure statistique dans laquelle les
probabilits P sont dfinies partir des densits f .
Considrons un r-chantillon de cette structure et notons L sa fonction de vraiseblance.

43

Structures Statistiques et Estimation

A. El Mossadeq

Soit :
T = (X1 , ..., Xr )
un rsum exhaustif de cette structure.
On suppose que :
(1) la variance 2 [T ] = V [T ] existe,

(2)
L (; x1 , ..., xr ) et (x1 , ..., xr ) L (; x1 , ..., xr ) existent et sont intgrables,

(3) la quantit dinformation de Fisher existe,


(4) le domaine D est indpendant de , pour tout .
Alors sous reserve de lgtimit de drivations sous le signe dintgration on a :

E [T ]

V [T ]
I [X1 , ..., Xr ; ]
de plus, lgalit a lieu si et seulement si :

ln L (; X1 , ..., Xr ) = () [T E [T ]]

Cest lingalit de Cramer-Rao.

Preuve 6

ln L (; X1 , ..., Xr ) est centre, cest


Daprs ce qui prcde, la variable alatoire

dire :

E
ln L (; X1 , ..., Xr ) = 0

et donc :

Par dfinition :

E E [T ]
ln L (; X1 , ..., Xr ) = 0

E [T ] =

Rnr

(x1 , ..., xr ) L (; x1 , ..., xr ) dx1 ...dxr

Les hypothses permettent dcrire :


Z

E [T ] =
(x1 , ..., xr ) L (; x1 , ..., xr ) dx1 ...dxr

Rnr

ln L (; X1 , ..., Xr )
= E T

ln L (; X1 , ..., Xr )
= E (T E [T ])

44

A. El Mossadeq

Structures Statistiques et Estimation

Il sen suit par application de lingalit de Schwarz :


"
2
2 #

2
E [T ]
ln L (; X1 , ..., Xr )
E (T E [T ]) E

V [T ] I [X1 , ..., Xr ; ]

do :

E [T ]

V [T ]
I [X1 , ..., Xr ; ]

De plus lgalit a lieu si et seulement si :

ln L (; X1 , ..., Xr ) = () [T E [T ]]

5. ESTIMATEURS
Dfinition 10
Soit (, T , {P | }) une structure statistique et considrons un ala :
h : (, W) (E, B)
o W est une tribu de P () .
On appelle estimateur de h (), , toute statistique valeurs dans (E, B).

Dfinition 11
Soit T un estimateur de h (), .
1. T est dit sans biais si :
E [T ] = h ()
2. T est dit asymptoquement sans biais si :
lim E [T ] = h ()

3. T est dit convergent si :


lim V [T ] = 0

45

Structures Statistiques et Estimation

A. El Mossadeq

Exemple 15
Soit (X1 , ..., Xr ) un r-chantillon issu dune variable alatoire X de moyenne et
de variance 2 .
1. La statistique :
1X
M=
Xi
r i=1
r

est un estimateur sans biais et convergent de la moyenne :


" r
#
1X
E [M] = E
Xi
r i=1
1X
E [Xi ]
r i=1

=
=

2. La statistique :
1X
(Xi )2
r i=1
r

S12 =

est un estimateur sans biais de la variance 2 .


En eet :
#
" r
2
1X
E S1
(Xi )2
= E
r i=1

1X
E (Xi )2
r i=1
r

1X
V [Xi ]
r i=1
r

=
=

Donc S12 est un estimateur sans biais de 2 .


3. La statistique :
1X
=
(Xi M)2
r i=1
r

S22

est un estimateur biais de la variance 2 .

46

A. El Mossadeq

Structures Statistiques et Estimation

En eet :
r
X
i=1

(Xi M)

=
=

r
X
i=1
r
X
i=1

r
X
i=1

do :
E

" r
X
i=1

(Xi M)

[(Xi ) (M )]2
2

(Xi ) 2

r
X
i=1

(Xi ) (M ) +

r
X
i=1

(M )2

(Xi )2 r (M )2

" r
X
i=1

(Xi )

(r 1) 2

rE (M )2

On en dduit :
r1 2
E S22 =

do S22 est bias.


4. La statistique :

1 X
S =
(Xi M)2
r 1 i=1
r

est un estimateur sans biais de la variance 2 .


En eet, puisque :
r
S2 =
S2
r1 2
on en dduit :

E S 2 = 2

Remarque 6
Si T un estimateur sans biais de h (), on a en vertu de lingalit de Cramer-Rao :
[h0 ()]2
V [T ]
I [X1 , ..., Xr ; ]
Si de plus h () = , alors :
V [T ]

1
I [X1 , ..., Xr ; ]

47

Structures Statistiques et Estimation

A. El Mossadeq

Remarque 7
Soit T lensemble des estimateurs sans biais de h (), vrifiant lingalit de CramerRao.
On a :
[h0 ()]2
inf V [T ]
T T
I [X1 , ..., Xr ; ]

Dfinition 12
Un estimateur T0 de T est dit de variance minimale si :
V [T0 ] = inf V [T ]
T T

Dfinition 13
Si :
[h0 ()]2
inf V [T ] =
T T
I [X1 , ..., Xr ; ]
on appelle ecacit dun estimateur T0 de T, le rapport :
inf V [T ]

e [T0 ] =

T T

V [T0 ]

T0 est dit ecace lorsque son ecacit est gale 1 :


e [T0 ] = 1

Proposition 7
Soit T = (X1 , ..., Xr ) un estimateur de T.
Les trois conditions suivantes sont quivalentes :
(1) T est ecace

(2)
ln L (; x1 , ..., xr ) = () [ (x1 , ..., xr ) h ()]

(3) T un rsum exhaustif dont la densit de probabilit g (; t) est telle que :

ln g (; x) = () [t h ()]

48

A. El Mossadeq

Structures Statistiques et Estimation

Preuve 7
(1) (2)
Daprs la dfinition de lecacit, T est ecace si et seulement si lingalit de
Cramer-Rao est une galit, donc si et seulement si :

ln L (; X1 , ..., Xr ) = () [T h ()]

(1) = (3)
T est ecace donc :
V [T ]

[h0 ()]2
I [X1 , ..., Xr ; ]
[h0 ()]2
I [T ; ]

=
=

do :
I [X1 , ..., Xr ; ] = I [T ; ]
et par consquent T est un rsum exhaustif concernant et on a :

ln g (; x) = () [t h ()]

par application de lingalit de Cramer-Rao (qui est une galit dans ce cas)
T.
(3) = (2)
Si T est un rsum exhaustif concernant , alors daprs le thorme de factorisation :

Do :

L (; X1 , ..., Xr ) = g (; t) s (X1 , ..., Xr )

ln L (; X1 , ..., Xr )

=
=

49

ln g (; x)

() [T h ()]

Structures Statistiques et Estimation

A. El Mossadeq

6. LESTIMATION PAR LA
MTHODE DE LA
VRAISEMBLANCE
La mthode du maximum de vraisemblance a pour but de fournir un moyen
ecace pour choisir un estimateur dun paramtre.

Dfinition 14
Soit L (; X1 , ..., Xr ) la fonction de vraisemlance dun r-chantillon X1 , ..., Xr .
Si pour (x1 , ..., xr ) donn :
= (x1 , ..., xr )
ralise le maximum strict de la fonction :
7 L (; X1 , ..., Xr )
on dit que :
= (X1 , ..., Xr )
est lestimateur du maximum de vraisemlance de .

Exemple 16
Soit X1 , ..., Xr un r-chantillon dune variable alatoire de P oisson de paramtre ,
> 0. Sa fonction de vraisemlance est :
r
P

L (; 1 , ..., r ) =
er
1 !... r !
i=1

Cette fonction atteint son maximum strict pour :


1X
i
r i=1
r

Donc, lestimateur du maximum de vraisemlance de est :


X
= 1
Xi
r i=1
r

est un estimateur sans biais et convergent du paramtre de la loi de P oisson.


reprsente la moyenne empirique du n-chantillon.

50

A. El Mossadeq

Structures Statistiques et Estimation

Exemple 17
Soit (X1 , ..., Xr ) un r-chantillon dune variable alatoire qui suit une loi normale
de paramtres R et 2 , > 0.
On suppose connu.
La fonction de vraisemlance de ce r-chantillon est :
r
1
1 X
(xi )2
L (; x1 , ..., xr ) = r exp 2
2 i=1
2
Cette fonction atteint son maximum strict pour :
1X
=
xi
r i=1
r

Donc, lestimateur du maximum de vraisemlance de est :


1X

=
Xi
r i=1
r

Et comme :

V [
] =

2
r

et :
I [X1 , ..., Xr ; ] =

r
2

donc :
e [
] = 1

est alors un estimateur ecace de .

Exemple 18
Soit (X1 , ..., Xr ) un r-chantillon dune variable alatoire qui suit une loi normale
de paramtres R et 2 , > 0.
On suppose connu.
Lestimateur du maximum de vraisemlance de 2 est :
r
1X
2
(Xi )2

=
r i=1

2 est un estimateur sans biais de 2 .

51

Structures Statistiques et Estimation

A. El Mossadeq

Exemple 19
Soit (X1 , ..., Xr ) un r-chantillon dune variable alatoire qui suit une loi normale
de paramtres R et 2 , > 0.
Les estimateurs du maximum de vraisemlance de et 2 sont :

r
1X

=
Xi


r i=1
r
2
1X

=
(Xi )2

r i=1

2 est un estimateur biais de 2 .

Proposition 8
Sil existe un rsum exhaustif T1 , ..., Ts alors tout estimateur de par le maximum
de vraisemlance est fonction de T1 , ..., Ts .

Preuve 8
Si (T1 , ..., Ts ) est un rsum exhaustif alors :
L (; x1 , ..., xr ) = g (; t1 , ..., ts ) h (x1 , ..., xr )
Donc, maximiser L revient maximiser g.
Proposition 9
Supposons les hypothses de lingalit de Cramer-Rao vrifies.
Sil existe un estimateur sans biais et ecace T de h (), alors toute fonction
(x1 , ..., xr ) telle que :

T (x1 , ..., xr ) = h
est solution de lquation de vraisemlance et ralise le maximum strict de la vraisemlance.
Preuve 9
Si T est un estimateur sans biais et ecace de h () alors :

ln L (; x1 , ..., xr ) = () [t h ()]

Donc, pour (x1 , ..., xr ) donn, toute fonction telle que :



t (x1 , ..., xr ) = h
52

A. El Mossadeq

Structures Statistiques et Estimation

est solution de lquation de vraisemblance.


Dautre part :
2
0
0
2 ln L (; x1 , ..., xr ) = () [t h ()] () h ()

et :
I [X1 , ..., Xr ; ]

=
=

2
E
ln L (; X1 , ..., Xr )
2
() h0 ()

Or :
I [X1 , ..., Xr ; ]

"

2 #

ln L (; X1 , ..., Xr )

[ ()]2 V [T ]

donc :
() h0 () > 0
do, pour = :

2
0

2 ln L ; x1 , ..., xr = h

est strictement ngatif, ce qui assure que ralise le maximum strict.

53

Structures Statistiques et Estimation

A. El Mossadeq

7. EXERCICES
Exercice 1
Dterminer et tudier les proprits de lestimateur du maximum de vraisemlance
dun r-chantillon pour :
1. le paramtre p dune loi de Bernouilli
2. le paramtre p dune loi g
eom
etrique
3. le paramtre p dune loi binomiale dordre n
4. le paramtre dune loi de P oisson
5. le paramtre dune loi exponentielle
6. les paramtres et 2 dune loi normale
7. le paramtre dune loi unif orme sur lintervalle [0, ]

Exercice 2
Soit X une variable alatoire dont la densit de probabilit f est dfinie par :
x
1
exp , x > 0

o est un paramtre rel strictement positif.


f (x) =

1. Dterminer lestimateur du maximum de vraisemlance de dun r-chantillon


de variable parente X.
2. est-il un rsum exhaustif ?
3. Calculer lesprance mathmatique et la variance de .
Que peut-on conclure ?
4. Calculer la quantit dinformation de F isher.
En dduire que est ecace.

Exercice 3
Soit X une variable alatoire dont la densit de probabilit f est dfinie par :
k1
x
x exp , x > 0
k

o est un paramtre rel strictement positif , k un entier naturel non nul et une
constante rel.
f (x) =

1. Dterminer la constante .
2. Dterminer lestimateur du maximum de vraisemlance de dun r-chantillon
de variable parente X.

54

A. El Mossadeq

Structures Statistiques et Estimation

3. est-il un rsum exhaustif ?


4. Calculer lesprance mathmatique et la variance de .
Que peut-on conclure ?
5. Calculer la quantit dinformation de F isher.
En dduire que est ecace.

Exercice 4
Soit X une variable alatoire dont la densit de probabilit f est dfinie par :

si x
/ [0, ]

0
f (x) =

1 si x [0, ]

o est un paramtre rel.


1. Dterminer la fonction de rpartition de X.
2. Calculer la quantit dinformation de F isher.
3. Dterminer lestimateur du maximum de vraisemlance de dun r-chantillon
de variable parente X.
4. Calculer lesprance mathmatique et la variance de .
Que peut-on conclure ?
5. Dans le cas o est bias, proposer un estimateur sans biais de .

Exercice 5
Soit X une variable alatoire dont la densit de probabilit f est dfinie par :

si x <
0
f (x) =
exp x si x
o est un paramtre rel.

1. Dterminer la fonction de rpartition de X.


2. Calculer la quantit dinformation de F isher.
3. Dterminer lestimateur du maximum de vraisemlance de dun r-chantillon
de variable parente X.
4. Calculer lesprance mathmatique et la variance de .
Que peut-on conclure ?
5. Dans le cas o est bias, proposer un estimateur sans biais de .

55

Structures Statistiques et Estimation

A. El Mossadeq

Exercice 6
Les lments dune population possdent un caractre X qui suit une loi de P oisson
de paramtre inconnu .
Une suite de r expriences a fourni les valeurs k1 , ..., kr .
1. Dterminer lestimateur du maximum de vraisemlance
de et tudier les
proprits de cet estimateur.
2.
est-il un rsum exhaustif ?
3. On dsire estimer la quantit :
= P [X = 0]
Dterminer lestimateur du maximum de vraisemlance de .
Que remarquez-vous ?

Exercice 7
Soit un rel appartenant ]1, +[ et X une variable alatoire telle que :

k1
1
1
P [X = k] =
, k N
1

1. Calculer lesprance mathmatique et la variance de X.


2. Dterminer lestimateur du maximum de vraisemlance
de dun r-chantillon
de variable parente X et tudier ses proprits.
3.
est-il un rsum exhaustif ?

Exercice 8
Soit X une variable alatoire qui suit une loi de Pareto dont la densit de probabilit
f est dfinie par :

si x < a

0
f (x) =

a
si x a
x+1
o X reprsente le revenu par habitant, a le revenu minimum et , > 2, un
coecient dpendant du type du pays o lon se place.
1. Vrifier que f est bien une densit de probabilit.
2. Calculer lesprance mathmatique et la variance de X.
3. Calculer la fonction de rpartition de X.
4. Dterminer lestimateur du maximum de vraisemlance a de a dun r-chantillon
issu X.
5. Dans le cas o a
est bias, proposer un estimateur sans biais de a.

56

A. El Mossadeq

Structures Statistiques et Estimation

Exercice 9
Soit X une variable alatoire dont la densit de probabilit f est dfinie par :

si x

0
f (x) =

1 exp ( x) si x >

o est un paramtre rel et un paramtre rel strictement positif.


1. Vrifier que f est bien une densit de probabilit.
2. Calculer lesprance mathmatique et la variance de X.
3. Calculer la fonction de rpartition de X.
4. On suppose connu et inconnu.
(a) Dterminer lestimateur du maximum de vraisemlance
de dun rchantillon issu X.
(b) Etudier les proprits de
.
(c) Dans le cas o
est bias, proposer un estimateur sans biais de .
5. On suppose connu et inconnu.
(a) Dterminer lestimateur du maximum de vraisemlance de dun rchantillon issu de X.
(b) Etudier les proprits de
(c) Dans le cas o est bias, proposer un estimateur sans biais de .
6. On suppose que et sont tous les deux inconnus.
(a) Dterminer lestimateur du maximum de vraisemlance
dun r-chantillon issu de X.
(b) Etudier les proprits de
,

, de (, )

(c) Proposer un estimateur sans biais de (, ) .

Exercice 10
Soient X et Y deux variables alatoires indpendantes, la premire prenant les
valeurs 1 et 0 avec les probabilits respectives et 1 , et la deuxime prenant les
valeurs 1 et 0 avec les probabilits respectives P et 1 P . On suppose inconnue
et P connue, P > 0.5.
On dfinit la variable alatoire Z par :

Z = 1 si X = Y
Z=0

si

57

X 6= Y

Structures Statistiques et Estimation

A. El Mossadeq

On considre un n-chantillon ((X1 , Y1 ) , ..., (Xn , Yn )) de (X, Y ) et on dfinit Zi ,


1 i n, partir de Xi et Yi comme on a dfini Z partir de X et Y .
1. Montrer que (Z1 , ..., Zn ) est un n-chantillon de Z.
2. Etudier les proprits de lestimateur :
1
(Z1 + ... + Zn )
n
3. Proposer alors un estimateur sans biais S de .
4. Etudier la variance de S en fonction de P .
5. Indiquer un intervalle de confiance pour lorsque n est grand, en supposant
1
quon dispose dune observation p de (Z1 + ... + Zn ).
n
6. Voyez-vous une application de ce qui prcde dans le domaine des sondages ?
T =

58

Chapitre 3

T ests d H yp oth ses


Les Frquences

A. El Mossadeq

Tests : Les Frquences

1. FLUCTUATIONS
DECHANTILLONNAGE DUNE
FRQUENCE

On considre une population o le caractre tudi ne prend que les valeurs 0 et 1,


cest dire X est une variable alatoire de Bernouilli.
On dsigne par p la proportion des individus de la population de caractre 1 :
p = P [X = 1]
cest dire le paramtre de la loi de Bernouilli.
On extrait de cette population un chantillon de taille n sur lequel on observe une
frquence f du caractre 1 qui dire plus ou moins de p.
Le hasard de lchantillonnage peut produire une quelconque composition, et la
frquence f est susceptible de prendre des valeurs variant de 0 1, mais un grand
cart entre f et p reste peu probable.
Daprs le th
eor`
eme centrale limite, et pourvu que np et n (1 p) soient suprieurs
ou gaux 5 (n est considr dans ces conditions assez grand), la quantit :
t= r

f p

p (1 p)
n

peut tre considre comme une ralisation de la variable alatoire normale centre
rduite :
F p
N=r
p (1 p)
n
o F est la frquence empirique du n-chantillon :
1X
Xi
n i=1
n

F =

Ainsi, pour tout [0, 1], il existe t1/2 R tel que :

P |N| < t1/2 = 1

cest dire :

t1/2

t1/2

1
t2
exp dt = 1
2
2

61

Tests : Les Frquences

ou encore :

A. El Mossadeq

t1/2

On dit que :

"

F p t1/2

1
t2

exp dt = 1
2
2
2

p (1 p)
, p + t1/2
n

p (1 p)
n

1 ou au seuil .
Cet intervalle est appel lintervalle de pari 1 .
Exemple 1
Une urne contient quarante boules noires et soixante boules blanches.
Dans quelles limites peut varier le nombre de boules blanches si lon tire de lurne
trente boules avec remise ?
Construisons dobord lintervalle de pari, pour un chantillon de taille n = 30,
correspondant la probabilit dobtenir une boule blanche p = 0.6.
Au seuil , cet intervalle est dfini par :
"
#
r
r
p (1 p)
p (1 p)
p t1/2
, p + t1/2
n
n
Pour = 5%, on a :
t.975 = 1.96
on obtient alors lintervalle :
[.42, .78]
Il en rsulte que sur les trente boules tires, le nombre de boules blanches serait
compris, 95%, entre 13 et 23.

2. LES SONDAGES
Le plus souvent, la proportion p est inconnue du fait que lexamen de toute la
population est impossible.
Puisque F est un estimateur sans biais de p, on peut extraire un chantillon de taille
n sur lequel on observe une frquence f qui constitue une estimation ponctuelle de
p, puis on assigne p un intervalle de variation appel intervalle de confiance
avec une probabilit 1 , 0 1.

62

A. El Mossadeq

Tests : Les Frquences

p (1 p)
f (1 f )
En eet, en estimant
par
, et pourvu que np et n (1 p) soient
n
n
suprieurs ou gaux 5, la quantit :
f p
t= r
f (1 f )
n
peut tre considre comme une ralisation de la variable alatoire normale centre
rduite :
F p
N=r
f (1 f )
n
Ainsi, pour tout [0, 1], il existe t1/2 R tel que :

P |N| < t1/2 = 1

Lintervalle :

"

f t1/2

f (1 f )
, f + t1/2
n

f (1 f )
n

est appel lintervalle de confiance de p 1 ou au seuil .


Exemple 2
A la veille dune consultation lectorale, on a intrrog cent lecteurs constituant un
chantillon au hasard. Soixante ont dclar avoir lintention de voter pour le candidat C.
En quelles limites, au moment du sondage, la proportion du corps lectoral favorable C se situe-t-elle ?
Construisons lintervalle de confiance correspondant la frquence f = 0.6 du corps
lectoral favorable C observe sur un chantillon de taille n = 100.
Au seuil , cet intervalle est dfini par :
"
#
r
r
f (1 f )
f (1 f )
f t1/2
, f + t1/2
n
n
Pour = 5%, on a :
t.975 = 1.96
on obtient alors lintervalle :
[.504, .696]
A 95%, le candidat C serait lu.

63

Tests : Les Frquences

A. El Mossadeq

3. TEST DE COMPARAISON DUNE


FRQUENCE UNE NORME
On dispose dune population o le caractre tudi prsente une proportion p.
Sur un chantillon de taille n, on observe une frquence f.
La dirence entre p et f est-elle significative ou est-elle de seulement au hasard
de lchantillonnage ?
Soit donc tester lhypothse nulle :
H0 : f = p
contre lhypothse alternative :
0 : f 6= p
H
au seuil .
Sous lhypothse nulle H0 et pourvu que np et n (1 p) soient suprieurs ou gaux
5, la quantit :
f p
t= r
p (1 p)
n
peut tre considre comme une ralisation de la variable alatoire normale centre
rduite :
F p
N=r
p (1 p)
n
Ainsi, pour tout [0, 1], il existe t1/2 R tel que :

P |N| < t1/2 = 1

On rejette lhypothse nulle H0 , au seuil , ds que :


|t| > t1/2

Exemple 3
Une machine former des pilules fonctionne de faon satisfaisante si la proportion
de pilules non russies est de 1 pour 1000.
Sur un chantillon de 10000 pilules, on a trouv 15 pilules dfectueuses.
Que faut-il conclure ?

64

A. El Mossadeq

Tests : Les Frquences

Ici on a :

n = 104
f = 15 104
p = 103

Testons, au seuil , lhypothse nulle :

H0 : la machine est bien rgle


Sous cette hypothse, la quantit :
t= r

f p

p (1 p)
n

peut tre considre comme une ralisation dune variable alatoire normale centre
rduite.
Pour = 5%, on a :
t.975 = 1.96
et comme :
t= r

f p

= 1.58
p (1 p)
n
on accepte donc lhypothse nulle H0 au seuil = 5%, cest dire, quau seuil
= 5%, la machine fonctionne de faon satisfaisante.

4. TEST DE COMPARAISON DE
DEUX FRQUENCES
On dispose de deux chantillons indpendants de tailles respectives n1 et n2 sur
lesquels le caractre tudi prsente les frquences f1 et f2 respectivement.
On se demande si ces deux chantillons proviennent dune mme population.
Soit donc tester lhypothse nulle :
H0 : p1 = p2
contre lhypothse alternative :
0 : p1 6= p2
H
au seuil .

65

Tests : Les Frquences

A. El Mossadeq

Si les deux chantillons proviennent dune mme population dfinie par la proportion
p = p1 = p2 (souvent inconnue) du caractre tudi, f1 et f2 peuvent tre considres
comme des ralisations des variables alatoires normales centres rduites :
F1 p
N1 = r
f1 (1 f1 )
n1
F2 p
N2 = r
f2 (1 f2 )
n2
respectivement, pourvu que n1 p1 , n1 (1 p1 ), n2 p2 et n2 (1 p2 ) soient tous suprieurs
ou gaux 5.
En consquence , la quantit :
t= r

f1 f2
f1 (1 f1 ) f2 (1 f2 )
+
n1
n2

peut tre considre comme une ralisation dune variable alatoire normale centre
rduite.
On rejette lhypothse nulle H0 , au seuil , ds que :
|t| > t1/2

Exemple 4
Avant de procder au lancement dun produit, une entreprise a fait procder une
enqute portant sur deux rgions gographiques A et B.
Sur 1800 rponses provenant de la rgion A, 630 se dclarent intresses par le produit.
En provenance de B, 150 rponses sur 600 se dclarent favorables.
Tester, au seuil de 5%, lhypothse de lidentit des opinions des rgions A et B
quant au produit considr.
Ici on :

nA = 1800 , fA = 20

n = 600 , f = 1
B
B
4
Testons, au seuil , lhypothse nulle :
H0 : les opinions des rgions A et B sont identiques

66

A. El Mossadeq

Tests : Les Frquences

Sous cette hypothse, la quantit :


t= r

fA fB
fA (1 fA ) fB (1 fB )
+
nA
nB

peut tre considre comme une ralisation dune variable alatoire normale centre
rduite.
Pour = 5%, on a :
t.975 = 1.96
et comme :
t

=
=

fA fB
fA (1 fA ) fB (1 fB )
+
nA
nB
4.77
r

on rejette donc lhypothse nulle H0 95% (et mme 99.98%), cest dire, les deux
rgions A et B ont des opinions direntes.

67

Tests : Les Frquences

A. El Mossadeq

5. EXERCICES
Exercice 1
A la veille dune consultation lectorale, on a intrrog cent lecteurs constituant
un chantillon au hasard. Soixante ont dclar avoir lintention de voter pour le
candidat C.
En quelles limites, au moment du sondage, la proportion du corps lectoral favorable
C se situe-t-elle ?

Exercice 2
On sait que le taux de mortalit dune certaine maladie est de 30%.
Sur 200 malades tests, combien peut-on envisager de dcs ?

Exercice 3
Dans une pr-enqute, on selectionne, par tirage au sort cent dossiers.
Quinze dentre eux sont incomplets.
Combien de dossiers incomplets trouvera-t-on sur dix milles dossiers ?

Exercice 4
Dans une maternit, on fait le point de la proportion de filles toutes les cent naissances.
Comment peut varier cette proportion dune fois lautre si lon admet quil nait
en moyenne 51% de filles ?

Exercice 5
Une machine former des pilules fonctionne de faon satisfaisante si la proportion
de pilules non russies est de 1 pour 1000.
Sur un chantillon de 10000 pilules, on a trouv 15 pilules dfectueuses.
Que faut-il conclure ?

Exercice 6
Sur un chantillon de 600 sujets atteints du cancer des poumons, on a trouv 550
fumeurs.
Que peut-on dire du pourcentage de fumeurs parmi les cancreux ?

68

A. El Mossadeq

Tests : Les Frquences

Exercice 7
Avant de procder au lancement dun produit, une entreprise a fait procder une
enqute portant sur deux rgions gographiques A et B.
Sur 1800 rponses provenant de la rgion A, 630 se dclarent intresses par le
produit.
En provenance de B, 150 rponses sur 600 se dclarent favorables.
Tester, au seuil de 5%, lhypothse de lidentit des opinions des rgions A et B
quant au produit considr.

Exercice 8
Dans un groupe de 200 malades atteints du cancer du col de lutrus, un traitement
par application locale du radium a donn 50 gurisons.
Un autre groupe de 150 sujets atteints de la mme maladie a t trait par chirurgie,
on a trouv 50 gurisons.
Que peut-on conclure ?

Exercice 9
Aux guichets dune gare parisienne, sur les 350 billets vendus vendredi aprs-midi,
95 taient des billets de 1e`re classe. Sur les 250 billets vendus la matine du lundi
suivant, 55 taient de 1e`re classe.
Peut-on considrer quil y a une dirence entre les proportions de vente de parcours
en 1e`re classe pour les fins et dbuts de semaines ?

Exercice 10
On a lanc cent fois une pice de monnaie et lon a obtenu soixante fois pile et
quarante fois face.
Tester au seuil de 5%, puis 1%, lhypothse de la loyaut de la pice.

Exercice 11
Un chantillon de taille n a donn lieu au calcul dune frquence observe f correspondant lintervalle de confiance [.22 .34] au seuil = 5%.
1. Calculer n.
2. Par rapport la proportion p = 0.3, lcart est-il significatif au seuil = 5% ?
3. Dterminer lintervalle de confiance de |f p| au seuil = 5%.

69

Tests : Les Frquences

A. El Mossadeq

Exercice 12
Ltude du taux de dfectuosits arentes aux caractristiques de traitements thermiques dune mme pice, traite par deux fours dirents, a donn lieu aux rsultats
suivants :
* Pour le premier four, 20 pices dfectueuses sur un chantillon de 200 pices
traites.
* Pour le second four, 120 pices dfectueuses sur un chantillon de 800 pices
traites.
Que peut-on conclure ?

Exercice 13
Un questionnaire auquel on ne peut rpondre que par oui ou par non, a t
rempli par un chantillon de taille n.
Lintervalle de confiance de la frquence observe f des rponses oui est (0.35 0.43)
au seuil = 5%.
1. Quelle est la taille n de lchantillon.
2. Par rapport la proportion p = 0.4, lcart est-il significatif au seuil = 5% ?
3. Dterminer lintervalle de confiance de |f p| au seuil = 5%.

Exercice 14
Parmi 470 sujets exposs une infection, 370 nayant pas t immuniss.
Parmi ces derniers, 140 contractent la malidie ainsi que 25 sujets immuniss.
Le traitement donne-t-il une protection significative ?

70

Chapitre 4

Les Tests du Khi-deux

A. El Mossadeq

Les Tests du Khi-Deux

1. TEST DE COMPARAISON DUNE


RPARTITION OBSERVE UNE
RPARTITION THORIQUE
On considre un caractre k classes direntes en proportion p1 , ..., pk .
Comme p1 + ... + pk = 1, la composition de la population est entirement dtermine
par k 1 de ces proportions.
On extrait de cette populations un chantillon de taille n.
Si la composition de cet chantillon tait identique celle de la population, il contiendrait :
t1 = np1 du caractre 1
:
tk = npk du caractre k
ce sont les eectifs calculs ou les eectifs thoriques.
En ralit, on observe des eectifs :
o1 du caractre 1
:
ok du caractre k
dirant plus ou moins des eectifs thoriques. Ce sont les eectifs observs.
Le problme est de dcider si lcart entre ces eectifs est significatif ou il est d
seulement au hasard de lchantillonnage.
Soit donc tester, au seuil , lhypothse nulle :
H0 : o1 = t1 , ... , ok = tk
0.
contre lhypothse alternative H
Sous lhypothse nulle H0 , et pourvu que tous les eectifs thoriques soient suprieurs
ou gaux 5, la quantit :
2

k
X
(oi ti )2
i=1

ti

est une ralisation dune variable du Khi-deux k 1 degrs de libert : 2k1 .


tant donn, il existe 2k1;1 R tel que :

P 2 < 2k1;1 = 1

On rejette alors lhypothse nulle H0 1 ds que :


2 > 2k1;1

73

Les Tests du Khi-Deux

A. El Mossadeq

Exemple 1
On a crois deux types de plantes dirant par deux caractres A et B.
La premire gnration est homogne.
La seconde fait apparaitre quatre types de plantes dont les gnotypes sont nots :
AB , Ab , aB , ab.
Si les caractres se trasmettent selon les lois de Mendel, les proportions thoriques
9
3 3 1
des quatre gnotypes sont :
,
,
,
respectivement.
16 16 16 16
Sur un chantillon de 160 plantes, on a observ les eectifs :
100
28
24
8

pour
pour
pour
pour

AB
Ab
aB
ab

Au vu de ces rsultats, les lois de Mendel sont-elles applicables ?

Testons alors, au seuil , lhypothse nulle :


H0 : les lois de Mendel sont applicables
Si H0 est vraie, la rpartition des 160 plantes sur les quatre gnotypes devrait tre
comme suit :
t1 = 90 pour AB
t2 = 30 pour Ab
t3 = 30 pour aB
t4 = 10 pour ab
On rsume toutes les donnes dans le tableau suivant :
G
enotypes R
epartition Observ
ee R
epartition T h
eorique
AB

100

90

Ab

28

30

aB

24

30

ab

10

T otal

160

160

74

A. El Mossadeq

Les Tests du Khi-Deux

Sous lhypothse nulle H0 , et vu que tous les eectifs thoriques sont suprieurs
ou gaux 5, la quantit :
2

4
X
(oi ti )2
i=1

ti

est une ralisation dune variable du Khi-deux :


41=3
degrs de libert : 23 .
Pour = 5%, on a :
23;.95 = 7.81
et comme :
2

4
X
(oi ti )2
i=1

ti

2.84

On accepte alors lhypothse nulle H0 au seuil de 5%, cest dire, les transmissions
gntiques de ce type de plantes se font selon les lois de Mendel.

Remarque 1
Si pour lajustement par une loi thorique dpendant de paramtres, on utilise les
estimations de s parmi ces paramtres, et non leurs valeurs relles, alors le nombre
de degrs de libert, dans ce cas, est :
(k 1) s = k s 1
Ainisi , par exemple :
(1) si, pour lajustement par une loi de Poisson, on utilise lestimation de son
paramtre, suppos inconnu, alors le nombre de degrs de libert est :
(k 1) 1 = k 2
(2) si, pour lajustement par une loi normale, on utilise lestimation de la moyenne
et de la variance, supposes toutes les deux inconnues, alors le nombre de
degrs de libert est :
(k 1) 2 = k 3

75

Les Tests du Khi-Deux

A. El Mossadeq

2. TEST DINDPENDANCE DU
KHI-DEUX
On considre deux caractres X et Y n et m classes respectivement.
Le tableau suivant rsume les observations faites sur un chantillon de taille N
concernant le couple de caractres (X, Y ) :
T ableau des eff ectif s observ
es
XY

..

T otal

o11

o12

..

o1m

o1.

o21

o22

..

o2m

o2.

::

on1

on2

. . onm

on.

T otal

o.1

o.2

..

oi.

o.m

o :
m
X

oik

k=1

o.j

n
X

okj

k=1

et :
n
X
i=1

oi. =

m
X

o.j =

j=1

n X
m
X

oij = N

i=1 j=1

Au vu de ces rsultats, Il sagit de dcider si les deux caractre X et Y sont indpendants.


Soit tester, au seuil , lhypothse nulle :
H0 : Xet Y sont indpendants
0.
contre lhypothse alternative H
Si X et Y taient indpendants, alors pour tout (i, j) {1, ..., n} {1, ..., m} :
P [X = i, Y = j] = P [X = i] P [Y = j]

76

A. El Mossadeq

Les Tests du Khi-Deux

et lchantillon contiendrait en consquence :


oi. o.j
tij =
N
individus possdant le caractre [X = i, Y = j]. Ce sont les eectifs thoriques
ou les eectifs calculs.
T ableau des ef fectif s th
eoriques
XY

..

T otal

t11

t12

..

t1m

o1.

t21

t22

..

t2m

o2.

::

tn1

tn2

. . tnm

on.

T otal

o.1

o.2

..

o.m

Sous lhypothse nulle H0 , et pourvu que tous les eectifs thoriques soient suprieurs
ou gaux 5, la quantit :
2

m
n X
X
(oij tij )2
i=1 j=1

tij

est une ralisation dune variable du Khi-deux (n 1) (m 1) degrs de libert :


2(n1)(m1) .
tant donn, il existe 2(n1)(m1);1 R tel que :

P 2 < 2(n1)(m1);1 = 1
On rejette alors lhypothse nulle H0 1 ds que :
2 > 2(n1)(m1);1

Exemple 2
On se propose de comparer les ractions produites par deux vaccins A et B.
Un groupe de 348 individus a t divis, par tirage au sort, en deux sries qui ont
t vaccines lune par A et lautre par B.
Les ractions ont t lues par une personne ignorant le vaccin utilis.
Le problme est de dcider si les ractions observes sont indpendantes du vaccin
utilis.

77

Les Tests du Khi-Deux

A. El Mossadeq

T ableau des eff ectif s observ


es
V accinR
eaction l
eg`
ere moyenne ulc
eration abc`
es T otal
A

12

156

177

29

135

171

T otal

41

291

14

348

Soit tester, au seuil = 5%, lhypothse nulle dindpendance H0 contre lhypothse


0.
alternative H
Si les ractions taient indpendantes du vaccin utilis, les probabilits correspondantes aux ractions seraient alors :
41
, pour une raction lgre
348
291
p2 =
, pour une raction moyenne
348
14
p3 =
, pour une ulcration
348
2
p4 =
, pour un abcs
348
On dtermine les eectifs thoriques du premier chantillon de 177 sujets puis ceux
du second chantillon de 171 sujets :
p1 =

T ableau des ef fectif s th


eoriques
V accinR
eaction l
eg`
ere moyenne ulc
eration abc`
es T otal
A

20.9

148

7.1

177

20.1

143

6.9

171

T otal

41

291

14

348

Une lgre dicult apparait cependant sur cet exemple : les eectifs thoriques
dans la colonne Abc`
es sont infrieurs 5 ce qui empche lapplication dun test
du Khi-deux.
On peut remdier cet tat en oprant le groupement logique des classes Ulc
eration
et Abc`
es.

78

A. El Mossadeq

Les Tests du Khi-Deux

Les tableaux des eectifs observs et thoriques obtenus aprs regroupement sont :
T ableau des eff ectif s observ
es
V accinR
eaction l
eg`
ere moyenne ulc
eration ou abc`
es T otal
A

12

156

177

29

135

171

T otal

41

291

16

348

T ableau des ef fectif s th


eoriques
V accinR
eaction l
eg`
ere moyenne ulc
eration ou abc`
es T otal
A

20.9

148

8.1

177

20.1

143

7.9

171

T otal

41

291

16

348

On calcule alors la quantit 2 partir des nouveaux tableaux :


2

2 X
3
X
(oij tij )2
i=1 j=1

tij

Le nombre de degrs de libert est :


(2 1) (3 1) = 2
Et comme :
22;.95 = 5.99
et :
2

2 X
3
X
(oij tij )2
i=1 j=1

tij

8.8

on rejette alors, 95%, lhypothse selon laquelle les deux vaccins A et B provoquent
les mmes ractions.

79

Les Tests du Khi-Deux

A. El Mossadeq

Remarque 2
Lorsque lhypothse nulle est rejete, il est souhaitable de prciser lintensit de la
liaison entre les deux caractres X et Y .
On introduit alors le coecient suivant, dit coecient de Tschuprov :
2
p
T =
N (n 1) (m 1)
2

1. Si les deux caractres X et Y sont indpendants alors :


2 = 0
puisque pour tout (i, j) {1, .., n} {1, ..., m} :
oij = tij
do :
T2 = 0

2. Si les deux caractres X et Y sont en liason fonctionnelle (bijection), alors n = m


et par une permutation sur les lignes ou sur les colonnes, on peut ramener le
tableau des eectifs observs un tableau diagonal.
On a :
oi. = o.i = oii
do :
2

=
=

n X
n
X
(oij tij )2
tij
i=1 j=1
n
X
(oii tii )2
i=1

tii

X (oij tij )2
i6=j

tij

Or :
n
X
(oii tii )2
i=1

et :

tii

= N (n 2) +

80

n
X
i=1

o2ii

A. El Mossadeq

Les Tests du Khi-Deux

X (oij tij )2
i6=j

tij

tij

i6=j

X oi. o.j
i6=j

=
=
donc :
Il en rsulte que :

n
1 X
oi. (N o.i )
N i=1

n
1 X 2
o
N
N i=1 i.

2 = N (n 1)
|T | = 1

3. Dans les autres cas, on admet que :


(a) Si :
0 < T < 0.3
on dit que la liaison est faible.
(b) Si :
0.3 < T < 0.5
on dit que la liaison est moyenne.
(c) Si :
0.5 < T < 1
on dit que la liaison est forte.

81

Les Tests du Khi-Deux

A. El Mossadeq

3. EXERCICES

Exercice 1
Avant de procder au lancement dun produit, une entreprise a fait procder une
enqute portant sur deux rgions gographiques A et B.
Sur 1800 rponses provenant de la rgion A, 630 se dclarent intresses par le
produit.
En provenance de B, 150 rponses sur 600 se dclarent favorables.
Tester, au seuil de 5%, lhypothse de lidentit des opinions des rgions A et B
quant au produit considr.

Exercice 2
Dans un groupe de 200 malades atteints du cancer du col de lutrus, un traitement
par application locale du radium a donn 50 gurisons.
Un autre groupe de 150 sujets atteints de la mme maladie a t trait par chirurgie,
on a trouv 54 gurisons.
Que peut-on conclure ?

Exercice 3
Aux guichets dune gare parisienne, sur les 350 billets vendus vendredi aprs-midi,
95 taient des billets de 1e`re classe. Sur les 250 billets vendus la matine du lundi
suivant, 55 taient de 1e`re classe.
Peut-on considrer quil y une dirence entre les proportions de vente de parcours
en 1e`re classe pour les fins et dbuts de semaines ?

Exercice 4
On a lanc cent fois une pice de monnaie et lon a obtenu soixante fois pile et
quarante fois face.
Tester au seuil de 5% puis 1%, lhypothse de la loyaut de la pice.

82

A. El Mossadeq

Les Tests du Khi-Deux

Exercice 5
On veut savoir si la russite (R) dun traitement est indpendantes du niveaux de
la tension artrielle du malade (T ).
On dispose pour cela de 250 observations rparties comme suit :
T R

echec succ`
es

basse

21

104

elev
ee

29

96

Que peut-on conclure ?

Exercice 6
On veut savoir sil y a une liason entre la localisation (L) du cancer du poumon
(priphrique , non priphrique) et le ct (C) de la lsion (poumon gauche ,
poumon droit). Ltude a port sur 1054 malades :
LC

gauche droit

p
eriph
erique

26

62

non p
eriph
erique

416

550

Que peut-on conclure ?

Exercice 7
De nombreuses observations cliniques ont montr que jusque l :

30%
50%
10%
10%

des malades atteints de M ont une survie infrieure un an


ont une survie entre un an et deux ans
ont une survie entre deux ans et cinq ans
ont une survie suprieure cinq ans.

On applique un nouveau traitement 80 malades atteint de la maladie M et on


constate :
12 ont une survie infrieure un an
56 ont une survie entre un an et deux ans
8 ont une survie entre deux ans et cinq ans
4 ont une survie suprieure cinq ans.

Que peut-on conclure ?

83

Les Tests du Khi-Deux

A. El Mossadeq

Exercice 8
On suppose pouvoir classer les malades atteints dune maladie M en trois catgories
cliniques : A , B , C.
On se demande si ces trois catgories dirent par leurs survies un an.
Les eectifs observs sont les suivants :
SurvieCat
egorie

survie a
` un an

20

45

d
ec
es avant un an

15 50 145

Que peut-on conclure ?

Exercice 9
75 enfants sont vus en consultation pour un asthme. On relve chez eux les deux
symptmes suivants :
* Intensit de la maladie asmathique : lgre , moyenne , forte
* Existence ou absence dun eczma au moment de lobservation ou dans le pass.
On peut classer les enfants selon la rpartition suivante :
EA

fort moyen l
eger

pr
esent

pass
e

11

11

jamais

18

14

Existe-t-il une association entre lintensit de lasthme et lexistence dun eczma ?

Exercice 10
Une tude statistique relative aux rsultats dadmission du concours dune grande
cole fait ressortir la rpartition des admis selon la profession des parents lorsque
celle-ci est connue :

84

A. El Mossadeq

Les Tests du Khi-Deux

P rof ession des P arents

Candidats Admis

F ontionnaires et Assimil
es

2224

180

Commerce et Industrie

998

89

P rof essions Lib


erales

575

48

P ropri
etaires Rentiers

423

37

P ropri
etaires Agricoles

287

13

Artisans

210

18

Banques et Assurances

209

17

1. La profession des parents a-t-elle une influence sur laccs cette cole ?
2. Cette conclusion persiste-t-elle lorsquon tient compte pour complter la statistique prcdente de 961 candidats dont lorigine socio-professionnelle est inconnue et qui ont obtenus 43 succs ?

Exercice 11
Sur un chantillon de 84 prmaturs, on cherche sil existe une liaison entre la
survenue dune hypoglycmie et la survenue dun ictre :
sur 43 enfants nayant pas dictre, 23 sont hypoglycmiques
sur 20 enfants ayant un ictre modr, 6 sont hypoglycmiques
sur 21 enfants ayant un ictre intense, 4 sont hypoglycmiques
Que peut-on conclure ?

Exercice 12
Un mdicament essay sur 42 patients est contrl quant aux eets secondaires quil
peut avoir sur le poids des malades. On peut considrer que :
quinze dentre eux ont maigri
dix sept nont pas chang de poids
dix ont grossi
En supposant que la maladie est sans eet sur les variations de poids, le mdicament
a-t-il un eet significatif sur le poids ?

85

Les Tests du Khi-Deux

A. El Mossadeq

Exercice 13
Pour tudier la densit de poussires dans un gaz, on a procd une srie dobservations
de petits chantillons de gaz au moyen dun microscope.
On a ainsi eectu 143 observations et les rsultats sont les suivants :
Nombre de particules en suspension

Nombre d0 echantillons de gaz

34

46

38

19

>5

Peut-on admettre, au seuil = 5%, que le nombre de particules en suspension est


une variable de P oisson ?

Exercice 14
Le tableau ci-aprs concerne le nombre annuel de cyclones tropicaux ayant atteint
la cte orientale des Etats-Unis entre 1887 et 1956 :
Nombre annuel de cyclones Nombre d0 ann
ees
0
1
2
3
4
5
6
7
8
9
>9

1
6
10
16
19
5
8
3
1
1
0

Peut-on admettre, au seuil = 5%, que ce nombre annuel de cyclones est une
variable de P oisson ?

86

A. El Mossadeq

Les Tests du Khi-Deux

Exercice 15
Le tableau suivant indique le rsultat de lexamen de 124 sujets, classs daprs la
couleur de leurs yeux (Y ) et la couleur de leus cheveux (C) :
Y C

Blonds Bruns Noirs Roux

Bleus

25

Gris ou V erts

13

17

10

Marrons

13

Existe-t-il une liason entre ces deux caractres ?

Exercice 16
On considre les familles de quatre enfants.
Sur un chantillon de cent familles quatre enfants, la rpartition suivante a t observe :
Nombre de f illes Nombre de f amilles
0

20

41

22

10

Peut-on considrer que la probabilit quun enfant soit une fille est

1
?
2

Exercice 17
On distribue un jeu de quarante cartes quatre joueurs : A , B , C , D ; chacun
reevant dix cartes
Un statisticien a labor un programme de distribution de donnes par ordinateur.
Pour un ensemble de deux cents donnes, obtenues partir de ce programme, il
observe le nombre de donnes o le joueur A reoit k as, 0 k 4.

87

Les Tests du Khi-Deux

A. El Mossadeq

Les rsultats sont les suivants :


Nombre d0 as Nombre de donnes
0

64

74

52

Le programme du statisticien est-il fiable ?

88

Chapitre 5
T ests d H yp oth ses
Moyennes et Variances

A. El Mossadeq

Tests : Moyennes et Variances

1. ESTIMATION DE LA MOYENNE
ET DE LA VARIANCE DUNE
POPULATION
Soit X une variable alatoire continue de moyenne et de variance 2 .
Si (X1 , ..., Xn ) est un n-chantillon issu de X, alors les statistiques :
1X
Xi
n i=1
n

1 X
(Xi M)2
n 1 i=1
n

constituent des estimateurs sans biais de et 2 respectivement.


Si :
n
1X
m =
xi
n i=1
et :

1 X
(xi m)2
s =
n 1 i=1
n

sont des ralisations de M et S 2 , alors m et s2 sont des estimations ponctuelles de


et 2 .

2. INTERVALLE DE CONFIANCE
DUNE VARIANCE
Si X suit une loi normale de moyenne et de variance 2 , alors la quantit :
2 =

(n 1) s2
2

est une ralisation dune variable 2n1 du Khi-deux (n 1) degrs de libert.


Ainsi, pour tout [0, 1], il existe 2n1;/2 et 2n1;1/2 dans R tels que :

P 2n1;/2 < 2 < 2n1;1/2 = 1


91

Tests : Moyennes et Variances

A. El Mossadeq

o 2n1;/2 et 2n1;1/2 vrifient :

n1
n1;/2

Kn1 2
n1;1/2

Kn1 tant la fonction de rpartition de 2n1 .


Il en rsulte que :
"
#
2
(n 1) s2
(n

1)
s
P
=1
< 2 < 2
2n1;1/2
n1;/2
Lintervalle :

"

(n 1) s2 (n 1) s2
,
2n1;1/2 2n1;/2

est appel lintervalle de confiance de la variance 2 1 ou au seuil .


Lintervalle de confiance de lcart-type 1 est alors donn par :
#
"s
s
(n 1)
(n 1)
s,
s
2n1;1/2
2n1;/2

Exemple 1
La force de rupture dun certain type de cable peut tre assimile une variable
alatoire normale.
Des essais portant sur dix cables ont donn une variance empirique s2 de 1560 N2 .
Construire un intervalle de confiance, 95%, de lcart-type de cette force de rupture.
Au seuil , lintervalle de confiace de lcart-type est dfini par :
"s
#
s
(n 1)
(n 1)
s,
s
2n1;1/2
2n1;/2
Pour = 5% :

2
9;.025 = 2.7
2
9;.975 = 19

do lintervalle de confiace de lcart-type 95% :


[27.18 N, 72.11 N]

92

A. El Mossadeq

Tests : Moyennes et Variances

3. INTERVALLE DE CONFIANCE
DUNE MOYENNE
3.1. n 30
La taille de lchantillon est assez grande, daprs le thorme centrale limite, la
quantit :
m
t=

n
peut tre considre comme une ralisation de la variable alatoire normale centre
rduite :
M
N=

n
Ainsi, pour tout [0, 1], il existe t1/2 R tel que :

P |N| < t1/2 = 1

cest dire :

ou encore :

On dit que :

t1/2

t1/2

t1/2

1
t2
exp dt = 1
2
2

1
t2
exp dt = 1
2
2
2

m t1/2 , m + t1/2
n
n

1 ou au seuil .
Cet intervalle est appel lintervalle de confiance de la moyenne 1 .
Si la variance 2 est inconnue, on la remplace sans inconvnient par son estimation
s2 .
Exemple 2
Dune population de variance 2 = 25, on extrait un chantillon de taille n = 100
sur lequel on observe une moyenne empirique m = 12.5.
Quel intervalle peut-on assigner la moyenne de la population ?

93

Tests : Moyennes et Variances

A. El Mossadeq

Au seuil , lintervalle de confiace de la moyenne est dfini par :

m t1/2 , m + t1/2
n
n
Pour = 5%, on a :
t.975 = 1.96
do lintervalle de confiance 95% :
[11.52, 13.48]

3.2. n < 30
Si X suit une loi normale de moyenne et de variance 2 , alors la quantit :
t=

m
s

est une ralisation de la variable alatoire de Student (n 1) degrs de libert :


Tn1 =

M
S

Ainsi, pour tout [0, 1], il existe tn1;1/2 R tel que :

P |Tn1 | < tn1;1/2 = 1

o tn1;1/2 vrifie :

Fn1 tn1;1/2 = 1
2
Fn1 tant la fonction de rpartition de Tn1 .
On dit que :

s
s
m tn1;1/2 , m + tn1;1/2
n
n

1 ou au seuil .
Cet intervalle est appel lintervalle de confiance de la moyenne 1 .

Exemple 3
Pour dterminer le point de fusion moyen dun certain alliage, on a procd neuf
observations qui ont donnes une moyenne m = 1040 C et un cart-type s = 16 C.
Construire un intervalle de confiance de la moyenne 95%.

94

A. El Mossadeq

Tests : Moyennes et Variances

Ici on a :
n
m
s

=
=
=

9
1040 C
16 C

Au seuil , lintervalle de confiace dune telle moyenne est dfini par :

s
s
m tn1;1/2 , m + tn1;1/2
n
n
Pour = 5%, on a :
t8;.975 = 2.31
do lintervalle de confiance 95% :
[1027.68 C, 1052.32 C]

4. TEST DE COMPARAISON DUNE


VARIANCE OBSERVE UNE
NORME
Si X suit une loi normale de moyenne et de variance 2 , alors sous lhypothse
nulle :
H0 : s2 = 2
la quantit :
(n 1) s2
2
2
est une ralisation dune variable n1 du Khi-deux (n 1) degrs de libert.
Ainsi, pour tout [0, 1], il existe 2n1;/2 et 2n1;1/2 dans R tels que :

P 2n1;/2 < 2 < 2n1;1/2 = 1


2 =

o 2n1;/2 et 2n1;1/2 vrifient :

Kn1 2
n1;/2
Kn1 2
n1;1/2
95

=
=

2
1
2

Tests : Moyennes et Variances

A. El Mossadeq

Kn1 tant la fonction de rpartition de 2n1 .


On rejette alors lhypothse nulle H0 , 1 , ds que :

(n 1) s2 2

/ n1;/2 2n1;1/2
2

Exemple 4
La force de rupture dun certain type de cable peut tre assimile une variable
alatoire normale.
Un vendeur de ce type de cable arme que cette force de rupture a pour variance
2 = 2000 N2 .
Des essais portant sur dix cables ont donn une variance empirique s2 de 1560 N2 .
Que peut-on conclure ?
Ici on a :

Testons lhypothse nulle :

n = 10
2 = 2000 N2
2
s = 1560 N2

H0 : la variance de la force de rupture du cable est 2 =2000 N2


Sous cette hypothse, la quantit :
(n 1) s2
=
2
est une ralisation dune variable du Khi-deux :
2

(10 1) = 9
degrs de libert : 29
Pour = 5% :

et comme :

2
9;.025 = 2.7
2
9;.975 = 19
2

=
=

(n 1) s2
2
7.02

on accepte lhypothse nulle H0 , au seuil = 5%, cest dire, la force de rupture


de ce type de cable a pour variance :
2 = 2000 N2

96

A. El Mossadeq

Tests : Moyennes et Variances

5. TEST DE COMPARAISON DUNE


MOYENNE OBSERVE UNE
NORME
5.1. n 30
Sous lhypothse nulle :
H0 : m =
la quantit :
t=

peut tre considre comme une ralisation de la variable alatoire normale centre
rduite :
M
N=

n
Ainsi, pour tout [0, 1], il existe t1/2 R tel que :

P |N| < t1/2 = 1

cest dire :

ou encore :

t1/2

t1/2

1
t2
exp dt = 1
2
2

t1/2

t2
exp dt = 1
2
2
2

On rejette alors lhypothse nulle H0 , 1 , ds que :


|t| > t1/2
Si la variance 2 est inconnue, on la remplace par son estimation s2 .
Exemple 5
Dune population, on extrait un chantillon de taille n = 40 sur lequel on observe
une moyenne m = 7.5 et une variance s2 = 80.
Tester lhypothse selon laquelle cet chantillon est extrait dune population de
moyenne = 10.

97

Tests : Moyennes et Variances

A. El Mossadeq

Ici on a :
n = 40

= 10

m = 7.5

s2 = 80

Testons lhypothse nulle :


H0 : la moyenne de la population est = 10
Sous cette hypothse, la quantit :
t=

m
s

peut tre considre comme une ralisation dune variable alatoire normale centre
rduite.
Pour = 5%, on a :
t.975 = 1.96
et comme :
t=

m
s = 1.77

on accepte lhypothse nulle H0 au seuil = 5%, cest dire, lchantillon est extrait
dune population de moyenne = 10.

5.2. n < 30
Si X suit une loi normale de moyenne et de variance 2 , alors sous lhypothse
nulle :
H0 : m =
la quantit :
t=

m
s

est une ralisation de la variable alatoire de Student (n 1) degrs de libert :


Tn1 =

M
s

Ainsi, pour tout [0, 1], il existe tn1;1/2 R tel que :

P |Tn1 | < tn1;1/2 = 1


98

A. El Mossadeq

Tests : Moyennes et Variances

o tn1;1/2 vrifie :

Fn1 tn1;1/2 = 1
2

Fn1 tant la fonction de rpartition de Tn1 .


On rejette alors lhypothse nulle H0 , 1 , ds que :
|t| > tn1;1/2

Exemple 6
Un fabriquant de corde arme que les objets quil produit ont une tension de rupture
moyenne de trois cents Kilogrammes.
Peut-on admettre le bien fond de cette armation si des expriences faites sur dix
cordes ont permis de constater les forces de rupture suivantes :
251 247 255 305 341 326 329 345 392 289
Avant de tester lhypothse nulle :
H0 : la tension de rupture moyenne de la corde est 300 kg
Calculons les estimations m et s2 sur cet chantillon de taille n = 10.
On a :
10
1 X
m=
xi = 308 kg
10 i=1
et :

1X
(xi m)2 = 2269.8 kg2
s =
9 i=1
10

Sous lhypothse nulle H0 , la quantit :

t=

m
s

est une ralisation dune variable alatoire de Student :


n1=9
degrs de libert :T9 .
Pour = 5%, on a :
t9;.975 = 2.26

99

Tests : Moyennes et Variances

A. El Mossadeq

et comme :
t

m
s

n
.531

=
=

on accepte lhypothse nulle H0 au seuil = 5%, cest dire, la tension de rupture


moyenne de la corde est 300 kg.

6. TEST DE COMPARAISON DE
DEUX VARIANCES
On considre deux populations dans lesquelles le caractre tudi est distribu selon
des lois normales de variances 21 et 22 inconnues.
Il sagit de dcider si les variances de ces deux populations sont gales.
Soit tester, au seuil , lhypothse nulle :
H0 : 21 = 22
On extrait de ces deux populations, deux chantillons indpendants de taille n1 et
n2 respectivement, sur lesquels on calcule les estimations s21 de 21 et s22 de 22 .
Sous lhypothse nulle H0 , la quantit :
f=

s21
s22

est une ralisation dune variable alatoire Fn1 1,n2 1 de Fisher (n1 1, n2 1)
degrs de libert.
Ainsi, pour tout [0, 1], il existe Fn1 1,n2 1;/2 R et Fn1 1,n2 1;1/2 R tels
que :

P Fn1 1,n2 1;/2 < f < Fn1 1,n2 1;1/2 = 1


On rejette alors lhypothse nulle H0 , 1 , ds que :

f
/ Fn1 1,n2 1;/2 Fn1 1,n2 1;1/2

En pratique, on rejette lhypothse nulle H0 , 1 , ds que :


2
s1

> Fn1 1,n2 1;1/2 si s21 > s22

s22

s2

22 > Fn2 1,n1 1;1/2


s1
100

si s22 > s21

A. El Mossadeq

Tests : Moyennes et Variances

Exemple 7
Sur deux chantillons indpendants de tailles n1 = 9 et n2 = 21, extraits de deux
populations gaussiennes, les variances ont t estimes par s21 = 16 et s22 = 12.
Peut-on admettre, au seuil = 10%, que les deux populations considres ont la
mme variance ?
Ici on a :

s21 = 16
s22 = 12

n1 = 9
n2 = 21

Testons au seuil , lhypothse nulle :


H0 : 21 = 22
Sous cette hypothse, la quantit :
f=

s21
s22

est une ralisation dune variable alatoire de F isher


(n1 1, n2 1) = (8, 20)
degrs de libert : F8,20
Pour = 10%, on a :
F8,20;.95 = 2.45
et comme :
s21
s22
4
=
3
on accepte lhypothse nulle H0 au seuil = 10%.
f

Exemple 8
Sur deux chantillons indpendants de tailles n1 = 17 et n2 = 21, extraits de deux
populations gaussiennes, les variances ont t estimes par s21 = 36 et s22 = 45.
Peut-on admettre, au seuil = 2%, que ces deux populations ont la mme variance ?
Ici on a :

n1 = 17
n2 = 21

s21 = 36
s22 = 45

Testons au seuil , lhypothse nulle :


H0 : 21 = 22

101

Tests : Moyennes et Variances

A. El Mossadeq

Sous cette hypothse, la quantit :


f=

s22
s21

est une ralisation dune variable alatoire de F isher


(n2 1, n1 1) = (20, 16)
degrs de libert : F20,16
Pour = 2, on a :
F20,16;.99 = 3.25
et comme :
f

=
=

s22
s21
1.25

on accepte lhypothse nulle H0 au seuil = 2%.

7. TEST DE COMPARAISON DE
DEUX MOYENNES
On considre deux populations dans lesquelles le caractre tudi est dfini par
(1 , 21 ) et(2 , 22 ) respectivement.
On extrait de ces deux populations, deux chantillons indpendants de taille n1 et n2
respectivement, sur lesquels on calcule les estimations (m1 , s21 ) de (1 , 21 ) et (m2 , s22 )
de (2 , 22 ).

7.1. n1 30 et n2 30
Sous lhypothse nulle :
H0 : 1 = 2
la quantit :
m1 m2
t= r 2
1 22
+
n1 n2
peut tre considre comme une ralisation de la variable alatoire normale centre

102

A. El Mossadeq

Tests : Moyennes et Variances

rduite :
M1 M2
N=r 2
1 22
+
n1 n2
Ainsi, pour tout [0, 1], il existe t1/2 R tel que :

P |N| < t1/2 = 1

On rejette alors lhypothse nulle H0 , 1 , ds que :


|t| > t1/2
Si 21 ou 22 est inconnue, on peut remplacer sans inconvnient lune ou lautre par
son estimation.

Exemple 9
Chez cent sujet normaux, on dose lacide urique, les rsultats sont :

m1 = 53.3 mg/ l
s = 9.1 mg/ l
1

Chez cent sujet atteints de la maladie de goutte, le mme dosage fournit les rsultats
suivants :

m2 = 78.6 mg/ l
Que peut-on conclure ?

s = 13.1 mg/ l
2

Testons au seuil , lhypothse nulle :


H0 : la maladie de goutte na pas dinfluence sur la dose de lacide urique.
Sous cette hypothse, la quantit :
m1 m2
t= r 2
s1
s2
+ 2
n1 n2
peut tre considre comme une ralisation dune variable alatoire normale centre
rduite.
Pour = 5%, on a :
t.975 = 1.96

103

Tests : Moyennes et Variances

A. El Mossadeq

et comme :
t

=
=

m m2
r 12
s1
s2
+ 2
n1 n2
15.862

on rejette lhypothse nulle H0 95% (mme 99.99%), cest dire, la maladie de


goutte a une influence sur la dose de lacide urique.

7.2. n1 < 30 ou n2 < 30


Si le caractre tudi est distribu dans les deux populations selon des lois normales
de mme variance 2 = 21 = 22 (pour vrifier cette hypothse, on peut faire un test
de comparaison de deux variances) estime par :
s2 =
alors sous lhypothse nulle :

(n1 1) s21 + (n2 1) s22


n1 + n2 2
H0 : 1 = 2

la quantit :
m1 m2
t= r
1
1
s
+
n1 n2

est une ralisation de la variable alatoire Tn1 +n2 2 de Student (n1 + n2 2) degrs
de libert.
Ainsi, pour tout [0, 1], il existe tn1 +n2 2;1/2 R tel que :

P |Tn1 +n2 2 | < tn1 +n2 2;1/2 = 1


On rejette alors lhypothse nulle H0 , 1 , ds que :
|t| > tn1 +n2 2;1/2

Exemple 10
On tudie leet dune substance sur la croissance dune tumeur gree.
Les rsultats sont consigns sur le tableau ci-dessous donnant la surface de la tumeur
au 20e`me jour aprs sa gree :

104

A. El Mossadeq

Tests : Moyennes et Variances

Surf ace 5.5 6 6.5 7 7.5 8


T emoins 1 2 3 8 4 3
T rait
es
4 4 8 3 1 1
Le traitement a-t-il un eet significatif sur la surface tumorale ?
On suppose que la surface tumorale est distribue selon des lois normales N (1 , 21 )
et N (2 , 22 ) chez les tmoins et les traits respectivement.
Calculons les estimations (m1 , s21 ) de (1 , 21 ) et (m2 , s22 ) de (2 , 22 ).
On a :

1 X

m
=
n1i xi = 7

21 i=1

et :

1 X

n1i (xi m1 )2 = .45

s1 = 20
i=1

1 X

m
=
n2i xi = 6.4048

21 i=1

1 X

n2i (xi m2 )2 = .87972

s2 = 20
i=1

Testons dabord, au seuil = 2%, lhypothse nulle dgalit des variances des
surfaces tumorales chez les populations des tmoins et des traits.
Sous cette hypothse, la quantit :
f=

s22
s21

est une ralisation dune variable alatoire de Fisher :


(n2 1, n1 1) = (20, 20)
degrs de libert.
Pour = 2%, on a :
F20,20;.99 = 2.94
et comme :
f

=
=

s22
s21
1.9549

105

Tests : Moyennes et Variances

A. El Mossadeq

on accepte donc lhypothse dgalit des variances des deux populations.


Calculons maintenant lestimation commune s2 de cette variance :
s2

=
=

(n1 1) s21 + (n2 1) s22


n1 + n2 2
.66486

et testons lhypothse nulle :


H0 : le traitement est sans eet sur la croissance de la surface tumorale
Sous cette hypothse, la quantit :
m1 m2
t= r
1
1
s
+
n1 n2
est une ralisation de la variable alatoire de Student :
n1 + n2 2 = 40
degrs de libert.
Pour = 2%, on a :
t40;.99 = 2.42
et comme :
t

=
=

m m2
r1
1
1
s
+
n1 n2
2.831

on rejette lhypothse nulle H0 98%, cest dire, le traitement a une influence sur
la croissance de la surface tumorale.

106

A. El Mossadeq

Tests : Moyennes et Variances

8. EXERCICES
Exercice 1
Une srie de cent mesures a donn comme rsultat :
100
X

xi = 5200

i=1

"
#2

100

X
100

P
1

xi
xj = 396

100 j=1
i=1

1. Estimer la moyenne et la variance.


2. Quel est, 95%, lintervalle de confiance de la moyenne ?
3. En supposant la variable mesure gaussienne, dterminer, 95%, lintervalle de
confiance de la variance.

Exercice 2
La force de rupture dun certain type de cable peut tre assimile une variable
alatoire normale.
Des essais portant sur dix cables ont donn une variance empirique s2 de 1560 N2 .
Construire un intervalle de confiance, 95%, de lcart-type de cette force de rupture.

Exercice 3
Une enqute statistique eectue sur cent sujets permet de dfinir, 95%, lintervalle
de confiance de la moyenne :
[49.6 50.4]

Dans quelles conditions aurait-il t possible que le rsultat ft 95% :


[49.8 50.2]

Exercice 4
Pour dterminer le point de fusion moyen dun certain alliage, on a procd neuf
observations qui ont donnes une moyenne m = 1040 C et un cart-type s = 16 C.
Construire un intervalle de confiance de la moyenne 95%.

107

Tests : Moyennes et Variances

A. El Mossadeq

Exercice 5
= 172 cm
La taille de 1200 conscrits du bureau de recrutement X a pour moyenne X
et pour cart-type sX = 6 cm.
Les mmes mesures eectues sur les 250 conscrits du bureau de recrutement Y ont
donn pour moyenne Y = 170 cm et pour cart-type sY = 5 cm.
Que peut-on conclure ?

Exercice 6
On se propose de comparer le poids la naissance chez une srie de primapares
(srie 1) et une srie de multipares (srie 2) :
S
erie 1 : n1 = 95

m1 = 3197 g s21 = 210100 g2

S
erie 2 : n2 = 105 m2 = 3410 g s22 = 255400 g2
Que peut-on conclure ?

Exercice 7
Chez cent sujet normaux, on dose lacide urique, les rsultats sont :

m1 = 53.3 mg/ l
s
1

9.1 mg/ l

Chez cent sujet atteints de la maladie de goutte, le mme dosage de lacide urique
fournit les rsultats suivants :

m2 = 78.6 mg/ l
Que peut-on conclure ?

s
2

13.1 mg/ l

Exercice 8
On admet que la valeur moyenne de la glycmie du sujet normal est 1 g/ l.
Sur 17 sujets, on a trouv une moyenne de .965 g/ l et un cart-type estim de
.108 g/ l.
Cette valeur peut-elle tre considre comme dirente du taux normal ?

108

A. El Mossadeq

Tests : Moyennes et Variances

Exercice 9
Dans un chantillon de 17 prmaturs, la moyenne du Na-plasmatique est :

m1 = 133
s21
= 81.2
Soit un autre chantillon de 25 dysmaturs, dans lequel la moyenne du Na-plasmatique
est :

m2 = 136
s22
= 56.57
Que peut-on conclure ?

Exercice 10
Lorquune machine est bien rgle, elle produit des pices dont le diamtre D est
une variable gaussienne de moyenne 25 mm.
Deux heures aprs le rglage de la machine, on a prlev au hasard neuf pices.
Leurs diamtres ont pour mesure en mm :
22 23 21 25 24 23 22 26 21
Que peut-on conclure quant la qualit du rglage aprs deux heures de fonctionnement de la machine ?

Exercice 11
Si lcart-type de la dure de vie dun modle de lampe lectrique est estim cent
heures, quelle doit tre la taille de lchantillon prlever pour que lerreur sur
lestimation de la dure de vie moyenne nexde pas vingt heures et ce avec une
probabilit de 95% puis 99% ?

Exercice 12
Une machine fabrique des rondelles dont le diamtre D est une variable guassienne.
On prlve au hasard un chantillon de huit rondelles.
Leurs diamtres ont pour mesure en mm :
20.1 19.9 19.7 20.2 20.1 23.1 22.6 19.8
Construire 95% puis 99% les intervalles de confiance de la moyenne et de la variance.

109

Tests : Moyennes et Variances

A. El Mossadeq

Exercice 13
On eectue un dosage par deux mthodes direntes A et B.
On obtient les rsultats suivants :
M ethode A

.6

.65

.7

.7

.7

.7

.75

.8

.8

M ethode B

.6

.6

.65

.65

.7

.6

.75

.8

.8

Peut-on considrer que les deux mthodes sont quivalentes ?

Exercice 14
Dans deux types de forts, on a mesur les hauteurs de treize et quatorze peuplements choisis au hasard et indpendamment dans le but de vrifier si les hauteurs
de ces deux types darbres sont ou ne sont pas gales. Les rsultats sont les suivants :
T ype 1 : 22.5 22.9 23.7 24.0 24.4 24.5 26.0
26.2 26.4 26.7 27.4 28.6 28.7
T ype 2 : 23.4 24.4 24.6 24.9 25.0 26.2 26.3
26.8 26.8 26.9 27.0 27.6 27.7 27.8
On admet que les hauteurs de ces deux types darbres sont des variables gaussiennes
N (1 , 21 ) et N (2 , 22 ).
Que peut-on conclure ?

Exercice 15
On considre deux varits de mas M1 et M2 dont les rendements sont des variables
alatoires gaussiennes N (1 , 21 ) et N (2 , 22 ).
Afin de comparer les rendements de ces deux varits de mas, on a choisi de cultiver
dans neuf stations direntes des parcelles voisines encemences de lune ou lautre
des deux varits.
On a observ les rendements suivants :

110

A. El Mossadeq

Station

Tests : Moyennes et Variances

V ari
et
e 1 39.6 32.4 33.1 27

36

32

25.9 32.4 33.2

V ari
et
e 2 39.2 33.1 32.4 25.2 33.1 29.5 24.1 29.2 34.1
Que peut-on conclure ?

Exercice 16
Le relev des tempratures journalires minimales de deux stations S1 et S2 , au
cours de neuf journes conscutives a fourni les valeurs suivantes en C:
Station 1 12
Station 2

9 10 11 13 10 7 10

7 11 10

8 11 12 9

On admet que la distribution des tempratures journalires minimales des deux


stations S1 et S2 sont des variables gaussiennes N (1 , 21 ) et N (2 , 22 ).
1. Dterminer les estimations des moyennes et des variances des tempratures
journalires minimales des deux stations S1 et S2 .
2. Construire, au seuil = 5%, les intervalles de confiance de ces estimations.
3. Peut-on admettre, au seuil = 10%, lhypothse selon laquelle les tempratures
journalires minimales moyennes des deux stations S1 et S2 sont identiques ?

Exercice 17
On tudie leet dune substance sur la croissance dune tumeur gree.
Les rsultats sont consigns sur le tableau ci-dessous donnant la surface de la tumeur
au 20e`me jour aprs sa gree :
Surf ace 5.5 6 6.5 7 7.5 8
T emoins 1 2 3 8 4 3
T rait
es
4 4 8 3 1 1
Le traitement a-t-il un eet significatif sur la surface tumorale ?
On suppose que la surface tumorale est distribue selon des lois normales N (1 , 21 )
et N (2 , 22 ) chez les tmoins et les traits respectivement.

111

Chapitre 6

Le Modle Linaire

A. El Mossadeq

Le Modle Linaire

1. LE MODLE LINAIRE SIMPLE


Etant donnes deux variables x et y, on dsire savoir si la variable y est fonction de
x, ou encore si la connaissance de x fournit une certaine information sur y.
On peut aussi sintresser la forme de la relation entre x et y, ou des prdictions
de y connaissant x.
Pour rpondre ces besoins, on est amen eectuer une rgression de y sur x.
En agronomie, par exemple, la production du mas, peut tre dcrite par la rgression
du rendement de mas selon la dose de lengrais utilis.
La variable y est appele : variable explique ou rponse ou variable exogne ou
contrle ...
Quant la variable x, elle est appele : variable explicative ou variable endogne ou
contrle ...
Dfinition 1
Soit une variable (rponse) dpendant de variables indpendantes z1 , ..., zs :
= f (z1 , ..., zs )
On dit que obit un modle linaire si :
=

k
X

j xj (z1 , ..., zs )

j=1

o les xj , 1 j k, sont des fonctions de (z1 , ..., zs ) seulement et 1 , ..., k sont


des paramtres souvent inconnus.

Exemple 1
Le modle :
= 0 + 1 z + 2 z 2 + ... + r z r
est un modle linaire.
En eet, si lon pose :

s =1

k =r+1
= j1

x j = x (z) = z j1
j
j

le modle prcdent scrit alors :

k
X
j=1

115

j xj

Le Modle Linaire

A. El Mossadeq

Dfinition 2
Un modle linaire est dit simple si :
= + z
Cest le cas o :
s=1
1 =
x1 (z) = 1

z1 = z
2 =
x2 (z) = z

,
,
,

Exemple 2
Le modle
= exp z
o > 0, est un modle linaire simple.
En eet, si lon pose :
= ln

= ln

le modle scrit :
= + z

Exemple 3
Le modle
= + sin 2z
est un modle linaire.
En eet, si lon pose :
s=1
1 =
x1 (z) = 1

,
,
,

k=2
2 =
x2 (z) = sin 2z

le modle scrit :
= 1 x1 + 2 x2

Exemple 4
Le modle :
1
[exp ( 1 z) exp ( 2 z)]
2 1
nest pas un modle linaire.
=

116

A. El Mossadeq

Le Modle Linaire

Remarque 1
De ces exemples, on dduit que la linarit du modle doit tre envisage comme
une linarit par rapport aux paramtres du modle.

2. ANALYSE DU MODLE
LINAIRE SIMPLE PAR LA
MTHODE DES MOINDRES
CARRS
Suposons quon sintresse la relation entre les variations de la temprature (x) et
les variations du volume dun gaz (y).
Lorsquon applique au gaz une temprature xi (qui peut tre choisie au hasard ou
fixe par lexprimentateur), le volume du gaz rsultant est une variable alatoire
yi .
Supposons que, lerreur exprimentale mise part, la relation entre x et y soit
linaire, de telle manire que lesprance conditionnelle de y relativement x, quon
appelle la fonction de rgression de y en x, est de la forme :
E [y | x] = x = + x

o et sont des paramtres quon se propose destimer.


Supposons aussi que pour tout x, le volume observ contient la mme erreur exprimentale donne par :
V [y | x] = 2

On appelle erreur alatoire la variable :

= y ( + x)
Pour tout x, a une mme distribution de moyenne nulle et de variance 2 :

E [] = 0

V [] = 2

Considrons maintenant n ralisations indpendantes y1 , ..., yn sous x1 , ..., xn respectivement.

117

Le Modle Linaire

A. El Mossadeq

Pour tout i, 1 i n, on a :
yi = + xi + i
o :

Posons :

E [i ]

V [i ]

Cov [ , ]
i j
Q (, )

n
X

i=1

n
X

si

i 6= j

(yi xi )2
2i

i=1

La mthode
des moindres carrs consiste estimer le couple (, ) par le couple

, minimisant Q (, ) :

Q
, = min Q (, )
(,)

, sont appels les estimateurs des moindres carrs de (, ).


On obtient :

y x
S (x,
y)

S (x 2 )

o :
1X
xi
x =
n i=1
n

1X
y =
yi
n i=1
n

118

A. El Mossadeq

Le Modle Linaire

et :
S (x,
y)

=
=

n
X
i=1
n
X
i=1

S (x,
x)

(xi x) (yi y)
xi yi n
xy


S x 2

Un estimateur de est alors donn par :

=
+ x
Posons :
ei

=
=

On a :
n
X

ei

i=1

yi
xi
i=1
n h
X
i=1

yi i

i
yi
+ x

i
(yi y) (xi x)

La droite des moindres carrs =


+ x
et les rsidus ei = yi i

119

Le Modle Linaire

A. El Mossadeq

3. PRORITS STATISTIQUES DES


ESTIMATEURS
Posons :
ci =
On a :

n
X

ci

i=1

n
X
c2i

i=1

ci xi

(xi x)
S (x 2 )

1
S (x 2 )

i=1

3.1. ETUDE DE
Puisque :
S (x,
y)
=

n
X
i=1

on en dduit :

(xi x) (yi y) =

=
=

n
X
i=1

S (x,
y)

2
S (x )
n
X
(xi x) yi
i=1

S (x 2 )

n
X

ci yi

i=1

120

(xi x) yi

A. El Mossadeq

Le Modle Linaire

do :
h i
E

" n
X

ci yi

i=1

=
=

n
X
i=1
n
X

ci E [yi ]
ci ( + xi )

i=1

et :
h i
V

" n
X
i=1

n
X

ci yi

c2i V [yi ]

i=1

2
S (x 2 )

Proposition 1
est un estimateur sans biais de de variance :
h i
2
V =
S (x 2 )

3.2. ETUDE DE

Puisque :

= y x

On a :
E [
]

=
=
=
=

h
i
E y x
h i
E [
y ] E x

+ x x

121

Le Modle Linaire

A. El Mossadeq

et comme :
n
X

ci yi

i=1

alors :

=
=

y x
!
n
X
y
ci yi x
i=1

n
X
1

i=1

do :
V [
]

i=1
n
X
i=1

xci yi

" n
X 1

#
xci yi

1
xci
n

1
x2
+
n S (x 2 )

V [yi ]

Proposition 2

est un estimateur sans biais de de variance :

x2
2 1
+
V [
] =
n S (x 2 )

3.3. ETUDE DE
On a :

=
=

+ x

n
X 1
i=1

n
X
1
i=1

xci yi +

n
X
i=1

+ ci (x x) yi

122

ci yi x

A. El Mossadeq

Le Modle Linaire

do :
E [
]

h
i

E
+ x
h i
E [
] + E x

=
=
=

+ x

et :

V [
]

" n
X 1

n
X

i=1

#
+ ci (x x) yi

2
1
+ ci (x x) V [yi ]
n
i=1
"
#
2
1
(x

)
2
+
n
S (x 2 )

Proposition 3
est un estimateur sans biais de de variance :
"
#
2
1 (x x)
+
V [
] = 2
n
S (x 2 )

3.4. ETUDE DE LA COVARIANCE DE


ET
On a :

=
=

n
X

ci (yi i )

i=1
n
X
j=1

1
xcj yj j
n

123

Le Modle Linaire

A. El Mossadeq

donc :

(
)

n
X
ci
i=1

X
=

xc2i (yi i )2 +

1
xci cj (yi i ) yj j
n
i6=j

X1
X
ci
2
2
xci (yi i ) +
xci cj i j
n
n
i=1
i6=j

do :
h
i
Cov
,

=
=
=

i
E (
)
n

X
ci
2

xc2i
n
i=1
x
2
S (x 2 )

Proposition 4
La covariance de
et est donne par :
h
i

Cov
, = 2

x
S (x 2 )

4. ETUDE DE LA VARIANCE DES


ESTIMATEURS
Soient a et b deux rels donns et considrons lestimateur des moindres carrs :
= a
+ b
de :
= a + b

124

A. El Mossadeq

Le Modle Linaire

Comme :
E [
]

h
i
E a
+ b

=
=
=

a + b

est donc un estimateur sans biais de .

Dautre part, puisque :

=
=

on en dduit :

V [
]

a
+ b
n h
i
X
a
+ (b a
x) ci yi
n
i=1
" n
Xha

n h
X
a

i=1

i=1

"

+ (b a
x) ci yi

+ (b a
x) ci

a2 (b a
x)2
+
n
S (x 2 )

i2

V [yi ]

Considrons un estimateur t de sans biais et linaire en yi :


t=

n
X

di yi

i=1

Puisque :

E [t] =
alors :

n
X

di

i=1

di xi

i=1

125

Le Modle Linaire

A. El Mossadeq

Calculons la covariance de et t :
E [
]

n h
X
a

i=1
n h
X

i=1

t E [t]

i
+ (b a
x) ci (yi i )

i
a
+ (b a
x) ci i
n
n
X

j=1
n
X

dj yj j
dj j

j=1

do :
Cov [
, t]

=
=
=

E [(
) (t )]
n h
n
i
XX
a
+ (b a
x) ci dj Cov [i , j ]
n
i=1 j=1
n h
X
a
i=1

"

i
+ (b a
x) ci di V [i ]

X
a2
+ (b a
x)
ci di
n
i=1
n

Et comme :
n
X

ci di

i=1

=
=

n
X
xi x

d
2) i
S
(
x

i=1
#
" n
n
X
X
1
xi di x
di
S (x 2 ) i=1
i=1

(b a
x)
2
S (x )

on obtient alors :
Cov [
, t]

=
=
=

"

X
a2

+ (b a
x)
ci di
n
i=1
"
#
2
(b a
x)2
2 a
+

n
S (x 2 )
2

V [
]

126

A. El Mossadeq

Le Modle Linaire

Or :
V [
t]

=
=

V [
] + V [t] 2Cov [
, t]
V [t] V [
]

et :
on en dduit :

V [
t] 0
V [
] V [t]

Proposition 5
Parmi tous les estimateurs sans biais de :
= a + b
linaires en yi , lestimateur des moindres carrs :
= a
+ b
est de variance minimale.

Corollaire 1
Parmi tous les estimateurs sans biais de , linaires en yi , lestimateur des moindres
carrs
est de variance minimale.

Corollaire 2
Parmi tous les estimateurs sans biais de , linaires en yi , lestimateur des moindres
carrs est de variance minimale.

Corollaire 3
Parmi tous les estimateurs sans biais de :
= + x
linaires en yi , lestimateur des moindres carrs :

=
+ x
est de variance minimale.

127

Le Modle Linaire

A. El Mossadeq

5. ESTIMATION DE 2

On appelle somme des carrs des rsidus la quantit :


SSe =

n
X

e2i

i=1

o
yi i

ei

i
yi
x

=
En remplaant, on obtient :
SSe

n
X

e2i

i=1

n
2
X
i
yi
x
i=1

n
X
i=1

Posons :

"

yi2

SSr =

n
X

n
X
i=1

yi +

i=1

yi +

n
X

xi yi

i=1

n
X

xi yi

i=1

alors :
SSr

n
+ 2

n
X

2
xi +

i=1

n
X

2i

i=1

do :

SSe =

n
X
i=1

yi2 SSr

128

n
X
i=1

x2i

A. El Mossadeq

Et comme :

Le Modle Linaire

2
E

h 2i
E

V [
] + E [
]2

h i
h i2
V + E

h i
E

E [yi2 ]

h
i
h i
Cov
, + E [
] E

V [yi ] + E [yi ]2 = 2 + ( + xi )2

alors :
2

"

E [SSr ] = 2 + n + 2

" n
X

yi2

i=1

xi +

i=1

do :
E [SSe ]

n
X

n
X
i=1

x2i

E [SSr ]

(n 2) 2

Proposition 6
La statistique :

est un estimateur sans biais de 2 .

1
SSe
n2

6. ANALYSE DE LA VARIANCE
On a :
n
X

yi2 = SSe + SSr

i=1

n
X

yi2 se dcompose en la somme de deux carrs :

i=1

le premier, SSe , donnant une information sur lerreur,


le second, SSr , donnant une information sur les paramtres de la fonction de
rgression.

129

Le Modle Linaire

A. El Mossadeq

Nous rsumons lanalyse dans le tableau suivant, appel table de lanalyse de la variance :
Source

d.d.l

SS

R
egression

SSr

R
esidu

n2

T otal

SSe
n
P
yi2

SS/ddl
SSr
2
SSe
n2

Esp
erance

n
1
2P 2
2
2
n + 2 x +
+
xi
2
i=1
2

i=1

7. TESTS ET INTERVALLES DE
CONFIANCE
On suppose, dans ce paragraphe, que pour tout i, 1 i n, yi est une variable
normale de moyenne + xi et de variance 2 .

Proposition 7

Le couple destimateurs
, a pour densit la fonction :
"
#
n
n
X
X
1
S (x 2 )
2
2
exp 2 n (x ) + 2 (x ) (y )
xi + (y )
x2i
f (x, y) = n
2 2
2
i=1
i=1

7.1. INTERVALLE DE CONFIANCE DE 2

Proposition 8
La variable :
SSe
2
suit une loi du khi-deux (n 2) degrs de libert : 2n2 .

130

A. El Mossadeq

Le Modle Linaire

Un intervalle de confiance de 2 1 est alors donn par :


"
#
SSe
SSe
,
2n2;1/2 2n2;/2

7.2. RGION DE CONFIANCE ET TESTS


CONCERNANT (, )
Proposition 9
La variable :
n
n

2 X
T (, ) = n (
)2 + 2 (
)
xi +
x2i
i=1

i=1

est telle que la variable :

1
T (, )
2
suit une loi du Khi-deux deux degrs de libert 22 indpendamment de SSe .
Supposons quon veut tester lhypothse :
H0 : (, ) = (0 , 0 )
Si H0 est vraie, alors la variable alatoire :
1
T (0 , 0 )
2
suit une loi du Khi-deux deux degrs de libert 22 indpendamment de la variable
alatoire :
SSe
2
qui suit une loi du khi-deux (n 2) degrs de libert : 2n2 .
Considrons la statistique:
F =

T (0 , 0 ) /2
SSe /n 2

Sous lhypothse nulle H0 , F est une variable de Fisher-Snedecor (2, n 2) degrs


de libert F2,n2 .
On rejette lhypothse nulle H0 , au seuil , ds que :
F < F2,n2;/2 ou F > F2,n2;1/2

131

Le Modle Linaire

A. El Mossadeq

La rgion de confiance de (, ) 1 est donne par :

SSe
F2,n2;1/2
(, ) | T (, ) 2
n2

Cest une rgion limite par une ellipse centre en


, .

7.3. INTERVALLE DE CONFIANCE ET TEST


CONCERNANT
Proposition 10
La variable alatoire est distribue selon une loi normale de moyenne :
h i
E
=
et de variance :

indpendamment de SSe .

h i
V

Ainsi, la variable :
X=

2
S (x 2 )

p
S (x 2 )

est distribue selon une loi normale centre rduite.


Et comme la variable :
SSe
Y = 2

suit une loi du khi-deux (n 2) degrs de libert : 2n2 , il en rsulte que la statistique :
T ()

=
=

X
p
Y /n 2
s

(n 2) S (x 2 )

SSe

suit une loi de Student (n 2) degrs de libert : Tn2 .

132

A. El Mossadeq

Le Modle Linaire

Lintervalle de confiance de 1 est donn par :


"

tn2;1/2

SSe
, + tn2;1/2
(n 2) S (x 2 )

SSe
(n 2) S (x 2 )

Afin de tester lhypothse nulle :


H0 : = 0
on compare T ( 0 ) tn2;1/2 .

7.4. INTERVALLE DE CONFIANCE ET TEST


CONCERNANT
Proposition 11
La variable alatoire
est distribue selon une loi normale de moyenne :
E [
]

et de variance :

V [
]

n
P

i=1

x2i

nS (x 2 )

indpendamment de SSe .

Posons :
2 =

n
P

i=1

x2i

nS (x 2 )

Ainsi, la variable :
(
)

est distribue selon une loi normale centre rduite.


Z=

133

Le Modle Linaire

A. El Mossadeq

Et comme la variable :
SSe
2
suit une loi du khi-deux (n 2) degrs de libert : 2n2 , il en rsulte que la
statistique :
Y =

T ()

Z
p
Y /n 2
s
(
) (n 2)

SSe

=
=

suit une loi de Student (n 2) degrs de libert : Tn2 .


Lintervalle de confiance de 1 est donn par :
s
s
"
#
SSe
SSe

tn2;1/2
,
+ tn2;1/2
(n 2)
(n 2)
Afin de tester, au seuil , lhypothse nulle :
H0 : = 0
on compare T (0 ) tn2;1/2 .

7.5. INTERVALLE DE CONFIANCE DE


Proposition 12
La variable alatoire x est distribue selon une loi normale de moyenne :
E [
x]

et de variance :
V [
x]

"

1 (x x)2
+
n
S (x 2 )

U=

(
x x)
[ x ]

indpendamment de SSe .

Ainsi, la variable :

134

A. El Mossadeq

Le Modle Linaire

est distribue selon une loi normale centre rduite.


Et comme la variable :
SSe
Y = 2

suit une loi du khi-deux (n 2) degrs de libert : 2n2 , il en rsulte que la statistique :
T ( x )

U
p
Y /n 2
(
x)
sx
r
SSe
1 (x x)2
+
n2 n
S (x 2 )

=
=

suit une loi de Student (n 2) degrs de libert : Tn2 .


Lintervalle de confiance de x 1 est donn par :
x tn2;1/2

SSe
(n 2)

1 (x x)2
+
n
S (x 2 )

7.6. COEFFICIENT DE CORRLATION


Par dfinition , le coecient de corrlation de x et y est donne par :

Cov [x, y]
[x] [y]
S (x,
y)

p
p
2
S (x ) S (y 2 )

=
=

Il en rsulte que :

2
S (x 2 )
=
S (y 2 )
2

Or :


2
SSe = S y 2 S x 2
135

Le Modle Linaire

A. El Mossadeq

donc :
SSe
S (y 2 )

=
=

2
S (x 2 )
1
S (y 2 )
1 2

En utilisant les rsultats prcdents, on obtient :


Proposition 13
La variable alatoire :
(n 2)
T () = p
1 2

suit une loi de Student n 2 degrs de libert : Tn2 .

Afin de tester, au seuil , lhypothse nulle :


H0 : = 0
cest dire :
il ny a pas de relation linaire entre x et y
on compare T () tn2;1/2 .

8. LE TEST DE LINARIT DU
MODLE
Dans toute lanalyse que nous avons mene, nous avons suppos lexistence dune
relation linaire entre x et y de la forme :
E [y | x] = x = + x
cest dire, que le modle tudi, est un modle linaire simple.
Il sagit, maintenant de vrifier si cette hypothse est vraie, autrement dit :
le modle est-il rellement linaire ?
Soient x1 , ..., xm m valeurs fixe de x, m 3, telles que :
x1 < ... < xm

136

A. El Mossadeq

Le Modle Linaire

Pour chaque xj , 1 j m, supposons quon dispose de nj , nj 1, observations


y1j , ..., ynj j de y et que lun au moins des nj est strictement suprieur 1.
Soit :
m
X
nj
n=
j=1

et pour tout j, 1 j m, posons :

nj
1 X
yij
y.j =
nj i=1

La mthode des moindres carrs nous fournit la droite :

=
+ x
avec :

y x
S (x,
y)

S (x 2 )

o :
1X
ni xi
x =
n i=1
m

nj

1X
1 XX
y =
nj y.j =
yij
n j=1
n j=1 i=1
m

S (x,
y)
=

m
X
j=1

nj (xj x) (
y.j y) =

nj
m X
X
j=1 i=1

(xj x) (yij y)

m
2 X
nj (xj x)2
S x =
j=1

Il est clair que :

SSe =

nj
m X
X
j=1 i=1

o pour tout j {1, ..., m} :

e2ij

nj
m X
X

2
=
yij ij
j=1 i=1

j , 1 i nj
ij =
+ x

137

Le Modle Linaire

A. El Mossadeq

Intuitivement, si la relation entre x et y nest pas linaire, alors les rsidus eij
contiennet une information autre que celle lie lerreur.
Dans ce cas, il faut sattendre ce que la somme des carrs des rsidus SSe contient,
en plus de linformation sur 2 , une information sur lcart la vraie relation entre
x et y.
Posons :
nj
m X
X
(yij y)2
SST =
j=1 i=1

SSB =

m
X
j=1

SSW =

(yij y.j )2

nj
m X
X
j=1 i=1

alors on a :

(yij y.j )2

SST = SSB + SSW


SST reprsente la variation totale,
SSB reprsente la variation inter-groupe,
SSW reprsente la variation intra-groupe.

Puisque pour tout j {1, ..., m}, y1j , ..., ynj j sont identiquement distribus selon
une loi desprace mathmatique + xj et de variance 2 , alors :
" nj
#
X
2
E
(yij y.j ) = (nj 1) 2
i=1

et :

On conclut que la statistique :

E [SSW ] = (n m) 2
SSW
nm

est un estimateur sans biais de 2 .


Cet estimateur est indpendant de la relation linaire pouvant exister entre x et y
contrairement au prcdent estimateur :
SSe
n2
Posons :
SSL = SSB SSr ()

138

A. El Mossadeq

o :

Le Modle Linaire

2
SSr () = S x 2

On dmontre que, sous lhypothse de linarit du modle on a :


E [SSL ] = (m 2) 2
sinon :
E [SSL ] = (m 2) 2 + 2

o 2 dpend de la nature de la relation entre x et y de telle sorte que :


2 = 0 = + x
Il en rsulte que si les yij , 1 i nj et 1 j m, sont identiquement distribus
selon une mme loi normale, alors sous lhypothse nulle :
H0 : le modle est linaire
la statistique :
FL =

SSL / (m 2)
SSW / (n m)

est distribue selon une loi de Ficher (m 2, n m) degrs de libert : Fm2,nm .


On rejette lhypothse nulle H0 , au seuil , ds que :
FL > Fm2,Nm;
On rsume les dirents rsultats dans la table suivante o g (2 ) est une fonction
de 2 telle que :
g (0) = 0
Source
mod`ele
Inter
non linearite
Intra
T otal

d.d.l

SS

1
m2

E [SS/ddl]

SSr ()

m1

nm
n1

SSL

SSB

SSW
SST

2 + 2 S (x 2 )+g (2 )
2 +g(2 )/(m2)
2

Lorsque lhypothse de la linarit du modle est accepte, il devient intressant


dexaminer lhypothse nulle :
H0 : = 0
cest dire, la rponse est une fonction constante.
Sous lhypothse de linarit du modle, cest dire :
=0

139

Le Modle Linaire

A. El Mossadeq

et sous lhypothse nulle :


H0 : = 0
la statistique :
F =

SSr ()
SSe / (n 2)

est distribue selon une loi de Ficher (1, n 2) degrs de libert : F1,n2 .

9. PREDICTION
Souvent, le but dune exprimentation est de pouvoir, pour une valeur donne x0 de
la variable explicative x, prdire la valeur de la variable expliquer y.
Supposons que la relation entre x et y soit linaire :
E [y | x] = x = + x

et supposons quaprs validation du modle, par les donnes (xi , yi )1in , on a :

x =
+ x

o
, sont les estimateurs des moindres carrs de (, ).

Nous souhaitons maintenant prdire la valeur future de la rponse y, indpendante des observations prcdantes, lorsque x = x0 .
Quel prdicteur yx0 , bas seulement sur les observations (xi , yi )1in , doit-on alors
utiliser pour prdire la rponse indpendante y qui serait observe en x = x0 ?
Intuitivement, il parait raisonnable de considrer le prdicteur :
0
+ x
yx0 =
On a :
E [
yx0 | (xi , yi ) , 1 i n] = E [y | x0 ] = x0

donc, tous les prdicteurs, de la rponse indpendante y en x = x0 , ont la mme esprance mathmatique.

140

A. El Mossadeq

Le Modle Linaire

Le choix de ce prdicteur se justifie par le fait que si t est un prdicteur de y, alors :


i
h
2

E tx0 y | (xi , yi )1in

h
i
2

E tx0 x0 | (xi , yi )1in


h
i
2
+E y x0 | (xi , yi )1in

le terme reprsentant la covariance est nulle vue lhypothse de lindpendance.


Lorsquon ne considre que les prdicteurs linaires en y, alors daprs le Corollaire
3 de la Proposition 5, lesprance :

est minimum lorsque :

h
i
2

E tx0 x0 | (xi , yi )1in


tx0 = yx0

Si les yi , 1 i n, sont indpendantes et distribues selon des lois de moyennes


+ xi et de variances 2 , et si y est indpendante des yi , 1 i n, est distribue
selon une loi de moyenne + x0 et de variance 2 , alors :
"
#

1 (x0 x)2
2
2
E (
yx0 y) | (xi , yi )1in = 1 + +
n
S (x 2 )

Si en plus la distribution est normale, alors :


Tn2 = r

SSe
n2

yx0 y

1 (x0 x)2
1+ +
n
S (x 2 )

est distribue selon une loi de student n 2 degrs de libert.


Un intervalle de prdiction de y en x = x0 , 1 , est donn par :
yx0 tn2;1/2

SSe
n2

141

1 (x0 x)2
1+ +
n
S (x 2 )

Le Modle Linaire

A. El Mossadeq

10. EXEMPLE
On injecte trente patients des doses direntes (x) dune solution ( mg/ml), et on
observe leur tension arterielle (y).
Les rsultats sont rsums dans le tableau suivants, o 15 x 70 :
no patient

no patient

no patient

01
02
03
04
05
06
07
08
09
10

39
47
45
47
65
46
67
42
67
56

144
220
138
145
162
142
170
124
158
154

11
12
13
14
15
16
19
18
19
20

64
56
59
34
42
48
45
17
20
19

162
150
140
110
128
130
135
114
116
124

21
22
23
24
25
26
27
28
29
30

36
50
39
21
44
53
63
29
25
69

136
142
120
120
160
158
144
130
125
175

10.1. ESTIMATION DES PARAMTRES DU


MODLE
La taille de lchantillon, ici, est :
n = 30
On a :
30
X

30
X

xi = 1354

i=1

30
X

yi = 4276

i=1

x2i = 67894

30
X

i=1

yi2 = 624260

i=1

30
X

xi yi = 199576

i=1

et :

30
2 X
x2i
S x =
i=1

30
P

xi

i=1

142

30

= 6783.47

A. El Mossadeq

Le Modle Linaire

30
2 X
yi2
S y =
i=1

S (x,
y)
=

30
X
i=1

xi yi

30 2
P
yi
i=1

30

30
P

i=1

= 14787.47

30
P
xi
yi
i=1

30

= 6585.9

On en dduit :

S (x,
y)

2
S (x )
.97087

=
=

y x
98.715

et :

do la droite des moindres carrs :

=
=

+ x
98.715 + .97087x

175
162.5
150
137.5
125
112.5
100
0

20

40

60

80
x

La droite des moindres carre s


Le coecient de corrlation est donn par :

=
=

S (x,
y)

p
S (x 2 ) S (y 2 )
.65758

143

Le Modle Linaire

A. El Mossadeq

On a :
SSr

n
X

yi +

i=1

n
X
i=1

xi yi

i=1

615870
=

SSe

n
X

yi2 SSr

8393.45

Do la table de lanalyse de la variance :


Source

d.d.l

SS

R
egression

SSr

Erreur

28

T otal

30

SSe
30
P 2
yi

SS/ddl
SSr
2
SSe
28

E [SS/ddl]
n
P
1
2
302 + 2 x +
2 +
x2i
2
i=1
2

i=1

10.2. VALIDATION DU MODLE


Afin de valider le modle, on prend en compte les six valeurs suivantes de x, pour
lesquelles une deuxime observations a t faite :
x
y

39
120

42
128

45
135

47
220

Pour calculer SSW , il sut de remarquer que :


nj
P

(yij y.j )2 = 0

i=1
do :

nj

P
(y1j y2j )2

(yij y.j ) =
2
i=1
SSW

nj
m X
X
j=1 i=1

3193

144

56
150

67
158

si

nj = 1

si

nj = 2

(yij y.j )2

A. El Mossadeq

Le Modle Linaire

Comme :
SSr ()

=
=

2
S x 2
6394.02

on en dduit :
=
=

SSL

SST SSW SSr ()


5200.45

do la table danalyse :
Source
d.d.l
Mod`
ele
1
Non lin
earit
e 22
Erreur pure
6
T otal
29

SS
SSr () = 6394.02
SSL = 5200.45
SSW = 3193
SST = 14787.47

On en dduit :
FL

=
=

SSL / (m 2)
SSW / (n m)
.44

et comme :
F22,6;.95 = 3.85
lhypothse de la linarit du modle est accept au seuil = 5%.
On peut maintenant examiner lhypothse nulle :
H0 : = 0
cest dire, la rponse est une fonction constante.
On a :
SSr ()
F =
SSe / (n 2)
= 21.33
et comme :
F1,28;.95 = 4.2
on rejette H0 95%.

145

Le Modle Linaire

A. El Mossadeq

10.3. INTERVALLES DE CONFIANCE


(1) Lintervalle de confiance de 2 , au seuil , est dfini par :
"
#
SSe
SSe
,
2n2;1/2 2n2;/2
Pour = 5%, on a :

do lintervalle :

2
28;.025 = 15.3
2
28;.975 = 44.5
[188.62, 548.59]

(2) Lintervalle de confiance de , au seuil , est dfini par :


s
s
"
#
SS
SS
e
e
tn2;1/2
, + tn2;1/2
2
(n 2) S (x )
(n 2) S (x 2 )
Pour = 5%, on a :
t28;.975 = 2.05
do lintervalle :
[.5405, 1.4015]
(3) Lintervalle de confiance de , au seuil , est dfini par :
s
s
"
#
SSe
SSe

tn2;1/2
,
+ tn2;1/2
(n 2)
(n 2)
Pour = 5%, on a :
t28;.975 = 2.05
do lintervalle :
[78.21, 119.21]
(4) Lintervalle de confiance de x 1 est donn par :
s
s
SSe
1 (x x)2
x tn2;1/2
+
(n 2) n
S (x 2 )
Pour = 5%, on a :
t28;.975 = 2.05

146

A. El Mossadeq

Le Modle Linaire

do lintervalle :

(98.71 + .9709x) 35.493

1
(x 45.13)2
+
30
6783.5

y
175

150

125

100

20

40

60

80
x

Intervalle de conf iance de x


(5) Au seuil , lintervalle de confiance dune prdiction de y en x observe indpendamment, est donn par :
s
s
1 (x x)2
SSe
x tn2;1/2
1+ +
(n 2)
n
S (x 2 )
Pour = 5%, on a :
t28;.975 = 2.05
do lintervalle :

(98.71 + .9709x) 35.493

31 (x 45.13)2
+
30
6783.5

y
200
175
150
125
100
75
0

20

40

60

80
x

Intervalle de pre diction de y en x

147

Le Modle Linaire

A. El Mossadeq

(6) La rgion de confiance de (, ) 1 est donne par :

SSe
F2,n2;1/2
C (, ) =
(, ) | T (, ) 2
n2
= {(, ) | T (, ) 2002.4}
o :
T (, ) = 30 ( 98.71)2 + 2708 ( 98.71) ( .971) + 67894 ( .971)2 2002.4

148