Cours Proba

Cours de Statistique
HEI 3 - 2012/2013
A. RIDARD
2
Table des matières
1 Modes dechantillonnage et paramètres dune population 5
1.1 Modes dechantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.1 Sondage aleatoire simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.2 Sondage en strates . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2 Paramètres dune population . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.1 Moyenne et variance dune variable aleatoire . . . . . . . . . . . . . . . . . . . . . 7
1.2.2 Proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2 Estimation 11
2.1 Estimation ponctuelle et estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.1 Loi Forte des Grands Nombres et applications . . . . . . . . . . . . . . . . . . . . . 11
2.1.2 Qualites dun estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Estimation par intervalle de conance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.2 Loi normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.3 Moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2.4 Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2.5 Proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3 Tests statistiques 17
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.1.1 Les faiseurs de pluie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.1.2 Quelques generalites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.2 Tests de conformite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2.1 Moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2.2 Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.2.3 Proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.3 Tests de comparaison de deux echantillons independants . . . . . . . . . . . . . . . . . . . 21
3.3.1 Moyennes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3.2 Variances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3.3 Proportions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.4 Test dindependance du chi 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.5 Test dajustement du chi 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4 Regression lineaire 25
4.1 A partir de toute la population . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.1.1 Interpreter le nuage de points . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.1.2 Construire le modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.1.3 Mesurer la qualite du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.2 A partir dun echantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.2.1 Ce qui change . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.2.2 Hypothèses du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.2.3 Estimation des coecients du modèle . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.2.4 Tests de la nullite de la pente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.2.5 Intervalle de prevision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3
5 Analyse de variance 33
5.1 Un facteur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5.1.1 Hypothèses du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5.1.2 La methode de lANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5.2 Regression lineaire et analyse de variance à un facteur . . . . . . . . . . . . . . . . . . . . 35
5.2.1 Points communs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5.2.2 Dierences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5.3 Deux facteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.3.1 Sans repetition dexperience . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.3.2 Avec repetition dexperience . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
Annexes 43
4
Chapitre 1
Modes dechantillonnage et
paramètres dune population
Si la Statistique descriptive consiste en letude dune population toute entière dindividus selon un ou
plusieurs caractères, la Statistique inferentielle permet destimer ou de tester des caracteristiques dune
population de taille N à partir dun echantillon de taille n. Avant de preciser ces caracteristiques, nous
allons presenter dierentes manières de prelever les echantillons.
1.1 Modes dechantillonnage
1.1.1 Sondage aleatoire simple
Il est important de rappeler que chaque individu dune population est caracterise par un ou plusieurs
caractères appeles aussi variables. On distingue deux types et quatre sous-types de variables.
Figure 1.1 Deux types et quatre sous-types de variables
Attention, une variable est une application (au sens mathematique du terme) qui, à chaque individu,
associe une valeur (numerique ou non). Si, en Mathematiques, lusage est plutot dappeler f, g ou h les
applications, en Statistique celles-ci sont notees X, Y ou Z. Les minuscules x, y ou z representent alors
les realisations (valeurs) de ces variables (applications). Autrement dit, si lon note un individu de la
population et X la variable etudiee, alors X() = x signie que le caractère X a pour valeur x pour
lindividu . Si lindividu est choisi au hasard, la variable est dite aleatoire (va).
5
Un n-echantillon aleatoire est un n-uplet de variables aleatoires (X
1
, ..., X
n
) qui, à un n-uplet dindividus
choisis au hasard dans la population (
1
, ...,
n
), associe le n-uplet de valeurs (x
1
, ..., x
n
) o` u x
i
= X(
i
).
Remarque.
On fera bien la dierence entre majuscules et minuscules pour eviter toute confusion entre applications
et valeurs.
Une variable aleatoire possède une loi de probabilite qui regit son comportement. Si la variable est
discrète, la loi est denie par un diagramme en batons qui, à chaque valeur possible, associe sa
probabilite. Si la variable est continue, le diagramme est remplace par une courbe de densite
1
.
Un n-echantillon aleatoire (X
1
, ..., X
n
) est dit simple si les va sont independantes et de meme loi. Dans
ce cas, la loi est celle de la va etudiee X. Cela se produit si les individus sont choisis au hasard :
soit avec remise
soit sans remise (ou simultanement) à condition que le taux de sondage
n
N
soit inferieur à 10%.
Remarque. Le premier cas est theorique et le deuxième pratique.
1.1.2 Sondage en strates
Dans un sondage aleatoire simple, tous les echantillons dune population de taille N sont possibles avec
la meme probabilite. On imagine que certains dentre eux puissent saverer a priori indesirables.
Plus concrètement, dans letude du lancement dun nouveau produit nancier, on peut supposer des
dierences de comportement entre les petits et les gros clients de la banque. Il serait malencontreux
que les hasards de lechantillonnage conduisent à ninterroger que les clients appartenant à une
seule de ces categories, ou simplement que lechantillon soit trop desequilibre en faveur de lune
delles. Sil existe dans la base de sondage une information auxiliaire permettant de distinguer, a
priori, les categories de petits et gros clients, on aura tout à gagner à utiliser cette information pour
repartir lechantillon dans chaque souspopulation. Cest le principe de la stratication : decouper la
population en sous-ensembles appeles strates et realiser un sondage aleatoire simple dans chacune delles.
Figure 1.2 Decoupage en strates
Nous avons alors deux manières de choisir les n
h
:
allocation proportionnelle : h,
n
h
N
h
=
n
N
allocation optimale
2
: h,
n
h
N
h
= n
S
H
h
N
H
S
H
.
Dans toute la suite du cours, les echantillons aleatoires seront supposes simples (hypothèse theorique).
1. Plus precisement, la va X est (absolument) continue de densite f si pour tout intervalle I, on a :
P(X I) =
_
I
f(x) dx
2. On cherche la repartition de lechantillon qui maximise la precision (et donc qui minimise la variance). Pour cela, on
va augmenter les eectifs echantillonnes dans les strates o` u la variabilite est grande et diminuer les eectifs echantillonnes
dans les strates homogènes.
6
1.2 Paramètres dune population
1.2.1 Moyenne et variance dune variable aleatoire
Soit X la va etudiee.
Nous avons dejà vu quune va possède une loi de probabilite regissant son comportement, elle possède
aussi deux caracteristiques importantes :
une caracteristique de tendance centrale, lesperance ou la moyenne, denie par
m = E(X) =
_
i
x
i
P(X = x
i
) si X est discrète
_
R
xf(x) dx si X est continue de densite f
une caracteristique de dispersion, la variance, denie par :
2
= V (X) = E
_
(X m)
2
_
=
_
i
(x
i
m)
2
P(X = x
i
) si X est discrète
_
R
(x m)
2
f(x) dx si X est continue de densite f
=
_
V (X) est lecart-type de X.
Exercice. Montrer que V (X) = E(X
2
) E(X)
2
Exemple (Loi de Bernoulli).
La loi de Bernoulli B(p) est denie par :
P(X = 1) = p et P(X = 0) = q = 1 p
Son esperance et sa variance sont :
E(X) = p et V (X) = pq
Elle modelise une experience aleatoire à deux issues possibles : le succès de probabilite p et lechec de
probabilte q = 1 p.
Exemple (Loi exponentielle).
La loi exponentielle E() a pour densite :
f(x) =
_
e
x
sur [0, +[
0 ailleurs
Figure 1.3 Densite de la loi exponentielle
7
E(X) =
1
et V (X) =
1
2
Elle modelise la duree de vie de phenomènes sans vieillissement (comme les composants electroniques)
car pour tout s, t > 0 :
P(X s +t|X s) = P(X t)
Pour demontrer ce resultat (et pas seulement), introduisons la notion de fonction de repartition.
Denition. La fonction de repartion dune va X est lapplication F de R dans [0, 1] denie par
F(x) = P(X x)
F est une fonction croissante et continue à droite telle que F() = 0 et F(+) = 1 (dans

R).
La fonction de repartition dune va discrète est une fonction en escalier :
Figure 1.4 Fonction de repartition dune va discrète
Pour une va continue, cela ressemble à :
Figure 1.5 Fonction de repartition dune va continue
De plus, si X est continue de densite f, alors sa fonction de repartition F est derivable et admet f pour
derivee. En eet,
F(x) = P(X ] , x]) =
_
x
f(x) dx
Par consequent, on a :
P(a < X b) =
_
b
a
f(x) dx = F(b) F(a)
Remarque. Pour une variable continue :
P(X = x) = 0 et P(X x) = P(X < x)
Une probabilite est une aire sous la courbe de sa densite
8
Figure 1.6 Aire sous la courbe
1.2.2 Proportion
On sinteresse tout simplement à la proportion p cest à dire à la part des individus dans une population
possedant un certain caractère.
Remarque. Cette proportion p est en fait la moyenne de la va de Bernouilli qui, à un individu, associe
1 sil possède le caractère desire et 0 sinon.
9
10
Chapitre 2
Estimation
2.1 Estimation ponctuelle et estimateur
Lestimation consiste à donner des valeurs approchees aux paramètres dune population (m,
2
, p) à laide
dun echantillon (aleatoire simple) de n observations issues de cette population.
2.1.1 Loi Forte des Grands Nombres et applications
Theorème (LFGN). Si (X
1
, ..., X
n
) est un echantillon de va independantes et de meme loi desperance
m, alors

X =
1
n
n
i=1
X
i
m dès que n est assez grand ( 30).
La LFGN nous assure que la moyenne empirique

X est une application constante egale à la moyenne
theorique m dès que n est assez grand. Toute realisation x de

X est donc une estimation de m. On dit
aussi que

X est un estimateur de m.
On notera bien ici la dierence entre lestimateur

X (en majuscule) qui est une va et lestimation x
(en minuscule) qui est une valeur. Cest la meme dierence quentre lapplication f et la valeur f(x) en
Mathematiques !
De meme, la LFGN nous assure que la variance empirique S
2
=
1
n
n
i=1
(X
i

X)
2
est un estimateur de la
variance theorique
2
.
En utilisant la remarque faite precedemment sur la proportion et la LFGN, on montre enn que la
frequence empirique F =
1
n
n
i=1
X
i
est un estimateur de la proportion p o` u les X
i
sont des Bernouilli de
paramètre p.
Attention, le meme paramètre peut etre estime à laide destimateurs dierents. Il convient donc de
denir les qualites exigees dun estimateur pour choisir le meilleur.
2.1.2 Qualites dun estimateur
Soit le paramètre à estimer et T un estimateur
1
.
La première qualite dun estimateur est detre convergent :
lim
n+
T =
1. Va qui est fonction des observations X
i
et dont la loi depend de (denition rigoureuse).
11
Deux estimateurs convergents ne convergent cependant pas necessairement à la meme vitesse, on parle
alors de precision.
Supposons maintenant la loi de probabilite de T connue pour une valeur donnee de .
Biais
Lerreur destimation T est une va qui se decompose de la manière suivante :
T = T E(T) +E(T)
T E(T) represente les uctuations aleatoires de T autour de sa valeur moyenne tandis que E(T) ,
appele biais, correspond à une erreur systematique due au fait que T varie autour de sa valeur centrale
E(T) et non autour de .
Figure 2.1 Biais
Il est donc souhaitable dutiliser des estimateurs sans biais veriant E(T) = .
Ainsi,

X est un estimateur sans biais de m.
Attention, S
2
est biaise
2
pour
2
. En eet, de X
i
m = X
i

X +

X m, on tire la decomposition :
S
2
=
1
n
n
i=1
(X
i
m)
2
(

X m)
2
et donc le biais :
E(S
2
)
2
=
n 1
n

2
2
=
2
n
Pour ne pas sous-estimer
2
, on prefèrera souvent la variance corrigee desperance
2
:
S
2
=
n
n 1
S
2
Attention, lecart-type corrige S
reste biaise pour mais asymptotiquement sans biais

3
.
Precision
La precision de T est souvent mesuree par lerreur quadratique moyenne E
_
(T )
2
_
qui se decompose
4
sous la forme :
E
_
(T )
2
_
= V (T) +
_
E(T)
_
2
De deux estimateurs sans biais, le plus precis est donc celui de variance minimale.
Ainsi, lestimateur D =
1
n
n
i=1
(X
i
m)
2
est meilleur que S
2
dès que m est connue.
2. Mais asymptotiquement sans biais ie lim
n+
(E(S
2
)
2
) = 0
3. Il nexiste pas dexpression generale donnant E(S
) pour toute distribution.

4. Il sagit de la decomposition biais-variance
12
2.2 Estimation par intervalle de conance
Il est souvent plus interessant de fournir un renseignement du type a < < b plutot que

= c.
2.2.1 Principe
Soit T un estimateur de (le meilleur possible) dont on connat la loi de probabilite
5
.
Etant donnee une valeur
0
de (sa vraie valeur par exemple), determiner un intervalle de probabilite
de niveau 1 pour T revient à chercher deux reels t
1
< t
2
veriant :
P(t
1
< T < t
2
| =
0
) = 1
On peut traduire cette methode dans un plan (, T) o` u lon trace t
1
() et t
2
() :
Figure 2.2 Estimation par intervalles
On lit alors lintervalle de probabilite selon la verticale issue de
0
et lintervalle de conance selon
lhorizontale issue de t (realisation de T).
Si lon augmente le niveau de conance 1 , les courbes secartent et donc lintervalle grandit.
Si la taille de lechantillon augmente, les courbes se rapprochent et donc lintervalle diminue.
2.2.2 Loi normale
La loi normale N(m, ) a pour densite :
f(x) =
1
2
exp
_
1
2
_
x m
_
2
_
E(X) = m et V (X) =
2
Dans le calcul des probabilites, on utilise le changement de variable U =
X m
pour se ramener à la
loi normale centree reduite N(0, 1) qui est tabulee (cf Annexes).
Pour demontrer ce resultat (et pas seulement), nous avons besoin des proprietes suivantes :
une transformee ane de gaussienne est encore une gaussienne
E(aX +b) = aE(X) +b
V (aX +b) = a
2
V (X)
5. La loi peut, par exemple, etre caracterisee par sa densite qui est fonction de
13
Enn, si X
1
N(m
1
,
1
) et X
2
N(m
2
,
2
) sont independantes, alors
aX
1
+bX
2
N
_
am
1
+bm
2
,
_
a
2
2
1
+b
2
2
2
_
En eet, on a :
une combinaison lineaire de deux gaussiennes independantes est encore une gausienne
E(aX +bY ) = aE(X) +bE(Y )
Si X et Y sont independantes
6
, alors V (X +Y ) = V (X) +V (Y )
Exercice.
On note X la note dun candidat, choisi au hasard parmi tous les candidats ayant passe un examen, et
lon suppose que X N(7, 2).
1. Determiner la proportion de candidats ayant obtenu au moins 10/20.
2. Determiner le premier decile cest à dire la note en dessous de laquelle se situent 10% des candidats.
3. Le but de cette question est de reajuster à laide dune transformation ane Y = aX + b (a et b
etant des reels positifs) les notes de la promotion de sorte que :
50% des candidats aient obtenu au moins 10/20
le premier decile soit egal à 7
(a) Determiner la loi de Y en fonction de a et b.
(b) Determiner un système de deux equations en a et b issu des deux conditions et conclure.
2.2.3 Moyenne
Supposons X N(m, ) et estimons m.
Quand est connu
X est le meilleur estimateur de m et

X N(m,

n
) ou encore U =
(

X m) N(0, 1).
Lintervalle de probabilite (à risques symetriques) de U au niveau 1 est donc :
u
(1
2
)
< U < u
(1
2
)
o` u u
(1
2
)
verie
7
P(U < u
(1
2
)
) = 1

2
Lintervalle de conance est alors :
x u
(1
2
)
n
< m < x +u
(1
2
)
n
Quand est inconnu
On utilise ici le fait que T =
n
S
(

X m) T
n1
8
.
Lintervalle de probabilite (à risques symetriques) de T au niveau 1 est donc :
t
(1
2
)
< T < t
(1
2
)
o` u t
(1
2
)
verie
9
P(T
n1
< t
(1
2
)
) = 1

2
6. il sut en fait quelle soit non correlees cest à dire que E(XY ) = E(X)E(Y )
7. Lutilisation de la table de la loi normale centree reduite fournit par exemple u
(1
2
)
= 1, 96 pour 1 = 0, 95
8. T
n
=
U
_
X
n
avec U N(0, 1) et X
2
n
independantes
9. On utilise ici la table de la loi de Student (cf Annexes)
14
x t
(1
2
)
s
n
< m < x +t
(1
2
)
s
n
Quand lechantillon nest plus gaussien
On utilise le Theorème Central Limite :
Theorème (TCL). Si (X
1
, ..., X
n
) est un echantillon de va independantes et de meme loi desperance
m et decart-type , alors
(

X m) N(0, 1) dès que n est assez grand ( 30).
En eet, si lechantillon nest plus gaussien mais de grande taille (n > 30), le TCL (accompagne du
theorème de Slutsky pour le cas o` u est inconnu) nous assure que les variables
(

Xm) et
n
S
(

Xm)
suivent approximativement une N(0, 1) et donc ...
2.2.4 Variance
Supposons X N(m, ) et estimons
2
.
Quand m est connue
D =
1
n
n
i=1
(X
i
m)
2
est le meilleur estimateur de
2
et
nD
2

2
n
10
.
Lintervalle de probabilite de
nD
2
au niveau 1 est donc :
k
2
<
nD
2
< k
(1
2
)
o` u k
2
, k
(1
2
)
verient
11
P(k
2
<
2
n
< k
(1
2
)
) = 1
nd
k
(1
2
)
<
2
<
nd
k
2
Quand m est inconnue
On utilise ici S
2
=
1
n
n
i=1
(X
i

X)
2
et le fait que
nS
2
2

2
n1
.
Lintervalle de probabilite de
nS
2
2
au niveau 1 est donc :
k
2
<
nS
2
2
< k
(1
2
)
o` u k
2
, k
(1
2
)
verient P(k
2
<
2
n1
< k
(1
2
)
) = 1
ns
2
k
(1
2
)
<
2
<
ns
2
k
2
Nota Bene. Ces intervalles ne sont valables que si X suit une loi normale.
10.
2
n
=
n
i=1
U
2
i
avec les U
i
N(0, 1) independantes
11. On utilise ici la table de la loi du
2
(cf Annexes)
15
Exercice.
En mesurant la quantite dalcool (gr/l) contenue dans 10 cidres doux du marche, on obtient :
5, 42 5, 55 5, 61 5, 91 5, 93 6, 15 6, 20 6, 79 7, 07 7, 37
Supposons que la quantite dalcool suive une loi normale de moyenne et decart-type .
1. Determiner lintervalle de conance, au centième près, pour au niveau 95% :
(a) Si = 0, 6 g/l.
(b) Si est inconnu.
2. Determiner lintervalle de conance, au centième près, pour
2
au niveau 95% :
(a) Si = 6 g/l.
(b) Si est inconnue.
2.2.5 Proportion
Etant donne une population innie (ou nie si le tirage seectue avec remise) o` u une proportion p des
individus possède un certain caractère, il sagit de trouver un intervalle de conance pour p à partir de
la frequence f obtenue dans un n-echantillon.
Le nombre dindividus nF possedant le caractère etudie dans le n-echantillon suit une loi binomiale
B(n, p) donc si n est grand, lapproximation dune binomiale par une gaussienne fournit :
nF N
_
np,
_
np(1 p)
_
ou encore
F N
_
p,
_
p(1 p)
n
_
Lintervalle de probabilite (à risques symetriques) de F au niveau 1 est donc :
p u
(1
2
)
_
p(1 p)
n
< F < p +u
(1
2
)
_
p(1 p)
n
o` u u
(1
2
)
verie
12
P(U < u
(1
2
)
) = 1

2
f u
(1
2
)
_
f(1 f)
n
< p < f +u
(1
2
)
_
f(1 f)
n
Exercice.
Un groupe detudiants desire eectuer un sondage auprès de la population etudiante pour estimer le
pourcentage dadeptes du tabagisme.
Determiner la taille de lechantillon minimal pour assurer, au niveau 98%, une incertitude nexcedant
pas 5%.
12. Lutilisation de la table de la loi normale centree reduite fournit par exemple u
(1
2
)
= 1, 96 pour 1 = 0, 95
16
Chapitre 3
Tests statistiques
3.1 Introduction
3.1.1 Les faiseurs de pluie
Des releves eectues pendant de nombreuses annees ont permis detablir que le niveau naturel des
pluies dans la Beauce en millimètres par an suit une loi normale N(600, 100). Des entrepreneurs,
surnommes faiseurs de pluie, pretendaient pouvoir augmenter de 50 mm le niveau moyen de pluie, ceci
par insemination des nuages au moyen diodure dargent. Leur procede fut mis à lessai entre 1951 et
1959 et on releva les hauteurs de pluies suivantes :
Annee 1951 1952 1953 1954 1955 1956 1957 1958 1959
mm 510 614 780 512 501 534 603 788 650
Que pouvait-on en conclure ? Deux hypothèses sarontaient : ou bien linsemination etait sans eet,
ou bien elle augmentait reellement le niveau moyen de pluie de 50 mm. Si m designe lesperance
mathematique de X, variable aleatoire egale au niveau annuel de pluie, ces hypothèses pouvaient se
formaliser comme suit :
_
H
0
: m = 600 mm
H
1
: m = 650 mm
Les agriculteurs, hesitant à opter pour le procede forcement onereux des faiseurs de pluie, tenaient à
lhypothèse H
0
et il fallait donc que lexperience puisse les convaincre. Ils choisirent = 0, 05 comme
niveau de probabilite autrement dit ils etaient prets à accepter H
1
si le resultat obtenu faisait partie
dune eventualite improbable qui navait que 5 chances sur 100 de se produire sous H
0
.
Question : pouvons-nous rejeter lhypothèse H
0
(au prot de H
1
) ?
Puisquil sagit de tester la valeur de m, il est naturel dutiliser la moyenne empirique

X des observations.
En fait, on utilise une variable, appelee variable de decision, qui depend du paramètre à tester m et dont
la loi sous H
0
est tabulee :
T =
X m
0
n
N(0, 1) si H
0
est vraie
Si T est trop grand, superieur à un seuil k qui na que 5 chances sur 100 detre depasse si H
0
est vraie
1
,
on optera pour H
1
avec une probabilite de se tromper egale à 0,05. Par contre, si T < k, on conservera
H
0
faute de preuves susantes.
Ici, la table fournit :
k = 1, 64
La règle de decision est donc :
1. Ce raisonnement probabiliste est ` a comparer avec le raisonnement par labsurde sauf que le resultat impossible est
ici remplace par un resultat très peu probable, et la negation de lhypothèse de depart par lhypthèse alternative H
1
17
Si T > 1, 64, on rejette H
0
(et on accepte H
1
)
Si T < 1, 64, on ne rejette pas H
0
Lensemble devenements {T > 1, 64} sappelle la region critique (ou region de rejet de H
0
). Son
complementaire {T < 1, 64} sappelle la region dacceptation de H
0
.
Ici, les donnees relevees indiquent que t =
610,2600
100/3
= 0, 306 donc on ne rejette pas H
0
.
Attention, on peut accepter H
0
à tort. En eet, on commet une erreur chaque fois que

X prend une
valeur inferieure à 655, mais T =
X 650
n
N(0, 1) si H
1
est vraie donc on commet une erreur avec
une probabilite :
= P
_
U <
655 650
100/3
_
= P(U < 0, 15) = 0, 56
(resp. ) sappelle le risque de première (resp. deuxième) espèce.
Il convient enn de remarquer le role particulier joue par H
0
: si la forme de la region critique {T > k}
est indiquee par la nature de H
1
(650 > 600), la valeur de k ne depend que de H
0
.
3.1.2 Quelques generalites
Un test est un mecanisme qui permet de trancher entre deux hypothèses au vu des resultats dun
echantillon.
En notant H
0
et H
1
ces deux hypothèses, dont une et une seule est vraie, les quatre cas possibles sont
representes dans le tableau suivant :
X
X
X
X
X
X
X
X
X
X
Decision
Verite
H
0
H
1
H
0
1-
H
1
1-
et designent les probabilites derreur de première et deuxième espèce :
est la probabilite de rejeter H
0
à tort
est la probabilite de conserver H
0
à tort
Notons que ces erreurs correspondent à des risques dierents. Ainsi, dans lexemple des faiseurs de pluie,
le risque de première espèce consiste à acheter un procede dinsemination inecace alors que le risque
de deuxième espèce consiste à perdre une occasion daugmenter le niveau de pluie et donc dobtenir une
recolte plus abondante.
Dans la pratique des tests statistiques, il est de règle de se xer ce qui fait jouer à H
0
un role preeminent :
H
0
peut etre une hypothèse solidement etablie nayant jamais ete contredite par lexperience
H
0
peut etre une hypothèse de prudence (linnocuite dun vaccin, linnocence dune personne)
H
0
peut etre une hypothèse à laquelle on tient pour des raisons qui peuvent etre subjectives
H
0
peut etre la seule hypothèse facile à formuler (m = m
0
contre m = m
0
)
etant xe, sera alors determine comme resultat dun calcul (à condition que la loi de probabilite
sous H
1
soit connue). Notons cependant que varie dans le sens contraire de . En eet, diminuer
conduit à une règle de decision plus stricte qui aboutit à nabandonner H
0
que dans des cas rarissimes et
donc à conserver H
0
bien souvent à tort ce qui revient à augmenter ou encore à diminuer la puissance
du test
2
1 .
2. La methode de Neyman et Pearson permet de maximiser la puissance du test 1 pour une valeur donnee de en
choisissant la variable de decision et la region critique optimales
18
etant xe, il importe maintenant de choisir une variable de decision : variable dont la loi doit etre
connue sous H
0
et bien entendu dierente sous H
1
.
La region critique W est alors lensemble des valeurs de la variable de decision qui conduisent à ecarter
H
0
(au prot de H
1
). Sa forme etant determinee par la nature de H
1
, sa determination exacte se fait en
ecrivant que :
P(W|H
0
) =
La region dacceptation etant son complementaire

W, on a :
P(

W|H
0
) = 1
Pour resumer, voici la demarche dun test :
1. Choix de H
0
et H
1
2. Determination de la variable de decision
3. Determination de la forme de la region critique selon H
1
4. Determination exacte de la region critique en fonction de
5. Calcul de la valeur experimentale de la variable de decision
6. Conclusion : rejet ou acceptation de H
0
3.2 Tests de conformite
3.2.1 Moyenne
Supposons X N(m, ) et testons m.
Quand est connu
Sous H
0
: m = m
0
, la variable de decision T =
X m
0
n
suit une N(0, 1).
Ainsi, pour le test
_
H
0
: m = m
0
H
1
: m = m
1
avec m
1
> m
0
, la region critique est :
{T > k} o` u k verie P(U > k) =
ou encore
[u
(1)
; +[
Remarque. Pour le test
_
H
0
: m = m
0
H
1
: m > m
0
, la region critique est encore [u
(1)
; +[.
Exercice. Montrer que :
1. Pour le test
_
H
0
: m = m
0
H
1
: m < m
0
, la region critique est ] ; u
(1)
].
2. Pour le test
_
H
0
: m = m
0
H
1
: m = m
0
, la region critique est ] ; u
(1
2
)
] [u
(1
2
)
; +[.
Quand est inconnu
Sous H
0
: m = m
0
X m
0
S
n
suit une T
n1
.
Ainsi, pour le test
_
H
0
: m = m
0
H
1
: m = m
0
{|T| > k} o` u k verie P(|T
n1
| > k) =
ou encore
] ; t
(1
2
)
] [t
(1
2
)
; +[
19
Nota Bene. Si lechantillon nest plus gaussien mais de grande taille (n > 30), le TCL (accompagne
du theorème de Slutsky pour le cas o` u est inconnu) nous assure que T suit approximativement une
N(0, 1), et donc que les regions critiques sont les memes que dans le cas o` u lechantillon est gaussien
avec connu.
Exercice.
Lors dune enquete sur la duree de sommeil des enfants de 2 à 3 ans dans un departement fran cais, on
a trouve une moyenne du temps de sommeil par nuit de 10,2 heures dans un groupe de 40 enfants avec
un ecart type de 2,1 heures. La moyenne du temps de sommeil est de 11,7 heures chez les enfants de cet
age.
La duree du sommeil des enfants de ce departement est-elle signicativement dierente des enfants de
cet age ?
3.2.2 Variance
Supposons X N(m, ) et testons .
Quand m est connue
Sous H
0
: =
0
nD
2
0
suit un
2
n
.
Ainsi, pour le test
_
H
0
: =
0
H
1
: >
0
{T > k} o` u k verie P(
2
n
> k) =
ou encore
[k
(1)
; +[
Quand m est inconnue
Sous H
0
: =
0
nS
2
2
0
=
(n 1)S
2
2
0
suit un
2
n1
.
Ainsi, pour le test
_
H
0
: =
0
H
1
: <
0
{T < k} o` u k verie P(
2
n1
< k) =
ou encore
[0; k
]
Nota Bene. Si lechantillon nest plus gaussien mais de grande taille (n > 30), la variable de decision
T =
S
2
2
0
_
2S
4
n1
suit approximativement une N(0, 1) et donc ...
3.2.3 Proportion
Sous H
0
: p = p
0
F p
0
_
p
0
(1p
0
)
n
suit approximativement une N(0, 1).
Exercice.
Sur un echantillon de 300 patients traites par un certain remède, 243 ont ete gueris.
La proportion de guerison est-elle signicativement dierente de 75%?
20
3.3 Tests de comparaison de deux echantillons independants
3.3.1 Moyennes
Soit deux echantillons gaussiens independants X
1
N(m
1
;
1
) et X
2
N(m
2
;
2
).
Alors, sous H
0
: m
1
= m
2
:
Si les variances sont connues, T =
X
1

X
2
_
2
1
n
1
+

2
2
n
2
suit une N(0, 1).
Si les variances sont inconnues et supposees egales
3
, T =
X
1

X
2
_
S
2
p
n
1
+
S
2
p
n
2
suit une T
n
1
+n
2
2
o` u
S
2
p
=
(n
1
1)S
2
1
+ (n
2
1)S
2
2
n
1
+n
2
2
est la variance de pool
4
Si les variances sont inconnues et supposees dierentes, T =
X
1

X
2
_
S
2
1
n
1
+
S
2
2
n
2
suit une T
m
o` u
m =
1
c
2
n
1
1
+
(1c)
2
n
2
1
avec c =
S
2
1
n
1
1
S
2
1
n
1
1
+
S
2
2
n
2
1
Nota Bene. Si les echantillons ne sont plus gaussiens mais de grandes tailles (n > 30), les variables
de decision suivent toutes approximativement une N(0, 1) et donc ...
3.3.2 Variances
Soit deux echantillons gaussiens independants X
1
N(m
1
;
1
) et X
2
N(m
2
;
2
) o` u S
1
> S
2
.
Alors, sous H
0
:
2
1
/
2
2
= 1 :
Si les esperances sont connues, T =
D
1
D
2
suit une loi de Fisher
5
F(n
1
, n
2
).
Si les esperances sont inconnues, T =
S
2
1
S
2
2
suit une F(n
1
1, n
2
1).
Remarque. Le test etant ici
_
H
0
:
2
1
/
2
2
= 1
H
1
:
2
1
/
2
2
> 1
, la region critique est [f
(1)
; +[.
Nota Bene. Si les echantillons ne sont plus gaussiens mais de grandes tailles (n > 30) et de distributions
unimodales pas trop dissymetriques, on considère la variable de decision T =
S
2
1
S
2
2
_
2S
4
1
n
1
1
+
2S
4
2
n
2
1
qui, sous
H
0
:
2
1
=
2
2
, suit approximativement une N(0, 1) et donc ...
Exercice.
Les QI de 9 enfants dun quartier dune grande ville ont une moyenne de 107 avec un ecart-type de 10.
Les QI de 12 enfants dun autre quartier ont une moyenne de 112 avec un ecart-type de 9. On suppose
que la variable aleatoire associee au QI suit une loi Normale.
Y a-t-il une dierence signicative au seuil de 5% entre les QI moyens des 2 quartiers ?
3. Le test de comparaison des esperances doit donc etre precede par celui des variances
4. S
2
p
, apppelee aussi variance combinee, nest rien dautre que la moyenne des variances corrigees des echantillons,
ponderees par les tailles des echantillons diminuees de 1
5. F(n, p) =

2
n
/n
2
p
/p
21
3.3.3 Proportions
Soit deux echantillons independants o` u F
1
et F
2
sont approximativement gaussiennes
6
.
Alors, sous H
0
: p
1
= p
2
, T =
F
1
F
2
_
p(1 p)(
1
n
1
+
1
n
2
)
suit une N(0, 1) o` u p =
n
1
f
1
+n
2
f
2
n
1
+n
2
et donc ...
3.4 Test dindependance du chi 2
Soit deux variables X et Y et un n-echantillon fournissant les eectifs observes N
ij
7
.
On considère alors la distance D
2
=
I
i=1
J
j=1
(N
ij
N
t
ij
)
2
N
t
ij
entre les eectifs observes N
ij
et les eectifs
theoriques dindependances N
t
ij
=
N
i.
N
.j
n
, qui ne saurait etre trop grande sous lhypothèse nulle
dindependance.
Par ailleurs, D
2
suit approximativement un
2
(I1)(J1)
sous H
0
dès que n
t
ij
5 pour tout i, j.
Par consequent, la region critique est [k
(1)
; +[.
Exercice.
Voici la preference de 80 hommes et 70 femmes pour un type de vin.
Les 150 couples observes permettent-ils de conclure que le type de vin prefere est independant du sexe ?
3.5 Test dajustement du chi 2
Un test dajustement a pour objectif de tester si une distribution observee est modelisable par une loi
theorique discrète ou discretisee, cest à dire divisee en k classes de probabilites p
1
, p
2
, , p
k
.
Soit donc un n-echantillon de cette loi theorique fournissant les eectifs N
1
, N
2
, , N
k
de chaque classe.
On considère alors la distance D
2
=
k
i=1
(N
i
N
t
i
)
2
N
t
i
entre les eectifs observes N
i
et les eectifs
theoriques dajustement N
t
i
= np
i
, qui ne saurait etre trop grande sous lhypothèse nulle
H
0
: lajustement est correct.
Par ailleurs, si la loi theorique possède l paramètres à estimer, D
2
suit approximativement
8
un
2
k1l
sous H
0
dès que n
t
i
5 pour tout i (un regroupement de classes permettra toujours de verier ses
conditions).
Par consequent, la region critique est [k
(1)
; +[.
Exercice (Quel modèle pour la duree de vie de la TX100 ?).
Lobjectif est dajuster lhistogramme des durees de vie observees par la densite de probabilite dune loi
theorique. On constate que lhistogramme est fortement dissymetrique avec un etalement à droite. Cette
forme rappelle celle dune loi exponentielle .
6. Cest le cas dès que les echantillons sont de grande taille
7. Evidemment, N
ij
designe le nombre dindividus ayant la i
e
valeur pour X et la j
e
pour Y
8. En realite, si les estimations ne sont pas celles du maximum de vraisemblance eectuees au moyen des k classes, la
loi limite de D
2
nest plus un
2
mais reste comprise entre un
2
k1
et un
2
k1l
22
Le calcul de la distance d
2
dajustement est detaille dans le tableau suivant.
23
24
Chapitre 4
Regression lineaire
En 1986, lOrganisation mondiale de la sante (OMS) a presente les resultats dune importante etude
sur les facteurs de depenses energetiques des individus. Celle-ci indique que le metabolisme de base
des individus depend de leurs poids, taille, sexe, age, etat physiologique, regime alimentaire, activite
physique et de labsorption de certaines substances. Le tableau suivant indique seulement les valeurs du
metabolisme de base et du poids de 20 individus.
La regression du metabolisme par le poids realisee par Excel fournit :
25
4.1 A partir de toute la population
Lobjectif est de montrer comment et sous quelles conditions il est possible de modeliser une relation
entre deux variables quantitatives par une equation du type Y = f(X). La modelisation est eectuee en
3 etapes :
On construit le nuage de points pour, dune part, inrmer ou conrmer lintuition de dependance et,
dautre part, determiner la forme du modèle (nature de f : lineaire, puissance, exponentielle, logistique)
On construit le modèle en utilisant la methode des moindres carrees ordinaires (MCO) sil est lineaire
(sinon, on eectue un changement de variables pour se ramener au cas lineaire).
On mesure la qualite du modèle
4.1.1 Interpreter le nuage de points
Independance
Figure 4.1 Absence de lien entre X et Y
Dependances de formes dierentes
Figure 4.2 Quatre cas de dependance de formes dierentes
Non correlation
Denition (Covariance). Soit (X, Y ) un couple de va quantitatives, de moyennes respectives m
X
et m
Y
,
pour lequel N couples dobservations (x
i
, y
i
) ont ete releves. La covariance du couple (X, Y ) est denie
par :
Cov(X, Y ) =
1
N
N
i=1
(x
i
m
X
)(y
i
m
Y
)
26
Figure 4.3 Interpretation du signe de la covariance
Interpretation du signe de la covariance :
La covariance est un indicateur de monotonie : si la covariance est positive (resp. negative), alors X
et Y varient en general dans le meme sens (resp. dans le sens contraire).
Si la covariance est nulle ou presque nulle, alors il ny a pas de tendance croissante ou decroissante et
les variables sont dites non correlees.
Attention, la covariance nest pas un indicateur dindependance.
Figure 4.4 Nuages à covariance nulle
Remarque. Deux variables independantes sont non correlees mais la reciproque est fausse.
Denition (Coecient de correlation lineaire). Soit (X, Y ) un couple de va quantitatives, decarts-types
respectifs
X
et
Y
. Le coecient de correlation lineaire du couple (X, Y ) est deni par :
r =
Cov(X, Y )
Y
4.1.2 Construire le modèle
Nous nous pla cons dans le cas o` u le nuage de points suggère une relation lineaire entre deux variables X et
Y . Modeliser la relation consiste à chercher lequation dune droite qui ajuste au mieux le nuage de points.
Y est la variable expliquee (ou dependante) et X la variable explicative (ou independante).
Une relation du type y = ax + b denit une droite. Realiser une regression lineaire de Y en X consiste
à rechercher la meilleure droite dajustement, à condition de denir ce que lon entend par meilleure,
cest à dire à condition de choisir un critère doptimisation.
En fait, on cherche a et b qui minimisent :
N
i=1
(y
i
y
i
)
2
=
N
i=1
(y
i
ax
i
b)
2
= f(a, b).
La resolution du système correspondant à lannulation des deux derivees partielles de f fournit :
Proposition. La droite de regression de Y en X dequation y = ax +b est telle que :
27
La moyenne des valeurs ajustees de Y est egale à la moyenne des valeurs observees de Y :
1
N
N
i=1
y
i
=
1
N
N
i=1
y
i
ce qui revient à dire que la droite de regression des MCO passe par le point moyen G(m
X
, m
Y
)
La pente a verie :
a =
Cov(X, Y )
V ar(X)
Figure 4.5 Valeurs ajustees de Y et residus
Remarque. De nombreux modèles non lineaires se ramènent au modèle lineaire :
Le modèle puissance Y = X
se ramène à
Y
= ln +X
avec Y
= ln Y et X
= ln X
Le modèle exponentielle Y = e
X
se ramène à
Y
= ln +X avec Y
= ln Y
Le modèle logistique Y =
e
+X
1 +e
+X
se ramène à
Y
= +X avec Y
= ln
Y
1 Y
4.1.3 Mesurer la qualite du modèle
Lobjectif est de construire un indicateur capable de quantier, a posteriori, la qualite de la droite de
regression. Lidee consiste à decomposer la variance de la variable expliquee Y .
28
Figure 4.6 Decomposition des ecarts entre les valeurs observees de Y et leur moyenne
De la decomposition y
i
m
Y
= (y
i
y
i
) + ( y
i
m
Y
), on tire après calculs :
N
i=1
(y
i
m
Y
)
2
=
N
i=1
(y
i
y
i
)
2
+
N
i=1
( y
i
m
Y
)
2
Somme des Carres Totaux = Somme des Carres Residuels + Somme des Carres Expliques
SCT = SCR + SCE
En divisant par N, il vient :
1
N
N
i=1
(y
i
m
Y
)
2
=
1
N
N
i=1
(y
i
y
i
)
2
+
1
N
N
i=1
( y
i
m
Y
)
2
Variance totale de Y = Variance Residuelle + Variance Expliquee
V ar(Y ) = V R + V E
Enn, nous avons :
Proposition. Le carre du coecient de correlation lineaire, appele coecient de determination, verie :
2
=
V E
V ar(Y )
Le coecient de determination est donc egal à la part de la variance totale de Y expliquee par la
regression. Si les points observes sont parfaitement alignes sur une droite, la variance residuelle est nulle
et
2
vaut 1. Plus le coecient de determination est eleve, plus la qualite du modèle lineaire est bonne
4.2 A partir dun echantillon
4.2.1 Ce qui change
Precedemment, nous avons posees deux hypothèses simplicatrices :
On a suppose que lintegralite de la population etait connue ce qui conduit à considerer les coecients
a et b de la regression comme etant les coecients reels et non des estimations.
On a fait comme si la variable dependante Y etait integralement expliquee par la variable explicative
X ce qui revient à supposer que pour un x
i
donne, il existe un unique y
i
.
Ici, le modèle de regression lineaire est analyse en relachant ces deux hypothèses. Ainsi, le raisonnement
tient compte à present de lincertitude à deux niveaux :
Celle liee à lechantillonnage.
Celle liee au fait que tous les facteurs explicatifs netant jamais pris en compte, il convient de rajouter
au modèle un terme aleatoire derreur E ce qui revient à supposer que pour un x
i
donne, il est possible
dobtenir dierents y
i
.
29
4.2.2 Hypothèses du modèle
Figure 4.7 Hypothèses de la regression lineaire simple
On suppose que pour chaque essai i de 1 à n, on a : Y
i
= x
i
+ +E
i
o` u :
E
i
est une va appelee egalement terme derreur de realisations e
i
Y
i
est la reponse aleatoire attendue pour lessai i, de realisations y
i
x
i
est la realisation du facteur explicatif X pour lessai i
n est la taille de lechantillon
Remarque. Les n observations (x
i
, y
i
) verient donc y
i
= x
i
+ +e
i
.
Les hypothèses sur les termes derreur E
i
sont :
Les E
i
sont des va desperance nulle et de meme variance
1
E
.
Les erreurs E
i
sont independantes.
Les erreurs E
i
sont des va gaussiennes : E
i
N(0;
E
).
Remarque. Cette dernière hypothèse de normalite des erreurs entrane que les Y
i
sont aussi des va
gaussiennes : Y
i
N(x
i
+;
2
E
).
4.2.3 Estimation des coecients du modèle
Lobjectif est dutiliser le modèle de regression E(Y |X = x) = x + pour faire de la prevision. On
sappuie pour cela sur le resultat suivant :
Proposition.
Lestimateur des MCO de est :
A =
1
N
N
i=1
(X
i

X)(Y
i

Y )
1
N
N
i=1
(X
i

X)
2
Lestimateur des MCO de est :
B =

Y A

X
Lestimateur des MCO du coecient de determination
2
est :
R
2
=
SCE
SCT
o` u SCE =
N
i=1
(
Y
i

Y )
2
et SCT =
N
i=1
(Y
i

Y )
2
.
1. La propriete degalite des variances est connue sous le nom dhypthèse dhomoscedasticite
30
4.2.4 Tests de la nullite de la pente
Meme si lestimation de est non nulle, il est necessaire de savoir si sa dierence avec 0 est signicative.
Test de Student
Pour cela, on peut realiser le test bilateral
_
H
0
: = 0
H
1
: = 0
avec la variable de decision
A
S
a
qui suit T
n2
o` u S
2
a
=
S
2
E
nS
2
X
est un estimateur de V ar(A).
Test de Fisher
On peut aussi realiser le test unilateral
_
H
0
:
SCE
SCR/(n2)
= 1
H
1
:
SCE
SCR/(n2)
> 1
avec la variable de decision
SCE
SCR/(n2)
=
R
2
(1R
2
)/(n2)
qui suit F(1; n 2) sous H
0
(equivalente à = 0).
En eet, on montre que :
Si H
0
est vraie ( = 0), alors SCR/(n 2) et SCE sont deux estimateurs non biaises de
2
E
.
Si H
0
est fausse ( = 0), alors SCR/(n 2) reste sans biais mais SCE surestime
2
E
.
4.2.5 Intervalle de prevision
Notons Y
0
= Y |(X = x
0
) et

Y
0
=

Y |(X = x
0
) o` u x
0
est une valeur non observee de X.
On montre alors que
Y
0

Y
0
S
E
_
1 +
1
n
+
(x
0
x)
2
ns
2
X
T
n2
Par consequent, lintervalle de prevision pour y
0
, de conance
2
1 , est :
_
y
0
t
1
2
s
E
1 +
1
n
+
(x
0
x)
2
ns
2
X
_
2. Ne pas confondre le precisnat le niveau de conance et la pente de droite de regression
31
32
Chapitre 5
Analyse de variance
Lanalyse de la variance utilise un vocabulaire specique : les variables qualitatives susceptibles dinuer
sur la distribution de la variable quantitative etudiee sont appelees facteurs (ou facteurs de variabilite)
et leurs modalites niveaux ou categories.
5.1 Un facteur
Une importante entreprise agro-alimentaire cherche à optimiser le rendement de ses plantations de mas.
Trois varietes de mas sont testees et plantees sur dix parcelles de deux hectares. Le tableau suivant
indique les rendements obtenus. Le responsable de letude se demande si la variete de mas a une inuence
sur le rendement. Pour identier une eventuelle inuence, le problème est simplie : il sagit de tester si
le rendement moyen est dierent selon la variete de mas utilisee.
LANOVA à un facteur realisee par Excel fournit :
33
5.1.1 Hypothèses du modèle
Lanalyse de la variance fait intervenir une variable quantitative mesuree sur plusieurs populations.
Chaque population correspond à un niveau (une modalite) du facteur explicatif envisage.
Les notations utilisees sont les suivantes :
k va X
i
(i allant de 1 à k), desperance m
i
et decart-type
i
. Les va X
i
sont denies dans les memes
termes mais sont mesurees sur k populations P
i
.
On tire un echantillon de taille n
i
dans chaque population P
i
. Ainsi, (X
i1
, ..., X
in
i
) est un n
i
-echantillon
issu de X
i
.
Leectif total des echantillons est n =
k
i=1
n
i
.
On teste
_
H
0
: m
1
= ... = m
k
H
1
: au moins deux des esperances sont dierentes
Il convient ici de remarquer que si lhypothèse nulle est retenue à lissue du test, on considère que la
variable qualitative (le facteur) denissant les populations na pas dinuence sur la variable quantitative.
Les va X
i
sont supposees independantes et pour tout i, X
i
N(m
i
; ) o` u
2
est la variance commune
des populations.
5.1.2 La methode de lANOVA
La variance commune
2
joue un role fondamental car la methode de lANOVA (ANalysis Of VAriance)
utilise deux estimations de cette variance. Les deux estimateurs correspondants sont construits ci-après.
Le premier repose sur la variabilite des observations à linterieur de chaque echantillon, le second mesure
la variablite des moyennes entre les echantillons.
Estimation de la variance commune par la variance intra-echantillon
La variance intra-echantillon est denie par :
V ar
intra
=
(n
1
1)S
2
1
+... + (n
k
1)S
2
k
(n
1
+... +n
k
) k
=
k
i=1
n
i
j=1
(X
ij

X
i
)
2
n k
=
SCE
n k
Cest un estimateur non biaise de la variance commune
2
des populations.
Remarque. SCE designe la Somme des Carres des Erreurs
Estimation de la variance commune par la variance inter-echantillon
La variance inter-echantillon est denie par :
V ar
inter
=
k
i=1
n
i
(

X
i

X)
2
k 1
=
SCI
e
k 1
o` u

X =
1
n
k
i=1
n
i
j=1
X
ij
est la moyenne empirique generale.
Sous H
0
, cest un estimateur non biaise de la variance commune
2
des populations.
Variable de decision
Sous H
0
, la variable de decision
SCI
e
/(k1)
SCE/(nk)
suit F(k 1; n k) et le test est unilateral à droite (cf. test
de Fisher en regression lineaire).
34
5.2 Regression lineaire et analyse de variance à un facteur
5.2.1 Points communs
Lobjectif de fond des deux analyses est didentier des facteurs explicatifs (et donc des leviers dactions)
de la variabilite dune variable quantitative.
Par ailleurs, les deux approches reposent sur la decomposition de la somme des carres totaux :
Pour la regression, la decomposition SCT = SCR +SCE est obtenue à laide de :
Y
i

Y = (Y
i

Y
i
) + (
Y
i

Y )
Pour lANOVA, la decomposition SCT = SCE +SCI
e
est obtenue à laide de :
X
ij

X = (X
ij

X
i
) + (

X
i

X)
Les correspondances de notations entre la regression et lANOVA à un facteur sont consignees dans le
tableau suivant :
Figure 5.1 Tableau ANOVA dans le cadre de la regression simple (k = 2)
5.2.2 Dierences
Les dierences de fond portent sur la nature des variables explicatives, ce qui a des repercutions sur la
forme des resultats naux.
Pour la regression, la variable explicative X est quantitative. Le fait de disposer de n couples
dobservations à valeurs numeriques (x
i
, y
i
) permet denvisager la modelisation du lien (sil existe) entre
la variable expliquee Y et la variable explicative X par une fonction lineaire dont on cherche lequation.
Les hypothèses du modèle portent sur les termes derreur E
i
. Lanalyse de regression conduit à :
conrmer ou inrmer lhypothèse dun eet de la variable explicative sur les variations de la variable
expliquee
donner, sil y a lieu, lequation de la fonction qui lie les deux variables
tester a posteriori la qualite du modèle
utiliser le modèle pour eectuer des previsions
35
Figure 5.2 Principales caracteristiques de la regression
Pour lANOVA, la variable explicative, appelee facteur, est qualitative. On dispose de n observations
x
ij
o` u lindice i identie le niveau (la modalite) du facteur explicatif. Le caractère qualitatif du facteur
explicatif exclut toute tentative de modelisation par une fonction mathematique de linuence eventuelle
entre le facteur de variabilite et la variable espliquee X. Les hypothèses du modèle portent sur les va
X
i
. Lanalyse de la variance conduit à conrmer ou inrmer lhypothèse degalite des esperances m
i
des
va X
i
. Autrement dit, à retenir ou non lhyptohèse dun impact statistiquement discernable du facteur
explicatif sur les variations de la variable expliquee.
Figure 5.3 Principales caracteristiques de lANOVA
36
5.3 Deux facteurs
5.3.1 Sans repetition dexperience
Un exemple
Une chane dhypermarches vient dinstaller, à titre dessai, dans cinq magasins quelques caisses
automatiques, cest à dire des caisses o` u les clients enregistrent eux-memes le montant de leur achat.
Trois methodes sont à comparer : la caisse traditionnelle avec une caissière, la caisse automatique sans
assistance et la caisse automatique avec lassistance dune hotesse. Dans le tableau suivant, chaque
observation est specique à une methode et un magasin. La grandeur mesuree en secondes est le temps
de passage aux caisses. La question est de savoir sil est legitime detendre la pratique des caisses
automatiques. Le seuil des tests est xe à 5% et les temps de passage sont supposes gaussiens.
LANOVA à deux facteurs sans repetition dexperience realisee par Excel fournit :
La methode
Soit k echantillons et n = k h va X
ij
issues de k populations presentant h categories.
LANOVA à un facteur a ete eectuee en decomposant la somme des carres totaux en deux composantes.
Nous allons ici la decomposer en trois.
De la decomposition X
ij

X = (

X
i.

X) + (

X
.j

X) + (X
ij

X
i.

X
.j
+

X), on tire :
k
i=1
h
j=1
(X
ij

X)
2
= h
k
i=1
(

X
i.

X)
2
+k
h
j=1
(

X
.j

X)
2
+
k
i=1
h
j=1
(X
ij

X
i.

X
.j
+

X)
2
que lon notera SCT = SCI
e
+SCI
c
+SCE.
Les sommes ayant pour degre de liberte, de gauche à droite : n 1, k 1, h 1 et (k 1)(h 1).
Si les hypothèses de lANOVA sont reunies
1
, alors :
1. les k va X
i
sont gaussiennes de meme variance et les n va X
ij
sont independantes
37
1. Pour la dierence de moyennes inter-echantillon, la variable de decision est :
F
E
=
SCI
e
/k 1
SCE/(k 1)(h 1)
F(k 1, (k 1)(h 1))
2. Pour la dierence de moyennes inter-categorie, la variable de decision est :
F
C
=
SCI
c
/h 1
SCE/(k 1)(h 1)
F(h 1, (k 1)(h 1))
3. Pour chacun des deux tests unilateraux à droite
_
H
0
: les esperances concernees sont toutes egales
H
1
,
la règle de decision au seuil de signication est ...
5.3.2 Avec repetition dexperience
Un exemple
Les serveurs des debits de boissons ont pour coutume deectuer des rotations entre la salle, la terrasse
et le bar. Ces rotations de services ont lieu, suivant les etablissements, à la journee ou de manière
hebdomadaire. Cette tradition a pour but de ne pas desavantager les serveurs entre eux, car ceux-
ci sont en general remuneres à un taux xe applique à leur chire daaires. Le patron dun debit de
boissons sinterroge sur lopportunite de ces rotations. Il pense par ailleurs quun second facteur explicatif
des dierences de salaires de ses employes est lie à leur experience. Pour etudier la pertinence de son
intuition, il relève les donnees presentees dans le tableau suivant.
Le problème est de determiner sil existe des dierences de chires daaires en tenant compte de deux
facteurs (le lieu de travail et le niveau dexperience). Pour detecter deventuelles interactions entre
ces deux variables explicatives, deux mesures ont ete relevees pour chaque echantillon et chaque categorie.
LANOVA à deux facteurs avec repetition dexperience realisee par Excel fournit :
38
La methode
Soit k echantillons et n = k h g va X
ijl
issues de k populations presentant h categories et pour
lesquelles g realisations sont observees.
LANOVA à deux facteurs sans repetition a ete eectuee en decomposant la somme des carres totaux
en trois composantes. Nous allons ici la decomposer en quatre.
De X
ijl

X = (

X
i..

X) + (

X
.j.

X) + (

X
ij.

X
i..

X
.j.
+

X) + (X
ijl

X
ij.
), on tire :
k
i=1
h
j=1
g
l=1
(X
ijl

X)
2
= hg
k
i=1
(

X
i..

X)
2
+kg
h
j=1
(

X
.j.

X)
2
+g
k
i=1
h
j=1
(

X
ij.

X
i..

X
.j.
+

X)
2
+
k
i=1
h
j=1
g
l=1
(X
ijl

X
ij.
)
2
que lon notera SCT = SCI
e
+SCI
c
+SCI
ec
+SCE.
Les sommes ayant pour degre de liberte, de gauche à droite : n1, k1, h1, (k1)(h1) et kh(g1).
Si les hypothèses de lANOVA sont reunies
2
, alors :
1. Pour la dierence de moyennes inter-echantillon, la variable de decision est :
F
E
=
SCI
e
/k 1
SCE/kh(g 1)
F(k 1, kh(g 1))
2. Pour la dierence de moyennes inter-categorie, la variable de decision est :
F
C
=
SCI
c
/h 1
SCE/kh(g 1)
F(h 1, kh(g 1))
3. Pour la dierence de moyennes due aux interactions entre les echantillons et les categories, la
variable de decision est :
F
EC
=
SCI
ec
/(k 1)(h 1)
SCE/kh(g 1)
F((k 1)(h 1), kh(g 1))
4. Pour chacun des trois tests unilateraux à droite
_
H
0
: les esperances concernees sont toutes egales
H
1
,
la règle de decision au seuil de signication est ...
2. les k va X
i
sont gaussiennes de meme variance et les n va X
ijl
sont independantes
39
40
Annexes
41

Table 3

Loi Normale Centre Rduite

Fonction de rpartition F(z)=P(Z<z)

Table 4

Loi de Student

Table 5

D F F
F
D Q Q
t ) (
2
,
2
P
2
du Loi

Pour Q > 30, La loi du F
2
peut tre approxime par la loi normale ) Q Q, N(

Table 6

Loi de Fisher F

D
D Q Q Q Q
) (
, , ,
2 2 1 1
f F P

Loi de Fisher F (suite)

D
D Q Q Q Q
) (
, , ,
2 2 1 1
f F P

48
Bibliographie
[SAP] G. SAPORTA, Probabilites, analyse des donnees et Statistique, TECHNIP, 2006
[TRI] B. TRIBOUT, Statistique pour economistes et gestionnaires, PEARSON, 2007
49

Cours Proba

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Proba

Transféré par

Droits d'auteur :

Formats disponibles

Cours de Statistique

reste biaise pour mais asymptotiquement sans biais

) pour toute distribution.

X est le meilleur estimateur de m et

Vous aimerez peut-être aussi