Bernard Delyon
21 mai 2015
I.1
But de la rgression.
I.2
Exemples
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
I.2.1
. . . . . . . . . . . . .
I.2.2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
I.2.3
I.2.4
Donnes longitudinales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
I.3
10
I.4
Exercices
10
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
II.2
II.3
II.4
II.5
11
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
II.1.1
Les donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
II.1.2
11
II.1.3
Le rgresseur constant . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
12
II.2.1
II.2.2
Estimation de
II.2.3
II.2.4
. . . . . . . . . . . . . . . . . . . . . . . .
14
II.2.5
15
II.2.6
. . . . . . . .
16
II.2.7
. . . . . . . . . . . . .
17
II.2.8
19
II.2.9
Exercices
et
. . . . . . . . . . . . . . . . . . . . . . . . . .
12
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
R.
13
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
23
II.3.1
23
Modle
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
et . . . . . . . . . . . . . . . . . . .
24
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
= I .
Rduction au cas
Dtection de l'htroscdasticit
II.3.4
Estimation de
II.3.5
Modles mixtes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
II.3.6
Exercices
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
31
Estimation de
II.3.2
II.3.3
31
II.5.1
31
II.5.2
33
II.5.3
Aspects pratiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
II.6
34
II.7
Mlange de rgressions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
II.8
35
II.9
ACP ou PLS
II.8.1
II.8.2
Ridge regression
II.8.3
Mthodes rcentes
II.8.4
Rgression robuste
. . . . . . . . . . . . . . . .
37
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
40
40
43
43
43
43
. . . . . . . . . . . . . . . . . . . . . . . . . . .
44
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
45
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
45
45
46
48
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
50
III.2.5 Exercices
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
51
53
55
. . . . . . . . . . . . . . . . . . . . . . . . . . .
55
57
60
62
63
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . .
65
65
66
III.4.9 Exercices
66
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
68
71
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
71
. . . . . . . . . . . . . . . . . . . . . .
71
71
72
73
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
73
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
75
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
76
IV.1.6 Exercices
IV.2 Exemples
. . . . . . . . . . . . . . . . . . . . . .
76
77
79
80
IV.2.5 Exercices
80
IV.3 Estimation de
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
et
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
81
81
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
82
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
82
82
IV.3.3 Estimation de
IV.4.1 Dviance.
et
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
82
IV.4.2 Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
83
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
83
86
87
V.1
Modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
87
V.2
88
V.3
. . . . . . . . . . . . . . . . . . . . . . . . . .
89
V.4
Proprits asymptotiques
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
90
V.5
Rgions de conance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
90
V.5.1
Rgions thoriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
90
V.5.2
90
V.5.3
Intervalles de conance
90
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
V.6
Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
90
V.7
91
A Slection de modles
93
B Rgression PLS
95
97
C.1
Thormes-limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
C.2
Rgions de conance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
97
98
C.3
Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
99
C.3.1
99
C.3.2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
99
C.3.3
Test de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
99
C.3.4
Aspects pratiques.
99
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Introduction
pi
yi
yi = 1 + 2 xi + ui ,
ui
pi .
yi
en divers
xi = log(pi ).
(I.1)
reprsente l'erreur de mesure, et explique que les points de la gure I.1 ne sont pas exactement
aligns. Cette gure montre galement la droite estime par moindres carrs. On voit une trs bonne
100
98
96
94
92
90
88
86
84
82
2.7
2.8
2.9
3.0
3.1
3.2
3.3
3.4
Figure I.1 Temprature d'bulition de l'eau mesure en divers endroits de l'Himalaya en fonction
du logarithme de la pression.
Cet exemple illustre comment le modle de rgression tente d'expliquer au mieux une grandeur
rponse)
(vecteur des
variables explicatives,
ou
rgresseurs,
(la
ou
1. En 1857 le physicien James David Forbes a fait la mme exprience dans les Alpes, le but tant de pouvoir retrouver
la pression atmosphrique partir de la seule mesure de la temprature d'bulition de l'eau (les baromtres tant fragiles
et donc diciles transporter lors d'une expdition), ce qui permet ensuite d'en dduire l'altitude au travers d'une relation
connue ; il rapporte dans un article ce double ensemble de donnes dont nous n'utilisons ici que la partie Himalayenne (elles
sont dcrites dans : S. Weisberg,
Wiley, 1985.)
facteurs, un seul dans l'exemple) en dmlant ce qui est dterministe de ce qui est alatoire et
en quantiant ces deux aspects (par les
d'une part et
d'autre part).
I.2 Exemples
I.2.1 Rgression linaire multiple : Production, travail et capital
On considre les variables, chacune concernant la totalit des tats-Unis (i tant l'indice d'une anne) :
On
Pi : production
Ki : capital (valeur des usines, etc.)
Ti : travail fourni (bas sur un calcul du nombre total de travailleurs)
cherche expliquer Pi l'aide des variables (Ki , Ti ). Le modle de Cobb
et Douglas
2 est
P = 1 K 2 T 3
ce qui suggre le modle statistique
E[ui ] = 0,
E[u2i ] = 2 .
yi = 1 + 2 log(Ki ) + 3 log(Ti ) + ui .
Cobb et Douglas disposaient du tableau suivant
3 sur
n = 24
annes et trouvent
2 = 1/4
Anne
Anne
Anne
1899
100
100
100
1907
151
176
138
1915
189
266
154
1900
101
107
105
1908
126
185
121
1916
225
298
182
1901
112
114
110
1909
155
198
140
1917
227
335
196
1902
122
122
118
1910
159
208
144
1918
223
366
200
1903
124
131
123
1911
153
216
145
1919
218
387
193
1904
122
138
116
1912
177
226
152
1920
231
407
193
1905
143
149
125
1913
184
236
154
1921
179
417
147
1906
152
163
133
1914
169
244
149
1922
240
431
161
et
3 = 3/4
xi
(xi , yi )1in
xi
yi
yi = 1 + 2 xi + ui
yi = 1 e2 xi + ui .
C'est l'analogue du prcdent dans une situation non-linaire.
(b) Rgression polynmiale : On part cette fois-ci d'un modle paramtrique abstrait
yi =
J
X
j xji + ui .
j=0
2. A theory of production,
3. En ralit, la construction de ce tableau partir des direntes donnes dont ils pouvaient disposer est en soi un
travail norme. Voir l'article.
J est suppos connu. La linarit en de cette quation fait, on le verra, qu'on estime facilement
j par moindres carrs ; noter que ceci revient exactement trouver le polynme de degr J qui
2
passe au plus prs des points (xi , yi ). On peut remplacer l'hypothse ui N(0, ) par l'hypothse
plus faible E[ui ] = 0 mais on entre alors dans un cadre semi-paramtrique.
les
ui = N(0, 2 ).
yi = f (xi ) + ui ,
et
2 .
2h du matin, en fonction de la temprature extrieure (moyenne sur les 24h prcdentes). Les donnes
sont sur 3 ans (1095 points). On pourrait tre tent de considrer ici un modle linaire par morceaux.
65
oo
o
35
40
45
50
55
60
o
o
oo
o
o o
o
o
o
o
oo
o
o
o
o oo o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
ooo o
o o oo o
o
ooo o oo o oo
oo o
o
o o o oo
o o o o ooo oo
o
oo o o
o
o
o ooo
o
oo
oo o o
o
o o oo
o
o
oooo o o o
ooo
o oo
oo o o o o
o
o
o
o oo oo oo
oo o
o o oo
o o
oo
o o
o oo
o
oo oo oo o oo o
o o ooooo oo oo ooo oo o
o
oo
o oooo o oooo ooooooooo ooooooooo
o
ooo oo
o oo
o o oo o o o o
o oo ooo o
ooooo
o
ooooo ooo
o ooooo
o oooooo oo
o
o o oo oooo
o oo o
o
o
o oo ooo oo
o o oo
oo oo oooo oooooo o o oooooooo o o
oo oo o o o o ooo ooooo
o
o
o
o
o o ooooo
o oo
o
o ooo ooooo o
o o o o oo ooooo o oooo
ooooooooo oo
oooo o oooo oooooo ooooo
oo
o o oo oo oo
o oo
oo o oooooo
o
o
o
o
o
oo
o
o
o
o
oo oo o
ooo oo o o ooo
oo o o ooo o
o oo oo o
o
ooo
o
o o oo o o
o
o o o oooo o ooooo oooooo ooo o
o ooo oooo o o oooooo
oo
oo o o
oo oo o ooo ooo ooooo oooo oo
o o o
o o o
oo o oo
o
oo
oo
ooo
o
o
o
o
o oo ooooo oo ooooo ooo
o oo
ooooo o o o
o
oo o oo o
oo o ooooo oooo ooo ooooooooo oooooooo
o
oo
o
oooooooooo o o o oo o
o
o
oo
oo oo oooo
o
oo oo
o
o oooo o
ooooooooooooo
o
oooooooo o oo oo oooo oooo o oo
o
o
o
o
o
o o o o o oo o oo o o o
ooo
o oooooooo
ooooo
o
oo
o
oo
o ooo ooo o ooooo oo
o
o
o
o
o
o
oo o
o
o
o
o
o
o
o
o
o
o
oo
o
o o o oooo oo o
oo o
o o
o o oooooo o oo o oo o
o
o o o oo oo
oo
o o
o
o o o
oo
o
o oo oooo oo o
o o ooo
oo oo oo o o
o
o o o ooooooo oo oo
o oo
o o oo o o oo o o o ooo
oooo
o
oo o oo o
o o o oo oo o oooo o oo o
o o oo o
o oooooo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o oooo ooooooo oo oooo o ooo oo o
o o ooo
o
o
o
oo o oo o o o
oo o o o
o
o
o
o
o
o ooo
oo
o
o
o
o o oo o o
o
o
o o
o
o
o
o o
10
15
20
25
y {0, 1}
Le modle logistique :
B(1, px )
(c--d
y=1
avec probabilit
px )
et
px
est
de la forme
px =
o
1
1 + ex
est un vecteur colonne de paramtres caractrisant l'inuence de chaque rgresseur sur la rponse
px
x.
Par exemple
l'enfant
au mois
tj .
particulier pour
b,
xi
(vgtarien/non-
(a, c, d, ).
Dtermination des
facteurs signicatifs
Prdiction/simulation
: combien de mdecins
Dtection de changement
(du paramtre
gement signicatif dans le comportement des patients ? Ce changement est-il le mme chez les
hommes et chez les femmes ?
La mthode passe, comme on vient de le voir, par la mise en place d'un modle plus ou moins raliste sur
lequel il est bon d'avoir du recul : on peut le considrer comme un (ple) reet de la ralit mais il est
gnralement plus prudent d'y voir simplement un
I.4 Exercices
Exercice 1. On dispose de deux qualits de papier. Le papier de type 1 a un poids 1
type 2 a un poids
du type 1 et
du
i-ime
qi
paquets. Le
i-ime
et le papier de
paquet contient
pi
feuilles
feuilles du type 2. On pse successivement les paquets sur une balance ; le poids mesur
paquet est
mi .
N(0, 2 ).
Exercice 2. (Modle gravitaire) On suppose que le nombre de personnes de la ville i allant travailler
la ville
Nij = kd
ij Pi Aj
o
Pi
Ai
sa capacit d'accueil et
dij
et
des paramtres inconnus. Proposer un modle de rgression linaire pour des donnes bases sur
sont
I villes
Exercice 3.
N(, 2 ),
par 1 + x.
Un individu pris au hasard a un temps de raction un certain stimulus qui suit la loi
et
On s'intresse l'estimation de
Expliciter la loi de
ti .
partir de donnes
(xi , ti ),
ti
est connu et
5. Certains modles de rgression, comme les modles mixtes, prennent toutefois en compte des phnomnes de dpendance.
10
II
II.1 Introduction
II.1.1 Les donnes
Les donnes consistent en des variables observes
seurs)
xi , i = 1, . . . n,
chaque paire
(yi , xi )
yi
y=
y1
.
.
.
.
.
.
X=
yn
xi
x1
x12
.
.
.
.
.
.
xn2
xn
...
x1p
.
.
.
...
xnp
, soit
y ' X
yi ' hxi , i = xi
y = X + u
o
u = (u1 , . . . un )
au modle.
b.
l'estime
tel que
Xv = 0
(une
X = X( + v).
Ceci implique que pour tout estimateur
quent on ne pourra pas estimer
b,
l'estimateur
b + v
Xv = 0
une de colonne de
linaire des autres, et par consquent une des variables tant fonction linaire des autres est inutile.
11
XT X
est
yi = xi + ui
E[ui ] = 0
V ar(ui ) = 2
(homoscedasticit)
j 6= i
E[ui uj ] = 0,
Noter que ce modle n'est pas compltement spci puisque les lois des
ui
II.2.2 Estimation de et 2
1 - Dfinition
Soit
SS()
SS() = ky Xk2 =
X
(yi xi )2 .
i
L'estimateur de
C'est l'estimateur de
u.
Ceci correspond, dans la gure I.1, minimiser la somme des carrs des distances des points la droite
mesures verticalement ;
il pourrait sembler plus logique de minimiser la somme des carrs des vraies
(X,
y) est plus compliqu calculer et n'est pas invariant par
b
(X, ty) 6= t(X,
y) (car une homothtie en y modie compltement le
2 - Proposition
On a les proprits :
b = (X T X)1 X T y
b = + (X T X)1 X T u
b =
b est sans biais : E[]
2
T
1
b
V ar() = (X X)
12
bk , k 6= j
bj
X.j .
3 - Proposition
Soit
b = ky X k
b 2
RSS = SS()
(Residual Sum of Squares) ; alors l'estimateur suivant de
b2 = RSS/(n p).
4 - Dfinition
yb = X b
bj
est
b(bj )
u
b = y yb
b(bj )2 =
b2 [(X T X)1 ]jj .
dni par :
Exemple. Reprenons le modle de Cobb-Douglass du paragraphe I.2.1 avec les donnes de leur tude
de 1928. On trouve
b2 = 0, 23
et
b3 = 0, 81.
L'cart entre
b2 + b3
et
1,
qu'on peut vrier en utilisant les rsultats du chapitre suivant. L'erreur standard de
b2 + b3
est
0, 09.
z , z dsignera
z =
1X
zi .
n i=1
5 - Proposition
H = X(X T X)1 X T , K = I H ,
colonnes de X ; alors
Soit
et
le sous-espace vectoriel de
= 0 car u
u
b
b1
2
ky
1k
=
kyP
ybk2 + kb
y y1k2
P
P
2
2
(y
)
=
u
b
+
yi y)2
i i
i i
i (b
TSS = RSS + ESS
Var. Totale =
Var. Rsiduelle + Var.
Rn
X .
Explique
La dmonstration est laisse en exercice. Cette dcomposition de la variance correspond l'ide prsente
dans l'introduction de sparer le dterministe de l'alatoire.
Pour la dmonstration de la proposition 3, on a :
b2 = kb
uk2 /(n p) = uT Ku/(n p)
E[b
2 ] = 2 T r(K)/(n p) = 2 .
13
d'o,
6 - Dfinition
R
)(b
y y)
i (yi y
Pi
.
R= P
2
1/2
( i (yi y) ) ( i (b
yi y)2 )1/2
R2
R comme une mesure de corrlation entre les variables expliR est proche de 1, plus le modle reprsente bien les donnes.
R2 = 0, 998.
7 - Proposition
On a
0 R 1, R2 = ESS
T SS = 1
R = 1 yb = y
R = 0 b = (
y , 0, . . . , 0).
RSS
T SS ,
Dmonstration.
hb
y y1, y y1i
hb
y y1, y yb + yb y1i
kb
y y1k
ESS
R=
=
=
=
.
kb
y y1k ky y1k
kb
y y1k ky y1k
ky y1k
T SS
R = 1 alors RSS = 0, y = yb. Si R = 0
(
y , 0, . . . , 0)T car X est de rang plein.
Si
alors
yb = y1
0.4
1.0
et donc
X b = X(
y , 0, . . . , 0)T
d'o
b =
0.9
0.3
0.8
0.2
0.7
0.5
0.3
0.4
-0.1
0.6
0.1
0.2
-0.2
0.1
-0.3
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
Attention,
valeur de
le
R. R
R2
2
ne dit pas tout sur la qualit du modle ; par exemple, les gures II.1 ont mme
doit tre considr comme une donne descriptive, intressante en soi, et pratique pour
comparer des modles sur les mmes donnes, mais il ne peut tre considr comme une note absolue :
R2
b)
peut dpendre fortement de la rpartition des rgresseurs ( moins que j = 0, j > 1). Noter galement
2
que l'ajout d'un rgresseur fera toujours augmenter R , mme si le j correspondant est nul.
2
Le R sera utlis plus tard dans le cadre bien prcis du test de Fisher de nullit de , p.49.
mme si le modle est valide,
est une variable alatoire dont la distribution (de mme que celle de
14
Le
R2
2
Raj
= 1
b2 /(T SS/(n 1)) ; c'est un rapport d'estimes non-biaises de
les xi sont des variables alatoires i.i.d. Dicile interprter prcisment.
ajust vaut
variances
R2 = 0, 7.
Pourquoi raisonner sur les carrs pour juger des contributions et non pas sur les valeurs absolues ? Voici
un dessin qui peut le justier :
C
e
t
Le ct
AC
a pour longueur
e=
ESS ,
et de mme avec
r=
RSS
BH/AB .
t = T SS . Il est raisonnable
AH/AB et celle des rsidus par
et
On a bien
AH
AH AC
e2
=
= cos()2 = 2 .
AB
AC AB
t
Le rapport de carrs est donc en fait galement un rapport de deux longueurs.
Le coecient
ieindividu xi
des autres ;
8 - Proposition
On a
0 < hi 1
hi = 1 span(xj , j 6= i)
limkxi k hi = 1
hi
est de dimension
xi
est
isol
p1
qu'il est le seul prsent dans une direction donne. Il sera donc inuent dans l'estimation de
levier), et on dit que
On l'obtient sous
hi
avec la commande
X(i)
xi .
(eet
h=lm.influence(mod)$hat.
hi
p/n
hi =
trace(H)
= p).
X dont on a retir la i-ime ligne xi et y(i) le vecteur y dont on a retir le i-ime
b
(i) et
b(i) les estimes aux moindres carrs de et bases sur X(i) et y(i) . Alors
la matrice
coecient. Soient
15
9 - Thorme
Aprs suppression de la i-ime observation, les estimateurs aux moindres carrs des paramtres
deviennent
u
bi
1 hi
(II.1)
u
b2i
1 hi
(II.2)
b = (X T X)1 X T y
puis on rajoute un rgresseur, c'est--dire une colonne
X 0 = (X, ).
On se propose de trouver une formule permettant de passer directement de
yb yb0 ,
10 - Lemme
Soient
A et B
A, B
et sur
A B,
Rn , alors en notant PA , PB
et
PA,B
on a
PA,B = PA + PB .
Dmonstration.
appartient bien
de la mme
Notons
= ( PX )/k PX k
la composante de
orthogonale
normalise.
yb = H y = PX, y = PX, y = PX y + P y = yb + h , yi = yb + h , u
bi
car
est
yb ;
u
b0 = u
b h , u
bi
et par application du thorme de Pythagore, comme
0 2
u
b0 ,
on a
kb
uk = kb
u k + h , u
bi .
Donc nalement, le nouveau coecient
1 R0 =
R0
satisfait
kb
u0 k2
kb
uk2
kb
u0 k2
=
= (1 R2 )(1 2 )
2
2
ky y1n k
ky y1n k kb
uk2
avec
2 =
kb
uk2 kb
u0 k2
h , u
bi2
=
.
kb
uk2
kb
uk2
(II.3)
= cos([
b) est appel coecient de corrlation partielle de y et sachant x, car c'est la corrlation des
, u
variables dont on a retranch la projection sur X (alors que d'habitude on se contente de les recentrer).
C'est l'analogue du coecient R o cette fois on cherche prdire au mieux u
b l'aide du rgresseur .
Sa valeur absolue mesure l'apport du nouveau rgresseur pour la qualit de la prdiction.
16
malit. La droite de Henry s'approxime raisonnablement de la faon suivante : ordonner les rsidus
standardiss
u
bi /b
u
bi
Q(i/(n + 1))
u
bi /b
N(0, 1)
(surtout pour
petit,
cf. III.3). On reprsente ici le QQ-plot correspondant aux donnes de la gure II.2, avec le deuxime
modle ; la concidence est assez bonne sauf pour trois individus
Residus standardises
113
61
64
Quantiles
Reprsentation rsidus/valeurs ajustes. C'est une reprsentation des ubi en fonction des ybi . L'estimation fait que ces deux variables sont empiriquement dcorrles ; toutefois la reprsentation peut faire
apparatre une dpendance vidente. Elle peut provenir par exemple d'une non-linarit de la relation
liant
yi
xi ,
23e3
ui .
1.5
19e3
1.1
15e3
0.7
11e3
7e3
1e3
5e3
9e3
8e3
3e3
0.3
0.1
0.5
Figure
4e3
8e3
12e3
0.9
16e3
1.3
1.7
4e3
20e3
24e3
6.7
7.1
7.5
7.9
8.3
8.7
9.1
9.5
9.9
10.3
pi = 1 + 2 ai + ui .
du prix prdit. La seconde est similaire mais avec les nouvelles variables
Reprsentation rponses/rgresseurs.
On trace
yi
en fonction de
xij
log(p)
et
log(a).
rustique pour dtecter une dpendance non-linaire entre un rgresseur donn et la rponse. Ceci peut
conduire
ajouter aux rgresseurs des fonctions de ces derniers (par exemple x2i2 , voir aussi l'intro-
17
91
89
87
83
4.54
4.46
4.42
81
77
4.34
4.30
71
10e4
73
75
4.38
79
4.50
85
11e4
12e4
13e4
14e4
15e4
4.26
57.4
57.8
58.2
58.6
59.0
59.4
59.8
60.2
60.6
61.0
61.4
Figure II.3 Mmes donnes que la gure II.2. On trace les rsidus partiels, y b1 , en fonction
du prix pour les deux modles. La gure rponse/rgresseur est ici la mme un dcalage vertical
prs.
duction du temps dans l'exemple du II.5.3), quitte les liminer plus tard lors des tests.
Si cette mthode est trs simple, la suivante donnera souvent des rsultats plus prcis.
Reprsentation des rsidus partiels. Ce trac sert illustrer l'inuence du j -ime rgresseur xj
z = y X b + xj bj = u
b + xj bj
en fonction de
(II.4)
en
ayant t rduite au maximum ; l'apparition d'une structure particulire (autre qu'une droite) peut
remettre en cause l'hypothse de linarit.
Mallows
1 recommande d'ajouter
non-linarit potentielle de
(xj )2
crp
de la bibliothque
car.
residuals(...,type="partial"),
Attention. S'il y a de fortes corrlations entre variables, ou si le modle est trop inexact, ce trac peut
donner des rsultats trs mauvais, bien pires que la reprsentation rponses/rgresseurs.
le
j -ime
Rp ,
alors
Pj = I ej eTj
ej .
Qxj = xj
Qxk = 0,
Qv = v,
k 6= j
vX
(c--d X T v = 0).
Q est donc le projecteur oblique de noyau xk , k 6= j , sur l'espace contenant xj et les vecteurs orthogonaux
aux colonnes de X . L'eet de Q est donc de nettoyer la contribution linaire des autres rgresseurs
j
en conservant celle de x .
1. Augmented partial residual plots,
Technometrics,
28 313-320.,1986.
18
Alternative. Noter que cette mthode est tout--fait dirente du choix z = y X (j) b(j)
signale la suppression du
j -ime
ne prserve pas
o l'exposant
xj .
tude des rgresseurs. On pourra faire une analyse de X (corrlations en variables, prsence de sousacp de X , etc. cf. p.ex. [5]). On verra au chapitre suivant qu'une forte dpendance
groupes d'individus,
chelles.
Il est souvent utile de remettre les donnes sur une chelle correcte. Voir l'exemple de la
gure II.2.
Une situation classique quand
proportionnelle
y2 ,
y2 .
log y = x + u
parfois cela la
stabilisation de variance.
en maximisant le
R2 .
2 : y 1 avec
0 1. On choisit alors
x {J, A, V }
par un vecteur
J, A, V ,
on
ce qui permet
ensuite d'employer des mthodes numriques. Malheureusement, on voit que toute composante de
x0
est
fonction des deux autres ce qui fait que cette mthode est en gnral mathmatiquement inutilisable
telle quelle, aussi bien en analyse de donnes qu'en rgression (on va voir plus bas qu'elle conduit une
matrice
que
x0
de rang dcient) ; le procd habituel consiste ter arbitrairement une modalit, si bien
devient
x0 = (1x=A , 1x=J ).
dtaille ici (mme si les logiciels habituels font automatiquement ces transformations).
xi1 = 1,
xi2 = 1zi =a ,
xi3 = 1zi =b ,
xi4 = 1zi =c
ou encore
1
1
X
1 = 0.
1
Ceci signie simplement la prsence d'une variable en trop. Pour rsoudre ce problme il sut d'liminer
une des 4 variables. Ainsi on considrera le modle
(II.5)
ou bien
yi = 10 + 20 1zi =a + 30 1zi =b + ui
2. Pour une discussion approfondie, voir :
ted,
(II.6)
19
X=
.
.
.
.
.
.
.
.
.
1
0
0
1
0
0
.
.
.
.
.
.
.
.
.
0
0
1
0
0
1
.
.
.
.
.
.
.
.
.
0
X =
et
.
.
.
.
.
.
.
.
.
1
1
1
0
0
1
.
.
.
.
.
.
.
.
.
1
1
0
0
1
0
.
.
.
.
.
.
.
.
.
20 = 1 3 , 30 = 2 3 )
et donnent, si les
S'il n'y a qu'une variable symbolique, la reprsentation (II.5) est la plus naturelle ; en revanche, s'il y en
a plusieurs il est plus simple de se contenter de retrancher chaque fois une modalit :
zi {a, b, c},
ti {n, s}
(II.7)
Ces complications viennent fondamentalement du fait que ce dernier modle (modle additif ) n'est en
ralit pas naturel du tout (le bon modle tant donn par (II.9)). On verra que l'avantage du modle
sans interaction (II.7) est d'avoir moins de paramtres ; il a ici
1 + (3 1) + (2 1) = 4
paramtres.
Si des variables quantitatives sont prsentes, il sut bien entendu de les ajouter au tableau
X;
on peut
soit considrer que leur infuence est indpendante de la (ou des) variable symbolique :
yi = 1 + 2 1zi =a + 3 1zi =b + 4 xi + ui
soit qu'elle en dpend (modle avec interactions)
peut dpendre de l'engrais utilis ; cette dpendance est rete par la valeur de
de
(II.8)
ou
en comparaison
4 .
x (1), de z
= 2) et de l'interaction ((3 1) 1 = 2). De mme, pour un modle deux variables symboliques
avec p et q modalits, le modle sans interaction aura 1 + (p 1) + (q 1) rgresseurs, et le modle
avec interactions en aura pq = 1 + (p 1) + (q 1) + (p 1) (q 1), avec des interactions du type
1z=a 1z0 =a0 , 1z=b 1z0 =a0 . . . Ce mode de calcul s'tend un nombre arbitraire de variables. Noter que
10
20 1z=a
30 1z=b
40 1t=n
50 1z=a,t=n
60 1z=b,t=n
(II.9)
+ u.
Il faut bien voir que dans le cas d'un modle complet avec toutes les interactions entre variables symboliques, comme ci-dessus, le dcompte des paramtres ne pose aucun problme, il sut de calculer toutes
les possibilits, sans le rgresseur constant (formulation (II.9)), ceci est galement valide dans le cas o
se mlent variables qualitatives et quantitatives, par exemple le modle (II.8) se rcrit plus simplement
3+3 = 6
t,
propose plus haut n'a par consquent d'intrt que si l'on considre des modles o toutes les interactions
ne sont pas prises en compte comme (II.7).
Exemple.
On observe la prise de poids de rats nourris avec quatre rgimes dirents correspondants
deux sources de protines possibles (buf ou crales) en deux doses possibles (faible ou leve) .
Statistical Methods, Iowa State University Press, 1967. Voir aussi Hand, Daly, Lunn, McConway
A Handbook of Small Data Sets, Chapman and Hall, 1994.
20
Chacune des combinaisons des deux facteurs est teste sur 10 individus tous dirents ; il y a donc 40
observations de prise de poids en tout.
Le modle avec interactions estim se rcrit
II.2.9 Exercices
Exercice 1.
Prciser la matrice
constant ?
si
le rgresseur constant ?
Exercice 4. Dmontrer que s'il n'y a qu'un rgresseur en dehors de la constante (i.e. p = 2), alors R est
la corrlation empirique entre
et
y.
xi
E[u2i ] = 2 ,
E[ui ] = 0,
E[ui uj ] = 0
bb.
Soit l'estimateur
b = P yi /P xi .
parer ces deux estimateurs en calculant leur biais et leur variance (On vriera que la proprit
(exercice 13) s'applique bien : la variance de
bb
b).
Com-
blue
5
XT X = 3
0
1. Que vaut
n?
3
3
1
0
1
1
XT X
z?
X ).
et
(Indication :
y = 1 + 3x + 4z + u
b,
RSS = 3.
kb
yk
; justier que
dtermination
y (on
kb
y y1k = kb
y k k
y 1k
XT X) ?
R2 .
y = X0 0 + u0 ,
kb
y0 k 2 .
X0 = (1n , x).
4. Calculer numriquement
5. Calculer
utilisera la matrice
X0T y
Dmonter que
X T y) ;
kb
u0 k2 + kb
y0 k2 = kb
uk2 + kb
y k2 .
21
et
en dduire
b0 .
En dduire la norme de
sachant
x.
u
b0 .
E[b
u2i ] = 2 (1 hi ). On
que
b2 est sans biais.
(y 0 , x0 )
u
b = Ku.
b 2 ] = 2 (1 + x0 (X T X)1 x0 ).
E[(y 0 x0 )
bCV
=
1X
(yi xi b(i) )2 .
n i
bCV
=
b(i) ,
que
1X
u
b2i
n i (1 hi )2
(II.10)
bCV
et
b2
hi
Exercice 11. Soit le modle habituel y N(X , 2 I). Soit un nouvel chantillon y0 N(x0 , 2 ). On
suppose que
x0
0b
x x?
{x1 , ...xn }.
y 0 x0 b ?
1. Soit
le
L = l,
c.--d.
b
b0 = b + (X T X)1 LT [L(X T X)1 LT ]1 (l L).
2. En dduire que
yb0 = X b0
satisfait :
kb
y yb0 k2 = (Lb l)T L(X T X)1 LT
1
(Lb l).
3. Montrer que
kb
y yb0 k2 = kb
y0 yk2 kb
y yk2 .
Indication : ne pas utiliser le question prcdente.
= (X)y + (X)
o
et
X.
Bien entendu
b en
Unbiased Estimator) :
b est de variance minimale dans la classe des estimateurs de linaires sans biais.
Dmontrer ce rsultat de la faon suivante :
1. Montrer que si
2. Exprimer
3. En dduire que
ncessairement
puis que
et
u.
b
.
V ar() V ar()
en fonction de
b )
b = 0,
Cov( ,
(X)X = I ,
(X) = 0.
et
22
n n, n m, m m, m n,
A, B, C, D
2. Vrier la formule
XT X =
3. En utilisant les deux points prcdents, dmontrer la formule (X(i) est la matrice dduite de
par suppression de la
i-ime
ligne)
T
X(i) )1 = (X T X)1 +
(X(i)
4. En dduire que :
T
X(i) )1 xTi .
(1 hi )1 = 1 + xi (X(i)
En dduire les trois points de la proposition 8.
5. Exprimer
l'absence
T
X T y en fonction de X(i)
y(i) et xTi yi ,
du i-ime individu (thorme 9).
kxk, kzk
et
cos(d
x, z).
2. Que vaut la corrlation de
b
a1
et
b
a2 ?
Que se passe-t-il si
et
sont orthogonaux ?
Exercice 16. Un goteur teste des chocolats fabriqus base de cacao de trois provenances direntes :
Cte d'Ivoire, Venezuela, Brsil. Il donne une note pour chaque chocolat qu'il gote. Les chocolats sont
prpars avec des doses de vanilline direntes. Proposer pour cette exprience un modle de rgression
avec interaction et un sans interaction. Combien ont-ils de paramtres ? Interprter leur dirence.
Exercice 17.
On teste des doses direntes d'engrais dans un champ divis en parcelles similaires de
mme taille (une dose par parcelle). On mesure le poids de bl produit chaque fois et l'on prsuppose
le gain de production est
1. Combien y a-t-il de paramtres estimer ? Montrer que l'on peut mettre cette exprience sous la
forme d'un problme de rgression. Combien de colonnes a la matrice
2. On fait maintenant la mme exprience mais dans trois champs
que l'eet de l'engrais
la matrice
dpend
X?
dirents.
On suppose de plus
X?
3. On suppose que l'engrais a le mme eet dans les trois champs, mais que leur productivit en absence d'engrais est toujours dirente. Que devient l'quation de rgression ? Combien de colonnes
a la matrice
X?
X?
23
Modle. On suppose l'existence d'un vecteur , de > 0, de > 0 et de variables alatoires ui tels
que
y = X + u,
E[u] = 0,
E[uuT ] = 2 .
En d'autres termes, pour chaque
yi = xi + ui
E[ui ] = 0
Cov(ui , uj ) = 2 ij
2 , a priori redondant, est introduit traditionnellement avec l'ide que est connu
2
l'avance et estimer, ce qui, on va le voir, nous ramne par une transformation simple au problme
prcdent, ce qui est intressant du point de vue de l'analyse thorique. Souvent cependant reprsente
Le paramtre
= 1),
1
,
y 0 = Ry,
X 0 = RX,
c--d
RT R = 1
;
si l'on pose :
u0 = Ru
on obtient
y 0 = X 0 + u0 ,
y N(X , 2 ).
La matrice
Rn
vraisemblance :
kzk21 = z T 1
z =
zi (1
)ij zj .
ij
11 - Dfinition
est l'estimateur du maximum
u (c.--d. y N(X , 2 )) :
de vraisem-
1 T 1
bG = arg min ky Xk1
= (X T 1
X y.
X)
On a bien :
T
T
bG (y, X, ) = bOLS (y 0 , X 0 ) = (X 0 X 0 )1 X 0 y 0 .
s'appliquent :
12 - Proposition
b2 = (n p)1 ky ybk21
2 .
On peut aussi relier ces rsultats au II.2 en remarquant que seule la mtrique a chang :
ybG = HG y,
1 T 1
HG = X(X T 1
X
X)
24
HG
et
hz, ti1
= z T 1
t.
Attention, la formule de prdiction pour un nouvel individu dont la covariance avec les autres individus
E[y0 ] ;
(vecteur not
).
expriences rptes
yi = xi + u
i ,
xi ;
donnes groupes)
(ou
yi ,
: On fait
ni
fois la mme
on a
V ar(
ui ) = 2 /ni .
(II.11)
partir des
yi
proposer des modles htroscdastiques plus spciques (mixtes, etc.) en fonction de l'ide que l'on se
fait des donnes, et de les tester.
Un test graphique simple est la reprsentation rsidus/valeurs ajustes du II.2.7 ; une volution de
l'amplitude des
u
bi
quand
ybi
Si
d'une corrlation non-modlise entre les donnes ; c'est un test de corrlation entre les rsidus dont la
Pn
Pn 2
ui u
bi1 )2 / 1 u
bi . Si S est trop grande (resp. petite) il y a alors une corrlation
2 (b
signicativement ngative (positive) entre les rsidus.
statistique est
S=
II.3.4 Estimation de
Il est totalement dsespr d'estimer
particulire avec peu de paramtres (cf. (II.11), les exemples de ce paragraphe et le II.3.5).
,
I
I
et
de
calculer :
l'aide de
b :
b 1 X)1 X T
b 1 y
b = (X T
b
b
= (, y, X).
Econometrica
47, 12871294
P 2
1 X T X) 0. C'est un test de corrla5. Dans un mme esprit le test de White compare S = n1
u
b2i )(xT
i (b
i xi n
P
tion entre les carrs des rsidus et les rgresseurs. Concrtement, la matrice S vectorise s'crit n1
viP
, o vi Rp(p+1)/2
P
P
contient donc les termes (b
2 u2i )(xij xik n1 (X T X)jk ), j et k variant. Le test compare ( vi )T ( vi viT )1 ( vi )
2
un
.
p(p+1)/2
H. White, A heteroskedasticity-consitent covariance matrix estimator and a direct test for heteroscedasticity,
trica,
6. J. Durbin, G.S. Watson, Testing for Serial Correlation in Least Squares Regression. III,
Biometrika,
(Apr., 1971), pp. 1-19. Le test apparat pour la premire fois dans un article de 1951 des mmes auteurs.
25
Econome-
y
y0
Par exemple
estime de
=
yi
yi0
et
et
X
0
0
X0
+
u
u0
,
V ar
u
u0
v11 Id v12 Id
v12 Id v22 Id
.
vij
partir
u
b
et
u
b0 ,
b.
Exemple : Variance dpendant d'une modalit et proportionnelle une variable. On ensemence des pots avec les mmes graines mais des terreaux dirents, variable
ment chaque plante avec une intensit lumineuse
t,
et en clairant constam-
de
yi = ti t + ai + ui ,
nlme)
gls(yt+a,weights=varConstPower(form=a|t))
Si la variance ne dpend que de
t,
faire
weights=varIdent(form=1|t).
Exemple : Donnes longitudinales. On s'intresse savoir si le labour a une inuence sur la prsence
7
de carbone dans le sol . On prlve des carottes dans divers champs et la mesure
tj
la profondeur
de la
i-ime
yij
raison de la corrlation prsente le long de la carotte on postule le modle suivant (en fait il y a deux
modles : un avec labour et un sans labour)
yij = xi +
K
X
k=1
2
u Id,
E[uu ] =
K = 1)
E[vij vi0 k ] = 0,
i0 6= i.
vij ,
ajout
uij ,
b
,
b
u , v
et
de
uij
vij , qui
b
(,
y, X).
et des
image, mesure de pollution en un endroit, etc.) [4]. On se propose d'exprimer la corrlation comme
fonction une paramtre des localisations, par exemple
yi = xi + ui ,
i = 1, . . . n,
E[ui uj ] = c exp(bki j ka ) + 02 ij .
(II.12)
a, b, c, 02
Souvent dans les applications seul le rgresseur constant est considr mais ce n'est pas toujours le cas.
Le but du krigeage est de prdire la rponse
explicatives
x0
y0
en un nouveau point
y = (yi )1in ,
u = (ui )1in ,
= E[uuT ],
yi .
Ici
= 1
et on note
= E[uu0 ].
7. F.J. Breidt,Ecological Modeling with Soils Data : Semiparametric Stochastic Mixed Models for Increment Averages,
Journes Statistiques de Rennes, 2006. Nous simplions ici beaucoup : En ralit F.J. Breidt utilise des fonctions splines et
les termes correspondant aux
dpendent galement des variables explicatives, le tout dans un cadre de modles mixtes.
26
On suppose dans la suite que le rgresseur constant est pris en compte dans
x.
Si
et
8
connus, l'estimateur naturel de y0 serait, sous l'hypothse gaussienne son esprance sachant les
Comme
et
taient
yi
soit
vient
b
b 1 (y X ).
yb0 = x0 b + T
(II.13)
Parenthse
puis on
. Rappelons que
de remarquer que
XT
yb0 =
X
0
le rgresseur constant est pris en compte. Il est d'usage, dans la littrature de krigeage,
pi yi
p
q
o le vecteur
=
xT
0
XT
ou
X
0
p
q0
=
xT
0
(II.14)
ij = E[(ui uj )2 ], i = E[(ui u0 )2 ].
La matrice
est appel le variogramme. Dans le domaine des processus spatiaux, il apparat souvent plus naturel
pi = 1
puisque
X T p = xT
0
(cette proprit est perdue si le rgresseur constant n'est pas pris en compte, et
pi
0.
p
min V ar y0
p i yi
sous
pi xi = 1.
i
3/p est galement solution de (II.14) modi en remplaant
L'estimation de
( ou
par
et
ij = (i , j )
ij = c exp(
, ,
10
est
ck |xik xjk | ) + 2 ij
k
ou encore
ij = (ki j k)
1
N (h, )
b(h) =
et
N (h, )
o la fonction
u
bi u
bj
h<|i j |<h+
g(x) =
(la fonction
ij = g(ki j k/)
3x x3 , x < 1
2, x > 1
g(x) = 1 ex .
y = X + Z + u,
8.
Si
(X, Y )
N(0, G),
A
C
B
D
u N(0, 2 Id)
1
=
E
F CA1
A, B, C, D
A1 BF
F
Rn+p ,
on a
(II.15)
1
E[Y |X] = RY X RXX
X.
,
F = (D CA1 B)1 ,
E = A1 + A1 BF CA1 .
10. De tels modles sont utiliss dans l'article de J. Sacks, W.J. Welch, T.J. Mitchel et H.P. Wynn, Design and analysis
of computer experiments,
Stat. Sci.,
27
et
pendant de
u. G
est le paramtre et
y N(X, V ),
ui .
On a
V = 2 Id + ZGZ T .
(II.16)
y N(X + Z, Id)
j ).
2
Un point de vue plus pragmatique est d'y voir une possibilit d'estimer d'un modle linaire quand la
matrice de rgression, ici
(X|Z),
est inconnu, il pourra en pratique tre estim via une modlisation paramtrique dont la plus simple
est
G = 2 Id.
Le modle mixte est une formulation particulire de modle htroscdastique ; elle permet en
particulier de proposer un modle de complexit intermdiaire entre le modle complet y N((X|Z), I)
(qui a trop de paramtres) et le modle y N(X, I) qui est trop simple.
En rsum :
L'intrt principal des modles mixtes est de permettre de juger de l'importance des rgresseurs Z
dans des situations o l'on ne peut pas estimer le modle complet : si le modle mixte est signicativement
meilleur que le modle eets xes simple, alors les rgresseurs
On verra au III.4.7 qu'une application typique est de tester les interactions compliques en analyse de
la variance.
Pour les dtails concernant l'estimation nous renvoyons [1] ou [16].
Exemple : donnes groupes (random block eects). Supposons que l'on a rassembl p groupes de
donnes obtenues dans des conditions direntes. Par exemple chaque groupe peut reprsenter une srie
d'expriences (test de cocktails, traitements mdicaux, etc.) faites sur un sujet (dirent d'un groupe
l'autre). l'intrieur de chaque groupe on ne peut pas considrer les mesures comme indpendantes car
elles ont en commun des conditions exprimentales spciques (le goteur, le cobaye, etc.). En dsignant
par
etc.) et
s = N(0, g2 ).
yse = xe + s + use ,
goteurs sont plus svres, etc.) ; en reprenant les notations prcdentes, et en supposant que chaque
sujet fait toutes les expriences,
1 0
0 ...
Z=
. .
..
..
0 ...
o
et
...
..
.
.
.
..
est
(ne ns ) ns
0
1
= N(0, g2 Ins )
l'eet du retrait d'une colonne redondante dpendrait ici de la colonne choisie. Si l'on cherche estimer
i
les i
les
y N((X|Z)
dans le modle
28
Springer, 2000.
yij
de l'enfant
l'ge
tij , j = 1, . . . J = 9
175
170
165
160
155
150
145
140
135
130
125
11.0
11.2
11.4
11.6
11.8
12.0
12.2
12.4
12.6
12.8
13.0
Les auteurs postulent le modle polynomial (le choix des ordres 4 et 2 est de nature exprimentale)
yij =
4
X
k tkij +
k=0
Si
2
X
ik tkij + uij ,
(II.17)
k=0
est petit, il est hors de question d'estimer un polynme d'ordre 4 par enfant, et cela prsente peut
d'intrt car l'interprtation du paquet de paramtres obtenus exigera une nouvelle analyse statistique.
Les auteurs choisissent donc le modle (II.17). Les
ik
i j rij
pour
nlme 12 )
i 6= j )
0
149
1
6, 2
2
1, 1
3
0, 47
4
0, 34
0
8
intervals(mod).
1
1, 7
r01 > 0
2
0, 8
u
0, 47
r01
0, 61
r02
0, 22
Gij =
r12
0, 66
L'estimation du modle
yij =
P4
k=0
k tkij + uij ,
donne
k + ik ,
modle hirarchique
car le coecient de
tk
pour l'enfant
est
Pour additionner plusieurs eet alatoires indpendants il faut faire une liste, par exemple
r02 = r12 = 0.
lme4 qui donne de bons rsultats en estimation ; la commod=lmer(taille1+t+I(t2 )+I(t3 )+I(t4 )+((1+t+I(t2 ))|sujet)). Pour un modle avec
uniquement des eets alatoires du type yijk = +i +j +ij +uijk o les trois eets sont indpendants
(les paramtres sont (, u , , , )) on fera lmer(y1+(1|A)+(1|B)+(1|A : B)). Ceci est beaucoup
plus dicile raliser avec lme qui est adapt pour les eets embots, cf. III.4.6 et III.4.7.
lmer(yx+(1|sujet))
ou
lme(yx,random=1|sujet).
12. Pour la programmation des modles mixtes sous R nous renvoyons par exemple au document d'introduction de
D. Concordet :
www.biostat.envt.fr/master/IMG/pdf/Commandes_nlmetex.pdf.
29
Estimation.
(, , G),
tuellement tre soumise d'autres contraintes spcies par l'utilisateur. L'estimation est faite soit par
maximum de vraisemblance sur la base de l'quation (II.16), soit par la mthode REML qui consiste en
sur l'orthogonal de
pour estimer
(, G),
X , y = Ky ,
X ),
classiquement (GLS),
np
(on le reprsente
II.3.6 Exercices
Exercice 1. On considre le modle de rgression
yi = axi + ui , i = 1, . . . N
avec :
E[ui ] = 0, V ar(ui ) = i2 ,
Cov(ui , uj )
= 0, i 6= j. xi
Exercice 2. On recueille J
yij = + uij ,
et
sont scalaires.
Var(uij )
= j2 ,
i = 1, . . . n,
j = 1, . . . J.
Les bruits sont donc dcorrls mais de variance dirente connue. Mettre sous forme homoscdastique
par un changement de variable adquat puis en dduire l'expression de l'estimateur de
Exercice 3. 13
Des vaches donnent naissance des veaux, issus de 4 taureaux. Les vaches proviennent
de deux troupeaux. Chaque exprience est un accouchement. Les rgresseurs sont l'ge de la vache, le
sexe du veau, le taureau (variable symbolique), et le troupeau. La rponse est la dicult que la vache a
eue vler (note donne par un technicien). Le but principal de l'tude est de comprendre la variabilit
du rsultat d'un taureau l'autre. Il y a 28 individus.
1. Calculer le nombre de paramtres du modle additif complet
2. Proposer un modle eets alatoires et donner son nombre de paramtres. Justier le choix de
ce modle en termes d'interprtations de la rgression et de son utilisation.
3. Ecrire les commandes
lme()
et
nlme()
un eet alatoire avec une matrice de covariance diagonale dont les coecients ne dpendent que
lme(y0+Tr,random=(1|Ta))
lme(y0+Tr,random=list(Ta=pdIdent(1))).
de Race. Par exemple, la syntaxe
Exercice 4.
quivaut
On reprend l'exemple des goteurs. On suppose que l'on dispose en outre d'une variable
lme()
13. D'aprs C. Lavergne et C. Trottier, Sur l'estimation dans les modles linaires gnraliss eets alatoires,
de Statistique Applique,
30
Revue
2v .
(yi , zi )
mais pas
xi .
temprature. L'estimateur
OLS
de
et
Les
u2 (yi xi )2 + (zi xi )T 2
v (zi xi ).
et
la
(II.18)
u = 1, v = Id, c'est la somme des carrs des distances des points d'observation (zi , yi ) aux points de
(xi , xi ), et le minimum sur les xi est donc la somme des carrs
des distances la droite. Il n'existe malheureusement pas d'estimateur satisfaisant de v ; si l'on esssaye
par exemple le maximum de vraisemblance, on trouve au nal v = 0 avec X = Z , une vraisemblance
b = bOLS 14 .
innie et
Si
Si
est dicile estimer par ailleurs, ou en absence de contrainte supplmentaire, on est donc confront
les observations au risque de fausser compltement les tests. C'est un problme trs gnral, qui se
retrouve, par exemple, en sries temporelles : si l'on observe un AR(1) avec du bruit,
yn = xn + vn ,
vn .
yn
xn = axn1 + un ,
y.
Dans le cas qui nous occupe, la solution pratique se trouve dans les cas o l'on observe d'autres
yi = f (i ) + ui ,
ui = N(0, 2 ),
inconnue :
i [0, 1].
(II.19)
Il s'agit d'un problme non paramtrique car l'ensemble des fonctions candidates n'est pas un espace de
dimension nie.
(i , yi )
reprsentes sur la gure par des cibles. Elles suivent le modle (II.19) sauf que l'intervalle de variation
de
plein ; on a pris
= 1.
Si l'ordre est eectivement connu, l'estimation peut se faire par une rgression
yi = 1 + 2 i + 3 i2 + 4 i3 + ui .
14. Pour les dtails, voir l'article :
functional realtionship,
M.E. Solari
31 :372-375, 1969.
xi
de Kiefer et Wolfowitz : Consistency of the maximum likelihood estimator in the presence of innitely many incidental
parameters,
27 (1956), 887906.
31
En gnral l'ordre n'est pas connu (et mme l'hypothse f polynmiale n'est qu'une approximation)
et la question de l'ordre utiliser se pose. La gure montre les estimes pour des ordres 3 et 6 (courbes
en pointills). On voit que l'estime avec l'ordre 6 est trs mauvaise ; ceci vient du fait que les coecients
supplmentaires ont t utiliss pour approcher davantage les donnes (bruites) ce qui a induit un cart
important la vrit aux endroits o les observations se font rares ; si l'on augmente l'ordre, le polynme
estim va s'approcher de plus en plus des points d'observation en ayant un comportement trs chaotique
entre ces derniers, c'est ce que l'on appelle l' overtting . La dicult est donc de trouver un ordre
(taille du modle) raisonnable.
3
2
1
0
3
4
0
0.2
0.4
0.6
0.8
1.0
1.2
qui minimisera l'erreur de prdiction. Pour estimer cette erreur on utilisera l'estimateur CV (galement
appel PRESS : Predicted Residual Sum of Squares) : pour tout
i,
calculer le modle
b(i)
(cf. II.2.5)
puis
CV (p) = n1
(yi xi b(i) )2
i
o la dpendance en
l'individu
CV (p) = n1
X
i
n).
u
b2i
(1 hi )2
p
CV (p) en fonction
p
de d ainsi que celle de
b et de l'estimateur au maximum de vraisemblance
bM V = RSS/n.
bM V est
une fonction dcroissante de d car c'est la norme de la projection sur des espaces embots.
b n'est
visiblement pas non plus une mesure trs satisfaisante. En pratique CV (p) avoisine son minimum sur un
Les deux gures suivantes illustrent la mthode. La premire montre l'volution de
valeurs acceptables.
4.5
4.1
verite
deg=3
deg=4
3
+
sch
smv
cv
3.7
3.3
2.9
2.5
2.1
1.7
1.3
0.9
3
1
32
0.2
0.4
0.6
0.8
1.0
1.2
CV
CV
(Qy, QX)
ne
donne pas le mme rsultat (noter que ce dfaut d'invariance n'est pas forcment un dfaut). La solution
propose est de prendre le
hi
16
p/n
(car la somme de
hi
n
RSS
(n p)2
GCV (p) =
qui est beaucoup plus simple calculer. Le paragraphe suivant dcrit une approche classique qui utilise
la base de Fourier plutt que les polynmes. D'autres choix sont encore possibles comme on le verra plus
loin.
f;
e2ij f () d,
j =
f () =
j e2ij .
(II.20)
jZ
Remarque
si
: on prend ici, pour simplier l'expos, la notation complexe, qui n'est pas trs adapte en rgression
k = k .
X
f () =
j ej ()
Z
j =
ej ()f () d,
0
ge0
j = 0, 1, . . .
On a alors
Xij = e2iji
y = X + u,
(II.21)
qui est la forme habituelle (vu l'absence d'ambiguit, on a supprim dans ce paragraphe l'toile qui
dsignait prcdemment le vrai paramtre par opposition au paramtre gnrique). Noter que la matrice
XT
yi
en
i ,
= 0,
est rgulire (
On va construire un estimateur biais, mais dont les performances seront trs suprieures OLS dans le
cas o beaucoup de
Rappelons que des intgrations par parties dans (II.20) montrent que si
admet
drives intgrables,
|j | < Cj q .
bj = 0,
pour un certain
j0
infrieur
n.
Une fois
j0
j0
pour
|j| j0 .
tend rapidement
f.
Par ailleurs, la validit thorique de l'approche par validation croise gnralise a t dmontre par
Polyak et Tsybakov
16.
17 .
Technometrics
17. B.T. Polyak, A.B. Tsybakov, A family of asymptotically optimal methods for selecting the order of a projection
estimator for a regression,
33
elle-mme. En particulier il pourra tre plus judicieux d'utiliser une base de fonctions non-priodiques si
l'on sait que
vk (x) = x ,
x [0, 1]) 18
k = 0, 1, . . .
k = 0, 1, . . .
k = 2, 3, ..
Mentionnons galement la possibilit d'utiliser les fonctions splines (polynmes par morceaux adquatement raccords). Nous renvoyons [15].
Prenons un exemple : On s'intresse l'auence dans des magasins (rponse
qu'il fait
y)
en fonction du temps
yi = 1 + 2 xi + ei .
Si les mesures sont prises des heures direntes de la journe, il sera trs important d'intgrer cela au
modle, par exemple par l'intermdiaire d'une variable
ti
ti = (ti 9)/10.
k+3
aurait pu galement dcouper la journe en parties et introduire un rgresseur symbolique, ce qui revient
au mme que de prendre pour
est une
extraire
ui (tj )
dont les premires fourniront une base adapte. Le fait d'utiliser les
rponses pour fabriquer les variables explicatives va malheureusement compltement perturber les tests
qui suivront.
La librairie
fj
[0, 1]
hk
fk ,
on
gk
des polynmes orthogonaux, ce qui thoriquement ne change rien mais pratiquement donne
XT X.
34
paramtres :
R
X
pr N(xr , r2 ).
r=1
Ce qui peut galement s'interprter comme un mlange de plusieurs types de donnes, chacun suivant
le modle habituel ; chaque type
contient que la constante,
Par exemple
produit ;
pr
xi = 1,
a la probabilit
pr
ne
r peut reprsenter un certain type de consommateur, et y son opinion (note) sur un certain
r. Ces types sont inconnus, et la rgression
R = 2, 1 = 2
et
1 6= 2
Mentionnons sans dmonstration que l'estimation du modle peut se faire itrativement par la mthode
G(y; )
r = Diag(q1r . . . qnr )
qir
soit du type
r.
valeurs initiales.
est la
21 . La gure II.4 montre les spectres pour 4 individus pris au hasard ; la rponse est la
temprature de gel. Dans les expriences qui vont suivre, on a recentr les variables et les rponses.
Noter que l'on voit bien la corrlation des rgresseurs en raison des frquences proches.
19. P. ex :
Austral. J. Statist.,
35
0.06
5e3
0.05
3e3
0.04
0.03
1e3
0.02
0.01
1e3
0
3e3
0.01
0.02
5e3
0.03
0.04
7e3
0
40
80
120
160
200
240
280
320
360
400
40
80
120
160
200
240
280
320
360
400
Observations empiriques :
1. L'estimateur
OLS a un faible pouvoir prdictif compar d'autres qui seront prsents plus bas.
raisonnablement attendre, en raison du bruit d'estimation qui est du mme ordre sur toutes les
composantes, mme petites. Une rgression
trs petit et des performances trs mauvaises sur d'autres donnes (surparamtrisation, cf. II.5).
3. En grande dimension, la collinearit mesure entre prdicteurs, ou entre prdicteurs et variables
peut facilement tre due au hasard, i.e. non signicative [6].
4. Un petit sacrice sur le RSS augmente considrablement le choix des
b
B = { : SS() (1 + )SS()}
Analyse :
possibles : l'ensemble
est consquent.
On est dans la mme situation qu'au II.5, la dicult supplmentaire tant qu'il n'y a pas
de relation d'ordre sur les coecients, relation qui rduisait le problme la comparaison d'une suite
de modles embots. Le point 4 prcdent encourage aller dans la direction suivante : Introduire une
hypothse a priori sur
B , et proposer
un estimateur dont les perfomances seront d'autant meilleures que cette hypothse sera satisfaite. Le type
d'hypothses considres sera de norme raisonnable ou a peu de coecients non nuls.
Objectifs.
On est conduit naturellement des objectifs plus ou moins contradictoires dont l'importance
Pouvoir prdictif :
Trouver un estimateur (biais) de moindre MSE (et plus prdictif ) sous une
nuls
3. Traiter des situations pratiques intermdiaires o le nombre de variables explicatives est trs grand
et beaucoup de
Les mthodes prsentes dans la suite proposeront gnralement une suite de modles de complexit
croissante. Le choix entre ces dirents modles reste dlicat et se fait souvent avec la
croise.
validation
On pourra consulter la rfrence [6] et le chapitre 3 de [9] pour des complments cette partie et examen
des dirents algorithmes rcents.
36
Une
ACP
de
dont les colonnes sont orthonormes, les composantes principales, celles de plus grande inertie
y = Xa0 a + u,
premires composantes :
yba = xWa ba .
dans le cas de plusieurs rponses, surtout des ns de prdiction. L'ide est de choisir d'abord les combinaisons linaires des rgresseurs les plus corrles aux rponses. Breiman et Friedman proposent dans
[3] une discussion approfondie des direntes mthodes utilises dans le cas de plusieurs rponses ; leurs
conclusions sur le
PLS
base.
Attention, la validation croise est, pour le PLS, lourde mettre en uvre du fait que les rgresseurs sont
calculs partir des rponses. Il faut donc retirer l'individu avant d'avoir commenc le PLS, puis faire
le PLS, la rgression et calculer l'erreur de prdiction, ceci pour tous choix de nombre de composantes
gardes et tous les individus. En sommant sur les individus on obtient un score de validation croise pour
chaque choix de nombre de composantes. C'est ce qui est fait dans la gure II.5 (gure de gauche) ; dans
la gure de droite on a retir non pas un individu mais 1/10 pris alatoirement, ceci 60 fois, puis moyenn
les erreurs obtenues (sur l'avantage de la V-fold CV, ici
V = 10,
l'
Notons galement que fait d'utiliser les rponses pour fabriquer les variables explicatives perturbe tout
test de signicativit que l'on pourrait faire ensuite, ce qui pousse utiliser la validation croise.
4.3
4.3
4.1
4.1
3.9
3.9
3.7
3.7
PLS
3.5
PLS
3.5
3.3
3.3
3.1
3.1
ACP
2.9
2.9
2.7
2.7
2.5
2.5
2.3
ACP
2.3
0
10
12
14
16
18
10
12
14
16
18
Figure II.5 Critres de validation croise sur les donnes d'hydrocarbure. Par leave-one-out (
gauche) et par extraction d'un paquet alatoire de 10% d'individus test ( droite). En abscisse le
nombre de rgresseurs introduits, colonne de 1 non compte (
T SS/n = 4, 27).
bOLS
( shrinkage ).
37
24 :
bR = (X T X + I)1 X T Y.
C'est le
qui minimise le
SS()
(II.22)
sous la contrainte que
kk
pour un certain
(dpendant de
).
(II.23)
il existe des estimateurs biaiss qui ont un meilleur MSE et donnent de meilleurs
prdicteurs. Ce phnomne a tendance s'accentuer en grande dimension. Ici, un calcul simple montre
k k < p, l'estimateur nul (i.e. = +) est meilleur que bOLS ; ici, le meilleur choix de est
= p2 /k k2 .
que si le plan est orthogonal,
Le cas du plan gnral est plus compliqu ; on peut cependant aborder la question en notant que la
2
Idp ) (utiliser la
formule classique pour les esprances conditionnelles de vecteurs gaussiens, note 8 p. 27). L'implication
pratique de cela est que cet estimateur est
j
. Il est donc important de
formule ridge correspond
bR = E[ |y]
N(0,
Exercice (Validation croise) Vrier que la formule (II.1) reste valide pour bR
X T X + Id (cf. l'exercice 14
T
1 T
avec hi = xi (X X + Id)
xi .
par
Craven et Wahba
si l'on remplace
XT X
p. 22) puis que l'erreur par validation croise est donne par (II.10)
Vrier que
GCV
= nRSS/(nTrA )2
concide avec CV si
Stepwise (mthode ascendante) : Elle consiste crer une suite croissante de modle en ajoutant
chaque tape la variable qui fait le plus diminuer le rsidu
k,
le modle
Sa mise en pratique est coteuse (Pour les amliorations rcentes, voir [10]). Elle est peu stable,
et donne des rsultats moyens en prdiction lorsque l'on est dans la situation intermdiaire o
beaucoup de
3.
ACP et PLS.
P. Craven, G. Wahba
L. Breiman,
J. Amer. Statist. Assoc.
L. Breiman
, Smoothing noisy data with spline functions. Estimating the correct degree of smoothing
error.
27.
Numer. Math.
The little bootstrap and other methods for dimensionality selection in regression : X-xed prediction
87 (1992), no. 419, 738754
38
Technometrics
37 (1995), no. 4
4.
Ridge : Son pouvoir prdictif est meilleur que le best subset regression (Art. cit. note 27), mais il
n'est pas invariant par changement d'chelle (sur les rgresseurs), et ne conduit pas des modles
plus simples (par annulation de coecients
acp
j ).
contraire l'objectif de parcimonie prsent dans l'introduction. Les statisticiens se sont alors intress
proposer des mthodes intermdiaires entre best subset regression et ridge. L'ide est de considrer des
gnralisations de la mthode ridge de la forme suivante :
SS() = ky Xk2
p(j ),
(II.24)
b = arg min
SS()=a
de pnalisation et
b,
a = SS()
SS(),
p(j )=b
, a
ou
b.
d'orthogonalit impliquent
p(j )
bOLS
sont gnra-
lement pralablement standardises. Cet estimateur apparat comme un cas particulier d'un estimateur
plus gnral, l'estimateur
lars
validation croise, on trouve une valeur du critre de 2,5 avec 25 coecients non nuls ; attention, ce chire
est dicilement comparable aux 11 (en gros) variables choisies par le
variables originales.
C'est l'irrgularit de la pnalisation en 0 qui fait que beaucoup de coecients seront estims 0, ce
qui n'est jamais le cas avec la mthode ridge. Noter qu'il est clairement dmontr pour cet algorithme que
la valeur de a qui conduit estimer 0 les coecients eectivement nuls ne conduit pas une estimation
optimale des autres, cette dernire demandant un a plus petit 29 ; on voit donc une sorte d'incompatibilit
entre les deux objectifs prsents dans l'introduction. En particulier la validation croise ne conduit pas
une bonne limination des
j .
Mthode garrote (Art. cit. note 27). Elle ne rentre pas tout fait dans le cadre de l'quation (II.24).
o
b est obtenu comme solution de :
On note ici l'esimateur OLS utilsant toutes les variables, alors
c = arg min
c
X
i
yi
cj jo xij
2
cj ,
cj > 0,
(II.25)
b = cj jo .
(II.26)
On peut le voir comme un LASSO aprs une sorte de normalisation des rgresseurs (xij
7 jo xij ).
Cet
estimateur a l'avantage d'tre invariant par changement d'chelle, comme le best subset, mais contrairement au prcdent et au ridge ; il tombe un peu dans l'oubli car il ncessite d'avoir
minimiser galement sur tous les
tels que
X o = y ).
p<n
( moins de
Art. cit. note 29). C'est l'anctre du LASSO (Art. cit. note 28).
28.
R. Tibshirani
Dantzig selector,
39
et garrote.
J. Amer.
Mthode SCAD 30 (Smoothly Clipped Absolute Deviation). Conue pour pallier les dfauts du LASSO,
elle correspond un choix de p(.) plus compliqu que LASSO ; elle dpend de , ressemblant qualitativement
b moins
Screening. Il s'agit d'oprer une premire passe assez simple pour liminer des variables de sorte se
ramener
p < n,
avant d'utiliser une des mthodes prcdentes. L'ide la plus rpandue est simplement
d'ordonner les variables en fonction de leur corrlation avec la rponse ; elle est nave et des amliorations
ont t proposes. Nous renvoyons au 4 de [6]
kY Xk
a son rang
Yb = X bOLS
Q = Yb T Yb (Y T Y )1 = Y T X(X T X)1 X T Y (Y T Y )1
Q = T 1 DT (diagonalisation)
b = bOLS T 1 Ir T
(c--d
(II.27)
coecients de
Q),
et
Ir
plus grands
Breiman et Friedman [3] proposent une mthode ( curds and whey ) base sur un modle o
une structure alatoire de vecteurs indpendants. Sans entrer dans les dtails, mentionnons qu'il obtient
les nouvelles estimes comme combinaisons linaires des estimes OLS pour chaque composante avec la
formule
1x>
(1 + x1 )1 , 0 x 1, ). Le paramtre doit
bOLS est simplement multipli par
l'observation est scalaire,
et
Si
b = argmin
par
(yi xi )
est maintenant une certaine fonction dirente du carr. Pour donner moins de poids aux individus
x2 .
Typiquement
J. Fan, R. Li,
Y. Kim, H. Choi, H-S. Oh,
I.R. Dohoo, C. Ducrot, C. Fourichon, A. Donald & D. Hurnik
Assoc.
31.
Variable selection via nonconcave penalized likelihood and its oracle properties,
J. Amer. Statist.
40
29, 221-
u2
pour
|u|
b = argmin
|u|
tend vers 0,
(u)/
tend vers
2|u|,
on retrouve la
|yi xi |.
33.
= +
, Wiley, 1981.
41
u.
42
III
ui
yi = xi + ui
et les
ui
pratique on pourra conforter cette hypothse en faisant un test de normalit sur les
b
b = (,
b2 ) est
4
2 /(n p). Il
2
b np
(,
n b ).
2 .
( , 2 ),
En
u
bi .
b2 est
b
M V =
est
13 - Dfinition
U est un vecteur alatoire
ha, U i est gaussienne.
gaussien sur
Rn
R de U
p(u) = p
a Rn ,
et de
U
R
la variable alatoire
1
T 1
exp (u ) R (u ) .
2
(2)n det(R)
1
Une des proprits fondamentales des vecteurs gaussiens est l'quivalence entre indpendance et noncorrlation (elle est fausse pour les vecteurs de variables gaussiennes, cf. l'exercice 2 p. 45) :
43
14 - Thorme
Soient
et
et
U=
V
W
R>0
et un bloc correspondant
implique que
se factorise en
Il est bon de voir que les vecteurs gaussiens s'expriment toujours comme combinaisons de v.a. gaussiennes
indpendantes :
15 - Proposition
Soit
de dimension
T = R.
U = V + ,
Si
P P = I et D diagonale
V ar((I P P T )U ) = 0).
avec
positive,
On utilisera fortement dans la suite la proposition suivante dont la dmonstration est l'application des
rsultats prcdents (cf. exercice 3 p. 45) :
16 - Proposition
Soit
n.
Alors
Ai Aj = 0
pour tous
galement les
En particulier si
U N(, 2 Id),
pendantes.
17 - Thorme
y N(X , 2 I) :
b N( , 2 (X T X)1 )
2
(n p) b2 2np .
b et
b2 sont indpendants.
Sous l'hypothse
b
b = (,
b2 )
XT u
et
Ku.
44
III.1.4 Exercices
Exercice 1.
X b
et de variance
est
bM
VI
applique
(y1 , . . . yn ),
2
n/2
p(y1 , . . . yn ) = (2eb
M
.
V)
Exercice 2. Soit U
1) = 1/2)
une variable
indpendant de
u.
N(0, 1)
Montrer que
Exercice 3. Le but de cet exercice est la dmonstration de la proposition 16. On rappelle que les matrices
de projection orthogonale sont exactement les matrices symtriques
telles que
P2 = P.
U N(0, Id)
est
QU N(0, Id).
A.
quand
(, ),
du/(2 ).
et donner l'expression de
est connu.
p
X/ Y /k o X est une gaussienne centre
(k, l) est celle de (X/k)/(Y /l) o X 2k et
est celle de
rduite et
18 - Proposition
Sous l'hypothse
Pour tout
y N(X , 2 I)
j = 1, . . . p,
Tj =
la variable alatoire
bj j
b(bj )
Tu =
u,
np (
b(bj ) est l'erreur standard de bj , cf. II.2.2).
la variable alatoire
uT b uT
,
b
b(uT )
b2=
b(uT )
b2 uT (X T X)1 u
Soit
q<p
F =
et
une matrice
qp
n p.
q,
de rang
la v.a
1
1 b
( )T LT L(X T X)1 LT
L(b )
2
qb
45
(q, n p).
Les deux premiers points sont une consquence du thorme 17 ; pour le troisime, noter que la variable
L(X T X)1 LT
1/2
L(b ) suit la loi N(0, 2 Idq ), ce qui fait que le numrateur est un 2
fois un
2q .
Un intervalle de conance. En raison de la symtrie de la loi de Student on a P (|Tj | < tnp (1/2)) =
1 .
i
bj , bj + ,
=
b(bj ) tnp (1 /2)
(III.1)
kxkS = xT Sx)
L .
(on note
vecteur
(j1 , . . . jq )
si
se rcrit
qp
pour le
telle que
L = (j1 , . . . jq ).
(y1 , . . . yn ),
H0
et
Y ).
H0
H1 =non-H0 ,
i.e.
0 1 = ;
si
H0 = = 0 (0
rduit
est simple. L'ide est que celui qui met le test en uvre cherche convaincre
H1 .
= (Y ) {0, 1}
toujours sous
et
H1
est de
H0 , P ( = 1) .
H0
H0
H0
H1
H1
Un faible niveau
a un niveau gal zro (mais aucun intrt). L'importance du niveau s'illustre par
est Ce mdicament est sans eet et
H1
si
H0
H1 :
: Le diesel et le sans
H0 ,
toujours sous
puissance
H1 , P ( = 0) .
Ce concept n'est pas d'une grande aide pour les tests d'une hypothse contre son contraire, car la puissance vaut
alors typiquement
le test dcidera
est
toujours sous
H1 , P ( = 1) P (0 = 1).
est UPP (universellement plus puissant) s'il est plus puissant que tout autre test de mme
H0
et
H1
Pour revenir l'exemple du mdicament, l'organisme payeur (Scurit Sociale) veut un niveau faible garanti tandis
que le laboratoire veut un test puissant. Ces deux exigences ne peuvent tre concilies qu'avec un minimum
d'chantillons.
Mise au point d'un test d'hypothses. La mthode usuelle consiste utiliser une statistique S(Y )
b si H1
H0 et grande sous H1 (p.ex. S(Y ) = kk
H0 si S(Y ) est trop grand :
H1
:
0 )
et rejeter
46
:
6= 0 , S(Y ) = b
S(Y )
QS
H0
H0
(statistique pivotale ) ;
H1 .
2. Se donner un niveau
Rejeter
S(Y )
si
S(Y ) > QS (1 )
sous
H0 .
I
I
fausse ;
H0
H0 .
H0
si
sous
H0
H0
est simple
jeux de donnes
2. On estime alors
QS (1 )
H0
Y 1, . . . Y N
:
sous
H0 .
H0
1. Simuler
l'ecacit du
= 0
QS (1 )
(choisir
sous
H0
N 1/)
S(Y i )
des
(1 )N plus petites.
b0 , l'estime
Si maintenant H0 n'est pas simple, on peut reprendre cette mthode en utilisant cette fois-ci
de sous H0 pour faire les simulations ( . . .au lieu de faire le max sur tous les de H0 comme il
faudrait en toute rigueur). Cette mthode peut se justier mathmatiquement si la statistique S est
asymptotiquement pivotale.
b }) tel que
I = { : | |
= 0 ssi 0 I a un niveau
(typiquement de la forme
pour tout
infrieur
(car
(0 )
de niveau au plus
et
H1
:
6= 0 ,
I = {0 : H0
d'un test
entre
H0
:
= 0
est accepte}
P0 (0 I) = PH0 ( = 0) 1 .
j .
|bj |/b
(bj ) est pivotale pour H0 : j = 0 (la loi de T
sous
H0
est indpendante de
T =
et des autres
|bj |
tnp (1 /2).
b(bj )
On prsente souvent les rsultats d'une rgression avec un tableau contenant les niveaux de signication
de ces hypothses (test de type III, procdure
prdiction de la consommation des voitures
(un trac rponses/rgresseurs fait prfrer la variable P2 qui est le carr du poids)
1. Heavenrich, Murrell, and Hellman, Light Duty AutomotiveTechnology and Fuel Economy Trends Through 1991,
U.S., Environmental Protection Agency, 1991 (EPA/AA/CTAB/91-02). Disponible par Internet sur DASL.
47
Estime
(bj )
(b
(bj ))
cart-type
t-stat
Pr(>|t|)
Volume
-7,2 e-6
1,7 e-5
-0,42
0,67
P2
1,5 e-5
1,26 e-6
12
< 2 e-16
Puissance
4,6 e-5
1,13 e-5
4,1
0,0001
Table III.1 Table d'analyse des coecients (82 individus). La colonne t-stat contient la statistique de student, rapport des deux premire colonnes.
solution de
|bj | =
b(bj ) tnp (1 j /2)
qui s'interprte comme la probabilit sous
grande. L'hypothse
H0
est refuse si
appartient un intervalle de
[x, +[
H0
: j
= 0
de probabilit
5%
T au
= 5%),
sous
H0 .
(par exemple
Dans ce cas
moins aussi
c--d si
|bj |
est signicativement
non-nul. Ici le volume n'a pas d'inuence signicative sur la consommation lorsqu'on connat les deux
autres variables.
j -ime
variable explicative.
j -ime
rgresseur aprs
rgresseur, car ce dernier peut tre fortement corrl aux autres, c'est le problme des facteurs
proches (ou encore de la colinarit) : Si dans l'exemple on rajoute comme rgresseur la vitesse maximale
j -ime
Pr
Volume
0,63
P2
< 0,0001
Puissance
0,83
Vitesse
0,7
Mme si sur certaines donnes on doute de la validit du modle (rsidus gaussiens . . .) et que l'on ne
dsire pas interprter les p-values
comme des
instruments de mesure qui rsument au mieux l'information d'intrt, au sens o leur calcul
p1
H0
: L
zros. C'est ce que font les tests de type 1 et 3 des logiciels par opposition
aux tables d'analyse des coecients qui considrent chaque modalit sparment (nous y reviendrons au
III.4.3).
: L
= l
est
l R ,
soit
48
19 - Lemme
Soit
b0
l'estimateur de
1
L = l,
et
yb0 = X b0 .
On a
(Lb l) = kb
y yb0 k2 = kb
y0 yk2 kb
y yk2 = RSS0 RSS.
Rejeter
RSS0
H0
(RSS0 RSS)/(p p0 )
> fq,np (1 )
RSS/(n p)
si
H0 ,
et
p0 = p q
H0 .
Ce
test gnralise les tests de Student du paragraphe prcdent (et les crit d'une faon dirente).
Sous
H0 ,
les statistiques
RSS0 RSS
2
et
RSS
2
2q
sont des
et
2np
indpendants
H0
et
H1
ESS ESS0
H0
Ce test possde des proprits d'optimalit et d'invariance que nous ne dtaillerons pas ici .
Le test de Fisher peut tre ralis sous R avec la commande
Interprtation : Soit F
lht
de la bibliothque
car.
(RSS0 RSS)/(pp0 )
la statistique de Fisher. On prsente le rsultat du test en
RSS/(np)
donnant la valeur critique du seuil = 1 Fpp0 ,np (F ), o Fpp0 ,np est la fonction de rpartion de la
[f , +[
de
de probabilit
5%
sous
SS
d.l.
F-stat
Pr
Modle
ESS
p1
1 Fp1,np (F )
Rsidu
RSS
np
Total
TSS
n1
F =
(np)ESS
(p1)RSS
Table III.2 Table d'analyse de la variance. Fp1,np est la fonction de rpartion de la loi de Fisher-Snedecor
p 1 et n p. L'hypothse H0 : i = 0, i 2 est refuse si Pr est infrieur au niveau
= 5%). La colonne d.l. contient les degrs de libert des statistiques (SS) qui sont des 2 sous H0 .
de paramtres
exemple
Analysis of Variance,Wiley,
49
1970.
(par
(RSSq RSS)/q
fq,np (1 ).
RSS/(n p)
o
RSSq
(III.2)
ji
sont nuls.
est ici la
matrice de slection des composantes. Ce test est utilis dans le cas d'une variable qualitative plus de
deux modalits.
On peut vrier que ce test peut galement s'interprter comme un test de
les rponses et les variables ajoutes sachant les rgresseurs du modle sous
n'a qu'un rgresseur que l'on teste contre la constante seule,
intervenir que la corrlation empirique entre
et
p = 2, q = 1,
H0 .
En particulier si l'on
H0
: Volume=0 contre
le modle complet on trouve une p-value de 0,63 (c'est le rsultat du test de Student dj vu), si
H0
l'on teste
H0
: Vitesse=0 contre le modle complet on trouve une p-value de 0,67 et si l'on teste
: Volume=Vitesse=0 on trouve une p-value de 0,85. C'est--dire qu'on accepte plus facilement
bj
et de
b(bj )
si
correspondant. Cette mthode ne convient cependant pas car si par exemple deux rgresseurs sont trs
proches (la puissance de la vitesse de la page 48), un seul sut :
b(b2 ) et
b(b3 ) sont trs grands. Les hypothses
sans que 2 = 3 = 0 le soit.
2 = 0
et
3 = 0
yi '
bk xk .
k6=k1
Noter que les
les
p2
bk
ont tous chang depuis le premier modle. On choisit ensuite la variable retirer parmi
On s'arrte quand la dtrioration est juge statistiquement signicative ; ceci se fait simplement avec
le test de Fisher (quation (III.2)) :
S'arrter si
o
RSSk
(n k)
RSSk1 RSSk
f1,nk (1 )
RSSk
RSSkq
un
RSSk
l'aune d'un
fq,nk (1 ).
On met parfois cette mthode en uvre en vriant aprs chaque tape que les rgresseurs limins sont
encore inutiles en faisant
k1
tests de Fisher.
50
La mthode ascendante raisonne de manire similaire mais en introduisant les rgresseurs un un.
H1
mme dans une situation o les tests sont puissants, et rend plus hasardeuse la slection des rgresseurs
ajouts.
Il est
sont
proches mais utiles pour la prdiction, la mthode descendante en rejetera une assez vite (car elle est
redondante) pour garder l'autre longtemps. Une conclusion htive est de dire que le premier facteur n'est
pas signicatif tandis que le second l'est. C'est videmment inexact.
Par exemple si l'on veut tudier le taux de frquentation du mdecin en fonction des deux variables
ge et sexe et que les individus sont des jeunes femmes et des hommes vieux, il est clair que le
plan d'exprience est mauvais, et l'on ne pourra pas dmler l'inuence de l'ge de celle du sexe.
C'est pour cela qu'il est trs avantageux d'avoir une matrice
possible (valeurs propres de
XT X
Utilisation de critres. Une autre direction qui est utilise pour choisir son modle consiste minimiser
un RSS pnalis (puisque minimiser le RSS conduit automatiquement au modle le plus compliqu). On
bCV ,
AIC = n log(RSS) + 2p
BIC = n log(RSS) + p log(n)
o
de prdiction qui serait faite sur un nouvel chantillon (c'est donc essentiellement un concurrent
bCV ).
On peut dire globalement que BIC aura tendance choisir un modle trop parcimonieux tandis que AIC
aura la tendance inverse. Il n'est pas rare de voir AIC ajouter des variables juges non signicatives
5% par le test de Fischer.
2p
car essayer un trop grand nombre de modles peut conduire encore un phenomne d' overtting .
L'utilisation de ces critres, plutt que des statistiques de Fisher, n'est pas particulirement recommande
car les mesures de signicativit ont disparu : on travaille l'aveugle. Ils sont en revanche pratiques pour
comparer des modles non embots, voir les dtails dans l'appendice A, et la discussion du II.8.
III.2.5 Exercices
Exercice 1. Test de Chow. Le modle est
yt = ak + bk xt + ut ,
avec
k=1
pour
t T,
et
t = 1, . . . 2T
k=2
y = X + u
2. En dduire un test de H0 : (a1 , b1 )
pour un
bien choisi.
et l).
Exercice 2. On est dans le cadre linaire gaussien habituel. Soit 0 une valeur nominale donne. Proposer
un test pour
H0
:
= 0
contre
H1
:
> 0
n = n1 + n2 + n3
http://www2.isye.gatech.edu/statistics/papers/06-05.pdf
51
1
= 2 .
3
y = X + u,
H0
: 2
= 3 = 0
H0
et
de la statistique
En dduire un test de
Exercice 5.
H0
contre
est fonction
H1 .
Une estimation OLS 40 individus donne les rsultats suivants (1 est le coecient du
rgresseur constant) :
b =(32 8 4 1)T
RSS =18
T SS =80
(X T X)1
20
=
1
2
20
T
1
.(X X) =
1
95%.
1
2
.
1
4
2 .
H0
: 2
+ 3 = 7
1 .
S = (7 b2 b3 )/b
, b =
b(7 b2 b3 ) dont on donnera la
Tu de la proposition 18).
2 + 3 = 7 contre H1 : 2 + 3 < 7 . On utilisera S . Qu'observe-t-on ?
3 = 4 = 0 contre son contraire.
H0
(cf la statistique
5. Faire le test
6. Faire le test
H0
H0
:
:
RSS = 7
RSS = 6.
cice 1 p. 51.
52
et
y0
1. Soit
h = x0 (X T X)1 x0
(x0 b x0 )/b
h1/2 ?
I(x) centr en x0 b et de niveau
(x0 b y 0 )/b
1+h
pour
x0 .
x0 b et
de niveau
pour
y0 .
P (x0 I(x0 )) 1 , mais si l'on veut des prdicteurs pour plusieurs rgresseurs
0
00
exemple x et x , et sans faire baisser le niveau, il faudrait pouvoir assurer
P (x0 I(x0 )
et
simultanment, par
x00 I(x00 )) 1
qui n'est pas satisfait. La suite de l'exercice propose une solution ce problme.
1. Soit
2.
3. Montrer que
2 = pb
2 (x(X T X)1 xT )fp,np (1 )
de niveau
P (x, x J(x)) 1 .
Exercice 8. (Lien avec le rapport de vraisemblance) Vrier que la statistique du test de Fisher
vaut
n p 2/n
(
1)
p p0
o
(III.3)
P (y)/P0 (y),
grand).
u
b = Ku,
u
bi
est
N(0, (1 hi )2 )
20 - Dfinition
On appelle rsidus studentiss les estimateurs centrs rduits des erreurs
ri =
yi ybi
b 1 hi
ri
yi ybi
=
= ri
b(i) 1 hi
np1
.
n p ri2
(III.4)
Les notations sont celles du II.2.5, et la dernire galit est laisse en exercice.
21 - Proposition
Si
y N(X , I), ri
53
n p 1.
xb(i) )
u
bi = (1hi )(yi
ri
consquence de (II.1), qui asure l'indpendance des deux termes de la fraction. La statistique
ri .
22 - Dfinition
Une
Un niveau
de choisir
individus extrmes, puisque statistiquement de tels individus seront toujours prsents en proportion de
5%. Pour la motivation de la dnition suivante, on rfre au II.2.5 p. 15 :
23 - Dfinition
Une
donne isole au niveau est un individu i pour lequel nhi /p dpasse le seuil (souvent
donne atypique est une donne soit isole soit aberrante.
10
7
4
6
5
1
0
0
0
Figure
10
xi
-1
est en abscisse et
ri = tnp1 (1 i /2).
Interprtation.
modle estim sur les autres donnes. Une donne isole est une donne dont le rgresseur
dans l'espace ; son retrait augmenterait donc sensiblement la matrice de covariance de
trs sensible la valeur de
inuent sur l'estimation de
Ci =
b ;
est isol
de plus
est
b2 p
p(1 hi ) i
(III.5)
(la dernire identit est laisse en exercice). Comme une grande valeur de cette statistique peut aussi
bien venir d'un fort rsidu que de l'isolement dans l'espace de l'individu, le meilleur trac est a priori
celui des
Bilan. Mme si le modle gaussien semble douteux, les rsidus studentiss sont intressants car ils sont
normaliss, et l'on peut faire le graphique de la gure III.1, quitte rester prudent dans l'interprtation
qu'on lui donne.
Il faut se garder d'liminer de but en blanc des individus aberrants d'une analyse pour la recommencer
ensuite ; un tiers pourrait y voir juste titre une manipulation grossire pour biaiser l'tude. L'analyse
54
des rsidus se contente de jeter la suspicion sur certains individus et c'est ensuite l'analyste d'essayer de
savoir s'ils contiennent des erreurs (de mesure, etc.), et si ce n'est pas le cas, ils peuvent tre au contraire
importants pour l'estimation ou la remise en cause du modle (linarit, etc.).
C'est une grave erreur que d'liminer a priori les individus isols, qui au contraire peuvent tre porteurs de
beaucoup d'information. On peut cependant tre amen le faire pour amliorer la linarit du modle,
considrant que le modle linaire n'est gnralement qu'une approximation raisonnable, valide sur un
domaine pas trop grand.
Pour les exercices suivants, il pourra tre utile de se servir du thorme 9 p. 16.
Exercice 1. Pourquoi ri
b 2
|xi (b(i) )|
.
phi
b2
ni
la taille du groupe
yik = i + uik
o
(III.6)
ieengrais.
est la productivit du
0
y= .
.
.
0
.
.
.
.
...
.
.
.
...
.
.
0
1
+ u
y = X + u
bi = yi. = n1
i
et de 1. Le vecteur ligne
xi
yik .
k
On s'intresse savoir si les
c'est--dire si le facteur engrais a un eet visible. Les quantits intervenant dans le test de Fisher sont
X
X
X
(yi y)2 =
ni (
yi. y)2 +
(yik yi. )2
i
i
TSS
avec ici
ESS
RSS0 = T SS .
ik
RSS
ESS
et
RSS
sous
H0 ,
cf. III.2.3.
55
i = 0.
(III.7)
i
Il y a un paramtre supplmentaire mais la contrainte de somme nulle fait que le nombre de paramtres
libres est toujours
p.
On a bien entendu
1
I
et
i = i .
I = 0.
p.
Exemple. On s'intresse la composition des hotdogs 4 . La rponse est la teneur en calories et la variable
explicative Viande a trois modalits : Volaille, Boeuf, Divers (essentiellement porc et boeuf ). Il y a 54
individus. La table d'analyse de variance du modle (commande
de viande inue signicativement sur les calories, expliquant plus d'un tiers (39%) de la variabilit des
donnes :
dl
Sum Sq
Pr(>F)
Viande
17700
3,8e-06
Residuals
51
28000
summary de R) donne
Estimate
Std. Error
Pr(>|t|)
(Intercept)
157
5,2
< 2e-16
Divers
7,7
0,8
Volaille
- 38
7,7
9,4e-06
Attention, l'interprtation du 0,8 est que les viandes diverses n'ont pas d'apport calorique signicativement dirent du boeuf (associ lui-mme un coecient nul : l'analyse est dissymtrique). Si l'on
s'arrange pour que ce soit la variable Volaille qui ait son coecient nul, on obtient la table suivante
Estimate
Std. Error
Pr(>|t|)
(Intercept)
119
5,7
< 2e-16
Boeuf
38
7,7
9e-6
Divers
40
8e-06
o l'on voit que les coecients de Boeuf et Divers sont signicativement dirents de 0 (donc de Volaille)
mais sans doute indistinguables entre eux vu l'ecart-type. Cette analyse se conrme par une reprsenta-
100
140
180
Boeuf
Divers
lib.stat.cmu.edu/DASL.
Volaille
56
Si l'on regroupe ces deux classes on obtient aprs une analyse supplmentaire le modle :
Calories=157, 7
37 1Volaille + bruit,
R2 = 0, 39.
b = 23,
Ce regroupement peut se justier plus prcisment en testant le modle aggrg contre le modle original
(commande
et
nij .
j = 1, . . . J
pour tous
i = 1, . . . I
nij > 0
yijk
est
ni. =
j nij
et de mme pour
n.j .
nij
On
i, j .
(III.8)
ij = i + j
A + B : yijk = i + j + uijk .
C'est un modle
I +J 1
(III.9)
et
Pour dnir les paramtres de manire unique, on impose une contrainte, par exemple
Ce modle correspond au prcdent sous les contraintes
J = 0.
ij i0 j ij 0 + i0 j 0 = 0.
ij = ij 0 (ij = i0 j
pour le second).
Exemple. Reprenons les donnes du II.2.8 : On observe la prise de poids de rats nourris avec quatre
rgimes dirents correspondants deux sources de protines possibles (boeuf ou crales) en deux doses
possibles (faible ou leve). Chacune des combinaisons des deux facteurs est teste sur 10 individus tous
dirents ; il y a donc 40 observations de prise de poids en tout. Le plan est quilibr. On obtient la table
d'analyse de variance suivante (procdure
seulement :
d.l.
Sum Sq
F-stat
Pr
Dose
1300
5,81
0,021
Protine
221
0,99
0,33
Dose : Protine
884
3,95
0,054
Rsidus
36
8050
en premire approche
mme modle sans ce facteur (les dtails de l'interprtation seront donns plus bas). Seule la dose semble
avoir un eet rellement signicatif. Si l'eet de la protine dans le modle additif n'est pas signicatif,
le niveau 0,054 pour l'interaction plaide pour un eet possible de la protine fortement dpendant de la
dose.
Autres paramtrisations.
ij = + i + j + ij
(III.10)
57
soit le modle
yijk = + i + j + ij + uijk .
Le terme
ij
(III.11)
est nul dans le cas du modle additif. Pour avoir unicit de la dcomposition, il faut
introduire des contraintes. Donnons deux exemples de telles contraintes, d'une part celles utilises par
lees logiciels habituels, et ensuite un autre jeu commode pour l'tude des plans quilibrs :
I = J = Ij = iJ = 0, i = 1, . . . I,
X
X
X
X
i =
j =
ij =
ij = 0.
i
j = 1, . . . J
(III.12)
(III.13)
n'engendrent que
=0
ou
une
Facteur
Param. libres
.
I 1
.
J 1
..
(I 1)(J 1)
total
IJ
C'est la convention (III.12) qui est gnralement utilise ; voici la table d'analyse des coecients (procdure
summary de R, option /solution dans la procdure glm de sas) pour l'exemple prcdent :
estime
cart-type
Pr
Constante
100
4,7
2e-16
DoseFaible
-20,8
6,7
0,0036
ProtineCrale
-14,1
6,7
0,042
DoseFaible.ProtineCrale
18,8
9,5
0,054
b = 15
Attention PRUDENCE. Il faut bien voir que les , i , j et les ij dpendent de la convention utilise
(i.e. la contrainte choisie), et n'ont pas de signication pris sparment, ce qui fait que ces paramtres
prsentent peu d'intrt pour l'utilisateur ; par exemple, sous la convention (III.12), on a
= IJ , i = iJ
tandis que sous la convention (III.13), on a
1 X
1X
ij , i =
ij .
IJ ij
J j
On se gardera donc bien de les interprter htivement. Par exemple dans un modle avec interaction,
b=0
Les valeurs prises par les , i , j , ij n'ont donc qu'un intrt purement indicatif,
exemple pour comparer certains
par
bi
i et J
de faire ce genre de test (c'est la thorie des testable functions). En revanche le logiciel acceptera de
tester i
comme i et
En pratique, il faudra mieux directement tester le modle o les deux classes ont t fusionnes contre
l'original.
ij
IJ
j nij et
i nij sont non-nuls, le
mais le nombre de nij non-nuls : c'est le nombre
en jeu, les cellules vides tant considres comme inexistantes. Pour calculer les termes
58
et
p0
intervenant dans la statistique de Fisher, une mthode qui marche toujours (indpendamment du nombre
de facteurs) de prendre le rang des matrices
p = r,
p0 = r0 .
terprtation des analyses car il n'y a pas de facteurs proches. De plus elle prsente des formules simples
pour les estimes.
Soit
nij .
Alors
n = IJK .
b = y
bi = yi.. y =
1 X
bj = y.j. y =
yijk y
IK
1 X
yijk y,
JK
jk
ik
=
b+
bi + bj ) et un facteur (
bij =
b+
bi ,
b
et
bij =
b + j ). Les variances expliques par chaque facteur sont dnies et calcules comme suit (RSSM
dsigne le RSS du modle M ) :
X
X
bi2 , SS = T SS RSSB = IK
SS = T SS RSSA = JK
bj2 ,
i
SS = RSSA+B RSSAB = K
bij
ij
(vrication aise). Notons que la dcomposition
orthogonaux de dimension
IJK )
yijk =
b+
bi + bj +b
ij + u
bijk
X en quatre sous-espaces orthogonaux dnis par les contraintes inposes (cf. (III.10)
A, B ou interaction ; SSx est le carr de
projection de y sur le sous-espace correspondant et le thorme de Pythagore implique la
dcompos l'espace
formule de sommation :
SS :
d.l. :
T SS
n1
= SS
= I 1
+ SS
+ J 1
RSS
+
SS
+
+ (I 1)(J 1) +
SSx
sous
x = 0.
RSSAB
n IJ
(III.14)
variable, de la seconde, et de l'interaction des deux. Chaque terme est interprt comme la contribution
de chaque facteur (cf. l'explication de la page 15 pour la justication de l'usage des carrs). C'est la
colonne Sum Sq de la table de la page 57. Sous l'hypothse nulle que
termes sont, aprs division par
2 ,
des
. = . = .. = 0,
ces quatre
termes sont ceux qui servent construire les statistiques de Fisher. La simplicit de cette dcomposition
et de son interprtation sont caractristiques du plan quilibr, et des plans o
les espaces associes
A, B
et
A.B
n = 4K
et la matrice
Ici
Exp1
Exp2
Exp3
Exp4
fois chacune :
1 ajoute. L'quilibre se voit la symtrie du plan par rapport aux facteurs qui fait que les colonnes
59
Modle de base additif. Dans l'exemple prcdent seules 4 combinaisons de facteurs ont t considres
sur les 8 possibles, on ne peut donc pas estimer plus de 4 paramtres. On part alors du modle additif.
De mme, si dans un modle deux facteurs
et
j,
= 0
Facteur tester
A
B
interaction
H1
A
A+B
AB
AB + C
H0
(III)
Facteur tester
A
B
C
cst
A
A+B
AB
interaction
H1
AB + C
AB + C
AB + C
AB + C
H0
B + C + A.B
A + C + A.B
AB
A+B+C
Table III.3 Deux tests de type I et de type III pour le modle AB+C . ( gauche) Tests embots :
ce qu'ajoute chaque facteur aux prcdents. ( droite) Test contre
un facteur quand les autres sont prsents. La partie
A.B
H1 = complet : ce qu'ajoute
(voir le texte).
A.B correspond au facteur obtenu par orthogonalisation des colonnes de AB celles corresA et B ; ce sont des termes d'interaction pure d'interprtation obscure, qui sont les .. du
La notation
pondant
statisticien dnit une suite croissante de modles par ajout des facteurs un un. On teste chaque
modle contre le prcdent. Typiquement la mthode descendante dictera l'ordre choisir (cf. III.2.4).
Le test dit de type I (procdure
de Fisher est en fait remplac par le RSS du modle complet avec la modication correspondante du
seuil, cf. l'exercice 4 p. 52. En consquence, pour un plan quilibr, l'ordre d'introduction des facteurs
n'intervient pas, cf. l'exercice 10 p. 68.
Dans le cas de facteurs proches le premier sera choisi et l'autre rejet, cf. III.2.4.
Exemple : Reprenons l'exemple de la prdiction de la consommation en fonction du volume, du poids,
de la puissance et de la vitesse maximale (table III.1 page 48). On obtient les analyses de type I suivantes
Type I
Pr
Type I
Pr
Type I
Pr
Volume
< 0.0001
Volume
< 0.0001
P2
< 0.0001
<0.0001
P2
< 0.0001
P2
< 0.0001
Vitesse
Puissance
<0.0001
Vitesse
<0.0001
Volume
0.6
Vitesse
0.7
Puissance
0.83
Puissance
0.83
On voit bien sur les deux premiers tableaux l'eet de la colinarit de la vitesse et de la puissance.
60
Le troisime indique que le volume n'ajoute rien au poids et la vitesse. Pour les donnes du II.5.1 on
obtient les rsultats suivants
Type I
Pr
x
x2
x3
x4
0.084
0.0014
0.0064
0.68
et les rsultats sont similaires pour des degrs plus levs. Le test de type I donne de bons rsultats car
ici la situation est trs dirente. Le plan d'exprience est encore trs dsquilibr, mais le fait que le
test de type I dpende de l'ordre des facteurs n'est pas ici un inconvnient car il y a un ordre des facteurs
bien dtermin, et donc une suite croissante de modle clairement dnie.
Tests contre H1 = complet . C'est le test de H1 contre H0 du tableau III.3 (Type III de sas. Avec
R utiliser la commande
avec
la communaut scientique [21], en raison de la prsence d'interaction sans les facteurs pricipaux dans
H0 .
Ce type ne conduit pas une decomposition exacte de la variance en somme de carrs. En absence
d'interaction, il correspond au test de nullit de la page 47, transform en test de Fischer pour les facteurs
plus de deux modalits.
Dans le cas d'interactions le test de
AB
contre
les facteurs simples contre le modle complet en gardant les interactions, ce qui est trs discutable car
on peut dicilement imaginer une interaction
AB
sans que
approximatif, A sera rejet si son eet est totalement imprvisible si l'on ne connat pas B .
Les rsultats ne dpendent pas de l'ordre dans lequel sont prsents les facteurs.
additionnelle de chaque facteur et leur signicativit. Ses conclusions de signicativit sont ables : dans les exemples prcdents l'analyse limine les
Type III
Pr
Type III
Pr
Volume
0.63
x
x2
x3
x4
0.35
P2
< 0.0001
Puissance
0.83
Vitesse
0.7
La prsentation habituelle
0.32
0.45
0.68
RSS
SS ainsi
T SS , illustrant la contribution de chaque facteur
la variance totale (cf. la colonne SS du III.4.4, et l'exercice 10 p. 68) ; ces nombres n'ont toutefois pas
grand intrt puisque les niveaux rsument au mieux l'ensemble.
5. Dans le test de signicativit de
moyen de
A,
l'hypothse
modle suivant o
possde 3 modalits et
en
sera
22 + 5 = 0
23 + 6 = 0
34 + 5 + 6 = 0.
61
A.
Sur le
Type I et Type III. Le but originel des tests est de montrer la signicativit de certains facteurs ;
dans cette optique il convient de s'arranger l'avance pour avoir un plan d'exprience correct, et le
mieux est de tester entre des hypothses claires ; comme alternative, le test de type III peut se justier
(car le plus svre et donc le plus convaincant), bien qu'il soit trs remis en cause [21]. En revanche,
l'utilisation des tests pour faire de la slection de modle ne doit tre vue que comme une application
supplmentaire, avec une mise en pratique assez informelle, mais qui rclame une bonne comprhension
de la situation ; ici les tests de type I sont pratiques et permettent d'illustrer graphiquement par les
dirents SS la contribution de chaque facteur, avec prudence car l'ordre de leur introduction importe.
alors
et
le sont (les deux premires lignes du tableau III.3 ne sont plus des tests de signicativit).
Dans le cas contraire on peut prfrer l'liminer du modle et reprendre l'analyse ; on peut galement
tester
A (B + C
contre
AB + C ).
Bilan 2 : facteurs proches, colinarit. La dicult vient des facteurs signicatifs proches ; pour
les faire apparatre dans les tests, l'ide est que l'limination de l'un rendra l'autre signicatif dans le
modle ; on peut par exemple comparer les rsultats de dirents tests simples (p.ex. modles additifs
faisant intervenir un des facteurs, l'autre ou les deux, ou bien tests embots en changeant l'ordre des
facteurs (on peut les faire sous R avec
Une
acp
Corrlation eective (dans le monde rel) entre direntes variables (on postule donc l'existence
d'une distribution pour les rgresseurs) ; par exemple la cylindre et la puissance.
Plan d'exprience dsquilibr : les sujets gs sont massivement des femmes. C'est une corrlation
articielle (entre sexe et ge) introduite par le choix des individus.
Dans le deuxime cas il est dicile de conclure puisque les donnes sont intrinsquement mauvaises :
si l'on veut tudier le taux de frquentation du mdecin en fonction de l'ge et du sexe et que les individus
de l'chantillon sont des femmes ges et des hommes jeunes, il est clair que le plan d'exprience est
mauvais, et l'on ne pourra pas dmler l'inuence de l'ge de celle du sexe ; on conclura alors
globalement signicatif des deux facteurs sans pouvoir distinguer lequel a vraiment de l'eet.
l'eet
I Variable signicative dcorrle. Il peut arriver qu'une des variables explicatives ait une corrlation
quasi-nulle avec les rponses (et soit mme rejete dans l'analyse de type I) mais qu'elle soit signicative
dans l'analyse de type III : ceci vient du fait qu'elle est implicitement prsente dans d'autres rgresseurs
xi = t i +
zi , x0i
(facteur P) et deux types d'angle de lancer (facteur A) . La rponse est la distance D parcourue. Il y a
deux individus pour chaque combinaison de facteurs soit 16 en tout.
Les rsultats de l'analyse de type I sont prsentes dans la table qui suit ; le plan tant quilibr, l'ordre
d'introduction des variables n'intervient pas. On garde ici le modle P*T, l'angle n'apparaissant pas
signicatif. La qualit du papier n'a donc pas la mme inuence selon le type de pliage.
La contribution des facteurs (et non pas leur signicativit) peut s'illustrer par un camembert bas sur
les SS, aprs une analyse liminant les interactions trop faibles (ce genre de gure est prendre avec
prcautions puisqu'elle dpend a priori de l'ordre dans lequel sont rentrs les facteurs ; ce n'est pas le cas
6.
Donnes et texte disponibles sur internet : Australasian Data and Story Library,
62
Df
SS
F value
Pr(>F)
1718721
1.63
0.24
385641
0.367
0.56
654481
0.623
0.45
23386896
22.2
0.001
419904
0.4
0.54
73441
0.07
0.8
P
T
A
P :T
P :A
T :A
P :T :A
21025
0.02
0.89
Residuals
8392178
2160
1511
4596
3706
3854
1690
5088
4255
6520
4091
2130
3150
6348
4550
2730
2585
Table
SS,
n du II.2.4) :
Papier:Angle
Residuals
Papier
Pliage
Angle
Papier:Pliage
y1.
.
.
.
y=
yI.
o
et
avec
1
0
0
1
...
...
0
0
z1.
0
0
z2.
...
...
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...
...
y = X + u
X=
ui.
0
0
.
.
.
.
zI.
uij .
Exemple 1. Reprenons l'exemple de la page 56. On observe une variable explicative supplmentaire :
Sodium. L'analyse du type I du modle avec interaction puis l'analyse des coecients du modle additif
donnent
Df
Sum Sq
Pr(>F)
Estimate
Std. Error
Pr(>|t|)
Viande
17692
7.1e-12
(Intercept)
75,74
8,7
1,6e-11
Sodium
18614
4.4e-13
Divers
-1,66
4,5
0,717
Viande : Sodium
212
0.58
Volaille
-49,8
4,7
2e-14
Residuals
48
9242
Sodium
0,2
0,02
2e-13
L'interprtation du 0,717 est que les viandes diverses n'ont pas d'apport calorique signicativement
dirent du buf (le coecient du buf est 0). L'interprtation du 0,58 est que l'eet calorique du
sodium ne dpend pas de la viande. Si l'on regroupe ces deux classes on obtient aprs une analyse
supplmentaire le modle
63
Calories=75, 2
49 1Volaille + 0, 2
R2 = 0, 8.
b = 13, 6
Sodium+ bruit,
Exemple 2. On s'intresse la relation entre l'activit sexuelle et la longvit chez les mouches 7 . L'tude
se base sur une exprience faite sur 5 groupes de 25 mouches mles. Aux mouches du premier groupe,
on a fourni une femelle vierge par jour, et celle du deuxime groupe huit par jour ; les groupes 3 et 4
correspondent la mme exprience mais avec des femelles rcemment insmines (ce qui rend le rapport
impossible) ; les mles du groupe 5 sont seuls. Les variables sont
Sur les 9 combinaisons possibles pour N et V, seules 5 ont un sens. Pour viter ce problme on peut
retirer le 5e groupe de l'tude, ce qui fait un plan plus simple 4 possibilits qui permet de tester un
modle additif. On va voir que le modle additif sera refus, ce qui fait on pourra passer 5 groupes sans
perturber le modle.
Les rsultats (logiciel R, tests de type I) de l'analyse de covariance pour le modle nal
L=N V +T
obtenu aprs limination progressive des interactions non signicatives sont (le 5e groupe a t limin) :
Df
Sum Sq
F value
Pr(>F)
N
V
T
N :V
3542
16
6,8e-07
6675
60,4
3e-12
13633
123
1259
11,4
Residuals
119
13145
<
V =1
N =8
N =1
N =0
2,2e-16
0,001
V =0
41
65
54
63,7
61
Le tableau de droite exprime l'eet relatif en jours de la partie NV du modle, par les prdictions
T xe (valeur moyenne sur l'chantillon : 0, 817 mm) dans les cinq groupes sur la
L = N V + T estim sur l'chantillon complet, ce qui revient L = Groupe + T :
obtenues
base du
modle
c'est un
exemple typique de l'utilisation des coecients pour l'interprtation. La contribution des facteurs peut
s'illustrer par un camembert bas sur les Sum Sq :
Vierge
Thorax
Nombre
Nombre*Vierge
Residus
Nature,
J.A. Hanley & S.H. Shapiro, "Sexual Activity and the Lifespan of Male Fruities : A Dataset That Gets Attention",
of Statistics Education,
www-unix.oit.umass.edu/statdata.
64
Journal
y = r + u
y = v + u.
ou
Aspect pratique : Dans les donnes, les villes seront souvent numrotes partir de 1 dans chaque
rgion, c'est pour cela que les logiciels permettent de prciser que les facteurs ville et rgion sont
hirarchiss, ce qui permet de ne pas confondre des villes de mme indice appartenant des rgions
direntes. L'quation ci-dessus s'crit alors
yrvk = rv + urvk
est
yrvk = + r + rv + urvk ,
un coecient
R = rV = 0
sera
lm(yrgion+rgion/ville).
yik = + i + uik ,
u N(0, 2 I),
N(0, 2 I)
i)
j ),
l'utilisation du
modle mixte se justie si l'on ne s'intresse pas la valeur explicite de l'interaction culture/engrais ; il
pourra s'crire
yijk = i + j + ij + uijk ,
Une faible valeur de
u N(0, 2 I),
N(0, 2 I).
(III.15)
identi mme si le modle eets xes correspondant n'est pas identiable (par manque d'observations,
X dciente) ; il est donc surtout intressant pour tenir compte des interactions lorsqu'on n'a pas
assez de donnes pour pouvoir les estimer explicitement ou bien que l'on ne cherche pas les mesurer. Son
usage typique est de tester la prsence d'interactions (ou plutt de corrlations) dans un tel contexte :
i.e.
H1 = mixte
et
H0 = xe
sans interaction .
Dans le modle longitudinal de la page 29, le modle mixte a permis de constater que les enfants les plus
grands 12 ans sont ceux qui croissent le plus vite entre 12 et 14 ans (r01
= 0, 61
signicativement non
nul).
Avec R, on peut faire des tests de modles embots par la commande
lrtest()
de la bibliothque
lmtest
anova(.,.)
ou bien en utilisant
prfrable de forcer l'estimation par maximum de vraisemblance , l'estimateur par dfaut tant gnralement REML (REstricted Maximum Likelihood) ; ceci se fait en ajoutant l'option
ou
Method="ML"
8. Cf :
(cas
lme).
65
2010.
REML=F
(cas
lmer)
lme4.r-forge.r-project.org/lMMwR/lrgprt.pdf.
Facteurs embots.
le diamtre,
le temps,
l'arbre et
la pomme. Pomme et
RA
et
RP
(, ) N(0, RP ),
u N(0, 2 I),
revient comparer les uctuations d'un arbre l'autre (en taille et en vitesse de
croissance) aux uctuations d'une pomme l'autre l'intrieur du mme arbre. On pourra faire au choix
lme(yt,random= t|a/p)
ou bien
lmer(yt+(t|a)+(t|a:p)).
lme lorsqu'il y a plusieurs facteurs de groupe non embots est semble impossible, p.ex. et
lme(y1,random=list((1|A),(1|B))) quivaut lme(y1,random=list((1|A/B)))
correspond yijk = + i + ij + uijk , c.--d. l'embotement.
L'utilisation de
la commande
et
yijk = i + j +
Q
X
q xqij + uijk
q=1
o
xqij
x1ij = Si Sj
Si
(resp.
j)
(voir les dtails au paragraphe IV.2.2 o cette rduction est utilise pour un modle linaire gnralis).
On a ici
I +J +Q1
paramtres au lieu de
I J
peut tre
Si ,
ou encore l'estime de
j i o la variable explicative
III.4.9 Exercices
Exercice 1. Deux analyses de variance de sur les mmes donnes vous fournissent les rsultats suivants.
Que pouvez-vous en dire ?
H1
AB
A+B
A
H0
A+B
A
0.4
cst
0.001
Pr
0.4
H1
AB
A+B
B
H0
A+B
B
0.4
cst
0.001
Pr
0.4
Exercice 2. Une analyse de variance donne les rsultats suivants. Choisissez-vous le modle A,B ,A + B ,
le modle complet, ou un autre ?
H1
AB
A+B
B
H0
A+B
B
0.001
cst
0.001
Pr
0.4
Exercice 3. On teste un engrais (facteur A). Malheureusement les champs engraisss sont principalement
tous dans une rgion tandis que les champs tmoins sont dans une autre. Il y a donc un facteur rgion
proche de
A.
66
A : H0 = B contre H1 = A+B ?
A?
Quelle sera la
Exercice 4. (Modle mixte) On teste l'eet de deux mdicaments m = 1, 2 sur dirents sujets ; chaque
sujet n'essaye qu'un mdicament. La rponse est une variable mesurant l'amlioration de l'tat de sant
du sujet. Les sujets sont regroups en
ymgk
y a donc
est la rponse du
2
mg N(0, m
),
ymgk = m + mg + umgk ,
o
k -ime
sujet du groupe
umgk N(0, 2 )
chantillons, envoys
en
et fait
ni
m,
= 2 , 1 < 2 .
et
va de 1
Kmg .
Il
yijk = + i + j + ij + uijk ,
avec
= 0
variances restantes.
i = 1, . . . I,
j = 1, . . . ki .
Pour tester l'adquation du modle linaire, on considre en parallle le modle d'analyse de la variance
un facteur
tait qualitative ).
1. crire le modle d'analyse de la variance un facteur et expliciter la somme des carrs des erreurs
rsiduelles
R1 .
F = n1 (R R1 )/(n2 R1 ).
l'hypothse H0 ? Quelle est la loi
n1
et
n2 .
Quelle est
de
Exercice 7. On considre le modle deux facteurs avec interaction sous les deux formes quivalentes
(III.8) et (III.11) avec la convention (III.13)
1. Quelle est la particularit de la matrice
2. Toujours si
fonction de
Exercice 8.
ij
si
I = J = 2?
(11 , 21 , 12 , 22 )
, i , j , ij ?
exprimant
valent
en
On considre l'analyse de la variance un facteur avec le modle sous les deux formes
et
bi
en fonction des
bi .
ni
Exprimer
bi
(b
1 , . . .
bp ) ;
i.
ne dpend pas de
i = 1, . . . p,
k = 1, . . . ni .
bi
bj /2 ? Donner un intervalle de conance de niveau =5% pour
i j /2, centr en
bi
bj /2, en fonction des nk , de p et de
b. Vrier que pour (p, n1 , n2 ,
b, ) =
(2, 35, 3, 0.15, 0.05) la largeur de l'intervalle pour 1 2 /2 est 0,2 (cf. l'exercice 5 p. 52).
67
(2np (.)
dsigne le quantile du
2np )
(n p)b
2 /2np (1 /2) 2 (n p)b
2 /2np (/2).
3. En dduire un intervalle de conance de mme niveau pour la variance de
pour les valeurs considres plus haut on obtient
b1 b2 /2 [0.054, 0.087]
bi
bj /2. Vrier
avec = 5%.
que
Exercice 10. (Tests de type I) Rcrivons le modle complet d'analyse de variance AB+C comme
AB + C = c + A + B + C + A.B,
nA nB + nC 1 = 1 + (nA 1) + (nB 1) + (nC 1) + (nA 1)(nB 1)
criture qui ne fait que dterminer cinq groupes dans les colonnes de
quivalent obtenu par orthogonalisation de chaque facteur aux prcdents dans l'ordre donn par la
syntaxe, le modle
AB + C
devenant :
T SS RSS
(dcomposition de la
variance).
http://lib.stat.cmu.edu/datasets/.
On no-
tera le travail d'analyse des rgresseurs et des rsidus. Voici la liste des variables et les conclusions de
Therese Stukel (la rponse est le salaire horaire) :
p < .0001).
The eect of age was not signicant after controlling for experience.
Standardized residual plots showed no patterns, except for one large outlier with lower wages than
expected. This was a male, with 22 years of experience and 12 years of education, in a management
position, who lived in the north and was not a union member. Removing this person from the analysis
did not substantially change the results, so that the nal model included the entire sample. Adjusting
for all other variables in the model, females earned 81% (75%, 88%) the wages of males (p
Wages increased 41% (28%, 56%) for every 5 additional years of education (p
68
< .0001).
< .0001).
They increased
= .016).
< .0001).
Management and professional positions were paid most, and service and clerical
p < .0001).
R2 = .35.
In summary, many factors describe the variations in wages : occupational status, years of experience,
years of education, sex, union membership and region of residence. However, despite adjustment for all
factors that were available, there still appeared to be a gender gap in wages. There is no readily available
explanation for this gender gap.
69
70
IV
mais dans
R+ , N
ou
encore un intervalle d'entiers (cf. le credit scoring I.2.3). Il est clair que le modle gaussien est mal
(binomiale
B(k, ),
ou Poisson
P(),
(P )R
et
dont la
(rponses et variables
ou exponentielle
E(),
7 r(),
dite fonction de lien (les logiciels proposent une famille nie de telles distributions et de fonctions de lien
et il reste choisir). Tout est ensuite bas sur l'estimation de
yi Pr(xi ) ,
dans le modle
i = 1, . . . n.
N(, 2 )
et
r() = .
Nous ne traitons pas ici des modles linaires gnraliss mixtes except l'exercice 4 p. 80.
(dx)
de Dirac, et soit
et
un intervalle ouvert.
71
est
est intrieur
b () = E [y]
b00 () = Var (y)
o l'on a mis
en indice pour souligner que les lois sont paramtres par . La fonction b() est strictement
D .
convexe l'intrieur de
= E [y]
fait que
b0 ()
est en
de loi
par
B(m, p)
Pm
P()
Pm
k=0
N(, 2 )
k
Cm
{k}
log
p
1p
b()
mp
m log(1 + e )
1
k=0 k! {k}
log
N(0, 2 )
2 2 /2
25 - Dfinition
Soit
(dy) une mesure sur R, dirente d'une masse de Dirac. On appelle famille exponentielle
une famille de densits de la forme
y b()
f (y; , ) = exp
+ c(y, )
paramtre de nuisance
telles que
dans un
certain domaine de
Le terme
c(y, )
(dy) ;
ceci permet
E[y] = b0 ()
Var(y)
= b00 ().
26 - Proprit
y1 , . . . yn une suite de tirages
valeur de , l'estimateur de
f (y; , ),
Soit
indpendants de loi
la
b = y
b0 ()
o
y dsigne
yi .
72
alors indpendamment de
Loi
mp
mp(1 p)
[0, m]
1
y e .
k0 k! {k}
o
n
2
. dy
exp (y)
2 2
R+
2
exp (y)
. dy 3
2
2 y
2p
R+
3 /
R+
Support
loi
B(m, p)
{0, . . . m}
P()
N(, 2 )
Gamma(, p)
R+
IG(, )
R+
my
p (1 p)
.
P
y
Cm
Pm
k=0 {k}
2y
Attention,
la loi binmiale est normalise (pour simplier le tableau suivant). Pour chaque loi, on a spar
f (.)
et
(dy)
Loi
B(m, p)
P()
N(, )
m log(1 + e )
(1 + e
V ()
(1 /m)
log
/2
1/
1/2
1/
1/
2/
log()
Gamma(, p)
p
1p
= b0 ()
b()
IG(, )
log
3 /2
b = y.
L'estimation de
Terminologie. La fonction V () = b00 () est appele fonction variance. La variance de y est V ().
B(m, p)
est la somme de
Bernoullis
B(1, p)
indpendants.
Ex. : Taille d'un sous-chantillon dans un chantillon de taille donne (nombre de sujets ragissant
favorablement).
p est entier Gamma(1, p) est la somme de p v.a. E(1). Gamma(, p) Gamma(1, p).
est encore une v.a. de loi gamma de
2
les p s'additionnent. On a galement n Gamma(2, n/2).
4. Gamma : Si
et
Ex. : Dispersion, dures de vie, tout ce qui s'apparente des sommes de v.a. positives.
5. Inverse gaussienne : La somme d'inverses gaussiennes indpendantes de paramtres arbitraires est
encore une inverse gaussienne.
Ex. : Temps mis par une marche alatoire pour atteindre une valeur donne.
(xi , yi ), i = 1, . . . n,
xi
73
yi
est rel.
27 - Dfinition
Un modle linaire gnralis pour
(yi )
dter-
f (., , )
xi
sont dterministes) :
yi
yi f (y, i , )(dy)
b0 (i ) = r(xi ).
indpendance des
b0
La fonction
en fonction de
xi .
yi
La loi de
(IV.1)
E[yi ] = r(xi )
quoi on doit ajouter la caractrisation de
: Var(yi )
= V (r(xi )).
Notons en particulier que, dans le cas d'une seule variable explicative, la fonction de lien fait que la droite
de rgression devient une courbe de rgression et que pour tous ces modles, part le modle gaussien,
la variance augmente avec la moyenne (plus
rgression).
La quantit
ybi
L(, ) = 1
n
X
yi i b(i ) +
La log-vraisemblance vaut
b0 (i ) = r(xi ).
c(yi , ),
(IV.2)
i=1
i=1
Aspects pratiques.
n
X
2 .
choisir la famille et la fonction de lien ; la table IV.3 dcrit les fonctions de lien
Le choix de la famille exponentielle : Dans l'crasante majorit des cas le choix parmi les cinq
familles prsentes prcdemment est quasiment dtermin par les valeurs prises par
de
(support
).
Si plusieurs choix sont possibles les tracs de rsidus normaliss permettront souvent de dcider du
plus adquat car les modles proposent un comportement dirent de la variance comme fonction
de
= r(x).
La fonction de lien sera quant elle guide par les considrations suivantes
1. Le
i = xi .
r(u) = 1/u),
E[y] = r(x )
: Si
De plus quand
xi
varie,
r(xi )
R+
si
xi .
E[yi ]
: rester born
si l'on a choisi une loi binmiale, rester positif si l'on a choisi une loi gamma, etc.
Exemple.
On dispose de
kn
blattes spares en
lots de
74
individus ; le
i-ime
Lien
= g()
= r()
loi can.
identit
log()
log(/(1 ))
log( log(1 ))
1 ()
e
1/(1 + e )
1 exp(e )
()
()1/
N
P
B(1, p)
logarithme
logit
loglog complmentaire
probit
puissance
Gamma, IG
Dr
r(Dr )
R
R
R
R
R
R
R
R+
[0, 1]
[0, 1]
[0, 1]
R+
Table IV.3 Les fonctions de lien usuelles. dsigne la fonction de rpartition de la Gaussienne.
Une colonne indique la loi pour laquelle le lien est canonique. Le lien logit est galement canonique
avec la distribution
dose
xi , i = 1, . . . n
B(m, p)
condition de remplacer
g()
g(/m)
par
yi .
et
r()
par
mr().
yi B(k, 1 + 2 xi ).
En particulier, le lien est l'identit et
E[yi ] = k(1 + 2 xi )
V (yi ) = k(1 + 2 xi )(1 1 2 xi ).
On voit tout de suite un problme : un tel modle ne peut expliquer ce qui se passe pour des doses
grandes. L'introduction du lien canonique rsoud ici ce problme :
r() =
2 > 0
1
,
1 + e
r1 () = log
.
1
r()
r(1 ).
Si
doit pouvoir balayer toutes les valeurs (tout le monde survit dose nulle et personne
dose innie) alors on pourra, par exemple, prfrer mesurer le dosage sur une chelle logarithmique :
r() =
1
.
1 + e
IV.1.6 Exercices
On pourra prfrer lire la partie suivante avant de faire ces exercices.
Exercice 1. Montrer que les modles suivants sont des modles linaires gnraliss :
1.yi
1
0
si
xi + azi + b3 log(xi ) + ei 0
sinon
N(0 xi 1 zi2 , 2 )
B(1, p) si xi = 0
3.yi =
B(1, q) si xi = 1.
2.yi
La paire
On explicitera
, les fonctions
et
1/(1+et ).
Exercice 2. On considre le modle poissonnien y P(ex ). crire l'quation satisfaite pour l'estimateur
au maximum de vraisemblance pour
Exercice 3.
p, (n) =
B (, )
sur
( + n)
n
.
n!() ( + )n+
75
donne l'entier
la probabilit
Sa moyenne est
-ime
l'instant du
+ 2 /.
et sa variance
Pour
p = /( + ) ;
alors
B (, ).
1. Montrer que pour tout
n, p, (n)
est x. Donner , b(), et b0 () comme dans le tableau IV.2. Plusieurs choix sont possibles pour
; on fera celui qui conduit au paramtre de la loi de Poisson quand .
2.
IV.2 Exemples
Le but de cette partie est d'illustrer ce qui prcde et de montrer comment on tend les modles exposs
plus haut. Pour plus de dtails concernant les problmes d'estimation, voir [14] ou [7].
y=
1 si la blatte meurt
0 sinon
x = (dose,
produit, souche)
= (z, j, s)
avec
y B(1, r(x))
R7 .
Le lien sera en pratique choisi parmi logit (modle logistique, lien canonique) ou probit ce qui
donne
P (y = 1) =
1
1 + ex
ou
P (y = 1) = (x).
r0 (.)
P (y = 1) c
x.
des lots de blattes o toutes les blattes du mme lot ont les mmes conditions d'exprience (mme
xi ).
Il est naturel de rassembler les rsultats lot par lot, sans distinguer les blattes.
Pour chaque lot, dsignons par
le nombre de blattes,
m l = n)
et la distribution de
Yl
(Yl , Xl , ml )1lL
le
est le nombre
est :
Yl B(ml , r(Xl ))
Exemple.
On fait tester 7 marques de corn akes par 100 personnes. Les tests sont faits par paires :
chacun fait 21 expriences consistant goter deux marques direntes et dire laquelle il trouve plus
(i, j)
plus crous-
1. D. Causeur et F. Husson, A 2-dimensional extension of the Bradley-Terry model for paired comparisons,
2005.
76
Journal of
39
64
40
61
76
46
61
65
59
55
85
60
36
35
31
25
41
35
60
41
69
41
80
28
39
45
75
59
71
37
24
15
59
20
29
18
54
40
65
72
63
82
r doit
r(0) = 0, 5 ce qui est bien le cas du lien canonique. Comme seules les dirences interviennent,
6
on peut poser 7 = 0 et il n'y a que 6 paramtres, xij {1, 0, 1} . Les intervalles de conance
obtenus pour les i conduisent un regroupement en 3 classes o les i ne sont pas signicativement
distincts : {2 , 7 }, {1 , 4 , 5 }, {3 , 6 } (par ordre de croustillance dcroissante ; on peut faire le test
sous R avec la commande lht de la bibliothque car). Notons que l'on retrouve dans cet exemple un
cas de non-monotonicit des tests au sens o la p-value de H0 : 3 = 6 est infrieure celle de
H0 : 2 = 7 , 1 = 4 = 5 , 3 = 6 .
On peut proposer le modle
satisfaire
glmer
de la bibliothque
lme4
essentiellement le mme but. Il est gnralement admis que l'hypothse de distribution gaussienne pour
les variables explicatives est importante pour que l'analyse discriminante donne de bon rsultats ; en
I Une autre interprtation du modle logistique par le modle invers. Supposons que yi soit tir selon une
loi de Bernoulli B(1, p) et que conditionnellement yi = , xi N( , R). Les paramtres du modle sont
donc (p, 0 , 1 , R). On montre alors facilement avec la formule de Bayes que log P (yi = 0|xi ) = + xi
pour un certain scalaire et un certain vecteur qui s'expriment simplement en fonction des paramtres.
certaines routes
yi = nombre
d'accidents
xi = (nombre
y P(),
(avec ici
R6 ),
log() = x
soit encore
E[y] = ex .
mieux adapt que le lien log-linaire qui implique un eet multiplicatif des facteurs.
Si l'on doit introduire une variable de normalisation
pi
(p.ex. : si les
yi
ments dirents, il est naturel de prendre en compte la population, ou la longueur totale des routes du
dpartement . . .), la rponse naturelle serait
duire
2.
log(p)
yi /pi . La
est
Statistical Association,
p en
E[y] = elog(p)+x .
77
La contrainte de variance gale la moyenne pour la loi de Poisson peut tre leve en utilisant une loi
(nijk ),
nijk
nijk (par exemple le nombre d'accidents un carrefour, i = jour/nuit , j = conduci, j, k est la proportion
d'individus qu'on trouvera dans cette case si l'on rpte l'exprience un grand nombre de fois, soit
E[nijk ]/E[n],
log pijk = c + i + j + k + ij
c = log
p,q,r
ep +q +r +pq
Le lien logarithmique permet donc de reprsenter l'indpendance comme la nullit de certains coecients
d'interaction, ici
ei ej ek
ij = 0.
(i, j, k)
est proportionnelle
exprimant ainsi l'indpendance des trois facteurs. Dans le cas contraire on concluerait par
exemple une surreprsentation des jeunes dans les accidents nocturnes. Les coecients
i , j , k
ne
font que reter la proportion de chaque modalit dans l'chantillon ; l'information relle se trouve dans
les interactions.
Contrairement ce qui a t vu jusqu' prsent, le rgression a ici pour objet de conclure des liens entre
les variables explicatives ; ces dernires se presentent donc naturellement comme des variables alatoires,
tout du moins pour ce qui est de l'interprtation des rsultats..
La cohrence du modle poissonnien alors que le vecteur des
nijk
rsultat suivant :
P
la loi de n1 , . . . nK est multinomiale M(n; p1 , . . . pK ), pk = k /, = k k .
C'est immdiatement vri en utilisant que
P (n1 , . . . nK |n) =
n P()
nk = n,
nK eK n e
n1 1 e1
n!
... K
/
=
pn1 . . . pnKK
n1 !
nK !
n!
n1 ! . . . nK ! 1
Exemple. Pour tudier la mobilit sociale, M. Hout 3 considre une table de contingence (pij ) o i (resp.
j ) dsigne la catgorie professionnelle (17 modalits) du pre (resp. du ls). Il exploite l'ide prsente au
1
III.4.8 : Q = 5 avec xij = Si Sj o Si est l'indice socioconomique de la profession (li au prestige, au
2
2
salaire, etc.), xij = 1i=j Si , et les trois autres sont fabriqus dans le mme esprit avec d'autres indices :
log pij = c + i + j +
5
X
q xqij .
q=1
3. M. Hout, "Status, Autonomy and Training in Occupational Mobility."
1984.
78
American J. of Sociology,
89 (6), 1379-1409,
Avec R :
glm(nbCatPere+CatFils+X1+X2+X3+X4+X5,fam=poisson)
En absence d'interaction signicative, on concluera l'absence de lien signicatif entre la profession du
pre et celle du ls.
Exemple. 4
Le point z se trouve dans le quatrime quadrant (i.e. /2 < arg z < 0) du plan complexe.
Dmontrer ou rfuter les propositions suivantes
(A) arg(z + z) = 0
(B) arg(z z) = /2
(C) z 2 est dans le troisime quadrant (D) < arg(z/z ) < 0
On s'intresse aux variables Rsultat, Sexe et Question et l'on rsume les donnes dans le tableau
suivant :
Hommes
Femmes
Correct
77
58
65
47
21
17
19
10
Incorrect
10
28
17
24
Non-rponse
12
23
11
Total
94
94
94
94
30
30
30
30
Df
P(>|Chi|)
Resultat
3e-42
Question
1.00
Sexe
5e-32
Res : Ques
4.5e-07
Le tableau de droite est la table d'analyse de variance ascendante donne par R. Aprs limination des
facteurs non-signicatifs, on a gard le modle
entre les sexes, mais il existe une corrlation entre la question et le rsultat : les questions n'ont pas mme
dicult. Ceci se conrme bien sur les donnes.
de femmes et que les rsultats ne sont pas uniformment distribues (il y a beaucoup plus de rponses
correctes). La nature du plan fait qu'il ne peut pas y avoir d'interaction signicative Sexe : Question (la
variable Sexe ne donne aucune information sur la question pose).
y=
1 sinon
x = (ge,
Introduisons la variable
zi
z = x + u
y=k
si
ak1 < z ak ,
a0 = ,
aK = +.
Soit
P (y k) = F (x + ak )
o
et
79
revient changer
en
1 y ). Il faudra estimer
ak . En pratique F
Anova()
de la bibliothque
car.
polr()
de la bibliothque
MASS
yi = Distraction
1 = spectacle
2 = tlvision
3 = visite d'amis
xi = (ge,
4 = autres
sexe, . . .)
K=4
exp(xj )
P (y = j) = PK
,
k=1 exp(xk )
K = 0
IV.2.5 Exercices
Exercice 1. On reprend l'exemple du IV.2.1 (blattes). Quelle est la dimension de si l'on suppose une
interaction entre la dose et la souche ? entre le produit et la souche ?
Proposer un modle linaire gnralis pour ces donnes. Quelle est la dimension de
Comment
femmes an de mesurer l'importance d'un risque gntique (prsence d'un certain gne) sur les fausses
couches. On a le tableau suivant : On dispose en ralit des variables suivantes, o
femme et
yij =
est l'indice de la
0
1
fausse couche
sinon
zij =
0
1
ge
< 35
sinon
ans
hi =
0
1
risque absent
sinon.
1. Proposer partir du tableau un test classique pour voir, pour chaque classe d'ges, si les chances
de fausse couche en absence ou en prsence de risque sont les mmes.
5. H.H. Hundborg, M. Hjbjerre, O.B. Christiansen & S.L. Lauritzen, Familial Tendency to Fetal Loss . . .,
Medicine,
80
Statistics in
< 35
35
ans
ans
vivant
fausse couche
vivant
fausse couche
sans risque
144
18
avec risque
121
57
pij
j -ime
accouchement de la
i-ime
femme :
log
pij
1 pij
= + azij + bhi .
yij .
log
o les
pij
1 pij
= + i + azij + bhi .
N(0, 2 ).
= 0 .
Exercice 5.
On reprend l'exercice 3 p. 30. La dicult est en fait mesure par une note entre 1 et 3.
Exercice 6.
uk
zk = xk + uk
et enn
IV.3 Estimation de et
IV.3.1 L'estimateur du maximum de vraisemblance
Dans tout ce paragraphe on suppose
vraisemblance, il faut maximiser en
L() = 1
n
X
au maximum de
b0 (i ) = r(xi ).
yi i b(i ),
(IV.3)
i=1
On a abusivement oubli les termes
des fonctions
c(yi , )
arbitraires, il peut trs bien y avoir des maximums locaux. La drive est
L () =
n
X
(yi b0 (i ))
i=1
i
00
V () = b (), on
et la relation liant
donne
variance
trouve
L0 () = 1
n
X
i=1
0
i
b00 (i )
= r (xi )xi .
yi i 0
r (xi )xi ,
V (i )
i = r(xi ).
les variables
x
i = r0 (xi ) xi
D = diag(V (x1 ), . . . V (xn ))1
81
on a
T D(y ).
L0 () = X
(IV.4)
Divers algorithmes bien tablis existent pour annuler cette fonction complique de
on verra le plus
utilis au IV.3.3.
bn
de
d'observations
(xi , yi )
que les hypothses ncessaires l'application des thormes concernant les proprits asymptotiques du
maximum de vraisemblance sont vrifes en toute gnralit. Supposons-les satisfaites et appliquons les
rsultats de l'annexe C. On a alors la convergence presque sre de
bn
vers
d'information de Fisher)
T
In = E L0n ( )L0n ( )T = 1
X DX
(IV.5)
In
par
Ibn ,
IV.3.3 Estimation de et
La consistance de
b=
b implique
1X
V (b
i )1 (yi
bi )2
n i
par
np
(IV.6)
estimateur est frquemment assez mauvais ; il est meilleur de faire une estimation au maximum de
vraisemblance (ce qui est facile car il s'agit de maximiser une fonction d'une seule variable).
Un algorithme d'estimation de
new = L00 ()1 L0 ().
L()
est :
Malheureusement la matrice de drive seconde est gnralement dicile calculer. On prfre la rem-
new
d'o l'algorithme
b = 2(Ls L())
b
D()
82
Ls
est la vraisemblance du modle satur, c--d du modle avec un paramtre dirent pour chaque
Ls = 1
n
X
i = yi
et donc :
b0 (i ) = yi .
yi i b(i ),
i=1
Noter que
b
D()
ne dpend pas de
RSS . Cette
b,
1 D()
quantit dicile interprter n'a d'intrt que purement indicatif. La dviance normalise,
est plus troitement lie la vraisemblance et donc intervient naturellement dans les tests.
IV.4.2 Tests
On utilise les mthodes gnrales proposes l'appendice C en exploitant les expressions obtenues pour
la vraisemblance et la matrice d'information de Fisher (IV.5). En particulier, comme la dirence de
de vrai-
D0 D1
2p1 p0 (1 ).
n'est pas connu, il sera en pratique estim sur le modle le plus compliqu
D0 D1
fp1 p0 ,np1 (1 ).
(p1 p0 )
b
Ces tests tant bass sur les rsultats asymptotiques, il est plus prudent, si
tement (par simulation d'chantillons sous
H0 )
H0
de la statistique
n = p),
H1
H0
2
i (yi i ) /V (i ). Elle vaut galement RSS dans le cas Gaussien. Lorsque est connu (modle
2
binomial ou poissonnien) cette statistique divise par suit un np , ce qui permet de faire un
. Un autre test d'ajustement construit dans le mme esprit, pour
test
RSS
pour comparer
b est
yb = 1x>
b
y = 1)
83
Df
Dev. Resid.
NULL
Pr(>
1025.57
Sexe
228.93
796.64
0.00
Classe
73.05
723.59
0.00
Age
28.45
695.14
0.00
Sexe*Classe
30.30
664.84
0.00
Sexe*Age
14.89
649.95
1e-04
Classe*Age
8.58
641.37
0.01
Sexe*Classe*Age
1.73
639.64
0.42
Table IV.4 Analyse de dviance. Les individus sont 756 passagers du Titanic pour lesquels on
possde l'ge, le sexe et la classe (1re, 2eou 3e) ; source : OzDASL. La rponse est 1 ou 0 selon que
le passager a survcu ou non. On a mis un modle binmial avec lien logit. La sortie est celle de
R.
correctement
l'estimation de
(P F A, P D)
Characteristic curve). Le modle est d'autant meilleur que la courbe longe les axes
Dans notre exemple, si l'on considre maintenant l'vnement
y=1
x=0
puis
y = 1.
1.0
1.0
0.6
0.8
P(S|M)
0.0
0.2
0.4
0.6
0.4
0.2
0.0
P(M|M)
0.8
P(M|S)
0.0
0.2
0.4
0.6
0.8
1.0
0.0
0.2
P(M|S)
0.4
0.6
0.8
1.0
seuil
On voit sur la gure de gauche (courbe ROC) l'existence d'un seuil permettant de prdire 80% des
morts en ne faisant mourir tort que 20% des survivants ; la bissectrice correspond la performance
de l'algorithme consistant choisir au hasard 0 ou 1. La gure de droite reprsente l'volution des deux
risques en fonction du seuil ; on y voit que le seuil mentionn est un peu suprieur 0,4.
1x >x
b j
b1yi =0,yj =1
Pi
= Pb(xb < x0 b | y = 0, y 0 = 1)
1
i,j yi =0,yj =1
i,j
la probabilit empirique que pour deux individus de rponses distinctes pris au hasard, l'ordre obtenu
sur les
xb
modle.
84
xf
une femme
et
ph
xh .
xf
pf
= exf
= 1+e 1
1 pf
1
xf
1+e
pf 1 ph
= e(xf xh )
1 pf ph
pf /ph
RR) dpend lui des autres variables ; il est donc ici inadquat. Il faut noter que si l'OR est malais
interprter, il est frquent que les probabilits
ph
et
pf
pf 1 ph
= 14, 7
1 pf ph
Il valait mieux tre une femme. Si l'on fait le modle Age*Classe+Sexe*Classe, on trouve un odds ratio
par classe :
OR(1) = 39, 9
OR(2) = 76, 8
OR(3) = 4, 43.
C'est en deuxime classe que la dirence entre sexes est la plus criante. Pour comparer les classes, on
peut faire le modle Age*Sexe+Classe et comparer les paires 1 et 2, puis 2 et 3 :
OR(1/2) = 69, 7
OR(2/3) = 3, 04.
Si une variable explicative est quantitative, par exemple l'ge, il arrive qu'on calcule l'OR associ une
variation
log
pa+ 1 pa
.
1 pa+ pa
=10
ans) :
= a .
Parenthse : OR et RR en biostatistiques.
table de contingence quatre cases correspondant au croisement des variables h/f et s/d (survie/dcs).
L'objet est de proposer une mesure de l'inuence de la premire variable sur la ralisation de la seconde.
De manire gnrale l'OR est souvent prfr pour les raisons suivantes (en dehors de l'avantage dj
mentionn li l'impossibilit d'estimer RR en prsence d'autres variables ; rappelons aussi qu'il est
frquent que les probabilits
ph
et
pf
Si l'on remplace l'vnement survie par l'vnement dcs pour le calcul du RR, on obtient
1ph
1pf qui n'est pas fonction du RR de dpart, tandis que l'OR est simplement remplac par son
Nhs Nf d
inverse car, avec des notations videntes on a OR=
Nhd Nf s . Il y a donc en fait deux RR mais un
seul OR.
Lors des tudes de cas tmoins (case-control studies) on tire d'abord au hasard un nombre
quivalent de personnes guries (ayant survcu . . .) et d'autres malades (dcdes . . .) an d'avoir
susament d'individus dans les deux situations et ensuite on spare chaque groupe en deux
(traitement/non-traitement, classe1/classe2 . . .). L'exemple suivant
85
Contraceptifs
Pas de contraceptifs
Cas d'accident
265
168
Total
433
Contrles
356
688
1044
Total
621
856
1477
Cette proportion de 433/1044 ne rete ici aucune ralit ; on ne peut pas estimer la probabilit d'un accident pour un individu utilisant un contraceptif, qui n'a rien voir avec
et pas davantage RR. En revanche
265/433
265/621,
un contraceptif sachant que l'on a eu un accident veineux, et de mme pour les trois autres
rapports analogues ; par consquent si l'on remarque que par la formule de Bayes (A=accident,
C =contraceptif, A=non-A),
OR =
on obtient
C)
A)
C)
C)P (A, C)
(C|A)
168 356
P (A|C)P
(A|C)
P (A,
P (C|A)P
.
RR = P (A|C)/P (A|C)
ri =
o
t(.)
t(y ) t(b
i )
pi
,
V (b
i ) 1 hi
t0 (b
i )
X
T X)
1 X
T ]ii = Dii x
T DX)
1 x
hi = Dii [X(
i (X
Ti
t(x) = x,
linaires, sauf qu'il faut prendre garde utiliser les rgresseurs normaliss. Les rsidus de Pearson sont
simplement
(yi
bi )/
p
V (b
i ).
Le but de l'introduction de
ri
Z
t(x) =
V ()1/3 d.
0
En pratique, on peut soit utiliser cette formule quand on peut la calculer, soit utiliser une approximation,
soit prendre
t(x) = x
ri
par simulation.
Les donnes aberrantes seront donc dtectes par les valeurs anormalement grandes des
isoles pourront tre repres avec les
hi .
distance de Cook
Di =
(yi
bi )2
hi
.
V (b
i ) (1 hi )2
On trace souvent les rsidus en fonction de la rponse pour conforter l'hypothse d'homoscdaticit, et
reprer les individus aberrants. Il est dicile en pratique de faire une analyse plus ne.
86
V.1 Modle
On se donne le modle pour les donnes :
u N(0, 2 Id).
yi = f ( , xi ) + ui ,
On suppose le vecteur
E[u2i ] =
2
typiquement =
la variance du bruit soit galement modlise comme une fonction des variables explicatives,
( , xi ) , avec
a + b|f (, xi )|q .
xi
gnral
yi = fi ( ) + ui ,
o les
fi
u N(0, 2 Id).
On conseille les rfrences [11, 12] pour ce qui concerne les exemples et les liens avec la pratique .
yi = 1 e2 xi + ui .
y = 1 e2 x et l'on
linaire, mais si ui est i.i.d.
log yi = log 1
2 xi + ui
qui est
choix faire.
le nombre de bactries et
1
fBR (, x) = 0 +
,
2 + e3 x
fR (, x) =
0 ,
x<
1
,
2 +e3 x
R. Jenrich
x = .
87
k2
E+S
ES E + P
k
Le substrat
[S]
Si [S] [E]
[E0 ] en E 2
et
k0 k2
[S]
d[P]
= Vm
,
dt
Ks + [S]
Si l'on prend des mesures
yi =
[P ].
Vm = k2 [E0 ],
(xi , yi )
Ks =
yi = d[P]/dt
k0 + k 2
.
k1
et
xi = [S]
1 xi
+ ui .
xi + 2
Exemple 4 : Evolution d'une tumeur 3 . On postule le modle gnral suivant pour l'volution du
diamtre d'une tumeur en traitement :
x(t) = x0 1 + k1 t k2 T (1 e(t )+ /T ) k3 (t )+ .
t = 0. Parmi les quatre termes, les deux derniers n'ont d'eet
t > , et les deux premiers indiquent une vitesse d'volution linaire. Le paramtre reprsente
l'instant initial d'une nouvelle phase au cours de laquelle la vitesse d'volution chute d'abord k1 k2 k3
pour passer progressivement k1 k3 . On pose = (k1 , k2 , k3 , T, ) et l'on postule le modle suivant
e
pour les observations yij du diamtre de la tumeur du patient i au j instant de mesure tij
pour indiquer que le paramtre dpend du patient. Le modle propos pour cette
dpendance est
i = Xi
o
Xi
permet la prdiction de la la
composante de
i .
ke
colonne
fait que la relation ci-dessus est incomplte, et qu'il reste une partie non-explique, alatoire, dans les
paramtres, si bien que le modle nalement considr pour
i = Xi + i ,
est
i N(0, ).
de l'incertitude sur les paramtres prdits, et donne galement de possibles corrlations entre eux.
21 2
Pn
i=1 (yi
fi ())2 n log()
si bien que la
Q() =
n
X
(yi fi ())2 .
i=1
d[P]
dt
[E]
l'aide de
d[ES]
dt
= 0,
ce qui conduit
puis remplacer
[ES]
Il ne reste plus
[E0 ]
= k2 [ES].
3. Bastogne & al., Phenomenological modeling of tumor diameter growth based on a mixed eects model.
Theoretical Biology.
88
et
[S]
dans
Journal of
La solution de ce problme peut tre numriquement assez dicile trouver et ce point ne sera pas
discut ici. On peut ensuite estimer
bM
V =
(i)
1 b
Q(),
n
1X
(yi fi ((i) ))2
n i=1
bCV
=
i-ime
donne.
( , )
connus ; elles
permettront de
1. Vrier les proprits de convergence et la validit des algorithmes
2. Estimer la matrice de covariance de
b et
Simulation (ou bootstrap paramtrique). Gnrer des donnes avec des (, ) dirents,
et ventuellement les
yis
= fi () +
Les estimes
bs
xi
de l'exprience, ceci
u N(0, Id),
usi ,
fois (p.ex.
i = 1, . . . n,
S = 10000)
s = 1, . . . S.
V ar(, ) '
Le choix
b sous
la loi
(, )
S
1 X bs
( )(bs )T .
S s=1
= b et =
b
b
V ar(,
b)
V ar( , ), variance de b.
0
0
De mme, soit (a prioiri proche de ) et un (, ) tel que l'intervalle I = [ , + ] contienne
s
s
0 bs
s
0 bs
b
b
b
95% des ; alors [ , + ] pour 95% des valeurs de s, et [ , + ] est donc
un intervalle de conance de niveau approximativement gal 5%. Ce qui conduit utiliser
[b 0 , b + ] comme intervalle de conance ; cette dmarche prsuppose que la statistique b
0
est (localement) pivotale car la paire (, ) n'a pas t calcule avec (inconnu) mais avec un
0
b
autre suppos proche (en pratique ). Sinon il faut en toute rigueur prendre une paire (, ) qui
convienne pour toute valeur de .
Bootstrap sur les rsidus. Pour estimer la loi de b, on simulait ci-dessus de nouvelles obserb
vations avec la loi donne par (,
b). On se propose ici de modier la simulation des rsidus : on
b
gnre de nouveaux yi avec les xi de l'exprience et
peut l'esprer) un bon estimateur de
2.
b + ub ,
yib = fi ()
i
ubi
b = 1, . . . B
{
u1 , . . . u
n }, la
b (ou mieux yi fi (b(i) )) empiriquement recentrs 4 .
u
bi = yi fi ()
bb , dont la variance empirique
On dispose donc maintenant de B suites de donnes et B estimateurs
b
donne une estime de la variance de .
o chaque
suite
Variante : Le wild bootstrap est recommand si les rsidus ne sont pas i.i.d. Il vite de mlanger
ubi = zi u
bi o les zi
(1 +
5)/(2
5)
(1 + 5)/(2 5).
zi =
(1 5)/2
(1 + 5)/2
avec probabilit
avec probabilit
89
(noter que
zi
est racine de
x2 x 1 = 0).
hypothses habituelles dans le cadre du maximum de vraisemblance, on aura la convergence presque sre
de
bn
vers
2
b
1/2
n (n ) N(0, Id)
x
1
.
T X,
=
n = X
X
.. ,
x
n
x
i = fi ( )
par
bn
dans la calcul de
R (Y ) =
o
par
aprs rem-
)
b
Q() Q()
2p (1 )
:
b2
ou
1
2
b
b
b
: 2 ( )( ) p (1 ) .
La rgion de conance
bootstrappes (sous
des donnes
g() = j ,
1/2
b n )1 ] tn1 (1 /2)
=
b[(
jj
I (Y ) = [bnj , bnj + ],
o l'on a remplac la racine d'un
par un Student pour avoir une formule analogue au cas linaire, cf.
n .
V.6 Tests
De la mme faon, on a les tests classiques de l'annexe C. Par exemple, le test du maximum de vraisemblance pour
0
Q(bn
)
2q (1 ) o
Q(bn )
est la dimension de g .
sous la contrainte
g() = 0,
et
bn0
Aspects pratiques. Pour n petit, le seuil 2q (1 ) est une mauvaise approximation du seuil rel. Il
sera bon de rvaluer le quantile en faisant des simulations du membre de gauche sous
90
H0 .
Notons pour
un ensemble de donnes
Y , T (Y ) = log
T (Y )
1. Estimer
0
Q(bn
)
, alors on pourra employer la mthode suivante valide pour
b
Q(n )
bn0 (Y )
Ys
(ou
Y b)
bn0 (Y )
T (Y s )
seulement des
T (Y s ), s = 1, . . . S
dpassent
cette valeur.
5. la
p-value
associe
T (Y )
sera la proportion de
tels que
T (Y s ) > T (Y ).
residu standardis
ri =
b
yi fi ()
b 1 hi
X
T X)
1 X
T .
hi = X(
ii
Ci =
hi
r2 .
p(1 hi ) i
Ces statistiques sont des indicateurs qui permettent de dtecter des individus particuliers ; ils sont bass
sur une linarisation qui peut tre trs approximative pour des
91
petits.
92
Slection de modles
La situation est la suivante : on se donne plusieurs modles qu'on identie et l'on veut choisir le meilleur,
et par exemple savoir si un modle compliqu est justi. Si ce choix est motiv par un besoin de faire de
la
prdiction, les solutions que l'on va voir dans la suite sont gnralement bonnes. Si au contraire il s'agit
interprtation (p.ex. savoir si telle ou telle variable importe, savoir si le modle est linaire ou
de faire de l'
pas), c'est beaucoup plus dicile, particulirement si l'on a choisir parmi un nombre inni de modles.
Par exemple, un modle non-linaire identi peut avoir des perfomances statistiquement tout--fait
raisonnables mme si le vrai modle est linaire ; en ce cas le modle non-linaire sera bon en prdiction
mais l'interprtation juste est la linarit. De mme on peut se permettre, en prdiction, de prendre
trop de rgresseurs en compte, du moment que le modle estim leur donne un poids susament faible ;
cette option a de plus l'avantage de conduire un estimateur peu biais ce qui facilite la construction
d'intervalles de conance . Cette marge de manuvre rend le problme de la slection pour la prdiction
plus simple.
On a dj vu une mthode de slection pour l'interprtation permettant de dcider entre deux
H0
si
modles
et
q = p1 p0
de paramtres sous chaque hypothse. Le principe du test de Fisher est de ne refuser l'hypothse simple
H0
On prsente ici des mthodes plus gnrales qui conviennent pour des modles non-embots, dans un
cadre non-linaire, et qui n'utilisent pas de seuil.
Appelons
le nombre de paramtres ; il est clair que le modle le plus compliqu (p grand) aura gn-
ralement l'erreur de prdiction la plus faible. Plusieurs critres ont ts proposs pour les modles de
rgression, ils pnalisent les
I
I
I
u
b2i
constante :
Pn
CV = n1 i=1 u
b2i /(1 hi )2 (cf. exercice 10 p. 22)
2
d'Akaike : AIC = n log(b
2 ) + p.
3
de Wallace-Boulton-Schwarz : BIC = n log(b
2 ) + p log(n)
Validation croise :
Critre
Critre
1. Car c'est le biais qui est dicile estimer. Voir p.ex. l'article de Peter Hall : Eect of Bias Estimation on Coverage
Accuracy of Bootstrap Condence Intervals for a Probability Density, Ann. Statist., Vol. 20, No 2 (1992), 675-694.
2. Attention, le critre d'Akaike s'exprime de manire lgrement dirente en fonction de l'estimateur au maximum de
vraisemblance de la variance
2
M
V = RSS/n ;
on obtient un terme
o(p/n)
Ann. of Stat.,
prs :
2
AIC = n log(b
M
V ) + 2p.
M.H. Hansen, B. Yu, Model Selection and the Principle of Minimum Description Length,
(2001), no. 454, 746774.
93
96
Extension des modles gnraux. Utilisation pratique. Ces critres s'utilisent pour des modles
paramtriques gnraux, condition de les exprimer en fonction de la log-vraisemblance des observations
y = (y1 , . . . yn )
(cf. exercice 1 p. 45 :
CV = 2
2
M
L(y) = n2 log(2eb
V ))
L(yi /y (i) )
AIC = 2L(y) + 2p
BIC = 2L(y) + p log(n)
o, dans
CV ,
i-ime
en utilisant les autres. On cherchera le modle qui minimise la valeur du critre considr.
L'utilisation des critres
CV
ou
AIC
prediction.
interprtation, BIC
sera
' 10)
car cette
deuxime solution conduit moins de ucuations (cf les gures II.8.1) pour la raison suivante : Dans
le leave one out, ordre xe, c'est toujours en gros le mme modle qui est estim (on ne change que
deux chantillons), mais il peut y avoir des changement importants au passage d'un ordre l'autre
(instabilit du modle). Dans le V-fold, le modle estim variera davantage, ce qui entrane une meilleure
moyennisation et moins de variabilit d'un ordre l'autre ; l'ordre choisi dpendra moins des donnes et
le rsultat sera meilleur en interprtation . L'estime d'erreur du leave one out n'tant pas mauvaise, on
peut penser que ce dernier donnera des rsultats raisonnables en prdiction.
Interprtation de CV et AIC. Ce sont deux estimateurs dirents de l'erreur de prdiction qui serait
commise en utilisant l'estimateur courant sur d'autres donnes (indpendantes). En rgresssion linaire
exp(AIC/n) =
b2 ep/n '
b2 (1 p/n)1
qui est
CV
hi
p/n).
Interprtation de BIC (MDL). Si l'on cherche coder les rponses pour les transmettre quelqu'un
qui possde dj les rgresseurs, la mthode la plus conomique consiste transmettre le paramtre
du modle estim et les erreurs de prdiction du modle, avec une certaine prcision correspondant
celle requise pour les rponses (pour une prcision requise infrieure
b,
le paramtre). Wallace et Boulton ont remarqu en 1968 que le nombre de bits ncessaires cette
1
2 BIC n log() o est la prcision requise sur les rponses.
est le cot de la transmission des paramtres avec une prcision adquate (qui est
plog(n)/2
1/ n). On voit
Le terme
d'ordre
BIC
M DL
aussi se justier par une approche baysienne gnrale due Gideon Schwarz,
BIC
peut
alatoire, la vraisemblance
BIC . Si par exemple on veut utiliser AIC pour comparer les modles yi = xi 1 +
log(yi ) = xi 2 + ei via deux identications OLS, la vraisemblance obtenue aprs identication
pour zi = log(yi ) sera celle de yi un facteur 1/yi prs, d'o le calcul d'AIC pour le deuxime modle :
P
AIC(y) = AIC(z) + 2 i log(yi ).
De mme pour
ei
et
4. Il n'existe pas de rsultat mathmatique appuyant ce raisonnement. Sur CV et ses variantes, voir l'article de
P. Burman : A comparative study of ordinary cross-validation, v-fold cross-validation and the repeated learning-testing
methods,
Biometrika
Voir aussi la discussion de Leo Breiman et Philip Spector dans l'article Submodel Selection and Evaluation in Regression.
The X-Random Case
94
Rgression PLS
Nous renvoyons au II.8 et II.8.1 pour les exemples et la motivation de la mthode. Mentionnons la
rfrence [19] qui dcrit la mthode et ses variantes et la le 3.5.2. de [9].
Considrons d'abord le cas o il n'y a qu'une seule rponse. La mthode
famille de variables dites latentes , de la forme
Xw
kwk = 1,
avec
PLS
y.
ACP, lorsque l'on fait crotre cette famille, on ne fait que rajouter des variables sans avoir remettre
l'
en question les prcdentes, ce qui fait que l'on dnit bien une suite de variables.
Noter que si au lieu de la covariance on maximise la corrlation, sans la contrainte
yb = X b
Xw
orthogonale
X b est
orthogonale
y.
L'algorithme (cf. [19] p.141). Il consiste calculer la paire de vecteurs x X et y Y de plus grande
covariance (sous une contrainte particulire) puis orthogonaliser
donc chaque fois chaque colonne de
sa prdiction par
x,
x,
et recommencer ; on retire
Xa
dans la suite,
X0 = X .
1
X0 = X , a = 1, 2, . . .
ta = Xa1 wa /kXa1 wa k
Xa = Xa1
ta (tTa Xa1 )
(w, u)
donne pour
{t1 , . . . ta }
et
{Xw1 , . . . Xwa }
ta sont orthogonaux.
T
Xa1
Y Y T Xa1 associ la valeur propre
T
2
si Y est un vecteur c'est Xa1 Y ) .
le vecteur propre de
ta )
Y T Xa1 ;
ACP
, les colonnes de
apparaissant dans la suite sont des covariances empiriques, mais ce n'est pas absolument ncessaire.
Xb Wa = 0, b a ;
par consquent, si
95
que
Un autre point de vue. On peut trs bien rcrire le problme d'optimisation de manire quivalente :
(wa , ua ) = arg max{hXw, Ya1 ui : kuk = 1, kwk = 1}
u,w
ba ,
96
Asymptotique du maximum de
vraisemblance
C.1 Thormes-limite
On se donne une famille de lois
P,x
la vraisemblance est
bn = max Ln ()
X
Ln () =
log p,xi (yi ).
i
On dsignera par
L0
et
L00
L().
Les
rsultats qui suivent s'obtiennent heuristiquement sans dicult, les preuves rigoureuses sont en revanche
dlicates. La matrice d'information de Fisher est dnie par
In () = E [L00n ()] = E L0n ()L0n ()T .
Sous certaines hypothses que nous ne dtaillerons pas, et qui ont essentiellement trait d'une part la
rgularit en
de la fonction
p,x (y)
bn
de plus que
Hypothse :
(typiquement
In ( )
In ( )1 0
est d'ordre
n)
on obtient la
de
bn
vers
quand
tend vers l'inni. L'hypothse est en dfaut lorsque la loi des donnes ne dpend pas (ou pas assez) de
97
In ( )
valides sous des hypothses de rgularit raisonnables et couramment utiliss ; dans la suite,
In ( )
In
dsignera
On montre ensuite la
1/2
il vient
1/2
Ln
au voisinage de
bn ,
la convergence en loi de la
2
vers un p
dviance
2 Ln (bn ) Ln ( ) 2p .
Normalit des fonctions de l'estimateur. Supposons que In /n converge vers une matrice I . Soit g
une fonction valeurs dans
Rq ,
en dveloppant au voisinage de
bn
n g(bn ) g( ) N(0, GT I 1 G),
q p,
G = g( ).
que la drive de
notera :
1
Ing = GTn In1 Gn
,
Gn = g(bn ).
R = { : 2(Ln () Ln (bn )) 2p (1 )}
et
g() = )
98
et l'on
C.3 Tests
On veut tester l'hypothse gnrale
H0 : g( ) = 0
pour une certaine fonction
valeurs dans
Rq
et un niveau
1 .
b0n l'estimateur
si g( ) = 0
au maximum de vraisemblance de
sous la contrainte
g() = 0.
On peut vrier
P = Id In
sous H0
o
q.
2q (.)
H0
si
2(Ln bn ) Ln (b0n ) 2q (1 )
2q .
H0
H0
si
In = L00n (b0n ).
Rejeter
H0
si
H0
si
Rejeter
g(bn )
H0 : R = l,
on a :
petit, le seuil
2q (1 )
quantile en faisant des simulations du membre de gauche (ou en utilisant le bootstrap, cf. chapitre V).
Notons pour un ensemble de donnes
99
alors on pourra :
1. Estimer
b0n (Y )
Ys
T (Y )
sera la proportion de
tels que
T (Y s ) > T (Y ).
100
b0n (Y )
Bibliographie
[1]
J.-M. Azas, J.-M. Bardet, Le modle linaire par l'exemple, Dunod, 2005.
Un expos gnral que nous recommandons chaudrement.
[2]
[3]
[4]
[5]
Presses
[7]
[8]
[9]
[10]
J. Fan, J. Lv, A Selective Overview of Variable Selection in High Dimensional Feature Space, Stat.
M. Hofmann, C. Gatu, E.J. Kontoghiorghes, Ecient algorithms for computing the best sub-
[11]
[12]
[13]
[14]
[15]
[16]
[17]
[18]
[19]
[20]
[21]
[22]
P. McCullagh, J.A. Nelder, Generalized Linear Models, Chapman & Hall, 1983.
J.O. Ramsay, B.W. Silverman, Functional data analysis, Springer, 2005.
S.R. Searle, G. Casella, C.E. McCulloch, Variance Components, Wiley, 1992.
W. Silverman, Density estimation for statistics and data analysis, Chapman & Hall, 1986.
M.L. Stein, Interpolation of Spatial Data, Springer, 1999.
M. Tenenhaus, La rgression PLS, thorie et pratique, Technip, 1998.
S. Van Huffel, J. Vanderwalle, The Total Least Squares Problem, SIAM, 1991.
V.N. Venables, Exegeses on Linear Models, S-PLUS User's Conference, 1998.
R. Wilcox, Introduction to robust estimation and hypothesis testing, Elsevier, 2012.
101
Index
ACP, 37
additif (modle), 57
inuence, 54
AIC, 94
analyse de covariance, 63
analyse de la variance, 55
inversion matricielle, 23
LASSO, 39
best subset, 38
leverage, 15
BIC, 94
lien canonique, 74
log-linaire, 77
binomiale (loi), 73
logistique (modle), 76
BLUE, 22
bootstrap, 89, 90
Box-Cox, 19
mlange de rgressions, 35
Chow, 51
maximum de vraisemblance, 97
MDL, 94
complet (modle), 57
mthode ascendante, 50
mthode descendante, 50
corrlation partielle, 16
modle
interactions rduites, 66, 78
de Cobb-Douglas, 8
donne aberrante, 54
de mlange de rgressions, 35
donne inuente, 54
donne isole, 54
logistique mixte, 80
droite de Henry, 17
longitudinal htroscdastique, 26
Durbin-Watson (test), 25
erreur standard, 13
error in variables, 31
ESS, 13
longitudinal mixte, 28
modle linaire gnralis, 71
moindres carrs totaux, 31
nested, 65
non-linaire (modle), 87
facteurs signicatifs, 60
non-paramtrique, 10
famille exponentielle, 71
Fisher, 48
fonction variance, 73
odds ratio, 84
OLS, 12
gamma (loi), 73
garotte, 39
GLS, 23
PLS, 37, 95
graphique (reprsentation), 17
Poisson (loi), 73
poissonnien (modle), 77
102
prdiction, 52, 53
R2
ajust, 15
103