Vous êtes sur la page 1sur 99

Rgression

Cours de deuxime anne de master

Bernard Delyon
14 janvier 2015

1. IRMAR, Universit Rennes I, Campus de Beaulieu, 35042 Rennes cdex.

Table des matires


I Introduction

I.1

But de la rgression.

I.2

Exemples

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7
8

I.2.1

Rgression linaire multiple : Production, travail et capital

. . . . . . . . . . . . .

I.2.2

Vers des modles non-linaires.

I.2.3

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Modle logistique : Credit scoring . . . . . . . . . . . . . . . . . . . . . . . . . . . .

I.2.4

Donnes longitudinales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

9
9

I.3

Mthode gnrale et objectifs de la rgression. . . . . . . . . . . . . . . . . . . . . . . . . .

10

I.4

Exercices

10

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

II Rgression linaire multiple


II.1

II.2

II.3

II.4
II.5

11

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

11

II.1.1

Les donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

11

II.1.2

L'hypothse de rang plein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

11

II.1.3

Le rgresseur constant . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

12

Moindres carrs ordinaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

12

II.2.1

12

II.2.2

Modle statistique et interprtation


. . . . . . . . . . . . . . . . . . . . . . . . . .

2
Estimation de et . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

II.2.3

Proprits gomtriques lmentaires . . . . . . . . . . . . . . . . . . . . . . . . . .

II.2.4

Le coecient de corrlation multiple

. . . . . . . . . . . . . . . . . . . . . . . .

14

II.2.5

Eet de la suppression d'un individu. Eet levier . . . . . . . . . . . . . . . . . . .

15

II.2.6

Eet de l'ajout d'un rgresseur et coecient de corrlation partielle

. . . . . . . .

16

II.2.7

Aspects pratiques. Reprsentation graphiques exploratoires

. . . . . . . . . . . . .

17

II.2.8

Traitement des variables symboliques . . . . . . . . . . . . . . . . . . . . . . . . . .

19

II.2.9

Exercices

R.

12
13

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

20

Modles htroscdastiques (Moindres carrs gnraliss) . . . . . . . . . . . . . . . . . . .

23

II.3.1

23

Modle

II.3.2

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2
Rduction au cas = I . Estimation de et . . . . . . . . . . . . . . . . . . .

II.3.3

Dtection de l'htroscdasticit

II.3.4

Estimation de

24

. . . . . . . . . . . . . . . . . . . . . . . . . . . .

25

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

25

II.3.5

Modles mixtes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

27

II.3.6

Exercices

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

30

Moindres carrs totaux (Errors in variables, total least squares) . . . . . . . . . . . . . . .

30

Rgression non-paramtrique et moindres carrs . . . . . . . . . . . . . . . . . . . . . . . .

31

II.5.1

Premire approche : la rgression polynmiale . . . . . . . . . . . . . . . . . . . . .

31

II.5.2

Approche par estimation des coecients de Fourier . . . . . . . . . . . . . . . . . .

33

II.5.3

Aspects pratiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

34

II.6

Rgression sur des classes. Segmentation des donnes . . . . . . . . . . . . . . . . . . . . .

34

II.7

Mlange de rgressions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

35

II.8

Surparamtrisation, rduction de modle et slection de variables . . . . . . . . . . . . . .

35

II.9

acp)

II.8.1

Analyse en composantes principales (

II.8.2

Moindres carrs partiels (

II.8.3

Ridge regression

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

38

II.8.4

Rgression rang rduit. Curds and whey . . . . . . . . . . . . . . . . . . . . . . .

39

pls) .

Rgression robuste

. . . . . . . . . . . . . . . . . . . . . . .

36

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .

37

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

III Rgression linaire gaussienne, diagnostic et tests

39

41

III.1 Proprits statistiques fondamentales des estimateurs . . . . . . . . . . . . . . . . . . . . .

41

III.1.1 Modle statistique et estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . .

41

III.1.2 Proprits de base des variables gaussiennes . . . . . . . . . . . . . . . . . . . . . .

41

III.1.3 Loi de probabilit des estimateurs

42

III.1.4 Exercices

. . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

III.2 Analyse de l'estimateur

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

43
43

III.2.1 Dtermination d'intervalles de conance . . . . . . . . . . . . . . . . . . . . . . . .

43

III.2.2 Rappels sur les tests dans le cadre paramtrique gnral . . . . . . . . . . . . . . .

44

III.2.3 Test de Fisher

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

46

III.2.4 Slection des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

48

III.2.5 Exercices

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

49

III.3 Analyse des rsidus. Mesures d'inuence . . . . . . . . . . . . . . . . . . . . . . . . . . . .

51

III.4 Analyse de la variance. Aspects pratiques

. . . . . . . . . . . . . . . . . . . . . . . . . . .

53

III.4.1 Analyse de la variance un facteur . . . . . . . . . . . . . . . . . . . . . . . . . . .

53

III.4.2 Analyse de la variance deux facteurs . . . . . . . . . . . . . . . . . . . . . . . . .

55

III.4.3 Interprtation des tables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

58

III.4.4 Un exemple trois facteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

60

III.4.5 Analyse de covariance

61

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

III.4.6 Facteurs embots (hirarchiss, nested) en analyse de variance

. . . . . . . . . . .

63

III.4.7 Modles mixtes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

63

III.4.8 Rduction des interactions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

64

III.4.9 Exercices

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

III.5 Un exemple de conclusion d'tude

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

IV Rgression linaire gnralise


IV.1 Modle linaire gnralis

64
66

69

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

IV.1.1 Pourquoi les modles linaires gnraliss ?

69

. . . . . . . . . . . . . . . . . . . . . .

69

IV.1.2 Les familles exponentielles scalaires . . . . . . . . . . . . . . . . . . . . . . . . . . .

69

IV.1.3 Les familles exponentielles un paramtre de nuisance . . . . . . . . . . . . . . . .

70

IV.1.4 Les exemples classiques

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

IV.1.5 Dnition des modles linaires gnraliss


IV.1.6 Exercices
IV.2 Exemples

71

. . . . . . . . . . . . . . . . . . . . . .

71

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

73

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

IV.2.1 Variable de Bernoulli : le modle logistique

. . . . . . . . . . . . . . . . . . . . . .

74
74

IV.2.2 Modle poissonnien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

75

IV.2.3 Modle variable polytomique ordonne ; la variable latente . . . . . . . . . . . . .

77

IV.2.4 Modle variable polytomique non-ordonne (multinomial logit). . . . . . . . . . .

78

IV.2.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
et . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

79

IV.3.1 L'estimateur du maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . .

79

IV.3.2 Proprits asymptotiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

IV.3.3 Estimation de et
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

80

IV.4 Tests et analyse de dviance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

80

IV.3 Estimation de

IV.4.1 Dviance.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

78

80

80

IV.4.2 Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

81

IV.4.3 Analyse de dviance

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

81

IV.5 Analyse des rsidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

84

V Rgression non-linaire avec bruit additif

85

V.1

Modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

85

V.2

Estimation des paramtres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

86

V.3

Utilisation du bootstrap et du Monte-Carlo

. . . . . . . . . . . . . . . . . . . . . . . . . .

87

V.4

Proprits asymptotiques

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

88

V.5

Rgions de conance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

88

V.5.1

Rgions thoriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

88

V.5.2

Ajustement du niveau par simulation ou bootstrap . . . . . . . . . . . . . . . . . .

88

V.5.3

Intervalles de conance

88

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

V.6

Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

88

V.7

Analyse des rsidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

89

A Asymptotique du maximum de vraisemblance

91

A.1

Thormes-limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

91

A.2

Rgions de conance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

92

A.3

Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

92

A.3.1

Test du rapport de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . .

93

A.3.2

Test des scores

93

A.3.3

Test de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

93

A.3.4

Aspects pratiques.

93

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

B Slection de modles

95

Introduction

I.1 But de la rgression.


Commenons par un exemple illustratif simple. Le botaniste Joseph Dalton Hooker a mesur lors d'une
expdition en 1849 la pression atmosphrique

pi

et la temprature d'bullition de l'eau

yi

endroits de l'Himalaya . Selon les lois de la physique,


proportionnel au logarithme de

yi = 1 + 2 xi + ui ,
ui

pi .

yi

en divers

devrait tre (en premire approximation)

On pose donc le modle

xi = log(pi ).

(I.1)

reprsente l'erreur de mesure, et explique que les points de la gure I.1 ne sont pas exactement

aligns. Cette gure montre galement la droite estime par moindres carrs. On voit une trs bonne
adquation. L'quation ci-dessus donne un modle, qui si ui est suppos gaussien centr devient le
2
2
modle paramtrique yi N(1 + 2 xi , ), dont on verra l'intrt plus tard. Le paramtre reprsente
la variance de l'cart des points la droite (mesur verticalement) et l'estimation de

98
96

94

92

90
88

86

82
2.7

donne ici 0,04.

100

84

2.8

2.9

3.0

3.1

3.2

3.3

3.4

Figure I.1  Temprature d'bulition de l'eau mesure en divers endroits de l'Himalaya en fonction
du logarithme de la pression.
Cet exemple illustre comment le modle de rgression tente d'expliquer au mieux une grandeur

rponse)

en fonction d'autres grandeurs

(vecteur des

variables explicatives,

ou

rgresseurs,

(la
ou

1. En 1857 le physicien James David Forbes a fait la mme exprience dans les Alpes, le but tant de pouvoir retrouver
la pression atmosphrique partir de la seule mesure de la temprature d'bulition de l'eau (les baromtres tant fragiles
et donc diciles transporter lors d'une expdition), ce qui permet ensuite d'en dduire l'altitude au travers d'une relation
connue ; il rapporte dans un article ce double ensemble de donnes dont nous n'utilisons ici que la partie Himalayenne (elles
sont dcrites dans : S. Weisberg,

Applied Linear Regression, Wiley, 1985.)

facteurs, un seul dans l'exemple) en dmlant ce qui est dterministe de ce qui est alatoire et
en quantiant ces deux aspects (par les

d'une part et

d'autre part).

I.2 Exemples
I.2.1 Rgression linaire multiple : Production, travail et capital
On considre les variables, chacune concernant la totalit des tats-Unis (i tant l'indice d'une anne) :

On

Pi : production
Ki : capital (valeur des usines, etc.)
Ti : travail fourni (bas sur un calcul du nombre total de travailleurs)
cherche expliquer Pi l'aide des variables (Ki , Ti ). Le modle de Cobb

et Douglas

2 est

P = 1 K 2 T 3
ce qui suggre le modle statistique

log(Pi ) = log(1 ) + 2 log(Ki ) + 3 log(Ti ) + ui ,

E[ui ] = 0,

E[u2i ] = 2 .

xi = (1, log(Ki ), log(Ti )), la rponse est yi = log(Pi ) et les paramtres


= (log(1 ), 2 , 3 ). Le logarithme et les changements de variables ont permis de rendre le
linaire (par rapport ), ce qui, on le verra, est trs avantageux pour l'analyse :

Les rgresseurs sont donc ici


du modle
modle

yi = 1 + 2 log(Ki ) + 3 log(Ti ) + ui .
Cobb et Douglas disposaient du tableau suivant

3 sur

n = 24

annes et trouvent

2 = 1/4

Anne

Anne

Anne

1899

100

100

100

1907

151

176

138

1915

189

266

154

1900

101

107

105

1908

126

185

121

1916

225

298

182

1901

112

114

110

1909

155

198

140

1917

227

335

196

1902

122

122

118

1910

159

208

144

1918

223

366

200

1903

124

131

123

1911

153

216

145

1919

218

387

193

1904

122

138

116

1912

177

226

152

1920

231

407

193

1905

143

149

125

1913

184

236

154

1921

179

417

147

1906

152

163

133

1914

169

244

149

1922

240

431

161

et

3 = 3/4

I.2.2 Vers des modles non-linaires.


On observe des paires
au temps

xi

(xi , yi )1in

xi

yi

est la concentration de produit actif dans un mdicament

aprs fabrication. Le modle linaire

yi = 1 + 2 xi + ui

est certainement inadquat

Plusieurs modlisations peuvent tre envisages :


(a) Rgression non-linaire paramtrique : On part d'un modle spcique considr comme raliste

yi = 1 e2 xi + ui .
C'est l'analogue du prcdent dans une situation non-linaire.
(b) Rgression polynmiale : On part cette fois-ci d'un modle paramtrique abstrait

yi =

j xji + ui .

j=0
2. A theory of production,

American Economic Review, 18, 139-165, 1928.

3. En ralit, la construction de ce tableau partir des direntes donnes dont ils pouvaient disposer est en soi un
travail norme. Voir l'article.

J est suppos connu. La linarit en de cette quation fait, on le verra, qu'on estime facilement
j par moindres carrs ; noter que ceci revient exactement trouver le polynme de degr J qui
2
passe au plus prs des points (xi , yi ). On peut remplacer l'hypothse ui N(0, ) par l'hypothse
plus faible E[ui ] = 0 mais on entre alors dans un cadre semi-paramtrique.
o

les

(c) Rgression non-paramtrique :

ui = N(0, 2 ).

yi = f (xi ) + ui ,

Il s'agit d'estimer la fonction

et

2 .

Un autre exemple. La gure suivante 4

reprsente la consommation d'lectricit moyenne en France,

2h du matin, en fonction de la temprature extrieure (moyenne sur les 24h prcdentes). Les donnes
sont sur 3 ans (1095 points). On pourrait tre tent de considrer ici un modle linaire par morceaux.

65

oo
o

35

40

45

50

55

60

o
o

oo
o
o o
o
o
o
o
oo
o
o
o
o oo o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
ooo o
o o oo o
o
ooo o oo o oo
oo o
o
o o o oo
o o o o ooo oo
o
oo o o
o
o
o ooo
o
oo
oo o o
o
o o oo
o
o
oooo o o o
ooo
o oo
oo o o o o
o
o
o
o oo oo oo
oo o
o o oo
o o
oo
o o
o oo
o
oo oo oo o oo o
o o ooooo oo oo ooo oo o
o
oo
o oooo o oooo ooooooooo ooooooooo
o
ooo oo
o oo
o o oo o o o o
o oo ooo o
ooooo
o
ooooo ooo
o ooooo
o oooooo oo
o
o o oo oooo
o oo o
o
o
o oo ooo oo
o o oo
oo oo oooo oooooo o o oooooooo o o
oo oo o o o o ooo ooooo
o
o
o
o
o o ooooo
o oo
o
o ooo ooooo o
o o o o oo ooooo o oooo
ooooooooo oo
oooo o oooo oooooo ooooo
oo
o o oo oo oo
o oo
oo o oooooo
o
o
o
o
o
oo
o
o
o
o
oo oo o
ooo oo o o ooo
oo o o ooo o
o oo oo o
o
ooo
o
o o oo o o
o
o o o oooo o ooooo oooooo ooo o
o ooo oooo o o oooooo
oo
oo o o
oo oo o ooo ooo ooooo oooo oo
o o o
o o o
oo o oo
o
oo
oo
ooo
o
o
o
o
o oo ooooo oo ooooo ooo
o oo
ooooo o o o
o
oo o oo o
oo o ooooo oooo ooo ooooooooo oooooooo
o
oo
o
oooooooooo o o o oo o
o
o
oo
oo oo oooo
o
oo oo
o
o oooo o
ooooooooooooo
o
oooooooo o oo oo oooo oooo o oo
o
o
o
o
o
o o o o o oo o oo o o o
ooo
o oooooooo
ooooo
o
oo
o
oo
o ooo ooo o ooooo oo
o
o
o
o
o
o
oo o
o
o
o
o
o
o
o
o
o
o
oo
o
o o o oooo oo o
oo o
o o
o o oooooo o oo o oo o
o
o o o oo oo
oo
o o
o
o o o
oo
o
o oo oooo oo o
o o ooo
oo oo oo o o
o
o o o ooo ooo oo oo
o oo
o o oo o o oo o o o ooo
oooo
o
o
oo o oo o
o o o oo oo o oooo o oo o
o o oo o
o oooooo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o oooo ooooooo oo oooo o ooo oo o
o o ooo
o
o
o
oo o oo o o o
oo o o o
o
o
o
o
o
o ooo
oo
o
o
o
o o oo o o
o
o
o o
o

o
o

o o

10

15

20

25

I.2.3 Modle logistique : Credit scoring


Il s'agit pour une banque de mesurer le risque qu'elle prend attribuer un crdit un client.
La banque dispose de donnes sur ses anciens clients. Chaque client ayant demand un crdit dans le
pass est un individu et la rponse
remboursement. Le rgresseur

y {0, 1}

est une variable indiquant s'il y a eu un problme de

est vecteur ligne contenant :

des variables quantitatives : revenu, ge, dpts, etc.


des variables qualitatives : sexe, etc.

Le modle logistique :

est une variable de Bernoulli

B(1, px )

(c--d

y=1

avec probabilit

px )

et

px

est

de la forme

px =
o

1
1 + ex

est un vecteur colonne de paramtres caractrisant l'inuence de chaque rgresseur sur la rponse

(de sorte que

est un produit scalaire).

au client ayant les rgresseurs

px

reprsente le risque pris par la banque autoriser un crdit

x.

I.2.4 Donnes longitudinales


On observe des variables

yi (tj ) = F (tj ) + uij .


4. Courtoisie de Vincent Leeux, RTE.

Par exemple

yi (tj ) est la taille de


F , par exemple

l'enfant

au mois

tj .

On se donne en gnral un modle paramtrique

particulier pour

F (t) = a + b exp ( exp (c dt)) .


Souvent un paramtre, disons

b,

dpendra des individus. Une mthode simple pour prendre cette d-

pendance en compte sera de rassembler les caractristiques d'intrt de l'individu

xi

vgtarien, taille des parents, etc.) dans un vecteur (ligne)

(vgtarien/non-

et prsupposer une relation linaire, ce qui

donne nalement le modle

yi (tj ) = a + (xi ) exp ( exp (c dtj )) + uij


(xi est un produit scalaire) dont les paramtres sont

(a, c, d, ).

I.3 Mthode gnrale et objectifs de la rgression.


On peut voir la rgression comme le cadre le plus simple pour la modlisation paramtrique des suites

de variables alatoires indpendantes non-stationnaires . En pratique, les applications essentielles sont


les suivantes (on illustre ici par l'exemple rudimentaire o

est le taux de frquentation du mdecin et

contient l'ge et le sexe de l'individu) :

Dtermination des

facteurs signicatifs

: l'ge a-t-il une inuence signicative sur le taux de

frquentation du mdecin ? (c.--d. : le coecient

Prdiction/simulation

de l'ge est-il nul ?)

(des rponses connaissant les rgresseurs et

: combien de mdecins

faut-il pour une ville de pyramide des ges donne ?

Dtection de changement

(du paramtre

: le ticket modrateur a-t-il provoqu un chan-

gement signicatif dans le comportement des patients ? Ce changement est-il le mme chez les
hommes et chez les femmes ?
La mthode passe, comme on vient de le voir, par la mise en place d'un modle plus ou moins raliste sur
lequel il est bon d'avoir du recul : on peut le considrer comme un (ple) reet de la ralit mais il est
gnralement plus prudent d'y voir simplement un

instrument de mesure qui permettra de quantier

certains phnomnes tout en restant matre de ce que l'on calcule.

I.4 Exercices
Exercice 1. On dispose de deux qualits de papier. Le papier de type 1 a un poids 1
type 2 a un poids
du type 1 et

(grammes par feuille). On reoit

paquets. Le

i-ime

et le papier de

paquet contient

pi

feuilles

qi

feuilles du type 2. On pse successivement les paquets sur une balance ; le poids mesur
2
du i-ime paquet est mi . On admet que les erreurs de la balance sont N(0, ). crire le modle linaire
correspondant ces donnes.

Exercice 2. (Modle gravitaire) On suppose que le nombre de personnes de la ville i allant travailler
la ville

suit en gros le modle idal suivant

Nij = kd
ij Pi Aj
o

Pi

est a population de la ville i,

Ai

sa capacit d'accueil et

dij

la distance entre les villes.

et

des paramtres inconnus. Proposer un modle de rgression linaire pour des donnes bases sur

sont
I villes

{dij , Nij , Pi , Ai , 1 i, j I}.

Exercice 3.

N(, 2 ),
par 1 + x.

Un individu pris au hasard a un temps de raction un certain stimulus qui suit la loi
2 sont connus. Aprs absorption d'une quantit x d'alcool, ce temps se trouve multipli

et

On s'intresse l'estimation de

Expliciter la loi de

ti .

partir de donnes

(xi , ti ),

ti

est le temps de raction.

Peut-on poser ce problme comme un problme de rgression linaire simple ?

Qu'en est-il si maintenant

est connu et

est le paramtre ? Proposer alors un estimateur de

5. Certains modles de rgression, comme les modles mixtes, prennent toutefois en compte des phnomnes de dpendance.

10

II

Rgression linaire multiple

II.1 Introduction
II.1.1 Les donnes
Les donnes consistent en des variables observes
seurs)

xi , i = 1, . . . n,

chaque paire

(yi , xi )

dans un tableau de la faon suivante :

y=

y1
.
.
.

X=

yn
xi

x1
.
.
.

xn

x12

.
.
.

.
.
.

(rponses) et des variables explicatives (ou rgres-

...

x1p
.
.
.

1 xn2

est donc un vecteur ligne contenant les

yi

reprsentant une exprience (un individu). On les arrange

...

xnp

variables explicatives. On convient gnralement de mettre

le rgresseur constant, s'il est prsent, dans la premire colonne.

On prsuppose l'existence d'une relation du type yi xi , = xi pour un certain vecteur (colonne)

, soit y X , ce qui conduit au modle de rgression linaire

y = X + u
o

u = (u1 , . . . un )

est un vecteur de bruit (variables alatoires) modlisant l'inadquation des mesures

au modle.

et la validation du modle. La valeur de


en une certaine norme du vecteur y X .

Le but de la rgression linaire est l'estimation de


obtenue sera note

b.

Ceci se fera en minimisant

l'estime

II.1.2 L'hypothse de rang plein


Il est clair que si

n'est pas de rang colonnes plein c'est--dire s'il existe

combinaison linaire des colonnes est nulle) alors pour tout

tel que

Xv = 0

(une

X = X( + v).
b, l'estimateur b + v explique aussi bien les donnes. Par consCeci implique que pour tout estimateur

quent on ne pourra pas estimer moins de faire des hypothses supplmentaires. Une autre faon de
le voir est de remarquer que comme

Xv = 0

une de colonne de

(et sans doute chacune) est fonction

linaire des autres, et par consquent une des variables tant fonction linaire des autres est inutile.

X sera gnralement suppose


puisque Xv = 0 est sans solution).

Pour cette raison


inversible,

rang colonnes plein (ce qui signie aussi que

11

XT X

est

II.1.3 Le rgresseur constant


Il est trs gnralement prsent mais pas toujours. Toutefois, l'essentiel des rsultats noncs dans la
suite (tests de Fisher) reste valide sans cette hypothse.

II.2 Moindres carrs ordinaires


II.2.1 Modle statistique et interprtation
Modle. On suppose l'existence d'un vecteur , de > 0 et de variables alatoires ui tels que
y = X + u,
E[u] = 0,
E[uuT ] = 2 I.
En d'autres termes, pour chaque

yi = xi + ui
E[ui ] = 0
V ar(ui ) = 2
E[ui uj ] = 0, j = i

(homoscedasticit)
(dcorrlation des bruits).

Noter que ce modle n'est pas compltement spci puisque les lois des

ui

ne sont pas prcises. On est

pour l'instant dans une situation semi-paramtrique.

II.2.2 Estimation de et 2
1 - Dfinition
Soit

SS()

(Sum of Squares) la somme des carrs des erreurs de prdiction

SS() = y X2 =

(yi xi )2 .
i

L'estimateur de

aux moindres carrs ordinaires (Ordinary Least Squares, OLS) est

b = arg min SS().

C'est l'estimateur de

au maximum de vraisemblance sous l'hypothse de normalit de

u.

Ceci correspond, dans la gure I.1, minimiser la somme des carrs des distances des points la droite

mesures verticalement ;

il pourrait sembler plus logique de minimiser la somme des carrs des vraies

(X,
y) est plus compliqu calculer et n'est pas invariant par

b
(X, ty) = t(X,
y) (car une homothtie en y modie compltement le

distances, mais cet autre estimateur


changement d'chelle au sens o
calcul des distances ; cf. II.4).

2 - Proposition
On a les proprits :

b = (X T X)1 X T y
b = + (X T X)1 X T u
b =
b est sans biais : E[]
2
T
1
b
V ar() = (X X)

12

La dmonstration est laisse en exercice.


Il est intressant de noter que si la variable
d'autres variables ; et

bk , k = j

est dcorrle des autres, alors

est insensible au retrait de

bj

est insensible au retrait

X.j .

3 - Proposition
Soit

b = y X
b 2
RSS = SS()
(Residual Sum of Squares) ; alors l'estimateur suivant de

est sans biais :

b2 = RSS/(n p).

La dmonstration est prsente la suite de la proposition 5.

4 - Dfinition

yb = X b

Vecteur des valeurs ajustes (tted values) :


Vecteur des rsidus (residuals) :
Erreur standard de

bj

est

b(bj )

u
b = y yb

b(bj )2 =
b2 [(X T X)1 ]jj .

dni par :

Exemple. Reprenons le modle de Cobb-Douglass du paragraphe I.2.1 avec les donnes de leur tude
de 1928. On trouve

b2 = 0, 23

et

b3 = 0, 81.

L'cart entre

b2 + b3

et

1,

n'est en fait pas signicatif, ce

qu'on peut vrier en utilisant les rsultats du chapitre suivant. L'erreur standard de

b2 + b3

est

0, 09.

II.2.3 Proprits gomtriques lmentaires


Dans toute la suite, pour tout vecteur

z , z dsignera

la moyenne de ses coordonnes

1
zi .
n i=1
n

z =

5 - Proposition
H = X(X T X)1 X T , K = I H ,
colonnes de X ; alors

Soit

et

le sous-espace vectoriel de

H est le projecteur orthogonal sur X ; K


yb = Hy , u
b = Ky = Ku, ybb
u.
Et s'il y a une colonne constante dans la matrice

= 0 car u
u
b
b1
2
y

1
=
y
yb2 + b
y y12

2
2
(y

)
=
u
b
+
yi y)2
i i
i i
i (b
TSS = RSS + ESS
Var. Totale = Var. Rsiduelle + Var.

Rn

engendr par les

est le projecteur orthogonal sur

X .

Explique

La dmonstration est laisse en exercice. Cette dcomposition de la variance correspond l'ide prsente
dans l'introduction de sparer le dterministe de l'alatoire.
Pour la dmonstration de la proposition 3, on a :

b2 = b
u2 /(n p) = uT Ku/(n p)

E[b
2 ] = 2 T r(K)/(n p) = 2 .

13

d'o,

II.2.4 Le coecient de corrlation multiple R


On introduit ici le coecient
ici que

R2 qui mesure l'adquation gomtrique du modle aux donnes. On suppose

contient une colonne constante.

6 - Dfinition
R

est la corrlation empirique entre les donnes et les valeurs prdites

)(b
y y)
i (yi y
i
R=
.
2
1/2
( i (yi y) ) ( i (b
yi y)2 )1/2
R2

est appel coecient de dtermination, ou encore la proportion de variance explique.

L'interprtation la plus simple est de voir

comme une mesure de corrlation entre les variables expli-

catives (globalement) et les rponses. Plus R est proche de


2
Par exemple sur la gure I.1 on a R = 0, 998.

1,

plus le modle reprsente bien les donnes.

7 - Proposition
On a

0 R 1, R2 = ESS
T SS = 1
R = 1 yb = y
R = 0 b = (
y , 0, . . . , 0).

RSS
T SS ,

Dmonstration.

b
y y1, y y1
b
y y1, y yb + yb y1
b
y y1
ESS
R=
=
=
=
.
b
y y1 y y1
b
y y1 y y1
y y1
T SS

R = 1 alors RSS = 0, y = yb. Si R = 0


(
y , 0, . . . , 0)T car X est de rang plein.

Si

alors

yb = y1

0.4

1.0

et donc

X b = X(
y , 0, . . . , 0)T

d'o

b =

0.9

0.3

0.8

0.2

0.7

0.5

0.3

0.4

-0.1

0.6

0.1

0.2

-0.2
0.1

-0.3

0
0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

Figure II.1  Points (xi , yi ) et la droite de rgression. Deux exemples de mme R2 .

Attention,
valeur de

le

R. R

R2
2

ne dit pas tout sur la qualit du modle ; par exemple, les gures II.1 ont mme

doit tre considr comme une donne descriptive, intressante en soi, et pratique pour

comparer des modles sur les mmes donnes, mais il ne peut tre considr comme une note absolue :
2
b)
mme si le modle est valide, R est une variable alatoire dont la distribution (de mme que celle de

peut dpendre fortement de la rpartition des rgresseurs ( moins que j = 0, j > 1). Noter galement
2

que l'ajout d'un rgresseur fera toujours augmenter R , mme si le j correspondant est nul.
2

Le R sera utlis plus tard dans le cadre bien prcis du test de Fisher de nullit de , p.47.

14

Le

R2

2
Raj
= 1
b2 /(T SS/(n 1)) ; c'est un rapport d'estimes non-biaises de
les xi sont des variables alatoires i.i.d. Dicile interprter prcisment.

ajust vaut

si l'on suppose que

variances

Exemple. Dans le cas du modle de Cobb-Douglas, on trouve T SS = 2, 3, ESS = 1, 6 et RSS = 0, 7.

On dit que le travail et le capital investi expliquent 70% de la variabilit de la


production (en fait son logarithme).
On a donc

R2 = 0, 7.

Pourquoi raisonner sur les carrs pour juger des contributions et non pas sur les valeurs absolues ? Voici
un dessin qui peut le justier :

C
e

A
Le ct

AC

a pour longueur

e=

ESS ,

t
et de mme avec

r=

RSS

de juger que la contribution des variables explicatives est donne par

BH/AB .

t = T SS . Il est raisonnable
AH/AB et celle des rsidus par
et

On a bien

AH
AH AC
e2
=
= cos()2 = 2 .
AB
AC AB
t
Le rapport de carrs est donc en fait galement un rapport de deux longueurs.

II.2.5 Eet de la suppression d'un individu. Eet levier


hi = Hii = xi (X T X)1 xTi

Le coecient

(leverage) mesure l'loignement du

ie

individu

xi

des autres ;

plus prcisment (cf. exercice 14 p. 22) :

8 - Proposition
On a

0 < hi 1
hi = 1 span(xj , j = i)
limxi hi = 1

Une valeur leve de

hi

est de dimension

indique que le vecteur

xi

est

isol

p1

soit parce que sa norme est leve, soit parce

qu'il est le seul prsent dans une direction donne. Il sera donc inuent dans l'estimation de
levier), et on dit que
On l'obtient sous

hi

est un indice d'inuence du rgresseur

avec la commande

Si les donnes sont bien rparties, les


rang(H)
Soit

X(i)

xi .

sont peu prs gaux

(eet

Tout ceci sera prcis au III.3.

h=lm.influence(mod)$hat.
hi

p/n

(on sait que

hi =

trace(H)

= p).
X dont on a retir la i-ime ligne xi et y(i) le vecteur y dont on a retir le i-ime
b
(i) et
b(i) les estimes aux moindres carrs de et bases sur X(i) et y(i) . Alors

la matrice

coecient. Soient

(cf. exercice 14 p. 22) :

15

9 - Thorme
Aprs suppression de la i-ime observation, les estimateurs aux moindres carrs des paramtres
deviennent

b(i) = b (X T X)1 xTi


2
(n p 1)b
(i)
= (n p)b
2

u
bi
1 hi

(II.1)

u
b2i
1 hi

(II.2)

II.2.6 Eet de l'ajout d'un rgresseur et coecient de corrlation partielle


On part du modle prcdent

b = (X T X)1 X T y
puis on rajoute un rgresseur, c'est--dire une colonne

X = (X, ).
On se propose de trouver une formule permettant de passer directement de

yb yb ,

pour pouvoir ensuite

calculer l'volution du coecient de dtermination. On a besoin du lemme suivant :

10 - Lemme
Soient

A et B

deux sous-espaces vectoriels orthogonaux de

les projecteurs orthogonaux sur

A, B

et sur

A B,

Rn , alors en notant PA , PB

et

PA,B

on a

PA,B = PA + PB .

Dmonstration.

x un vecteur montrons que PA x + PB x est bien PA,B x. Le vecteur PA x + PB x


A B et de plus x PA x PB x est orthogonal A (car x PA x et PB x le sont) et
faon B ; donc PA x + PB x concide avec PA,B x.
Soit

appartient bien
de la mme
Notons

= ( PX )/ PX

la composante de

orthogonale

normalise.

yb = H y = PX, y = PX, y = PX y + P y = yb + , y = yb + , u
b
car

yb ;

notons que le dernier terme est la prdiction du rsidu par

Le nouveau vecteur de rsidus

est

u
b = u
b , u
b
et par application du thorme de Pythagore, comme

u
b ,

on a

b
u = b
u + , u
b .
2

Donc nalement, le nouveau coecient

1 R =
2

satisfait

b
u 2
b
u2
b
u 2
=
= (1 R2 )(1 2 )
2
2
y y1n
y y1n b
u2

avec

2 =

, u
b2
b
u2 b
u 2
=
.
b
u2
b
u2

(II.3)

= cos([
b) est appel coecient de corrlation partielle de y et sachant x, car c'est la corrlation des
, u
variables dont on a retranch la projection sur X (alors que d'habitude on se contente de les recentrer).
C'est l'analogue du coecient R o cette fois on cherche prdire au mieux u
b l'aide du rgresseur .
Sa valeur absolue mesure l'apport du nouveau rgresseur pour la qualit de la prdiction.

16

II.2.7 Aspects pratiques. Reprsentation graphiques exploratoires


Histogramme des rsidus. Droite de Henry (QQ-plot).

Il s'agit de vrier l'hypothse de nor-

malit. La droite de Henry s'approxime raisonnablement de la faon suivante : ordonner les rsidus
standardiss

u
bi /b

puis les tracer en fonction de

sienne) ; si la distribution des

u
bi

Q(i/(n + 1))

(quantile de la loi suppose, ici la gaus-

est normale, on doit trouver des points approximativement aligns.

Ne pas oublier toutefois que la distribution des

u
bi /b

n'est pas exactement

N(0, 1)

(surtout pour

petit,

cf. III.3). On reprsente ici le QQ-plot correspondant aux donnes de la gure II.2, avec le deuxime
modle ; la concidence est assez bonne sauf pour trois individus

Residus standardises

113

61

64

Quantiles

Reprsentation rsidus/valeurs ajustes. C'est une reprsentation des ubi en fonction des ybi . L'estimation fait que ces deux variables sont empiriquement dcorrles ; toutefois la reprsentation peut faire
apparatre une dpendance vidente. Elle peut provenir par exemple d'une non-linarit de la relation
liant

yi

xi ,

ou plus souvent d'une variance non-constante des

23e3

ui .

1.5

19e3

1.1

15e3

0.7

11e3

7e3

3e3

1e3

5e3

9e3
8e3

0.1

0.3

0.5

0.9

1.3

1.7
4e3

Figure

4e3

8e3

12e3

16e3

20e3

24e3

6.7

7.1

7.5

7.9

8.3

8.7

9.1

9.5

9.9

10.3

II.2  Prix de voitures d'occasion (rponse) en fonction de l'ge (rgresseur) (Source :

OzDASL). Le modle est

pi = 1 + 2 ai + ui .

Sur la premire gure est trac le rsidu en fonction

du prix prdit. La seconde est similaire mais avec les nouvelles variables

Reprsentation rponses/rgresseurs.

On trace

yi

en fonction de

xij

log(p)

et

log(a).

x. C'est une mthode

rustique pour dtecter une dpendance non-linaire entre un rgresseur donn et la rponse. Ceci peut
2
conduire
des fonctions de ces derniers (par exemple xi2 , voir aussi l'intro-

ajouter aux rgresseurs

17

91

89

87

83

77

4.34

4.30

71
10e4

73

75

4.38

4.42

4.46

79

81

4.50

4.54

85

11e4

12e4

13e4

14e4

15e4

4.26
57.4

57.8

58.2

58.6

59.0

59.4

59.8

60.2

60.6

61.0

61.4

Figure II.3  Mmes donnes que la gure II.2. On trace les rsidus partiels, y b1 , en fonction
du prix pour les deux modles. La gure rponse/rgresseur est ici la mme un dcalage vertical
prs.

duction du temps dans l'exemple du II.5.3), quitte les liminer plus tard lors des tests.
Si cette mthode est trs simple, la suivante donnera souvent des rsultats plus prcis.

Reprsentation des rsidus partiels. Ce trac sert illustrer l'inuence du j -ime rgresseur xj

(j X ), pour vrier par exemple l'hypothse de linarit. Il n'existe pas de mthode


j
ralise un bon compromis. L'ide est de tracer le rsidu obtenu sans x

ime vecteur colonne de


idale mais la suivante

z = y X b + xj bj
en fonction de

xj . Ce trac tente d'illustrer la dpendance de y

en

xj , la contribution des autres variables

ayant t rduite au maximum ; l'apparition d'une structure particulire (autre qu'une droite) peut
remettre en cause l'hypothse de linarit.
On les obtient sous R par la commande
mande

crp

de la bibliothque

car.

residuals(...,type="partial"),

ou bien en utilisant la com-

Attention. S'il y a de fortes corrlations entre variables, ou si le modle est trop inexact, ce trac peut
donner des rsultats trs mauvais, bien pires que la reprsentation rponses/rgresseurs.

tude thorique. Si l'on note ej

le

j -ime

vecteur de la base canonique de

Rp ,

alors

z = y X(I ej eTj )b = (I XPj (X T X)1 X T )y = Qy


o

Pj = I ej eTj

est le projecteur orthogonal sur l'orthogonal de

ej .

On vrie sans peine que

Qxj = xj
Qxk = 0,
Qv = v,

k = j
vX

(c--d X T v = 0).

Q est donc le projecteur oblique de noyau xk , k = j , sur l'espace contenant xj et les vecteurs orthogonaux
X . L'eet de Q est donc de  nettoyer  la contribution linaire des autres rgresseurs
j
en conservant celle de x .
aux colonnes de

Alternative. Noter que cette mthode est tout--fait dirente du choix z = y X (j) b(j)
signale la suppression du

j -ime

rgresseur, car ici la matrice

ne prserve pas

o l'exposant

xj .

tude des rgresseurs. On pourra faire une analyse de X (corrlations en variables, prsence de sousgroupes d'individus, acp de X , etc. cf. p.ex. [6]). On verra au chapitre suivant qu'une forte dpendance
entre certains rgresseurs peut troubler l'analyse.

18

chelles.

Il est souvent utile de remettre les donnes sur une chelle correcte. Voir l'exemple de la

gure II.2.
Une situation classique quand y est positif est d'observer graphiquement que la variance est en gros
2
proportionnelle y , ce qui indique que c'est plutt log y qui suit un modle homoscdastique ; en eet
x
on voit facilement que si log y = x + u et u 1, alors y e (1 + u), ce qui fait une variance en
2
y . Cette transformation est souvent utilise lorsque la variance augmente avec y , et y > 0. On appelle
parfois cela la

stabilisation de variance.

Plus gnralement on utilise les transformations de Box et Cox :


2
traditionnellement en maximisant le R .

y 1
avec

0 1.

On choisit alors

II.2.8 Traitement des variables symboliques


En pratique on a souvent aaire des variables qualitatives (symboliques). La mthode la plus courante
pour prendre en compte une telle variable dans une tude statistique est de la convertir en plusieurs
variables valeurs 0 ou 1 ; par exemple si la classe d'ge d'un individu a trois modalits, J, A, V , on

remplacera la variable explicative x {J, A, V } par un vecteur x = (1x=A , 1x=J , 1x=V ), ce qui permet

ensuite d'employer des mthodes numriques. Malheureusement, on voit que toute composante de x est
fonction des deux autres ce qui fait que cette mthode est en gnral mathmatiquement inutilisable
telle quelle, aussi bien en analyse de donnes qu'en rgression (on va voir plus bas qu'elle conduit une
matrice X de rang dcient) ; le procd habituel consiste ter arbitrairement une modalit, si bien

que x devient x = (1x=A , 1x=J ). Ceci conduit une situation particulirement embrouillante que l'on
dtaille ici (mme si les logiciels habituels font automatiquement ces transformations).

yi (p.ex. la productivit l'hectare) l'aide d'une variable symbolique zi


a, b, c (p.ex.  pas d'engrais ,  engrais1 ,  engrais2 ), on peut tre tent de

Si l'on cherche expliquer


prennant disons 3 valeurs
fabriquer les variables

xi1 = 1,

xi2 = 1zi =a ,

xi3 = 1zi =b ,

xi4 = 1zi =c

et d'utiliser le formalisme prcdent. Toutefois, si l'on fait cela, le tableau


car on a pour tout

i xi1 xi2 xi3 xi4 = 0,

1
1

X
1 = 0.
1

ne sera pas de rang plein

ou encore

Ceci signie simplement la prsence d'une variable en trop. Pour rsoudre ce problme il sut d'liminer
une des 4 variables. Ainsi on considrera le modle

yi = 1 1zi =a + 2 1zi =b + 3 1zi =c + ui .

(II.4)

ou bien

yi = 1 + 2 1zi =a + 3 1zi =b + ui

(II.5)

Ces deux paramtrisations sont quivalentes (1 = 3 ,


donnes sont bien ranges, une matrice X de la forme

X=

.
.
.

.
.
.

.
.
.

1
0

0
1

0
0

.
.
.

.
.
.

.
.
.

0
0

1
0

0
1

.
.
.

.
.
.

.
.
.

X =

et

1 1

.
.
.

.
.
.

.
.
.

1 1 0
1 0 1
.
.
.

.
.
.

.
.
.

1 0
1 0

1
0

.
.
.

.
.
.

.
.
.

1 0

19

= 1

3 , 3

= 2 3 )

et donnent, si les

S'il n'y a qu'une variable symbolique, la reprsentation (II.4) est la plus naturelle ; en revanche, s'il y en
a plusieurs il est plus simple de se contenter de retrancher chaque fois une modalit :

yi = 1 + 2 1zi =a + 3 1zi =b + 4 1ti =n + ui ,

zi {a, b, c},

ti {n, s}

(II.6)

Ces complications viennent fondamentalement du fait que ce dernier modle (modle additif ) n'est en
ralit pas naturel du tout (le bon modle tant donn par (II.8)). On verra que l'avantage du modle
sans interaction (II.6) est d'avoir moins de paramtres ; il a ici

1 + (3 1) + (2 1) = 4

paramtres.

Si des variables quantitatives sont prsentes, il sut bien entendu de les ajouter au tableau

X;

on peut

soit considrer que leur infuence est indpendante de la (ou des) variable symbolique :

yi = 1 + 2 1zi =a + 3 1zi =b + 4 xi + ui
soit qu'elle en dpend (modle avec interactions)

yi = 1 + 2 1zi =a + 3 1zi =b + 4 xi + 5 1zi =a xi + 6 1zi =b xi + ui .


P.ex.

est la pluviosit et dans ce dernier modle l'augmentation de productivit en prsence de pluie

peut dpendre de l'engrais utilis ; cette dpendance est rete par la valeur de
de

(II.7)

ou

en comparaison

4 .

x (1), de z
= 2) et de l'interaction ((3 1) 1 = 2). De mme, pour un modle deux variables symboliques
avec p et q modalits, le modle sans interaction aura 1 + (p 1) + (q 1) rgresseurs, et le modle
avec interactions en aura pq = 1 + (p 1) + (q 1) + (p 1) (q 1), avec des interactions du type
1z=a 1z =a , 1z=b 1z =a . . . Ce mode de calcul s'tend un nombre arbitraire de variables. Noter que
On a donc ici 6 rgresseurs, ce qui correspond aux contributions de la constante (1), de
(3 1

comme dans le cas des quations (II.4,II.5), on a les modlisations quivalentes

y = 1 1z=a,t=n + 2 1z=b,t=n + 3 1z=c,t=n + 4 1z=a,t=s + 5 1z=b,t=s + 6 1z=c,t=s + u


y = 1 + 2 1z=a + 3 1z=b + 4 1t=n + 5 1z=a,t=n + 6 1z=b,t=n + u.

(II.8)

Il faut bien voir que dans le cas d'un modle complet avec toutes les interactions entre variables symboliques, comme ci-dessus, le dcompte des paramtres ne pose aucun problme, il sut de calculer toutes
les possibilits, sans le rgresseur constant (formulation (II.8)), ceci est galement valide dans le cas o
se mlent variables qualitatives et quantitatives, par exemple le modle (II.7) se rcrit plus simplement

yi = 1 1zi =a + 2 1zi =b + 3 1zi =c + 4 1zi =a xi + 5 1zi =b xi + 6 1zi =c xi + ui


avec

3+3 = 6

paramtres ; si l'on ajoute

t,

on a alors 12 paramtres. La gymnastique de dcompte

propose plus haut n'a par consquent d'intrt que si l'on considre des modles o toutes les interactions
ne sont pas prises en compte comme (II.6).

Exemple.

On observe la prise de poids de rats nourris avec quatre rgimes dirents correspondants

deux sources de protines possibles (buf ou crales) en deux doses possibles (faible ou leve) .
Chacune des combinaisons des deux facteurs est teste sur 10 individus tous dirents ; il y a donc 40
observations de prise de poids en tout.
Le modle avec interactions estim se rcrit

poids = 100 20, 8 1D=f 14, 1 1P =c + 18, 8 1D=f,P =c + 15 N(0, 1).


La prise de poids conscutive un rgime de buf dose faible est de moyenne 79,2 avec un ecart-type
de 15.

II.2.9 Exercices
Exercice 1.

Prciser la matrice

de l'exercice 1 p. 10. quoi correspondrait l'ajout du rgresseur

constant ?

Statistical Methods, Iowa State University Press, 1967. Voir aussi Hand, Daly, Lunn, McConway
A Handbook of Small Data Sets, Chapman and Hall, 1994.

1. Snedecor & Cochran


and Ostrowski,

20

Exercice 2. Dmontrer les propositions 2 et 5.


Exercice 3. On est dans la situation de l'exercice 1 p. 10 avec (p1 , p2 , p3 ) = (50, 40, 60) et qi = 100 pi .
Expliciter sa valeur de l'estimateur OLS de

si

y1 = y2 = 1, et y3 = 2 ; qu'observe-t-on ? Peut-on ajouter

le rgresseur constant ?

Exercice 4. Dmontrer que s'il n'y a qu'un rgresseur en dehors de la constante (i.e. p = 2), alors R est
la corrlation empirique entre

et

y.

Exercice 5. On considre le modle


yi = bxi + ui ,
o

xi

E[u2i ] = 2 ,

E[ui ] = 0,

E[ui uj ] = 0

est scalaire. Expliciter l'estimateur des moindres carrs

bb.

Soit l'estimateur

b = yi / xi .

parer ces deux estimateurs en calculant leur biais et leur variance (On vriera que la proprit
(exercice 13) s'applique bien : la variance de

bb

est infrieure celle de

b).

Com-

blue

Sous quelle condition les

variances sont-elles gales ?

Exercice 6. Calculer la covariance entre ub et b (on pourra utiliser la relation ub = Ku).


Exercice 7. On fait une rgression de y sur deux variables explicatives x et z , c--d X = (1, x, z) ; il y
a en tout

individus. On a obtenu le rsultat suivant :

5 3
XT X = 3 3
0 1
1. Que vaut

n?

0
1
1

Que vaut le coecient de corrlation linaire empirique entre x et z ? (Indication :


X T X en fonction des colonnes de X ).

penser l'interprtation de chaque entre de


La rgression linaire fournit les rsultats :

y = 1 + 3x + 4z + u
b,

RSS = 3.

2. Que vaut la moyenne empirique


3. Calculer

b
y 2 ;

justier que
2
dtermination R .

y (on

b
y y12 = b
y 2
y 12 ;

On s'intresse au modle priv du rgresseur

y = X0 0 + u0 ,

5. Calculer

b
y0

XT X) ?

en dduire ESS, TSS et le coecient de

X0 = (1n , x).

4. Calculer numriquement

utilisera la matrice

X0T y

. Dmonter que

(commencer par calculer

X T y) ;

b
u0 + b
y0 = b
u + b
y
2

6. Calculer le coecient de corrlation partielle entre

et

en dduire

b0 .

. En dduire la norme de

sachant

u
b0 .

x.

Exercice 8. Vrier les proprits de la matrice Q du II.2.7.


Exercice 9. Erreur en prdiction.
1. Vrier que
En dduire

E[b
u2i ] = 2 (1 hi ). On
que
b2 est sans biais.

2. Soit un nouvel individu

(y , x )

pourra utiliser la relation

u
b = Ku.

satisfaisant les hypothses du modle, vrier que

b 2 ] = 2 (1 + x (X T X)1 x T ).
E[(y x )

Exercice 10. (Validation croise).


2

bCV
=

On considre l'estimateur de la variance par validation croise :

1
(yi xi b(i) )2 .
n i

21

1. Montrer, en utilisant la formule pour

bCV
=

b(i) ,

que

1
u
b2i
n i (1 hi )2

(II.9)

2. Utiliser l'exercice 9 p. 21 pour calculer son esprance. Comparer

bCV

et

b2

dans le cas o les

hi

sont gaux.

Exercice 11. Soit le modle habituel y N(X , 2 I). Soit un nouvel chantillon y N(x , 2 ). On

a t tir uniformment sur {x1 , ...xn }.



b
Quelle est la variance de x x
? Quelle est la variance de

suppose que

y x b ?

(Tenir compte de la loi de

dans le calcul des variances).

Exercice 12. Modle contraint.

b l'estimateur OLS habituel. Vrier que l'estimateur


minimum de SS() sous la contrainte L = l, est

1. Soit
le

OLS sous la contrainte

L = l,

c.--d.

b
b0 = b + (X T X)1 LT [L(X T X)1 LT ]1 (l L).
2. En dduire que

yb0 = X b0

satisfait :

(
)1
b
y yb0 2 = (Lb l)T L(X T X)1 LT
(Lb l).
3. Montrer que

b
y yb0 2 = b
y0 y2 b
y y2 .
Indication : ne pas utiliser le question prcdente.

Exercice 13. (Proprit BLUE). Les estimateurs linaires de

sont ceux de la forme

= (X)y + (X)
o

et

sont des fonctions de

X.

Bien entendu

b en

est un. On a alors la proprit

Blue (Best Linear

Unbiased Estimator) :

b est de variance minimale dans la classe des estimateurs de linaires sans biais.
Dmontrer ce rsultat de la faon suivante :

est sans biais,


b et b
alors

1. Montrer que si
2. Exprimer

3. En dduire que

ncessairement

puis que

et

(X) = 0.

u.
b
.
V ar() V ar()

en fonction de

b )
b = 0,
Cov( ,

(X)X = I ,
et

Exercice 14. On dmontre ici des formules de suppression d'un individu.


1. Prouver le lemme d'inversion matricielle : Soient
taille

n n, n m, m m, m n,

A, B, C, D

quatre matrices, respectivement de

alors, si les inverses existent on a

(A + BCD)1 = A1 A1 B(DA1 B + C 1 )1 DA1 .


XT X =

T
i xi xi . On peut le faire soit par calcul explicite de chaque coecient,
T
soit en faisant le produit de matrices X X par blocs.

2. Vrier la formule

3. En utilisant les deux points prcdents, dmontrer la formule (X(i) est la matrice dduite de
par suppression de la

i-ime

ligne)

T
(X(i)
X(i) )1 = (X T X)1 +

(X T X)1 xTi xi (X T X)1


, hi = xi (X T X)1 xTi
1 hi

22

4. En dduire que :

T
(1 hi )1 = 1 + xi (X(i)
X(i) )1 xTi .
En dduire les trois points de la proposition 8.
5. Exprimer
l'absence

T
X T y en fonction de X(i)
y(i) et xTi yi ,
du i-ime individu (thorme 9).

puis dmontrer les formules pour les estimes en

Exercice 15. On considre le modle deux rgresseurs x et z :


y = a1 x + a2 z + u.
1. Calculer la matrice de covariance des coecients estims et l'exprimer en fonction de

x, z

et

cos(d
x, z).
2. Que vaut la corrlation de

b
a1

et

b
a2 ?

Que se passe-t-il si

et

sont orthogonaux ?

Exercice 16. Un goteur teste des chocolats fabriqus base de cacao de trois provenances direntes :
Cte d'Ivoire, Venezuela, Brsil. Il donne une note pour chaque chocolat qu'il gote. Les chocolats sont
prpars avec des doses de vanilline direntes. Proposer pour cette exprience un modle de rgression
avec interaction et un sans interaction. Combien ont-ils de paramtres ? Interprter leur dirence.

Exercice 17.

On teste des doses direntes d'engrais dans un champ divis en parcelles similaires de

mme taille (une dose par parcelle). On mesure le poids de bl produit chaque fois et l'on prsuppose
le gain de production est

proportionnel la quantit d'engrais utilis (la dose).

1. Combien y a-t-il de paramtres estimer ? Montrer que l'on peut mettre cette exprience sous la
forme d'un problme de rgression. Combien de colonnes a la matrice
2. On fait maintenant la mme exprience mais dans trois champs
que l'eet de l'engrais
la matrice

dpend

X?

dirents.

On suppose de plus

du champ. crire l'quation de rgression. Combien de colonnes a

X?

3. On suppose que l'engrais a le mme eet dans les trois champs, mais que leur productivit en absence d'engrais est toujours dirente. Que devient l'quation de rgression ? Combien de colonnes
a la matrice

X?

4. On a maintenant deux engrais et un seul champ. Combien de colonnes a la matrice

X?

Vrier que la somme des solutions fait 15.

II.3 Modles htroscdastiques (Moindres carrs gnraliss)


II.3.1 Modle
La dirence avec le modle prcdent est que la matrice de covariance des bruits est maintenant dirente
d'un multiple de l'identit. Il est souvent dsign sous le terme GLS (Generalised Least Squares).

Modle. On suppose l'existence d'un vecteur , de > 0, de > 0 et de variables alatoires ui tels
que

y = X + u,
E[u] = 0,
E[uuT ] = 2 .
En d'autres termes, pour chaque

yi = xi + ui
E[ui ] = 0
Cov(ui , uj ) = 2 ij

(htroscdasticit et corrlation des erreurs).

23

2
Le paramtre , a priori redondant, est introduit traditionnellement avec l'ide que est connu
2
l'avance et estimer, ce qui, on va le voir, nous ramne par une transformation simple au problme
prcdent, ce qui est intressant du point de vue de l'analyse thorique. Souvent cependant reprsente
directement la matrice de covariance de

(si bien que

= 1),

elle est inconnue, et est paramtre par

un vecteur de taille raisonnable (cf. les deux exemples du II.3.4).

II.3.2 Rduction au cas = I . Estimation de et 2


Soit

1
,

une racine carre de

y = Ry,

X = RX,

RT R = 1
;

c--d

si l'on pose :

u = Ru

on obtient

y = X + u ,

E[u u ] = 2 R(RT R)1 RT = 2 I.


T

On a donc dcorrl et normalis les observations. On est ramen au problme du II.2.


Une autre approche qui, on va le voir, conduit aux mmes conclusions, est de passer par le modle

2
1
n
gaussien y N(X , ). La matrice dnit une nouvelle mtrique sur R qui intervient dans la
vraisemblance :

z21 = z T 1
z =

zi (1
)ij zj .

ij

11 - Dfinition
est l'estimateur du maximum
u (c.--d. y N(X , 2 )) :

L'estimateur des moindres carrs gnraliss de


blance sous l'hypothse de normalit de

de vraisem-

1 T 1
bG = arg min y X1
= (X T 1
X y.
X)

On a bien :

T
T
bG (y, X, ) = bOLS (y , X ) = (X X )1 X y .

En consquence les rsultats du II.2

s'appliquent :

12 - Proposition

b2 = (n p)1 y yb21

est un estimateur sans biais de

2 .

On peut aussi relier ces rsultats au II.2 en remarquant que seule la mtrique a chang :

ybG = HG y,
et

HG

1 T 1
HG = X(X T 1
X
X)

est le projecteur orthogonal sur

pour le produit scalaire

z, t1
= z T 1
t.

Attention, la formule de prdiction pour un nouvel individu dont la covariance avec les autres individus
est connue et non-nulle dire de

E[y0 ] ;

(vecteur not

).

Donnons l'exemple des

expriences rptes

exprience avec le rgresseur

yi = xi + u
i ,

yb0 = x0 b, du moins si l'on dsire prdire le bruit avec, c.--d. y0 et non


u0 avec les ui

c'est la formule (II.12) que l'on verra plus loin, qui fait intervenir les corrlation de

xi ;

(ou

donnes groupes)

en notant la rponse moyenne

V ar(
ui ) = 2 /ni .

est diagonale. L'estimation GLS de

yi ,

: On fait

ni

fois la mme

on a
(II.10)

partir des

yi

donnera le mme rsultat que l'estimation OLS

sur les donnes non-moyennes. En revanche l'estimation de


les donnes non moyennes.

24

sera moins bonne que si l'on possdait

II.3.3 Dtection de l'htroscdasticit


L'homoscdasicit ne peut tre teste en toute gnralit car il s'agit de tester tous les ccients de
avec seulement

observations ! On peut imaginer une multitude de tests. La meilleure mthode reste de

proposer des modles htroscdastiques plus spciques (mixtes, etc.) en fonction de l'ide que l'on se
fait des donnes, et de les tester.
Un test graphique simple est la reprsentation rsidus/valeurs ajustes du II.2.7 ; une volution de
l'amplitude des

u
bi

ybi

quand

varie est un indicateur d'htroscdasticit.

On peut aussi utiliser le test de Breusch et Pagan qui cherche dtecter si la variance de ui dpend de
xi . Il fait la rgression de
b2 u
b2i sur des variables explicatives zi (en gnral, zi = xi ) et teste la nullit
3
des coecients obtenus (procdure ncv.test de R) .
Si

i reprsente un indice de temps, on utilise parfois le test de Durbin-Watson 4

pour dtecter la prsence

d'une corrlation non-modlise entre les donnes ; c'est un test de corrlation entre les rsidus dont la
n
n 2
statistique est S =
ui u
bi1 )2 / 1 u
bi . Si S est trop grande (resp. petite) il y a alors une corrlation
2 (b
signicativement ngative (positive) entre les rsidus.

II.3.4 Estimation de

Il est totalement dsespr d'estimer

sans contrainte supplmentaire car cette matrice contient plus

de coecients que de donnes dont on dispose. On postulera donc toujours pour

une forme trs

particulire avec peu de paramtres (cf. (II.10), les exemples de ce paragraphe et le II.3.5).

Une mthode gnrale. Si l'on dispose d'un estimateur (, y, X) de


de

et

en fonction des donnes et

peuvent tre alors estims en rptant les deux oprations suivantes :

pour une valeur estime


puis ensuite estimer

de

b 1 y
b 1 X)1 X T
b = (X T
b y, X).
b = (,

calculer :

l'aide de

b :

La convergence de la mthode dpend de chaque situation particulire.

Exemple :  Seemingly unrelated regression . Soit le modle


(

y
y

Par exemple
estime de

X
0

0
X

)(

u
u

V ar

u
u

v11 Id
v12 Id

v12 Id
v22 Id

)
.

et yi sont deux mesures direntes, ou dires, de l'activit commerciale du pays i. Une

b.
et permet alors d'en dduire une des vij partir u
b et u
b , ce qui conduit donc un

yi

Exemple : Variance dpendant d'une modalit et proportionnelle une variable.


mence des pots avec les mmes graines mais des terreaux dirents, variable
ment chaque plante avec une intensit lumineuse

t,

On ense-

et en clairant constam-

dirente pour chacune ; on mesure la hauteur

de

la plante au bout d'un mois

yi = ti t + ai + ui ,

V ar(ui )1/2 = (ti + ai i ).

La variance dpend donc du type de terreau et du niveau d'clairage. La commande R correspondante


sera (bibliothque

nlme)

2. T.S. Breusch, A.R. Pagan, (1979) A simple test for heteroscedasticity and random coecient variation,

Econometrica

47, 12871294

2
1 X T X) 0. C'est un test de corrla1
3. Dans un mme esprit le test de White compare S = n
u
b2i )(xT
i (b
i xi n

tion entre les carrs des rsidus et les rgresseurs. Concrtement, la matrice S vectorise s'crit n1
vi
, o vi Rp(p+1)/2

contient donc les termes (b


2 u2i )(xij xik n1 (X T X)jk ), j et k variant. Le test compare ( vi )T ( vi viT )1 ( vi )
2
un
.
p(p+1)/2
H. White, A heteroskedasticity-consitent covariance matrix estimator and a direct test for heteroscedasticity,

trica, vol.48, No 4, May 1980.

4. J. Durbin, G.S. Watson, Testing for Serial Correlation in Least Squares Regression. III,

Biometrika, Vol. 58, No. 1.

(Apr., 1971), pp. 1-19. Le test apparat pour la premire fois dans un article de 1951 des mmes auteurs.

25

Econome-

gls(yt+a,weights=varConstPower(form=a|t))
Si la variance ne dpend que de

t,

faire

weights=varIdent(form=1|t).

Exemple : Donnes longitudinales. On s'intresse savoir si le labour a une inuence sur la prsence
5

de carbone dans le sol . On prlve des carottes dans divers champs et la mesure

tj

la profondeur

de la

i-ime

yij

est le taux de carbone

carotte. Les variables explicatives sont le taux d'humidit et l'anne. En

raison de la corrlation prsente le long de la carotte on postule le modle suivant (en fait il y a deux
modles : un avec labour et un sans labour)

yij = xi +

k tkj + vij + uij

k=1
2
u Id,

E[uu ] =

E[vij vik ] = v2 exp{|tj tk |},


K = 1)

Le terme polynomial (p.ex.

i = i.

E[vij vi k ] = 0,

explique une tendance rgulire de variation du taux de carbone

en fonction de la profondeur ; le terme

vij ,

uij ,

ajout

exprime une corrlation additionnelle entre

prlvements proches pour le mme individu.


Chaque estime
estime de

b
,
b

u , v

et

de

conduit une estime des

uij

On a donc ainsi fabriqu une fonction

vij , qui
b
(,
y, X).

et des

Filtrage par krigeage. Soit le modle de rgression habituel o les yi


prises chacune en un point

fournissent leur tour une

sont typiquement des mesures

du plan, c.--d. un champ spatial (intensit lumineuse en un point d'une

image, mesure de pollution en un endroit, etc.) [4]. On se propose d'exprimer la corrlation comme
fonction une paramtre des localisations, par exemple

yi = xi + ui ,

i = 1, . . . n,

E[ui uj ] = c exp(bi j a ) + 02 ij .

(II.11)

Nous sommes encore dans le cadre prcdent ; les quatre paramtres

a, b, c, 02

devront tre estims.

Souvent dans les applications seul le rgresseur constant est considr mais ce n'est pas toujours le cas.
Le but du krigeage est de prdire la rponse
explicatives

x0

y0

en un nouveau point

et en exploitant les corrlations existant avec les

y = (yi )1in ,

u = (ui )1in ,

= E[uuT ],

yi .

en prenant en compte les variables

Ici

= 1

et on note

= E[uu0 ].

On suppose dans la suite que le rgresseur constant est pris en compte dans

x.

Si

et

6
connus, l'estimateur naturel de y0 serait, sous l'hypothse gaussienne son esprance sachant les

yb0 = E[x0 + u0 |u] = x0 + T 1 u.

Comme

et

taient

yi

soit

sont inconnus on choisit de les estimer et il

vient

b
b 1 (y X ).
yb0 = x0 b + T

(II.12)

b , c.--d. dans l'exemple (II.11) estimer , a, b, c et 2 . En pratique


b et
0
bG .
utilise

Il ne reste donc plus qu' trouver


on estime d'abord

puis on

Parenthse. Rappelons que

de remarquer que

yb0 =

le rgresseur constant est pris en compte. Il est d'usage, dans la littrature de krigeage,

pi yi

o le vecteur

p est solution d'une de ces deux quations suivantes en (p, q) au choix 7

5. F.J. Breidt,Ecological Modeling with Soils Data : Semiparametric Stochastic Mixed Models for Increment Averages,
Journes Statistiques de Rennes, 2006. Nous simplions ici beaucoup : En ralit F.J. Breidt utilise des fonctions splines et
les termes correspondant aux
6. Si

(X, Y )

dpendent galement des variables explicatives, le tout dans un cadre de modles mixtes.

est un vecteur gaussien centr dans

7. Utiliser la proprit suivante : Soit

A
C

B
D

)1

(
=

E
F CA1

A, B, C, D

A1 BF
F

Rn+p ,

on a

1
E[Y |X] = RY X RXX
X.

quatre matrices de dimensions adquates, si les inverses existent

)
,

F = (D CA1 B)1 ,

26

E = A1 + A1 BF CA1 .

XT

)(

X
0

p
q

(
=

xT
0

XT

ou

X
0

)(

p
q

(
=

xT
0

)
(II.13)

ij = E[(ui uj )2 ], i = E[(ui u0 )2 ].

La matrice

est appel le variogramme. Dans le domaine des processus spatiaux, il apparat souvent plus naturel

de travailler avec cette matrice plutt qu'avec


1/

pi = 1

X T p = xT
0

puisque

pour des raisons de modlisation. Queqlues remarques :

(cette proprit est perdue si le rgresseur constant n'est pas pris en compte, et

la deuxime quation matricielle galement). Les

pi

ne sont pas ncessairement

0.
p

2/ Il est immdiat de vrier que (II.13) correspond la solution du problme em

(
)
min V ar y0
pi yi

sous

pi xi = 1.

i
3/p est galement solution de (II.13) modi en remplaant

L'estimation de

( ou

par

dans les dnitions de

se fait gnralement par le biais d'un modle du type

et

ij = (i , j )

un vecteur de variables explicatives ; en dehors de (II.11) voici un autre exemple

ij = c exp(

, ,

est

ck |xik xjk | ) + 2 ij

k
ou encore

ij = (i j )
1
N (h, )

b(h) =
et

N (h, )

o la fonction

est estime par un estimateur non paramtrique p.ex.

u
bi u
bj

h<|i j |<h+

est le nombre de termes dans la somme,

un paramtre choisir. Le problme est d'obtenir

une matrice positive la n.


On peut aussi utiliser un modle pour

{
g(x) =
(la fonction

par exemple le modle  sphrique 

ij = g(i j /)

3x x3 , x < 1
2, x > 1

est drive continue) ou le modle exponentiel

g(x) = 1 ex .

On trouvera des compl-

ments dans [18].

II.3.5 Modles mixtes


C'est le modle de rgression

y = X + Z + u,
o

et

pendant de

N(0, G),

u N(0, 2 Id)

sont des matrices connues (rgresseurs),

u. G

est le paramtre et

(II.14)

est typiquement une matrice diagonale. On peut remplacer

gnrale. Noter que

a un nombre a priori faible de colonnes, et donc le bruit

trs corrl d'une donne l'autre, contrairement

y N(X, V ),

est un bruit vectoriel ind 2 Id par une matrice plus

ui .

V = 2 Id + ZGZ T .

engendr par

est

(II.15)

y N(X + Z, 2 Id)
coecients (les j ).

On peut voir l'inverse cette modlisation comme


information Baysienne sur une partie des

(Z)i

On a

avec l'introduction d'une

Un point de vue plus pragmatique est d'y voir une possibilit d'estimer d'un modle linaire quand la
matrice de rgression, ici

(X|Z),

a beaucoup de colonnes, voire plus de colonnes que de lignes. Mme si

est inconnu, il pourra en pratique tre estim via une modlisation paramtrique dont la plus simple
2
est G = Id.
8. De tels modles sont utiliss dans l'article de J. Sacks, W.J. Welch, T.J. Mitchel et H.P. Wynn, Design and analysis
of computer experiments,

Stat. Sci., 1989, vol.4, No.4, 409-435.

27

Le modle mixte est une formulation particulire de modle htroscdastique ; elle permet en
particulier de proposer un modle de complexit intermdiaire entre le modle complet y N((X|Z), I)
(qui a trop de paramtres) et le modle y N(X, I) qui est trop simple.
En rsum :

L'intrt principal des modles mixtes est de permettre de juger de l'importance des rgresseurs Z
dans des situations o l'on ne peut pas estimer le modle complet : si le modle mixte est signicativement
meilleur que le modle eets xes simple, alors les rgresseurs

jouent un rle signicatif.

On verra au III.4.7 qu'une application typique est de tester les interactions compliques en analyse de
la variance.
Pour les dtails concernant l'estimation nous renvoyons [1] ou [16].

Exemple : donnes groupes (random block eects). Supposons que l'on a rassembl p groupes de
donnes obtenues dans des conditions direntes. Par exemple chaque groupe peut reprsenter une srie
d'expriences (test de cocktails, traitements mdicaux, etc.) faites sur un sujet (dirent d'un groupe
l'autre). l'intrieur de chaque groupe on ne peut pas considrer les mesures comme indpendantes car
elles ont en commun des conditions exprimentales spciques (le goteur, le cobaye, etc.). En dsignant
par

xe , e = 1, . . . ne , les rgresseurs de l'exprience numro e


s, s = 1, . . . ns le sujet, on pourra choisir le modle :

(composition du cocktail, teneur en sucre,

etc.) et

s = N(0, g2 ).

yse = xe + s + use ,

On voit que l'eet alatoire se traduit ici par un

biais variant alatoirement d'un sujet l'autre (certains

goteurs sont plus svres, etc.) ; en reprenant les notations prcdentes, et en supposant que chaque
sujet fait toutes les expriences,

0 ...
Z=
. .
..
..
0 ...

et

...
..

..

est

(ne ns ) ns

0
1
.
.
.

= N(0, g2 Ins )

sont des vecteurs de 0 et de 1. Dans ce cas,

mesure la variabilit de la rponse due au

changement de conditions exprimentales (uctuations de la svrit d'un goteur l'autre). Dans le


cas des cocktails, il est clair le modle complet n'est pas beaucoup plus intressant d'un point de vue
pratique que le modle mixte, puisqu'on ne s'intresse pas aux sujets individuellement.
Noter que dans cet exemple

(X|Z) est de rang dcient, cause de la colonne de 1 dans X ; en eet,


i dans la modlisation, il est important de prserver la symtrie :

en raison du caractre alatoire des

l'eet du retrait d'une colonne redondante dpendrait ici de la colonne choisie. Si l'on cherche estimer
( )

les i dans le modle y N((X|Z)


i = 0, lie au fait que
, I), il est naturel d'ajouter la condition
les i du modle mixte sont centrs, et la solution redevient unique.

Exemple : uctuations sur les paramtres d'un modle longitudinal 9 .

Les auteurs cherchent

proposer un modle de croissance pour des enfants de 12 14 ans. Il y a 26 enfants. On mesure


la taille

yij

de l'enfant

l'ge

9. J. C. Pinheiro, and D. M. Bates,

tij , j = 1, . . . J = 9

(les mesures sont prises tous les trois mois).

Mixed-Eects Models in S and S-PLUS, Springer, 2000.

28

175
170
165
160
155
150
145
140
135
130
125
11.0

11.2

11.4

11.6

11.8

12.0

12.2

12.4

12.6

12.8

13.0

Les auteurs postulent le modle polynomial (le choix des ordres 4 et 2 est de nature exprimentale)

yij =

k tkij

k=0
Si

(.0 , .1 , .2 ) N(0, G).

ik tkij + uij ,

(II.16)

k=0

est petit, il est hors de question d'estimer un polynme d'ordre 4 par enfant, et cela prsente peut

d'intrt car l'interprtation du paquet de paramtres obtenus exigera une nouvelle analyse statistique.
Les auteurs choisissent donc le modle (II.16). Les

reprsentent le polynme moyen tandis que les

servent modliser la variabilit d'un individu l'autre. L'estimateur de

ik

quantie cette variabilit.

L'analyse avec la commande

mod=lme(taille1+t+I(t2 )+I(t3 )+I(t4 ),random=1+t+I(t2 )|sujet),


nlme 10 )
i = j )

(bibliothque

i j rij

pour

0
149

1
6, 2

donne les estimes (eets, xes, variances, corrlations, avec la convention

2
1, 1

3
0, 47

4
0, 34

0
8

Notons les fortes corrlations, et la cohrence de


ces quantits s'obtiennent avec

intervals(mod).

1
1, 7
r01 > 0

2
0, 8

u
0, 47

r01
0, 61

r02
0, 22

Gij =

r12
0, 66

avec la gure. Les intervalles de conance pour


4
yij = k=0 k tkij + uij , donne

L'estimation du modle

bien les mmes estimes de la partie xe.


On peut voir ce modle comme un

k + ik ,

modle hirarchique

car le coecient de

tk

pour l'enfant

est

ce qui revient postuler un modle de rgression pour ce coecient.

Pour additionner plusieurs eet alatoires indpendants il faut faire une liste, par exemple

mod=lme(taille1+t+I(t2 )+I(t3 )+I(t4 ),random=list((1+t|sujet),(I(t2 )-1|sujet)))


revient imposer

r02 = r12 = 0.

On peut galement utiliser la bibliothque lme4 qui donne de bons rsultats en estimation ; la com2
3
4
2
mande sera mod=lmer(taille1+t+I(t )+I(t )+I(t )+((1+t+I(t ))|sujet)). Pour un modle avec
uniquement des eets alatoires du type
(les paramtres sont

(, u , , , ))

plus dicile raliser avec


Pour les cocktails, on fera

Estimation.

lme

yijk = +i +j +ij +uijk o les trois eets sont indpendants


on fera lmer(y1+(1|A)+(1|B)+(1|A : B)). Ceci est beaucoup

qui est adapt pour les eets embots, cf. III.4.6 et III.4.7.

lmer(yx+(1|sujet))

Les paramtres sont

(, , G),

ou

lme(yx,random=1|sujet).

est suppose par dfaut diagonale mais peut ven-

tuellement tre soumise d'autres contraintes spcies par l'utilisateur. L'estimation est faite soit par
10. Pour la programmation des modles mixtes sous R nous renvoyons par exemple au document d'introduction de
D. Concordet :

www.biostat.envt.fr/master/IMG/pdf/Commandes_nlmetex.pdf.

29

maximum de vraisemblance sur la base de l'quation (II.15), soit par la mthode REML qui consiste en

un premier temps projeter y sur l'orthogonal de X , y = Ky , et utiliser ces nouvelles observations

pour estimer (, G), et en un second temps estimer classiquement

(GLS), voir [16] 6.6. REML est souvent prfr car comme y est de dimension eective n p (on le

reprsente en fait dans une base de X ), les variances estimes seront naturellement mieux normalises.
dont la loi ne dpend plus de

II.3.6 Exercices
Exercice 1. On considre le modle de rgression
yi = axi + ui , i = 1, . . . N
avec :

E[ui ] = 0, V ar(ui ) = i2 ,

Cov(ui , uj )

= 0, i = j. xi

Donner l'expression des estimateur OLS et GLS de

Exercice 2. On recueille J
yij = + uij ,

et

sont scalaires.

et comparer leur variance.

sries de mesures de modle

Var(uij )

= j2 ,

i = 1, . . . n,

j = 1, . . . J.

Les bruits sont donc dcorrls mais de variance dirente connue. Mettre sous forme homoscdastique
par un changement de variable adquat puis en dduire l'expression de l'estimateur de

Les variances sont inconnues. Ecrire la commande R faisant l'estimation.

Exercice 3. 11

Des vaches donnent naissance des veaux, issus de 4 taureaux. Les vaches proviennent

de deux troupeaux. Chaque exprience est un accouchement. Les rgresseurs sont l'ge de la vache, le
sexe du veau, le taureau (variable symbolique), et le troupeau. La rponse est la dicult que la vache a
eue vler (note donne par un technicien). Le but principal de l'tude est de comprendre la variabilit
du rsultat d'un taureau l'autre. Il y a 28 individus.
1. Calculer le nombre de paramtres du modle additif complet
2. Proposer un modle eets alatoires et donner son nombre de paramtres. Justier le choix de
ce modle en termes d'interprtations de la rgression et de son utilisation.
3. Ecrire les commandes

lme()

et

nlme()

correspondant cette analyse.

4. Il y a deux races de taureau. On s'intresse galement la variabilit de l'eet taureau pour


chaque race sparment. Ecrire le modle correspondant.
La commande est

lme(yTr+A+S,random=list(Ta=pdDiag(0+Race))), qui indique que Ta est

un eet alatoire avec une matrice de covariance diagonale dont les coecients ne dpendent que

lme(y0+Tr,random=(1|Ta))
lme(y0+Tr,random=list(Ta=pdIdent(1))).
de Race. Par exemple, la syntaxe

Exercice 4.

quivaut

On reprend l'exemple des goteurs. On suppose que l'on dispose en outre d'une variable

Age du goteur deux modalits.


1. Comment modier le modle pour voir si les jeunes sont plus svres que les vieux ?
2. Comment modier le modle pour voir s'il y a une plus grande disparit de svrit chez les jeunes
que chez les plus gs ?
3. Ecrire la commande

lme()

pour raliser l'analyse.

II.4 Moindres carrs totaux (Errors in variables, total least squares)


Modle. Il a pour but de prendre en compte du bruit sur les rgresseurs :
yi = xi + ui
zi = xi + vi
11. D'aprs C. Lavergne et C. Trottier, Sur l'estimation dans les modles linaires gnraliss eets alatoires,

de Statistique Applique, 48 no. 1 (2000), p. 49-67 .

30

Revue

2
o l'on observe les (yi , zi ) mais pas xi . Les ui et vi sont des bruits indpendants de variance u et
2
v . Par exemple dans (I.1), la mesure de log pi est sans doute autant entache d'erreur que celle de la

temprature. L'estimateur OLS de et X s'obtient par minimisation en X et de

u2 (yi xi )2 + (zi xi )T 2
v (zi xi ).

(II.17)

u = 1, v = Id, c'est la somme des carrs des distances des points d'observation (zi , yi ) aux points de
(xi , xi ), et le minimum sur les xi est donc la somme des carrs
des distances la droite. Il n'existe malheureusement pas d'estimateur satisfaisant de v ; si l'on esssaye
par exemple le maximum de vraisemblance, on trouve au nal v = 0 avec X = Z , une vraisemblance
b = bOLS .
innie et
Si

la droite (de l'hyperplan) de rgression

Si

est dicile estimer par ailleurs, ou en absence de contrainte supplmentaire, on est donc confront

une dicult insurmontable. Il est toutefois trs important de prendre en considration le bruit sur les
observations au risque de fausser compltement les tests. C'est un problme trs gnral, qui se retrouve,
par exemple, en sries temporelles : si l'on observe un AR(1) avec du bruit,
l'estimation autorgressive sur

yn

xn = axn1 +un , yn = xn +vn ,

conduira un AR d'ordre arbitrairement grand. La solution est ici

d'estimer un ARMA(1,1) qui est bien la nature de

y.

Dans le cas qui nous occupe, la solution pratique se trouve dans les cas o l'on observe d'autres

y ou z ), qui permettront d'estimer raisonnablement les variables


x, ou tout du moins les corrlations ncessaires. C'est ce qui est fait par exemple dans le Structual

variables (ou d'autres ralisations de


latentes

Equation Modelling (SEM) ; mais ceci sort du cadre de ce cours.

II.5 Rgression non-paramtrique et moindres carrs


Nous ne traitons pas ici de ce problme dans toute sa gnralit ; on ne fera pas non plus une prsentation
rigoureuse de la thorie ; voir [10] et [17] pour de bons livres introductifs.
Le modle est le suivant o le paramtre estimer est la fonction

yi = f (i ) + ui ,

ui = N(0, 2 ),

inconnue :

i [0, 1].

(II.18)

Il s'agit d'un problme non paramtrique car l'ensemble des fonctions candidates n'est pas un espace de
dimension nie.

II.5.1 Premire approche : la rgression polynmiale


Faisons apparatre sur un exemple simul simple les problmes rencontrs. On dispose des 20 paires

(i , yi )

reprsentes sur la gure par des cibles. Elles suivent le modle (II.18) sauf que l'intervalle de variation
2
de est plus grand. La fonction f est un polynme d'ordre 3, f (x) = (5x 1) (x 1), reprsent en trait
plein ; on a pris

= 1.

Si l'ordre est eectivement connu, l'estimation peut se faire par une rgression

habituelle avec le modle

yi = 1 + 2 i + 3 i2 + 4 i3 + ui .
En gnral l'ordre n'est pas connu (et mme l'hypothse f polynmiale n'est qu'une approximation)
et la question de l'ordre utiliser se pose. La gure montre les estimes pour des ordres 3 et 6 (courbes
en pointills). On voit que l'estime avec l'ordre 6 est trs mauvaise ; ceci vient du fait que les coecients
supplmentaires ont t utiliss pour approcher davantage les donnes (bruites) ce qui a induit un cart
important la vrit aux endroits o les observations se font rares ; si l'on augmente l'ordre, le polynme
estim va s'approcher de plus en plus des points d'observation en ayant un comportement trs chaotique
entre ces derniers, c'est ce que l'on appelle l'overtting. La dicult est donc de trouver un ordre
(taille du modle) raisonnable.

31

3
2

3
4
0

0.2

0.4

0.6

Estimation du degr par validation croise.

0.8

1.0

1.2

L'ide est d'essayer de choisir la valeur du degr

qui minimisera l'erreur de prdiction. Pour estimer cette erreur on utilisera l'estimateur CV (galement
appel PRESS : Predicted Residual Sum of Squares) : pour tout

i,

calculer le modle

b(i)

(cf. II.2.5)

puis

CV (p) = n1

(yi xi b(i) )2
i

o la dpendance en
l'individu

p = d + 1. Il est essentiel d'ter


p et il serait nalement choisi

est implicite via la dimension du rgresseur,

chaque fois car sinon on aurait une fonction dcroissante de

trop grand (typiquement gal

CV (p) = n1

n).

En utilisant l'exercice 10 p. 21, le critre minimiser devient

u
b2i
(1 hi )2

CV (p) en fonction

de d ainsi que celle de


b et de l'estimateur au maximum de vraisemblance
bM V = RSS/n.
bM V est
une fonction dcroissante de d car c'est la norme de la projection sur des espaces embots.
b n'est
visiblement pas non plus une mesure trs satisfaisante. En pratique CV (p) avoisine son minimum sur un
Les deux gures suivantes illustrent la mthode. La premire montre l'volution de

plateau de largeur rduite o les estimes dirent assez peu.


La seconde gure montre les polynmes estims pour

d = 3 et d = 4, qui semblent tre les deux seules

valeurs acceptables.

4.5
4.1

3.3

verite
deg=3
deg=4

+
sch
smv
cv

3.7

2.9

2.5

2.1

1.7
1.3

Il a t remarqu que le critre


de rotation, le calcul de

CV

CV

0.9
1

3
6

0.2

0.4

0.6

0.8

1.0

n'est pas invariant par rotation au sens o si

sur les donnes

(Qy, QX)

1.2

est une matrice

(qui satisfont le modle avec le mme

ne

donne pas le mme rsultat (noter que ce dfaut d'invariance n'est pas forcment un dfaut). La solution
propose est de prendre le

qui rend les

hi

gaux, ces derniers valent alors

32

p/n

(car la somme de

hi

reste inchange) et l'on obtient le critre de validation croise gnralise

12

n
RSS
(n p)2

GCV (p) =

qui est beaucoup plus simple calculer. Le paragraphe suivant dcrit une approche classique qui utilise
la base de Fourier plutt que les polynmes. D'autres choix sont encore possibles comme on le verra plus
loin.

II.5.2 Approche par estimation des coecients de Fourier


Revenons au modle (II.18). Le paramtre est ici la fonction

f;

on est donc en dimension innie. Une

faon de le visualiser plus clairement est de passer par la transforme de Fourier de

j =

e2ij f () d,

f () =

j e2ij .

(II.19)

jZ

Remarque : on prend ici, pour simplier l'expos, la notation complexe, qui n'est pas trs adapte en rgression

si

est relle, car on a alors la contrainte

j =

ej ()f () d,

f () =

k = k .

Il faudrait mieux dnir

j ej ()

ge0

e2j () = cos 2j,

e2j+1 () = sin 2(j + 1),

j = 0, 1, . . .

On a alors

Xij = e2iji

y = X + u,

(II.20)

qui est la forme habituelle (vu l'absence d'ambiguit, on a supprim dans ce paragraphe l'toile qui
dsignait prcdemment le vrai paramtre par opposition au paramtre gnrique). Noter que la matrice
X T ne peut tre de rang plein car elle a n colonnes et une innit de lignes ; toute estime OLS sera une
fonction qui vaut

yi

en

i ,

donnant ainsi un rsidu nul, ce qu'on pouvait deviner tout de suite au vu de

(II.18). Cette estime sera toujours mauvaise, sauf si

= 0,

Le but sera ici de construire une estime qui sera bonne si

sans hypothse supplmentaire sur f ).

car la fonction obtenue sera trs irrgulire.

la situation tant dsespre

est rgulire (

On va construire un estimateur biais, mais dont les performances seront trs suprieures OLS dans le
cas o beaucoup de

sont petits (ce qui correspond

rgulire) et trs lgrement dgrades sinon.

Rappelons que des intgrations par parties dans (II.19) montrent que si
|j | < Cj q .

admet

drives intgrables,

Mthode de projection. On se restreint aux estimateurs (biaiss) satisfaisant :


bj = 0,
pour un certain

|j| > j0
j0

infrieur

n.

Une fois

j0

choisi, le problme est alors un problme de rgression

purement paramtrique puisqu'il reste estimer par moindres carrs les

pour

|j| j0 .

introduction d'une hypothse supplmentaire : la suite des j

Ceci correspond l'

vers 0. C'est une hypothse de rgularit de


L'estimation de

j0

tend  rapidement 

f.

par validation croise se fait comme prcdemment.

Par ailleurs, la validit thorique de l'approche par validation croise gnralise a t dmontre par
Polyak et Tsybakov

13 .

12. G.H Golub, M. Heath, G. Wahba Generalized cross-validation as a method for choosing a good ridge parameter,

Technometrics 21 (2), 215-223, 1978.

13. B.T. Polyak, A.B. Tsybakov, A family of asymptotically optimal methods for selecting the order of a projection
estimator for a regression,

Theory Probab. Appl., 37, No 3, pp 471-481, 1992.

33

II.5.3 Aspects pratiques


Au problme du choix du nombre de fonctions de base (c.--d. du degr, ou de

j0 ) s'ajoute celui de la base

elle-mme. En particulier il pourra tre plus judicieux d'utiliser une base de fonctions non-priodiques si
l'on sait que

est non-priodique, par exemple (ici

uk (x) = cos kx,

x [0, 1]) 14

k = 0, 1, . . .

vk (x) = x , k = 0, 1, . . .
w0 (x) = 1, w1 (x) = x, wk (x) = sin kx,

k = 2, 3, ..

Mentionnons galement la possibilit d'utiliser les fonctions splines (polynmes par morceaux adquatement raccords). Nous renvoyons [15].
Prenons un exemple : On s'intresse l'auence dans des magasins (rponse
qu'il fait

y)

en fonction du temps

(note combinant temprature et pluviosit). Le modle le plus simple est

yi = 1 + 2 xi + ei .
Si les mesures sont prises des heures direntes de la journe, il sera trs important d'intgrer cela au
modle, par exemple par l'intermdiaire d'une variable

ti

yi = 1 + 2 xi + 3 u0 (ti ) + + 3+k uk (ti ) + ei ,


On a maintenant un modle de rgression habituel avec

variant entre disons 9h et 19h :

ti = (ti 9)/10.
k+3

rgresseurs (donnes longitudinales). On

aurait pu galement dcouper la journe en parties et introduire un rgresseur symbolique, ce qui revient
au mme que de prendre pour

u0 , ..uk des fonctions indicatrices d'intervalle, et introduit des discontinuits

assez peu naturelles.


Une autre faon de procder pour fabriquer une base adquate peut tre de partir des donnes elles-mmes
(ou d'autres mesures), si elles s'y prtent : si l'on dispose de mesures d'auence prises dans dirents

ym (tj ), o m = 1, . . . M est l'indice de magasin et tj


[9, 19], on peut faire une ACP de ces M vecteurs pour en

magasins tout au long de la journe,

est une

suite d'instants donns de l'intervalle

extraire

les composantes principales

ui (tj )

dont les premires fourniront une base adapte. Le fait d'utiliser les

rponses pour fabriquer les variables explicatives va malheureusement compltement perturber les tests
qui suivront.
La librairie

gam (Generalized Additive Models) de R identie des modles du type

g(E[yi ]) = f1 (xi1 ) + + fp (xip )


o les fonctions

fj

sont estimes par des splines.

II.6 Rgression sur des classes. Segmentation des donnes


Si l'hypothse de linarit n'est pas satisfaite, on a vu qu'une solution peut consister ajouter de nouvelles variables explicatives bases sur les premires (logarithme, etc.)
L'option propose ici est de faire une classication des donnes base sur certaines variables explicatives puis faire une rgression dirente sur chaque classe. C'est une pratique assez courante sur les
grands ensembles.
Ceci revient bien entendu faire une rgression globale avec de nouvelles variables explicatives tenant
compte des classes, mais est en pratique plus simple grer.
14. Comme pour les
continues sur

[0, 1]

gk , les combinaisons linaires des fk

fonctions forment un ensemble dense dans l'espace des fonctions

par application du thorme de Stone-Weierstrass ; les

hk

tant essentiellement les primitives des

fk ,

on

montre galement la densit.


On peut prfrer aux

gk

des polynmes orthogonaux, ce qui thoriquement ne change rien mais pratiquement donne

typiquement un meilleur conditionnement de

XT X.

34

II.7 Mlange de rgressions


Ce modle consiste considrer que la loi de

est un mlange de gaussiennes gouvern par dirents

paramtres :

pr N(xr , r2 ).

r=1
Ce qui peut galement s'interprter comme un mlange de plusieurs types de donnes, chacun suivant
le modle habituel ; chaque type
contient que la constante,
Par exemple
produit ;

pr

xi = 1,

a la probabilit

pr

d'tre choisi. Dans le cas o le rgresseur

ne

on retrouve le mlange de gaussiennes.

r peut reprsenter un certain type de consommateur, et y son opinion (note) sur un certain
r. Ces types sont inconnus, et la rgression

est la proportion de consommateurs du type

permettra de les faire apparatre.


Ce modle avec

R = 2, 1 = 2

et

1 = 2

a t utilis pour modliser des individus aberrants.

Mentionnons sans dmonstration que l'estimation du modle peut se faire itrativement par la mthode

EM, ce qui conduit aux quations de restimation 15

pr G(yi ; xTi r , r )
qir
T
s ps G(yi ; xi s , s )
n
1
pr
qir
n i=1
r (X T r X)1 Xr y,

qir (yi xi r )2
2
r i
i qir
o

G(y; )

r = Diag(q1r . . . qnr )

dsigne la densit gaussienne. Dans cet algorithme,

(c--d aprs observation des rponses) que la donne

qir

reprsente la probabilit a posteriori

soit du type

r.

Il faut bien entendu fournir des

valeurs initiales.

II.8 Surparamtrisation, rduction de modle et slection de variables


On est dans la situation o il y a un trs (trop) grand nombre de rgresseurs, voire mme plus que
d'individus : par exemple dans [9] l'individu est un certain produit compos (un vin, etc.), le rgresseur

est la mesure d'absorption de la lumire mise une certaine frquence

et la rponse est la fraction

d'un produit spcique dans le compos. Deux mesures correspondant deux frquences proches sont
trs corrles. On s'intresse en ralit la prsence de plusieurs produits ce qui fait donc plusieurs
rponses.
On considrera ici comme exemple un tableau
(un spectre)

251 individus (des hydrocarbures) et 401 variables

16 . La gure II.4 montre les spectres pour 4 individus pris au hasard ; la rponse est la

temprature de gel. Dans les expriences qui vont suivre, on a recentr les variables et les rponses.
Noter que l'on voit bien la corrlation des rgresseurs en raison des frquences proches.

17 un travail sur des donnes du mme type avec 69 individus


18 travaille sur 40 individus (sujets) et 1800
et 2232 variables explicatives (longueurs d'onde). P. Bastien

Aiji, Tavolaro, Lantz et Faraj prsentent

variables (taux d'expression de 1800 gnes).


15. P. ex : P.N. Jones, G.J. McLachlan, Fitting nite mxture models in a regression context,
34(2), 1992, 233-240.
16. Mis librement disposition par Eigenvector Research, Inc.,

www.eigenvector.com/data/index.htm

Oil & Gaz Science Technology Rev. IFP, Vol.58 (2003), No 5, pp. 599-608
Modle Cox-PLS : application en transcriptonique, L'Oral Recherche

17. Apport du boostrap la rgression PLS


18.

Austral. J. Statist.,

35

0.06

5e3

0.05
3e3

0.04
0.03

1e3

0.02
0.01

1e3

0
3e3

0.01
0.02

5e3

0.03
0.04

7e3
0

40

80

120

160

200

240

280

320

360

400

40

80

120

160

200

240

280

320

360

400

Figure II.4  Spectres NIR de 4 chantillons d'hydrocarbure avant et aprs recentrage.


Donnons un autre exemple de situation plusieurs rponses cit dans [3] : les rponses sont 6 caractristiques d'un polymre en sortie d'un racteur et les rgresseurs sont 21 tempratures en divers endroits
du racteur et la vitesse de production ; il y a 26 individus.
Autre exemple : les rgresseurs sont des variables cologiques (activit humaine, caractrisations du
milieu, etc.) et les rponses sont des mesures de densit d'espces.
Une rgression OLS prenant tous les rgresseurs en compte aura un

trs petit et des performances trs

mauvaises sur d'autres donnes (surparamtrisation, cf. II.5). Il y a essentiellement deux appoches :

remplaant les
rgresseurs par un petit nombre de combinaisons linaires de ces derniers, de prfrence

 Chercher des modles possdant moins de paramtres. Ils seront obtenus en

assez dcorrles (empiriquement). Le choix entre les dirents modles possibles peut se faire
ensuite avec des mthodes utilisant par exemple la

validation croise.

 On observe qu'un petit sacrice sur le RSS augmente considrablement le choix des
l'ensemble
sur

b
{ : RSS() (1 + )RSS()}

possibles :

est trs gros ; l'ide est alors d'imposer des contraintes

de sorte diminuer fortement sa norme sans modier sensiblement le RSS.

Il faut bien voir que les mthodes qui suivent n'ont pour but que de proposer d'autres modles (comme le
fait par exemple la mthode descendante) mais n'ont pas toujours de justication thorique particulire.
Pour des exemples d'utilisation pratique, voir [5, 9, 3]. On pourra consulter la rfrence [7] pour un
examen des dirents algorithmes rcents.

II.8.1 Analyse en composantes principales (acp)


Une

acp de X

transforme cette matrice en une matrice

X = XW

dont les colonnes sont orthonormes

(composantes principales). Elle est parfois complte par une rotation supplmentaire an d'augmenter
le contraste entre les variables (mthode
Bref rappel. La matrice

varimax).

W = [w1 . . . wn ]

est orthogonale et sa

j -ime

colonne (axe principal) est :

wj = arg max{Xw : w = 1, Xw, Xwi = 0, i = 1, . . . j 1}.


Les

wi

sont les vecteurs propres de

svd qui permet d'crire X = U DV


Les colonnes de

XT X

acp est la

et la mthode numrique recommande pour faire l'

X = U D, W = V .
composantes principales Xwi sont

(cf. la note page ??), puis

sont gnralement recentres (les

alors dcorrles),

et trs souvent normes 1.

Posons

Xa = XWa = X[w1 . . . wa ].

y = Xa a + u,

Les modles proposs utilisent les

Xa = (xij )1in,1ja

ce qui permet de faire la prdiction partant d'un nouvel individu :

yba = xWa ba .

36

premires composantes :

II.8.2 Moindres carrs partiels (pls)


Vu l'objectif nal, on peut trouver injuste que le calcul des composantes principales soit fait indpendamment des rponses ; d'o la mthode

pls, essentiellement utilise dans le cas de plusieurs rponses,

surtout des ns de prdiction. L'ide est de choisir d'abord les combinaisons linaires des rgresseurs
les plus corrles aux rponses. La rfrence [19] dcrit la mthode et ses variantes. Breiman et Friedman
proposent dans [3] une discussion approfondie des direntes mthodes utilises dans le cas de plusieurs
rponses ; leurs conclusions sur le

pls sont plus que mitiges.

Considrons le cas o il n'y a qu'une seule rponse. La mthode


de variables dite latentes, c.--d. de la forme

Xw

avec

w = 1,

pls

maximiser la somme des carrs des covariances de ces dernires avec

acp,

l'

consiste extraire une famille

orthogonales entre elles, de sorte

y.

Il se trouve que, comme pour

lorsque l'on fait crotre cette famille, on ne fait que rajouter des variables sans avoir remettre

en question les prcdentes, ce qui fait que l'on dnit bien une suite de variables.

w = 1 qui devient
yb = X b de la rgression linaire habituelle
X b est orthogonale y .

Noter que si au lieu de la covariance on maximise la corrlation, sans la contrainte


inutile, la premire variable latente que l'on rcupre est le
et l'algorithme s'arrte, car toute variable orthogonale

yi est un vecteur ligne, si bien qu'on a une matrice Y et un


Y engendr par les colonnes de Y . La mthode de rgression linaire fonctionne comme
b = (X T X)1 X T Y, Yb = X b, et b est la matrice qui contient les rsultats des rgressions
avant avec
linaires faites sparment pour chaque colonne de Y . La mthode pls quant elle fera apparatre des
vecteurs de X et Y de plus grande covariance maximale.

Dans le cas de rponses multiples, chaque


espace vectoriel

L'algorithme (cf. [19] p.141) consiste calculer la paire de vecteurs


une contrainte particulire) puis orthogonaliser

colonne de

x, cette matrice sera


X0 = X , a = 1, 2, . . . :

sa prdiction par

L'algorithme est

19 ,

avec

x,

xX

et

yY

de plus grande covariance (sous

et recommencer ; on retire donc chaque fois chaque

note

Xa

dans la suite,

X0 = X .

(wa , ua ) = arg max{Xa1 w, Y u : u = 1, w = 1}


u,w

ta = Xa1 wa /Xa1 wa
Xa = Xa1 ta (tT
a Xa1 )

(nouvelle composante orthogonale)


(orthogonalisation des colonnes

ta )

X peut se faire pas pas car les ta sont orthogonaux. La rsolution


T YYTX
(w, u) donne pour w le vecteur propre de Xa1
a1 associ la valeur propre maximale (vecteur singulier
T
T
20 .
maximal droite de Y Xa1 ; si Y est un vecteur c'est Xa1 Y )
Comme {t1 , . . . ta } et {Xw1 , . . . Xwa } engendrent le mme espace (vrier !), on choisira ces derniers comme

noter que l'orthogonalisation des colonnes de


en

nouveaux rgresseurs.
Autre point de vue. On peut trs bien rcrire le problme d'optimisation de manire quivalente :

(wa , ua ) = arg max{Xw, Ya1 u : u = 1, w = 1}


u,w

Ya =

(1 Ta TaT )Y et

Ta = [t1 , . . . ta ],

car

Xa = (1 Ta TaT )X .

On cherche chaque tape le vecteur

Xw

de

de plus grande covariance avec les rsidus de prdiction des rponses base sur les composantes prcdentes, sous
la contrainte

w = 1.

Axes principaux en rponse. En posant Wa = [w1 , . . . wa ], on obtient la rgression :


Xa = XWa
T
T
ba = (Xa Xa )1 Xa Y
Yba = Xa ba .
Si l'on retient moins de composantes que la dimension de
des lignes de

ba ,

Y, chaque ligne de Yba

sera combinaison linaire

les  axes principaux en rponse .

Attention, la validation croise est ici lourde mettre en uvre du fait que les rgresseurs sont calculs
partir des rponses. Il faut donc retirer l'individu avant d'avoir commenc le pls, puis faire le pls, la
19. De mme que pour l'acp, les colonnes de

seront gnralement centres ce qui fait que les produits scalaires

apparaissant dans la suite sont des covariances empiriques, mais ce n'est pas absolument ncessaire.

wa : Pour le vrier, remarquer que Xa wa = 0, en dduire par rcurrence


T YYTX
b > a, wa est dans le noyau de Xb1
b1 et donc orthogonal Xb .

20. Noter au passage l'orthogonalit des

Xb Wa = 0, b a ;

par consquent, si

37

que

rgression et calculer l'erreur de prdiction, ceci pour tous choix de nombre de composantes gardes et
tous les individus. En sommant sur les individus on obtient un score de validation croise pour chaque
choix de nombre de composantes. C'est ce qui est fait dans la gure II.5 (gure de gauche) ; dans la
gure de droite on a retir non pas un individu mais 1/10 pris alatoirement, ceci 60 fois, puis moyenn
les erreurs obtenues (sur l'avantage de la V-fold CV, ici

V = 10,

voir l'appendice B). On compare avec

acp, l'acp et la rgression tant faite sur l'ensemble d'apprentissage.

l'

Notons galement que fait d'utiliser les rponses pour fabriquer les variables explicatives perturbe les
tests de signicativit que l'on pourrait faire ensuite, ce qui pousse utiliser la validation croise.

4.3

4.3

4.1

4.1

3.9

3.9

3.7

3.7
PLS

3.5

PLS

3.5

3.3

3.3

3.1

3.1

ACP

2.9

2.9

2.7

2.7

2.5

2.5

2.3

ACP

2.3
0

10

12

14

16

18

10

12

14

16

18

Figure II.5  Critres de validation croise sur les donnes d'hydrocarbure. Par leave-one-out (
gauche) et par extraction d'un paquet alatoire de 10% d'individus test ( droite). En abscisse le

T SS/n = 4, 27).

nombre de rgresseurs introduits, colonne de 1 non compte (

II.8.3 Ridge regression


Il ne s'agit plus ici de rduire le nombre de rgresseurs mais de faire directement l'estimation en prenant
en compte le grand nombre de rgresseurs ; comme au II.5, cette mthode a pour eet de rduire les

bOLS ( shrinkage ). La mthode de  ridge


doit tre estim par validation croise 21 :

coecients de
le paramtre

regression  propose l'estimateur suivant o

bR = (X T X + I)1 X T Y.
C'est le

qui minimise le

SS()

sous la contrainte que

On peut vouloir prserver certaines colonnes de

pour un certain

(dpendant de

).

(disons les premires) de l'eet d'attnuation, il sut

I par une matrice diagonale ayant


la n. Ainsi, lorsque tend vers l'inni on ne fait plus qu'une rgression sur les
premires colonnes. Sur les donnes d'hydrocarbure le meilleur choisi par validation croise conduit
une valeur du critre de 2.39. Le qu'on trouve est appoximativement la mdiane des termes diagonaux
T
de X X , qui est galement un centime de la moyenne de ces termes.
pour cela d'orthogonaliser les autres (aux premires) et de remplacer
des 0 au dbut et des

Une variante : Mthode Lasso. Il s'agit de l'estimateur 22


b = arg min y X2 ,
1

1 =

|j |

j=1

est un paramtre choisir, par exemple par validation croise. On observe que lorsque diminue,
b a de plus en plus de coecients nuls. On peut donc voir cette mthode comme un intermdaire entre

21. Voir l'article mentionn note 12 page 33.


22. R. Tibshirani, Regression, shrinkage and selection via the lasso,

J. Roy. Statis. Soc. B, 58, 267-288, 1996.

Pour une analyse thorique, voir le 7 de P.J. Bickel, Y. Ritov, A.B. Tsybakov, Simultaneous analysis of Lasso and
Dantzig selector,

Ann. Stat. 2009, Vol. 37, No. 4, 17051732. Noter que les colonnes de X

38

y sont supposes normes.

la mthode descendante et la rgression ridge. Cet estimateur apparat comme un cas particulier d'un

lars 23

estimateur plus gnral, l'estimateur

pour lequel un algorithme de calcul ecace a t mis au

point. Sur les donnes d'hydrocarbures, en utilisant le programme

lars disponible sous R et en choisissant

par validation croise, on trouve une valeur du critre de 2,5 avec 25 coecients non nuls ; attention,

ce chire est dicilement comparable aux 11 (en gros) variables choisies par le

pls

acp

ou l'

car ici il

s'agit des variables originales.

Exercice 1. (Validation croise) Vrier que la formule (II.1) reste valide pour bR si l'on remplace X T X

X T X + Id (cf. l'exercice
hi = xi (X T X + Id)1 xTi .
par

14 p. 22) puis que l'erreur par validation croise est donne par (II.9) avec

24

Craven et Wahba
proposent le critre de validation croise gnralise GCV () = RSS/trace((Id
A )1 )2 o A = X(X T X + Id)1 X T est la matrice telle que A y = yb. Vrier que GCV concide
avec

CV

si les

Exercice 2.
suppose

hi

sont gaux.

On considre le modle habituel mais avec l'hypothse baysienne

connu. La loi lie de

et

N(0, R).

On

est gaussienne, et il s'ensuit que l'estimateur baysien avec

risque quadratique (i.e. E[|y]) est aussi l'estimateur MAP, c--d celui qui maximise
p(|y) = p()p(y|)/p(y). Calculer cet estimateur et le comparer l'estimateur ridge.

en

la quantit

II.8.4 Rgression rang rduit. Curds and whey


Ces mthodes sont surtout intressantes lorsqu'il y a de nombreuses rponses.
La rgression rang rduit se propose de minimiser
que

a son rang infrieur

Y X

(norme de Frobenius) sous la contrainte

donn. On obtient les tapes de calcul suivantes

Yb = X bOLS
Q = Yb T Yb (Y T Y )1 = Y T X(X T X)1 X T Y (Y T Y )1
Q = T 1 DT (diagonalisation)
b = bOLS T 1 Ir T
(c--d

(II.21)

est la matrice de passage de la diagonalisation de

coecients de

sont mis 1 et les autres 0.

Q),

et

Ir

est la matrice o les

plus grands

s'estime par validation croise.

Breiman et Friedman [3] proposent une mthode ( curds and whey ) base sur un modle o

une structure alatoire de vecteurs indpendants. Sans entrer dans les dtails, mentionnons qu'il obtient
les nouvelles estimes comme combinaisons linaires des estimes OLS pour chaque composante avec la
formule

b = bOLS ((1 )I + Q1 )1 = bOLS T 1 ((1 )I + D1 )1 T


(La dernire formule permet de faire apparatre l'analogie avec (II.21) par comparaison des fonctions
1x> et (1 + x1 )1 , 0 x 1, ). Le paramtre doit tre estim par validation croise.
Si l'observation est scalaire,

bOLS

est simplement multipli par un facteur infrieur 1.

II.9 Rgression robuste


Il s'agit de rsister aux individus aberrants. On estime

b = argmin

par

(yi xi )

23. B. Efron, T. Hastie, I. Johnstone and R. Tibshirani Least angle regression,


24.

Ann. Statist. 32, no. 2, 407-499, 2004.

P. Craven, G. Wahba, Smoothing noisy data with spline functions. Estimating the correct degree of smoothing by

the method of generalized cross-validation,

Numer. Math. 31 (1978/79), no. 4, 377403.

39

est maintenant une certaine fonction dirente du carr. Pour donner moins de poids aux individus
x2 . Typiquement

aberrants, on choisit une fonction croissance moins rapide que

(u) = u2 1|u| + (2|u| 2 )1|u|> .


Cette fonction vaut

u2

pour

|u|

thoriques prcis ds Huber


vers 0,

(u)/

tend vers

b = argmin

2|u|,

petit, et est d'ordre

25 . Quand

= +

|u|

ensuite. Ce choix est justi par des arguments

on retrouve la mthode habituelle, et quand

en rgression robuste peut s'interprter comme le maximum

de vraisemblance sous le modle habituel, mais en modiant la distribution de

P.J. Huber,

tend

|yi xi |.

Exercice. Montrer que l'estimation de

25.

et l'on retrouve la  rgression l1  :

Robust Statistics, Wiley, 1981.

40

u.

III

Rgression linaire gaussienne,


diagnostic et tests

III.1 Proprits statistiques fondamentales des estimateurs


III.1.1 Modle statistique et estimateurs
C'est le mme que celui de la section II.2 sauf que les

ui

sont supposs gaussiens :

Modle. On suppose l'existence d'un vecteur , de > 0 tels que


y N(X , 2 I).
En d'autres termes,

yi = xi + ui

et les

ui

sont indpendants gaussiens centrs de variance

pratique on pourra conforter cette hypothse en faisant un test de normalit sur les

b
b = (,
b2 ) est
4
2 /(n p). Il
2
b np
(,
n b ).

u
bi .

2 .

En

( , 2 ),

cf. II.2.2. On va voir que la variance de


b2 est

b
est facile de vrier que l'estimateur au maximum de vraisemblance de est M V =
un estimateur sans biais de

III.1.2 Proprits de base des variables gaussiennes


Ce paragraphe a pour but de rappeler des proprits lmentaires des vecteurs gaussiens. On ne dtaillera
pas les dmonstrations.

13 - Dfinition
U est un vecteur alatoire
a, U est gaussienne.

gaussien sur

Rn

On peut montrer que si la matrice de covariance

ssi pour tout vecteur

R de U

a Rn ,

est dnie positive,

la mesure de Lebesgue) qui s'exprime en fonction de la moyenne

et de

U
R

la variable alatoire

a une densit (par rapport


comme suit :

{
}
1
1
T 1

p(u) =
exp (u ) R (u ) .
2
(2)n det(R)
Une des proprits fondamentales des vecteurs gaussiens est l'quivalence entre indpendance et noncorrlation (elle est fausse pour les vecteurs de variables gaussiennes, cf. l'exercice 2 p. 43) :

41

14 - Thorme
Soient
et

et

deux vecteurs alatoires tels que

U=

( V )
W

forme un vecteur gaussien. Si

sont dcorrls, alors ils sont indpendants.

Ce rsultat est simple vrier si


un bloc correspondant

p(u) = p1 (v)p2 (w),

R>0

car l'hypothse sur

et un bloc correspondant

implique que

est bloc-diagonale avec

; il s'ensuit que la densit de

se factorise en

ce qui implique l'indpendance.

Il est bon de voir que les vecteurs gaussiens s'expriment toujours comme combinaisons de v.a. gaussiennes
indpendantes :

15 - Proposition
Soit

U N(, R) de dimension n, alors il existe un vecteur gaussien centr rduit V N(0, I)


m =rang(R) et une matrice de dimension n m, tels que

de dimension

T = R.

U = V + ,

1/2
est inversible prendre par exemple V = R
(U ) ; sinon crire R = P DP T o P est n m
T
1/2 T
avec P P = I et D diagonale positive, puis poser V = D
P (U ), = P D1/2 (remarquer que
T
V ar((I P P )U ) = 0).

Si

On utilisera fortement dans la suite la proposition suivante dont la dmonstration est l'application des
rsultats prcdents (cf. exercice 3 p. 43) :

16 - Proposition
Soit

n.

U N(, Id). Soient Ai , i = 1, . . . q , des matrices de projection orthogonale de dimension

Alors

Si

pour tous i = j , alors les variables Ai U sont indpendantes et donc


U T Ai U .
0, alors U T Ai U suit une loi de 2 r =rang(Ai ) =trace(Ai ) degrs de libert.

Ai Aj = 0

galement les

Si

En particulier si

U N(, 2 Id),

alors deux projections de

sur deux espaces orthogonaux sont ind-

pendantes.

III.1.3 Loi de probabilit des estimateurs


On peut passer maintenant aux consquences pour les estimateurs :

17 - Thorme
y N(X , 2 I) :
b N( , 2 (X T X)1 )
2
(n p) b2 2np .

b et
b2 sont indpendants.

Sous l'hypothse

Dmonstration. En eet b = (X T X)1 X T u et b2 = (np)1 Ku2 (notations de la proposition 5).


L'indpendance vient donc de la dcorrlation de
On montre galement que

b
b = (,
b2 )

XT u

et

Ku.

est un estimateur de variance minimale dans la classe des estima-

teurs sans biais.

42

III.1.4 Exercices
Exercice 1.

Vrier que la vraisemblance de l'chantillon aprs estimation au maximum de vraisem2


X b et de variance
bM
V I applique (y1 , . . . yn ),

blance, i.e. la densit de la gaussienne de moyenne


est

2
n/2
p(y1 , . . . yn ) = (2eb
M
.
V)

Exercice 2. Soit U
1) = 1/2)

une variable

indpendant de

u.

N(0, 1)

X un jeu de pile ou face quiprobable (P (X = 1) = P (X =


V = XU est N(0, 1) et que U et V sont dcorrls mais pas
2 2
pourra calculer E[U V ]).
et

Montrer que

indpendants (pour ce dernier point on

Exercice 3. Le but de cet exercice est la dmonstration de la proposition 16. On rappelle que les matrices
de projection orthogonale sont exactement les matrices symtriques

telles que

P2 = P.

1. Dmontrer le premier point.


2. (a) Montrer que si

U N(0, Id)

est

est une matrice orthogonale, alors

(b) En dduire le dernier point en diagonalisant

QU N(0, Id).

A.

Exercice 4. On se donne le modle y = X + u o les ui sont i.i.d de loi de densit e|u|/

Exprimer la vraisemblance des observations pour une paire donne

l'estimateur au maximum de vraisemblance de quand est connu.

(, ),

du/(2 ).

et donner l'expression de

III.2 Analyse de l'estimateur


III.2.1 Dtermination d'intervalles de conance

Rappelons que la loi de Student de paramtre k est celle de X/ Y /k o X est une gaussienne centre
2
2
rduite et Y un k indpendant. La loi de Fisher-Snedecor (k, l) est celle de (X/k)/(Y /l) o X k et
2
Y l sont indpendants. On dsignera par tk (.) et fkl (.) les fonctions quantile de ces distributions.
Comme consquence immdiate du thorme 17 et de la proposition 16, on a les proprits suivantes

18 - Proposition
Sous l'hypothse

Pour tout

y N(X , 2 I)
j = 1, . . . p,

Tj =

la variable alatoire

bj j

b(bj )

suit une loi de Student de paramtre

Pour tout vecteur

Tu =

u,

np (
b(bj ) est l'erreur standard de bj , cf. II.2.2).

la variable alatoire

uT b uT
,
b

b(uT )

b2=

b(uT )
b2 uT (X T X)1 u

suit une loi de Student de paramtre

Soit

q<p
F =

et

une matrice

qp

n p.
q,

de rang

la v.a

(
)1
1 b
L(b )
( )T LT L(X T X)1 LT
2
qb

suit une loi de Fisher-Snedecor de paramtres

43

(q, n p).

Les deux premiers points sont une consquence du thorme 17 ; pour le troisime, noter que la variable
(
)1/2
L(X T X)1 LT
L(b ) suit la loi N(0, 2 Idq ), ce qui fait que le numrateur est un 2 fois un 2q .

Un intervalle de conance. En raison de la symtrie de la loi de Student on a P (|Tj | < tnp (1/2)) =
1 .

On obtient donc un intervalle de conance

[
]
bj , bj + ,

de probabilit de conance 1 pour le coecient j

=
b(bj ) tnp (1 /2)

(III.1)

Une rgion de conance.

De la mme faon la relation P (F < fq,np (1 )) = 1


P (L R ) = 1 o
{
}
R = Rq : Lb 2[L(X T X)1 LT ]1 qb
2 fq,np (1 )

xS = xT Sx)
L .

(on note
vecteur

qui est donc une rgion de conance de probabilit de conance

On obtient une rgion de conance pour

(j1 , . . . jq )

si

est la matrice de selection

se rcrit

qp

pour le

telle que

L = (j1 , . . . jq ).

III.2.2 Rappels sur les tests dans le cadre paramtrique gnral


P , , pour un ensemble de donnes Y =
H0 :  0  et H1 :  1 , avec 0 1 =
H1 sont deux ensembles de lois de probabilit candidates

On supposera que l'on a un modle paramtrique

(y1 , . . . yn ),

et que l'on cherche dcider entre

(dans le cas gnral non paramtrique


pour

H0

et

Y ).

On s'intressera en particulier au cas o


un singleton) on dit que
de la vracit de
Un test

H0

H1 =non-H0 ,

i.e.

0 1 = ;

si

H0 = = 0  (0

rduit

est simple. L'ide est que celui qui met le test en uvre cherche convaincre

H1 .

= (Y ) {0, 1}

toujours sous

est donc seulement une garantie que


l'exemple type o

et

H1

est de

niveau (petit) ssi :

H0 , P ( = 1) .

La probabilit d'erreur de premire espce (choisir


systmatiquement

H0

dcidant entre les hypothses

H0
H0

H1

H1

tort) est au plus gale

Un faible niveau

sera accepte bon escient. Par exemple le test qui choisit

a un niveau gal zro (mais aucun intrt). L'importance du niveau s'illustre par
est  Ce mdicament est sans eet  et

il est clairement important de ne pas dcider


sans eet) ; d'o le terme de

H1

si

H0

H1 :

 Ce mdicament a un eet positif  ;

est vraie (mise sur le march d'un mdicament

test de signicativit. Mme remarque pour H0

:  Le diesel et le sans

plomb sont aussi polluants  et son contraire.


Si en revanche le test dcide

H0 ,

c'est sa puissance qui permet de conclure : On dit que le test est de

(proche de 1) ssi la probabilit d'erreur de deuxime espce est infrieure

toujours sous

puissance

H1 , P ( = 0) .

Ce concept n'est pas d'une grande aide pour les tests d'une hypothse contre son contraire, car la puissance vaut

: l'ensemble H1 contient des distributions arbitrairement proches de H0 ; sous ces distributions,


H0 avec probabilit au moins 1 , ce qui implique puissance infrieure . On dit que le test
plus puissant que si :

alors typiquement
le test dcidera
est

toujours sous

H1 , P ( = 1) P ( = 1).

On dit que le test

est UPP (universellement plus puissant) s'il est plus puissant que tout autre test de mme

niveau. C'est ce type de test qui est recherch quand

H0

et

H1

contiennent des hypothses arbitrairement proches.

Pour revenir l'exemple du mdicament, l'organisme payeur (Scurit Sociale) veut un niveau faible garanti tandis
que le laboratoire veut un test puissant. Ces deux exigences ne peuvent tre concilies qu'avec un minimum
d'chantillons.

Mise au point d'un test d'hypothses. La mthode usuelle consiste utiliser une statistique S(Y )
dont la valeur est plutt faible sous H0 et grande sous H1 (p.ex.

si H1 :  0 ) et rejeter H0 si S(Y ) est trop grand :

44

b si H1
S(Y ) =

: 

= 0 , S(Y ) = b

1. Choisir une statistique

S(Y )

dont la loi est toujours la mme sous

la puissance sera d'autant meilleure que

3. Rejetter l'hypothse si la valeur de

QS

H0

si

sera grande sous

H0

(statistique  pivotale ) ;

H1 .

2. Se donner un niveau

Rejeter

S(Y )

est draisonnablement grande :

S(Y ) > QS (1 )

est la fonction quantile de

sous

H0 .

Rejet :  la valeur de la statistique carte H0 (au niveau ) ; choisir H1 .


Acceptation :  rien ne permet d'invalider H0 . Ex. : on n'a pas pu prouver

fausse ;

ceci se produit si l'on manque de donnes, ou si le test est peu performant, ou si la

vraie loi est proche de


Si

H0

H0 .

est simple, toute statistique est pivotale. Souvent cependant

pas de statistique pivotale ; pour garantir un niveau


 Rejeter

H0

si

l'ecacit du

H0 peut trs bien tre

mdicament. Si la la puissance est faible (ce qui est souvent le cas),

S(Y ) > max QS (1 ) 

H0

est multiple et l'on ne dispose

on sera contraint de faire un test de la forme :

o le maximum est pris sur toutes les distributions de

Dans de nombreuses situations pratiques la loi de

sous

H0

n'est connue qu'asymptotiquement (innit

d'observations). Dans ce cas on pourra avoir avantage estimer QS (1 ) sous

si le modle est paramtrique, et H0 est simple H0 :  = 0  :


1
N
1. Simuler N jeux de donnes Y , . . . Y
sous 0 (choisir N 1/)
2. On estime alors

QS (1 )

H0 .

par un rel sparant les

H0

par des simulations ;

plus grandes valeurs de

S(Y i )

des

(1 )N plus petites.
b0 , l'estime
Si maintenant H0 n'est pas simple, on peut reprendre cette mthode en utilisant cette fois-ci

de sous H0 pour faire les simulations ( . . . au lieu de faire le max sur tous les de H0 comme il
faudrait en toute rigueur). Cette mthode peut se justier mathmatiquement si la statistique S est
asymptotiquement pivotale.

Dualit tests/intervalles de conance. On estime un paramtre vectoriel


donnes. Si l'on dispose d'un domaine alatoire

(typiquement de la forme
1 , alors le test I qui accepte l'hypothse 

, P ( I)
(vrication immdiate).
I I si I I ).

pour tout

infrieur

(car

Notons que son niveau et sa puissance sont fonction croissante de

Rciproquement si l'on dispose pour tout 0 d'un test

et H1 :  = 0 , alors l'ensemble alatoire

I = {0 : H0

caractrisant la loi des

b }) tel que
I = { : | |
= 0  ssi 0 I a un niveau

(0 )

de niveau au plus

et

entre

H0

: 

= 0 

est accepte}

est dit rgion de conance de probabilit de conance

P0 (0 I) = PH0 ( = 0) 1 .

Exemple : Test de nullit d'un coecient

j .

En vertu de la proposition 18, la statisique

|bj |/b
(bj ) est pivotale pour H0 :  j = 0  (la loi de T

k ), et l'on a le test de niveau pour dcider que j est

sous

H0

est indpendante de

T =

et des autres

signicativement dirent de zro (cf. III.1) :

|bj |
tnp (1 /2).

b(bj )
On prsente souvent les rsultats d'une rgression avec un tableau contenant les niveaux de signication
de ces hypothses (test de type III, procdure
prdiction de la consommation des voitures

summary de R ou S+). Donnons par exemple le cas de la

1 en fonction des variables Volume, Puissance et Poids

(un trac rponses/rgresseurs fait prfrer la variable P2 qui est le carr du poids)
1. Heavenrich, Murrell, and Hellman, Light Duty AutomotiveTechnology and Fuel Economy Trends Through 1991,
U.S., Environmental Protection Agency, 1991 (EPA/AA/CTAB/91-02). Disponible par Internet sur DASL.

45

Estime

(bj )

(b
(bj ))

cart-type

t-stat

Pr(>|t|)

Volume

-7,2 e-6

1,7 e-5

-0,42

0,67

P2

1,5 e-5

1,26 e-6

12

< 2 e-16

Puissance

4,6 e-5

1,13 e-5

4,1

0,0001

Table III.1  Table d'analyse des coecients (82 individus). La colonne t-stat contient la statistique de student, rapport des deux premire colonnes.

o la dernire colonne contient

solution de

|bj | =
b(bj ) tnp (1 j /2)
qui s'interprte comme la probabilit sous
grande. L'hypothse

H0

est refuse si

appartient un intervalle de

[x, +[

H0

: j

= 0

est infrieur au niveau

de probabilit

5%

T au
= 5%),

d'observer une valeur de

sous

H0 .

(par exemple
Dans ce cas

moins aussi
c--d si

|bj |

est signicativement

non-nul. Ici le volume n'a pas d'inuence signicative sur la consommation lorsqu'on connat les deux
autres variables.

Interprtation : On va voir au paragraphe suivant que j


entre le modle original et le modle sans la

j -ime

est directement li la dirence de RSS

variable explicative.

s'interprte donc galement

comme une mesure de l'amlioration de la prdiction due l'introduction du


tous les autres. Un grand

j -ime

rgresseur aprs

ne signie cependant pas que les rponses sont (presque) indpendantes du

rgresseur, car ce dernier peut tre fortement corrl aux autres, c'est le problme des facteurs
proches (ou encore de la colinarit) : Si dans l'exemple on rajoute comme rgresseur la vitesse maximale

j -ime

de la voiture, la puissance semble alors non signicative :

Pr
Volume

0,63

P2

< 0,0001

Puissance

0,83

Vitesse

0,7

Mme si sur certaines donnes on doute de la validit du modle (rsidus gaussiens . . .) et que l'on ne
dsire pas interprter les p-values
comme des

au pied de la lettre, ces dernires peuvent toujours tre considres

instruments de mesure qui rsument au mieux l'information d'intrt, au sens o leur calcul

respecte toutes les rgles de normalisation fondamentales dduites du modle gaussien.

III.2.3 Test de Fisher


On vient de voir comment le test de nullit d'un coecient permet d'tudier la signicativit d'une
variable explicative. Malheureusement, si cette variable est symbolique (qualitative) elle interviendra dans
plusieurs coecients ; il faut donc tre capable de tester la nullit simultane de plusieurs coecients.

On est donc conduit tester H0 :  L = l  o l = 0 et L est ici une matrice dont chaque ligne contient
exactement un 1 et

p1

zros. C'est ce que font les tests de type 1 et 3 des logiciels par opposition

aux tables d'analyse des coecients qui considrent chaque modalit sparment (nous y reviendrons au
III.4.3).

Test de Fisher. Soit L Rqp , l Rq , le test de Fisher de niveau pour H0

:  L

= l

est

l R ,

soit

Lb l2[L(X T X)1 LT ]1 qb
2 fq,np (1 )
Il existe une rcriture du membre de gauche qui s'avre trs utile (encadr ci-dessous) ; elle est base
sur le lemme suivant dmontr l'exercice 12 p. 22 :

46

19 - Lemme
Soit

b0

l'estimateur de

aux moindres carrs sous la contrainte

L = l,

et

yb0 = X b0 .

On a

(
)1
(Lb l)T L(X T X)1 LT
(Lb l) = b
y yb0 2 = b
y0 y2 b
y y2 = RSS0 RSS.

Le test de Fisher prsent plus haut quivaut donc

Rejeter

RSS0

H0

(RSS0 RSS)/(p p0 )
> fq,np (1 )
RSS/(n p)

si

H0 ,

est le rsidu calcul sous

et

p0 = p q

le nombre de paramtres du modle sous

H0 .

Ce

test gnralise les tests de Student du paragraphe prcdent (et les crit d'une faon dirente).

Sous

H0 ,

les statistiques

RSS0 RSS
2

RSS
2

et

sont des

2q

et

2np

indpendants

en vertu du thorme de Cochran. Le numrateur de la statistique de Fisher vaut galement


et peut s'interprter comme un terme d l'cart entre

H0

et

H1

ESS ESS0

dans la dcomposition de la variance

T SS = (ESS ESS0 ) + ESS0 + RSS


la statistique ne faisant que mesurer l'importance relative de cette partie de variance explique. Sous

H0

ces trois termes sont indpendants, nous en laissons la vrication en exercice.


Un lien avec le rapport de vraisemblance est dtaill l'exercice 8 p. 51.

Ce test possde des proprits d'optimalit et d'invariance que nous ne dtaillerons pas ici .
Le test de Fisher peut tre ralis sous R avec la commande

Interprtation : Soit F

lht

de la bibliothque

car.

(RSS0 RSS)/(pp0 )
la statistique de Fisher. On prsente le rsultat du test en
RSS/(np)
donnant la valeur critique du seuil = 1 Fpp0 ,np (F ), o Fpp0 ,np est la fonction de rpartion de la

loi de Fisher-Snedecor de paramtres pp0 et np (comme la table III.1). L'hypothse H0 : L = l 


est refuse si est infrieur au niveau 0 (par exemple 0 = 5%), c--d si F appartient un intervalle

[f , +[

de

de probabilit

Test de nullit de

5%

sous

H0 ,

c--d, est anormalement grande sous

H0 (RSS

petit).

On teste la nullit des coecients d'indice suprieur ou gal 2 :

(n p)ESS
fp1,np (1 ).
(p 1)RSS
La

table d'analyse de variance

donne la valeur critique de

(ANOVA) rsume la situation sous un format traditionnel o est

SS

d.l.

F-stat

Modle

ESS

p1

Rsidu

RSS

Total

TSS

np
n1

F =

Pr

(np)ESS
(p1)RSS

1 Fp1,np (F )

Table III.2  Table d'analyse de la variance. Fp1,np est la fonction de rpartion de la loi de Fisher-Snedecor
de paramtres
exemple

p1

= 5%).

et

n p.

L'hypothse

H0

= 0, i 2 

: i

est refuse si Pr est infrieur au niveau

La colonne d.l. contient les degrs de libert des statistiques (SS) qui sont des

The Analysis of Variance,Wiley, 1970.

2. Voir par exemple la page 46 du livre de H. Sche :

47

sous

H0 .

(par

Test de nullit partielle de niveau pour dcider si (j , . . . j ) est signicativement non-nul :


1

(RSSq RSS)/q
fq,np (1 ).
RSS/(n p)
o

RSSq

(III.2)

ji

est l'erreur rsiduelle du modle estim sous la contrainte que les

sont nuls.

est ici la

matrice de slection des composantes. Ce test est utilis dans le cas d'une variable qualitative plus de
deux modalits.
On peut vrier que ce test peut galement s'interprter comme un test de

corrlation partielle entre

les rponses et les variables ajoutes sachant les rgresseurs du modle sous
n'a qu'un rgresseur que l'on teste contre la constante seule,
intervenir que la corrlation empirique entre

Non-monotonicit des tests.

et

p = 2, q = 1,

H0 .

En particulier si l'on

la statistique de Fisher ne fait

(cf. la formule II.3).

Dans l'exemple prcdent, si l'on teste

H0

: Volume=0 contre le

modle complet on trouve une p-value de 0,63 (c'est le rsultat du test de Student dj vu), si l'on
teste

H0

: Vitesse=0 contre le modle complet on trouve une p-value de 0,67 et si l'on teste

H0

Volume=Vitesse=0 on trouve une p-value de 0,85. C'est--dire qu'on accepte plus facilement Volume=Vitesse=0 que Volume=0 ou que Vitesse=0 !
Ceci vient du fait qu'imposer Vitesse=0 (ou Volume=0) change trs peu RSS tandis que le
changement dans le nombre de degrs de liberts va du coup favoriser l'hypothse plus complique.

III.2.4 Slection des variables


Il s'agit de choisir les variables les plus signicatives, l'ide tant d'liminer les rgresseurs dont la
contribution la prdiction, sur de nouvelles donnes, sera probablement nulle. Une mthode serait
bj et de
de tester, au vu de
b(bj ) si j est signicativement nul ou non, et d'liminer le rgresseur
correspondant. Cette mthode ne convient cependant pas car si par exemple deux rgresseurs sont trs
proches (la puissance de la vitesse de la page 46), un seul sut :

yi 1 + 2 x2 + 3 x3 1 + (2 + 3 )x2

b(b2 ) et
b(b3 ) sont trs grands. Les hypothses
sans que 2 = 3 = 0 le soit.

mais cet algorithme liminera probablement les deux car

2 = 0

et

3 = 0

peuvent tre acceptes sparment

La mthode descendante part du modle qui ajuste yi

avec tous les rgresseurs et l'on obtient une

son retrait du modle et

RSS . Pour chacun des rgresseurs on calcule la valeur du RSS correspondant


l'on choisit celui, disons k1 , pour lequel le rsidu est le plus petit. Ceci revient

est le moins signicativement non-nul dans la table d'analyse des coecients.

certaine erreur quadratique


liminer celui dont le

On a alors un ajustement de la forme

yi

bk xk .

k=k1
Noter que les
les

p2

bk

ont tous chang depuis le premier modle. On choisit ensuite la variable retirer parmi

restantes en minimisant nouveau le rsidu obtenu, etc.

On s'arrte quand la dtrioration est juge statistiquement signicative ; ceci se fait simplement avec le
test de Fisher (quation (III.2)) :

S'arrter si
o

RSSk

(n k)

RSSk1 RSSk
f1,nk (1 )
RSSk

est le rsidu obtenu par le modle

sont tous signicatifs au niveau

variables explicatives. C'est--dire lorsque les coecients

Lorsqu'il y a des variables qualitatives, leur retrait correspond au

retrait de plusieurs colonnes et l'on compare donc en ralit un

fq,nk (1 ).

RSSkq

un

RSSk

l'aune d'un

On met parfois cette mthode en uvre en vriant aprs chaque tape que les rgresseurs limins sont
encore inutiles en faisant

k1

tests de Fisher.

48

La mthode ascendante raisonne de manire similaire mais en introduisant les rgresseurs un un.
H1

Elle est plus risque car l'hypothse

est fausse depuis le dbut, ce qui peut conduire un arrt prcoce

mme dans une situation o les tests sont puissants, et rend plus hasardeuse la slection des rgresseurs
ajouts.

Facteurs proches, colinarit.

Il est

essentiel de bien comprendre que si deux colonnes de X

sont

proches mais utiles pour la prdiction, la mthode descendante en rejetera une assez vite (car elle est
redondante) pour garder l'autre longtemps. Une conclusion htive est de dire que le premier facteur n'est
pas signicatif tandis que le second l'est. C'est videmment inexact.
Par exemple si l'on veut tudier le taux de frquentation du mdecin en fonction des deux variables
 ge  et  sexe  et que les individus sont des jeunes femmes et des hommes vieux, il est clair que le
plan d'exprience est mauvais, et l'on ne pourra pas dmler l'inuence de l'ge de celle du sexe.
C'est pour cela qu'il est trs avantageux d'avoir une matrice X la plus orthogonale (en colonnes) possible
T
(valeurs propres de X X presque toutes gales), c'est--dire un bon plan d'exprience.

Utilisation de critres. Une autre direction qui est utilise pour choisir son modle consiste minimiser
un RSS pnalis (puisque minimiser le RSS conduit automatiquement au modle le plus compliqu). On
a dj vu le critre de validation croise

bCV ,

10. Il en existe deux autres trs classiques

AIC = n log(RSS) + 2p
BIC = n log(RSS) + p log(n)
o

est le nombre d'individus et

le nombre de variables. AIC est le rsultat de l'estimation de l'erreur

de prdiction qui serait faite sur un nouvel chantillon (c'est donc essentiellement un concurrent

bCV ).

On peut dire globalement que BIC aura tendance choisir un modle trop parcimonieux tandis que AIC
aura la tendance inverse. Il n'est pas rare de voir AIC ajouter des variables juges non signicatives
5% par le test de Fischer.
Ceci permet en thorie de comparer les

2p

modles possibles ; c'est malheureusement un principe gnra-

lement trop dicile mettre en uvre, pour des raisons techniques

3 et aussi pour des raisons thoriques

car essayer un trop grand nombre de modles peut conduire encore un phenomne d'overtting.
L'utilisation de ces critres, plutt que des statistiques de Fisher, n'est pas particulirement recommande
car les mesures de signicativit ont disparu : on travaille l'aveugle. Ils sont en revanche pratiques pour
comparer des modles non embots, voir les dtails dans l'appendice B.

III.2.5 Exercices
Exercice 1. Test de Chow. Le modle est
yt = ak + bk xt + ut ,
avec

k=1

pour

t T,

et

t = 1, . . . 2T
k=2

aprs. Cette quation modlise par exemple un changement de rgime

dans des donnes mesures au cours du temps.

y = X + u pour un X bien choisi.


= (a2 , b2 )  contre son contraire (on donnera L et l).
Exercice 2. On est dans le cadre linaire gaussien habituel. Soit 0 une valeur nominale donne. Proposer
un test pour H0 :  = 0  contre H1 :  > 0  (on pourra, si l'on prfre, choisir d'abord la forme
1. Mettre ce modle sous la forme


2. En dduire un test de H0 : (a1 , b1 )

du test au vu des hypothses tester puis dterminer ensuite le seuil).

Exercice 3. On mesure le taux de cholesterol d'individus de trois groupes de taille n1 , n2 et n3 , de sorte


que l'on a en tout

n = n1 + n2 + n3

individus. Proposer une mthode pour tester si l'origine des individus

(c--d leur groupe) inue sur leur taux de cholestrol.


3. L'algorithme de Furnival et Wilson (1974) est une mthode astucieuse pour faire la comparaison exhaustive moindre
cot. Il est par exemple dcrit dans le rapport de Ni et Huo Regressions by enhanced leaps and bounds via optimality
tests,

http://www2.isye.gatech.edu/statistics/papers/06-05.pdf

49

Exercice 4. On considre le modle

1
= 2 .
3

y = X + u,

On considre les hypothses

H0

:  2

= 3 = 0 

sous le modle complet. Trouver la loi sous

H0

H1 :  3 = 0 . On note RSS0 , RSS1 et RSS2 les


H0 , H1 et le modle complet, et b et
b les estimes

et

rsidus calculs respectivement sous les hypothses

de la statistique

(RSS0 RSS1 )/q


RSS2 /(n p)
o
de

p est la dimension de et q celle de 2 . On commencera par remarquer que RSS0 RSS1


b (cf. lemme 19), et que RSS2 est fonction de
b.

En dduire un test de

Exercice 5.

H0

contre

est fonction

H1 .

Une estimation OLS 40 individus donne les rsultats suivants (1 est le coecient du

rgresseur constant) :

b =(32 8 4 1)T
RSS =18
T SS =80

(X T X)1

20

=

1
2


.
1
4

Tous les test seront faits avec un seuil de conance de

95%.

On pourra utiliser les valeurs suivantes des

quantiles de la loi de Fisher-Snedecor

f2,36 (0, 95) 3, 27,

f3,36 (0, 95) 2, 87,

f4,32 (0, 95) 2, 67

et ceux de la loi de Student

t36 (0, 975) 2, 03,

t36 (0, 95) 1, 69.

1. Calculer un estimateur sans biais de

2 .

2. Faire pour chaque rgresseur le test de nullit du coecient.


3. Faire le test de nullit simultane de tous les coecients, sauf
4. Faire le test

H0

:  2

+ 3 = 7 

1 .

contre son contraire.

S = (7 b2 b3 )/b
, b =
b(7 b2 b3 ) dont on donnera la
Tu de la proposition 18).
 2 + 3 = 7  contre H1 :  2 + 3 < 7 . On utilisera S . Qu'observe-t-on ?
 3 = 4 = 0  contre son contraire.

On basera le test sur la statistique


loi sous

H0

(cf la statistique

5. Faire le test
6. Faire le test

H0
H0

:
:

7. Sur les 20 premires observations on a obtenu

ybi = 35 + 6xi1 2xi2 2xi3 ,

RSS = 7

et sur les 20 dernires

ybi = 29 + 9xi1 5xi2 3xi3 ,


Peut-on considrer que

RSS = 6.

n'a pas chang ? On pourra s'inspirer de l'ide dveloppe dans l'exer-

cice 1 p. 49.

Exercice 6. (IC en prdiction).

On considre le modle habituel sur lequel on a obtenu une estime


et y o (x , y ) est une paire rgresseur/rponse

b de . On cherche un intervalle de conance pour x

satisfaisant le modle.

50

1. Soit

h = x (X T X)1 x

En dduire un intervalle de conance


2. Quelle est la loi de

(x b x )/b
h1/2 ?
I(x) centr en x b et de niveau

. Quelle est la loi de

(x b y )/b
1+h

pour

x .

En dduire un intervalle de conance centr en

x b et

de niveau

pour

y .

Exercice 7. (IC simultans en prdiction). L'intervalle de conance de l'exercice prcdent satisfait

P (x I(x )) 1 , mais si l'on veut des prdicteurs pour plusieurs rgresseurs

exemple x et x , et sans faire baisser le niveau, il faudrait pouvoir assurer


P (x I(x )

et

simultanment, par

x I(x )) 1

qui n'est pas satisfait. La suite de l'exercice propose une solution ce problme.

QQT = (X T X)1 . Montrer qu'il existe une variable normale


standard indpendante de
b telle que b = Q.
2
Montrer que xQ
(xb x )2 est major un facteur prs par un 2p indpendant de x.

1. Soit

2.

une matrice carre telle que

3. Montrer que

J(x) = [xb (x), xb + (x)],

2 = pb
2 (x(X T X)1 xT )fp,np (1 )

est un intervalle de conance uniforme en

de niveau

c--d que pour toute valeur de

P (x, x J(x)) 1 .

Exercice 8. (Lien avec le rapport de vraisemblance) Vrier que la statistique du test de Fisher
vaut

n p 2/n
(
1)
p p0
o

(III.3)

est le rapport de vraisemblance

P (y)/P0 (y),

calcul avec les estimateurs au maximum de vraisem-

blance. On pourra utiliser l'exercice 1 page 43.


On pourra comparer cette statistique avec celles prsentes l'annexe A (faire

grand).

III.3 Analyse des rsidus. Mesures d'inuence


L'approche la plus simple est le trac de l'histogramme des rsidus, qui permet de conrmer l'hypothse
gaussienne et galement de dtecter des individus qui ne suivent pas le modle (rsidus anormalement
grands). On peut toutefois faire une tude plus prcise. Rappelons que la loi de u
bi est N(0, (1 hi )2 )
(car u
b = Ku, cf. l'exercice 9 p. 21).

20 - Dfinition
On appelle rsidus studentiss les estimateurs centrs  rduits  des erreurs

ri =

yi ybi

b 1 hi

On appelle rsidus studentiss par validation croise

ri

yi ybi

= ri
=

b(i) 1 hi

np1
.
n p ri2

(III.4)

Les notations sont celles du II.2.5, et la dernire galit est laisse en exercice.

21 - Proposition
Si

y N(X , I), ri

suit une loi de Student de paramtre

51

n p 1.

La dmonstration est immdiate au vu des rsultats du paragraphe III.2 et de la formule

xb(i) )

u
bi = (1hi )(yi
ri

consquence de (II.1), qui asure l'indpendance des deux termes de la fraction. La statistique

ri .

est en pratique prfre

22 - Dfinition
Une

donne aberrante au niveau est un individu i pour lequel ri

par la loi de Student pour un risque d'erreur

Un niveau
de choisir

dpasse le seuil donn

raisonnable est 1/n, soit un seuil tnp1 (1 1/(2n)). Si n est grand, on


plus grand, par exemple 0, 05 mais ce que l'on dtecte alors devrait plutt

peut tre tent


tre appel des

individus extrmes, puisque statistiquement de tels individus seront toujours prsents en proportion de
5%. Pour la motivation de la dnition suivante, on rfre au II.2.5 p. 15 :

23 - Dfinition
Une

donne isole au niveau est un individu i pour lequel nhi /p dpasse le seuil (souvent
donne atypique est une donne soit isole soit aberrante.

choisi 3). Une

10

6
5

3
2

0
0

Figure

III.1  Sur la premire gure

10

xi

-1

yi est en ordonne. Le point A est


nhi /p en fonction des rsidus studentiss
par leurs p-values, i.e. les solutions i de

est en abscisse et

aberrant et I est isol. La seconde gure reprsente les


(valeur absolue). On aurait pu remplacer les rsidus
ri = tnp1 (1 i /2).

Interprtation.

Une donne aberrante est donc une donne dont la rponse

est peu conforme au

modle estim sur les autres donnes. Une donne isole est une donne dont le rgresseur
dans l'espace ; son retrait augmenterait donc sensiblement la matrice de covariance de
trs sensible la valeur de
inuent sur l'estimation de

Ci =

b ;

est isol

de plus

est

y correspondante (eet levier). Les donnes inuentes sont celles qui


. La mesure d'inuence la plus utilise est la distance de Cook qui vaut

(b b(i) )T X T X(b b(i) )


hi
=
r2

b2 p
p(1 hi ) i

(III.5)

(la dernire identit est laisse en exercice). Comme une grande valeur de cette statistique peut aussi
bien venir d'un fort rsidu que de l'isolement dans l'espace de l'individu, le meilleur trac est a priori

celui des (ri , nhi /p), comme gure III.1.

Bilan. Mme si le modle gaussien semble douteux, les rsidus studentiss sont intressants car ils sont
normaliss, et l'on peut faire le graphique de la gure III.1, quitte rester prudent dans l'interprtation
qu'on lui donne.
Il faut se garder d'liminer de but en blanc des individus aberrants d'une analyse pour la recommencer
ensuite ; un tiers pourrait y voir juste titre une manipulation grossire pour biaiser l'tude. L'analyse

52

des rsidus se contente de jeter la suspicion sur certains individus et c'est ensuite l'analyste d'essayer de
savoir s'ils contiennent des erreurs (de mesure, etc.), et si ce n'est pas le cas, ils peuvent tre au contraire
importants pour l'estimation ou la remise en cause du modle (linarit, etc.).
C'est une grave erreur que d'liminer a priori les individus isols, qui au contraire peuvent tre porteurs de
beaucoup d'information. On peut cependant tre amen le faire pour amliorer la linarit du modle,
considrant que le modle linaire n'est gnralement qu'une approximation raisonnable, valide sur un
domaine pas trop grand.
Pour les exercices suivants, il pourra tre utile de se servir du thorme 9 p. 16.

Exercice 1. Pourquoi ri ne suit-il pas une loi de Student ?


Exercice 2. Montrer que Ci =

b 2
|xi (b(i) )|
.
phi
b2

Exercice 3. Dmontrer la deuxime galit de (III.4). Dmontrer la deuxime galit de (III.5).

III.4 Analyse de la variance. Aspects pratiques


III.4.1 Analyse de la variance un facteur
L'analyse de variance proprement dite s'intresse la situation o les rgresseurs sont purement qualitatifs. Dans ce paragraphe il n'y en a qu'un.
On dispose de

ni

n = n1 + .. + np

yik , i = 1, . . . p, k = 1, . . . ni . i est l'indice de groupe et


p dirents engrais ; pour chaque
(plantations) et yik dsignera la production du k e champ test utilis

observations

la taille du groupe i. Par exemple, supposons que l'on veuille tester

engrais
pour le

i,
ie

ni

on fera

expriences

type d'engrais. Le modle de rgression correspondant est

yik = i + uik
o

(III.6)

ie

est la productivit du

0
y= .
.
.

0
.
.

.
.

...

.
.
.

...

.
.

0
1

engrais. On met cette rgression sous la forme

+ u

o 0 et 1 sont des vecteurs de 0 et de 1. Le vecteur ligne


X T X est la diagonale des ni et

bi = yi. = n1
i

y = X + u

xi

indique quel engrais a t utilis. La matrice

yik .

k
On s'intresse savoir si les

bi sont signicativement dirents, c'est--dire tester H0 :  1 = = p ,

c'est--dire si le facteur  engrais  a un eet visible. Les quantits intervenant dans le test de Fisher sont

(yi y)2 =
ni (
yi. y)2 +
(yik yi. )2
i

i
TSS

avec ici

ESS

RSS0 = T SS .

Il faut bien voir que

ik

RSS

Chacune des trois statistiques est un

ESS

et

RSS

sous

H0 ,

cf. III.2.3.

s'interprtent comme les variances interclasse et intraclasse, et la

statistique de Fisher est proportionnelle leur rapport.

53

La deuxime forme. Le mme modle peut se rcrire


yik = + i + uik ,

i = 0.

(III.7)

i
Il y a un paramtre supplmentaire mais la contrainte de somme nulle fait que le nombre de paramtres

1
libres est toujours p. On a bien entendu =
i i et i = i .
I

Autre paramtrisation. Le mme modle peut se rcrire


yik = + i + uik ,

I = 0.

Le nombre de paramtres libres est toujours


par les logiciels. Le coecient

p.

Cette paramtrisation est celle gnralement employe

est quali d'intercept.

Exemple. On s'intresse la composition des hotdogs 4 . La rponse est la teneur en calories et la variable
explicative Viande a trois modalits : Volaille, Boeuf, Divers (essentiellement porc et boeuf ). Il y a 54
individus. La table d'analyse de variance du modle (commande

anova de R) montre bien que le type

de viande inue signicativement sur les calories, expliquant plus d'un tiers (39%) de la variabilit des
donnes :
dl

Sum Sq

Pr(>F)

Viande

17700

3,8e-06

Residuals

51

28000

summary de R) donne

L'analyse des coecients du modle (

Estimate

Std. Error

Pr(>|t|)

(Intercept)

157

5,2

< 2e-16

Divers

7,7

0,8

Volaille

- 38

7,7

9,4e-06

Attention, l'interprtation du 0,8 est que les viandes diverses n'ont pas d'apport calorique signicativement dirent du boeuf (associ lui-mme un coecient nul : l'analyse est dissymtrique). Si l'on
s'arrange pour que ce soit la variable Volaille qui ait son coecient nul, on obtient la table suivante

Estimate

Std. Error

Pr(>|t|)

(Intercept)

119

5,7

< 2e-16

Boeuf

38

7,7

9e-6

Divers

40

8e-06

o l'on voit que les coecients de Boeuf et Divers sont signicativement dirents de 0 (donc de Volaille)
mais sans doute indistinguables entre eux vu l'ecart-type. Cette analyse se conrme par une reprsenta-

100

140

180

tion en botes moustaches :

Boeuf

4. The Data and Story Library.

Divers

lib.stat.cmu.edu/DASL.

Volaille

Hot dogs story.

54

Si l'on regroupe ces deux classes on obtient aprs une analyse supplmentaire le modle :
Calories=157, 7

37 1Volaille + bruit,

b = 23,

R2 = 0, 39.

Ce regroupement peut se justier plus prcisment en testant le modle aggrg contre le modle original
(commande

anova de R avec deux arguments).

III.4.2 Analyse de la variance deux facteurs


Supposons que l'on veuille maintenant tester dirents engrais dans direntes rgions et voir si certains
engrais sont plus adapts certaines rgions. Les observations seront maintenant
l'indice d'engrais (premier facteur, not A dans la suite),
et

l'indice d'exprience, qui varie entre

sont strictement positifs,


supposera d'abord que

et

nij .

j = 1, . . . J

pour tous

i = 1, . . . I

Le plan d'exprience est dit complet si tous les

et quilibr s'il sont gaux. On notera

nij > 0

yijk

est

est l'indice de rgion (facteur B),

ni. =

j nij

et de mme pour

n.j .

nij
On

i, j .

Modle complet avec interactions. C'est le modle :


AB : yijk = ij + uijk

(III.8)

Modle additif. C'est le modle pour lequel ij

est somme de deux termes,

ij = i + j

A + B : yijk = i + j + uijk .
C'est un modle

I +J 1

(III.9)

paramtres libres car les

et

ne sont dnis qu' une constante prs.

Pour dnir les paramtres de manire unique, on impose une contrainte, par exemple
Ce modle correspond au prcdent sous les contraintes

J = 0.

ij i j ij + i j = 0.

Modles un facteur. Ce sont les modles :


A : yijk = i + uijk
B : yijk = j + uijk .
Ceci correspond aux contraintes

ij = ij (ij = i j

pour le second).

Exemple. Reprenons les donnes du II.2.8 : On observe la prise de poids de rats nourris avec quatre
rgimes dirents correspondants deux sources de protines possibles (boeuf ou crales) en deux doses
possibles (faible ou leve). Chacune des combinaisons des deux facteurs est teste sur 10 individus tous
dirents ; il y a donc 40 observations de prise de poids en tout. Le plan est quilibr. On obtient la table
d'analyse de variance suivante (procdure

anova de R) qui indique un eet signicatif 5% de la dose

seulement :

Chaque ligne correspond

d.l.

Sum Sq

F-stat

Pr

Dose

1300

5,81

0,021

Protine

221

0,99

0,33

Dose : Protine

884

3,95

0,054

Rsidus

36

8050

en premire approche

au test d'un modle avec le facteur considr contre le

mme modle sans ce facteur (les dtails de l'interprtation seront donns plus bas). Seule la dose semble
avoir un eet rellement signicatif. Si l'eet de la protine dans le modle additif n'est pas signicatif,
le niveau 0,054 pour l'interaction plaide pour un eet possible de la protine fortement dpendant de la
dose.

Autres paramtrisations.

On prfre souvent utiliser une autre paramtrisation, qui met mieux en

valeur la contribution des dirents facteurs et de l'interaction :

ij = + i + j + ij

(III.10)

55

soit le modle

yijk = + i + j + ij + uijk .
Le terme

ij

(III.11)

est nul dans le cas du modle additif. Pour avoir unicit de la dcomposition, il faut

introduire des contraintes. Donnons deux exemples de telles contraintes, d'une part celles utilises par
lees logiciels habituels, et ensuite un autre jeu commode pour l'tude des plans quilibrs :

I = J = Ij = iJ = 0, i = 1, . . . I,

i =
j =
ij =
ij = 0.
i

Les contraintes sur

j = 1, . . . J

(III.12)
(III.13)

I + J 1 contraintes indpendantes car elles possdent

ij ij = 0). D'o la table de dcompte des paramtres libres

n'engendrent que

contrainte en commun (IJ

=0

ou

Facteur
Param. libres

.
I 1

.
J 1

..
(I 1)(J 1)

une

total

IJ

C'est la convention (III.12) qui est gnralement utilise ; voici la table d'analyse des coecients (procdure

summary de R, option /solution dans la procdure glm de sas) pour l'exemple prcdent :
estime

cart-type

Pr

Constante

100

4,7

2e-16

DoseFaible

-20,8

6,7

0,0036

ProtineCrale

-14,1

6,7

0,042

DoseFaible.ProtineCrale

18,8

9,5

0,054

b = 15

Attention PRUDENCE. Il faut bien voir que les , i , j et les ij dpendent de la convention utilise
(i.e. la contrainte choisie), et n'ont pas de signication pris sparment, ce qui fait que ces paramtres
prsentent peu d'intrt pour l'utilisateur ; par exemple, sous la convention (III.12), on a

= IJ , i = iJ
tandis que sous la convention (III.13), on a

1
1
ij , i =
ij .
IJ ij
J j

On se gardera donc bien de les interprter htivement. Par exemple dans un modle avec interaction,

b=0

ne signie rien de particulier.

Les valeurs prises par les , i , j , ij n'ont donc qu'un intrt purement indicatif,
exemple pour comparer certains

au vu de leur valeur et des

s'eorcera toujours en n de compte de

par

en vu de fusionner des facteurs. On

tester des modles (ou bien des combinaisons linaires des ij ).

Considrons par exemple le modle additif ; le test i


cas de (III.12) il signie en ralit que

bi

i et J

= 0 dpend de la convention, par exemple dans le

ont mme eet. C'est pourquoi les logiciel refuserons toujours

de faire ce genre de test (c'est la thorie des testable functions). En revanche le logiciel acceptera de
tester i

j = 0, qui a le mme sens indpendamment de la convention utilise et qui s'interprte


j ont mme eet. Dans le modle avec interactions, la situation est encore plus confuse.

comme i et

En pratique, il faudra mieux directement tester le modle o les deux classes ont t fusionnes contre
l'original.

Cas du plan incomplet. Si nij

nombre de paramtres du modle complet n'est plus


de

ij

IJ

j nij et
i nij sont non-nuls, le
mais le nombre de nij non-nuls : c'est le nombre

n'est pas toujours positif, mais que

en jeu, les cellules vides tant considres comme inexistantes. Pour calculer les termes

56

et

p0

intervenant dans la statistique de Fisher, une mthode qui marche toujours (indpendamment du nombre
de facteurs) de prendre le rang des matrices

correspondant aux deux modles en comptition :

p = r,

p0 = r0 .

Plan d'exprience quilibr et sommes de carrs.

Cette situation a l'avantage de faciliter l'in-

terprtation des analyses car il n'y a pas de facteurs proches. De plus elle prsente des formules simples
pour les estimes.
Soit

la valeur commune des

nij .

Alors

n = IJK .

On vrie que les estimes pour le modle complet

sous la contrainte (III.13) sont

b = y

bi = yi.. y =

1
yijk y,
JK
jk

1
bj = y.j. y =
yijk y
IK
ik

bij = yij. yi.. y.j. + y


=
b+
bi + bj ) et  un facteur  (
bij =
b+
bi ,
b
et
bij =
b + j ). Les variances expliques par chaque facteur sont dnies et calcules comme suit (RSSM
dsigne le RSS du modle M ) :

SS = T SS RSSA = JK

bi2 , SS = T SS RSSB = IK
bj2 ,
et ces estimes valent aussi pour les modles additifs (
bij

SS = RSSA+B RSSAB = K

j
2

bij

ij
(vrication aise). Notons que la dcomposition
orthogonaux de dimension

IJK )

yijk =
b+
bi + bj +b
ij + u
bijk

est orthogonale (5 vecteurs

en raison des contraintes et de l'quilibre, ce qui revient dire qu'on a

X en quatre sous-espaces orthogonaux dnis par les contraintes inposes (cf. (III.10)
A, B ou  interaction  ; SSx est le carr de
projection de y sur le sous-espace correspondant et le thorme de Pythagore implique la

dcompos l'espace

et (III.13)), correspondant chacun au facteur,  constante ,


la norme de la

formule de sommation :

SS :
d.l. :

T SS =
n1 =

SS
I 1

+ SS +
SS
+ RSSAB
+ J 1 + (I 1)(J 1) + n IJ

o d.l. est le nombre de degrs de libert de


terme de bruit

RSS

SSx

sous

x = 0.

(III.14)

La variance totale est dcompose en un

et trois termes distincts ds respectivement la variabilit en fonction de la premire

variable, de la seconde, et de l'interaction des deux. Chaque terme est interprt comme la contribution
de chaque facteur (cf. l'explication de la page 15 pour la justication de l'usage des carrs). C'est la
colonne Sum Sq de la table de la page 55. Sous l'hypothse nulle que . = . = .. = 0, ces quatre
2 , des 2 indpendants avec les degrs de libert correspondants. Ces
termes sont ceux qui servent construire les statistiques de Fisher. La simplicit de cette dcomposition
termes sont, aprs division par

et de son interprtation sont caractristiques du plan quilibr, et des plans o


les espaces associes

A, B

et

A.B

Plan d'exprience quilibr incomplet.

n = 4K

et la matrice

est orthogonale (ici,

Soit trois facteurs deux modalits et les 4 expriences

suivantes (au lieu de 8 pour avoir un plan complet) rptes

Ici

au travers de la paramtrisation (III.13) sont orthogonaux).

Exp1

Exp2

Exp3

Exp4

fois chacune :

est le tableau ci-dessus o les lignes sont rptes

fois et une colonne de

1 ajoute. L'quilibre se voit la symtrie du plan par rapport aux facteurs qui fait que les colonnes

57

recentres sont orthogonales. On a encore la dcomposition en sommes de carrs

T SS = SSA + SSB + SSC + RSSA+B+C


o chaque terme est interprt comme la contribution de chaque facteur.

Modle de base additif. Dans l'exemple prcdent seules 4 combinaisons de facteurs ont t considres
sur les 8 possibles, on ne peut donc pas estimer plus de 4 paramtres. On part alors du modle additif.
De mme, si dans un modle deux facteurs

nij = 1 pour tous i


0 et n = IJ .

et

j,

le modle (III.8) ne prsente pas

d'intrt et les tests seront impossibles car RSS=


On peut aussi faire ce choix si le test 

= 0

donne une rponse que l'on considre dnitive.

III.4.3 Interprtation des tables


Nous avons discut, p.ex. au III.4.1, des tables d'analyse des coecients. Nous nous intressons ici aux
tables qui tudient les facteurs globalement.
Les tests de modles sont souvent interprts comme des tests de signicativit des dirents facteurs.
On les illustre ici dans le cas de trois facteurs qui peuvent tre soit qualitatifs soit quantitatifs. Voici les
types de tests comments plus bas :
(I)

Facteur tester

A
B
interaction

H1
A
A+B
AB
AB + C

H0

(III)

Facteur tester

A
B
C

cst

A
A+B
AB

interaction

H1
AB + C
AB + C
AB + C
AB + C

H0
B + C + A.B
A + C + A.B
AB
A+B+C

Table III.3  Deux tests de type I et de type III pour le modle AB+C . ( gauche) Tests embots :
ce qu'ajoute chaque facteur aux prcdents. ( droite) Test contre
un facteur quand les autres sont prsents. La partie

A.B

H1 = complet  : ce qu'ajoute

dsigne les termes d'interaction seuls

(voir le texte).

A.B correspond au facteur obtenu par orthogonalisation des colonnes de AB celles corresA et B ; ce sont des termes d'interaction pure d'interprtation obscure, qui sont les .. du

La notation
pondant

III.4.2 pour une paramtrisation particulire.

Test d'hypothses embotes :

Il a le mrite considrable de la simplicit d'interprtation. Le

statisticien dnit une suite croissante de modles par ajout des facteurs un un. On teste chaque
modle contre le prcdent. Typiquement la mthode descendante dictera l'ordre choisir (cf. III.2.4).
Le test dit  de type I  (procdure

anova de R ou S+) est embot, mais le dnominateur de la statistique

de Fisher est en fait remplac par le RSS du modle complet avec la modication correspondante du
seuil, cf. l'exercice 4 p. 50. En consquence, pour un plan quilibr, l'ordre d'introduction des facteurs
n'intervient pas, cf. l'exercice 10 p. 66.

Dans le cas de facteurs proches le premier sera choisi et l'autre rejet, cf. III.2.4.
Exemple : Reprenons l'exemple de la prdiction de la consommation en fonction du volume, du poids,
de la puissance et de la vitesse maximale (table III.1 page 46). On obtient les analyses de type I suivantes
Type I

Pr

Type I

Pr

Type I

Pr

Volume

< 0.0001

Volume

< 0.0001

P2

< 0.0001
<0.0001

P2

< 0.0001

P2

< 0.0001

Vitesse

Puissance

<0.0001

Vitesse

<0.0001

Volume

0.6

Vitesse

0.7

Puissance

0.83

Puissance

0.83

On voit bien sur les deux premiers tableaux l'eet de la colinarit de la vitesse et de la puissance.

58

Le troisime indique que le volume n'ajoute rien au poids et la vitesse. Pour les donnes du II.5.1 on
obtient les rsultats suivants
Type I

Pr

x
x2
x3
x4

0.084
0.0014
0.0064
0.68

et les rsultats sont similaires pour des degrs plus levs. Le test de type I donne de bons rsultats car
ici la situation est trs dirente. Le plan d'exprience est encore trs dsquilibr, mais le fait que le
test de type I dpende de l'ordre des facteurs n'est pas ici un inconvnient car il y a un ordre des facteurs
bien dtermin, et donc une suite croissante de modle clairement dnie.

Tests contre H1 = complet . C'est le test de H1 contre H0 du tableau III.3 (Type III de sas. Avec

options(contrasts = c("contr.sum","contr.poly")) puis faire l'analyse


model=lm( ...) puis faire drop1(model, .., test="F")). Il est fortement remis en question par

R utiliser la commande
avec

la communaut scientique [21], en raison de la prsence d'interaction sans les facteurs pricipaux dans

H0 .

Ce type ne conduit pas une decomposition exacte de la variance en somme de carrs. En absence

d'interaction, il correspond au test de nullit de la page 45, transform en test de Fischer pour les facteurs
plus de deux modalits.
Dans le cas d'interactions le test de

AB

contre

est une extension au cas dsquilibr du test de

B + A.B pour le facteur A (on oublie C pour simplier)


= 0 dans le plan quilibr de la page 57. On teste donc

les facteurs simples contre le modle complet en gardant les interactions, ce qui est trs discutable car
on peut dicilement imaginer une interaction

AB

sans que

soit signicatif ! D'un point de vue assez

approximatif, A sera rejet si son eet est totalement imprvisible si l'on ne connat pas B .
Les rsultats ne dpendent pas de l'ordre dans lequel sont prsents les facteurs.

tendance rejetter les facteurs proches.

La structure du test fait qu'il a clairement

additionnelle de chaque facteur et leur signicativit. Ses conclusions de signicativit sont ables : dans les exemples prcdents l'analyse limine les
Il faut donc l'utiliser pour illustrer la contribution
facteurs :

Type III

Pr

Type III

Pr

Volume

0.63

x
x2
x3
x4

0.35

P2

< 0.0001

Puissance

0.83

Vitesse

0.7

La prsentation habituelle

0.32
0.45
0.68

de ces rsultats d'analyse de variance

sur chaque ligne du tableau le facteur tester puis le  RSS0

RSS 

consiste en gnral donner

correspondant au test, les degrs

SS ainsi
T SS , illustrant la contribution de chaque facteur

de libert, la statistique de Fisher, et enn le niveau de signication obtenu. La somme des


prsents fait, au moins dans le cas du test de type I, le

la variance totale (cf. la colonne SS du III.4.4, et l'exercice 10 p. 66) ; ces nombres n'ont toutefois pas
grand intrt puisque les niveaux rsument au mieux l'ensemble.
5. Dans le test de signicativit de
moyen de

A,

H0 (B + C + A.B dans le tableau) consiste


B varie, est indpendant de la valeur
possde 2 (on oublie C pour simplier)

l'hypothse

au sens o l'on fait la moyenne des eets quand

modle suivant o

possde 3 modalits et

en

y = 1 + 2 1A=1 + 3 1A=2 + 4 1B=1 + 5 1A=1,B=1 + 6 1A=2,B=1 + u


l'hypothse pour tester l'inuence de

sera

22 + 5 = 0
23 + 6 = 0

De mme celle pour tester

34 + 5 + 6 = 0.

59

supposer que l'eet


choisie pour

A.

Sur le

Type I et Type III. Le but originel des tests est de montrer la signicativit de certains facteurs ;

dans cette optique il convient de s'arranger l'avance pour avoir un plan d'exprience correct, et le
mieux est de tester entre des hypothses claires ; comme alternative, le test de type III peut se justier
(car le plus svre et donc le plus convaincant), bien qu'il soit trs remis en cause [21]. En revanche,
l'utilisation des tests pour faire de la slection de modle ne doit tre vue que comme une application
supplmentaire, avec une mise en pratique assez informelle, mais qui rclame une bonne comprhension
de la situation ; ici les tests de type I sont pratiques et permettent d'illustrer graphiquement par les
dirents SS la contribution de chaque facteur, avec prudence car l'ordre de leur introduction importe.

Bilan 1 : facteurs simples et interactions. Si l'interaction AB est considre comme signicative

alors

et

le sont (les deux premires lignes du tableau III.3 ne sont plus des tests de signicativit).

Dans le cas contraire on peut prfrer l'liminer du modle et reprendre l'analyse ; on peut galement
tester

directement par le modle complet contre le modle sans

A (B + C

contre

AB + C ).

Bilan 2 : facteurs proches, colinarit. La dicult vient des facteurs signicatifs proches ; pour

les faire apparatre dans les tests, l'ide est que l'limination de l'un rendra l'autre signicatif dans le
modle ; on peut par exemple comparer les rsultats de dirents tests simples (p.ex. modles additifs
faisant intervenir un des facteurs, l'autre ou les deux, ou bien tests embots en changeant l'ordre des
facteurs (on peut les faire sous R avec

anova(H1 ,H0 ))).

Une

acp

des rgresseurs ou une analyse des

correspondances conrmera les doutes.


En rgle gnrale, s'il n'y a pas de facteurs proches, les conclusions seront faciles tirer. S'il y en a, il
faut analyser cette proximit ; elle peut avoir deux origines :

Corrlation eective (dans le monde rel) entre direntes variables (on postule donc l'existence
d'une distribution pour les rgresseurs) ; par exemple la cylindre et la puissance.

Plan d'exprience dsquilibr : les sujets gs sont massivement des femmes. C'est une corrlation
 articielle  (entre sexe et ge) introduite par le choix des individus.

Dans le premier cas

la conclusion est simple puisqu'en gros

travers de sa corrlation avec le facteur conserv .

le facteur limin a une inuence  au

Dans le deuxime cas il est dicile de conclure puisque les donnes sont intrinsquement mauvaises :
si l'on veut tudier le taux de frquentation du mdecin en fonction de l'ge et du sexe et que les individus
de l'chantillon sont des femmes ges et des hommes jeunes, il est clair que le plan d'exprience est
mauvais, et l'on ne pourra pas dmler l'inuence de l'ge de celle du sexe ; on conclura alors

globalement signicatif des deux facteurs sans pouvoir distinguer lequel a vraiment de l'eet.

l'eet

Variable signicative dcorrle. Il peut arriver qu'une des variables explicatives ait une corrlation
quasi-nulle avec les rponses (et soit mme rejete dans l'analyse de type I) mais qu'elle soit signicative
dans l'analyse de type III : ceci vient du fait qu'elle est implicitement prsente dans d'autres rgresseurs

importants. C'est le cas si le vrai modle est yi = zi +ui et que l'on estime le modle yi = 1 xi +2 xi +ui

bas sur les rgresseurs xi = ti + zi , xi = ti , o ti est une variable quelconque de variance assez grande.

III.4.4 Un exemple trois facteurs


Des tudiants essayent des avions en papier avec deux types de pliage (facteur T), deux sortes de papier

(facteur P) et deux types d'angle de lancer (facteur A) . La rponse est la distance D parcourue. Il y a
deux individus pour chaque combinaison de facteurs soit 16 en tout.
Les rsultats de l'analyse de type I sont prsentes dans la table qui suit ; le plan tant quilibr, l'ordre
d'introduction des variables n'intervient pas. On garde ici le modle P*T, l'angle n'apparaissant pas
signicatif. La qualit du papier n'a donc pas la mme inuence selon le type de pliage.
La contribution des facteurs (et non pas leur signicativit) peut s'illustrer par un camembert bas sur
les SS, aprs une analyse liminant les interactions trop faibles (ce genre de gure est prendre avec
prcautions puisqu'elle dpend a priori de l'ordre dans lequel sont rentrs les facteurs ; ce n'est pas le cas
6.

M.S. Mackisack, What is the use of experiments conducted by statistics students ?

Donnes et texte disponibles sur internet : Australasian Data and Story Library,

60

J. of Stat. Educ., 2, No 1, 1994.

www.statsci.org/data/oz/planes.html.

Df

SS

F value

Pr(>F)

1718721

1.63

0.24

385641

0.367

0.56

654481

0.623

0.45

23386896

22.2

0.001

419904

0.4

0.54

73441

0.07

0.8

P
T
A
P :T
P :A
T :A
P :T :A

21025

0.02

0.89

Residuals

8392178

2160

1511

4596

3706

3854

1690

5088

4255

6520

4091

2130

3150

6348

4550

2730

2585

Table

III.4  Donnes et analyse de type I sur le modle D=P*A*T avec le logiciel R

(anova(lm(DP*T*A))). P=papier, T=type de pliage, A=angle de lancer, D=distance parcourue.

ici o le plan est quilibr. Pour le choix des SS plutt que

SS,

voir par exemple l'argumentation de la

n du II.2.4) :

Papier:Angle
Residuals

Papier
Pliage
Angle
Papier:Pliage

III.4.5 Analyse de covariance


On est cette fois dans la situation o l'on a des rgresseurs discrets et quantitatifs. Supposons que l'on
en ait un de chaque ; le modle de rgression est

yij = i + ai zij + uij .


Soit encore, sous forme vectorise,

y=

y1.
.
.
.

et

avec

1
0

0
1

...
...

0
0

z1.
0

0
z2.

...
...

.
.
.

.
.
.

.
.
.

.
.
.

.
.
.

.
.
.

.
.
.

.
.
.

...

...

zI.

X=

yI.

y = X + u

sont des vecteurs de 0 et de 1, et

ui.

0
0

est le vecteur des

uij .

)
.

Le principe des tests est inchang.

Exemple 1. Reprenons l'exemple de la page 54. On observe une variable explicative supplmentaire :
Sodium. L'analyse du type I du modle avec interaction puis l'analyse des coecients du modle additif
donnent

Df

Sum Sq

Pr(>F)

Estimate

Std. Error

Pr(>|t|)

Viande

17692

7.1e-12

(Intercept)

75,74

8,7

1,6e-11

Sodium

18614

4.4e-13

Divers

-1,66

4,5

0,717

Viande : Sodium

212

0.58

Volaille

-49,8

4,7

2e-14

Residuals

48

9242

Sodium

0,2

0,02

2e-13

L'interprtation du 0,717 est que les viandes diverses n'ont pas d'apport calorique signicativement
dirent du buf (le coecient du buf est 0). L'interprtation du 0,58 est que l'eet calorique du
sodium ne dpend pas de la viande. Si l'on regroupe ces deux classes on obtient aprs une analyse
supplmentaire le modle

61

Calories=75, 2

49 1Volaille + 0, 2

b = 13, 6

Sodium+ bruit,

R2 = 0, 8.

Sur l'chantillon, la variable Sodium a une moyenne de 425 et un cart-type de 95.

Exemple 2. On s'intresse la relation entre l'activit sexuelle et la longvit chez les mouches 7 . L'tude
se base sur une exprience faite sur 5 groupes de 25 mouches mles. Aux mouches du premier groupe,
on a fourni une femelle vierge par jour, et celle du deuxime groupe huit par jour ; les groupes 3 et 4
correspondent la mme exprience mais avec des femelles rcemment insmines (ce qui rend le rapport
impossible) ; les mles du groupe 5 sont seuls. Les variables sont

: longvit en jours (rponse)

: nombre de partenaires (0, 1 ou 8)

: vierge (1), insmine (0), aucun (-1, si nombre=0)

: longueur du thorax du mle en mm.

Sur les 9 combinaisons possibles pour N et V, seules 5 ont un sens. Pour viter ce problme on peut
retirer le 5e groupe de l'tude, ce qui fait un plan plus simple 4 possibilits qui permet de tester un
modle additif. On va voir que le modle additif sera refus, ce qui fait on pourra passer 5 groupes sans
perturber le modle.
Les rsultats (logiciel R, tests de type I) de l'analyse de covariance pour le modle nal

L=N V +T

obtenu aprs limination progressive des interactions non signicatives sont (le 5e groupe a t limin) :

Df

Sum Sq

F value

Pr(>F)

N
V
T
N :V

3542

16

6,8e-07

6675

60,4

3e-12

13633

123

1259

11,4

Residuals

119

13145

<

V =1
N =8
N =1
N =0

2,2e-16
0,001

V =0

41

65

54

63,7
61

Le tableau de droite exprime l'eet relatif en jours de la partie NV du modle, par les prdictions

T xe (valeur moyenne sur l'chantillon : 0, 817 mm) dans les cinq groupes sur la
L = N V + T estim sur l'chantillon complet, ce qui revient L = Groupe + T :

obtenues

base du

modle

c'est un

exemple typique de l'utilisation des coecients pour l'interprtation. La contribution des facteurs peut
s'illustrer par un camembert bas sur les Sum Sq :

Vierge

Thorax

Nombre

Nombre*Vierge
Residus

7. L. Partridge, M. Farquhar, "Sexual Activity and the Lifespan of Male Fruities"

Nature, 294, 580-581, 1981.

J.A. Hanley & S.H. Shapiro, "Sexual Activity and the Lifespan of Male Fruities : A Dataset That Gets Attention",

of Statistics Education, Vol.2, No 1 (1994). Donnes : www-unix.oit.umass.edu/statdata.

62

Journal

III.4.6 Facteurs embots (hirarchiss, nested) en analyse de variance


Il se peut que la modalit prise par un des facteurs dtermine celle prise par un autre, par exemple si
les facteurs sont  ville d'origine  et  rgion d'origine . Dans ce cas il n'est pas question d'introduire
d'interaction mais on testera le modle ne dpendant que de la rgion contre celui dpendant de la ville

y = r + u

y = v + u.

ou

Aspect pratique : Dans les donnes, les villes seront souvent numrotes partir de 1 dans chaque
rgion, c'est pour cela que les logiciels permettent de prciser que les facteurs  ville  et  rgion  sont
hirarchiss, ce qui permet de ne pas confondre des villes de mme indice appartenant des rgions
direntes. L'quation ci-dessus s'crit alors

yrvk = rv + urvk

et un modle paramtr sous contraintes

est

yrvk = + r + rv + urvk ,
un coecient

R = rV = 0

n'ayant aucun sens. La commande

sera

lm(yrgion+rgion/ville).

III.4.7 Modles mixtes


Ces modles ont t introduits dans le cadre de la rgression au II.3.5. Commenons par le modle
eets alatoires un facteur :

yik = + i + uik ,

u N(0, 2 I),

N(0, 2 I)

u et sont indpendants. Les paramtres estimer sont maintenant simplement , et . Ce modle


yik forment un vecteur gaussien de moyenne et de covariance dirente d'un multiple
de l'identit, des corrlations apparaissant entre observations ayant mme facteur i.

et

signie que les

Par exemple, si l'on teste dirents engrais (indice

i)

sur direntes cultures (indice

j ),

l'utilisation du

modle mixte se justie si l'on ne s'intresse pas la valeur explicite de l'interaction culture/engrais ; il
pourra s'crire

yijk = i + j + ij + uijk ,
Une faible valeur de

u N(0, 2 I),

N(0, 2 I).

(III.15)

indiquera que l'eet de l'engrais dpend peu des cultures.

Voir galement l'exercice 5 p. 65 pour un autre exemple.

Bilan : Mixte contre xe.

Remarquons que le modle mixte avec interaction alatoires peut tre

identi mme si le modle eets xes correspondant n'est pas identiable (par manque d'observations,

X dciente) ; il est donc surtout intressant pour tenir compte des interactions lorsqu'on n'a pas
assez de donnes pour pouvoir les estimer explicitement ou bien que l'on ne cherche pas les mesurer. Son
usage typique est de tester la prsence d'interactions (ou plutt de corrlations) dans un tel contexte :
i.e.

H1 = mixte 

et

H0 = xe

sans interaction .

Dans le modle longitudinal de la page 29, le modle mixte a permis de constater que les enfants les plus
grands 12 ans sont ceux qui croissent le plus vite entre 12 et 14 ans (r01

= 0, 61

signicativement non

nul).
Avec R, on peut faire des tests de modles embots par la commande

lrtest()

de la bibliothque

lmtest

anova(.,.)

ou bien en utilisant

(il s'agit du test du rapport de vraisemblance, cf. A.3.1). Il est

prfrable de forcer l'estimation par maximum de vraisemblance , l'estimateur par dfaut tant gnralement REML (REstricted Maximum Likelihood) ; ceci se fait en ajoutant l'option
ou

Method="ML"

(cas

8. Cf : D.M. Bates,

lme).

lme4 : Mixed-eects modeling with R,

Voir 1.3.1, 1.5.1, 2.2.4, 4.1.2, ...

63

2010.

REML=F

(cas

lmer)

lme4.r-forge.r-project.org/lMMwR/lrgprt.pdf.

Facteurs embots.

Prenons l'exemple de donnes longitudinales correspondant la croissance de

pommes sur des arbres. Les variables sont

le diamtre,

le temps,

l'arbre et

la pomme. Pomme et

arbre sont embots. Soit le modle

yapk = + tapk + (a + a tapk ) + (ap + ap tapk ) + uijk ,


(, ) N(0, RA ),
Comparer

RA

et

RP

(, ) N(0, RP ),

u N(0, 2 I),

revient comparer les uctuations d'un arbre l'autre (en taille et en vitesse de

croissance) aux uctuations d'une pomme l'autre l'intrieur du mme arbre. On pourra faire au choix

lme(yt,random= t|a/p)

ou bien

lmer(yt+(t|a)+(t|a:p)).
lme lorsqu'il y a plusieurs facteurs de groupe non embots est semble impossible, p.ex. et
lme(y1,random=list((1|A),(1|B))) quivaut lme(y1,random=list((1|A/B)))
correspond yijk = + i + ij + uijk , c.--d. l'embotement.

L'utilisation de
la commande
et

III.4.8 Rduction des interactions


Certains auteurs se dfont des termes d'interaction en introduisant des variables censes les rsumer :

yijk = i + j +

q xqij + uijk

q=1
o

est petit et les

xqij

sont des variables explicatives choisies l'avance, censes reprsenter elles

seules les eets d'interaction. Par exemple i (resp. j ) dsigne la catgorie professionnelle (17 modalits)
1
2
2
du pre (resp. du ls), xij = Si Sj o Si est l'indice socioconomique de la profession et xij = 1i=j Si
(voir les dtails au paragraphe IV.2.2 o cette rduction est utilise pour un modle linaire gnralis).
On a ici

I +J +Q1

paramtres au lieu de

I J

pour le modle avec interactions.

On aurait aussi pu considrer des termes d'analyse de covariance de la forme

peut tre

Si ,

ou encore l'estime de

dans le modle additif, et

j i o la variable explicative

le paramtre de pente estimer.

III.4.9 Exercices
Exercice 1. Deux analyses de variance de sur les mmes donnes vous fournissent les rsultats suivants.
Que pouvez-vous en dire ?

H1
AB
A+B
A

H0
A+B
A

0.4

cst

0.001

Pr
0.4

H1
AB
A+B
B

H0
A+B
B

0.4

cst

0.001

Pr
0.4

Exercice 2. Une analyse de variance donne les rsultats suivants. Choisissez-vous le modle A,B ,A + B ,
le modle complet, ou un autre ?

H1
AB
A+B
B

H0
A+B
B

0.001

cst

0.001

Pr
0.4

Exercice 3. On teste un engrais (facteur A). Malheureusement les champs engraisss sont principalement
tous dans une rgion tandis que les champs tmoins sont dans une autre. Il y a donc un facteur rgion

proche de

A.

1. Quelle sera probablement la conclusion du test de signicativit de

64

A : H0 = B contre H1 = A+B ?

2. On oublie d'introduire le facteur de rgion. Comment teste-t-on le facteur

A?

Quelle sera la

conclusion si l'engrais a une inuence signicative ?


3. Quelle sera le rsultat des tests prcdents si la rgion a une inuence signicative et l'engrais est
sans inuence ?

Exercice 4. (Modle mixte) On teste l'eet de deux mdicaments m = 1, 2 sur dirents sujets ; chaque
sujet n'essaye qu'un mdicament. La rponse est une variable mesurant l'amlioration de l'tat de sant
du sujet. Les sujets sont regroups en

ymgk

est la rponse du

groupes (p.ex. selon l'ge) et l'on considre le modle :

2
mg N(0, m
),

ymgk = m + mg + umgk ,
y a donc

k -ime

sujet du groupe

umgk N(0, 2 )

Exercice 5. (Modle mixte)


ni

chantillons, envoys

en

et fait

ni

Sur chacun des


des

m,
= 2 , 1 < 2 .

ayant pris le mdicament

paramtres de variance. Interprter l'hypothse  1

et

va de 1

Kmg .

Il

sujets, on fait un prlvement sanguin que l'on divise en

laboratoires (plan incomplet). Chaque laboratoire divise l'chantillon

mesures. On considre le modle suivant pour les rsultats

yijk = + i + j + ij + uijk ,
avec

i N(0, 2 ), j N(0, 2 ), ij N(0, 2 ), uijk N(0, 2 ).


Combien ce modle a-t-il de paramtres ? L'hypothse 

= 0

est accepte. Interprter les deux

variances restantes.

Exercice 6. Soit le modle linaire avec expriences rptes :


yij = a + bxi + uij ,
On notera

i = 1, . . . I,

j = 1, . . . ki .

l'erreur rsiduelle obtenue aprs estimation de ce modle aux moindres carrs.

Pour tester l'adquation du modle linaire, on considre en parallle le modle d'analyse de la variance
un facteur

modalits (comme si la variable

tait qualitative ).

1. crire le modle d'analyse de la variance un facteur et expliciter la somme des carrs des erreurs
rsiduelles

R1 .
F = n1 (R R1 )/(n2 R1 ).
l'hypothse H0 ? Quelle est la loi

2. On propose la statistique de test :


Donner

n1

et

n2 .

Quelle est

de

sous cette hypothse ?

3. Expliciter le test 5%.

Exercice 7. On considre le modle deux facteurs avec interaction sous les deux formes quivalentes
(III.8) et (III.11) avec la convention (III.13)
1. Quelle est la particularit de la matrice
2. Toujours si
fonction de

Exercice 8.

ij

si

I = J = 2?

I = J = 2, donner 4 quations quatre inconnues


, 1 , 1 , 11 . Si (11 , 21 , 12 , 22 ) = (0, 1, 3, 1), que

(11 , 21 , 12 , 22 )
, i , j , ij ?

exprimant
valent

en

On considre l'analyse de la variance un facteur avec le modle sous les deux formes

quivalentes (III.6) et (III.7).


1. Exprimer

et

bi

en fonction des

bi .

2. Donner la matrice de covariance de


expressions dans le cas o

ni

Exprimer

bi

(b
1 , . . .
bp ) ;
i.

en fonction des observations.


en dduire Var(b
) puis Var(b
i ). Simplier ces

ne dpend pas de

Exercice 9. On considre l'analyse de la variance un facteur avec le modle sous la forme


yik = i + uik ,

i = 1, . . . p,

k = 1, . . . ni .

bi
bj /2 ? Donner un intervalle de conance de niveau =5% pour
i j /2, centr en
bi
bj /2, en fonction des nk , de p et de
b. Vrier que pour (p, n1 , n2 ,
b, ) =
(2, 35, 3, 0.15, 0.05) la largeur de l'intervalle pour 1 2 /2 est 0,2 (cf. l'exercice 5 p. 50).

1. Quelle est la variance de

65

2. Montrer qu'on a l'intervalle de conance de niveau

(2np (.)

dsigne le quantile du

2np )

(n p)b
2 /2np (1 /2) 2 (n p)b
2 /2np (/2).
3. En dduire un intervalle de conance de mme niveau pour la variance de
pour les valeurs considres plus haut on obtient

b1 b2 /2 [0.054, 0.087]

bi
bj /2. Vrier
avec = 5%.

que

Exercice 10. (Tests de type I) Rcrivons le modle complet d'analyse de variance AB+C comme
AB + C = c + A + B + C + A.B,
nA nB + nC 1 = 1 + (nA 1) + (nB 1) + (nC 1) + (nA 1)(nB 1)
criture qui ne fait que dterminer cinq groupes dans les colonnes de

X . On considre le nouveau modle

quivalent obtenu par orthogonalisation de chaque facteur aux prcdents dans l'ordre donn par la
syntaxe, le modle

AB + C

devenant :

AB + C = c + A + B c,A + A.B c,A,B + C c,AB .


On peut ensuite tester chaque facteur (A, B, A.B, C) en testant le modle complet contre le modle cidessus priv des colonnes correspondant au facteur. Montrer, en exploitant le lemme 10, que le numrateur
de chaque statistique de Fisher est la norme de la projection de

sur l'espace correspondant, que ce test

correspond au test de type I et que la somme des 4 numrateurs vaut

T SS RSS

(dcomposition de la

variance).

III.5 Un exemple de conclusion d'tude


Il s'agit des donnes 'CPS_85_Wages' disponibles sur

http://lib.stat.cmu.edu/datasets/.

On no-

tera le travail d'analyse des rgresseurs et des rsidus. Voici la liste des variables et les conclusions de
Therese Stukel (la rponse est le salaire horaire) :
WAGE (dollars per hour).
EDUCATION : Number of years of education.
SOUTH : 1=Person lives in South, 0=Person lives elsewhere.
SEX :1=Female, 0=Male.
EXPERIENCE : Number of years of work experience.
UNION : 1=Union member, 0=Not union member.
AGE (years).
RACE : 1=Other, 2=Hispanic, 3=White.
OCCUPATION : 0=Other, 1=Management, 2=Sales, 3=Clerical, 4=Service, 5=Professional.
SECTOR : 0=Other, 1=Manufacturing, 2=Construction.
MARIT : 0=Unmarried, 1=Married.
 The Current Population Survey (CPS) is used to supplement census information between census years.
These data consist of a random sample of 534 persons from the CPS, with information on wages and
other characteristics of the workers, including sex, number of years of education, years of work experience,
occupational status, region of residence and union membership. We wish to determine (i) whether wages
are related to these characteristics and (ii) whether there is a gender gap in wages. Based on residual
plots, wages were log-transformed to stabilize the variance. Age and work experience were almost perfectly
correlated (r=.98). Multiple regression of log wages against sex, age, years of education, work experience,
union membership, southern residence, and occupational status showed that these covariates were related
to wages (pooled F test,

p < .0001).

The eect of age was not signicant after controlling for experience.

Standardized residual plots showed no patterns, except for one large outlier with lower wages than
expected. This was a male, with 22 years of experience and 12 years of education, in a management
position, who lived in the north and was not a union member. Removing this person from the analysis
did not substantially change the results, so that the nal model included the entire sample. Adjusting
for all other variables in the model, females earned 81% (75%, 88%) the wages of males (p
Wages increased 41% (28%, 56%) for every 5 additional years of education (p

66

< .0001).

< .0001).

They increased

by 11% (7%, 14%) for every additional 10 years of experience (p


(12%, 36%) more than non-union members (p
southerns (p

= .016).

< .0001).

< .0001). Union members were paid 23%

Northerns were paid 11% (2%, 20%) more than

Management and professional positions were paid most, and service and clerical
p < .0001). Overall variance explained was R2 = .35.

positions were paid least (pooled F-test,

In summary, many factors describe the variations in wages : occupational status, years of experience,
years of education, sex, union membership and region of residence. However, despite adjustment for all
factors that were available, there still appeared to be a gender gap in wages. There is no readily available
explanation for this gender gap. 

67

68

IV

Rgression linaire gnralise

IV.1 Modle linaire gnralis


IV.1.1 Pourquoi les modles linaires gnraliss ?
Dans bien des applications, les variables expliquer ne varient pas dans tout

mais dans

R+ , N

ou

encore un intervalle d'entiers (cf. le  credit scoring  I.2.3). Il est clair que le modle gaussien est mal

yi est une variable alatoire


xi , par exemple yi P(xi ).

adapt cette situation. Le modle linaire gnralis spcie que


loi est paramtre par une combinaison linaire des rgresseurs

En pratique la situation typique est la suivante : on dispose de donnes


explicatives) ; il faut alors spcier une famille

(binomiale

B(k, ),

ou Poisson

P(),

(P )R

et

dont la

(rponses et variables

de distributions de probabilit un paramtre rel

ou exponentielle

E(),

etc.) ainsi qu'une fonction relle

7 r(),

dite fonction de lien (les logiciels proposent une famille nie de telles distributions et de fonctions de lien
et il reste choisir). Tout est ensuite bas sur l'estimation de

yi Pr(xi ) ,

dans le modle

i = 1, . . . n.

Le modle linaire gaussien en est un cas particulier avec la famille

N(, 2 )

et

r() = .

Nous ne traitons pas ici des modles linaires gnraliss mixtes except l'exercice 3 p. 78.

IV.1.2 Les familles exponentielles scalaires


24 - Dfinition
Soit

R, dirente d'une masse

D = { : b() = log ey (dy) < +}

(dx)

une mesure sur

de Dirac, et soit

alors la famille de mesures de probabilit

P (dy) = eyb() (dy)


est la famille exponentielle associe

et

est son domaine. Elle est dite rgulire si

un intervalle ouvert.

69

est

est bien un intervalle. On a, si

est intrieur

b () = E [y]
b () = Var (y)
o l'on a mis

en indice pour souligner que les lois sont paramtres par . La fonction b() est strictement
D .

convexe l'intrieur de

La paramtrisation par la moyenne.


bijection avec

Le caractre strictement convexe de

On peut donc galement considrer

= E [y]

fait que

b ()

est en

comme paramtre pour la famille.

Estimateur au maximum de vraisemblance. Soit (y1 , . . . yn ) une suite d'observations indpendantes


P pour un certain
b soit y =
y = b ()
b.

de loi
par

Exemples.

inconnu, alors l'estimateur de

Dans tous ces exemples

D = R .

P
Binomiale
Poisson
Gauss

B(m, p)
P()

m
k=0

N(, 2 )

et

au maximum de vraisemblance est donn

sont des constantes xes.

k
Cm
{k}

p
1p

log

b()

mp

m log(1 + e )

1
k=0 k! {k}

log

N(0, 2 )

2 2 /2

IV.1.3 Les familles exponentielles un paramtre de nuisance


La mthode prcdente se prte visiblement assez mal au traitement de la variable gaussienne lorsque
la variance est inconnue ; le mme problme apparat pour d'autres distributions. C'est pourquoi on
introduit la gnralisation suivante ad hoc :

25 - Dfinition
Soit

(dy) une mesure sur R, dirente d'une masse de Dirac. On appelle famille exponentielle
une famille de densits de la forme
{
}
y b()
f (y; , ) = exp
+ c(y, )

paramtre de nuisance

telles que

f (y; , )(dy) forme une distribution


de probabilit pour tout variant

R+ et tout dans { : exp(y/ + c(y, ))(dy) < }.

dans un

certain domaine de

Le terme

c(y, )

contient toute la partie non-linaire en

dans la pratique de dnir la variable

non dj prsente dans

de la paramtrisation, puis ensuite

(dy) ;

ceci permet

x, on a donc une famille exponentielle. Cette fois :

E[y] = b ()

Var(y) = b ().

26 - Proprit
y1 , . . . yn une suite de tirages

valeur de , l'estimateur de

f (y; , ),

Soit

indpendants de loi

la

au maximum de vraisemblance est donn par

b = y
b ()
o

y dsigne

la moyenne empirique des

yi .

70

alors indpendamment de

Loi

Support

B(m, p)

{0, . . . m}

P()

N(, 2 )

Gamma(, p)

R+

IG(, )

R+

mp

mp(1 p)

[0, m]

1
y e .
k0 k! {k}
{
}
2
exp (y)
. dy
2 2

R+

(y/)p ey/ /(p) . y 1 dy


{
}

2
exp (y)
. dy 3
2
2 y

2p

R+

3 /

R+

loi

p (1 p)
y

my

y
Cm

k=0 {k}

2y

Table IV.1  Les familles classiques pour d = 1. D

est le domaine de variation de

Attention,

la loi binmiale est normalise (pour simplier le tableau suivant). Pour chaque loi, on a spar

f (.)

et

(dy)

par un point. IG est l'inverse Gaussienne.

Loi

B(m, p)

P()

log

N(, )

m log(1 + e )

(1 + e

V ()
(1 /m)

log

/2

1/
1/2

1/

1/

2/

log()

Gamma(, p)

p
1p

= b ()

b()

IG(, )

3 /2

Table IV.2  Les paramtres naturels.


Soit encore

b = y.

L'estimation de

est bien plus dicile.

Terminologie. La fonction V () = b () est appele fonction variance. La variance de y est V ().

IV.1.4 Les exemples classiques


Pour chacune des familles classiques, rappelons les proprits essentielles des distributions [13] :
1. Normale : Une somme de Gaussiennes indpendantes est Gaussienne.
Ex. : Bruit rsultant de la somme d'eets indpendants centrs (Thorme-limite central).
2. Poisson : Une somme de variables de Poisson indpendantes est encore de Poisson.
Ex. : Nombres d'vnements (p.ex. pannes) arrivant sur une dure donn. Comptes dans une table
de contingence.
3. Binmiale : la variable binmiale

B(m, p)

est la somme de

Bernoullis

B(1, p)

indpendants.

Ex. : Taille d'un sous-chantillon dans un chantillon de taille donne (nombre de sujets ragissant
favorablement).
4. Gamma : Si

p est entier Gamma(1, p) est la somme de p v.a. E(1). Gamma(, p) Gamma(1, p).

La somme de v.a. indpendantes de loi gamma avec mme est encore une v.a. de loi gamma de
2
mme et les p s'additionnent. On a galement n Gamma(2, n/2).
Ex. : Dispersion, dures de vie, tout ce qui s'apparente des sommes de v.a. positives.
5. Inverse gaussienne : La somme d'inverses gaussiennes indpendantes de paramtres arbitraires est
encore une inverse gaussienne.
Ex. : Temps mis par une marche alatoire pour atteindre une valeur donne.

IV.1.5 Dnition des modles linaires gnraliss


On considre des donnes

(xi , yi ), i = 1, . . . n,

xi

est la variable explicative et

71

yi

est rel.

27 - Dfinition
Un modle linaire gnralis pour

(xi , yi )i=1, ...n

est une distribution pour la suite

(yi )

dter-

mine par la donne de


 une famille exponentielle un paramtre de nuisance
 une fonction

f (., , )

(dont la rciproque est appele fonction de lien)

 une valeur et un vecteur de rgression

avec les proprits suivantes (les rgresseurs

xi

sont dterministes) :

yi
yi f (y, i , )(dy)
b (i ) = r(xi ).

 indpendance des



La dernire relation dtermine

La fonction

en fonction de

xi .

est bien inversible, en raison de la stricte convexit de

b. Ceci se rsume un peu rapidement

par les proprits suivantes


La loi de

yi

est issue de la famille choisie

(IV.1)

E[yi ] = r(xi )
quoi on doit ajouter la caractrisation de

: Var(yi )

= V (r(xi )).

Notons en particulier que, dans le cas d'une seule variable explicative, la fonction de lien fait que la droite
de rgression devient une courbe de rgression et que pour tous ces modles, part le modle gaussien,
la variance augmente avec la moyenne (plus

ybi

est grand, moins les points sont attirs par la courbe de

rgression).
La quantit

joue le rle qu'avait prcdemment

L(, ) = 1

yi i b(i ) +

i=1

Aspects pratiques.

2 .

La log-vraisemblance vaut

b (i ) = r(xi ).

c(yi , ),

(IV.2)

i=1

Il y a priori beaucoup de choix faire pour dterminer le modle puisqu'il faut

choisir la famille et la fonction de lien ; la table IV.3 dcrit les fonctions de lien

usuelles. Voici quelques

elles se rsument dire que l'encadr (IV.1) doit avoir


un sens et privilgier le lien canonique (propos par dfaut par les logiciels) :
indications utiles pour le choix du modle,

Le choix de la famille exponentielle : Dans l'crasante majorit des cas le choix parmi les cinq
familles prsentes prcdemment est quasiment dtermin par les valeurs prises par
de

(support

).

Si plusieurs choix sont possibles les tracs de rsidus normaliss permettront souvent de dcider du
plus adquat car les modles proposent un comportement dirent de la variance comme fonction
de

= r(x).

La fonction de lien sera quant elle guide par les considrations suivantes
1. Le

lien canonique r = b est un choix naturel et numriquement avantageux car beaucoup de

formules se simplient considrablement du fait que

i = xi .

Il est trs gnralement prfr

si rien ne s'y oppose.

E[yi ] = exi au lieu de E[yi ] = xi ) qui peuvent


tre corriges par des changements de variables sur x (p.ex. en passant au logarithme).

Interprtation de E[y] = r(x ) : Si r a un domaine de dnition restreint (p.ex. R+ si


r(u) = 1/u), il faut que ce domaine soit raliste pour xi .
De plus quand xi varie, r(xi ) doit prendre des valeurs raisonnables pour E[yi ] : rester born

Ce choix peut introduire des distorsions (p.ex.

2.

si l'on a choisi une loi binmiale, rester positif si l'on a choisi une loi gamma, etc.

Exemple.
dose

On dispose de

xi , i = 1, . . . n

kn

blattes spares en

lots de

individus ; le

d'insecticide. On observe le nombre de morts

yi B(k, 1 + 2 xi ).

72

yi .

i-ime

lot est soumis une

Partons du modle naf :

Lien

= g()

= r()

loi can.

Dr

r(Dr )

identit

log()
log(/(1 ))
log( log(1 ))
1 ()

e
1/(1 + e )
1 exp(e )
()
()1/

N
P
B(1, p)

R
R
R
R
R
R

R
R+
[0, 1]
[0, 1]
[0, 1]
R+

logarithme
logit
loglog complmentaire
probit
puissance

Gamma, IG

Table IV.3  Les fonctions de lien usuelles. dsigne la fonction de rpartition de la Gaussienne.
Une colonne indique la loi pour laquelle le lien est canonique. Le lien logit est galement canonique
avec la distribution

B(m, p)

condition de remplacer

g()

par

g(/m)

et

r()

par

mr().

En particulier, le lien est l'identit et

E[yi ] = k(1 + 2 xi )
V (yi ) = k(1 + 2 xi )(1 1 2 xi ).

On voit tout de suite un problme : un tel modle ne peut expliquer ce qui se passe pour des doses
grandes. L'introduction du lien canonique rsoud ici ce problme :

yi B(k, r(1 + 2 xi )),


Sur ce modle on voit que si
l'on pense que

r() =
2 > 0

1
,
1 + e

r1 () = log

(ce qui est logique), alors

.
1
r()

sera toujours suprieur

r(1 ).

Si

doit pouvoir balayer toutes les valeurs (tout le monde survit dose nulle et personne

dose innie) alors on pourra, par exemple, prfrer mesurer le dosage sur une chelle logarithmique :

yi B(k, r(1 + 2 log(xi ))),

r() =

1
.
1 + e

IV.1.6 Exercices
On pourra prfrer lire la partie suivante avant de faire ces exercices.

Exercice 1. Montrer que les modles suivants sont des modles linaires gnraliss :
{

1.yi

1
0

xi + azi + b3 log(xi ) + ei 0

si

sinon

N(0 xi 1 zi2 , 2 )
{
B(1, p) si xi = 0
3.yi =
B(1, q) si xi = 1.

2.yi

La paire

(xi , zi ) est le rgresseur pour l'individu i et les ei

On explicitera

, les fonctions

et

sont i.i.d de fonction de rpartition

1/(1+et ).

ainsi que les rgresseurs considrer.

Exercice 2. On considre le modle poissonnien y P(ex ). crire l'quation satisfaite pour l'estimateur
au maximum de vraisemblance pour

Exercice 3.

La loi binmiale ngative

p, (n) =
Sa moyenne est
l'instant du

.
B (, )

sur

donne l'entier

la probabilit

( + n)
n
.
n!() ( + )n+

et sa variance

-ime

+ 2 /.

Pour

entier, son interprtation est la suivante : soit

succs dans un Bernouilli de probabilit

B (, ).

73

p = /( + ) ;

alors

suit une loi

1. Montrer que pour tout

n, p, (n)

tend vers une limite (que l'on identiera) quand

est x. Donner , b(), et b () comme dans le tableau IV.2. Plusieurs choix sont possibles pour
; on fera celui qui conduit au paramtre de la loi de Poisson quand .

2.

IV.2 Exemples
Le but de cette partie est d'illustrer ce qui prcde et de montrer comment on tend les modles exposs
plus haut. Pour plus de dtails concernant les problmes d'estimation, voir [14] ou [8].

IV.2.1 Variable de Bernoulli : le modle logistique


Reprenons l'exemple du test de l'insecticide :

{
y=

1 si la blatte meurt
0 sinon

x = (dose,

produit, souche)

= (z, j, s)

avec

dose : variable quantitative


produit : variable qualitative 3 modalits
souche : variable qualitative 4 modalits.

Le modle linaire gnralis sans interaction naturel est

y B(1, r(x))

R7 .

Le lien sera en pratique choisi parmi  logit  (modle logistique, lien canonique) ou  probit  ce qui
donne

P (y = 1) =

1
1 + ex

P (y = 1) = (x).

ou

Certains logiciels proposent galement de mettre un seuil :

r(z) = c + (1 c)r0 (z)


o

r0 (.)

est  logit  ou  probit . Ce seuil permet d'autoriser la contrainte

Expriences de Bernoulli rptes.

P (y = 1) c

quel que soit

x.

Reprenons l'exemple prcdent mais supposons qu'on ait fait

des lots de blattes o toutes les blattes du mme lot ont les mmes conditions d'exprience (mme

xi ).

Il est naturel de rassembler les rsultats lot par lot, sans distinguer les blattes.
Pour chaque lot, dsignons par

le nombre de blattes,

la valeur commune du rgresseur et

nombre de mort. On peut considrer que l'on observe les variables

de lots (

ml = n)

et la distribution de

Yl

(Yl , Xl , ml )1lL

le

est le nombre

est :

Yl B(ml , r(Xl ))

Exemple.

On fait tester 7 marques de corn akes par 100 personnes. Les tests sont faits par paires :

chacun fait 21 expriences consistant goter deux marques direntes et dire laquelle il trouve plus

croustillante . Dans le tableau suivant la case


tillante que

(i, j)

indique combien de testeurs ont trouv

plus crous-

1. D. Causeur et F. Husson, A 2-dimensional extension of the Bradley-Terry model for paired comparisons,

Statistical Planning and Inference, 2005.

74

Journal of

39

64

40

61

76

46

61

65

59

55

85

60

36

35

31

25

41

35

60

41

69

41

80

28

39

45

75

59

71

37

24

15

59

20

29

18

54

40

65

72

63

82

yij B(100, r(i j )) o i

est la croustillance de la ie varit, et

r doit
r(0) = 0, 5 ce qui est bien le cas du lien canonique. Comme seules les dirences interviennent,
6
on peut poser 7 = 0 et il n'y a que 6 paramtres, xij {1, 0, 1} . Les intervalles de conance
obtenus pour les i conduisent un regroupement en 3 classes o les i ne sont pas signicativement
distincts : {2 , 7 }, {1 , 4 , 5 }, {3 , 6 } (par ordre de croustillance dcroissante ; on peut faire le test
On peut proposer le modle

satisfaire

sous R avec la commande

lht

de la bibliothque

car).

Notons que l'on retrouve dans cet exemple un

cas de non-monotonicit des tests au sens o la p-value de

H0

:2

Mentionnons galement la possibilit de faire des

sont traits par la fonction

H0

:3

= 6 

est infrieure celle de

= 7 , 1 = 4 = 5 , 3 = 6 .

glmer

modles mixtes, voir l'exercice 3 p. 78. Sous R, ils

de la bibliothque

lme4

Il a t remarqu depuis longtemps que la rgression logistique et l'analyse discriminante poursuivent

essentiellement le mme but. Il est gnralement admis que l'hypothse de distribution gaussienne pour
les variables explicatives est importante pour que l'analyse discriminante donne de bon rsultats ; en

particulier, en prsence de variables qualitatives la rgression logistique devrait tre meilleure .

IV.2.2 Modle poissonnien


Premier exemple :

On compte sur plusieurs annes, en chaque saison, le nombre d'accidents sur

certaines routes

yi = nombre

d'accidents

xi = (nombre

de voies sur la route, saison, investissement annuel en entretien de la route)

Le premier rgresseur a 2 modalits et le deuxime rgresseur en a 4. Le modle naturel est Poissonnien,


ce qui donne avec lien canonique :

y P(),
(avec ici

R6 ),

log() = x

soit encore

E[y] = ex .

C'est un modle log-linaire. Il se peut que le lien identit soit

mieux adapt que le lien log-linaire qui implique un eet multiplicatif des facteurs.
Si l'on doit introduire une variable de normalisation

pi

(p.ex. : si les

yi

on t mesurs dans des dparte-

ments dirents, il est naturel de prendre en compte la population, ou la longueur totale des routes du
dpartement . . .), la rponse naturelle serait
duire

log(p)

yi /pi . La faon usuelle de prendre p


est connu) : E[y] = elog(p)+x .

en compte est d'intro-

en oset (prdicteur pour lequel

La contrainte de variance gale la moyenne pour la loi de Poisson peut tre leve en utilisant une loi

ngative binomiale qui, elle, possde un paramtre de localisation et un paramtre de dispersion.


Tables de contingence.

Le modle poissonnien avec lien logarithmique est galement utilis pour

l'analyse des tables de contingence

(nijk ),

nijk

est la rponse, les rgresseurs sont qualitatifs, et les

2. S.J. Press, S. Wilson, Choosing Between Logistic Regression and Discriminant Analysis,

Statistical Association, Vol. 73, No. 364. (Dec., 1978), pp. 699-705.

75

Journal of the American

modles sont fabriqus avec certaines interactions, par exemple

nijk P(e+i +j +k +ij )


avec indpendance des

nijk (par exemple le nombre d'accidents un carrefour, i = jour/nuit , j = conduci, j, k est la proportion

teur jeune/g , etc.). La probabilit pour un individu de tomber dans la case

d'individus qu'on trouvera dans cette case si l'on rpte l'exprience un grand nombre de fois, soit

E[nijk ]/E[n],

dont le logarithme vaut donc

log pijk = c + i + j + k + ij

c = log

p,q,r

ep +q +r +pq

ce qui est une rcriture du modle. On a donc l'interprtation :

{pijk } reprsente la distribution des variables i, j, k dans l'chantillon


(dans l'chantillon signie ici parmi les fauteurs d'accident) de mme que l'estimateur habituel

pbijk = nijk /n,

qui correspond ici au modle avec toutes les interactions.

Le lien logarithmique permet donc de reprsenter l'indpendance comme la nullit de certains coecients
d'interaction, ici ij = 0. En eet dans ce cas la probabilit d'observer (i, j, k) est proportionnelle
ei ej ek exprimant ainsi l'indpendance des trois facteurs. Dans le cas contraire on concluerait par
exemple une surreprsentation des jeunes dans les accidents nocturnes. Les coecients

i , j , k

ne

font que reter la proportion de chaque modalit dans l'chantillon ; l'information relle se trouve dans
les interactions.

Contrairement ce qui a t vu jusqu' prsent, le rgression a ici pour objet de conclure des liens entre
les variables explicatives ; ces dernires se presentent donc naturellement comme des variables alatoires,
tout du moins pour ce qui est de l'interprtation des rsultats..
La cohrence du modle poissonnien alors que le vecteur des

nijk

suit une loi multinomiale, provient du

rsultat suivant :

Soient n1 , . . . nK des v.a. indpendantes de loi de P(k ), alors, conditionnellement

la loi de n1 , . . . nK est multinomiale M(n; p1 , . . . pK ), pk = k /, = k k .


C'est immdiatement vri en utilisant que

P (n1 , . . . nK |n) =

n P()

nk = n,

nK eK n e
n1 1 e1
... K
/ n! = n ! .n!. . n ! pn1 1 . . . pnKK
n1 !
nK !
1
K

Si conditionnellement leur somme n les v.a. n1 , . . . nK suivent une loi


multinomiale M(n; p1 , . . . pK ) et si n suit une loi P(), alors, les v.a. nk sont indpendantes de loi
P(pk ). Le calcul est le mme.

Notons que rciproquement :

Exemple. Pour tudier la mobilit sociale, M. Hout 3 considre une table de contingence (pij ) o i (resp.
j ) dsigne la catgorie professionnelle (17 modalits) du pre (resp. du ls). Il exploite l'ide prsente au
1
III.4.8 : Q = 5 avec xij = Si Sj o Si est l'indice socioconomique de la profession (li au prestige, au
2
2
salaire, etc.), xij = 1i=j Si , et les trois autres sont fabriqus dans le mme esprit avec d'autres indices :
log pij = c + i + j +

q xqij .

q=1
Avec R :

glm(nbCatPere+CatFils+X1+X2+X3+X4+X5,fam=poisson)
En absence d'interaction signicative, on concluera l'absence de lien signicatif entre la profession du
pre et celle du ls.
3. M. Hout, "Status, Autonomy and Training in Occupational Mobility."
1984.

76

American J. of Sociology, 89 (6), 1379-1409,

Exemple. 4

On fait faire le test suivant 124 tudiants :

Le point z se trouve dans le quatrime quadrant (i.e. /2 < arg z < 0) du plan complexe.
Dmontrer ou rfuter les propositions suivantes
(A) arg(z + z) = 0
(B) arg(z z) = /2
(C) z 2 est dans le troisime quadrant (D) < arg(z/z ) < 0

On s'intresse aux variables Rsultat, Sexe et Question et l'on rsume les donnes dans le tableau
suivant :

Hommes

Femmes

Correct

77

58

65

47

21

17

19

10

Incorrect

10

28

17

24

Non-rponse

12

23

11

Total

94

94

94

94

30

30

30

30

Df

P(>|Chi|)

Resultat

3e-42

Question

1.00

Sexe

5e-32

Res : Ques

4.5e-07

Le tableau de droite est la table d'analyse de variance ascendante donne par R. Aprs limination des
facteurs non-signicatifs, on a gard le modle

R Q+S . Il n'y a pas de dirence signicative de rsultat

entre les sexes, mais il existe une corrlation entre la question et le rsultat : les questions n'ont pas mme
dicult. Ceci se conrme bien sur les donnes.

3e-42, 1.00 et 5e-32 correspondent au modle


1.00 signie simplement qu'il y a autant de question de chaque
type dans l'chantillon tandis que 3e-42, et 5e-32 signient qu'il n'y a pas le mme nombre d'hommes que

Comme il s'agit d'une analyse ascendante, les chires


additif (indpendance des facteur). Le

de femmes et que les rsultats ne sont pas uniformment distribues (il y a beaucoup plus de rponses
correctes). La nature du plan fait qu'il ne peut pas y avoir d'interaction signicative Sexe : Question (la
variable Sexe ne donne aucune information sur la question pose).

IV.2.3 Modle variable polytomique ordonne ; la variable latente


Exemple :

y=

3 si l'individu pratique du sport tous les jours


2 si l'individu pratique du sport au moins toutes les semaines
1 sinon

x = (ge,

type d'tudes suivies, . . .)

Introduisons la variable

zi

qui reprsente l'envie de l'individu de faire du sport et postulons le modle :

z = x + u
y=k

si

ak1 < z ak ,

a0 = ,

aK = +.

Soit

P (y k) = F (x + ak )
F (.) est la fonction de rpartition de u. Le lien logit revient prendre F (x) = (1 + ex )1 . Si K = 2
et u est gaussienne, on retrouve le modle logistique avec lien probit (quitte changer r en 1 r , ce qui
revient changer y en 1 y ). Il faudra estimer mais aussi les ak . En pratique F sera la fonction inverse

du lien logit ou probit.


Noter que ce modle ne rentre pas rigoureusement dans le formalisme des modles linaires gnraliss.
L'analyse peut tre ralise sous R avec la fonction
fonction

Anova()

de la bibliothque

car.

polr()

de la bibliothque

4. J. Anderson, Gender-related dierences on open and closed assessment tasks,

Education in Science and Technology, 33(4), 495-503, 2002.

77

MASS

et les tests avec la

International Journal of Mathematics

IV.2.4 Modle variable polytomique non-ordonne (multinomial logit).


Soit un sondage donnant les variables suivantes :

yi = Distraction
xi = (ge,

prfre du samedi soir

1 = spectacle

3 = visite d'amis

2 = tlvision
4 = autres

sexe, . . .)

On pourra utiliser le modle avec ici

K=4

exp(xj )
P (y = j) = K
,
k=1 exp(xk )

K = 0

K = 0 quitte remplacer les j par j K , ce qui ne change rien


K = 0 vite donc la surparamtrisation. Ce modle ne rentre pas tout--fait

On peut toujours se ramener


par ailleurs. La condition

dans le cadre thorique mais gnralise le modle binmial logistique. Il est trait par la fonction
du package

vgam

de R, et par la fonction

catmod

de

vglm

sas. Il y a ici aussi une interprtation en termes de

variable latente (exercice 5 p. 79).

IV.2.5 Exercices
Exercice 1. On reprend l'exemple du IV.2.1 (blattes). Quelle est la dimension de si l'on suppose une
interaction entre la dose et la souche ? entre le produit et la souche ?

Exercice 2. On veut savoir si la prsence d'un agent un certain carrefour amliore la circulation. Pour
cela on compte plusieurs fois le nombre de voitures qui attendent au carrefour en prsence et en absence
d'agent. On recueille alors un tableau de donnes

(ni , ai , si ) o ni est le nombre de voitures et ai vaut 0


si qui est le sexe de l'agent pour voir si cette

s'il n'y a pas d'agent et 1 sinon. A t ajoute la variable


variable a de l'inuence sur l'ecacit.

Proposer un modle linaire gnralis pour ces donnes. Quelle est la dimension de

Comment

tiendriez-vous compte de l'heure si on l'avait mise dans les donnes ?

Exercice 3. (Modle logistique mixte 5 )

On a suivi les accouchements d'un certain nombre de

femmes an de mesurer l'importance d'un risque gntique (prsence d'un certain gne) sur les fausses
couches. On a le tableau suivant : On dispose en ralit des variables suivantes, o

< 35

femme et

yij =

35

ans

0
1

fausse couche

vivant

fausse couche

sans risque

144

18

avec risque

121

57

fausse couche
sinon

zij =

0
1

ge

< 35

sinon

ans

{
hi =

0
1

est l'indice de la

ans

vivant

le numro d'accouchement pour cette femme :

risque absent
sinon.

1. Proposer partir du tableau un test classique pour voir, pour chaque classe d'ges, si les chances
de fausse couche en absence ou en prsence de risque sont les mmes.
2. Soit le modle pour la probabilit
femme :

log

pij
1 pij

pij

d'une fausse couche au

j -ime

accouchement de la

i-ime

)
= + azij + bhi .

5. H.H. Hundborg, M. Hjbjerre, O.B. Christiansen & S.L. Lauritzen, Familial Tendency to Fetal Loss . . .,

Medicine, 19, 2147-2168, 2000.

78

Statistics in

De quel type de modle s'agit-il ? crire la vraisemblance des rponses

yij .

3. On propose le modle mixte suivant :

(
log
o les

pij
1 pij

)
= + i + azij + bhi .
N(0, 2 ). Pourquoi n'est-il pas raisonnable de considrer le
i sont des paramtres ? Interprter ce modle, en particulier concernant
d'autres facteurs inconnus. Interprter les tests  a = 0 ,  b = 0 , et

sont des v.a. normales i.i.d

modle (non-mixte) o les


la prsence ventuelle


= 0 .

Exercice 4.

On reprend l'exercice 3 p. 30. La dicult est en fait mesure par une note entre 1 et 3.

Proposer un modle linaire gnralis mixte (s'inspirer de l'exercice prcdent).

Exercice 5.

Vrier que le modle variable polytomique non-ordonne correspond au un modle

variable latente suivant : on tire

uk

variables i.i.d. de loi de densit

suit une loi de Gumbel), puis on pose

zk = xk + uk

et enn

exp(x exp(x)) sur R (c.--d. que


y = k si = zk zj pour tout j .

IV.3 Estimation de et
IV.3.1 L'estimateur du maximum de vraisemblance
Dans tout ce paragraphe on suppose
vraisemblance, il faut maximiser en

L() = 1

connu. En vertu de (IV.2), pour estimer

au maximum de

b (i ) = r(xi ).

yi i b(i ),

(IV.3)

i=1
On a abusivement oubli les termes
des fonctions

c(yi , )

qui ne jouent aucun rle. Prcisons tout de suite que pour

arbitraires, il peut trs bien y avoir des maximums locaux. La drive est

L () =

i
(yi b (i ))

i=1

et la relation liant i donne

variance V () = b (), on trouve

L () = 1

yi i
i=1

V (i )

i
b (i )
= r (xi )xi .

r (xi )xi ,

En substituant, et en introduisant la fonction

i = r(xi ).

On voit que l'annulation de cette fonction de

est un problme a priori assez compliqu. Si l'on introduit

les variables

x
i = r (xi ) xi
D = diag(V (x1 ), . . . V (xn ))1
on a

T D(y ).
L () = X

(IV.4)

Divers algorithmes bien tablis existent pour annuler cette fonction complique de

on verra le plus

utilis au IV.3.3.

Cas du lien canonique. Si r = b , l'quation devient X T (y ) = 0. La rsolution de (IV.3) ne pose


aucun problme fondamental car la fonction maximiser est concave en

79

IV.3.2 Proprits asymptotiques


On s'intresse l'asymptotique quand le nombre
L'estimateur

bn

de

d'observations

(xi , yi )

tend vers l'inni.

est l'estimateur au maximum de vraisemblance. Il est impossible de montrer

que les hypothses ncessaires l'application des thormes concernant les proprits asymptotiques du
maximum de vraisemblance sont vrifes en toute gnralit. Supposons-les satisfaites et appliquons les
bn vers . Si l'on pose (matrice
rsultats de l'annexe A. On a alors la convergence presque sre de
d'information de Fisher)

]
[
T
In = E Ln ( )Ln ( )T = 1
X DX

(IV.5)

(cf. formule (IV.4)) on a alors normalit asymptotique

In1/2 (bn ) N(0, Id).


Dans ces rsultats, on peut remplacer

In

par

Ibn ,

matrice calcule comme dans la formule (IV.5) sauf

que les normalisations sont faites avec les paramtres estims.

IV.3.3 Estimation de et
La consistance de

b implique

(sous certaines hypothses) que

b=
V (b
i )1 (yi
bi )2
n i
est un estimateur consistant de
remplacer

par

np

(IV.6)

Pour avoir une formule analogue au cas linaire, on pourra prfrer

au dnominateur. On vrie cependant facilement sur des simulations que cet

estimateur est frquemment assez mauvais ; il est meilleur de faire une estimation au maximum de
vraisemblance (ce qui est facile car il s'agit de maximiser une fonction d'une seule variable).

Un algorithme d'estimation de

new = L ()

L ().

L'algorithme de Newton pour la maximisation de

L()

est :

Malheureusement la matrice de drive seconde est gnralement dicile calculer. On prfre la rem-

Ibn (cf. A.1),


)
( T
1 X
T D(
DX
y
)
=+ X

placer par l'approximation

new

d'o l'algorithme

o tout est calcul avec la valeur courante de

IV.4 Tests et analyse de dviance


IV.4.1 Dviance.
La dviance est utilise comme mesure d'adquation du modle aux donnes. Elle vaut

b = 2(Ls L())
b
D()
o

Ls

est la vraisemblance du modle satur, c--d du modle avec un paramtre dirent pour chaque

donne. Pour ce modle,

Ls = 1

i = yi

et donc :

yi i b(i ),

b (i ) = yi .

i=1
Noter que

b
D()

ne dpend pas de

RSS . Cette
1
b,
normalise,
D()

dans le cas du modle normal, elle n'est autre que le

quantit dicile interprter n'a d'intrt que purement indicatif. La dviance

est plus troitement lie la vraisemblance et donc intervient naturellement dans les tests.

80

IV.4.2 Tests
On utilise les mthodes gnrales proposes l'appendice A en exploitant les expressions obtenues pour
la vraisemblance et la matrice d'information de Fisher (IV.5). En particulier, comme la dirence de

n'est autre que le logarithme du rapport


H0 : (D0 D1 )/ 2p1 p0 (cf. A.3.1), d'o le test

dviance normalise entre deux modles de mme


semblance, on a asymptotiquement sous

de vrai-

D0 D1
2p1 p0 (1 ).

Pour les modles pour lesquels

n'est pas connu, il sera en pratique estim sur le modle le plus compliqu

(suppos valide), et par analogie avec le cas linaire, on fait le test :

D0 D1
fp1 p0 ,np1 (1 ).
(p1 p0 )
b
Ces tests tant bass sur les rsultats asymptotiques, il est plus prudent, si
tement (par simulation d'chantillons sous

H0 )

est petit, d'estimer direc-

les quantiles dsirs de la loi sous

H0

de la statistique

considre (cf. A.3.4).


Noter que lorsque

est connu (modle binomial ou poissonnien) le test du

donne un residu nul (p.ex.

n = p),

reste valide mme si

contrairement au test de Fisher. Ceci permet de faire des tests de

H1
H0

contre le modle complet dans le cas des tables de contingence du IV.2.2.


Mentionnons galement la statistique de Pearson, utilise au mme titre que la dviance et qui vaut

2
i (yi i ) /V (i ). Elle vaut galement RSS dans le cas Gaussien. Lorsque est connu (modle
2
binomial ou poissonnien) cette statistique divise par suit un np , ce qui permet de faire un

test
d'ajustement (goodness of t test). Un autre test d'ajustement construit dans le mme esprit, pour
le modle binomial ou poissonnien, est le test de HosmerLemeshow.

IV.4.3 Analyse de dviance


La dviance va jouer un rle analogue au

RSS

de l'analyse de variance. Un exemple de table d'analyse

de dviance sera la table IV.4 ci-dessous.


Df

Dev. Resid.

NULL

Pr(>

1025.57

Sexe

228.93

796.64

0.00

Classe

73.05

723.59

0.00

Age

28.45

695.14

0.00

Sexe*Classe

30.30

664.84

0.00

Sexe*Age

14.89

649.95

1e-04

Classe*Age

8.58

641.37

0.01

Sexe*Classe*Age

1.73

639.64

0.42

Table IV.4  Analyse de dviance. Les individus sont 756 passagers du Titanic pour lesquels on

possde l'ge, le sexe et la classe (1re, 2e ou 3e) ; source : OzDASL. La rponse est 1 ou 0 selon que
le passager a survcu ou non. On a mis un modle binmial avec lien logit. La sortie est celle de
R.

Il s'agit ici de tests embots. La premire colonne contient

p p0 ,

la deuxime est la diminution de

dviance D0 D entre deux modles successifs, la troisime est la dviance, et la dernire le niveau (pour
2
un pp sur D0 D , car = 1).
0
Pour les modles binomiaux ou poissonniens, on calcule souvent une estime de

avec par exemple la

formule (IV.6), pour vrier la justesse du modle. Comme


b est le rsidu de Pearson, on utilise un test
2
du pour comparer
b sa valeur thorique (c'est un test trs approximatif ).

81

Courbe ROC pour le modle logistique.

Le but du modle logistique tant souvent de faire de

la prdiction (cf. l'exemple du Credit Scoring page 9) on s'intresse la performance de la mthode

yb = 1x>
o est un seuil choisir. L'ide est de calculer pour chaque valeur de
b
la probabilit de fausse alarme (dcider tort y = 1) et la probabilit de bonne dtection (dcider

de classication

y = 1). Elles sont estimes, de prfrence sur un ensemble de donnes


(ou par une mthode de type validiition croise), par les formules

PFA =
1ybi =1,yi =0 /
1yi =0 ,
PD =
1ybi =1,yi =1 /
1yi =1 .

correctement

n'ayant pas servi

l'estimation de

La courbe contenant les points de coordonnes

(P F A, P D)

est la courbe ROC (Receiver Operating

Characteristic curve). Le modle est d'autant meilleur que la courbe longe les axes
Dans notre exemple, si l'on considre maintenant l'vnement

y=1

x=0

puis

y = 1.

comme tant la mort du passager,

1.0

1.0

on trouve la courbe suivante (M=mort, S=Survie) :

0.6

0.8

P(S|M)

0.0

0.2

0.4

0.6
0.4
0.2
0.0

P(M|M)

0.8

P(M|S)

0.0

0.2

0.4

0.6

0.8

1.0

0.0

0.2

0.4

P(M|S)

0.6

0.8

1.0

seuil

On voit sur la gure de gauche (courbe ROC) l'existence d'un seuil permettant de prdire 80% des
morts en ne faisant mourir tort que 20% des survivants ; la bissectrice correspond la performance
de l'algorithme consistant choisir au hasard 0 ou 1. La gure de droite reprsente l'volution des deux
risques en fonction du seuil ; on y voit que le seuil mentionn est un peu suprieur 0,4.

L'aire sous la courbe ROC. Il est facile de vrier qu'elle vaut

A=

1x >x
b j
b1yi =0,yj =1
i
= Pb(xb < x b | y = 0, y = 1)
1
y
=0,y
=1
i
j
i,j

i,j

la probabilit empirique que pour deux individus de rponses distinctes pris au hasard, l'ordre obtenu
sur les

xb

soit conforme aux rponses. C'est pourquoi

est souvent pris comme mesure de qualit du

modle.

Odds ratio (rapport des cotes). Considrons le modle additif. Soit pf


une femme

xf

et

ph

la probabilit de survie pour un homme

xh .

la probabilit de survie pour

On a en raison du lien logistique

xf
pf
= 1+e 1
= ex f
1 pf
1
xf

1+e

et par consquent le rapport avec la mme expression pour un homme donne

pf 1 ph
= e(xf xh )
1 pf ph

cette quantit ne changera pas, quel que


soit l'ge ou la classe qu'ils partagent car le modle est additif. Ce rapport est appel odds ratio (OR)
et donc si la femme et l'homme ont mme ge et mme classe,

ou rapport des cotes. Notons que le rapport plus naturel considrer

82

pf /ph

(appel risque relatif

RR) dpend lui des autres variables ; il est donc ici inadquat. Il faut noter que si l'OR est malais
interprter, il est frquent que les probabilits

ph

pf

et

soient petites (particulirement quand l'OR est

trs petit ou trs grand), auquel cas OR et RR concident presque.


On trouve sur les donnes Titanic partir du modle Sexe+Classe*Age

pf 1 ph
= 14, 7
1 pf ph
Il valait mieux tre une femme. Si l'on fait le modle Age*Classe+Sexe*Classe, on trouve un odds ratio
par classe :

OR(1) = 39, 9

OR(2) = 76, 8

OR(3) = 4, 43.

C'est en deuxime classe que la dirence entre sexes est la plus criante. Pour comparer les classes, on
peut faire le modle Age*Sexe+Classe et comparer les paires 1 et 2, puis 2 et 3 :

OR(1/2) = 69, 7

OR(2/3) = 3, 04.

Si une variable explicative est quantitative, par exemple l'ge, il arrive qu'on calcule l'OR associ une
variation

log

de la variable entre deux individus (p.ex.

pa+ 1 pa
.
1 pa+ pa

=10

ans) :

= a .

Parenthse : OR et RR en biostatistiques.

Oublions ici les autres variables et considrons la

table de contingence quatre cases correspondant au croisement des variables h/f et s/d (survie/dcs).
L'objet est de proposer une mesure de l'inuence de la premire variable sur la ralisation de la seconde.
De manire gnrale l'OR est souvent prfr pour les raisons suivantes (en dehors de l'avantage dj
mentionn li l'impossibilit d'estimer RR en prsence d'autres variables ; rappelons aussi qu'il est
frquent que les probabilits

ph

et

pf

soient petites auquel cas OR et RR concident presque) :

Si l'on remplace l'vnement survie par l'vnement dcs pour le calcul du RR, on obtient
1ph
1p qui n'est pas fonction du RR de dpart, tandis que l'OR est simplement remplac par son
f

inverse car, avec des notations videntes on a OR=

Nhs Nf d
Nhd Nf s . Il y a donc en fait deux RR mais un

seul OR.

Lors des tudes de cas tmoins (case-control studies) on tire d'abord au hasard un nombre
quivalent de personnes guries (ayant survcu . . .) et d'autres malades (dcdes . . .) an d'avoir
susament d'individus dans les deux situations et ensuite on spare chaque groupe en deux
(traitement/non-traitement, classe1/classe2 . . .). L'exemple suivant

6 concerne les accidents vei-

neux thrombo-emboliques en Europe selon l'utilisation ou non de contraceptifs oraux o l'on a


tir au hasard 433 personnes ayant eu un accident veineux et 1044 n'en ayant pas eu
Contraceptifs

Pas de contraceptifs

Cas d'accident

265

168

Total
433

Contrles

356

688

1044

Total

621

856

1477

Cette proportion de 433/1044 ne rete ici aucune ralit ; on ne peut pas estimer la probabilit d'un accident pour un individu utilisant un contraceptif, qui n'a rien voir avec
et pas davantage RR. En revanche

265/433

265/621,

est bien une estimation de la probabilit d'utiliser

un contraceptif sachant que l'on a eu un accident veineux, et de mme pour les trois autres
rapports analogues ; par consquent si l'on remarque que par la formule de Bayes (A=accident,

C =contraceptif, A=non-A),
OR =

on obtient

C)

A)

C)

P (A, C)P (A,


P (C|A)P (C|
265 688
P (A|C)P (A|
=
=
=
3.

168 356
P (A|C)P (A|C)
P (A, C)P (A, C)
P (C|A)P (C|A)

La probabilit d'accident tant sans doute trs faible, 3 est proche du

.
RR = P (A|C)/P (A|C)

6. Table 3 de l'article : Venous thromboembolic disease and combined oral contraceptives,


1995

83

The Lancet, pp. 1575-1582,

IV.5 Analyse des rsidus


Les rsidus standardiss sont

ri =
o

t(.)

t(y ) t(b
i )
i
,

V (b
i ) 1 hi

t (b
i )

est une certaine fonction. Si

X
T X)
1 X
T ]ii = Dii x
T DX)
1 x
hi = Dii [X(
i (X
Ti
t(x) = x,

on retrouve une formule trs analogue celle des modles

linaires, sauf qu'il faut prendre garde utiliser les rgresseurs normaliss. Les rsidus de Pearson sont
simplement

(yi
bi )/ V (b
i ).

Le but de l'introduction de

est d'avoir pour

ri

une loi aussi  proche  que possible de la loi normale

standard. Dans [2], il est propos

t(x) =

V ()1/3 d.

0
En pratique, on peut soit utiliser cette formule quand on peut la calculer, soit utiliser une approximation,
soit prendre

t(x) = x

et estimer les quantiles de

ri

par simulation.

Les donnes aberrantes seront donc dtectes par les valeurs anormalement grandes des
isoles pourront tre repres avec les

hi .

|ri |. Les donnes

Pour le reprage des donnes inuentes, on peut utiliser la

distance de Cook

Di =

(yi
bi )2
hi
.
V (b
i ) (1 hi )2

On trace souvent les rsidus en fonction de la rponse pour conforter l'hypothse d'homoscdaticit, et
reprer les individus aberrants. Il est dicile en pratique de faire une analyse plus ne.

84

Rgression non-linaire avec bruit


additif

V.1 Modle
On se donne le modle pour les donnes :

yi = f ( , xi ) + ui ,

u N(0, 2 Id).

u gaussien pour simplier l'expos. est le paramtre estimer. Il arrive que


2
la variance du bruit soit galement modlise comme une fonction des variables explicatives, E[ui ] =

2
( , xi ) , avec souvent une forme qui suggre qu'elle augmente avec la moyenne, typiquement 2 =
a + b|f (, xi )|q . En ralit les xi ne jouent aucun rle et il est bien plus simple de considrer le modle
On suppose le vecteur

gnral

yi = fi ( ) + ui ,
o les

fi

u N(0, 2 Id).

sont des fonctions direntes connues.

On conseille les rfrences [11, 12] pour ce qui concerne les exemples et les liens avec la pratique .

Exemple 1 : Modle pharmaceutique monoexponentiel. On mesure l'volution de l'ecacit d'un


mdicament (concentration en produit actif ) au cours du temps (xi reprsente le temps) :

yi = 1 e2 xi + ui .
y = 1 e2 x et l'on
linaire, mais si ui est i.i.d.

log yi = log 1

L'quation physique est

peut tout aussi bien prendre le modle

2 xi + ui

dans un cas, il ne peut l'tre dans l'autre ; il y a donc un

qui est

choix faire.

Exemple 2 : Modles de microbiologie prvisionelle. Il s'agit de modliser le dveloppement de


bactries (Listeria, etc.) au cours du temps. Soit

le nombre de bactries et

x le temps, les deux modles

classiques suivants sont le modle de Baranyi et Roberts et le modle de Rosso :

1
,
fBR (, x) = 0 +
2 + e3 x

{
fR (, x) =

0 ,

x<

1
,
2 +e3 x

Le deuxime modle n'a que 4 paramtres en raison de la condition de continuit en

x = .

1. Et pour les aspects plus thoriques : R. Jenrich, Asymptotic Properties of Non-linear Least Squares Estimators,

Ann. Math. Stat, 40, 633-643, 1963.

85

Exemple 3 : Cintique chimique. On considre une raction enzymatique


k1

k2

E+S
ES E + P
k

(E = Enzyme, S = Substrat, P = Produit)

Le substrat

[S]

est converti en produit

Si [S] [E]
[E0 ] en E 2

et

k0 k2

on a la relation de Michealis-Menten qui fait intervenir la concentration initiale

d[P]
[S]
= Vm
,
dt
Ks + [S]
Si l'on prend des mesures

yi =

[P ].

Vm = k2 [E0 ],
(xi , yi )

Ks =

yi = d[P]/dt

k0 + k 2
.
k1
et

xi = [S]

on est conduit au modle de rgression

1 xi
+ ui .
xi + 2

Exemple 4 : Evolution d'une tumeur 3 . On postule le modle gnral suivant pour l'volution du
diamtre d'une tumeur en traitement :

(
)
x(t) = x0 1 + k1 t k2 T (1 e(t )+ /T ) k3 (t )+ .

t = 0. Parmi les quatre termes, les deux derniers n'ont d'eet


t > , et les deux premiers indiquent une vitesse d'volution linaire. Le paramtre reprsente
l'instant initial d'une nouvelle phase au cours de laquelle la vitesse d'volution chute d'abord k1 k2 k3
pour passer progressivement k1 k3 . On pose = (k1 , k2 , k3 , T, ) et l'on postule le modle suivant
e
pour les observations yij du diamtre de la tumeur du patient i au j instant de mesure tij
On suppose que le traitement a dbut
que pour

yij = x(tij , i ) + eij


o l'on a ajout

pour indiquer que le paramtre dpend du patient. Le modle propos pour cette

dpendance est

i = Xi
e
est un vecteur ligne contenant les variables explicatives et est une matrice dont la k colonne
e
permet la prdiction de la la k composante de i . En ralit, les auteurs dsirent prendre en compte le

Xi

fait que la relation ci-dessus est incomplte, et qu'il reste une partie non-explique, alatoire, dans les
paramtres, si bien que le modle nalement considr pour

i = Xi + i ,

est

i N(0, ).

Il s'agit d'un modle de donnes longitudinales eets alatoires. La matrice

donne l'ordre de grandeur

de l'incertitude sur les paramtres prdits, et donne galement de possibles corrlations entre eux.

V.2 Estimation des paramtres


La log-vraisemblance (du modle variance xe) est

21 2

i=1 (yi

fi ())2 n log()

si bien que la

mthode du maximum de vraisemblance conduit

bn = arg min Q(),

Q() =

(yi fi ())2 .
i=1

2. On atteint rapidement un quilibre o


qu' liminer

d[P]
dt

[E]

l'aide de

d[ES]
dt

[E0 ] = [E] + [ES],

= 0,

ce qui conduit

puis remplacer

[ES]

k1 [S][E] k0 [ES] k2 [ES] = 0.

par son expression en fonction de

Il ne reste plus

[E0 ]

= k2 [ES].

3. Bastogne & al., Phenomenological modeling of tumor diameter growth based on a mixed eects model.

Theoretical Biology. 2010 ;262 :544552.

86

et

[S]

dans

Journal of

La solution de ce problme peut tre numriquement assez dicile trouver et ce point ne sera pas
discut ici. On peut ensuite estimer

bM
V =

(i)

1 b
Q(),
n

au maximum de vraisemblance ou par validation croise :

1
(yi fi ((i) ))2
n i=1
n

bCV
=

est obtenu sans utiliser la

i-ime

donne.

V.3 Utilisation du bootstrap et du Monte-Carlo


On dmontre mathmatiquement des proprits de convergence, mais elles sont de nature asymptotique,
et leur  validit  pour

ni peut dpendre trs fortement de chaque cas particulier. Il conviendra


( , ) connus ; elles

de vrier le bon fonctionnement des algorithmes utiliss par des simulations


permettront de
1. Vrier les proprits de convergence et la validit des algorithmes
2. Estimer la matrice de covariance de

b et

fournir des intervalles de conance.

On peut faire ces simulations de direntes faons :


1.

Simulation (ou bootstrap paramtrique). Gnrer des donnes avec des (, ) dirents,
et ventuellement les

yis

= fi () +

Les estimes

bs

xi

de l'exprience, ceci

u N(0, Id),

usi ,

fois (p.ex.

i = 1, . . . n,

S = 10000)

s = 1, . . . S.

permettent de vrier le bon comportement de l'algorithme, et mme d'obtenir,

par exemple, une estimation de la variance d'estimation de

V ar(, )

b sous

la loi

(, )

S
1 bs
( )(bs )T .
S s=1

b
dans cette exprience conduit une estime de V ar(,
b) qui est (on

b.
peut l'esprer) un bon estimateur de V ar( , ), variance de

De mme, soit (a prioiri proche de ) et un (, ) tel que l'intervalle I = [ , + ] contienne


s
s
bs
s
bs
b
b
b
95% des ; alors [ , + ] pour 95% des valeurs de s, et [ , + ] est donc
Le choix

= b et =
b

un intervalle de conance de niveau approximativement gal 5%. Ce qui conduit utiliser


[b , b + ] comme intervalle de conance ; cette dmarche prsuppose que la statistique b

est (localement) pivotale car la paire (, ) n'a pas t calcule avec (inconnu) mais avec un

b
autre suppos proche (en pratique ). Sinon il faut en toute rigueur prendre une paire (, ) qui
convienne pour toute valeur de
2.

Bootstrap sur les rsidus. Pour estimer la loi de b, on simulait ci-dessus de nouvelles obserb
(,
b ).
les xi de

vations avec la loi donne par


gnre de nouveaux

yi

b + ub ,
yib = fi ()
i

avec

On se propose ici de modier la simulation des rsidus : on


l'exprience et

b = 1, . . . B

sera tir indpendamment partir d'une loi uniforme sur l'ensemble {


u1 , . . . u
n }, la
b (ou mieux yi fi (b(i) )) empiriquement recentrs 4 .
u
bi = yi fi ()
bb , dont la variance empirique
On dispose donc maintenant de B suites de donnes et B estimateurs
o chaque

suite

ubi

tant forme des

donne une estime de la variance de

b.

Variante : Le wild bootstrap est recommand si les rsidus ne sont pas i.i.d. Il vite de mlanger
ubi = zi u
bi o les zi

(1 +
5)/(2
5)
(1 + 5)/(2 5).

des rsidus entre individus. Il s'agit de prendre

{
zi =

(1 5)/2
(1 + 5)/2

avec probabilit
avec probabilit

sont tirs avec la loi suivante

Ann. Stat. Vol. 9, No. 6 (Nov., 1981), pp. 1218-1228.


Ann. Stati. 16 (1988), 4, 1696-1708.
E. Mammen, Bootstrap and wild bootstrap for high dimensionnal linear models, Ann. Stat. (1993) 21, 255-285
4. D. A. Freedman, "Bootstrapping Regression Models",

5. R.Y. Liu, Bootstrap procedures under some non-i.i.d. models,

87

Cette variable satisfait

E[z] = 0, E[z 2 ] = E[z 3 ] = 1

(noter que

zi

est racine de

x2 x 1 = 0).

On a donc prserv les moments jusqu' l'ordre trois.

V.4 Proprits asymptotiques


?

Pour les dmonstration et dtails techniques concernant cette partie, nous renvoyons [ ]. On s'intresse
au comportement de l'estimateur quand le nombre de donnes

augmente. Sous les hypothses habibn vers


tuelles dans le cadre du maximum de vraisemblance, on aura la convergence presque sre de
avec la normalit asymptotique quand

2
b
1/2
n (n ) N(0, Id)

x
1
.

=
T X,
X
n = X
.. ,
x
n

x
i = fi ( )

fi ( ) est ici un vecteur ligne. On peut remplacer


bn .
cette matrice

par

bn

dans la calcul de

n , auquel cas on notera

V.5 Rgions de conance


V.5.1 Rgions thoriques
Des rsultats de l'annexe A, on dduit les rgions de conance (asymptotiques) de niveau
placement the

R (Y ) =
o

par

aprs rem-

b
Q() Q()
:
2p (1 )
2

}
ou

{
}
1
2
b
b
b
: 2 ( )( ) p (1 ) .

dsigne l'ensemble des donnes.

V.5.2 Ajustement du niveau par simulation ou bootstrap


R (Y ) a un niveau rel dirent de . On peut l'estimer partir
b) Y b : sera donn par la proportion de b tels que b
/ R (Y b ).

La rgion de conance
bootstrappes (sous

des donnes

V.5.3 Intervalles de conance


En appliquant les mmes rsultats du A.2 avec

I (Y ) = [bnj , bnj + ],

g() = j ,

on obtient l'intervalle de conance

b n )1 ]1/2 tn1 (1 /2)


=
b[(
jj

o l'on a remplac la racine d'un

par un Student pour avoir une formule analogue au cas linaire, cf.

III.2.1, ce qui ne change rien dans le cadre asymptotique

n .

V.6 Tests
De la mme faon, on a les tests classiques de l'annexe A. Par exemple, le test du maximum de vraisem0
Q(bn
)
2q (1 )  o bn0 est l'estime au maximum de vraisemblance
blance pour g() = 0 s'crit  n log
Q(bn )
sous la contrainte

g() = 0,

et

est la dimension de

g.

88

Aspects pratiques. Pour n petit, le seuil 2q (1 ) est une mauvaise approximation du seuil rel. Il
sera bon de rvaluer le quantile en faisant des simulations du membre de gauche sous H0 . Notons pour
0
Q(bn
)
un ensemble de donnes Y , T (Y ) = log
, alors on pourra employer la mthode suivante valide pour
Q(bn )
toute statistique de test
1. Estimer

T (Y )

bn0 (Y )

2. Simuler des ensembles des donnes


3. Calculer les

Ys

(ou

Y b)

comme au V.3 sous la loi associe

bn0 (Y )

T (Y s )

4. le seuil sera la valeur

telle qu'une proportion

seulement des

T (Y s ), s = 1, . . . S

dpassent

cette valeur.
5. la

p-value

associe

T (Y )

sera la proportion de

tels que

T (Y s ) > T (Y ).

V.7 Analyse des rsidus


En linarisant le modle au voisinage de

on obtient par des procds standard l'approximation du

residu standardis

ri =

b
yi fi ()

b 1 hi

[
]
X
T X)
1 X
T .
hi = X(
ii

Pour la dtection de donnes inuentes, on a la statistique de - :

Ci =

hi
r2 .
p(1 hi ) i

Ces statistiques sont des indicateurs qui permettent de dtecter des individus particuliers ; ils sont bass
sur une linarisation qui peut tre trs approximative pour des

89

petits.

90

Asymptotique du maximum de
vraisemblance

A.1 Thormes-limite
On se donne une famille de lois
possdent une densit
variables alatoires

p,x (y)

(yi )i=1, ...n

P,x

dpendant d'un paramtre

Rd et d'un rgresseur x ; elles


x (dy). On observe une suite de

par rapport une mesure commune


indpendantes de loi

L'estimateur au maximum de vraisemblance de

P ,xi .
la vraisemblance est

bn = max Ln ()

Ln () =
log p,xi (yi ).
i
On dsignera par

et

les drivs premires (vecteur) et seconde (matrice) de la fonction

L().

Les

rsultats qui suivent s'obtiennent heuristiquement sans dicult, les preuves rigoureuses sont en revanche
dlicates. La matrice d'information de Fisher est dnie par

[
]
In () = E [Ln ()] = E Ln ()Ln ()T .

Sous certaines hypothses que nous ne dtaillerons pas, et qui ont essentiellement trait d'une part la
rgularit en

de la fonction

p,x (y)

et d'autre part au fait que la suite

bn

reste borne, et en supposant

de plus que
Hypothse :

(typiquement

In ( )

In ( )1 0

est d'ordre

n)

on obtient la

convergence presque sre

de

bn

vers

quand

tend vers l'inni. L'hypothse est en dfaut lorsque la loi des donnes ne dpend pas (ou pas assez) de
, ce qui implique bien entendu que ne peut pas tre estime partir de ces dernires.
La proprit de loi des grands nombres suivante (somme de variables indpendantes)

In ()1 Ln () Id.
permet d'avoir aussi les estimateurs simples suivants de

In ( )

In ( ) Ln (bn ) In (bn )
valides sous des hypothses de rgularit raisonnables et couramment utiliss ; dans la suite,
In ( ) ou un estimateur consistant cette matrice.

91

In

dsignera

On montre ensuite la

normalit asymptotique des scores

In Ln ( ) N(0, Id)
1/2

C'est une simple consquence du thorme-limite central. En crivant la drive de la log-vraisemblance

au voisinage de il vient

0 = Ln (bn ) Ln ( ) + (bn )Ln ( )


soit

Ln ( )(bn ) Ln ( )
et l'on montre alors la

normalit asymptotique de l'estimateur

In (bn ) N(0, Id)


1/2

On en dduit galement, en dveloppant


2p

Ln

au voisinage de

bn ,

la convergence en loi de la

dviance

vers un

2(Ln ( ) Ln (bn )) 2p .

Normalit des fonctions de l'estimateur. Supposons que In /n converge vers une matrice I . Soit g
une fonction valeurs dans

Rq ,

en dveloppant au voisinage de

bn

g(bn ) g( ) = g(bn )(bn )


d'o

n(g(bn ) g( )) N(0, GT I 1 G),


Dans la suite on supposera que

q p,

G = g( ).

que la drive de

est de rang plein au voisinage de

notera :

]1
[
,
Ing = GTn In1 Gn

Gn = g(bn ).

A.2 Rgions de conance


Des rsultats prcdents, on dduit aussitt les rgions de conance asymptotiques de niveau

R = { : 2(Ln () Ln (bn )) 2p (1 )}
et

R = { : Ln ()In Ln () 2p (1 )}
et pour les fonctions (en particulier

g() = )

R = {v : (g(bn ) v)T Ing (g(bn ) v) 2q (1 )}

A.3 Tests
On veut tester l'hypothse gnrale

H0 : g( ) = 0
pour une certaine fonction

valeurs dans

Rq

et un niveau

92

1 .

et l'on

A.3.1 Test du rapport de vraisemblance


Soit

b0n l'estimateur
g( ) = 0

au maximum de vraisemblance de

sous la contrainte

g() = 0.

On peut vrier

que si

In1/2 (b0n ) = P In1/2 (bn ) + O(bn 2 )


1/2 g 1/2
gn In gn In
est un projecteur orthogonal de rang

P = Id In
sous H0
o

q.

On montre alors facilement que

2(Ln (bn ) Ln (b0n )) 2q .


D'o le test :
o

2q (.)

Rejeter

H0

2(Ln (bn ) Ln (b0n )) 2q (1 )

si

dsigne la fonction quantile du

2q .

A.3.2 Test des scores


On montre de manire analogue que sous

H0

Ln (b0n )In Ln (b0n ) 2q .


D'o le test :

Rejeter

H0

Ln (b0n )In Ln (b0n ) 2q (1 ).

si

Le plus simple sera ici de prendre

In = Ln (b0n ).

A.3.3 Test de Wald


g(bn )

Il se dduit de la normalit de

Rejeter

H0

Rejeter

H0

g(bn )T Ing g(bn ) 2q (1 ).

si

En particulier, pour tester

H0 : R = l,
si

on a :

(Rb l)T (RIn1 RT )1 (Rb l) > 2q (1 ).

A.3.4 Aspects pratiques.


Pour

petit, le seuil

2q (1 )

est une mauvaise approximation du seuil rel. Il sera bon de rvaluer le

quantile en faisant des simulations du membre de gauche (ou en utilisant le bootstrap, cf. chapitre V).
Notons pour un ensemble de donnes
1. Estimer

Y , T (Y ) = 2(Ln (bn (Y )) Ln (b0n (Y ))),

b0n (Y )

2. Simuler des ensembles de donnes


3. Calculer les
4.

alors on pourra :

Ys

comme au V.3 sous la loi associe

T (Y s )

sera la proportion de

tels que

T (Y s ) > T (Y ).

93

b0n (Y )

94

Slection de modles

La situation est la suivante : on se donne plusieurs modles qu'on identie et l'on veut choisir le meilleur,
et par exemple savoir si un modle compliqu est justi. Si ce choix est motiv par un besoin de faire de
la

prdiction, les solutions que l'on va voir dans la suite sont gnralement bonnes. Si au contraire il s'agit
interprtation (p.ex. savoir si telle ou telle variable importe, savoir si le modle est linaire ou

de faire de l'

pas), c'est beaucoup plus dicile, particulirement si l'on a choisir parmi un nombre inni de modles.
Par exemple, un modle non-linaire identi peut avoir des perfomances statistiquement tout--fait
raisonnables mme si le vrai modle est linaire ; en ce cas le modle non-linaire sera bon en prdiction
mais l'interprtation juste est la linarit. De mme on peut se permettre, en prdiction, de prendre
trop de rgresseurs en compte, du moment que le modle estim leur donne un poids susament faible ;
cette option a de plus l'avantage de conduire un estimateur peu biais ce qui facilite la construction

d'intervalles de conance . Cette marge de manuvre rend le problme de la slection pour la prdiction
plus simple.
On a dj vu une mthode de slection pour l'interprtation permettant de dcider entre deux

embots, c'est le test de Fisher. Il se gnralise en (cf. A.3.1) :


Rejeter

H0

si

2(L1 (y) L0 (y)) 2q (1 )

Li (y) est la log-vraisemblance de y = (y1 , ..yn ) sous Hi

modles

et

q = p1 p0

est la dirence entre le nombre

de paramtres sous chaque hypothse. Le principe du test de Fisher est de ne refuser l'hypothse simple

H0

qu'en cas de valeur extrme de la statistique, et il est paramtr par

On prsente ici des mthodes plus gnrales qui conviennent pour des modles non-embots, dans un
cadre non-linaire, et qui n'utilisent pas de seuil.
Appelons

le nombre de paramtres ; il est clair que le modle le plus compliqu (p grand) aura gn-

ralement l'erreur de prdiction la plus faible. Plusieurs critres ont ts proposs pour les modles de
2
rgression, ils pnalisent les p grands erreur de prdiction
u
bi constante :

n
CV = n1 i=1 u
b2i /(1 hi )2 (cf. exercice 10 p. 21)
2
d'Akaike : AIC = n log(b
2 ) + p.
3
de Wallace-Boulton-Schwarz : BIC = n log(b
2 ) + p log(n)

Validation croise :
Critre
Critre

1. Car c'est le biais qui est dicile estimer. Voir p.ex. l'article de Peter Hall : Eect of Bias Estimation on Coverage
Accuracy of Bootstrap Condence Intervals for a Probability Density, Ann. Statist., Vol. 20, No 2 (1992), 675-694.
2. Attention, le critre d'Akaike s'exprime de manire lgrement dirente en fonction de l'estimateur au maximum de
vraisemblance de la variance

2
M
V = RSS/n ;

on obtient un terme

o(p/n)

prs :

2
AIC = n log(b
M
V ) + 2p.

Ann. of Stat., vol.6, No 2, 461-464, 1978.


of Minimum Description Length, J. Amer. Statist. Assoc.

3. G. Schwarz, Estimating the Dimension of a Model",


M.H. Hansen, B. Yu, Model Selection and the Principle
(2001), no. 454, 746774.

95

96

Extension des modles gnraux. Utilisation pratique. Ces critres s'utilisent pour des modles
paramtriques gnraux, condition de les exprimer en fonction de la log-vraisemblance des observations
2
y = (y1 , . . . yn ) (cf. exercice 1 p. 43 : L(y) = n2 log(2eb
M
V )) :

CV = 2 i L(yi /y (i) )
AIC = 2L(y) + 2p
BIC = 2L(y) + p log(n)
o, dans

CV ,

chaque terme est la log-vraisemblance du i-ime chantillon quand l'estimation a t faite

en utilisant les autres. On cherchera le modle qui minimise la valeur du critre considr.
L'utilisation des critres

CV

ou

AIC

de relativement bons rsultats en

peut conduire une lgre surestimation de

prediction.

souvent meilleur car il a plutt tendance sous-estimer

Leave one out ou V-fold CV.

p ; ils donnent toutefois

interprtation, BIC

Si en revanche on veut faire de l'

sera

p. On trouvera les dtails mathmatiques dans [1].

Il est souvent meilleur de faire une V-fold CV (V

10)

car cette

deuxime solution conduit moins de ucuations (cf les gures II.8.2) pour la raison suivante : Dans
le leave one out, ordre xe, c'est toujours en gros le mme modle qui est estim (on ne change que
deux chantillons), mais il peut y avoir des changement importants au passage d'un ordre l'autre
(instabilit du modle). Dans le V-fold, le modle estim variera davantage, ce qui entrane une meilleure
moyennisation et moins de variabilit d'un ordre l'autre ; l'ordre choisi dpendra moins des donnes et

le rsultat sera meilleur en interprtation . L'estime d'erreur du leave one out n'tant pas mauvaise, on
peut penser que ce dernier donnera des rsultats raisonnables en prdiction.

Interprtation de CV et AIC. Ce sont deux estimateurs dirents de l'erreur de prdiction qui serait
commise en utilisant l'estimateur courant sur d'autres donnes (indpendantes). En rgresssion linraire
exp(AIC/n) =
b2 ep/n
b2 (1 p/n)1 qui est CV dans le cas o les hi sont constants (gaux p/n).

Interprtation de BIC (MDL). Si l'on cherche coder les rponses pour les transmettre quelqu'un
qui possde dj les rgresseurs, la mthode la plus conomique consiste transmettre le paramtre
du modle estim et les erreurs de prdiction du modle, avec une certaine prcision correspondant
celle requise pour les rponses (pour une prcision requise infrieure

b,

on ne transmet donc que

le paramtre). Wallace et Boulton ont remarqu en 1968 que le nombre de bits ncessaires cette
1
opration vaut en premire approximation BIC n log() o est la prcision requise sur les rponses.
2
Le terme p log(n)/2 est le cot de la transmission des paramtres avec une prcision adquate (elle est
d'ordre

1/ n).

On voit donc que minimiser

BIC

consiste choisir le modle le plus conomique pour

la transmission des rponses. Ce critre est appel aussi MDL (minimum description length).
aussi se justier par une approche baysienne gnrale due Gideon Schwarz,

op. cit. note 3.

BIC

peut

Comparaison de modles avec changements de variables sur la rponse.

Soit y une variable


V de y et celle Vf de f (y) sont lies par V = Vf |f (y)| car si p(z) est la densit

de z = f (y), alors q(y) = p(f (y))|f (y)| est celle de y (si y est de dimension suprieure 1, remplacer |f |

par |det(f )|). On a donc la formule permettant de retrouver le critre sur la variable originale partir
d'un modle sur f (y)
alatoire, la vraisemblance

AIC(y) = AIC(f (y)) 2

log(|f (yi )|)

BIC . Si par exemple on veut utiliser AIC pour comparer les modles yi = xi 1 +
log(yi ) = xi 2 + ei via deux identications OLS, la vraisemblance obtenue aprs identication
zi = log(yi ) sera celle de yi un facteur 1/yi prs, d'o le calcul d'AIC pour le deuxime modle :

AIC(y) = AIC(z) + 2
log(yi ).

De mme pour

ei

et

pour

4. Sur CV et ses variantes, voir l'article de P. Burman : A comparative study of ordinary cross-validation, v-fold crossvalidation and the repeated learning-testing methods,

Biometrika (1989) 76 (3) : 503-514.

Voir aussi la discussion de Leo Breiman et Philip Spector dans l'article Submodel Selection and Evaluation in Regression.
The X-Random Case

International Statistical Review, Vol. 60, No. 3 (Dec., 1992), pp. 291-319.

96

Bibliographie
[1]

J.-M. Azas, J.-M. Bardet, Le modle linaire par l'exemple, Dunod, 2005.
Un expos gnral que nous recommandons chaudrement.

[2]
[3]

[4]
[5]

O. Barndorff-Nielsen, Information and exponential families in statistical theory, Wiley, 1978.


L. Breiman, J.H. Friedman, Predicting multivariate responses in multiple linear regression, J.
R. Stat. Soc., Ser. B 59, No 1, 3-54 (1997).
P.J. Diggle and P.J. Ribeiro, Model-Based Geostatistics, Springer, 2006.

I.R. Dohoo, C. Ducrot, C. Fourichon, A. Donald & D. Hurnik, An overview of techniques

Preventive Veterinary Medicine, 29, 221-239, 1996.


B. Escofier, J. Pags, Initiation aux traitements statistiques. Mthodes, mthodologie, Presses
for dealing with large numbers of independent variables in epidemiologic studies,

[6]

universitaires de Rennes, 1997.


[7]

[8]
[9]

J. Fan, J. Lv, A Selective Overview of Variable Selection in High Dimensional Feature Space, Stat.
Sin., Jan., 20 (1) : 101-148, 2010.
X. Guyon, Statistique et conomtrie, Ellipses, 1991.

D.M. Haaland, E.V. Thomas,

"Partial least-squares methods for spectral analyses. 1. Relation

Analytical
Chemistry, Vol 60, 1988, 1193-1202.
W. Hrdle, Applied nonparametric regression, Cambridge University Press , 1990.
S. Huet, E. Jolivet, A. Messan, La rgression non-linaire, mthodes et applications en biologie,
to other quantitative calibration methods and the extraction of qualitative information",

[10]
[11]

[12]

Inra, Paris, 1992.


S. Huet, A. Bouvier, M.-A. Gruet & E. Jolivet, Statistical Tools for Nonlinear Regression,
Springer, 1996.

[13]

N.L. Jonhson, S. Kotz et N. Balakrishnan Continuous Univariate Distributions, Vol.1, Wiley,


1994.

[14]
[15]
[16]
[17]
[18]
[19]
[20]
[21]

P. McCullagh, J.A. Nelder, Generalized Linear Models, Chapman & Hall, 1983.
J.O. Ramsay, B.W. Silverman, Functional data analysis, Springer, 2005.
S.R. Searle, G. Casella, C.E. McCulloch, Variance Components, Wiley, 1992.
W. Silverman, Density estimation for statistics and data analysis, Chapman & Hall, 1986.
M.L. Stein, Interpolation of Spatial Data, Springer, 1999.
M. Tenenhaus, La rgression PLS, thorie et pratique, Technip, 1998.
S. Van Huffel, J. Vanderwalle, The Total Least Squares Problem, SIAM, 1991.
V.N. Venables, Exegeses on Linear Models, S-PLUS User's Conference, 1998.

97

Index
ACP, 36

inuence, 52

additif (modle), 55

intervalles de conance, 43, 50, 88

AIC, 96

inverse gaussienne (loi), 71

analyse de covariance, 61

inversion matricielle, 22

analyse de la variance, 53
ANOVA, 47, 59, 81

krigeage, 26

Bernoulli (modle), 74

leverage, 15

Bernoulli rpt, 74

lien canonique, 72

BIC, 96

log-linaire, 75

bin. ngative (loi), 73

logistique (modle), 74

binomiale (loi), 71

logistique mixte (modle), 78

BLUE, 22

longitudinales (donnes), 9, 28, 34, 86

bootstrap, 87, 88
Box-Cox, 19

mlange de rgressions, 35
maximum de vraisemblance, 91

Chow, 49

MDL, 96

colinarit, 46, 49, 58

mthode ascendante, 48

complet (modle), 55

mthode descendante, 48

contraint (modle), 22, 47

mixte (modle logistique), 78

corrlation partielle, 16

mixte (modle), 27, 63, 65

curds and whey, 39

modle
interactions rduites, 64, 76

CV, 21, 32, 33, 39, 96

de Cobb-Douglas, 8
dviance, 80, 81, 92

de mlange de rgressions, 35

donne aberrante, 52

de rgression sur donnes segmentes, 34

donne inuente, 52

de seemingly unrelated regression, 25

donne isole, 52

logistique mixte, 78

donnes groupes, 24, 28

longitudinal htroscdastique, 26
longitudinal mixte, 28

droite de Henry, 17
Durbin-Watson (test), 25

modle linaire gnralis, 69


moindres carrs totaux, 30

erreur standard, 13
error in variables, 30

nested, 63

ESS, 13

non-linaire (modle), 85
non-paramtrique, 10

facteurs proches, 46, 49, 58


facteurs signicatifs, 58

odds ratio, 82

famille exponentielle, 69

OLS, 12

Fisher, 46
fonction variance, 71

plan quilibr, 55, 57


plan incomplet, 55, 56

gamma (loi), 71

PLS, 37

GLS, 23

Poisson (loi), 71

graphique (reprsentation), 17

poissonnien (modle), 75
polytomique (modle), 77, 78

hirarchique (modle), 29, 63

prdiction, 50, 51

indice d'inuence, 15, 52

R2

98

ajust, 15

rang rduit (rgression), 39


rponses multiples, 37
rsidus, 13, 51
rsidus partiels, 18
ridge regression, 38
robuste (rgression), 39
ROC (courbe), 82
RSS, 13
slection de modle, 95
semi-paramtrique, 10
shrinkage, 38
stabilisation de variance, 19
suppression d'un individu, 15
table d'ANOVA, 47, 59, 81
table de contingence, 75
transformations des rponses, 19
TSS, 13
type I (test), 58, 59, 66
type III (test), 59
valeur ajuste, 13
validation croise, 21, 32, 33, 39, 49, 51, 87, 95
validation croise gnralise, 33, 39
variable latente, 77
White (test), 25

99