Vous êtes sur la page 1sur 81

P UBLICATIONS DU L ABORATOIRE

DE
S TATISTIQUE ET P ROBABILIT E S

Pratique de la

modelisation
Statistique
P HILIPPE BESSE

Version janvier 2003 mises a` jour : www.lsp.ups-tlse.fr/Besse

Laboratoire de Statistique et Probabilites UMR CNRS C5583


Universite Paul Sabatier 31062 Toulouse cedex 4.

Table des mati`eres

Introduction

Regression lineaire simple

Mod`ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.1

Inference . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Qualite dajustement, prediction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3
4

Nuage de points, transformations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

10

4.1

Estimation de la densite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

10

4.2

Regression non-parametrique . . . . . . . . . . . . . . . . . . . . . . . . . . . .

10

Influence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

11

5.1

Effet levier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

12

5.2

Residus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

12

5.3

Diagnostics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

12

Graphe des residus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

13

Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

13

Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

15

Regression lineaire multiple

17

Mod`ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

17

Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

17

2.1

Estimation par M.C. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

18

2.2

Proprietes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

18

2.3

Sommes des carres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

19

2.4

Coefficient de determination . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

19

Inferences dans le cas gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

19

3.1

Inference sur les coefficients . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

19

3.2

Inference sur le mod`ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

20

3.3

Inference sur un mod`ele reduit . . . . . . . . . . . . . . . . . . . . . . . . . . . .

20

3.4

Ellipsode de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

20

3.5

Prevision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

21

Selection de variables, choix de mod`ele . . . . . . . . . . . . . . . . . . . . . . . . . . .

21

4.1

21

Crit`eres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3

`
TABLE DES MATIERES

4
4.2
5

8
3

Algorithmes de selection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

23

Multi-colinearite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

24

5.1

Diagnostics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

24

5.2

Regression ridge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

25

5.3

Regression sur composantes principales . . . . . . . . . . . . . . . . . . . . . . .

25

5.4

Mod`eles curvilineaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

25

Influence, residus, validation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

26

6.1

Effet levier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

26

6.2

Residus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

26

6.3

Mesures dinfluence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

26

6.4

Regression partielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

27

6.5

Graphes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

27

Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

27

7.1

Les donnees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

27

7.2

Resultat du mod`ele complet . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

28

Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

32

Analyses de variance et covariance

35

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

35

Mod`ele a` un facteur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

36

2.1

Mod`eles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

36

2.2

Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

37

2.3

Comparaisons multiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

38

2.4

Homogeneite de la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

38

2.5

Tests non parametriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

39

Mod`ele a` deux facteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

39

3.1

Mod`ele complet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

39

3.2

Interaction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

40

3.3

Mod`eles de regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

41

3.4

Strategie de test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

41

Probl`emes specifiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

43

4.1

Facteur bloc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

43

4.2

Plan sans repetition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

43

4.3

Plans desequilibres, incomplets . . . . . . . . . . . . . . . . . . . . . . . . . . .

43

4.4

Mod`eles a` plus de deux facteurs . . . . . . . . . . . . . . . . . . . . . . . . . . .

44

4.5

Facteurs hierarchises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

44

Analyse de covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

44

5.1

Mod`ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

45

5.2

Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

45

5.3

Cas general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

46

Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

46

6.1

46

Les donnees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

`
TABLE DES MATIERES

7
4

6.2

Analyse de variance a` un facteur . . . . . . . . . . . . . . . . . . . . . . . . . . .

46

6.3

Mod`ele a` deux facteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

48

6.4

Analyse de covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

49

Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

50

Mod`eles de denombrement

55

Odds et odds ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

55

Regression logistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

56

2.1

Type de donnees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

56

2.2
3

6
5

Mod`ele binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

57

Mod`ele log-lineaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

57

3.1

Types de donnees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

57

3.2

Distributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

58

3.3

Mod`eles a` 2 variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

59

3.4

Mod`ele a` trois variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

60

Choix de mod`ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

61

4.1

Recherche pas a` pas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

61

4.2

Validation croisee . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

61

Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

62

5.1

Mod`ele binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

62

5.2

Mod`ele poissonien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

64

Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

65

Introduction au mod`ele lineaire generalise

71

Composantes des mod`eles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

71

1.1

Distribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

71

1.2

Predicteur lineaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

72

1.3

Lien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

72

1.4

Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

72

Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

73

2.1

73

2.2

Expression des moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Equations
de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.3

74

Fonction lien canonique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

74

Qualite dajustement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

75

3.1

Deviance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

75

3.2

Test de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

75

Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

75

4.1

Rapport de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

76

4.2

Test de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

76

Diagnostics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

76

5.1

Effet levier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

76

5.2

Residus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

76

5.3

Mesure dinfluence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

77

`
TABLE DES MATIERES

6
6

Complements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

78

6.1

Sur-dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

78

6.2

Variable offset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

78

Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

78

Introduction
La Statistique a plusieurs objets : descriptif ou exploratoire, decisionnel (tests), modelisation selon que
lon cherche a` representer des structures des donnees, confirmer ou expliciter un mod`ele theorique ou encore
prevoir. Ce cours sinteresse au th`eme de la modelisation et plus particuli`erement aux methodes lineaires
et a` celles qui se ram`enent au cas lineaire. Il se limite donc a` lexpose des methodes dites parametriques
dans lesquelles interviennent des combinaisons lineaires des variables dites explicatives. Celles-ci visent
donc a` lestimation dun nombre generalement restreint de param`etres intervenant dans cette combinaison mais sans aborder les techniques specifiques a` letude des series chronologiques. Les methodes nonparametriques e lementaires (loess, noyaux, splines) seront introduites dans le cas unidimensionnel.
Le cadre general de ce cours consid`ere donc les observations dune variable aleatoire Y dite reponse,
exog`ene, dependante qui doit e tre expliquee (modelisee) par les mesures effectuees sur p variables dites
explicatives, de controle, endog`enes, dependantes, regresseurs. Ces variables peuvent e tre quantitatives ou
qualitatives, ce crit`ere determinant le type de methode ou de mod`ele a` mettre en uvre : regression lineaire,
analyse de variance et covariance, regression logistique, mod`ele log-lineaire.
Compte tenu du temps limite et de la variete des outils mis en jeu nous avons fait le choix dinsister sur la pratique des methodes considerees ainsi que sur la comprehension des sorties proposees par
un logiciel (SAS/STAT) et de leurs limites plutot que sur les fondements theoriques. Ce cours sinspire
largement dune presentation anglo-saxonne de la Statistique, du particulier vers le general, dont des
complements sont a` rechercher dans la bibliographie citee en reference. On montre donc comment utiliser
les proprietes des mod`eles statistiques pour le traitement des donnees tandis que certains des aspects plus
mathematiques (demonstrations) sont lobjet dexercices. Neanmoins, le dernier chapitre introduit au cadre
theorique general incluant toutes les methodes considerees : le mod`ele lineaire generalise.
En theorie, on peut distinguer deux approches : avec ou sans hypoth`ese probabiliste sur la distribution des observations ou des erreurs qui est, le plus souvent, lhypoth`ese de normalite. En pratique, cette
hypoth`ese nest gu`ere prouvable, les tests effectues sur les residus estimes sont peu puissants. Cette hypoth`ese est neanmoins implicitement utilisee par les logiciels qui produisent systematiquement les resultats
de tests. Plus rigoureusement, ces resultats sont justifies par les proprietes des distributions asymptotiques
des estimateurs, proprietes qui ne sont pas developpees dans ce cours. En consequence, du moment que les
e chantillons sont de taille raisonnable, hypoth`ese on non de normalite, les distributions des estimateurs et
donc les statistiques de test sont considerees comme valides.
En revanche, dautres aspects des hypoth`eses, inherentes aux methodes developpees et qui, en pratique,
conditionnent fortement la qualite des estimations, doivent e tre e values avec soin : linearite, colinearite,
homoscedasticite, points influents ou atypiques (outliers). Les differents diagnostics ainsi que le probl`eme
du choix des variables explicatives, cest-`a-dire du choix de mod`ele, sont plus particuli`erement decrits.
Dans la mesure du possible, nous avons respecte une certaine uniformisation des notations. Des caract`eres majuscules X, Y designent des variables aleatoires, des caract`eres gras minuscules designent des
vecteurs : yi est la i`eme observation de Y rangee dans le vecteur y, un chapeau designe un predicteur : yi ,
les caract`eres gras majuscules sont des matrices, un caract`ere grec () est un param`etre (qui est une variable
aleatoire) dont lestimation est designee par la lettre latine correspondante (b).
Enfin, ce support de cours est et restera longtemps en chantier, les mises a` jour successives ainsi que des
sujets de travaux pratiques sont disponibles a` partir de lURL :
www-sv.cict.fr/lsp/Besse.
7

`
TABLE DES MATIERES

Chapitre 1

Regression lineaire simple


Ce chapitre e lementaire permet dintroduire simplement certains concepts clefs : mod`ele, estimations,
tests, diagnostics, qui seront ensuite declines dans des cadres plus generaux. Il vient en complement dun
cours traditionnel de Statistique de niveau bac+3 sur lestimation et les tests.

Mod`ele

On note Y la variable aleatoire reelle a` expliquer et X la variable explicative (deterministe) ou effet fixe
ou facteur controle. Le mod`ele revient a` supposer, quen moyenne, E(Y ), est une fonction affine de X.
E(Y ) = f (X) = 0 + 1 X.
Remarque : Nous supposerons pour simplifier que X est deterministe. Dans le cas contraire, X aleatoire,
le mod`ele secrit alors conditionnellement aux observations de X : E(Y |X = x) = 0 + 1 x et conduit
aux memes estimations.
Pour une sequence dobservations aleatoires identiquement distribuees {(yi , xi )i = 1, . . . , n} (n > 2,
et les xi non tous e gaux), le mod`ele secrit avec les observations :
yi = 0 + 1 xi + ui

i = 1, . . . , n

ou sous la forme matricielle :


y1
1 x1  
u1
0
..
..

.
..
+ ... ,
. = .
1
yn
1 xn
un
y = X + u
o`u le vecteur u contient les erreurs.
Les hypoth`eses relatives a` ce mod`ele sont les suivantes :
i. la distribution de lerreur u est independante de X ou X est fixe,
ii. lerreur est centree et de variance constante (homoscedasticite) :
i = 1, . . . , n E(ui ) = 0,

Var(ui ) = u2 .

iii. 0 et 1 sont constants, pas de rupture du mod`ele.


iv. Hypoth`ese complementaire pour les inferences : u N (0, u2 Ip ).
9

10

Chapitre 1. Regression lineaire simple

Estimation

Lestimation des param`etres 0 , 1 , 2 est obtenue en maximisant la vraisemblance, sous lhypoth`ese


que les erreurs sont gaussiennes, ou encore par minimisation de la somme des carres des e carts entre observations et mod`ele (moindres carres). Pour un jeu de donnees {(xi , yi )i = 1 . . . , n}, le crit`ere des moindres
carres secrit :
n
X
min
(yi 0 1 xi )2 .
0 ,1

i=1

On pose :
n

x
=

1X
xi ,
n i=1

y =

s2x =

1 X
(xi x
)2 ,
n 1 i=1

s2y =

sxy =

1X
yi ,
n i=1

1 X
(xi x
)(yi y),
n 1 i=1

r=

1 X
(yi y)2 ,
n 1 i=1
sxy
;
sx sy

Les moindres carres sont obtenus par :


sxy
,
s2x
= y b1 x
.

b1

b0

On montre que ce sont des estimateurs sans biais et de variance minimum parmi les estimateurs fonctions
` chaque valeur de X correspond la
lineaires des yi (resp. parmi tous les estimateurs dans le cas gaussien). A
valeur estimee (ou predite, ajustee) de Y :
ybi = b0 + b1 xi ,
les residus calcules ou estimes sont :
ei = yi ybi .
La variance u2 est estimee par la variation residuelle :
n

s2 =

2.1

1 X 2
e .
n 2 i=1 i

Inference
Les estimateurs b0 et b1 sont des variables aleatoires reelles de matrice de covariance :
"
#
1
x
2
x

(n1)s
2
2 n + (n1)s2x
x
u
x

1
(n1)s
2
(n1)s2
x

qui est estimee en remplacant u2 par son estimation s2 . Sous lhypoth`ese que les residus sont gaussiens, on
montre que
(n 2)s2
2(n2)
u2
et donc que les statistiques
, 
(b0 0 )

1
x
2
+
n (n 1)s2x

1/2
et

, 
(b1 1 ) s

1
(n 1)s2x

1/2

3. Qualite dajustement, prediction

11

suivent des lois de Student a` (n 2) degres de liberte. Ceci permet de tester lhypoth`ese de nullite dun de
ces param`etres ainsi que de construire les intervalles de confiance :
1/2
x
2
1
+
,
n (n 1)s2x

1/2
1
t/2;(n2) s
.
(n 1)s2x


t/2;(n2) s

b0
b1

Attention : une inference conjointe sur 0 et 1 ne peut e tre obtenue en considerant separement les intervalles de confiance. La region de confiance est en effet une ellipse dequation :
n(b0 0 )2 + 2(b0 0 )(b1 1 )

n
X

xi + (b1 1 )2

i=1

n
X

x2i = 2s2 F;2,(n2)

i=1

qui est inclue dans le rectangle defini par les intervalles. Un grande part des valeurs du couple (0 , 1 ) est
donc exclue de la region de confiance et ce dautant plus que b0 et b1 sont correles.

Qualite dajustement, prediction

Il est dusage de decomposer les sommes de carres des e carts a` la moyenne sous la forme ci-dessous ;
les notations sont celles de la plupart des logiciels :
= (n 1)s2y ,

Total sum of squares

SST

Regression sum of squares


Error sum of squares

SSR = (n 1) sxy
2 ,
x
SSE = (n 2)s2 ,

s2

et on verifie : SST = SSR + SSE.


On appelle coefficient de determination la quantite
R2 = r 2 =

s2xy
n 2 s2
SSR
=
1

=
2
2
2
sx sy
n 1 sy
SST

qui exprime le rapport entre la variance expliquee par le mod`ele et la variance totale.
Sous lhypoth`ese : 1 = 0, la statistique
(n 2)

R2
SSR
= (n 2)
2
1R
SSE

suit une distribution de Fisher F1,(n2) . Cette statistique est le carre de la statistique de Student correspondant a` la meme hypoth`ese.
Connaissant une valeur x0 , on definit deux intervalles de confiance de prediction a` partir de la valeur
predite yb0 = b0 + b1 x0 . Le premier encadre E(Y ) sachant X = x0 ; le deuxi`eme, qui encadre yb0 est plus
grand car il tient compte de la variance totale : u2 + Var(yb0 ) :


1
(x0 x
)2
+
n (n 1)s2x

1/2

yb0

t/2;(n2) s

yb0

1
(x0 x
)2
t/2;(n2) s 1 + +
n (n 1)s2x


,
1/2
.

Les logiciels proposent e galement une bande de confiance entre deux arcs dhyperboles pour la droite
` chaque point (b0 , b1 ) de lellipse de confiance de (0 , 1 ) correspond une droite dequation
de regression. A
yb = b0 + b1 x. Toutes ces droites sont comprises entre les bornes :

1/2
q
1
(x x
)2
yb s F1,(n2)
+
.
n (n 1)s2x

12

Chapitre 1. Regression lineaire simple

Ceci signifie que cette bande recouvre la vraie ligne avec une probabilite 1 . Elle est plus grande que
celle associee aux intervalles de confiance des E(Y ).
Attention : la prediction par intervalle nest justifiee que pour des observations appartenant a` la population e chantillonnee et a` condition que les hypoth`eses : linearite, erreurs i.i.d., (normalite), soient valides.

Eviter
les extrapolations.

Nuage de points, transformations

Toute tentative de modelisation necessite une e tude descriptive prealable afin de sassurer, au moins
graphiquement, de la validite des hypoth`eses considerees. Ceci passe
i. par une e tude uni-variee de chaque distribution pour detecter des dissymetries ou encore des valeurs
atypiques (outliers) : botes a` moustaches, histogrammes, estimation non-parametrique de la densite,
ii. puis par une representation du nuage de points dans le rep`ere (X, Y ) et une regression non-parametrique
afin de deceler une e ventuelle liaison non-lineaire entre les variables. Attention, meme si elle est forte,
une liaison non-lineaire, par exemple de type quadratique entre X et Y , peut conduire neanmoins a
un coefficient de correlation lineaire tr`es faible.
Dans les deux cas, en cas de probl`emes, le rem`ede consiste souvent a` rechercher des transformations
des variables permettant de rendre les distributions symetriques, de banaliser les points atypiques et de
rendre lineaire la relation. La qualite de lestimation dune distribution par un histogramme depend beaucoup du decoupage en classe. Malheureusement, plutot que de fournir des classes deffectifs e gaux et donc
de mieux repartir limprecision, les logiciels utilisent des classes damplitudes e gales et tracent donc des
histogrammes parfois peu representatifs. Ces 20 derni`eres annees, a` la suite du developpement des moyens
de calcul, sont apparues des methodes destimation dites fonctionnelles ou non-parametriques qui proposent
destimer la distribution dune variable ou la relation entre deux variables par une fonction construite point
par point (noyaux) ou dans une base de fonctions splines. Ces estimations sont simples a` calculer (pour
lordinateur) mais necessitent le choix dun param`etre dit de lissage. Les demonstrations du caract`ere optimal de ces estimations fonctionnelles, liee a` loptimalite du choix de la valeur du param`etre de lissage,
font appel a` des outils theoriques plus sophistiquees sortant du cadre de ce cours (Eubank 1988, Silverman
1986).
Nous resumons ci-dessous les techniques non-parametriques, simples et efficaces dans ce genre de
situation, trop rarement enseignees dans un cours de statistique descriptive, mais dej`a presentes dans certains
logiciels (SAS/INSIGHT).

4.1

Estimation de la densite
Lestimation de la densite par la methode du noyau se met sous la forme generale :


n
1 X
x xi
gb (x) =
K
n i=1

o`u est le param`etre de lissage optimisee par une procedure automatique qui minimise une approximation
de lerreur quadratique moyenne integree (MISE : norme dans lespace L2 ) ; K est une fonction symetrique,
positive, concave, appelee noyau dont la forme precise importe peu. Cest souvent la fonction densite de la
loi gaussienne :
1
K(t) = exp(t2 /2)
2
qui poss`ede de bonnes proprietes de regularite. Le principe consiste simplement a` associer a` chaque observation un element de densite de la forme du noyau K et a` sommer tous ces e lements. Un histogramme
est une version particuli`ere destimation dans laquelle lelement de densite est un petit rectangle dans
la classe de lobservation.

4.2

Regression non-parametrique
On consid`ere un mod`ele de regression de la forme
yi = f (xi ) + i

5. Influence

13

o`u les erreurs sont centrees et la fonction f est supposee reguli`ere : existence de derivees jusqu`a un certain
ordre. Dans ce contexte, de nombreux estimateurs de f ont e te proposes. Ils conduisent souvent a` des
resultats assez voisins, le point le plus sensible e tant le choix de .
Spline
Le lissage spline e lementaire consiste a` rechercher, dans lespace des fonctions continument differentiables
et avec une derivee seconde de carre integrable, le minimum dun crit`ere combinant ajustement des observations et regularite de la solution :
Z +
n
1X
fc
(yi f (xi ))2 +
(f 00 (x))2 dx.
= arg min
f n

i=1
On montre que lon obtient une fonction polynomiale (de degre 3) par morceaux. La valeur optimale du
param`etre de lissage est fixee par validation croisee generalisee (GCV).
Noyau
La regression non-parametrique par la methode du noyau consiste a` calculer une moyenne ponderee
autour de chaque observation. La ponderation est fixee par une fonction K du meme type que celle utilisee
pour lestimation de la densite.

n
xxi
X
K
xi


.
fc
(x) =
Pn
xxj
K
i=1
j=1

Loess
Lestimateur precedent est susceptible de biais meme dans le cas simple de points alignes. Une adaptation propose de calculer, plutot quune moyenne locale ponderee, une regression lineaire ou meme quadratique locale. On parle alors de lisseur polynomial local.
transformations
Dans le cas o`u des probl`emes (distribution, non-linearite) ont e te identifies, letape suivante consiste
a` rechercher des transformations e lementaires (logarithme, puissance) des variables susceptibles de les
resoudre. Ceci am`ene a` e tudier les mod`eles des exemples suivants :
Y
ln Y
ln Y
Y
Y
Y
Y

=
=
=
=
=
=
=
...

0 + 1 ln X
0 + 1 X ou Y = abX avec 0 = ln a et 1 = ln b
0 + 1 ln X ou Y = aX 1 avec 0 = ln a
0 + 1 (1/X)
0 + 1 X 1/2
0 + 1 X 2 ou, plus generalement,
0 + 1 X

Influence

Le crit`ere des moindres carres, comme la vraisemblance appliquee a` une distribution gaussienne douteuse, est tr`es sensible a` des observations atypiques, hors norme (outliers) cest-`a-dire qui presentent des
valeurs trop singuli`eres. Letude descriptive initiale permet sans doute dej`a den reperer mais cest insuffisant. Un diagnostic doit e tre e tabli dans le cadre specifique du mod`ele recherche afin didentifier les observations influentes cest-`a-dire celles dont une faible variation du couple (xi , yi ) induisent une modification
importante des caracteristiques du mod`ele.
Ces observations reperees, il ny a pas de rem`ede universel : supprimer un valeur aberrante, corriger une
erreur de mesure, construire une estimation robuste (en norme L1 ), ne rien faire. . . , cela depend du contexte
et doit e tre negocie avec le commanditaire de letude.

14

5.1

Chapitre 1. Regression lineaire simple

Effet levier

Une premi`ere indication est donnee par leloignement de xi par rapport a` la moyenne x
. En effet,
e crivons les predicteurs ybi comme combinaisons lineaires des observations (cf. exo 3) :
ybi = b0 + b1 xi =

n
X

hij yj

avec hij =

j=1

1
(xi x
)(xj x
)
+ Pn
;
n
)2
j=1 (xj x

en notant H la matrice (hat matrix) des hij ceci sexprime encore matriciellement :
b = Hy.
y
Les e lements diagonaux hii de cette matrice mesurent ainsi limpact ou limportance du role que joue yi
dans lestimation de ybi .

5.2

Residus
Differents types de residus sont definis afin daffiner leurs proprietes.

Residus : ei = yi ybi
ei
Residusi : e(i)i = yi yd
(i)i = 1hii
o`u yd
evision de yi calculee sans la i`eme observation (xi , yi ). On note
(i)i est la pr

PRESS =

n
X

e2(i)i

(predicted residual sum of squares)

i=1

la somme des carres de ces residus.


Residus standardises : Meme si lhypoth`ese dhomoscedasticite est verifiee, ceux-ci nont pas la meme
variance : E(ei ) = 0 et Var(ei ) = u2 (1 hii ). Il est donc dusage den calculer des versions
standardisees afin de les rendre comparables :
ei
ri =
.
s 1 hii
Residus studentises : La standardisation (interne) depend de ei dans le calcul de s estimation de Var(ei ).
Une estimation non biaisee de cette variance est basee sur


e2i
2
2
s(i) = (n 2)s
/(n 3)
1 hii
qui ne tient pas compte de la i`eme observation. On definit alors les residus studentises par :
ti =

e
i
.
s(i) 1 hii

Sous hypoth`ese de normalite, on montre que ces residus suivent une loi de Student a` (n 3) degres
de liberte.
Il est ainsi possible de construire un test afin tester la presence dune observation atypique ou de plusieurs
en utilisant linegalite de Bonferroni. Plus concr`etement, en pratique, les residus studentises sont compares
aux bornes 2.

5.3

Diagnostics

Les deux crit`eres precedents contribuent a` deceler des observations potenti`element influentes par leur
e loignement a` x
ou la taille des residus. Ces informations sont synthetisees dans des crit`eres e valuant
directement linfluence dune observation sur certains param`etres : les predictions ybi , les param`etres b0 , b1 ,
le determinant de la matrice de covariance des estimateurs. Tous ces indicateurs proposent de comparer un
param`etre estime sans la i`eme observation et ce meme param`etre estime avec toutes les observations.

6. Graphe des residus

15

Le plus couramment utilise est la distance de Cook :

Pn
Di =

(i)j
j=1 (yd
2s2

ybj )2

hii
r2
2(1 hii ) i

pour i = 1, . . . , n

qui mesure donc linfluence dune observation sur lensemble des previsions en prenant en compte effet
levier et importance des residus.
La strategie de detection consiste le plus souvent a` reperer les points atypiques en comparant les distances de Cook avec la valeur 1 puis a` expliquer cette influence en considerant, pour ces observations, leur
residu ainsi que leur effet levier.

Graphe des residus

Le nuage des points (xi , yi ) assorti dun lissage permet de detecter une e ventuelle relation non-lineaire
entre les variables. Dautres hypoth`eses doivent e tre validees :
lhomoscedasticite par un graphique des residus studentises ou non : (xi , ti ) afin de reperer des formes
suspectes de ce nuage qui devrait se repartir uniformement de part et dautre de laxe des abscisses,
e ventuellement la normalite des residus en e tudiant leur distribution,
lautocorrelation des residus dans le cas, par exemple, o`u la variable explicative est le temps.
Une transformation des variables ou une modelisation specifique a` une serie chronologique (SARIMA)
permet, dans les situations favorables, de resoudre les difficultes e voquees.

7 Exemple
Pour 47 immeubles dappartements locatifs dune grande ville americaine, les donnees (Jobson, 1991)
fournissent le revenu net en fonction du nombre dappartements. Les tableaux ci-dessous sont des
extraits des resultats fournis par la procedure reg du module SAS/STAT. Cette procedure gen`ere beaucoup
dautres resultats comme les matrices X0 X (crossproducts), X0 DX (model crossproducts) et son inverse,
matrices des variances et correlations des estimateurs.

proc reg data=sasuser.suitinco all;


model revenu=nbappart /dw Influence cli clm;
output out=hubout h=lev p=pred r=res student=resstu ;
run;
Descriptive Statistics
Variables
Sum
Mean
INTERCEP
47
1
NBAPPART
1942
41.319148936
REVENU
4336086
92257.148936
Correlation : 0.8856

Uncorrected SS
47
157970
947699637616

Variance
0
1689.7437558
11905754472

Std Deviation
0
41.106492866
109113.49354

Analysis of Variance
Source
Model
Error
C Total
Root MSE
Dep Mean
C.V.

Sum of
Mean
DF
Squares
Square
(1)
1 429511948724 (2) 429511948724 (5)
45 118152756990 (3) 2625616822 (6)
46 547664705714 (4)
51240.77304 (9)
92257.14894 (10)
55.54125 (11)

R-square
Adj R-sq

F Value
163.585 (7)

0.7843
0.7795

(12)

Prob>F
0.0001 (8)

16

Chapitre 1. Regression lineaire simple


degres de liberte de la loi de Fisher du test global (H0 : 1 = 0)
SSR
SSE ou deviance
SST=SSE+SSR
SSR/DF
s2 =MSE=SSE/DF est lestimation de u2
Statistique F du test de Fisher du mod`ele global
P (fp;np1 > F ) ; H0 est rejetee au niveau si P <
s =racine de MSE
moyenne empirique de la variable a` expliquee
Coefficient de variation 100 (9)/(10) sans e chelle ni dimension
Coefficient de determination R2 ou carre du coefficient de correlation.

(1)
(2)
(3)
(4)
(5)
(6)
(7)
(8)
(9)
(10)
(11)
(12)

Parameter Estimates
Parameter
Variable DF
Estimate
(1)
INTERCEP
1 -4872.015285
NBAPPART
1
2350.705828

(1)
(2)
(3)
(4)

Standard
Error
(2)
10655.276212
183.79188506

T for H0:
Parameter=0
(3)
-0.457
12.790

Prob > |T|


(4)
0.6497
0.0001

estimations des param`etres (bj )


e carts-types de ces estimations (sbj )
statistique T du test de Student de H0 : bj = 0 ((bj 0)/sbj )
P (tnp1 > T ) ; H0 est rejetee au niveau si P <

Connaissant les fractiles de la loi de Student : t0,975;45 = 2, 015, on construit facilement des intervalles
de confiance des estimateurs, ici au niveau 5% : [bj t0,975;n2 sbj ; bj + t0,975;n2 sbj ].

Dep Var
Obs REVENU
(1)
1 119202
...
23 345608
24 350633
25 226375
26 247203
27 28519.
28 154278
29 157332
30 171305
...
Obs

Predict Std Err Lower95 Upper95 Lower95 Upper95


Std Err Student
Value
Predict
Mean
Mean
Predict Predict Resid. Resid. Resid.
(2)
(3)
(4)
(5)
(6)
(7)
(8)
(9)
(10)
131469 8078.5 115198 147740 26989.9 235948 -12266.9 50599.9 -0.242
239601
324227
98559.
178483
157327
347734
140872
197289

13732.
19616.
7490.4
10065.
9041.4
21327.
8385.2
11104.

211943
284717
83472.
158210
139116
304779
123983
174924

267260
363736
113646
198756
175537
390689
157760
219653

132755
213718
-5742.0
73306.5
52528.2
235947
36294.8
91689.0

346448
106007
434735 26406.2
202860
127816
283660 68720.0
262125 -128808
459521 -193456
245449 16460.3
302888 -25983.7

49366.3
47337.2
50690.3
50242.4
50436.7
46591.4
50550.0
50023.1

Cooks
Hat Diag Cov
INTERCEP NBAPPART
-2-1-0 1 2
D Rstudent
H Ratio
Dffits Dfbetas Dfbetas
(11)
(12)
(13)
(14)
(15)
(15)
(15)
(15)
|
| 0.001 -0.2399 0.0249 1.0698 -0.0383 -0.0145 -0.0145

1 |
...
23 |
|****
24 |
|*
25 |
|*****
26 |
|**
27 | *****|
28 |******|
29 |
|
30 |
*|
...

|
|
|
|
|
|
|
|

0.178 2.2413
0.027 0.5535
0.069 2.6906
0.038 1.3815
0.105 -2.7310
1.806 -5.2275
0.001 0.3224
0.007 -0.5152

0.0718
0.1466
0.0214
0.0386
0.0311
0.1732
0.0268
0.0470

0.9078 0.6235 -0.1347 0.5230


1.2087 0.2294 -0.0898 0.2121
0.7881 0.3976 0.2597 0.0262
0.9994 0.2768 0.0120 0.1854
0.7893 -0.4896 -0.0876 -0.2755
0.4814 -2.3929 1.0090 -2.2411
1.0697 0.0535 0.0162 0.0242
1.0844 -0.1144 0.0063 -0.0846

2.147
0.558
2.522
1.368
-2.55
-4.15
0.326
-0.52

8. Exercices

17

F IG . 1.1 Graphe des residus et nuage de points de la regression du revenu en fonction du nombre dappartements.

(1)
(2)
(3)
(4)et (5)
(6) et (7)
(8)
(9)
(10)
(11)
(12)
(13)
(14)
(15)

variable a` expliquer yi
valeur ajustee ybi
e cart-type de cette estimationsybi
Intervalle de confiance pour lestimation de E(yi )
Intervalle de confiance pour lestimation de yi
residus calcules ei = yi ybi
e carts-types de ces estimations
residus standardises (ou studentises internes) ri
reperage graphique des residus standardises : = 0.5.
Distance de Cook
residus studentises (externes) ti
Termes diagonaux de la matrice chapeau H
autres indicateurs dinfluence

Les observations 28 et 16 seraient a` inspecter avec attention. Certaines, dont la 28, presentent une valeur
observee hors de lintervalle de prediction.
Le graphique des residus sont presentes dans la figure 1.1. Il montre clairement que lhypoth`ese dhomoscedasticite nest pas satisfaite. Une autre modelisation faisant intervenir une transformation des variables serait necessaire. Ainsi la modelisation du logarithme du revenu en fonction du logarithme du
nombre dappartements representee par la figure 1.2 est nettement plus satisfaisante. Une e tude descriptive prealable des distributions aurait permis de conduire a` ce choix.

Exercices

Exo 1
Optimiser les moindres carres de la section 2 pour retrouver les estimations des param`etres du mod`ele
de regression simple.

Exo 2
Avec les notations precedentes relatives a` la regression lineaire simple de Y sur X a` partir des observations (xi , yi ), montrer que
i. le coefficient de correlation r2 =SSR/SST,
ii. SST = SSE + SSR,

18

Chapitre 1. Regression lineaire simple

F IG . 1.2 Graphe des residus et nuage de points de la regression (lineaire et non parametrique) du logarithme du revenu en fonction du logarithme du nombre dappartements.
iii. s2 =

n1 2
n2 sy (1

r2 ).

Exo 3
on consid`ere la regression lineaire simple de Y sur X a` partir des observations (xi , yi ).
i. Montrer que ybi se met sous la forme
ybi =

n
X

hij yj

j=1

avec hij =

1
(xi x
)(xj x
)
+ Pn
.
2
n
(x

)
i=1 i

ii. Posons X = [1x] la matrice (n 2) contenant une colonne de 1 et le vecteur colonne des xi . Calculer
X0 X, (X0 X)1 et la matrice H de projection orthogonale dans IRn sur le sous-espace engendre par
les colonnes de X.
b est obtenu par projection
iii. Calculer le terme general de cette matrice H, en deduire que le vecteur y
par H de y.
iv. Calculer la covariance des ybi .

Exo 4
Dans le cadre de la regression simple, on consid`ere les quantites x
, y, s2x , s2y , sxy ainsi que celles x
(i) , y(i) , s2x(i) , s2y(i) , sxy(i) ,
calculees sans la i`eme observation.
i. Montrer que
s2x

sxy

n2 2
1
s
+ (
x(i) xi )2
n 1 x(i) n
n2
1
sxy(i) + (
x(i) xi )(
y(i) yi ).
n1
n

ii. En deduire les expressions de sxy(i) et s2x(i) en fonction de x


, y, s2x , s2y , sxy .

Chapitre 2

Regression lineaire multiple


Le mod`ele de regression lineaire multiple est loutil statistique le plus habituellement mis en uvre pour
letude de donnees multidimensionnelles. Cas particulier de mod`ele lineaire, il constitue la generalisation
naturelle de la regression simple.

Mod`ele

Une variable quantitative Y dite a` expliquer (ou encore, reponse, exog`ene, dependante) est mise en
relation avec p variables quantitatives X 1 , . . . , X p dites explicatives (ou encore de controle, endog`enes,
independantes, regresseurs).
Les donnees sont supposees provenir de lobservation dun e chantillon statistique de taille n (n > p+1)
de IR(p+1) :
(x1i , . . . , xji , . . . , xpi , yi ) i = 1, . . . , n.
Lecriture du mod`ele lineaire dans cette situation conduit a` supposer que lesperance de Y appartient
au sous-espace de IRn engendre par {1, X 1 , . . . , X p } o`u 1 designe le vecteur de IRn constitue de 1 .
Cest-`a-dire que les (p + 1) variables aleatoires verifient :
yi = 0 + 1 x1i + 2 x2i + + p xpi + ui i = 1, 2, . . . , n
avec les hypoth`eses suivantes :
i. Les ui sont des termes derreur, dune variable U , non observes, independants et identiquement distribues ; E(ui ) = 0, V ar(U ) = u2 I.
ii. Les termes xj sont supposes deterministes (facteurs controles) ou bien lerreur U est independante
de la distribution conjointe de X 1 , . . . , X p . On e crit dans ce dernier cas que :
E(Y |X 1 , . . . , X p ) = 0 + 1 X 1 + 2 X 2 + + p X p et V ar(Y |X 1 , . . . , X p ) = u2 .
iii. Les param`etres inconnus 0 , . . . , p sont supposes constants.
iv. En option, pour letude specifique des lois des estimateurs, une quatri`eme hypoth`ese consid`ere la
normalite de la variable derreur U (N (0, u2 I)). Les ui sont alors i.i.d. de loi N (0, u2 ).
Les donnees sont rangees dans une matrice X(n (p + 1)) de terme general xji , dont la premi`ere
colonne contient le vecteur 1 (xi0 = 1), et dans un vecteur Y de terme general yi . En notant les vecteurs
u = [u1 up ]0 et = [0 1 p ]0 , le mod`ele secrit matriciellement :
y = X + u.

Estimation

Conditionnellement a` la connaissance des valeurs des X j , les param`etres inconnus du mod`ele : le vecteur et u2 (param`etre de nuisance), sont estimes par minimisation du crit`ere des moindres carres (M.C.)
19

20

Chapitre 2. Regression lineaire multiple

ou encore, en supposant (iv), par maximisation de la vraisemblance (M.V.). Les estimateurs ont alors les
memes expressions, lhypoth`ese de normalite et lutilisation de la vraisemblance conferant a` ces derniers
des proprietes complementaires.

2.1

Estimation par M.C.


Lexpression a` minimiser sur IRp+1 secrit :
n
X

(yi 0 1 x1i 2 x2i p xpi )2

= ky Xk

i=1

= (y X)0 (y X)
= y0 y 2 0 X0 y + 0 X0 X.
Par derivation matricielle de la derni`ere e quation on obtient les equations normales :
X0 y X0 X = 0
dont la solution correspond bien a` un minimum car la matrice hessienne 2X0 X est semi definie-positive.
Nous faisons lhypoth`ese supplementaire que la matrice X0 X est inversible, cest-`a-dire que la matrice
X est de rang (p + 1) et donc quil nexiste pas de colinearite entre ses colonnes. En pratique, si cette
hypoth`ese nest pas verifiee, il suffit de supprimer des colonnes de X et donc des variables du mod`ele. Des
diagnostics de colinearite et des aides au choix des variables seront explicites plus loin.
Alors, lestimation des param`etres j est donnee par :
b = (X0 X)1 X0 y
et les valeurs ajustees (ou estimees, predites) de y ont pour expression :
1

b = Xb = X(X0 X)
y

X0 y = Hy

1
o`u H = X(X0 X) X0 est appelee hat matrix ; elle met un chapeau a` y. Geometriquement, cest la
matrice de projection orthogonale dans IRn sur le sous-espace Vect(X) engendre par les vecteurs colonnes
de X.

On note
b = y Xb = (I H)y
e=yy
le vecteur des residus ; cest la projection de y sur le sous-espace orthogonal de Vect(X) dans IRn .

2.2

Proprietes

Les estimateurs des M.C. b0 , b1 , . . . , bp sont des estimateurs sans biais : E(b) = , et, parmi les estimateurs sans biais fonctions lineaires des yi , ils sont de variance minimum (propriete de Gauss-Markov) ; ils
sont donc BLUE : best linear unbiaised estimators. Sous hypoth`ese de normalite, les estimateurs du M.V.,
qui concident avec ceux des moindres carres, sont uniformement meilleurs ; ils sont efficaces cest-`a-dire
que leur matrice de covariance atteint la borne inferieure de Cramer-Rao.
On montre que la matrice de covariance des estimateurs se met sous la forme
E[(b )(b )0 ] = u2 (X0 X)1 ,
celle des predicteurs est
E[(b
y X)(b
y X)0 ] = u2 H
et celle des estimateurs des residus est
E[(e u)((e u))0 ] = u2 (I H)
tandis quun estimateur sans biais de u2 est fourni par :
2

s2 =

kek
ky Xk
SSE
=
=
.
np1
np1
np1

Ainsi, les termes s2 hii sont des estimations des variances des predicteurs ybi .

3. Inferences dans le cas gaussien

2.3

21

Sommes des carres


SSE est la somme des carres des residus (sum of squared errors),
2

b k = kek .
SSE = ky y
On definit e galement la somme totale des carres (total sum of squares) par
2

SST = ky y1k = y0 y ny 2
et la somme des carres de la regression (regression sum of squares) par
2

b0 y
b ny 2 = y0 Hy ny 2 = b0 X0 y ny 2 .
SSR = kb
y y1k = y
On verifie alors : SST = SSR + SSE.

2.4

Coefficient de determination
On appelle coefficient de determination le rapport
R2 =

SSR
SST

qui est donc la part de variation de Y expliquee par le mod`ele de regression. Geometriquement, cest un
rapport de carres de longueur de deux vecteurs. Cest donc le cosinus carre de langle entre ces vecteurs : y
b sur Vect(X).
et sa projection y
Attention, dans le cas extreme o`u n = (p + 1), cest-`a-dire si le nombre de variables explicatives est
grand comparativement au nombre dobservations, R2 = 1. Ou encore, il est geometriquement facile de
voir que lajout de variables explicatives ne peut que faire crotre le coefficient de determination.
La quantite R est appelee coefficient de correlation multiple entre Y et les variables explicatives, cest
b.
le coefficient de correlation usuel entre y et sa prediction (ou projection) y

Inferences dans le cas gaussien

En principe, lhypoth`ese optionnelle (iv) de normalite des erreurs est necessaire pour cette section. En
pratique, des resultats asymptotiques, donc valides pour de grands e chantillons, ainsi que des e tudes de
simulation, montrent que cette hypoth`ese nest pas celle dont la violation est la plus penalisante pour la
fiabilite des mod`eles.

3.1

Inference sur les coefficients


Pour chaque coefficient j on montre que la statistique
bj j
bj

o`u b2j , variance de bj est le ji`eme terme diagonal de la matrice s2 (X0 X)1 , suit une loi de Student a`
(n p 1) degres de liberte. Cette statistique est donc utilisee pour tester une hypoth`ese H0 : j = a ou
pour construire un intervalle de confiance de niveau 100(1 )% :
bj t/2;(np1) bj .
Attention, cette statistique concerne un coefficient et ne permet pas dinferer conjointement (cf. 3.4)
sur dautres coefficients car ils sont correles entre eux ; de plus elle depend des absences ou presences des
autres variables X k dans le mod`ele. Par exemple, dans le cas particulier de deux variables X 1 et X 2 tr`es
correlees, chaque variable, en labsence de lautre, peut apparatre avec un coefficient significativement
different de 0 ; mais, si les deux sont presentes dans le mod`ele, elles peuvent chacune apparatre avec des
coefficients insignifiants.

22

Chapitre 2. Regression lineaire multiple

De facon plus generale, si c designe un vecteur non nul de (p + 1) constantes reelles, il est possible
de tester la valeur dune combinaison lineaire c0 b des param`etres en considerant lhypoth`ese nulle H0 :
c0 b = a ; a connu. Sous H0 , la statistique
c0 b a
(s2 c0 (X0 X)1 c)1/2
suit une loi de Student a` (n p 1) degres de liberte.

3.2

Inference sur le mod`ele

Le mod`ele peut e tre teste globalement. Sous lhypoth`ese nulle H0 : 1 = 2 = . . . = p = 0, la


statistique
SSR/p
MSR
=
SSE/(n p 1)
MSE
suit une loi de Fisher avec p et (n p 1) degres de liberte. Les resultats sont habituellement presentes
dans un tableau danalyse de la variance sous la forme suivante :

3.3

Source de
variation

d.d.l.

Regression
Erreur
Total

p
np1
n1

Somme
des
carres

Variance

SSR
SSE
SST

MSR=SSR/p
MSE=SSE/(n p 1)

MSR/MSE

Inference sur un mod`ele reduit

Le test precedent am`ene a` rejeter H0 d`es que lune des variables X j est liee a` Y . Il est donc dun interet
limite. Il est souvent plus utile de tester un mod`ele reduit cest-`a-dire dans lequel certains coefficients
sont nuls (`a lexception du terme constant) contre le mod`ele complet avec toutes les variables. En ayant
e ventuellement reordonne les variables, on consid`ere lhypoth`ese nulle H0 : 1 = 2 = . . . = q =
0, q < p.
Notons respectivement SSRq , SSEq , Rq2 les sommes de carres et le coefficient de determination du
mod`ele reduit a` (p q) variables. Sous H0 , la statistique
(R2 Rq2 )/q
(SSR SSRq )/q
=
SSE/(n p 1)
(1 R2 )/(n p 1)
suit une loi de Fisher a` q et (n p 1) degres de liberte.
Dans le cas particulier o`u q = 1 (j = 0), la F -statistique est alors le carre de la t-statistique de
linference sur un param`etre et conduit donc au meme test.

3.4

Ellipsode de confiance

Les estimateurs des coefficients j e tant correles, la recherche dune region de confiance de niveau
100(1 )% pour tous les coefficients conduit a` considerer lellipsode decrit par
(b )0 X0 X(b ) (p + 1)s2 F;p+1,(np1) .
Plus generalement, un ellipsode de confiance conjoint a` q combinaisons lineaires T est donne par
1

(Tb T)0 [T(X0 X)

T0 ]1 (Tb T) qs2 F;q,(np1)

o`u T(q (p + 1)) est une matrice de rang q de constantes fixees.


En application, e tant donnes une matrice T et un vecteur a, un test de lhypoth`ese H0 : T = a est
obtenu en considerant la statistique
1

(Tb a)0 [T(X0 X)

T0 ]1 (Tb a)/qs2

qui suit sous H0 une loi de Fisher a` q et (n p 1) degres de liberte.

4. Selection de variables, choix de mod`ele

3.5

23

Prevision

Connaissant les valeurs des variables X j pour une nouvelle observation : x00 = [x10 , x20 , . . . , xp0 ] appartenant au domaine dans lequel lhypoth`ese de linearite reste valide, une prevision, notee yb0 de Y ou E(Y )
est donnee par :
yb0 = b0 + b1 x10 + + bp xp0 .
Les intervalles de confiance des previsions de Y et E(Y ), pour une valeur x0 IRp et en posant v0 =
(1|bmx00 )0 IRp+1 , sont respectivement
yb0

t/2;(np1) s(1 + v00 (X0 X)1 v0 )1/2 ,

yb0

t/2;(np1) s(v00 (X0 X)1 v0 )1/2 .

Enfin, un intervalle de confiance de niveau 100(1)% recouvrant globalement la surface de regression


est donne par
yb0 [(p + 1)F;(p+1),(np1) ]1/2 s(v00 (X0 X)1 v0 )1/2 .
Il peut e tre utilise pour definir un intervalle conjoint a` plusieurs predictions.

Selection de variables, choix de mod`ele

De facon un peu schematique, on peut associer la pratique de la modelisation statistique a` trois objectifs
qui peuvent e ventuellement e tre poursuivis en complementarite.
Descriptif : Il vise a` rechercher de facon exploratoire les liaisons entre Y et dautres variables, potentiellement explicatives, X j qui peuvent e tre nombreuses afin, par exemple den selectionner un sous` cette strategie, a` laquelle peuvent contribuer des Analyses en Composantes Principales,
ensemble. A
correspond des algorithmes de recherche (pas a` pas) moins performants mais e conomiques en temps
de calcul si p est grand.
Attention, si n est petit, et la recherche suffisamment longue avec beaucoup de variables explicatives,
il sera toujours possible de trouver un bon mod`ele expliquant y ; cest leffet data mining dans les
mod`eles e conometriques.
Explicatif : Le deuxi`eme objectif est sous-tendu par une connaissance a priori du domaine concerne et
dont des resultats theoriques peuvent vouloir e tre confirmes, infirmes ou precises par lestimation
des param`etres. Dans ce cas, les resultats inferentiels precedents permettent de construire le bon test
conduisant a` la prise de decision recherchee. Utilisees hors de ce contexte, les statistiques de test
nont plus alors quune valeur indicative au meme titre que dautres crit`eres plus empiriques.
Predictif : Dans le troisi`eme cas, laccent est mis sur la qualite des estimateurs et des predicteurs qui
doivent, par exemple, minimiser une erreur quadratique moyenne. Ceci conduit a` rechercher des
mod`eles parcimonieux cest-`a-dire avec un nombre volontairement restreint de variables explicatives.
Le meilleur mod`ele ainsi obtenu peut donner des estimateurs leg`erement biaises au profit dun
compromis pour une variance plus faible. Un bon mod`ele nest donc plus celui qui explique le mieux
les donnees au sens dune deviance (SSE) minimale (ou dun R2 max) au prix dun nombre important
de variables pouvant introduire des colinearites. Le bon mod`ele est celui qui conduit aux predictions
les plus fiables.

4.1

Crit`eres

De nombreux crit`eres de choix de mod`ele sont presentes dans la litterature sur la regression lineaire multiple. Citons le crit`ere dinformation dAkake (AIC), celui bayesien de Sawa (BIC), lerreur quadratique
moyenne de prediction (cas gaussien). . . . Ils sont e quivalents lorsque le nombre de variables a` selectionner,
ou niveau du mod`ele, est fixe. Le choix du crit`ere est determinant lorsquil sagit de comparer des mod`eles
de niveaux differents. Certains crit`eres se ram`enent, dans le cas gaussien, a` lutilisation dune expression
penalisee de la fonction de vraisemblance afin de favoriser des mod`eles parcimonieux. En pratique, les plus
utilises ou ceux generalement fournis par les logiciels sont les suivants.

24

Chapitre 2. Regression lineaire multiple

Statistique du F de Fisher
Ce crit`ere, justifie dans le cas explicatif est aussi utilise a` titre indicatif pour comparer des sequences de
mod`eles embotes. La statistique partielle de Fisher est
(R2 Rq2 ) n p 1
(SSR SSRq )/q
=
SSE/(n p 1)
(1 R2 )
q
dans laquelle lindice q designe les expressions concernant le mod`ele reduit avec (p q) variables explicatives. On consid`ere alors que si laccroissement (R2 Rq2 ) est suffisamment grand :
R2 Rq2 >

q(1 R2 )
F;q,(np1) ,
(n p 1)

lajout des q variables au mod`ele est justifie.


R2 et R2 ajuste
Le coefficient de determination R2 = 1SSE/SST, directement lie a` la deviance (SSE) est aussi un
indice de qualite mais qui a la propriete detre monotone croissant en fonction du nombre de variables. Il
ne peut donc servir qu`a comparer deux mod`eles de meme niveau cest-`a-dire avec le meme nombre de
variables.
En revanche, le R2 ajuste :
2

R0 = 1

n1
SSE/(n p 1)
(1 R2 ) = 1
.
np1
SST/(n 1)

dans lequel le rapport SSE/SST est remplace par un rapport des estimations sans biais des quantites u2 et
y2 introduit une penalisation liee au nombre de param`etres a` estimer.
Ce coefficient sexprime encore par
1

(n 1)MSE
SST
2

ainsi dans la comparaison de deux mod`eles partageant la meme SST, on observe que R0 > R0 j si et seulement si MSE<MSEj ; MSE et MSEj designant respectivement lerreur quadratique moyenne du mod`ele
complet et celle dun mod`ele a` j variables explicatives. Maximiser le R2 ajuste revient donc a` minimiser
lerreur quadratique moyenne.
Cp de Mallows
Une erreur quadratique moyenne secrit comme la somme dune variance et du carre dun biais. Lerreur
quadratique moyenne de prediction secrit ainsi :
MSE(b
yi ) = Var(b
yi ) + [Biais(b
yi )]2
puis apr`es sommation et reduction :
n
n
n
1 X
1 X
1 X
MSE(b
y
)
=
Var(b
y
)
+
[Biais(b
yi )]2 .
i
i
u2 i=1
u2 i=1
u2 i=1

En supposant que les estimations du mod`ele complet sont sans biais et en utilisant des estimateurs de
V ar(b
yi ) et u2 , lexpression de lerreur quadratique moyenne totale standardisee (ou reduite) pour un
mod`ele a` q variables explicatives secrit :
Cp = (n q 1)

MSEq
[n 2(q + 1)]
MSE

et definit la valeur du Cp de Mallow pour les q variables considerees. Il est alors dusage de rechercher un
mod`ele qui minimise le Cp tout en fournissant une valeur inferieure et proche de (q + 1). Ceci revient a`
considerer que le vrai mod`ele complet est moins fiable quun mod`ele reduit donc biaise mais destimation
plus precise.

4. Selection de variables, choix de mod`ele

25

PRESS de Allen
On designe par yb(i) la prediction de yi calculee sans tenir compte de la i`eme observation (yi , x1i , . . . , xpi ),
la somme des erreurs quadratiques de prediction (PRESS) est definie par
PRESS =

n
X

(yi yb(i) )2

i=1

et permet de comparer les capacites predictives de deux mod`eles.

4.2

Algorithmes de selection

Lorsque p est grand, il nest pas raisonnable de penser explorer les 2p mod`eles possibles afin de
selectionner le meilleur au sens de lun des crit`eres ci-dessus. Differentes strategies sont donc proposees
qui doivent e tre choisies en fonction de lobjectif recherche et des moyens de calcul disponibles ! Trois
types dalgorithmes sont resumes ci-dessous par ordre croissant de temps de calcul necessaire cest-`a-dire
par nombre croissant de mod`eles consideres parmi les 2p et donc par capacite croissante doptimalite. On
donne pour chaque algorithme loption selection a` utiliser dans la procedure REG de SAS.
Pas a` pas
` chaque pas, une variable est ajoutee au mod`ele. Cest celle dont la valeur p (prob
Selection (forward) A
value)associee a` la statistique partielle du test de Fisher qui compare les deux mod`eles est minimum.
La procedure sarrete lorsque toutes les variables sont introduites ou lorsque p reste plus grande
quune valeur seuil fixee par defaut a` 0, 50.
` chaque e tape, la variable

Elimination
(backward) Lalgorithme demarre cette fois du mod`ele complet. A
associee a` la plus grande valeur p est e liminee du mod`ele. La procedure sarrete lorsque les variables
restant dans le mod`ele ont des valeurs p plus petites quun seuil fixe par defaut a` 0, 10.
Mixte (stepwise) Cet algorithme introduit une e tape delimination de variable apr`es chaque e tape de
selection afin de retirer du mod`ele deventuels variables qui seraient devenues moins indispensables
du fait de la presence de celles nouvellement introduites.
Par e change
Maximisation de R2 (maxr) Cet algorithme tente de trouver le meilleur mod`ele pour chaque niveau cest` chaque niveau il commence par selectionner
a` -dire pour chaque nombre de variables explicatives. A
une variable complementaire qui rend laccroissement de R2 maximum. Puis il regarde tous les
e changes possibles entre une variable presente dans le mod`ele et une exterieure et execute celui
qui fournit laccroissement maximum ; ceci est itere tant que le R2 croit.
Minimisation de R2 (minr) Il sagit du meme algorithme que le precedent sauf que la procedure dechange
fait appel au couple de variables associe au plus petit accroissement du R2 . Lobjectif est ainsi dexplorer plus de mod`eles que dans le cas precedent et donc, e ventuellement, de tomber sur un meilleur
optimum.

Remarque Pour tous ces algorithmes de selection ou dechange, il est important de completer les comparaisons des differentes solutions retenues a` laide de crit`eres globaux (Cp ou PRESS).
Global
Lalgorithme de Furnival et Wilson est utilise pour comparer tous les mod`eles possibles en cherchant a`
optimiser lun des crit`eres : R2 , R2 ajuste, ou Cp de Mallow (rsquare, adjrsq, cp) choisi par lutilisateur. Par souci deconomie, cet algorithme e vite de considerer des mod`eles de certaines sous-branches de
larborescence dont on peut savoir a priori quils ne sont pas competitifs. En general les logiciels executant
cet algorithme affichent le (best=1) ou les meilleurs mod`eles de chaque niveau.

26

Chapitre 2. Regression lineaire multiple

Multi-colinearite

Lestimation des param`etres ainsi que celle de leur e cart-type (standard error) necessite le calcul explicite de la matrice (X0 X)1 . Dans le cas dit mal conditionne o`u le determinant de la matrice X0 X nest
que leg`erement different de 0, les resultats conduiront a` des estimateurs de variances importantes et meme,
e ventuellement, a` des probl`emes de precision numerique. Il sagit donc de diagnostiquer ces situations
critiques puis dy remedier. Dans les cas descriptif ou predictif on supprime des variables a` laide des
procedures de choix de mod`ele mais, pour un objectif explicatif necessitant toutes les variables, dautres
solutions doivent e tre envisagees : algorithme de resolution des e quations normales par transformations
orthogonales (procedure orthoreg de SAS) sans calcul explicite de linverse pour limiter les probl`emes
numeriques, regression biaisee (ridge), regression sur composantes principales.

5.1

Diagnostics

e la matrice des donnees observees, cest-`a-dire X privee de la premi`ere colonne 1 et dont


Notons X
Pn
on a retranche a` chaque ligne le vecteur moyen x = 1/n i=1 xi , S la matrice diagonale contenant les
e carts-types empiriques des variables X j et enfin R la matrice des correlations :
R=

1
f0 XS
e 1 .
S1 X
(n 1)

Facteur dinflation de la variance (VIF)


Avec ces notations, la matrice de covariance des estimateurs des coefficients (1 , . . . , p ) secrit :
u2 e 0 e 1
u2
(X X) =
SR1 S.
n1
n1
On montre alors que chaque e lement diagonal sexprime comme
Vj =

1
1 Rj2

o`u Rj2 designe le coefficient de determination de la regression de la variable X j sur les autres variables ;
Rj est alors un coefficient de correlation multiple, cest le cosinus de langle dans IRn entre X j et le sousespace vectoriel engendre par les variables {X 1 , . . . , X j1 , X j+1 , . . . , X p }. Plus X j est lineairement
proche de ces variables et plus Rj est proche de 1 et donc plus la variance de lestimateur de j est e levee ;

Vj est appele facteur dinflation de la variance (VIF). Evidemment,


cette variance est minimum lorsque X j
est orthogonal au sous-espace engendre par les autres variables.
Le simple examen de la matrice R permet de relever des correlations dangereuses de variables deux a`
deux mais est insuffisant pour detecter des correlations plus complexes ou multi-colinearites. Cest donc
linverse de cette matrice quil faut considerer en calculant les Vj ou encore les valeurs (1 Rj2 ) qui sont
appelees tolerances.
Conditionnement
On note 1 , . . . , p les valeurs propres de la matrice R rangees par ordre decroissant. Le determinant
de R est e gal au produit des valeurs propres. Ainsi, des probl`emes numeriques, ou de variances excessives
apparaissent d`es que les derni`eres valeurs propres sont relativement trop petites.
On appelle indice de conditionnement le rapport
= 1 /p
de la plus grande sur la plus petite valeur propre.
En pratique, si < 100 on consid`ere quil ny a pas de probl`eme. Celui-ci devient sev`ere pour >
1000. Cet indice de conditionnement donne un apercu global des probl`emes de colinearite tandis que les
VIF, les tolerances ou encore letude des vecteurs propres associes au plus petites valeurs propres permettent
didentifier les variables les plus problematiques.

5. Multi-colinearite

27

Remarque : Lorsque le mod`ele est calcule avec un terme constant, la colonne 1 joue le role dune variable
et peut considerablement augmenter les probl`emes de multi-colinearite. La matrice R est alors remplacee
par la matrice T = diag(X0 X)1/2 X0 Xdiag(X0 X)1/2 dans les discussions precedentes.

5.2

Regression ridge

Ayant diagnostique un probl`eme mal conditionne mais desirant conserver toutes les variables, il est
possible dameliorer les proprietes numeriques et la variance des estimations en considerant un estimateur
leg`erement biaise des param`etres. Lestimateur ridge introduisant une regularisation est donne par
bR = (X0 X + kI)1 X0 y,
qui a pour effet de decaler de la valeur k toutes les valeurs propres de la matrice a` inverser et, plus particuli`erement, les plus petites qui refl`etent la colinearite. On montre que lerreur quadratique moyenne sur
lestimation des param`etres se met sous la forme :
MSE(bR ) =

u2

p
X
j=1

j
+ k 2 0 (X0 X + kI)1 .
(j + k)2

La difficulte est alors de trouver une valeur de k minimisant la quantite ci-dessus. Des methodes de ree chantillonnage (jackknife, bootstrap) peuvent e tre mises en uvre mais celles-ci sont couteuses en temps
de calcul. Une valeur heuristique de k peut e tre fixee en considerant le graphique des param`etres en fonction
de k. Elle est choisie dans la zone o`u les valeurs absolues des param`etres commencent a` se stabiliser.

5.3

Regression sur composantes principales

LAnalyse en Composantes Principales est, entre autre, la recherche de p variables dites principales qui
sont des combinaisons lineaires des variables initiales de variance maximale sous une contrainte dorthogonalite. En designant par V la matrice des vecteurs propres de la matrice des correlations R ranges dans
lordre decroissant des valeurs propres, les valeurs prises par ces variables principales sont obtenues dans
la matrice des composantes principales
e 1x0 )V.
C = (X
Elles ont chacune pour variance la valeur propre j associee. Le sous-espace engendre par ces variables
principales est le meme que celui engendre par les variables initiales. Il est donc geometriquement e quivalent
e Les probl`emes de colinearite sont alors resolus en
de regresser Y sur les colonnes de C que sur celles de X.
supprimant les variables principales de plus faibles variances cest-`a-dire associees aux plus petites valeurs
propres.
La solution obtenue presente ainsi de meilleures qualites predictives mais, les coefficients de la regression
sappliquant aux composantes principales, un calcul complementaire est necessaire afin devaluer et dinterpreter les effets de chacune des variables initiales.

5.4

Mod`eles curvilineaires

En cas dinvalidation de lhypoth`ese de linearite, il peut e tre interessant de considerer des mod`eles
polynomiaux, tr`es classiques pour decrire des phenom`enes physiques, de la forme
Y = 0 + + j X j + + kl X k X l + + j X j2
qui sont encore appeles surfaces de reponse. Ces mod`eles sont faciles a` e tudier dans le cadre lineaire, il
suffit dajouter des nouvelles variables constituees des produits ou des carres des variables explicatives
initiales. Les choix : presence ou non dune interaction entre deux variables, presence ou non dun terme
quadratique se traitent alors avec les memes outils que ceux des choix de variable mais en integrant une
contrainte lors de la lecture des resultats : ne pas considerer des mod`eles incluant des termes quadratiques
dont les composants lineaires auraient e te exclus ou encore, ne pas supprimer dun mod`ele une variable
dun effet lineaire si elle intervient dans un terme quadratique.

28

Chapitre 2. Regression lineaire multiple

La procedure rsreg de SAS est plus particuli`erement adaptee aux mod`eles quadratiques. Elle ne comporte pas de procedure de choix de mod`ele mais fournit des aides et diagnostics sur lajustement de la
surface ainsi que sur la recherche des points optimaux.
Attention : Ce type de mod`ele accrot considerablement les risques de colinearite, il est peu recommande
de considerer des termes cubiques.

6 Influence, residus, validation


Avant toute tentative de modelisation complexe, il est imperatif davoir conduit des analyses uni et bivariees afin didentifier des probl`emes sur les distributions de chacune des variables : dissymetrie, valeurs
atypiques (outliers) ou sur les liaisons des variables prises deux par deux : non-linearite. Ces preliminaires
acquis, des aides ou diagnostics associes a` la regression lineaire multiple permettent de detecter des violations dhypoth`eses (homoscedasticite, linearite) ou des points influents dans ce contexte multidimensionnel.

6.1

Effet levier

Comme toute methode quadratique, lestimation des param`etres est tr`es sensible a` la presence de points
` partir de lequation de prediction : y
b = Hy
extremes susceptibles de perturber gravement les resultats. A
on remarque quune observation i est influente si le terme correspondant hii de la diagonale de H est grand.
On e crit encore :
H=

110
e X
e 0 X)
e 1 X
e0
+ X(
n

et
p

X
1
e 0 X)
e 1 (xi x) = 1 +
hii = + (xi x)0 (X
n
n j=1

v0 (xi x)
p
j

!2

e 0 X.
e Ainsi, plus une obo`u les j , vj sont respectivement les valeurs et vecteurs propres de la matrice X
servation est e loignee du barycentre, et ce dans la direction dun vecteur propre associe a` une petite valeur
propre, et plus cette observation a un effet levier important.

6.2

Residus
b(i) , e(i) , et
Nous designons comme precedemment par b(i) , y
s2(i) =

e0(i) e(i)
np2

les estimations realisees sans la i`eme observation. Les expressions


e = (I H)y,
r = diag[s2 (1 hii )]1/2 e,
t = diag[s2(i) (1 hii )]1/2 e
definissent respectivement les residus calcules, les residus standardises (chacun divise par lestimation de
lecart-type) et les residus studentises dans lesquels lestimation de u2 ne fait pas intervenir la i`eme observation.
De trop grands residus sont aussi des signaux dalerte. Par exemple, un residu studentise de valeur
absolue plus grande que 2 peut reveler un probl`eme.

6.3

Mesures dinfluence

Leffet levier peut apparatre pour des observations dont les valeurs prises par les variables explicatives
sont e levees (observation loin du barycentre x). De grands residus signalent plutot des valeurs atypiques
de la variable a` expliquer. Les deux diagnostics precedents sont combines dans des mesures synthetiques

7. Exemple

29

proposees par differents auteurs. Les plus utilisees sont

Di

DFFITSi



1
hii
ri2
0
b
b
(b
y

y
)
(b
y

y
)
=
,
(i)
(i)
s2 (p + 1)
1 hii (p + 1)
1/2

1
hii
p (b
yi yb(i)i ) =
ti .
1 hii
s(i) hii

(2.1)
(2.2)

La premi`ere, notee Cooks D conclut a` une influence de lobservation i lorsque la valeur de Di depasse 1.
Dautres mesures moins frequemment utilisees sont proposees dans les logiciels. Certaines consid`erent
les e carts entre lestimation dun param`etre bi et son estimation sans la i`eme observation, une autre le
rapport des determinants des matrices de covariance des estimateurs des param`etres calculees avec et sans
la i`eme observation. . .

6.4

Regression partielle

Un mod`ele de regression multiple est une technique lineaire. Il est raisonnable de sinterroger sur la
pertinence du caract`ere lineaire de la contribution dune variable explicative a` lajustement du mod`ele. Ceci
peut e tre realise en considerant une regression partielle.
On calcule alors deux regressions :
la regression de Y sur les variables X 1 , . . . , X j1 , X j+1 , . . . , X p , dans laquelle la j e` me variable est
omise, soit ry(j) le vecteur des residus obtenus.
La regression de X j sur les variables X 1 , . . . , X j1 , X j+1 , . . . , X p . Soit rx(j) le vecteur des residus
obtenus.
La comparaison des residus par un graphe (nuage de points ry(j) rx(j) ) permet alors de representer la
nature de la liaison entre X j et Y conditionnellement aux autres variables explicatives du mod`ele.

6.5

Graphes

Differents graphiques permettent finalement de controler le bien fonde des hypoth`eses de linearite,
dhomoscedasticite, e ventuellement de normalite des residus.
Le premier consid`ere le nuage de points des residus studentises croises avec les valeurs predites. Les
points doivent e tre uniformement repartis entre les bornes 2 et +2 et ne pas presenter de formes
suspectes.
Le deuxi`eme croise les valeurs observees de Y avec les valeurs predites. Il illustre le coefficient de
b et y. Les points doivent saligner
determination R qui est aussi la correlation lineaire simple entre y
autour de la premi`ere bissectrice. Il peut e tre complete par lintervalle de confiance des yi ou celui de
leurs moyennes.
La qualite, en terme de linearite, de lapport de chaque variable est e tudiee par des regressions partielles. Chaque graphe de residus peut e tre complete par une estimation fonctionnelle ou regression
non-parametrique (loess, noyau, spline) afin den facilite la lecture.
Le dernier trace la droite de Henri (Normal QQplot) des residus dont le caract`ere lineaire de la
representation donne une idee de la normalite de la distribution.

7 Exemple
7.1

Les donnees

Elles sont extraites de Jobson (1991) et decrivent les resultats comptables de 40 entreprises du Royaume
Uni.

30

Chapitre 2. Regression lineaire multiple


Descriptif des 13 variables (en anglais pour e viter des traductions erronees) :
RETCAP
WCFTDT
LOGSALE
LOGASST
CURRAT
QUIKRAT
NFATAST
FATTOT
PAYOUT
WCFTCL
GEARRAT
CAPINT
INVTAST

7.2

Return on capital employed


Ratio of working capital flow to total debt
Log to base 10 of total sales
Log to base 10 of total assets
Current ratio
Quick ratio
Ratio of net fixed assets to total assets
Gross sixed assets to total assets
Payout ratio
Ratio of working capital flow to total current liabilities
Gearing ratio (debt-equity ratio)
Capital intensity (ratio of total sales to total assets)
Ratio of total inventories to total assets

Resultat du mod`ele complet

La procedure SAS/REG est utilisee dans le programme suivant. La plupart des options sont actives afin
de fournir la plupart des resultats meme si certains sont redondants ou peu utiles.
options linesize=110 pagesize=30 nodate nonumber;
title;
proc reg data=sasuser.ukcomp1 all;
model RETCAP = WCFTCL
WCFTDT
GEARRAT
LOGSALE
LOGASST
NFATAST CAPINT
FATTOT
INVTAST
PAYOUT
QUIKRAT
/dw covb Influence cli clm tol vif collin R P;
output out=resout h=lev p=pred r=res student=resstu ;
run;

CURRAT

Les resultats ne sont pas listes de facon exhaustive, les matrices et tableaux trop volumineux et peu
significatifs ont e te tronques.
Descriptive Statistics
Variables
Sum
INTERCEP
40
WCFTCL
10.29
WCFTDT
9.04
...
CURRAT
72.41
RETCAP
5.71

Mean
1
0.25725
0.226

Uncorrected SS
40
6.4339
4.9052

1.81025
0.14275

279.0039
1.5233

Uncorrected Sums of squares and Crossproducts


USSCP
INTERCEP
WCFTCL
WCFTDT
GEARRAT
INTERCEP
40
10.29
9.04
12.2
WCFTCL
10.29
6.4339
5.4926
1.5997
WCFTDT
9.04
5.4926
4.9052
1.3972
...
CURRAT
72.41
35.222
33.248
16.3188
RETCAP
5.71
2.0009
1.6226
1.5391
Correlation
CORR
WCFTCL
WCFTCL
1.0000
WCFTDT
0.9620
GEARRAT
-0.5520
...
CURRAT
0.7011
RETCAP
0.3249

Variance
0
0.0970973718
0.0733887179

Std Deviation
0
0.3116045118
0.2709035215

3.7929153205
0.0181589103

1.9475408392
0.1347550009

LOGSALE
173.7
40.8722
34.4091
265.2051
26.3636

LOGASST
174.81
46.2433
39.8937
314.449
25.379

NFATAST
13.46
3.5523
2.9568
20.4126
1.6199

WCFTDT
0.9620
1.0000
-0.5611

GEARRAT
-0.5520
-0.5611
1.0000

LOGSALE
-0.3100
-0.4533
0.2502

LOGASST
0.1829
0.0639
0.0387

NFATAST
0.0383
-0.0418
-0.0668

CAPINT
-0.2376
-0.2516
0.2532

0.8205
0.2333

-0.3309
-0.1679

-0.6406
0.2948

-0.0460
0.1411

-0.2698
-0.2974

-0.3530
0.3096

7. Exemple

31

La matrice des correlations montre des valeurs e levees, on peut deja sattendre a` des probl`emes de
colinearite.

Model Crossproducts XX XY YY
XX
INTERCEP
WCFTCL
WCFTDT
GEARRAT
INTERCEP
40
10.29
9.04
12.2
WCFTCL
10.29
6.4339
5.4926
1.5997
WCFTDT
9.04
5.4926
4.9052
1.3972
...
XX Inverse, Parameter Estimates, and SSE
INTERCEP
WCFTCL
WCFTDT
GEARRAT
INTERCEP 3.2385537 1.3028641 -1.570579 -0.05877
WCFTCL
1.3028641 7.0714100 -9.955073 -0.54391
WCFTDT
-1.570579 -9.955073 15.968504 1.582975
...
Analysis of Variance
Sum of
Mean
Source
DF
Squares
Square
(1)
Model
12
0.55868 (2)
0.04656 (5)
Error
27
0.14951 (3)
0.00554 (6)
C Total
39
0.70820 (4)
Root MSE
0.07441 (9)
R-square
0.7889
Dep Mean
0.14275 (10)
Adj R-sq
0.6951
C.V.
52.12940 (11)

(1)
(2)
(3)
(4)
(5)
(6)
(7)
(8)
(9)
(10)
(11)
(12)
(13)

LOGSALE
173.7
40.8722
34.4091

LOGSALE
0.3001809
-0.007877
0.0112826

LOGASST
174.81
46.2433
39.8937

LOGASST
-0.826512
-0.292412
0.3138925

NFATAST
13.46
3.5523
2.9568

NFATAST
-0.238509
-0.233915
0.149976

F Value

Prob>F

8.408 (7)

0.0001 (8)

(12)
(13)

degres de liberte de la loi de Fisher du test global


SSR
SSE ou deviance
SST=SSE+SSR
SSR/DF
s2 =MSE=SSE/DF est lestimation de u2
Statistique F du test de Fisher du mod`ele global
P (fp;np1 > F ) ; H0 est rejetee au niveau si P <
s =racine de MSE
moyenne empirique de la variable a` expliquee
Coefficient de variation 100 (9)/(10)
Coefficient de determination R2
2
Coefficient de determination ajuste R0

Parameter Estimates
Parameter
Variable DF
Estimate
(1)
INTERCEP
1
0.188072
WCFTCL
1
0.215130
WCFTDT
1
0.305557
GEARRAT
1
-0.040436
LOGSALE
1
0.118440
LOGASST
1
-0.076960
NFATAST
1
-0.369977
CAPINT
1
-0.014138
FATTOT
1
-0.100986
INVTAST
1
0.250562
PAYOUT
1
-0.018839
QUIKRAT
1
0.176709
CURRAT
1
-0.223281

Standard
Error
(2)
0.13391661
0.19788455
0.29736579
0.07677092
0.03611612
0.04517414
0.13739742
0.02338316
0.08764238
0.18586858
0.01769456
0.09162882
0.08773480

T for H0:
Parameter=0 Prob>|T|
(3)
(4)
1.404
0.1716
1.087
0.2866
1.028
0.3133
-0.527
0.6027
3.279
0.0029
-1.704
0.0999
-2.693
0.0120
-0.605
0.5505
-1.152
0.2593
1.348
0.1888
-1.065
0.2965
1.929
0.0644
-2.545
0.0170

Tolerance
(5)
.
0.03734409
0.02187972
0.45778579
0.10629382
0.21200778
0.20214372
0.37587215
0.23929677
0.13770716
0.84271960
0.00408524
0.00486336

Variance
Inflation
(6)
0.00000000
26.77799793
45.70441500
2.18442778
9.40788501
4.71680805
4.94697537
2.66047911
4.17891139
7.26178633
1.18663431
244.78377222
205.61923071

32

Chapitre 2. Regression lineaire multiple


(1)
(2)
(3)
(4)
(5)
(6)

estimations des param`etres (bj )


e carts-types de ces estimations (sbj )
statistique T du test de Student de H0 : bj = 0
P (tnp1 > T ) ; H0 est rejetee au niveau si P <
2
1 R(j)
2
VIF=1/(1 R(j)
)

Ces resultats soulignent les probl`emes de colinearites. De grands VIF sont associes a` de grands e carttypes des estimations des param`etres. Dautre part les nombreux tests de Student non significatifs renforcent
lidee que trop de variables sont presentes dans le mod`ele.
Covariance of Estimates
COVB
INTERCEP
WCFTCL
INTERCEP 0.0179336 0.0072146
WCFTCL
0.0072146 0.039158
WCFTDT
-0.008697 -0.055126
...

WCFTDT
-0.008697
-0.055126
0.0884264

GEARRAT
-0.000325
-0.003011
0.0087658

LOGSALE
0.0016622
-0.000043
0.0000624

LOGASST
-0.004576
-0.00161
0.0017381

NFATAST
-0.001320
-0.00129
0.0008305

Collinearity Diagnostics
Condition
Eigenvalue
Index
8.76623
2.22300
0.68583
0.56330
0.31680
0.18140
0.12716
0.08451
0.02761
0.01338
0.00730
0.00223
0.00125

1.00000
1.98580
3.57518
3.94489
5.26036
6.95173
8.30291
10.18479
17.82007
25.59712
34.66338
62.63682
83.83978

Valeurs propres de X0 X et indice de conditionnement e gal au rapport

p
1 /j .

Les grandes valeurs (> 10) insistent

encore sur le mauvais conditionnement de la matrice a` inverser.

Obs
1
2
3
4
5
6
...

Dep Var
RETCAP
(1)
0.2600
0.5700
0.0900
0.3200
0.1700
0.2400

Obs
1
2
3
4
5
6
15
16
17
20
21

|
|
|
|
|
|
|
|
|
|
|

Predict
Value
(2)
0.2716
0.3690
0.00897
0.2335
0.1164
0.2542

-2-1-0 1 2
(11)
|
|
|******|
|**** |
|**
|
|*
|
|
|
***|
|
|***
|
|
|
***|
|
****|
|
...

Std Err Lower95


Predict
Mean
(3)
(4)
0.053
0.1625
0.039
0.2882
0.063
-0.1205
0.021
0.1903
0.046
0.0215
0.033
0.1864

Cooks
D
(12)
0.004
0.302
0.832
0.010
0.041
0.001
0.150
3.471
0.000
0.054
4.970

Rstudent
(13)
-0.2194
3.9515
2.1955
1.2228
0.9175
-0.2088
-1.9223
1.6394
0.1401
-1.9588
-2.2389

Upper95
Mean
(5)
0.3808
0.4497
0.1385
0.2768
0.2113
0.3219
Hat Diag
H
(14)
0.5109
0.2795
0.7192
0.0803
0.3864
0.1969
0.3666
0.9469
0.1264
0.1677
0.9367

Lower95
Predict
(6)
0.0839
0.1962
-0.1912
0.0748
-0.0634
0.0871
Cov
Ratio
(15)
3.2603
0.0050
0.6375
0.8585
1.7591
1.9898
0.4583
8.5643
1.8514
0.3278
2.6093

Upper95
Std Err
Predict Residual Residual
(7)
(8)
(9)
0.4593 -0.0116
0.052
0.5417
0.2010
0.063
0.2092
0.0810
0.039
0.3922
0.0865
0.071
0.2961
0.0536
0.058
0.4212 -0.0142
0.067

Dffits
(15)
-0.2242
2.4611
3.5134
0.3613
0.7280
-0.1034
-1.4623
6.9237
0.0533
-0.8794
-8.6143

INTERCEP
Dfbetas
(15)
0.0299
0.9316
0.5543
-0.0132
-0.0386
0.0189
-0.2063
-0.9398
0.0223
-0.0360
-1.2162

WCFTCL
Dfbetas
(15)
0.0632
-0.3621
2.1916
-0.0835
0.0906
-0.0203
0.3056
0.2393
0.0090
-0.3302
0.1768

Student
Residual
(10)
-0.223
3.183
2.055
1.212
0.920
-0.213
WCFTDT
Dfbetas
(15)
-0.0911
0.3705
-2.0241
0.1207
0.0060
0.0243
-0.6231
-0.2323
-0.0113
0.4076
-0.1422

7. Exemple
(1)
(2)
(3)
(4)et (5)
(6) et (7)
(8)
(9)
(10)
(11)
(12)
(13)
(14)
(15)

33
variable a` expliquer yi
valeur ajustee ybi
e cart-type de cette estimationsybi
Intervalle de confiance pour lestimation de E(yi )
Intervalle de confiance pour lestimation de yi
residus calcules ei
e carts-types de ces estimations
residus standardises (ou studentises internes) ri
reperage graphique des residus standardises : = 0.5.
Distance de Cook
residus studentises (externes) ti
Termes diagonaux de la matrice chapeau H
autres indicateurs dinfluence

Seules les observations 16 et 21 seraient a` inspecter avec attention.


Sum of Residuals
Sum of Squared Residuals
Predicted Resid SS (Press)

0
0.1495
1.0190

(SSE)
(PRESS)

Selection du mod`ele
Parmi les trois types dalgorithmes et les differents crit`eres de choix, une des facons les plus efficaces
consistent a` choisir les options du programme ci-dessous. Tous les mod`eles (parmi les plus interessants
selon lalgorithme de Furnival et Wilson) sont consideres. Seul le meilleur pour chaque niveau, cest-`a-dire
pour chaque valeur p du nombre de variables explicatives sont donnes. Il est alors facile de choisir celui
minimisant lun des crit`eres globaux (Cp ou BIC ou . . . ).
options linesize=110 pagesize=30 nodate nonumber;
title;
proc reg data=sasuser.ukcomp2 ;
model RETCAP = WCFTCL
WCFTDT
GEARRAT
LOGSALE
NFATAST CAPINT
FATTOT
INVTAST
PAYOUT
/ selection=rsquare cp rsquare bic best=1;
run;

LOGASST
QUIKRAT

CURRAT

N = 40
Regression Models for Dependent Variable: RETCAP
R-square Adjusted C(p)
BIC
Variables in Model
In
R-square
1 0.1055 0.0819 78.3930 -163.26 WCFTCL
2 0.3406 0.3050 50.3232 -173.72 WCFTDT QUIKRAT
3 0.6154 0.5833 17.1815 -191.14 WCFTCL NFATAST CURRAT
4 0.7207 0.6888 5.7146 -199.20 WCFTDT LOGSALE NFATAST CURRAT
5 0.7317 0.6923 6.3047 -198.05 WCFTDT LOGSALE NFATAST QUIKRAT CURRAT
6 0.7483 0.7025 6.1878 -197.25 WCFTDT LOGSALE NFATAST INVTAST QUIKRAT CURRAT
7 0.7600 0.7075 6.6916 -195.77 WCFTDT LOGSALE LOGASST NFATAST FATTOT QUIKRAT CURRAT
8 0.7692 0.7097 7.5072 -193.87 WCFTDT LOGSALE LOGASST NFATAST FATTOT INVTAST QUIKRAT CURRAT
9 0.7760 0.7088 8.6415 -191.59 WCFTCL WCFTDT LOGSALE LOGASST NFATAST FATTOT INVTAST QUIKRAT
CURRAT
10 0.7830 0.7082 9.7448 -189.15 WCFTCL WCFTDT LOGSALE LOGASST NFATAST FATTOT INVTAST PAYOUT
QUIKRAT CURRAT
11 0.7867 0.7029 11.2774 -186.40 WCFTCL WCFTDT LOGSALE LOGASST NFATAST CAPINT FATTOT INVTAST
PAYOUT QUIKRAT CURRAT
12 0.7888 0.6950 13.0000 -183.51 WCFTCL WCFTDT GEARRAT LOGSALE LOGASST NFATAST CAPINT FATTOT
INVTAST PAYOUT QUIKRAT CURRAT

Dans cet example, Cp et BIC se comportent de la meme facon. Avec peu de variables, le mod`ele est
trop biaise. Ils atteignent un minimum pour un mod`ele a` 4 variables explicatives puis croissent de nouveau
selon la premi`ere bissectrice. La maximisation du R2 ajuste conduirait a` une solution beaucoup moins
parcimonieuse. On note par ailleurs que lalgorithme remplace WCFTCL par WCFTDT. Un algorithme par
selection ne peut pas aboutir a` la solution optimale retenue.

34

Chapitre 2. Regression lineaire multiple

Resultats du mod`ele reduit


proc reg data=sasuser.ukcomp1 all;
model RETCAP = WCFTDT NFATAST
LOGSALE CURRAT
/dw Influence cli clm tol vif collin r p ;
output out=resout h=lev p=pred r=res student=resstu ;
plot (student. r.)*p.;
plot p.*retcap;
run;
Analysis of Variance
Source
DF
Model
4
Error
35
C Total
39
Root MSE
Dep Mean
C.V.

Sum of
Squares
0.51043
0.19777
0.70820
0.07517
0.14275
52.65889

Parameter Estimates
Parameter
Variable DF Estimate
INTERCEP
1 0.024204
WCFTDT
1 0.611885
NFATAST
1 -0.474448
LOGSALE
1 0.060962
CURRAT
1 -0.068949

Mean
Square
0.12761
0.00565
R-square
Adj R-sq

Standard
Error
0.07970848
0.08257125
0.07015433
0.01606877
0.01321091

|
|
|

Sum of Residuals
Sum of Squared Residuals
Predicted Resid SS (Press)

Var Prop
WCFTDT
0.0076
0.0608
0.1731
0.7201
0.0384

Cooks
Hat Diag
D Rstudent
H
0.211 -1.9115 0.2372
1.554
0.9919 0.8876
0.001
0.3866 0.0460
0
0.1978
0.3529

Prob>F
0.0001

0.7207
0.6888

T for H0:
Parameter=0
0.304
7.410
-6.763
3.794
-5.219

Collinearity Diagnostics
Condition Var Prop
Number Eigenvalue
Index INTERCEP
1
3.86169
1.00000 0.0014
2
0.87647
2.09904 0.0014
3
0.17128
4.74821 0.0206
4
0.07821
7.02670 0.0026
5
0.01235
17.68485 0.9741

Obs
-2-1-0 1 2
15 |
***|
16 |
|*
17 |
|

F Value
22.583

Prob > |T|


0.7632
0.0001
0.0001
0.0006
0.0001

Var Prop
NFATAST
0.0098
0.0355
0.5177
0.4369
0.0000

Tolerance
.
0.28956358
0.79119995
0.54792736
0.21887292

Var Prop
LOGSALE
0.0016
0.0046
0.0170
0.0388
0.9381

Variance
Inflation
0.00000000
3.45347296
1.26390301
1.82505944
4.56886122

Var Prop
CURRAT
0.0052
0.0427
0.0667
0.5481
0.3373

Cov
INTERCEP WCFTDT
Ratio Dffits
Dfbetas Dfbetas
0.9096 -1.0659 -0.0240 -0.8161
8.9162 2.7871 0.0320 -0.0746
1.1854 0.0849 0.0348 -0.0430

NFATAST
Dfbetas
-0.3075
0.1469
0.0256

(Par rapport au mod`


ele complet, la d
eviance augmente
mais PRESS diminue tr`
es sensiblement)

Exercices

Exo 1
Nous supposons verifiees les hypoth`eses relatives au mod`ele de regression lineaire multiple pour les
observations (yi , x1i , . . . , xni ) des variables statistiques Y, X 1 , . . . , X p .
b et e de , y et u. Calculer E(e0 e).
i. Calculer les moments (esperance et variance) des estimateurs b, y
ii. Montrer que
(y Xb)0 (y Xb) = y0 (I H)y
b0 y
b = y0 Hy
y
b0 y
b + (y Xb)0 (y Xb).
y0 y = y
En deduire que : SST=SSE+SSR.

(2.3)
(2.4)
(2.5)

8. Exercices

35

Exo 2
Pour simplifier les calculs, on suppose dans cet exercice que les variables sont centrees (x = 0, y = 0)
et on sinteresse a` la regression sans terme constant (0 = 0). On admettra le resultat suivant du calcul par
bloc de linverse B dune matrice carree reguli`ere A :
1
B11 = [A11 A12 A1
.
22 A21 ]

i. Montrer que le coefficient de determination verifie : r2 =

kb
y k2
.
kyk2

ii. Soit r1 le vecteur contenant les coefficients de correlation lineaire empirique entre X 1 et chacune
des variables X 2 , . . . , X p , R(1) la matrice des correlations des X 2 , . . . , X p et R la matrice de
2
correlations de toutes les variables X j . On note e galement r(1)
le coefficient de determination de
2
la regression de la variable X 1 sur les variables X 2 , . . . , X p . Montrer que r(1)
= r0 1 R1
(1) r1 .
iii. En deduire que [R1 ]11 =

1
2 .
1r(1)

iv. Commentaire pour les autres variables et lindicateur de colinearite.

Exo 3
On reprend les notations usuelles de la regression lineaire multiple et on designe par xn la derni`ere ligne
de X et par X(n) la matrice (n 1) (p + 1) privee de cette derni`ere ligne.
i. Montrer que X0 X = X0(n) X(n) + xn x0n .
ii. Soit A une matrice symetrique reguli`ere et b, c deux vecteurs a` (p + 1) composantes. Montrer que
1
0 1
A
linverse de la matrice A + bc0 est la matrice A1 A1+bbc
0 A1 c
iii. Trouver lexpression de hnn dans la decomposition suivante :
1

[X0(n) X(n) ]1 = (X0 X)

1
1
1
(X0 X) xn x0n (X0 X) .
1 hnn

iv. Montrer que X(n) y(n) = X0 y xn yn . Montrer ensuite que


b(n) = b

1
(X 0 X)1 xn (yn x0n b).
1 hnn

Discuter de limpact sur b de la suppression de lobservation n.


v. Montrer que la distance de Cook
Dn =

1
(b(n) b)0 X0 X(b(n) b)
(p + 1)s2

se met sous la forme :


Dn =

hnn
e2n
.
1 hnn (p + 1)s2 (1 hnn )

Exo 4
Lobjet de cet exercice est de construire un indicateur permettant de comparer des mod`eles pour leurs
qualites predictives. On consid`ere un premier mod`ele complet (avec toutes les variables) suppose vrai :
y = X + u,

E(y) = X Vect(X1 , . . . , Xp ),

rang(X) = p,

u N (0, 2 In ).

(2.6)

Un deuxi`eme mod`ele est un sous-mod`ele du precedent et donc leg`erement faux. La matrice Z de ce mod`ele
est supposee de plein rang (q + 1) < (p + 1) et contient donc un sous-ensemble des colonnes de X. Ainsi,
E(y) = X nappartient pas necessairement a` lespace vectoriel engendre par les colonnes de Z. On note
0 les param`etres les moins mauvais pour le 2`eme mod`ele. Ils sont obtenus par la projection de X sur
Vect(Z1 , . . . , Zq ) :
Z0 = Z(Z0 Z)1 Z0 X.
On note enfin a les param`etres du 2`eme mod`ele estimes par les moindres carres.

36

Chapitre 2. Regression lineaire multiple


i. Montrer que E(a) = 0 .
b = Za la prevision de y par le 2`eme mod`ele. Montrer que trace(Var(b
ii. On note y
y))= 2 (q + 1).

iii. Soit Ep = Ekb


y Xk2 lerreur quadratique moyenne de prediction pour le 2`eme mod`ele. Montrer
que
Ep = kX Z0 k2 + 2 (q + 1)
qui se decompose donc en le carre du biais plus la variance.
Suggestion : Calculer Ekb
y Z0 + Z0 Xk2 .
b k2 la somme des carres des residus du 2`eme mod`ele. Montrer que
iv. Soit SSEq = ky y
E(SSEq ) = kX Z0 k2 + 2 (n q 1).
b =yy
b E(y y
b ) + E(y y
b ).
Suggestion : Noter que y y
v. Le probl`eme est destimer Ep . On estime sans biais 2 par s2 = SSE/(n p 1). Montrer que
bp = SSEq (n 2q 2)s2
E
bp ) = Ep .
est un estimateur sans biais de Ep cest-`a-dire que E(E
SSE

vi. Le Cp de Mallows est une version standardisee de lerreur de prevision : Cp = s2 q (n 2q 2).


Dans lhypoth`ese o`u le sous-mod`ele est exact : X = Z0 , montrer qualors le (Cp ) est proche de
q +1. On acceptera pour meilleur un mod`ele biaise a` condition quil induise une baisse significative
de la variance et ainsi de lerreur quadratique moyenne de prevision.
vii. Dans lexemple ci-dessous, calculer le Cp de Mallows du sous-mod`ele.
modele pert = Tlumin lumin Txgn xgn Txy xy xa xb
Model
8
1007.62105
125.95263
Error
180
98.63792
0.54799
C Total
188
1106.25897
modele pert = lumin Txgn xy xa xb
Model
5
1007.11132
Error
183
99.14764
C Total
188
1106.25897

201.42226
0.54179

229.845

371.772

0.0001

0.0001

Chapitre 3

Analyses de variance et covariance


1

Introduction

Les techniques dites danalyse de variance sont des outils entrant dans le cadre general du mod`ele
lineaire et o`u une variable quantitative est expliquee par une ou plusieurs variables qualitatives. Lobjectif essentiel est alors de comparer les moyennes empiriques de la variable quantitative observees pour
differentes categories dunites statistiques. Ces categories sont definies par lobservation des variables qualitatives ou facteurs prenant differentes modalites ou encore de variables quantitatives decoupees en classes
ou niveaux. Une combinaison de niveaux definit une cellule, groupe ou traitement.
Il sagit donc de savoir si un facteur ou une combinaison de facteurs (interaction) a un effet sur la variable
quantitative en vue, par exemple, de determiner des conditions optimales de production ou de fabrication,
une dose optimale de medicaments. . . . Ces techniques apparaissent aussi comme des cas particuliers de
la regression lineaire multiple en associant a` chaque modalite une variable indicatrice (dummy variable)
et en cherchant a` expliquer une variable quantitative par ces variables indicatrices. Lappellation analyse
de variance vient de ce que les tests statistiques sont batis sur des comparaisons de sommes de carres de
variations.
Lanalyse de variance est souvent utilisee pour analyser des donnees issue dune planification dexperience
au cours de laquelle lexperimentateur a la possibilite de controler a priori les niveaux des facteurs avec
pour objectif dobtenir le maximum de precision au moindre cout. Ceci conduit en particulier a` construire
des facteurs orthogonaux deux a` deux (variables explicatives non lineairement correlees) afin de minimiser
la variance des estimateurs (cf. chapitre precedent). On distingue le cas particulier important o`u les cellules
ont le meme effectif, on parle alors de plan orthogonal ou e quirepete ou e quilibre (balanced), qui conduit
a` des simplifications importantes de lanalyse de variance associee. On appelle plan complet un dispositif dans lequel toutes les combinaisons de niveaux ont e te experimentees. On distingue entre des mod`eles
fixes, aleatoires ou mixtes selon le caract`ere deterministe (controle) ou non des facteurs par exemple si les
modalites resultent dun choix aleatoire parmi un grand nombre de possibles. Seuls les mod`eles fixes sont
consideres.
Lanalyse de covariance consid`ere une situation plus generale dans laquelle les variables explicatives
sont a` la fois quantitatives, appelees covariables, et qualitatives ou facteurs. Lobjectif est alors de comparer,
non plus des moyennes par cellules, mais les param`etres des differents mod`eles de regressions estimees pour
chaque combinaison de niveau. Ce type de mod`ele est introduit en fin de chapitre.
Les specificites de la planification dexperience ne seront quabordees dans ce chapitre. Les applications en sont surtout developpees en milieu industriel : controle de qualite, optimisation des processus de
production, ou en agronomie pour la selection de varietes, la comparaison dengrais, dinsecticides. . . . La
bibliographie est abondante a` ce sujet.

37

38

Chapitre 3. Analyses de variance et covariance

Mod`ele a` un facteur

Cette situation est un cas particulier detude de relations entre deux variables statistiques : une quantitative Y admettant une densite et une qualitative T ou facteur qui engendre une partition ou classification de
lechantillon en J groupes, cellules ou classes indicees par j. Lobjectif est de comparer les distributions de
Y pour chacune des classes en particulier les valeurs des moyennes et variances.
Un prealable descriptif consiste a` realiser un graphique constitue de boites a` moustaches parall`eles :
une pour chaque modalite. Cette representation donne une premi`ere appreciation de la comparaison des
distributions (moyenne, variance) internes a` chaque groupe.

2.1

Mod`eles

PJ
Pour chaque niveau j de T , on observe nj valeurs y1j , . . . , ynj j de la variable Y et o`u n = j=1 nj
est la taille de lechantillon (n > J). On suppose qu`a linterieur de chaque cellule, les observations sont
independantes e quidistribuees de moyenne j et de variance homog`ene j2 = 2 . Ceci secrit :
yij = j + ij
o`u les ij sont i.i.d. suivant une loi centree de variance 2 qui sera supposee N (0, 2 ) pour la construction
des tests. Cette derni`ere hypoth`ese netant pas la plus sensible. Les esperances j ainsi que le param`etre de
nuisance 2 sont les param`etres inconnus a` estimer.
On note respectivement :
y.j

nj
1 X
yij ,
nj i=1

s2j

1 X
(yij y.j )2 ,
nj 1 i=1

y..

1 XX
yij ,
n i=1 j=1

nj

nj

les moyennes et variances empiriques de chaque cellule, la moyenne generale de lechantillon.


Les param`etres j sont estimes sans biais par les moyennes y.j et comme le mod`ele secrit alors :
yij = y.j + (yij y.j ),
lestimation des erreurs est eij = (yij y.j ) tandis que les valeurs predites sont ybij = y.j .
Sous lhypoth`ese dhomogeneite des variances, la meilleure estimation sans biais de 2 est
PJ
2

s =

j=1

Pnj

i=1 (yij

nJ

y.j )2

1
[(n 1)s21 + + (nJ 1)s2J ]
nJ

qui secrit donc comme une moyenne ponderee des variances empiriques de chaque groupe.
Notons y le vecteur des observations [yij |i = 1, nj ; j = 1, J]0 mis en colonne, u = [ij |i = 1, nj ; j =
1, J]0 le vecteur des erreurs, 1j les variables indicatrices des niveaux et 1 la colonne de 1s. Le i`eme e lement
dune variable indicatrice (dummy variable) 1j prend la valeur 1 si la i`eme observation yi est associee au
j e` me et 0 sinon.
Comme dans le cas de la regression lineaire multiple, le mod`ele consiste a` e crire que lesperance de
la variable Y appartient au sous-espace lineaire engendre par les variables explicatives, ici les variables
indicatrices :
y = 0 1 + 1 11 + + J 1J + u.
La matrice X alors construite nest pas de plein rang p + 1 mais de rang p. La matrice X0 X nest pas
inversible et le mod`ele admet une infinite de solutions. Nous disons que les param`etres j ne sont pas

2. Mod`ele a` un facteur

39

estimables ou identifiables. En revanche, certaines fonctions (combinaisons lineaires) de ces param`etres


sont estimables et appelees contrastes.
Dans le cas du mod`ele danalyse de variance a` un facteur, la solution la plus simple adoptee consiste
a` considerer un sous-ensemble des indicatrices ou de combinaisons des indicatrices de facon a` aboutir a`
une matrice inversible. Ceci conduit a` considerer differents mod`eles associes a` differentes parametrisation.
Attention, les param`etres j ainsi que la matrice X prennent a` chaque fois des significations differentes.
Un premier mod`ele (cell means model) secrit comme celui dune regression lineaire multiple sans
terme constant avec = [1 , . . . , J ]0 le vecteur des param`etres :
y
y

= 1 11 + + J 1J + u
= X + u.

Les calculs se presentent simplement (cf. exo 1) mais les tests decoulant de ce mod`ele conduiraient a` e tudier
la nullite des param`etres alors que nous sommes interesses par tester legalite des moyennes.
Une autre parametrisation, considerant cette fois le vecteur = [J , 1 J , . . . , J1 J ]0 conduit
a` e crire le mod`ele (base cell model) de regression avec terme constant :
y = 0 1 + 1 11 + + J1 1J1 + u.
Cest celle de SAS alors que Systat consid`ere des param`etres deffet differentiel j . par rapport a`
PJ
leffet moyen . = 1/J j=1 j . Ce dernier est encore un mod`ele (group effect model) de regression
lineaire avec terme constant mais dont les variables explicatives sont des differences dindicatrices et avec
= [. , 1 . , . . . , J1 . ]0 :
y = 0 1 + 1 (11 1J ) + + J1 (1J1 1J ) + u.

2.2

Test
On designe les differentes sommes des carres des variations par :
SST =

nj
J X
X

(yij y.. ) =

j=1 i=1

SSW =

nj
J X
X

SSB =

j=1

2
yij
n
y..2 ,

j=1 i=1
2

(yij y.j ) =

j=1 i=1
J
X

nj
J X
X

nj (
y.j y.. )2 =

nj
J X
X
j=1 i=1

J
X

2
yij

J
X

2
nj y.j
,

j=1

2
nj y.j
n
y..2 ,

j=1

o`u T signifie totale, W (within) intra ou residuelle, B (between) inter ou expliquee par la partition. Il
est facile de verifier que SST=SSB+SSW.
On consid`ere alors lhypoth`ese
H0 : 1 = = J ,
qui revient a` dire que la moyenne est independante du niveau ou encore que le facteur na pas deffet, contre
lhypoth`ese
H1 : (j, k) tel que j 6= k
qui revient a` reconnatre un effet ou une influence du facteur sur la variable Y .
Dans les mod`eles precedents, letude de cette hypoth`ese revient a` comparer par un test de Fisher un
mod`ele complet (les moyennes sont differentes) avec un mod`ele reduit supposant la nullite des param`etres
j et donc legalite des moyennes a` celle de la derni`ere cellule ou a` la moyenne generale.
Les resultats necessaires a` la construction du test qui en decoule sont resumes dans la table danalyse
de la variance :

40

Chapitre 3. Analyses de variance et covariance


Source de
variation

d.d.l.

Mod`ele (inter)
Erreur (intra)
Total

J 1
nJ
n1

Somme
des carres
SSB
SSW
SST

Variance
MSB=SSB/(J 1)
MSW=SSW/(n J)

MSB/MSW

Pratiquement, un programme de regression usuel permet de construire estimation et test de la nullite des j
sauf pour le premier mod`ele qui doit tester legalite au lieu de la nullite des param`etres.
Dans le cas de deux classes (J = 2) on retrouve un test e quivalent au test de Student de comparaison
des moyennes de deux e chantillons independants.

2.3

Comparaisons multiples

Si lhypoth`ese nulle est rejetee, la question suivante consiste a` rechercher quelles sont les groupes ou
cellules qui poss`edent des moyennes significativement differentes. De nombreux tests et procedures ont e te
proposes dans la litterature pour repondre a` cette question.
Une procedure nave consiste a` exprimer, pour chaque paire j et l de groupes, un intervalle de confiance
au niveau 100(1 )% de la difference (j l ) :

(
y.j y.l ) t/2;(nJ) s

1
1
+
nj
nl

1/2
.

Si, pour un couple (j, l) fixe a priori, cet intervalle inclut 0, les moyennes ne sont pas jugees significativement differentes au niveau . Lorthogonalite des facteurs rendant les tests independants justifierait cette
procedure mais elle ne peut e tre systematisee. En effet, si J est grand, il y a un total de J(J 1)/2 comparaisons a` considerer et on peut sattendre a` ce que, sur le simple fait du hasard, 0, 05 J(J 1)/2 paires de
moyennes soient jugees significativement differentes meme si le test global accepte legalite des moyennes.
Dautres procedures visent a` corriger cette demarche afin de controler globalement le niveau des comparaisons. Certaines proposent des intervalles plus conservatifs (plus grands) en ajustant le niveau 0 <
definissant les valeurs critiques t0 /2;(nJ) (Bonferroni 0 = /(J(J 1)/2), Sidak). Dans le meme esprit, la methode de Scheffe, la plus conservative, projette lellipsode de confiance des moyennes des i en
intervalles de confiance des differences ou de toute combinaison lineaire de celles-ci (contrastes).
Dautres procedures definissent des intervalles studentises fournissant des valeurs critiques specifiques
qui sont tabulees ou calculees par le logiciel. Certaines de ces methodes ou certaines presentations graphiques des resultats sont uniquement adaptees au cas e quirepete (Tukey) tandis que dautres sont adaptees
a` des classes presentant des effectifs differents (GT2, Gabriel).
En resume, pour comparer toutes les moyennes dans le cas e quirepete, les methodes de Tukey ou Scheffe
sont utilisees, celle de Bonferroni convient encore au cas desequilibre. Pour comparer les moyennes a` celle
dune classe ou traitement temoin, la methode de Bonferroni (0 = /(J(J 1)/2)) est encore utilisee
tandis que Dunnet remplace Tukey dans le cas e quirepete.

2.4

Homogeneite de la variance

Une hypoth`ese importante du mod`ele induit par lanalyse de variance est lhomogeneite des variances de
chaque groupe. Conjointement a` lestimation du mod`ele et en supposant la normalite, il peut e tre instructif
de controler cette homogeneite par un test de lhypoth`ese
H0 : 12 = = J2 .
Bartlett a propose le test suivant. Posons
M=

J
X
j=1

(nj 1) ln(s2 /s2j )

3. Mod`ele a` deux facteurs

41

et
c=

1
3(J 1)

J
X
(
j=1

J
X

1
) 1/
(nj 1) .
nj 1
j=1

Sous H0 et pour de grands e chantillons, la statistique M/(c + 1) suit un 2 a` (J 1) degres de liberte.


Dans les memes conditions, une approximation peut e tre fournie par la statistique
F =

dM
,
(J 1)(d/f M )

avec
f = (1 c) + 2/d et d = (J + 1)/c2 ,
qui suit une loi de Fisher a` (J 1) et d degres de liberte.
Neanmoins ce test nest pas robuste a` la violation de lhypoth`ese de normalite. Cest pourquoi il lui est
prefere la methode de Levene qui consid`ere les variables :
Zij = |yij y.j |
sur lesquelles est calculee une analyse de variance. Malgre que les Zij ne soient ni independantes ni identiquement distribuees suivant une loi normale, la statistique de Fisher issue de lANOVA fournit un test
raisonnable de lhomoscedasticite.
Le graphique representant le nuage des residus ou les boites a` moustaches en fonction des niveaux
du facteur compl`ete tr`es utilement le diagnostic.
En cas dheteroscedasticite et comme en regression, une
transformation de la variable a` expliquer Y ( Y , ln(Y ), 1/Y . . .) permet de limiter les degats.

2.5

Tests non parametriques

Lorsque lhypoth`ese de normalite nest pas satisfaite et que la taille trop petite de lechantillon ne permet
pas de supposer des proprietes asymptotiques, une procedure non-parametrique peut encore e tre mise en
uvre. Elles sont des alternatives plausibles au test de Fisher pour tester legalite des moyennes.
La procedure la plus utilisee est la construction du test de Kruskal-Wallis basee sur les rangs. Toutes les
observations sont ordonnees selon les valeurs yij qui sont remplacees par leur rang rij , les ex quo sont
remplaces par leur rang moyen. On montre que la statistique de ce test, construite sur la somme des rangs a`
linterieur de chaque groupe, suit asymptotiquement une loi du 2 a` (J 1) degres de liberte.
Une autre procedure, utilisant cette fois des rangs normalises (aij = rij /(n + 1)) conduit a` une autre
statistique utilisee dans le test de van der Waerden.

Mod`ele a` deux facteurs

La consideration de deux (ou plus) facteurs explicatifs, dans un mod`ele danalyse de variance, engendre
plusieurs complications. La premi`ere concerne la notion dinteraction entre variables explicatives. Dautres
seront introduites dans la section suivante. Cette section decrit le cas de deux facteurs explicatifs croises
cest-`a-dire dont les niveaux dun facteur ne sont pas conditionnes par ceux de lautre. Les niveaux du
premier facteur sont notes par un indice j variant de 1 a` J, ceux du deuxi`eme par un indice k variant de 1 a`
K.
Pour chaque combinaison, on observe un meme nombre njk = c > 1 de repetitions ce qui nous place
dans le cas particulier dun plan e quilibre ou e quirepete. Ceci introduit des simplifications importantes
dans les estimations des param`etres ainsi que dans la decomposition des variances. Le cas plus general est
e voque dans la section suivante.

3.1

Mod`ele complet
On peut commencer par e crire un mod`ele de variance a` un facteur presentant J K niveaux (j, k) :

j = 1, . . . , J ;
k = 1, . . . , K ;
yijk = jk + ijk o`u

i = 1, . . . , njk = c ;

42

Chapitre 3. Analyses de variance et covariance

en supposant que les termes derreur ijk sont mutuellement independants et de meme loi. Chacun des
param`etres jk est estime sans biais par la moyenne
c

1X
yijk .
c i=1

y.jk =
Definissons e galement les moyennes suivantes :
y.j.

K
1 X
y.jk ,
K
k=1

y..k

J
1X
y.jk ,
J j=1

y...

J
K
1 X
1X
y.j. =
y..k .
J j=1
K
k=1

qui nont de sens que dans le cas e quirepete. La meme convention du point en indice est e galement utilisee
pour exprimer les moyennes des param`etres ijk .
Les moyennes de chaque cellule sont alors decomposees en plusieurs termes afin de faire apparatre
linfluence de chaque facteur :
Terme
Moyenne generale
Effet niveau j du 1er facteur
Effet niveau k du 2`eme facteur
Effet de linteraction

jk

Param`etre
..
j = j. ..
k = .k ..
= jk j. .k + ..

Estimation
y...
y.j. y...
y..k y...
y.jk y.j. y..k + y...

Avec les notations du tableau ci-dessus, on appelle .. leffet general, j. leffet du niveau j du premier
facteur, j leffet differentiel du niveau j du premier facteur (meme chose avec .k et k pour le 2`eme
facteur), jk leffet dinteraction des niveaux j et k.
Un mod`ele danalyse de variance a` deux facteurs secrit alors :

j = 1, . . . , J ;
k = 1, . . . , K ;
yijk = .. + j + k + jk + ijk o`u

i = 1, . . . , njk = c ;
avec les contraintes

J
X
j=1

j =

K
X

k = 0 ; k,

k=1

J
X
j=1

jk = 0 ; j,

K
X

jk = 0

k=1

qui decoulent de la definition des effets et assurent lunicite de la solution.

3.2

Interaction

Lorsque les param`etres dinteraction jk sont tous nuls, le mod`ele est dit additif ce qui correspond a`
une situation tr`es particuli`ere. Elle intervient lorsque
y.jk y..k = y.j. y...

j = 1, . . . J ; k = 1, . . . , K

ce qui signifie que les e carts relatifs du premier facteur sont independants du niveau k du 2`eme facteur (et
vice versa).
Graphiquement, cela se traduit dans la figure 3.1 qui illustre les comportements des moyennes des
cellules de mod`eles avec ou sans interaction (additif). Chaque ligne est appelee un profil, et la presence
dinteractions se caracterise par le croisement de ces profils tandis que le parallelisme indique labsence
dinteractions. La question est e videmment de tester si des croisements observes sont juges significatifs.
Attention, un manque de parallelisme peut aussi e tre du a` la presence dune relation non-lineaire entre
la variable Y et lun des facteurs.

3. Mod`ele a` deux facteurs

y.jk

43

y.jk

j=4
H

B @j=2
B

PB
A 
 A Hj=1

 J
@j=3
J


1 2 3 4 5 6

Avec interaction

6
Hj=3
J

Hj=1
J

J

JJ

Hj=4

JJ
Hj=2
J

1 2 3 4 5 6

Sans interaction

F IG . 3.1 Moyennes de la variable Y pour chaque niveau dun facteur en fonction des niveaux de lautre
facteur.

3.3

Mod`eles de regression

Comme dans le cas du mod`ele a` un facteur, lanalyse dun plan a` deux facteurs se ram`ene a` lestimation
et letude de mod`eles de regression sur variables indicatrices. En plus de celles des niveaux des deux facteurs
{111 , . . . , 11J }, et {121 , . . . , 12K }, la prise en compte de linteraction necessite de considerer les indicatrices
de chaque cellule ou traitement obtenues par produit des indicatrices des niveaux associes :
1
2
112
jk = 1j 1k ; j = 1 . . . , J ; k = 1, . . . , K.

Le mod`ele secrit alors avec une autre parametrisation :


y = 0 1 + 1,1 111 + + 1,J 11J + 2,1 121 + + 2,K 12K + 12,1 112
+ + 12,JK 112
1
J,K + u,
il comporte 1 + I + J + I J param`etres mais les colonnes de X sont soumises a` de nombreuses combinai` j ou k fixe. La matrice
sons lineaires : une par paquet de 11j ou de 12k et une pour chaque paquet de 112
jk a
X0 X nest pas inversible. Differentes approches sont proposees pour resoudre ce probl`eme didentifiabilite
des param`etres.
Supprimer une des indicatrices : en fonction de la base dindicatrices choisie, differents mod`eles et
donc differentes parametrisations sont considerees.
Ajouter une contrainte sur les param`etres afin de rendre unique la solution.
Chercher une solution a` partir dun inverse generalise1 de la matrice X0 X.
Dans le cas du mod`ele danalyse de variance a` un facteur, seule la premi`ere solution est couramment
employee. Les autres, plus generales, le sont dans le cas de plusieurs facteurs et justifiees par des plannifications plus complexes ; differents inverses generalises permettant de reconstruire les solutions avec
contraintes ou par e limination dune variable indicatrice. Les differents mod`eles consideres par les logiciels
conduisent alors a` des tests e quivalents mais attention, la matrice X et le vecteur prennent des significations differentes.

3.4

Strategie de test

Une premi`ere decomposition de la variance associee au test general de nullite de tous les param`etres est
proposee dans les logiciels mais celle-ci ne presente que peu dinteret. On consid`ere ensuite les sommes de

1 On

dit que la matrice A est inverse generalise de la matrice carree A si elle verifie : A AA = AA A = A .

44

Chapitre 3. Analyses de variance et covariance

carres specifiques au cas e quirepete :


SST =

c X
J X
K
X

(yijk y... )2

i=1 j=1 k=1

SS1 = cK

J
X

c X
J X
K
X
i=1 j=1 k=1

(
y.j. y... )2

=cK

j=1

SS2 = cJ

SSI = c

K
X

2
2
yijk
cJK y...
,

J
X

2
2
y.j.
cJK y...
,

j=1

(
y..k y... )2

=cJ

K
X

2
2
y..k
cJK y...
,

k=1

k=1

J X
K
X

J X
K
X

(
y.jk y.j. y..k + y... )2 =c

j=1 k=1

2
y.jk
cK

j=1 k=1

cJ

K
X

J
X

2
y.j.

j=1

2
2
y..k
+ cJK y...
,

k=1

SSE =

c X
J X
K
X

(yijk y.jk )2

i=1 j=1 k=1

c X
J X
K
X

2
yijk
c

i=1 j=1 k=1

J X
K
X

2
y.jk
.

j=1 k=1

Dans ce cas, il est facile de montrer que tous les doubles produits des decompositions sannulent (theor`eme
de Pythagore) et
SST = SS1 + SS2 + SSI + SSE.
On parle alors de plans orthogonaux et les trois hypoth`eses suivantes (associees a` des regroupements de
contrastes) peuvent e tre considerees de facon independante :
H03 : 11 = = JK = 0,
H02 : 1 = = K = 0,
H01 : 1 = = J = 0,

pas deffet dinteraction.


et H03 , pas deffet du 2`eme facteur
et H03 , pas deffet du 1er facteur

Elles sont e valuees dans la table ci-dessous qui presente lunique decomposition de la variance dans le cas
e quirepete2 .
Source de
variation
1er facteur
2`eme facteur
Interaction
Erreur
Total

d.d.l.

Somme
des carres

J 1
K 1
(J 1)(K 1)
JK(c 1)
cJK 1

SS1
SS2
SSI
SSE
SST

Variance

MS1=SS1/(J 1)
MS2=SS2/(K 1)
SSI
MSI= (J1)(K1)
MSE=SSE/JK(c 1)

MS1/MSE
MS2/MSE
MSI/MSE

Differentes strategies de test sont suivies dans la litterature mais la plus couramment pratiquee consiste
a` comparer le mod`ele complet avec chacun des sous-mod`eles :

Evaluer
H03 de presence ou absence des termes dinteraction. Il existe des mod`eles intermediaires de
structuration de linteraction mais le cas le plus simple du tout ou rien est retenu. Deux possibilites
se presentent alors.
i. Si linteraction est significativement presente alors les deux facteurs sont influents ne seraitce que par linteraction. Il ny a pas lieu de tester leur presence par H01 et H02 . Neanmoins
il est dusage de comparer les differentes statistiques F de test afin dapprecier les rapports
dinfluence entre les effets principaux et linteraction.
2 Les

options SS1,SS2, SS3, SS4 de SAS fournissent ainsi les memes resultats.

4. Probl`emes specifiques

45

ii. Si linteraction nest pas significativement presente, il reste alors a` tester leffet de chaque facteur. Certains auteurs re-estiment le mod`ele additif sans param`etre dinteraction (cf. remarque
ci-dessous). Cela est deconseille pour se proteger contre un manque possible de puissance du
test de linteraction. En effet, une faible interaction non decelee fausse lestimation s2 de 2 . Il
est donc preferable de conserver le mod`ele complet et de tester linfluence des facteurs par la
nullite des j et j a` partir des statistiques de la table ci-dessus.
Remarques
i. Si, compte tenu de connaissances a priori liees a` un probl`eme specifique, linteraction est e liminee
du mod`ele, on est donc conduit a` estimer un mod`ele additif plus simple (sans param`etres jk ). Dans
ce cas, le nombre de param`etres a` estimer et ainsi le nombre de degres de liberte, la somme de carres
SSE et donc lestimation s2 = M SE de 2 ne sont plus les valeurs fournies par la table danalyse
de variance ci-dessus. On distingue donc le cas dun mod`ele a priori additif dun mod`ele dans lequel
lhypoth`ese de nullite des interactions est acceptee.
ii. Dautres tests plus specifiques sont construits en considerant des combinaisons lineaires des param`etres (contrastes) ou en effectuant des comparaisons multiples comme dans le cas a` un facteur
(Bonferroni, Tukey, Scheffe. . . ).
iii. Les tests dhomogeneite des variances se traitent comme dans le cas du mod`ele a` un facteur en
considerant les JK combinaisons possibles.

4 Probl`emes specifiques
Certaines contraintes experimentales peuvent induire des specificites dans la planification et ainsi, par
consequence, dans le mod`ele danalyse de variance associe. Un expose detaille des situations possibles sort
du cadre de ce cours de 2`eme cycle. Nous nous contenterons de citer ici certains probl`emes courants en
soulignant les difficultes occasionnees et quelques e lements de solution.

4.1

Facteur bloc

Les facteurs peuvent jouer des roles differents. Certains sont controles par lexperimentateur qui sait
en fixer precisement le niveau, dautres, appeles blocs, sont des sources de variation propres aux procedes
experimentaux mais dont il faut tenir compte dans lanalyse car source dheterogeneite. Lexemple le plus
typique concerne lexperimentation agronomique en plein champ dans laquelle il est impossible de garantir
lhomogeneite des conditions climatiques, hydrometriques ou encore de fertilite. Chaque champ ou bloc est
donc decoupe en parcelles identiques qui recevront chacune un traitement.
Dans dautres situations, certaines mesures ne sont pas independantes, par exemple, lorsquelles sont
realisees sur les memes individus dans le cas de mesures repetees. Il est alors indispensable dintroduire un
facteur bloc rendant compte de la structure particuli`ere de lexperimentation.
Lobjectif est de separer pour controler au mieux les sources de variation. Une randomisation, ou
tirage au sort, est realise a` linterieur de chaque bloc afin de repartir au hasard, dans lespace, dans le
temps, lexperimentation des traitements ou combinaisons des autres facteurs.

4.2

Plan sans repetition

Si une seule experience ou mesure est realisee par cellule ou traitement, les composantes dinteraction
et residuelles sont confondues. Aucune hypoth`ese nest testable dans le cadre general precedent. Il est
neanmoins possible de se placer dans le cadre du mod`ele additif afin de tester linfluence de chaque facteur
sous lhypoth`ese implicite de non interaction.

4.3

Plans desequilibres, incomplets

Le cas de plans desequilibres, cest-`a-dire dans lesquels le nombre dobservations nest pas le meme
dans chaque cellule ou pour chaque traitement, necessite une attention particuli`ere, surtout si, en plus, des
cellules sont vides. Differents probl`emes surgissent alors :

46

Chapitre 3. Analyses de variance et covariance

les moyennes y.j. ou y..k definissant les estimateurs nont plus de sens,
les doubles produits des decompositions des sommes de carres ne se simplifient plus, il ny a plus
orthogonalite,
en consequence, les hypoth`eses precedentes ou ensembles de contrastes ne peuvent plus e tre consideres
de mani`ere independante.
Neanmoins, lapproche generale par mod`ele lineaire des indicatrices reste valide. La solution obtenue par
inverse generalise :
b = (X0 X) X0 y
nest pas unique mais est utilisee pour construire des fonctions estimables des e lements de b : k 0 b o`u k
est un vecteur definissant un contraste. Plusieurs contrastes lineairement independants e tant regroupes dans
une matrice K, lhypoth`ese associee : K0 b = 0 est alors testable en considerant la somme des carres
1

SSK = (K0 b)0 [K0 (X0 X) K]

(K0 b)

avec rang(K) pour nombre de degres de liberte.


Cette procedure `a la main de construction des tests e tant assez lourde, SAS propose letude dhypoth`eses standards a` travers quatre options. La premi`ere (SS1) fait intervenir lordre dintroduction
des facteurs et est plus particuli`erement adaptee aux mod`eles hierarchises, par exemple polynomiaux. La
troisi`eme (SS3) est conseillee dans les cas o`u les inegalites deffectifs nont pas de signification particuli`ere,
ne sont pas dependantes des niveaux des facteurs. Les deux autres options (SS2, SS4) ne sont gu`ere utilisees, SS4, prevue pour les plans incomplets peut fournir des resultats e tranges. En pratique standard, SS1
et SS3 sont comparees afin de sassurer ou non de lequirepartition puis les resultats de SS3 sont interpretes
comme dans le cas e quirepete.

4.4

Mod`eles a` plus de deux facteurs

La prise en compte de plus de deux facteurs dans un mod`ele danalyse de variance nintroduit pas de
probl`eme theorique fondamentalement nouveau. Seule la multiplication des indices et lexplosion combinatoire du nombre dinteractions a` considerer compliquent la mise en uvre pratique dautant que beaucoup
dexperimentations sont necessaires si la realisation dun plan complet est visee. Dans le cas contraire, tous
les niveaux dinteraction ne sont pas testables et, comme dans le cas sans repetition, il faudra considerer des
mod`eles moins ambitieux en supposant implicitement des hypoth`eses sur labsence dinteractions dordres
e leves. Si les facteurs sont tr`es nombreux, il est courant de limiter chacun a` 2 (ou 3 pour un mod`ele quadratique) niveaux et de ne considerer que certaines combinaisons deux a` deux de facteurs. On parle alors de
plans fractionnaires.

4.5

Facteurs hierarchises

Certains facteurs ou blocs peuvent par ailleurs e tre hierarchises ou embotes : les niveaux de certains
facteurs sont conditionnes par dautres facteurs. La composante dinteraction se confond alors avec la composante relative au facteur subordonne. Le mod`ele danalyse de variance adapte a` cette situation est dit
hierarchise. Dans SAS, une syntaxe particuli`ere permet de definir la structure.

5 Analyse de covariance
Lanalyse de covariance se situe encore dans le cadre general du mod`ele lineaire et o`u une variable
quantitative est expliquee par plusieurs variables a` la fois quantitatives et qualitatives. Dans les cas les
plus complexes, ont peut avoir plusieurs facteurs (variables qualitatives) avec une structure croisee ou
hierarchique ainsi que plusieurs variables quantitatives intervenant de mani`ere lineaire ou polynomiale.
Le principe general est toujours destimer des mod`eles intra-groupes et de faire apparatre (tester) des
effets differentiels inter-groupes des param`etres des regressions. Ainsi, dans le cas plus simple o`u seulement une variable parmi les explicatives est quantitative, nous sommes amenes a` tester lheterogeneite des
constantes et celle des pentes (interaction) entre differents mod`eles de regression lineaire.

5. Analyse de covariance

5.1

47

Mod`ele

Le mod`ele est explicite dans le cas e lementaire o`u une variable quantitative Y est expliquee par une
variable qualitative T a` J niveaux et une variable quantitative, appelee encore covariable, X. Pour
Pchaque
J
niveau j de T , on observe nj valeurs x1j , . . . , xnj j de X et nj valeurs y1j , . . . , ynj j de Y ; n = j=1 nj
est la taille de lechantillon.
En pratique, avant de lancer une procedure de modelisation et tests, une demarche exploratoire sappuyant sur une representation en couleur (une par modalite j de T) du nuage de points croisant Y et X
et associant les droites de regression permet de se faire une idee sur les effets respectifs des variables :
parallelisme des droites, e tirement, imbrication des sous-nuages.
On suppose que les moyennes conditionnelles E[Y |T ], cest-`a-dire calculees a` linterieur de chaque
cellule, sont dans le sous-espace vectoriel engendre par les variables explicatives quantitatives, ici X. Ceci
secrit :
yij = 0j + 1j xij + ij ; j = 1, . . . , J; i = 1, , nj
o`u les ij sont i.i.d. suivant une loi centree de variance 2 qui sera supposee N (0, 2 ) pour la construction
des tests.
Notons y le vecteur des observations [yij |i = 1, nj ; j = 1, J]0 mis en colonne, x le vecteur [xij |i =
1, nj ; j = 1, J]0 , u = [ij |i = 1, nj ; j = 1, J]0 le vecteur des erreurs, 1j les variables indicatrices des
niveaux et 1 la colonne de 1s. On note encore x.1j le produit terme a` terme des deux vecteurs, cest-`a-dire
le vecteur contenant les observations de X sur les individus prenant le niveau j de T et des zeros ailleurs.
La resolution simultanee des J mod`eles de regression est alors obtenue en considerant globalement le
mod`ele :
y = X + u
dans lequel X est la matrice n2J constituee des blocs [1j |x.1j ] ; j = 1, . . . , J. Lestimation de ce mod`ele
global conduit, par bloc, a` estimer les mod`eles de regression dans chacune des cellules.
Comme pour lanalyse de variance, les logiciels op`erent une reparametrisation faisant apparatre des
effets differentiels par rapport au dernier niveau (SAS/GLM, SAS/INSIGHT) ou par rapport a` un effet
moyen (Systat), afin dobtenir directement les bonnes hypoth`eses dans les tests. Ainsi, dans le premier cas,
on consid`ere la matrice de meme rang (sans la J e` me indicatrice)
X = [1|x|11 | |1J1 |x.11 | |x.1J1 ]
associee aux mod`eles :
yij = 0J + (0j 0J ) + 1J xij + (1j 1J )xij + ij ;

5.2

j = 1, . . . , J 1; i = 1, . . . , nj .

Tests
Differentes hypoth`eses sont alors testees en comparant le mod`ele complet
y = 0J 1 + (01 0J )11 + + (0J1 0J )1J1 + 1J x +
+ (11 1J )x.11 + + (1J1 1J )x.1J1 + u

a` chacun des mod`eles reduits :


(i)
(ii)
(iii)

y = 0J 1 + (01 0J )11 + + (0J1 0J )1J1 + 1J x + u


y = 0J 1 + (01 0J )11 + + (0J1 0J )1J1 +
+(1j 1J )x.11 + + (1J1 1J )x.1J1 + u
y = 0J 1 + 1J x + (1j 1J )x.11 + + (1J1 1J )x.1J1 + u

par un test de Fisher. Ceci revient a` considerer les hypoth`eses suivantes :


H0i : pas dinteraction, 11 = = 1J , les droites partagent la meme pente 1J ,
H0ii : 1J =0,

48

Chapitre 3. Analyses de variance et covariance

H0iii :01 = = 0J , les droites partagent la meme constante a` lorigine 0J .


On commence donc par e valuer i), si le test nest pas significatif, on regarde ii) qui, sil nest pas non
plus significatif, conduit a` labsence deffet de la variable X. De meme, toujours si i) nest pas significatif,
on sinteresse a` iii) pour juger de leffet du facteur T .

5.3

Cas general

Ce cadre theorique et les outils informatiques (SAS/GLM) permettent de considerer des mod`eles beaucoup plus complexes incluant plusieurs facteurs, plusieurs variables quantitatives, voire des polynomes de
celles-ci, ainsi que les diverses interactions entre qualitatives et quantitatives. Le choix du bon mod`ele
devient vite complexe dautant que la strategie depend, comme pour la regression lineaire multiple, de
lobjectif vise :
descriptif : des outils multidimensionnels descriptifs (ACP, AFD, AFCM. . . ) sav`erent souvent plus efficaces pour selectionner, en premi`ere approche, un sous-ensemble de variables explicatives avant
doperer une modelisation,
explicatif : de la prudence est requise dautant que les hypoth`eses ne peuvent e tre e valuees de facon
independante surtout si, en plus, des cellules sont desequilibrees ou vides,
predictif : la recherche dun mod`ele efficace, donc parcimonieux, peut conduire a` negliger des interactions
ou effets principaux lorsquune faible amelioration du R2 le justifie et meme si le test correspondant
apparat comme significatif. Lutilisation du Cp est possible mais en general ce crit`ere nest pas
calcule et dutilisation delicate pour definir ce quest le vrai mod`ele de reference. En revanche, le
PRESS donne des indications pertinentes.

6 Exemple
6.1

Les donnees

Les donnees, extraites de Jobson (1991), sont issues dune e tude marketing visant a` e tudier limpact
de differentes campagnes publicitaires sur les ventes de differents aliments. Un e chantillon ou panel de
familles a e te constitue en tenant compte du lieu dhabitation ainsi que de la constitution de la famille.
Chaque semaine, chacune de ces familles ont rempli un questionnaire decrivant les achats realises.
Nous nous limitons ici a` letude de limpact sur la consommation de lait de quatre campagnes diffusees
sur des chanes locales de television. Quatre villes, une par campagne publicitaire, ont e te choisies dans
cinq differentes regions geographiques. Les consommations en lait par chacune des six familles par ville
alors e te mesurees (en dollars) apr`es deux mois de campagne.
Les donnees se presentent sous la forme dun tableau a` 6 variables : la region geographique, les 4
consommations pour chacune des villes ou campagnes publicitaires diffusees, la taille de la famille.

6.2

Analyse de variance a` un facteur

Une premi`ere e tude sinteresse a` leffet du simple facteur type de campagne publicitaire. On suppose implicitement que les familles ont e te designees aleatoirement independamment de lappartenance
geographique ou de leur taille. La procedure SAS/ANOVA est utilisee dans le programme suivant. Elle plus
particuli`erement adaptee aux situations e quilibrees comme cest le cas pour cet exemple. Le cas desequilibre
ne pose pas de probl`eme majeur pour un mod`ele a` un facteur mais pour deux facteurs ou plus, un message
signale que les resultats sont fournis sous la responsabilite de lutilisateur. Dans ce cas, la procedure plus
generale SAS/GLM doit e tre utilisee.
Apr`es une reorganisation des donnees permettant de construire une nouvelle variable decrivant le facteur
pub ainsi que la variable unique consommation, le programme suivant a e te execute :
title;
options pagesize=66 linesize=110 nonumber nodate;
proc anova data=sasuser.milkcc;
class pub;

6. Exemple

49

model consom=pub;
means pub/bon scheffe tukey;
run;
SAS/ANOVA estime les param`etres du mod`ele danalyse de variance a` un facteur puis presente ensuite
les resultats des tests de comparaison multiple demandes en option. Cette procedure signale explicitement
que des probl`emes peuvent apparatre si certains tests, specifiques au cas e quirepete, sont utilises hors
de leur contexte. Differentes options de presentation des resultats sont proposees : tests avec niveau parametrable (5% par defaut) de significativite, intervalles de confiance des differences ou des moyennes.
Dans cet exemple, une des trois procedures de tests utilisee ne conclut pas aux memes resultats. Les tests
de Scheffe acceptent tous lhypoth`ese H0 degalite des differentes moyennes. on retrouve ainsi le caract`ere
conservatif de cette procedure.
La procedure SAS/NPAR1WAY a ensuite e te executee pour obtenir les resultats des test non-parametriques.
proc npar1way data=sasuser.milkcc;
class pub;
var consom;
run;
Les resultats sont encore mitiges.
Source
Model
Error
Corrected Total

DF
(1)
3
116
119

R-Square
0.075456(12)

(1)
(2)
(3)
(4)
(5)
(6)
(7)
(8)
(9)
(10)
(11)
(12)

Sum of Squares

Mean Square

F Value

4585.68048667(2) 1528.56016222(5) 3.16(7)


56187.44398000(3) 484.37451707(6)
60773.12446667(4)

C.V.
54.05283(11)

Root MSE
22.00851011(9)

Pr > F
0.0275(8)

CONSOM Mean
40.71666667(10)

degres de liberte pour le calcul des moyennes et la selection de la loi de Fisher du test global
SSB
SSW
SST=SSW+SSB
SSB/DF
s2 =MSE=SSW/DF est lestimation de u2
Statistique F du test de Fisher du mod`ele global
P (fp;np1 > F ) ; H0 est rejetee au niveau si P <
s =racine de MSE
moyenne empirique de la variable a` expliquee
Coefficient de variation 100 (9)/(10)
Coefficient de determination R2

Tukeys Studentized Range (HSD)


Alpha= 0.05 df= 116 MSE= 484.3745
Minimum Significant Difference= 14.813
Means with the same letter are not significantly different.
Tukey Grouping

B
B
B
B
B

Mean
A
A
A
A
A

PUB

51.030

30

39.647

30

37.239

30

34.951

30

50

Chapitre 3. Analyses de variance et covariance

CONSOM
70
60
50
40
30
20
10
1
PUB

2
.

REGION
2

5
4

F IG . 3.2 Profil moyen et profils de la consommation moyenne de chaque region en fonction du type de
campagne.

Test non-parametrique
Wilcoxon Scores (Rank Sums) for Variable CONSOM
Classified by Variable PUB
Sum of
Expected
Std Dev
PUB
N
Scores
Under H0
Under H0
1
30
1675.00000
1815.0
164.999427
2
30
1781.50000
1815.0
164.999427
3
30
1562.50000
1815.0
164.999427
4
30
2241.00000
1815.0
164.999427

Mean
Score
55.8333333
59.3833333
52.0833333
74.7000000

Kruskal-Wallis Test (Chi-Square Approximation)


CHISQ = 7.3266
DF = 3
Prob > CHISQ = 0.0622

6.3

Mod`ele a` deux facteurs


Une e tude graphique prealable des interactions est toujours instructive :

proc means data=sasuser.milkcc mean stderr;


class pub region;
var consom;
output out=cellmoy mean=moycons;
run;
symbol i=join v=dot cv=black ;
symbol2 i=join v=% cv=black h=2;
symbol3 i=join v=" cv=black h=2;
symbol4 i=join v=# cv=black h=2;
symbol5 i=join v=$ cv=black h=2;%$
proc gplot data=cellmoy;
plot moycons*region=pub;
run;
goptions reset=all; quit;
Nous sommes dans le cas e quirepete, la procedure SAS/ANOVA reste valide mais SAS/GLM, plus generale,
est utilisee et fournit dans ce cas les memes resultats. Cette procedure adaptee aux situations complexes
fournit e galement dautres options (contrastes, estimation des param`etres. . . ).
title;
options pagesize=66 linesize=110 nonumber nodate;
proc glm data=sasuser.milkcc;
class pub region;

6. Exemple

51

model consom= pub region pub*region;


run;

General Linear Models Procedure


(0)
Source
DF
Sum of Squares
Model
19
18391.10933333
Error
100
42382.01513333
Corrected Total
119
60773.12446667
R-Square
C.V.
Root MSE
0.302619
50.56134
20.58689271
Source

DF
(1)
3
4
12

PUB
REGION
PUB*REGION

(0)
(1)
(2)
(3)
(4)
(5)
(6)
(7)

6.4

Type III SS
4585.68048667(2)
4867.51141667(3)
8937.91743000(4)

Mean Square
967.95312281
423.82015133

F Value
2.28

Pr > F
0.0045

CONSOM Mean
40.71666667
Mean Square
(5)
1528.56016222
1216.87785417
744.82645250

F Value
(6)
3.61
2.87
1.76

Pr > F
(7)
0.0160
0.0268
0.0658

Tableau associe au test global de nullite de tous les param`etres.


Degres de liberte pour le calcul des moyennes et selection de la loi de Fisher.
SS1
SS2
SSI
SS1,2,I/DF
Statistique F pour chacun des tests
P (fp;np1 > F ) ; Hi est rejetee au niveau si P <

Analyse de covariance

La variable taille est quantitative. On sinteresse a` differents mod`eles de regression visant a` expliquer
la consommation en fonction de la taille de la famille conditionnellement au type de campagne publicitaire.
proc glm data=sasuser.milk;
class pub;
model consom=pub taille pub*taille;
run;
Les resultats ci-dessous conduiraient a` conclure a` une forte influence de la taille mais a` labsence dinfluence
du type de campagne. Les droites de regression ne semblent pas significativement differentes.
Source
PUB
TAILLE
TAILLE*PUB

(1)
(2)
(3)

DF
3
1
3

Type III SS
227.1807
40926.0157
309.8451

Mean Square
75.7269
40926.0157
103.2817

F Value
0.57
306.57
0.77

Pr > F
0.6377 (1)
0.0001 (2)
0.5111 (3)

Test de la significativite des differences des termes constants.


Test de linfluence du facteur quantitatif.
Test de la significativite des differences des pentes (interaction).

Neanmoins, compte tenu des resultats precedents (analyse de variance), le meme calcul est effectue
pour chaque region :
proc glm data=sasuser.milk;
by region;
class pub;

52

Chapitre 3. Analyses de variance et covariance

model consom=pub taille pub*taille;


run;
R
egion

Source

DF

Type III SS

Mean Square

F Value

Pr > F

PUB
TAILLE
TAILLE*PUB

3
1
3

72.02974
7178.32142
217.37048

24.00991
7178.32142
72.45683

4.62
1380.25
13.93

0.0164
0.0001
0.0001

PUB
TAILLE
TAILLE*PUB

3
1
3

231.73422
8655.25201
50.15069

77.24474
8655.25201
16.71690

30.36
3402.34
6.57

0.0001
0.0001
0.0042

PUB
TAILLE
TAILLE*PUB

3
1
3

79.54688
6993.30160
173.19305

26.51563
6993.30160
57.73102

6.01
1585.35
13.09

0.0061
0.0001
0.0001

PUB
TAILLE
TAILLE*PUB

3
1
3

415.66664
9743.37830
361.39556

138.55555
9743.37830
120.46519

15.23
1071.32
13.25

0.0001
0.0001
0.0001

PUB
TAILLE
TAILLE*PUB

3
1
3

15.35494
8513.28516
52.75119

5.11831
8513.28516
17.58373

0.79
1314.71
2.72

0.5168
0.0001
0.0793

Il apparat alors qu`a linterieur de chaque region (sauf region 5), les campagnes de publicite ont un
effet tant sur la constante que sur la pente.
Ceci incite donc a` se mefier des interactions et encourage a` toujours conserver le facteur bloc dans une
analyse. Une approche compl`ete, considerant a priori toutes les variables (3 facteurs), est ici necessaire (cf.
TP).

Exercices

Exo 1
On se place dans le cadre du mod`ele danalyse de variance a` un facteur :
yij = i + ij

i = 1, nj ; j = 1, J.

On se propose de comparer la regression de la variable Y sur deux syst`emes dindicatrices 1j des modalites
engendrant le meme espace. On rappelle les formules dinversion par bloc dune matrice carree A1 = B :
1
1
1
i. B11 = [A11 A12 A1
= A1
22 A21 ]
11 + A11 A12 B22 A21 A11
1
1
ii. B12 = A1
= A1
11 A12 [A22 A21 A11 A12 ]
11 A12 B22
1
1
1
iii. B21 = A22 A21 [A11 A12 A22 A21 ] = A1
22 A21 B11
1
1
1
iv. B22 = [A22 A21 A1
A
]
=
A
+
A
A
B11 A12 A1
12
21
11
22
22
22
Pour chacun des deux mod`eles de regression ci-dessous :
y
y

= 1 11 + + J 1J + u
= 0 1 + 1 11 + + J1 1J1 + u

(3.1)
(3.2)

exprimer les matrices X, X0 X, (X0 X)1 associees ainsi que le vecteur b des estimations des param`etres.

Exo 2
Considerons le mod`ele e quilibre danalyse de variance a` deux facteurs :

j = 1, . . . , J ;
k = 1, . . . , K ;
yijk = jk + ijk o`u

i = 1, . . . , njk = c ;
Les ijk sont supposes mutuellement independants et de meme distribution N (0, 2 ).

7. Exercices

53

i. Montrer la decomposition des sommes de carres : SST=SS1+SS2+SSI+SSE.


2
2
2
2
ii. Exprimer E[
y..k
], E[
y.j.
], E[
y.jk
], E[
y...
] en fonction de 2 , J, K et des param`etres , j. , .k , jk
(calculer dabord les moyennes puis les variances).

iii. En deduire que


E[SS1]

= 2 (J 1) + cK

J
X

(j. )2

j=1

E[SS2]

= 2 (K 1) + cJ

K
X

(.k )2

k=1

E[SSI]

= 2 (J 1)(K 1) + c

J X
K
X

(jk j. .k + )2

j=1 k=1

E[SSE]

= JK(c 1)

Exo 3
Un agronome a mesure le rendement dune culture de haricots en fonction de deux caract`eres : la variete
de lesp`ece (5 niveaux), et un traitement (3 niveaux). Il obtient 15 observations rangees dans le tableau cidessous.

T1
T2
T3

A
17.5
15.1
10.0

B
20.0
16.0
13.0

C
18.0
13.0
10.0

D
17.0
12.0
11.0

E
16.5
14.5
12.0

Il consid`ere comme mod`ele de reference un mod`ele gaussien.


i. Quobtiendrait-il en ajustant un mod`ele a` 2 facteurs avec interactions sur ces donnees (valeurs estimees, estimation de , residus) ? Est-il possible de tester la presence dinteraction ?
ii. Il veut estimer le mod`ele a` deux facteurs sans interaction avec SAS. Quelle procedure doit-il utiliser,
anova ou glm ?
iii. La procedure glm lui fournit les resultats suivant :
General Linear Models Procedure
Dependent Variable: RENDMNT
Sum of
Mean
Source
DF
Squares
Square
Model
6
125.74400000
20.95733333
Error
8
8.12533333
1.01566667
Corrected Total
14
133.86933333

Source
TRAIT
VARIET

R-Square
0.939304
DF
2
4

C.V.
7.011616
Type III SS
109.38133333
16.36266667

Root MSE
1.0078029
Mean Square
54.69066667
4.09066667

F Value
20.63

Pr > F
0.0002

RENDMNT Mean
14.373333
F Value
Pr > F
53.85
0.0001
4.03
0.0445

Quelles onclusions tirer sur leffet des facteurs ?


iv. Le test de Bonferroni de comparaison multiple sur les varietes puis sur les traitements donnent les
resultats ci-dessous :
Bon Grouping
A
B
C
Bon Grouping
A
A

Mean
17.8000
14.1200
11.2000
Mean
16.3333

N
5
5
5
N
3

TRAIT
T1
T2
T3
VARIET
B

54

Chapitre 3. Analyses de variance et covariance


A
A
A
A
A
A
A

14.3333

14.2000

13.6667

13.3333

Que peut-il conclure ? Est-ce coherent avec les resultats precedents ?

Exo4
El Ringo ach`ete du cafe vert dans le monde entier avant de le torrefier puis de le redistribuer. Son
probl`eme est de prevoir la perte de poids due a` la torrefaction. Cette perte, qui peut atteindre 20%, conditionne directement sa marge beneficiaire, elle doit e tre estimee le plus precisement possible au moment de
lachat afin de pouvoir negocier le prix au plus juste. Son nez, legendaire lors de la torrefaction, est innefficace sur du cafe vert. El Ringo fait lacquisition dun chromatographe qui peut lui fournir rapidement 5
indicateurs numeriques a` partir dun e chantillon. Il realise alors 189 experiences sur des e chantillons de
diverses provenances et construit un tableau contenant pour chaque e chantillon les mesures chromatographiques sur le cafe vert (lumin, xa, xb xy xgn) et la perte de poids apr`es torrefaction. Lobjectif
est de construire un bon mod`ele de prediction.
i. Grace a` son tableur il tente dexpliquer la perte par la variable lumin et obtient les resultats cidessous. Critiquez ceux-ci.
mod`
ele perte=lumin
Model
1
Error
187
C Total
188
Root MSE
Dep Mean
C.V.

837.16554
269.09343
1106.25897

1.19958
16.54958
7.24843

837.16554
1.43900

R-square
Adj R-sq

PERTE
24
22
20
18
16
14
12
10

581.768

0.0001

0.7568
0.7555

4
3
2
1
0
-1
-2
-3
10

20

30

40

50

LUMIN

8 10 12 14 16 18 20 22
PERTE predicted values

Regression de la perte en fonction de lumin et graphe des residus


ii. Son voisin physicien lui conseille une autre analyse, utilisant une variable Tlumin, qui fournit les
resultats suivants. Quelle est cette variable Tlumin ? Que devient le mod`ele ? Ce choix est-il fructueux ?
mod`
ele perte=Tlumin
Model
1
Error
187
C Total
188
Root MSE
Dep Mean
C.V.

893.41575
212.84322
1106.25897

1.06686
16.54958
6.44647

893.41575
1.13820

R-square
Adj R-sq

784.938

0.8076
0.8066

0.0001

7. Exercices

55

PERTE
24
22
20
18
16
14
12
10

4
3
2
1
0
-1
-2

0.024

0.067
t(lumin)

10 12 14 16 18 20 22
PERTE predicted values

Regression de la perte en fonction de t(lumin) et graphe des residus


iii. Le biologiste de lentreprise recommande, compte tenu des enjeux financiers e normes, dinvestir dans
le logiciel TASS. Il sugg`ere dintroduire toutes les variables initiales et certaines transformees par la
meme fonction T , dans un mod`ele de regression multiple et de ne retenir que le meilleur. Que
contient le tableau ci-dessous ? Quel mod`ele conseilleriez vous ?
The TASS System
modele perte=Tlumin lumin Txgn xgn Txy xy xa xb
R-square
Adj
C(p)
BIC Variables in Model
In
Rsq
1 0.876661 0.876001 63.9928 -56.6606 XA
1 0.820516 0.819556
177.3 12.9508 XB
--------------------------------------------2 0.892518 0.891362 33.9808 -80.3970 XA XGN
2 0.889934 0.888750 39.1974 -76.0409 XA XY
-----------------------------------------------3 0.902013 0.900424 16.8117 -95.4315 LUMIN XA XB
3 0.899415 0.897784 22.0572 -90.6881 XA XGN TXGN
-----------------------------------------------------4 0.905612 0.903560 11.5466
-100.2 LUMIN XA XB TXGN
4 0.904280 0.902200 14.2352 -97.7154 LUMIN TLUMIN XA XB
------------------------------------------------------------5 0.910376 0.907927
3.9302
-107.4 LUMIN XA XB XY TXGN
5 0.907249 0.904715 10.2426
-101.3 LUMIN XA XB XGN TXGN
------------------------------------------------------------6 0.910557 0.907608
5.5647
-105.7 LUMIN XA XB XY TXY TXGN
6 0.910462 0.907510
5.7560
-105.5 LUMIN XA XB XY XGN TXGN
-----------------------------------------------------------------7 0.910732 0.907279
7.2117
-103.9 LUMIN TLUMIN XA XB XY TXY TXGN
7 0.910557 0.907098
7.5637
-103.6 LUMIN XA XB XY TXY XGN TXGN
---------------------------------------------------------------------8 0.910837 0.906874
9.0000
-102.0 LUMIN TLUMIN XA XB XY TXY XGN TXGN

iv. Un coll`egue du service financier remarque que le mod`ele ne tient pas compte de lorigine (Arabie,
Afrique, Amerique. . . ) du cafe vert alors que celle-ci est connue. Cette origine est codee de 1 a` 7 dans
une variable nommee cafe. Quelle methode, quelle strategie proposeriez vous afin de rechercher un
e ventuel meilleur mod`ele de prevision ? (5 lignes max).
v. La procedure de selection adoptee passe par les e tapes ci-dessous dont chacune est resumee par un
tableau de decomposition de la variance. Pour chacune de ces trois e tapes, indiquer le mod`ele a
essayer dans letape suivante.
modele perte= cafe Tlumin lumin Txgn xgn Txy xy xa xb
Type III Tests
Source
DF Sum of Squares Mean Square
CAFE
5
1.8525
0.3705
LUMIN
1
0.0284
0.0284
XA
1
0.0070
0.0070
XB
1
0.1649
0.1649
XY
1
0.1286
0.1286
XGN
1
0.1380
0.1380
TLUMIN
1
0.1880
0.1880
TXY
1
0.1845
0.1845
TXGN
1
0.0071
0.0071
LUMIN*CAFE
6
2.8909
0.4818

F Stat
1.2789
0.0981
0.0242
0.5692
0.4439
0.4764
0.6489
0.6367
0.0245
1.6631

Prob > F
0.2771
0.7546
0.8765
0.4520
0.5065
0.4913
0.4220
0.4264
0.8758
0.1354

56

Chapitre 3. Analyses de variance et covariance


XA*CAFE
XB*CAFE
XY*CAFE
XGN*CAFE
TLUMIN*CAFE
TXY*CAFE
TXGN*CAFE

6
6
6
6
4
5
6

Source
CAFE
LUMIN
XA
XB
XY
XGN
TLUMIN
TXY
TXGN
XA*CAFE
XB*CAFE
XY*CAFE
XGN*CAFE
TXY*CAFE
TXGN*CAFE

DF
6
1
1
1
1
1
1
1
1
6
6
6
6
6
6

Source
XA
XY
TLUMIN
TXY
TXGN
XA*CAFE
TXGN*CAFE

DF
1
1
1
1
1
6
6

Source
CAFE
TLUMIN
XA
XY
TXGN

DF
6
1
1
1
1

2.8391
0.4732
4.1561
0.6927
3.6205
0.6034
2.4229
0.4038
1.2644
0.3161
2.1247
0.4249
2.4673
0.4112
Type III Tests
Sum of Squares Mean Square
1.3293
0.2216
0.0069
0.0069
0.0016
0.0016
0.2542
0.2542
0.2079
0.2079
0.1889
0.1889
2.7040
2.7040
0.7597
0.7597
0.0801
0.0801
4.9587
0.8265
5.5532
0.9255
3.6637
0.6106
3.1080
0.5180
3.0950
0.5158
3.2415
0.5402
Type III Tests
Sum of Squares Mean Square
3.1569
3.1569
7.1315
7.1315
8.1339
8.1339
1.1789
1.1789
1.0512
1.0512
3.9667
0.6611
4.9245
0.8208
Type III Tests
Sum of Squares Mean Square
57.6901
9.6150
36.8761
36.8761
10.9798
10.9798
7.1634
7.1634
5.0804
5.0804

1.6333
2.3910
2.0829
1.3939
1.0911
1.4668
1.4194

0.1432
0.0320
0.0597
0.2221
0.3639
0.2053
0.2122

F Stat
0.7696
0.0240
0.0056
0.8830
0.7220
0.6563
9.3920
2.6388
0.2781
2.8706
3.2147
2.1209
1.7992
1.7917
1.8765

Prob > F
0.5951
0.8772
0.9402
0.3490
0.3970
0.4193
0.0026
0.1066
0.5988
0.0115
0.0055
0.0547
0.1036
0.1051
0.0890

F Stat
9.7080
21.9306
25.0131
3.6254
3.2327
2.0331
2.5239

Prob > F
0.0022
0.0001
0.0001
0.0586
0.0740
0.0640
0.0231

F Stat
27.18
104.26
31.04
20.25
14.36

Prob > F
0.0001
0.0001
0.0001
0.0001
0.0002

vi. Commenter la structure du mod`ele obtenu, discuter leffet de la variable cafe (5 lignes max).
vii. Le dernier mod`ele conduit aux estimations ci-dessous. Pour les valeurs observees suivantes :
caf
e=2 lumin=38.52 xa=11.57 xb=29.22 xy=10.38 xgn=8.05,
calculer la prevision de perte.
Variable
INTERCEPT
CAFE

Parameter Estimates
DF
Estimate
1
-29.2777
1
-3.7673
1
0.5179
1
-2.9310
1
-2.9151
1
-1.6011
1
-0.8837
0
0.0000
1
783.8576
1
1.5281
1
0.4947
1
-11.2462

CAFE
1
2
3
4
5
6
7

TLUMIN
XA
XY
TXGN

Std Error
6.0301
0.4022
0.1951
0.3302
0.3253
0.2474
0.2423
.
76.7671
0.2743
0.1099
2.9673

T Stat
-4.8552
-9.3676
2.6547
-8.8766
-8.9604
-6.4721
-3.6473
.
10.2109
5.5717
4.5004
-3.7900

viii. La procedure TMLG de TASS ne fournit pas, comme dans la question 3, le Cp de Mallows. En revanche elle fournit le PRESS. Commenter les resultats ci-dessous (5 lignes).
cafe
cafe
cafe
cafe

Variables
lumin xa xb xy
lumin xa xb xy
tlumin xa xb
tlumin xa
xy
tlumin xa xb xy

txgn
txgn
txgn
txgn
txgn

R2
0.910376
0.919257
0.942234
0.943091
0.943364

PRESS
105.2029
99.7226
72.4155
71.2120
71.5279

Chapitre 4

Mod`eles de denombrement
Les mod`eles decrits dans ce chapitre sinteressent plus particuli`erement a` la description ou lexplication
dobservations constitues deffectifs comme, par exemple, le nombre de succ`es dune variable de Bernouilli
lors dune sequence dessais ou encore le nombre dindividus qui prennent une combinaison donnee de
modalites de variables qualitatives ou niveaux de facteurs.
Contrairement aux mod`eles des chapitres precedents bases sur lhypoth`ese de normalite des observations, les lois concernees sont maintenant discr`etes et associees a` des denombrements : loi de Poisson,
binomiale, multinomiale. Neanmoins, tous les mod`eles consideres dans ce cours appartiennent a` la famille
des mod`eles lineaires generalises. Dans ce chapitre, nous definissons le contexte pratique de la regression
logistique et du mod`ele log-lineaire tandis que les aspects communs a` ces deux techniques, (estimation,
tests, diagnostic) et dont la strategie de mise en uvre est similaire au cas gaussien, sont detailles dans
lintroduction au mod`ele lineaire generalise presentee dans le chapitre suivant. Une premi`ere section definit
quelques notions relatives a` letude de la liaison entre variables qualitatives. Elles sont couramment utilisees
dans linterpretation des mod`eles de ce chapitre.

Odds et odds ratio

Une variable
Soit Y une variable qualitative a` J modalites. On designe la chance ou lodds1 de voir se realiser la
j e` me modalite plutot que la k`eme par le rapport
j
jk =
k
o`u j est la probabilite dapparition de la j e` me modalite. Cette quantite est estimee par le rapport nj /nk
des effectifs observes sur un e chantillon. Lorsque la variable est binaire et suit une loi de Bernouilli de
param`etre , lodds est le rapport /(1 ) qui exprime une cote ou chance de gain.
Table de contingence
On consid`ere maintenant une table de contingence 2 2 croisant deux variables qualitatives binaires
X 1 et X 2 . les param`etres de la loi conjointe se mettent dans une matrice :


11 12
21 22
o`u ij = P [{X 1 = i} et {X 2 = j}] est la probabilite doccurence de chaque combinaison.
Dans la ligne 1, lodds que la colonne 1 soit prise plutot que la colonne 2 est :
11
1 =
.
12
1 Il

nexiste pas, meme en Quebecois, de traduction consensuelle de odds.

57

58

Chapitre 4. Mod`eles de denombrement


Dans la ligne 2, lodds que la colonne 1 soit prise plutot que la colonne 2 est :
2 =

21
.
22

On appelle odds ratio le rapport


=

1
11 22
.
=
2
12 21

Ce rapport prend la valeur 1 si les variables sont independantes, il est superieur a` 1 si les sujets de la ligne
1 ont plus de chances de prendre la premi`ere colonne que les sujets de la ligne 2 et inferieur a` 1 sinon.
Lodds ratio est e galement defini pour deux lignes (a, b) et deux colonnes (c, d) quelconques dune table
de contingence croisant deux variables a` J et K modalites. Lodds ratio est le rapport
abcd =

2
2.1

ac bd
a
=
b
ad bc

b abcd = nac nbd .


estime par lodds ratio empirique
nad nbc

Regression logistique
Type de donnees

Cette section decrit la modelisation dune variable qualitative Z a` 2 modalites : 1 ou 0, succ`es ou e chec,
presence ou absence de maladie, panne dun e quipement, faillite dune entreprise, bon ou mauvais client. . . .
Les mod`eles de regression precedents adaptes a` lexplication dune variable quantitative ne sappliquent
plus directement car le regresseur lineaire usuel X ne prend pas des valeurs simplement binaires. Lobjectif
est adapte a` cette situation en cherchant a` expliquer les probabilites
= P (Z = 1)

ou

1 = P (Z = 0),

ou plutot une transformation de celles-ci, par lobservation conjointe des variables explicatives. Lidee est
en effet de faire intervenir une fonction reelle monotone g operant de [0, 1] dans IR et donc de chercher un
mod`ele lineaire de la forme :
g(i ) = x0i .
Il existe de nombreuses fonctions, dont le graphe presente une forme sigmodale et qui sont candidates
pour remplir ce role, trois sont pratiquement disponibles dans les logiciels :
probit : g est alors la fonction inverse de la fonction de repartition dune loi normale, mais son expression
nest pas explicite.
log-log avec g definie par
g() = ln[ ln(1 )]
mais cette fonction est dissymetrique.
logit est definie par
g() = logit() = ln

avec g 1 (x) =

ex
.
1 + ex

Plusieurs raisons, tant theoriques que pratiques, font preferer cette derni`ere solution. Le rapport /(1
), qui exprime une cote, est lodds et la regression logistique sinterpr`ete donc comme la recherche
dune modelisation lineaire du log odds tandis que les coefficients de certains mod`eles expriment des
odds ratio cest-`a-dire linfluence dun facteur qualitatif sur le risque (ou la chance) dun e chec (dun
succ`es) de Z.
Cette section se limite a` la description de lusage e lementaire de la regression logistique. Des complements
concernant lexplication dune variable qualitative ordinale (plusieurs modalites), lintervention de variables
explicatives avec effet aleatoire, lutilisation de mesures repetees donc dependantes, sont a` rechercher dans
la bibliographie.

3. Mod`ele log-lineaire

2.2

59

Mod`ele binomial

On consid`ere, pour i = 1, . . . , I, differentes valeurs fixees x1i , . . . , xqi des variables explicatives X 1 , . . . , X q .
Ces derni`eres pouvant e tre des variables quantitatives ou encore des variables qualitatives, cest-`a-dire des
facteurs issus dune planification experimentale.
Pour chaque groupe,
PI cest-`a-dire pour chacune des combinaisons de valeurs ou facteurs, on realise ni
observations (n = i=1 ni ) de la variable Z qui se mettent sous la forme y1 /n1 , . . . , yI /nI o`u yi designe le
nombre de succ`es observes lors des ni essais. On suppose que toutes les observations sont independantes
et qu`a linterieur dun meme groupe, la probabilite i de succ`es est constante. Alors, la variable Yi sachant
ni et desperance E(Yi ) = ni i suit une loi binomiale B(ni , i ) dont la fonction de densite secrit :
 
ni yi
P (Y = yi ) =
(1 i )(ni yi ) .
yi i
On suppose que le vecteur des fonctions logit des probabilites i appartient au sous-espace vect{X 1 , . . . , X q }
engendre par les variables explicatives :
logit(i ) = x0i

i = 1, . . . , I

ce qui secrit encore


0

exi
i =
0
1 + exi

i = 1, . . . , I.

Le vecteur des param`etres est estime par maximisation de la log-vraisemblance. Il ny a pas de solution
analytique, celle-ci est obtenue par des methodes numeriques iteratives (par exemple Newton Raphson)
dont certaines reviennent a` iterer des estimations de mod`eles de regression par moindres carres generalises
avec des poids et des metriques adaptes a` chaque iteration.
Loptimisation fournit une estimation b de , il est alors facile den deduire les estimations ou previsions
des probabilites i :
0
exi b

bi =
0
1 + exi b
et ainsi celles des effectifs
ybi = ni
bi .
Remarques
i. La matrice X issue de la planification experimentale est construite avec les memes r`egles que celles
utilisees dans le cadre de lanalyse de covariance mixant variables explicatives quantitatives et qualitatives. Ainsi, les logiciels g`erent avec plus ou moins de clarte le choix des variables indicatrices et
donc des param`etres estimables ou contrastes associes.
ii. La situation decrite precedemment correspond a` lobservation de donnees groupees. Dans de nombreuses situations concr`etes et souvent d`es quil y a des variables explicatives quantitatives, les observations xi sont toutes distinctes. Ceci revient donc a` fixer ni = 1; i = 1, . . . , I dans les expressions
precedentes et la loi de Bernouilli remplace la loi binomiale. Certaines methodes ne sont alors plus
applicables et les comportements asymptotiques des distributions des statistiques de test ne sont plus
valides, le nombre de param`etres tendant vers linfini.

3
3.1

Mod`ele log-lineaire
Types de donnees

Les donnees se presentent generalement sous la forme dune table de contingence obtenue par le croisement de plusieurs variables qualitatives et dont chaque cellule contient un effectif ou une frequence a`
modeliser. Nous nous limiterons a` letude dune table e lementaire en laissant de cote des structures plus
complexes, par exemple lorsque des zeros structurels, des independances conditionnelles, des proprietes de

60

Chapitre 4. Mod`eles de denombrement

symetrie ou quasi-symetrie, une table creuse, sont a` prendre en compte. Dautre part, sous sa forme la plus
generale, le mod`ele peut integrer e galement des variables quantitatives.
Ce type de situation se retrouve en analyse des correspondances simple ou multiple mais ici, lobjectif
est dexpliquer ou de modeliser les effectifs en fonction des modalites prises par les variables qualitatives.
Lobjectif final pouvant e tre explicatif : tester une structure de dependance particuli`ere, ou predictif avec
choix dun mod`ele parcimonieux.

3.2

Distributions

On consid`ere la table de contingence compl`ete constituee a` partir de lobservation des variables qualitatives X 1 , X 2 , . . . , X p sur un e chantillon de n individus. Les effectifs {yjk...l ; j = 1, J; k = 1, K; . . . ; l =
1, L} de chaque cellule sont ranges dans un vecteur y a` I(I = J K L) composantes. Differentes
hypoth`eses sur les distributions sont considerees en fonction du contexte experimental.
Poisson
Le mod`ele le plus simple consiste a` supposer que les variables observees Yi suivent des lois de Poisson
independantes de param`etre i = E(Yi ). La distribution conjointe admet alors pour densite :
f (y, ) =

I
Y
yi ei
i

i=1

yi !

P
La somme N (N = y+ = i yi ) des IPvariables aleatoires de Poisson independantes est e galement une
variable de Poisson de param`etre + = i i .
Multinomiale
En pratique, le nombre total n dobservations est souvent fixe a priori par lexperimentateur et ceci
induit une contrainte sur la somme des yi . La distribution conjointe des variables Yi est alors conditionnee
par n et la densite devient :
 n +
I
Y
+ e
yi i ei
f (y, ) =
.
yi !
n!
i=1
Comme n+ =

y+i et e+ =

f (y, ) = n!

ei , en posant i =

I
Y
yi
i

i=1

yi !

avec

I
X

i
+ ,

on obtient :

i = 1 et 0 i 1; i = 1, I.

i=1

On verifie donc que f (y, ) est la fonction de densite dune loi multinomiale dans laquelle les param`etres
i modelisent les probabilites doccurrence associees a` chaque cellule. Dans ce cas, E(Yi ) = ni .
Produit de multinomiales
Dans dautres circonstances, des effectifs marginaux lignes, colonnes ou sous-tables, peuvent e tre e galement
fixes par lexperimentateur comme dans le cas dun sondage stratifie. Cela correspond au cas o`u une ou plusieurs variables sont controlees et ont donc un role explicatif ; leurs modalites sont connues a priori. Les
lois de chacun des sous-elements de la table, conditionnees par leffectif marginal correspondant sont multinomiales. La loi conjointe de lensemble est alors un produit de multinomiales.
Consequence
Trois mod`eles de distribution : Poisson, multinomial, produit de multinomiales, sont envisageables pour
modeliser Yi en fonction des conditions experimentales. Dun point de vue theorique, on montre que ces
mod`eles conduisent aux memes estimations des param`etres par maximum de vraisemblance. La difference
introduite par le conditionnement intervient par une contrainte qui impose la presence de certains param`etres
dans le mod`ele, ceux reconstruisant les marges fixees.

3. Mod`ele log-lineaire

3.3

61

Mod`eles a` 2 variables

Soit une table de contingence (J K) issue du croisement de deux variables qualitatives X 1 a` J


modalites et X 2 a` K modalites et dont leffectif total n est fixe. La loi conjointe des effectifs Yjk de chaque
cellule est une loi multinomiale de param`etre jk et desperance :
E(Yjk ) = njk .
Par definition, les variables X 1 et X 2 sont independantes si et seulement si :
jk = +k j+
o`u j+ (resp. +k ) designe la loi marginale de X 1 (resp. X 2 ) :
j+ =

K
X

jk

et +k =

J
X

jk .

j=1

k=1

Si lindependance nest pas verifiee, on peut decomposer :


E(Yjk ) = njk = nj+ +k

jk
.
j+ +k

Notons jk = ln(E(Yjk )). Lintervention de la fonction logarithme permet de lineariser la decomposition


precedente autour du mod`ele dindependance :


jk
jk = ln n + ln j+ + ln +k + ln
.
j+ +k
Ce mod`ele est dit sature car, presentant autant de param`etres que de donnees, il explique exactement cellesci. Lindependance est verifiee si le dernier terme de cette expression, exprimant une dependance ou interaction comme dans le mod`ele danalyse de variance, est nul pour tout couple (j, k).
Les logiciels mettent en place dautres parametrisations en faisant apparatre des effets differentiels, soit
par rapport a` une moyenne, soit par rapport a` la derni`ere modalite.
Dans le premier cas, en posant :
0

J
K
1 XX
jk = .. ,
JK j=1

k=1

j1
k2
12
jk

1
K

K
X

jk .. = j. .. ,

k=1

J
1X
jk .. = .k .. ,
J j=1

= jk j. .k + .. ,

avec les relations :


j, k,

J
X
j=1

j1

K
X
k=1

k2

J
X
j=1

12
jk

K
X

12
jk
= 0,

k=1

le mod`ele sature secrit :


12
ln(E(Yjk )) = jk = 0 + j1 + k2 + jk
.

Il se met sous la forme matricielle


= X

62

Chapitre 4. Mod`eles de denombrement

o`u X est la matrice experimentale (design matrix) contenant les indicatrices. Lindependance est obtenue
12
lorsque tous les termes dinteraction jk
sont nuls.
La deuxi`eme parametrisation consid`ere la decomposition :
Jk jK jk JK
.
jk = JK
JK JK Jk jK
En posant :
0
j1

=
=

ln n + ln JK ,
ln jK ln JK ,

k2
12
jk

=
=

ln Jk ln JK ,
ln jk ln jK ln Jk + ln JK ,

avec les memes relations entre les param`etres. Le mod`ele se met encore sous la forme :
= X
12
et se ram`ene a` lindependance si tous les param`etres jk
sont nuls.

Si lhypoth`ese dindependance est verifiee, on peut encore analyser les effets principaux :
si, j, j1 = 0

alors, jk = Jk =

1
+k .
J

Il y a e quiprobabilite des modalites de X 1 . Meme chose avec X 2 si les termes k2 sont tous nuls.
Les param`etres du mod`ele log-lineaire sont estimes en maximisant la log-vraisemblance dont lexplicitation est reportee au chapitre suivant comme cas particulier de mod`ele lineaire generalise. Pour les mod`eles
simples, les estimations sont deduites des effectifs marginaux mais comme, d`es que le mod`ele est plus complique, des methodes iteratives sont necessaires, elles sont systematiquement mises en uvre.

3.4

Mod`ele a` trois variables

On consid`ere une table de contingence (J KL) obtenue par croisement de trois variables qualitatives
X 1 , X 2 , X 3 . La definition des param`etres est conduite de mani`ere analogue au cas de deux variables en
faisant apparatre des effets principaux et des interactions. Le mod`ele sature se met sous la forme :
12
13
23
123
ln(E(Yjkl )) = jkl = 0 + j1 + k2 + l3 + jk
+ jl
+ kl
+ jkl

et peut aussi est presente sous forme matricielle.


Nous allons expliciter les sous-mod`eles obtenus par nullite de certains param`etres et qui correspondent a`
des structures particuli`eres dindependance. Une facon classique de nommer les mod`eles consiste a` ne citer
que les interactions retenues les plus complexes. Les autres, ainsi que les effets principaux, sont contenues
de par la structure hierarchique du mod`ele. Ainsi, le mod`ele sature est designe par (X 1 X 2 X 3 ) correspondant a` la syntaxe X1|X2|X3 de SAS.
Cas poissonnien ou multinomial
Seul le nombre total dobservations n est fixe dans le cas multinomial, ceci impose simplement la
presence de 0 dans le mod`ele.
i. Mod`ele partiel dassociation ou de tout interaction dordre 2 : (X 1 X 2 , X 2 X 3 , X 1 X 3 )
123
Les termes jkl
sont tous nuls, seules les interactions dordre 2 sont presentes. Cest le mod`ele
implicitement considere par lanalyse multiple des correspondances. Il secrit :
12
13
23
jk = 0 + j1 + k2 + l3 + jk
+ jl
+ kl
.

ii. Independance conditionnelle : (X 1 X 2 , X 1 X 3 )


Si, en plus, lun des termes dinteraction est nul, par exemple kl = 0 pour tout couple (k, l), on dit
que X 2 et X 3 sont independantes conditionnellement a` X 1 et le mod`ele devient :
12
13
jk = 0 + j1 + k2 + l3 + jk
+ jl
.

4. Choix de mod`ele

63

iii. Variable independante : (X 1 , X 2 X 3 )


Si deux termes dinteraction sont nuls : jl jk = 0 pour tout triplet (j, k, l), alors X 1 est independante
de X 2 et X 3 .
23
jk = 0 + j1 + k2 + l3 + kl
.
iv. Independance : (X 1 , X 2 , X 3 )
Tous les termes dinteraction sont nuls :
jk = 0 + j1 + k2 + l3
et les variables sont mutuellement independantes.
Produit de multinomiales
Si une variable est explicative, par exemple X 3 , ses marges sont fixees, le mod`ele doit necessairement
conserver les param`etres
jk = 0 + l3 +
Si deux variables sont explicatives, par exemple X 2 et X 3 , le mod`ele doit conserver les termes :
23
jk = 0 + k2 + l3 + kl
+

La generalisation a` plus de trois variables ne pose pas de probl`eme theorique. Les difficultes viennent de
lexplosion combinatoire du nombre de termes dinteraction et de la complexite des structures dindependance.
Dautre part, si le nombre de variables est grand, on est souvent confronte a` des tables de contingence
creuses (beaucoup de cellules vides) qui rendent defaillant le mod`ele log-lineaire. Une e tude exploratoire
(correspondances multiples par exemple) prealable est necessaire afin de reduire le nombre des variables
considerees et celui de leurs modalites.

4 Choix de mod`ele
4.1

Recherche pas a` pas

Principalement deux crit`eres (test du rapport de vraisemblance et test de Wald), decrits dans le chapitre suivant pour un cadre plus general, sont utilises. Ces crit`eres sont utilises comme le test de Fisher du
mod`ele lineaire gaussien. Ils permettent de comparer un mod`ele avec un sous-mod`ele et devaluer linteret
de la presence des termes complementaires. On suit ainsi une strategie descendante a` partir du mod`ele complet ou sature dans le cas du mod`ele log-lineaire. Lidee est de supprimer, un terme a` la fois, la composante
dinteraction ou leffet principal qui apparat comme le moins significatif au sens du rapport de vraisemblance ou du test de Wald. Les tests presentent une structure hierarchisee. SAS facilite cette recherche en
produisant une decomposition (Type III) de ces indices permettant de comparer chacun des sous-mod`eles
excluant un des termes avec le mod`ele les incluant tous.
Attention, du fait de lutilisation dune transformation non lineaire (logit), meme si des facteurs sont orthogonaux, aucune propriete dorthogonalite ne peut e tre prise en compte pour letude des hypoth`eses. Ceci
impose lelimination des termes un par un et la re-estimation du mod`ele. Dautre part, un terme principal
ne peut e tre supprime que sil nintervient plus dans des termes dinteraction. Enfin, selon les conditions
experimentales qui peuvent fixer les marges dune table de contingence, la presence de certains param`etres
est imposee dans un mod`ele log-lineaire.

4.2

Validation croisee

Pour le cas de la regression logistique, dautres demarches plus calculatoires sont mises en uvre pour
comparer ou e valuer des mod`eles. Disposant de deux e chantillons : un e chantillon dapprentissage et un de
test, des mod`eles sont estimes avec lechantillon dapprentissage et compares au regard de leur performance
sur lechantillon test.
Soit zi la valeur de la variable binaire pour la i`eme observation.
si
i > 0.5

alors
sinon

zi = 1,
zi = 0.

64

Chapitre 4. Mod`eles de denombrement

DEBIT
4
3
2
1
0
0
DILAT

2
VOLUME
0

4
1

F IG . 4.1 Nuage des modalites de Y dans les coordonnees des variables explicatives.
Un individu est dit bien classe si zi = zi et les mod`eles sont compares a` laide de leur pourcentage de bien
classes sur lechantillon test.
Si le nombre dobservations disponibles est trop faible, on peut systematiser cette demarche en e liminant
une a` une chaque observation pour construire n e chantillons dapprentissages tandis que les observations
e liminees servent successivement de test.

5
5.1

Exemples
Mod`ele binomial
Il y a au moins 5 facons differentes destimer une regression logistique avec SAS :

sas/logistic cette procedure nest utilisable que lorsque toutes les variables explicatives sont quantitatives, elle inclut en option un algorithme de recherche de mod`eles par selection ascendante, descendante ou pas a` pas.
sas/catmod est adaptee a` toute modelisation impliquant des variables qualitatives (mod`ele log-lineaire,
logit, probit. . . ) mais la parametrisation mise en uvre rend les resultats difficiles a` interpreter.
sas/genmod Cette procedure plus recente est arrivee avec la version 6.09. Elles est directement issue
des travaux sur le mod`ele lineaire generalise (Mc Cullagh et Nelder 1983) et sinscrit donc dans la
logique du logiciel GLIM pour la definition des mod`eles.
sas/insight est, pour le mod`ele lineaire generalise, une version interactive et graphique de sas/genmod.
Enfin, pour memoire, il existe de plus une option logit dans la procedure sas/probit. On se propose
de comparer les resultats sur differents jeux de donnees.
DebitsVolumes
On e tudie linfluence du debit et du volume dair inspire sur loccurence (codee 1) de la dilatation des
vaisseaux sanguins superficiels des membres inferieurs.
Reference : Pregibon, D. (1981) Logistic regression diagnostics, Annals of Stat., 9, 705-724.
Un graphique e lementaire representant les modalites de Y dans les coordonnees de X 1 X 2 est toujours
instructif. Il montre une separation raisonnable et de bon augure des deux nuages de points. Dans le cas
de nombreuses variables explicatives quantitatives, une analyse en composantes principales simpose. Les
formes des nuages representes, ainsi que lallure des distributions (etudiees prealablement), incitent dans
ce cas a` considerer par la suite les logarithmes des variables. Une variable (un) ne contenant que des 1

5. Exemples

65

denombrant le nombre dessais est necessaire dans la syntaxe de genmod. Les donnees sont en effet non
groupees.
Programmes et resultats :
proc logistic data=sasuser.debvol;
model dilat=l_debit l_volume;
run;
proc genmod data=sasuser.debvol;
model dilat/un=l_debit l_volume/d=bin;
run;
The LOGISTIC Procedure

Criterion
AIC
SC
-2 LOG L
Score

Variable
INTERCPT
L_DEBIT
L_VOLUME

DF
1
1
1

Intercept
Only
56.040
57.703
54.040
.
Parameter(2)
Estimate
2.8782
-4.5649
-5.1796

Intercept
and
Covariates
Chi-Square for Covariates
35.216
.
40.206
.
29.216(1)
24.824 with 2 DF (p=0.0001)
.
16.635 with 2 DF (p=0.0002)
Standard
Wald(3)
Pr >
Standardized
Error
Chi-Square Chi-Square Estimate
1.3214
4.7443
0.0294
.
1.8384
6.1653
0.0130
-2.085068
1.8653
7.7105
0.0055
-1.535372

Odds
Ratio
.
0.010
0.006

Association of Predicted Probabilities and Observed Responses(4)


Concordant = 93.7
Somers D = 0.874
Discordant = 6.3
Gamma
= 0.874
Tied
= 0.0
Tau-a
= 0.448
(380 pairs)
c
= 0.937

Cette procedure fournit des crit`eres de choix de mod`ele dont la deviance (1), le vecteur b des param`etres
(2) et les statistiques des tests (3) comparant le mod`ele excluant un terme par rapport au mod`ele complet tel
quil est decrit dans la commande.
The GENMOD Procedure
Criteria For Assessing Goodness Of Fit
Criterion
DF
Value
Value/DF
Deviance
36
29.2156
0.8115 (1)
Scaled Deviance
36
29.2156
0.8115 (2)
Pearson Chi-Square
36
34.2516
0.9514 (3)
Scaled Pearson X2
36
34.2516
0.9514
Log Likelihood
.
-14.6078
.

Parameter
INTERCEPT
L_DEBIT
L_VOLUME
SCALE (6)

(1)
(2)
(3)
(4)
(5)
(6)

Analysis Of Parameter Estimates


DF
Estimate (4) Std Err
ChiSquare (5) Pr>Chi
1
-2.8782
1.3214
4.7443
0.0294
1
4.5649
1.8384
6.1653
0.0130
1
5.1796
1.8653
7.7105
0.0055
0
1.0000
0.0000
.
.

Deviance du mod`ele par rapport au mod`ele sature.


Deviance ponderee si le param`etre dechelle est different de 1 en cas de sur-dispersion.
Statistique de Pearson, voisine de la deviance, comparant le mod`ele au mod`ele sature .
Param`etres du mod`ele.
Statistique des tests comparant le mod`ele excluant un terme par rapport au mod`ele complet.
Estimation du param`etre dechelle si la quasi-vraisemblance est utilisee.

Survie de poissons
On observe le nombre (Y parmi N) de dec`es de deux esp`eces de poissons en fonction de differentes
valeurs de la temperature de leau. Les donnees sont restructurees afin de faire apparatre dans une autre

66

Chapitre 4. Mod`eles de denombrement

table la variable dichotomique (suc) codant le dec`es ou la survie ainsi que la variable (effet) exprimant le
nombre doccurence de chaque situations. Cette presentation est imposee par la procedure catmod.
proc catmod data=sasuser.poisson;
weight effect;
direct temp;
model suc=temp espece espece*temp;
run;
proc genmod data=sasuser.poissonr;
class espece;
model y/n=temp espece espece*temp/ dist=bin;
run;
CATMOD PROCEDURE
MAXIMUM-LIKELIHOOD ANALYSIS-OF-VARIANCE TABLE
Source
DF
Chi-Square
Prob
-------------------------------------------------INTERCEPT
1
96.11
0.0000
TEMP
1
95.57
0.0000
ESPECE
1
0.02
0.8868
TEMP*ESPECE
1
0.38
0.5403
LIKELIHOOD RATIO
10
3.43
0.9694
ANALYSIS OF MAXIMUM-LIKELIHOOD ESTIMATES
Standard
ChiEffect
Parameter Estimate
Error
Square
Prob
---------------------------------------------------------------INTERCEPT
1 -12.0110
1.2251
96.11 0.0000
TEMP
2
0.4931
0.0504
95.57 0.0000
ESPECE
3
-0.1745
1.2251
0.02 0.8868
TEMP*ESPECE
4
-0.0309
0.0504
0.38 0.5403
GENMOD Procedure
Criteria For Assessing Goodness Of Fit
Criterion
DF
Value
Value/DF
Deviance
10
3.4297
0.3430
Scaled Deviance
10
3.4297
0.3430
Pearson Chi-Square
10
3.2340
0.3234
Scaled Pearson X2
10
3.2340
0.3234
Log Likelihood
.
-117.8030
.

Parameter
INTERCEPT
TEMP
ESPECE
ESPECE
TEMP*ESPECE
TEMP*ESPECE
SCALE

1
2
1
2

Analysis Of Parameter Estimates


DF
Estimate
Std Err
ChiSquare
1
-11.8366
1.8606
40.4704
1
0.5240
0.0800
42.8793
1
-0.3489
2.4503
0.0203
0
0.0000
0.0000
.
1
-0.0618
0.1009
0.3750
0
0.0000
0.0000
.
0
1.0000
0.0000
.

Pr>Chi
0.0001
0.0001
0.8868
.
0.5403
.
.

Les deux procedures produisent sur cet exemple les memes types de resultats : deviance par rapport au
mod`ele sature, decomposition de la vraisemblance et tests sur la presence des termes dans le mod`ele. La
difference majeure apparat dans la parametrisation utilisee qui conditionne les valeurs des estimations.
Neanmoins les mod`eles sont identiques. On peut sen assurer en explicitant le mod`ele pour chaque esp`ece
de poisson. Pour catmod esp`ece 1 et esp`ece 2 sont respectivement parametrees +1 et 1 tandis que
genmod utilise 1 et 0.

5.2

Mod`ele poissonien

On e tudie les resultats dune e tude prealable a` la legislation sur le port de la ceinture de securite dans la
province de lAlberta a` Edmonton au Canada (Jobson, 1991). Un e chantillon de 86 769 rapports daccidents
de voitures ont e te compulses afin dextraire une table croisant :

6. Exercices

67

i. Etat du conducteur : Normal ou Alcoolise


ii. Port de la ceinture : Oui Non
iii. Gravite des blessures : 0 : rien a` 3 : fatales
La procedure genmod est utilisee :
proc genmod data=sasuser.ceinture;
class co ce b ;
model effectif=co|ce|b @2 /type3 obstats dist=poisson;
run;
Une extraction des resultats donnent :
Criteria For Assessing Goodness Of Fit
Criterion
DF
Value
Value/DF
Deviance
3
5.0136
1.6712
LR Statistics For Type 3 Analysis
Source
DF
ChiSquare Pr>Chi
CO
CE
CO*CE
B
CO*B
CE*B

Parameter
INTERCEPT
CO
CE
CO*CE
B
B
B
CO*B
CO*B
CO*B
CE*B
CE*B
CE*B

EFFECTIF
12500
604
344
38
61971
...

A
N
A
0
1
2
A
A
A
N
N
N

0
1
2
0
1
2

Pred
12497
613.3370
337.8089
37.8677
61974

1
1
1
3
3
3

3431.0877
3041.5499
377.0042
28282.8778
474.7162
42.3170

0.0001
0.0001
0.0001
0.0001
0.0001
0.0001

Analysis Of Parameter Estimates


DF
Estimate
Std Err
ChiSquare
1
3.6341
0.1550
550.0570
1
-2.2152
0.1438
237.3628
1
1.8345
0.1655
122.8289
1
0.9343
0.0545
293.9236
1
5.7991
0.1552
1396.7752
1
2.7848
0.1598
303.6298
1
2.1884
0.1637
178.7983
1
-1.4622
0.1354
116.5900
1
-0.6872
0.1423
23.3154
1
-0.5535
0.1452
14.5293
1
-0.2333
0.1658
1.9807
1
-0.0902
0.1708
0.2786
1
0.0741
0.1748
0.1799
Observation Statistics
Xbeta
Std
HessWgt
9.4332
0.008930
12497
6.4189
0.0395
613.3370
5.8225
0.0530
337.8089
3.6341
0.1550
37.8677
11.0345
0.004016
61974

Pr>Chi
0.0001
0.0001
0.0001
0.0001
0.0001
0.0001
0.0001
0.0001
0.0001
0.0001
0.1593
0.5976
0.6715

Lower
12280
567.6707
304.5010
27.9495
61488

Upper
12718
662.6770
374.7601
51.3053
62464

Les resultats montrent que le mod`ele de toute interaction dordre 2 est acceptable (deviance) et il semble
que tous les termes soient necessaires, toutes les interactions doivent e tre presentes au sens du test de Wald.

6 Exercices
Exo1
i. Expliciter la log-vraisemblance dun e chantillon de I observations de variables binomiales de param`etres ni et i .

ii. Soit X une matrice de plan dexperience regroupant lobservation de p variables explicatives. Ecrire
la log-vraisemblance du mod`ele de regression logistique associe et son expression (en fonction de
i )
apr`es maximisation.

68

Chapitre 4. Mod`eles de denombrement

iii. Exprimer la log-vraisemblance du mod`ele sature en fonction de


i = yi /ni et la deviance du mod`ele.
iv. Exprimer la deviance en fonction du nombre de succ`es estimes (
y i = ni
i ). Que devient la deviance
si ni = 1 (donnees non groupees) ?
v. Deriver la log-vraisemblance du mod`ele et en deduire les e quations.
vi. On se place dans le cas particulier dune seule variable explicative X binaire (0,1) et sans interaction.
Montrer que lestimateur du M.V. du coefficient associe a` cette variable dans la regression logistique
est le log de son odds ratio avec la variable Y .

Exo2
Les donnees (Jobson 1992) e tudiees dans cet exercice sont issues dune enquete realisee aupr`es de
200 femmes mariees du Michigan. Les variables considerees sont les suivantes : THISYR, la variable a`
expliquer, (1) si la femme travaille lannee en cours, (0) sinon ; CHILD1 code la presence (1) ou labsence
(0) dun enfant de moins de 2 ans ; CHILD2 presence ou absence dun enfant entre 2 et 6 ans ; BLACK
lascendance noire (1) ou blanche (0) ; les autres variables, a ge (AGE), nombre dannees detudes (EDUC),
revenu du mari (HUBINC) sont quantitatives.
i. On sinteresse dabord a` expliquer la variable THISYR par la variable CHILD1. La table de contingence croisant ces deux variables sur les 100 premi`eres observations est :

0
THISYR
1

CHILD1
0 | 1
--------23 | 5
--------71 | 1

Completer la sortie SAS ci-dessous par les estimations des param`etres du mod`ele de regression logistique expliquant THISYR par CHILD1 sur ces memes 100 observations.
Parameter
INTERCEPT
CHILD1
CHILD1
SCALE

0
1

Analysis Of Parameter Estimates


DF
Estimate
Std Err
ChiSquare
1
??????
1.0954
2.1586
1
??????
1.1214
5.9553
0
??????
0.0000
.
0
1.0000
0.0000
.

Pr>Chi
0.1418
0.0147
.
.

ii. On se propose de rechercher un meilleur mod`ele predictif de la variable THISYR a` partir des
variables explicatives et de leurs e ventuelles interactions par une methode descendante, avec un seuil
a` 5%, basee soit sur le test de Wald soit sur celui du rapport de vraisemblance. Les tableaux ci-apr`es,
identifiees de A a` E, constituent des e tapes (dans le desordre) de ces recherches.
A
Source
HUBINC
AGE
EDUC
BLACK
CHILD1
CHILD2
B
SourceDF
HUBINC
CHILD1
CHILD2

Type III (LR) Tests


Chi-Sq Pr > Chi-Sq
8.2651
0.0040
3.1370
0.0765
5.9425
0.0148
3.2647
0.0708
12.8633
0.0003
3.4808
0.0621

Type III (Wald) Tests


Chi-Sq Pr > Chi-Sq
4.9989
0.0254
8.8465
0.0029
6.8243
0.0090

Type III (Wald) Tests


Source
Chi-Sq Pr > Chi-Sq
HUBINC
0.4228
0.5155
AGE
1.2265
0.2681
EDUC
3.0509
0.0807
BLACK
1.1083
0.2925
CHILD1
0.0050
0.9439
CHILD2
0.2103
0.6465
HUBINC*BLACK
0.7685
0.3807
HUBINC*CHILD1
0.2628
0.6082
HUBINC*CHILD2
1.9473
0.1629
AGE*BLACK
1.0663
0.3018
EDUC*CHILD2
0.3245
0.5689
BLACK*CHILD1
0.4325
0.5108

E
C

Type III (LR) Tests


Source
Chi-Sq Pr > Chi-Sq
HUBINC
8.3902
0.0038
AGE
9.9545
0.0016
EDUC
6.0457
0.0139
BLACK
2.7937
0.0946
CHILD1
11.0479
0.0009
AGE*BLACK
3.9512
0.0468

Source
HUBINC
AGE
EDUC
BLACK
CHILD1
CHILD2
AGE*BLACK

Type III (LR) Tests


Chi-Sq Pr > Chi-Sq
7.6979
0.0055
6.9126
0.0086
6.5164
0.0107
2.6241
0.1052
13.7913
0.0002
3.3785
0.0661
3.8489
0.0498

6. Exercices

69

Commenter chacun de ces tableaux en precisant sil sagit dune e tape intermediaire (indiquer quelle
est letape suivante), une e tape finale, une erreur de selection. Deduire de ces resultats les mod`eles
finalement retenus pour chacune des strategies de test (Wald, Vraisemblance).
iii. Pour le mod`ele issu du rapport de vraisemblance, interpreter le signe de chacun des param`etres associes aux effets principaux (resultats en annexe).
iv. Toujours pour ce mod`ele, expliciter les param`etres mod`elisant le logit de la probabilite de travailler
pour une femme blanche sans enfant et celui pour une femme noire e galement sans enfant. Comment
interpreter linteraction black*age ?
v. De son cote, Jobson (1992) retient le mod`ele explicatif considerant tous les effets principaux sans
interaction (resultats en annexe). Sur le crit`ere de la deviance des mod`eles retenus (Jobson, Wald,
Vraisemblance), lequel vous semble meilleur ? Les capacites predictives des mod`eles sont e valuees en
comparant les predictions et les observations de lechantillon utilise pour lestimation (APPRENTI)
puis celles de lautre partie de lechantillon (TEST) e galement de 100 personnes. Ces resultats sont
presentes ci-dessous a` laide de la procedure freq e ditant la table de contingence croisant la variable
observee et sa prediction. Quel mod`ele retiendriez vous ?
Mod`
ele issu du
test de Wald

Mod`
ele choisi
par Jobson(1992)

Mod`
ele issu du test du
rapport de Vraisemblance

A
P
P
R
E
N
T
I

THISYR
PREDY
Frequency| 0| 1|Total
---------+--+--+
0 |11|17| 28
---------+--+--+
1 | 3|69| 72
---------+--+--+
Total
14 86 100

THISYR
PREDY
Frequency| 0| 1|Total
---------+--+--+
0
|13|15| 28
---------+--+--+
1
| 5|67| 72
---------+--+--+
Total
18 82 100

THISYR
PREDY
Frequency| 0| 1|Total
---------+--+--+
0
|11|17| 28
---------+--+--+
1
| 5|67| 72
---------+--+--+
Total
16 84 100

T
E
S
T

THISYR
PREDY
Frequency| 0| 1|Total
---------+--+--+
0 | 8|29| 37
---------+--+--+
1 | 2|61| 63
---------+--+--+
Total
10 90 100

THISYR
PREDY
Frequency| 0| 1|Total
---------+--+--+
0
|14|23| 37
---------+--+--+
1
|12|51| 63
---------+--+--+
Total
26 74 100

THISYR
PREDY
Frequency| 0| 1|Total
---------+--+--+
0
|12|25| 37
---------+--+--+
1
| 6|57| 63
---------+--+--+
Total
18 82 100

Annexe
*********
*** model thisyr/un= hubinc child1 child2 / d=bin
*********
Criteria For Assessing Goodness Of Fit
Criterion
Value
Value/DF
Deviance
96
97.1842
Scaled Deviance
96
97.1842
Pearson Chi-Square
96
103.9713
Scaled Pearson X2
96
103.9713
Log Likelihood
.
-48.5921
Analysis Of Parameter Estimates
Parameter
DF
Estimate
INTERCEPT
1
-1.0479
HUBINC
1
-0.0822
CHILD1
0
1
3.4648
CHILD1
1
0
0.0000
CHILD2
1
-1.3973
SCALE
0
1.0000

Std Err
1.1296
0.0368
1.1649
0.0000
0.5349
0.0000

type3 wald;

1.0123
1.0123
1.0830
1.0830
.

ChiSquare
0.8606
4.9989
8.8465
.
6.8243
.

Pr>Chi
0.3536
0.0254
0.0029
.
0.0090
.

*********
*** model thisyr/un= age educ hubinc black child1 age*black / d=bin type3;
*********
Criteria For Assessing Goodness Of Fit
Criterion
Value
Value/DF
Deviance
93
87.6180
0.9421
Scaled Deviance
93
87.6180
0.9421
Pearson Chi-Square
93
85.3283
0.9175
Scaled Pearson X2
93
85.3283
0.9175

70

Chapitre 4. Mod`eles de denombrement


Log Likelihood

-43.8090

Analysis Of Parameter Estimates


Parameter
DF
Estimate
Std Err
INTERCEPT
1
-21.6781
9.2962
AGE
1
0.4816
0.2850
EDUC
1
0.5237
0.2621
HUBINC
1
-0.1077
0.0443
BLACK
0
1
10.3427
8.0157
BLACK
1
0
0.0000
0.0000
CHILD1
0
1
4.2153
1.6416
CHILD1
1
0
0.0000
0.0000
AGE*BLACK 0
1
-0.4005
0.2873
AGE*BLACK 1
0
0.0000
0.0000
SCALE
0
1.0000
0.0000

ChiSquare
5.4379
2.8560
3.9932
5.9135
1.6649
.
6.5937
.
1.9429
.
.

Pr>Chi
0.0197
0.0910
0.0457
0.0150
0.1969
.
0.0102
.
0.1634
.
.

*********
*** model thisyr/un= age educ hubinc black child1 child2 / d=bin type3;
*********
Criteria For Assessing Goodness Of Fit
Criterion
Value
Value/DF
Deviance
93
88.0884
0.9472
Scaled Deviance
93
88.0884
0.9472
Pearson Chi-Square
93
96.6526
1.0393
Scaled Pearson X2
93
96.6526
1.0393
Log Likelihood
.
-44.0442
.
Analysis Of Parameter Estimates
Parameter
DF
Estimate
Std Err
INTERCEPT
1
-9.0352
3.7849
AGE
1
0.0773
0.0441
EDUC
1
0.4777
0.2292
HUBINC
1
-0.1079
0.0448
BLACK
0
1
-1.5451
0.9426
BLACK
1
0
0.0000
0.0000
CHILD1
0
1
4.5179
1.5736
CHILD1
1
0
0.0000
0.0000
CHILD2
1
-1.1238
0.6051
SCALE
0
1.0000
0.0000

ChiSquare
5.6986
3.0766
4.3425
5.7929
2.6867
.
8.2428
.
3.4491
.

Pr>Chi
0.0170
0.0794
0.0372
0.0161
0.1012
.
0.0041
.
0.0633
.

Exo3
Soit trois variables qualitatives X 1 , X 2 et Y a` respectivement J, K, 2 modalites. Les observations sont
rangees dans une table de contingence I K 2. On se propose de comparer le mod`ele de regression
logistique expliquant Y par X 1 et X 2 (sans interaction) et le mod`ele log-lineaire (X 1 X 2 , X 1 Y, X 2 Y ).
Exprimer, dans la parametrisation de SAS, les coefficients du mod`ele logistique en fonction de ceux du
mod`ele log-lineaire. Verifier avec les sorties SAS ci-dessous.
proc genmod data=sasuser.logitlog;
class X1 X2;
freq effectif;
model Y/un=X1 X2 / dist=bin; run;
Parameter
INTERCEPT
X1
X1
X1
X2
X2
X2
X2
SCALE

1
2
3
1
2
3
4

DF
1
1
1
0
1
1
1
0
0

Estimate
0.2718
-0.6543
0.9647
0.0000
-1.7596
0.7703
-0.2806
0.0000
1.0000

Std Err
0.1497
0.1742
0.2139
0.0000
0.2460
0.2144
0.1915
0.0000
0.0000

proc genmod data=sasuser.logitlog;


class X1 X2 Y;
model effectif= X1|X2|Y @ 2 / dist=poi; run;

ChiSquare
3.2955
14.1151
20.3512
.
51.1764
12.9122
2.1482
.
.

Pr>Chi
0.0695
0.0002
0.0001
.
0.0001
0.0003
0.1427
.
.

6. Exercices
Parameter
INTERCEPT
X1
X1
X2
X2
X2
X1*X2
X1*X2
X1*X2
X1*X2
X1*X2
X1*X2
Y
X1*Y
X1*Y
X2*Y
X2*Y
X2*Y

71

1
2
1
2
3
1
1
1
2
2
2
0
1
2
1
2
3

1
2
3
1
2
3
0
0
0
0
0

DF
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1

Estimate
4.2698
-0.3361
-0.4994
-2.5940
-0.3524
-0.9784
0.5660
0.2183
0.2835
2.0398
-1.4646
1.4366
-0.2718
0.6543
-0.9647
1.7596
-0.7703
0.2806

Std Err
0.1101
0.1557
0.1741
0.2814
0.1662
0.1870
0.2647
0.2146
0.2208
0.2956
0.4093
0.2387
0.1497
0.1742
0.2139
0.2460
0.2144
0.1915

ChiSquare
1503.2299
4.6598
8.2265
84.9924
4.4950
27.3793
4.5725
1.0346
1.6482
47.6269
12.8021
36.2149
3.2955
14.1151
20.3512
51.1764
12.9122
2.1482

Pr>Chi
0.0001
0.0309
0.0041
0.0001
0.0340
0.0001
0.0325
0.3091
0.1992
0.0001
0.0003
0.0001
0.0695
0.0002
0.0001
0.0001
0.0003
0.1427

72

Chapitre 4. Mod`eles de denombrement

Chapitre 5

Introduction au mod`ele lineaire


generalise
Lobjet de ce chapitre est dintroduire le cadre theorique global permettant de regrouper tous les mod`eles
(lineaire gaussien, logit, log-lineaire) de ce cours et qui cherchent a` exprimer lesperance dune variable
reponse Y en fonction dune combinaison lineaire des variables explicatives. Le mod`ele lineaire generalise
developpe initialement en 1972 par Nelder et Wedderburn et dont on trouvera des exposes detailles dans
Nelder et Mc Cullagh (1983), Agresti (1990) ou Antoniadis et al. (1992), nest ici quesquisse afin de definir
les concepts communs a` ces mod`eles : famille exponentielle, estimation par maximum de vraisemblance,
tests, diagnostics, residus. Il est mis en uvre dans plusieurs logiciels dont GLIM, glm de Splus, genmod
et insight de SAS.

Composantes des mod`eles

Les mod`eles catalogues dans la classe des mod`eles lineaires generalises sont caracterises par trois composantes.

1.1

Distribution

La composante aleatoire identifie la distribution de probabilites de la variable a` expliquer. On suppose


que lechantillon statistique est constitue de n variables aleatoires {Yi ; i = 1, . . . , n} independantes admettant des distributions issues dune structure exponentielle. Cela signifie que les lois de ces variables sont
dominees par une meme mesure dite de reference et que la famille de leurs densites par rapport a` cette
mesure se met sous la forme :


yi i v(i )
f (yi ; i , ) = exp
+ w(yi , ) .
(5.1)
u()
Cette formulation inclut la plupart des lois usuelles comportant un ou deux param`etres : gaussienne,
gaussienne inverse, gamma, Poisson, binomiale. . . . Le param`etre i est appele param`etre naturel de la
famille exponentielle.
Attention, la mesure de reference change dune structure exponentielle a` lautre, la mesure de Lebesgues
pour une loi continue, une mesure discr`ete combinaison de masses de Dirac pour une loi discr`ete. Consulter Antoniadis et al. (1992) pour une presentation generale des structures exponentielles et des proprietes
asymptotiques des estimateurs de leurs param`etres.
Pour certaines lois, la fonction u est de la forme :

i
o`u les poids i sont les poids connus des observations, fixes ici a` 1 pour simplifier ; est appele alors param`etre de dispersion, cest un param`etre de nuisance intervenant, par exemple lorsque les variances des lois
u() =

73

74

Chapitre 5. Introduction au mod`ele lineaire generalise

gaussiennes sont inconnues, mais e gal a` 1 pour les lois a` un param`etre (Poisson, binomiale). Lexpression
de la structure exponentielle (5.1) se met alors sous la forme canonique en posant :
Q() =
a()
b(y)



v()
exp
,

= exp{w(y, )},

on obtient
f (yi , i ) = a(i )b(yi ) exp {yi Q(i )} .

1.2

(5.2)

Predicteur lineaire

Les observations planifiees des variables explicatives sont organisees dans la matrice X de planification dexperience (design matrix). Soit un vecteur de p param`etres, le predicteur lineaire, composante
deterministe du mod`ele, est le vecteur a` n composantes :
= X.

1.3

Lien

La troisi`eme composante exprime une relation fonctionnelle entre la composante aleatoire et le predicteur
lineaire. Soit {i = E(Yi ); i = 1, . . . , n}, on pose
i = g(i ) i = 1, . . . , n
o`u g, appelee fonction lien, est supposee monotone et differentiable. Ceci revient donc a` e crire un mod`ele
dans lequel une fonction de la moyenne appartient au sous-espace engendre par les variables explicatives :
g(i ) = x0i

i = 1, . . . , n.

La fonction lien qui associe la moyenne i au param`etre naturel est appelee fonction lien canonique. Dans
ce cas,
g(i ) = i = x0i .

1.4

Exemples

Loi gaussienne
Dans le cas dun e chantillon gaussien, les densites dune famille de lois N (i , 2 ) secrit :


(yi i )2
1
exp
f (yi , i ) =
2 2
2 2




n o
2
1 i
1 yi2
1
i
2
= exp 2 exp 2 ln(2 ) exp yi 2
2
2
2

En posant
i
i
= 2



1 2i
a(i ) = exp 2
2


1 y2
1
b(yi ) = exp i2 ln(2 2 ) .
2
2

Q(i )

la famille gaussienne se met sous la forme canonique (5.2) qui en fait une famille exponentielle de param`etre
de dispersion = 2 et de param`etre naturel
i = E(Yi ) = i
et donc de fonction lien canonique, la fonction identite.

2. Estimation

75

Loi de Bernouilli
Considerons n variables aleatoires binaires independantes Zi de probabilite de succ`es i et donc desperance
E(Zi ) = i . Les fonctions de densite de ces variables sont e lements de la famille :


i
f (zi , i ) = izi (1 i )1zi = (1 i ) exp zi ln
,
1 i
qui est la forme canonique dune structure exponentielle de param`etre naturel
i
i = ln
.
1 i
Cette relation definit la fonction logit pour fonction lien canonique associee a` ce mod`ele. La loi binomiale
conduit a` des resultats identiques en considerant les sommes de ni (ni connus) variables de Bernouilli.
Loi de Poisson
On consid`ere n variables independantes Yi de loi de Poisson de param`etre i = E(Yi ). Les Yi sont par
exemple les effectifs dune table de contingence. Ces variables admettent pour densites :
f (yi , i ) =

1
yi i ei
= exp {i }
exp {yi ln i }
yi !
yi !

qui sont issues dune structure exponentielle et, mises sous la forme canonique, de param`etre naturel
i = ln i
definissant comme fonction lien canonique le logarithme pour ce mod`ele.

Estimation

Lestimation des param`etres j est calculee en maximisant la log-vraisemblance du mod`ele lineaire


generalise. Celle-ci sexprime pour toute famille de distributions mise sous la forme (5.1) dune structure
exponentielle.

2.1

Expression des moments


Notons `(i , ; yi ) = ln f (yi ; i , ) la contribution de la i`eme observation a` la log-vraisemblance.
`(i , ; yi ) = [yi i v(i )]/u() + w(yi , ).

Letude du maximum de la log-vraisemblance necessite la connaissance des derivees :


`
i
2`
i2

[yi v 0 (i )]/u()

= v 00 (i )/u().

Pour des lois issues de structures exponentielles, les conditions de regularite verifiees permettent decrire :
 
 2 
 2
`
`
`
E
=E
= 0 et E
.
2

Alors,
E(Yi ) = i = v 0 (i )
et comme
E{v 00 (i )/u()} = E{[Yi v 0 (i )]/u()}2 = Var(Yi )/u2 ()
il vient donc :
Var(Yi ) = v 00 (i )u() ;
justifiant ainsi lappellation de param`etre de dispersion pour lorsque u est la fonction identite.

76

2.2

Chapitre 5. Introduction au mod`ele lineaire generalise

Equations
de vraisemblance

Considerons p variables explicatives dont les observations sont rangees dans la matrice de plan dexperience
X, un vecteur de p param`etres et le predicteur lineaire a` n composantes
= X.
La fonction lien g est supposee monotone differentiable telle que :
cest la fonction lien canonique si :

i = g(i ) ;

g(i ) = i .

Pour n observations supposees independantes et en tenant compte que depend de , la log-vraisemblance


secrit :
n
n
X
X
L() =
ln f (yi ; i , ) =
`(i , ; yi ).
i=1

Calculons

i=1

`i i i i
`i
=
.
j
i i i j

Comme
`i
i
i
i
i
j
i
i

[yi v 0 (i )]/u() = (yi i )/u(),

v 00 (i ) = Var(Yi )/u(),

xij

car i = x0i ,

depend de la fonction lien i = g(i ),

Les e quations de la vraisemblance sont :


n
X
(yi i )xij i
= 0 j = 1, . . . , p.
Var(Yi ) i
i=1

Ce sont des e quations non-lineaires en dont la resolution requiert des methodes iteratives dans lesquelles interviennent le Hessien (pour Newton-Raphson) ou la matrice dinformation (pour les Scores de
Fisher). La matrice dinformation est la matrice
= = X0 WX
de terme general
[=]jk = E


2
n
X
2 L()
xij xik i
=
j k
Var(Yi ) i
i=1

et o`u W est la matrice diagonale de ponderation :


[W]ii =

2.3

1
Var(Yi )

i
i

2
.

Fonction lien canonique

Dans le cas particulier o`u la fonction lien du mod`ele lineaire generalise utilisee est la fonction lien
canonique associee a` la structure exponentielle alors plusieurs simplifications interviennent :
i
i
i

= i = x0i ,
i
v 0 (i )
=
=
= v 00 (i ).
i
i

3. Qualite dajustement

77

Ainsi,
`i
(yi i ) 00
(yi i )
=
v (i )xij =
xij .
j
Var(Yi )
u()
2

L()
De plus, comme les termes
ne dependent plus de yi , on montre que le Hessien est e gal a` la matrice
j k
dinformation et donc les methodes de resolution du score de Fisher et de Newton-Raphson concident.

Si, de plus, u() est constante pour les observations, les e quations de vraisemblance deviennent :
X0 y = X0 .
Ainsi, dans le cas gaussien, le mod`ele secrivant = X avec la fonction de lien canonique identite, on
retrouve la solution :
1
b = (X0 X) X0 y
qui concide avec celle obtenue par minimisation des moindres carres.

3 Qualite dajustement
Il sagit devaluer la qualite dajustement du mod`ele sur la base des differences entre observations et
estimations. Plusieurs crit`eres sont proposes.

3.1

Deviance

Le mod`ele estime est compare avec le mod`ele dit sature, cest-`a-dire le mod`ele possedant autant de
param`etres que dobservations et estimant donc exactement les donnees. Cette comparaison est basee sur
lexpression de la deviance D des log-vraisemblances L et Lsat :
D = 2(L Lsat )
qui est le logarithme du carre du rapport des vraisemblances. Ce rapport remplace ou generalise lusage
des sommes de carres propres au cas gaussien et donc a` lestimation par moindres carres.
On montre quasymptotiquement, D suit une loi du 2 a` n p degres de liberte ce qui permet de
construire un test de rejet ou dacceptation du mod`ele selon que la deviance est jugee significativement ou
non importante.
Attention, lapproximation de la loi du 2 peut e tre douteuse. De plus, dans le cas de donnees non
groupees (mod`ele binomial), le cadre asymptotique nest plus adapte car le nombre de param`etres estimes
tend e galement vers linfini avec n et il ne faut plus se fier a` ce test.

3.2

Test de Pearson

Un test du 2 est e galement utilise pour comparer les valeurs observees yi a` leur prevision par le mod`ele.
La statistique du test est definie par
I
X
(yi
i )2
X2 =
c i )
Var(
i=1

(i est remplace par ni i dans le cas binomial) et on montre quelle admet asymptotiquement la meme loi
que la deviance.
En pratique ces deux approches conduisent a` des resultats peu differents et, dans le cas contraire, cest
une indication de mauvaise approximation de la loi asymptotique. Sachant que lesperance dune loi du 2
est son nombre de degres de liberte et, connaissant les aspects approximatifs des tests construits, lusage est
souvent de comparer les statistiques avec le nombre de degres de liberte. le mod`ele peut e tre juge satisfaisant
pour un rapport D/ddl plus petit que 1.

Tests
Deux crit`eres sont habituellement proposes pour aider au choix de mod`ele.

78

4.1

Chapitre 5. Introduction au mod`ele lineaire generalise

Rapport de vraisemblance

Comme dans le cas de la regression multiple o`u un test permet de comparer un mod`ele avec un mod`ele
reduit, le rapport de vraisemblance ou la difference de deviance est une e valuation de lapport des variables
explicatives supplementaires dans lajustement du mod`ele. La difference des deviances entre deux mod`eles
embotes respectivement a` q1 et q2 (q2 > q1 ) variables explicatives
D2 D1

= 2(L1 Lsat ) 2(L2 Lsat )


= 2(L1 L2 )

suit approximativement une loi du 2 a` (q2 q1 ) degres de liberte pour les lois a` 1 param`etre (binomial,
Poisson) et une loi de Fisher pour les lois a` deux param`etres (gaussienne). Ceci permet donc de tester la
significativite de la diminution de la deviance par lajout de variables explicatives ou la prise en compte
dinteractions.

4.2

Test de Wald

Ce test est base sur la forme quadratique faisant intervenir la matrice de covariance des param`etres,
linverse de la matrice dinformation observee (X0 WX)1 . Cette matrice est calculee a` partir du Hessien
approche par lalgorithme de maximisation. Elle generalise la matrice (X0 X)1 utilisee dans le cas du
mod`ele lineaire gaussien en faisant intervenir une matrice W de ponderation. Ainsi, test de Wald et test de
Fisher sont e quivalents dans le cas particulier du mod`ele gaussien.
Si la matrice K, dite contraste, definit lensemble H0 des hypoth`eses a` tester sur les param`etres :
K0 = 0,
on montre que la statistique
1

(K0 b)0 (K0 (X0 WX)

K)1 K0 b

suit asymptotiquement une loi du 2 .


Attention, le test de Wald, approximatif, peut ne pas e tre precis si le nombre dobservations est faible.

Diagnostics

De nombreux indicateurs, comme dans le cas de la regression lineaire multiple, sont proposes afin
devaluer la qualite ou la robustesse des mod`eles estimes. Ils concernent la detection des valeurs influentes
et letude graphique des residus. La definition de ces derniers pose quelques difficultes.

5.1

Effet levier
On construit la matrice de projection (hat matrix)
1

H = W1/2 X(X0 WX)

X0 )W1/2 ,

relative au produit scalaire de matrice W, sur le sous-espace engendre par les variables explicatives. Les
termes diagonaux de cette matrice superieurs a` (3p/n) indiquent des valeurs potentiellement influentes. Le
graphe representant les points dordonnees hii et dabscisses le numero de lobservation les visualise.

5.2

Residus

Avec des erreurs centrees, additives, cest-`a-dire dans le cas du mod`ele gaussien utilisant la fonction
lien identite, il est naturel de definir des residus par :
i = yi E(yi ) = yi i .
comme dans le cas du mod`ele lineaire. Ce cadre est ici inadapte au cas general et differents substituts sont
proposes. Chacun poss`ede par ailleurs une version standardisee et une version studentisee.

5. Diagnostics

79

Pearson
Les residus obtenus en comparant valeurs observees yi et valeurs predites yi sont ponderes par leur
precision estimee par lecart-type : si de yi . Ceci definit les residus de Pearson :
yi yi
si

rP i =

dont la somme des carres conduit a` la statistique du meme nom. Ces residus mesurent donc la contribution
de chaque observation a` la significativite du test decoulant de cette statistique. Par analogie au mod`ele
lineaire, on verifie que ce sont e galement les residus de la projection par la matrice H.
Ces residus ne sont pas de variance unite et sont donc difficiles a` interpreter. Une estimation de leurs
e carts-types conduit a` la definition des residus de Pearson standardises :
rP si =

yi yi

si hii

faisant intervenir le terme diagonal de la matrice H.


De plus, prenant en compte que les estimations des e carts-types si dependent de la i`eme observation
et sont donc biaises, des residus studentises sont obtenus en approchant au premier ordre le param`etre de
dispersion s(i) calcule sans la i`eme observation :
rP ti =

yi yi
.
s(i) hii

Deviance
Ces residus mesurent la contribution de chaque observation a` la deviance du mod`ele par rapport au
mod`ele sature. Des versions standardisees et studentisees en sont definies comme pour ceux de Pearson.
Anscombe
Les lois des residus precedents sont inconnues et meme dissymetriques. Anscombe a donc propose de
faire operer une transformation prealable afin de construire des residus suivant une loi normale :
rAi =

t(yi ) t(
yi )
.
0
t (yi )si

Lexplicitation de la fonction t dans le cadre du mod`ele lineaire generalise est relativement complexe mais
le calcul en est fourni par les logiciels. Comme precedemment, des versions standardisees et studentisees
sont e galement calculees.
Un graphe utilisant ces residus en ordonnees et les numeros dobservation en abscisses permet didentifier les observations les moins bien ajustees par le mod`ele.

5.3

Mesure dinfluence

De nombreux indicateurs sont proposes afin devaluer linfluence dune observation sur lestimation
dun param`etre, sur les predictions ou encore sur la variance des estimateurs. Le plus utilise, la distance
de Cook, mesure globalement linfluence sur lensemble des param`etres. Cest la distance, au sens de la
metrique definie par linverse de la covariance des param`etres, entre le vecteur des param`etres b estime
avec toutes les observations et celui estime lorsque la i`eme observation est supprimee.
Di =

1
(b b(i) )0 (X0 WX)1 (b b(i) ).
2

Cet indicateur prend simultanement en compte leffet levier et limportance du residu de chaque observation. Le graphe de ces valeurs est donc plus synthetique et interpretable en tenant compte du graphe des
residus et de celui des termes diagonaux de H.

80

Chapitre 5. Introduction au mod`ele lineaire generalise

Complements

6.1

Sur-dispersion

Dans certaines situations, par exemple lors dobservations dependantes, la variance de la variable Yi
supposee binomiale ou de Poisson, qui est theoriquement fixee par le mod`ele, est plus importante, multipliee
par un facteur dechelle (scale parameter) 2 . Si ce param`etre est plus grand que 1, on dit quil y a surdispersion. Une methode basee sur une maximisation de la formule de quasi-vraisemblance est alors utilisee
pour estimer a` la fois et .

6.2

Variable offset

Lorsque la variable a` expliquer dans le cas dun mod`ele lineaire generalise depend e galement lineairement
dune autre variable, cette derni`ere est declaree offset et sert ainsi a` tarer le mod`ele. Exemple : pour
modeliser le nombre de sinistres declares par categorie de conducteurs, la variable nombre de contrats est
declaree offset.

Exercices

Exo 1
Avec lhypoth`ese valide dans le cas des familles exponentielles (densites deux fois differentiables),
montrer les relations :
 2 
 2
 
`
`
`
= 0 et E
=E
.
E

Exo 2
i. On observe les realisations yi de n variables aleatoires independantes suivant des lois de Bernouilli de
param`etre i . Soit X la matrice (n (p + 1)) des observations issue de la planification experimentale
et contenant les variables explicatives. On sinteresse au mod`ele de regression logistique :
logit(i ) = x0i
o`u xi (1 (p + 1)) est le i`eme vecteur ligne de X mis en colonne et (1 (p + 1)) est le vecteur

des param`etres. Ecrire


la log-vraisemblance L de lechantillon z1 , . . . , zn en fonction des param`etres
du mod`ele.
ii. On note g = L/ le gradient de L ; cest le vecteur des derivees [L/0 , . . . , L/p ]0 . Soit
z le vecteur des observations et celui des i . Montrer que le gradient se met sous la forme g =
X0 z X0 (expliciter un terme general de ce vecteur).
iii. On note H le hessien de L ; cest la matrice ayant pour terme general la derivee seconde 2 L/j k .
Montrer que H se met sous la forme H = X0 WX et expliciter la matrice diagonale W en fonction
des i .
iv. La procedure de Newton-Raphson est utilisee pour approcher le maximum de la fonction L(z, X, )
relativement a` . Elle consiste a` calculer par recurrence une sequence bn destimateurs de telle que
valuations du
L(z, X, bn+1 ) > L(z, X, bn ). En notant respectivement H1
n = H|bn , dn et n les e
hessien, du gradient et de pour = bn , la recurrence secrit : bn+1 = bn Hn gn . Montrer que,
dans le cas de la regression logistique sur variables de Bernouilli, cette recurrence secrit :
bn+1 = bn + (X0 Wn X)1 (X0 z X0 n )
v.
vi.
vii.
viii.

et expliciter Wn .
Suivre la meme demarche en remplacant le mod`ele precedent par un mod`ele poissonien avec la
fonction lien canonique ln(i ) = x0i . Que deviennent la log-vraisemblance,
son gradient,
son Hessien,
la relation de recurrence ?

Bibliography
Agresti, A. (1990). Categorical data analysis. Wiley.
Antoniadis, A., Berruyer, J., and Carmona, R. (1992). Regression non lineaire et applications. Economica.
Collett, D. (1991). Modelling binary data. Chapman & Hall.
Dobson, A. (1990). An introduction to generalized linear models. Chapman and Hall.
Everitt, B. and Dunn, G. (1991). Applied Multivariate Data Analysis. Edward Arnold.
Jobson, J. (1991). Applied Multivariate Data Analysis, volume I : Regression and experimental design.
Springer-Verlag.
Jobson, J. (1992). Applied Multivariate Data Analysis, volume II : Categorical and multivariate methods.
Springer-Verlag.
McCullagh, P. and Nelder, J. (1983). Generalized Linear Models. Chapman & Hall.
Monfort, A. (1982). Cours de Statistique Mathematique. Economica.
SAS (1989). SAS/STAT Users Guide, volume 2. Sas Institute Inc., fourth edition. version 6.
SAS (1995). SAS/INSIGHT Users Guide. Sas Institute Inc., third edition. version 6.
Tomassonne, R., Audrain, S., Lesquoy-de Turckheim, E., and Millier, C. (1992). La regression, nouveaux
regards sur une ancienne methode statistique. Masson.

81