1
Ecriture g
en
erale du mod`
ele lin
eaire
1.1 Quelques consid erations g
en
erales : quest-ce quun mo-
d`
ele statistique ?
Soit une variable y que lon a mesuree sur differente unites experimentales.
Un des objectifs de lanalyse statistique est de comprendre les sources (et donc
peut-etre les causes) des variations de y. On note yi lobservation sur lunite
experimentale i et Yi la variable aleatoire correspondante (on consid`ere donc
autant de variables aleatoires differentes que dobservations). On cherche a` definir
une fonction qui relie les esperances des variable aleatoires Yi `a des variables
predictives que lon a aussi observees. On souhaite ecrire
yi = f (xi )
o`u f est une fonction, xi lensemble des variables predictives observees sur lunite
experimentale i et yi notre prediction pour lesperance de Yi . Cette fonction f
est bien un mod` ele, puisquelle permet de reproduire certains aspects, mais
probablement pas tous, de la variation de y. Si f peut secrire comme une fonction
affine (cest-`a-dire comme lequation dune droite), on parlera de mod` ele
lineaire .
Puisque notre mod`ele ne rend compte que dune partie de la variation de y, il
faut nous interesser a` la part de variation non expliquee. On la decrit simplement
par une variable aleatoire generalement notee i , ce qui donne
Yi = yi + i
1
La linearite de lequation decrivant lesperance est tr`es contraignante mathema-
tiquement mais elle permet malgre tout de bien representer de nombreuses
situations rencontrees en biologie. Le mod`ele lineaire suppose en outre que la
variable residuelle est normalement distribuee et de variance constante (toutes les
variables aleatoires i ont la meme variance). Ces deux suppositions (linearite de
la partie fixe liee a` lesperance et normalite de la partie aleatoire) sont toutes les
deux faites dans les analyses classiques que vous avez vues jusqu`a maintenant.
y = X + e.
2
lineaire, on dira que lespace des predictions est un sous-espace engendre par le
vecteur colonne X 1 .
La question qui se pose est alors de trouver la meilleure prediction possible et
donc la meilleur estimation du param`etre a. Dans ce but, il est intuitif de minimi-
ser les ecarts ou residus entre les valeurs predites par notre mod`ele et les valeurs
observees. Cette procedure dajustement du mod`ele se denomme la m ethode
des moindres carr es . Algebriquement, on sattachera a` minimiser la somme
des carres des residus appelee somme des carr es r
esiduelle :
X X X
SCER = e2i = (yi yi )2 = (yi a)2 .
i i i
=a
=
Y .
Les meilleures predictions possibles des yi valent alors :
=
Y
y
= X .
Y
y obs. 2
y2 y2 ~y
~e = ~y ~y
e2
y
~y
e1
y1 ~1
y1 obs. 1
Figure 1 Deux representations du mod`ele Yi = a + i . A ` gauche, une
representation conventionnelle, chaque valeur observee etant representee par
un point. A ` droite, les donnees sont representees dans le plan defini par les
deux observations. Le vecteur ~y est celui des observations ; ~y est le vecteur des
predictions.
3
premi`ere bissectrice). Une autre facon de dire la meme chose : le meilleur mod`ele
possible sera trouve quand les vecteurs y y et X sont orthogonaux.
Deux vecteurs sont orthogonaux lorsque leur produit scalaire est nul, ce qui
nous permet decrire
X y y = 0 t X (y y
) = 0
2.2 Le mod`
ele Yi = a + bxi + i
Si des connaissances supplementaires sur le phenom`ene etudie sont disponibles,
il est alors possible de les inclure dans la modelisation de lesperance. Par exemple,
on peut faire apparatre dans la partie fixe du mod`ele une variable quantitative
x dite dependante ou explicative mesuree sur les memes unites experimentales.
On realise alors une regression lineaire de y sur x. Le nombre de param`etres de
ce nouveau mod`ele nous oblige a` considerer un jeu de donnees avec au minimum
trois observations de y couplees a` trois observations de x. Le mod`ele secrit de la
facon suivante :
yi = a + bxi + ei
avec i variant de 1 `
a 3. Lecriture matricielle de ce mod`ele prend la forme
y1 1 x1 e1
y2 = 1 x2 . a + e2
b
y3 1 x3 e3
4
y
y2
~y
y1 e2 Y ~1
~y
e1 e3
y3
x1 x2 x3 x
Figure 2 Representation geometrique de la regression lineaire. A` gauche,
representation conventionnelle dans un plan avec x en abscisse et y en ordonnee.
` droite, representation dans un espace `a trois dimensions, chaque dimension
A
correspondant ` a une unite dobservation.
SCER est une fonction des deux param`etres a et b et son minimum est
atteint quand ses deux derivees partielles sannulent. Moyennant lutilisation
de quelques egalites classiques en statistiques 2 , on obtient alors les resultats
suivants :
SCER
= 0 a
= xb
y
a
.
SCER
b = xy
= 0
x2
b
La premi`ere de ces equations nous montre que la droite de regression passe
necessairement par le point (x ,
y ), cest-`a-dire par le barycentre du nuage de
points. Les meilleures predictions possibles des yi valent alors :
+ bx1
a
y = a
= X + bx2 .
+ bx3
a
5
vecteur y y avec les vecteurs du plan sont nuls. On retrouve alors le syst`eme des
equations normales :
t
X(1) (y y
) = 0 = t Xy.
t t XX
X(2) (y y
) = 0
3 D
ecomposition de la variance et tests dhy-
poth`
eses
3.1 D
ecomposition de la variance
Reprenons la representation geometrique de la regression lineaire donnee par
la figure 2. Dans cette derni`ere, le vecteur Y 1 (que lon notera simplement
SCEE
x 1 SCEE CM E = 1
SCER
erreur n2 SCER CM R = n2
total n 1 SCET
La representation geometrique de la regression (figure 2) permet de com-
prendre les degres de liberte associes `a chaque somme des carres. En effet, une
somme particuli`ere correspond `a la norme dun vecteur qui appartient `a un
sous-espace donne. La dimension de ce dernier correspond aux degres de liberte
:
3. Dans certains mod` ele comme par exemple Yi = axi + i , la matrice X ne contient pas une
colonne de 1. Le vecteur y
y nest alors plus dans le sous-espace des pr
edits et la d
ecomposition
de la dispersion telle que present
ee ici nest plus vraie.
6
SCER correspond ` a kyyk. Le vecteur y y est orthogonale `a un plan. Il
appartient donc ` a un sous espace de dimension n 2.
SCEE correspond `a ky Y k. Le vecteur yY est dans un plan et il doit
aussi etre perpendiculaire `
a une droite. Il appartient donc `
a un sous espace de
dimension 1.
Enfin, SCET correspond a` ky Y k. Le vecteur y
Y est perpendiculaire a` une
a un sous espace de dimension n 1.
droite. Il appartient donc `
4 Caract`
ere g
eneral du mod`ele lin
eaire, notion
dorthogonalit
e et dinteraction
4.1 Cas de lanalyse de variance `
a deux facteurs
4.1.1 Cas du plan dexp
erience complet
Nous cherchons maintenant a` expliquer la variation de y en fonction de deux
facteurs qualitatifs chacun presentant deux niveaux. Par exemple, il pourrait
sagir detudier le rendement dune variete de ble avec deux niveaux dirrigation
(pas dirrigation versus irrigation artificielle) et deux types de travail du sol
(semi direct versus labourage). Les niveaux des deux facteurs ont ete attribues
au hasard a` 4 parcelles (unites experimentales). Il y a une parcelle pour chacune
des quatre conduites culturales possibles. Ce plan dexperience sappelle un plan
complet randomise. Pour analyser les resultats produits, on utilise le mod`ele
danalyse de variance suivant :
Yij = a + bi + cj + ij
7
On peut alors ecrire la relation suivante entre les observations :
yij = a + bi + cj + eij
avec i et j variant de 1 `
a 2. Le meme mod`ele sous forme matricielle :
a
y11 1 1 0 1 0 e11
y12 1
b1
1 0 0 1 e12
y21 = 1
. b2 + soit y = X + e.
0 1 1 0 e21
c1
y22 1 0 1 0 1 e22
c2
La procedure pour estimer les param`etres est identique a` celle presentee pour
la regression. La methode des moindres carres qui correspond geometriquement
`a une projection orthogonale de y sur le sous-espace des predits (sous-espace
engendre par les vecteurs colonnes de X) nous donne le syst`eme des equations
normales : t XX =t Xy. Une fois ce dernier developpe on obtient :
avec nij nombre dunites experimentales pour le ie`me niveau du premier facteur et
le j e`me du deuxi`eme (dans notre exemple nij = 1 i, j). Certaines equations sont
redondantes (par exemple, la deuxi`eme equation additionnee ` a la troisi`eme est
equivalente a` la premi`ere) et le syst`eme admet donc une infinite de solutions (le
nombre de param`etres est superieur au nombre dequations). Pour le resoudre, il
est donc necessaire de rajouter des equations supplementaires qui constituent en
fait des contraintes sur les param`etres. Ces derni`eres sont arbitraires et plusieurs
contraintes sont possibles sans changer les predictions et les tests. Dailleurs, les
logiciels de statistiques comme R ou SAS nutilisent pas les memes contraintes.
Nous utiliserons par la suite toujours celles utilisees dans R qui consiste `a fixer
`a zero lun des niveaux, pour chacun des deux facteurs etudies. Dans notre
exemple, R posera b1 = 0 et c1 = 0. Complete par ces deux equations, le syst`eme
des equations normales admet alors les solutions suivantes :
P 1
P P P P P
yij j y2j + j y1j i yi2 + i yi1 )
a
= nij ( i,j
i,j
b2 = P1
P P
( j y2j j y1j )
j n2j P
P1
P
c2 = ni2 ( i yi2 i yi1 )
i
Pour calculer la dispersion due a` chaque facteur et faire les tests on va ecrit
la serie de mod`eles suivante :
Mod`ele (0) : yij = a + eij
Mod`ele (1) : yij = a + bi + eij
Mod`ele (2) : yij = a + bi + cj + eij .
8
Chaque mod`ele sera ajuste avec la methode des moindres carres decrite preP cedemment.
2
Enfin, on calcule pour chacun deux la dispersion r
e siduelle SCER = i ei =
2
P
(y
ij ij yij ) .
La dispersion residuelle du mod`ele (0) est necessairement plus grande que celle
du mod`ele (1). Leur difference SCER(1) SCER(0) quantifie la dispersion ex-
pliquee par le facteur b, notee SCEEb . De la meme facon, SCER(1) SCER(0) =
SCEEc|b quantifie la dispersion due au facteur c apr`es avoir ajuste le mod`ele
pour le facteur b. Enfin, SCER(2) SCER(0) = SCEEbc represente la dispersion
expliquee conjointement par les facteurs b et c.
Geometriquement, il est possible de comprendre cette experience en position-
nant les differents vecteurs de valeurs predites obtenus avec chaque mod`ele dans
le sous-espace engendre par la matrice X du mod`ele complet (2) et en prenant le
vecteur des valeurs predites par le mod`ele (0) ( y(0) ) comme origine. Par ailleurs,
sachant que les mod`eles (0), (1) et (2) sont emboites et que y (0) , y
(1) et y (2)
sont tous des projections orthogonales de y dans leur sous-espace respectif, alors
langle y(0)\y
(1) y(2) est necessairement droit (figure 3).
y(2)
SCEEc|b
c
Eb
E
SC
y(0) y(1)
SCEEb
9
Mod`ele (0) : yij = a + eij
Mod`ele (1) : yij = a + cj + eij
Mod`ele (2) : yij = a + cj + bi + eij .
Dans cet exemple, le plan dexperience est complet cest a` dire que toutes les
modalites du premier facteur sont presentes dans chaque modalite du second et
vice et versa. Si on rajoute ce nouveau mod`ele (10 ), on obtient la representation
geometrique de la figure 4.
SCEEb|c
y(10 ) y(2)
SCEEc|b
c
SCEEc
Eb
E
SC
y(0) y(1)
SCEEb
SCEEb
b r1 SCEEb CM Ea = r1
SCEEc
c s1 SCEEc CM Eb = s1
SCER
erreur (r 1)(s 1) SCER CM R = (r1)(s1)
total rs 1 SCET
10
Dans lanalyse de variance ` a deux crit`eres de classification, on formule les
deux hypoth`eses nulles suivantes :
H0 : CM Eb = CM ER (le facteur b na pas deffet)
H0 : CM Ec = CM ER (le facteur c na pas deffet)
Si les residus sont normaux, independants et de variance constante 2 alors,
sous H0 , CM Eb , CM Ec et CM R sont trois estimations de 2 . Le rapport
f = CM Eb /CM R suit dans ce cas une distribution de Fisher-Snedecor `a r 1
et (r 1)(s 1) degres de liberte. On calcule la statistique
CM Eb
fobs =
CM R
qui permet ensuite de calculer le risque de premier esp`ece
y(10 ) SC
EE
b|c
y(2)
c
EE
SCEEc|b
SC
y(0) y(1)
SCEEb
11
et
|| y (1) || > || y
(0) y (2) || soit SCEEb > SCEEb|c .
(10 ) y
Autrement dit, la dispersion associee a` b sera toujours moins grande si on a
dabord ajuste le mod`ele pour c. Les deux facteurs b et c etudies ne sont pas
independants. Dans une decomposition de type I (cf ci-dessus), si on introduit
CM Eb
le facteur b en premier, le rapport de variances CM ER calcul e pour tester son
CM Eb|c
effet sera plus grand que le rapport CM ER . Ce dernier sera celui utilise pour
tester leffet de b si on lintroduit en deuxi`eme. Finalement, leffet dun facteur
aura donc dautant plus de chance detre declare comme significatif sil est
introduit tot dans les mod`eles. Pour parer ` a ce probl`eme, il existe dans tous
les logiciels de statistiques dignes de ce nom, dautres types de decomposition.
Ainsi la decomposition de type II ci-dessous est conseillee pour les plans non
orthogonaux :
12
qui est commun aux deux varietes, puisque b est independant de i. Le terme
di xij represente a` linverse leffet de lapport azote qui est specifique a` la variete
i. Le meme mod`ele peut secrire sous forme matricielle :
y11 1 1 0 x11 x11 0 e11
y12
1 1 0 x12 x12 0
e12
y13
1 1 0 x13 x13 0
e13
y14
1 1 0 x14 x14 0
a
e14
y15
1 1 0 x15 x15 0
cA
e15
y16
= 1 1 0 x16 x16 0
. cB
+ e16
y21
1 0 1 x11 0 x11
b
e21
y22
1 0 1 x12 0 x12
dA
e22
y23
1 0 1 x13 0 x13
dB
e23
y24
1 0 1 x14 0 x14
e24
y25 1 0 1 x15 0 x15 e25
y26 1 0 1 x16 0 x16 e26
soit
y = X + e.
Bien entendu, on pourrait `a ce stade calculer en utilisant le syst`eme des
equations normales. De facon assez evidente on sachemine cependant vers
un calcul long et plutot penible. . . epargnons-nous donc cela et reflechissons
plutot la decomposition de la dispersion dans le cas de lANCOVA. Comme
precedemment, nous allons definir une serie de mod`eles emboites pour calculer la
dispersion associee a` chacun des facteurs explicatifs. Nous suivons ici le schema
de decomposition de type I :
13
y
14