Vous êtes sur la page 1sur 14

Mod`ele lineaire

C. Andalo, C. Lauzeral & J.-B. Ferdy


9 fevrier 2016

1
Ecriture g
en
erale du mod`
ele lin
eaire
1.1 Quelques consid erations g
en
erales : quest-ce quun mo-
d`
ele statistique ?
Soit une variable y que lon a mesuree sur differente unites experimentales.
Un des objectifs de lanalyse statistique est de comprendre les sources (et donc
peut-etre les causes) des variations de y. On note yi lobservation sur lunite
experimentale i et Yi la variable aleatoire correspondante (on consid`ere donc
autant de variables aleatoires differentes que dobservations). On cherche a` definir
une fonction qui relie les esperances des variable aleatoires Yi `a des variables
predictives que lon a aussi observees. On souhaite ecrire

yi = f (xi )

o`u f est une fonction, xi lensemble des variables predictives observees sur lunite
experimentale i et yi notre prediction pour lesperance de Yi . Cette fonction f
est bien un mod` ele, puisquelle permet de reproduire certains aspects, mais
probablement pas tous, de la variation de y. Si f peut secrire comme une fonction
affine (cest-`a-dire comme lequation dune droite), on parlera de  mod` ele
lineaire .
Puisque notre mod`ele ne rend compte que dune partie de la variation de y, il
faut nous interesser a` la part de variation non expliquee. On la decrit simplement
par une variable aleatoire generalement notee i , ce qui donne

Yi = yi + i

La variable aleatoire i , appelee frequemment erreur ou residu, est necessairement


de moyenne nulle, sans cela yi ne serait plus un bon estimateur (sans biais) de
lesperance de Yi . La variance des i sera dautant plus faible que notre mod`ele
reproduira mieux les variations de y.

1.2 Quelques interrogations m


etaphysiques : pourquoi un
mod`ele lin
eaire ?
Parce que cest simple ! Le mod`ele lineaire est un outil fondamental en
statistique. Si on le comprend dans le detail, il est alors possible decrire des
mod`eles plus complexes qui permettent dechapper aux deux grandes hypoth`eses
qui le sous-tendent.

1
La linearite de lequation decrivant lesperance est tr`es contraignante mathema-
tiquement mais elle permet malgre tout de bien representer de nombreuses
situations rencontrees en biologie. Le mod`ele lineaire suppose en outre que la
variable residuelle est normalement distribuee et de variance constante (toutes les
variables aleatoires i ont la meme variance). Ces deux suppositions (linearite de
la partie fixe liee a` lesperance et normalite de la partie aleatoire) sont toutes les
deux faites dans les analyses classiques que vous avez vues jusqu`a maintenant.

2 Comment estimer les param` etres dun mod` ele


lin
eaire ? Une representation geom etrique, et
une solution utilisant lalg`
ebre matricielle.
2.1 Le mod`
ele Yi = a + i
Si nous navons aucune connaissance du phenom`ene provoquant des variations
de y, on se contente de decrire lesperance des Yi comme une constante a. Le
mod`ele secrit alors :
yi = a
Imaginons que lon ait etudie deux unites experimentales (par exemple, deux
plantes, deux grenouilles, etc) et que lon ait realise une observation pour chacune
dentre elles. Soient y1 et y2 ces deux observations, et Y1 et Y2 les variables
aleatoires (VA) dont elles sont les realisations. On peut ecrire

y1 = a + e1
y2 = a + e2

ce qui peut aussi secrire sous forme matricielle :


     
y1 1 e1
= a+
y2 1 e2

ou encore, de facon conventionnelle

y = X + e.

avec y le vecteur des observations de y, X les observations des variables predictives


(ici X est un vecteur ; dans le cas general, cest une matrice) et un vecteur
contenant les param`etres du mod`ele.
Avant de commencer le traitement statistique du mod`ele lineaire, il est utile
de donner une representation geometrique qui permet ensuite de comprendre
la signification des methodes que nous allons utiliser. Deux representations des
donnees sont possibles, comme illustre dans la figure 1.
Notre mod`ele ultra-simpliste donne deux valeurs predites toutes deux egales
a` a representees dans la figure 2 par le vecteur ~y de coordonnees (a, a), colineaire
au vecteur unite (1, 1). Autrement dit, le vecteur des predits sera toujours sur la
premi`ere bissectrice, sa longueur (sa norme) seule dependant de la valeur que
nous donnerons au param`etre a. On peut ecrire ~y = ~1a = Xa, ce qui montre
que les predictions possibles de notre mod`ele constituent un sous-ensemble de
lensemble des valeurs possibles de y. Pour employer le vocabulaire de lalg`ebre

2
lineaire, on dira que lespace des predictions est un sous-espace engendre par le
vecteur colonne X 1 .
La question qui se pose est alors de trouver la meilleure prediction possible et
donc la meilleur estimation du param`etre a. Dans ce but, il est intuitif de minimi-
ser les ecarts ou residus entre les valeurs predites par notre mod`ele et les valeurs
observees. Cette procedure dajustement du mod`ele se denomme la  m ethode
des moindres carr es . Algebriquement, on sattachera a` minimiser la somme
des carres des residus appelee  somme des carr es r
esiduelle  :
X X X
SCER = e2i = (yi yi )2 = (yi a)2 .
i i i

En derivant cette fonction de a, il est facile de demontrer que son minimum


est atteint quand a est egale `
a la moyenne des yi :

=a
=
Y .
Les meilleures predictions possibles des yi valent alors :
 
=
Y
y
= X .

Y

Utilisons maintenant la representation geometrique de la figure 1 pour


retrouver le meme resultat. Geometriquement, chercher un ecart entre predits et
observes le plus petit possible revient faire en sorte que les points y et y
soient les
plus proches. Une seule solution : comme y est necessairement sur la bissectrice,
la meilleure prediction sera celle correspondant au projete orthogonal de y sur
cette meme bissectrice. Dune facon plus generale, on determine y en projetant
orthogonalement y dans le sous-espace engendre par X (qui correspond ici `a la
1. Un sous-espace engendr e par un ensemble de vecteurs est le sous-espace de toutes les
combinaisons lineaires de ces vecteurs. Un sous-espace engendre par un vecteur unique est donc
une droite, alors quun sous-espace engendr e par deux vecteurs non proportionnels est un plan.

y obs. 2

y2 y2 ~y
~e = ~y ~y
e2
y
~y
e1
y1 ~1

y1 obs. 1
Figure 1 Deux representations du mod`ele Yi = a + i . A ` gauche, une
representation conventionnelle, chaque valeur observee etant representee par
un point. A ` droite, les donnees sont representees dans le plan defini par les
deux observations. Le vecteur ~y est celui des observations ; ~y est le vecteur des
predictions.

3
premi`ere bissectrice). Une autre facon de dire la meme chose : le meilleur mod`ele

possible sera trouve quand les vecteurs y y et X sont orthogonaux.
Deux vecteurs sont orthogonaux lorsque leur produit scalaire est nul, ce qui
nous permet decrire


X y y = 0 t X (y y
) = 0

On utilise ici la notation pour le produit scalaire et pour le produit matriciel.


Lorsquil ny a pas dambigute, on negligera lune et lautre ! Cette expression
peut secrire
t
X(y X) =0

ou, de facon equivalente


t = t Xy.
XX
Dans le cas tr`es particulier de notre mod`ele, il sagit dune equation unique.
Dans des mod`eles plus complexes, X contient alors plusieurs vecteurs colonnes
et cette equation vectorielle correspond a` un ensemble dequations denommees le
syst`eme des equations normales . La resolution de cette equation donne
le meme estime pour a que la minimisation de SCER via la derivee mais son
implementation informatique est infiniment plus simple. Tous les logiciels de
statistiques utilisent cette derni`ere methode.

2.2 Le mod`
ele Yi = a + bxi + i
Si des connaissances supplementaires sur le phenom`ene etudie sont disponibles,
il est alors possible de les inclure dans la modelisation de lesperance. Par exemple,
on peut faire apparatre dans la partie fixe du mod`ele une variable quantitative
x dite dependante ou explicative mesuree sur les memes unites experimentales.
On realise alors une regression lineaire de y sur x. Le nombre de param`etres de
ce nouveau mod`ele nous oblige a` considerer un jeu de donnees avec au minimum
trois observations de y couplees a` trois observations de x. Le mod`ele secrit de la
facon suivante :

yi = a + bxi + ei
avec i variant de 1 `
a 3. Lecriture matricielle de ce mod`ele prend la forme

y1 1 x1   e1
y2 = 1 x2 . a + e2
b
y3 1 x3 e3

soit sous forme matricielle


y = X + e.
Encore une fois, deux representations des donnees sont possibles, comme
illustre dans la figure 2. Il est possible de representer la droite correspondant `a
un mod`ele de regression particulier, les valeurs predites yi et les erreurs ei .

Dans la figure 2, les valeurs predites par le mod`ele sont X = aX(1) + bX(2) )
o`u X(1) designe la premi`ere colonne de X et X(2) la deuxi`eme. Elles peuvent etre
representees par un vecteur a` trois coordonnees ( y1 , y2 , y3 ) qui par construction
appartient au sous-espace engendre par les deux vecteurs colonnes de X.

4
y
y2
~y

y1 e2 Y ~1
~y
e1 e3

y3

x1 x2 x3 x
Figure 2 Representation geometrique de la regression lineaire. A` gauche,
representation conventionnelle dans un plan avec x en abscisse et y en ordonnee.
` droite, representation dans un espace `a trois dimensions, chaque dimension
A
correspondant ` a une unite dobservation.

Comme precedemment, nous chercherons dabord algebriquement la meilleure


prediction possible en minimisant la somme des carres des ecarts qui dans ce
mod`ele vaut :
X X X
SCER = e2i = (yi yi )2 = (yi a bxi )2 .
i i i

SCER est une fonction des deux param`etres a et b et son minimum est
atteint quand ses deux derivees partielles sannulent. Moyennant lutilisation
de quelques egalites classiques en statistiques 2 , on obtient alors les resultats
suivants :

SCER

= 0 a
= xb
y
a



.

SCER
b = xy

= 0
x2

b
La premi`ere de ces equations nous montre que la droite de regression passe
necessairement par le point (x ,
y ), cest-`a-dire par le barycentre du nuage de
points. Les meilleures predictions possibles des yi valent alors :

+ bx1

a
y = a
= X + bx2 .
+ bx3
a

Comme precedemment, nous allons maintenant utiliser la representation



geometrique de la figure 2. Afin dobtenir une vecteur y y avec la norme la plus
petite possible, on projette orthogonalement le vecteur des valeurs observees ~y

sur le sous-espace engendre par les vecteurs colonnes de X. Le vecteur y y est
alors orthogonal aux deux vecteurs colonnes de X. Les produits scalaires du
X
x2i = (n 1)
x2 + n
2x ;
P P
2. xi = nx ; i i xi yi = (n 1)
xy + n
x
y
i

5

vecteur y y avec les vecteurs du plan sont nuls. On retrouve alors le syst`eme des
equations normales :
 t
X(1) (y y
) = 0 = t Xy.
t t XX
X(2) (y y
) = 0

3 D
ecomposition de la variance et tests dhy-
poth`
eses
3.1 D
ecomposition de la variance
Reprenons la representation geometrique de la regression lineaire donnee par


la figure 2. Dans cette derni`ere, le vecteur Y 1 (que lon notera simplement

Y ) appartient necessairement au plan engendre par les deux vecteurs colonnes


de X (plan qui est represente en vert dans la figure). En effet, le premier vecteur



de X est 1 ). Le vecteur y appartient, par construction cette fois-ci, `a ce plan.

Par consequent, le vecteur Y y appartient lui aussi au meme plan 3 . Le point
y etant le projete orthogonal de y dans le plan, on peut deduire que le triangle
defini par ces trois vecteurs (en bleu dans la figure 2) est rectangle en y . Nous
souvenant de Pythagore, nous ecrivons donc avec emotion
2
2 2
ky
Y k + ky
yk = ky
Y k
ce que lon peut aussi ecrire
X X X
(yi y )2 + (yi yi )2 = (yi y )2 .
i i i

de x sur y (SCEE = i (yi y )2 ) ajoutee


P
La dispersion expliquee par leffetP
a` la dispersion
P residuelle (SCER = i (yi yi )2 ) est egale a` la dispersion totale
2
(SCET = i (yi y ) ).
La demonstration algebrique de cette additivite des dispersions ne presente
pas de difficultes particuli`eres, mais sav`ere particuli`erement fastidieuse. . . En
utilisant cette propriete dadditivite des dispersions, on peut produire une table
danalyse de variance classique :
Source de variation ddl SCE CM

SCEE
x 1 SCEE CM E = 1

SCER
erreur n2 SCER CM R = n2

total n 1 SCET
La representation geometrique de la regression (figure 2) permet de com-
prendre les degres de liberte associes `a chaque somme des carres. En effet, une
somme particuli`ere correspond `a la norme dun vecteur qui appartient `a un
sous-espace donne. La dimension de ce dernier correspond aux degres de liberte
:
3. Dans certains mod` ele comme par exemple Yi = axi + i , la matrice X ne contient pas une

colonne de 1. Le vecteur y
y nest alors plus dans le sous-espace des pr
edits et la d
ecomposition
de la dispersion telle que present
ee ici nest plus vraie.

6


SCER correspond ` a kyyk. Le vecteur y y est orthogonale `a un plan. Il
appartient donc ` a un sous espace de dimension n 2.

SCEE correspond `a ky Y k. Le vecteur yY est dans un plan et il doit
aussi etre perpendiculaire `
a une droite. Il appartient donc `
a un sous espace de
dimension 1.

Enfin, SCET correspond a` ky Y k. Le vecteur y
Y est perpendiculaire a` une
a un sous espace de dimension n 1.
droite. Il appartient donc `

3.2 Tests dhypoth`


eses
Dans le cadre du mod`ele de regression simple, nous souhaitons tester leffet
de la variable x sur Y . Il est alors possible de formuler ce test sous la forme de
deux hypoth`eses alternatives :
H0 : CM E = CM R
H1 : CM E > CM R
Si les residus sont independants les uns des autres et suivent tous la meme
loi N (0, 2 ) alors, sous H0 , CM E et CM R sont deux estimations de la meme
variance 2 . Le rapport f = CM E/CM R suit dans ce cas une distribution de
Fisher-Snedecor ` a 1 et n 1 degres de liberte. Connaissant la statistique
CM E
fobs =
CM R
on peut ensuite calculer le risque de premi`ere esp`ece ( en Francais, p-value en
anglais) associe au test :

= P (F(1,n2) > fobs ).

Si on rejette H0 on conclut que CM E > CM R : la variation due `a leffet


de x sur y est plus elevee que le bruit. On dit que x a un effet significatif sur y.

4 Caract`
ere g
eneral du mod`ele lin
eaire, notion
dorthogonalit
e et dinteraction
4.1 Cas de lanalyse de variance `
a deux facteurs
4.1.1 Cas du plan dexp
erience complet
Nous cherchons maintenant a` expliquer la variation de y en fonction de deux
facteurs qualitatifs chacun presentant deux niveaux. Par exemple, il pourrait
sagir detudier le rendement dune variete de ble avec deux niveaux dirrigation
(pas dirrigation versus irrigation artificielle) et deux types de travail du sol
(semi direct versus labourage). Les niveaux des deux facteurs ont ete attribues
au hasard a` 4 parcelles (unites experimentales). Il y a une parcelle pour chacune
des quatre conduites culturales possibles. Ce plan dexperience sappelle un plan
complet randomise. Pour analyser les resultats produits, on utilise le mod`ele
danalyse de variance suivant :

Yij = a + bi + cj + ij

7
On peut alors ecrire la relation suivante entre les observations :

yij = a + bi + cj + eij

avec i et j variant de 1 `
a 2. Le meme mod`ele sous forme matricielle :


a
y11 1 1 0 1 0 e11
y12 1
b1
1 0 0 1 e12
y21 = 1
. b2 + soit y = X + e.
0 1 1 0 e21
c1
y22 1 0 1 0 1 e22
c2

La procedure pour estimer les param`etres est identique a` celle presentee pour
la regression. La methode des moindres carres qui correspond geometriquement
`a une projection orthogonale de y sur le sous-espace des predits (sous-espace
engendre par les vecteurs colonnes de X) nous donne le syst`eme des equations
normales : t XX =t Xy. Une fois ce dernier developpe on obtient :

i,j nij + b1 j n1j + b2 j n2j + c1 i ni1 + c2 i ni2


P P P P P P
a = y
Pi,j ij


j n1j + b1 j n1j + c1 n11 + c2 n12
P P
a = y 1j
Pj


j n2j + b2 j n2j + c1 n21 + c2 n22
P P
a = y
Pj 2j
i ni1 + b1 n11 + b2 n21 + c1 i ni1
P P
a = y

Pi i1



i ni2 + b1 n12 + b2 n22 + c2 i ni2
P P
a = i yi2

avec nij nombre dunites experimentales pour le ie`me niveau du premier facteur et
le j e`me du deuxi`eme (dans notre exemple nij = 1 i, j). Certaines equations sont
redondantes (par exemple, la deuxi`eme equation additionnee ` a la troisi`eme est
equivalente a` la premi`ere) et le syst`eme admet donc une infinite de solutions (le
nombre de param`etres est superieur au nombre dequations). Pour le resoudre, il
est donc necessaire de rajouter des equations supplementaires qui constituent en
fait des contraintes sur les param`etres. Ces derni`eres sont arbitraires et plusieurs
contraintes sont possibles sans changer les predictions et les tests. Dailleurs, les
logiciels de statistiques comme R ou SAS nutilisent pas les memes contraintes.
Nous utiliserons par la suite toujours celles utilisees dans R qui consiste `a fixer
`a zero lun des niveaux, pour chacun des deux facteurs etudies. Dans notre
exemple, R posera b1 = 0 et c1 = 0. Complete par ces deux equations, le syst`eme
des equations normales admet alors les solutions suivantes :

P 1
P P P P P
yij j y2j + j y1j i yi2 + i yi1 )

a
= nij ( i,j
i,j
b2 = P1
P P
( j y2j j y1j )
j n2j P
P1
P
c2 = ni2 ( i yi2 i yi1 )

i

Pour calculer la dispersion due a` chaque facteur et faire les tests on va ecrit
la serie de mod`eles suivante :
Mod`ele (0) : yij = a + eij
Mod`ele (1) : yij = a + bi + eij
Mod`ele (2) : yij = a + bi + cj + eij .

8
Chaque mod`ele sera ajuste avec la methode des moindres carres decrite preP cedemment.
2
Enfin, on calcule pour chacun deux la dispersion r
e siduelle SCER = i ei =
2
P
(y
ij ij yij ) .
La dispersion residuelle du mod`ele (0) est necessairement plus grande que celle
du mod`ele (1). Leur difference SCER(1) SCER(0) quantifie la dispersion ex-
pliquee par le facteur b, notee SCEEb . De la meme facon, SCER(1) SCER(0) =
SCEEc|b quantifie la dispersion due au facteur c apr`es avoir ajuste le mod`ele
pour le facteur b. Enfin, SCER(2) SCER(0) = SCEEbc represente la dispersion
expliquee conjointement par les facteurs b et c.
Geometriquement, il est possible de comprendre cette experience en position-
nant les differents vecteurs de valeurs predites obtenus avec chaque mod`ele dans
le sous-espace engendre par la matrice X du mod`ele complet (2) et en prenant le
vecteur des valeurs predites par le mod`ele (0) ( y(0) ) comme origine. Par ailleurs,
sachant que les mod`eles (0), (1) et (2) sont emboites et que y (0) , y
(1) et y (2)
sont tous des projections orthogonales de y dans leur sous-espace respectif, alors
langle y(0)\y
(1) y(2) est necessairement droit (figure 3).

y(2)
SCEEc|b

c
Eb
E
SC

y(0) y(1)
SCEEb

Figure 3 Cas du plan dexperience orthogonal, representation des vecteurs


des valeurs predites par les mod`eles (0), (1) et (2).

En utilisant le theor`eme de Pythagore on trouve la relation suivante :


2 2 2
|| y (2) ||
(0) y = || y (1) ||
(0) y + || y (2) || .
(1) y
En remplacant les normes des vecteurs par les dispersions correspondantes, on
en deduit la decomposition suivante :

SCEEbc = SCEEb + SCEEc|b .


Une representation geometrique dans un espace de dimension 4 (correspondant
au nombre total dobservations de y), nous permettrait de demontrer legalite
suivante :
SCET = SCEEbc + SCER(2)
avec SCET et SCER(2) correspondant aux dispersions respectivement totale et
residuelle du mod`ele (2).
Les dispersions calculees en utilisant des mod`eles de plus en plus complexes
sont dites de type I. Laddition du facteur b en premier est totalement arbitraire
et on peut parfaitement imaginer recommencer lensemble de la procedure avec
les mod`eles successifs suivants :

9
Mod`ele (0) : yij = a + eij
Mod`ele (1) : yij = a + cj + eij
Mod`ele (2) : yij = a + cj + bi + eij .
Dans cet exemple, le plan dexperience est complet cest a` dire que toutes les
modalites du premier facteur sont presentes dans chaque modalite du second et
vice et versa. Si on rajoute ce nouveau mod`ele (10 ), on obtient la representation
geometrique de la figure 4.

SCEEb|c
y(10 ) y(2)

SCEEc|b
c
SCEEc

Eb
E
SC

y(0) y(1)
SCEEb

Figure 4 Cas du plan dexperience orthogonal, representation des vecteurs


des valeurs predites par les mod`eles (0), (1), (1) et (2).

Le caract`ere complet du plan dexperience fait que les vecteurs y (0) y
(10 ) et

y(0) y
(1) sont orthogonaux. On parle dailleurs de plan dexp erience orthogonal.
On peut deduire de cette propriete, en utilisant des resultats de la geometrie
elementaire, les relations liant les normes de vecteurs et donc les sommes de
carres :

|| y (10 ) || = || y
(0) y (2) || soit SCEEc = SCEEc|b
(1) y
et

|| y (1) || = || y
(0) y (2) || soit SCEEb = SCEEb|c .
(10 ) y
Autrement dit, la dispersion expliquee par un premier facteur est independante
de lajustement ou non du mod`ele pour le second. Si le plan dexperience est
complet, les dispersions calculees et donc les resultats des tests statistiques ne
dependent pas de lordre dintroduction des facteurs dans le mod`ele. Si on note
respectivement r et s les nombres de niveaux du premier et du second facteur,
on peut alors produire une table danalyse de variance :
Source de variation ddl SCE CM

SCEEb
b r1 SCEEb CM Ea = r1

SCEEc
c s1 SCEEc CM Eb = s1

SCER
erreur (r 1)(s 1) SCER CM R = (r1)(s1)

total rs 1 SCET

10
Dans lanalyse de variance ` a deux crit`eres de classification, on formule les
deux hypoth`eses nulles suivantes :
H0 : CM Eb = CM ER (le facteur b na pas deffet)
H0 : CM Ec = CM ER (le facteur c na pas deffet)
Si les residus sont normaux, independants et de variance constante 2 alors,
sous H0 , CM Eb , CM Ec et CM R sont trois estimations de 2 . Le rapport
f = CM Eb /CM R suit dans ce cas une distribution de Fisher-Snedecor `a r 1
et (r 1)(s 1) degres de liberte. On calcule la statistique
CM Eb
fobs =
CM R
qui permet ensuite de calculer le risque de premier esp`ece

= P (F(r1,(r1)(s1)) > fobs )

associe au test de leffet du facteur c. Pour tester leffet du deuxi`eme facteur c,


on proc`ede de la meme facon et
 
CM Ec
= P F(s1,(r1)(s1)) >
CM R
.

4.1.2 Cas du plan dexp


erience incomplet
Quand on cherche a` tester leffet de deux facteurs qualitatifs, il nest parfois
pas possible de faire un plan dexperience complet ou orthogonal. Dans lexemple
agronomique traite precedemment cela reviendrait par exemple ` a ne pas avoir
de parcelle pour une des quatre conduites culturales possibles. En reprenant les
quatre mod`eles (0), (1), (1) et (2) on obtiendrait dans ce cas la representation
geometrique de la figure 5.

y(10 ) SC
EE
b|c

y(2)
c
EE

SCEEc|b
SC

y(0) y(1)
SCEEb

Figure 5 Cas du plan dexperience non orthogonal, representation des vecteurs


des valeurs predites par les mod`eles (0), (1), (1) et (2).

Les vecteurs y
(0) y(10 ) et y
(0) y
(1) ne sont plus orthogonaux et le calcul de
la dispersion associee au premier facteur dependra de son ordre dintroduction
dans le mod`ele. En effet, il est facile de voir que :

|| y (10 ) || > || y
(0) y (2) || soit SCEEc > SCEEc|b
(1) y

11
et

|| y (1) || > || y
(0) y (2) || soit SCEEb > SCEEb|c .
(10 ) y
Autrement dit, la dispersion associee a` b sera toujours moins grande si on a
dabord ajuste le mod`ele pour c. Les deux facteurs b et c etudies ne sont pas
independants. Dans une decomposition de type I (cf ci-dessus), si on introduit
CM Eb
le facteur b en premier, le rapport de variances CM ER calcul e pour tester son
CM Eb|c
effet sera plus grand que le rapport CM ER . Ce dernier sera celui utilise pour
tester leffet de b si on lintroduit en deuxi`eme. Finalement, leffet dun facteur
aura donc dautant plus de chance detre declare comme significatif sil est
introduit tot dans les mod`eles. Pour parer ` a ce probl`eme, il existe dans tous
les logiciels de statistiques dignes de ce nom, dautres types de decomposition.
Ainsi la decomposition de type II ci-dessous est conseillee pour les plans non
orthogonaux :

Mod`ele (0) : yij = a + cj + bi + eij


Mod`ele (1) : yij = a + cj + eij
Mod`ele (1) : yij = a + bi + eij .
Avec cette succession de mod`eles on calcule :

SCER(1) SCER(0) = SCEEb|c

SCER(10 ) SCER(0) = SCEEc|b .


CM E b|c CM Ec|b
Les rapports de variances CM ER et CM ER permettent de tester les effets
des deux facteurs b et c.
Nous venons de vous expliquer la notion dorthogonalite avec lANOVA `a
deux facteurs et ces consequences. Bien entendu, tout ce que nous avons dit
se generalise sans probl`eme au cas dun nombre quelconque de facteurs. De la
meme facon on peut aussi etendre cette notion `a la regression multiple. Quand
on teste les effets de deux variables quantitatives independantes, si ces derni`eres
sont non correlees alors le dispositif sera orthogonal. La non orthogonalite est
donc liee au plan dexperience dans lANOVA alors quelle est intrins`eque aux
donnees dans la regression.

4.2 Cas de lanalyse de covariance


Nous cherchons maintenant ` a expliquer la variation de Y en fonction dun
facteur qualitatif a` deux niveaux et dun autre facteur quantitatif. Par exemple,
il pourrait sagir detudier le rendement de deux varietes de ble (A et B) en
fonction des apports azotes. Ces apports correspondent a` une mesure directe de
la quantite dengrais dispense au champ. Les deux varietes et les doses dengrais
ont attribues au hasard a` 12 parcelles (unites experimentales). Pour analyser les
resultats produits, on utilise le mod`ele danalyse de variance suivant :

yij = a + ci + bxij + di xij + eij


avec i decrivant lidentite de la variete de ble (A ou B) et j correspondant
`a lidentite de la parcelle. La parcelle j de la variete i recoit donc une dose
dengrais xij . Le terme bxij represente leffet de lapport azote sur le rendement

12
qui est commun aux deux varietes, puisque b est independant de i. Le terme
di xij represente a` linverse leffet de lapport azote qui est specifique a` la variete
i. Le meme mod`ele peut secrire sous forme matricielle :


y11 1 1 0 x11 x11 0 e11

y12
1 1 0 x12 x12 0


e12


y13
1 1 0 x13 x13 0


e13


y14
1 1 0 x14 x14 0
a
e14


y15
1 1 0 x15 x15 0
cA
e15


y16
= 1 1 0 x16 x16 0
. cB
+ e16


y21
1 0 1 x11 0 x11
b
e21


y22
1 0 1 x12 0 x12
dA
e22


y23
1 0 1 x13 0 x13
dB
e23


y24
1 0 1 x14 0 x14


e24

y25 1 0 1 x15 0 x15 e25
y26 1 0 1 x16 0 x16 e26

soit
y = X + e.
Bien entendu, on pourrait `a ce stade calculer en utilisant le syst`eme des
equations normales. De facon assez evidente on sachemine cependant vers
un calcul long et plutot penible. . . epargnons-nous donc cela et reflechissons
plutot la decomposition de la dispersion dans le cas de lANCOVA. Comme
precedemment, nous allons definir une serie de mod`eles emboites pour calculer la
dispersion associee a` chacun des facteurs explicatifs. Nous suivons ici le schema
de decomposition de type I :

Modle (0) : a + eij SCER(0)


Modle (1) : a + ci + eij SCER(1)
Modle (2) : a + ci + bxij + eij SCER(2)
Modle (3) : a + ci + bxij + di xij + eij SCER(3)
Comme precedemment, on peut estimer la dispersion due aux differences
entre varietes en calculant SCEc = SCER(0) SCER(1) , et celle due leffet de
lapport azote une fois les differences entre varietes prises en compte en calculant
SCEb|c = SCER(1) SCER(2) . Pour passer du mod`ele (2) au mod`ele (3) on a
ajoute un facteur explicatif qui est modelise par les param`etres di . On peut
estimer la dispersion due ` a ce dernier en calculant SCER(2) SCER(3) .
Essayons maintenant de comprendre ce que represente leffet de ce troisi`eme
facteur explicatif. Dans le mod`ele (2) la reponse predite peut etre representee
par deux droites de regression (une par varite) qui on la meme pente b, mais pas
la meme ordonnee a` lorigine (a + cA ou a + cB selon la variete). Dans le mod`ele
(3) cette meme prediction serait representee par deux droites de regression qui
nauraient cette fois ni les memes ordonnees a` lorigine, ni les memes pentes. La
quantite SCER(2) SCER(3) mesure donc la dispersion due `a la difference de
pente (et donc de reaction a` lengrais) entre les deux varietes. Cest ce que lon
appelle une interaction entre deux facteurs explicatifs (ici leffet variete et leffet
engrais).

13
y

Figure 6 ANCOVA : representation des predictions des mod`eles (2) et (3)

14