Vous êtes sur la page 1sur 7

Chapitre 7

ANOVA avec un facteur aléatoire

Jusqu’à maintenant, on a supposé que les modalités du facteur étudié ont été choisies parce
qu’elles étaient intrinsèquement intéressantes. Le modèle à “effets” fixes porte sur des traite-
ments bien définis que l’ANOVA permet de comparer entre eux. Considérons l’exemple
suivant:

Exemple 7.1 On s’intéresse au niveau de mathématiques des étudiants des cégeps de la


région de Québec. On prend alors un échantillon de 20 finissants de chaque cégep de la
région de Québec. On leur administre une épreuve commune et on compare les résultats.
C’est une expérience avec effets fixes. Les modalités du facteur étudié sont les cégeps de la
région de Québec. Ce facteur est fixe.

Supposons maintenant qu’on veuille répondre à la question suivante: Est ce que le niveau
de mathématiques est variable d’un cégep à l’autre dans la province de Québec. Si tel est
le cas, on demande de mesurer cette variabilité. On sélectionne dans un premier temps
un échantillon parmi les cégeps de la province; ensuite on procède comme avant et on tire
au hasard 20 étudiants de chaque cégep (il s’agit d’un échantillonnage à deux degrés). On
s’intéresse autant aux cégeps échantillonnés qu’à ceux que ne l’ont pas été car on veut étudier
la variabilité inter-cégeps des compétences en mathématiques. Dans ce contexte le facteur
cégep est aléatoire.

1
7.1 ANOVA à un facteur aléatoire
Dans une ANOVA à un facteur fixe, on a supposé le modèle

Yij = µi + eij (7.1)

pour i = 1, · · · , I et j = 1, · · · , ni . Dans ce modèle, {µ1 , · · · , µI } sont des constantes alors


eij ∼ N(0, σ 2 ). On peut aussi écrire (7.1) sous la forme:

Yij = µ + τi + eij (7.2)


∑I
où {µ, τ1 , τ2 , · · · , τI } sont des constantes vérifiant i=1 τi = 0.
Dans le cas d’un effet aléatoire, les modalités des facteurs sont elles-mêmes aléatoires. Le
modèle s’écrit alors sous la même forme que (7.2) où µ est une constante, τi ∼ N(0, στ2 ) pour
i = 1, · · · , I, eij ∼ N(0, σ 2 ) pour i = 1, · · · , I, j = 1, · · · , ni et τi et eij indépendantes.
Avec ce modèle, Yij ∼ N(µ, στ2 + σ 2 ). On dit alors que στ2 et σ 2 sont les composantes
de la variance. Une partie de la variabilité de Y est expliquée par la variabilité entre les
traitements (στ2 ), l’autre par la variabilité résiduelle (σ 2 ).
Dans l’ANOVA à un facteur fixe, on considère l’hypothèse H0 : µ1 = µ2 = · · · = µI . Cette
dernière n’a plus de sens dans le contexte d’une ANOVA à un facteur aléatoire puisque les
modalités sont elles-mêmes aléatoires. On veut tester si le facteur influence la variabilité de
Y . L’hypothèse nulle s’écrit H0 : στ = 0. L’hypothèse alternative postule que le facteur
a une effet sur la variabilité de Y . Elle s’écrit H1 : στ > 0. Dans l’exemple précédent,
l’hypothèse alternative spécifie la présence d’une variabilité inter-cégeps des compétences
mathématiques, sans préciser exactement la nature des différences entre les cégeps.
Bien que les deux scénarios soient très différents l’un de l’autre, on utilise la même règle
de décision dans les deux cas, c’est à dire:
M SB
On rejette H0 si > FI−1,N −I,α
M SE
Supposons pour l’instant que le plan est balancé. Soit n la taille commune des échantillons.
Dans ce cadre, les moyennes des échantillons Ȳi. s’écrivent:
1∑ n
Ȳi. = Yij
n j=1
= µ + τi + ēi.

2
∑n
où ēi. = { j=1 eij }/n ∼ N(0, σ 2 /n). On a alors

σ2
Ȳi. ∼ N(0, στ2 + ) i = 1, · · · , n.
n
Les variables Ȳi. étant indépendantes et identiquement distribuées, on a alors
(I − 1)M SB
2 2
∼ χ2I−1 . (7.3)
σ + nστ
Dans ce cadre, le SSB s’écrit

I
SSB = ni (Ȳi. − Ȳ.. )2
i=1
∑I
= n (Ȳi. − Ȳ.. )2
i=1
∑I
= n ({τi − τ̄. } + {ēi. − ē.. })2 (7.4)
i=1
∑I ∑I
où τ̄. = i=1 τi /I et ē.. = i=1 ēi. /I.
D’autre part, pour i = 1, · · · , I, on a :

n
(n − 1)Si2 = (Yij − Ȳi. )2
j=1
∑n
= (eij − ēi. )2
j=1

Donc
(n − 1)Si2
2
∼ χ2n−1
σ
indépendamment les unes des autres, et par conséquent

(N − I)M SE ∑ I
(n − 1)Si2
= ∼ χ2N −I (7.5)
σ2 i=1 σ 2

D’après 7.4, M SB ne dépend que de {τ1 , τ2 , · · · , τI } et {ē1. , ē2. , · · · , ēI. }. D’après 7.5, M SE ne
dépend que de {S12 , S22 , · · · , SI2 }. Parmi les hypothèses de ce modéle, figure l’indépendance des
eij et τi , l’indépendance des ensembles {τ1 , τ2 , · · · , τI } et {S12 , S22 , · · · , SI2 } s’en suit. D’autre

3
part, on sait, d’après le chapitre 1, que les ensembles {ē1. , ē2. , · · · , ēI. } et {S12 , S22 , · · · , SI2 }
sont indépendants. On conclut alors que les statistiques M SB et M SE sont indépendantes.
L’indépendance de M SB et M SE et les relations 7.3 et 7.5 donnent alors:
σ2 M SB
F = 2 2
∼ FI−1,N −I (7.6)
σ + nστ M SE
Sous H0 , cette dernière équation devient M SB/M SE ∼ FI−1,N −I . D’où la région de
rejet annoncée plus haut.

7.2 Estimation des variances σ 2 et στ2


D’après 7.5, l’estimation de σ 2 est identique au cas d’un facteur fixe. Ainsi, un intervalle de
confiance pour σ 2 au niveau 1 − α est donné par:
(N − I)M SE (N − I)M SE
[ , ]
χ2N −I,α/2 χ2N −I,1−α/2

D’après 7.3, on a : E[M SB] = σ 2 + nστ2 . D’après 7.5, on a E[M SE] = σ 2 . Donc on a:
M SB − M SE
E[ ] = στ2 .
n
La statistique (M SB − M SE)/n est un estimateur sans biais de στ2 . Cependant, il arrive
qu’on ait M SB < M SE, et donc un estimateur négatif pour la variance, ce qui n’est pas
souhaitable. On préfère donc l’estimateur:

 M SB−M SE
si M SB ≥ M SE
σ̂τ2 = n
 0 si M SB < M SE.

Noter que c’est la méthode des moments qui a été utilisée pour estimer στ2 . C’est à partir
des espérances de M SE et de M SB que l’estimateur a été construit. On peut montrer
que cet estimateur est aussi un estimateur du maximum de vraisemblance (la vraisemblance
du modèle avec effets aléatoires est compliquée à écrire car deux observations provenant du
même échantillon sont correlées puisque qu’ellent partagent le même τi ). L’estimateur σ̂τ2
est une combinaison linéaire de deux khi-deux. Sa loi est complexe et nous empèche d’avoir

4
des intervalles de confiances exacts pour στ2 . Cependant, on peut contruire des intervalles de
confiances exacts pour στ2 /(στ2 + σ 2 ) ou approximatifs pour στ2 .
En effet, d’après 7.3, on a

σ2 M SB
1 − α = P {FI−1,N −I,1−α/2 ≤ 2 2
≤ FI−1,N −I,α/2 }
σ + nστ M SE
1 M SB 1 σ2 1 M SB 1
= P{ ( − 1) ≤ τ2 ≤ ( − 1)} (7.7)
n M SE FI−1,N −I,α/2 σ n M SE FI−1,N −I,1−α/2
1 M SB 1 σ2 1 M SB 1
= P {g( ( − 1)) ≤ g( τ2 ) ≤ g( ( − 1))}
n M SE FI−1,N −I,α/2 σ n M SE FI−1,N −I,1−α/2

où g(·) est une fonction croissante définie par g(t) = t/(t + 1). On obtient alors l’intervalle
de confiance suivant pour στ2 /(στ2 + σ 2 ) :

M SB − FI−1,N −I,α/2 M SE M SB − FI−1,N −I,1−α/2 M SE


[ , ]
M SB + (n − 1)FI−1,N −I,α/2 M SE M SB + (n − 1)FI−1,N −I,1−α/2 M SE

Le rapport στ2 /(στ2 +σ 2 ) donne la proportion de la variabilité totale expliquée par l’hétérogénéité
entre les modalités du facteur aléatoire.
Lorsque N − I est grand, l’estimation de σ 2 par M SE devient plus précise et on peut alors
écrire σ 2 ≃ M SE. L’équation 7.7 s’écrit alors

1 M SB 1 στ2 1 M SB 1
1 − α ≃ P{ ( − 1) ≤ ≤ ( − 1)}
n M SE FI−1,N −I,α/2 M SE n M SE FI−1,N −I,1−α/2
1 M SB 1 M SB
= P{ ( − M SE) ≤ στ2 ≤ ( − M SE)}
n FI−1,N −I,α/2 n FI−1,N −I,1−α/2

On en déduit un intervalle de confiance approximatif au niveau 1 − α pour στ2 .

5
7.3 Puissance de l’ANOVA à un facteur aléatoire
On rappelle que
P uissance = P (rejetter H0 |H1 est vrai)
Dans le cas d’un test F de l’anova avec un facteur aléatoire, de seuil α, cette puissance
s’écrit comme suit:
M SB σ2 M SB
P (∆) = P ( > FI−1,N −I,α | 2 2
∼ FI−1,N −I )
M SW σ + nστ M SW
σ2
= P (FI−1,N −I > 2 FI−1,N −I,α )
σ + nστ2
1
= P (FI−1,N −I > FI−1,N −I,α )
1+∆
où ∆ = nστ2 /σ 2 .
Voici, en R, le programme qui calcule cette puissance

puissance.anova.random<-function(n,I,Delta,alpha)
{
N<-n*I
ff<-qf(p=alpha,df1=I-1,df2=N-I,ncp=0,lower.tail=F)/(Delta+1)
## ou ff<-qf(p=1-alpha,df1=I-1,df2=N-I,ncp=0,lower.tail=T)/(Delta+1)
result<-pf(q=ff,df1=I-1,df2=N-I,lower.tail=F)
## ou result<-(1-pd(q=ff,df1=I-1,df2=N-I,lower.tail=T))
return(result)
}

Pour α = 0.05, I = 5 et n = 20, on obtient le graphe suivant:

7.4 Le cas non balancé


Si les tailles d’échantillons sont inégales le résultat (7.3) ne tient plus. Sous H0 : στ2 = 0,
M SB est toujours proportionnelle à une variable alétoire ayant une distribution χ2I−1 et le
test F d’homogénité peut-être utilisé pour tester H0 .

6
Puissance d’une ANOVA avec effet aleatoire, I=5, n=20, alpha=0.05

1.0
0.8
0.6
puissance

0.4
0.2

0.0 0.5 1.0 1.5 2.0

alternative

Pour estimer στ2 , on peut utiliser la méthode des moments. Pour calculer l’espérance de
SSB on note que
{ I }

E(SSB) = E ni (Ȳi· − Ȳ·· ) 2

i=1
{ I }
∑ ∑
I
= E ni (Ȳi· − µ) − ( 2
ni )(Ȳ·· − µ) 2

i=1 i=1
( ) ∑I

I
σ2 n2i στ2
= ni στ2 + −σ − 2 i=1

i=1 ni ni
{ ∑ }
= (I − 1)σ 2 + στ2 (I − 1)n̄ − (ni − n̄)2 /(I n̄) ,

où n̄ est la taille d’échantillon moyenne. Ainsi l’estimateur des moments de στ2 est
[ ] [ ]
M SB − σ̂ 2 M SB − σ̂ 2
σ̂τ2 = max ∑ , 0 = max ,0 .
n̄ − (ni − n̄)2 /{n̄I(I − 1)} n̄(1 − CV 2 {ni }/I)

Cet estimateur n’est pas un estimateur du maximum de vraisemblance. Dans SAS, on peut
estimer στ2 dans une analyse de variance à un facteur aléatoire de deux façons différentes: par
la méthode des moments avec l’option random de la procédure glm ou par la méthode du
maximum de vraisemblance avec la procédure mixed. La théorie sous jacente a cette dernière
procédure est vue dans les cours de planification d’expériences et de régression gradué.