Académique Documents
Professionnel Documents
Culture Documents
Jusqu’à maintenant, on a supposé que les modalités du facteur étudié ont été choisies parce
qu’elles étaient intrinsèquement intéressantes. Le modèle à “effets” fixes porte sur des traite-
ments bien définis que l’ANOVA permet de comparer entre eux. Considérons l’exemple
suivant:
Supposons maintenant qu’on veuille répondre à la question suivante: Est ce que le niveau
de mathématiques est variable d’un cégep à l’autre dans la province de Québec. Si tel est
le cas, on demande de mesurer cette variabilité. On sélectionne dans un premier temps
un échantillon parmi les cégeps de la province; ensuite on procède comme avant et on tire
au hasard 20 étudiants de chaque cégep (il s’agit d’un échantillonnage à deux degrés). On
s’intéresse autant aux cégeps échantillonnés qu’à ceux que ne l’ont pas été car on veut étudier
la variabilité inter-cégeps des compétences en mathématiques. Dans ce contexte le facteur
cégep est aléatoire.
1
7.1 ANOVA à un facteur aléatoire
Dans une ANOVA à un facteur fixe, on a supposé le modèle
2
∑n
où ēi. = { j=1 eij }/n ∼ N(0, σ 2 /n). On a alors
σ2
Ȳi. ∼ N(0, στ2 + ) i = 1, · · · , n.
n
Les variables Ȳi. étant indépendantes et identiquement distribuées, on a alors
(I − 1)M SB
2 2
∼ χ2I−1 . (7.3)
σ + nστ
Dans ce cadre, le SSB s’écrit
∑
I
SSB = ni (Ȳi. − Ȳ.. )2
i=1
∑I
= n (Ȳi. − Ȳ.. )2
i=1
∑I
= n ({τi − τ̄. } + {ēi. − ē.. })2 (7.4)
i=1
∑I ∑I
où τ̄. = i=1 τi /I et ē.. = i=1 ēi. /I.
D’autre part, pour i = 1, · · · , I, on a :
∑
n
(n − 1)Si2 = (Yij − Ȳi. )2
j=1
∑n
= (eij − ēi. )2
j=1
Donc
(n − 1)Si2
2
∼ χ2n−1
σ
indépendamment les unes des autres, et par conséquent
(N − I)M SE ∑ I
(n − 1)Si2
= ∼ χ2N −I (7.5)
σ2 i=1 σ 2
D’après 7.4, M SB ne dépend que de {τ1 , τ2 , · · · , τI } et {ē1. , ē2. , · · · , ēI. }. D’après 7.5, M SE ne
dépend que de {S12 , S22 , · · · , SI2 }. Parmi les hypothèses de ce modéle, figure l’indépendance des
eij et τi , l’indépendance des ensembles {τ1 , τ2 , · · · , τI } et {S12 , S22 , · · · , SI2 } s’en suit. D’autre
3
part, on sait, d’après le chapitre 1, que les ensembles {ē1. , ē2. , · · · , ēI. } et {S12 , S22 , · · · , SI2 }
sont indépendants. On conclut alors que les statistiques M SB et M SE sont indépendantes.
L’indépendance de M SB et M SE et les relations 7.3 et 7.5 donnent alors:
σ2 M SB
F = 2 2
∼ FI−1,N −I (7.6)
σ + nστ M SE
Sous H0 , cette dernière équation devient M SB/M SE ∼ FI−1,N −I . D’où la région de
rejet annoncée plus haut.
D’après 7.3, on a : E[M SB] = σ 2 + nστ2 . D’après 7.5, on a E[M SE] = σ 2 . Donc on a:
M SB − M SE
E[ ] = στ2 .
n
La statistique (M SB − M SE)/n est un estimateur sans biais de στ2 . Cependant, il arrive
qu’on ait M SB < M SE, et donc un estimateur négatif pour la variance, ce qui n’est pas
souhaitable. On préfère donc l’estimateur:
M SB−M SE
si M SB ≥ M SE
σ̂τ2 = n
0 si M SB < M SE.
Noter que c’est la méthode des moments qui a été utilisée pour estimer στ2 . C’est à partir
des espérances de M SE et de M SB que l’estimateur a été construit. On peut montrer
que cet estimateur est aussi un estimateur du maximum de vraisemblance (la vraisemblance
du modèle avec effets aléatoires est compliquée à écrire car deux observations provenant du
même échantillon sont correlées puisque qu’ellent partagent le même τi ). L’estimateur σ̂τ2
est une combinaison linéaire de deux khi-deux. Sa loi est complexe et nous empèche d’avoir
4
des intervalles de confiances exacts pour στ2 . Cependant, on peut contruire des intervalles de
confiances exacts pour στ2 /(στ2 + σ 2 ) ou approximatifs pour στ2 .
En effet, d’après 7.3, on a
σ2 M SB
1 − α = P {FI−1,N −I,1−α/2 ≤ 2 2
≤ FI−1,N −I,α/2 }
σ + nστ M SE
1 M SB 1 σ2 1 M SB 1
= P{ ( − 1) ≤ τ2 ≤ ( − 1)} (7.7)
n M SE FI−1,N −I,α/2 σ n M SE FI−1,N −I,1−α/2
1 M SB 1 σ2 1 M SB 1
= P {g( ( − 1)) ≤ g( τ2 ) ≤ g( ( − 1))}
n M SE FI−1,N −I,α/2 σ n M SE FI−1,N −I,1−α/2
où g(·) est une fonction croissante définie par g(t) = t/(t + 1). On obtient alors l’intervalle
de confiance suivant pour στ2 /(στ2 + σ 2 ) :
Le rapport στ2 /(στ2 +σ 2 ) donne la proportion de la variabilité totale expliquée par l’hétérogénéité
entre les modalités du facteur aléatoire.
Lorsque N − I est grand, l’estimation de σ 2 par M SE devient plus précise et on peut alors
écrire σ 2 ≃ M SE. L’équation 7.7 s’écrit alors
1 M SB 1 στ2 1 M SB 1
1 − α ≃ P{ ( − 1) ≤ ≤ ( − 1)}
n M SE FI−1,N −I,α/2 M SE n M SE FI−1,N −I,1−α/2
1 M SB 1 M SB
= P{ ( − M SE) ≤ στ2 ≤ ( − M SE)}
n FI−1,N −I,α/2 n FI−1,N −I,1−α/2
5
7.3 Puissance de l’ANOVA à un facteur aléatoire
On rappelle que
P uissance = P (rejetter H0 |H1 est vrai)
Dans le cas d’un test F de l’anova avec un facteur aléatoire, de seuil α, cette puissance
s’écrit comme suit:
M SB σ2 M SB
P (∆) = P ( > FI−1,N −I,α | 2 2
∼ FI−1,N −I )
M SW σ + nστ M SW
σ2
= P (FI−1,N −I > 2 FI−1,N −I,α )
σ + nστ2
1
= P (FI−1,N −I > FI−1,N −I,α )
1+∆
où ∆ = nστ2 /σ 2 .
Voici, en R, le programme qui calcule cette puissance
puissance.anova.random<-function(n,I,Delta,alpha)
{
N<-n*I
ff<-qf(p=alpha,df1=I-1,df2=N-I,ncp=0,lower.tail=F)/(Delta+1)
## ou ff<-qf(p=1-alpha,df1=I-1,df2=N-I,ncp=0,lower.tail=T)/(Delta+1)
result<-pf(q=ff,df1=I-1,df2=N-I,lower.tail=F)
## ou result<-(1-pd(q=ff,df1=I-1,df2=N-I,lower.tail=T))
return(result)
}
6
Puissance d’une ANOVA avec effet aleatoire, I=5, n=20, alpha=0.05
1.0
0.8
0.6
puissance
0.4
0.2
alternative
Pour estimer στ2 , on peut utiliser la méthode des moments. Pour calculer l’espérance de
SSB on note que
{ I }
∑
E(SSB) = E ni (Ȳi· − Ȳ·· ) 2
i=1
{ I }
∑ ∑
I
= E ni (Ȳi· − µ) − ( 2
ni )(Ȳ·· − µ) 2
i=1 i=1
( ) ∑I
∑
I
σ2 n2i στ2
= ni στ2 + −σ − 2 i=1
∑
i=1 ni ni
{ ∑ }
= (I − 1)σ 2 + στ2 (I − 1)n̄ − (ni − n̄)2 /(I n̄) ,
où n̄ est la taille d’échantillon moyenne. Ainsi l’estimateur des moments de στ2 est
[ ] [ ]
M SB − σ̂ 2 M SB − σ̂ 2
σ̂τ2 = max ∑ , 0 = max ,0 .
n̄ − (ni − n̄)2 /{n̄I(I − 1)} n̄(1 − CV 2 {ni }/I)
Cet estimateur n’est pas un estimateur du maximum de vraisemblance. Dans SAS, on peut
estimer στ2 dans une analyse de variance à un facteur aléatoire de deux façons différentes: par
la méthode des moments avec l’option random de la procédure glm ou par la méthode du
maximum de vraisemblance avec la procédure mixed. La théorie sous jacente a cette dernière
procédure est vue dans les cours de planification d’expériences et de régression gradué.