PEX ch7 Anova 1F

Chapitre 7
ANOVA avec un facteur aléatoire
Jusqu’à maintenant, on a supposé que les modalités du facteur étudié ont été choisies parce
qu’elles étaient intrinsèquement intéressantes. Le modèle à “effets” fixes porte sur des traite-
ments bien définis que l’ANOVA permet de comparer entre eux. Considérons l’exemple
suivant:
Exemple 7.1 On s’intéresse au niveau de mathématiques des étudiants des cégeps de la

région de Québec. On prend alors un échantillon de 20 finissants de chaque cégep de la
région de Québec. On leur administre une épreuve commune et on compare les résultats.
C’est une expérience avec effets fixes. Les modalités du facteur étudié sont les cégeps de la
région de Québec. Ce facteur est fixe.
Supposons maintenant qu’on veuille répondre à la question suivante: Est ce que le niveau
de mathématiques est variable d’un cégep à l’autre dans la province de Québec. Si tel est
le cas, on demande de mesurer cette variabilité. On sélectionne dans un premier temps
un échantillon parmi les cégeps de la province; ensuite on procède comme avant et on tire
au hasard 20 étudiants de chaque cégep (il s’agit d’un échantillonnage à deux degrés). On
s’intéresse autant aux cégeps échantillonnés qu’à ceux que ne l’ont pas été car on veut étudier
la variabilité inter-cégeps des compétences en mathématiques. Dans ce contexte le facteur
cégep est aléatoire.
1
7.1 ANOVA à un facteur aléatoire
Dans une ANOVA à un facteur fixe, on a supposé le modèle
Yij = µi + eij (7.1)
pour i = 1, · · · , I et j = 1, · · · , ni . Dans ce modèle, {µ1 , · · · , µI } sont des constantes alors

eij ∼ N(0, σ 2 ). On peut aussi écrire (7.1) sous la forme:
Yij = µ + τi + eij (7.2)

∑I
où {µ, τ1 , τ2 , · · · , τI } sont des constantes vérifiant i=1 τi = 0.
Dans le cas d’un effet aléatoire, les modalités des facteurs sont elles-mêmes aléatoires. Le
modèle s’écrit alors sous la même forme que (7.2) où µ est une constante, τi ∼ N(0, στ2 ) pour
i = 1, · · · , I, eij ∼ N(0, σ 2 ) pour i = 1, · · · , I, j = 1, · · · , ni et τi et eij indépendantes.
Avec ce modèle, Yij ∼ N(µ, στ2 + σ 2 ). On dit alors que στ2 et σ 2 sont les composantes
de la variance. Une partie de la variabilité de Y est expliquée par la variabilité entre les
traitements (στ2 ), l’autre par la variabilité résiduelle (σ 2 ).
Dans l’ANOVA à un facteur fixe, on considère l’hypothèse H0 : µ1 = µ2 = · · · = µI . Cette
dernière n’a plus de sens dans le contexte d’une ANOVA à un facteur aléatoire puisque les
modalités sont elles-mêmes aléatoires. On veut tester si le facteur influence la variabilité de
Y . L’hypothèse nulle s’écrit H0 : στ = 0. L’hypothèse alternative postule que le facteur
a une effet sur la variabilité de Y . Elle s’écrit H1 : στ > 0. Dans l’exemple précédent,
l’hypothèse alternative spécifie la présence d’une variabilité inter-cégeps des compétences
mathématiques, sans préciser exactement la nature des différences entre les cégeps.
Bien que les deux scénarios soient très différents l’un de l’autre, on utilise la même règle
de décision dans les deux cas, c’est à dire:
M SB
On rejette H0 si > FI−1,N −I,α
M SE
Supposons pour l’instant que le plan est balancé. Soit n la taille commune des échantillons.
Dans ce cadre, les moyennes des échantillons Ȳi. s’écrivent:
1∑ n
Ȳi. = Yij
n j=1
= µ + τi + ēi.
2
∑n
où ēi. = { j=1 eij }/n ∼ N(0, σ 2 /n). On a alors
σ2
Ȳi. ∼ N(0, στ2 + ) i = 1, · · · , n.
n
Les variables Ȳi. étant indépendantes et identiquement distribuées, on a alors
(I − 1)M SB
2 2
∼ χ2I−1 . (7.3)
σ + nστ
Dans ce cadre, le SSB s’écrit
∑
I
SSB = ni (Ȳi. − Ȳ.. )2
i=1
∑I
= n (Ȳi. − Ȳ.. )2
i=1
∑I
= n ({τi − τ̄. } + {ēi. − ē.. })2 (7.4)
i=1
∑I ∑I
où τ̄. = i=1 τi /I et ē.. = i=1 ēi. /I.
D’autre part, pour i = 1, · · · , I, on a :
∑
n
(n − 1)Si2 = (Yij − Ȳi. )2
j=1
∑n
= (eij − ēi. )2
j=1
Donc
(n − 1)Si2
2
∼ χ2n−1
σ
indépendamment les unes des autres, et par conséquent
(N − I)M SE ∑ I
(n − 1)Si2
= ∼ χ2N −I (7.5)
σ2 i=1 σ 2
D’après 7.4, M SB ne dépend que de {τ1 , τ2 , · · · , τI } et {ē1. , ē2. , · · · , ēI. }. D’après 7.5, M SE ne
dépend que de {S12 , S22 , · · · , SI2 }. Parmi les hypothèses de ce modéle, figure l’indépendance des
eij et τi , l’indépendance des ensembles {τ1 , τ2 , · · · , τI } et {S12 , S22 , · · · , SI2 } s’en suit. D’autre
3
part, on sait, d’après le chapitre 1, que les ensembles {ē1. , ē2. , · · · , ēI. } et {S12 , S22 , · · · , SI2 }
sont indépendants. On conclut alors que les statistiques M SB et M SE sont indépendantes.
L’indépendance de M SB et M SE et les relations 7.3 et 7.5 donnent alors:
σ2 M SB
F = 2 2
∼ FI−1,N −I (7.6)
σ + nστ M SE
Sous H0 , cette dernière équation devient M SB/M SE ∼ FI−1,N −I . D’où la région de
rejet annoncée plus haut.
7.2 Estimation des variances σ 2 et στ2

D’après 7.5, l’estimation de σ 2 est identique au cas d’un facteur fixe. Ainsi, un intervalle de
confiance pour σ 2 au niveau 1 − α est donné par:
(N − I)M SE (N − I)M SE
[ , ]
χ2N −I,α/2 χ2N −I,1−α/2
D’après 7.3, on a : E[M SB] = σ 2 + nστ2 . D’après 7.5, on a E[M SE] = σ 2 . Donc on a:
M SB − M SE
E[ ] = στ2 .
n
La statistique (M SB − M SE)/n est un estimateur sans biais de στ2 . Cependant, il arrive
qu’on ait M SB < M SE, et donc un estimateur négatif pour la variance, ce qui n’est pas
souhaitable. On préfère donc l’estimateur:

 M SB−M SE
si M SB ≥ M SE
σ̂τ2 = n
 0 si M SB < M SE.
Noter que c’est la méthode des moments qui a été utilisée pour estimer στ2 . C’est à partir
des espérances de M SE et de M SB que l’estimateur a été construit. On peut montrer
que cet estimateur est aussi un estimateur du maximum de vraisemblance (la vraisemblance
du modèle avec effets aléatoires est compliquée à écrire car deux observations provenant du
même échantillon sont correlées puisque qu’ellent partagent le même τi ). L’estimateur σ̂τ2
est une combinaison linéaire de deux khi-deux. Sa loi est complexe et nous empèche d’avoir
4
des intervalles de confiances exacts pour στ2 . Cependant, on peut contruire des intervalles de
confiances exacts pour στ2 /(στ2 + σ 2 ) ou approximatifs pour στ2 .
En effet, d’après 7.3, on a
σ2 M SB
1 − α = P {FI−1,N −I,1−α/2 ≤ 2 2
≤ FI−1,N −I,α/2 }
σ + nστ M SE
1 M SB 1 σ2 1 M SB 1
= P{ ( − 1) ≤ τ2 ≤ ( − 1)} (7.7)
n M SE FI−1,N −I,α/2 σ n M SE FI−1,N −I,1−α/2
1 M SB 1 σ2 1 M SB 1
= P {g( ( − 1)) ≤ g( τ2 ) ≤ g( ( − 1))}
n M SE FI−1,N −I,α/2 σ n M SE FI−1,N −I,1−α/2
où g(·) est une fonction croissante définie par g(t) = t/(t + 1). On obtient alors l’intervalle
de confiance suivant pour στ2 /(στ2 + σ 2 ) :
M SB − FI−1,N −I,α/2 M SE M SB − FI−1,N −I,1−α/2 M SE

[ , ]
M SB + (n − 1)FI−1,N −I,α/2 M SE M SB + (n − 1)FI−1,N −I,1−α/2 M SE
Le rapport στ2 /(στ2 +σ 2 ) donne la proportion de la variabilité totale expliquée par l’hétérogénéité
entre les modalités du facteur aléatoire.
Lorsque N − I est grand, l’estimation de σ 2 par M SE devient plus précise et on peut alors
écrire σ 2 ≃ M SE. L’équation 7.7 s’écrit alors
1 M SB 1 στ2 1 M SB 1
1 − α ≃ P{ ( − 1) ≤ ≤ ( − 1)}
n M SE FI−1,N −I,α/2 M SE n M SE FI−1,N −I,1−α/2
1 M SB 1 M SB
= P{ ( − M SE) ≤ στ2 ≤ ( − M SE)}
n FI−1,N −I,α/2 n FI−1,N −I,1−α/2
On en déduit un intervalle de confiance approximatif au niveau 1 − α pour στ2 .
5
7.3 Puissance de l’ANOVA à un facteur aléatoire
On rappelle que
P uissance = P (rejetter H0 |H1 est vrai)
Dans le cas d’un test F de l’anova avec un facteur aléatoire, de seuil α, cette puissance
s’écrit comme suit:
M SB σ2 M SB
P (∆) = P ( > FI−1,N −I,α | 2 2
∼ FI−1,N −I )
M SW σ + nστ M SW
σ2
= P (FI−1,N −I > 2 FI−1,N −I,α )
σ + nστ2
1
= P (FI−1,N −I > FI−1,N −I,α )
1+∆
où ∆ = nστ2 /σ 2 .
Voici, en R, le programme qui calcule cette puissance
puissance.anova.random<-function(n,I,Delta,alpha)
{
N<-n*I
ff<-qf(p=alpha,df1=I-1,df2=N-I,ncp=0,lower.tail=F)/(Delta+1)
## ou ff<-qf(p=1-alpha,df1=I-1,df2=N-I,ncp=0,lower.tail=T)/(Delta+1)
result<-pf(q=ff,df1=I-1,df2=N-I,lower.tail=F)
## ou result<-(1-pd(q=ff,df1=I-1,df2=N-I,lower.tail=T))
return(result)
}
Pour α = 0.05, I = 5 et n = 20, on obtient le graphe suivant:
7.4 Le cas non balancé

Si les tailles d’échantillons sont inégales le résultat (7.3) ne tient plus. Sous H0 : στ2 = 0,
M SB est toujours proportionnelle à une variable alétoire ayant une distribution χ2I−1 et le
test F d’homogénité peut-être utilisé pour tester H0 .
6
Puissance d’une ANOVA avec effet aleatoire, I=5, n=20, alpha=0.05
1.0
0.8
0.6
puissance
0.4
0.2
0.0 0.5 1.0 1.5 2.0
alternative
Pour estimer στ2 , on peut utiliser la méthode des moments. Pour calculer l’espérance de
SSB on note que
{ I }
∑
E(SSB) = E ni (Ȳi· − Ȳ·· ) 2
i=1
{ I }
∑ ∑
I
= E ni (Ȳi· − µ) − ( 2
ni )(Ȳ·· − µ) 2
i=1 i=1
( ) ∑I
∑
I
σ2 n2i στ2
= ni στ2 + −σ − 2 i=1
∑
i=1 ni ni
{ ∑ }
= (I − 1)σ 2 + στ2 (I − 1)n̄ − (ni − n̄)2 /(I n̄) ,
où n̄ est la taille d’échantillon moyenne. Ainsi l’estimateur des moments de στ2 est
[ ] [ ]
M SB − σ̂ 2 M SB − σ̂ 2
σ̂τ2 = max ∑ , 0 = max ,0 .
n̄ − (ni − n̄)2 /{n̄I(I − 1)} n̄(1 − CV 2 {ni }/I)
Cet estimateur n’est pas un estimateur du maximum de vraisemblance. Dans SAS, on peut
estimer στ2 dans une analyse de variance à un facteur aléatoire de deux façons différentes: par
la méthode des moments avec l’option random de la procédure glm ou par la méthode du
maximum de vraisemblance avec la procédure mixed. La théorie sous jacente a cette dernière
procédure est vue dans les cours de planification d’expériences et de régression gradué.

PEX ch7 Anova 1F

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

PEX ch7 Anova 1F

Transféré par

Droits d'auteur :

Formats disponibles

Chapitre 7

ANOVA avec un facteur aléatoire

Exemple 7.1 On s’intéresse au niveau de mathématiques des étudiants des cégeps de la

Yij = µi + eij (7.1)

pour i = 1, · · · , I et j = 1, · · · , ni . Dans ce modèle, {µ1 , · · · , µI } sont des constantes alors

Yij = µ + τi + eij (7.2)

7.2 Estimation des variances σ 2 et στ2

M SB − FI−1,N −I,α/2 M SE M SB − FI−1,N −I,1−α/2 M SE

On en déduit un intervalle de conﬁance approximatif au niveau 1 − α pour στ2 .

Pour α = 0.05, I = 5 et n = 20, on obtient le graphe suivant:

7.4 Le cas non balancé

0.0 0.5 1.0 1.5 2.0

Vous aimerez peut-être aussi