Vous êtes sur la page 1sur 7

Chapitre 6

Considérations pratiques

On a vu dans les chapitres précédents que les hypothèses de l’ANOVA doivent être vérifiées
pour que les résultats de l’analyse soient valides. Or, en pratique, il arrive assez souvent que
les procédures de validation de ces hypothèses donnent des résultats négatifs. C’est à dire,
ces hypothèses ne sont vérifiées. Plusieurs raisons peuvent être à l’origine de ce problème,
notamment:

• les données sont dépendantes les unes des autres.

• les données ne sont pas identiquement distribuées.

• une grande fréquence de données extrêmes.

• les variances sont hétérogènes.

• les données ne sont pas normalement distribuées.

Des études poussées ont permis de mesurer l’influence de ces écarts sur le comportement du
test F . Cette influence se résume comme suit:

• Le seuil du test F est peu influencé par la non normalité si l’homogénéité des variances
est vérifée. La non normalité des données affecte plutôt la puissance du test.

1
• Le seuil du test F est peu influencé par l’hétérogènéité des variances si les tailles des
échantillons sont égales. Si les tailles des échantillons et les variances sont inégales, il
peut y a voir un problème; le vrai seuil du test basé sur la statistique F est plus grand
que le seuil nominal α.

• l’influence de la présence de valeurs extrêmes est nettement plus importante que celle
de la non normalité.

• l’influence de la dépendance des données est très importante.

Que peut-on faire lorsque cela se produit ? Lorsque la cause est l’une des trois premières
citées ci haut, on revient au contexte de l’expérience et du protocol de récolte de données
pour trouver une solution. Lorsque la cause est l’une des deux dernières, il est possible (mais
pas sûr) de trouver une solution. Dans les deux paragraphes qui suivent, on expose deux
alternatives possibles en présence d’hétérogénéité des variances ou/et de non normalité de
données.

6.1 Transformation de données


Considérons le cas où les variances sont hétérogènes. Une solution possible à ce problème
est la transformation des données. Cette procédure consiste à appliquer une fonction g(·) à
toutes les données et à faire par la suite une ANOVA sur les données transformées Yij′ = g(Yij )
pour i = 1, · · · , I, j = 1, · · · , ni . Cette transformation est donc choisie de façon à stabilier
les variances.
Pour cela, étudions, d’abord, la moyenne et la variance de la variable transformée. Soit X
2
une variable aléatoire quelconque d’espérance µX et variance σX . Soit X ′ une transformation
de X, c’est à dire X ′ = g(X) où g(·) est une fonction lisse dérivable au moins deux fois.
Calculons l’espérance et la variance de X ′ .
Développant g(X) en série de Taylor au voisinage de µX , on obtient:

g(X) ≃ g(µX ) + g ′ (µX )(X − µX )

2
On en déduit:

E[X ′ ] = E[g(X)]
≃ E[g(µX ) + g ′ (µX )(X − µX )]
= g(µX ) + g ′ (µX )E[X − µX ]
= g(µX )

D’autre part, on a:

V ar[X ′ ] = V ar[g(X)]
= V ar[g(µX ) + g ′ (µX )(X − µX )]
= g ′ (µX )2 V ar[X − µX ] = g ′ (µX )2 σX
2

2
L’hétérogénéité des variances est souvent exprimée sous forme d’une relation entre σX et
µX . La relation la plus fréquente en pratique est

σX = AµpX (6.1)

où A et p sont des constantes vérifiant A > 0. L’identification d’une telle situation est basée
sur le nuage de points {(log(Y¯i. ), log(Si )), i = 1, · · · , I}. En effet, la relation 6.1 peut s’écrire
log(σX ) = log(A)+p log(µX ). En ajustant un modèle de régression linéaire, la pente présente
une bonne estimation du paramètre p.
2
Une fois que la relation entre µX et σX est identifiée, quelle est la transformation à
appliquer?
On cherche la transformation qui stabilise les variances, c’est à dire celle qui donne
l’homogénéité des variances pour les données transformées.
On cherche alors la transformation qui nous donne g ′ (µX )2 σX
2
= C. En combinant cette
′ −p

dernière équation avec (6.1), on obtient g (µX ) = B × µX où B = C/A. Il suffit donc de
prendre la transformation: 
 log(t) si p = −1
g(t) =
 t1−p si p ̸= −1

Cette technique de transformation de données est aussi utilisée dans la pratique en cas
de non normalité des données. Comme on n’a pas d’idée sur le paramètre p dans ce cas, on

3
essaie succèssivement plusieurs transformations du type g(y) = y p ou g(y) = log(y) jusqu’à
obtenir des données transformées normalement distribuées.
Le résultat qui approxime la variance de g(X) par g ′ {E(X)}2 Var(X) est fondamental en
statistique. Cette approximation utilise la linéarisation, c’est-à-dire un développement en
série de Taylor limité. Elle fonctionne aussi pour des statistiques multivariées où X est un
vecteur. On utilise, par exemple, cette approche en échantillonnage pour approximer par
linéarisation le rappport de deux moyennes afin d’en estimer la variance.

6.2 ANOVA non paramétrique


Dans cette section, on présente une analyse de la variance en absence d’hypothèse de nor-
malité de données. On suppose les hypothèses suivantes:

• pour i = 1, · · · , I, l’échantillon Yi1 , Yi2 , · · · , Yini est issu d’une loi Fi (·).

• les échantillons sont indépendants les uns des autres.

• les I fonctions de répartition ne diffèrent que par un paramètre de translation. C’est à


dire, pour i = 1, · · · , I, il existe mi tel que Fi (t) = F0 (t − mi ) pour tout t ∈ R où F0 (·)
est une fonction de référence et mi un paramètre de translation. En d’autre termes,
X ∼ Fi (·) si et seulement si Z = X − mi ∼ F0 (·).

Cette dernière hypothèse suppose que implicitement l’homogénéité des variances. Sans
perte de généralité, on suppose que la médiane de F0 (·) est nulle. Ceci implique que la
médiane de Fi est mi .
Le test d’ANOVA effectué sécrit alors:

H0 : m 1 = m 2 = · · · = m I
H1 : il existe i ̸= j tels que mi ̸= mj

Ce test est effectué par Krustal Wallis. Soit Rij le rang de l’observation Yij dans
l’ensemble des N observations réunies ensemble et ordonnées dans l’ordre croissant. Définissons

4
les statistiques suivantes:

ni
Ri. = Rij
j=1

1 ∑ ni
R¯i. = Rij
ni j=1

Sous H0 , Rij est distribuée selon la loi uniforme discrète sur {1, 2, · · · , N } et donc E[Rij ] =
(N + 1)/2 et E[R¯i. ] = (N + 1)/2 pour tout i = 1, · · · , I.
Donc si H0 est vraie, les R¯i. ne devraient pas être loin de (N + 1)/2. La procédure de
Krustal et Wallis propose de rejetter H0 si les écarts des R¯i. par rapport à (N + 1)/2 sont
grands, c’est à dire si

I
N +1 2
ni (R¯i. − ) est grand.
i=1 2
Définissons la statistique de Kristal et Wallis par

12 ∑I
N +1 2
KW = ni (R¯i. − ).
N (N + 1) i=1 2

Il existe des tables pour calculer les quantiles de cette statistique pour un ensemble {n1 , n2 , · · · , nI }
donné. Cependant, en pratique, on utilise l’approximation suivante:

Proposition 6.1 Lorsque {n1 , n2 , · · · , nI } tendent vers l’infini, on a le résultat asympto-


tique suivant:
KW ∼ χ2I−1

Ainsi, on rejette H0 lorsque KW > χ2I−1,α .


Cette procédure s’effectue avec SAS en utilisant la procedéure npar1way. Cette dernière
s’écrit comme suit:

proc npar1way data=toto wilcoxon anova;


class traitrement;
var longueur;
run;

5
6.3 Puissance d’une ANOVA
Dans la pratique, les chercheurs veulent s’assurer d’une certaine puissance du test qu’ils
effectuent. La puissance d’un test d’hypothèse est donnée par

P uissance = P (rejetter H0 |H1 est vrai)

Dans le cas d’une test F d’anova standard, de seuil α, cette puissance s’écrit comme suit:
M SB M SB
P (∆) = P ( > FI−1,N −I,α | ∼ F∆,I−1,N −I )
M SW M SW
∑I
où ∆ = i=1 ni (µi − µ)2 /σ 2 .
Considérons le cas d’un plan équilibré, n1 = n2 = · · · = nI = n, on a alors ∆ = nδ où
∑I
i=1 (µi −µ) /σ . Voici le programme en R pour calculer cette puissance pour {δ, I, n, α}
2 2
δ=
données:

puissance.anova<-function(delta,I,n,alpha)
{
N<-n*I
ff<-qf(p=alpha,df1=I-1,df2=N-I,ncp=0,lower.tail=F)
result<-pf(q=ff,df1=I-1,df2=N-I,ncp=delta*n,lower.tail=F)
return(result)
}

Pour I = 5 groupes et n = 10 éléments dans chaque échantillon, traçons P (δ, n, I) en fonction


de δ pour un seuil α = 0.05.
Considérons maintenant le problème de taille d’échantillon minimale pour atteindre une
puissance voulue à un point donné de l’hypothèse alternative. Soit un chercheur en agricul-
ture qui cherche à comparer trois traitements de moyennes µ1 , µ2 et µ3 . Il s’intèresse en
particulier au cas δ = 1. Il se cherche la taille déchantillon minimale pour chaque traitement
pour pouvoir détecter le cas qu’il l’intéresse avec 95% de chance s’il se produit.
Pour cela, traçons la courbe P (δ, n, I) en fonction de n pour δ = 1 et I = 3. On obtient:
On obtient alors P (δ = 1, n = 15, I = 3) = 0.9433121 et P (δ = 1, n = 16, I = 3) =
0.9561559. La taille minimale requise est alors n = 16.

6
Puissance d’un test d’anova avec I=5 et n=10

1.0
0.8
0.6
Puissance

0.4
0.2

0 1 2 3 4

delta

Puissance d’un test d’anova avec delta=1 et I=3


1.0
0.8
Puissance

0.6
0.4
0.2

10 20 30 40

taille d’echantillon