Académique Documents
Professionnel Documents
Culture Documents
Daniel Borcard
Département de sciences biologiques
Université de Montréal
1. Introduction
L'analyse de variance suppose l'égalité des variances et la normalité
des populations d'origine. Scherrer (2007 p. 528) dit que "l'égalité des
variances peut être testée à l'aide d'un test de Levene [...]" et poursuit
en disant que, si les variances sont inégales et les effectifs des groupes
ne sont pas les mêmes, "...une hétérogénéité de variance peut produire
un taux d'erreur de première espèce sérieusement différent du taux
nominal α...". Il dit cependant aussi que "L'analyse de variance est
généralement robuste à de légères variations de variances lorsque la
taille des groupes est constante et au moins égale à 5".
Il existe plus de 50 tests ou procédures de comparaison de variances
(Scherrer 2007 p. 396). L'opinion varie parmi les auteurs quant à la
pertinence et l'efficacité des tests d'homogénéité de variance (ci-après:
THV). Certains affirment que ces derniers sont indispensables à
réaliser avant toute ANOVA. D'autres (p.ex. Zar, 1999) disent que les
tests actuellement disponibles ont de si piètres performances qu'ils ne
sont pas réellement utiles, l'ANOVA étant plus robuste aux écarts
d'homoscédasticité que ce qui peut être détecté par les THV,
particulièrement en cas de non-normalité. On nous dit aussi
(Underwood, 1997) que dans des plans d'expérience équilibrés
l'ANOVA n'a des problèmes avec l'hétérogénéité des variances que
lorsqu'une des variances se démarque fortement des autres, mais que
l'ANOVA est peu affectée par la non-normalité...qui, elle, affecte
cruellement les THV! En fait, toutes ces questions se rapportent au
problème dit de Behrens-Fisher, qui est celui de la comparaison de
moyennes sans supposer l'équivariance. Des solutions valides à ce
Bio2042 Tests d'homogénéité des variances 2
2. Données
Nous avons généré des données sous deux distributions avec deux
variantes:
1. Distribution normale
2. Distribution asymétrique générée par une base 1.4 mise à des
exposants tirés aléatoirement d'une distribution normale. Ces données
ont donc une distribution analogue à la lognormale, mais grâce à la
base 1.4 (au lieu de e) elle contient moins de valeurs très extrêmes.
3. Comme 1, mais tronqué à zéro et en nombres entiers.
4. Comme 2, mais tronqué à zéro et en nombres entiers.
5 et 6: comme 3 et 4, mais avec transformation y' = ln(y + 1)
Les variantes 3, 4, 5 et 6 simulent des abondances d'espèces.
Simulations pour le test de Brown-Forsythe: (1) Données
normales; (2) Données lognormales continues; (3) Données
lognormales arrondies (0 décimale) et transformées en ln(y + 1), pour
simuler des abondances d'espèces.
3. Résultats des simulations et discussion
Les résultats des simulations (sauf pour le test de Brown-Forsythe)
sont présentés dans le manuscrit disponible en pdf sur le site du cours.
Ils ne sont pas repris ici. Sur le plan général, toutefois, traduisons les
éléments clés de la discussion:
Premièrement, nous pouvons affirmer que l'hétérogénéité des
variances est toujours un problème en anova, et ce même lorsqu'une
des variances est plus petite que les autres (le problème est pire
lorsqu'une des variances est plus grande que les autres). L'effet de
Bio2042 Tests d'homogénéité des variances 4
( )
g
( N − g )∑ n j z j − z..
2
W= j=1
g nj
(g −1)∑ ∑ ( zij − z j )
2
j=1 i=1
1
Conover, W. J., M. E. Johnson & M. M. Johnson. 1981. A comparative study of tests of homogeneity of variances, with
applications to the Outer Continental Shelf bidding data. Technometrics 23(4): 351-361.
Bio2042 Tests d'homogénéité des variances 6
≠
2 2
H1 : i j pour au moins un i différent de j
Si Ho est vraie et que les conditions d'application sont réunies (variable
y distribuée normalement; observations indépendantes) alors la
statistique W est distribuée comme un F de Fisher-Snedecor à ν1 = g –
1 et ν2 = N – g degrés de liberté.
De manière plus informelle, on peut envisager le test de Levene ou
celui de Brown-Forsythe comme une ... anova (!) sur les écarts
absolus des valeurs yij à la moyenne ou la médiane de chaque groupe.
Lorsque les écarts sont plus ou moins les mêmes dans chaque groupe,
on considère que les variances intragroupes sont homogènes.
Le fait d'utiliser la médiane plutôt que la moyenne comme paramètre
de position rend le test plus robuste dans le cas où la distribution des
données est asymétrique. Le test tolère donc de plus grands écarts à la
normalité.
La fonction levene.test(y,group) du langage R (librairie "car") calcule
en fait le test de Brown-Forsythe. La fonction est un modèle de
concision et permet de voir clairement comment le test est réalisé. Elle
est reprise ci-dessous avec des commentaires ajoutés. y est la variable
dépendante et group est une variable de type "factor" définissant
l'appartenance de chaque observation à un groupe.
> levene.test
function (y, group) {
# Calcul de la médiane de chaque groupe:
meds <- tapply(y, group, median, na.rm = TRUE)
# Calcul des écarts absolus entre chaque valeur et la
médiane de son groupe:
resp <- abs(y - meds[group])
# ANOVA des écarts absolus, le critère de classification
étant "group", et finalement affichage des résultats:
table <- anova(lm(resp ~ group))[, c(1, 4, 5)]
rownames(table)[2] <- " "
attr(table, "heading") <- "Levene's Test for Homogeneity of
Variance"
table }
Bio2042 Tests d'homogénéité des variances 7
5. Recommandations
Les résultats de l'étude peuvent être synthétisés sous la forme de
quelques recommandations. Elles sont présentées ici sous forme d'une
clé, qu'on peut suivre pour décider de la procédure à appliquer en
fonction des caractéristiques de ses données.
1. Données normales?
- oui –> THV de Bartlett ou de Box; éviter Cochran (sensible
seulement à une variance plus élevée que les autres), log-anova
(puissance faible lorsque le nombre d'objets par groupe est
inférieur à 145) et Brown-Forsythe (puissance faible) ..........-> 2
- non –> normaliser les données.....................................................-> 4
2. Résultat du THV
- variances homogènes –> ...................................................................
........................ Faire une anova paramétrique ou permutationnelle
- variances hétérogènes –> ..................................................................
homogénéiser les variances..........................-> 3
2
Pierre Legendre a réalisé un programme de calcul des tests ci-dessus, appelé Test_HV et disponible sur son site web (pour
PC ou Mac environnement Classic):
http://www.bio.umontreal.ca/legendre/
Ce programme calcule également deux autres tests d'homogénéité de variances, le test du log-anova et le C de Cochran (qui
localise la variance la plus élevée et teste si elle est significativement plus grande que les autres). Le manuel du programme
donne de plus amples informations sur les formules de chacun des tests.
Bio2042 Tests d'homogénéité des variances 9