Vous êtes sur la page 1sur 10

Bio2042 Tests d'homogénéité des variances 1

Daniel Borcard
Département de sciences biologiques
Université de Montréal

Tests de comparaison des variances de plus de


deux échantillons indépendants
Référence: Scherrer 2007 (vol. 1) paragraphe 12.2.1 et 12.2.2 (p. 393). Legendre, P. &
Borcard, D. (manuscrit): Statistical comparison of univariate tests of homogeneity of
variances.

1. Introduction
L'analyse de variance suppose l'égalité des variances et la normalité
des populations d'origine. Scherrer (2007 p. 528) dit que "l'égalité des
variances peut être testée à l'aide d'un test de Levene [...]" et poursuit
en disant que, si les variances sont inégales et les effectifs des groupes
ne sont pas les mêmes, "...une hétérogénéité de variance peut produire
un taux d'erreur de première espèce sérieusement différent du taux
nominal α...". Il dit cependant aussi que "L'analyse de variance est
généralement robuste à de légères variations de variances lorsque la
taille des groupes est constante et au moins égale à 5".
Il existe plus de 50 tests ou procédures de comparaison de variances
(Scherrer 2007 p. 396). L'opinion varie parmi les auteurs quant à la
pertinence et l'efficacité des tests d'homogénéité de variance (ci-après:
THV). Certains affirment que ces derniers sont indispensables à
réaliser avant toute ANOVA. D'autres (p.ex. Zar, 1999) disent que les
tests actuellement disponibles ont de si piètres performances qu'ils ne
sont pas réellement utiles, l'ANOVA étant plus robuste aux écarts
d'homoscédasticité que ce qui peut être détecté par les THV,
particulièrement en cas de non-normalité. On nous dit aussi
(Underwood, 1997) que dans des plans d'expérience équilibrés
l'ANOVA n'a des problèmes avec l'hétérogénéité des variances que
lorsqu'une des variances se démarque fortement des autres, mais que
l'ANOVA est peu affectée par la non-normalité...qui, elle, affecte
cruellement les THV! En fait, toutes ces questions se rapportent au
problème dit de Behrens-Fisher, qui est celui de la comparaison de
moyennes sans supposer l'équivariance. Des solutions valides à ce
Bio2042 Tests d'homogénéité des variances 2

problème existent pour deux ou plusieurs groupes et une variable (test


t et ANOVA). Cependant, parmi la cinquantaine de tests existants,
plusieurs études comparatives permettent d'en dégager trois dont les
propriétés (robustesse et puissance) se démarquent des autres: le test
de Bartlett, et ceux de Levene et de Brown-Forsythe.
En 2000, Pierre Legendre et moi avons entrepris de vérifier les
propriétés du test de Bartlett (et de quelques autres) au moyen de
simulations. Notre interrogation était double: (1) dans quelles
conditions l'hétérogénéité des variances est-elle réellement un
problème en ANOVA, et (2) dans ces conditions-là, y a-t-il un test
d'homogénéité de variances utilisable pour détecter cette
hétérogénéité?
Les quelques éléments ci-dessous donnent quelques réponses à nos
questions, et concluent sur quelques recommandations. Ces éléments
ont été obtenus à l'aide de séries de 5000 simulations indépendantes
pour chaque combinaison de nombre d'objets, moyennes, variances,
distribution, transformations de données éventuelles; chaque jeu de
données ainsi simulé a été examiné soit par l'ANOVA à un critère de
classification, soit par un test d'homogénéité de variances. Il y a donc
eu des millions de jeux de données simulés, et chaque jeu a été
examiné par plusieurs tests statistiques réalisés de manière
paramétrique et par permutations (499 permutations).
Certaines séries de simulations avaient pour but de vérifier le
comportement du THV ou de l'ANOVA lorsque H0 est vraie (H0:
moyennes égales pour l'ANOVA; H0: variances égales pour les THV);
ces séries-là testaient donc si l'erreur de type I de la méthode
considérée est bien celle attendue (5%).
D'autres séries testaient les méthodes lorsque les H0 sont fausses, afin
de voir si elles décèlent bien les moyennes (ANOVA) ou les variances
(THV) inégales. C'est donc l'erreur de type II, ou la puissance des
méthodes qui était examinée.
Tous les jeux de données générés comportaient des nombres d'objets
égaux pour tous les groupes.
Les tests examinés dans nos simulations sont le test de Bartlett, le M
de Box, le C de Cochran et le log-anova. Seuls les deux premiers (qui
Bio2042 Tests d'homogénéité des variances 3

sont équivalents dans le cas univariable) ont fourni des résultats


probants dans le cas général et sont présentés ici.
Plus récemment (2008), j'ai réalisé des simulations pour vérifier le
comportement du test de Brown-Forsythe (une variante du test de
Levene). Les résultats de ces simulations sont intégrés au document et
aux recommandations.

2. Données
Nous avons généré des données sous deux distributions avec deux
variantes:
1. Distribution normale
2. Distribution asymétrique générée par une base 1.4 mise à des
exposants tirés aléatoirement d'une distribution normale. Ces données
ont donc une distribution analogue à la lognormale, mais grâce à la
base 1.4 (au lieu de e) elle contient moins de valeurs très extrêmes.
3. Comme 1, mais tronqué à zéro et en nombres entiers.
4. Comme 2, mais tronqué à zéro et en nombres entiers.
5 et 6: comme 3 et 4, mais avec transformation y' = ln(y + 1)
Les variantes 3, 4, 5 et 6 simulent des abondances d'espèces.
Simulations pour le test de Brown-Forsythe: (1) Données
normales; (2) Données lognormales continues; (3) Données
lognormales arrondies (0 décimale) et transformées en ln(y + 1), pour
simuler des abondances d'espèces.
3. Résultats des simulations et discussion
Les résultats des simulations (sauf pour le test de Brown-Forsythe)
sont présentés dans le manuscrit disponible en pdf sur le site du cours.
Ils ne sont pas repris ici. Sur le plan général, toutefois, traduisons les
éléments clés de la discussion:
Premièrement, nous pouvons affirmer que l'hétérogénéité des
variances est toujours un problème en anova, et ce même lorsqu'une
des variances est plus petite que les autres (le problème est pire
lorsqu'une des variances est plus grande que les autres). L'effet de
Bio2042 Tests d'homogénéité des variances 4

l'hétéroscédasticité est une erreur de type I modérément à


extrêmement enflée.
Les réponses à nos autres questions (applicabilité des THV, différences
entre les tests paramétriques et permutationnels, conditions extrêmes)
nécessitent un développement élaboré qui est présenté plus loin sous la
forme d'une table de recommandations. Cela nous est dicté par les
nombreuses caractéristiques des données qui influencent les résultats
des simulations. Par exemple, quiconque désire appliquer l'anova sur
des données non normales est pris entre des exigences contradictoires:
d'un côté, l'anova n'est pas très sensible à l'asymétrie des données
mais nécessite des variances homogènes; de l'autre, les THV
disponibles donnent souvent des résultats fantaisistes lorsque les
données sont asymétriques. Il est donc hautement recommandé de
normaliser les données aussi bien que possible, bien que l'anova elle-
même ne l'exige pas. Dans le cas de données multimodales, on
s'efforcera de réduire l'asymétrie, quoique de telles données soient a
priori peu adaptées aux ANOVAs.
En résumé, parmi les méthodes que nous avons examinées, les
meilleures pour tester l'homogénéité des variances sont, en mode
univariable, les tests de Bartlett et de Brown-Forsythe (ce dernier est
une variante du test de Levene; voir plus loin). Même lorsque les
données sont distribuées normalement, on devrait éviter le test de
Cochran, qui n'est sensible qu'à une variance élevée, ainsi que le log-
anova, longtemps préconisé dans la littérature, mais peu puissant pour
des échantillons d'effectif petit à moyen. En présence de données non
normales, les tests de Bartlett et de Brown-Forsythe peuvent être
utilisés si l'échantillon est très grand (nj > 145). Les données
d'abondance d'espèces devraient être transformées en logs, et
soumises au test de Bartlett permutationnel ou au test de Brown-
Forsythe. Le calcul du test de Bartlett est détaillé par Scherrer, p. 393
et suivantes (paragraphe 12.2.1). Celui de Brown-Forsythe est
eexpliqué plus loin.
Langage R: fonction bartlett.test(y,group)
fonction levene.test(y,group), librairie car
Bio2042 Tests d'homogénéité des variances 5

4. Tests de Levene et de Brown-Forsythe


Parmi les nombreux tests d'homgénéité des variances proposés dans la
littérature, une alternative intéressante au test de Bartlett est le test de
Levene et sa variante dite de Brown-Forsythe, qui offrent dans
certaines conditions un bon compromis entre puissance et robustesse
face aux écarts à la normalité1. Ils sont toutefois moins puissants que le
test de Bartlett, surtout lorsque les effectifs sont faibles (nj < 15).
La formule du test de Levene est la suivante:

( )
g
( N − g )∑ n j z j − z..
2

W= j=1
g nj
(g −1)∑ ∑ ( zij − z j )
2

j=1 i=1

Il existe plusieurs variantes de ce test. Celle qui offre le meilleur


compromis est basée sur les écarts absolus à la médiane de chaque
groupe, et est nommée test W' de Brown-Forsythe par Scherrer
(2007, p. 396). Pour la formule ci-dessus, le symbolisme est alors le
suivant:
y = variable dépendante
yij = une observation quelconque i du groupe j
N = taille de l'échantillon ; nj = effectif du groupe j
g = nombre de groupes
zij = yij − y˜ j où y˜ j est la médiane du groupe j (corriger l'éq. 12.16)
z j = moyenne des zij pour chaque groupe j
z.. = moyenne générale des zij

Les hypothèses du test sont:


= = ... =
2 2 2
H0 : 1 2 k

1
Conover, W. J., M. E. Johnson & M. M. Johnson. 1981. A comparative study of tests of homogeneity of variances, with
applications to the Outer Continental Shelf bidding data. Technometrics 23(4): 351-361.
Bio2042 Tests d'homogénéité des variances 6


2 2
H1 : i j pour au moins un i différent de j
Si Ho est vraie et que les conditions d'application sont réunies (variable
y distribuée normalement; observations indépendantes) alors la
statistique W est distribuée comme un F de Fisher-Snedecor à ν1 = g –
1 et ν2 = N – g degrés de liberté.
De manière plus informelle, on peut envisager le test de Levene ou
celui de Brown-Forsythe comme une ... anova (!) sur les écarts
absolus des valeurs yij à la moyenne ou la médiane de chaque groupe.
Lorsque les écarts sont plus ou moins les mêmes dans chaque groupe,
on considère que les variances intragroupes sont homogènes.
Le fait d'utiliser la médiane plutôt que la moyenne comme paramètre
de position rend le test plus robuste dans le cas où la distribution des
données est asymétrique. Le test tolère donc de plus grands écarts à la
normalité.
La fonction levene.test(y,group) du langage R (librairie "car") calcule
en fait le test de Brown-Forsythe. La fonction est un modèle de
concision et permet de voir clairement comment le test est réalisé. Elle
est reprise ci-dessous avec des commentaires ajoutés. y est la variable
dépendante et group est une variable de type "factor" définissant
l'appartenance de chaque observation à un groupe.
> levene.test
function (y, group) {
# Calcul de la médiane de chaque groupe:
meds <- tapply(y, group, median, na.rm = TRUE)
# Calcul des écarts absolus entre chaque valeur et la
médiane de son groupe:
resp <- abs(y - meds[group])
# ANOVA des écarts absolus, le critère de classification
étant "group", et finalement affichage des résultats:
table <- anova(lm(resp ~ group))[, c(1, 4, 5)]
rownames(table)[2] <- " "
attr(table, "heading") <- "Levene's Test for Homogeneity of
Variance"
table }
Bio2042 Tests d'homogénéité des variances 7

Comportement du test de Brown-Forsythe: simulations


J'ai réalisé dans R quelques séries de simulations du test de Brown-
Forsythe paramétrique. Les données ont été de trois types: normales,
lognormales, et ln(y+1) de lognormales entières [pour simuler des
données d'abondances d'espèces qu'on aurait transformées en
ln(y+1)]. Pour chaque cas j'ai simulé 5000 jeux indépendants de
données comprenant 3 groupes chacun. La puissance a été testée avec
des données dont les variances étaient égales à 4-1-1, 9-1-1 et 16-1-1.
Il y avait donc un groupe dont la variance était plus grande que celle
des autres groupes.
Les résultats sont les suivants (en résumé):
1. Données normales: erreur de type I trop basse lorsque nj est petit,
mais s'approchant du taux nominal de 5% lorsque nj ≥ 50. Puissance
faible tant que nj ≤ 20. Donc, test à éviter lorsque les données sont
distribuées normalement. Le test de Bartlett est préférable.
2. Données lognormales (réelles, continues, positivement
asymétriques): dans un tel cas, le test de Bartlett est inutilisable (erreur
de type I très élevée). Le test de Brown-Forsythe, lui, a une erreur de
type I plus basse que 5% (ce qui est acceptable), mais une puissance
très faible: de l'ordre de 20% lorsque nj = 20. On peut donc l'utiliser,
mais avec un risque certain de "manquer" un cas d'hétérogénéité de
variances. La puissance est de l'ordre de 35 à 68% lorsque nj = 50.
3. Données lognormales entières transformées en ln(y+1) (= données
de type "abondances d'espèces" transformées en ln): dans ce cas, le
test de Bartlett paramétrique a une erreur de type I un peu trop élevée
(6 à 15%) lorsque nj est petit, ce qui est dangereux: on risque de
déclarer faussement que des variances sont hétérogènes. Le test de
Brown-Forsythe, lui, a toujours une erreur de type I trop basse lorsque
nj < 20, mais proche de la norme 5% ensuite. Sa puissance est très
faible jusqu'à nj = 10, mais augmente ensuite (elle est de 62% à 95%
lorsque nj = 20), de sorte qu'on peut l'utiliser.
Bio2042 Tests d'homogénéité des variances 8

5. Recommandations
Les résultats de l'étude peuvent être synthétisés sous la forme de
quelques recommandations. Elles sont présentées ici sous forme d'une
clé, qu'on peut suivre pour décider de la procédure à appliquer en
fonction des caractéristiques de ses données.

Recommandations à suivre2 lorsqu'on veut calculer une ANOVA, et


qu'on désire auparavant s'assurer de l'homogénéité des variances des
groupes. Dans leur version originale, ces recommandations n'incluent
pas le test de Brown-Forsythe, qui ne faisait pas partie de notre étude.
J'en ai cependant ajouté mention lorsque c'était pertinent, sur la base
de simulations résumées plus haut.

1. Données normales?
- oui –> THV de Bartlett ou de Box; éviter Cochran (sensible
seulement à une variance plus élevée que les autres), log-anova
(puissance faible lorsque le nombre d'objets par groupe est
inférieur à 145) et Brown-Forsythe (puissance faible) ..........-> 2
- non –> normaliser les données.....................................................-> 4

2. Résultat du THV
- variances homogènes –> ...................................................................
........................ Faire une anova paramétrique ou permutationnelle
- variances hétérogènes –> ..................................................................
homogénéiser les variances..........................-> 3

2
Pierre Legendre a réalisé un programme de calcul des tests ci-dessus, appelé Test_HV et disponible sur son site web (pour
PC ou Mac environnement Classic):
http://www.bio.umontreal.ca/legendre/
Ce programme calcule également deux autres tests d'homogénéité de variances, le test du log-anova et le C de Cochran (qui
localise la variance la plus élevée et teste si elle est significativement plus grande que les autres). Le manuel du programme
donne de plus amples informations sur les formules de chacun des tests.
Bio2042 Tests d'homogénéité des variances 9

3. Résultat de l'homogénéisation des variances


- succès –>.........faire une anova paramétrique ou permutationnelle
- échec –> ...................................... choisir une méthode de rechange,
...............................................................p.ex. un test de Kruskal-Wallis

4. Résultat de la transformation normalisatrice des données:


- succès............................................................................................... –> 1
- échec ................................................................................................ –> 5

5. Distribution des données:


- réelles, continues, positivement asymétriques .......................... –> 6
- abondances d'espèces: nulles ou positives, discrètes, positivement
asymétriques.................................................................................. –> 7
- autres distributions: non simulées dans cette étude.

6. Nombre d'objets par groupe:


- nj < 145 –> aucun THV n'est vraiment bon. Erreur de type I
correcte pour Brown-Forsythe, mais puissance faible,
augmentant avec nj 3.
- nj ≥ 145 –> les tests de Bartlett ou Brown-Forsythe peuvent être
appliqués, mais la puissance reste assez faible ........................ –> 2
Dans ces deux cas, il vaut mieux tenter de rendre les données
symétriques, même si la normalité n'est pas atteinte. La
puissance des deux tests sera améliorée.

7. Nombre d'objets par groupe:


- nj < 145 : erreur de type I faible pour Brown-Forsythe, et
puissance faible à très faible ....................................................... –> 8
- nj ≥ 145 -> tests de Bartlett ou Box applicables...................... –> 2
3
Erreur de type I correcte aussi pour le log-anova, mais puissance quasi nulle
Bio2042 Tests d'homogénéité des variances 10

8. Transformer les données par y' = ln(y+1), puis:


- nj ≤ 10 –> utiliser le test de Bartlett permutationnel (erreur de
type I correcte mais puissance légèrement inférieure au
paramétrique).
- 10 < nj ≤ 145 –> utiliser le test de Bartlett permutationnel (erreur
de type I correcte mais puissance légèrement inférieure aux
paramétriques), ou le test de Brown-Forsythe (erreur de type I
correcte, puissance plus faible que Bartlett)............................. –> 2

Remarque: si on calcule une anova sur des données asymétriques


sans test d'homogénéité préalable, un résultat significatif risque de
n'être obtenu que si une des moyennes diffère considérablement des
autres. Autrement, utiliser l'anova non paramétrique si disponible.

Vous aimerez peut-être aussi