ANOVA 1F Didactique Avec Post Hoc

Test paramétrique de comparaison
de k échantillons
L’analyse de variance à un critère de classification (ANOVA)
Objectif : comparer la moyenne de plusieurs (k) groupes indépendants

d’observations
• On analyse la variance totale, intragroupe et intergroupe (voir plus bas)

pour comparer des moyennes et tester l’hypothèse H0 : µ1 = µ2 = … = µk.
• Pourquoi ne pas réaliser une série de tests t pour comparer la moyenne de toutes les
paires de groupes ?
Considérons 7 groupes d’observations tirées indépendamment d’une même

population statistique.
- Il faudrait réaliser 7 (7 – 1)/2 = 21 tests t pour comparer toutes les paires de
groupes.
- Chaque test étant réalisé au niveau α = 0,05, on a, dans chaque cas, 5
chances sur 100 de rejeter H0 même si H0 est vraie (erreur de type I).
-La probabilité de rejeter H0 au moins une fois au cours de 21 tests est 0,66 et
non 0,05. Calcul basé sur distribution binomiale.
-Pour être valide, le test global doit avoir une erreur de type I < α
• L’appartenance des observations aux différents groupes (variable nominale) s’appelle
le critère de classification. Celui-ci peut représenter un facteur contrôlé (“fixed factor”) ou
un facteur aléatoire (“random factor”).
• Les hypothèses statistiques sont les suivantes pour k groupes:

H0 : µ1 = µ2 = … = µk.
H1: au moins l’une des moyennes diffère des autres.
Pour savoir laquelle ou lesquelles, il faut avoir recours, par la suite, aux
tests de comparaisons multiples
Notez bien: il ne s’agit pas de comparer les variances des k groupes.

Sources de variation
SCE SCT SCI

SC = Somme des carrés des écarts
• Dispersion totale = SCT

• Dispersion intragroupe (“due aux erreurs”) = SCE
• Dispersion intergroupe = SCI
Mesure de la dispersion (variation) totale SCT
SCT = ∑∑ X − C 2
ij
i j
d.d.l. = N-1
2
 
 ∑∑ X ij 
C=  i j 
N
Mesure de la dispersion (variation) intergroupe SCI
(∑ X )
2
d.d.l. = k-1
SCI = ∑
ij
−C
j
i ni
Mesure de la dispersion (variation) intragroupe (dûe aux erreurs) SCE
SCE= SCT − SCI d.d.l. = N-k

Source de variation ddl SC CM F
Totale N-1 SCT
Facteur k-1 SCI SCI/(k-1) CMfacteur/CMerreur
Erreur N-k SCE SCE/(N-k)
CM = Carré Moyen
Fc = CMfacteur/CMerreur
Pour α = 0,05, n1 = k-1 et n2 =N-k, Fα (n1,n2)
Puisque Fc > Fα on rejette H0 au profit de H1.
Le résultat de l’ANOVA nous dit simplement si au moins une des moyennes diffère ou
pas – Un test Post-Hoc paramétrique est nécessaire pour trouver quelles moyennes
diffèrent entre elles.
Conditions d’application de l’ANOVA
- Variable dépendante quantitative (pour pouvoir calculer la moyenne et sx).

- Indépendance des observations (observations non autocorrélées).
- Normalité de la population d’où est tiré chaque groupe.
- Homoscédasticité
Effet de la violation des conditions d’application:
- Le test Fc de l’ANOVA est robuste face à une certaine hétéroscédasticité.

Ses résultats resteront donc valides en présence d’une certaine quantité
(pas trop élevée) d’hétérogénéité des variances.
-Le test Fc de l’ANOVA est également robuste face à une certaine
asymétrie ou aplatissement des distributions. Pour l’asymétrie, on pourra
utiliser le critère
En cas de violation sévère de la condition de normalité:

1. Transformer les données avant l’analyse.
2. Tester Fc par permutations.
3. Utiliser plutôt le test non-paramétrique de Kruskal-Wallis
ANOVA à un critère de classification. Exemple 1: H0 est vraie
ANOVA à un critère de classification. Exemple 2: H0 est fausse
Tests paramétriques de comparaison multiples
(Tests post-hoc)
HSD de Tuckey
Principe
Comparer chaque moyenne de l’expérience 2 à 2
Conditions d’applications
Celles de l’Anova
Exemple. Concentrations moyenne de strontium dans 5 lacs (mg/ml)

Lac Grayson Lac Beaver Lac Angler Lac Appletree Rock River
32,1 40,2 44,1 41,1 58,3
n= 6 n= 6 n= 6 n= 6 n=6
Étape 1.
Ranger les moyennes de la plus petite à la plus grande
Lac Grayson Lac Beaver Lac Appletree LacAngler Rock River

1 2 3 4 5
32,1 40,2 41,1 44,1 58,3
Étape 2.
Calculer les différences entre chaque couple de moyennes
Comparaison Différence
(B vs. A) (moyenne B – moyenne A)
5 vs. 1 58,3 – 31,1 = 26,2
5 vs. 2 58,3 – 40,2 = 18,1
5 vs. 3 58,3 – 41,1 = 17,2
5 vs. 4 58,3 – 44,1 = 14,2
4 vs. 1 44,1 – 32,1 = 12
4 vs. 2 44,1 – 40,2 = 3,9
4 vs. 3 44,1 – 41,1 = 3
3 vs. 1 41,1 – 32,1 = 9
3 vs. 2 41,1 – 40,2 = 0,9
2 vs. 1 40,2 – 32,1 = 8,1
Étape 3. Calculer l’erreur standard de chaque couple
Si n égaux Si n inégaux
CMerreur  CMerreur  1 1  
SE = SE =   −  
n  2  na nb  
Comparaison Différence SE
(B vs. A) (moyenne B – moyenne A) Comme n égaux SE est
identiques, CM = 9,7652
5 vs. 1 58,3 – 31,1 = 26,2 1,28
5 vs. 2 58,3 – 40,2 = 18,1 1,28
5 vs. 3 58,3 – 41,1 = 17,2 1,28
5 vs. 4 58,3 – 44,1 = 14,2 1,28
4 vs. 1 44,1 – 32,1 = 12 1,28
4 vs. 2 44,1 – 40,2 = 3,9 1,28
4 vs. 3 44,1 – 41,1 = 3 1,28
3 vs. 1 41,1 – 32,1 = 9 1,28
3 vs. 2 41,1 – 40,2 = 0,9 1,28
2 vs. 1 40,2 – 32,1 = 8,1 1,28
Étape 4. On calcule la statistique de Tuckey q
différence
q=
SE
Comparaison Différence SE q
5 vs. 1 58,3 – 31,1 = 26,2 1,28 20,47
5 vs. 2 58,3 – 40,2 = 18,1 1,28 14,14
5 vs. 3 58,3 – 41,1 = 17,2 1,28 13,44
5 vs. 4 58,3 – 44,1 = 14,2 1,28 11,09
4 vs. 1 44,1 – 32,1 = 12 1,28 9,38
4 vs. 2 44,1 – 40,2 = 3,9 1,28 3,05
4 vs. 3 44,1 – 41,1 = 3 1,28 2,34
3 vs. 1 41,1 – 32,1 = 9 1,28 7,03
3 vs. 2 41,1 – 40,2 = 0,9 1,28 0,70
2 vs. 1 40,2 – 32,1 = 8,1 1,28 6,33
Étape 5. Hypothèses et Règle de décision
H0: µA = µB Pour n égaux q(α,υ1 = n(k-1), υ2 = k)

H1: µA ≠ µB Pour n inégaux q(α,υ1 = N-k, υ2 = k)
On rejette H0 au seuil α = 0,05 si qcalc > q(α:υ1, υ2) = q(0.05,24, 5) = 4,166
Comparaison Différence SE q q(0.05,24, 5) conclusion

5 vs. 1 58,3 – 31,1 = 26,2 1,28 20,47 4,166 Rejet H0
5 vs. 2 58,3 – 40,2 = 18,1 1,28 14,14 4,166 Rejet H0
5 vs. 3 58,3 – 41,1 = 17,2 1,28 13,44 4,166 Rejet H0
5 vs. 4 58,3 – 44,1 = 14,2 1,28 11,09 4,166 Rejet H0
4 vs. 1 44,1 – 32,1 = 12 1,28 9,38 4,166 Rejet H0
4 vs. 2 44,1 – 40,2 = 3,9 1,28 3,05 4,166 H0 acceptée
4 vs. 3 44,1 – 41,1 = 3 1,28 2,34 4,166 H0 acceptée
3 vs. 1 41,1 – 32,1 = 9 1,28 7,03 4,166 Rejet H0
3 vs. 2 41,1 – 40,2 = 0,9 1,28 0,70 4,166 H0 acceptée
2 vs. 1 40,2 – 32,1 = 8,1 1,28 6,33 4,166 Rejet H0
Étape 6. Conclusions
concentration de strontium
70
60
50
40
30
20
10
0 er
r
on
er
ive
re
av
gl
ys
et
R
An
Be
ra
pl
ck
G
Ap
c
c
Ro
La
La
c
c
La
La
Lac Grayson Lac Beaver Lac Appletree LacAngler Rock River

1 2 3 4 5
32,1 40,2 41,1 44,1 58,3
SNK – Student Newman Keuls
Même procédure que le HSD de Tuckey pour le calcul du test et les règles de décision.
Seul le q théorique diffère.
On lit dans la table de q une valeur pour qα,υ,p

Avec p = nombre de moyennes dans l’étendue de moyennes testées
Comparaison Différence SE q p q(0.05,24, p) conclusion

5 vs. 1 58,3 – 31,1 = 26,2 1,28 20,47 5 4,166 Rejet H0
5 vs. 2 58,3 – 40,2 = 18,1 1,28 14,14 4 3,901 Rejet H0
5 vs. 3 58,3 – 41,1 = 17,2 1,28 13,44 3 3,532 Rejet H0
5 vs. 4 58,3 – 44,1 = 14,2 1,28 11,09 2 2,919 Rejet H0
4 vs. 1 44,1 – 32,1 = 12 1,28 9,38 4 3,901 Rejet H0
Test de Dunnet
Principe
Contrôler si la moyenne d’un groupe contrôle diffère des moyennes
des groupes expérimentaux
2CMerreur
Si n égaux SE =
n
 
Si n inégaux
 1
SE = CMerreur  +
1 
n n 
 b contrôle 
 
Moyennecontrôle − MoyenneA
q =
SE
On compare aux valeurs de la table de Dunnet q’
q’α(1); N-k;k
Si │q│> q’ alors H0 est rejetée

Test non paramétrique de comparaison
de k échantillons
Test de Kruskall & Wallis
Le test de Kruskal-Wallis est une généralisation de celui de Mann-Whitney, à un

nombre quelconque k d'échantillons.
Hypothèses
H0 : Les k échantillons sont extraits d’une même population
H1 : au moins un groupe est issu d’une population différente des autres
Exemple
La densité (ffl.m-2) de la phanérogame marine Posidonia oceanica a été mesurée en
limite inférieure d’herbiers en 2003 dans 4 sites de la Région PACA.
Déterminer s’il existe une différence significative de densité entre ces 4 sites et où se
situe cette différence (α = 0,01).
Carry Cassis Le Brusc Port-Grimaud
0 0 66 150
0 0 66 162
0 100 100 166
7 125 100 191
25 200 108 208
32 200 133 275
50 232 133 283
On ordonne les valeurs des 4 sites confondus par ordre croissant

On affecte un rang à chaque mesure de densité
Rang Rang Le Rang Le Port- Rang Pt-

Carry Carry Cassis Cassis Brusc Brusc Grimaud Grimaud
0 3 0 3 66 10,5 150 19
0 3 0 3 66 10,5 162 20
0 3 100 13 100 13 166 21
7 6 125 16 100 13 191 22
25 7 200 23,5 108 15 208 25
32 8 200 23,5 133 17,5 275 27
50 9 232 26 133 17,5 283 28
Σ Rang
(R ou T) 39 108 97 162
Σ Rang2 1521 11664 9409 26244
Σ
Rang2/n 217,29 1666,29 1344,14 3749,14
La statistique de décision
Kruskal & Wallis ont défini la variable Hc (ou KW) telle que :
Hc = H/C
Pour notre exemple on obtient H = 16,1

C = 1−
∑t ∑ t = ∑ (t
m
3
− ti )
(N − N)
i
3 i =1
∑ t = ( 53 − 5 ) + 3 ( 23 − 2 ) + ( 33 − 3) = 162
C = 0,99
Don Hc = 16,2
• Si k (nombre de groupes) = 3 et si n1 et n2 et n3 < 5, on se réfère à la

table de KW (petits échantillons) pour décider de Ho
• Pour tous les autres cas ( k >3 ou si n1 ou n2 ou n3 > 5) on se réfère

à la table de χ² à k-1 ddl
On compare à χ2 (0,01, 3) = 11,34
Hc = 16,26 > χ2 (0,01, 3) = 11,34 donc H0 est rejetée à 0,01 il y a donc une
différence significative entre les densités de P. oceanica dans les 4 sites.
Tests non-paramétriques de comparaison multiples
(Tests post-hoc)
Test de Nemeyi
Si n égaux
Tuckey
n( nk )nk + 1) RB − RA
SE = q=
12 SE
qα,∞,k
SNK
n(np )(np + 1) RB − RA
SE = q=
12 SE
qα,∞,p
Si n inégaux
 N ( N + 1)  1 1 
SE =   +  
 12  nA nB  
 N ( N + 1)
SE =  −
∑ t  1 1 
 +  
Si il y a des ex-aequo
 12 12( N − 1)  n A nB  
__ __
RB − R A
Q=
SE
Qα,k Si Q<Qα H0 est acceptée

ANOVA 1F Didactique Avec Post Hoc

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

ANOVA 1F Didactique Avec Post Hoc

Transféré par

Droits d'auteur :

Formats disponibles

Test paramétrique de comparaison

Objectif : comparer la moyenne de plusieurs (k) groupes indépendants

• On analyse la variance totale, intragroupe et intergroupe (voir plus bas)

Considérons 7 groupes d’observations tirées indépendamment d’une même

• Les hypothèses statistiques sont les suivantes pour k groupes:

Notez bien: il ne s’agit pas de comparer les variances des k groupes.

SCE SCT SCI

• Dispersion totale = SCT

Mesure de la dispersion (variation) totale SCT

Mesure de la dispersion (variation) intragroupe (dûe aux erreurs) SCE

SCE= SCT − SCI d.d.l. = N-k

Totale N-1 SCT

Facteur k-1 SCI SCI/(k-1) CMfacteur/CMerreur

Erreur N-k SCE SCE/(N-k)

Pour α = 0,05, n1 = k-1 et n2 =N-k, Fα (n1,n2)

Puisque Fc > Fα on rejette H0 au profit de H1.

- Variable dépendante quantitative (pour pouvoir calculer la moyenne et sx).

- Le test Fc de l’ANOVA est robuste face à une certaine hétéroscédasticité.

En cas de violation sévère de la condition de normalité:

Exemple. Concentrations moyenne de strontium dans 5 lacs (mg/ml)

Lac Grayson Lac Beaver Lac Appletree LacAngler Rock River

Calculer les différences entre chaque couple de moyennes

H0: µA = µB Pour n égaux q(α,υ1 = n(k-1), υ2 = k)

On rejette H0 au seuil α = 0,05 si qcalc > q(α:υ1, υ2) = q(0.05,24, 5) = 4,166

Comparaison Différence SE q q(0.05,24, 5) conclusion

Lac Grayson Lac Beaver Lac Appletree LacAngler Rock River

Seul le q théorique diffère.

On lit dans la table de q une valeur pour qα,υ,p

Comparaison Différence SE q p q(0.05,24, p) conclusion

Si │q│> q’ alors H0 est rejetée

Le test de Kruskal-Wallis est une généralisation de celui de Mann-Whitney, à un

On ordonne les valeurs des 4 sites confondus par ordre croissant

Rang Rang Le Rang Le Port- Rang Pt-

Pour notre exemple on obtient H = 16,1

• Si k (nombre de groupes) = 3 et si n1 et n2 et n3 < 5, on se réfère à la

• Pour tous les autres cas ( k >3 ou si n1 ou n2 ou n3 > 5) on se réfère

Vous aimerez peut-être aussi