Vous êtes sur la page 1sur 33

Test paramétrique de comparaison

de k échantillons
L’analyse de variance à un critère de classification (ANOVA)

Objectif : comparer la moyenne de plusieurs (k) groupes indépendants


d’observations

• On analyse la variance totale, intragroupe et intergroupe (voir plus bas)


pour comparer des moyennes et tester l’hypothèse H0 : µ1 = µ2 = … = µk.

• Pourquoi ne pas réaliser une série de tests t pour comparer la moyenne de toutes les
paires de groupes ?

Considérons 7 groupes d’observations tirées indépendamment d’une même


population statistique.
- Il faudrait réaliser 7 (7 – 1)/2 = 21 tests t pour comparer toutes les paires de
groupes.
- Chaque test étant réalisé au niveau α = 0,05, on a, dans chaque cas, 5
chances sur 100 de rejeter H0 même si H0 est vraie (erreur de type I).
-La probabilité de rejeter H0 au moins une fois au cours de 21 tests est 0,66 et
non 0,05. Calcul basé sur distribution binomiale.
-Pour être valide, le test global doit avoir une erreur de type I < α
• L’appartenance des observations aux différents groupes (variable nominale) s’appelle
le critère de classification. Celui-ci peut représenter un facteur contrôlé (“fixed factor”) ou
un facteur aléatoire (“random factor”).

• Les hypothèses statistiques sont les suivantes pour k groupes:


H0 : µ1 = µ2 = … = µk.
H1: au moins l’une des moyennes diffère des autres.

Pour savoir laquelle ou lesquelles, il faut avoir recours, par la suite, aux
tests de comparaisons multiples

Notez bien: il ne s’agit pas de comparer les variances des k groupes.


Sources de variation

SCE SCT SCI


SC = Somme des carrés des écarts

• Dispersion totale = SCT


• Dispersion intragroupe (“due aux erreurs”) = SCE
• Dispersion intergroupe = SCI

Mesure de la dispersion (variation) totale SCT

SCT = ∑∑ X − C 2
ij
i j
d.d.l. = N-1
2
 
 ∑∑ X ij 
C=  i j 
N
Mesure de la dispersion (variation) intergroupe SCI

(∑ X )
2
d.d.l. = k-1
SCI = ∑
ij
−C
j

i ni

Mesure de la dispersion (variation) intragroupe (dûe aux erreurs) SCE

SCE= SCT − SCI d.d.l. = N-k


Source de variation ddl SC CM F

Totale N-1 SCT

Facteur k-1 SCI SCI/(k-1) CMfacteur/CMerreur

Erreur N-k SCE SCE/(N-k)

CM = Carré Moyen

Fc = CMfacteur/CMerreur

Pour α = 0,05, n1 = k-1 et n2 =N-k, Fα (n1,n2)

Puisque Fc > Fα on rejette H0 au profit de H1.

Le résultat de l’ANOVA nous dit simplement si au moins une des moyennes diffère ou
pas – Un test Post-Hoc paramétrique est nécessaire pour trouver quelles moyennes
diffèrent entre elles.
Conditions d’application de l’ANOVA

- Variable dépendante quantitative (pour pouvoir calculer la moyenne et sx).


- Indépendance des observations (observations non autocorrélées).
- Normalité de la population d’où est tiré chaque groupe.
- Homoscédasticité
Effet de la violation des conditions d’application:

- Le test Fc de l’ANOVA est robuste face à une certaine hétéroscédasticité.


Ses résultats resteront donc valides en présence d’une certaine quantité
(pas trop élevée) d’hétérogénéité des variances.
-Le test Fc de l’ANOVA est également robuste face à une certaine
asymétrie ou aplatissement des distributions. Pour l’asymétrie, on pourra
utiliser le critère

En cas de violation sévère de la condition de normalité:


1. Transformer les données avant l’analyse.
2. Tester Fc par permutations.
3. Utiliser plutôt le test non-paramétrique de Kruskal-Wallis
ANOVA à un critère de classification. Exemple 1: H0 est vraie
ANOVA à un critère de classification. Exemple 2: H0 est fausse
Tests paramétriques de comparaison multiples
(Tests post-hoc)
HSD de Tuckey

Principe
Comparer chaque moyenne de l’expérience 2 à 2

Conditions d’applications
Celles de l’Anova

Exemple. Concentrations moyenne de strontium dans 5 lacs (mg/ml)


Lac Grayson Lac Beaver Lac Angler Lac Appletree Rock River
32,1 40,2 44,1 41,1 58,3
n= 6 n= 6 n= 6 n= 6 n=6

Étape 1.
Ranger les moyennes de la plus petite à la plus grande

Lac Grayson Lac Beaver Lac Appletree LacAngler Rock River


1 2 3 4 5
32,1 40,2 41,1 44,1 58,3
Étape 2.

Calculer les différences entre chaque couple de moyennes

Comparaison Différence
(B vs. A) (moyenne B – moyenne A)
5 vs. 1 58,3 – 31,1 = 26,2
5 vs. 2 58,3 – 40,2 = 18,1
5 vs. 3 58,3 – 41,1 = 17,2
5 vs. 4 58,3 – 44,1 = 14,2
4 vs. 1 44,1 – 32,1 = 12
4 vs. 2 44,1 – 40,2 = 3,9
4 vs. 3 44,1 – 41,1 = 3
3 vs. 1 41,1 – 32,1 = 9
3 vs. 2 41,1 – 40,2 = 0,9
2 vs. 1 40,2 – 32,1 = 8,1
Étape 3. Calculer l’erreur standard de chaque couple

Si n égaux Si n inégaux

CMerreur  CMerreur  1 1  
SE = SE =   −  
n  2  na nb  
Comparaison Différence SE
(B vs. A) (moyenne B – moyenne A) Comme n égaux SE est
identiques, CM = 9,7652
5 vs. 1 58,3 – 31,1 = 26,2 1,28
5 vs. 2 58,3 – 40,2 = 18,1 1,28
5 vs. 3 58,3 – 41,1 = 17,2 1,28
5 vs. 4 58,3 – 44,1 = 14,2 1,28
4 vs. 1 44,1 – 32,1 = 12 1,28
4 vs. 2 44,1 – 40,2 = 3,9 1,28
4 vs. 3 44,1 – 41,1 = 3 1,28
3 vs. 1 41,1 – 32,1 = 9 1,28
3 vs. 2 41,1 – 40,2 = 0,9 1,28
2 vs. 1 40,2 – 32,1 = 8,1 1,28
Étape 4. On calcule la statistique de Tuckey q

différence
q=
SE
Comparaison Différence SE q
(B vs. A) (moyenne B – moyenne A)
5 vs. 1 58,3 – 31,1 = 26,2 1,28 20,47
5 vs. 2 58,3 – 40,2 = 18,1 1,28 14,14
5 vs. 3 58,3 – 41,1 = 17,2 1,28 13,44
5 vs. 4 58,3 – 44,1 = 14,2 1,28 11,09
4 vs. 1 44,1 – 32,1 = 12 1,28 9,38
4 vs. 2 44,1 – 40,2 = 3,9 1,28 3,05
4 vs. 3 44,1 – 41,1 = 3 1,28 2,34
3 vs. 1 41,1 – 32,1 = 9 1,28 7,03
3 vs. 2 41,1 – 40,2 = 0,9 1,28 0,70
2 vs. 1 40,2 – 32,1 = 8,1 1,28 6,33
Étape 5. Hypothèses et Règle de décision

H0: µA = µB Pour n égaux q(α,υ1 = n(k-1), υ2 = k)


H1: µA ≠ µB Pour n inégaux q(α,υ1 = N-k, υ2 = k)

On rejette H0 au seuil α = 0,05 si qcalc > q(α:υ1, υ2) = q(0.05,24, 5) = 4,166

Comparaison Différence SE q q(0.05,24, 5) conclusion


(B vs. A) (moyenne B – moyenne A)
5 vs. 1 58,3 – 31,1 = 26,2 1,28 20,47 4,166 Rejet H0
5 vs. 2 58,3 – 40,2 = 18,1 1,28 14,14 4,166 Rejet H0
5 vs. 3 58,3 – 41,1 = 17,2 1,28 13,44 4,166 Rejet H0
5 vs. 4 58,3 – 44,1 = 14,2 1,28 11,09 4,166 Rejet H0
4 vs. 1 44,1 – 32,1 = 12 1,28 9,38 4,166 Rejet H0
4 vs. 2 44,1 – 40,2 = 3,9 1,28 3,05 4,166 H0 acceptée
4 vs. 3 44,1 – 41,1 = 3 1,28 2,34 4,166 H0 acceptée
3 vs. 1 41,1 – 32,1 = 9 1,28 7,03 4,166 Rejet H0
3 vs. 2 41,1 – 40,2 = 0,9 1,28 0,70 4,166 H0 acceptée
2 vs. 1 40,2 – 32,1 = 8,1 1,28 6,33 4,166 Rejet H0
Étape 6. Conclusions

concentration de strontium
70
60
50
40
30
20
10
0 er

r
on

er

ive
re
av

gl
ys

et

R
An
Be
ra

pl

ck
G

Ap
c
c

Ro
La
La
c

c
La

La

Lac Grayson Lac Beaver Lac Appletree LacAngler Rock River


1 2 3 4 5
32,1 40,2 41,1 44,1 58,3
SNK – Student Newman Keuls

Même procédure que le HSD de Tuckey pour le calcul du test et les règles de décision.

Seul le q théorique diffère.

On lit dans la table de q une valeur pour qα,υ,p


Avec p = nombre de moyennes dans l’étendue de moyennes testées

Comparaison Différence SE q p q(0.05,24, p) conclusion


(B vs. A) (moyenne B – moyenne A)
5 vs. 1 58,3 – 31,1 = 26,2 1,28 20,47 5 4,166 Rejet H0
5 vs. 2 58,3 – 40,2 = 18,1 1,28 14,14 4 3,901 Rejet H0
5 vs. 3 58,3 – 41,1 = 17,2 1,28 13,44 3 3,532 Rejet H0
5 vs. 4 58,3 – 44,1 = 14,2 1,28 11,09 2 2,919 Rejet H0
4 vs. 1 44,1 – 32,1 = 12 1,28 9,38 4 3,901 Rejet H0
Test de Dunnet
Principe
Contrôler si la moyenne d’un groupe contrôle diffère des moyennes
des groupes expérimentaux

2CMerreur
Si n égaux SE =
n

 
Si n inégaux
 1
SE = CMerreur  +
1 
n n 
 b contrôle 
 
Moyennecontrôle − MoyenneA
q =
SE
On compare aux valeurs de la table de Dunnet q’

q’α(1); N-k;k

Si │q│> q’ alors H0 est rejetée


Test non paramétrique de comparaison
de k échantillons
Test de Kruskall & Wallis

Le test de Kruskal-Wallis est une généralisation de celui de Mann-Whitney, à un


nombre quelconque k d'échantillons.

Hypothèses
H0 : Les k échantillons sont extraits d’une même population
H1 : au moins un groupe est issu d’une population différente des autres

Exemple
La densité (ffl.m-2) de la phanérogame marine Posidonia oceanica a été mesurée en
limite inférieure d’herbiers en 2003 dans 4 sites de la Région PACA.
Déterminer s’il existe une différence significative de densité entre ces 4 sites et où se
situe cette différence (α = 0,01).
Carry Cassis Le Brusc Port-Grimaud
0 0 66 150
0 0 66 162
0 100 100 166
7 125 100 191
25 200 108 208
32 200 133 275
50 232 133 283

On ordonne les valeurs des 4 sites confondus par ordre croissant


On affecte un rang à chaque mesure de densité

Rang Rang Le Rang Le Port- Rang Pt-


Carry Carry Cassis Cassis Brusc Brusc Grimaud Grimaud
0 3 0 3 66 10,5 150 19
0 3 0 3 66 10,5 162 20
0 3 100 13 100 13 166 21
7 6 125 16 100 13 191 22
25 7 200 23,5 108 15 208 25
32 8 200 23,5 133 17,5 275 27
50 9 232 26 133 17,5 283 28
Σ Rang
(R ou T) 39 108 97 162
Σ Rang2 1521 11664 9409 26244
Σ
Rang2/n 217,29 1666,29 1344,14 3749,14
La statistique de décision

Kruskal & Wallis ont défini la variable Hc (ou KW) telle que :

Hc = H/C

Pour notre exemple on obtient H = 16,1


C = 1−
∑t ∑ t = ∑ (t
m
3
− ti )
(N − N)
i
3 i =1

∑ t = ( 53 − 5 ) + 3 ( 23 − 2 ) + ( 33 − 3) = 162
C = 0,99

Don Hc = 16,2

• Si k (nombre de groupes) = 3 et si n1 et n2 et n3 < 5, on se réfère à la


table de KW (petits échantillons) pour décider de Ho

• Pour tous les autres cas ( k >3 ou si n1 ou n2 ou n3 > 5) on se réfère


à la table de χ² à k-1 ddl
On compare à χ2 (0,01, 3) = 11,34

Hc = 16,26 > χ2 (0,01, 3) = 11,34 donc H0 est rejetée à 0,01 il y a donc une
différence significative entre les densités de P. oceanica dans les 4 sites.
Tests non-paramétriques de comparaison multiples
(Tests post-hoc)
Test de Nemeyi

Si n égaux

Tuckey

n( nk )nk + 1) RB − RA
SE = q=
12 SE
qα,∞,k

SNK

n(np )(np + 1) RB − RA
SE = q=
12 SE
qα,∞,p
Si n inégaux
 N ( N + 1)  1 1 
SE =   +  
 12  nA nB  

 N ( N + 1)
SE =  −
∑ t  1 1 
 +  
Si il y a des ex-aequo
 12 12( N − 1)  n A nB  
__ __
RB − R A
Q=
SE
Qα,k Si Q<Qα H0 est acceptée

Vous aimerez peut-être aussi