Vous êtes sur la page 1sur 13

Master 1

UE Introduction à la biostatistique

L’analyse de variance

Dr Bruno Laviolle
Service de Pharmacologie
Centre d'Investigation Clinique – INSERM 0203
CHU de Rennes - Université de Rennes 1
mars 2009

Introduction (1)

• Tous les tests statistiques sont prévus pour s’assurer que


l’erreur de type I a une probabilité de survenue ≤ α
(généralement 5%)
• Si p<α : rejet de H0
• Lors de comparaisons multiples sur échantillons
indépendants, il existe une inflation du risque α

Ex : comparaison de moyennes entre 3 échantillons indépendants.


Il existe 3 hypothèses alternatives :

1
Introduction (2)
• Si l’on compare 2 échantillons :

• Dans notre exemple, si on considère les 3


comparaisons comme une famille, la famille aura un
risque αF > α (family-wise type I error rate)
• Pour k comparaisons, la probabilité de rejeter au moins
un H0 peut s’écrire :

Introduction (3)

• L’erreur de type I pour k tests indépendants est :


1-(1- α)k

pour 3 tests l’erreur de type I est 0,14


pour 5 tests l’erreur de type I est 0,23
pour 10 tests l’erreur de type I est 0,4
pour 21 tests l’erreur de type I est 0,66

2
Principe de l’analyse de variance (1)

• Objectif ⇒ comparer plusieurs moyennes (≥ 2) entre


elles
• Pourquoi ne pas comparer 2 à 2 les moyennes des ≠
groupes avec des tests t ?
– Risque d’augmentation du risque α
• ex : 7 groupes → 21 tests t à réaliser [k(k-1)/2] au niveau 0,05
• ⇒ Prob (Rejeter H0 au moins 1 fois) = 0,66 (>>>0,05)
– Non prise en compte de l’ensemble des groupes

 ANOVA à un facteur de classification


 Tester (avec 1 seul test) si toutes les moyennes
sont issues de la même population

Principe de l’analyse de variance (2)

Considérons le cas où il y a 4 groupes


Si H0 est vrai : Si H1 est vrai :
les moyennes µ1, µ2, µ3, µ4 sont égales les moyennes µ1, µ2, µ3, µ4 sont
La variance totale σ²T = la variance σ² différentes
de chaque population La variance totale σ²T ≠ la variance σ²
de chaque population

3
Principe de l’analyse de variance (3)

• La dispersion totale σ²T a 2 composantes


– Fluctuations individuelles : σ² qui est la variance interne à chaque
groupe (variance intra-groupe)
– Fluctuations entre les groupes : la variation entre les µi qui
correspond à la variabilité entre les groupes (variance inter-groupe)

• Si la variabilité inter-groupe > la variabilité intra-


groupe ⇒ 2 moyennes au moins diffèrent

• Principe général :
 Décomposer σ²T en ses 2 parties
 Tester si σ²T est différent de σ²

Principe de l’analyse de variance (4)


• Hypothèses
– Echantillons (groupes) indépendants
– Distribution normale du critère au sein des groupes
– Variances identiques d’un groupe à l’autre

• L’ANOVA est un test robuste (résultats assez peu


affectés par de légers écarts à ces hypothèses)

H0 : µ1 = µ2 = … = µk (k groupes)
H1 : au moins l’une des moyennes diffère des autres

4
Conventions de notations
Facteur Groupe 1 Groupe 2 … Groupe j
Effectif n1 n2 … nj
Mesure x11 x12 … x1j
Mesure x21 x22 … x2j
Mesure … … … …
Mesure xi1 xi2 … xij
x1 x x2
Moyennes 1 … xj

x : variable à laquelle on s’intéresse


k : nombre de groupes
nj : taille du groupe j
Xij : ième observation du groupe j

Décomposition de la variabilité
des observations
• Mesure de la dispersion totale : SCET
∑ (x − x)
2
– Somme des carrés des écarts à la moyenne générale : ij

• Mesure de la dispersion intra-groupe : SCER


∑ (x − xj)
2
– Somme des carrés des écarts à la moyenne d’un groupe : ij

• Mesure de la dispersion inter-groupe SCEA


– Somme des carrés des écarts de la moyenne d’un groupe à la
moyenne générale : ∑ n j (x j − x )
2

 SCET = SCER + SCEA

5
Décomposition de la variabilité
des observations

Intra-groupe Inter-groupe

ANOVA : méthode de calcul (1)


Estimation de la variance inter-groupe SCEA
• Elle ne dépend que de la dispersion des moyennes des
groupes comparés
⇔ Somme des carrés des écart due au facteur étudié
• SCEA a k-1 degrés de liberté
• Sa variance σ²A est estimée par :
∑ n (x − x)
k
2
j j
SCE A j=1
S =
2
=
k −1 k −1
A

• Pour les calculs, on montre que SCEA s’écrit :


2 2
T T
SCE A = ∑ j − G
j nj n
– Tj = total des valeurs de x du groupe j (somme des valeurs x du groupe j)
– TG = total général (somme globale des valeurs x)

6
ANOVA : méthode de calcul (2)
Estimation de la variance intra-groupe SCER
• Elle ne dépend que de la dispersion des valeurs xij au sein
de chaque groupe
⇔ Somme des carrés des écart intra-classe ou résiduelle
• SCER a n-k degrés de liberté
• Sa variance σ²R est estimée par :
nj

∑ ∑ (x − xj )
k
2
ij
SCER j=1 i =1
SR2 = =
n-k n−k

• Pour les calculs, on montre que SCEA s’écrit :


2
Tj
SCE R = ∑ x ij − ∑
2

ij j nj
avec Tj = total des valeurs de x du groupe j (somme des valeurs x du groupe j)

ANOVA : méthode de calcul (3)

• Après avoir décomposé la variance totale, le principe


consiste à comparer S²A/S²R

 Tester si le rapport des 2 variances S²A/S²R est proche de 1

 Statistique de test distribuée selon une loi dite de Fisher à


ν1= k-1 et ν2 = n-k degrés de liberté (ddl)
– F0 = S²A/S²R
– Test unilatéral dans tous les cas
– si H0 vraie : S²A ≈ S²R et donc F0 ≈ 1
– si H1 vraie : S²A > S²R et donc F0 > 1

7
Table F de
Fisher-Snedecor

ANOVA : Execution du test (1)

8
ANOVA : Execution du test (2)

Avec :

∑ n (x − x)
k
2
j j
SCEA j=1
S =
2
=
k −1 k −1
A

nj

∑ ∑ (x − xj)
k
2
ij
SCER j=1 i=1
S =
2
=
n−k
R
n-k

ANOVA : Execution du test (3)


• Pour les calculs, on utilisera les expressions simplifiées des
sommes de carrés :
2 2 2 2
T Tj T Tj
SCE T = ∑ x ij − G = SCE A = ∑ − G + SCE R = ∑ x ij − ∑
2 2

ij n j nj n ij j nj
Avec :
• TG = total général (somme globale des valeurs x)
• Tj = total des valeurs de x du groupe j (somme des valeurs x du groupe j)

• En pratique, il faut calculer :


– La somme des carrés des valeurs de chaque groupe
– La somme des valeurs de chaque groupe au carré
– Le total général et son carré

• On peut en calculer 2 sur les 3 pour en déduire le dernier :


– les 2 plus simples sont SCEA et SCET, puis SCER = SCET - SCEA

9
ANOVA

• Conditions d’application
– Critère d’intérêt (variable dépendante) quantitative
– Indépendance des observations
– Normalité du critère dans chaque groupe
– Homoscédasticité : homogénéité des variances

• Si conditions non vérifiées


– ANOVA robuste face à une certaine hétéroscédasticité
– ANOVA robuste face à une certaine asymétrie ou aplatissement
des distributions
– MAIS en cas de violation sévère de la condition de normalité
• Transformation des données
• Utiliser test non paramétrique de Kruskal-Wallis

ANOVA - Exemple (1)


Poids (kg) Total

Groupes [50 - 59] [60 - 69] [70 - 79] [80 - 89]

Effectifs (nj) 10 10 10 10 40

Corticoïdes urinaires (mg/24h)

xi 218 et
3,78 5,26 5,97 6,79 x = 5,45

nj ⋅ (xj − x)
2
27,89 0,36 2,70 17,96 48,91

∑(x
nj
− xj )
2
ij
6,84 22,26 19,94 20,83 69,87
i=1

Construire le tableau d’ANOVA

10
ANOVA - Exemple (2)
Source de variation Somme des Degré de liberté Variance F
carrés (ddl)
Entre groupes
48,91 16,30
∑n (x − x) = 8,40
k
2 SCEA= 48,91 k–1 = 4 – 1 = 3 SA2 = =16,30
j j 3 1,94
j=1

Résiduelle
nj

∑ ∑(x − xj )
k
69,87
2
SCER = 69,87 n–k = 40 – 4 = 36 SR2 = =1,94
ij 36
j=1 i=1

Totale SCET = 118,78 n–1 = 40 – 1 = 39

⇒ F336(5%) = 2,90 ⇒ rejet de H0 au risque 5%


⇒ F336(1%) = 4,60 ⇒ rejet de H0 au risque 1%

Comparaisons de moyennes a posteriori

• ANOVA → comparaison globale des moyennes


– Quelles sont les moyennes qui ≠ entre elles ?

– Tester toutes les combinaisons possibles


• si on a n moyennes → k(k-1)/2 comparaisons possibles ⇒ risque α ↑

α
 Ajustement de Bonferroni ⇒ α Bonf = nbre de comparaisons

• ex : 3 tests (α global à 0,05) → αBonf = 0,05/3 = 0,0167

 Procédure de Sidak ⇒ αSidak = 1 − (1 − α )1/ nbre de comp

• ex : 10 tests (α global à 0,05) → αSidak = 0,00512

11
Comparaisons de moyennes à un
groupe contrôle
 Test de Dunnett x − x cont
⇒ tD = i
2 ⋅ VW
nh
– ddl = N - k (N : effectif total ; k : nb de groupes, contrôle inclus)
– Nh = moyenne harmonique des effectifs des groupes

Ex : Comparer efficacité de: aspirine, tylénol, placebo sur la douleur


– 4 pts / groupe, masp = 4 ; mtyl = 3 et mplcb = 2

Source df Ssq Ms F p-value


Groups 2 8 4.0 3.60 0.071
Error 9 10 1.111
Total 11 18 1.636
4−2
Asp vs Plcb ⇒ t D = = 2,68 > 2,61 ⇒ rejet de H 0 au risque 5%
2 ⋅1,111
4
Tyl vs Plcb ⇒ t D = 1,34 < 2,61 ⇒ non rejet de H 0

Stratégie générale
• En général, les procédures de comparaisons multiples
utilisent la même stratégie :
- On compare la différence entre les moyennes deux à deux, à une
différence seuil

12
Principes de l’ANOVA à 2 facteurs
• ANOVA à deux critères de classification
– Deux critères croisés (two-way ANOVA)
Critère n°1
1 2 3
Critère n°2 1 x x x
2 x x x

Exemple : Mesures répétées


• Données longitudinales ⇒ les sujets sont observés +
d’une fois
– Effet temps
– Effet traitement
– Interaction temps x traitement

13

Vous aimerez peut-être aussi