Académique Documents
Professionnel Documents
Culture Documents
Anova PDF
Anova PDF
Analyse de variance
Ricco Rakotomalala
Université Lumière Lyon 2
PLAN
2. ANOVA à 1 facteur
4. ANOVA à 2 facteurs
5. Bibliographie
Ricco Rakotomalala
2
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
ANOVA (ANalysis Of VAriance)
Et
Planification des expériences
Position du problème :
Exemple introductif
1) Principe de l ’expérimentation
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 3
2) Principe statistique
Indicateur mesuré
sur la variable dépendante
Population
originelle
Chaque modalité du facteur
permet de définir des sous-populations
(ex: les arbres traités avec le fertilisant
F1,…)
Sous-pop 3 1 , 2 , 3
Sous-pop 1 Sous-pop 2
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 4
3) Problèmes pratiques et quelques définitions
A) Plan d ’expérimentation
F1
F2
F3
placeau
Quelques définitions
individu statistique : un arbre de la plantation
population : les arbres de la plantation
échantillon expérimental : les arbres dans les 3 placeaux
unité expérimentale : un placeau
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 5
B) Les facteurs non-contrôlés
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 6
D) Facteurs fixes et facteurs aléatoires
Ex: on veut vérifier qu’il y a un facteur opérateur dans la réparation des roues de
voitures dans un garage ayant plusieurs succursales en Europe (les modalités
du facteurs sont les employés affectés à ce type de réparation dans les garages)
on ne va pas traiter tous les employés, il est plus intéressant d ’en sélectionner au
hasard et d ’inférer sur le rôle du facteur « opérateur » sur le temps de réparation
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 7
E) Récapitulatif sur les facteurs de variation
Facteurs de variation
connus inconnus
étudiés blocs
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 8
4) Etude prospective - étude rétrospective
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 9
ANALYSE DE VARIANCE
à UN FACTEUR (One-way ANOVA)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 10
2) Description des données
n nj
d ’effectif n
E1,…Ep sous les sous-
p
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 11
3) Tableaux de données
puissance carburant
111 essence
111 essence
On dispose de la liste des 154 essence
b) observations, à chaque 102 essence
ligne (observations) on 115 essence
observe la valeur prise de 110 essence
la variable d ’intérêt et la 110 essence
valeur prise par le facteur 110 essence
140 essence
Cette représentation a 64 diesel
l ’avantage de s ’adapter 72 diesel
très facilement au cas ou 123 diesel
123 diesel
on a deux ou plus de
123 diesel
facteurs
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 12
4) Test d ’hypothèse, Indicateurs statistiques
et représentations graphiques
x
1
nj
Moyenne conditionnelle (pour chaque facteur) xj
nj
ij
i 1
x nj xj
1 p
Moyenne globale (tous facteurs confondus)
n j 1
des représentations graphiques peuvent aider à appréhender la
solution (séries de « boxplot »)
400
300 Médiane
Médiane « horsepower »
130
« horsepower »
pour les véhicules « essence»
200 127
128
129
106
« diesel »
100
horsepower
0
N= 20 185
diesel gas
Ricco Rakotomalala
fuel-type
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 13
5) ANOVA à un facteur fixe (Modèle I)
xij x ( x j x ) ( xij x j )
suivante :
ij j ij j
p nj p p nj
( x x ) 2
( x x ) 2
( x x ) 2
j 1 i 1 j 1 j 1 i 1
SCT : somme des carrés totaux SCR : somme des carrés résiduels
Exprime la variabilité totale des Exprime la variabilité résiduelle, à
observations savoir la variation que le facteur
n ’arrive pas à expliquer
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 14
Calculs
SCT
CMT
n 1
SCE
Carrés moyens CME
p 1
SCR
CMR
n p
Statistique du SCE
test et loi CME p 1
F Fischer ( p 1, n p )
associée sous CMR SCR
l ’hypothèse H0 n p
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 15
5) ANOVA à un facteur aléatoire (Modèle II)
Dans la pratique, les calculs sont les mêmes (ceci est valable
uniquement pour l ’ANOVA à un facteur !!!).
6) Robustesse de l ’ANOVA
H 0 : j , 2 j 2
H1 : j , 2 j 2
x ij x
2
ˆ 2 i, j
n p
x xj
On utilise les estimations
ˆ j 2
ij
i
n j 1
La statistique du test s ’écrit Loi du Chi-2 à n-1
n p ln ˆ 2 n j 1ln ˆ j 2
degrés de liberté
j
2 ( n 1)
1 1
1
1
3( p 1) j n j 1 n p
• solution : travailler sur des plans équilibrés (même effectif dans chaque
sous-échantillon) atténue l’effet néfaste de l’hétérogénéité des variances
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 17
7.A) Exemple : longueur des voitures en fonction de leur style
Variable Facteur
dépendante
ANOVA
LENGTH
Sum of Mean
Squares df Square F Sig.
Between Groups 6555.430 4 1638.857 13.381 .000
Within Groups 24495.143 200 122.476
Total 31050.572 204
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 18
7.B) ANOVA sous R
#boxplot conditionnel
boxplot(length ~ body.style, data = autos.1,cex=0.75,ylab="Length",xlab="Body.Style")
#anova
fit <- aov(length ~ body.style, data = autos.1)
print(summary(fit))
SCE
CME F
’ = 1.11 x 10-9 < = 0.05
CMR
SCR
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 19
COMPARAISON MULTIPLE
DE MOYENNES
Position du problème :
On utilisera la quantité
x j x j'
t jj ' Student (n p )
SCR j SCR j ' 1 1
n j n j ' 2 n j n j '
Total individuel
T
t 1
individuel
l ’ANOVA
p ( p 1)
2 Equivalent au nombre
de tests effectivement
En toute rigueur, on devrait
réalisés
comparer notre p-value avec
cette valeur
Les logiciels de statistique fournissent directement une p-
value corrigée que l ’on peut comparer avec le risque
de l ’ANOVA
~ p ( p 1)
'
p-value corrigée
(bornée à 1) 2
p-value fournie classiquement dans
Ricco Rakotomalala un test de comparaison de moyenne 21
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
1.B - Inégalité de Sidak
Total 1 1 individuel
T
t 1
individuel 1 (1 ) p ( p 1)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
Pas celles-ci ! 22
2) Comparaison par rapport à un groupe témoin (test de Dunnett)
̂ 2 i, j
groupes, l ’estimateur de la variance va donc n p
utiliser toutes les données disponibles
bon calcul et fournissent une p-value
comparable avec de l ’ANOVA), mais
individuel
dans les faits elle est proche d ’un test p 1
de Student avec une correction de
Bonferroni ou Sidak, mais où le facteur
de correction s ’écrit
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 23
ANALYSE DE VARIANCE
à DEUX FACTEURS (A * B)
Position du problème :
On veut mesurer maintenant le rôle conjoint de deux
facteurs A et B sur la variable dépendante
Exemples :
• type de fertilisants et mode d’épandage => croissance des arbres
• type de fumeur (actif, modéré, non-fumeur) et sexe => durée de vie
P est la population
X est la variable d ’intérêt de
moyenne globale
on étudie le rôle de deux
facteurs A et B
B est le second facteur
(avec q modalités : B1,B2,…,Bq)
A est le premier facteur
(avec p modalités : A1,A2,…,Ap)
ij
A et B définissent p*q sous - i.
population Pij
on note Pi. (resp. P.j) les . j
individus corresp. à A=Ai (B=Bj)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 24
Dans chaque sous-population Pij, on extrait un
échantillon Eij (tirage indépendant et équiprobable)
Dans tout ce qui suit, on considère que le plan
d ’expériences est équilibré, card(Eij)=n
les résultats sont plus clairs et plus facilement explicités
xij xijr
1 n
n r 1
xi . xij
1 q
q j 1
x. j xij
1 p
p i 1
2) Tableau de données
Graphiques associés
160.0
140.0
140.0
120.0
120.0
100.0
100.0
80.0 diesel
80.0
60.0 essence
60.0
40.0
20.0 40.0
essence
0.0 20.0
diesel
atmo 0.0
turbo
atmo turbo
H 0 : i. , i
H 0 : . j , j
H 0 : ij , i, j
Décomposition de la moyenne
Modèles FA FB FAB
CME A CMEB CME AB
(I) A et B fixes
CMR CMR CMR
CME A CMEB CME AB
(III) A fixe et B aléat.
CME AB CMR CMR
CME A CMEB CME AB
(II) A et B aléat.
CME AB CME AB CMR
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 28
Puissance des véhicules en fonction
4.B) ANOVA à deux facteurs sous R du type de carburant (fuel-type) et le
mode d’alimentation (aspiration)
(tests à 5%)
#moyennes conditionnelles
#vs. fuel.type
print(tapply(autos.2$horsepower,list(autos.2$fuel.type),mean))
#vs. aspiration
print(tapply(autos.2$horsepower,list(autos.2$aspiration),mean))
#ANOVA à 2 facteurs
fit2 <- aov(horsepower ~ fuel.type + aspiration + fuel.type*aspiration,
data = autos.2)
print(summary(fit2))
ANOVA à 2 facteurs
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 30
Tableau de données
facteur
individu A1 Aj Ap
1
i Xij
Particularités
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 31
Décomposition de la moyenne
( xij x ) 2
CMT SCT np 1 i j
np 1
n ( xi . x ) 2
CME I SCEI n 1 j
n 1
CME A SCE A p 1
p ( x. j x ) 2
i
p 1
Fischer p 1, ( p 1)(n 1)
CME A
FA
CME IA
On utilise tout simplement la p-value pour
prendre une décision
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 32
Bibliographie
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 33