Vous êtes sur la page 1sur 33

ANOVA 1 et 2 facteurs

Analyse de variance

Ricco Rakotomalala
Universit Lumire Lyon 2
PLAN

1. ANOVA et planification des expriences

2. ANOVA 1 facteur

3. Comparaisons multiples des moyennes

4. ANOVA 2 facteurs

5. Bibliographie

Ricco Rakotomalala
2
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
ANOVA (ANalysis Of VAriance)
Et
Planification des expriences

Position du problme :
Exemple introductif

On veut connatre l effet de trois types de fertilisants sur la croissance


des arbres d une plantation

1) Principe de l exprimentation

extraire 3 chantillons (groupes) d arbres et appliquer chaque


fertilisant pour chaque chantillon : comparer ensuite les moyennes
de croissance annuelle des arbres

Variable d intrt Facteur


(variable dpendante) (variable indpendante)
en cm/an par exemple type de fertilisant
Autres exemples Autres exemples
rendement dun paquet daction stratgie de placement
taux de virus dans le sang traitement mdical

Les domaines dtudes sont varis. LANOVA s applique


ds que :
on veut monter une exprimentation
on veut vrifier l effet de variables qualitatives sur une
variable quantitative

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 3
2) Principe statistique
Indicateur mesur
sur la variable dpendante

Population
originelle

Chaque modalit du facteur
permet de dfinir des sous-populations
(ex: les arbres traits avec le fertilisant
F1,)

Sous-pop 3 1 , 2 , 3
Sous-pop 1 Sous-pop 2

Dans chaque sous-


population, on extrait
des chantillons

Echantillon 1 Echantillon 2 Echantillon 3 x1 , x2 , x3

La problmatique de l ANOVA consiste utiliser les


moyennes observes sur les chantillons pour conclure
des diffrences significatives sur les moyennes
(esprance mathmatique) dans les sous-populations

Ex: pour la plantation, tous les fertilisants sont-ils quivalents, ou


bien y a-t-il un qui soit meilleur (moins bon) que les autres?

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 4
3) Problmes pratiques et quelques dfinitions

A) Plan d exprimentation

Dans la pratique, plusieurs problmes peuvent corrompre les


rsultats...
ex: on ne peut pas donner un fertilisant un arbre, il y a des problmes de
diffusion aux arbres voisins (pluie, vent)

Une solution possible serait d effectuer un maillage de la


plantation (on dfinit ainsi des placeaux), on applique un
fertilisant aux arbres qui sont dans le mme placeau

F1

F2
F3

plantation Les fertilisants sont affects au hasard aux placeaux

placeau

Quelques dfinitions
individu statistique : un arbre de la plantation
population : les arbres de la plantation
chantillon exprimental : les arbres dans les 3 placeaux
unit exprimentale : un placeau

Remarque : Dans certains problmes, les units exprimentales sont


confondues avec les individus statistiques (ex: mdecine, le patient est
la fois unit exprimentale et individu statistique)

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 5
B) Les facteurs non-contrls

Si la plantation est grande, diffrents facteurs peuvent perturber l


exprimentation
diffrences climatiques, il peut y avoir des zones de micro-climat
facteurs gntiques : les graines n ont peut-tre pas tous la mme
provenance et des arbres voisins (sur le mme placeau) ont toutes les chances
de provenir du mme lot
le sol n est pas de mme qualit dans toute la plantation
Facteurs non-contrls, on sait quils peuvent perturber les rsultats
mais on ne sait pas les prendre en compte explicitement dans l analyse

Le rle du plan dexpriences est de dfinir au mieux


l exprimentation (ex: rpartir les traitements sur les
placeaux) de manire annihiler le rle des facteurs
non-contrls.

C) Les facteurs de blocs

Certains facteurs (que l on connat cette fois-ci) peuvent perturber


les rsultats, il appartient au statisticien de les matriser au mieux

ex: pour valuer un mdicament, les facteurs de blocs peuvent tre


l ge (jeune, adulte, vieux), le sexe (homme, femme) si on doit valuer 2
mdicaments, lun est administr uniquement aux hommes, lautre aux femmes,
la validit des rsultats devient sujette caution...

Mme si ce n est pas l objectif (valuer l efficacit des


mdicaments selon le sexe), il est important d en tenir
compte pour valuer les rsultats (qui est de mesurer lefficacit
du mdicament sans distinction de sexe)

Il est galement possible de supprimer l effet de bloc par une plan


d expriences appropri, par ex. en mettant le mme nombre d hommes et
de femmes dans chaque chantillon

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 6
D) Facteurs fixes et facteurs alatoires

Dans lexemple des fertilisants, le nombre de modalits du


facteur est faible (3 fertilisants qui sont tous connus). Que faire
quand il est innombrable, ou que l on ne veut en traiter que
quelques-uns pour infrer sur les autres

Ex: on veut vrifier quil y a un facteur oprateur dans la rparation des roues de
voitures dans un garage ayant plusieurs succursales en Europe (les modalits
du facteurs sont les employs affects ce type de rparation dans les garages)

on ne va pas traiter tous les employs, il est plus intressant d en slectionner au


hasard et d infrer sur le rle du facteur oprateur sur le temps de rparation

Facteur alatoire Facteur fixe


on utilise un chantillon on utilise toutes les modalits ou
des modalits du facteur un sous-ensemble des modalits du
(ex: trois mdicaments parmi facteur
tous les mdicaments traitant les rsultats ne sont valables que
de la grippe) pour ces modalits
partir du rsultat, on infre
sur le reste des autres modalits
pour que le rsultat soit valide,
il est impratif que les modalits
utiliss lors du calcul soient extraits
de manire alatoire

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 7
E) Rcapitulatif sur les facteurs de variation

Facteurs de variation

connus inconnus

Rsume dans l erreur


contrls Non-contrls exprimentale, tout ce
que l on ne connat pas
sur le sujet

tudis blocs

L objectif de la planification des


fixes alatoires expriences est dannihiler (contrler) le rle
ventuellement trompeur de ces facteurs

L objectif de l ANOVA est d valuer


l influence de ces facteurs (parfois, le
facteur de bloc peut tre introduit dans
l analyse)

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 8
4) Etude prospective - tude rtrospective

Le facteur est contrl - tudi Le facteur est contrl - bloc


on veut mesurer son influence on veut vrifier son influence
sur la variable d intrt sur la variable d intrt sans pour
autant avoir faire une
on est en relation directe avec exprimentation
la planification des expriences,
le facteur est manipul ex: comparer les niveaux de salaire
selon le sexe
ex: comparer les salaires
d embauche selon les coles
d origine

5) Extensions : analyse plusieurs facteurs

Au lieu d un facteur, on peut analyser le rle de deux ou


plusieurs facteurs pris conjointement

Analyse des interactions


Analyse des influences
individuelles

Ex 1 : fertilisant et mode de diffusion des fertilisants


Ex 2 : mdicament et sexe du patient

On peut combiner facteur tudi et facteur de bloc...

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 9
ANALYSE DE VARIANCE
UN FACTEUR (One-way ANOVA)

1.A) Hypothse de travail

l unit exprimentale est confondue avec l individu statistique


le plan est compltement randomis

Les modalits du facteur sont affects de


manire alatoire aux units exprimentales

1.B) Hypothses stochastiques

les chantillons sont issus dune population normale (gaussienne)


: on parle de test paramtrique
les variances conditionnelles (variances dans chaque sous-
population) sont identiques : homoscdasticit
les sous-chantillons sont indpendants

En toute rigueur, on devrait vrifier les deux premires


hypothses. En pratique, lANOVA prsente une
certaine robustesse. On en reparle au point n6

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 10
2) Description des donnes

P est la population Ce qui induit une


A est le facteur tudier subdivision de la population
(avec p modalits : A1,A2,,Ap) en sous-population
X est la variable d intrt de P1,P2,,Pp

moyenne Dans chaque sous-


population, on a 1, 2,, p

E est l chantillon total,

n nj
d effectif n
E1,Ep sous les sous-
p

chantillons relatifs aux sous-


populations, d effectifs n1,np j 1
sur la variable X, on calcule
les moyennes empiriques
x et x1 , x2 , , x p
Si les nj sont constants d un groupe l autre,
on parle de plans (blocs) quilibrs (balancs)

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 11
3) Tableaux de donnes

Deux types de tableaux sont disponibles, les tableaux


a) adapts pour la comprhension du problme et les calculs
la main
b) que l on retrouve sur la plupart des logiciels de statistique
Facteur, qui prend
deux modalits
a) Etudier la puissance des {essence,diesel}
vhicules selon le type de
carburant utilis
pour chaque
essence diesel
modalit du
111 64 facteur, on
111 72 dispose des
Puissance <=>
154 123 observations de la
Variable d intrt 102 123 variable d intrt
115 123 (9 voitures
110
essence, 5
110
110 voitures diesel)
140

puissance carburant
111 essence
111 essence
On dispose de la liste des 154 essence
b) observations, chaque 102 essence
ligne (observations) on 115 essence
observe la valeur prise de 110 essence
la variable d intrt et la 110 essence
valeur prise par le facteur 110 essence
140 essence
Cette reprsentation a 64 diesel
l avantage de s adapter 72 diesel
trs facilement au cas ou 123 diesel
123 diesel
on a deux ou plus de
123 diesel
facteurs

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 12
4) Test d hypothse, Indicateurs statistiques
et reprsentations graphiques

L ANOVA consiste construire le test d hypothse


H 0 : 1 2 p

H1 : j , j
La moyenne de la variable dpendante est la mme quelque
soit les groupes dfinis par le facteur, il est gal la moyenne
global ( en filigrane, le facteur n a aucune influence sur la
variable dpendante)

En utilisant les informations suivantes (mesurs sur l chantillon)

x
1
nj
Moyenne conditionnelle (pour chaque facteur) xj
nj
ij
i 1

x nj xj
1 p
Moyenne globale (tous facteurs confondus)
n j 1
des reprsentations graphiques peuvent aider apprhender la
solution (sries de boxplot )
400

300 Mdiane
Mdiane horsepower
130

pour les vhicules


50

horsepower
pour les vhicules essence
200 127
128
129
106

diesel
100
horsepower

0
N= 20 185

diesel gas
Ricco Rakotomalala
fuel-type
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 13
5) ANOVA un facteur fixe (Modle I)

Les carts la moyenne peuvent scrire de la manire

xij x ( x j x ) ( xij x j )
suivante :

Ecart entre les Ecart l intrieur


Ecart la moyenne groupes des groupes
globale (dfinis par les
facteurs)
En passant au carr et en faisant les sommations idoines, on obtient
lquation d analyse de variance

ij j ij j
p nj p p nj

( x x ) 2
( x x ) 2
( x x ) 2

j 1 i 1 j 1 j 1 i 1

SCT : somme des carrs totaux SCR : somme des carrs rsiduels
Exprime la variabilit totale des Exprime la variabilit rsiduelle,
observations savoir la variation que le facteur
n arrive pas expliquer

SCE : somme des carrs expliqus


Exprime la variabilit explique, savoir la
variation que le facteur explique

Si le facteur permet de mettre jour une unit de comportement chez les


individus quil regroupe (ex: les individus de mme sexe ont tous les
mme taille), la variabilit rsiduelle est nulle (dans chaque groupe, les
individus sont tous identiques du point de vue de la variable dpendante)
et la variabilit explique est gale la variabilit totale

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 14
Calculs
SCT
CMT
n 1
SCE
Carrs moyens CME
p 1
SCR
CMR
n p

Statistique du SCE
test et loi CME p 1
F Fischer ( p 1, n p )
associe sous CMR SCR
l hypothse H0 n p

Loi de Fischer p-1 et n-p


degrs de libert
Pour dcider l acceptation ou le rejet de
l hypothse nulle, il reste comparer la p-value
avec le risque de premire espce que l on s est
choisi
p-value < alors rejeter H0, le facteur a bien
une influence sur la variable dpendante

Tableau d analyse de variance


(tableau rcapitulatif propos par les logiciels)
Degrs de Somme des
Source de variation libert carrs Carrs moyens F p-value
Expliqus p-1 SCE CME CME/CMR
Rsidus n-p SCR CMR
Total n-1 SCT

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 15
5) ANOVA un facteur alatoire (Modle II)

L chantillonnage est maintenant deux degrs :


choix alatoire de certaines modalits du facteur
chantillonnage alatoire dans les sous-populations
dcrites par les modalits slectionnes

Dans la pratique, les calculs sont les mmes (ceci est valable
uniquement pour l ANOVA un facteur !!!).

En revanche, dans l interprtation, il est important de noter que l on


juge essentiellement leffet global de la variable indpendante sur la
variable dpendante ici, on ne peut pas dtailler le rle de telle ou
telle modalit du facteur puisque lon peut en changer dune
exprience lautre.

6) Robustesse de l ANOVA

Plusieurs hypothses ont t avances pour poser le calcul


de l ANOVA, quen est-il si certains d entre eux ne sont pas
respects

Normalit de la distribution de X (variable dpendante)


problme : en toute rigueur, les lois de distribution sont invalides
diagnostic : la normalit fait surtout intervenir la symtrie de la distribution, on
peut sen assurer de deux manires
graphiquement : histogramme de frquences
coefficient d asymtrie de Fischer ( 1)
solution 1 : on peut aussi faire des changements de variable (passage au
logarithme, la racine carre) qui symtrise la distribution (ex : distribution
des salaires, trs dissymtrique, en log elle devient symtrique)
solution 2 : en fait, lANOVA est robuste ds que les formes de distribution
sont similaires dans les sous populations (la comparaison peut tre graphique)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 16
Non-homogneit de la variance (htroscdasticit)
problme : les groupes forte variance tirent sur les rsultats
diagnostic : test de Bartlett

H 0 : j , 2 j 2

H1 : j , 2 j 2

x ij x
2

2 i, j

n p
x xj
On utilise les estimations

j 2
ij
i
n j 1
La statistique du test s crit Loi du Chi-2 n-1

n p ln 2 n j 1ln j 2
degrs de libert

j
2 ( n 1)
1 1

1
1
3( p 1) j n j 1 n p

Dcision de rejet de H0 au risque : 2 (n 1) (quivalent p value )

solution : travailler sur des plans quilibrs (mme effectif dans chaque
sous-chantillon) attnue leffet nfaste de lhtrognit des variances

Remarque : Le test de Bartlett nest pas trs robuste par rapport la


non normalit. Mieux vaut utiliser le test de Levene ou de Brown-
Forsythe

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 17
7.A) Exemple : longueur des voitures en fonction de leur style

Variable Facteur
dpendante

ANOVA

LENGTH
Sum of Mean
Squares df Square F Sig.
Between Groups 6555.430 4 1638.857 13.381 .000
Within Groups 24495.143 200 122.476
Total 31050.572 204

La longueur des autos diffrent bien


selon leurs styles (au risque 5%)

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 18
7.B) ANOVA sous R

#charger les donnes


setwd( votre dossier )
library(xlsx)
autos.1 <- read.xlsx("autos_anova.xlsx",header=T,sheetIndex=1)
print(summary(autos.1))

#boxplot conditionnel
boxplot(length ~ body.style, data = autos.1,cex=0.75,ylab="Length",xlab="Body.Style")

#anova
fit <- aov(length ~ body.style, data = autos.1)
print(summary(fit))

SCE
CME F
= 1.11 x 10-9 < = 0.05
CMR
SCR

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 19
COMPARAISON MULTIPLE
DE MOYENNES

Position du problme :

L ANOVA met en vidence une influence d un facteur sur


une variable d intrt en utilisant les moyennes, il peut tre
intressant de spcifier nommment sur quelles groupes
porte ces diffrences

Ex: il y a une influence des fertilisants sur les rendements,


quel est le meilleur fertilisant ?

1) Comparaison deux deux des moyennes

1.A - Correction de Bonferroni


H 0 : j j '

H1 : j j '
Pour le test d hypothses suivant

On utilisera la quantit

x j x j'
t jj ' Student (n p )
SCR j SCR j ' 1 1

n j n j ' 2 n j n j '

Qui fournit la p-value comparer avec le risque


de premire espce
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 20
Problme

Dans les comparaisons deux deux, on a p*(p-1)/2 tests


faire. Plus on multipliera les tests, plus on augmentera
nos chances de conclure tort

Il est impratif que le risque global de nos comparaisons


deux deux soit quivalent au risque pris pour l ANOVA

Ingalit de Bonferroni Nombre de tests


effectus

Total individuel
T

t 1

On choisit alors comme risque de premire


espce pour les risques individuels (test de
comparaison de deux moyennes)

Risque consenti dans

individuel
l ANOVA

p ( p 1)
2 Equivalent au nombre
de tests effectivement
En toute rigueur, on devrait
raliss
comparer notre p-value avec
cette valeur
Les logiciels de statistique fournissent directement une p-
value corrige que l on peut comparer avec le risque
de l ANOVA
~ p ( p 1)
'
p-value corrige
(borne 1) 2
p-value fournie classiquement dans
Ricco Rakotomalala un test de comparaison de moyenne 21
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
1.B - Ingalit de Sidak

Total 1 1 individuel
T

t 1

On choisit alors comme risque de premire


espce pour les risques individuels (test de
comparaison de deux moyennes)
2

individuel 1 (1 ) p ( p 1)

1.C Traitements sous R

#comparaison des facteurs deux deux


pairwise.t.test(autos.1$length,autos.1$body.style,
p.adjust="none",pool.sd=T)
#NT nombre de tests effectuer p=5
p = nlevels(autos$body.style) anova = 0.05
NT = p*(p-1)/2
#alpha corrig Bonferroni bonferonni = 0.005
print(0.05/NT) sidak = 0.005116
#alpha corrig Sidak
print(1-(1-0.05)^(1/NT))

Sont les seules


diffrences
considres comme
significatives.

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
Pas celles-ci ! 22
2) Comparaison par rapport un groupe tmoin (test de Dunnett)

Dans l ANOVA, il existe souvent un groupe de rfrence


contre lequel on veut se comparer
ex: diffrents mdicaments face un placebo

Il y a donc (p-1) tests faire contre ce groupe tmoin

Dunnett utilise l hypothse selon laquelle x x


2

les variance sont homognes dans les


ij

2 i, j
groupes, l estimateur de la variance va donc n p
utiliser toutes les donnes disponibles

La statistique de Dunnet pour une x j xk


comparaison entre un groupe d jk
(correspondant une modalit du SCR 1 1

facteur) avec un groupe tmoin (une n p n j nk
modalit tmoin du facteur) s crit

Dunnet a tabul les valeurs de djk


(les logiciels font automatiquement le


bon calcul et fournissent une p-value
comparable avec de l ANOVA), mais
individuel
dans les faits elle est proche d un test p 1
de Student avec une correction de
Bonferroni ou Sidak, mais o le facteur
de correction s crit

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 23
ANALYSE DE VARIANCE
DEUX FACTEURS (A * B)

Position du problme :
On veut mesurer maintenant le rle conjoint de deux
facteurs A et B sur la variable dpendante

3 effets sont mesurer


effet de A Effets principaux
effet de B
interaction entre A et B

Exemples :
type de fertilisants et mode dpandage => croissance des arbres
type de fumeur (actif, modr, non-fumeur) et sexe => dure de vie

1) Description des donnes

P est la population
X est la variable d intrt de
moyenne globale
on tudie le rle de deux
facteurs A et B
B est le second facteur
(avec q modalits : B1,B2,,Bq)
A est le premier facteur
(avec p modalits : A1,A2,,Ap)
ij
A et B dfinissent p*q sous - i.
population Pij
on note Pi. (resp. P.j) les . j
individus corresp. A=Ai (B=Bj)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 24
Dans chaque sous-population Pij, on extrait un
chantillon Eij (tirage indpendant et quiprobable)
Dans tout ce qui suit, on considre que le plan
d expriences est quilibr, card(Eij)=n
les rsultats sont plus clairs et plus facilement explicits

Xijr est l observation numro r dans l chantillon Eij


ceci nour permet de dfinir les moyennes croises et
marginales

xij xijr
1 n
n r 1

xi . xij
1 q
q j 1

x. j xij
1 p
p i 1
2) Tableau de donnes

Facile lire mais encombrant


Pratique pour les calculs manuels
aspiration
carburant atmo turbo
52 68
56 65
diesel 58 67
48 102
49 145
essence 67 130

x2, 2, 2 puissanceessence ,turbo , 2


Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 25
Tables de donnes usuelles
Utilises par les logiciels
carburant aspiration puissance
essence atmo 110
essence atmo 69
essence atmo 112
essence turbo 142
essence atmo 152
essence atmo 94
diesel turbo 106

Reprsentation des moyennes

Tableau crois dynamique


d Excel par exemple x1,1 x1.
Moyenne puissance aspiration
carburant atmo turbo Total
diesel 58.1 98.6 84.5
essence 101.6 138.4 106.4
Total 99.8 124.4 104.3

Graphiques associs

160.0
140.0
140.0
120.0
120.0
100.0
100.0
80.0 diesel
80.0
60.0 essence
60.0
40.0

20.0 40.0
essence
0.0 20.0
diesel
atmo 0.0
turbo
atmo turbo

Celui-ci est plus intressant car il


permet de distinguer les interactions
Ricco Rakotomalala (lorsque les lignes se croisent)
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 26
3) Hypothses statistiques

Ce sont les mmes que pour l ANOVA 1 facteur


(normalit de la variable dpendante, effets additifs,
variance homogne dans les groupes)

encore une fois, en passant par un plan quilibr, on


amliore la robustesse du test...

4.A) ANOVA deux facteurs

Hypothses soumises au test (il y en a 3 en tout)

H 0 : i. , i

H 0 : . j , j

H 0 : ij , i, j
Dcomposition de la moyenne

xijr x xi. x x. j x xij xi. x. j x xijr xij

Effets des facteurs Effet de Erreur rsiduelle


principaux l interaction (erreur exprimentale)

A partir de laquelle on extrait l quation d ANOVA

SCT SCE A SCE B SCE AB SCR


Variabilit
Variabilit totale Variabilit rsiduelle
explique
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 27
CMT SCT pqn 1
CME A SCE A p 1
Carrs moyens CME B SCEB q 1
CME AB SCE AB ( p 1)( q 1)
CMR SCR pq ( n 1)
Quels sont les rapports de carrs moyens prendre pour
mettre jour les effets (principaux et interactions)

La rponse dpend du type de facteur considr


(fixe ou alatoire)

Pour mettre jour les effets Pour mettre jour


principaux l interaction

Modles FA FB FAB
CME A CMEB CME AB
(I) A et B fixes
CMR CMR CMR
CME A CMEB CME AB
(III) A fixe et B alat.
CME AB CMR CMR
CME A CMEB CME AB
(II) A et B alat.
CME AB CME AB CMR

Ces quantits suivent une loi de Fischer, les degrs de


liberts sont lus dans les dnominateurs des carrs
moyens associs

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 28
Puissance des vhicules en fonction
4.B) ANOVA deux facteurs sous R du type de carburant (fuel-type) et le
mode dalimentation (aspiration)
(tests 5%)

#Donnes pour ANOVA 2 facteurs


autos.2 <- read.xlsx("autos_anova.xlsx",header=T,sheetIndex=2)
print(summary(autos.2))

#moyennes conditionnelles
#vs. fuel.type
print(tapply(autos.2$horsepower,list(autos.2$fuel.type),mean))

#vs. aspiration
print(tapply(autos.2$horsepower,list(autos.2$aspiration),mean))

#vs. fuel.type * aspiration


print(tapply(autos.2$horsepower,list(autos.2$fuel.type,autos.2$aspirati
on),mean))

#ANOVA 2 facteurs
fit2 <- aov(horsepower ~ fuel.type + aspiration + fuel.type*aspiration,
data = autos.2)
print(summary(fit2))

ANOVA 2 facteurs

Fuel-type et aspiration influent


sur la puissance, pas leur interaction.
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 29
5) Cas particulier de l ANOVA deux facteurs :
ANOVA 1 facteur avec mesures rptes

Exemple : valuer l efficacit de 3 mthodes anti-tabac


(A1,A2,A3)

de manire classique, on construirait 3 chantillons (E1,E2,E3)


sur lesquelles on applique respectivement A1,A2 et A3

Cette procdure est compltement quivalente avec le


schma de tirage d urne de la randomisation

Ne peut-on pas imaginer un mode d exprimentation plus


judicieux (qui nous mettrait par exemple l abri des
facteurs de blocs)

On peut utiliser le procd suivant


appliquer la mthode A1 l individu i
une semaine plus tard, appliquer A2 au mme individu i
une semaine plus tard, appliquer A3 au mme individu i

C est un plan d expriences mesures rptes


la variable d intrt est mesure plusieurs fois sur le
mme individu

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 30
Tableau de donnes

facteur
individu A1 Aj Ap
1

i Xij

Facteur 1 = Facteur individu (forcment alatoire)


Facteur 2 = Facteur A (fixe ou alatoire)
L ensemble des modalits est
en fait la population ici

Particularits

on utilise moins d individus que dans un plan compltement


randomis
la sensibilit des rsultats est meilleure dans le sens o
on dtecte mieux les effets
Dans le jugement de l effet du facteur A, on
enlve l incertitude lie au fait que l on
utilise des individus diffrents dans les
groupes - les facteurs de bloc sont annihils

danger : ce plan peut tre impraticable sil y a des


phnomnes daccoutumance (test des posologies en
mdecine), dapprentissage (valuation des tests de QI en
psychologie) ou daccumulation (fertilisants successifs sur le
mme arbre)

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 31
Dcomposition de la moyenne

xij x xi. x x. j x xij xi. x. j x

Facteur individu Facteur A Joue le rle de


facteur rsiduel ici

L interaction entre le facteur et lindividu n existe pas

Carrs moyens et F calculs

( xij x ) 2
CMT SCT np 1 i j
np 1

n ( xi . x ) 2
CME I SCEI n 1 j
n 1

CME A SCE A p 1
p ( x. j x ) 2
i
p 1

CME IA SCEIA ( p 1)( n 1) SCT SCEI SCE A ( p 1)( n 1)


L effet du facteur A est alors transcrit par

Fischer p 1, ( p 1)(n 1)
CME A
FA
CME IA
On utilise tout simplement la p-value pour
prendre une dcision

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 32
Bibliographie

Abdi H., Introduction au traitement statistique des donnes


exprimentales , PUG, 1987.

Dagnelie P., Statistique thorique et applique Tome 2.


Infrence statistique une et deux dimensions , De Boeck,
2011.

Guenther W., Analysis of variance , Prentice-Hall, 1964.

Scherrer B., Biostatistique , Vol. 1, 2me Edition, Gatan Morin


Editeur, 2007.

Sheskin D.J., Handbook of Parametric and Nonparametric


Statistical Procedures , Chapman & Hall, 2007.

et les trs nombreux supports de cours sur Internet.


Ex. Arnold S., STAT 502 : Analysis of Variance and Design of
Experiments , PennState Eberly College of Science, 2008 ;
https://onlinecourses.science.psu.edu/stat502/

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 33