Vous êtes sur la page 1sur 53

Chapitre 3

Analyse de la variance
ANOVA
I. ANOVA à un facteur
Introduction

• L'analyse de la variance a pour but la comparaison des


moyennes de k populations, à partir d'échantillons
aléatoires et indépendants prélevés de plusieurs
moyennes de populations gaussiennes (loi normale),

• Ces populations sont en général des variantes (ou


niveaux k) d'un ou plusieurs facteurs contrôlés de
variation (facteurs A, B, ...).
Populations gaussiennes (loi normale)
• La loi normale = loi gaussienne = loi de Gauss = loi de
Laplace-Gauss .
• c'est une loi de probabilité continue qui dépend de deux
paramètres : son espérance, noté μ, et son écart
type, noté σ.
• une variable aléatoire X suit la loi normale:
Populations gaussiennes (loi normale)
Pour vérifier s’il s’agit d’une distribution normale sur SPSS:
•menu graphes -> histogramme,
•sélectionner simplement la variable désirée

Cette distribution permet


d’Identifier les problèmes :
- effet plancher - plafond
- sujets extrême
- répartition normale
Populations gaussiennes (loi normale)

• La fonction de la densité de la probabilité p(z) pour


spécifier la distribution de la variable z doit
satisfaire :
𝑍2
P (z1 ≤ z ≤ z2) = ‫𝑝 𝑍׬‬ 𝑧 𝑑𝑧
1

• Pour une distribution normale:


1
− (𝑧−𝜇)
P(z) = (2𝜋𝜎 ) 2
2 exp − 2
2𝜎
Populations gaussiennes (loi normale)
La normalisation

(𝒁 − 𝝁)
𝒀 =
𝜹
Z ∼ 𝑵 𝝁, 𝜹𝟐 Y ∼ 𝑵 𝟎, 𝟏
loi normale Centrée - réduite
I. ANOVA à un facteur
Conditions d'applications de l'ANOVA
• Les populations étudiées suivent Homoscédasticité

une distribution normale


• Les variances des populations sont
toutes égales (Homoscédasticité)
• Les échantillons de tailles sont Hétéroscédasticité

prélevés aléatoirement et
indépendamment dans les
populations.
I. ANOVA à un facteur
Tableau de données
• Chacune des colonnes
.1. .2. … ..i.. …. ..I. est assimilée à un groupe
X11 : X21 … Xi1 ….. XI1
expérimental.
.
: : : : • La ligne 1 du tableau est
X1n1 : Xij constitué de I entrées
: : : XInI appelées traitements ou
X2n2 : :
variantes.
Xini • L’ensemble des
Modèle 1:
traitements constitue un
Xij = i + ij facteur.

• i = moyenne de la population i • On dit qu’on a un


• ij = erreur de la jème observation problème d’ANOVA à un
du groupe i facteur constitué de 1
niveaux
I. ANOVA à un facteur
Tableau de données
Modèle 1:
Xij = i + ij 1 seul
• i = moyenne de la population i niveau pour
• ij = erreur de la jème observation du groupe i le facteur

Modèle 2: Plusieurs
Xij =  + i + ij
niveaux
•  = moyenne commune (à toutes les populations) (Traitements)
• i = effet du traitement i pour le
• ij = erreur de la jème observation du groupe i
facteur
I. ANOVA à un facteur
Procédure de calcul d'une ANOVA
Test de l'homogénéité des variances
• H0: les variances sont homogènes (les I moyennes sont égales,
i.e. H0 : 1 = 2 = … = I)
• H1: Au moins une des variances est différente des autres
→ utilisation d'un test de comparaison de plusieurs variances

Conclusion
•Si H0 est rejetée: il est théoriquement impossible de comparer des
échantillons qui ne varient pas de la même manière.
•Si H1 n’est pas rejetée: par conséquent, il est possible de
comparer les moyennes de tels échantillons
I. ANOVA à un facteur: modèle 1
Variabilité factorielle : Variabilité totale au sein de
reflète les écarts des l'expérience (quel que soit
moyennes des échantillons l'échantillon) :

Somme des Carrés des Écarts Somme des Carrés des Écarts à
à la moyenne factorielle la moyenne totale
DDL = k-1. Variabilité résiduelle: reflète variations DDL = N-1.
individuelles dans chaque échantillon.

Somme des Carrés des Écarts


à la moyenne résiduelle
DDL = N-k
I. ANOVA à un facteur: modèle 1
SCET : Somme des carrés des écarts totaux
Elle reflète les écarts existant entre
chaque individu de l'expérience et la
moyenne générale, peu importe
l'échantillon auquel les individus
appartiennent. Elle représente la
variabilité totale au sein de
l'expérience.
Degrés de libertés : N-1
Dans notre exemple dlSCET=18-1=17
Calcul dans Excel :
=SOMME.CARRES.ECARTS(série des
données).
I. ANOVA à un facteur: modèle 1
SCEF : Somme des carrés des écarts factoriels
Elle reflète les écarts existant entre les
moyennes de chaque échantillon et
celle de l'expérience. Elle représente la
variabilité due aux différences entre
échantillons, et donc la variabilité due
à l'existence d'un facteur de variation.
Degrés de libertés : nF-1
Dans notre exemple dlSCEF=3-1=2
Calcul dans Excel :
=ni*SOMME.CARRES.ECARTS(série des
moyennes des échantillons) avec ni =
nombre d'individus par échantillon.
I. ANOVA à un facteur: modèle 1
SCER : Somme des carrés des écarts résiduels
Elle reflète les écarts existant entre
chaque individu et la moyenne de son
propre échantillon. Elle représente la
variabilité existant au sein des
échantillons, c'est-à-dire celle qui ne
peut être expliquée par la présence du
facteur de variation.
Degrés de libertés : N-nF
dlSCER=18-3=15
Calcul dans Excel :
=(ni-1)*SOMME(série des variances des
échantillons)
I. ANOVA à un facteur

• DDL associés : N-1 = k-1 + N-k.


• On comparera les variabilités factorielle et
résiduelle
ddl : Degré de liberté
• Le degré de liberté (ddl) désigne le nombre
de variables aléatoires qui ne peuvent être déterminées
ou fixées par une équation (notamment les équations
des tests statistiques).
• Le nombre de degré de liberté est égal au nombre
d'observations moins le nombre de relations entre
ces observations : on pourrait remplacer l'expression
« nombre de relations » par « nombre de paramètres à
estimer ».
ddl : Degré de liberté
Le vecteur aléatoire X : chaque coordonnée des variables
est défini dans un espace à n dimensions, donc
naturellement, il a n degrés de libertés

en connaissant n − 1 coordonnées du vecteur, on peut en


déduire la ne : ce vecteur a n − 1 degrés de liberté.
ddl : Degré de liberté
Formule
Indique le nombre d'éléments indépendants dans la
somme des carrés. Les degrés de liberté pour chaque
composant du modèle sont les suivants :
• DL (facteur) = r – 1
• DL des erreurs = n – r
T

• Total = n – 1
T

Terme Description
nT nombre total d'observations
r nombre de niveaux de
facteurs
I. ANOVA à un facteur
Variabilités : comparaison variation factorielle – variation résiduelle

• Effet du facteur: faible •Effet du facteur: non •Effet du facteur:


• Variation Factorielle: significatif significatif
grande (légèrement •Variation Factorielle: faible •Variation Factorielle:
supérieure à la variation (inférieure ou égale à la grande (très supérieure à
Résiduelle) variation Résiduelle) la variation Résiduelle)
• Variation Résiduelle: •Variation Résiduelle: •Variation Résiduelle:
grande grande faible
I. ANOVA à un facteur
Tableau ANOVA récapitulatif

Sous l’hypothèse H0 :
•F suit une loi à et ddl (test unilatéral :
le rapport n’est pas obligatoirement supérieur à 1),

Choix du risque:
•Risque de première espèce α=5% (erreur commise
lorsqu’on rejette H0 à tort).
I. ANOVA à un facteur
Décision
Si => rejet de H0 au risque α :
•La variance factorielle est significativement supérieure à la
variance résiduelle : les moyennes diffèrent
significativement entre-elles.
→ on attribue une influence significative au facteur étudié.
•Recherche du degré de signification p (recherche du
risque α le plus petit possible pour conclure au rejet de H0)
I. ANOVA à un facteur: modèle 2

Exemple : Tester l’hypothèse H0

• Ensemble 1 de • Ensemble 2 de
données données
A B C A B C
8 7,5 9,5 3 1,5 5,2
9 8,5 9,8 9 8,5 9,8
10 9,5 10,1 15 15,5 14,4
9 8,5 9,8 9 8,5 9,8
•  est estimé par X..

• i est estimé par X


i.

• i est estimé par X − Xi. ..


I. ANOVA à un facteur: modèle 2
Estimation de la variance 2
Modèle 2:
Xij =  + i + ij
• S.C.E.inter-groupes = n (X − X ) 2

(X − X )
i i. ..
2

• S.C.E.intra-groupes =  
  (X − X )
ij i.
2

• S.C.E.totale = ij ..

• De plus, on SCE inter + SCEintra = SCEtotale


Source d.d.l. S.C.E. C.M.E Fobservé

SCE CMEint er
Inter-gps I–1 SCEinter CMEinter= int er
F=
I −1 CMEint ra
SCEint ra
N–I
Intra-gps SCEintra CMEintra=
N −I
Totale N-1 SCEtotale
I. ANOVA à un facteur: modèle 2
Mesure de la décomposition de la SCE

Part de la variabilité de Y expliquée par l’ANOVA :


SCE A
0  1
2
=
2

SCE T

NB : 2 inclue
* SCET expliquée de façon linéaire : r2
* SCET expliquée de façon non linéaire : 2-r2

2 ≥ r2
I. ANOVA à un facteur: modèle 2

• Le coefficient de détermination R2:


C’est un coefficient qui représente la variation totale de Y
qui est due à la variation de X.

Une autre présentation possible de la formule est la


suivante :
I. ANOVA à un facteur: modèle 2

• R carré (ajusté)

• Remarque:
Dans le cas de la régression linéaire simple 𝑹𝟐 = 𝒓𝒙𝒚 𝟐
I. ANOVA à un facteur: modèle 2
Exemple: effet de la nature du sol sur le rendement de la
pomme de terre
sable argile terreau
21 16 23
20 18 31
16 11 24
I. ANOVA à un facteur: modèle 2
ni 3 3 3 9 =N
Ti. 57 45 78 180 = T
19 15 26 20
sable argile terreau
21 16 23
20 18 31
16 11 24
Ti. 57 45 78 180
2
180
SCET = 212 + 20 2 + ....− = 264
9
572 452 1802 = 186
SCE A = + + ....−
3 3 9
I. ANOVA à un facteur: modèle 2

SV SCE ddl CM F

A 186 2 93 7,15

R 78 6 13

T 264 8

F 2
6, = 0,05 = 5,14

186
• Part de la variabilité du rendement  = = 0,70
2
expliqué par le sol: 264


Le coefficient de détermination
R2 = 1-(78/186)=0,58 soit 58%
I. ANOVA à un facteur
Exemple: comparer le poids moyen, à un âge déterminé, de moutons
d'une même race provenant de 3 régions différentes. Les résultats
obtenus sur 3 échantillons sont les suivants (en kg) :
II. ANOVA à Deux facteurs
Introduction
• Étude simultanée d’un facteur A à p modalités et d’un
facteur B à q modalités.

• Objectifs : tester les effets sur la variable Y


➢ du facteur A (p modalités),
➢ du facteur B (q modalités),
➢ de l’interaction A x B.
II. ANOVA à Deux facteurs
Conditions d'applications de l'ANOVA
• Les mêmes conditions que pour l’ANOVA I:
▪ Les populations étudiées suivent une distribution
normale
▪ Les variances des populations sont toutes égales
(Homoscédasticité)
▪ Les échantillons de tailles sont prélevés
aléatoirement et indépendamment dans les
populations.
II. ANOVA à Deux facteurs
Tableau de données
Plans factoriels

A1 A2 … Ai … Ap
B1 y111
y112

B2

Bj yijk

nij mesures par case
Bq
II. ANOVA à Deux facteurs
Données et notations
1≤i≤p;1≤j≤q;1≤k≤r

A1 A2 … Ai … Ap
B1 y111
y112 n11
… n.1
y11k T11. T.1.

y11r
B2

n.j
Bj yijk nij
… T.j.
Tij.
Bq
n1. T1.. ni. Ti.. N
T
II. ANOVA à Deux facteurs
Les plans d’expérience de l’ANOVA 2
• A et B fixe : plan fixe
• A et B aléatoires : plan aléatoire
• A ou B aléatoire : plan mixte

• nij = 1 : ANOVA 2 sans répétition


• nij = r constant : ANOVA 2 avec nombre égal de
répétitions
• nij = variable : ANOVA 2 avec nombre inégal de
répétitions
II. ANOVA à Deux facteurs
Notion d’interaction
y y

15 18 21 24 27 30 15 18 21 24 27 30
Pas d’interaction Interaction

Interaction : B a un effet différent suivant la modalité de A


considérée (ou réciproquement)
Exemple : souche A : le rythme cardiaque augmente quand
t° augmente: souche B : reste stable; souche C : diminue

L’interaction peut masquer un effet principal


II. ANOVA à Deux facteurs
Modèle et décomposition de la variation

Yijk =  + i + bj + gij + eijk


•  : moyenne
• i : effet de la ième modalité de A
• bj : effet de la jème modalité de B
• gij : effet de l’interaction dans la ijème case
• eijk : erreur : N(0,) : à tester!
y ijk = y ... + (y i .. − y ... ) +(y . j. − y ... ) + (y ij. − y i .. − y . j. + y ... ) + (y ijk − y ij . )

 (y ijk − y ... ) =  (y i.. − y ... ) +  (y . j. − y ... ) +  (y ij. − y i .. − y . j. + y ... ) + (y ijk − y ij. )
2 2 2 2 2

ijk ijk ijk ijk ijk

A B AxB e=0
SCET = SCEA + SCEB + SCEAxB + SCER
II. ANOVA à Deux facteurs
Calculs pratiques

T2 p
Ti..2 T 2
SCET =  y ijk − SCE A =  −
2

ijk N i =1 qr N

2 Tij.2
SCE R =  y ijk − 
q
T T 2
SCE B = 
2

. j.

j =1 pr N ijk ij r

SCEAx B = SCET − SCEA − SCEB − SCER


II. ANOVA à Deux facteurs
Tableau ANOVA récapitulatif

SV SCE ddl CM F

A SCEA p-1 CMA FA = CMA/CMR

B SCEB q-1 CMB FB = CMB/CMR

AxB SCEAxB (p-1)(q-1) CMAxB FAxB = CMAxB/CMR

R SCER pq(r-1) CMR

T SCET pqr-1
II. ANOVA à Deux facteurs
Tableau ANOVA récapitulatif

Source de
variation d.d.l. SCE CME F

Facteur A
(lignes) a-1 SCEA CMEA FA = CMEA/CMErésid.

Facteur B
(colonnes) b-1 SCEB CMEB FB = CMEB/CMErésid.

Interaction AxB (a-1)(b-1) SCEinteraction. CMEinter. Finter = CMEinter./CMErésid.

Résiduelle
(erreur) ab(n-1) SCErésiduelle CMErésid.

Totale N-1 SCEtotale


II. ANOVA à Deux facteurs
Tests de l’ANOVA 2
(p −1)(q−1)
• Ho : gij = 0 FAx B :Fpq(r −1)
p− 1
• Ho : i = 0 FA :F pq(r− 1)

• Ho : bj = 0 FB :F q−1
pq(r− 1)

- Effet de l’interaction :
* graphiquement
* test de Tukey
- Lorsque l’interaction n’a pas d’influence significative :
* tests sur A et B
- Lorsque l’interaction a un effet significatif :
* pas de test sur A et B
II. ANOVA à Deux facteurs
Tests de l’ANOVA 2
II. ANOVA à Deux facteurs
Exemple 1: Rendement agricole en fonction du sol et de la
variété
sable argile terreau nij = 1
A 21 16 23
B 20 18 31
C 16 11 24
II. ANOVA à Deux facteurs
SV SCE ddl CM F

sol 186 2 93 15,5

variété 54 2 27 4,5

R 24 4 6

T 264 8
F2
4, = 0,05 = 6,94


II. ANOVA à Deux facteurs
analyse graphique de l’interaction
35 35
30 30
25 25
20 20
15 15
10 10
5 5
0 0
sable argile terreau A B C
II. ANOVA à Deux facteurs
Exercice: on veut comparer, chez deux races bovines
différentes (critère 1), les effets de 3 régimes alimentaires
caractérisés par des teneurs énergétiques différentes
(critère 2) : haut (H), bas (B) et moyen (M).
II. ANOVA à Deux facteurs
II. ANOVA à Deux facteurs
II. ANOVA à Deux facteurs

Conclusions
• il existe un effet race très important (Fobs >>> Ftable) ;
• il existe un effet régime mais faible (Fobs > Ftable);
• il n'y a pas d'interaction entre la race et le régime (Fobs
< Ftable).

Vous aimerez peut-être aussi