Vous êtes sur la page 1sur 86

Analyse de la variance

M2 Statistiques et Econométrie

Fanny MEYER
Morgane CADRAN
Margaux GAILLARD
Analyse de la variance
Plan du cours

I. Introduction

II. Analyse de la variance à un facteur

III. Analyse de la variance à deux facteurs

IV. Analyse de la covariance

V. Problèmes spécifiques
Analyse de la variance
Introduction

I. Introduction

 Cadre:
- Endogène : Variable quantitative
- Exogène(s) : Variable(s) qualitative(s) appelée(s) facteur(s)

 Objectifs:
- Comparer les moyennes de l'endogène pour chaque modalité
des facteurs
- Etudier l'effet de ces facteurs sur la variable réponse
Analyse de la variance
à un facteur

II. Analyse de la variance à un facteur

1) Modèle
2) Vérification des conditions
3) Anova
4) Comparaisons multiples
Analyse de la variance
à un facteur

Présentation des données :

 Plantation d’arbres dans 3 forêts


 Comparaison de la hauteur des arbres
Analyse de la variance
à un facteur

Présentation des données :

 Les forêts : Variable qualitative contenant trois modalités,


appelée facteur (à effets fixes).
 Hauteur des arbres : Réponse, notée Y.

L’analyse de variance à un facteur teste l’effet d’un facteur


contrôlé A ayant p modalités sur les moyennes d’une variable
quantitative Y.
Analyse de la variance
à un facteur

Les échantillons sont de même taille => expérience équilibrée.

 Moyenne de chaque échantillon :


J
1
yi yij , i 1,..., I .
J j 1

 Variance de chaque échantillon :


J
1
s²i ( y) ( yij y i )², i 1,..., I .
J j 1
Analyse de la variance
à un facteur

Application à l’exemple :

y1 24,75 y2 21,53 y3 23,6

s1 0,83 s2 2,49 s3 0,57

Nombre d’observations : n = I*J = 6*3=18


Analyse de la variance
à un facteur

Application à l’exemple :
Analyse de la variance
à un facteur

 Modèle:

yij i ij , i 1,...I et j 1,..., J

 Test de comparaison des moyennes :


Hypothèse nulle (H0) : 1 2 ... I
Contre (H1) : Les i ne sont pas tous égaux.

=> Utilisation de l’analyse de la variance à un facteur.


Analyse de la variance
à un facteur

II. Analyse de la variance à un facteur

1) Modèle
2) Vérification des conditions
3) Anova
4) Comparaisons multiples
Analyse de la variance
à un facteur

Les trois conditions pour l’ANOVA:

1. Les p échantillons comparés sont indépendants.


2. La variable quantitative étudiée suit une loi normale dans les
p populations comparées.
3. Les p populations comparées ont même variance :
Homogénéité des variances ou homoscédasticité.
Analyse de la variance
à un facteur

1. Indépendance :
 Pas de test statistique simple pour étudier l’indépendance.
 Les conditions de l’expérience choisie nous déterminent si
nous sommes dans le cas de l’indépendance.

Exemple => Les forêts sont indépendantes.


Analyse de la variance
à un facteur

2. Normalité :
Test de Shapiro-Wilk sur l’ensemble des résidus
(H0) : les résidus suivent une loi normale
(H1) : les résidus ne suivent pas une loi normale

 Statistique de test :

x(i )
correspond à la série des données triées, et ai sont des constantes fournies
par des tables spécifiques.

 Décision : On rejette H0 si W Wcrit .

Les valeurs seuils Wcrit pour différents risques α et effectifs n sont lues dans la
table de Shapiro-Wilk.
Analyse de la variance
à un facteur

3. Homogénéité :
Test de Bartlett :
 Comparaison multiple de variances
(H0) : ²1 ² 2 ... ² I

(H1) : les ² I ne sont pas toutes égales


I
1
 Statistique de test : Bobs [( n 1) ln( s ² R ) (ni 1) ln( s ² c ,i )]
C i 1
I
1 1 1
avec C 1 (( ) )
3( I 1) i 1 ni 1 n 1

et Bobs suit une loi du Khi-Deux à I-1 ddl.

 Décision : Si Bobs < c  (H0) vraie


Analyse de la variance
à un facteur

Retour à l’exemple :
 Normalité (Shapiro) : nombre d'observations trop faible pour tester sur
chaque forêt donc on va tester sur tout l'échantillon.
Test de Shapiro-Wilk
W=0.9748 P-value=0.882
p-value = 0.882 > 0.05 donc on accepte H0 => normalité.

 Homogénéité (Bartlett) : nombre d'observations trop faible pour tester


sur chaque forêt donc on va tester sur tout l'échantillon.
Test de Bartlett
B=2.8279 Df=2 P-value= 0.2432
p-value = 0.2432 donc on accepte H0 => homogénéité des variances
Analyse de la variance
à un facteur

II. Analyse de la variance à un facteur

1) Modèle
2) Vérification des conditions
3) Anova
4) Comparaisons multiples
Analyse de la variance
à un facteur

Tableau ANOVA : Propriétés fondamentales

 La moyenne de toutes les observations est la moyenne des


moyennes de chaque échantillon:
1 J I
y yij
n j 1 i 1

Exemple : y = (24,75+21,53+23,60)/3 = 23,29

 La variance de toutes les observations est la somme de la


variance des moyennes et de la moyenne des variances:
I I
1 1 1
s ²( y ) ( yij y )² ( yi y )² si ²( y ) (1)
n i j I i 1 I i 1

Exemple : s²(y) = 3,06


Analyse de la variance
à un facteur

I
1
 Variance des moyennes = ( yi y)²
I i 1

1
= 3 ((24,75 23,29)² (21,53 23,29)² (23,60 23,29)²)

= 1,77
1 I
1
 Moyenne des variances = I
s²i ( y) = (0,83 2,49 0,57) = 1,29
i 1 3

 Somme = 3,06  équation précédente vérifiée


I J I I J
On multiplie (1) par n : ( yij y )² J ( yi y )² ( ( yij yi )²)
i 1 j 1 i 1 i 1 j 1

Cette relation s’écrit : SCtot SCF SCR


Analyse de la variance
à un facteur

Variation due au facteur :


dispersion des moyennes autour de la moyenne
générale.

SCtot SCF SCR

Variation totale : Variation résiduelle :


dispersion des données autour dispersion des données à l’intérieur de chaque
de la moyenne générale. échantillon autour de sa moyenne.
Analyse de la variance
à un facteur

Retour à l’exemple : (calculs avec R)

Sc_tot = 51.31

SC_F = 31.88

SC_R = 19.43

On retrouve bien la relation précédente.


Analyse de la variance
à un facteur

(H0) : 1 2 ... I
(H1) : Les i ne sont pas tous égaux.

 Si (H0) est vraie alors la variation due au facteur SCF doit être petite par rapport à
la variation résiduelle SCR .
 Par contre, si (H1) est vraie alors la variation due au facteur SCF doit être grande
par rapport à la quantité SCR .
Pour comparer ces quantités, Fisher a considéré le rapport des carrés moyens.

SCF
Carré moyen associé au facteur : CM F
I 1

SCR
Carré moyen résiduel : CM R
n 1

=> estimateur sans biais de la variance des erreurs qu’on appelle variation
résiduelle notée aussi Sr².
Analyse de la variance
à un facteur

TEST DE FISHER: (H0) : 1 2 ... I


(H1) : Les i ne sont pas tous égaux.

Si les 3 conditions (Indépendance, Normalité et Homogénéité) sont vérifiées


et si (H0) est vraie,
CM F
Alors : Fobs ~ FI 1, n I
CM R

Décision : Pour un seuil donné α (5% en général) les tables de Fisher nous
fournissent une valeur critique c telle que :

H0 ( FI 1, n 1 c) 1

Alors: si Fobs c  H0 est vraie


si Fobs c  H1 est vraie
Analyse de la variance
à un facteur

Tableau de l’ANOVA fourni par le test de Fisher:

Variation SC ddl CM Fobs Fc

Due au I-1 c
facteur

Résiduelle n-I
Totale n-1
Analyse de la variance
à un facteur

Tableau de l’ANOVA :

Application à notre exemple :

Variation SC ddl CM Fobs Fc

Due au 2 0.0007
facteur
Résiduelle 15
Totale 17

p-value < 0.05 donc les hauteurs moyennes sont significativement


différentes dans chaque forêt.
Analyse de la variance
à un facteur

II. Analyse de la variance à un facteur

1) Modèle
2) Vérification des conditions
3) Anova
4) Comparaisons multiples
Analyse de la variance
à un facteur

But : classer les traitements par groupes qui sont


significativement différents.

 Test de Tukey : test de la différence franchement significative


(HSD= honestly significative difference)

 S'applique sur un facteur si :


- Les 3 conditions fondamentales sont vérifiées,
- Le facteur est à effet fixe, avec au moins 3 modalités,
- Le facteur a un effet significatif sur la réponse.
Analyse de la variance
à un facteur

Méthode :
 Pour chaque paire i et l de groupes, on calcule un IC de niveau
(1-α)% de la différence ( i l) .
 Si zéro appartient à l’IC, les moyennes ne sont pas jugées
significativement différentes au niveau α.

Exemple : Diff Lower Upper P-value


2-1 -3.22 -4.92 -1.51 0.0005
3-1 -1.15 -2.86 0.56 0.22
3-2 2.07 0.36 3.77 0.02

0 est dans l’intervalle de confiance de 3-1  les hauteurs


moyennes dans les forêts 1 et 3 ne sont pas significativement
différentes.
Analyse de la variance
à un facteur

Représentation graphique de l'ANOVA :


→ package « granova »
> granova.1w(hauteur,foret)
Analyse de la variance
à deux facteurs

III. Analyse de la variance à deux facteurs

1) Modèle
2) Vérification des conditions
3) Anova
4) Comparaisons multiples
5) Facteurs sans répétitions
Analyse de la variance
à deux facteurs

 Variables étudiées :
- facteur à I modalités
- facteur à J modalités
- variable quantitative Y

 Dans la population correspondant à la modalité d’ordre i du


premier facteur et à la modalité d’ordre j du deuxième facteur :
pour i=1,...,I et j=1,...,J.
Analyse de la variance
à deux facteurs

 Echantillons indépendants de même taille K de la variable Y


dans chacune des IJ populations, soit au total un n-échantillon
avec n = IJK.

 Modèle :
pour tout i=1,...,I ; j=1,...,J ; k=1,...,K sous contraintes:

 Hypothèse :
Analyse de la variance
à deux facteurs

 Autre écriture du modèle :

pour i=1...,I ; j=1,...,J ; k=1,...,K ;


Avec eijk les erreurs de mesure (inconnues).
Analyse de la variance
à deux facteurs

Présentation des données de l'exemple :


 Expérience : des secrétaires tapent un texte pendant 5 minutes
sur différentes machines à écrire. L’expérience est répétée le
lendemain.
 Premier facteur à 4 modalités : modèles de machines à écrire
 Second facteur à 5 modalités : secrétaires professionnelles
 Variable quantitative : nombre moyen de mots tapés en une
minute.
Analyse de la variance
à deux facteurs

I=4, J=5, K=2 → échantillon de n=40 observations.


Secrétaires
Machines à
écrire 1 2 3 4 5

33 31 34 34 31
1
36 31 36 33 31
32 37 39 33 35
2
35 35 36 36 36
37 35 34 31 37
3
39 35 37 35 39
29 31 33 31 33
4
31 33 34 27 33
Analyse de la variance
à deux facteurs

 But : analyser l'influence de la machine à écrire et de la


secrétaire sur le nombre moyen de mots tapés en une minute.
Analyse de la variance
à deux facteurs

Représentation graphique des interactions :

Le nombre moyen de mots tapés en une minute sur les machines diffère
avec les secrétaires, et vice versa.
Analyse de la variance
à deux facteurs

III. Analyse de la variance à deux facteurs

1) Modèle
2) Vérification des conditions
3) Anova
4) Comparaisons multiples
5) Facteurs sans répétitions
Analyse de la variance
à deux facteurs

 Moyennes théoriques estimées par les moyennes


observées (« valeurs ajustées »).
 Résidus :
pour i = 1,...,I ; j = 1,..., J ; k = 1,...,K.
 Mêmes conditions à vérifier :
1- indépendance des données
2- normalité des résidus
3- homogénéité des variances (homoscédasticité)
Analyse de la variance
à deux facteurs

Exemple : 1) Indépendance
Les données sont indépendantes.

2) Normalité des résidus


> mod.int=lm(mots~machine*secretaire,data=texte)
> residus=residuals(mod.int)
> shapiro.test(residus)

Shapiro-Wilk normality test


data: residus
W = 0.9464 p-value = 0.05702

 Ici on accepte H0 car p-value > 0,05 donc les résidus sont normaux.
Analyse de la variance
à deux facteurs

Exemple : 3) Homoscédasticité
> bartlett.test(residus~machine,data=texte)
> bartlett.test(residus~secretaire,data=texte)
Bartlett test of homogeneity of variances
data: residus by machine
Bartlett's K-squared = 1.8254 df = 3 p-value = 0.6094
data: residus by secretaire
Bartlett's K-squared = 8.9698 df = 4 p-value = 0.06186

Ici les p-value > 0,05 donc on accepte H0.


 Ainsi les variances des machines et des secrétaires sont homogènes.
Ces deux résultats ne nous garantissent pas l'égalité des 20 (4*5)
variances théoriques mais sont de bons indicateurs pour
l'homoscédasticité.
Analyse de la variance
à deux facteurs

III. Analyse de la variance à deux facteurs

1) Modèle
2) Vérification des conditions
3) Anova
4) Comparaisons multiples
5) Facteurs sans répétitions
Analyse de la variance
à deux facteurs

L’analyse de la variance à deux facteurs avec répétitions permet


trois tests de Fisher :
 Effet du premier facteur
H0: les paramètres i
sont tous nuls
H1: les paramètres i
ne sont pas tous nuls
 Effet du second facteur
H0: les paramètres j sont tous nuls
H1: les paramètres j ne sont pas tous nuls
 Effet de l'interaction des deux facteurs
H0: les paramètres ( ) ij sont tous nuls
H1: les paramètres ( ) ij ne sont pas tous nuls
Analyse de la variance
à deux facteurs

Les statistiques :
Analyse de la variance
à deux facteurs

Equation d'analyse de la variance :

dispersion due mesure l'effet de


aux fluctuations mesure l'effet mesure l'effet l'interaction
individuelles du premier du second entre les deux
facteur facteur facteurs
Analyse de la variance
à deux facteurs

Propriété sur les lois des statistiques :

SC ( I 1) CM
~ F( I 1), IJ ( K 1) sous H0,
SCR IJ ( K 1) CM R

SC ( J 1) CM
~ F( J 1), IJ ( K 1) sous H0,
SCR IJ ( K 1) CM R

SC ( I 1)( J 1) CM
~ F( I 1)( J 1), IJ ( K 1) sous H0.
SCR IJ ( K 1) CM R
Analyse de la variance
à deux facteurs

Tableau de l'ANOVA :
Variation SC ddl CM F_obs F_c

Due à I-1

Due à J-1

Due à (I-1)(J-1)

Résiduelle IJ(K-1)

Totale n-1

 Quand nous décidons H1, le facteur a un effet significatif sur la


réponse.
Analyse de la variance
à deux facteurs
Exemple :
> mod.int=lm(mots~machine*secretaire,data=texte)

> anova(mod.int)
Analysis of Variance Table
Response: mots
Df Sum Sq Mean Sq F value Pr(>F)
Machine 3 128,10 42,7 16,42 1,279e-05
Secrétaire 4 36,15 9,04 3,48 0,02603
Interaction 12 77,65 6,47 2,49 0,03450
Résidus 20 52 2,6

Ici les p-value < 0,05 donc on décide H1.


→ Ainsi les facteurs machine et secrétaire ainsi que leur interaction ont un effet
significatif sur le nombre de mots tapés en une minute.
→ L'effet de la secrétaire sur le nombre de mots tapés diffère selon la machine à écrire,
et vice versa.
Analyse de la variance
à deux facteurs

Représentation graphique de l'ANOVA :


→ package « granova »
> granova.1w(mots,machine) > granova.1w(mots,secretaire)
Analyse de la variance
à deux facteurs

III. Analyse de la variance à deux facteurs

1) Modèle
2) Vérification des conditions
3) Anova
4) Comparaisons multiples
5) Facteurs sans répétitions
Analyse de la variance
à deux facteurs

Comparaisons multiples :
 Lorsque l’effet d’un facteur a été mis en évidence : le test de
Tukey s’applique.
 Si le nombre d’observations le permet.
 L'objectif est de comparer les moyennes de la variable réponse
dans les différents groupes.
Analyse de la variance
à deux facteurs

Exemple : > mod = aov(mots~machine*secretaire, data=texte)

> TukeyHSD(mod, "machine", ordered = TRUE)

Tukey multiple comparisons of means


95% family-wise confidence level
factor levels have been ordered
Le nombre de mots tapés en $ machine
une minute n'est en moyenne pas diff lower upper p adj
1-4 1,5 -0,52 3,52 0,1936
significativement différent pour
2-4 3,9 1,88 5,92 0,0001
les machines 1 et 4, ainsi que pour 3-4 4,4 2,38 6,42 0,00003
2-1 2,4 0,38 4,42 0,0163
les machines 2 et 3.
3-1 2,9 0,88 4,92 0,0034
3-2 0,5 -1,52 2,52 0,8984
Analyse de la variance
à deux facteurs

Exemple : > TukeyHSD(mod, "secretaire", ordered = TRUE)


Tukey multiple comparisons of means

95% family-wise confidence level

factor levels have been ordered


$ secretaire
Le nombre de mots tapés en
diff lower upper p adj
une minute n'est en moyenne
2-4 1 -1,41 3,41 0,7287
pas significativement différent 1-4 1,5 -0,91 3,91 0,3691
5-4 1,88 -0,54 4,29 0,1779
pour les 5 secrétaires dans
3-4 2,88 0,46 5,29 0,0148
l'ensemble, sauf pour les 1-2 0,5 -1,91 2,91 0,9701
5-2 0,88 -1,54 3,29 0,8119
secrétaires 3 et 4.
3-2 1,88 -0,54 4,29 0,1779
5-1 0,38 -2,04 2,79 0,9899
3-1 1,38 -1,04 3,79 0,4530
3-5 1 -1,41 3,41 0,7289
Analyse de la variance
à deux facteurs

III. Analyse de la variance à deux facteurs

1) Modèle
2) Vérification des conditions
3) Anova
4) Comparaisons multiples
5) Facteurs sans répétitions
Analyse de la variance
à deux facteurs

 Facteurs sans répétition : deux facteurs à, respectivement, I et J


modalités et une seule observation pour chaque population,
c’est à dire K = 1.
 Les résultats précédents ne sont plus valables.
 Nous devons supposer que l’interaction entre les deux facteurs
est nulle.

 Modèle additif :

avec les contraintes


Analyse de la variance
à deux facteurs

Equation d'analyse de la variance :

 La somme des carrés correspondant à l’interaction est associée


ici à la somme des carrés de la résiduelle.
 Les valeurs ajustées sont données par :

 Les résidus sont donnés par :

pour i=1,...,I et j=1,...,J.


Analyse de la variance
à deux facteurs

Exemple :
 Expérience : traitement à base de vitamine B12 sur des
animaux de races différentes
 Premier facteur : 3 races d'animaux notées Ri
 Second facteur : 3 doses du traitement notées D j (5, 10 et 15
μg par cm3 )
 Variable quantitative : Yij = gain moyen de poids par jour à
l’issue d’un traitement de 50 jours.
 Un seul animal est utilisé pour chaque couple «race-
traitement» → K=1.
Analyse de la variance
à deux facteurs

R1 R2 R3
Données de l'exemple : D1 1,26 1,21 1,19

D2 1,29 1,23 1,23

D3 1,38 1,27 1,22


Analyse de la variance
à deux facteurs

La procédure est analogue à celle de l'analyse de la variance à


deux facteurs avec répétitions :
 Tester l'effet des races et des doses à partir de tests de Fisher
(anova).
 Il faut là encore vérifier les trois conditions fondamentales :
- normalité des résidus : test de Shapiro-Wilk
- homoscédasticité : test de Bartlett
- indépendance des données.
 Effectuer des comparaisons multiples si le facteur a un effet sur
la réponse.
Analyse de la variance
à deux facteurs

Exemple :
 Vérification des conditions fondamentales :
 Normalité : test de Shapiro  p-value = 0.9632 donc OK
 Homoscédasticité : test de Bartlett  par race : p-value = 0.1961
par dose: p-value = 0.5822
donc les variances sont homogènes. OK
 Indépendance : les données sont indépendantes. OK

 Tester l’effet des facteurs race et dose par Anova :


 Fisher  race : p-value = 0.029 < 0.05 donc la race a un effet significatif
sur le gain de poids.
 Fisher  dose : p-value = 0.088 > 0.05 donc la dose n’a pas d’effet
significatif sur le gain de poids.
Analyse de la variance
à deux facteurs

Exemple :
 Comparaisons multiples : par race
Tukey multiple comparisons of means

95% family-wise confidence level

factor levels have been ordered


Fit: aov(formula = gain ~ race + dose, data = poids)

$race

diff lower upper p adj

2-3 0.023 -0.058 0.104 0.6040

1-3 0.097 0.015 0.178 0.0288

1-2 0.073 -0.008 0.155 0.0687

 Les gains de poids moyens des races 2 et 3 ne sont


significativement pas différents.
Analyse de la covariance

IV. Analyse de la covariance

1) Présentation
2) Modèle
3) Procédure d’analyse
4) Exemple d’application
Analyse de la Covariance
Présentation

Qu’est ce que l’analyse de la Covariance?

 Modèle linéaire : - Variables explicatives discrètes (Facteurs)


- Variables explicatives continues (Covariables)

« Mélange de l’analyse de la variance et de la régression »

 Apport de la covariable:

L’ajout d’une covariable dans un modèle d’Anova permet de réduire la


variabilité de l’erreur.
Analyse de la covariance

IV. Analyse de la covariance

1) Présentation
2) Modèle
3) Procédure d’analyse
4) Exemple d’application
Analyse de la Covariance
Modèle

Illustration Graphique : modèle avec 1 facteur à 2 modalités et 1 covariable


Réponse
Réponse

Modalité 1
Modalité 1
Modalité 2
Modalité 2

Covariable Covariable

yij ij
yij i ij

-> Les moyennes entre les deux modalités -> Les moyennes entre les deux modalités
ne sont pas significativement différentes. sont significativement différentes.
-> La covariable n’a pas d’effet significatif. -> La covariable n’a pas d’effet significatif.
ANOVA
Analyse de la Covariance
Modèle

Illustration Graphique : modèle avec 1 facteur à 2 modalités et 1 covariable


Réponse Réponse

Modalité 1 Modalité 1

Modalité 2 Modalité 2

Covariable Covariable

yij i xij ij
yij i x
i ij ij

-> La covariable a un effet significatif, -> La covariable a un effet significatif, et


mais n’influe pas différemment selon le influe différemment selon le niveau.
niveau.
ANCOVA
Analyse de la covariance

IV. Analyse de la covariance

1) Présentation
2) Modèle
3) Procédure d’analyse
4) Exemple d’application
Analyse de la Covariance
Procédure d’analyse
yij i i xij ij
Hypothèse: Les pentes sont
TOUTES nulles

On refuse l’hypothèse On accepte l’hypothèse

yij i x
i ij ij yij i ij
Hypothèse: Les pentes sont On se trouve dans le cas de
toutes égales l’ANOVA

On refuse l’hypothèse On accepte l’hypothèse

yij i x
i ij ij yij i xij ij
Pour comparer les moyennes Hypothèse: Les ordonnées à
des modalités, il faut fixer l’origine sont toutes égales
plusieurs valeurs de x
Analyse de la Covariance
Procédure d’analyse

yij i xij ij
Hypothèse: Les ordonnées à
l’origine sont toutes égales

On refuse l’hypothèse On accepte l’hypothèse

yij i xij ij yij xij ij


Faire des tests de comparaisons On se trouve dans le cas d’une
multiples pour savoir quelles régression linéaire simple
moyennes diffèrent

Conditions à vérifier :
Ce sont les mêmes que pour l’ANOVA (normalité des résidus, homoscédasticité,
indépendance des donnés) et la linéarité du modèle.
Analyse de la Covariance
Procédure d’analyse

Modèle 1: yij i x
i ij ij
Modèle 2: yij i xij ij
Modèle 3: yij i ij

 1ère hypothèse à tester sur la covariable:

H0 : 1 2 ... k 0
H1 : au moins des i est différent de 0

 Statistique de test:

SCmodèle 3 SCmodèle 1 k
: F(k,n 2k) sous H 0
SCmodèle 1 n 2k
retourDiapositive 68
Analyse de la Covariance
Procédure d’analyse

Modèle 1: yij i x
i ij ij
Modèle 2: yij i xij ij
Modèle 3: yij i ij

 2ème hypothèse à tester sur la covariable:

H0 : 1 2 ... k

H 1 : au moins des i est différent des autres

 Statistique de test:

SCmodèle 2 SCmodèle 1 k 1
: F(k 1,n 2k) sous H 0
SCmodèle 1 n 2k
retour
Analyse de la Covariance
Procédure d’analyse

Modèle 1: yij i x
i ij ij
Modèle 2: yij i xij ij
Modèle 3: yij i ij

 Hypothèse à tester sur les modalités:

H0 : 1 2 ... k (où x 0)
H1 : au moins des i est différent des autres (où x 0)

 La statistique de test est identique à celle de l’ANOVA.

retour
Analyse de la Covariance

IV. Analyse de la covariance

1) Présentation
2) Modèle
3) Procédure d’analyse
4) Exemple d’application
Analyse de la Covariance
Exemple d’application

But: Comparer le gain de poids moyen quotidien de bœufs nourris pendant 160 jours
selon deux régimes différents. Deux groupes de 8 bœufs sont constitués (Régime = 1 et
Régime = 2), et on mesure le poids initial des bêtes (variable poids_ini) en plus de leur
gain moyen (variable poids_gain).

Régime Poids_gain Poids_ini


1 1.03 338
1 1.31 403
1 1.59 394
… … …
2 1.82 444
2 2.13 450
2 2.33 482
… … …
Analyse de la Covariance
Exemple d’application

On teste si la covariable a une influence:

poids _ gainij régimei poids _ inii xij ij poids _ gainij régimei ij


Analyse de la Covariance
Exemple d’application

> lm1 = lm (poids_gain ~ regime)


> lm2 = lm (poids_gain ~ regime + poids_ini +regime:poids_ini)
> anova(lm1,lm2)

Analysis of Variance Table


Model 1: poids_gain ~ regime
Model 2: poids_gain ~ regime + poids_ini + regime:poids_ini
Res Df RSS Def Sum of F value Pr(>F)
Sq
1 14 5.10
2 12 1.29 2 3.81 17.66 0.000265

Ici la p-value < 0,05 donc on décide H1


→ Ainsi le poids initial (la covariable) une influence significative sur le gain
de poids.
Analyse de la Covariance
Exemple d’application

On teste si les pentes sont toutes égales :

poids _ gainij régimei poids _ inii xij ij


poids _ gainij régimei poids _ini xij ij
Analyse de la Covariance
Exemple d’application

> lm3 = lm (poids_gain ~ regime+ poids_ini)


> lm2 = lm (poids_gain ~ regime + poids_ini + regime:poids_ini)
> anova(lm3,lm2)

Analysis of Variance Table


Model 1: poids_gain ~ regime + poids_ini
Model 2: poids_gain ~ regime + poids_ini + regime:poids_ini
Res Df RSS Def Sum of F value Pr(>F)
Sq
1 13 1.31
2 12 1.29 1 0.02 0.18 0.67

Ici la p-value > 0,05 donc on décide H0


→ Ainsi le poids initial (la covariable) a le même effet quelque soit le régime
(les pentes sont les mêmes).
Analyse de la Covariance
Exemple d’application

On teste si les ordonnées à l’origine sont toutes égales :

poids _ gainij régime poids _ ini xij ij poids _ gainij régimei poids _ini xij ij
Analyse de la Covariance
Exemple d’application

> lm3 = lm (poids_gain ~ regime+ poids_ini)


> lm4 = lm (poids_gain ~ poids_ini)
> anova(lm4,lm3)

Analysis of Variance Table


Model 1: poids_gain ~ regime
Model 2: poids_gain ~ regime+ poids_ini
Res Df RSS Def Sum of F value Pr(>F)
Sq
1 14 5.10
2 13 1.31 1 3.79 37.49 3.643e-05

Ici la p-value < 0,05 donc on décide H1


→ Ainsi les régimes ont des effets significativement différents. On retient le
modèle final: poids _ gain régime poids _ini x
ij i ij ij
Analyse de la variance
Problèmes spécifiques

V. Problèmes spécifiques

1) Hypothèses non vérifiées


2) Modèles à plus de deux facteurs
3) Effets aléatoires
Analyse de la variance
Problèmes spécifiques

Et si les hypothèses ne sont pas vérifiées?

 Transformation de la variable Y
Par exemple : log, puissance

 Test non paramétrique


Par exemple: Kruskal-Wallis

! Attention aux valeurs extrêmes ou aberrantes qui peuvent


fausser les tests.
Analyse de la variance
Problèmes spécifiques

V. Problèmes spécifiques

1) Hypothèses non vérifiées


2) Modèles à plus de deux facteurs
3) Effets aléatoires
Analyse de la variance
Problèmes spécifiques

 Pas de problèmes théoriques

 Multiplication des indices et explosion du nombre d’interactions


beaucoup d’expérimentations nécessaires (si plan complet)

 Modèles moins ambitieux : hypothèses sur l’absence d’interactions


d’ordres élevés.

 On parle de plans fractionnaires.


Analyse de la variance
Problèmes spécifiques

V. Problèmes spécifiques

1) Hypothèses non vérifiées


2) Modèles à plus de deux facteurs
3) Effets aléatoires
Analyse de la variance
Problèmes spécifiques

 Effets fixes : Traitements déterminés par l’expérimentateur

Modèle : Yij i ij

 Effets aléatoires : Pas sous le contrôle de l’expérimentateur

Modèle : Yij i ij avec i ~ N (0, 2


)

 Différences :
- Formulation du modèle
- Effets que l’on peut « généraliser » à la population
apparente