Académique Documents
Professionnel Documents
Culture Documents
Mouchiroud (10/03/2003)
......................................................................................................................................................................................................
Chapitre 9
Analyse de variance
Sommaire
1. Introduction…………………………………………………………………………………..…2
2. Conditions d’application……….……………………………………………..…….…...2
2.1. Structure des données……………………………………………………………………….…….3
-1-
Mathématiques : Outils pour la Biologie – Deug SV – UCBL D. Mouchiroud (10/03/2003)
......................................................................................................................................................................................................
1 Introduction
Dans le cadre des tests d’hypothèses, nous avons émis des hypothèses concernant la
moyenne d’une population (test de conformité) puis comparé les moyennes de deux
populations (test d’homogénéité). Ce chapitre a trait à la comparaison des moyennes de
plusieurs populations (> 2). L’analyse de variance peut être vue comme une comparaison
multiple de moyennes. Dans tous les cas, la variable étudiée est un caractère quantitatif de
type continu qui suit une loi normale.
Il existe différentes types d’analyse de variance qui se distinguent par le nombre de facteurs
étudiés (un facteur, deux facteurs, deux facteurs avec répétitions, etc), la nature du facteur
(caractère qualitatif ou quantitatif) et la nature des modalités associées au facteur (modèle
fixe, modèle aléatoire, modèle mixte).
Nous ne traiterons que le cas de l’analyse de variance à un facteur contrôlé (modèle fixe)
et ceci pour deux types de données. Dans ce cas les conclusions ne s’appliquent qu’aux p
modalités étudiées.
Exemple : On étudie l’effet de différentes types d’alimentation (Paille, Foin, Herbe, Aliment
ensilé) sur le rendement des vaches laitières.
♦ Les modalités du facteur correspondent à différentes valeurs prises par une variable
aléatoire dont les valeurs sont fixées par l’expérimentateur. L’analyse de variance à un
facteur peut également permettre d’étudier la relation, pas forcément linéaire, entre deux
variables quantitatives. C’est le test de linéarité.
Exemple : On étudie l’effet de différentes doses d’engrais (20, 30, 40, 50) sur le rendement
du blé. Pour chaque dose d’engrais expérimentée, le rendement est étudié sur un échantillon
de parcelles donné.
2 Conditions d’application
L’analyse de variance à un facteur contrôlé ou ANOVA1 a pour objectif de tester l’effet d’un
facteur A sur une variable aléatoire continue. Ceci revient à comparer les moyennes de
plusieurs populations normales et de même variance à partir d’échantillons aléatoires et
indépendants les uns des autres. Chaque échantillon est soumis ou correspond à une modalité
du facteur A. Le terme ANOVA indique que la comparaison multiple de moyennes
correspond en faite à la comparaison de deux variances.
-2-
Mathématiques : Outils pour la Biologie – Deug SV – UCBL D. Mouchiroud (10/03/2003)
......................................................................................................................................................................................................
Les données relatives à une analyse de variance à un facteur contrôlé sont structurées dans un
tableau du type suivant :
Facteur A
modalité 1 modalité i modalité p
y11 y i1 yp1
. . .
y1j yij ypj
. . .
y1n1 . .
. ypnp
yini
y1 yi yp
Notation :
Le facteur contrôlé A présente p modalités (1 ≤ i ≤ p). On parle aussi de niveaux ou
traitements.
Le nombre de répétitions j pour une modalité i est noté ni. Le nombre de répétitions pour
chaque modalité du facteur n’est pas forcément le même.
La valeur prise par la variable aléatoire Y pour la modalité i du facteur et la répétition j
est notée yij et les valeurs moyennes pour chaque modalité notée yi .
Exemple :
International National Régional "Récréational"
24,8 45,6 33,4 31,1
26,7 41,1 34,6 35,7
27,5 34,3 36,4 37,3
30,6 37,6 39,1 39,4
32,4 39,5 43,8 40,4
38,2 47,9 44,5
40,5 49,9 45,4
42,9 51,2 49,8
50,1
-3-
Mathématiques : Outils pour la Biologie – Deug SV – UCBL D. Mouchiroud (10/03/2003)
......................................................................................................................................................................................................
Les hypothèses relatives au modèle d’analyse de variances sont nombreuses. L’analyse des
résidus eij, (yij - yi ) est particulièrement utile pour répondre aux hypothèses de normalité et
d’homoscédasticité. Mais dans le cadre d’un modèle à effet fixe, il est équivalent de tester ces
hypothèses sur la variable yij.
2.2.1 Indépendance
L’indépendance entre les différentes valeurs de la variable mesurée yij est une condition
essentielle à la réalisation de l’analyse de variance.
2.2.2 Normalité
La variable quantitative étudiée suit une loi normale dans les p populations comparées.
La variable aléatoire étudiée Y dont yij est une représentation, suit une loi normale
N(µi,σ) sous H1.
La normalité de la variable pourra être testée à l’aide d’un test de Khi-deux d’ajustement si
les effectifs sont suffisamment importants. Sinon le test non paramétrique de Lilliefors
permet de tester l’ajustement à loi normale lorsque les effectifs sont faibles.
On peut en fait se limiter à vérifier si la distribution des valeurs eij ou yij est unimodale.
Remarque : Si la normalité de la variable n’est pas vérifiée, soit on peut transformer cette
dernière, soit avoir recours à l’équivalent non paramétrique de l’ANOVA, le test de
Kruskall-Wallis.
2.2.3 Homoscédasticité
-4-
Mathématiques : Outils pour la Biologie – Deug SV – UCBL D. Mouchiroud (10/03/2003)
......................................................................................................................................................................................................
Différents tests permettent de vérifier l’égalité des variances relatives aux p populations
comparées H0 : σ 12 = σ 22 = ..... = σ i2 = ..... = σ p2 = σ 2 .
Remarque : Si l’hétérogénétié entre variances est très importantes, on peut avoir recours aux
statistiques non paramétriques, test de Kruskal-Wallis.
2.2.4 Robustesse
De nombreux travaux ont étudié la robustesse de l’ANOVA1 vis à vis des écarts aux
hypothèses faites.
-5-
Mathématiques : Outils pour la Biologie – Deug SV – UCBL D. Mouchiroud (10/03/2003)
......................................................................................................................................................................................................
L’analyse de variance à un facteur teste l’effet d’un facteur contrôlé A ayant p modalités sur
les moyennes d’une variable quantitative Y.
Les résidus eij correspondent aux fluctuations expérimentales pour chaque valeur de la
variable yij mesurée.
Sous l’hypothèse eij → N(0, σ) , on montre que yij → N(µ, σ)
E(yij) = E(µ+eij ) = E(µ) + E(eij ) = µ + E(eij ) = µ puisque E(eij ) = 0
V(yij) = V(µ+eij ) = V(µ) + V(eij ) = 0 + σ2 = σ2 puisque V(eij ) = σ2
Ainsi il existe une différence entre les moyennes de la variable selon les modalités du facteur
controlé.
Remarque : Tester l’hypothèse nulle « absence d’effet sur facteur A » revient à tester
H0 : les ai sont tous nuls.
-6-
Mathématiques : Outils pour la Biologie – Deug SV – UCBL D. Mouchiroud (10/03/2003)
......................................................................................................................................................................................................
L’ensemble des données du tableau peuvent être estimées à partir de la moyenne totale des yij
à laquelle s’ajoute la part d’aléatoire dans les mesures, eij .
d’où aˆi = yi − y
et eˆij = yij − µˆ − aˆi = yij − y − yi + y = yij − yi
ainsi eˆij = yij − yi
(y − y ) = ( yi − y ) + ( yij − yi ) + 2 ( yi − y ) ( yij − yi )
2 2 2
avec les écarts au carré ij
∑( y ij − y ) = ni ( yi − y ) + ∑ ( yij − yi ) + 2 ( yi − y ) ∑ ( yij − yi )
2 2 2
j =1 j =1 j =1
ni
or 2 ( yi − y ) ∑ ( yij − yi ) = 0
j =1
ni
car ∑( y
j =1
ij − yi ) = 0 sachant que E(eij) = 0 si les hypothèses initiales sont vérifiées.
∑∑ ( yij − y ) = ∑ ni ( yi − y ) + ∑∑ ( yij − yi )
2 2 2
i =1 j =1 i =1 i =1 j =1
∑∑ ( y ij − y ) = ∑ ni ( yi − y ) + ∑∑ ( yij − yi )
2 2 2
i =1 j =1 i =1 i =1 j =1
-7-
Mathématiques : Outils pour la Biologie – Deug SV – UCBL D. Mouchiroud (10/03/2003)
......................................................................................................................................................................................................
Notation :
SCEtotale = somme des écarts totaux ou variation totale = N s y2
SCEinter = somme des écarts liés aux effets du facteur A ou variation inter (entre modalités)
SCEintra = somme des écarts résiduelles ou variation intra (interne à chaque modalité)
Le rapport de corrélation donne la part de la variabilité totale des données expliquée par
l’effet du facteur A :
SCEint er
η2 =
SCEtotale
C’est un indice de liaison, pas nécessairement linéaire entre les variables étudiées qui varie
entre 0 et 1. Il mesure la qualité de l’ajustement des effets du facteur au travers des
moyennes.
-8-
Mathématiques : Outils pour la Biologie – Deug SV – UCBL D. Mouchiroud (10/03/2003)
......................................................................................................................................................................................................
∑∑ ( y ij − y ) = ∑ ni ( yi − y ) + ∑∑ ( yij − yi )
2 2 2
i =1 j =1 i =1 i =1 j =1
SCEint er
Variance due au facteur A (CMinter) : estimateur de σ2 si H0 vraie
p −1
SCEint ra
Variance résiduelle (CMintra ) : estimateur de σ2 quelque soit le modèle
N−p
-9-
Mathématiques : Outils pour la Biologie – Deug SV – UCBL D. Mouchiroud (10/03/2003)
......................................................................................................................................................................................................
SCEint er N−p
et donc le rapport × est très supérieur à 1
p −1 SCEint ra
• si Fobs > Fseuil l’hypothèse H0 est rejetée au risque d’erreur α : le facteur controlé A
a un effet significatif en moyenne sur les valeurs de la variable étudiée.
• si Fobs ≤ Fseuil l’hypothèse H0 est acceptée: le facteur controlé A n’a pas d’effet
significatif en moyenne sur les valeurs de la variable étudiée.
Remarque : Le rejet de l’égalité des moyennes ne permet pas de savoir quelles sont les
moyennes significativement différentes. Pour cela, la méthode des contrastes ou méthode de
Scheffé associée à l’analyse de variance permet de répondre à cette question.
Le tableau de variation donne un résumé des calculs effectués pour l’analyse de variance.
Pour effectuer les calculs, des formules développées peuvent être utilisées.
ni ni ni
p p
T2 p p
p p
Ti 2 T 2 ni
∑ ni ( yi − y ) = ∑ avec Ti = ∑ yij
2
SCEinter = −
i =1 i =1 ni N j =1
- 10 -
Mathématiques : Outils pour la Biologie – Deug SV – UCBL D. Mouchiroud (10/03/2003)
......................................................................................................................................................................................................
ni ni
p p p
Ti 2
∑∑ ( yij − yi ) = ∑∑ yij2 − ∑
2
SCEintra = ou SCEintra = SCETOT - SCEinter
i =1 j =1 i =1 j =1 i =1 ni
Exemple :
L’anxiété des sportifs au moment de la compétition diffère-t-elle en
fonction du niveau de compétition ? (Tableau de variation)
- 11 -