Vous êtes sur la page 1sur 13

ANOVA (Lic P/Stat L3) 2024

Introduction à l’Analyse de la variance à un critère de classification


(Ou expérience comportant 1 seul facteur contrôlé)

I/ Fondement :
Supposons que l‟on veuille comparer les effets de p « traitements » sur un certain nombre d‟unités
expérimentales ; nos observations vont être les réactions de chaque unité expérimentale au traitement lui
étant appliqué. Les réactions seront donc les valeurs observées (observations) de notre expérimentation.
L‟exemple type est celui de l‟agriculture : un champ de blé est divisé en n sections où sont testés différents
engrais au nombre de p ; ici, les unités expérimentales (u.e) sont les différentes sections, les traitements sont
les différents engrais, et les observations sont les productions de chaque section. Les u.e sont assignées
(affectées) aléatoirement aux traitements. Le traitement i étant répété ni fois de manière indépendante. Le but
de cette affectation aléatoire est de se prémunir de toute sorte de biais (que l‟on ne suspecte pas, … voir
exemple). Ainsi les p traitements, appliqués sur n1 ,n2 ,…,np parcelles respectivement, donnent un effectif
total de ∑ observations.
Ainsi, l‟ANOVA à un facteur contrôlé (ici l‟engrais) admettent p variantes, a pour objectif de comparer les
moyennes (inconnues) m1 ,m2 ,…,mp de p populations correspondant à ces variantes. Nous supposerons que
les pop‟ns sont normales (gaussiennes) et ont même variances et que nous avons des échantillons
aléatoires et indépendants, d‟effectifs n1 ,n2 ,…,np prélevés respectivement dans ces p pop‟ns (un
échantillon sera l‟ensemble des observations dues à un même traitement).
L‟ANOVA permet à travers son test d‟établir si la variation entre les moyennes des échantillons est
significativement (ou non) grande par rapport à la variation des moyennes dans les échantillons.

II/ Modèle :

Les conditions du chapitre précédent sont équivalentes à 2 paramétrisations possibles :


Paramétrisation 1 : {
{ }
On se propose de tester l‟hypothèse H :

Paramétrisation2 : {
{ }
On se propose de tester l‟hypothèse H :

Notations :

réponse (réaction) au traitement i.


moyenne générale (réelle, inconnue) (de la population soumise à aucun traitement)
écart factoriel entre la moyenne de la ième population (soumise au traitement i) et la moyenne
générale.
variations expérimentales, appelées erreurs ou écarts résiduels.
∑ total de l‟échantillon pour le traitement i.
̅ ∑ moyenne de l‟échantillon pour le traitement i.

M.Yahi Page 1 sur 13


ANOVA (Lic P/Stat L3) 2024
Estimation des paramètres

MC minimisation de ∑ ∑ ∑ ∑

∑ ∑
̂ ̂ ̂ ̂
Et pour tous les donnent

On obtient ainsi le système :

∑ ∑

.. (k+1) équations pour obtenir les valeurs de ̂ ̂ ̂ ̂ .


.

Nous avons ainsi (k+1) équations pour (k+1) inconnues. Toutefois, ces équations ne sont pas toutes
indépendantes : la 1ère n‟est que la somme des k dernières. Elles ne peuvent donner une solution unique.

Le modèle comme présenté plus haut est donc « surparamétrisé » dans le sens où l‟on ne dispose pas d‟assez
d‟information pour estimer tous les paramètres.
D‟où le besoin d‟une sorte de contrainte sur les paramètres.
Considérons la manière dont nous avons spécifié le modèle, avec une composante représentant la moyenne
globale et d‟autres spécifiant les quantités mesurant les écarts avec lesquels les moyennes des traitements
différents de la moyenne totale, il est tout à fait censé (quoiqu‟arbitraire) de prendre ∑ (2)

III/ Construction du test

1/ Eclatement de la variance totale :

On prendra comme hypothèse nulle : l‟absence de différence entre les moyennes des populations, i.e:

A noter qu‟avec notre condition supplémentaire (2), ∑ , ceci revient à dire que

Comment peut-on tester ceci ?

Considérons pour i quelconque :


∑ ( ̅) ∑ { ̅ ̅ ̅ }

∑ ( ̅) ∑ ̅ ̅ ∑ ( ̅) ̅ ̅

Or ∑ ̅ ̅ ̅ ̅

M.Yahi Page 2 sur 13


ANOVA (Lic P/Stat L3) 2024
Et ∑ ̅ ̅ ̅
est une somme de double produit qui est nulle en vertu de la propriété de
nullité des moments centrés d‟ordre 1.

En effet : ∑ ̅ ̅ ̅ ̅ ̅ ,∑ ̅-
̅ ∑

Donc ∑ ̅ ∑ ̅ ̅ ̅

et, en sommant sur tous les „‟i‟‟ :

𝒌 𝒏𝒊 𝒌 𝒏𝒊 𝒌

𝒀𝒊𝒋 ̅
𝒀 𝟐
𝒀𝒊𝒋 ̅𝒊
𝒀 𝟐 ̅𝒊
𝒏𝒊 𝒀 ̅
𝒀 𝟐 (3)
𝒊 𝟏𝒋 𝟏 𝒊 𝟏𝒋 𝟏 𝒊 𝟏

Jusqu‟ici, ceci n‟est que transformation calculatoire. Mais nous pouvons interpréter les trois termes de
cette équation à la lumière de la signification statistique de notre modélisation.

Ce sont respectivement :

La somme des carrés des La somme des carrés La somme (pondérée)


écarts (des observations) des déviations (des des carrés des écarts
par rapport à la moyenne observations) de la factoriels (écarts entre
générale observée. moyenne de leur les moyennes des
échantillon échantillons et la
moyenne générale)

Ce terme mesure la variation Ce terme mesure « la proximité »


à l’intérieur des échantillons des moyennes des échantillons

On le définit comme étant : On le définit comme étant :

SOMME TOTALE DES SOMME DES CARRES SOMME DES CARRES


CARRES DES ECARTS DANS LES ENTRE
ECHANTILLONS ECHANTILLONS

On le note W (within samples On le note B (Between samples


Sum of squares) sum of squares)
Aussi appelé :
-Terme résiduel
- Erreur résiduelle
- Somme des carrés résiduels.

M.Yahi Page 3 sur 13


ANOVA (Lic P/Stat L3) 2024

Ainsi, si nous écrivons notre équation (3), sous la forme

T=W+B (4)

Ce que nous voulons maintenant, c‟est établir si B est „‟assez grand‟‟ par rapport à W.

2/ Distributions (lois de T,W et B) :

a/Considérons en premier lieu W :

La variance empirique de l‟échantillon „‟i‟‟ est donnée par ∑ ̅ . Cette variance (toujours
sous les mêmes hypothèses de normalité et de variance constante pour nos observations yij ) sera
distribuée selon la loi :

(et ceci est valable ).

Grâce aux propriétés du khi-deux, nous avons donc :

d‟une part ∑ ̅

ainsi,

ou, encore,
𝑾 𝝈𝟐
𝝌𝟐
𝑵 𝒌 𝑵 𝒌 𝑵 𝒌
(5)

b/ Considérons ∑ ∑ ̅ , et supposons que H soit vraie.

On peut considérer alors ∑ ∑ ̅ comme la variance de l’échantillon de toutes les


observations puis en tant qu‟échantillon unique, et ainsi, (toujours sous les mêmes hypothèses de normalité
et de même variance constante ), cette quantité aura comme loi :

, i.e,
𝑻 𝝈𝟐
𝝌𝟐 𝒔𝒊 𝑯 𝒆𝒔𝒕 𝒗𝒓𝒂𝒊𝒆 (6)
𝑵 𝟏 𝑵 𝟏 𝑵 𝟏

c/ La loi de B ne peut être trouvée par une méthode aussi simple que pour W et T.En fait, une
démonstration rigoureuse dépasserait l‟ambition de nos propos, ainsi nous nous contenterons d‟approches
informelles (voir paragraphe IV).

M.Yahi Page 4 sur 13


ANOVA (Lic P/Stat L3) 2024
Le résultat est que :

si H est vraie,

ou encore,
𝑩 𝝈𝟐
𝝌𝟐𝒌 𝟏 𝒔𝒊 𝑯 𝒆𝒔𝒕 𝒗𝒓𝒂𝒊𝒆
𝒌 𝟏 𝒌 𝟏 (7)

d/ On peut montrer que B et W sont statistiquement indépendants. Nous le supposons dans ce qui suit.

3/ Ebauche du test :

Le but de notre propos nous l‟avons déjà dit, est de comparer B et W que l‟on supposera indépendants.

Si H est vraie, on a :
𝑩 𝝌𝟐𝒌 𝟏
𝝈𝟐 (8)
𝒌 𝟏 𝒌 𝟏
𝑾 𝟐 𝑭𝒌 𝟏𝑵 𝒌
𝝌
𝑵 𝒌 𝝈𝟐 𝑵𝑵 𝒌𝒌

Mais que dire si H n’est pas vraie ?

Il est plus facile de répondre à cette interrogation à travers le comportement des espérances.

On voit que * + , (en utilisant le fait que ), et ceci que H soit vraie ou
non.

Autre démonstration :

La variance de l‟échantillon „‟i‟‟ (voir plus haut) est un estimateur sans biais de (voir rappels).

 * ∑ ̅ +
 *∑ ( ̅) + et *∑ ∑ ( ̅) +

Ainsi, * + .

De même, si H est vraie,

[ ] [ ]

Mais, si H n‟est pas vraie, il parait assez intuitivement clair (voir démonstration paragraphe IV) que B aura
tendance à être « gonflé » pour les différences entre les moyennes des populations et on aura * +

M.Yahi Page 5 sur 13


ANOVA (Lic P/Stat L3) 2024

Par exemple :

H VRAIE H FAUSSE

Echantillons 1 2 3 Echantillons 1 2 3 4

2.0 2.1 2.5 1 10 21 39


Observations
Observations 4.0 3.9 4.0 3 12 22 37

6.0 5.9 5.6 8 14 23 38

Total 12 11.9 12.1 Total 12 36 66 114

̅ 4.000 3.967 4.025 ̅ 4 12 22 38

∑ ̅ ̅
pour
∑ ̅ ̅

Ainsi, tout ce que nous avons à faire pour voir si l‟on peut raisonnablement accepter H, est de voir si

n’est pas plus grand (raisonnablement) qu‟une observation provenant d‟un .

4/ Table de l’ANOVA et formulaires de calculs

La nomenclature suivante est d‟usage commun :

T= Somme totale des carrés- Total sum of squares (ou « corrected total»)

W= Somme des carrés dans les échantillons – within samples sum of squares.
Somme des carrés résiduels ou residual sum of squares.

B= Somme des carrés entre échantillons -- Between samples sum of squares

Carré moyen (ou variance) entre échantillons


Between samples mean square

Carré moyen résiduel


Within samples mean square – Residual mean square

M.Yahi Page 6 sur 13


ANOVA (Lic P/Stat L3) 2024

Ainsi, le “carré moyen” peut être défini comme étant „’la somme des carrés‟‟ divisée par le nombre de
degrés de liberté du associé à cette somme.

On résume tous les résultats en dressant ce que l‟on appelle une table de l’analyse de variance (ANOVA
table).

Forme quadratique Degrés de Rapport


Source de variation Carrés moyens
(Somme des carrés) liberté

Entre échantillons ̅ ̅

Dans les
échantillons ̅
Variabilité
résiduelle
Total
̅

Si le rapport des carrés moyens est trop grand pour être une observation provenant d‟un ,
alors on rejette H.

Remarque 1 :le carré moyen résiduel est un estimateur sans biais de , quelque soient les hypothèses
faites sur les .
D‟ailleurs, est souvent noté .

Remarque 2: ∑ ∑ ̅ ∑ ∑ ( ) est une forme quadratique en


chacun des .

Formules de calcul :

En général (surtout pour le calcul à la main !), on utilise :


T= somme des carrés totale = ∑ ∑ (*)

W s‟obtient par la soustraction

La quantité est appelée Facteur de correction („‟correction for the mean‟‟) ou C.F.

Règle d’or de l’ANOVA :

„‟ Quand un total est élevé au carré, il doit être divisé par le nombre d‟observations dont il est la somme „‟

(*)T= ∑ ∑ ̅ ̅ =∑ ∑ ̅̅̅ ̅̅̅ = ∑ ∑


T= ∑ ∑ (Forme plus agréable que l‟initiale).

M.Yahi Page 7 sur 13


ANOVA (Lic P/Stat L3) 2024
De plus amples investigations (eg. Test de normalité, test d‟indépendance des observations) sont basées sur
les „‟résidus„‟ ̅ . Il est donc très utile de les avoir disponibles.
Si l‟un des résidus est exceptionnellement grand (en valeur absolue), comparé aux autres, ceci suggèrera très
fortement que les observations correspondantes sont erronées.
Pour de plus profonds travaux théoriques, on notera que T est une forme quadratique que nous avons divisée
en deux „‟plus petites‟‟ formes quadratiques orthogonales. Les rangs de ces formes quadratiques sont les
nombres de degrés de liberté associés aux différentes distributions du sous-jacentes.

5/ Exemple numérique : (données fictives)


Cinq (5) qualités différentes de caoutchouc sont testées pour leur dureté- Quatre traitements sont utilisés ; on
obtient 20 „‟mesures „‟.

Traitement
A B C D
2 3 6 5 Y a-t-il évidence de différences entre les effets des
3 4 8 5 traitements ?
Augmentation de
1 3 7 5
la dureté
3 5 4 3
1 0 10 2

Traitement A B C D

10 15 35 20
̅
̅ 2 3 7 4
∑ ∑ ;

ANOVA :

Somme de
S.C d.d.l C.M Rapport F tabulé
variation

Entre échantillons 70 3 23.33 à 5% : 3.24

Résiduelle 46 16 2.88 F observé à 1% : 5.29

Totale 116 19

F observé est plus grand que F tabulé. L‟hypothèse nulle qui consistait à dire «Il n’y avait pas de
différence significative entre les moyennes des différents échantillons mesurés » est donc à rejeter.

Autrement dit, il existe une différence significative entre les moyennes, c'est-à-dire que les différences
observées sont imputables à des effets autres que le hasard.

M.Yahi Page 8 sur 13


ANOVA (Lic P/Stat L3) 2024
IV/ Compléments : loi de B, E(B), test de poursuite.

1) Quelques rappels
Soient Z1 , Z 2 , ... , Z n , n observations indépendantes d‟une distribution de moyenne  et de variance  2 .
1
 est estimé par Z   Z i , et  2 par S 2 
n
1
n 1

2
 
Z i  Z et on a les propriétés suivantes :

2
P1 : E (Z )   et Var ( Z ) 
n
P2 : Si les Z i sont des variables distribuées selon une loi N (  , 2 ) , alors,
 2  2 2
Z N   ,  et S 2  n1
 n  n 1
(en utilisant le théorème central limite, ces 2 résultats restent approximativement valables, pour n assez
grand, même si les Z i ne sont pas des variables normales)
n 1 2
P3 : Si les Z i sont des variables distribuées selon une loi N (  , 2 ) , alors Z et S sont indépendantes.
n

2) Quelques approches informelles à la distribution de B si H 0 est vraie


a) ∑ ̅ ̅

Comme avec et , si on suppose que B et W sont


statistiquement indépendants, alors grâce à la propriété additive du , nous avons immédiatement
, i.e. .

(Remarque : B étant essentiellement composé de moyennes d‟échantillons, W de variances d‟échantillons,


l‟indépendance de B et de W est équivalente à celle de ̅ et de dans un échantillon simple.)

b) ∑ ̅ ∑ ̅ ̅ ̅ =0
∑ ̅ ̅ ∑ ̅ ∑ ̅ ̅ ̅

Soit ∑ ̅ . On a ̅ ( ) , où ̅ est la moyenne d‟un échantillon de taille ni


(rappelons que sous H 0 , )

Donc
Y i. 
 m ni
et

ni Yi.  m 2

 2
̅
et, en sommant sur les k échantillons indépendants, on aura ∑

̅ ∑
En remarquant que ̅ ( ) ,

Ainsi, ∑ ̅ ∑ ̅ ̅ ∑ ̅

A = B + C

Si on suppose que B et C sont indépendants (équivalent à supposer l‟indépendance de ̅ et de , pour un


échantillon simple), on doit avoir, d‟après la propriété additive du  2 , (B)  2  k21

Ainsi :
𝒌

𝑩 ̅𝒊 𝒀
𝒏𝒊 𝒀 ̅ 𝟐 𝝈𝟐 𝝌𝟐𝒌 𝟏
M.Yahi Page 9 sur 13
𝒊 𝟏
ANOVA (Lic P/Stat L3) 2024
c) Si , ce qui est souvent le cas, il n‟y a aucune difficulté.

En effet, si on considère ∑ ̅ ̅ , ceci est tout simplement la variance de l‟échantillon


̅ ̅ ̅ .
Chaque ̅ ayant comme variance , la quantité sus-citée a comme distribution

Or ∑ ̅ ̅ , ∑ ̅ ̅ -

et, donc,
𝑩 𝝈𝟐 𝝌𝟐𝒌 𝟏

3) Calcul de E(B)
Rappel:

Modèle: avec {

[ ̅ ̅ ]

2 méthodes :
a/ On a ̅ ̅ et donc, (comme pour toute v.a „‟Z „‟, ̅

̅ ̅ ̅ ̅

̅ ̅ ( ) ∑ ∑

Ces 2 termes sont indépendants car, pour i fixé, le second ne contient pas de

̅ ̅ ( ) ( ) ∑ ∑

( ) ( )

Donc ̅ ̅ ( ) et ̅ ̅ ( )
[ ̅ ̅ ] ( )

et [∑ ̅ ̅ ] ∑ ∑ ∑ ∑

𝑘
(9)
𝐸 𝐵 𝑘 𝜎 𝑛𝑖 𝜇𝑖
𝑖

M.Yahi Page 10 sur 13


ANOVA (Lic P/Stat L3) 2024

b/ On a = m+ +
̅ = m+ +̅ ∑ ̅ ̅ ∑ ̅ ̅
̅ = m+0+ ̅

On a ( )=0 = var ( ) [ ]
De même, ̅ =0 ⁄ = var ̅ [̅ ]

De même, ̅ =0 ⁄ = var ̅ [̅ ]

Ainsi, E[ ̅ ̅ ] = E[ ̅ ̅ ̅ ̅ ̅ ̅]
= ̅ ̅

Or, ̅ ̅ * +
* +

Donc ̅ ̅

et [∑ ̅ ̅ ] ∑ ∑ ∑

𝑘 𝑘

𝐸[ 𝑛𝑖 𝑌̅𝑖 𝑌̅ ] 𝑛𝑖 𝜇𝑖 𝑘 𝜎
𝑖 𝑖

Ainsi, si H 0 est vraie (i.e ) on a ; mais si l‟un au moins des est différent de
zéro, E(B) augmente (de ∑ )
3/ Test de poursuite (Follow up test)
Le test du rapport des carrés moyens décrit jusqu'ici, permet de tester s'il y a une différence globale entre les
moyennes. Pour voir si deux moyennes particulières sont les mêmes, on peut bien sûr utiliser
l'habituel t-test pour deux échantillons. (Voir document qui suit )
On a ̅ = ⁄ ; ̅ = ⁄ ; ̅ ̅ = ( )

/ Yi.  Yi' . /
Ainsi, si était connu, on aurait pu prendre comme statistique et la comparer à une N(0,1)
1 1
 
ni n j
Cependant, on a vu que le carré moyen résiduel était un estimateur sans biais de , indépendamment
de toute hypothèse sur les moyennes, et qu'il est distribué selon , il suffit donc d'utiliser la
/ Yi.  Yi' . /
statistique : , et la comparer à .
1 1
CMR 
ni n j

M.Yahi Page 11 sur 13


ANOVA (Lic P/Stat L3) 2024

Néanmoins la difficulté existe d'avoir un nombre élevé de paires de moyennes et l'on pourrait bien trouver
une paire (ou plus) donnant des résultats significatifs par pur hasard. Ainsi, par exemple, il pourrait être
dangereusement trompeur de tester ̅ ̅ de cette manière. (En fait d‟autres tests sont disponibles).
L‟utilisation des contrastes (voir exercice 6) peut être utile.

Exemple : Dans notre exemple numérique précédent, on avait rejeté H 0 . C‟est-à-dire, que parmi les 4
traitements, au moins 2 diffèrent significativement. On aimerait évidemment comparer C, qui a la plus
grande des moyennes, avec A, B, et D. Considérons par exemple la comparaison entre C et D.
Le test statistique est : , valeur que l‟on compare avec
√ √

5%

2.5%

1%

0.05%

2.92

2.58

2.12

1.75

Il y a donc évidence ici que la moyenne de C est réellement plus grande que celle de D.
Néanmoins, ceci n‟est peut-être pas très satisfaisant, et l‟on doit faire appel à une analyse plus détaillée (eg,
contrastes).

4) Méthode des Contrastes :

Elle permet d‟effectuer certaines comparaisons particulières fonction de deux ou plusieurs moyennes.
a) Pour un ensemble de p populations, on appelle contraste, toute fonction linéaire des moyennes de ces
p p p
populations,    ci mi ( ou c  i i ) telle que la somme des coefficients soit nulle : c i =0
i 1 i 1 i 1
p p
ci2 2
L‟estimation ˆ des M.C. de  est : ˆ = c Y i i. et Varˆ =  2  (Var Yi.  )
i 1 i 1 ni ni
(pour une ANOVA à p variantes)
2
ˆ    2  ci n
ˆ   " N (0,1)"
On a : = i
~ ≡ t n p .
c 2
S 2
 n2 p
S 
2 i
2
ni n p

M.Yahi Page 12 sur 13


ANOVA (Lic P/Stat L3) 2024
Pour tester  = 0, il suffit d‟examiner si
ˆ
> t lue ou encore si
c Yi i.
> S.tlue
2 2
S  c
i
ni  c i
ni

b) Contrastes Orthogonaux :

2 contrastes relatifs au même ensemble de moyenne


p p
   ci mi et  '   di mi sont dits orthogonaux lorsque  c .d
i i =0
i 1 i 1

Dans une ANOVA à un facteur contrôlé à p variantes, on peut construire (p-1) contrastes orthogonaux. On
démontre de plus, qu‟une somme des carrés relative à p moyennes (B =  ni (Yi.  Y.. ) 2 ) possédant donc

(p-1) degrés de liberté peut toujours être divisée en (p-1) composantes additives, correspondant à ces
(p-1) contrastes orthogonaux.

(Voir exercice 6 de la série 3)

M.Yahi Page 13 sur 13

Vous aimerez peut-être aussi