Académique Documents
Professionnel Documents
Culture Documents
I/ Fondement :
Supposons que l‟on veuille comparer les effets de p « traitements » sur un certain nombre d‟unités
expérimentales ; nos observations vont être les réactions de chaque unité expérimentale au traitement lui
étant appliqué. Les réactions seront donc les valeurs observées (observations) de notre expérimentation.
L‟exemple type est celui de l‟agriculture : un champ de blé est divisé en n sections où sont testés différents
engrais au nombre de p ; ici, les unités expérimentales (u.e) sont les différentes sections, les traitements sont
les différents engrais, et les observations sont les productions de chaque section. Les u.e sont assignées
(affectées) aléatoirement aux traitements. Le traitement i étant répété ni fois de manière indépendante. Le but
de cette affectation aléatoire est de se prémunir de toute sorte de biais (que l‟on ne suspecte pas, … voir
exemple). Ainsi les p traitements, appliqués sur n1 ,n2 ,…,np parcelles respectivement, donnent un effectif
total de ∑ observations.
Ainsi, l‟ANOVA à un facteur contrôlé (ici l‟engrais) admettent p variantes, a pour objectif de comparer les
moyennes (inconnues) m1 ,m2 ,…,mp de p populations correspondant à ces variantes. Nous supposerons que
les pop‟ns sont normales (gaussiennes) et ont même variances et que nous avons des échantillons
aléatoires et indépendants, d‟effectifs n1 ,n2 ,…,np prélevés respectivement dans ces p pop‟ns (un
échantillon sera l‟ensemble des observations dues à un même traitement).
L‟ANOVA permet à travers son test d‟établir si la variation entre les moyennes des échantillons est
significativement (ou non) grande par rapport à la variation des moyennes dans les échantillons.
II/ Modèle :
Paramétrisation2 : {
{ }
On se propose de tester l‟hypothèse H :
Notations :
MC minimisation de ∑ ∑ ∑ ∑
∑ ∑
̂ ̂ ̂ ̂
Et pour tous les donnent
∑
∑ ∑
Nous avons ainsi (k+1) équations pour (k+1) inconnues. Toutefois, ces équations ne sont pas toutes
indépendantes : la 1ère n‟est que la somme des k dernières. Elles ne peuvent donner une solution unique.
Le modèle comme présenté plus haut est donc « surparamétrisé » dans le sens où l‟on ne dispose pas d‟assez
d‟information pour estimer tous les paramètres.
D‟où le besoin d‟une sorte de contrainte sur les paramètres.
Considérons la manière dont nous avons spécifié le modèle, avec une composante représentant la moyenne
globale et d‟autres spécifiant les quantités mesurant les écarts avec lesquels les moyennes des traitements
différents de la moyenne totale, il est tout à fait censé (quoiqu‟arbitraire) de prendre ∑ (2)
On prendra comme hypothèse nulle : l‟absence de différence entre les moyennes des populations, i.e:
A noter qu‟avec notre condition supplémentaire (2), ∑ , ceci revient à dire que
∑ ( ̅) ∑ ̅ ̅ ∑ ( ̅) ̅ ̅
Or ∑ ̅ ̅ ̅ ̅
En effet : ∑ ̅ ̅ ̅ ̅ ̅ ,∑ ̅-
̅ ∑
Donc ∑ ̅ ∑ ̅ ̅ ̅
𝒌 𝒏𝒊 𝒌 𝒏𝒊 𝒌
𝒀𝒊𝒋 ̅
𝒀 𝟐
𝒀𝒊𝒋 ̅𝒊
𝒀 𝟐 ̅𝒊
𝒏𝒊 𝒀 ̅
𝒀 𝟐 (3)
𝒊 𝟏𝒋 𝟏 𝒊 𝟏𝒋 𝟏 𝒊 𝟏
Jusqu‟ici, ceci n‟est que transformation calculatoire. Mais nous pouvons interpréter les trois termes de
cette équation à la lumière de la signification statistique de notre modélisation.
Ce sont respectivement :
T=W+B (4)
Ce que nous voulons maintenant, c‟est établir si B est „‟assez grand‟‟ par rapport à W.
La variance empirique de l‟échantillon „‟i‟‟ est donnée par ∑ ̅ . Cette variance (toujours
sous les mêmes hypothèses de normalité et de variance constante pour nos observations yij ) sera
distribuée selon la loi :
d‟une part ∑ ̅
∑
ainsi,
ou, encore,
𝑾 𝝈𝟐
𝝌𝟐
𝑵 𝒌 𝑵 𝒌 𝑵 𝒌
(5)
, i.e,
𝑻 𝝈𝟐
𝝌𝟐 𝒔𝒊 𝑯 𝒆𝒔𝒕 𝒗𝒓𝒂𝒊𝒆 (6)
𝑵 𝟏 𝑵 𝟏 𝑵 𝟏
c/ La loi de B ne peut être trouvée par une méthode aussi simple que pour W et T.En fait, une
démonstration rigoureuse dépasserait l‟ambition de nos propos, ainsi nous nous contenterons d‟approches
informelles (voir paragraphe IV).
si H est vraie,
ou encore,
𝑩 𝝈𝟐
𝝌𝟐𝒌 𝟏 𝒔𝒊 𝑯 𝒆𝒔𝒕 𝒗𝒓𝒂𝒊𝒆
𝒌 𝟏 𝒌 𝟏 (7)
d/ On peut montrer que B et W sont statistiquement indépendants. Nous le supposons dans ce qui suit.
3/ Ebauche du test :
Le but de notre propos nous l‟avons déjà dit, est de comparer B et W que l‟on supposera indépendants.
Si H est vraie, on a :
𝑩 𝝌𝟐𝒌 𝟏
𝝈𝟐 (8)
𝒌 𝟏 𝒌 𝟏
𝑾 𝟐 𝑭𝒌 𝟏𝑵 𝒌
𝝌
𝑵 𝒌 𝝈𝟐 𝑵𝑵 𝒌𝒌
Il est plus facile de répondre à cette interrogation à travers le comportement des espérances.
On voit que * + , (en utilisant le fait que ), et ceci que H soit vraie ou
non.
Autre démonstration :
La variance de l‟échantillon „‟i‟‟ (voir plus haut) est un estimateur sans biais de (voir rappels).
* ∑ ̅ +
*∑ ( ̅) + et *∑ ∑ ( ̅) +
Ainsi, * + .
[ ] [ ]
Mais, si H n‟est pas vraie, il parait assez intuitivement clair (voir démonstration paragraphe IV) que B aura
tendance à être « gonflé » pour les différences entre les moyennes des populations et on aura * +
Par exemple :
H VRAIE H FAUSSE
Echantillons 1 2 3 Echantillons 1 2 3 4
∑ ̅ ̅
pour
∑ ̅ ̅
⁄
⁄
Ainsi, tout ce que nous avons à faire pour voir si l‟on peut raisonnablement accepter H, est de voir si
⁄
n’est pas plus grand (raisonnablement) qu‟une observation provenant d‟un .
⁄
T= Somme totale des carrés- Total sum of squares (ou « corrected total»)
W= Somme des carrés dans les échantillons – within samples sum of squares.
Somme des carrés résiduels ou residual sum of squares.
Ainsi, le “carré moyen” peut être défini comme étant „’la somme des carrés‟‟ divisée par le nombre de
degrés de liberté du associé à cette somme.
On résume tous les résultats en dressant ce que l‟on appelle une table de l’analyse de variance (ANOVA
table).
Entre échantillons ̅ ̅
Dans les
échantillons ̅
Variabilité
résiduelle
Total
̅
Si le rapport des carrés moyens est trop grand pour être une observation provenant d‟un ,
alors on rejette H.
Remarque 1 :le carré moyen résiduel est un estimateur sans biais de , quelque soient les hypothèses
faites sur les .
D‟ailleurs, est souvent noté .
Formules de calcul :
La quantité est appelée Facteur de correction („‟correction for the mean‟‟) ou C.F.
„‟ Quand un total est élevé au carré, il doit être divisé par le nombre d‟observations dont il est la somme „‟
Traitement
A B C D
2 3 6 5 Y a-t-il évidence de différences entre les effets des
3 4 8 5 traitements ?
Augmentation de
1 3 7 5
la dureté
3 5 4 3
1 0 10 2
Traitement A B C D
10 15 35 20
̅
̅ 2 3 7 4
∑ ∑ ;
ANOVA :
Somme de
S.C d.d.l C.M Rapport F tabulé
variation
Totale 116 19
F observé est plus grand que F tabulé. L‟hypothèse nulle qui consistait à dire «Il n’y avait pas de
différence significative entre les moyennes des différents échantillons mesurés » est donc à rejeter.
Autrement dit, il existe une différence significative entre les moyennes, c'est-à-dire que les différences
observées sont imputables à des effets autres que le hasard.
1) Quelques rappels
Soient Z1 , Z 2 , ... , Z n , n observations indépendantes d‟une distribution de moyenne et de variance 2 .
1
est estimé par Z Z i , et 2 par S 2
n
1
n 1
2
Z i Z et on a les propriétés suivantes :
2
P1 : E (Z ) et Var ( Z )
n
P2 : Si les Z i sont des variables distribuées selon une loi N ( , 2 ) , alors,
2 2 2
Z N , et S 2 n1
n n 1
(en utilisant le théorème central limite, ces 2 résultats restent approximativement valables, pour n assez
grand, même si les Z i ne sont pas des variables normales)
n 1 2
P3 : Si les Z i sont des variables distribuées selon une loi N ( , 2 ) , alors Z et S sont indépendantes.
n
b) ∑ ̅ ∑ ̅ ̅ ̅ =0
∑ ̅ ̅ ∑ ̅ ∑ ̅ ̅ ̅
Donc
Y i.
m ni
et
ni Yi. m 2
2
̅
et, en sommant sur les k échantillons indépendants, on aura ∑
̅ ∑
En remarquant que ̅ ( ) ,
∑
Ainsi, ∑ ̅ ∑ ̅ ̅ ∑ ̅
A = B + C
Ainsi :
𝒌
𝑩 ̅𝒊 𝒀
𝒏𝒊 𝒀 ̅ 𝟐 𝝈𝟐 𝝌𝟐𝒌 𝟏
M.Yahi Page 9 sur 13
𝒊 𝟏
ANOVA (Lic P/Stat L3) 2024
c) Si , ce qui est souvent le cas, il n‟y a aucune difficulté.
Or ∑ ̅ ̅ , ∑ ̅ ̅ -
et, donc,
𝑩 𝝈𝟐 𝝌𝟐𝒌 𝟏
3) Calcul de E(B)
Rappel:
∑
Modèle: avec {
∑
[ ̅ ̅ ]
2 méthodes :
a/ On a ̅ ̅ et donc, (comme pour toute v.a „‟Z „‟, ̅
̅ ̅ ̅ ̅
̅ ̅ ( ) ∑ ∑
Ces 2 termes sont indépendants car, pour i fixé, le second ne contient pas de
̅ ̅ ( ) ( ) ∑ ∑
( ) ( )
Donc ̅ ̅ ( ) et ̅ ̅ ( )
[ ̅ ̅ ] ( )
et [∑ ̅ ̅ ] ∑ ∑ ∑ ∑
𝑘
(9)
𝐸 𝐵 𝑘 𝜎 𝑛𝑖 𝜇𝑖
𝑖
b/ On a = m+ +
̅ = m+ +̅ ∑ ̅ ̅ ∑ ̅ ̅
̅ = m+0+ ̅
On a ( )=0 = var ( ) [ ]
De même, ̅ =0 ⁄ = var ̅ [̅ ]
De même, ̅ =0 ⁄ = var ̅ [̅ ]
Ainsi, E[ ̅ ̅ ] = E[ ̅ ̅ ̅ ̅ ̅ ̅]
= ̅ ̅
Or, ̅ ̅ * +
* +
Donc ̅ ̅
et [∑ ̅ ̅ ] ∑ ∑ ∑
∑
𝑘 𝑘
𝐸[ 𝑛𝑖 𝑌̅𝑖 𝑌̅ ] 𝑛𝑖 𝜇𝑖 𝑘 𝜎
𝑖 𝑖
Ainsi, si H 0 est vraie (i.e ) on a ; mais si l‟un au moins des est différent de
zéro, E(B) augmente (de ∑ )
3/ Test de poursuite (Follow up test)
Le test du rapport des carrés moyens décrit jusqu'ici, permet de tester s'il y a une différence globale entre les
moyennes. Pour voir si deux moyennes particulières sont les mêmes, on peut bien sûr utiliser
l'habituel t-test pour deux échantillons. (Voir document qui suit )
On a ̅ = ⁄ ; ̅ = ⁄ ; ̅ ̅ = ( )
/ Yi. Yi' . /
Ainsi, si était connu, on aurait pu prendre comme statistique et la comparer à une N(0,1)
1 1
ni n j
Cependant, on a vu que le carré moyen résiduel était un estimateur sans biais de , indépendamment
de toute hypothèse sur les moyennes, et qu'il est distribué selon , il suffit donc d'utiliser la
/ Yi. Yi' . /
statistique : , et la comparer à .
1 1
CMR
ni n j
Néanmoins la difficulté existe d'avoir un nombre élevé de paires de moyennes et l'on pourrait bien trouver
une paire (ou plus) donnant des résultats significatifs par pur hasard. Ainsi, par exemple, il pourrait être
dangereusement trompeur de tester ̅ ̅ de cette manière. (En fait d‟autres tests sont disponibles).
L‟utilisation des contrastes (voir exercice 6) peut être utile.
Exemple : Dans notre exemple numérique précédent, on avait rejeté H 0 . C‟est-à-dire, que parmi les 4
traitements, au moins 2 diffèrent significativement. On aimerait évidemment comparer C, qui a la plus
grande des moyennes, avec A, B, et D. Considérons par exemple la comparaison entre C et D.
Le test statistique est : , valeur que l‟on compare avec
√ √
5%
2.5%
1%
0.05%
2.92
2.58
2.12
1.75
Il y a donc évidence ici que la moyenne de C est réellement plus grande que celle de D.
Néanmoins, ceci n‟est peut-être pas très satisfaisant, et l‟on doit faire appel à une analyse plus détaillée (eg,
contrastes).
Elle permet d‟effectuer certaines comparaisons particulières fonction de deux ou plusieurs moyennes.
a) Pour un ensemble de p populations, on appelle contraste, toute fonction linéaire des moyennes de ces
p p p
populations, ci mi ( ou c i i ) telle que la somme des coefficients soit nulle : c i =0
i 1 i 1 i 1
p p
ci2 2
L‟estimation ˆ des M.C. de est : ˆ = c Y i i. et Varˆ = 2 (Var Yi. )
i 1 i 1 ni ni
(pour une ANOVA à p variantes)
2
ˆ 2 ci n
ˆ " N (0,1)"
On a : = i
~ ≡ t n p .
c 2
S 2
n2 p
S
2 i
2
ni n p
b) Contrastes Orthogonaux :
Dans une ANOVA à un facteur contrôlé à p variantes, on peut construire (p-1) contrastes orthogonaux. On
démontre de plus, qu‟une somme des carrés relative à p moyennes (B = ni (Yi. Y.. ) 2 ) possédant donc
(p-1) degrés de liberté peut toujours être divisée en (p-1) composantes additives, correspondant à ces
(p-1) contrastes orthogonaux.