Académique Documents
Professionnel Documents
Culture Documents
de la variance
Pr. M. EL KOUALI 1
Motivation
Supposons que l’on souhaite évaluer l’effet de cinq traitements différents sur le comportement des patients
dépressifs âgés de 18 à 50 ans.
On mesure le niveau de dépression (donné par un score). Cinq échantillons, de 9 patients chacun, ont été
considérés.
Nous avons ici 2 variables:
- Une variable quantitative (score)
- Une variable qualitative (traitement) dont les modalités sont : traitement 1, traitement 2, . . ., traitement 5.
On se pose la question de savoir si ces 5 traitements diffèrent. Nous souhaitons comparer l’effet des traitements
et voir s’il y a un lien entre la variable quantitative et la variable qualitative.
En utilisant des tests t − Student de comparaison de deux moyennes pour deux échantillons indépendants,
nous devrions comparer:
le traitement 1 avec le traitement 2,
le traitement 1 avec le traitement 3,
. . .
le traitement 1 avec le traitement 5.
Il faudrait alors faire 10 tests de comparaisons de deux moyennes, ce qui implique un nombre considérable de
calculs. le test t-Student devient impraticable.
.
Pr. M. EL KOUALI 2
Etude sur le stress du personnel enseignant supérieur : le niveau de responsabilité a-t-il un impact
sur l’état de stress ? Un facteur, variable indépendante VI à 4 niveaux : 4 catégories de personnels
(professeurs, maîtres de conferences, ATER et autres). Une variable dépendante VD : la mesure
de stress.
L’etude de la réussite scolaire, pour d’élèves de troisième de différentes Pays. Un facteur, VI à 3
niveaux : Pays 1, Pays 2, Pays 3. Une VD : performance à l’examen.
Le taux de cholestérol en fonction de la CSP. On se donne 5 CSP : Retraités, étudiants, agricul-
On a alors recours à l’analyse de variance (appelée souvent ANOVA)
teurs, cadres, ouvriers. Une VD : taux de cholestérol.
L’ANOVA est un test statistique qui généralise le test t − Student au cadre de comparaisons de plusieurs moyennes.
marque 1 : Il existe différentes types d’ANOVA qui se distinguent par le nombre de facteurs
diés. Si l’on aOn l’applique
une seule variable indépendante, l’analyse
dès lors que l’on étudie est dite à un facteur. S’ilvariables
les effets d’une ou plusieurs y a plusieurs
qualitatives sur une variable
ables indépendantes, on parle d’analyse factorielle, ou de plan factoriel.
quantitative
marque 2 : Nous supposons ici que les k échantillons Ej (j = 1 . . . k) ont tous la même taille
nk ). Il est possible de
= n2 = . . . = Eon a donc un plan généraliser l’ANOVA
expérimental aux cas d’échantillons
(plan d'expériences) ayant
qui prévoit le des tailles
nombre d'expériences à faire pour chaque
érentes.
niveau (ou modalité) du ou des facteurs dont on souhaite évaluer l'effet.
t r la taille Le plan est dit équilibré
commune des échantillons, Ysi il
j (j y a même nombre
= 1, . . . , k) d'observations
la variable par niveau
correspondant de facteur.
aux valeurs de
VD Y observées sur l’echantillon Ej et Ȳj la moyenne de Yj . Avant toute analyse, il est intéressant
ANOVA à un facteur
représenter les données. Par exemple, les valeurs de Y observées sur E1 sont : y11 , y21 , y31 , . . . , yr1
a moyenne observée est ȳ1 = (y11 + y21 + y31 + . . . + yr1 )/r. Pour calculer la moyenne observée de
notée ȳ, sur toute la population, on peut réutiliser les moyennes sur les k échantillons. En effet,
mme on est On utilise l’analyse
dans le cas où tousde lesla variance à un facteur
échantillons ont la mêmequand on dispose
taille : :
– d’une variable quantitative
k r
Y (variable
k
dépendante,
r
VD) ;
k
1 XX 1X1X 1X
– d’une variable qualitative X à k modalités (variable
ȳ =
k ⇥ r j=1 i=1
yij =
k j=1 r i=1
yij = indépendante,
k j=1
ȳj . VI, appelée facteur à k niveaux) ;
– de k échantillons indépendants (E1, . . . , Ek) de taille n1, . . . , nk, respectivement.
tableau On cherche
ci-dessous un lien
contient lesentre la VI
valeurs de et la VD.
la VD Y observées sur l’ensemble des k échantillons.
NOVA nous indique si les différents échantillons proviennent ou non de la même population P .
nditions d’application. Pour pouvoir appliquer l’ANOVA, il est indispensable que les 2 pro-
tés soient vérifiées :
C'est le cas le plus simple rencontré lorsqu'il n'y a qu'un facteur agissant sur les résultats. Le schéma est alors le suivant:
Exemple
Considérons une étude portant sur l'appréciation sensorielle de la texture de trois viandes par 5 dégustateurs
différents. On ne considèrera que le caractère fibreux de la viande. Pour ce caractère, les échantillons ont été ́ notés
en utilisant une échelle en 15 points.
Comme il n'a pas été ́ possible de réunir les mêmes juges à chacune des séances, l'influence du facteur "Juge" sur
les valeurs données ne pourra être étudiée.
Les 15 évaluations seront considérées comme provenant de 15 dégustateurs différents, l'attribution d'un juge à
un échantillon se faisant aléatoirement. On parle d'un plan en randomisation totale.
Viande
A B C
3 10 13
5 8 11
6 5 7
3 7 11
3 5 8
Pr. M. EL KOUALI 4
1, Pays 2, Pays 3. Une VD : performance à l’examen.
olestérol en fonction de la CSP. On se donne 5 CSP : Retraités, étudiants, agricul-
ouvriers. Une VD : taux de cholestérol.
à l’aide des observations. Reprenons l’Exemple 1 (b). Nous avons trois échantillons d’él
Moyenne ȳ1 ȳ2 ... ȳk dans trois pays, Pays 1, Pays 2, Pays 3. Chaque échantillon
Pour les données du tableau, il y a 3 échantillons (k = 3) et 5 observations dans chaque échantillon (r = 5). Le nombre
total d’observations est n = r × k = 3 × 5 = 15. Dans cet exemple on suppose que les 2 conditions sont vérifiées.
Test d’hypothèses
HO: Il n'y a pas d'effet "Produit », i.e.: les moyennes pour les différents produits (niveaux du facteur) sont égales.
Pr. M. EL KOUALI 6
: Plus laune
donne valeurvaleur
observée de la somme
observée du des écarts
carré intergroupe,
moyen scinter, est proche de nous observons que les élèves d’un même pays n’obtiennent pas tous le même résulta
intragroupe possible de quantifier cette variabilité, que l’on appelle variabilité intragroupe(qui est la v
moyennes µj sont proches les unes des autres. à l’intérieur de chaque groupe) , à l’aide d’une statistique dite “moyenne des carrés intra
cmintra = (250 + 250 + 250)/(15 3) = 750/12 = 62,ou 5.plus simplement “carré moyen intragroupe”. Cette statistique se calcule en utilisant la
suivante
vée du carré moyen intergroupe est SCinter
CMinter = , SC
ue 7 : nous avons aussi la décomposition de la somme des carrés totale
intra
k 1 CM = intra
n k
cminter = 1000/(3 avec
1) =SC
1000/2
inter=la
500.somme des carrés (SC) des avecécarts
SC leintergroupe (entre Ici
carré moyen intragroupe.
intra
lesn moyennes
k est le degrédes groupes
de liberté de CM et ,la
etintra
moyenne globale)
Xr X k
tragroupe : la somme des carrés moyens intragroupe. k XX k r
2 X
(1) +
2
SCtotale = Yij Y = SCinter + SCintra . inter SC = = r ( Ȳ j Ȳ ) 2
. SC = intra (Y Ȳ )
j=1 i=1
ij j
j=1
i=1 j=1 où Y est le score du sujet i (i = 1, . . . , 5) dans le échantillon j (j = 1, . . . , 3).
uer qu’il est possible que la variabilité
avec rentre les élèves d’un
le nombre même paysdans
d’individus soit aussi
chaque ijéchantillon. Dans la première formule on divise SCinter
par les degrés de liberté k 1.
ele (1)
existant entre les élèves des différents depays. Dans l’Exemple 1 (voir tableau),
Pour nos données (voir tableau), la valeur observée de la somme des carrés intragroupe
la “relation fondamentale” l’ANOVA. pays 1 est
que les élèves d’un même paysIcin’obtiennent
Somme des carrés des écarts
et dans tout pas tous
totaux le même résultat.
le = Somme
chapitre on Il est
des carrés
note la des écarts inter-groupe + Somme des carrés
valeur observées2 d’une variable 2
quelconque
2
des écarts
2
X par x. 2
Pour
intra-groupe les données du tableau, la valeur observée de la somme des écarts intergroupe (notée scinter ) 250,
(30 40) + (35 40) + (40 40) + (45 40) + (50 40) = est :
ntifier cette variabilité, que l’on appelle variabilité intragroupe(qui
ue 8 : La relation fondamentale de l’ANOVA ne s’applique pas pour est la variabilité auxlevariabilités. C’est à
pays 2 c’est
chaque groupe) , à l’aide d’une statistique dite “moyenne sc desinter
carrés
= intragroupe”,
5 ⇥ [(40 50)2 + (50 50)22 + (60 2 50)2 ] = 21000.
(40 50) + (45 50) + (50 50) + (55 50)2 + (60 50)2 = 250,
ment “carré moyen intragroupe”.
A chacune Cette
de cesRemarque statistique
quantités SCE,6seon
:calcule
Plus en
la utilisant
va+associer valeur laobservée
formulede degrés
le. nombre de la somme
de libertédes écarts
(ddl) : intergroupe, scinter , est proche de
CM totale 6
= CM inter CM
zéro, plus les moyennes µj sont proches les unes des autres.
intra
de décision
= 5%. Dans notre exemple le logiciel STATISTICA nous donne une p-valeur de 0, 006.
↵obs < 5%, on rejette H0 au risque ↵ = 5%. Au risque d’erreur de 5% il est peu probable
r une telle variabilité entre les élèves des différents pays si Pr. M. EL KOUALI
la performance en logique dans 8
st en réalité la même. Les trois moyennes sont globalement différentes au risque ↵ = 5%.
urs obtenues par STATISTICA sont résumées dans le tableau ANOVA ci-après.
que 11 : Le rejet de l’égalité des moyennes ne permet pas de savoir quelles sont les moyennes
ivement différentes. Pour cela, la méthode des contrastes ou méthode de Scheffé associe à
de variances permet de répondre à cette question.
Table 5a : Loi de Fisher-Snedecor
⌫1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 18 20 22 24 25
⌫2
3 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 8,76 8,74 8,73 8,71 8,70 8,69 8,67 8,66 8,65 8,64 8,63
4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,94 5,91 5,89 5,87 5,86 5,84 5,82 5,80 5,79 5,77 5,77
5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 4,70 4,68 4,66 4,64 4,62 4,60 4,58 4,56 4,54 4,53 4,52
6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 4,03 4,00 3,98 3,96 3,94 3,92 3,90 3,87 3,86 3,84 3,83
7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64 3,60 3,57 3,55 3,53 3,51 3,49 3,47 3,44 3,43 3,41 3,40
8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 3,31 3,28 3,26 3,24 3,22 3,20 3,17 3,15 3,13 3,12 3,11
9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14 3,10 3,07 3,05 3,03 3,01 2,99 2,96 2,94 2,92 2,90 2,89
10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98 2,94 2,91 2,89 2,86 2,85 2,83 2,80 2,77 2,75 2,74 2,73
11 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,85 2,82 2,79 2,76 2,74 2,72 2,70 2,67 2,65 2,63 2,61 2,60
12 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80 2,75 2,72 2,69 2,66 2,64 2,62 2,60 2,57 2,54 2,52 2,51 2,50
13 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71 2,67 2,63 2,60 2,58 2,55 2,53 2,51 2,48 2,46 2,44 2,42 2,41
14 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,65 2,60 2,57 2,53 2,51 2,48 2,46 2,44 2,41 2,39 2,37 2,35 2,34
15 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54 2,51 2,48 2,45 2,42 2,40 2,38 2,35 2,33 2,31 2,29 2,28
16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49 2,46 2,42 2,40 2,37 2,35 2,33 2,30 2,28 2,25 2,24 2,23
17 4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,49 2,45 2,41 2,38 2,35 2,33 2,31 2,29 2,26 2,23 2,21 2,19 2,18
18 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41 2,37 2,34 2,31 2,29 2,27 2,25 2,22 2,19 2,17 2,15 2,14
19 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,42 2,38 2,34 2,31 2,28 2,26 2,23 2,21 2,18 2,16 2,13 2,11 2,11
20 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35 2,31 2,28 2,25 2,22 2,20 2,18 2,15 2,12 2,10 2,08 2,07
21 4,32 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,37 2,32 2,28 2,25 2,22 2,20 2,18 2,16 2,12 2,10 2,07 2,05 2,05
22 4,30 3,44 3,05 2,82 2,66 2,55 2,46 2,40 2,34 2,30 2,26 2,23 2,20 2,17 2,15 2,13 2,10 2,07 2,05 2,03 2,02
23 4,28 3,42 3,03 2,80 2,64 2,53 2,44 2,37 2,32 2,27 2,24 2,20 2,18 2,15 2,13 2,11 2,08 2,05 2,02 2,01 2,00
24 4,26 3,40 3,01 2,78 2,62 2,51 2,42 2,36 2,30 2,25 2,22 2,18 2,15 2,13 2,11 2,09 2,05 2,03 2,00 1,98 1,97
25 4,24 3,39 2,99 2,76 2,60 2,49 2,40 2,34 2,28 2,24 2,20 2,16 2,14 2,11 2,09 2,07 2,04 2,01 1,98 1,96 1,96
Pr. M. EL KOUALI 9
26 4,23 3,37 2,98 2,74 2,59 2,47 2,39 2,32 2,27 2,22 2,18 2,15 2,12 2,09 2,07 2,05 2,02 1,99 1,97 1,95 1,94
27 4,21 3,35 2,96 2,73 2,57 2,46 2,37 2,31 2,25 2,20 2,17 2,13 2,10 2,08 2,06 2,04 2,00 1,97 1,95 1,93 1,92
28 4,20 3,34 2,95 2,71 2,56 2,45 2,36 2,29 2,24 2,19 2,15 2,12 2,09 2,06 2,04 2,02 1,99 1,96 1,93 1,91 1,91
29 4,18 3,33 2,93 2,70 2,55 2,43 2,35 2,28 2,22 2,18 2,14 2,10 2,08 2,05 2,03 2,01 1,97 1,94 1,92 1,90 1,89
30 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,21 2,16 2,13 2,09 2,06 2,04 2,01 1,99 1,96 1,93 1,91 1,89 1,88
31 4,16 3,30 2,91 2,68 2,52 2,41 2,32 2,25 2,20 2,15 2,11 2,08 2,05 2,03 2,00 1,98 1,95 1,92 1,90 1,88 1,87
32 4,15 3,29 2,90 2,67 2,51 2,40 2,31 2,24 2,19 2,14 2,10 2,07 2,04 2,01 1,99 1,97 1,94 1,91 1,88 1,86 1,85
HO: Il n'y a pas d'effet "Produit », i.e.: les moyennes pour les différents produits (niveaux du facteur) sont égales
Pr. M. EL KOUALI 10
Chap 8.
1. Objectif de la méthode
st et le modèle 2. Approche intuitive
3. Décomposition de la variance
s-jacent 4. ANOVA: le test et le modèle
statistique sous-jacent
xij = µ + α i + eij
on Erreur: petites var
e au niveau associées à tous les
eur i autres facteurs.
expérience à un facteur, i.e. un seul agent susceptible d influencer
riable=qté récoltée, facteur= fertilisant).
Pr. M. EL KOUALI 11
Analyse de la variance
à un facteur
Analyse de la variance
à un facteur
FISHER: (H0)Tableau
: 1 2de ...
l’ANOVAI :
(H1) : Les i ne sont pas tous égaux.
Application
nditions (Indépendance, à Homogénéité)
Normalité et notre exemple
sont: vérifiées
est vraie,
CM F Variation SC ddl CM Fobs Fc
Fobs ~ FI 1, n I
CM R Due au 2 0.0007
facteur
Pour un seuil donné α (5%Résiduelle
en général) les tables de Fisher nous
t une valeur critique c telle que : 15
H0 ( FI 1, n 1 c) 1
Totale 17
Pr. M. EL KOUALI 13
2,7 5,5 7,7 7,8 13,2
Pr. M. EL KOUALI 16
Les données expérimentales
Pr. M. EL KOUALI 17
F2
Moyenne
F1 1 … j … b
X111 X1j1 X1b1
1 : X 11. : X 1 j. : X 1b. X 1..
X11n X1jn X1bn
: :
:
: :
Xij1
… : X ij . …
X i ..
i Xijn
:
Xa11 X a.. Xaj1 Xab1
a : X a1. : X aj . : X ab.
Xa1n Xajn Xabn
Moyenne X .1. X . j. X .b. X ...
Pr. M. EL KOUALI 18
Conditions théoriques et modèle
• Comme dans le cas de l’ANOVA à un facteur les hypothèses sont
résumées dans un modèle qui est :
• Xijk = µ + αi + βj + γij + εijk
où i = 1, …, a
j = 1, …, b ; k = 1, …, n
Pr. M. EL KOUALI 19
Hypothèses à tester
• 3 hypothèses à considérer :
- SCEB = an ∑ (X . j.
− X ... )
2
- SCEinteraction = n ∑ (X − X − X + X
. j. i .. . j. ...
)
2
Pr. M. EL KOUALI 21
Somme des carrés (suite)
- SCErésiduelle =
∑ (X − X )
2
ijk ij .
- SCEtotale =
∑ (X − X )
2
ijk ...
SCEtotale=SCEA+SCEB+SCEinteraction+SCErésiduelle
Pr. M. EL KOUALI 22
Table d’ANOVA
Source de
variation d.d.l. SCE CME F
Pr. M. EL KOUALI 23
Règles de décision
Pr. M. EL KOUALI 24
Pr. M. EL KOUALI 25
SCET = SCEA + SCEB + SCEAB + SCER:
p q p q
X X X
n X X X
n
SCET = (xijk ! x::: )2 = x2ijk ! npqx2:::
i=1 j=1 k=1 i=1 j=1 k=1
p q p q p q
X X Xn X X Xn X X
SCER = (xijk ! xij )2 = x2ijk ! n x2ij
i=1 j=1 k=1 i=1 j=1 k=1 i=1 j=1
p p
X X
SCEA = qn (xi: ! x::: )2 = qn x2i: ! npqx2:::
i=1 i=1
q q
X 2
X
SCEB = pn (x:j ! x::: ) = pn x2:j ! npqx2:::
j=1 j=1
p q
XX
SCEAB = n (xij ! xi: ! x:j + x::: )2 = SCET ! SCER ! SCEA ! SCEB
i=1 j=1
HypothËses
Pr. M. EL KOUALI 26
Il y a maintenant trois hypothËses principales ‡ tester :
H0 : le facteur A nía aucun e§et sur les rÈsultats, cíest-‡-dire
7. Exercice sur Analyse de la Variance ‡ deux Facteurs 61
XX
x2
ij = 2109; 413:
X
x2
i: = 682; 429:
X
x2
:j = 524; 423:
pqx2
::: = 2041; 751
S C ET = S C EA + S C EB + S C EAB
p q p q
X X 2
X X X
n
S C ET = (xij k ! x::: ) = x2 2
ij k ! npqx:::
i=1 j =1 i=1 j =1 k=1
= 2109; 513 ! 2041; 751 = 67; 762
p p
X X
S C EA = q (xi: ! x::: )2 = q x2 2
i: ! pqx:::
i=1 i=1
= 3 (682; 429) ! 2041; 751 = 5; 536:
q q
X X
S C EB = p (x:j ! x::: )2 = p x2 2
:j ! pqx:::
j =1 j =1
= 4 (524; 423) ! 2041; 751 = 55; 941
p q
X X
S C EAB = (xij ! xi: ! x:j + x::: )2 = S C ET ! S C EA ! S C EB
i=1 j =1
= 6; 285
A B
F3;6 = 4; 76 ; F2;6 = 5; 11:
Comparaisons :
A A
On peut remarquer que Fobs < F3;6 ; donc on accepte H0 ( il níy a pas díináuence des laboratoires sur les mesure
B B
De plus on remarquer que Fobs > F2;6 ; donc on rejette Hí0 ( il y a une ináuence des villes sur les mesures )
Exercice N! : 04
La rÈponse :
Facteur A : Type de traitement p = 2
Facteur B : Psychologue . q = 2
n = 3; et N = npq = 12; le type díANOVA cíest ANOVA a deux facteurs
Pr. M. EL KOUALI 29