Académique Documents
Professionnel Documents
Culture Documents
1
Avec une seule variable dépendante (à expliquer), et une ou plusieurs
variables explicatives discrètes (dites aussi catégorielles, qualitatives,
nominales, de classification = ne pouvant donc prendre qu'un nombre
limité de valeurs comme le sexe, la catégorie socio-professionnelle, etc...)
on utilise l'analyse de variance.
On appelle facteurs les variables explicatives. L'analyse consiste à
tester si les différences de variation dans chaque groupe (ou
échantillon) défini par les modalités des variables explicatives
s'écartent de manière significative de la valeur 0.
Seuls des échantillons suivant une loi normale peuvent faire l’objet d’une
analyse de variance paramétrique. Pour vérifier que la distribution d’un
échantillon suit une loi normale, il est possible d’utiliser, dans R, le test de
Shapiro-Wilk
shapiro.test(X2)
R répond
data: X2
2
où
x(i) (avec des parenthèses entourant l'indice i) désigne la ième statistique d'ordre, i.e.,
le ième plus petit nombre dans l'échantillon;
Sachant que l'hypothèse nulle est que la population est normalement distribuée, si la p-
value est inférieure au niveau alpha choisi, alors l'hypothèse nulle est rejetée (i.e. on
conclut que les données ne sont pas issues d'une population normalement distribuée). Si la
p-value est supérieure au niveau alpha choisi, alors on ne peut pas rejeter l'hypothèse nulle
selon laquelle les données sont issues d'une population normalement distribuée. Par
exemple, pour un niveau alpha de 0.05, un jeu de données avec une p-value de 0.32
n'entraîne pas le rejet de l'hypothèse nulle selon laquelle les données sont issues d'une
population normalement distribuée. Donc si la p-value est grande, la distribution tend vers
une distribution normale.
R répond
data: X1
Warning message:
3
In ks.test(X1, "pnorm", mean = 13, sd = 3) :
data: X1
Cette valeur est comparée, dans une table de Hartley (ou du Fmax), à une valeur
théorique et doit lui être inférieure pour un seuil de risque choisi (par exemple,
95 %) pour conserver l'hypothèse d'homogénéité des variances.
Les d.d.l. sont, pour la colonne de la table du Fmax, le nombre de traitements (=k)
(colonnes de données), et pour la ligne de la table, le nombre de données du plus
grand échantillon - 1 (=n-1).
4
4. Analyse de variance à un facteur pour échantillons
indépendants.
4.1. Principe
1 .Manuellement, on calcule :
5
b) la variance intra-groupes (celle qui n'est pas liée aux conditions
expérimentales).
2. Par différence [a-b] on obtient la variance inter-groupes (qui est liée aux
différences de conditions expérimentales).
a = [a-b] + b
Variance totale = Variance inter-groupe
+ Variance intra-groupe
[SCE à la moyenne = [SCE factorielle] + [SCE
générale] résiduelle]
=
3. On calcule le rapport :
6
Source de Variance ∑ Carrés DDL Carré Moyen F p-Value
On va commencer par calculer la somme carrée des écarts. Elle consiste à calculer
l’écart des valeurs par rapport à la moyenne de l’ensemble des groupes (moyenne générale).
Avec :
La somme des carrés des résidus représente les écarts des valeurs dans leur propre groupe.
On cherche ainsi à savoir si les valeurs de chacun des groupes sont agglutinées autour de la
moyenne ou s’il y a beaucoup de variabilité. En clair, on suppose donc que s’il y a beaucoup
de variabilité entre les valeurs d’un même groupe, alors la différenciation entre les groupes
n’est pas claire. A contrario, si nous avons peu de variabilité entre les valeurs d’un même
groupe (SCR faible) et que nous avons beaucoup d’écarts entre les groupes (SCE fort), alors
on pourra rejeter l’hypothèse nulle avec un fort degré de certitude.
Au contraire de la SCE, la SCR est unique quelque soit le nombre d’échantillon. La formule
de calcul est la suivante :
7
Xi : Les valeurs d’un même groupe
μgroupe : la moyenne du groupe en questions
La SCT représente simplement l’addition des SCE et SCR et donc de la variabilité totale de
nos échantillons. Elle se calcule de deux manières différentes :
K : le nombre d’échantillons
n : le nombre d’individus au total
Les carrés moyens représentent le “poids” que l’on peut donner aux différentes valeurs de
SCE et SCR. Ils se calculent en faisant le rapport avec les ddl. On retrouve donc :
8
Valeur pratique
F = CME / CMR
La valeur pratique suit une loi de Fisher pour ddlSCE et ddlSCR. L’utilisation de la loi de
Fisher dans le cas où nous souhaitons tester une différence, est un test unilatéral à droite.
On choisit la valeur α souhaité, généralement 5%, puis on la détermine soit via les tables
spécifiques soit sous Excel avec la fonction INVERSE.LOI.F.N (1 – α ; ddlSCE ; ddlSCR ).
Calculer la p-Value
Pour valider la significativité du test, on calcule la p-Value via la formule Excel LOI.F.( Valeur pratique ; ddlSCE ;
ddlSCR).
Interprétation
Bilatéral Valeur pratique ≥ Valeur On rejette H0 Les échantillons ont des moyennes qui diffèrent.
critique
Valeur pratique < Valeur On retient H0 Les échantillons ont des moyennes qui ne diffèrent
critique pas.
9
Lecture de la p-Value
Résultat Conclusion statistique Conclusion pratique
Exemple 1 :
On veut savoir si la quantité de nitrates varie d'une station à l'autre le long d'une
rivière. Pour cela, on prélève en 10 points (n=10) chaque fois une certaine quantité
d'eau dans 3 stations différentes (k=3).
T1 T2 T3
Nitrates Station 1 Station 2 Station 3
1 50 162 120 n = 10
2 52 350 120 k = 3
3 123 125 122
4 100 320 221
5 200 112 253
6 250 200 141
7 220 40 182
8 220 162 175
9 300 160 160
10 220 250 214 Total
10
Moyennne par
traitement
173,5 188,1 170,8 177,4666667 moyenne générale
SCE 1732,466667
11
T1 T2 T3
(Xi -
(Xi - moy (Xi - moy (Xi - moy Station (Xi - moy
Nitrates Station 1
groupe)
(Xi - moy groupe)² Station 2
groupe) groupe)² 3 moy groupe)²
groupe)
50 -123,5 15252,25 162 -26,1 681,21 120 -50,8 2580,64 n = 10
52 -121,5 14762,25 350 161,9 26211,61 120 -50,8 2580,64 k = 3
123 -50,5 2550,25 125 -63,1 3981,61 122 -48,8 2381,44
100 -73,5 5402,25 320 131,9 17397,61 221 50,2 2520,04
200 26,5 702,25 112 -76,1 5791,21 253 82,2 6756,84
250 76,5 5852,25 200 11,9 141,61 141 -29,8 888,04
220 46,5 2162,25 40 -148,1 21933,61 182 11,2 125,44
220 46,5 2162,25 162 -26,1 681,21 175 4,2 17,64
300 126,5 16002,25 160 -28,1 789,61 160 -10,8 116,64
220 46,5 2162,25 250 61,9 3831,61 214 43,2 1866,24 Total
Somme 1735 1881 1708 5324
Moyenne par
traitement
173,5 188,1 170,8 177,4666667 moyenne gé
(moy trait - moye groupe)² 67010,5 81440,9 19833,6
12
T1 T2 T3
(Xi - moy (Xi - moy (Xi - moy Station (Xi - moy (Xi - moy
Nitrates Station 1 Station 2 (Xi - moy generale)
generale) generale)² generale)² 3 generale) generale)²
Moy groupe
173,5 188,1 170,8 177,4666667
13
D’où :
14
L'intervalle de Scheffé associe l'erreur d'estimation pour chaque moyenne en utilisant
la méthode de F-distribution. Cela permet de faire des comparaisons linéaires parmi
les moyennes de l'échantillon tout en contrôlant le taux d'erreur ("experiment wide
error rate") à un niveau défini.
15
entre chaque palier de moyennes, cette procédure indique quelles moyennes sont
significativement différentes les unes des autres.
Ainsi, la distribution des prix d'un produit présente, en général, une certaine asymétrie
(vers la gauche); mais elle est suffisamment faible pour que cette distribution puisse
être considérée, en première approximation, comme normale.
Cependant, de nombreuses études ont montré que l'analyse de variance est peu
sensible à la non-normalité des populations-parents et à l'inégalité des variances. Il
suffit en pratique d'éviter son emploi lorsque les distributions des populations-parents
sont très différentes (distributions en i ou en j par exemple ou sont de forme très
différente de l'une à l'autre (en cloches à dissymétries de sens opposés par exemple)
surtout sur de petits échantillons. Il est souvent difficile de contrôler la validité des
hypothèses de normalité et d'égalité des variances (données peu nombreuses) ; Il est
souvent préférable de tenir compte de l'ensemble des informations dont on dispose a
priori au sujet des catégories de variables. De même l'hypothèse d'égalité des
variances est secondaire lorsque les effectifs sont égaux. Quand les différentes
conditions ne sont pas satisfaites, on peut essayer de s'en rapprocher en essayant de
normaliser ces données en leur substituant une variable auxiliaire (par exemple : log
de X). Si cette façon de faire ne donne pas satisfaction, on utilisera les tests non-
paramétriques.
5.3.7. Annexe
Vocabulaire de l’ANOVA
Ligne Colonnes
16
Variables dépendantes Variables indépendantes
Variables à expliquer Variables explicatives
Variables catégorielles, variables Variable expérimentale, condition
qualitatives, variables nominales, expérimentale, traitement
variables de classification
Variables endogènes Variables exogènes
Individus échantillons, Groupes,
Traitements
Résidus Facteurs
Une seule variable Plusieurs colonnes
Variance intra-groupe (concerne Variance inter-groupe (concerne
la variation induite par les la variation induite par les
différents individus constituant un différents échantillons =
groupe = colonne) = variance comparaison des effets des
résiduelle colonnes) = variance inter-
traitement
n = nombre d’individus dans un k = nombre d’échantillons à
échantillon comparer
SCE résiduelle SCE factorielle
17