Vous êtes sur la page 1sur 41

Test de Student et Analyse de la Variance

A. Latouche

1 / 41
Plan

Il s’agit d’une généralisation du t-test de Student

I Mettre en œuvre des analyses de la variance (ANOVA).

I Analyse de la variance à un facteur.

I ANOVA à deux facteurs croisés sans et avec interaction.

2 / 41
ANoVA

I L’analyse de la Variance est une méthode d’analyse issue des


modèles linéaires

I Plus précisément, elle permet de traiter le cas de variables à


expliquer quantitative et des variables explicatives
qualitatives

I On cherche à savoir quel(s) facteur(s) détermine/influence le


phénomène à expliquer.

3 / 41
Définitions

I Variable à expliquer : correspond à la réalisation du


phénomène aléatoire dont on cherche à comprendre le
fonctionnement.

I Soit X cette variable.

I Exemple : Si l’on s’intéresse à la vitesse de la croissance


d’un chêne, la variable à expliquer peut être définie comme la
taille (en cm) d’une jeune pousse de ce type d’arbre un mois
après la germination.

I Cette variable est quantitative.

4 / 41
Variables explicatives

I Les variables explicatives représentent les facteurs dont on


veut déterminer s’ils ont une influence sur le phénomène
étudié.

I Effet que peut avoir l’implantation géographique sur la


croissance des chênes, la variable explicative pourra être la
région dans laquelle l’arbre est planté.

I Les variables explicatives sont qualitatives


L’objectif de l’ANOVA est de déterminer si la variable
explicative influence la valeur de la variable à expliquer.

5 / 41
Notations

Afin de résoudre ce problème on doit disposer

I de plusieurs observations de la variable à expliquer

I selon les différentes modalités de la (des) variable(-s)


explicative(-s).

Soit Xij la j-ème réalisation de la variable aléatoire X pour la ième


modalité de la variable explicative.

6 / 41
ANOVA à un facteur

Exemple : croissance des chênes

Question : la région dans laquelle est plantée un chêne influence t


elle sa croissance ?
I La variable à expliquer, X , marqueur du phénomène à étudier
(la croissance des chênes) est la taille des pousses, un mois
après germination.
I La variable explicative est la région. Cette variable est à trois
modalités représentant les régions A, B et C.
I Pour chaque région, on dispose de 5 observations.
D’après les définitions précédentes, on a

Xij qui représente la taille de la j-ème pousse observée dans la


région.

7 / 41
Croissance des chênes

On dispose donc des données suivantes pour effectuer cette


analyse :

Région
A B C
3 10 13
5 8 11
6 5 7
3 7 11
3 5 8

8 / 41
Variabilité Intra

I En observant ces données par colonne, on remarque que dans


une région donnée les observations sont variables.

I On parle de variabilité intra-niveau.

I Cette variabilité peut être attribuée à la nature aléatoire des


observations.

9 / 41
Variabilité Inter
I En comparant les observations, région par région, on observe
également des fluctuations
I On parle de variabilité inter-niveau
I On peut également attribuer cette variabilité au caractère
aléatoire des données.
I On peut également s’interroger sur le rôle de l’effet de la
région sur la croissance dans cette variabilité.
I En effet, si la région n’a aucun effet sur la croissance des
chênes, on devrait s’attendre à n’observer aucune variabilité
inter-niveau.
I Plus exactement, la variabilité inter-niveau devrait être du
même ordre que la variabilité intra-niveau.

10 / 41
Etapes de l’ANOVA

⇒ La problématique de l’ANOVA revient à comparer la variabilité


des observations intra-niveau et inter-niveau.

1. Quantification des variabilités.

2. Test de comparaison des variances.

11 / 41
Quantification des variances

I Une première variabilité inter-niveau αi


I quantifie la dispersion des Xij pour i fixé par rapport à la
valeur moyenne des observations X̄ .
I
αi = X̄i − X̄
P5 Xij
I où X̄i = j=1 ni
I où ni représente le nombre d’observations pour la modalité i
et X̄i la moyenne pour la colonne i
P3 P5 Xij
I X̄ =
i=1 j=1 Nobs
P3
avec Nobs = i=1 ni , le nombre total d’observations.

12 / 41
Variabilité Intra

I Une variabilité intra-niveau ij

I quantifie la dispersion des Xij au sein des observations pour i


fixé par rapport à X̄i

ij = Xij − X̄i

13 / 41
Décomposition : principe

Ainsi on considère que l’observation est issue


I d’un effet moyen relatif au phénomène observé,

I d’une variabilité liée à la modalité i du facteur étudié


(variabilité inter-niveau)

I d’un effet aléatoire non liée au facteur étudié (variabilité


intra-niveau ).

14 / 41
Décomposition : suite

On considère le modèle suivant

Xij = X̄ + αi + ij

Ou
Xij − X̄ = αi + ij
Finalements
X ni
3 X ni
3 X
X ni
3 X
X
(Xij − X̄ )2 = αi2 + 2ij
i=1 j=1 i=1 j=1 i=1 j=1

15 / 41
Somme des Carrés des Ecarts

La somme précédente s’écrite

SCEtotal = SCEinter + SCEintra


où
I SCEtotal
I SCEinter
I SCEintra

16 / 41
Croissance des chênes

Région
A B C
3 10 13
5 8 11
6 5 7
3 7 11
3 5 8

Calculer X̄i et X̄

17 / 41
Illustration

Région
A B C
3 10 13
5 8 11
6 5 7
3 7 11
3 5 8
X̄i 4 7 10
X̄ = 7

18 / 41
Calcul des SCE

Pour calculer SCEinter = SCEA on doit calculer les moyennes des


observations pour chaque colonnes X̄i et la moyenne générale X̄
I SCEinter = SCEA = 5 × ((4 − 7)2 + (7 − 7)2 + (10 − 7)2 ) = 90

I SCEintra ou SCE résiduelle est plus complexe à calculer au


tableau et se déduit de la SCEtotal

I Ici 140=90+50
En pratique votre logiciel

19 / 41
Ddl et table de l’ANOVA

I N nombre d’observation
I C nombre de modalité du facteur (région)
Source de variation SCE ddl
Inter-niveau (facteur) SCEinter =90 C-1=3-1=2
Intra-niveau (residuelle) SCEintra =50 N-C=15-3=12
Total SCEtotal =140 N-1=3*5-1=14

20 / 41
Test de comparaison de variance

L’analyse de la variance revient donc à comparer les différentes


lignes de la table d’ANOVA.
I La question posée est :
La variabilité inter-niveau est-elle du même ordre que la
variabilité intra-niveau ?

I On considère le rapport

SCEinter /(C − 1) CMinter


=
SCEintra /(N − C ) CMintra

21 / 41
Test de comparaison de variance

I Si ce rapport est significativement plus grand que 1

I la variabilité inter-classe est plus grande que la variabilité


intra-classe

I les observations à partir desquelles la variabilité inter-classe


est calculée, varient trop pour pouvoir considérer que la
variabilité inter-classe et la variabilité intra-classe soient
considérées comme comparables.

I Dans ce cas,

I On peut conclure que le facteur région a un effet significatif


sur la croissance des chênes.

22 / 41
Test de comparaison de variance
Sous H0 , la statistique de test suit une loi de F(c − 1,n − c) ddl
(cf. table de l’ANOVA).

Fobs = 45/4.17 = 10.8

I Valeur seuil pour α=0.01 (0.05)


I Loi de Fisher(2,12)= 6.93 (3.89)
I Fobs >> 6.93( 3.89)
I on rejette l’hypothèse nulle
I L’effet de la région sur la croissance des chênes semble assez
fort
http://www.agro-montpellier.fr/cnam-lr/statnet/
tables.htm#fisher0.05

23 / 41
Résumé

1. Définition des variables aléatoires étudiées :


Définir la variable à expliquer et la variable explicative.

2. Définition du modèle associé à l’ANOVA:


On définit les différentes variabilités à considérer dans
notre étude ainsi que ce à quoi elle correspondent.

3. Calcul des différentes variabilités :


Ces calculs reviennent à construire le tableau associé à
l’ANOVA.

24 / 41
Résumé: Test

I Définition de H0

I Définition de la statistique de test F et de sa loi

I Calcul de Fobs

I Détermination de la valeur seuil

I Conclusion sur le test

25 / 41
ANOVA à deux facteurs : Principe

I on cherche à évaluer l’influence de deux variables explicatives


sur la variable à expliquer.
I Deux cas sont à distinguer : les modèles sans et avec
interaction.
I Si les variables explicatives (ou facteurs) sont indépendantes :
ANOVA sans interaction
I Techniquement, les ANOVA à deux facteurs correspondent à
une généralisation de l’étude précédente.
I Reprenons ainsi le plan d’étude présenté dan la première
partie.

26 / 41
Modèle sans interaction

En reprenant les données portant sur la croissance des chênes.


I On précise ici que pour chaque région, la mesure des pousses
de chênes a été effectuée dans des zones de densité de
population humaine comparables.
I Cette variable est codée selon cinq modalités (de 1 à 5 par
ordre croissant de densité).
I Définition des variables aléatoires étudiées :
La variable à expliquer est toujours la taille des jeunes pousses
et on considère cette fois deux variables explicatives :
I la région (trois modalités)
I la densité de population (cinq modalités).
On cherche à savoir si la région et la densité de population ont un
effet sur la croissance des chênes.

27 / 41
Données

Ici, le tableau croise les deux facteurs et pour chaque couple de


modalité, on dispose d’une observation : Xij la taille de la pousse
observée dans la région i pour une zone de densité de population j.
Région
Densité A B C
1 3 10 13
2 5 8 11
3 6 5 7
4 3 7 11
5 3 5 8

28 / 41
Définition du modèle associé à l’ANOVA
I Pour prendre en compte l’effet du second facteur, il suffit
d’ajouter au modèle un terme βj représentant l’effet de la
jeme modalité du facteur densité de population :

Xij = X̄ + αi + βj + ij

I
SCEtotal = SCEA + SCEB + SCEintra
Avec SCEA qui quantifie la variabilité selon les différentes modalité
de la variable A (idem SCEB ).
3
X
SCEA = nj (X¯•j − X̄ )2
j=1

et
5
X
SCEB = ni (X¯i• − X̄ )2
i=1
29 / 41
Calcul des variabilités

Région X¯i•
Densité A B C
1 3 10 13 8.67
2 5 8 11 8
3 6 5 7 6
4 3 7 11 7
5 3 5 8 5.33
X¯•j 4 7 10 X̄ = 7

30 / 41
Table d’ANOVA

Source de variation SCE ddl CM


Inter-niveau (facteur) SCEA =90 C-1=3-1=2 45
Inter-niveau (facteur) SCEB =22.67 L-1=5-1=4 5.67
Intra-niveau (residuelle) SCEintra =27.33 N-(C+L-1)=15-7=8 3.42
Total SCEtotal =140 N-1=3*5-1=14

31 / 41
Tests: facteur région

I Pour le test de l’effet de la région


H0 : Il n’existe pas d’effet de la région sur la croissance des
chênes.
La statistique de test est définie par :
CMA
CMRes
Et suit sous H0 une loi de Fisher à
(3 − 1), (3 − 1) × (5 − 1) = 2, 8 ddl.
A = 45
I On en déduit que Fobs 3.42 = 13.21
I Or, pour α = 5%, seuil
F2,8 = 4.46
I On rejette donc H0 ce qui permet de conclure à la présence
d’un effet de la région sur la croissance des chênes.

32 / 41
Tests : facteur densité
I Pour le test de l’effet de la densité de population
H0 : Il n’existe pas d’effet de la densité de population sur la
croissance des chênes
La statistique de test est définie par :
CMB
CMRes
Et suit sous H0 une loi de Fisher à
(5 − 1), (3 − 1) × (5 − 1) = 4, 8 ddl.
I B = 1.66
On en déduit que Fobs
I seuil = 3.84
Or, pour α = 5%, F4,8
I On ne rejette donc pas H0 .
I Aucun effet de la densité de population n’a donc pu être mis
en avant.

33 / 41
Résumé ANOVA 2 facteurs

I Cette étude a permis de prendre en compte deux facteurs


I On a montrer que la région avait une influence sur la
croissance des chênes mais pas la densité de population
I Ainsi la région influence la croissance des chênes par des
paramètres différents des paramètres démographiques (des
caractéristiques climatiques par exemple).
Cette étude n’est possible que si l’on considère que les deux
facteurs étudiés sont indépendants. Dans le cas contraire il faut
prendre en compte leur interaction.

34 / 41
Modèle avec interaction

I L’introduction d’une interaction dans le modèle de l’ANOVA,


revient à considérer que l’intensité de l’effet d’un facteur ne
sera pas le même selon la modalité considérée pour le second
facteur.
I On prend en compte cette interaction en introduisant l’effet
αi βj dans le modèle de l’ANOVA. D’où

Xij = X̄ + αi + βj + αi × βj + ij

I
SCEtotal = SCEA + SCEB + SCEAB + SCEintra
I où SCEAB quantifie la variabilité des observations liée à
l’interaction entre les 2 facteurs

35 / 41
Etude de l’effet de l’interaction

I H0 : absence d’effet de l’interaction


I La statistique de test est définie par :
CMAB
CMRes
I Loi de Fisher((C − 1) × (L − 1), dllRes )

36 / 41
ANOVA avec interaction : Exemple

I Cette étude s’intéresse à l’impact des pluies acides sur la flore


d’une région donnée.

I Objectif : étudier l’influence de deux acides nitrique et


sulfurique (HNO3 et H2SO4) sur la production de
chlorophylle d’un type de plante donné.

I La variable à expliquer est la production de chlorophylle

I les variables explicatives sont la pollution par HNO3 d’une


part et par H2SO4 d’autre part.
Ces deux variables d’expositions ont chacune deux modalités (oui -
non).

37 / 41
I On peut supposer l’existence d’interactions biochimiques dans
ce système par exemple si des catalyses ont lieu

I Ainsi il convient de poser le modèle avec interaction suivant :


SCEtotal = SCEA + SCEB + SCEAB + SCEintra

38 / 41
Données

Pour chaque couple de modalités , on dispose de 5 observation

39 / 41
Table d’ANOVA

40 / 41
Test : effet des facteurs

I Acide sulfurique: On a Fobs > F (1, 16), on rejette H0 , il existe


un effet sur la production de chlorophylle

I Acide Nitrique :On a Fobs > F (1, 16), on rejette H0 , il existe


un effet sur la production de chlorophylle

I Interaction: Rejet de H0 , l’effet d’un de ces 2 acides n’est pas


le même selon que l’autre est présent dans le milieu
Cette analyse montre que les 2 acides ont un effet significatifs ur la
production de chlorophylle et que ces deux acides interagissent

41 / 41

Vous aimerez peut-être aussi