Vous êtes sur la page 1sur 42

Analyses de Variance un ou plusieurs facteurs

Rgressions
Analyse de Covariance
Modles Linaires Gnraliss

Professeur Patrice Francour


francour@unice.fr
Une grande partie des illustrations viennent du site Internet de lUniversit dOttawa
(cours de Biostatistiques appliques; Antoine Morin et Scott Findlay)

Quand utiliser lANOVA

Pour tester leffet dune variable indpendante discrte


Chaque variable indpendante est appele un facteur et chaque facteur peut avoir deux ou
plusieurs niveaux ou traitements (ex: niveau d irrigation; temprature d levage; rgion
gographique, etc)
Une ANOVA teste si toutes les moyennes sont gales, donc H0: galit et H1: au moins une
diffrence
Si H0 est rejete pour un seuil ", lANOVA ne dit pas o sont les diffrences
A utiliser quand le nombre de niveaux est suprieur deux

Pourquoi ne pas utiliser plusieurs tests de t?

Pour un nombre de comparaisons k , si H0 est vraie, la probabilit de laccepter pour tous les k
est (1 - ")k
ex: pour 4 moyennes, (1 - ")k =(0.95)6 = .735; alors, " (pour toutes les comparaisons) = 0.265
En comparant les moyennes des 4 chantillons provenant de la mme population on sattend
dtecter des diffrences significatives pour une paire dans 27% des cas

Les diffrents types dANOVA

Type I (effets fixes) : les traitements sont dtermins par le chercheur

ANOVA Type I: effet de la temprature sur le


taux de croissance de la truite

3 traitements (Temprature) dtermins par le


chercheur

la variable dpendante est le taux de


croissance (8), et le facteur (T) est la
temprature

T tant contrl, on peut estimer leffet de


laugmentation dune unit de T (temprature)
sur 8 (le taux de croissance)
et prdire 8 pour dautres tempratures

0.20
0.16
Taux de croissance 8
(cm/jour)

0.12
0.08
0.04
0.00
16

20

24

Temprature (C)

28

Les diffrents types dANOVA

Type I (effets fixes) : les traitements sont dtermins par le chercheur

Type II (effets alatoires) : les traitements ne sont pas sous le contrle


de lexprimentateur

ANOVA Type II: poids de lours noir et


dispersion gographique
280

3 sites (groupes) chantillonns

La variable dpendante est le poids et le


site est le facteur

Pour des sites diffrents les facteurs


contrlant la variabilit sont inconnus
alors, on ne peut prdire le poids pour
dautres sites

240
Poids (kg)

200

160

120
Site 1

Site 2

Site 3

Les diffrents types dANOVA

Type I (effets fixes) : les traitements sont dtermins par le chercheur

Type II (effets alatoires) : les traitements ne sont pas sous le contrle


de lexprimentateur

Type III (modle mixte) : au moins un facteur du Type I et au moins un


du Type II

Diffrences entre les modles

Pour le Type I, les facteurs peuvent tre manipuls par lexprimentateur, pas
dans le Type II

Le Type I nous permet destimer leffet du traitement, de faire des prdictions,


pas le Type II

Les calculs pour les deux types sont identiques mais seulement pour lANOVA un
critre de classification !

Pourquoi le nom ANOVA?

Dans une ANOVA, la variance totale est rpartie en deux composantes:


intergroupe : variance des moyennes des diffrents groupes (traitements)
intragroupe (erreur) : variance des observations autour de la moyenne du groupe

Procdure

Variable
dpendante

Variable(s) indpendante(s)

ANOVA 1 facteur

1 continue

1 discontinue*

* peuvent tre discontinues ou traites comme discontinues (=discrtes)

Deuxime phase de lANOVA

Si la premire phase de lANOVA (comparaison des variances inter et


intragroupes) rejette H0, alors il faut faire des comparaisons multiples de
moyennes.

Les comparaisons multiples peuvent tre planifies (a priori) ou non planifies (a


posteriori).

Une comparaison planifie est indpendante des rsultats de lANOVA; la thorie


prdit quels traitements devraient tre diffrents.

La croissance dun poisson est compare pour diffrentes


tempratures. Si la thorie prvoit quau-dessous de 10 la
croissance devient trs faible, voire nulle, les comparaisons se
feront donc au-dessus et en dessous de cette valeur seuil
(critique).

Deuxime phase de lANOVA

Si la premire phase de lANOVA (comparaison des variances inter et


intragroupes) rejette H0, alors il faut faire des comparaisons multiples de
moyennes.

Les comparaisons multiples peuvent tre planifies (a priori) ou non planifies (a


posteriori).

Une comparaison planifie est indpendante des rsultats de lANOVA; la thorie


prdit quels traitements devraient tre diffrents.

Une comparaison non planifie est dpendante des rsultats de lANOVA.

La croissance dun poisson est compare pour diffrentes


tempratures. Si la thorie prvoit seulement que la croissance
baisse quand la temprature baisse, les comparaisons se feront
donc entre tous les chantillons.

Deuxime phase de lANOVA

Si la premire phase de lANOVA (comparaison des variances inter et


intragroupes) rejette H0, alors il faut faire des comparaisons multiples de
moyennes.

Les comparaisons multiples peuvent tre planifies (a priori) ou non planifies (a


posteriori).

Une comparaison planifie est indpendante des rsultats de lANOVA; la thorie


prdit quels traitements devraient tre diffrents.

Une comparaison non planifie est dpendante des rsultats de lANOVA.

Attention : lANOVA est plus fiable et plus robuste que les comparaisons
multiples. Une CM ne doit pas tre faite si H0 (1 phase ANOVA) est accepte !
Elle pourrait ventuellement voir des diffrences l o il ny en a pas !!

ANOVA plusieurs facteurs

Ce qui a t dit prcdemment concernait 1 seul facteur

Si plusieurs facteurs indpendant peuvent agir, il faut utiliser une ANOVA


plusieurs facteurs (MANOVA)

Contrairement ANOVA 1 facteur, il faut proposer plusieurs H0

Une ANOVA plusieurs facteurs vite de recourir plusieurs ANOVA 1 facteur


pour tester la mme chose.

En plus, une ANOVA plusieurs facteurs permet de tester les interactions entre
facteurs.

ANOVA plusieurs facteurs


Exemple : La croissance dune plante est compare en fonction de la quantit
dengrais (E1, E2 et E3) fournie et du niveau dirrigation (I1, I2 et I3).
Il est possible de proposer 3 ANOVA 1 facteur (Irrigation) pour chacune
des quantits dengrais teste. Il faut donc 3 expriences pour rpondre la
mme question.
La probabilit d'accepter H0 pour toutes les expriences est de (0.95)3 =
0.86. Donc la probabilit de rejeter au moins une H0 qui est vraie est " = 0.14.
En plus les interactions, ventuelles, entre engrais et irrigation ne sont pas
testes.

x
x

Facteur Y

Y1
x
Y2

Facteur X

X: pas deffet; Y:
faible effet (ou rien
si mme ligne); pas
dinteraction

X: effet important;
Y: faible effet; pas
dinteraction

X: pas deffet; Y:
effet important;
pas dinteraction

X: effet important;
Y: effet important;
pas dinteraction

X: pas deffet; Y: pas


deffet; interaction
forte

X: effet important;
Y: pas deffet;
lgre interaction

X: pas deffet; Y: effet


important; interaction
importante

X: effet modr; Y:
effet important;
interaction importante

Les diffrents types dANOVA


plusieurs facteurs

Type I (effets fixes) : les traitements sont dtermins par le chercheur

Exemple : la croissance en taille dun poisson en fonction du pH et de la


temprature de leau, tous deux fixs par lexprimentateur.
La variable dpendante est le taux de croissance et les deux facteurs
sont le pH et la temprature.
Comme les facteurs sont contrls, on peut estimer l'effet de
l'accroissement d'une unit de temprature ou de pH sur le taux de
croissance et le prdire pour d'autres truites.

Les diffrents types dANOVA


plusieurs facteurs

Type I (effets fixes) : les traitements sont dtermins par le chercheur

Type II (effets alatoires) : les traitements ne sont pas sous le contrle


de lexprimentateur
Exemple : la taille dun lzard en fonction de la rgion et de laltitude,
tous deux alatoires (non fixs par lexprimentateur).
La variable dpendante est la taille et les deux facteurs sont la rgion et
laltitude.
Mme si la taille diffre en fonction de la rgion ou de laltitude, on ne
savoir quel facteur est responsable de cette variabilit et prdire la
taille pour une autre rgion ou une autre altitude.

Les diffrents types dANOVA


plusieurs facteurs

Type I (effets fixes) : les traitements sont dtermins par le chercheur

Type II (effets alatoires) : les traitements ne sont pas sous le contrle


de lexprimentateur

Type III (modle mixte) : au moins un facteur du Type I et au moins un


du Type II
Exemple : la taille dun ours en fonction de la rgion (variable alatoire)
et du sexe (variable fixe).
La variable dpendante est la taille et les deux facteurs sont la rgion et
le sexe.
Mme si la taille diffre en fonction de la rgion ou du sexe, on ne savoir
quel facteur est responsable de cette variabilit et prdire la taille des
ours de chaque sexe pour une autre rgion. Par contre, on peut prdire
(peut-tre) la diffrence entre les sexes.

Les facteurs fixes versus les facteurs alatoires


pour l'ANOVA

Manipulation par
lexprimentateur?
Estimation de leffet des
traitements?
Prdiction?
Calcul de lANOVA un critre
de classification
Calcul de lANOVA plusieurs
critres de classification

Facteur fixe

Facteur
alatoire

Oui

Non

Oui

Non

Oui

Non
Identique

Diffrent (trs !)

Il faut donc renseigner soigneusement le modle dans le


logiciel utilis pour faire les calculs !

Procdure

Variable
dpendante

Variable(s) indpendante(s)

ANOVA 1 facteur

1 continue

1 discontinue*

ANOVA n facteurs 1 continue

2 ou plus discontinues *

* peuvent tre discontinues ou traites comme discontinues (=discrtes)

Rgression simple

Ajustement dune ligne droite


travers un nuage de points

Test et quantification de leffet


dune variable indpendante X sur la
variable dpendante Y

prdit

Lintensit de leffet est donne par


la pente (b) de la rgression
Limportance de leffet est donn par
le coefficient de dtermination (r2)

observ

Rgression simple :
coefficients de corrlation et de rgression

La pente est obtenue par:

Le coefficient de corrlation r:

r=

b=

( X i X )(Yi Y )
i =1

X Y

( X i X )2
i =1

Cov ( X , Y )

Cov ( X , Y )

X
2

Alors

X
r=b
Y

Procdure

Variable
dpendante

Variable(s) indpendante(s)

ANOVA 1 facteur

1 continue

1 discontinue*

ANOVA n facteurs 1 continue

2 ou plus discontinues *

Rgression simple

1 continue

1 continue

Rgression multiple 1 continue

2 ou plus continues

* peuvent tre discontinues ou traites comme discontinues (=discrtes)

Rgression et ANOVA
Comparaison Taille-Poids chez diffrents
groupes de Vertbrs
Pour une taille donne, il est normal (on
sattend ) que le poids dun mammifre
soit plus important que celui dun oiseau.
Masse

Deux rgressions diffrentes simposent.

Taille

Maintenant imaginons que lon cherche


comparer des tailles et des poids sans tenir
compte du groupe taxinomique : R serait
probablement trs faible (pas de corrlation
et donc pas de rgression) !
Taille

Rgression et ANOVA
Comparaison du Poids dun animal en fonction de diffrents rgime
alimentaire
Si le rgime alimentaire est riche, il est normal (on sattend ) que le poids
de lanimal soit plus lev.
Si plus de 2 rgimes alimentaires sont compars, une ANOVA 1 facteur (le
rgime) simpose.
Mais quelle est la condition respecter ?
Le poids dpend de la taille; il faut donc quau dbut de lexprience, avant
lapplication du rgime alimentaire test, le poids, donc la taille, de dpart soit
identique. Si cette condition nest pas respecte, lexprience est biaise.
Si cette condition nest pas ralise, il est possible dintroduire dans le modle
la variabilit que lon connat dj : leffet de la taille.
Cest donc une ANOVA (1 facteur) avec une co-variable (taille). On parle
dANCOVA

Une ANOVA classique


mettra en vidence une
diffrence significative
entre les rgimes
alimentaires.

Rgression et ANOVA

Par contre, une simple


observation du graphique montre que les gains
en poids ne sont lis
qu aux gammes diffrentes de taille utilises.

Gain en Poids

Rgime 2
Rgime 1

Lintroduction de la
taille en co-variable ne
mettra plus en vidence
de diffrence significative entre les rgimes
alimentaires !

Contrle
Variable Dpendante : continue
Facteur (=var. indp.) : discret (discontinu)
Co-variable : continue
Taille

Utilisation de lANCOVA

Lorsque lon fait ces comparaisons, on


suppose que les modles sont
qualitativement similaires pour tous les
niveaux de la variable discontinue (la covariable)

autrement ce serait comme comparer des


pommes et des oranges !

ANCOVA est utilise afin de comparer des


modles linaires gnralement.

Y
Modles
qualitativement
similaires

Y
Modles
qualitativement
diffrents

X1

Les Procdures sont homognes


Procdure

Variable
dpendante

Variable(s) indpendante(s)

ANOVA 1 facteur

1 continue

1 discontinue*

ANOVA n facteurs 1 continue

2 ou plus discontinues *

Rgression simple

1 continue

1 continue

Rgression multiple 1 continue

2 ou plus continues

ANCOVA

Au moins 1 discontinue* et au moins


une 1 continue

1 continue

* peuvent tre discontinues ou traites comme discontinues (=discrtes)

Le modle de la rgression simple

Le modle de la rgression:
Yi
ei

Yi = a + bX i + ei

alors, toutes les rgressions simples


sont dcrites par 2 paramtres:
lordonne lorigine (a) et la pente
(b)

a
(ordonne
lorigine)

Xi
Observes
Prdites

Modles GLM simples


Y

Les ordonnes lorigine (a) et les


pentes (b) sont diffrentes.

a & b diffrents

Les ordonnes lorigine sont


diffrents mais les pentes sont
les mmes.

X1

Y
a diffrents
mme b
X1

Modles GLM simples


Y

Mmes ordonne lorigine (a)


mais les pentes (b) sont
diffrentes.

Mmes pentes et mmes


ordonnes lorigine .

Mmes a,
diffrents b
X1

Y
Mmes a,
mmes b
X1

Y: variable dpendante; X: co-facteur (Prdicteur Continu); G: variable indpendante (Prdicteur


Catgoriel; discret). On teste les effets de X, G et X*G (interaction) sur la variable Y
Y

Groupe 1
Groupe 2

Cas 1 : X est significatif, G et X*G ne le sont pas.


Y change en changeant X, alors X a un effet significatif sur Y. Par contre, les
deux points dintersection et les deux pentes sont les mmes.
X
Y

Groupe 1
Groupe 2

Cas 2 : G est significatif, X et X*G ne le sont pas.


Y ne change pas en changeant X, alors X n'a pas d'effet sur Y. Les points
d'intersection des deux groupes sont diffrents, alors G a un effet
significatif sur Y. Par contre, les deux pentes sont gales (zro) donc G*X n'a
pas d'effet sur Y.
X

Cas 3 : G et X sont significatifs, X*G ne l'est pas.

Groupe 1
Groupe 2

X
Y

Groupe 1
Groupe 2

Y change en changeant X, alors X affecte Y. Les points d'intersection des deux


groupes sont diffrents, alors G affecte Y galement. Par contre, les deux
pentes sont gales (les lignes sont parallles) donc l'effet de Y sur X ne varie
pas en fonction de la valeur de G (c'est--dire, dpendant du groupe). Alors
X*G n'est pas significatif.
Cas 4 : G, X et X*G sont significatifs.
Y change en changeant X, alors X affecte Y. Les points d'intersection des deux
groupes sont diffrents, alors G affecte Y galement. En plus, les deux pentes
sont diffrentes (les lignes ne sont pas parallles) donc l'effet de Y sur X dpend
de la valeur de G (c'est--dire, dpend du groupe). Alors X*G est significatif.

Modles GLM simples


Ils peuvent donc tre utiliss pour comparer des droites de rgression.
Par exemple, pour comparer les droites de rgression entre la taille et le poids
pour diffrentes espces :
Poids = variable dpendante
Taille = variable indpendante = prdicteur continu = co-variable
Espce = facteur ou catgorie
Analyse :

Comparer les pentes


Si les pentes ne sont pas statistiquement diffrentes,
comparaison des ordonnes lorigine
Si les pentes sont statistiquement diffrentes, la comparaison
des ordonnes lorigine ne simpose pas.

Tester les pentes revient tester les interactions


Tester les ordonnes lorigine revient tester le prdicteur catgoriel

Effets du sexe et de lge sur les esturgeons


1.9

1.8

Femelles

Mles

1.8

LFKL

LFKL

1.7
1.7

1.6
1.6

1.5
1.0

1.1

1.2

1.3 1.4 1.5


LAGE

1.6

1.7

1.5
1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8
LAGE

1.8

Analyse

Mles

Log(forklength)(LFKL) est la
variable dpendante, log(age)
(LAGE) est la variable indpendante
continue, et sex (SEX$) est la
variable discontinue (2 niveaux)

1.6

1.5
1.0

Q1: la pente de la rgression de


LFKL sur LAGE est la mme pour les
deux sexes?

1.1

1.2 1.3 1.4


LAGE

1.5 1.6

1.7

1.9

1.8
LFKL

LFKL

1.7

Femelles

1.7

1.6

1.5
1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8
LAGE

Effets du sexe et de lge sur les esturgeons


Dep Var: LFKL N: 92 Multiple R: 0.835 Squared multiple R: 0.697

Analysis of Variance
Source

Sum-of-Squares df Mean-Square

LAGE
SEX$
SEX$*LAGE

0.143
0.000
0.000

1
1
1

0.143
0.000
0.000

Error

0.071

88

0.001

F-ratio
176.650
0.504
0.337

P
0.000
0.479
0.563

Conclusion 1 : la pente est la mme pour les deux sexes - p(SEX$*LAGE) > .05
Q2 : lordonne lorigine est-elle la mme?

Effets du sexe et de lge sur les esturgeons


Dep Var: LFKL N: 92 Multiple R: 0.834 Squared multiple R: 0.696

Analysis of Variance
Source

Sum-of-Squares df Mean-Square

SEX$
LAGE

0.001
0.143

1
1

0.001
0.143

Error

0.072

89

0.001

F-ratio

1.851
178.163

P
0.177
0.000

Conclusion 2 : Ordonne lorigine est la mme pour les deux sexes - p(SEX$ > .05)
Le meilleur modle est donc la rgression commune.

Effets du sexe et de lge sur les esturgeons

Dep Var: LFKL N: 92 Multiple R: 0.830 Squared multiple R: 0.690


Adjusted squared multiple R: 0.686 Standard error of estimate: 0.029
Effect
CONSTANT
LAGE

Coefficient
1.211
0.336

Std Error
0.031
0.024

Std Coef Tolerance


0.0
0.830

.
1.000

P(2 Tail)

39.191
14.144

0.000
0.000

Exemple dAnalyse de Covariance (Statistica)


Les rsultats en mathmatiques (Score) sont compars
entre diffrents groupes dtudiants recevant chacun des
mthodes denseignement diffrentes (Group). Le quotient
intellectuel (IQ) est pris comme co-variable.

Dans cet exemple, il ny a pas dinteraction entre le


prdicteur catgoriel (Group) et le prdicteur continu (IQ).
La mthode denseignement dispense aux diffrents
groupes (Group) est suppose indpendante du niveau
intellectuel des tudiants (IQ).

Exemple dAnalyse de Covariance (Statistica)

ANOVA 1 facteur

ANCOVA 1 facteur

Exemple dAnalyse de Covariance (Statistica)

Dans Statistica, la dmarche est la suivante :

prendre loption gnrale


Homogeneity of Slopes : permet de
tester si oui ou non les pentes
diffrent (pas da priori)
si les pentes diffrent rellement
[p(interaction) < 0.05], passer au
modle de co-variance pentes
spares (Separate-slope model)
si les pentes ne diffrent pas
[p(interaction) > 0.05], passer au
modle traditionnel (Analysis of
covariance)

Vous aimerez peut-être aussi