Vous êtes sur la page 1sur 16

Présentation des sorties des modèles

linéaires à l’aide de l’ANOVA

Définition:
Les mathématiques et les processus de décision utilisés par
les scientifiques sont interdépendantes. L'analyse de la
variance (terme souvent abrégé par le terme anglais
ANOVA : ANalysis Of VAriance) représente l'intégration
des mathématiques dans le processus décisionnel utilisés en
science.

Ronald Fisher
Encore et toujours lui !
Un test F ou un Chisq ?

Sir Ronald Aylmer Fisher,


(17 Février 1890 - 29 Juillet 1962) statisticien anglais,
biologiste évolutionniste.
Il a été décrit par Anders Hald comme «un génie qui a
presque à lui seul créer les fondations pour la science
moderne de la statistique," et Richard Dawkins a décrit
comme «le plus grand des successeurs de Darwin"
Variable à expliquer :
Perte de rendement
Y
35

30
H1
25

20
H0
15

10

0 X
0 5 10 15 20 25
Variable explicative : densité de «peste»
Cas d’une régression on cherche la droite résumant
au mieux la relation entre deux variables
Y
35

30

25

20

15

10

0 X
0 5 10 15 20 25
Y
35

30

25

20

my 15

10

0 X
0 5 10 15 20 25
Dispersion Totale de Y,
Somme des Carrés Totaux (SCT)
Y
35

30

25

20

my 15

10

0 X
0 5 10 15 20 25
Dispersion due à la régression
Somme des Carrés Expliqués (SCE)
Y
35

30

25

20

my 15

10

0 X
0 5 10 15 20 25
Dispersion résiduelle
Somme des Carrés Résiduel (SCR)
Y
35

30

25

20

my 15

10

0 X
0 5 10 15 20 25
Les dispersions sont additives
SCT = SCR+SCE
Y
35

30

25

20

my 15

10

0 X
0 5 10 15 20 25
L'évaluation globale de la pertinence du modèle de prédiction s'appuie sur
l'équation d'analyse de variance SCT = SCE + SCR, où

•SCT, somme des carrés totaux, traduit la variabilité totale de l'endogène ;

•SCE, somme des carrés expliqués, traduit la variabilité expliquée par le


modèle ;

•SCR, somme des carrés résiduels correspond à la variabilité non-expliquée


par le modèle.

Toutes ces informations sont résumées dans un tableau, le tableau d'analyse


de variance.
L'évaluation globale de la pertinence du modèle de prédiction s'appuie sur
l'équation d'analyse de variance SCT = SCE + SCR, où

•SCT, somme des carrés totaux, traduit la variabilité totale de l'endogène ;

•SCE, somme des carrés expliqués, traduit la variabilité expliquée par le


modèle ;

•SCR, somme des carrés résiduels correspond à la variabilité non-expliquée


par le modèle.

Toutes ces informations sont résumées dans un tableau, le tableau d'analyse


de variance.

Source de variation Somme des carrés Degrés de liberté Carrés moyens

Expliquée p

Résiduelle n-p-1

Totale n-1

p = nombre de variables, n = nombre d’échantillons


Dans le meilleur des cas, SCR = 0, le modèle 35

arrive à prédire exactement toutes les valeurs de y 30

à partir des valeurs des x j. 25

20

15

10
Dans le pire des cas, SCE = 0, le meilleur
5
prédicteur de y est sa moyenne .
0
0 5 10 15 20 25

Un indicateur spécifique permet de traduire la


variance expliquée par le modèle, il s'agit du
coefficient de détermination.
Sa formule est la suivante :

est le coefficent de corrélation multiple.


Dans le meilleur des cas, SCR = 0, le modèle
arrive à prédire exactement toutes les valeurs de y
à partir des valeurs des x j.

35

Dans le pire des cas, SCE = 0, 30

Ici la droite de régression est confondue avec la 25

moyenne de y, le meilleur prédicteur de y est sa 20

moyenne . 15

10

0
0 5 10 15 20 25

Un indicateur spécifique permet de traduire la


variance expliquée par le modèle, il s'agit du
coefficient de détermination.
Sa formule est la suivante :

est le coefficent de corrélation multiple.


Dans le meilleur des cas, SCR = 0, le modèle
arrive à prédire exactement toutes les valeurs de y
à partir des valeurs des x j.

Dans le pire des cas, SCE = 0, le meilleur


prédicteur de y est sa moyenne .

Un indicateur spécifique permet de traduire la


variance expliquée par le modèle, il s'agit du
coefficient de détermination.
Sa formule est la suivante :

est le coefficent de corrélation multiple.


Le R²ajusté sert à la régression multiple, en effet un R² ne diminue
jamais lorsqu’une nouvelle variable est ajoutée au modèle. Le
coefficient R²ajusté peut lui diminuer (et même devenir négatif). Si
R²ajusté augmente cela signifie que le modèle avec la nouvelle
variable est meilleur que le précédent. Un test peut cependant
être réaliser pour départager deux modèle

Vous aimerez peut-être aussi