Vous êtes sur la page 1sur 43

quipe de recherche en Ingnierie des Connaissances

Laboratoire ERIC
1
Prdire / expliquer les valeurs dune variable
quantitative Y partir dune autre variable X
Ricco Rakotomalala
Ricco.Rakotomalala@univ-lyon2.fr
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
2
Position du problme
Variable prdire
Attribut classe
Variable endogne
Quantitative
Variables prdictive
Descripteur
Variable exogne
Quantitative ou binaire
Identifiant
(Pas utilis pour les calculs, mais peut
tre utilis pour les commentaires :
points atypiques, etc.)
Exemple de rgression simple (Bourbonnais, page 12)
Expliquer le rendement de mas Y (en quintal) partir de la quantit
d'engrais utilis (en kilo) sur des parcelles de terrain similaires.
N de parcelle Y X
1 16 20
2 18 24
3 23 28
4 24 22
5 28 32
6 29 28
7 26 32
8 31 36
9 32 41
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
3
9 32 41
10 34 41
i i i
b x a y + + =
Modle de rgression simple :
Nous disposons donc dun chantillon de n couples de points (x
i
,y
i
) i.i.d (indpendants et identiquement
distribus), et on veut expliquer (prdire) les valeurs de Y en fonction des valeurs prises par X.
Le terme alatoire permet de rsumer toute linformation qui nest pas prise en compte dans la
relation linaire entre Y et X (problmes de spcifications, approximation de la linarit, rsumer les
variables qui sont absentes, etc.)
Hypothses
Permettent de dterminer les proprits des estimateurs
Et de mettre en place les outils de statistique infrentielle (tests dhypothses, intervalle de confiance)
H1 : Hypothses sur X et Y. Ce sont des grandeurs numriques mesures sans erreur. X est une donne
(exogne) dans le modle, Y est alatoire par lintermdiaire de (c.--d. la seule erreur que lon a sur Y
provient des insuffisances de X expliquer ses valeurs dans le modle).
H2 : Hypothses sur le terme alatoire . Les
i
sont i.i.d. (indpendants et identiquement distribus)
(H2.a) En moyenne les erreurs sannulent, le modle est bien spcifi
( ) 0 = E
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
4
(H2.a) En moyenne les erreurs sannulent, le modle est bien spcifi
(H2.b) La variance de lerreur est constante et ne dpend pas de lobservation : homoscdasticit
(H2.c) En particulier, lerreur est indpendante de la variable exogne
(H2.d) Indpendance des erreurs, les erreurs relatives 2 observations sont indpendantes (on dit aussi que
les erreurs ne sont pas corrles )
(H2.e) Loi normale
( ) 0 =
i
E
( )
2

=
i
V
0 ) , ( =
i i
x COV
0 ) , ( =
j i
COV
( )

, 0 N
i

quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
5
Estimateur des MCO (Moindres carrs ordinaires)
Critre numrique

i
x
i
y
b x a
i
+
i

Critre des moindres carrs : trouver les valeurs de a et b qui


minimise la somme des carrs des carts entre les vraies valeurs
de Y et les valeurs prdites avec le modle de prdiction.

=
=
=
=
+ =
=
n
i
i i
n
i
i i
n
i
i
b ax y S
b ax y S
S
1
2
1
2
1
2
] [
)] ( [

Remarque : Pourquoi
pas la somme des
erreurs ? Ou la somme
des carts absolus ?
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
6
SOLUTION

0
0
b
S
a
S

=
=

0
0
2
b x a y
x b x a y x
i i
i i i
Equations normales

( )( )
( )

x a y b
x x
x x y y
a
i
i
i
i i

2
Estimateurs des moindres carrs
Voir dtail des calculs
Exemple des rendements agricoles
Y X (Y-YB) (X-XB) (Y-YB)(X-XB) (X-XB)^2
1 16 20 -10.1 -10.4 105.04 108.160
2 18 24 -8.1 -6.4 51.84 40.960
3 23 28 -3.1 -2.4 7.44 5.760
4 24 22 -2.1 -8.4 17.64 70.560
5 28 32 1.9 1.6 3.04 2.560
6 29 28 2.9 -2.4 -6.96 5.760
7 26 32 -0.1 1.6 -0.16 2.560
8 31 36 4.9 5.6 27.44 31.360
9 32 41 5.9 10.6 62.54 112.360
10 34 41 7.9 10.6 83.74 112.360
Moyenne 26.1 30.4 Somme 351.6 492.4
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
7
y = 0.7141x + 4.3928
15
17
19
21
23
25
27
29
31
33
35
15 20 25 30 35 40 45

= =
= =
39 . 4 4 . 30 714 . 0 1 . 26

714 . 0
4 . 492
6 . 351

b
a
Quelques commentaires
Autre criture de la pente a
X
Y
X
r
Y X V O C
a

) , (

2
= =
Erreur et rsidus : erreur =
dfinie dans la spcification du
modle ; rsidus , erreurs
observes sur les donnes

b x a
x y y
i
i i

) (
+ =
=

i i i
y y
=
Rsidus de la rgression
Pour la rgression
Relation entre la pente et le
coefficient de corrlation
linaire !!!
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
8
0 =

i
i

Centre de gravit du nuage de


points : la droite de rgression
passe forcment par le
barycentre du nuage de points.
Pour la rgression
avec constante !

y
x a y x a
b x a x y
=
+ =
+ =
) (

) (
Voir dtail des calculs
y = 0.7141x + 4.3928
15
17
19
21
23
25
27
29
31
33
35
15 20 25 30 35 40 45
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
9
Equation danalyse de variance
Dcomposition de la variance

( ) ( )
( ) ( ) ( )( ) y y y y y y y y
y y y y y y
i
i
i i
i
i
i
i i
i
i i i
i
i
+ + =
+ =


2

2 2
2 2

( )

=
=
n
i
i i
y y S
1
2

Objectif de la rgression : minimiser S.


Mais 0 S + ; partir de quand peut-on dire que
la rgression est de bonne qualit ?
Somme des carts la moyenne
= 0
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
10
( ) ( ) ( )
SCE SCR SCT
y y y y y y
i
i
i
i i
i
i
+ =
+ =

2 2 2

= 0
Dcomposition
de la variance
SCT : somme des carrs totaux
SCE : somme des carrs expliqus par le modle
SCR : somme des carrs rsiduels, non expliqus par le modle
Voir dtail des calculs
Coefficient de dtermination
Et coefficient de corrlation linaire multiple
( )
( )
( )
( )

=
=

= =
i
i
i
i i
i
i
i
i
y y
y y
R
SCT
SCR
R
y y
y y
SCT
SCE
R
2
2
2
2
2
2
2

1
1

Coefficient de dtermination.
Exprime la part de variabilit de Y explique par le modle.
R 1, le modle est excellent
R 0, le modle ne sert rien
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
11
Coefficient de corrlation
linaire multiple R
2
R R =
On montre que
R a sgn r
X Y
= ) (
,
Lien entre le coefficient de corrlation linaire (de Pearson) et le coefficient de
corrlation linaire multiple de la rgression linaire simple
Y X (Y-YB) (X-XB) (Y-YB)(X-XB) (X-XB)^2 (Y-YB)^2 Y^ Rsidus Rsidus^2
1 16 20 -10.1 -10.4 105.04 108.160 102.010 18.674 -2.674 7.149
2 18 24 -8.1 -6.4 51.84 40.960 65.610 21.530 -3.530 12.461
3 23 28 -3.1 -2.4 7.44 5.760 9.610 24.386 -1.386 1.922
4 24 22 -2.1 -8.4 17.64 70.560 4.410 20.102 3.898 15.195
5 28 32 1.9 1.6 3.04 2.560 3.610 27.242 0.758 0.574
6 29 28 2.9 -2.4 -6.96 5.760 8.410 24.386 4.614 21.286
7 26 32 -0.1 1.6 -0.16 2.560 0.010 27.242 -1.242 1.544
8 31 36 4.9 5.6 27.44 31.360 24.010 30.099 0.901 0.812
9 32 41 5.9 10.6 62.54 112.360 34.810 33.669 -1.669 2.785
10 34 41 7.9 10.6 83.74 112.360 62.410 33.669 0.331 0.110
Exemple des rendements agricoles
39 . 4 714 . 0


+ =
+ =
i
i i
x
b x a y
i i i
y y =
2

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC
12
10 34 41 7.9 10.6 83.74 112.360 62.410 33.669 0.331 0.110
Moyenne 26.1 30.4 Somme 351.6 492.4 314.9 Somme 63.838749
SCT SCR
ESTIMATION
a 0.714053615
b 4.392770106 SCE = SCT - SCR 251.061251
R 0.79727295
R 0.89290142
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
13
Biais
[ ]
[ ] b b E
a a E
=
=

Les estimateurs sont sans biais si


Etape 1 : Exprimer en fonction de a

+ =
i
i i
a
O
( )
( )

=
j
j
i
i
x x
x x
2

Voir dtail des calculs


quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
14
Etape 2 : Dterminer E() en fonction de a
Etape 3 : Identifier sous quelles
conditions E() = a
( ) |

\
|
+ =

i
i i
E a E
( ) ( )

+ =
i
i i
E a E
X nest pas alatoire par
hypothse, donc
i
ne lest pas
( ) a E =
E(
i
) = E() ; les
i
sont i.i.d.
E() = 0 par hypothse
Biais (suite)
( )x a a b b + =


Pour b
Avec les mmes hypothses, on aboutit
( ) b b E =

Conclusion : Les EMCO (estimateurs des moindres


quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
15
Conclusion : Les EMCO (estimateurs des moindres
carrs ordinaires) sont sans biais, si
Les X ne sont pas stochastiques (non alatoires)
E() = 0 c.--d. le modle est bien spcifi
Variance
( ) ( )
( ) ( )

<
<
+ =
(

+ =
(
(

\
|
=
=
'
' '
2 2
'
' '
2 2
2
2
2
2
]

i i
i i i i
i
i i
i i i
i i i i i i
i
i i
E E
E
E
a a E a V




+ =
i
i i
a
puisque
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
16

< ' i i i
( )
2 2
) (

= =
i i
E V
Homoscdasticit
( ) 0
'
=
i i
E
Non-autocorrlation des rsidus
avec
( )
( )

=
j
j
i
i
x x
x x
2

( )
( )


=
i
i
x x
a V
2
2

Convergence
( )
( )


=
i
i
x x
a V
2
2

Est une valeur qui ne dpend pas des effectifs (variance de lerreur
thorique)
2

( ) +
+

n
i
i
x x
2
est convergent
( ) 0
+ n
a V
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
17
De mme, pour b
( )
( )
(
(
(

+ =

i
i
x x
x
n
b V
2
2
2
1

( ) 0


+ n
b V
Caractrisation graphique

o
o
o
o
o
o
o
o
o
o
o
o
( )
2 2

=
i
E est faible
) (a V
est faible, modle stable
o
o
o
o
o
o
o
o
o
o
o
o
( )
2 2

=
i
E est lev
) (a V
Cette lvation est compense par
la valeur leve de
( )
2


i
i
x x
est moyennement leve
(1)
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
18
o
o
o
o
o
o
o
o
o
o
o
o
( )
2 2

=
i
E est faible
( )
2


i
i
x x est faible
) (a V
?
Ladjonction dun point supplmentaire dans la rgression fait bouger la droite
Le modle est instable galement
(2)
Les estimateurs sont dautant plus prcis que :
(1) La variance de lerreur est faible (la droite de
rgression passe bien au milieu des points.
(2) La dispersion des X est forte (les X couvrent
bien lespace de reprsentation)
Thorme de GAUSS-MARKOV
Les EMCO de la rgression sont sans biais et convergents.
Parmi les estimateurs sans biais, ils sont variance minimale c.--d. il est
impossible de trouver un autre estimateur sans biais plus petite variance
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
19
impossible de trouver un autre estimateur sans biais plus petite variance
On dit quils sont BLUE (best linear unbiased estimator)
Ce sont des estimateurs efficaces
Cf. dmonstration C. Labrousse (1983), page 26
Estimation de la variance de lerreur
2

Joue un rle trs important. Comment lestimer partir des donnes ?


Le rsidu est tel que
( )
( ) ( ) b b x a a
b x a b ax y y
i i
i i i i i i
=
+ + + = =


On montre que
Giraud & Chaix (1994), page 31
( )
2 2
2

= |

\
|

n E
i
i
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
20
On en dduit un
estimateur sans biais
2 2

2
2

n
SCR
n
i
i

Remarque : A propos du degr


de libert (n-2)
Parce 2 contraintes avec les
quations normale

=
=

i
i
i
i i
x
0
0

Parce que (simplement), on estim 2 paramtres a et b


dans le modle pour obtenir les prdictions, et donc les rsidus
Rendements agricoles
Y X (Y-YB) (X-XB) (Y-YB)(X-XB) (X-XB)^2 (Y-YB)^2 Y^ Rsidus Rsidus^2
1 16 20 -10.1 -10.4 105.04 108.160 102.010 18.674 -2.674 7.149
2 18 24 -8.1 -6.4 51.84 40.960 65.610 21.530 -3.530 12.461
3 23 28 -3.1 -2.4 7.44 5.760 9.610 24.386 -1.386 1.922
4 24 22 -2.1 -8.4 17.64 70.560 4.410 20.102 3.898 15.195
5 28 32 1.9 1.6 3.04 2.560 3.610 27.242 0.758 0.574
6 29 28 2.9 -2.4 -6.96 5.760 8.410 24.386 4.614 21.286
7 26 32 -0.1 1.6 -0.16 2.560 0.010 27.242 -1.242 1.544
8 31 36 4.9 5.6 27.44 31.360 24.010 30.099 0.901 0.812
9 32 41 5.9 10.6 62.54 112.360 34.810 33.669 -1.669 2.785
10 34 41 7.9 10.6 83.74 112.360 62.410 33.669 0.331 0.110
Moyenne 26.1 30.4 Somme 351.6 492.4 314.9 Somme 63.83874898
SCT SCR
sigma(epsilon) 7.979843623
ESTIMATION
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
21
ESTIMATION
a 0.714053615 sigma(a^) 0.01620602 sigma(a^) 0.127302862
b 4.392770106 sigma(b^) 15.7749386 sigma(b^) 3.971767696
( )
( )
0162 . 0
4 . 492
9798 . 7
4 . 492
2
) (

2
2
2

= =

= =

n SCR
x x
a V
i
i
a

127 . 0 0162 . 0
2

= = =
a a

quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
22
Distribution de Variance de lerreur connue
( )( )
( )


=
i
i
i
i i
x x
x x y y
a
2

X est non alatoire


Y lest par lentremise de
( )

, 0 N
( ) 1 , 0

N
a a
a

Et est issue dune


combinaison linaire de Y
Distribution de lestimation de la variance de lerreur
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
23
( )


=
i
i
a
x x
2
2
2

on a besoin de connatre la distribution de


2

( )

, 0 N
Par hypothse
Le rsidu tant une ralisation de ,
elle suit aussi une loi normale
( )


=
i
i
a
x x
2
2
2

) 1 , 0 (

N
i

( ) 2

2
2
2
2
=
|
|

\
|


n
i
i
i
i


( ) ( ) 2

2
2
2
2
n n

Distribution de Variance de lerreur estime


( ) ( )
2
2
2

= n n
a
a
On vrifie
facilement
( ) ( ) 2

2
2
2

n n
a
a

( ) 2

n
a a
a

On en dduit
ds lors que
( ) 2

n
b b
b

De la mme
manire, on
montre
Intervalle de confiance au niveau (1 - )
[ ] t a
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
24
A partir de ces
lments, on peut
mettre en place
linfrence statistique
Intervalle de confiance au niveau (1 - )
[ ]
a
t a
2 1



Tests dhypothses au risque

=
0 1
0 0
:
:
a a H
a a H
Avec, en particulier le test de
significativit (mesurer limpact
de X dans lexplication de Y via le
modle)

=
0 :
0 :
1
0
a H
a H
Rendements agricoles Tests de significativit des coefficients
Y X (Y-YB) (X-XB) (Y-YB)(X-XB) (X-XB)^2 (Y-YB)^2 Y^ Rsidus Rsidus^2
1 16 20 -10.1 -10.4 105.04 108.160 102.010 18.674 -2.674 7.149
2 18 24 -8.1 -6.4 51.84 40.960 65.610 21.530 -3.530 12.461
3 23 28 -3.1 -2.4 7.44 5.760 9.610 24.386 -1.386 1.922
4 24 22 -2.1 -8.4 17.64 70.560 4.410 20.102 3.898 15.195
5 28 32 1.9 1.6 3.04 2.560 3.610 27.242 0.758 0.574
6 29 28 2.9 -2.4 -6.96 5.760 8.410 24.386 4.614 21.286
7 26 32 -0.1 1.6 -0.16 2.560 0.010 27.242 -1.242 1.544
8 31 36 4.9 5.6 27.44 31.360 24.010 30.099 0.901 0.812
9 32 41 5.9 10.6 62.54 112.360 34.810 33.669 -1.669 2.785
10 34 41 7.9 10.6 83.74 112.360 62.410 33.669 0.331 0.110
Moyenne 26.1 30.4 Somme 351.6 492.4 314.9 Somme 63.83874898
SCT SCR
sigma(epsilon) 7.979843623
ESTIMATION
a 0.714053615 sigma(a^) 0.016206019 sigma(a^) 0.127302862
b 4.392770106 sigma(b^) 15.77493863 sigma(b^) 3.971767696
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
25
609 . 5
127 . 0
714 . 0

= = =
a
a
a
t

306 . 2 ) 8 ( ) 8 ( ) 8 (
975 . 0 2 / 05 . 0 1 2 / 1
= = =

t t t

b 4.392770106 sigma(b^) 15.77493863 sigma(b^) 3.971767696
ddl 8
t thorique (bilatral 5%) 2.306004133
t(a^) 5.609093169 rejet H0
t(b^) 1.10599875 acceptation H0
Puisque
2 1
> t t
a
Rejet de H0 : a = 0
Test de significativit globale du modle
H0 : Le modle namne rien dans lexplication de Y
H1 : Le modle est pertinent (globalement significatif)
Tableau danalyse
de variance
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
26
Statistique de test
( ) 2 , 1
2
1

= n F
n
SCR
SCE
F
Rgion critique au
risque
) 2 , 1 (
1
>

n F F

Remarque : Ecriture de F partir du R
( )
( ) 2
1
2
2

=
n
R
R
F
Remarque : Tester la significativit de la
rgression et tester la significativit de la pente
sont quivalents dans la rgression simple.
Rendements agricoles Tests de significativit globale
Y X (Y-YB) (X-XB) (Y-YB)(X-XB) (X-XB)^2 (Y-YB)^2 Y^ Rsidus Rsidus^2
1 16 20 -10.1 -10.4 105.04 108.160 102.010 18.674 -2.674 7.149
2 18 24 -8.1 -6.4 51.84 40.960 65.610 21.530 -3.530 12.461
3 23 28 -3.1 -2.4 7.44 5.760 9.610 24.386 -1.386 1.922
4 24 22 -2.1 -8.4 17.64 70.560 4.410 20.102 3.898 15.195
5 28 32 1.9 1.6 3.04 2.560 3.610 27.242 0.758 0.574
6 29 28 2.9 -2.4 -6.96 5.760 8.410 24.386 4.614 21.286
7 26 32 -0.1 1.6 -0.16 2.560 0.010 27.242 -1.242 1.544
8 31 36 4.9 5.6 27.44 31.360 24.010 30.099 0.901 0.812
9 32 41 5.9 10.6 62.54 112.360 34.810 33.669 -1.669 2.785
10 34 41 7.9 10.6 83.74 112.360 62.410 33.669 0.331 0.110
Moyenne 26.1 30.4 Somme 351.6 492.4 314.9 Somme 63.83874898
SCT SCR
ESTIMATION Source de variation SC DDL CM
a 0.714053615 Expliqus (Rgression) 251.061251 1 251.061251
b 4.392770106 Rsidus 63.83874898 8 7.979843623
Tableau d'analyse de variance
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
27
b 4.392770106 Rsidus 63.83874898 8 7.979843623
Total 314.9 9
F calcul 31.46192618 rejet de H0
DDL1 1
DDL2 8
F thorique ( 5%) 5.317655063
4619 . 31
9798 . 7
06 . 251
2
1
= =

=
n
SCR
SCE
F
37655 . 5 ) 8 , 1 ( ) 8 , 1 (
95 . 0 1
= =

F F

Puisque

>
1
F F
Rejet de H0 c.--d. on conclut que le
modle est globalement significatif
Remarque :
a
t F

609 . 5 4619 . 31 = = =
Rendements agricoles La fonction DROITEREG dEXCEL
Y X
16 20
18 24
23 28
24 22
28 32
29 28
26 32
31 36
32 41
34 41
DROITEREG
0.71405361 4.392770106
0.12730286 3.971767696
0.79727295 2.8248617
31.4619262 8
251.061251 63.83874898
t thorique 2.30600413 2.306004133
Intervalle de confiance 5%
a
b

a

b


2
R

2 n
F
SCE
SCR
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
28
t thorique 2.30600413 2.306004133
Borne basse 0.42049269 -4.76614262
Borne haute 1.00761454 13.55168283
t de Student 5.60909317 1.10599875
p-value 0.00050487 0.30087418
F-calcul 31.4619262
DDL numrateur 1
DDL dnominateur 8
p-value 0.00050487
Test de significativit des coefficients
Test de la rgression globale
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
29
Prvision ponctuelle
A prdire dune valeur connue de X, prdire la valeur de Y
Pour un individu i*, la
prdiction ponctuelle scrit
b x a x y y
i i i

) (
* * *
+ = =
La prdiction est sans biais c.--d.
( )
* *

i i
y y E =
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
30
En effet,
( )
( ) ( )
* *
* * *
* * *


i i
i i i
i i i
b b x a a
b ax b x a
y y

+ =
+ + + =
=
( ) ( ) ( ) [ ]
( ) ( ) ( )
* *
* * *


i i
i i i
E b b E a a E x
b b x a a E E


+ =
+ =
0
Les EMCO sont sans biais
0
Lerreur du modle est
nulle par hypothse
Prvision par intervalle
Variance de lerreur de prvision
( ) 0

*
* * *
=
=
i
i i i
E
y y

( ) ( )
( )
( )
2

2
2
*
2 2
* *
*
1
1
i
i
i
i
i i
x x
x x
n
E V

=
(
(
(

+ + = =

On montre
Puisque
Giraud & Chaix (1994), page 30
( )
( )
(
(
(

+ + =

i
i
i
x x
x x
n
i
2
2
*
2 2

1
1
*


Do la variance estime
de lerreur de prvision
( )
( )

+ =
i
i
i
i
x x
x x
n
h
2
2
*
*
1
est le LEVIER de lobservation i*
(Il joue un rle trs important dans la
Remarque :
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
31
La variance de
lerreur sera dautant
plus faible que :
2

=
n
SCR

est petit c.--d. la droite ajuste bien le nuage de points .


( )
2
*
x x
i

est petit c.--d. le point est proche du centre de gravit du nuage.
( )


i
i
x x
2
(1)
(2)
(3) est grand c.--d. la dispersion des points est grande.
(4) n est grand c.--d. le nombre dobservations ayant servi la construction du modle est lev.
(Il joue un rle trs important dans la
rgression. Cf. points atypiques).
Prvision par intervalle
Distribution Dfinition de lintervalle
Puisque
( )

, 0 N
( )
* * * *
1 , 0
i i i i
h N y y + =


( ) ( ) 2

2
2
2
2
n n

( ) 2

* *

n
y y
i i
Rapport dune loi normale avec un KHI-2 normalis
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
32
( ) 2

* *

n
y y
i
i i

*
2 1 *

i
t y
i


Rapport dune loi normale avec un KHI-2 normalis
Intervalle de confiance au niveau (1-)
Rendements agricoles x* = 38
Y X (Y-YB) (X-XB) (Y-YB)(X-XB) (X-XB)^2 Y^ Rsidus Rsidus^2
1 16 20 -10.1 -10.4 105.04 108.160 18.674 -2.674 7.149 ESTIMATION
2 18 24 -8.1 -6.4 51.84 40.960 21.530 -3.530 12.461 a 0.714053615
3 23 28 -3.1 -2.4 7.44 5.760 24.386 -1.386 1.922 b 4.392770106
4 24 22 -2.1 -8.4 17.64 70.560 20.102 3.898 15.195
5 28 32 1.9 1.6 3.04 2.560 27.242 0.758 0.574 x* 38
6 29 28 2.9 -2.4 -6.96 5.760 24.386 4.614 21.286 y^ 31.52680747
7 26 32 -0.1 1.6 -0.16 2.560 27.242 -1.242 1.544
8 31 36 4.9 5.6 27.44 31.360 30.099 0.901 0.812 (x*-xb)^2 57.76
9 32 41 5.9 10.6 62.54 112.360 33.669 -1.669 2.785
10 34 41 7.9 10.6 83.74 112.360 33.669 0.331 0.110 sigma(epsilon^) 9.71389
Moyenne 26.1 30.4 Somme 351.6 492.4 Somme 63.838749
t (0.975) 2.306004133
sigma(erreur) 7.97984362
borne.basse 24.33965896
borne.haute 38.71395598
5268 . 31
39 . 4 38 714 . 0


* *
=
+ =
+ = b x a y
i i
Variance de lerreur de prdiction
Prdiction ponctuelle
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
33
y = 0.7141x + 4.3928
15
20
25
30
35
40
15 20 25 30 35 40 45
Intervalle de prdiction pour x* = 38 ( )
( )
71389 . 9
4 . 492
76 . 57
10
1
1 9798 . 7
1
1
2
2
* 2 2

*
=
(

+ + =
(
(
(

+ + =

i
i
i
x x
x x
n
i


7140 . 38 71389 . 9 306 . 2 5298 . 31 . .
3397 . 24 71389 . 9 306 . 2 5298 . 31 . .
= + =
= =
h b
b b
Variance de lerreur de prdiction
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
34
Modle linaire
Lecture de la pente
b aX Y + =
Ex. ventes = -12 * prix + 1000
Lecture en niveau : si prix = 10 euros alors
ventes = 980 units
Lecture en termes dvolution : si prix
augmente de 1 euro , les ventes vont
diminuer de 12 units.
dx
dy
a =
La variation de Y est proportionnelle la variation de X
Avantages
Simplicit
Utilis dans une premire approche
Estimation directe des paramtres par la mthode des MCO
0
5
10
15
20
25
30
35
40
0 5 10 15
Y
X
Linaire
a = 3; b = 5
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
35
Modle log-linaire
a
bX Y =
x
dx
y
dy
a =
Le taux de variation de Y est proportionnelle au taux de variation de X
Avantages
Modle lasticit constante : favori des conomistes
Ex. emploi = f(production), demande = f(prix)
Linarisation : ln(y) = a ln(x) + ln(b)
0
1000
2000
3000
4000
5000
6000
0 2 4 6 8 10 12
Y
X
Log-linaire
a = 3; b = 5
Modle exponentiel
(gomtrique)
b aX
e Y
+
=
dx
y
dy
a =
Le taux de variation de Y est proportionnelle la variation de X
Avantages
Surtout utilis quand x = temps, ainsi dx= 1
Dans ce cas, la croissance (dcroissance) de Y est constante dans le temps
Ce type dvolution (croissance exponentielle) ne dure pas longtemps
Linarisation : ln(y) = a x + ln(b)
0
20000
40000
60000
80000
100000
120000
140000
160000
180000
0 2 4 6 8 10 12
Y
X
Exponentiel
a = 0.7; b = 5
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
36
Modle logarithmique
b X a Y + = ) ln(
x
dx
dy
a =
La variation de Y est proportionnelle au taux de variation de X
Avantages
Archtype de la croissance (dcroissance) qui spuise
Ex. salaire = f(anciennet) ; vente = f(publicit)
0
2
4
6
8
10
12
0 2 4 6 8 10 12
Y
X
Logarithmique
a = 2; b = 5

3) Un modle particulier : le modle logistique
Problme :
Tous les modles dans (2) ont une concavit constante
(drive seconde de signe constant), on peut avoir besoin
d un modle plusieurs phases
ex : lancement d un produit dans le temps
Dcollage
produit inconnu
positionnement sur le
march
Croissance acclre
large diffusion
Freinage
saturation du march
concurrence
Un modle particulier
Le modle logistique
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
37
Equation
b ax
e
y y
y y
+
+

+ =
1
min max
min
Linarisation b x a
y y
y y
+ =

) ln(
min
max
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
38
Cas des donnes centres
Lorsque les donnes
sont centres

=
=
x x x
y y y
i
i
o
i i
o
0

= =

o o
x a y b
La constante est nulle
par construction
Parce que le barycentre du nuage de
points est lorigine du repre c.--d.
0 = =

o o
x y
Y X (Y-YB) (X-XB)
16 20 -10.1 -10.4
10
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
39
16 20 -10.1 -10.4
18 24 -8.1 -6.4
23 28 -3.1 -2.4
24 22 -2.1 -8.4
28 32 1.9 1.6
29 28 2.9 -2.4
26 32 -0.1 1.6
31 36 4.9 5.6
32 41 5.9 10.6
34 41 7.9 10.6
Moyenne 26.1 30.4
y = 0.7141x - 2E-15
R = 0.7973
-15
-10
-5
0
5
-15 -10 -5 0 5 10 15
La droite passe forcment par le barycentre,
qui se trouve tre lorigine (0, 0) du repre.
Cas des donnes non-centres
b = 0 on force le modle passer par
lorigine (0,0) du repre
i i i
x a y + =
( )

= =
i
i i
i
i
x a y S
2
2

On veut minimiser Une quation normale


0 =

a
S

=
i
i
i
i i
x
y x
a
2

Estimation de la pente
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
40
Y X Y^.1 Y^.2
16 20 18.6738424 17.0248613
18 24 21.5300569 20.4298336
23 28 24.3862713 23.8348058
24 22 20.1019496 18.7273474
28 32 27.2424858 27.2397781
29 28 24.3862713 23.8348058
26 32 27.2424858 27.2397781
31 36 30.0987002 30.6447504
32 41 33.6689683 34.9009657
34 41 33.6689683 34.9009657
0 4.39277011 0
50 40.0954509 42.5621533
Rg.1 - Avec constante
0.71405361 4.39277011
a b
Rg.2 - Sans constante
0.85124307
a
0
5
10
15
20
25
30
35
40
45
0 10 20 30 40 50
Cas des donnes non-centres (suite)
Le coefficient de dtermination R na plus de sens parce que : SCT SCE + SCR
Ca ne sert rien de le calculer
A propos du R
A propos des
degrs de libert
Un seul paramtre a estim partir des donnes ddl = n - 1
1

=
n
SCR

Estimateur sans biais de la variance de lerreur


quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
41
( )

=
i
i
a
x
2
2
2

Variance de la pente estime


( ) 1

n
a a
a

Sert pour les intervalles de confiance


Pour les tests de significativit
Pour les autres tests
A propos des
performances
SCR (modle avec constante) SCR (modle sans constante)
Pourquoi sembter avec un modle sans constante alors ???
Pour les possibilits dinterprtations
Cas des donnes non-centres Un exemple
Comparaison des salaires lintrieur des mnages
Numero Sal.Homme Sal.Femme
1 7.43 7.20
2 6.83 7.06
3 6.97 7.10
4 7.85 7.39
5 7.48 6.97
6 7.86 7.50
7 7.44 7.16
8 7.83 7.77
9 7.36 7.78
10 7.28 7.47
11 7.53 7.51
12 8.40 8.07
13 7.48 7.25
14 7.46 6.79
15 7.33 7.14
16 7.80 7.38
17 7.57 7.53
18 6.02 6.03
i i i
x a y + =
En termes de rgression linaire simple (Y : Sal.H ; X : Sal.F)
Test dhypothses
(Attention : test unilatral ) !

>
=
1 :
1 :
1
0
a H
a H
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
42
18 6.02 6.03
19 7.28 7.05
20 8.42 8.01
21 7.42 7.25
22 7.47 7.59
23 7.14 7.20
24 7.29 6.93
25 8.28 7.85
26 6.98 7.29
27 8.03 7.94
28 7.69 7.11
29 6.67 6.76
30 7.92 7.72
En moyenne, lhomme a-t-il un salaire plus
lev que sa conjointe dans les mnages
(lorsque les deux sont salaris ?)
a^ 1.021323921 0
sigma(a) 0.006821202 #N/A
0.998708093 0.27418841
22418.42983 29 ddl
1685.401501 2.18019923
a^-1 0.021323921
t calcul 3.126123666
t-thorique (95%) 1.699126996
Conclusion Rejet de H0
00682 . 0
1 0213 . 1

=
a
a
t

699 . 1 ) 29 ( ) 1 ( 126 . 3
95 . 0 1
= = > =

t n t t

Bibliographique
R. Bourbonnais, conomtrie , Dunod, 1998.
Y.Dodge, V.Rousson, Analyse de rgression applique , Dunod, 2004.
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
43
Y.Dodge, V.Rousson, Analyse de rgression applique , Dunod, 2004.
M. Tenenhaus, Statistique : Mthodes pour dcrire, expliquer et
prvoir , Dunod, 2007.

Vous aimerez peut-être aussi