Vous êtes sur la page 1sur 43

Prdire / expliquer les valeurs dune variable

quantitative Y partir dune autre variable X

Ricco Rakotomalala
Ricco.Rakotomalala@univ-lyon2.fr

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC

Position du problme

Exemple de rgression simple (Bourbonnais, page 12)


Expliquer le rendement de mas Y (en quintal) partir de la quantit
d'engrais utilis (en kilo) sur des parcelles de terrain similaires.
Variable prdire
Attribut classe
Variable endogne
Quantitative

Identifiant
(Pas utilis pour les calculs, mais peut
tre utilis pour les commentaires :
points atypiques, etc.)

Modle de rgression simple :

N de parcelle
1
2
3
4
5
6
7
8
9
10

Variables prdictive
Descripteur
Variable exogne
Quantitative ou binaire
Y

16
18
23
24
28
29
26
31
32
34

20
24
28
22
32
28
32
36
41
41

yi = a xi + b + i

 Nous disposons donc dun chantillon de n couples de points (xi,yi) i.i.d (indpendants et identiquement
distribus), et on veut expliquer (prdire) les valeurs de Y en fonction des valeurs prises par X.
 Le terme alatoire permet de rsumer toute linformation qui nest pas prise en compte dans la
relation linaire entre Y et X (problmes de spcifications, approximation de la linarit, rsumer les
variables qui sont absentes, etc.)
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC

Hypothses
Permettent de dterminer les proprits des estimateurs
Et de mettre en place les outils de statistique infrentielle (tests dhypothses, intervalle de confiance)

H1 : Hypothses sur X et Y. Ce sont des grandeurs numriques mesures sans erreur. X est une donne
(exogne) dans le modle, Y est alatoire par lintermdiaire de (c.--d. la seule erreur que lon a sur Y
provient des insuffisances de X expliquer ses valeurs dans le modle).
H2 : Hypothses sur le terme alatoire . Les i sont i.i.d. (indpendants et identiquement distribus)

(H2.a) En moyenne les erreurs sannulent, le modle est bien spcifi

E ( i ) = 0

(H2.b) La variance de lerreur est constante et ne dpend pas de lobservation : homoscdasticit


(H2.c) En particulier, lerreur est indpendante de la variable exogne

V ( i ) = 2

COV ( xi , i ) = 0

(H2.d) Indpendance des erreurs, les erreurs relatives 2 observations sont indpendantes (on dit aussi que
les erreurs ne sont pas corrles )
(H2.e) Loi normale

COV ( i , j ) = 0

i N (0, )

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC

Estimateur des MCO (Moindres carrs ordinaires)


Critre numrique
Critre des moindres carrs : trouver les valeurs de a et b qui
minimise la somme des carrs des carts entre les vraies valeurs

yi
a xi + b

de Y et les valeurs prdites avec le modle de prdiction.


S =

i =1

S =

2
i

[y
i =1

S =

xi

SOLUTION

S
a = 0

S = 0
b

( ax i + b )] 2

ax i b ] 2

[y
i =1

xi y i a xi 2 bx = 0

i
i

y ax b = 0

( yi y )(xi x )

a = i

i (xi x )

b = y ax

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC

Remarque : Pourquoi
pas la somme des
erreurs ? Ou la somme
des carts absolus ?

Equations normales

Estimateurs des moindres carrs


Voir dtail des calculs

Exemple des rendements agricoles


Y
1
2
3
4
5
6
7
8
9
10
Moyenne

(Y-YB)

X
16
18
23
24
28
29
26
31
32
34
26.1

20
24
28
22
32
28
32
36
41
41
30.4

(X-XB)
-10.1
-8.1
-3.1
-2.1
1.9
2.9
-0.1
4.9
5.9
7.9

-10.4
-6.4
-2.4
-8.4
1.6
-2.4
1.6
5.6
10.6
10.6
Somme

(Y-YB)(X-XB) (X-XB)^2
105.04
108.160
51.84
40.960
7.44
5.760
17.64
70.560
3.04
2.560
-6.96
5.760
-0.16
2.560
27.44
31.360
62.54
112.360
83.74
112.360
351.6
492.4

351.6

= 0.714
a =
492.4

b = 26.1 0.714 30.4 = 4.39

35

y = 0.7141x + 4.3928

33
31
29
27
25
23
21
19
17
15
15

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC

20

25

30

35

40

45

Quelques commentaires

Autre criture de la pente a

a =

Erreur et rsidus : erreur =


dfinie dans la spcification du
modle ; rsidus , erreurs
observes sur les donnes

C O V ( X , Y )

=
r
X2

Relation entre la pente et le


coefficient de corrlation
linaire !!!

Y
X

y i = y ( x i )

i = yi y i

= a x i + b

Rsidus de la rgression

Pour la rgression
avec constante !

=0

Voir dtail des calculs

Centre de gravit du nuage de


points : la droite de rgression
passe forcment par le
barycentre du nuage de points.

y ( x ) = ax + b
= ax + ( y ax )
=y

35
33y

= 0.7141x + 4.3928

31
29
27
25
23
21
19
17
15

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC

15

20

25

30

35

40

45

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC

Equation danalyse de variance


Dcomposition de la variance

Objectif de la rgression : minimiser S.


Mais 0 S + ; partir de quand peut-on dire que
la rgression est de bonne qualit ?

(y

S = ( y i y i )

i =1

y ) = ( y i y i + y i y )
2

Somme des carts la moyenne

= ( y i y i ) + ( y i y ) + 2 ( y i y i )( y i y )
2

=0
Voir dtail des calculs

2
2
2

(
y

y
)
=
(
y

y
)
+
(
y

y
)
i
i i i

Dcomposition
de la variance

SCT = SCR + SCE

SCT : somme des carrs totaux


SCE : somme des carrs expliqus par le modle
SCR : somme des carrs rsiduels, non expliqus par le modle
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC

10

Coefficient de dtermination
Et coefficient de corrlation linaire multiple

R2

Coefficient de dtermination.
Exprime la part de variabilit de Y explique par le modle.
R  1, le modle est excellent
R  0, le modle ne sert rien

( y
SCE
=
=
SCT ( y

y)

y)

R2 = 1
R2 = 1

SCR
SCT
2
( yi yi )
i

(y

y)

Coefficient de corrlation
linaire multiple R

On montre que

R = R2

rY , X = sgn(a ) R
Lien entre le coefficient de corrlation linaire (de Pearson) et le coefficient de
corrlation linaire multiple de la rgression linaire simple

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC

11

Exemple des rendements agricoles


y i = axi + b

i = yi y i

= 0.714 xi + 4.39
Y
1
2
3
4
5
6
7
8
9
10
Moyenne

(Y-YB)

X
16
18
23
24
28
29
26
31
32
34
26.1

20
24
28
22
32
28
32
36
41
41
30.4

(X-XB)
-10.1
-8.1
-3.1
-2.1
1.9
2.9
-0.1
4.9
5.9
7.9

-10.4
-6.4
-2.4
-8.4
1.6
-2.4
1.6
5.6
10.6
10.6
Somme

(Y-YB)(X-XB) (X-XB)^2
(Y-YB)^2
Y^
105.04
108.160
102.010
51.84
40.960
65.610
7.44
5.760
9.610
17.64
70.560
4.410
3.04
2.560
3.610
-6.96
5.760
8.410
-0.16
2.560
0.010
27.44
31.360
24.010
62.54
112.360
34.810
83.74
112.360
62.410
351.6
492.4
314.9
SCT
ESTIMATION
a
0.714053615
b
4.392770106

18.674
21.530
24.386
20.102
27.242
24.386
27.242
30.099
33.669
33.669

i2

Rsidus
Rsidus^2
-2.674
7.149
-3.530
12.461
-1.386
1.922
3.898
15.195
0.758
0.574
4.614
21.286
-1.242
1.544
0.901
0.812
-1.669
2.785
0.331
0.110
Somme
63.838749
SCR

SCE = SCT - SCR 251.061251


R 0.79727295
R 0.89290142

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC

12

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC

13

Biais

Les estimateurs sont sans biais si

Etape 1 : Exprimer en fonction de a

E [a ] = a
E b = b

[]

= a + i i
i

Voir dtail des calculs

Etape 2 : Dterminer E() en fonction de a

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC

i =

(xi x )

(x

x)

E ( ) = a + E i i
i

E ( ) = a + i E ( i )
Etape 3 : Identifier sous quelles
conditions E() = a

E ( ) = a

X nest pas alatoire par


hypothse, donc i ne lest pas
E(i) = E() ; les i sont i.i.d.
E() = 0 par hypothse

14

Biais (suite)

Pour b

b = b + (a a )x
Avec les mmes hypothses, on aboutit

()

E b = b

Conclusion : Les EMCO (estimateurs des moindres


carrs ordinaires) sont sans biais, si
 Les X ne sont pas stochastiques (non alatoires)
 E() = 0 c.--d. le modle est bien spcifi

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC

15

Variance

V (a ) = E[(a a ) ]
2

puisque


= E i i

i

= E i2 i2 + 2 ii ' i i '
i <i '

i
= i2 E i2 + 2 ii ' E ( i i ' )
2

( )

( )

Homoscdasticit

avec

(xi x )

(x

x)

i <i '

V ( i ) = E i2 = 2

i =

= a + i i

E ( i i ' ) = 0
Non-autocorrlation des rsidus

V (a ) =

2
(
)
x

x
i
i

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC

16

Convergence

V (a ) =

2
(
)
x

x
i
i

est convergent

De mme, pour b

Est une valeur qui ne dpend pas des effectifs (variance de lerreur
thorique)

2
(
)
x

x
n
+
i
+
i

V (a ) n
0
+

2
x
1

V b = 2 +
n (xi x )2

()

()

V b n
0
+

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC

17

Caractrisation graphique
o

o
o
o
o

(1)
o o
o

( )

E i =
2

o o
o

o o
o

( )

E i =
2

est faible
V (a )

est lev

V (a ) est moyennement leve


Cette lvation est compense par
(xi x )2

la valeur leve de
i

est faible, modle stable

Les estimateurs sont dautant plus prcis que :


o
o
oo oo
o
ooo
oo

(2)

( )

E i =
2

(x x )

est faible
est faible

(1) La variance de lerreur est faible (la droite de


rgression passe bien au milieu des points.
(2) La dispersion des X est forte (les X couvrent
bien lespace de reprsentation)
V (a )

Ladjonction dun point suppl mentaire dans la rgression fait bouger la droite
Le mod le est instable galeme nt

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC

18

Thorme de GAUSS-MARKOV

Les EMCO de la rgression sont sans biais et convergents.

Parmi les estimateurs sans biais, ils sont variance minimale c.--d. il est
impossible de trouver un autre estimateur sans biais plus petite variance

 On dit quils sont BLUE (best linear unbiased estimator)


 Ce sont des estimateurs efficaces

Cf. dmonstration C. Labrousse (1983), page 26

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC

19

Estimation de la variance de lerreur


2

Joue un rle trs important. Comment lestimer partir des donnes ?

Le rsidu est tel que

On montre que
Giraud & Chaix (1994), page 31

On en dduit un
estimateur sans biais

i = yi y i = axi + b + i axi + b

( )

= i (a a )xi b b

E i2 = (n 2 ) 2
i

2 =

2
i

n2

SCR
n2

Parce 2 contraintes avec les


quations normale
Remarque : A propos du degr
de libert (n-2)

xi i = 0
i

i = 0
i

Parce que (simplement), on estim 2 paramtres a et b


dans le modle pour obtenir les prdictions, et donc les rsidus
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC

20

Rendements agricoles

(X-XB)
Y
X (Y-YB)
1
16
20
-10.1
2
18
24
-8.1
3
23
28
-3.1
4
24
22
-2.1
5
28
32
1.9
6
29
28
2.9
7
26
32
-0.1
8
31
36
4.9
9
32
41
5.9
10
34
41
7.9
Somme
Moyenne 26.1 30.4

-10.4
-6.4
-2.4
-8.4
1.6
-2.4
1.6
5.6
10.6
10.6

(Y-YB)(X-XB)
105.04
51.84
7.44
17.64
3.04
-6.96
-0.16
27.44
62.54
83.74
351.6

(X-XB)^2 (Y-YB)^2
Y^
108.160
102.010
40.960
65.610
5.760
9.610
70.560
4.410
2.560
3.610
5.760
8.410
2.560
0.010
31.360
24.010
112.360
34.810
112.360
62.410
492.4
314.9
SCT

Rsidus
18.674
21.530
24.386
20.102
27.242
24.386
27.242
30.099
33.669
33.669

-2.674
-3.530
-1.386
3.898
0.758
4.614
-1.242
0.901
-1.669
0.331
Somme

Rsidus^2
7.149
12.461
1.922
15.195
0.574
21.286
1.544
0.812
2.785
0.110
63.83874898
SCR

sigma(epsilon) 7.979843623
ESTIMATION
a
0.714053615
b
4.392770106

V (a ) = =
2
a

(x x )

sigma(a^) 0.01620602
sigma(b^) 15.7749386

SCR (n 2 )
492.4

sigma(a^) 0.127302862
sigma(b^) 3.971767696

a = a2 = 0.0162 = 0.127

7.9798
= 0.0162
492.4

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC

21

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC

22

Distribution de Variance de lerreur connue


( y y )(x x )
a =
(x x )
i

X est non alatoire

Y lest par lentremise de

N (0, )

a a

Et est issue dune

combinaison linaire de Y

N (0,1)

Distribution de lestimation de la variance de lerreur


a =
2

2
(xi x )
i

Par hypothse

N (0, )

a =
2

2
(xi x )

 on a besoin de connatre la distribution de

Le rsidu tant une ralisation de ,


elle suit aussi une loi normale

i
N (0,1)

2
i

i
= i 2 2 (n 2 )

(n 2) 2 2 (n 2)
2

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC

23

Distribution de Variance de lerreur estime


On vrifie
facilement

On en dduit
ds lors que

a 2
2
(n 2) 2 = (n 2) 2
a

a a
(n 2 )
a

a 2
(n 2) 2 2 (n 2)
a

De la mme
manire, on
montre

b b
(n 2)
b

Intervalle de confiance au niveau (1 - )

A partir de ces
lments, on peut
mettre en place
linfrence statistique

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC

Tests dhypothses au risque

Avec, en particulier le test de


significativit (mesurer limpact
de X dans lexplication de Y via le
modle)

[a t

1 2

H 0 : a = a0

H 1 : a a0

H 0 : a = 0

H1 : a 0

24

Rendements agricoles Tests de significativit des coefficients


(X-XB)
Y
X (Y-YB)
1
16
20
-10.1
2
18
24
-8.1
3
23
28
-3.1
4
24
22
-2.1
5
28
32
1.9
6
29
28
2.9
7
26
32
-0.1
8
31
36
4.9
9
32
41
5.9
10
34
41
7.9
Somme
Moyenne 26.1 30.4

-10.4
-6.4
-2.4
-8.4
1.6
-2.4
1.6
5.6
10.6
10.6

(Y-YB)(X-XB)
105.04
51.84
7.44
17.64
3.04
-6.96
-0.16
27.44
62.54
83.74
351.6

(X-XB)^2 (Y-YB)^2
Y^
108.160
102.010
40.960
65.610
5.760
9.610
70.560
4.410
2.560
3.610
5.760
8.410
2.560
0.010
31.360
24.010
112.360
34.810
112.360
62.410
492.4
314.9
SCT

ESTIMATION
a
0.714053615
b
4.392770106

Rsidus

7.149
12.461
1.922
15.195
0.574
21.286
1.544
0.812
2.785
0.110
63.83874898
SCR

sigma(epsilon)

7.979843623

0.016206019
15.77493863

sigma(a^)
sigma(b^)

0.127302862
3.971767696

ddl

t thorique (bilatral 5%)

2.306004133

Somme

t(a^)
t(b^)

t a =

a 0.714
=
= 5.609
a 0.127

t1 / 2 (8) = t10.05 / 2 (8) = t0.975 (8) = 2.306

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC

Rsidus^2
-2.674
-3.530
-1.386
3.898
0.758
4.614
-1.242
0.901
-1.669
0.331

sigma(a^)
sigma(b^)

18.674
21.530
24.386
20.102
27.242
24.386
27.242
30.099
33.669
33.669

Puisque

5.609093169
rejet H0
1.10599875 acceptation H0

t a > t1 2
Rejet de H0 : a = 0
25

Test de significativit globale du modle

H0 : Le modle namne rien dans lexplication de Y


H1 : Le modle est pertinent (globalement significatif)

Tableau danalyse
de variance

Statistique de test

Rgion critique au
risque

SCE
F = 1 F (1, n 2)
SCR
n2

Remarque : Ecriture de F partir du R

F=

R2
1 R2
(n 2)

F > F1 (1, n 2)
Remarque : Tester la significativit de la
rgression et tester la significativit de la pente
sont quivalents dans la rgression simple.

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC

26

Rendements agricoles Tests de significativit globale


(X-XB)
Y
X (Y-YB)
1
16
20
-10.1
2
18
24
-8.1
3
23
28
-3.1
4
24
22
-2.1
5
28
32
1.9
6
29
28
2.9
7
26
32
-0.1
8
31
36
4.9
9
32
41
5.9
10
34
41
7.9
Somme
Moyenne 26.1 30.4

-10.4
-6.4
-2.4
-8.4
1.6
-2.4
1.6
5.6
10.6
10.6

(Y-YB)(X-XB)
105.04
51.84
7.44
17.64
3.04
-6.96
-0.16
27.44
62.54
83.74
351.6

(X-XB)^2 (Y-YB)^2
108.160
40.960
5.760
70.560
2.560
5.760
2.560
31.360
112.360
112.360
492.4

Y^
102.010
65.610
9.610
4.410
3.610
8.410
0.010
24.010
34.810
62.410
314.9

Rsidus
18.674
21.530
24.386
20.102
27.242
24.386
27.242
30.099
33.669
33.669

Rsidus^2
-2.674
-3.530
-1.386
3.898
0.758
4.614
-1.242
0.901
-1.669
0.331

Somme

SCT
Tableau d'analyse de variance
Source de variation
SC
DDL
Expliqus (Rgression)
251.061251
Rsidus
63.83874898
Total
314.9

ESTIMATION
a
0.714053615
b
4.392770106

SCE
251.06
F= 1 =
= 31.4619
SCR 7.9798
n2

Puisque

F1 (1, 8) = F0.95 (1, 8) = 5.37655


quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC

F calcul

31.46192618

DDL1
DDL2
F thorique ( 5%)

1
8
5.317655063

F > F1

1
8
9

7.149
12.461
1.922
15.195
0.574
21.286
1.544
0.812
2.785
0.110
63.83874898
SCR

CM
251.061251
7.979843623

rejet de H0

Rejet de H0 c.--d. on conclut que le


modle est globalement significatif

Remarque :

F = 31.4619 = 5.609 = t a

27

Rendements agricoles La fonction DROITEREG dEXCEL


Y

X
16
18
23
24
28
29
26
31
32
34

20
24
28
22
32
28
32
36
41
41

DROITEREG

a 0.71405361 4.392770106 b
b
a 0.12730286 3.971767696
2.8248617
R 2 0.79727295
8 n2
F 31.4619262
SCE 251.061251 63.83874898 SCR
Intervalle
t thorique
Borne basse
Borne haute

de confiance 5%
2.30600413 2.306004133
0.42049269 -4.76614262
1.00761454 13.55168283

Test de significativit des coefficients


5.60909317 1.10599875
t de Student
p-value
0.00050487 0.30087418
Test de la rgression globale
F-calcul
31.4619262
DDL numrateur
1
DDL dnominateur
8
p-value
0.00050487
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC

28

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC

29

Prvision ponctuelle

A prdire dune valeur connue de X, prdire la valeur de Y

Pour un individu i*, la


prdiction ponctuelle scrit

y i* = y ( xi* ) = axi* + b

La prdiction est sans biais c.--d.

E ( y i* ) = yi*

En effet,

i* = y i* yi*
= axi* + b (axi* + b + i* )
= (a a )x + b b
i*

( )

( ) ]
( )

E (i* ) = E (a a )xi* + b b i*
= x E (a a ) + E b b E (
i*

i*

i*

0
Les EMCO sont sans biais

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC

0
Lerreur du modle est
nulle par hypothse

30

Prvision par intervalle

Variance de lerreur de prvision

Puisque

i* = y i* yi*
E (i* ) = 0

2
(

)
x
x
1

i*
= 2i*
V (i* ) = E i2* = 2 1 + +
2
n (xi x )

( )

On montre
Giraud & Chaix (1994), page 30

Remarque :
Do la variance estime
de lerreur de prvision

i*

2
(xi* x )
1
= 2 1 + +
n ( xi x )2

(xi* x )
1
hi* = +
n ( xi x )2
2

est le LEVIER de lobservation i*


(Il joue un rle trs important dans la
rgression. Cf. points atypiques).

SCR
n2

(1) 2 =
La variance de
lerreur sera dautant
plus faible que :

2
(2) ( xi* x )

(3)

est petit c.--d. la droite ajuste bien le nuage de points .

est petit c.--d. le point est proche du centre de gravit du nuage.

(x x )

est grand c.--d. la dispersion des points est grande.

(4) n

est grand c.--d. le nombre dobservations ayant servi la construction du modle est lev.

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC

31

Prvision par intervalle

Distribution Dfinition de lintervalle

Puisque

i* = y i* yi* N 0, 1 + hi*

N (0, )

(n 2) 2 2 (n 2)
2

y i* yi*
(n 2 )
i*

y i* t1 2 i*

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC

Rapport dune loi normale avec un KHI-2 normalis

Intervalle de confiance au niveau (1-)

32

Rendements agricoles x* = 38
Y
1
2
3
4
5
6
7
8
9
10
Moyenne

(Y-YB)

X
16
18
23
24
28
29
26
31
32
34
26.1

20
24
28
22
32
28
32
36
41
41
30.4

(X-XB)
-10.1
-8.1
-3.1
-2.1
1.9
2.9
-0.1
4.9
5.9
7.9

-10.4
-6.4
-2.4
-8.4
1.6
-2.4
1.6
5.6
10.6
10.6
Somme

Prdiction ponctuelle 

(Y-YB)(X-XB) (X-XB)^2
Y^
105.04
108.160
51.84
40.960
7.44
5.760
17.64
70.560
3.04
2.560
-6.96
5.760
-0.16
2.560
27.44
31.360
62.54
112.360
83.74
112.360
351.6
492.4

Variance de lerreur de prdiction

2
xi* x )
(
1
2
2
= 1 + +
n (xi x )2

i
i*

1 57.76
= 7.9798 1 + +

10 492.4
= 9.71389

Rsidus
-2.674
-3.530
-1.386
3.898
0.758
4.614
-1.242
0.901
-1.669
0.331

Rsidus^2
7.149
12.461
1.922
15.195
0.574
21.286
1.544
0.812
2.785
0.110
63.838749

sigma(erreur)

7.97984362

18.674
21.530
24.386
20.102
27.242
24.386
27.242
30.099
33.669
33.669
Somme

y i* = axi* + b
= 0.714 38 + 4.39
= 31.5268
ESTIMATION
a
b

0.714053615
4.392770106

x*
y^

38
31.52680747

(x*-xb)^2

57.76

sigma(epsilon^)

9.71389

t (0.975)

2.306004133

borne.basse
borne.haute

24.33965896
38.71395598

Intervalle de prdiction pour x* = 38


40

35

y = 0.7141x + 4.3928

30

25

b.b. = 31.5298 2.306 9.71389 = 24.3397

20

b.h. = 31.5298 + 2.306 9.71389 = 38.7140


15

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC

15

20

25

30

35

40

45

33

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC

34

Modle linaire
Lecture de la pente

Y = aX + b

40

Ex. ventes = -12 * prix + 1000


 Lecture en niveau : si prix = 10 euros alors
ventes = 980 units
 Lecture en termes dvolution : si prix
augmente de 1 euro , les ventes vont
diminuer de 12 units.

35
30
25
Y

20

Linaire

15
10

a = 3; b = 5

5
0
0

10

15

La variation de Y est proportionnelle la variation de X


Avantages
 Simplicit
 Utilis dans une premire approche
 Estimation directe des paramtres par la mthode des MCO

dy
a=
dx

Y = bX

Modle log-linaire

6000

Log-linaire
5000

4000

3000

2000

1000

a = 3; b = 5

10

12

dy
a=

y
dx

Le taux de variation de Y est proportionnelle au taux de variation de X


Avantages
 Modle lasticit constante : favori des conomistes
 Ex. emploi = f(production), demande = f(prix)
 Linarisation : ln(y) = a ln(x) + ln(b)

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC

35

Modle exponentiel
(gomtrique)

Y =e

180000

aX + b

160000

Exponentiel

140000
120000
100000

80000
60000
40000
20000
0

a =8 0.7; 10
b = 5 12

6
X

dy
y
a=
dx

Le taux de variation de Y est proportionnelle la variation de X


Avantages
 Surtout utilis quand x = temps, ainsi dx= 1
 Dans ce cas, la croissance (dcroissance) de Y est constante dans le temps
 Ce type dvolution (croissance exponentielle) ne dure pas longtemps
 Linarisation : ln(y) = a x + ln(b)

Modle logarithmique

12

Y = a ln( X ) + b

Logarithmique
10

a = 2; b = 5

10

12

dy
a=
dx
x

La variation de Y est proportionnelle au taux de variation de X


Avantages
 Archtype de la croissance (dcroissance) qui spuise
 Ex. salaire = f(anciennet) ; vente = f(publicit)

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC

36

Un modle particulier
Le modle logistique

3) Un modle particulier : le modle logistique


Problme :
Tous les modles dans (2) ont une concavit constante
(drive seconde de signe constant), on peut avoir besoin
d un modle plusieurs phases
ex : lancement d un produit dans le temps
Dcollage
produit inconnu
positionnement sur le
march

Equation

Linarisation
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC

Croissance acclre
large diffusion

y = ymin +

ln(

Freinage
saturation du march
concurrence

ymax ymin
1 + e ax + b

ymax y
) = a x+b
y ymin

37

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC

38

Cas des donnes centres


Lorsque les donnes
sont centres

La constante est nulle


par construction

y i = yi y
o
x i = xi x
o

b = y a x = 0

Moyenne

Parce que le barycentre du nuage de


points est lorigine du repre c.--d.

(Y-YB)

X
16
18
23
24
28
29
26
31
32
34
26.1

20
24
28
22
32
28
32
36
41
41
30.4

y=x=0

10

(X-XB)
-10.1
-8.1
-3.1
-2.1
1.9
2.9
-0.1
4.9
5.9
7.9

-10.4
-6.4
-2.4
-8.4
1.6
-2.4
1.6
5.6
10.6
10.6

y = 0.7141x - 2E-15
R = 0.7973

5
0

-15

-10

-5

10

15

-5
-10
-15

La droite passe forcment par le barycentre,


qui se trouve tre lorigine (0, 0) du repre.

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC

39

Cas des donnes non-centres

yi = a xi + i

b = 0  on force le modle passer par


lorigine (0,0) du repre

On veut minimiser

Une quation normale

Estimation de la pente

2
S = = ( yi a xi )

S
=0
a

x y
a =
x

2
i

2
i

X
16
18
23
24
28
29
26
31
32
34

20
24
28
22
32
28
32
36
41
41
0
50

Y^.1
18.6738424
21.5300569
24.3862713
20.1019496
27.2424858
24.3862713
27.2424858
30.0987002
33.6689683
33.6689683
4.39277011
40.0954509

Y^.2
17.0248613
20.4298336
23.8348058
18.7273474
27.2397781
23.8348058
27.2397781
30.6447504
34.9009657
34.9009657
0
42.5621533

Rg.1 - Avec constante


0.71405361 4.39277011
a
b
Rg.2 - Sans constante
0.85124307
a

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC

45
40
35
30
25
20
15
10
5
0
0

10

20

30

40

50

40

Cas des donnes non-centres (suite)

A propos du R

A propos des
degrs de libert

Le coefficient de dtermination R na plus de sens parce que : SCT SCE + SCR


 Ca ne sert rien de le calculer

Un seul paramtre a estim partir des donnes  ddl = n - 1

2 =
a =
2

SCR
n 1

Estimateur sans biais de la variance de lerreur

(x )

Variance de la pente estime

a a
(n 1)
a

A propos des
performances

Sert pour les intervalles de confiance


Pour les tests de significativit
Pour les autres tests

SCR (modle avec constante) SCR (modle sans constante)


 Pourquoi sembter avec un modle sans constante alors ???
 Pour les possibilits dinterprtations

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC

41

Cas des donnes non-centres Un exemple


Comparaison des salaires lintrieur des mnages
Numero
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

Sal.Homme Sal.Femme
7.43
7.20
6.83
7.06
6.97
7.10
7.85
7.39
7.48
6.97
7.86
7.50
7.44
7.16
7.83
7.77
7.36
7.78
7.28
7.47
7.53
7.51
8.40
8.07
7.48
7.25
7.46
6.79
7.33
7.14
7.80
7.38
7.57
7.53
6.02
6.03
7.28
7.05
8.42
8.01
7.42
7.25
7.47
7.59
7.14
7.20
7.29
6.93
8.28
7.85
6.98
7.29
8.03
7.94
7.69
7.11
6.67
6.76
7.92
7.72

En termes de rgression linaire simple (Y : Sal.H ; X : Sal.F)

yi = a xi + i

Test dhypothses
(Attention : test unilatral ) !

a^
sigma(a)

0
1.021323921
#N/A
0.006821202
0.998708093 0.27418841
22418.42983
29 ddl
1685.401501 2.18019923

a^-1

0.021323921

t calcul

3.126123666

t-thorique (95%)

1.699126996

Conclusion

Rejet de H0

En moyenne, lhomme a-t-il un salaire plus


lev que sa conjointe dans les mnages
(lorsque les deux sont salaris ?)
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC

H 0 : a = 1

H1 : a > 1

t =

a 1 1 . 0213 1
=
a
0 . 00682

t = 3 . 126 > t 1 ( n 1 ) = t 0 . 95 ( 29 ) = 1 . 699


42

Bibliographique

R. Bourbonnais, conomtrie , Dunod, 1998.


Y.Dodge, V.Rousson, Analyse de rgression applique , Dunod, 2004.
M. Tenenhaus, Statistique : Mthodes pour dcrire, expliquer et

prvoir , Dunod, 2007.

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC

43