Vous êtes sur la page 1sur 45

1/6

2/6

3/6

4/6

5/6

6/6

12. R
egression lin
eaire simple
MTH2302D

S. Le Digabel et F. Gilbert, Ecole


Polytechnique de Montr
eal

A2013
(v1)

MTH2302D: r
egression

1/45

1/6

2/6

3/6

4/6

5/6

6/6

Plan
1. Introduction
2. R
egression lin
eaire simple
3. Estimation des param`
etres
4. Intervalles de confiance et tests
5. Analyse des r
esidus
6. Corr
elation

MTH2302D: r
egression

2/45

1/6

2/6

3/6

4/6

5/6

6/6

1. Introduction
2. R
egression lin
eaire simple
3. Estimation des param`
etres
4. Intervalles de confiance et tests
5. Analyse des r
esidus
6. Corr
elation

MTH2302D: r
egression

3/45

1/6

2/6

3/6

4/6

5/6

6/6

R
egression lin
eaire : introduction
But : etablir un lien entre une variable dependante Y et une
variable independante X pour pouvoir ensuite faire des previsions
sur Y lorsque X est mesuree.
Exemple 1
Lanalyse de la temperature de fonctionnement dun procede
chimique sur le rendement du produit a donne les valeurs suivantes
pour la temperature Xi et le rendement correspondant Yi :
Temperature C
100
110
120
130
140
MTH2302D: r
egression

Rendement %
45
51
54
61
66

Temperature C
150
160
170
180
190

Rendement %
70
74
78
85
89
4/45

1/6

2/6

3/6

4/6

5/6

6/6

Exemple 1 (suite)
Le graphe ci-dessous represente les points (Xi , Yi ) pour ces
donnees et sugg`ere une relation lineaire entre X et Y .
rendement vs temprature
90

85

80

75

70

65

60

55

50

45

40
90

MTH2302D: r
egression

110

130

150

170

190

5/45

1/6

2/6

3/6

4/6

5/6

6/6

1. Introduction
2. R
egression lin
eaire simple
3. Estimation des param`
etres
4. Intervalles de confiance et tests
5. Analyse des r
esidus
6. Corr
elation

MTH2302D: r
egression

6/45

1/6

2/6

3/6

4/6

5/6

6/6

Mod`
ele lin
eaire
D
efinition
Un mod`ele de regression lineaire simple est de la forme
Y = 0 + 1 X +
o`
u
I

Y est la variable dependante (une v.a.).

0 et 1 sont les coefficients (ordonnee `a lorigine et pente).

X est la variable independante (variable explicative).

est une erreur aleatoire.

MTH2302D: r
egression

7/45

1/6

2/6

3/6

4/6

5/6

6/6

Mod`
ele lin
eaire (suite)
Lesperance de Y pour chaque X est le point sur la droite
dequation E(Y |X) = 0 + 1 X.
On suppose que
I

Pour chaque valeur de X, E() = 0 et V() = 2 .

N(0, 2 ).

Les erreurs sont independantes (non correlees).

On cherche `
a
I

Estimer les param`etres 0 , 1 et 2 .

Verifier si le mod`ele est adequat.

MTH2302D: r
egression

8/45

1/6

2/6

3/6

4/6

5/6

6/6

1. Introduction
2. R
egression lin
eaire simple
3. Estimation des param`
etres
4. Intervalles de confiance et tests
5. Analyse des r
esidus
6. Corr
elation

MTH2302D: r
egression

9/45

1/6

2/6

3/6

4/6

5/6

6/6

Param`
etres 0 et 1
Supposons que n paires dobservations (X1 , Y1 ), (X2 , Y2 ), . . .,
(Xn , Yn ) ont ete faites. Substituant dans le mod`ele lineaire, on
obtient
Yi = 0 + 1 Xi + i

i = Yi 0 1 Xi .

Les coefficients sont determines par la methode des moindres


carres qui minimise la somme des carres des erreurs :
L(0 , 1 ) =

n
X

(Yi 0 1 Xi )2 .

i=1

On resout le syst`eme de deux equations `a deux inconnues


L(0 , 1 ) = 0.
MTH2302D: r
egression

10/45

1/6

2/6

3/6

4/6

5/6

6/6

Param`
etres 0 et 1 (suite)
L(0 , 1 ) = 0

Y 1 X

Pn

i=1 Xi Yi n X Y
2
2
i=1 Xi nX

Pn

avec
1
n

Pn

X=

SXX =

SY Y =

SXY

i=1 Xi

Pn

et Y =

i=1 (Xi

Pn

1
n

SXY
SXX

Pn

i=1 Yi .

X)2 =

Y )2 =

Pn

2
i=1 Xi

Pn

2
i=1 Yi

nX = (n 1)S 2 .
2

nY .
Pn
Pn
= i=1 (Xi X)(Yi Y ) = i=1 Xi Yi n X Y .
i=1 (Yi

Exemple 2 : retrouver ces formules.


MTH2302D: r
egression

11/45

1/6

2/6

3/6

4/6

5/6

6/6

Droite de r
egression pour lexemple 1
90

85

80

75

70

donnes

65

droite de rgression
60

55

50

45

40
90

110

130

150

170

190

Voir fichier Excel.


MTH2302D: r
egression

12/45

1/6

2/6

3/6

4/6

5/6

6/6

Propri
et
es de 0 et 1
La droite de regression estimee est Y = 0 + 1 X.
Les variables aleatoires 0 et 1 sont des estimateurs de lordonnee
`a lorigine 0 et de la pente 1 .
Th
eor`
eme
1. E(0 ) = 0 et E(1 ) = 1 (estimateurs non biaises).
#
"
2
X
2
1
2
+
et V(1 ) =
.
2. V(0 ) =
n SXX
SXX
3. Cov(0 , 1 ) =

MTH2302D: r
egression

2X
.
SXX

13/45

1/6

2/6

3/6

4/6

5/6

6/6

Param`
etre 2
Rappel : le mod`ele de regression est Y = 0 + 1 X + avec
N(0, 2 ).
La difference entre la valeur estimee Yi = 0 + 1 Xi et la valeur
observee Yi est appelee residu et est denotee Ei = Yi Yi .
On definit
I La somme des carr
es d
ue `a lerreur par
SSE =

n
X
i=1

Ei2 =

n
X

(Yi Yi )2 .

i=1

La somme des carres d


ue `a la regression par
SSR =

n
X
i=1

MTH2302D: r
egression

S2
(Yi Y )2 = 12 SXX = XY .
SXX
14/45

1/6

2/6

3/6

4/6

5/6

6/6

Param`
etre 2 (suite)
La quantite SY Y represente la variabilite totale des Yi . On peut la
decomposer par
SY Y = SST = SSE + SSR .
Th
eor`
eme
1. E(SSE ) = (n 2) 2 .
2.
2 =

MTH2302D: r
egression

SSE
M SE est donc un estimateur sans biais de 2 .
n2

15/45

1/6

2/6

3/6

4/6

5/6

6/6

Exemple 1 (suite)
Lanalyse de la temperature de fonctionnement dun procede
chimique sur le rendement du produit a donne les valeurs suivantes
pour la temperature Xi et le rendement correspondant Yi :
Temperature C
100
110
120
130
140

Rendement %
45
51
54
61
66

Temperature C
150
160
170
180
190

Rendement %
70
74
78
85
89

Voir fichier Excel.

MTH2302D: r
egression

16/45

1/6

2/6

3/6

4/6

5/6

6/6

1. Introduction
2. R
egression lin
eaire simple
3. Estimation des param`
etres
4. Intervalles de confiance et tests
5. Analyse des r
esidus
6. Corr
elation

MTH2302D: r
egression

17/45

1/6

2/6

3/6

4/6

5/6

6/6

Distributions pour 0 et 1
Th
eor`
eme
La statistique
0 0
r
h
i
2
M SE n1 + SXXX
suit une loi de Student `a n 2 degres de liberte.
Th
eor`
eme
La statistique
1
p 1
M SE /SXX
suit une loi de Student `a n 2 degres de liberte.

MTH2302D: r
egression

18/45

1/6

2/6

3/6

4/6

5/6

6/6

Intervalles de confiance pour 0 et 1


Th
eor`
eme
Intervalles de confiance bilateraux au niveau de confiance 1
pour 0 et 1 :

v
#
"
u
2
u
X
1
+
= 0 t/2;n2 tM SE
n SXX

= 1 t/2;n2

M SE
.
SXX

Voir fichier Excel.


MTH2302D: r
egression

19/45

1/6

2/6

3/6

4/6

5/6

6/6

Intervalles de confiance pour la droite de r


egression
Il sagit dun intervalle de confiance pour E(Y0 |x0 ), la reponse
moyenne `a la valeur x0 .
Pour x0 donne soit Y0 = 0 + 1 x0 lestimateur de E(Y0 |x0 ).
Th
eor`
eme
Intervalle de confiance pour E(Y0 |x0 ) au niveau de confiance
1 :
s


1 (x0 X)2
E(Y0 |x0 ) = Y0 t/2;n2 M SE
+
n
SXX

MTH2302D: r
egression

20/45

1/6

2/6

3/6

4/6

5/6

6/6

Exemple 1 (suite)
Le calcul de lintervalle de confiance `a 95% en chaque point
x0 = Xi , i = 1, 2, . . . , 10 donne le tableau suivant :
x0

100

110

120

130

140

y0

45.56

50.39

55.22

60.05

64.88

limites

1.30

1.10

0.93

0.79

0.71

x0

150

160

170

180

190

y0

69.72

74.55

79.38

84.21

89.04

limites

0.71

0.79

0.93

1.10

1.30

Voir fichier Excel.


MTH2302D: r
egression

21/45

1/6

2/6

3/6

4/6

5/6

6/6

Exemple 1 (suite)
`a partir des donnees du tableau precedent, on a trace lintervalle de
confiance pour la droite de regression :
89

84

79

74

donnes

69

droite de rgression
sous-approx.

64

sur-approx.

59

54

49

44
95

105

MTH2302D: r
egression

115

125

135

145

155

165

175

185

195

22/45

1/6

2/6

3/6

4/6

5/6

6/6

Intervalles de pr
evision
Soit x0 une valeur quelconque. La valeur correspondante de Y est
Y0 = Y |x0 = 0 + 1 x0 + 0 . On estime ponctuellement Y0 par
Y0 = 0 + 1 x0 .
La statistique
r

Y0 Y0
h
M SE 1 + n1 +

(Xx0 )2
SXX

suit une loi de Student `a n 2 degres de liberte.


Th
eor`
eme
Intervalle de prevision pour la valeur de Y en x0 :
s


2
1
(X

x
)
0
Y0 = Y0 t/2;n2 M SE 1 + +
.
n
SXX
MTH2302D: r
egression

23/45

1/6

2/6

3/6

4/6

5/6

6/6

Remarques : IC vs IP
I

Les longueurs des deux types dintervalles croissent lorsque x0


seloigne de X.

LIC de la droite de regression ne convient pas pour effectuer


des previsions puisquil concerne la vraie reponse moyenne au
point X = x0 , soit un param`etre de la population, et non une
nouvelle observation, i.e. une nouvelle valeur pour la v.a. Y .

LIP en x0 est toujours plus grand que lIC en x0 car il depend


de lerreur associee aux futures observations.

I
I

LIP prend en compte une nouvelle observation, do`


u une
2
augmentation de ' M SE de la variance.
LIP nest valide que pour une nouvelle observation `a la fois.
Pour une serie de nouvelles observations, il faut mettre `a jour
le mod`ele au fur et `a mesure.

Voir fichier Excel.

MTH2302D: r
egression

24/45

1/6

2/6

3/6

4/6

5/6

6/6

Exemple 1 (suite)
`a partir des donnees du tableau precedent, on a trace lintervalle de
prevision pour = 5% :
118

98

78

donnes
droite de rgression
sous-approx.
sur-approx.

58

38

18
50

70

MTH2302D: r
egression

90

110

130

150

170

190

210

230

250

25/45

1/6

2/6

3/6

4/6

5/6

6/6

Tests dhypoth`
eses pour 0
La distribution
0 0,0
t0 = r
h
i Tn2
2
1
X
M SE n + SXX
permet de tester des hypoth`eses du type
H0 :
H1 :

0 = 0,0
0 6= 0,0

On rejette H0 au seuil si |t0 | > t/2;n2 .

MTH2302D: r
egression

26/45

1/6

2/6

3/6

4/6

5/6

6/6

Tests dhypoth`
eses pour 1
La distribution

1 1,0
t0 = p
Tn2
M SE /SXX

permet de tester des hypoth`eses du type


H0 :
H1 :

1 = 1,0
1 6= 1,0

On rejette H0 au seuil si |t0 | > t/2;n2 .

MTH2302D: r
egression

27/45

1/6

2/6

3/6

4/6

5/6

6/6

Tableau danalyse de la variance


Linformation donnee par les valeurs SY Y , SSE et SSR est
presentee dans un tableau danalyse de la variance :
Source de
variation

Somme
des carres

Nombre
de d.d.l.

Regression

SSR

M SR =

SSR
1

Residus

SSE

n2

M SE =

SSE
n2

SST = SY Y

n1

Total

MTH2302D: r
egression

Moyenne
des carres

F0
M SR
M SE

28/45

1/6

2/6

3/6

4/6

5/6

6/6

Signification de la r
egression
Il sagit de tester les hypoth`eses
H0 :
H1 :

1 = 0
1 6= 0

Accepter H0 implique que lon conclut quil ny a pas de relation


lineaire entre X et Y . Ceci peut signifier que
I

La relation entre X et Y nest pas lineaire.

La variation de X influe peu ou pas sur la variation de Y .

Au contraire, rejeter H0 implique que lon conclut que la variation


de X influe sur la variation de Y .
Le crit`ere est : rejeter H0 au seuil si F0 > F;1,n2 , ou encore si
la valeur-P calculee est petite, avec valeur-P =P (F1,n2 F0 ).
MTH2302D: r
egression

29/45

1/6

2/6

3/6

4/6

5/6

6/6

Exemple 1 : tableau danalyse de la variance

Source de
variation

Somme
des carres

Nombre
de d.d.l.

Regression

SSR = 1924.88

Residus
Total

Moyenne
des carres

F0

M SR = 1924.88

2131.57

SSE = 7.22

M SE = 0.90

SST = 1932.10

P -val. : P (F1,8 F0 ) ' 5.35 1011 < = 5% on rejette H0 .

MTH2302D: r
egression

30/45

1/6

2/6

3/6

4/6

5/6

6/6

Siginification de la r
egression (suite)
On ne rejette pas H0 :
y

MTH2302D: r
egression

31/45

1/6

2/6

3/6

4/6

5/6

6/6

Siginification de la r
egression (suite)
On rejette H0 :
y

MTH2302D: r
egression

32/45

1/6

2/6

3/6

4/6

5/6

6/6

1. Introduction
2. R
egression lin
eaire simple
3. Estimation des param`
etres
4. Intervalles de confiance et tests
5. Analyse des r
esidus
6. Corr
elation

MTH2302D: r
egression

33/45

1/6

2/6

3/6

4/6

5/6

6/6

Rappel des hypoth`


eses pour la r
egression lin
eaire

Tout ce qui a ete fait jusquici suppose que


I

Pour chaque X, E() = 0 et V() = 2 est constante.

Les erreurs sont non correlees.

Les erreurs sont distribuees normalement.

On veut verifier, apr`es que les observations soient faites, si ces


hypoth`eses sont satisfaites.

MTH2302D: r
egression

34/45

1/6

2/6

3/6

4/6

5/6

6/6

Analyse graphique des r


esidus
Pour verifier lhypoth`ese sur 2 , on peut tracer le graphe des
points (Yi , Ei ) ou (Xi , Ei ). Les situations possibles sont illustrees
ci-dessous.
Situation a) : Convenable :
ei

^
yi
MTH2302D: r
egression

35/45

1/6

2/6

3/6

4/6

5/6

6/6

Analyse graphique des r


esidus (suite)
Situation b) : La variance augmente avec la valeur de Yi (ou Xi ),
donc 2 nest pas constante :
ei

^
yi

MTH2302D: r
egression

36/45

1/6

2/6

3/6

4/6

5/6

6/6

Analyse graphique des r


esidus (suite)
Situation c) : La variance 2 nest pas constante :
ei

^
yi

MTH2302D: r
egression

37/45

1/6

2/6

3/6

4/6

5/6

6/6

Analyse graphique des r


esidus (suite)
Situation d) : Le mod`ele lineaire nest pas approprie :
ei

^
yi

MTH2302D: r
egression

38/45

1/6

2/6

3/6

4/6

5/6

6/6

Test de la normalit
e des r
esidus

Si les residus Ei sont normalement distribues alors les erreurs i le


sont aussi.
On peut tester si les residus suivent une loi normale avec :
I

Un histogramme.

Un test de normalite (par ex. Shapiro-Wilk).

Un graphique de probabilite normal des Ei .

MTH2302D: r
egression

39/45

1/6

2/6

3/6

4/6

5/6

6/6

Exemple 1 (suite)
Graphe des points (Yi , Ei ) :
Predicted vs. Residual Scores
Dependent variable: Rend
1,4
1,2
1,0
0,8
0,6
0,4
Residuals

0,2
0,0
-0,2
-0,4
-0,6
-0,8
-1,0
-1,2
-1,4
-1,6
40

45

50

55

60

65

70

Predicted Values

MTH2302D: r
egression

75

80

85

90

95

0,95 Conf.Int.

40/45

1/6

2/6

3/6

4/6

5/6

6/6

Exemple 1 (suite)
Graphe de probabilite normal des Ei :
Normal Probability Plot of Residuals
2,0

1,5

Expected Normal Value

1,0

0,5

0,0

-0,5

-1,0

-1,5

-2,0
-1,6

-1,4

-1,2

-1,0

-0,8

-0,6

-0,4

-0,2

0,0

0,2

0,4

0,6

0,8

1,0

1,2

1,4

Residuals

MTH2302D: r
egression

41/45

1/6

2/6

3/6

4/6

5/6

6/6

Coefficient de d
etermination
Le coefficient de determination du mod`ele de regression lineaire est
R2 =

SSR
2 SXX
SSE
= 1
=1
.
SY Y
SY Y
SY Y

Le coefficient R2 mesure le pourcentage de la variabilite totale


SY Y qui est expliquee par le mod`ele.
Si R2 est proche de 1, alors le mod`ele semble adequat.
Exemple 1 : R2 ' 99.63%.

MTH2302D: r
egression

42/45

1/6

2/6

3/6

4/6

5/6

6/6

1. Introduction
2. R
egression lin
eaire simple
3. Estimation des param`
etres
4. Intervalles de confiance et tests
5. Analyse des r
esidus
6. Corr
elation

MTH2302D: r
egression

43/45

1/6

2/6

3/6

4/6

5/6

6/6

Coefficient de corr
elation
Rappel : La correlation entre deux variables aleatoires X et Y est
mesuree par le coefficient
Cov(X, Y )
= p
.
V(X)V(Y )
D
efinition
Le coefficient de correlation echantillonnal est
r=

SXY
.
SXX SY Y

Le coefficient de correlation est estime ponctuellement par r.


Exemple 1 : r ' 99.81%.
MTH2302D: r
egression

44/45

1/6

2/6

3/6

4/6

5/6

6/6

Interpr
etation du coefficient de corr
elation
On peut montrer que 1 r 1.
I

Si r = 1 ou r = 1 alors il y a correlation parfaite entre X et


Y et les points (Xi , Yi ) sont tous sur la droite de regression.

Si r = 0 alors il ny a pas de correlation entre X et Y et les


points (Xi , Yi ) sont disperses au hasard.

Si 0 < r < 1 alors il y a correlation positive faible, moyenne


ou forte entre X et Y . Dans ce cas, une augmentation de X
entrane une augmentation de Y .

Si 1 < r < 0 alors il y a correlation negative faible, moyenne


ou forte entre X et Y . Dans ce cas, une augmentation de X
entrane une diminution de Y .

MTH2302D: r
egression

45/45