Vous êtes sur la page 1sur 8

La régression linéaire

Objectif :

On souhaite expliquer une variable par d’autres vriables en cherchant un modèle entre la variable expliquée et la ou les variables explicatives.

Exemple.

On considère le nombre d’articles d’un produit vendus par une entreprise au cours des 5 dernières années.

Année

Vente (milliers)

2005

14

2006

16

200

20

2007

21

2008

24

1. Nuage statistique.

vente d'un produit ( milliers )

30 20 10 0 2003 2004 2005 2006 2007 2008 2009 Vente
30
20
10
0
2003
2004
2005
2006
2007
2008
2009
Vente

Année

D’après ce graphique la vente augmente linéairement avec le temps, d’où l’existence d’une tendance linéaire entre la vente et le temps.

1

2. Caractéristiques.

Rang Vente Année xi yi Xi Yi Xi^2 Yi^2 Xi Yi 2004 1 14 -2
Rang
Vente
Année
xi
yi
Xi
Yi
Xi^2
Yi^2
Xi Yi
2004 1
14
-2
-5
4
25
10
2005 2
16
-1
-3
1
9
3
2006 3
20
0
1
0
1
0
2007 4
21
1
2
1
4
2
2008 5
24
2
5
4
25
10
Total
15
95
0
0
10
64
25
i) Moyenne arithmétique.
n
x
i
15
i
=
n
∑ =
x =
= 3
n
5
n
y
i
95
i
=
n
∑ =
y =
= 19
n
5
ii) Dispersion.
Posons
X
=
x
x
,
Y
=
y
y
i
i
i
i
On a
N
N
(
)
x
x
=
X
= 0
i
i
i
=
1
i
=
1
N
∑ N )
(
y
y
=
Y
= 0
i
i
i
=
1
i
=
1
2
2
N
N
1
(
)
1
10
∑ x
V
(
) =
x
x
=
X
=
= 2
i
i
N
N
5
i
=
1
i
=
1
2
2
N
N
1
(
)
1
64,5
∑ y
V
(
)
=
y
y
=
Y
=
= 12,8
i
i
N
N
5
i
=
1
i
=
1
∑ (x)
=
V (x) =
2 = 1,41
∑ ( y) =
V ( y) =
12,8 = 3,58
iii) Covariance
N
N
1
(
)(
)
1
25
Cov x
(
,
y
) =
x
x
y
y
=
X Y
=
= 5
i
i
i
i
N
N
5
i =
1
i
=
1

2

iv) Coefficient de Corrélation linéaire.

Le coefficient de corrélation linéaire mesure le degré de la dépendance linéaire entre deux variables.

= R x , y Propriétés ∑ 1 R 1 x , y N ∑
=
R x
, y
Propriétés
1
R
1
x
,
y
N
X Y
i
i
i = 1
R
=
x
,
y
N
N
2
2
X
Y
i
i
i =
1
i
=
1

Propriété.

(

Cov x

,

y

)

x

y

Un coefficient de corrélation linéaire traduit l’inexistence de relation linéaire entre les deux variables.

R = 1 traduit l’existence de relation linéaire entre les deux variables. ∑ y x
R
= 1
traduit l’existence de relation linéaire entre les deux variables.
∑ y
x
,
Application.
Cov ( x
,
y
)
5
R
=
=
= 0,988
x
,
y
2
12,8
x
y
N
X Y
i
i
25
i
=
1
R
=
=
=
0,988
x
,
y
N
N
64
10
2
2
X
Y
i
i
i
=
1
i
=
1

v) Formules de Koning

V

(

x

)

=

(

Cov x

,

Application.

1

N

y

)

N

=

i

1

x

2

i

=

1

N

N

i =1

x

2

x y

i

i

xy

Année

xi

yi

xi^2

yi^2

xi yi

2004 1

 

14

1

196

14

2005 2

 

16

4

256

32

2006 3

 

20

9

400

60

2007 4

 

21

16

441

84

2008 5

 

24

25

576

120

Total

15

95

55

1869

310

3

N 1 2 55 2 2 ∑ V ( x ) = ∑ x x
N
1
2 55
2
2
V
(
x
)
=
x
x
=
3
=
2
i
N
5
i
= 1
N
1
2
1869
2
2
V
(
y
)
=
y
y
=
19
=
12,8
i
N
5
i
= 1
N
1
Cov x
(
,
y
)
=
x y
310
3*19
=
12,8
i
i
N
5
i
= 1
Propriété
N
x y
nxy
i
i
310
5
3
19
= 1
= i
=
R x
, y
N
N
(
55
5
3² 1869
)(
5
19²
)
2
2
2
2
x
nx
 
y
ny
i
i
i
=
1
i
=
1
3. Méthode des moindres carrés

=

0,988

On suppose l’existence d’une tendance linéaire entre deux variables et on souhaite ajuster le nuage statistique par une droite d’équation : y = a x + b

yi

Principe

M Y=ax+b xi
M
Y=ax+b
xi

Chaque point M du nuage statistique de coordonnées (x i , y i ) est ajusté par un pont P de la droite de coordonnées (x i , y i ) avec y i = a x i + b .

Dans ce cas une erreur e i = y i – y i ’ est commise pour chaque point M du nuage statistique. La méthode des moindres cherche à déterminer le coefficient directeur a de la droite et de la constante b qui minimise S définie par :

4

Propriété.

S

=

N

i =

1

(

e

i

)

2

=

N

=

1

i

(

y

i

y

'

i

)

2

La droite d’équation y = a x + b qui ajuste le nuage statistique au sens des moindres carrés est définie par :

a =

(

Cov x

,

y

)

V

(

x

)

,

Application

a

=

(

Cov x

,

y

)

5

=

V

(

x

)

2

=

2,5

b =

y

a x = 19

(2,5 3) = 11,5

Propriétés

a

=

N

i = 1

X Y

i

i

25

=

N

i = 1

X

2

i

10

=

2,5

b = y

a =

Définition.

N

i = 1

x y

i

i

nxy

N

i = 1

x

2

i

2

nx

=

310

5

3

19

55

5

=

ax

2,5

Cette droite est appelé droite de régression de y en x notée Dy/x

4. Qualité de l’ajustement

Soit la droite de régression de y en x définie par : y’ = a x + b

On a :

N

i = 1

(

y

i

y

'

i

)

=

0

Erreur commise au sens du moindre carrée

S

=

N

i =

1

(

e

i

)

2

=

N

=

1

i

(

y

i

Variance expliquée

V E

=

1

N

N

i = 1

(

y

'

i

y

'

i

y

)

2

) 2

=

1,5

5

Variance résiduelle

Propriété :

V

R

=

1

N

N

i = 1

(

y

'

i

y

i

)

2

Soit V T la variance de la variable expliquée, on a : V T = V E + V R

Coefficient de détermination.

Le Coefficient de détermination mesure la proportion de la variance expliquée par

l’ajustement linéaire :

V

E

V

T

D =

Application

La droite de régression de y en x de l’exemple est définie par : y’ = 2,5 x + 11,5

xi

yi

 

yi'

yi - yi'

(yi - yi' )²

(yi' -

y

( yi -

y

1

14

 

14

 

0

0

25

25

2

16

 

16,5

 

-0,5

0,25

6,25

9

3

20

 

19

 

1

1

0

1

4

21

 

21,5

 

-0,5

0,25

6,25

4

5

24

 

24

 

0

0

25

25

       

0

1,5

62,5

64

 
 

N

(

 

'

i

)

=

0

 

y

i

y

 

i = 1

V

E

=

1

N

N (

y

'

i

y

 

2

)

=

62,5

5

=

12,5

 

i

= 1

V

R

=

1

N

N )

(

i

'

y

y

i

2

=

1,5

5

=

0,3

 
 

i

= 1

 

D =

V

E

=

12,5

=

0,9767

 

V

T

12,8

Dans ce cas, le Coefficient de détermination est important, on peut dire alors que la droite permet d’avoir un bon ajustement.

Propriété :

D = R

²

=

Cov

²(

x

,

y

)

V

(

x V

)

(

y

)

6

Propriété :

V E =

Cov

²(

x

,

y

)

V

(

x

)

Application :

V

E

=

Cov

²(

x

,

y

)

=

V

(

x

)

2

=

12,5

V

R = V T - V E = 12,8 – 12,5 = 0,30

S

= NV R = 5* 0,3 = 1,5

5. Prévision.

Lorsque le modèle ajuste bien les observations, on peut l’utiliser pour faire de la prévision.

Dans notre exemple on peut se demander quelle vente on peut prévoir pour l’année 2009

Année 2009 correspond au rang 6, d’où la vente prévisionnelle en cette année est de l’ordre

yˆ = 2,5 6 +11,5 = 26,5 Milliers d’articles de ce produit.

Remarque.

Il se peut qu’on une relation de causalité dans les deux sens. Dans ce cas, on aura deux droites

de régression, la droite de régression de yen x et celle de x en y.

Droite de régression de y en x : Dy/x

y = a x + b

Droite de régression de x en t : Dx/y

x = a’ y + b’

Propriété :

'

aa =

Cov

²(

x

,

y

)

V

(

x V

)

(

y

)

=

D

=

R

²

7

a =

a

'

=

(

Cov x

,

y

)

V

Cov x

x

(

(

)

,

y

)

,

V

(

y

)

,

b = y

b'= x

ax

a y