Vous êtes sur la page 1sur 23

www.elmerouani.jimdo.

com

28/07/2012

Universit Abdelmalek Essadi


Facult Polydisciplinaire de Ttouan
LEF Sc. co. & Gestion
S6

lM
E

Rgression Simple
Exercices

ero
ni

ua

FP

Exercice 1: (Mesure defficacit de la


force de vente)

Te
tou

Au cours dun mois donn, le reprsntant dune


socit commercialisant du matriel de bureau a
visit 56 entreprises rparties dans sept
dpartements.

an

Le tableau suivant indique, dpartement par


dpartement, le nombre de visites ralises de
mme que les commandes enregistres pendant la
priode correspondante mesures en milliers de
dirhams.

www.elmerouani.jimdo.com

Dpartement (i) Nombre de


visites (Xi)
2
3
5
9
10
12
15

Commandes
(Yi)
23
27
28
39
39
45
51

ero

lM
E

1
2
3
4
5
6
7

28/07/2012

ni

ua

FP

Questions:

Te
tou

1. Reprsenter graphiquement le nuage des points et


donner le modle de rgression y=ax+b par la mthode
des moindres carres. Interprter le rsultat.
2. Calculer les diffrents dispersion selon la loi des carts.
3. Dterminer le coefficient de dtermination et le
coefficient de corrlation.
4. Reprsenter lanalyse de la variance et le test F
5. Sassurer laide dun test T de Student que a est
significativement diffrente de zro.
6. Dterminer lintervalle de confiance du paramtre a.
7. Prvision de Y pour la valeur X=20 et lintervalle de
confiance de cette prvision.

an
4

www.elmerouani.jimdo.com

28/07/2012

Solution 1:
Relation entre les commandes et le
nombre de visites de reprsentants

1.-

lM
E
50
40
30
20
10

ero

Commandes (1000 DH)

60

10

15

20

Nombres de visites

ni

ua

FP
Xi-X

(Xi-X)2

Yi-Y

(Xi-X)(Yi-Y)

4
9
25
81
100
144
225

-6
-5
-3
1
2
4
7

36
25
9
1
4
16
49

-13
-9
-8
3
3
9
15

78
45
24
3
6
36
105

56 252 2313

588

140

297

84

20

42,4

XiYi

1
2
3
4
5
6
7

2
3
5
9
10
12
15

23
27
28
39
39
45
51

46
81
140
351
390
540
765

Total:
Moy.

36

330,4

an

Yi

tou

Xi

Te

Xi2

Les cinq premiers colonnes du tableau dtaillent les calculs


ncessaires pour obtenir a qui slve ici 2,12. En effet,
6

www.elmerouani.jimdo.com

28/07/2012

lM
E

XY nXY 2313 (7)(8)(36)


=
= 2,12

2
2
X

n
X
588

(
7
)(
64
)

a=

Cov( X , Y ) XY 42,4
= 2 =
= 2,12

Var ( X )
X
20

b = Y aX = 36 ( 2,12)(8) = 19

Compte tenu de la valeur du paramtre b, gal 19,


lquation de la droite qui reprsente le mieux les
relations entre le nombre de visites X et le montant des
commandes Y est:

ero

Y = 2 ,12 X + 19

ni

ua

FP

Ce rsultat peut tre interprt de la faon suivante:

Te

 en labsence de visite, le montant des commandes dun


dpartement slverait 19 000 DH;

tou

 chaque visite dun reprsentant amne une masse de


commandes supplmentaires denviron 2120 DH.

an
8

www.elmerouani.jimdo.com

28/07/2012

2.- Lois des carts:

lM
E

La loi des carts permet de relier lerreur associe


lhypothse nulle et lerreur associe lhypothse
Y dpend de X.
Lerreur attache lhypothse nulle est mesure
par la dispersion totale des Yi, cest--dire par la
somme des carrs des carts des Yi par rapport la
moyenne Y:

ero
Dispersion totale

= Yi Y

ni

ua

FP

Dans le cas tudi, lerreur de lhypothse nulle


slve 638:

Te

Xi

Yi

Yi-Y

(Yi-Y)2

i-Y

(i-Y)2

i-Yi

(i-Yi)2

1
2
3
4
5
6
7

2
3
5
9
10
12
15

23
27
28
39
39
45
51

23,27
25,39
29,64
38,12
40,24
44,49
50,85

-13
-9
-8
3
3
9
15

169
81
64
9
9
81
225

-12,73
-10,61
-6,36
2,12
4,24
8,49
14,85

162
112,57
40,45
4,49
17,98
72,08
220,52

0,27
-1,61
1,64
-0,88
1,24
-0,51
-0,51

0,07
2,59
2,69
0,77
1,54
0,26
0,02

638

630,09

an

Total:

tou

Obser
vation

7,94

10

www.elmerouani.jimdo.com

28/07/2012

lM
E

Lerreur attache la seconde hypothse, ou


encore dispersion rsiduelle est donne par
e2, somme des carrs des carts entre les
observations Yi et les valeurs estimes i par
le modle:
dispersion rsiduelle = (i-Yi)2

ero

Dans le tableau prcdent, il apparat que


lerreur associe au modle est trs faible avec
e2=7,9.

ni

ua

11

FP

Donc on a:

an

dispersion explique = (i-Y)2

tou

Te

La diffrence entre la dispersion totale et la dispersion


rsiduelle correspond la dispersion explique par le modle
de rgression, compte tenu du fait que
(Yi-Y)2=(i-Y)2+(i-Yi)2
On en tire la dcomposition suivante:
(Yi-Y)2=(i-Y)2+(i-Yi)2
relation connue sous le nom de loi des carts, nous pouvons
crire:

dispersion totale=dispersion explique+dispersion rsiduelle.

Pour le problme considr, la dispersion explique slve


630,09.
12

www.elmerouani.jimdo.com

28/07/2012

3.- Coefficients de dtermination et de corrlation:


3.corrlation:

ero

lM
E

Un premier indicateur de qualit de la


reprsentation consiste mettre en relation la
dispersion explique par le modle et la dispersion
totale des donnes: le coefficient de dtermination
R2 mesure le pouvoir explicatif du modle en
valuant le pourcentage de linformation restitue
par le modle par rapport la qualit
dinformation initiale:
dispersion exp lique
R2 =
=
dispersion totale

(Y
(Y

ni

ua

13

FP

tou

Te

Avec les donnes de lexemple prcdent,


R2=630/638=0,987, il apparat que le modle
Y=2,12X+19 restitue 98,7% de linformation totale.

Le coefficient de corrlation est R, racine carr du


coefficient de dtermination. Cest lindicateur le plus
couramment employ.

an

On peut le calculer laide de plusieurs formules


diffrentes.

14

www.elmerouani.jimdo.com

28/07/2012

En premier lieu, daprs la dfinition qui vient


dtre donne, nous avons:

lM
E

R=

(Y
(Y

On montre que R est obtenu galement laide


des formules suivantes, o X et Y reprsentent
les carts-type respectives des Xi et des Yi:

XY
X Y

ero
R=

et

R = a

X
Y

ni

ua

15

FP

Donc -1 R 1.

tou

Te

Racine care de R2, cest--dire dun chiffre au plus


gal 1, R a une valeur absolue galement au plus
gale 1.
R est positif (covariance ou coefficient de rgression
a positifs) ou ngatif (cas inverse).

an

Un R trs lev en valeur absolue concrtise une


relation troite entre X et Y, croissante si R est
positif et dcroissante, si R est ngatif.

16

www.elmerouani.jimdo.com

28/07/2012

Dans lexemple tudi, R=0,994 ce qui indique


une relation linaire presque parfaite sur les
donnes observes.

lM
E

Une valeur de R faible en termes absolus


caractrise une absence de relation linaire
entre X et Y, mais pas ncessairement
labsence de liaison entre les variables.

ero
ni

ua

17

FP

tou

Te

4.4.- Test F:
La valeur du coefficient de correlation est calcule
partir des donnes disponibles, les rsultats de sept
dpartements dans notre exercice.

an

Un coefficient de correlation trs lev, mais obtenu


sur peu de donnes est moins significatif quun
coefficient plus faible, mais dtermine sur un grand
nombre de donnes.

A la limite, si nous navions que deux observations, R


serait gal 1, mais aucune conclusion ne saurait en
tre dduite.

18

www.elmerouani.jimdo.com

28/07/2012

lM
E

Obtenu sur un chantillon de taille rduite, R


devrait tre rectifi. La formule suivante est
utilise, ou k est le nombre de variables
explicatives et n le nombre de donnes:
R=1- Dispersion rsiduelle n-1
Dispersion totale
n-k-1

ero

Dans lexemple, k=1 et n le nombre


dobseravtions est 7.

ni

ua

19

FP

k
Yi Yi

F=

n k 1

tou

(Y

Te

Le test F (analyse de la variance) permet dintgrer


la taille de lchantillon dans lapprciation de la
qualit de la reprsentation:

Dispersion explique moyenne

Dipersion rsiduelle moyenne

an

Dans notre exemple, F=395. Cette valeur doit


tre compare celle qui est lue dans une table
de Fisher-Sndcor pour k=1 degr de libert au
numrateur et n-k-1=7-1-1=5 au dnominateur
un seuil de confiance .

20

10

www.elmerouani.jimdo.com

28/07/2012

lM
E

Pour =0,01, la valeur F thorique lue dans la table


est de 16,26. Il ny a ainsi quune chance sur 100 de
trouver un F observ suprieur 16,26 lorsque, dans
la polpulation totale des observations possibles,
aucune relation nexiste entre X et Y.

Nous sommes ici parfaitement en droit dadmettre la


relation linaire entre X et Y, puisque le F calcul est
largement suprieur au F thorique. (voir tableau
suivant)

ero
ni

ua

21

FP

Analyse de la variance pour la rgression (test F)

Erreur

n-k-1=5

7,94 =
(i-Yi)2

n-1=6

638=

(Yi-Y)2

1,59

an

Total

396=630/1,
59

tou

(i-Y)2

Te

Rgression

Degrs de Somme
Carrs
libert
des carrs moyens
k=1
630,09 = 630,09

F0,01=16,26
22

11

www.elmerouani.jimdo.com

28/07/2012

5.- Validit des coefficients


5.coefficients::

lM
E

Les tests prcdents permettent davoir une ide de


la validit de la rgression dans son ensemble. Il
importe de connatre galement la validit des
coefficients du modle, cest--dire de a dans le cas
de la rgression linaire simple.

ero

Cette validit est vrifie par le biais du test t et


travers le calcul dintervalles de confiance.

ni

ua

23

FP

On dfinit lerreur standard sur a comme

2
i

nX 2

tou

S XY

Te

Sa =

S XY est lcart-type des erreurs du modle avec:

Yi

n2

an

S XY =

(Y

A partir des chiffres de notre exemple, il apparat


7,94
que:
S =
= 1,59 = 1,26
XY

et

Sa=1,26/11,83=0,106
24

12

www.elmerouani.jimdo.com

28/07/2012

lM
E

Si lon admet que les valeurs estimer partir de


diffrents chantillons dobservations suivent une
loi de Student dcart-type Sa, nous pouvons
valuer la probabilit que la valeur a soit diffrente
de zro.
t =

a 0
a
=
Sa
Sa

nous donne le nombre dcarts-type qui sparent la


valeur observe de 0.

ero

t mesure ainsi le degr de raret, dans une


population o la valeur de a est 0, dchantillons
dobservations pour lesquels a=a0 (ici a0=2,12).

ni

ua

25

FP

tou

Te

Dans notre exemple, t = 2,12 / 0,106 = 20, ce


qui compr au chiffre lu sur la table de
Student pour n-k-1=7-2=5 degrs de libert
(3,365 avec un seuil de confiance de 0,01)
parat trs significatif.(Voir table)

an

6.- Lintervalle de confiance de a est obtenu


selon une procdure voisine. Si t est le
nombre dcarts-types correspondant au seuil
de confiance , il y a une probabilit (1-) que
la valeur de a soit comprise dans lintervalle
[a-t/2Sa; a+t/2Sa].

26

13

www.elmerouani.jimdo.com

28/07/2012

ero

lM
E

Il y a ainsi 99% de chances que la valeur de a


de notre problme soit comprise dans
lintervalle,
[ 2,12- 4(0,106); 2,12+ 4(0,106) ],
puisque t0,005=4 pour 5 degrs de libert.

ni

ua

27

FP
Te
tou

7.- Il sagirait de prvoir quelle serait limportance des


commandes pour un nombre de visites de reprsentants
donn. Ceci peut tre ralis en donnant X, dans le modle,
la valeur choisie.

an

Ainsi, X=20 visites devraient amener, selon le modle, 61 400


DH de commandes en moyenne, puisque 61,4=2,12(20)+19.

28

14

www.elmerouani.jimdo.com

28/07/2012

En fait, il faut tenir compte de ce que le modle a t


construit partir dun chantillon de donnes et quil
existe de toute faon un certain ala sur les relations
entre X et Y.

lM
E

La prvision de Y doit saccompagner de la dfinition


dun intervalle de confiance: un seuil de confiance
, la valeur de Y pour X=X0 est comprise dans
lintervelle

ero

2
2

X0 X
X0 X
1
1
Y t S

+
; YX + t 2 S XY
+
2 XY
2
2
2
2
X
0
0

n X nX
n X nX

ni

ua

29

FP

tou

Te

O, on le rappelle, SXY est lcart-type des erreurs du modle.


Lintervalle de confiance est dautant plus important que
- SXY est lev;
- n est faible;
- Xi est loign de la moyenne.
Pour X0=20 et =0,01,
2
Y=61,44(1,26) 1 + 12
7
140
Soit Y=61,45,9.
La rgression linaire simple nous a permis de prsenter les
aspects principaux des techniques de rgression qui peuvent
tre utilises dans llaboration de modles de prvision.

an
30

15

www.elmerouani.jimdo.com

28/07/2012

Exercice 2:

lM
E

On sintresse dans un secteur de production


la relation entre les bnfices raliss par les
entreprises et le budget annuel quelles
consacrent la publicit. 15 observations ont
t ralises:

Budget
de
publicit

15 8

Bnfices

48 43 77 89

36 41

16

21

ero
50

40 56

21

53

10

32

17

58

20

62

100

47

71

58

102 35 60

ni

ua

31

FP

Questions:

Te
tou

a) On veut tablir une rgression linaire entre les deux


variables, quelle doit tre la variable endogne?
b) On admet lexistence dune relation linaire de la
forme yi=axi+b+ calculez les estimations des
coefficients a et b.
c) Calculer r lestimation du coefficient de corrlation R.
d) Prcisez lquation danalyse de la variance, calculer
ses valeurs et en dduire le coefficient de
dtermination.
2
e) Sachant que = 10,155 , procdez lestimation des
variances de a et de b .

an
32

16

www.elmerouani.jimdo.com

28/07/2012

Questions: (suite)

ero

lM
E

f) Dterminez au seuil de signification de 0,05 , un


intervalle de confiance pour a, un intervalle de
confiance pour b, et un intervalle de confiance
pour 2 .
g) Peut-on affirmer que les coefficients a et b sont
significativement diffrents de 0 pour =0,05?
h) Dterminez un intervalle de confiance pour le
bnfice prvisible relatif une entreprise qui
consacre un budget de 48 son programme
publicitaire. (=0,05).

ni

ua

33

FP

Solution 2:

Te

( X Y ) nXY
(X ) nX
i i
2
i

an

a =

tou

a) La variable endogne Y correspond aux


bnfices qui sont exprims en fonction du
budget de publicit X.
b) Voir tableau

b = Y aX
34

17

www.elmerouani.jimdo.com

Xi

Xi 2

Yi
48
43
77
89
50
40
56
62
100
47
71
58
102
35
60
938

Yi2

225
64
1296
1681
256
64
441
441
2809
100
1024
289
3364
36
400
12490

XiYi

2304
1849
5929
7921
2500
1600
3136
3844
10000
2209
5041
3364
10404
1225
3600
64926

720
344
2772
3649
800
320
1176
1302
5300
470
2272
986
5916
210
1200
27437
35

ni

ua

ero

lM
E

15
8
36
41
16
8
21
21
53
10
32
17
58
6
20
362

28/07/2012

362
= 24,13 X 2 = 582,26
15

Te

X=

FP

n = 15

938
= 62,53
15

a =

27437 15 24,13 62,53


= 1,28
12490 15 582,26

an

b = 62,53 1,28 24,13 = 31,67

tou

Y =

Y = 1,28 X + 31,67
36

18

www.elmerouani.jimdo.com

2
Yi Y (Yi Y ) Yi Yi (Yi Yi ) 2

Xi Yi X i X ( X i X ) 2 Y i Y (Yi Y ) 2 Yi
15 48

-9,13

83,36 -14,53 211,12

50,87

8 43 -16,13 260,18 -19,53 381,42

41,91

36 77 11,87 140,90 14,47 209,38

77,75

41 89 16,87 284,60 26,47 700,66

84,15

16 50

66,10 -12,53 157,00

52,15

8 40 -16,13 260,18 -22,53 507,60

41,91

lM
E

-8,13

21 56

-3,13

9,80

-6,53

42,64

58,55

21 62

-3,13

9,80

-0,53

0,28

58,55

53 100 28,87 833,48 37,47 1404,00

99,51

10 47 -14,13 199,66 -15,53 241,18

44,47

32 71

7,87

61,94

8,47

71,74

72,63

17 58

-7,13

50,84

-4,53

20,52

53,43

ero
58 102 33,87 1147,18 39,47 1557,88

105,91

6 35 -18,13 328,70 -27,53 757,90

39,35

20 60

362 938

-4,13

17,06

3753,73

-2,53

6,40

28/07/2012

57,27

-11,66 135,96
-20,62 425,18
15,22 231,65
21,62 467,42
-10,38 107,74
-20,62 425,18
-3,98 15,84
-3,98 15,84
36,981367,52
-18,06 326,16
10,1 102,01
-9,1 82,81
43,381881,82
-23,18 537,31
-5,26 27,67

6269,73

2,87
-1,09
0,75
-4,85
2,15
1,91
2,55
-3,45
-0,49
-2,53
1,63
-4,57
3,91
4,35
-2,73

6150,13

8,24
1,19
0,56
23,52
4,62
3,65
6,50
11,90
0,24
6,40
2,66
20,88
15,29
18,92
7,45
132,01

ni

ua

37

R=

( X Y ) nXY
i i

n X Y

Te

X =

1
(X i X )2 = 3753,73 = 15,82

n
15

tou

Y =

FP

c)

R = 0,989

an

1
(Yi Y )2 = 6269,73 = 20,44

n
15

38

19

www.elmerouani.jimdo.com

28/07/2012

d) Dispersion totale:

(Y Y )

= 6269,73

Dispersion explique:

lM
E

(Y Y )

= 6150,13

Dispersion rsiduelle:

(Y Y )

= 132,01

ero

6269,73=6150,13+132,01

ni

ua

39

FP

Le coefficient de dtermination est:


6137,72
= 0,9789
6269,73

Te

R2 =

tou

Ce coefficient est proche de 1, on peut en


dduire que la variabilit explique par droite
de rgression est satisfaisante.

an
40

20

www.elmerouani.jimdo.com

e) On a

28/07/2012

2 = 10,155

Alors,

lM
E

S = Var (a ) =
2
a

(X

X)

= 0,0027

et

X2
2 1

= 2,2526
Var b = +
2
n

(X i X )

()

ero
ni

ua

41

FP

2
f) Intervalle de confiance pour

tou

Te

2
2
La variable 2 = (n 2) 2 suit une loi

(n-2) degrs de libert.


2
Donc, on part de P A < (n 2) < B = 1

2
i

2
2
I = ( n 2)
; ( n 2) = [5,336 ; 26,35]
B
A

an

Lintervalle de confiance pour 2 est alors:

42

21

www.elmerouani.jimdo.com

28/07/2012

Lintervalle pour a: a t1 a ; a + t1 a
avec t lue sur la table de Student n-2=13
degr de libert. (t=2,16).

lM
E

I = [1,166 ; 1,391]

Intervalle pour b:

[b t

b ; b + t1 b

ero

I = [28,432 ; 34,916]

ni

ua

43

FP

tou

Te

g) Le t empirique de Student est donn par a ,

on compare la valeur de ce rapport avec a


t=2,16.
On trouve quil est suprieur en valeur absolue
2,16 pour les deux paramtres a et b.
Donc ces paramtres sont significativement
diffrents de 0. La variable exogne contribue
bien expliquer Y.

an

P( 2,16 < t(13) < 2,16) = 0,95

44

22

www.elmerouani.jimdo.com

28/07/2012

h)
1 ( x0 x ) 2
1 + +
; ( ax0 + b) + t1 S
2
n

lM
E

I (Y0 ) = (ax0 + b) t1 S

1 ( x0 x ) 2
1 + +

2
n

I (Y48 ) = [(1,28 48 + 31,67) 2,16 12,335; (1,28 48 + 31,67) + 2,16 12,335]

I (Y48 ) = [85,45 ; 100,65]

ero
ni

ua

45

FP

Rfrences:

Te
tou

Exercice 1:
Jean-Pierre Vedrine, Techniques
Quantitatives de Gestion , Vuibert gestion.
Exercice 2:
Kamal Abdelillah, Sondages et tests
Statistiques Fdala, 1998

an
46

23