Vous êtes sur la page 1sur 58

Opration et systmes de dcision

Facult des Sciences de lAdministration




MQT-21919
Probabilits et statistique

Analyse de la rgression
Chapitre 12
Lectures
Volume du cours: Sections 12.1 12.6 inclusivement

Volume recommand: Statistique en Gestion et en
conomie: sections 8.1 et 8.2

Mise en contexte
En statistiques, plusieurs problmes consistent dfinir
la relation qui existe entre deux variables statistiques :

Le nombre dannes dexprience et le nombre derreurs
commises ;
Lge du conducteur et le nombre daccidents dauto ;
Le volume des ventes et les dpenses en publicit ;
Le nombre dheures dtudes et les rsultats aux
examens ;

Mise en contexte
Dans ce genre de problmes, les principales questions
auxquelles nous voudrons rpondre sont les suivantes :
Existe-il une relation ou une dpendance entre les
variables statistiques?
Cette relation, si elle existe, est-elle linaire ou non ?
Si une dpendance linaire existe, de quelle faon peut-
on la traduire par une quation mathmatique ?
La relation, si elle existe, est-elle grande ou faible ?
Si lquation mathmatique de la relation entre les
variables existe, comment prvoir les valeurs dune
certaine variable partir de la connaissance de valeurs de
lautre variable ou des autres variables ?

Mise en contexte
Pour rpondre toutes ces questions, nous ferons appel
une thorie statistique que nous appelons :


Lanalyse de la rgression
Lanalyse de la rgression
Lanalyse de la rgression est une mthode statistique
qui permet dtudier le type de relation pouvant exister
entre une certaine variable (dpendante) dont on veut
expliquer les valeurs et une ou plusieurs autres variables
qui servent cette explication (variables indpendantes)
Rgression linaire simple: une variable indpendante

En dautres termes, lanalyse de la rgression permet
dtudier les variations de la variable dpendante en
fonction des variations connues des variables
indpendantes.
Lanalyse de la rgression
Le cot du loyer en fonction du nombre de pices, du niveau
dtage dans limmeuble, des services offerts ...
) ,..., , , (
3 2 1 n
X X X X f Y =
Cot du loyer
Nombre de pices
Services offerts
(piscine, stationnement intrieur, etc.)
Ltage dans limmeuble
Lanalyse de la rgression
Une analyse de rgression est :

dite simple si elle permet de prdire les valeurs dune
variable dite dpendante (explique (Y)) partir des
valeurs prises par une autre variable dite indpendante
(explicative (X)).

dite multiple si elle permet de prdire les valeurs
dune variable dite dpendante (explique (Y)) partir
des valeurs prises par plusieurs autres variables dites
indpendantes (explicatives (X
i
)).
Lanalyse de la rgression linaire simple
Cest la reprsentation graphique dans le plan cartsien de lensemble
des paires de donnes (x
i
,y
i
). Ces donnes proviennent dune srie
statistique de deux variables obtenues partir dune tude mene sur
un chantillon ou sur une population.
Dfinition : Nuage de points ou
diagramme de dispersion
Lanalyse de la rgression linaire simple
Exemple : Nuage de points ou diagramme de dispersion
Supposons que le nombre dheures dtudes ncessaires pour
prparer lexamen final en statistiques et le nombre de bonnes
rponses obtenues par chaque tudiant sont donns dans le
tableau suivant :
Tracer le nuage de points ou le diagramme de dispersion des
donnes prsentes ci-dessus.
Exemple : Nuage de points ou diagramme de dispersion
Lanalyse de la rgression linaire
simple
Objectif dune analyse de rgression simple
Une fois la reprsentation graphique effectue, il est facile de
souponner lexistence dune certaine relation entre les deux
variables (caractres tudis). Il faut maintenant chercher
exprimer cette relation laide dune quation mathmatique.
) (X f Y =
On essaie de trouver la forme mathmatique de la fonction f
Lanalyse de la rgression linaire simple
Objectif dune analyse de rgression simple
Lanalyse de la rgression linaire simple
Lanalyse de la rgression linaire simple
Dfinition : Nous appelons rgression linaire lajustement dune
droite au nuage statistique dune srie de couples de donnes.

Ainsi, une rgression linaire simple va permettre de rsumer,
dinterprter et de prvoir les variations dun caractre dit
dpendant (Y) en fonction dun autre dit indpendant (X) et ce
en utilisant une droite.
Modle de rgression linaire simple
Modle de rgression linaire simple
y = |
0
+ |
1
x

+ c
quation de la rgression linaire simple (comment
l'esprance de y est lie x)
E(y) = |
0
+ |
1
x
quation estime de la rgression linaire simple
(droite de la rgression estime, modle empirique)

y = Variable dpendante ou explique
= valeur estime de y pour une valeur x
x = Variable indpendante ou explicative

|
0
et |
1
= Coefficients thoriques de rgression ( estimer laide dun chantillon) par b
0
et b
1
= Erreur thorique alatoire (dautres facteurs influencent Y) c
0 1
y b b x = +
y
Modle de rgression linaire simple
L'quation estime de la rgression linaire simple
(droite de la rgression estime, modle empirique)
peut tre utilise pour une estimation ponctuelle de la
valeur moyenne de y pour une valeur particulire de x
ou pour prvoir la valeur ponctuelle de y associe une
valeur particulire de x

y = Variable dpendante ou explique
= valeur de prvision de y pour une valeur x, ou moyenne de y estime pour une valeur de x
x = Variable indpendante ou explicative

0 1
y b b x = +
y
Lanalyse de la rgression linaire simple
Les diffrentes tapes dune tude de rgression
Il existe plusieurs mthodes permettant
destimer le modle thorique
par le modle empirique


Mthode des moindres carrs

Mthode de la vraisemblance


0 1
| | c = + + y x
0 1
= +

y b b x
Lanalyse de la rgression linaire
simple
La mthode des moindres carrs
Critre des moindres carrs


o:
y
i
= valeur observe de la variable dpendante pour
pour la i
me
observation
= valeur estime de la variable
dpendante pour la i
me
observation
2
min ( )
i i
y y

i
y
Lanalyse de la rgression linaire simple
La mthode des moindres carrs
Ide de base : cette mthode essaie de construire une droite de
rgression empirique qui minimise la somme des carrs des
distances verticales entre cette droite et chacun des points
observs.
La mthode des moindres carrs

Diagramme de dispersion
Heures d'tudes
0
1
2
3
4
5
6
7
8
9
10
0 2 4 6 8 10
) , (
i i
y x
) , (
i i
y x
Illustration graphique
Lanalyse de la rgression linaire
simple
Lanalyse de la rgression linaire simple
La mthode des moindres carrs
Dfinition : On appelle rsidu ou erreur empirique
ou cart de prvision, la valeur , soit la
diffrence (lcart vertical) entre la valeur
observe y
i
de Y et la valeur estime obtenue
partir de la droite de rgression, lorsque x= x
i
.
=

e
i i i
y y
i
y

Lobjectif de la mthode des moindres carrs est de



dterminer la droite de rgression qui minimise
2
1 =

n
i
i
e
La mthode des moindres carrs
( )
( )
2 2 2 2 2
1 2 3
1
2
1
2
0 1
1
n
...
n i
i
n
i i
i
n
i i
i
SCres e e e e e
SCres y y
SCres y b b x
+ + + +
=
=
=
= =
=
=

Cette mesure donne lordre de


grandeur de la dispersion des
observations Y
i
autour de la
droite de rgression
Il sagit de trouver b
o
et b
1
de sorte
que la somme des carrs des rsidus SCres
soit la plus petite possible (minimale).
Lanalyse de la rgression linaire
simple
Principes de la mthode des moindres carrs
Comment calculer les coefficients b
0
et b
1
?
Les estimations ponctuelles des paramtres de la droite de
rgression obtenues par la mthode des moindres carrs sont :

=
=

=
=
n
i
i
n
i
i i
x n x
y x n y x
b
x b y b
1
2 2
1
1
1 0
Taille de lchantillon
Lanalyse de la rgression linaire
simple
1
2
i i
i
( x x )( y y )
b
( x x )

=

Autre formule pour b


1
partir des donnes ci-dessous, dterminez les estimations
ponctuelles des paramtres de la droite de rgression selon la
mthode des moindres carrs :
Lanalyse de la rgression linaire
simple
1
1
2
2 2
1
6670 5 30 40
0 67
5500 5 30
,
( )
n
i i
i
n
i
i
x y nxy
b
x nx
=
=


= = =

0 1
40 0 67 30 19 9 , , b y b x = = =
19 9 0 67 , , y x = +
Lanalyse de la rgression linaire
simple
Remarque Importante
La droite de rgression dtermine laide de la mthode des
moindres carrs donne la plus faible somme de carrs rsiduels
parmi toutes les autres droites que lon pourrait ajuster
cet ensemble dobservations.

2
i
e
Lanalyse de la rgression linaire
simple
Une entreprise veut mener une tude sur la relation entre les dpenses
hebdomadaires en publicit et le volume de ventes quelle ralise. On a
recueilli au cours des dix dernires semaines les donnes suivantes :
partir des donnes ci-dessus, dterminez les estimations ponctuelles
des paramtres de la droite de rgression selon la mthode des
moindres carrs.
Lanalyse de la rgression linaire
simple
partir de ces donnes, il est possible de tracer le diagramme de
dispersion suivant :
Lanalyse de la rgression linaire
simple
Les rsultats intermdiaires suivants servent calculer les
estimations ponctuelles des paramtres de la droite de
rgression :
Lanalyse de la rgression linaire simple
En appliquant les formules ci-dessous, nous obtenons les valeurs
numriques de b
0
et b
1
1
1
2
2 2
1
1605 10 3 3 46 35
3 95
128 10 3 3
, ,
,
( , )
n
i i
i
n
i
i
x y nxy
b
x nx
=
=


= = =

0 1
46 35 3 95 3 3 33 31 , , , , b y b x = = =
33 31 3 95 , , y x = +
Lanalyse de la rgression linaire simple
33 31 3 95

, , y x = +
Dpenses en publicit
Cest laugmentation du volume
des ventes (Y) pour une augmentation
unitaire du cot en publicit (X)
Ordonne lorigine
(volume de vente moyen
sans dpenser un sous en
publicit)
La droite de rgression qui permet de dterminer
le volume moyen des ventes pour un cot
publicitaire donn x.
Lanalyse de la rgression linaire simple
Interprtation des rsultats et remarques
Rq1 : le point de cordonnes se trouve sur la droite de rgression.

Rq2 : cette relation linaire entre X et Y est valide pour lintervalle des
valeurs de X considre dans lnonc, cest--dire de 1 5,5.

La droite de rgression sapplique lintrieur de ltendue des valeurs
exprimentales qui ont t observes pour la variable explicative (X). On
devra donc viter toute extrapolation en dehors de ce domaine moins
dtre certain que le phnomne se comporte de faon identique.

) , ( y x
Lanalyse de la rgression linaire simple
Rq3 : Pour la valeur x = 3,5 (situe entre 1 et 5,5), on peut utiliser la
droite de rgression pour calculer la valeur moyenne correspondante de
Y

Exemple : Estimation du volume des ventes moyen pour un cot de 3,5
millions de dollars en publicit hebdomadaire.

= 33,31 + 3,95 (3,5) = 47,14 millions de dollars

y
Lanalyse de la rgression linaire simple
La pente de lquation de la rgression empirique (estime)

ou

Lordonne lorigine de lquation de la rgression empirique
(estime):
o:
x
i
= valeur de la variable indpendante pour la i
me
observation
y
i
= valeur de la variable dpendante pour la i
me
observation
= valeur moyenne de la variable dpendante
= valeur moyenne de la variable indpendante observe
n = nombre total dobservations
La mthode des moindres carrs - Rsum
( )
( )
1 2
2

i
i i
i i
i
x y
x y
n
b
x
x
n
0 1
= b y b x
x
y
1
2
i i
i
( x x )( y y )
b
( x x )

=

Il existe trois mesures possibles pour quantifier


lintensit de la relation entre X et Y:

Le coefficient de dtermination de Y en fonction de X
Le coefficient de corrlation entre X et Y
La covariance entre X et Y

Relation entre X et Y
Coefficient de dtermination de Y en fonction de X
Le coefficient de dtermination thorique de Y en fonction de X, not
mesure la proportion de la variation de Y qui est explique par la
rgression ou qui est explique par la variable X au niveau de toute la
population.
2
YX

1 0
2
s s
YX


Le coefficient de dtermination
Le coefficient de dtermination indique
si le modle linaire dfini colle aux donnes
Coefficient de dtermination de Y en fonction de X
En pratique est inconnu, car on ne possde pas dinformation
sur toute la population mais seulement sur un chantillon de
taille n, alors on estimera partir de lchantillon :
2
YX

n
y
y
x x b
y y
y y
r r
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
YX
2
1
1
2
1
2 2
1
1
2
1
2
2 2
) (
) (
) (
totale variation
explique variation
(

= = =

=
=
=
=
=

2
YX

fournit une indication de la force de la liaison possible


pouvant exister entre Y et X au niveau de la population. De plus,
cest un indice de la qualit de lajustement de la droite aux
points exprimentaux.
2
YX
r
Le coefficient de dtermination
2
1 2 2
1 1
n
i
n n
i
i i
i i
y
( y y ) y
n
=
= =
(
(

=


Rappel:
Le coefficient de dtermination
Dans quelle mesure lquation estime de la rgression
sajuste-t-elle aux donnes?
Le coefficient de dtermination permet de mesurer le
degr dadquation
Formule pour le coefficient de dtermination
r
2
= SCreg/SCT

o: SCT = SCreg + SCres
=


SCT = Somme des carrs totale (variation totale)
SCreg

= Somme des carrs de la rgression (variation explique)
SCres = Somme des carrs des rsidus

2
( )
i
y y

2
( )
i
y y =

2
( )
i i
y y +

Le coefficient de dtermination
2 2 2
2
1 1 1
2 2
1 1
n n n
i i i
i i i
n n
i i
i i

( y y ) ( y y ) ( y y )
SCreg SCT SCres
r
SCT SCT
( y y ) ( y y )
= = =
= =

= = = =


=
=

=
n
i
i
n
i
i
y n y
x n x
b r
1
2 2
1
2 2
2
1
2
Calculez pour lexemple dapplication des cots publicitaires et
des ventes:
( )
( )
2
2
1
2
1

SCreg
SCT
n
i
i
YX
n
i
i
y y
r
y y
=
=

= =

2
YX
r
Puisque est proche de 1, on peut dire que la droite de
rgression sajuste trs bien au nuage de points.



2
YX
r
Le coefficient de dtermination
2
298 008
0 9692
307 525
variation explique ,
,
variation totale ,
YX
r = = =
Diffrence entre rgression et corrlation ?
La rgression linaire simple se proccupe
essentiellement de la forme de la relation linaire qui
existe entre X et Y
La corrlation essaye de mesurer lintensit ou la force de
la relation linaire qui existe entre X et Y.
Relation entre X et Y: rgression et
corrlation
Le coefficient de corrlation de
lchantillon





o: b
1
= la pente de lquation de rgression estime
(empirique)


Le coefficient de corrlation thorique (au niveau de la
population) est dnot
yx
ou simplement
2
b =
1
(signe de )
yx
r r
b =
1
(signe de ) coefficient de dtermination
yx
r
x b b y
1 0
+ =
Le coefficient de corrlation peut tre dtermin de la manire suivante (ou
encore en prenant la racine carre du coefficient de dtermination):

On a toujours:
Si alors il existe une relation linaire exacte entre X et Y
Si alors soit que X et Y sont indpendantes, soit quil y a une
dpendance non linaire entre les deux variables
Si ou alors il existe une relation linaire plus ou moins
forte entre X et Y
Le coefficient de corrlation permet de voir s'il est
facile d'approcher les donnes par une droite.
( )( )
( ) ( )
1
2 2
2 2
2 2
1 1
n
i i
i i i i
i
XY
n n
i i i i
i i
i i
( x x )( y y )
n x y x y
r
n x x n y y
( x x ) . ( y y )
=
= =


= =




1 1 s s
XY
r
1 =
XY
r
0 =
XY
r
0 =
XY
r 1 =
XY
r
Le coefficient de corrlation de
lchantillon
Toujours en utilisant lexemple numrique de la publicit et les
ventes d'autos, mesurez le degr de dpendance linaire entre
X et Y.

10
1 1
10 10
2 2 2 2
1 1 1 1
3 3 46 35
75 45
0 9845
19 10 307 53
3 3 46 35
( )( ) ( , )( , )
,
,
, * ,
( ) . ( ) ( , ) . ( , )
n
i i i i
i i
XY
n n
i i i i
i i i i
x x y y x y
r
x x y y x y
= =
= = = =

= = = =



Rponse
Les dpenses en publicit et les ventes varient dans le mme sens
Il existe une relation linaire trs forte entre
les dpenses en publicit et les ventes
Le coefficient de corrlation de
lchantillon

Coefficient de corrlation et nuage de
points
Validation de la droite de rgression empirique
Test dhypothse sur
Pour vrifier si linfluence de la variable indpendante X est
significative, on procde un test dhypothses sur

1
|
1
|
c | | + + = X Y
1 0
Si
1
= 0 alors peu importe les
valeurs de X, elles nauront
pas dimpact sur Y
Lanalyse de la rgression linaire simple
tapes contribuant la validation de la droite de rgression
empirique


Estimer la variance des erreurs thoriques

Estimer et par intervalle de confiance

Test dhypothses sur
1
|
0
|
1
|
2 2
(Parfois dnote )
c
o o
Lanalyse de la rgression linaire simple
Validation de la droite de rgression empirique
Estimation de la variance des erreurs thoriques
2
c
o
La prcision des estimateurs b
0
et b
1
dpend de la valeur de la
variance des erreurs thoriques : plus sera petite, plus ces
estimateurs sont prcis.
Puisque, en pratique, la variance est inconnue, on lestime par le
terme suivant :
2 2
2 2
1 1
2 2

( )
= =

= = =


n n
i i i
i i
e
e y y
s s
n n
Lanalyse de la rgression linaire simple
2
c
o
2
c
o
Validation de la droite de rgression empirique
Estimation de et
2
0
b
o
En pratique, les variances et sont inconnues, alors on les
estime par les deux termes suivants :
0
2
2 2
2
1
1
=
(
(
= + (
(

( )
b
n
i
i
x
s s
n
x x
2
1
b
o
2
0
b
o
2
1
b
o
1
2
2
2
1 =
(
(
= (
(

( )
b
n
i
i
s
s
x x
Lanalyse de la rgression linaire simple
Exemple dapplication
Calculer pour lensemble des donnes ci-dessus.
0 1
2 2 2
, ,
b b
s s s
Complter le tableau suivant :
0.49
1.69
49.11
41.21
33,31 + 3,95 x 2 = 41,21
33 31 3 95

, , Y X = +
0.39
- 0.21
0.1521
0.0441
7.6176
26.4196
0
1
2
2
2
1 1847
0 7939
0 062
=
=
=
,
,
,
b
b
s
s
s
Lanalyse de la rgression linaire simple
Validation de la droite de rgression empirique
Estimation de |
1
par intervalle de confiance
Lintervalle de confiance pour estimer |
1
, la pente du modle de
rgression thorique, au niveau de confiance (1 - o) est donn par:
1
1 2 / b
b t s
o
(


Si n-2 < 30
1
1 2 / b
b z s
o
(


l d n t t . ) 2 (
2 /
e
o
Si n-2 30
) 1 , 0 (
2 /
N z e
o
Lanalyse de la rgression linaire simple
Si la valeur |
1
=0 appartient lintervalle de confiance,
on ne rejette pas lhypothse nulle: |
1
=0 au niveau de signification o et
on conclut quil nexiste pas de relation linaire significative entre Y et X
Daprs les donnes de lexemple numrique de la publicit et le
volume de ventes d'autos, construisez un intervalle de confiance pour
au niveau 95% :
1
1 2 / b
b t s
o
(


Puisque n-2 = 10 -2 = 8 < 30, alors
1
|
0 025
3 95 0 062
,
, , t
(


3 95 2 306 0 062 , , ,
(


Table de Student
| |
3 3758 4 5242 , ,
Lanalyse de la rgression linaire simple
Tester la signification dune rgression
Pour tester la signification dune rgression, on peut
effectuer un test dhypothses afin de dterminer si la
valeur de |
1
est zro.
Deux tests sont couramment utiliss
Test t ou z (selon la taille de l'chantillon)
Test F

Les deux tests ncessitent une estimation de o
c

2
, la
variance des erreurs c du modle de rgression
Tester la signification dune rgression
Une estimation de o
c

2
Rappel: la moyenne des carrs des rsidus s
2
fournit une
estimation de o
c

2


s
2
= SCres/(n-2)
o:
2 2
0 1

SCres ( ) ( )
i i i i
y y y b b x = =

2
SCres
=

s
n
s est lerreur type de lestimation
Les tapes dun test z ou t dhypothses sur

1. noncer les hypothses H
0
et H
a
.


2. Prciser les conditions du test
La population des erreurs est normale
La variance rsiduelle est inconnue
Le niveau de signification o
Si la taille de lchantillon n 2 30, on utilise z (Normale)
Si la taille de lchantillon n 2 < 30, on utilise t (Student)

3. Calculer la statistique de test.




4. Trouver la rgion critique au niveau de signification o
1
|
0 1
1
0
0
a
H :
H :
|
|
=
=
2
c
o
1 1
1 1
1 1 1
1 1 1
2 30
2 30
b b
b b
b b
z si n
s s
b b
t si n
s s
|
|

= = >

= = <
0 2 2 2 2 / ,( ) . / ,( ) .
,
n d l n d l
On rejette H si t t ou si t t
o o
> <
0 2 2 / /
, On rejette H si z z ou si z z
o o
> <
Lanalyse de la rgression linaire simple
Daprs les donnes de lexemple dapplication sur la publicit et le
volume de ventes d'autos, vrifiez au niveau de signification o = 0,05
si X explique Y, partir de la droite de rgression linaire obtenue
0 1
1
0
0
a
H :
H :
|
|
=
=
tape 1 tape 2
n 2 = 8 < 30, population normale, inconnue
2
c
o
tape 3
1
1 1
3 95 0
15 86
0 062
,
,
,
b
b
t
s
|
= = =
tape 4
0 025 8
2 306 =
, , .
,
d l
t
0 025 8 0
15 86 2 306
, , .
, , ,
d l
puisque t t on rejette H = > =
Cela implique que X explique les valeurs prises par Y au niveau o = 0,05
Lanalyse de la rgression linaire simple
Hypothses du modle
Hypothses concernant le terme derreurs c
Lerreur c est une variable alatoire desprance 0
La variance de c , dnote o
c

2
ou o
2
, est la mme pour
toutes les valeurs de X
Les valeurs de c sont indpendantes.
Lerreur c est distribue selon une loi normale