Vous êtes sur la page 1sur 42

REGRESSION LINEAIRE

SIMPLE

1
Le nombre d’années d’expérience et le nombre d’erreurs commises ;
L’âge du conducteur et le nombre d’accidents d’auto ;
Le volume des ventes et les dépenses en publicité ;
Le nombre d’heures d’études et les résultats aux examens ;

2
Questions
Existe-il une relation ou une dépendance entre les variables statistiques?
Cette relation, si elle existe, est-elle linéaire ou non ?
Si une dépendance existe, peut-on la traduire par une équation mathématique ?
La corrélation, si elle existe, est-elle forte ou faible ?
Si l’équation mathématique de la relation entre les variables existe,
comment prévoir les valeurs d’une certaine variable à partir
de la connaissance des valeurs des autres variables ?

3
Les différentes étapes d’une étude de régression

1- Spécification du modèle
2- Validation du modèle
3- Estimation des paramètres
4- Test des hypothèses
5- Développement des normes

4
Modèle Économique
Analyse explicative • Un modèle consiste en une présentation
formalisée d’un phénomène sous forme
d’équations mathématiques.( normalement en
économétrie et comme toutes les variables économiques sont
interdépendantes (notion de système), il n'est pas suffisant de construire des
équations isolées mais plutôt il faut établir un système complet d‘équations.)

5
Etapes d’une étude de marché

interviews Elaboration du Analytics


. questionnaire

Recherche Analyse de Echantillonnage Confirmatoire


documentaire contenu Analyse de
données.
Inférence statistique
 Elle consiste alors à effectuer des études sur
l’échantillon et transposer les résultats sur la
population.
 Cette transposition n’est pas stricte, elle attache toujours
une probabilité aux résultats et aux conclusions émises.
7
• L’analyse de la régression est une méthode statistique qui permet
d’étudier le type de relation pouvant exister entre une certaine variable
(dépendante) dont on veut expliquer les valeurs et une ou plusieurs autres
variables qui servent à cette explication (variables indépendantes)

• En d’autres termes, l’analyse de la régression permet d’étudier les


variations de la variable dépendante en fonction des variations connues
des variables indépendantes.

9
Une analyse de régression est :
- dite simple si elle permet de prédire les valeurs d’une variable
dite dépendante (expliquée, endogène,Y ) à partir des valeurs prises
par une autre variable dite indépendante (exogène, explicative, X ).

- dite multiple si elle permet de prédire les valeurs d’une variable


dite dépendante à partir des valeurs prises par plusieurs autres
variables dites indépendantes Xi).

10
Coût du loyer en fonction
du nombre de pièces, du
niveau d’étage dans
l’immeuble, des services
offerts ...

Y  f ( X 1 , X 2 , X 3 ,..., X n )
Nombre de pièces
Coût du loyer
Services offerts
(piscine, stationnement intérieur, etc.)

L’étage dans l’immeuble …


Définition : Nous appelons régression linéaire l’ajustement d’une
droite au nuage statistique d’une série de couples de données.

Ainsi, une régression linéaire simple va permettre de résumer,


d’interpréter et de prévoir les variations d’un caractère dit dépendant
(Y) en fonction d’un autre dit indépendant (X) et ce en utilisant une
droite.

12
Objectif de la représentation graphique du nuage de point

Une fois la représentation graphique effectuée, il est facile de


soupçonner l’existence d’une certaine relation entre les deux variables
(caractères étudiés). Il faut maintenant chercher à exprimer cette
relation à l’aide d’une équation mathématique.

Y  f (x )

Nous essayerons de trouver la forme mathématique de la fonction f

13
Exemple : Nuage de points ou diagramme de dispersion

40
35 y
30
25
20
15
10
5
0
0 1 2 3 4 5 6 7
x

14
• Modèle théorique de régression linéaire simple
y = 0 + 1x + 
• Équation de la régression linéaire simple (comment l'espérance de y
est liée à x)
E(y) = 0 + 1x
• Équation estimée de la régression linéaire simple (modèle empirique)
^
y  b0  b1 x
y^ : = Variable dépendante ou expliquée
= valeur estimée de y pour une valeur x
0 et 1 = Coefficients théoriques de régression (à estimer à l’aide d’un échantillon par b0 et b1 )

 x = Variable
= Erreur théorique aléatoire
indépendante (d’autres facteurs influencent Y)
ou explicative
• L'équation estimée de la régression linéaire simple (droite de la
régression estimée, modèle empirique) peut être utilisée pour une
estimation ponctuelle de la valeur moyenne de y pour une valeur
particulière de x ou pour prévoir la valeur ponctuelle de y associée à
une valeur particulière de x

^
y  b0  b1 x

y = Variable dépendante
^
y = valeur de prévision de y pour une valeur x;
x = Variable indépendante ou explicative
16
1- Spécification du modèle

Diagramme de dispersion

10
9
8
7
6
5
4
3
2
1
0
0 2 4 6 8 10

Heures d'études

Extrapolation Estimation Extrapolation

17
Il existe plusieurs méthodes permettant d’estimer le modèle théorique
 0  1 x  
y  empirique
par le modèle

ŷ  b0  b1 x
 Méthode des moindres carrés
 Méthode de la vraisemblance
…

18
La méthode des moindres carrés

Idée de base : Cette méthode essaie de construire une droite de


régression empirique qui minimise la somme des carrés des distances
verticales entre cette droite et chacun des points observés.

n
ˆ
min  (Yi  Yi ) 2

i 1

19
2 4 6

ei

n
min  (Yi  Yˆi ) 2
i 1

Heures d’études 5 28 16 39 56 80 75 84 25 64 10 50 50
Bonnes réponses 50 80 17 59 120 270 220 270 80 200 60 120 190
20
Définition : nous appelons résidu ou erreur empirique ou écart de
^
prévision, la valeur ei = yi – yi , soit la différence (l’écart vertical)
^
entre la valeur observée yi et la valeur estimée yi obtenue à partir de
la droite de régression, lorsque x = xi . n

e
i 1
i

L’objectif de la méthode des moindres carrés est de n

déterminer la droite de régression qui minimise e


i 1
2
i

21
La méthode des moindres carrés …

n
SCres  e12  e22  e32  ...  en2   ei2
i 1
Cette mesure donne l’ordre
n
de grandeur de la
dispersion des
SCres    yi  ˆyi 
2
observations Yi autour de la
i 1
n
droite de régression
SCres    yi  b0  b1 xi 
2

i 1
Il s’agit de trouver bo et b1 de sorte
que la somme des carrés des résidus SCres
soit la plus petite possible (minimale).
« Dérivée première devrait être égale à zéro. »
22
3- Estimation des paramètres

Principes de la méthode des moindres carrés …


Comment calculer les coefficients b0 et b1?
Les estimateurs ponctuelles des paramètres de la droite de régression obtenues par la
méthode des moindres carrés sont :
b0  y  b1x
n

Autre formule pour b1
xi yi  n x y
i 1
b1  n
 2
xi  nx 2

i 1

b0  y  b1 x
n
b1 
 ( x  x )( y  y )
i i

( x  x )
xi yi  n x y 2
i 1 i
b1  n
 xi2  nx 2
i 1 Taille de l’échantillon

23
À partir des données ci-dessous, déterminez les estimations
ponctuelles des paramètres de la droite de régression selon la méthode
des moindres carrés :

24
n

x i yi  nxy
6670  5  30  40
b1  i 1
n
 2
 0, 67
5500  5  (30)
 i
x 2

i 1
 nx 2

ˆ  19, 9  0, 67 x
y
b0  y  b1 x  40  0, 67  30  19, 9
25
EXEMPLE
Une entreprise veut mener une étude sur la relation entre les dépenses
hebdomadaires en publicité et le volume de ventes qu’elle réalise. Nous avons
recueilli au cours des dix dernières semaines les données suivantes :

À partir des données ci-dessus, déterminez les estimations ponctuelles des


paramètres de la droite de régression selon la méthode des moindres carrés.

26
Les résultats intermédiaires suivants servent à calculer les estimations
ponctuelles des paramètres de la droite de régression :

27
En appliquant les formules ci-dessous, nous obtenons les valeurs
numériques de b0 et b1
n

x i yi  nxy
1605  10  3, 3  46, 35
b1  i 1
n
 2
 3, 95
128  10  (3, 3)
 i
x 2

i 1
 nx 2

b0  y  b1 x  46, 35  3, 95  3, 3  33, 31

ˆ  33, 31  3, 95 x
y
28
La droite de régression qui permet de déterminer le volume moyen des ventes pour un coût
publicitaire donné x.

ˆ  33, 31  3, 95 x
y
Ordonnée à l’origine
(volume de vente moyen Dépenses
sans dépenser aucun dh en en publicité
publicité)

C’est l’augmentation du volume


des ventes (Y) pour une
augmentation unitaire du coût
en publicité (X)
29
Interprétation des résultats et remarques…

Rq1 : Le point de cordonnées


(x, y) se trouve sur la droite de
régression.
Rq2 : Cette relation linéaire entre X et Y est valide pour l’intervalle
des valeurs de X considérée dans l’énoncé, c’est-à-dire de 1 à 5,5.
La droite de régression s’applique à l’intérieur de l’étendue des
valeurs expérimentales qui ont été observées pour la variable
explicative (X). Nous devrons donc éviter toute extrapolation en
dehors de ce domaine à moins d’être certain que le phénomène se
comporte de façon identique.

30
Rq3 : Pour la valeur x = 3,5 (située entre 1 et 5,5), nous pouvons
utiliser la droite de régression pour calculer la valeur moyenne
correspondante de Y.

Exemple : Estimation du volume des ventes moyen pour un coût de 3,5


millions de dollars en publicité hebdomadaire.

= 33,31 + 3,95 (3,5) = 47,14 millions de dollars

31
2- Validation du modèle

Il existe trois mesures possibles pour quantifier l’intensité de la


relation entre X et Y:
– Le coefficient de détermination de Y en fonction de X
– Le coefficient de corrélation entre X et Y
– La covariance entre X et Y
–…

32
Le coefficient de Coefficient de détermination de Y en fonction de X
determination.

Le coefficient de détermination théorique de Y en fonction  2


de X,
noté YX

mesure la proportion de la variation de Y qui est expliquée par la


régression ou qui est expliquée par la variable X au niveau de toute la
population.

0  2
YX 1
Le coefficient de détermination indique si le modèle linéaire défini
colle aux données .

33
 2
En pratique YXest inconnu, car nous ne possédons pas d’information sur toute la
population mais seulement sur un échantillon de taille n, alors onestimera
2 2
YX rYX
par .
n n

2 2variation expliquée  ( yˆ i  y ) 2
b 1
2
 i
( x  x ) 2

rYX r   i 1
n
 i 1
2
variation totale  n

 ( yi  y ) 2
n   yi 
yi2   i 1 
i 1

i 1 n
2
rYX fournit une indication de la force de la liaison possible pouvant exister entre Y et X au
niveau de la population. De plus, c’est un indice de la qualité de l’ajustement de la
droite aux points expérimentaux. n 2
 
Rappel: n n   yi 
 i 1 
 i
( y
i 1
 y )2
  i
y 2

i 1 n 34
• Dans quelle mesure l’équation estimée de la régression s’ajuste-t-elle aux données?
• Le coefficient de détermination permet de mesurer le degré d’adéquation
• Formule pour le coefficient de détermination

r2 = SCreg/SCT

où: SCT = SCreg + SCres

 i
( y  y ) 2
  i
( ˆ
y  y ) 2
  ( yi  yˆ i ) 2

SCT = Somme des carrés totale (variation totale)


SCreg = Somme des carrés de la régression (variation expliquée)
SCres = Somme des carrés des résidus
35
n n n

2
 ( ˆyi  y )
2
SCreg SCT  SCres  i
( y  y )   i
(2
y  ˆ
y ) 2

r  i 1
n
   i 1
n
i 1

SCT SCT
 i
( y
i 1
 y )2
 i
( y
i 1
 y ) 2

 x i2  nx 2
r 2  b12 i 1
n


i 1
y i2  ny 2

36
Calculez rYX
2
pour l’exemple d’application des coûts publicitaires et des
ventes:
n

  yˆ  y
2
i
2 SCreg
rYX   i 1
n
SCT
 y  y
2
i
i 1

37
2 variation expliquée 298, 008
r
YX    0, 9692
variation totale 307, 525

Puisque
2
rYX est proche de 1, on peut dire que la droite de régression s’ajuste
très bien au nuage de points.

38
Différence entre régression et corrélation ?

2
ryx  (signe de b1 ) r
ryx  (signe de b1 ) coefficient de détermination

où: b1 est la pente de l’équation estimée de régression estimée


(empirique)
 yx

Le coefficient de corrélation théorique (au niveau de la population)
est dénoté ou simplement

39
Le coefficient de corrélation peut être déterminé de la manière suivante
(ou encore en prenant la racine carrée du coefficient de détermination):
n

( x i  x )( yi  y )
n x i yi    xi   yi 
rXY  i 1

n  x    xi  n y    yi 
n n 2 2 2 2

( x
i 1
i  x ) . ( yi  y )
2

i 1
2
i i

 1  rXY  1 rXY  0
• On a toujours:
• Si rXY  1 alors il existe une relation linéaire exacte entre X et Y.
• Si rXY  0 alors soit que X et Y sont indépendantes, soit qu’il y a une
dépendance non linéaire entre les deux variables.
• Si rXY  0 ou rXY  1 alors il existe une relation linéaire plus ou
moins forte entre X et Y .
• Le coefficient de corrélation permet de voir s'il est facile d'approcher les
données par une droite.
40
Toujours en utilisant l’exemple numérique de la publicité et les ventes
d'autos, mesurez le degré de dépendance linéaire entre X et Y.

Réponse
Les dépenses en publicité et les ventes varient dans le même sens
n 10

( x i  x )( yi  y ) ( x i  3, 3)( y i  46, 35)


75, 45
rXY  i 1
 i 1
  0, 9845
n n 10 10
19,10 * 307 , 53
( x
i 1
i  x ) . ( yi  y )
2

i 1
2
( x
i 1
i  3, 3) . ( y i  46, 35) 2
2

i 1

Il existe une relation linéaire très forte entre


les dépenses en publicité et les ventes

41

Vous aimerez peut-être aussi