SIMPLE
1
Le nombre d’années d’expérience et le nombre d’erreurs commises ;
L’âge du conducteur et le nombre d’accidents d’auto ;
Le volume des ventes et les dépenses en publicité ;
Le nombre d’heures d’études et les résultats aux examens ;
…
2
Questions
Existe-il une relation ou une dépendance entre les variables statistiques?
Cette relation, si elle existe, est-elle linéaire ou non ?
Si une dépendance existe, peut-on la traduire par une équation mathématique ?
La corrélation, si elle existe, est-elle forte ou faible ?
Si l’équation mathématique de la relation entre les variables existe,
comment prévoir les valeurs d’une certaine variable à partir
de la connaissance des valeurs des autres variables ?
3
Les différentes étapes d’une étude de régression
1- Spécification du modèle
2- Validation du modèle
3- Estimation des paramètres
4- Test des hypothèses
5- Développement des normes
4
Modèle Économique
Analyse explicative • Un modèle consiste en une présentation
formalisée d’un phénomène sous forme
d’équations mathématiques.( normalement en
économétrie et comme toutes les variables économiques sont
interdépendantes (notion de système), il n'est pas suffisant de construire des
équations isolées mais plutôt il faut établir un système complet d‘équations.)
5
Etapes d’une étude de marché
9
Une analyse de régression est :
- dite simple si elle permet de prédire les valeurs d’une variable
dite dépendante (expliquée, endogène,Y ) à partir des valeurs prises
par une autre variable dite indépendante (exogène, explicative, X ).
10
Coût du loyer en fonction
du nombre de pièces, du
niveau d’étage dans
l’immeuble, des services
offerts ...
Y f ( X 1 , X 2 , X 3 ,..., X n )
Nombre de pièces
Coût du loyer
Services offerts
(piscine, stationnement intérieur, etc.)
12
Objectif de la représentation graphique du nuage de point
Y f (x )
13
Exemple : Nuage de points ou diagramme de dispersion
40
35 y
30
25
20
15
10
5
0
0 1 2 3 4 5 6 7
x
14
• Modèle théorique de régression linéaire simple
y = 0 + 1x +
• Équation de la régression linéaire simple (comment l'espérance de y
est liée à x)
E(y) = 0 + 1x
• Équation estimée de la régression linéaire simple (modèle empirique)
^
y b0 b1 x
y^ : = Variable dépendante ou expliquée
= valeur estimée de y pour une valeur x
0 et 1 = Coefficients théoriques de régression (à estimer à l’aide d’un échantillon par b0 et b1 )
x = Variable
= Erreur théorique aléatoire
indépendante (d’autres facteurs influencent Y)
ou explicative
• L'équation estimée de la régression linéaire simple (droite de la
régression estimée, modèle empirique) peut être utilisée pour une
estimation ponctuelle de la valeur moyenne de y pour une valeur
particulière de x ou pour prévoir la valeur ponctuelle de y associée à
une valeur particulière de x
^
y b0 b1 x
y = Variable dépendante
^
y = valeur de prévision de y pour une valeur x;
x = Variable indépendante ou explicative
16
1- Spécification du modèle
Diagramme de dispersion
10
9
8
7
6
5
4
3
2
1
0
0 2 4 6 8 10
Heures d'études
17
Il existe plusieurs méthodes permettant d’estimer le modèle théorique
0 1 x
y empirique
par le modèle
ŷ b0 b1 x
Méthode des moindres carrés
Méthode de la vraisemblance
…
18
La méthode des moindres carrés
n
ˆ
min (Yi Yi ) 2
i 1
19
2 4 6
ei
n
min (Yi Yˆi ) 2
i 1
Heures d’études 5 28 16 39 56 80 75 84 25 64 10 50 50
Bonnes réponses 50 80 17 59 120 270 220 270 80 200 60 120 190
20
Définition : nous appelons résidu ou erreur empirique ou écart de
^
prévision, la valeur ei = yi – yi , soit la différence (l’écart vertical)
^
entre la valeur observée yi et la valeur estimée yi obtenue à partir de
la droite de régression, lorsque x = xi . n
e
i 1
i
21
La méthode des moindres carrés …
n
SCres e12 e22 e32 ... en2 ei2
i 1
Cette mesure donne l’ordre
n
de grandeur de la
dispersion des
SCres yi ˆyi
2
observations Yi autour de la
i 1
n
droite de régression
SCres yi b0 b1 xi
2
i 1
Il s’agit de trouver bo et b1 de sorte
que la somme des carrés des résidus SCres
soit la plus petite possible (minimale).
« Dérivée première devrait être égale à zéro. »
22
3- Estimation des paramètres
i 1
b0 y b1 x
n
b1
( x x )( y y )
i i
( x x )
xi yi n x y 2
i 1 i
b1 n
xi2 nx 2
i 1 Taille de l’échantillon
23
À partir des données ci-dessous, déterminez les estimations
ponctuelles des paramètres de la droite de régression selon la méthode
des moindres carrés :
24
n
x i yi nxy
6670 5 30 40
b1 i 1
n
2
0, 67
5500 5 (30)
i
x 2
i 1
nx 2
ˆ 19, 9 0, 67 x
y
b0 y b1 x 40 0, 67 30 19, 9
25
EXEMPLE
Une entreprise veut mener une étude sur la relation entre les dépenses
hebdomadaires en publicité et le volume de ventes qu’elle réalise. Nous avons
recueilli au cours des dix dernières semaines les données suivantes :
26
Les résultats intermédiaires suivants servent à calculer les estimations
ponctuelles des paramètres de la droite de régression :
27
En appliquant les formules ci-dessous, nous obtenons les valeurs
numériques de b0 et b1
n
x i yi nxy
1605 10 3, 3 46, 35
b1 i 1
n
2
3, 95
128 10 (3, 3)
i
x 2
i 1
nx 2
b0 y b1 x 46, 35 3, 95 3, 3 33, 31
ˆ 33, 31 3, 95 x
y
28
La droite de régression qui permet de déterminer le volume moyen des ventes pour un coût
publicitaire donné x.
ˆ 33, 31 3, 95 x
y
Ordonnée à l’origine
(volume de vente moyen Dépenses
sans dépenser aucun dh en en publicité
publicité)
30
Rq3 : Pour la valeur x = 3,5 (située entre 1 et 5,5), nous pouvons
utiliser la droite de régression pour calculer la valeur moyenne
correspondante de Y.
31
2- Validation du modèle
32
Le coefficient de Coefficient de détermination de Y en fonction de X
determination.
0 2
YX 1
Le coefficient de détermination indique si le modèle linéaire défini
colle aux données .
33
2
En pratique YXest inconnu, car nous ne possédons pas d’information sur toute la
population mais seulement sur un échantillon de taille n, alors onestimera
2 2
YX rYX
par .
n n
2 2variation expliquée ( yˆ i y ) 2
b 1
2
i
( x x ) 2
rYX r i 1
n
i 1
2
variation totale n
( yi y ) 2
n yi
yi2 i 1
i 1
i 1 n
2
rYX fournit une indication de la force de la liaison possible pouvant exister entre Y et X au
niveau de la population. De plus, c’est un indice de la qualité de l’ajustement de la
droite aux points expérimentaux. n 2
Rappel: n n yi
i 1
i
( y
i 1
y )2
i
y 2
i 1 n 34
• Dans quelle mesure l’équation estimée de la régression s’ajuste-t-elle aux données?
• Le coefficient de détermination permet de mesurer le degré d’adéquation
• Formule pour le coefficient de détermination
r2 = SCreg/SCT
i
( y y ) 2
i
( ˆ
y y ) 2
( yi yˆ i ) 2
2
( ˆyi y )
2
SCreg SCT SCres i
( y y ) i
(2
y ˆ
y ) 2
r i 1
n
i 1
n
i 1
SCT SCT
i
( y
i 1
y )2
i
( y
i 1
y ) 2
x i2 nx 2
r 2 b12 i 1
n
i 1
y i2 ny 2
36
Calculez rYX
2
pour l’exemple d’application des coûts publicitaires et des
ventes:
n
yˆ y
2
i
2 SCreg
rYX i 1
n
SCT
y y
2
i
i 1
37
2 variation expliquée 298, 008
r
YX 0, 9692
variation totale 307, 525
Puisque
2
rYX est proche de 1, on peut dire que la droite de régression s’ajuste
très bien au nuage de points.
38
Différence entre régression et corrélation ?
2
ryx (signe de b1 ) r
ryx (signe de b1 ) coefficient de détermination
39
Le coefficient de corrélation peut être déterminé de la manière suivante
(ou encore en prenant la racine carrée du coefficient de détermination):
n
( x i x )( yi y )
n x i yi xi yi
rXY i 1
n x xi n y yi
n n 2 2 2 2
( x
i 1
i x ) . ( yi y )
2
i 1
2
i i
1 rXY 1 rXY 0
• On a toujours:
• Si rXY 1 alors il existe une relation linéaire exacte entre X et Y.
• Si rXY 0 alors soit que X et Y sont indépendantes, soit qu’il y a une
dépendance non linéaire entre les deux variables.
• Si rXY 0 ou rXY 1 alors il existe une relation linéaire plus ou
moins forte entre X et Y .
• Le coefficient de corrélation permet de voir s'il est facile d'approcher les
données par une droite.
40
Toujours en utilisant l’exemple numérique de la publicité et les ventes
d'autos, mesurez le degré de dépendance linéaire entre X et Y.
Réponse
Les dépenses en publicité et les ventes varient dans le même sens
n 10
i 1
2
( x
i 1
i 3, 3) . ( y i 46, 35) 2
2
i 1
41