Académique Documents
Professionnel Documents
Culture Documents
2
Pr. BOULAHOUAL Adil
Mise en contexte
◦ Existe-il une relation ou une dépendance
entre les variables statistiques?
◦ Cette relation, si elle existe, est-elle linéaire
ou non ?
◦ Si une dépendance linéaire existe, de quelle
façon peut-on la traduire par une équation
mathématique ?
◦ La corrélation, si elle existe, est-elle forte ou
faible ?
◦ Si l’équation mathématique de la relation
entre les variables existe, comment prévoir
les valeurs d’une certaine variable à partir de
la connaissance de valeurs de l’autre variable 3
Pr. BOULAHOUAL Adil
Modèle Économique
4
Pr. BOULAHOUAL Adil
CHAPITRE I
La régression linéaire
5
Pr. BOULAHOUAL Adil
Pr. BOULAHOUAL Adil
L’analyse de la régression est une
méthode statistique qui permet d’étudier
le type de relation pouvant exister entre
une certaine variable (dépendante) dont
on veut expliquer les valeurs et une ou
plusieurs autres variables qui servent à
cette explication (variables
indépendantes)
Y f ( X 1 , X 2 , X 3 ,..., X n )
Nombre de pièces
Coût du loyer
Services offerts
(piscine, stationnement intérieur, etc.)
9
Pr. BOULAHOUAL Adil
Exemple : Nuage de points ou
diagramme de dispersion
10
Pr. BOULAHOUAL Adil
Objectif de la représentation graphique du nuage de point
11
Pr. BOULAHOUAL Adil
Définition : Nous appelons régression
linéaire l’ajustement d’une droite au
nuage statistique d’une série de couples
de données.
linéaire simple
y^ : = Variable dépendante (modèle empirique)
ou expliquée
= valeur estimée de y pour une valeur x
0 et 1 = Coefficients théoriques de régression (à estimer à l’aide d’un échantillon par b0 et b1 )
= Erreur théorique
x = Variable aléatoire (d’autres
indépendante facteurs influencent Y)
ou explicative
1- Spécification du
modèle
2- Validation du modèle
3- Estimation des
paramètres
5- Application du modèle
15
Pr. BOULAHOUAL Adil
1- Spécification du modèle
Diagramme de dispersion
10
9
8
7
6
5
4
3
2
1
0
0 2 4 6 8 10
Heures d'études
16
Pr. BOULAHOUAL Adil
Il existe plusieurs méthodes permettant
0 modèle
y le
d’estimer 1 x théorique
par le modèle empirique
ŷ b0 b1 x
17
Pr. BOULAHOUAL Adil
La méthode des moindres carrés
18
Pr. BOULAHOUAL Adil
Heures d’études 5 8 6 9 10 8 5 4 10 4 10 7 9
Bonnes réponses 5 8 7 9 10 7 4 4 8 2 9 6 8
Illustration graphique
Diagramme de dispersion
10
9
8
7 ( xi , yˆ i )
6
5 ( xi , yi )
4
3
2
1
0
0 2 4 6 8 10
Heures d'études
min (yi yˆ i ) 2
19
Pr. BOULAHOUAL Adil
Définition : nous appelons résidu ou
erreur empirique ou écart de ^ prévision, la
valeur ei = yi – yi , soit la différence
^
(l’écart vertical) entre la valeur observée
yi et la valeur estimée yi obtenue à
partir de la droite de régression, lorsque
x = L’objectif
xi . de la méthode des moindres carrés est de n
déterminer la droite de régression qui minimise i
2
e
i 1
20
Pr. BOULAHOUAL Adil
La méthode des moindres carrés …
n
SCres e 2
1 e 2
2 e 2
3 ... e e
2 2
n
i 1
i Cette mesure donne
l’ordre de grandeur
n
de la dispersion des
SCres yi ˆyi
2
observations Yi
i 1
autour de la droite
n
de régression
SCres yi b0 b1 xi
2
i 1
Il s’agit de trouver bo et b1 de sorte
que la somme des carrés des résidus SCres
soit la plus petite possible (minimale).
21
Pr. BOULAHOUAL Adil
3- Estimation des paramètres
i 1
b 0 y b1 x
n
b1
( x x )( y y )
i i
( x x )
xi yi n x y 2
i 1
b1 n
i
x i2 n x 2
i 1 Taille de l’échantillon
22
Pr. BOULAHOUAL Adil
À partir des données ci-dessous,
déterminez les estimations ponctuelles
des paramètres de la droite de régression
selon la méthode des moindres carrés :
23
Pr. BOULAHOUAL Adil
n
x i y i nxy
6670 5 30 40
b1 i 1
0 , 67
n
5500 5 ( 30 ) 2
i
x 2
i 1
nx 2
yˆ 19, 9 0, 67 x
b0 y b1 x 40 0, 67 30 19, 9
24
Pr. BOULAHOUAL Adil
EXEMPLE
Une entreprise veut mener une étude sur la
relation entre les dépenses hebdomadaires en
publicité et le volume de ventes qu’elle réalise.
Nous avons recueilli au cours des dix dernières
semaines les données suivantes :
26
Pr. BOULAHOUAL Adil
Les résultats intermédiaires suivants
servent à calculer les estimations
ponctuelles des paramètres de la droite de
régression :
27
Pr. BOULAHOUAL Adil
En appliquant les formules ci-dessous,
nous obtenons les valeurs numériques de
n b0 et b1
x y i i nxy
1605 10 3, 3 46, 35
b1 i 1
3, 95
n
128 10 (3, 3) 2
i
x 2
i 1
nx 2
b0 y b1 x 46, 35 3, 95 3, 3 33, 31
yˆ 33, 31 3, 95 x
28
Pr. BOULAHOUAL Adil
La droite de régression qui permet de déterminer le volume moyen
des ventes pour un coût publicitaire donné x.
yˆ 33, 31 3, 95 x
Ordonnée à l’origine
(volume de vente Dépenses
moyen en
sans dépenser publicité
aucun dh en
publicité)
C’est
l’augmentation du
volume des ventes
(Y) pour une
augmentation Pr. BOULAHOUAL Adil 29
Interprétation des résultats et remarques…
32
Pr. BOULAHOUAL Adil
Coefficient
Le coefficient de détermination de Y en
de détermination
fonction de X
Le coefficient de détermination
théoriqueYX
2
de Y en fonction de X, noté
mesure la proportion de la variation de Y
qui est expliquée par la régression ou qui
est expliquée par la variable X au niveau
0
de toute la population.2
YX 1
Le coefficient de détermination indique si le
modèle linéaire défini colle aux données .
33
Pr. BOULAHOUAL Adil
En pratique YX
2
est inconnu, car nous ne
possédons pas d’information sur toute la
population mais seulement sur 2
YX un rYX2 échantillon
de taille n, alors on estimera
n
par n
.
variation expliquée ( yˆi y )
2 2
b1 ( xi x ) 2
r r
2
YX
2
i 1
n
i 1
2
variation totale
( yi y )
n
yi
2
n
i 1
i 1
i 1
y 2
i
n
rYX2 fournit une indication de la force de la liaison
possible pouvant exister entre Y et X au niveau
de la population. De plus, c’est un indice de la
2
qualité de l’ajustement
n
de la droite aux points
Rappel: expérimentaux.
n n yi
i 1
i
( y
i 1
y )2
i
y 2
i 1
n 34
Pr. BOULAHOUAL Adil
Dans quelle mesure l’équation estimée de la
régression s’ajuste-t-elle aux données?
◦ Le coefficient de détermination permet de mesurer
le degré d’adéquation
Formule pour le coefficient de détermination
r2 = SCreg/SCT
où: SCT = SCreg + SCres
i
( y y )2
i
( ˆ
y y )2
i i
( y ˆ
y )2
( ˆyi y )
2
SCreg SCT SCres i
( y y ) i
( y 2
ˆ
y )2
r
2 i 1
n
i 1
n
i 1
SCT SCT
( yi y )
i 1
2
i
( y
i 1
y )2
n
x i2 n x 2
2 i1
r b 12 n 2 2
y i ny
i1
36
Pr. BOULAHOUAL Adil
2
Calculez
rYX pour l’exemple d’application des
coûts publicitaires et des ventes:
n
yˆ y
2
i
SCreg
r2
YX i 1
n
SCT
y y
2
i
i 1
37
Pr. BOULAHOUAL Adil
variation expliquée 298, 008
r2
YX 0, 9692
variation totale 307, 525
Puisque rYX2
est proche de 1, on peut dire que la
droite de régression s’ajuste très bien au
nuage de points.
38
Pr. BOULAHOUAL Adil
Différence entre régression et corrélation ?
39
Pr. BOULAHOUAL Adil
ryx (signe de b1 ) r 2
40
Pr. BOULAHOUAL Adil
Le coefficient de corrélation peut être
déterminé de la manière suivante (ou
encore en prenant la racine carrée du
n
coefficient
( x de
x )( détermination):
y y) i i n x i yi x i yi
rXY i 1
n x xi n y yi
n n 2 2 2 2
( x
i 1
i x ) . ( yi y )
2
i 1
2
i i
• On a toujours: 1 rXY 1
• Si rXY 1 alors il existe une relation linéaire exacte entre X et Y
• Si rXY alors
0 soit que X et Y sont indépendantes, soit qu’il y a une dépendance
non linéaire entre les deux variables
• Si rXY 0 ou rXY alors
1 il existe une relation linéaire plus ou moins forte
entre X et Y
• Le coefficient de corrélation permet de voir s'il est
facile d'approcher les données par une droite.
41
Pr. BOULAHOUAL Adil
Toujours en utilisant l’exemple numérique
de la publicité et les ventes d'autos,
mesurez le degré de dépendance linéaire
entre X et Y.
Réponse
Les dépenses en publicité et les ventes varient dans le même sens
n 10
i 1
2
( x
i 1
i 3, 3) . ( y i 46, 35) 2
2
i 1
42
Pr. BOULAHOUAL Adil
Pr. BOULAHOUAL Adil
4- Test d’hypothèse ou Validation de
la droite de régression Empirique
44
Pr. BOULAHOUAL Adil
Étapes contribuant à la validation de la droite de régression
empirique
2 théoriques
Estimer la variance des erreurs
Estimer
0 1 et par intervalle de
confiance
1
Test d’hypothèses sur
45
Pr. BOULAHOUAL Adil
Validation de la droite de régression empirique…
e 2
i ( yi yi )
ˆ 2
se2 s 2 i 1
i 1
n2 n2
46
Pr. BOULAHOUAL Adil
Estimation de b20 et b21
s 2
1 ,1 8 4 7
s b20 0 , 7 9 3 9
s b21 0 , 0 6 2
48
Pr. BOULAHOUAL Adil
Estimation de b1 par intervalle de confiance
50
Pr. BOULAHOUAL Adil
Le test d’hypothèses va nous permettre
de vérifier si l’intervalle de confiance de
β1 ne contient pas la valeur zéro.
Deux tests sont couramment utilisés
◦ Test t ou z
◦ Test F ( Fischer)
Nous rejetons H0 si
z z / 2 z zou
/2
52
Pr. BOULAHOUAL Adil
D’après les données de l’exemple
d’application sur la publicité et le volume de
ventes d'autos, vérifiez au niveau de
signification a = 0,05 si la variance de X
explique la variance Y, à partir de la droite
de régression
Étape 1 linéaire obtenueÉtape 2
H0 : 1 = 0 n – 2 = 8 < 30, population normale, inconnue
2
H1 : 1 ≠ 0
Étape 3 Étape 4
54
Pr. BOULAHOUAL Adil
TP n° I
55
Pr. BOULAHOUAL Adil
Déclaration des
Description de la valeurs possibles
variable des données
manquantes
Représente le nombre de
caractères maximum de la
donnée
le NOM de la
variable maximum
8 caractères). Décrit le format de la
variable
Numérique : Donnée numérique
Chaîne : Donnée alpha-numérique
56
Pr. BOULAHOUAL Adil