Vous êtes sur la page 1sur 78

Méthodes économétriques

L'économétrie est l’étude des phénomènes économiques en utilisant des


méthodes mathématiques et statistiques en vue de :

 Vérifier la validité des théories économiques


 Estimer les paramètres économiques
 Prédire des résultats économiques

La corrélation
La corrélation est une méthode qui étudie le rapport entre les variables
aléatoires à partir d’un coefficient de corrélation de Pearson :
𝑐𝑜𝑣 (𝑥;𝑦)
r (x ; y) = ρ (x ; y) =
𝜎𝑥 𝜎𝑦

r (x ; y) : coefficient de corrélation théorique

ρ (x ; y) : coefficient de corrélation empirique (ro)

Avec :
̅ )(yi−y
∑(𝑥𝑖−X ̅) ̅y
∑𝑥𝑖𝑦𝑖 −𝑛X ̅
Cov (x ; y) = ou Cov (x ; y) =
𝑛 𝑛
∑𝑥𝑖
X̅ =
𝑛

̅ ∑𝑦𝑖
Y=
𝑛

∑(𝑥𝑖−X ) ̅ 2 ∑𝑥𝑖 ̅2
2 −𝑛 X
𝜎𝑥 = √ ou 𝜎𝑥 = √
𝑛 𝑛

2 2 −𝑛 y
∑(𝑦𝑖−y
̅) ∑𝑦𝑖 ̅2
𝜎𝑦 = √ ou 𝜎𝑦 = √
𝑛 𝑛

Donc :
∑(𝑥𝑖−X ̅ )(yi−y
̅)
𝑛
r (x ; y) = 2 2
√∑(𝑥𝑖−X̅ ) √∑(𝑦𝑖−y̅)
𝑛 𝑛
∑(𝑥𝑖−X̅ )(yi−y
̅)
𝑛
r (x ; y) =
√∑(𝑥𝑖−X 2
̅ ) √∑(𝑦𝑖−y 2
̅)
√𝑛 √𝑛

∑(𝑥𝑖−X̅ )(yi−y
̅)
𝑛
r (x ; y) =
2
√∑(𝑥𝑖−X
̅ ) √∑(𝑦𝑖−y ̅) 2
𝑛

̅ )(yi−y
∑(𝑥𝑖−X ̅)
r (x ; y) =
̅̅̅) 2 √∑(𝑦𝑖−y
√∑(𝑥𝑖−X ̅)
2

Exercice 1 :

Considérons le tableau suivant relatif à la distribution des consommations des


ménages selon leurs revenus

Revenu 3000 4000 5000 6000 5500 6500 4000 7000 6000 3000
Consommation 2000 3500 5000 4000 5000 3000 3500 5000 5000 3000

T.A.F :

1) Tracer les nuages de points

2) Existe-t-il un lien entre la consommation et le revenu ?

3) Montrer que
̅ )(yi−y
∑(𝑥𝑖−X ̅) ̅y
∑𝑥𝑖𝑦𝑖 −𝑛X ̅
cov (x ; y) =
𝑛
=
𝑛
2
∑(𝑥𝑖−X̅ ) ∑𝑥𝑖 2 −𝑛 X
̅2
v(x) = =
𝑛 𝑛

Solution

1)

Xi : revenu

Yi : consommation
2)

Xi Yi 𝑋𝑖 − X̅ 𝑌𝑖 − ̅
Y (𝑋𝑖 − ̅X)(Yi − ̅
Y) (𝑋𝑖 − X̅ )2 (𝑌𝑖 − ̅
Y)2
3000 2000 -2000 -1900 3 800 000 4 000 000 3 610 000
4000 3500 -1000 -400 400 000 1 000 000 160 000
5000 5000 0 1100 0 0 1 210 000
6000 4000 1000 100 100 000 1 000 000 10 000
5500 5000 500 1100 550 000 250 000 1 210 000
6500 3000 1500 -900 -1 350 000 2 250 000 810 000
4000 3500 -1000 -400 400 000 1 000 000 160 000
7000 5000 2000 1100 2 200 000 4 000 000 1 210 000
6000 5000 1000 1100 1 100 000 1 000 000 1 210 000
3000 3000 -2000 -900 1 800 000 4 000 000 810 000
50000 39000 9 000 000 18 500 000 10 400 000

∑𝑥𝑖 50000
X̅ = = = 5000
𝑛 10

∑𝑦𝑖 39000
y̅ = = = 3900
𝑛 10

̅ )(yi−y
∑(𝑥𝑖−X ̅)
r (x ; y) =
̅̅̅) 2 √∑(𝑦𝑖−y
√∑(𝑥𝑖−X ̅)
2
9000000
r (x ; y) =
√18500000√10400000

r (x ; y) = 0,6488

Soit une corrélation positive de 64,88 % entre le revenu et la consommation

3)
∑𝑥𝑖 = ∑𝑥𝑖

∑𝑎 = na

∑𝑎𝑥𝑖 = 𝑎∑𝑥𝑖
̅ )(yi−y
∑(𝑥𝑖−X ̅) ̅y
∑𝑥𝑖𝑦𝑖 − 𝑛X ̅
 cov (x ; y) = =
𝑛 𝑛

∑(𝑥𝑖 − x̅)(yi − y̅) = ∑[(𝑥𝑖 𝑦𝑖 ) − (xi y


̅ ) − (x̅ 𝑦𝑖) + ( 𝑥̅ ̅)]
y

∑(𝑥𝑖 − x̅)(yi − y̅) = ∑(𝑥𝑖 𝑦𝑖 ) − ∑(xi y


̅ ) − ∑(x̅ 𝑦𝑖) + ∑( 𝑥̅ ̅)
y
∑(𝑥𝑖 − x̅)(yi − y̅) = ∑(𝑥𝑖 𝑦𝑖 ) − y
̅ ∑𝑥𝑖 − ̅∑𝑦𝑖
x + 𝑛 𝑥̅ ̅y
∑𝑥𝑖 ∑𝑦𝑖
∑(𝑥𝑖 − x̅)(yi − y̅) = ∑(𝑥𝑖 𝑦𝑖 ) − y̅ n − ̅x 𝑛 + 𝑛 𝑥̅ ̅y
𝑛 𝑛

∑(𝑥𝑖 − x̅)(yi − y̅) = ∑(𝑥𝑖 𝑦𝑖 ) − 𝑛 𝑥̅ ̅y − 𝑛 𝑥̅ ̅y + 𝑛 𝑥̅ ̅y

∑(𝑥𝑖 − x̅)(yi − y̅) = ∑(𝑥𝑖 𝑦𝑖 ) − 𝑛 𝑥̅ ̅y

Donc :
1 1
∑(𝑥𝑖 − x̅)(yi − y̅) × = ∑(𝑥𝑖 𝑦𝑖) − 𝑛 𝑥̅ ̅y ×
𝑛 𝑛

De ce fait :
̅ )(𝐲𝐢−𝐲
∑(𝒙𝒊−𝐗 ̅) ̅𝐲̅
∑𝒙𝒊𝒚𝒊 −𝒏𝐗
𝐜𝐨𝐯 (𝐱 ; 𝐲) =
𝒏
=
𝒏
2
∑(𝑥𝑖−X̅ ) ∑𝑥𝑖 2 −𝑛 X
̅2
 v(x) = =
𝑛 𝑛

∑(𝑋𝑖 − X̅ )2 = ∑ (𝑋𝑖 2 – 2 𝑋𝑖 𝑋̅ + 𝑋̅ 2 )
∑(𝑋𝑖 − X̅ )2 = ∑𝑋𝑖 2 – ∑ 2 𝑋𝑖 𝑋̅ + ∑ 𝑋̅ 2

∑(𝑋𝑖 − X̅ )2 = ∑𝑋𝑖 2 – 2 𝑋̅ ∑ 𝑋𝑖 + n 𝑋̅ 2
∑ 𝑋𝑖
∑(𝑋𝑖 − X̅ )2 = ∑𝑋𝑖 2 – 2 𝑋̅ n + n 𝑋̅ 2
𝑛

∑(𝑋𝑖 − X̅ )2 = ∑𝑋𝑖 2 – 2 𝑋̅ 𝑋̅ n + n 𝑋̅ 2

∑(𝑋𝑖 − X̅ )2 = ∑𝑋𝑖 2 – 2 n 𝑋̅ 2 + n 𝑋̅ 2

∑(𝑋𝑖 − X̅ )2 = ∑𝑋𝑖 2 – n 𝑋̅ 2
Donc :
1 1
∑(𝑋𝑖 − X̅ )2 × = (∑𝑋𝑖 2 – n 𝑋̅ 2 ) ×
𝑛 𝑛

De ce fait :
𝟐
∑(𝒙𝒊−𝐗̅ ) ∑𝒙𝒊𝟐 − 𝒏 𝐗
̅𝟐
v(x) = =
𝒏 𝒏
Chapitre 1 : La régression simple :
C’est un modèle qui cherche à établir un lien de causalité entre 2 variables. On
distingue deux modèles :

 Modèle économique
Yi = b + a Xi
Ou :
Yi = ß0 + ß1 Xi

 Modèle économétrique
Yi = ß0 + ß1 Xi + Ƹi
Avec :
Ƹi = erreur (bruit ou perturbation)
Xi : Variables explicatives = Variables indépendantes = Variables
exogènes = variable ‘’ régresseur ’’
Yi : Variable à expliquer = Variable dépendante = Variable endogène =
variable ‘’ réponse ’’

La droite de régression

Ŷ = B̂0 + B̂1 Xi

En utilisant la méthode des moindres carrés ordinaires MCO, on peut estimer


les paramètres ß0 et ß1. On obtient :

̅
∑(𝑥𝑖−X)(yi−y) ̅
B̂1 = 2
̅̅̅)
∑(𝑥𝑖−X

Ou
̅y
∑𝑥𝑖𝑦𝑖 −𝑛X ̅
B̂1 = 2 ̅2
∑𝑥𝑖 −𝑛 X
Equation de l’analyse de la variance

SCT = SCR + SCE

∑(𝑌𝑖 − Y̅ )2 = ∑(𝑌𝑖 − 𝑌𝑖
̂ )2 + ∑(𝑌𝑖
̂ − Y̅ )2

SCT (somme des carrés totaux) = ∑(𝑌𝑖 − Y̅ )2 : elle indique la variabilité totale
de Y, c.-à-d. l’information disponible dans les données

SCR (somme des carrés résiduels) = ∑(𝑌𝑖 − 𝑌𝑖 ̂ )2 : elle indique la variabilité non
expliquée par le modèle, c.-à-d. celle entre les valeurs observées et prédites

SCE (somme des carrés expliqués) = ∑(𝑌𝑖 ̂ − Y̅ )2 : elle indique la variabilité


expliquée par le modèle, c.-à-d. la variation de Y expliquée par X

Deux situations extrêmes peuvent survenir :

 1ére situation :

̂ = 𝒀𝒊
SCR = 0 implique SCT = SCE et par conséquent 𝒀𝒊

Les variations de Y sont complétement expliquées par celles de X. Le modèle


est parfait et la droite de régression passe par tous les points de nuage

 2éme situation :

̂ = 𝐘̅
SCE = 0 implique SCT = SCR et par conséquent 𝒀𝒊

X n’apporte aucune information sur Y, donc la meilleure prédiction de Y est


sa propre moyenne.

Démonstration :

Ƹ̂i = Yi – 𝑌̂ i = Yi – ̅
Y – 𝑌̂ i + ̅
Y = (Yi – ̅
Y) – (𝑌̂ i – ̅
Y)

Yi – 𝑌̂ i = (Yi – Y
̅) – (𝑌̂ i – Y
̅)

(𝑌𝑖 – 𝑌̂ 𝑖) 2 = [(𝑌𝑖 – ̅
Y) – (𝑌̂ 𝑖 – ̅
Y)]2

∑ (𝑌𝑖 – 𝑌̂ 𝑖) 2 = ∑ [(𝑌𝑖 – Y
̅) – (𝑌̂𝑖 – Y
̅)]2

∑ (𝑌𝑖 – 𝑌̂ 𝑖) 2 = ∑ [(𝑌𝑖 – ̅
Y)2 – 2 (𝑌𝑖 – ̅
Y) (𝑌̂ 𝑖 – ̅
Y) + (𝑌̂ 𝑖 – ̅
Y)2 ]

∑ (𝑌𝑖 – 𝑌̂ 𝑖) 2 = ∑(𝑌𝑖 – ̅
Y)2 – 2∑ (𝑌𝑖 – ̅
Y) (𝑌̂ 𝑖 – ̅
Y) + ∑(𝑌̂ 𝑖 – ̅
Y)2
Avec :

𝑌̂ i = 𝐵̂ 0 + 𝐵̂ 1 Xi = ̅
Y – 𝐵̂ 1 X̅ + 𝐵̂ 1 Xi = ̅
Y + 𝐵̂ 1 (Xi – ̅
X)

𝑌̂ i – ̅
Y = 𝐵̂ 1 (Xi – ̅
X)

∑ (𝑌𝑖 – 𝑌̂ 𝑖) 2 = ∑(𝑌𝑖 – Y
̅)2 – 2∑ (𝑌𝑖 – Y
̅) (𝐵̂ 1 (𝑋𝑖 – X
̅)) + ∑(𝑌̂𝑖 – Y
̅) 2

∑ (𝑌𝑖 – 𝑌̂ 𝑖) 2 = ∑(𝑌𝑖 – Y
̅)2 – 2𝐵̂ 1 ∑ (𝑌𝑖 – Y
̅) (𝑋𝑖 – X
̅) + ∑(𝑌̂ 𝑖 – Y
̅)2

Avec :
̅
∑(𝑋𝑖−X)(Yi−Y)̅
𝐵̂ 1 = ̅ 2
∑(Xi −X)

∑ (𝑌𝑖 – 𝑌̂ 𝑖) 2 = ∑(𝑌𝑖 – Y
̅)2 – 2𝐵̂ 1 𝐵̂ 1 ∑(Xi − X
̅) 2 + ∑(𝑌̂𝑖 – Y
̅)2

∑ (𝑌𝑖 – 𝑌̂ 𝑖) 2 = ∑(𝑌𝑖 – ̅
Y)2 – 2 𝐵̂ 1 2 ∑(Xi − ̅
X) 2 + ∑(𝑌̂ 𝑖 – ̅
Y)2

∑ (𝑌𝑖 – 𝑌̂ 𝑖) 2 = ∑(𝑌𝑖 – ̅
Y)2 – 2 ∑ [𝐵̂ 1 (Xi − ̅
X)] 2 + ∑(𝑌̂𝑖 – ̅
Y)2

∑ (𝑌𝑖 – 𝑌̂ 𝑖) 2 = ∑(𝑌𝑖 – Y
̅)2 – 2 ∑ (𝑌̂ 𝑖 – Y
̅ ) 2 + ∑(𝑌̂𝑖 – Y
̅) 2

∑ (𝑌𝑖 – 𝑌̂ 𝑖) 2 = ∑(𝑌𝑖 – ̅
Y)2– ∑ (𝑌̂ 𝑖 – ̅
Y)2
̅)2 = ∑ (𝑌𝑖 – 𝑌̂ 𝑖) 2 + ∑ (𝑌̂𝑖 – Y
∑(𝑌𝑖 – Y ̅)2

SCT = SCR + SCE

Exercice 2 :

Considérons le tableau suivant représentant le nombre de commandes selon le


nombre de visites
Nombre de visites Nombre de commandes
2 23
3 27
5 28
9 39
10 39
12 45
15 51

1) Calculer le coefficient de corrélation

2) Montrer que :
̅ )(yi−y
∑(𝑥𝑖−X ̅) ̅y
∑𝑥𝑖𝑦𝑖 −𝑛X ̅
𝐵̂ 1 = 2 = 2 ̅2
∑(𝑥𝑖−X̅ ) ∑ 𝑥𝑖 – n X

3) Déterminer la droite de régression

4) déterminer le nombre de commandes si le nombre de visites est de 20

Solution

1)

xi yi 𝑋𝑖 − X̅ 𝑌𝑖 − ̅
Y (𝑋𝑖 − ̅
X)(Yi − ̅
Y) (𝑋𝑖 − X̅ )2 (𝑌𝑖 − ̅
Y)2
2 23 -6 -13 78 36 169
3 27 -5 -9 45 25 81
5 28 -3 -8 24 9 64
9 39 1 3 3 1 9
10 39 2 3 6 4 9
12 45 4 9 36 16 81
15 51 7 15 105 49 225
56 252 297 140 638

∑𝑥𝑖 56
X̅ = = =8
𝑛 7

̅ = ∑𝑦𝑖 = 252 = 36
Y
𝑛 7
̅ )(yi−y
∑(𝑥𝑖−X ̅)
r (x ; y) =
̅̅̅) 2 √∑(𝑦𝑖−y
√∑(𝑥𝑖−X ̅)
2

297
r (x ; y) =
√140√638

r (x ; y) = 0,9937

Soit une corrélation positive de 99,37 % entre le nombre des visites et le


nombre de commandes

2)

∑𝑥𝑖 = ∑𝑥𝑖

∑𝑎 = na

∑𝑎𝑋𝑖 = 𝑎∑𝑥𝑖

 Numérateur
∑(𝑥𝑖 − x̅)(yi − y̅) = ∑[(𝑥𝑖 𝑦𝑖 ) − (xi y
̅ ) − (x̅ 𝑦𝑖) + ( 𝑥̅ ̅)]
y

∑(𝑥𝑖 − x̅)(yi − y̅) = ∑(𝑥𝑖 𝑦𝑖 ) − ∑(xi y


̅ ) − ∑(x̅ 𝑦𝑖) + ∑( 𝑥̅ ̅)]
y
∑(𝑥𝑖 − x̅)(yi − y̅) = ∑(𝑥𝑖 𝑦𝑖 ) − y̅∑𝑥𝑖 − ̅∑𝑦𝑖
x + 𝑛 𝑥̅ ̅y
∑𝑥𝑖 ∑𝑦𝑖
∑(𝑥𝑖 − x̅)(yi − y̅) = ∑(𝑥𝑖 𝑦𝑖 ) − y̅ n − ̅x 𝑛 + 𝑛 𝑥̅ ̅y
𝑛 𝑛

∑(𝑥𝑖 − x̅)(yi − y̅) = ∑(𝑥𝑖 𝑦𝑖 ) − 𝑛 𝑥̅ ̅y − 𝑛 𝑥̅ ̅y + 𝑛 𝑥̅ ̅y

∑(𝑥𝑖 − x̅)(yi − y̅) = ∑(𝑥𝑖 𝑦𝑖 ) − 𝑛 𝑥̅ ̅y

 Dénominateur
2
∑(𝑥𝑖 − X̅ ) = ∑(𝑥𝑖2 - 2 𝑥𝑖 X̅ + ̅
X2)
2
∑(𝑥𝑖 − X̅ ) = ∑ 𝑥𝑖2 - ∑ 2 𝑥𝑖 X̅ + ∑ ̅X 2
2
∑(𝑥𝑖 − X̅ ) = ∑ 𝑥𝑖2 – 2 X̅ ∑ 𝑥𝑖 + n ̅X 2
2 ∑𝑥𝑖
∑(𝑥𝑖 − X̅ ) = ∑ 𝑥𝑖2 – 2 X̅ 𝑛
𝑛 + n ̅X 2
2
∑(𝑥𝑖 − X̅ ) = ∑ 𝑥𝑖2 – 2 n ̅X 2 + n ̅X 2
2
∑(𝑥𝑖 − X̅ ) = ∑ 𝑥𝑖2 – n ̅X 2

Donc
̅ )(yi−y
∑(𝑥𝑖−X ̅) ̅y
∑𝑥𝑖𝑦𝑖 −𝑛X ̅
𝐵̂ 1 = 2 = 2 ̅2
∑(𝑥𝑖−X̅ ) ∑ 𝑥𝑖 – n X

3)
̅
∑(𝑥𝑖−X)(yi−y) 297
̅
B̂1 = 2 = = 2,1214
̅̅̅)
∑(𝑥𝑖−X 140

B̂0 = Y
̅ - B̂1 X̅ = 36 – (2,1214 × 8) = 19,0288

Ŷ = B̂0 + B̂1 Xi

Ŷ = 19,0288 + 2,1214 Xi

4)

Ŷ = 19,0288 + 2,1214 Xi

Ŷ = 19,0288 + (2,1214 × 20)

Ŷ = 61,4568

Soit 61 commandes

Exercice 3 :
Une entreprise nous fournit sa quantité produite au titre de 1 er semestre 2017

Mois Quantité
1 50
2 60
3 70
4 30
5 80
6 100

T.A.F :

1) y’a-t-il un rapport entre la quantité produite et le nombre des mois

2) déterminer l’équation de la droite de régression linéaire

3) tracer les nuages de points

Solution :

1)

Il faut calculer le coefficient de corrélation

xi yi 𝑥𝑖 − X̅ 𝑦𝑖 − y̅ (𝑥𝑖 − ̅
X)(yi − y̅) (𝑥𝑖 − X̅ )2 (𝑦𝑖 − y̅)2
1 50 -2,5 -15 37,5 6,25 225
2 60 -1,5 -5 7,5 2,25 25
3 70 -0,5 5 -2,5 0,25 25
4 30 0,5 -35 -17,5 0,25 1225
5 80 1,5 15 22,5 2,25 225
6 100 2,5 35 87,5 6,25 1225
21 390 135 17,5 2950

∑𝑥𝑖 21
X̅ = = = 3,5
𝑛 6

̅ ∑𝑦𝑖 390
Y= = = 65
𝑛 6

̅ )(yi−y
∑(𝑥𝑖−X ̅) 135
r (x ; y) = = = 0,5941
̅̅̅) 2 √∑(𝑦𝑖−y
√∑(𝑥𝑖−X 2 √17,5√2950
̅)
Soit une corrélation positive de 59,41 % entre le nombre des visites et le
nombre de commandes

2)
̅
∑(𝑥𝑖−X)(yi−y) 135 ̅
B̂1 = 2 = = 7,7142
̅̅̅)
∑(𝑥𝑖−X 17,5

B̂0 = Y
̅ - B̂1 X̅ = 65 – (7,7142 × 3,5) = 38,0003

Ŷ = B̂0 + B̂1 Xi

Ŷ = 38,0003 + 7,7142 Xi

3)

Y
120

100

80

60
Y
40

20

0
0 1 2 3 4 5 6 7

Le coefficient de détermination
Le coefficient de détermination linéaire de Pearson 𝑅 2 est une mesure de
la qualité de la prédiction d'une régression linéaire. Il est égal au carré
𝑆𝐶𝐸 𝑆𝐶𝑅
du coefficient de corrélation linéaire 𝑅 2 = =1–
𝑆𝐶𝑇 𝑆𝐶𝑇

0 < 𝑅 2 < 0,5 : modèle faible et 0,5 < 𝑅 2 < 1 : modèle fort

Exercice 3 :

Un sondage effectué auprès d’un échantillon révèle les données suivantes :

Ages Dépenses quotidiennes


15 95
19 97
20 101
21 105
45 74
49 70
54 65

T.A.F :

1) Montrer que
̅ )(yi−y
∑(𝑥𝑖−X ̅) ̅y
∑𝑥𝑖𝑦𝑖 −𝑛X ̅
cov (x ; y) =
𝑛
=
𝑛
2
∑(𝑥𝑖−X̅ ) ∑𝑥𝑖 2 −𝑛 X
̅2
v(x) = =
𝑛 𝑛
2) Représenter les nuages des points
3) Calculer le coefficient de corrélation
4) Donner le modèle économique, le modèle économétrique et démontrer
les estimateurs de la droite de régression
5) Déterminer la droite de régression
6) Calculer le coefficient de détermination
7) Comment peut-on améliorer le modèle ?
8) Donner le modèle proposé et calculer sa droite de régression et son
coefficient de détermination

Solution
1)

∑𝑥𝑖 = ∑𝑥𝑖

∑𝑎 = na

∑𝑎𝑥𝑖 = 𝑎∑𝑥𝑖
̅ )(yi−y
∑(𝑥𝑖−X ̅) ̅y
∑𝑥𝑖𝑦𝑖 − 𝑛X ̅
 cov (x ; y) = =
𝑛 𝑛

∑(𝑥𝑖 − x̅)(yi − y̅) = ∑[(𝑥𝑖 𝑦𝑖 ) − (xi y


̅ ) − (x̅ 𝑦𝑖) + ( 𝑥̅ ̅)]
y
∑(𝑥𝑖 − x̅)(yi − y̅) = ∑(𝑥𝑖 𝑦𝑖 ) − ∑(xi y
̅ ) − ∑(x̅ 𝑦𝑖) + ∑( 𝑥̅ ̅)
y
∑(𝑥𝑖 − x̅)(yi − y̅) = ∑(𝑥𝑖 𝑦𝑖 ) − y
̅ ∑𝑥𝑖 − ̅∑𝑦𝑖
x + 𝑛 𝑥̅ ̅y
∑𝑥𝑖 ∑𝑦𝑖
∑(𝑥𝑖 − x̅)(yi − y̅) = ∑(𝑥𝑖 𝑦𝑖 ) − y̅ n − ̅x 𝑛 + 𝑛 𝑥̅ ̅y
𝑛 𝑛

∑(𝑥𝑖 − x̅)(yi − y̅) = ∑(𝑥𝑖 𝑦𝑖 ) − 𝑛 𝑥̅ ̅y − 𝑛 𝑥̅ ̅y + 𝑛 𝑥̅ ̅y

∑(𝑥𝑖 − x̅)(yi − y̅) = ∑(𝑥𝑖 𝑦𝑖 ) − 𝑛 𝑥̅ ̅y

Donc :
1 1
∑(𝑥𝑖 − x̅)(yi − y̅) × = ∑(𝑥𝑖 𝑦𝑖) − 𝑛 𝑥̅ ̅y ×
𝑛 𝑛

De ce fait :
̅ )(𝐲𝐢−𝐲
∑(𝒙𝒊−𝐗 ̅) ̅𝐲̅
∑𝒙𝒊𝒚𝒊 −𝒏𝐗
𝐜𝐨𝐯 (𝐱 ; 𝐲) =
𝒏
=
𝒏
2
∑(𝑥𝑖−X̅ ) ∑𝑥𝑖 2 −𝑛 X
̅2
 v(x) = =
𝑛 𝑛

∑(𝑋𝑖 − X̅ )2 = ∑ (𝑋𝑖 2 – 2 𝑋𝑖 𝑋̅ + 𝑋̅ 2 )

∑(𝑋𝑖 − X̅ )2 = ∑𝑋𝑖 2 – ∑ 2 𝑋𝑖 𝑋̅ + ∑ 𝑋̅ 2

∑(𝑋𝑖 − X̅ )2 = ∑𝑋𝑖 2 – 2 𝑋̅ ∑ 𝑋𝑖 + n 𝑋̅ 2
∑ 𝑋𝑖
∑(𝑋𝑖 − X̅ )2 = ∑𝑋𝑖 2 – 2 𝑋̅ n + n 𝑋̅ 2
𝑛
∑(𝑋𝑖 − X̅ )2 = ∑𝑋𝑖 2 – 2 𝑋̅ 𝑋̅ n + n 𝑋̅ 2

∑(𝑋𝑖 − X̅ )2 = ∑𝑋𝑖 2 – 2 n 𝑋̅ 2 + n 𝑋̅ 2

∑(𝑋𝑖 − X̅ )2 = ∑𝑋𝑖 2 – n 𝑋̅ 2
Donc :
1 1
∑(𝑋𝑖 − X̅ )2 × = (∑𝑋𝑖 2 – n 𝑋̅ 2 ) ×
𝑛 𝑛

De ce fait :
𝟐
∑(𝒙𝒊−𝐗̅ ) ∑𝒙𝒊𝟐 − 𝒏 𝐗
̅𝟐
v(x) = =
𝒏 𝒏

2)

3)
223
X̅ = = 31,8571
7
607
y̅ = = 86,7142
7

xi yi (𝑥𝑖 − ̅
X) (yi − y̅) (𝑥𝑖 − ̅
X)(yi − y̅) (𝑥𝑖 − X̅ )2 (𝑦𝑖 − y̅)2
15 95 -16,8571 8,2858 -139,6745 284,1618 68,6544
19 97 -12,8571 10,2858 -132,2455 154,4328 105,7976
20 101 -11,8571 14,2858 -169,3881 140,5908 204,0840
21 105 -10,8571 18,2858 - 198,5307 117,8766 334,3704
45 74 13,1429 -12,7142 -167,1014 172,7358 161,6508
49 70 17,1429 -16,7142 -286,5298 293,8790 279,3644
54 65 22,1429 -21,7142 -480,8153 490,3080 471,5064
223 607 -1574,2853 1653,9848 1624,7144

̅ )(yi−y
∑(𝑥𝑖−X ̅)
r (x ; y) =
̅̅̅) 2 √∑(𝑦𝑖−y
√∑(𝑥𝑖−X ̅)
2

−𝟏𝟓𝟕𝟒,𝟐𝟖𝟓𝟑
r (x ; y) =
√𝟏𝟔𝟓𝟑,𝟗𝟖𝟒𝟖√𝟏𝟔𝟐𝟒,𝟕𝟏𝟒𝟒

r (x ; y) = -0,9603

Soit une corrélation négative de 96,03 % entre l’âge et la dépense quotidienne

4)

Modèle économique

Yi = ß0 + ß1Xi

Modèle économétrique

Yi = ß0 + ß1Xi + Ƹi

Estimations des coefficients

Min SCR = Min ∑(yi − Ŷ)2 = Min ∑(yi − 𝐵̂ 0 − 𝐵1 𝑋𝑖)2

Avec Ŷi = 𝐵̂ 0 + 𝐵1 𝑋i

Cela implique :

(𝑢𝑎 )′ = a × 𝑢𝑎−1 × u’

(5)’x = 0

(X)’x = 1

(X)’y = 0
(𝑋3 Y)’x = 3𝑥 2 y

∑𝑥𝑖 = ∑𝑥𝑖

∑𝑎 = na

∑𝑎𝑥𝑖 = 𝑎∑𝑥𝑖

Pour 𝐵0
𝑑 ∑(yi−𝐵̂0− 𝐵1 𝑋𝑖)2
=0
𝑑 𝐵̂0

∑[2(yi − 𝐵̂ 0 − 𝐵1 𝑋𝑖)2−1 × (0 -1 – 0)] = 0

∑[2(yi − 𝐵̂ 0 − 𝐵1 𝑋𝑖)1 × (-1 )] = 0

∑[−2(yi − 𝐵̂ 0 − 𝐵1 𝑋𝑖)] = 0

-2 ∑[(yi − 𝐵̂ 0 − 𝐵1 𝑋𝑖)] = 0

∑[(yi − 𝐵̂ 0 − 𝐵1 𝑋𝑖)] = 0

∑yi − ∑𝐵̂ 0 − ∑𝐵1 𝑋𝑖 = 0


∑yi
𝑛 − 𝑛𝐵̂ 0 − 𝐵1∑ 𝑋𝑖 = 0
𝑛

∑𝑋𝑖
𝑛y̅ − 𝑛𝐵̂ 0 − 𝑛 𝐵1 =0
𝑛

𝑛y̅ − 𝑛𝐵̂0 − 𝑛 𝐵1X̅ = 0

𝑛𝐵̂0 = 𝑛y̅ − 𝑛 𝐵1X̅

𝐵̂0 = y̅ − 𝐵1X̅

Pour 𝐵1
𝑑 ∑(yi−𝐵̂0− 𝐵1 𝑋𝑖)2
=0
𝑑 𝐵̂1

∑[2(yi − 𝐵̂ 0 − 𝐵1 𝑋𝑖)2−1 × (0 -0 -𝑋𝑖)] = 0


∑[2(yi − 𝐵̂ 0 − 𝐵1 𝑋𝑖)1 × (-𝑋𝑖)] = 0

∑[−2(yi − 𝐵̂ 0 − 𝐵̂ 1 𝑋𝑖)× (𝑋𝑖)] = 0

-2 ∑[(yi − 𝐵̂ 0 − 𝐵̂ 1 𝑋𝑖)× (𝑋𝑖)] = 0

∑[(yi − 𝐵̂ 0 − 𝐵̂ 1 𝑋𝑖)× (𝑋𝑖)] = 0

∑(yixi − 𝐵̂ 0𝑥𝑖 − 𝐵̂ 1 𝑥𝑖2) = 0

Avec :

𝐵̂0 = y̅ − 𝐵1X̅

∑(yixi − (y̅ − 𝐵1X̅ ) 𝑥𝑖 − 𝐵̂ 1 𝑥𝑖2 ) = 0

∑(yixi − y̅ xi + 𝐵1X̅ 𝑥𝑖 − 𝐵̂ 1 𝑥𝑖2 ) = 0

∑yixi − ∑y̅ xi + ∑ 𝐵1X̅ 𝑥𝑖 − ∑ 𝐵̂ 1 𝑥𝑖2 = 0

∑yixi − y̅∑xi + 𝐵1X̅ ∑ 𝑥𝑖 − 𝐵̂ 1 ∑𝑥𝑖2 = 0


∑𝑋𝑖 ∑𝑋𝑖
∑yixi − y̅ 𝑛 ̅𝑛
+ 𝐵1X ̂ 1 ∑𝑥𝑖2 = 0
−𝐵
𝑛 𝑛

∑yixi − y̅ 𝑛 X̅ + n𝐵1X̅ X̅ ̂ 1 ∑𝑥𝑖2 = 0


−𝐵

∑xiyi − 𝑛 X̅ y̅ + n𝐵1X̅ 2 ̂ 1 ∑𝑥𝑖2 = 0


−𝐵

𝐵̂ 1 ∑𝑥𝑖2 − n𝐵1X̅ 2 = ∑xiyi − 𝑛 X̅ y̅

𝐵̂ 1 (∑𝑥𝑖 2 − nX̅ 2 ) = ∑xiyi − 𝑛 X̅ y̅


∑xiyi−𝑛 X̅ y
̅
𝐵̂ 1 = 2 ̅ 2
(∑𝑥𝑖 − nX )

̅y
∑xiyi−𝑛 X ̅
𝑛
𝐵̂ 1 = (∑𝑥𝑖2 − nX
̅2 )
𝑛

𝑐𝑜𝑣 (𝑥;𝑦)
𝐵̂ 1 =
𝑣(𝑥)

5)
̅
∑(𝑥𝑖−X)(yi−y) −1574,2853
̅
B̂1 = 2 = = -0,9518
̅̅̅)
∑(𝑥𝑖−X 1653,9848

̅ = 86,7142 + (0,9518 × 31,8571) = 117,0357


B̂0 = y̅ - B̂1 X

Ŷ = B̂0 + B̂1 Xi

Ŷ = 117,0357 – 0,9518 Xi

6)
𝑆𝐶𝑅 Ƹ(Yi − Ŷ) 2 136,8508
𝑅2 = 1 - =1- ̅)2
=1- = 0,9157
𝑆𝐶𝑇 Ƹ(𝑦𝑖−y 1624,7144

0,5 < 𝑅 2 < 1 : donc le modèle est fort ce qui signifie que l’équation de la
droite de régression détermine 91,57% la distribution des points

xi yi Ŷ (Yi − Ŷ) 2
15 95 102,7587 60,1974
19 97 98,9515 3,8083
20 101 97,9997 9,0018
21 105 97,0479 63,2358
45 74 74,2047 0,0419
49 70 70,3975 0,158
54 65 65,6385 0,4076
223 607 136,8508

7)

On peut améliorer le modèle en divisant cet échantillon en 2 sous-échantillons

8)

1er sous-échantillon

xi yi
15 95
19 97
20 101
21 105
2eme sous-échantillon
xi yi
45 74
49 70
54 65

La droite de régression et le coefficient de détermination

1er sous-échantillon

xi yi ̅)
(𝑥𝑖 − X (yi − y̅) ̅)(yi − y̅)
(𝑥𝑖 − X (𝑥𝑖 − X̅ )2 (𝑦𝑖 − y̅)2 Ŷ (Yi − Ŷ) 2
15 95 -3,75 -4,5 16,875 14,0625 20,25 93,9882 1,0237
19 97 0,25 -2,5 -0,625 0,0625 6,25 99,8674 8,2219
20 101 1,25 1,5 1,875 1,5625 2,25 101,3372 0,1137
21 105 2,25 5,5 12,375 5,0625 30,25 102,807 4,8092
75 398 30,5 20,75 59 14,1685

75
X̅ = = 18,75
4
398
̅
Y = = 99,5
4
̅ )(yi−y
∑(𝑥𝑖−X ̅) 30,5
B̂ 1 = = = 1,4698
̅̅̅) 2
∑(𝑥𝑖−X 20,75

B̂ 0 = ̅ ̅
Y - B̂ 1 X

B̂ 0 = 99,5 - (1,4698 × 18,75) = 71,9412

Ŷ = B̂ 0 + B̂ 1 Xi

Ŷ = 71,9412 + 1,4698 Xi
𝑆𝐶𝑅 14,1685
𝑅2 = 1 - =1- = 0,7598
𝑆𝐶𝑇 59

0,5 < 𝑅 2 < 1 : donc le modèle de 1er sous-échantillon est fort ce qui signifie
que l’équation de la droite de régression détermine 75,98% la distribution
des points.

2eme sous-échantillon
xi yi (𝑥𝑖 − ̅
X) (yi − y̅) (𝑥𝑖 − ̅
X)(yi − y̅) (𝑥𝑖 − X̅ )2 (𝑦𝑖 − y̅)2 Ŷ (Yi − Ŷ) 2
45 74 -4,3333 4,3334 -18,7779 18,7774 18,7783 74 0
49 70 -0,3333 0,3334 -0,1111 0,111 0,1111 70 0
54 65 4,6667 -4,6666 -21,7776 21,778 21,7771 65 0
148 209 -40,6666 40,6665 40,6665 0

148
X̅ = = 49,3333
3
209
y̅ = = 69,6666
3
̅
∑(𝑥𝑖−X)(yi−y) −40,6666
̅
B̂1 = 2 = = -1
̅̅̅)
∑(𝑥𝑖−X 40,6665

̅ = 69,6666 + 49,3333 = 118,9999


B̂0 = y̅ - B̂1 X

Ŷ = B̂0 + B̂1 Xi

Ŷ = 118,9999 - Xi
𝑆𝐶𝑅
𝑅2 = 1 -
𝑆𝐶𝑇

0
𝑅2 = 1 -
40,6665

𝑅2 = 1

Le modèle de 2eme sous-échantillon est parfait, ce qui signifie que l’équation


de la droite de régression détermine 100 % la distribution des points.

L’estimation de la moyenne de résidu


∑ 𝑒̂𝑖
E (𝑒) =
𝑛

Ƹ̂ = Yi – 𝑌̂ = Yi – B̂ 0 – B̂ 1 Xi

̂ ) = 0 est un estimateur sans biais de E (Ƹ) = 0


Par conséquent E (Ƹ

L’estimation de la variance de résidu

La variance de l’erreur permet de montrer la dispersion des points par rapport


à la ligne de régression
𝑆𝐶𝑅 Ƹ(Yi − Ŷ) 2
𝑉Ƹ̂ = 𝜎̂Ƹ 2 = = est un estimateur sans biais de 𝑉(Ƹ) = 𝜎Ƹ 2
𝑛−2 𝑛−2

-Plus la variance est grande plus le modèle est faible

-Plus la variance est moindre plus le modèle est fort


Solution (exercice 1) :

1)

∑(𝑥𝑖 − x̅)(yi − y̅) = ∑[(𝑥𝑖 𝑦𝑖) − (xi y̅) − (x̅ 𝑦𝑖) + ( 𝑥̅ ̅)]
y

∑(𝑥𝑖 − x̅)(yi − y̅) = ∑(𝑥𝑖 𝑦𝑖) − ∑(xi y̅) − ∑(x̅ 𝑦𝑖) + ∑( 𝑥̅ ̅)]
y

∑(𝑥𝑖 − x̅)(yi − y̅) = ∑(𝑥𝑖 𝑦𝑖) − y̅∑𝑥𝑖 − ̅∑𝑦𝑖


x + 𝑛 𝑥̅ ̅y
∑𝑥𝑖 ∑𝑦𝑖
∑(𝑥𝑖 − x̅)(yi − y̅) = ∑(𝑥𝑖 𝑦𝑖) − y̅ n − ̅x 𝑛 + 𝑛 𝑥̅ ̅y
𝑛 𝑛

∑(𝑥𝑖 − x̅)(yi − y̅) = ∑(𝑥𝑖 𝑦𝑖) − 𝑛 𝑥̅ ̅y − 𝑛 𝑥̅ ̅y + 𝑛 𝑥̅ ̅y

∑(𝑥𝑖 − x̅)(yi − y̅) = ∑(𝑥𝑖 𝑦𝑖) − 𝑛 𝑥̅ ̅y


2
∑(𝑥𝑖 − X̅ ) = ∑(𝑥𝑖2- 2 𝑥𝑖 X̅ + ̅
X2 )
2
∑(𝑥𝑖 − X̅ ) = ∑ 𝑥𝑖2 - ∑2 𝑥𝑖 X̅ + ∑ ̅X 2
2
∑(𝑥𝑖 − X̅ ) = ∑ 𝑥𝑖 2 – 2X̅ ∑ 𝑥𝑖 + n ̅X 2
2 ∑𝑥𝑖
∑(𝑥𝑖 − X̅ ) = ∑ 𝑥𝑖 2 – 2 X̅ 𝑛 + n ̅X 2
𝑛

2
∑(𝑥𝑖 − X̅ ) = ∑ 𝑥𝑖 2 – 2 n ̅X 2 + n ̅X 2
2
∑(𝑥𝑖 − X̅ ) = ∑ 𝑥𝑖2 – n ̅X 2

Donc :
∑(𝑥𝑖−x̅)(yi−y̅) ∑(𝑥𝑖 𝑦𝑖)−𝑛 𝑥̅ ̅y
̅) 2 = ∑ 𝑥𝑖2 – n ̅X2
∑(𝑥𝑖−X

2)

a)

𝑋̂ = 𝑎̂ + 𝑏̂ Yi
∑𝑥𝑖 362
X̅ = = = 24,1333
𝑛 15

̅ = ∑𝑦𝑖 = 938 = 62,5333


Y
𝑛 15

∑(𝑥𝑖 𝑦𝑖)−𝑛 𝑥̅ ̅y
𝑏̂ =
∑ 𝑌𝑖2 – n 𝑌̅ 2

27437−(15 × 24,1333 × 62,5333 )


b̂ =
64926 −(15 × 62,53332 )

b̂ = 0,7655

̂ ̅Y
𝑎̂ = 𝑋̅ – 𝑏

𝑎̂ = 24,1333 – (0,7655 × 62,5333)

𝑎̂ = -23,7359

𝑋̂ = -23,7359 + 0,7655 Yi

b)

Ŷ = 𝑎̂ + 𝑏̂ Xi
∑(𝑥𝑖 𝑦𝑖)−𝑛 𝑥̅ ̅y
𝑏̂ =
∑ 𝑋𝑖2 – n 𝑋̅ 2

27437−(15 × 24,1333 × 62,5333 )


b̂ =
12490 −(15× 24,13332 )

b̂ = 1,2787

̂ ̅X
𝑎̂ = 𝑌̅ – 𝑏

𝑎̂ = 62,5333 – (1,2787 × 24,1333)

𝑎̂ = 31,674

𝑌̂ = 31,674 + 1,2787 Xi

Solution (exercice 2) :

1)

2)
∑𝑥𝑖 103
X̅ = = = 8,5833
𝑛 12
̅ ∑𝑦𝑖 155
Y= = = 12,9167
𝑛 12

xi yi (𝑥𝑖 − x̅) (yi − y


̅) (𝑥𝑖 − x̅)(yi − y̅) (𝑥𝑖 − x̅)2 (𝑦𝑖 − y̅)2 Ŷ (Yi − Ŷ) 2
3 8 -5,5833 -4,9167 27,4514 31,1732 24,1739 12,3143 18,6132
4 9 -4,5833 -3,9167 17,9514 21,0066 15,3405 12,4222 11,7114
6 10 -2,5833 -2,9167 7,5347 6,6734 8,5071 12,638 6,959
7 13 -1,5833 0,0833 -0,1319 2,5068 0,0069 12,7459 0,0646
9 15 0,4167 2,0833 0,8681 0,1736 4,3401 12,9617 4,1547
10 14 1,4167 1,0833 1,5347 2,007 1,1735 13,0696 0,8656
9 13 0,4167 0,0833 0,0347 0,1736 0,0069 12,9617 0,0015
11 16 2,4167 3,0833 7,4514 5,8404 9,5067 13,1775 7,9665
12 13 3,4167 0,0833 0,2846 11,6738 0,0069 13,2854 0,0814
13 19 4,4167 6,0833 26,8681 19,5072 37,0065 13,3933 31,4351
15 6 6,4167 -6,9167 -44,3823 41,174 47,8407 13,6091 57,8984
4 19 -4,5833 6,0833 -27,8815 21,0066 37,0065 12,4222 43,2675
103 155 0,0004 -0,0004 17,5834 162,9162 184,9162 183,0189

̅ )(yi−y
∑(𝑥𝑖−X ̅) 17,5834
B̂ 1 = = = 0,1079
̅̅̅) 2
∑(𝑥𝑖−X 162,9162

̅
̅ - B̂ 1 X
B̂ 0 = Y

B̂ 0 = 12,9167 – (0,1079 × 8,5833)

B̂ 0 = 11,9906

Ŷ = B̂ 0 + B̂ 1 Xi

Ŷ = 11,9906 + 0,1079 Xi

3)
𝑆𝐶𝑅
𝑅2 = 1 -
𝑆𝐶𝑇

183,0189
𝑅2 = 1 -
184,9162

𝑅 2 = 0,0103

Le modèle est très faible, ce qui signifie que l’équation de la droite de


régression détermine 1,03 % la distribution des points
4)

Il faut marginaliser les 2 points suivants : (15 ; 6) et (4 ; 19) et se contenter de


la distribution restante.

Xi 3 4 6 7 9 10 9 11 12 13
Yi 8 9 10 13 15 14 13 16 13 19

∑𝑥𝑖 84
X̅ = = = 8,4
𝑛 10

̅ = ∑𝑦𝑖 = 130 = 13
Y
𝑛 10

xi yi (𝑥𝑖 − x̅) (yi − y


̅) (𝑥𝑖 − x̅)(yi − y̅) (𝑥𝑖 − x̅)2 (𝑦𝑖 − y̅)2 Ŷ (Yi − Ŷ) 2
3 8 -5,4 -5 27 29,16 25 8,1594 0,0254
4 9 -4,4 -4 17,6 19,36 16 9,0558 0,0031
6 10 -2,4 -3 7,2 5,76 9 10,8486 0,7201
7 13 -1,4 0 0 1,96 0 11,745 1,575
9 15 0,6 2 1,2 0,36 4 13,5378 2,1338
10 14 1,6 1 1,6 2,56 1 14,4342 2,138
9 13 0,6 0 0 0,36 0 13,5378 0,2892
11 16 2,6 3 7,8 6,76 9 15,3306 0,4481
12 13 3,6 0 0 12,96 0 16,227 10,4135
13 19 4,6 6 27,6 21,16 36 17,1234 3,5216
84 130 90 100,4 100 21,2678

∑(𝑥𝑖−X)(yi−y) ̅ ̅
B̂1 = 2 ̅̅̅)
∑(𝑥𝑖−X

90
B̂1 =
100,4

B̂1 = 0,8964

̅
B̂0 = y̅ - B̂1 X

B̂0 = 13 – (0,8964 × 8,4)

B̂0 = 5,4702

Ŷ = B̂0 + B̂1 Xi
Ŷ = 5,4702 + 0,8964 Xi

Calcul de coefficient de détermination


𝑆𝐶𝑅
𝑅2 = 1 -
𝑆𝐶𝑇

21,2678
𝑅2 = 1 -
100

𝑅 2 = 0,7873

Le modèle est fort, ce qui signifie que l’équation de la droite de régression


détermine 78,73% la distribution des points
Tableau de l’analyse de la variance (ANOVA)
Source de variation Somme des carrés Degré de liberté Moyens des carrés
𝑆𝐶𝐸
expliquée SCE 1
1

Résiduelle SCR n-2 𝑆𝐶𝑅


𝑛−2

Totale SCT n-1 𝑆𝐶𝑇


𝑛−1

𝑆𝐶𝐸 𝑅 2 × 𝑆𝐶𝑇
 𝑀𝐶𝐸 = =
1 1

𝑆𝐶𝐸
Avec 𝑅 2 = ↔ SCE = 𝑅 2 × SCT
𝑆𝐶𝑇

𝑆𝐶𝑅 (1 – 𝑅 2 ) 𝑆𝐶𝑇
 𝑀𝐶𝑅 = =
𝑛−2 𝑛−2

𝑆𝐶𝑅 𝑆𝐶𝑅
Avec 𝑅 2 = 1 - ↔ = 1 – 𝑅 2 ↔ 𝑆𝐶𝑅 = (1 – 𝑅 2) 𝑆𝐶𝑇
𝑆𝐶𝑇 𝑆𝐶𝑇

𝑆𝐶𝑇
 𝑀𝐶𝑇 =
𝑛−1

Test du modèle

Il paraît raisonnable de tester la significativité globale du modèle, c'est à dire


tester si tous les coefficients sont supposés nuls, excepté la constante. Cela
correspond dans le cas de la régression linéaire simple à

H0 : B1 = 0 contre H1 : B1 ≠ 0

On compare la statistique F calculé avec 𝐹(𝑣1= 1 ; 𝑣2= 𝑛−2)


𝑆𝐶𝐸
𝑀𝐶𝐸 1
F calculé =
𝑀𝐶𝑅
= 𝑆𝐶𝑅
𝑛−2

𝑅2 × 𝑆𝐶𝑇
1 𝑅 2 × 𝑆𝐶𝑇 𝑅2
F calculé = (1 – 𝑅2 ) 𝑆𝐶𝑇
= (1 – 𝑅2 ) 𝑆𝐶𝑇
= 1 – 𝑅2
𝑛−2 𝑛−2 𝑛−2

F calculé ˃ 𝐹(1 ; 𝑛−2) alors le modèle est globalement significatif


Exercice 4 :

Un prélèvement auprès d’un échantillon nous fournit les éléments suivants :

Production Demande
1500 1000
2400 1900
1700 600
3100 3000
3200 2500
2500 1600
1000 900
4000 3500
2600 2600
3000 2400

T.A.F :

1) Donner les propriétés de B̂0 et B̂1


2) Calculer le coefficient de corrélation
3) Déterminer la droite de régression
4) Calculer le coefficient de détermination
5) Calculer la variance de résidu et la variance des estimateurs de la droite
de régression
6) Tester la significativité globale de la régression (α = 5%)
7) Calculer le coefficient de corrélation par une autre méthode

Solution

1) Propriétés de B̂0 et B̂1

̂0) est un estimateur sans biais de E (B0)


E (𝐵

̂1) est un estimateur sans biais de E (B1)


E (𝐵
𝑋̅ 2
̂0) = 𝑉(Ƹ̂) × ( 1 +
V (𝐵 ) est convergente
𝑛 ∑(𝑥𝑖−X ̅) 2

𝑉(Ƹ̂ )
̂1) =
V (𝐵 2 est convergente
∑(𝑥𝑖−X̅ )
̅
𝑉(Ƹ̂ ) 𝑋
̂0 ; ̂
COV (𝐵 𝐵1) = ̅) 2
∑(𝑥𝑖−X

2)

yi xi (𝑦𝑖 − y̅) (xi − x̅) ̅)(yi − y̅) (𝑥𝑖 − X̅ )2


(𝑥𝑖 − X (𝑦𝑖 − y̅)2 Ŷ 𝑆𝐶𝑅
1500 1000 -1000 -1000 1 000000 1 000000 1 000000 1634 17956
2400 1900 -100 -100 10 000 10000 10000 2413,4 179,56
1700 600 -800 -1400 1 120000 1 960000 640000 1287,6 170073,76
3100 3000 600 1000 600000 1 000000 360000 3366 70756
3200 2500 700 500 350000 250000 490000 2933 71289
2500 1600 0 -400 0 160000 0 2153,6 119992,96
1000 900 -1500 -1100 1 650000 1 210000 2 250000 1547,4 299646,76
4000 3500 1500 1500 2 250000 2 250000 2 250000 3799 40401
2600 2600 100 600 60000 360000 10000 3019,6 176064,16
3000 2400 500 400 200000 160000 250000 2846,4 23592,96
25000 20000 7 240000 8 360000 7 260000 989952,16

∑𝑥𝑖 20000
X̅ = = = 2000
𝑛 10

∑𝑦𝑖 25000
̅
Y= = = 2500
𝑛 10

̅ )(yi−y
∑(𝑥𝑖−X ̅) 7 240000
ρ (x ; y) = = = 0,9293
̅̅̅) 2 √∑(𝑦𝑖−y
√∑(𝑥𝑖−X 2 √8 360000√7 260000
̅)

Il y a une corrélation fortement positive de 92,93% entre la production et la


demande

3)
̅
∑(𝑥𝑖−X)(yi−y) ̅ 7 240000
B̂1 = 2 = = 0,866
̅̅̅)
∑(𝑥𝑖−X 8 360000

B̂0 = Y
̅ - B̂ 1 X̅ = 2500 – (0,866 × 2000) = 768

Ŷ = B̂ 0 + B̂ 1 Xi

Ŷ = 768 + 0,866 Xi
4)

1ére méthode :
𝑆𝐶𝑅 989952,16
𝑅2 = 1 – =1– = 0,8636
𝑆𝐶𝑇 7 260000

2éme méthode :

𝑅 2 = 𝑟 2 = 0,92932 = 0,8636

Le modèle est fort, ce qui signifie que l’équation de la droite de régression


détermine 86,36% la distribution des points

5)
𝑆𝐶𝑅 Ƹ(Yi − Ŷ) 2 989952,16
𝜎̂Ƹ 2 = = = = 123744,02
𝑛−2 10−2 8

1 𝑋̅ 2 1 20002
̂0) = 𝑉(Ƹ̂) × ( +
V (𝐵 ) = 123744,02 × (10 + ) = 71582,067
𝑛 ∑(𝑥𝑖−X ̅) 2 8 360 000

𝑉(Ƹ̂ ) 123744,02
̂1) =
V (𝐵 2 = = 0,0148
∑(𝑥𝑖−X̅ ) 8 360 000

6)

H0 : B̂1 = 0

H1 : B̂1 ≠ 0

𝑅2 𝑅 2 (𝑛−2) 0,8636 (10−2)


F calculé = 1 – 𝑅2
= = = 50,65
1 – 𝑅2 1 – 0,8636
𝑛−2

Avec 𝐹(1 ; 𝑛−2) = 𝐹(1 ; 10−2) = 𝐹(1 ; 8) = 5,32


Donc F calculé ˃ 𝐹(1 ; 𝑛−2)

Ce qui implique que le modèle est globalement significatif, alors à rejeter H0 et


à accepter H1

7)
∑𝑥𝑖𝑦𝑖 − 𝑛 X̅ Y
̅
ρ (x ; y) =
̅ 2 √∑𝑦𝑖2 − 𝑛 Y
√∑𝑥𝑖2 − 𝑛 X ̅2
Yi Xi 𝑥𝑖𝑦𝑖 𝑋𝑖 2 𝑌𝑖 2
1500 1000 1 500000 1 000000 2 250000
2400 1900 4 560000 3 610000 5 760000
1700 600 1 020000 360000 2 890000
3100 3000 9 300000 9 000000 9 610000
3200 2500 8 000000 6 250000 10 240000
2500 1600 4 000000 2 560000 6 250000
1000 900 900000 810000 1 000000
4000 3500 14 000000 12 250000 16 000000
2600 2600 6 760000 6760000 6 760000
3000 2400 7 200000 5 760000 9 000000
25000 20000 57 240000 48 360000 69 760000

57 240 000 −(10 × 2000 × 2500)


ρ (x ; y) = = 0,9293
2 2
√48 360 000 −(10 × 2000 ) √69 760 000 −(10 × 2500 )
Test des paramètres

Test d’hypothèse :

H0 : B1 = 0

H1 : B1 ≠ 0

On compare |𝑡𝐵̂1 | avec t de student

∑(𝑥𝑖−X̅ )(yi−y ̅)
2
𝐵̂ 1 ∑(𝑥𝑖−X ̅̅̅)
|𝑡𝐵̂1 | = | | = || ||
̂𝐵
𝜎 ̂1 𝑉 ̂
(Ƹ)

̅)2
∑(𝑥𝑖−X

Si : |𝑡𝐵̂1 | ˃ t de student. Alors H0 est rejetée ce qui implique que X est une
variable explicative de Y
L’intervalle de confiance de B̂1

IC = [B̂1 ± t 𝜎̂𝐵̂1 ]

L’intervalle de confiance de B̂0

IC = [B̂0 ± t 𝜎̂𝐵̂0 ]

L’intervalle de confiance de 𝑌̂
2
1 ̅)
IC = [Ŷ ± t 𝜎̂Ƹ √1 + 𝑛 + ∑(𝑥𝑖−X̅ ) ]
(𝑥𝑖∗−X
2

Exercice 5 :

Un sondage effectué auprès d’un échantillon d’une agence de voyage révèle les
données suivantes sur leurs clients :

Ages Dépenses quotidiennes


20 125
25 120
30 130
35 100
40 110
45 110
50 115

T.A.F :

1) Calculer le coefficient de corrélation


2) Représenter les nuages des points
3) Déterminer la droite de régression
4) Calculer le coefficient de détermination
5) tester la significativité globale de la régression (α = 5%)
6) Comment peut-on améliorer le modèle ?
a) Donner le modèle proposé
b) calculer sa droite de régression, son coefficient de détermination, sa
variance de l’erreur et la variance des estimateurs de la droite de
régression
c) tester la significativité des paramètres (α = 5%)
d) donner l’intervalle de confiance des coefficients de la régression
e) quelle prévision ponctuelle et par intervalle de confiance des
dépenses d’un nouveau client ayant 30 ans et celui ayant 50 ans

Solution :

1)

xi yi ̅)
(𝑥𝑖 − X (yi − y̅) ̅)(yi − y̅)
(𝑥𝑖 − X (𝑥𝑖 − X̅ )2 (𝑦𝑖 − y̅)2
20 125 -15 9,2858 -139,287 225 86,226
25 120 -10 4,2858 -42,858 100 18,368
30 130 -5 14,2858 -71,429 25 204,084
35 100 0 -15,7142 0 0 246,936
40 110 5 -5,7142 -28,571 25 32,652
45 110 10 -5,7142 -57,142 100 32,652
50 115 15 -0,7142 -10,713 225 0,51
245 810 -350 700 621,428

245
X̅ = = 35
7
810
̅
Y = = 115,7142
7
̅ )(yi−y
∑(𝑥𝑖−X ̅) −350
ρ (x ; y) = = = -0,5306
̅̅̅) 2 √∑(𝑦𝑖−y
√∑(𝑥𝑖−X 2 √700 √621,428
̅)

Il y a une corrélation négative moyenne de 53,06% entre les âges et les


dépenses

2)
Valeur des Y
140

120

100

80

Valeur des Y
60

40

20

0
0 10 20 30 40 50 60

3)
̅
∑(𝑥𝑖−X)(yi−y) −350 ̅
B̂1 = 2 = = -0,5
̅̅̅)
∑(𝑥𝑖−X 700

B̂0 = ̅ ̅ = 115,7142 + (0,5 × 35) = 133,2142


Y - B̂1 X

Ŷ = B̂0 + B̂1 Xi

Ŷ = 133,2142 – 0,5 Xi

4)

xi yi Ŷ 𝑆𝐶𝑅 = Ƹ(Yi − Ŷ) 2
20 125 123,2142 3,189
25 120 120,7142 0,51
30 130 118,2142 138,905
35 100 115,7142 246,936
40 110 113,2142 10,331
45 110 110,7142 0,51
50 115 108,2142 46,047
446,428
𝑆𝐶𝑅 Ƹ(Yi − Ŷ) 2 446,428
𝑅2 = 1 - =1– =1– = 0,2816
𝑆𝐶𝑇 ̅)2
Ƹ(𝑦𝑖−y 621,428

Le modèle est faible ce qui signifie que l’équation de la droite de régression


détermine 28,16% la distribution des points.

5)

𝑅2 0,2816
F calculé = 1 – 𝑅2
= 1−0,2816 = 1,9599
𝑛−2 7−2

Avec 𝐹(1 ; 𝑛−2) = 𝐹(1 ; 7−2) = 𝐹(1 ; 5) = 6,61


Donc F calculé < 𝐹(1 ; 𝑛−2)

Ce qui implique que le modèle n’est pas significatif

6) On peut améliorer le modèle en divisant cet échantillon en 2 sous-


échantillons

a) 1er sous-échantillon

xi yi
20 125
25 120
30 130

2eme sous-échantillon

xi yi
35 100
40 110
45 110
50 115

b)

La droite de régression et le coefficient de détermination

1er sous-échantillon
xi yi (𝑥𝑖 − ̅
X) (yi − y̅) (𝑥𝑖 − ̅
X)(yi − y̅) (𝑥𝑖 − X̅ )2 (𝑦𝑖 − y̅)2 Ŷ (Yi − Ŷ) 2
20 125 -5 0 0 25 0 122,5 6,25
25 120 0 -5 0 0 25 125 25
30 130 5 5 25 25 25 127,5 6,25
75 375 25 50 50 37,5

75
X̅ = = 25
3

̅ = 375 = 125
Y
3
̅
∑(𝑥𝑖−X)(yi−y) 25 ̅
B̂1 = 2 = = 0,5
̅̅̅)
∑(𝑥𝑖−X 50

B̂0 = ̅ ̅
Y – B̂1 X

B̂0 = 125 – (0,5 × 25) = 112,5

Ŷ = B̂0 + B̂1 Xi

Ŷ = 112,5 + 0,5 Xi
𝑆𝐶𝑅 Ƹ(Yi − Ŷ) 2 37,5
𝑅2 = 1 - =1- 2 =1– = 0,25
𝑆𝐶𝑇 ∑(𝑦𝑖−y̅) 50

Le modèle de 1er sous-échantillon est faible ce qui signifie que l’équation de la


droite de régression détermine 25% la distribution des points.

La variance de l’erreur
𝑆𝐶𝑅 Ƹ(Yi − Ŷ) 2 37,5
𝜎̂Ƹ 2 = = = = 37,5
𝑛−2 3−2 1

la variance des estimateurs de la droite de régression


𝑋̅ 2 252
̂0) = 𝑉(Ƹ̂) × ( 1 +
1
V (𝐵
𝑛 ∑(𝑥𝑖−X ̅) 2
) = 37,5 × (3 + 50
) = 481,25

𝑉(Ƹ̂ ) 37,5
̂1) =
V (𝐵 2 = = 0,75
∑(𝑥𝑖−X̅ ) 50
2eme sous-échantillon

xi yi (𝑥𝑖 − ̅
X) (yi − y̅) (𝑥𝑖 − ̅
X)(yi − y̅) (𝑥𝑖 − X̅ )2 (𝑦𝑖 − y̅)2 Ŷ (Yi − Ŷ) 2
35 100 -7,5 -8,75 65,625 56,25 76,5625 102 4
40 110 -2,5 1,25 -3,125 6,25 1,5625 106,5 12,25
45 110 2,5 1,25 3,125 6,25 1,5625 111 1
50 115 7,5 6,25 46,875 56,25 39,0625 115,5 0,25
170 435 112,5 125 118,75 17,5

170
X̅ = = 42,5
4
435
̅
Y = = 108,75
4
̅
∑(𝑥𝑖−X)(yi−y) 112,5 ̅
B̂1 = 2 = = 0,9
̅̅̅)
∑(𝑥𝑖−X 125

B̂0 = Y ̅ = 108,75 – (0,9 × 42,5) = 70,5


̅ - B̂1 X

Ŷ = B̂0 + B̂1 Xi

Ŷ = 70,5 + 0,9 Xi

Le coefficient de détermination
𝑆𝐶𝑅 17,5
𝑅2 = 1 – =1– = 0,8526
𝑆𝐶𝑇 118,75

Le modèle de 2eme sous-échantillon est fort, ce qui signifie que l’équation de la


droite de régression détermine 85,26% la distribution des points.

La variance de l’erreur
𝑆𝐶𝑅 Ƹ(Yi − Ŷ) 2 17,5
𝜎̂Ƹ 2 = = = = 8,75
𝑛−2 4−2 2

la variance des estimateurs de la droite de régression

𝑋̅ 2 42,52
̂0) = 𝑉(Ƹ̂) × ( 1 +
1
V (𝐵
𝑛 ∑(𝑥𝑖−X ̅) 2
) = 8,75 × (4 + 125
) = 128,625

𝑉(Ƹ̂ ) 8,75
̂1) =
V (𝐵 2 = = 0,07
∑(𝑥𝑖−X̅ ) 125
c)

1er sous-échantillon

Test d’hypothèse

H0 : B1 = 0

H1 : B1 ≠ 0

On compare |𝑡𝐵̂1 | avec t de student

∑(𝑥𝑖−X̅ )(yi−y ̅)
2
𝐵̂ 1 ̅̅̅)
|𝑡𝐵̂1 | =| | = ||
∑(𝑥𝑖−X
|| =| 0,5 | = 0,5773
̂𝐵
𝜎 ̂1 𝑉 ̂ √0,75
(Ƹ)

̅) 2
∑(𝑥𝑖−X

t de student = 12,706

|𝑡𝐵̂1 | < t de student, alors H1 est rejetée ce qui implique que X n’est pas une
variable explicative de Y

2eme sous-échantillon

Test d’hypothèse

H0 : B1 = 0

H1 : B1 ≠ 0

On compare |𝑡𝐵̂1 | avec t de student

∑(𝑥𝑖−X̅ )(yi−y ̅)

̂ ̅̅̅) 2
𝐵1
|𝑡𝐵̂1 | =| | = ||
∑(𝑥𝑖−X
|| =| 0,9 | = 3,4016
̂ 𝜎𝐵
̂1 𝑉 ̂ √0,07
(Ƹ)

̅) 2
∑(𝑥𝑖−X

t de student = 4,303

Alors H1 est rejetée ce qui implique que X n’est pas une variable explicative de
Y

d) 1er sous-échantillon

 L’intervalle de confiance de B̂1


IC = [B̂1 ±t 𝜎̂ 𝐵̂1]

IC = [0,5 ± 12,706 √0,75 ]


IC = [-10,5037 ; 11,5037]

 L’intervalle de confiance de B̂0

IC = [B̂0 ±t 𝜎̂ 𝐵̂0]

IC = [112,5 ± 12,706 √481,25 ]


IC = [-166,2367 ; 391,2367]

2eme sous-échantillon

 L’intervalle de confiance de B̂1

IC = [B̂1 ±t 𝜎̂ 𝐵̂1]

IC = [0,9 ± 4,303 √0,07 ]


IC = [-0,2384 ; 2,0384]

 L’intervalle de confiance de B̂0

IC = [B̂0 ±t 𝜎̂ 𝐵̂0]

IC = [70,5 ± 4,303 √128,625 ]


IC = [21,6984 ; 119,3015]

e) Prévision des dépenses d’un nouveau client ayant 30 ans

 ponctuelle

Ŷ = B̂0 + B̂1 Xi

Ŷ = 112,5 + 0,5 Xi = 112,5 + (0,5 × 30) = 127,5


 par Intervalle de confiance
2
1 ̅)
IC = [Ŷ ± t 𝜎̂Ƹ √1 +
𝑛
+
(𝑥𝑖∗−X
̅)
∑(𝑥𝑖−X
2 ]
1 (30−25)2
IC = [127,5 ± 12,706 × √37,5 × √1 +
3
+
50
]
IC = [22,1474 ; 232,8525]

Prévision des dépenses d’un nouveau client ayant 50 ans

 ponctuelle

Ŷ = B̂0 + B̂1 Xi = 70,5 + 0,9 Xi = 70,5 + (0,9 × 50) = 115,5

 par Intervalle de confiance


2
1 ̅)
IC = [Ŷ ± t 𝜎̂Ƹ √1 + 𝑛 + ∑(𝑥𝑖−X̅ ) ]
(𝑥𝑖∗ −X
2

1 (50−42,5)2
IC = [115,5 ± 4,303 × √8,75 × √1 +
4
+
125
]
IC = [98,9041 ; 132,0958]
Exercice 6 :

Une étude sur un échantillon d’individus âgé de 22 ans à 40 ans portant sur la
durée d’entrainement hebdomadaire nous révèle les informations suivantes :

Age Entrainement hebdomadaire (h)


22 4
24 4
25 5
28 6
30 7
35 7
36 8
40 7

T.A.F :

1) établir le nuage des points

2) Existe-t-il un lien entre l’âge et l’entrainement hebdomadaire (utiliser le


coefficient de Pearson) ?

3) Déterminer le modèle économétrique ainsi la droite de régression

4) Calculer le coefficient de détermination, la variance de l’erreur et la variance


des estimateurs de la droite de régression

5) Tester la significativité globale de modèle

6) Tester les paramètres de régression

7) Déterminer l’intervalle de confiance des paramètres de la droite de


régression

8) Quelle est la durée d’entrainement hebdomadaire pour une personne ayant


46 ans (estimation ponctuelle et par intervalle de confiance) ?

Remarque : Les tests se feront au seuil de 5%.

Solution :

1)
Yi
9

4 Yi

0
0 5 10 15 20 25 30 35 40 45

2)

xi yi ̅)
(𝑥𝑖 − X (yi − y̅) ̅)(yi − y̅)
(𝑥𝑖 − X (𝑥𝑖 − X̅ )2 (𝑦𝑖 − y̅)2 Ŷ (Yi − Ŷ) 2
22 4 -8 -2 16 64 4 4,3456 0,1194
24 4 -6 -2 12 36 4 4,7592 0,5763
25 5 -5 -1 5 25 1 4,966 0,0011
28 6 -2 0 0 4 0 5,5864 0,171
30 7 0 1 0 0 1 6 1
35 7 5 1 5 25 1 7,034 0,0011
36 8 6 2 12 36 4 7,2408 0,5763
40 7 10 1 10 100 1 8,068 1,1406
240 48 60 290 16 3,5858

240
X̅ = = 30
8
48
̅
Y = =6
8
̅ )(yi−y
∑(𝑥𝑖−X ̅) 60
ρ (x ; y) = = = 0,8808
̅̅̅) 2 √∑(𝑦𝑖−y
√∑(𝑥𝑖−X 2 √290√16
̅)

Il y a une corrélation fortement positive de 88,08% entre l’âge et


l’entrainement hebdomadaire
3)

Modèle économétrique

Yi = ß0 + ß1 Xi + Ƹi

La droite de régression
̅
∑(𝑥𝑖−X)(yi−y) ̅ 60
B̂1 = 2 = = 0,2068
̅̅̅)
∑(𝑥𝑖−X 290

B̂0 = ̅ ̅ = 6 – (0,2068 × 30) = -0,204


Y - B̂1 X

Ŷ = B̂0 + B̂1 Xi = -0,204 + 0,2068 Xi

2éme méthode :

Xi Yi 𝑋𝑖 𝑌𝑖 Xi2
22 4 88 484
24 4 96 576
25 5 125 625
28 6 168 784
30 7 210 900
35 7 245 1225
36 8 288 1296
40 7 280 1600
240 48 1500 7490

240
X̅ = = 30
8

̅ = 48 = 6
Y
8

∑ 𝑋𝑖 𝑌𝑖−𝑛 X Y ̅ ̅
1500−(8 × 30 ×6)
B̂1 = 2 2 = 2
= 0,2068
̅ 7490−(8 × 30 )
∑Xi − 𝑛 X

̅ = 6 – (0,2068 × 30) = -0,204


B̂0 = y̅ - B̂1 X

Ŷ = B̂0 + B̂1 Xi = -0,204 + 0,2068 Xi


4)
𝑆𝐶𝑅 3,5858
𝑅2 = 1 - =1- = 0,7758
𝑆𝐶𝑇 16

Le modèle est fort, ce qui signifie que l’équation de la droite de régression


détermine 77,58% la distribution des points.

La variance de l’erreur
𝑆𝐶𝑅 Ƹ(Yi − Ŷ) 2 3,5858
𝜎̂Ƹ 2 = = = = 0,5976
𝑛−2 8−2 6

la variance des estimateurs de la droite de régression

𝑋̅ 2 302
̂0) = 𝑉(Ƹ̂) × ( 1 +
V (𝐵 )
1
= 0,5976 × (8 + ) = 1,9293
𝑛 ∑(𝑥𝑖−X ̅) 2 290

𝑉(Ƹ̂ ) 0,5976
̂1) =
V (𝐵 2 = = 0,002
∑(𝑥𝑖−X̅ ) 290

5)

𝑅2 0,7758
F calculé = 1 – 𝑅2
= 1−0,7758 = 20,7618
𝑛−2 8−2

Avec 𝐹(1 ; 𝑛−2) = 𝐹(1 ; 8−2) = 𝐹(1 ; 6) = 5,99


Donc F calculé ˃ 𝐹(1 ; 𝑛−2)

Ce qui implique que le modèle est globalement significatif

6)

Test d’hypothèse

H0 : B1 = 0

H1 : B1 ≠ 0

On compare |𝑡𝐵̂1 | avec 𝑡 𝑑𝑒 𝑠𝑡𝑢𝑑𝑒𝑛𝑡

𝐵̂ 1 0,2068
|𝑡𝐵̂1 | =| | =| | = 4,6241
̂ 𝜎𝐵
̂1 √0,002

t de student = 2,4469
Alors H0 est rejetée ce qui implique que X est une variable explicative de Y

7)

L’intervalle de confiance de B1

IC = [B̂1 ± 𝑡 𝛼 ; 𝑛−2 𝜎̂ 𝐵̂1]


2

IC = [0,2068 ± 2,4469 √0,002 ]


IC = [0,0973 ; 0,3162]

L’intervalle de confiance de BB̂0

IC = [B̂0 ± 𝑡 𝛼 ; 𝑛−2 𝜎̂ 𝐵̂0]


2

IC = [-0,204 ± 2,4469 √1,9293 ]


IC = [-3,6027 ; 3,1947]

8) Prévision de la durée d’entrainement hebdomadaire

 ponctuelle

Ŷ = B̂0 + B̂1 Xi

Ŷ = -0,204 + 0,2068 Xi = -0,204 + (0,2068 × 46) = 9,3088

 par Intervalle de confiance


2
1 ̅)
IC = [Ŷ ± 𝑡 𝛼
2
; 𝑛−2 𝜎̂Ƹ √1 +
𝑛
+
(𝑥𝑖∗−X
̅)
∑(𝑥𝑖−X
2 ]
1 (46−30)2
IC = [9,3088 ± 2,4469 × √0,5976 × √1+
8
+
290
]
IC = [6,6285 ; 11,989]
Exercice 7 :

Une entreprise nous fournit ses informations au titre de l’exercice 2017 :

Période Production
Janvier – Février 30
Mars – Avril 60
Mai – Juin 100
Juillet – Aout 120
Septembre – Octobre 150
Novembre – Décembre 150

T.A.F :

1) Calculer le coefficient de corrélation et déterminer le coefficient B̂ 1 en


fonction du coefficient de corrélation

2) Déterminer l’équation de la droite de régression

3) calculer la variance de résidu et la variance des estimateurs de la droite de


régression

4) Tester la significativité globale de modèle

5) Tester les paramètres de régression


𝐶𝑜𝑣 (𝑋;𝑌)
6) Montrer que B̂ 1 = en utilisant la méthode des MCO
𝑉𝑎𝑟 (𝑋)

7) Déterminer l’intervalle de confiance des paramètres de la droite de


régression

8) calculer l’estimation ponctuelle et par intervalle de confiance la production


pour le mois de Septembre ?

Solution :

1)
42
X̅ = = 7
6
610
̅
Y = = 101,6667
6
xi yi (𝑥𝑖 − ̅
X) (yi − y̅) (𝑥𝑖 − ̅
X)(yi − y̅) (𝑥𝑖 (𝑦𝑖 − y̅)2 Ŷ (Yi − Ŷ) 2
− X̅ )2
2 30 -5 -71,6667 358,3335 25 5136,1158 38,0962 65,5484
4 60 -3 -41,6667 125,0001 9 1736,1138 63,5244 12,4213
6 100 -1 -1,6667 1,6667 1 2,7778 88,9526 122,045
8 120 1 18,3333 18,3333 1 336,1098 114,3808 31,5754
10 150 3 48,3333 144,9999 9 2336,1078 139,809 103,8564
12 150 5 48,3333 241,6665 25 2336,1078 165,2372 232,1722
42 610 890 70 11883,3328 567,6187

̅ )(yi−y
∑(𝑥𝑖−X ̅) 890
ρ (x ; y) = = = 0,9758
̅̅̅) 2 √∑(𝑦𝑖−y
√∑(𝑥𝑖−X 2 √70 √11883,3328
̅)

Il y a une corrélation fortement positive de 97,58% entre la période et la


production
𝐶𝑜𝑣 (𝑋;𝑌)
B̂ 1 =
𝑉𝑎𝑟 (𝑋)

𝐶𝑜𝑣 (𝑋;𝑌)
B̂ 1 =
𝜎𝑥 𝜎𝑥

𝐶𝑜𝑣 (𝑋;𝑌) 𝜎𝑦
B̂ 1 = ×
𝜎𝑥 𝜎𝑥 𝜎𝑦

𝐶𝑜𝑣 (𝑋;𝑌) 𝜎𝑦
B̂ 1 = ×
𝜎𝑥 𝜎𝑦 𝜎𝑥

𝜎𝑦
B̂ 1 = 𝑟(𝑥 ; 𝑦) ×
𝜎𝑥

2
∑(𝑥𝑖−X ) ̅
70
𝜎𝑥 = √ = √ = 3,4156
𝑛 6

2
̅)
∑(𝑌𝑖−Y 11883,3328
𝜎𝑦 = √ =√ = 44,5034
𝑛 6

44,5034
B̂ 1 = 0,9758 ×
3,4156

B̂ 1 = 12,7141

2)

B̂0 = ̅ ̅ = 101,6667 – (12,7141 × 7) = 12,668


Y - B̂1 X
Ŷ = B̂0 + B̂1 Xi = 12,668 + 12,7141 Xi

3)

La variance du résidu
𝑆𝐶𝑅 Ƹ(Yi − Ŷ) 2 567,6187
𝜎̂Ƹ 2 = = = = 141,9046
𝑛−2 6−2 4

la variance des estimateurs de la droite de régression


1 𝑋̅ 2 1 72
̂0) = 𝑉(Ƹ̂) × ( +
V (𝐵 ) = 141,9046 × (6 + ) = 122,9839
𝑛 ∑(𝑥𝑖−X ̅) 2 70

𝑉(Ƹ̂ ) 141,9046
̂1) =
V (𝐵 2 = = 2,0272
∑(𝑥𝑖−X̅ ) 70

4)
𝑆𝐶𝑅 567,6187
𝑅2 = 1 - =1- = 0,9522
𝑆𝐶𝑇 11883,3328

Le modèle est fort, ce qui signifie que l’équation de la droite de régression


détermine la distribution des points.

𝑅2 0,9522
F calculé = 1 – 𝑅2
= 1−0,9522 = 79,682
𝑛−2 6−2

Avec 𝐹(1 ; 𝑛−2) = 𝐹(1 ; 6−2) = 𝐹(1 ; 4) = 7,71


Donc F calculé ˃ 𝐹(1 ; 𝑛−2)

Ce qui implique que le modèle est globalement significatif

5)

Test d’hypothèse

H0 : B1 = 0

H1 : B1 ≠ 0

On compare |𝑡𝐵̂1 | avec 𝑡 𝑑𝑒 𝑠𝑡𝑢𝑑𝑒𝑛𝑡

𝐵̂ 1 12,7141
|𝑡𝐵̂1 | =| | = | | = 8,9297
̂ 𝜎𝐵
̂1 √2,0272
t de student = 2,776

Alors H0 est rejetée ce qui implique que X est une variable explicative de Y

6)

Min SCR = Min ∑(yi − Ŷ)2 = Min ∑(yi − 𝐵̂ 0 − 𝐵1 𝑋𝑖)2

Avec Ŷi = 𝐵̂ 0 + 𝐵1 𝑋i

Cela implique :

Pour 𝐵0
𝑑 ∑(yi−𝐵̂0− 𝐵1 𝑋𝑖)2
=0
𝑑 𝐵̂0

∑[2(yi − 𝐵̂ 0 − 𝐵1 𝑋𝑖)2−1 × (0 -1 – 0)] = 0

∑[2(yi − 𝐵̂ 0 − 𝐵1 𝑋𝑖)1 × (-1 )] = 0

∑[−2(yi − 𝐵̂ 0 − 𝐵1 𝑋𝑖)] = 0

-2 ∑[(yi − 𝐵̂ 0 − 𝐵1 𝑋𝑖)] = 0

∑[(yi − 𝐵̂ 0 − 𝐵1 𝑋𝑖)] = 0

∑yi − ∑𝐵̂ 0 − ∑𝐵1 𝑋𝑖 = 0


∑yi
𝑛 − 𝑛𝐵̂ 0 − 𝐵1∑ 𝑋𝑖 = 0
𝑛

∑𝑋𝑖
𝑛y̅ − 𝑛𝐵̂ 0 − 𝑛 𝐵1 =0
𝑛

𝑛y̅ − 𝑛𝐵̂0 − 𝑛 𝐵1X̅ = 0

𝑛𝐵̂0 = 𝑛y̅ − 𝑛 𝐵1X̅

𝐵̂0 = y̅ − 𝐵1X̅

Pour 𝐵1
𝑑 ∑(yi−𝐵̂0− 𝐵1 𝑋𝑖)2
=0
𝑑 𝐵̂1
∑[2(yi − 𝐵̂ 0 − 𝐵1 𝑋𝑖)2−1 × (0 -0 -𝑋𝑖)] = 0

∑[2(yi − 𝐵̂ 0 − 𝐵1 𝑋𝑖)1 × (-𝑋𝑖)] = 0

∑[−2(yi − 𝐵̂ 0 − 𝐵̂ 1 𝑋𝑖)× (𝑋𝑖)] = 0

-2 ∑[(yi − 𝐵̂ 0 − 𝐵̂ 1 𝑋𝑖)× (𝑋𝑖)] = 0

∑[(yi − 𝐵̂ 0 − 𝐵̂ 1 𝑋𝑖)× (𝑋𝑖)] = 0

∑(yixi − 𝐵̂ 0𝑥𝑖 − 𝐵̂ 1 𝑥𝑖2) = 0

Avec :

𝐵̂0 = y̅ − 𝐵1X̅

∑(yixi − (y̅ − 𝐵1X̅ ) 𝑥𝑖 − 𝐵̂ 1 𝑥𝑖2 ) = 0

∑(yixi − y̅ xi + 𝐵1X̅ 𝑥𝑖 − 𝐵̂ 1 𝑥𝑖2 ) = 0

∑yixi − ∑y̅ xi + ∑ 𝐵1X̅ 𝑥𝑖 − ∑ 𝐵̂ 1 𝑥𝑖2 = 0

∑yixi − y̅∑xi + 𝐵1X̅ ∑ 𝑥𝑖 − 𝐵̂ 1 ∑𝑥𝑖2 = 0


∑𝑋𝑖 ∑𝑋𝑖
∑yixi − y̅ 𝑛 ̅𝑛
+ 𝐵1X ̂ 1 ∑𝑥𝑖2 = 0
−𝐵
𝑛 𝑛

∑yixi − y̅ 𝑛 X̅ + n𝐵1X̅ X̅ ̂ 1 ∑𝑥𝑖2 = 0


−𝐵

∑xiyi − 𝑛 X̅ y̅ + n𝐵1X̅ 2 ̂ 1 ∑𝑥𝑖2 = 0


−𝐵

𝐵̂ 1 ∑𝑥𝑖2 − n𝐵1X̅ 2 = ∑xiyi − 𝑛 X̅ y̅

𝐵̂ 1 (∑𝑥𝑖 2 − nX̅ 2 ) = ∑xiyi − 𝑛 X̅ y̅


∑xiyi−𝑛 X̅ ̅y
𝐵̂ 1 =
(∑𝑥𝑖 2 − nX̅ 2 )

̅y
∑xiyi−𝑛 X ̅
𝑛
𝐵̂ 1 = (∑𝑥𝑖2 − nX
̅2 )
𝑛

𝑐𝑜𝑣 (𝑥;𝑦)
𝐵̂ 1 =
𝑣(𝑥)
7)

L’intervalle de confiance de B1

IC = [B̂1 ± 𝑡 𝛼 ; 𝑛−2 𝜎̂ 𝐵̂1]


2

IC = [12,7141 ± 2,776 √2,0272 ]


IC = [8,7616 ; 16,6665]

L’intervalle de confiance de BB̂0

IC = [B̂0 ± 𝑡 𝛼 ; 𝑛−2 𝜎̂ 𝐵̂0]


2

IC = [12,668 ± 2,776 √122,9839]


IC = [-18,1173 ; 43,4533]

8) Prévision

 ponctuelle

Ŷ = B̂0 + B̂1 Xi

Ŷ = 12,668 + 12,7141 Xi = 12,668 + (12,7141 × 9) = 127,0949

 par Intervalle de confiance


2
1 ̅)
IC = [Ŷ ± 𝑡 𝛼
2
; 𝑛−2 𝜎̂Ƹ √1 +
𝑛
+
(𝑥𝑖∗−X
̅)
∑(𝑥𝑖−X
2 ]
1 (9−7)2
IC = [127,0949 ± 2,776 × √141,9046 × √1 +
6
+
70
]
IC = [90,5122 ; 163,6775]
Test de la fiabilité de l’estimation de B1
Test d’hypothèse H0 : hypothèse H1 : hypothèse Règle de décision :
nulle alternative rejeter H0
Bilatéral B1 = B̂ 1 B1 ≠ B̂ 1 |𝑡𝐵̂1 | ˃ 𝑡 𝛼 ; 𝑛−2
2
Unilatéral à gauche B1 ≤ B̂ 1 B1 ˃ B̂ 1 𝑡𝐵̂1 ˃ 𝑡 𝛼 ; 𝑛−2
Unilatéral à droite B1 ≥ B̂ 1 B1 < B̂ 1 𝑡𝐵̂1 < 𝑡 𝛼 ; 𝑛−2

Exercice 8 :

Un sondage effectué auprès d’un échantillon révèle les données suivantes

Age Horaire travail


20 5
25 7
26 7
30 7
34 8
35 7
40 8

1) Tester le coefficient de régression B1 pour la distribution suivante (α = 5%) :

 par un test bilatéral B1 = 0,1


 par un test unilatéral à gauche B1 ≤ 0,1
 par un test unilatéral à droite B1 ≥ 0,1

2) Pourquoi l’ajout du terme Ƹ dans un modèle économétrique ?

3) Quel est le principe de la nouvelle méthodologie économétrique ?

4) 𝐴̀ quoi sert la régression linéaire ?

5) Corriger l’erreur si l’expression est fausse :

a) L’erreur Ƹi représente le bruit ou la perturbation

b) La variable explicative ou variable ‘’ régresseur ’’ est une variable


dépendante endogène
c) La variable à expliquer ou variable ‘’ réponse ’’ est une variable indépendante
exogène

6) Citer les hypothèses fondamentales de la régression linéaire simple

Solution :

1)

xi yi ̅)
(𝑥𝑖 − X (yi − y̅) ̅)(yi − y̅)
(𝑥𝑖 − X (𝑥𝑖 − X̅ )2 Ŷ Ƹ 𝑆𝐶𝑅
20 5 -10 -2 20 100 5,795 -0,795 0,632
25 7 -5 0 0 25 6,3975 0,6025 0,363
26 7 -4 0 0 16 6,518 0,482 0,2323
30 7 0 0 0 0 7 0 0
34 8 4 1 4 16 7,482 0,518 0,2683
35 7 5 0 0 25 7,6025 -0,6025 0,363
40 8 10 1 10 100 8,205 -0,205 0,042
210 49 34 282 1,9006

210
X̅ = = 30
7
49
̅
Y = =7
7

La droite de régression

∑(𝑥𝑖−X)(yi−y) ̅ ̅ 34
B̂1 = 2 = = 0,1205
̅̅̅)
∑(𝑥𝑖−X 282

B̂0 = ̅ ̅ = 7 – (0,1205 × 30) = 3,385


Y - B̂1 X

Ŷ = B̂0 + B̂1 Xi = 3,385 + 0,1205 Xi

La variance de l’erreur
𝑆𝐶𝑅 Ƹ(Yi − Ŷ) 2 1,9006
𝜎̂Ƹ 2 = = = = 0,3801
𝑛−2 7−2 5

𝑉(Ƹ̂ ) 0,3801
𝜎̂ 𝐵̂1 = √ ̅) 2 =√ = 0,0367
∑(𝑥𝑖−X 282
 test bilatéral

Test d’hypothèse bilatéral

H0 : B1 = 0,1

H1 : B1 ≠ 0,1

On compare |𝑡𝐵̂1 | avec 𝑡 𝛼 ; 𝑛−2


2

𝐵̂1− 𝐵1 0,1205−0,1
|𝑡𝐵̂1 | =| |=| | = 0,5585
̂𝐵
𝜎 ̂1 0,0367

𝑡 𝛼 ; 𝑛−2 = 𝑡 0,05 ; 7−2 = 𝑡 0,025 ;5 = 2,5706


2 2

Alors H1 est rejetée ce qui implique que B1 = 0,1

 Test d’hypothèse unilatéral à gauche

H0 : B1 ≤ 0,1

H1 : B1 ˃ 0,1

On compare 𝑡𝐵̂1 avec 𝑡 𝛼 ; 𝑛−2


𝐵̂ 1− 𝐵1 0,1205−0,1
𝑡𝐵̂1 = = = 0,5585
̂𝐵
𝜎 ̂1 0,0367

𝑡 𝛼 ; 𝑛−2 = 𝑡 0,05 ; 7−2 = 𝑡 0,05 ; 5 = 2,015

Alors H1 est rejetée ce qui implique que B1 ≤ 0,1

 Test d’hypothèse unilatéral à droite

H0 : B1 ≥ 0,1

H1 : B1 < 0,1

On compare 𝑡𝐵̂1 avec 𝑡 𝛼 ; 𝑛−2


𝐵̂ 1− 𝐵1 0,1205−0,1
𝑡𝐵̂1 = = = 0,5585
̂𝐵
𝜎 ̂1 0,0367

𝑡 𝛼 ; 𝑛−2 = 𝑡 0,05 ; 7−2 = 𝑡 0,05 ; 5 = 2,015

Alors H0 est rejetée ce qui implique que B1 < 0,1


2) L’ajout du terme Ƹ dans un modèle économétrique consiste à présenter la
partie non expliquée par l'équation de régression et exprimer toute
information n'est pas prise en compte dans la relation linéaire entre X et Y

3) Les méthodes statistiques de l'économétrie sont construites à partir du


modèle de régression qui est une structure mathématique décrivant la réaction
d'une variable à d'autres variables en présence d'éléments aléatoires
inobservables

4) L'analyse de régression linéaire sert à prévoir la valeur d'une variable en


fonction de la valeur d'une autre variable. Ce type d'analyse estime les
coefficients de l'équation linéaire, impliquant une ou plusieurs variables
indépendantes, qui estiment le mieux la valeur de la variable dépendante.

5)

a) vrai

b) faux : La variable explicative ou variable ‘’ régresseur ’’ est une variable


indépendante exogène

c) faux : La variable à expliquer ou variable ‘’ réponse ’’ est une variable


dépendante endogène

6)

H1 : Le modèle est linéaire en Xi

H2 : Les valeurs Xi sont observées sans erreur (Xi non aléatoire)

H3 : E (Ƹ) = 0 donc le modèle est bien spécifié

H4 : La variance de l’erreur est constante et ne dépend pas de l’observation


(c’est l’hypothèse de l’homoscédasticité)

H5 : L’erreur est indépendante de la variable exogène cov (Xi ; Ƹi) = 0

H6 : Les erreurs relatives à deux observations sont indépendantes cov (Ƹi ; Ƹj) =
0 (non autocorrélation des erreurs)

H7 : L’erreur suit une loi normale centrée de variance 𝜎Ƹ 2 soit N (0 ; 𝜎Ƹ 2). Il


s’agit de l’hypothèse de normalité des erreurs
Solution :

1) Le coefficient de détermination est un indicateur qui permet de mesurer


la qualité de la prédiction d'une régression linéaire. Tandis que la statistique F
est un indicateur qui permet de tester la significativité globale du modèle.

2) Le R² augmente mécaniquement avec le nombre de variables. Même si les


variables additionnelles ne sont absolument pas pertinentes. On ne peut pas
comparer des modèles de complexité différente avec un nombre d’exogènes
différent sur la base du R². Il faut utiliser le R² ajusté qui est un R² corrigé par
les degrés de liberté.

Exercice :

1)

Valeur des Y
99

98

97

96

95

94 Valeur des Y

93

92

91

90
0 10 20 30 40 50 60

Commentaire :

Il y a une corrélation très faible positive entre l’âge et la dépense


2)

Age (X) Dépenses (Y) Xi Yi Ƹ̂i = Yi - 𝑌̂ 𝑖 Xi – 𝑋̅ Yi – 𝑌̅


40 94 3760 -0,2879 -4,4444 -1,4444
42 96 4032 1,1917 -2,4444 0,5556
42 96 4032 1,1917 -2,4444 0,5556
43 91 3913 -4,0685 -1,4444 -4,4444
45 98 4410 2,4111 0,5556 2,5556
45 94 4230 -1,5889 0,5556 -1,4444
46 98 4508 2,1509 1,5556 2,5556
48 97 4656 0,6305 3,5556 1,5556
49 95 4655 -1,6297 4,5556 -0,4444

̅ )2 = 70,2222
∑ Xi = 400 ; ∑ Yi = 859 ; ∑ Xi Yi = 38196 ; ∑(𝑋𝑖 − 𝑋

Supposons que le modèle économétrique soit le suivant : Yi = a Xi + b + Ƹi

̅ = 400 = 44,4444
X
9

859
Y̅ = = 95,4444
9

𝑌̂ 𝑖 = 𝑌̂ 𝑖 = 0,2602 Xi + 83,8799

Ƹ̂1 = 𝑌1 – 𝑌̂1 = 94 – (0,2602 × 40) – 83,8799 = -0,2879

Formule Application numérique


2 𝑆𝐶𝑅 Ƹ̂i2 2 35,4937
𝜎̂Ƹ 𝜎̂Ƹ 2 = = 𝜎̂Ƹ =
9−2
= 5,0705
𝑛−2 𝑛−2

Plus la variance de résidu diminue, plus le modèle est fort.

Formule Application numérique


2 𝑆𝐶𝑅 35,4937
𝑅 𝑅2 = 1 – 𝑅2 = 1 – = 0,1175
𝑆𝐶𝑇 40,2222

Le modèle est faible, ce qui signifie que l’équation de la droite de régression


détermine 11,75% la distribution des points.
Formule Application numérique
a ∑𝑥𝑖𝑦𝑖 −𝑛X̅y
̅ 38196 −(9 × 44,4444 × 95,4444)
𝑎̂ = 2
𝑎̂ = = 0,2602
̅ 70,2222
∑(𝑋𝑖− 𝑋)
b 𝑏̂ = 𝑌̅ – 𝑎̂ 𝑋̅ 𝑏̂ = 95,4444 – (0,2602 × 44,4444) = 83,8799
𝑎̂ 𝑎̂ 0,2602
t 𝑡𝑎̂ = = 𝑡𝑎̂ = 5,0705 = 0,9683
̂ 𝑎̂
𝜎 𝑉 ̂ √70,2222
(Ƹ)

̅)2
∑(𝑥𝑖−X

𝑌̂ 𝑖 = 0,2602 Xi + 83,8799

E (â) est un estimateur sans biais de E (a)

E (b̂) est un estimateur sans biais de E (b)

D’après la table student, t = 2,365

En procédant à un test d’hypothèse

H0 : a = 0

H1 : a ≠ 0

On constate que |𝑡𝑎̂ | = 0,9683 est inférieur de 2,365, alors H 1 est rejetée ce
qui implique que X n’est pas une variable explicative de Y
La régression multiple :
La régression linéaire multiple est une méthode qui décrit la causalité des
variations de plusieurs variables exogènes sur la variable endogène.

Yi = ß0 + ß1 X1 + ß2 X2 + ß3 X3 + … + Ƹi

L’estimation des coefficients est calculée comme suit :

𝐵0
𝐵1
( ̂ ) = (X’X)−1 (X’Y)
𝐵2
𝐵̂ 3
Avec :

(X’X)−1 = matrice inversible de (X’X) si det (X’X) ≠ 0


1
(X’X)−1 =
det(X’X)
(Com (X’X))’

Et : X’ représente la transposée de X

Estimation de la variance

 de l’erreur
𝑆𝐶𝑅 ∑(𝑌𝑖−𝑌̂)2
𝜎̂Ƹ 2 = = avec p représente le nombre des variables explicatives
𝑛−𝑝−1 𝑛−𝑝−1

 des coefficients de la régression (la diagonale de la matrice)

𝛺̂ 𝐵 = 𝜎̂Ƹ 2 (X’X)−1

Estimation par intervalle de confiance de la droite de régression

IC = [Ŷi ∗ ± 𝑡 𝛼 ; 𝑛−𝑝−1 𝜎̂ ]
2 Ƹ𝑖∗

2
Avec : 𝜎̂ ̂Ƹ 2 × (1 + Xi* (X’X)−1 X’i*)
Ƹ𝑖∗ = 𝜎
Tableau de l’analyse de la variance (ANOVA)

Source de variation Somme des carrés Degré de liberté Moyens des carrés
X SCE p 𝑆𝐶𝐸
𝑝
𝑆𝐶𝑅
Résidu SCR n-p-1
𝑛−𝑝−1
𝑆𝐶𝑇
Total SCT n-1
𝑛−1

𝑆𝐶𝐸
Avec coefficient de détermination = 𝑅 2 = ↔ SCE = 𝑅 2 × SCT
𝑆𝐶𝑇

𝑆𝐶𝐸 𝑅 2 × 𝑆𝐶𝑇
Donc 𝑀𝐶𝐸 = =
𝑝 𝑝

𝑆𝐶𝑅 𝑆𝐶𝑅
Et 𝑅 2 = 1 - ↔ = 1 – 𝑅 2 ↔ 𝑆𝐶𝑅 = (1 – 𝑅 2) 𝑆𝐶𝑇
𝑆𝐶𝑇 𝑆𝐶𝑇

𝑆𝐶𝑅 (1 – 𝑅 2 ) 𝑆𝐶𝑇
Donc 𝑀𝐶𝑅 = =
𝑛−𝑝−1 𝑛−𝑝−1

𝑆𝐶𝑇
MCT =
𝑛−1

𝑅 2 ajusté ou corrigé
𝑅2 × 𝑆𝐶𝑇 𝑅2
𝑀𝐶𝐸 𝑝 𝑝
R² = = (1 – 𝑅2 ) 𝑆𝐶𝑇
= (1 – 𝑅2 )
𝑀𝐶𝑅
𝑛−𝑝−1 𝑛−𝑝−1

Le R² augmente mécaniquement avec le nombre de variables. Même si les


variables additionnelles ne sont absolument pas pertinentes. On ne peut pas
comparer des modèles de complexité différente avec un nombre d’exogènes
différent sur la base du R². Il faut utiliser le R² ajusté qui est un R² corrigé par
les degrés de liberté.
𝑀𝐶𝑅
𝑅̅ 2 = 1 –
𝑀𝐶𝑇

(1 – 𝑅2 ) 𝑆𝐶𝑇

𝑅̅ 2 = 1 –
𝑛−𝑝−1
𝑆𝐶𝑇
𝑛−1

(1 – 𝑅 2 ) 𝑆𝐶𝑇 𝑛−1
𝑅̅ 2 = 1 – ×
𝑛−𝑝−1 𝑆𝐶𝑇
(1 – 𝑅 2 )
𝑅̅ 2 = 1 – ×𝑛−1
𝑛−𝑝−1

𝒏−𝟏
̅𝟐 = 1 –
𝑹 × (𝟏 – 𝑹𝟐 )
𝒏−𝒑−𝟏

Test de modèle :

H0 : B1 = B2 = … = Bp = 0

H1 : ⱻ j / Bj ≠ 0
𝑆𝐶𝐸 𝑅2 × 𝑆𝐶𝑇 𝑅2
𝑀𝐶𝐸 𝑝 𝑝 𝑝
F calculé =
𝑀𝐶𝑅
= 𝑆𝐶𝑅 = (1 – 𝑅2 ) 𝑆𝐶𝑇
= (1 – 𝑅2 )
𝑛−𝑝−1 𝑛−𝑝−1 𝑛−𝑝−1

F calculé ˃ 𝐹(𝑝 ; 𝑛−𝑝−1) alors le modèle est globalement significatif

Test des paramètres

Test d’hypothèse :

H0 : Bj = 0

H1 : Bj ≠ 0

On compare |𝑡𝐵̂𝑗 | avec t de student

𝐵̂𝑗
|𝑡𝐵̂𝑗 | = |̂ |
𝜎𝐵
̂𝑗

Si : |𝑡𝐵̂𝑗 | ˃ t de student. Alors H0 est rejetée ce qui implique que Xj est une
variable explicative de Y

Application 1 :

Considérons la distribution suivante des variables X1 ; X2 et Y

Y X1 X2
4 1 6
4 3 6
8 4 7
12 6 7
12 6 9
T.A.F :

1) Déterminer le modèle économétrique

2) Déterminer la droite de régression

3) calculer l’écart type des estimateurs de la droite de régression

4) donner l’intervalle de confiance pour ß0, ß1 et ß2

5) calculer 𝑅 2 et le 𝑅 2 ajusté. tester la significativité globale du modèle

6) tester la significativité des paramètres

Solution :

1)

Yi = ß0 + ß1 X1 + ß2 X2 + Ƹi

2)

𝐵0
(𝐵1) = (X’X)−1 (X’Y)
𝐵2
1 1 6
1 3 6
X= 1 4 7
1 6 7
(1 6 9)

1 1 1 1 1
X’ = (1 3 4 6 6)
6 6 7 7 9
1 1 6
1 1 1 1 1 1 3 6
(X’X) = (1 3 4 6 6) × 1 4 7
6 6 7 7 9 1 6 7
(1 6 9)
On a (3 ; 5) × (5 ; 3) donc on obtient (3 ; 3)
5 20 35
(X’X) = ( 20 98 148 )
35 148 251
1
(X’X)−1 =
det(X’X)
(Com (X’X))’
98 148 20 35 20 35
det(X’X) = 5 | | – 20 | | + 35 | |
148 251 148 251 98 148
𝑎 𝑏
Avec : | | = ad – cb
𝑐 𝑑
det(X’X) = (5 × 2694) – (20 × -160) + (35 × -470)

det(X’X) = 13470 + 3200 – 16450

det(X’X) = 220
98 148 20 148 20 98
+| |–| | + | |
148 251 35 251 35 148
20 35 5 35 5 20
Com (X’X) = − | | + | |− | |
148 251 35 251 35 148
20 35 5 35 5 20
( + |98 148| – |20 148
| + | |
20 98 )

2694 160 − 470


Com (X’X) = ( 160 30 − 40 )
−470 − 40 90

2694 160 − 470


(Com (X’X))’ = ( 160 30 − 40 )
−470 − 40 90

2694 160 − 470


−1 1
(X’X) = × ( 160 30 − 40 )
220
−470 − 40 90
1347 8 47

110 11 22
−1 8 3 2
(X’X) = −
11 22 11
47 2 9
− −
( 22 11 22 )
4
1 1 1 1 1 4
(X’Y) = (1 3 4 6 6) × 8
6 6 7 7 9 12
(12)
On a (3 ; 5) × (5 ; 1) donc on obtient (3 ; 1)
40
(X’Y) = (192)
296
1347 8 47

𝐵0 110 11 22 40
8 3 2
(𝐵1) = − × (192)
11 22 11
𝐵2 47 2 9 296
− −
( 22 11 22 )
On a (3 ; 3) × (3 ; 1) donc on obtient (3 ; 1)

𝐵0 −2,909
(𝐵1) = ( 1,4545 )
𝐵2 0,7273

Ŷ = B̂0 + B̂1 X1 + B̂2 X2

Ŷ = -2,909 + 1,4545 X1 + 0,7273 X2


3)

Ŷ (1 ; 6) = -2,909 + 1,4545 X1 + 0,7273 X2 = 2,9093 donc (4 − Ŷ)2 =


1,1896

Ŷ (3 ; 6) = -2,909 + 1,4545 X1 + 0,7273 X2 = 5,8183 donc (4 − Ŷ)2 =


3,3062

Ŷ (4 ; 7) = -2,909 + 1,4545 X1 + 0,7273 X2 = 8,0001 donc (8 − Ŷ)2 = 0

Ŷ (6 ; 7) = -2,909 + 1,4545 X1 + 0,7273 X2 = 10, 9091 donc (12 − Ŷ)2 =


1,1901
Ŷ (6 ; 9) = -2,909 + 1,4545 X1 + 0,7273 X2 = 12,3637 donc (12 − Ŷ)2 =
0,1322

∑(𝑌𝑖 − 𝑌̂)2 = 1,1896 + 3,3062 + 0 + 1,1901 + 0,1322 = 5,8181


𝑆𝐶𝑅 ∑(𝑌𝑖−𝑌̂)2 5,8181
𝜎̂Ƹ 2 = = = = 2,909
𝑛−𝑝−1 𝑛−𝑝−1 5−2−1

𝛺̂ 𝐵 = 𝜎̂Ƹ 2 (X’X)−1
1347 8 47

110 11 22
8 3 2
𝛺̂ 𝐵 = 2,909 × 11 22

11
47 2 9
− −
( 22 11 22 )
35,622 2,1156 − 6,2146
̂
𝛺 𝐵 = ( 2,1156 0,3966 − 0,5289 )
−6,2146 − 0,5289 1,19
35,622
2
𝜎
̂𝐵 = (0,3966)
1,19
5,9684
2
̂𝐵 = √𝜎
𝜎 ̂𝐵 = (0,6297)
1,0908

4)

IC = [B̂0 ± 𝑡 𝛼 ; 𝑛−𝑝−1 𝜎̂𝐵0 ] = [-2,909 ± (4,303 × 5,9684)] = [-28,591 ; 22,773]


2

IC = [B̂1 ± 𝑡 𝛼 ; 𝑛−𝑝−1 𝜎̂𝐵1 ] = [1,4545 ± (4,303 × 0,6297)] = [-1,255 ; 4,164]


2

IC = [B̂2 ± 𝑡 𝛼 ; 𝑛−𝑝−1 𝜎̂𝐵2 ] = [0,7273 ± (4,303 × 1,0908)] = [-3,9694 ; 5,421]


2

5)
40
𝑌̅ = = 8
5

SCT = ∑ (𝑌𝑖 − 𝑌̅ )2 = 64
𝑆𝐶𝑅 5,8181
𝑅2 = 1 – =1– = 0,909
𝑆𝐶𝑇 64
𝑛−1 5−1
𝑅̅ 2 = 1 – × (1 – 𝑅 2) = 1 – × (1 – 0,909) = 0,818
𝑛−𝑝−1 5−2−1

Test du modèle :
𝑅2 0,909
𝑝 2
F calculé = (1 – 𝑅2 )
= 1−0,909 = 9,989
𝑛−𝑝−1 5−2−1

𝐹(𝑝 ; 𝑛−𝑝−1) = 𝐹(2 ; 5−2−1) = 𝐹(2 ; 2)

Dans ce cas, le test de Fisher est non applicable puisque V2 est inférieur à 3

6)

 Test d’hypothèse B1 :

H0 : B1 = 0

H1 : B1 ≠ 0

On compare |𝑡𝐵̂1 | avec t de student


𝐵̂ 1 1,4545
|𝑡𝐵̂1 | = | |=| | = 2,3098
̂𝐵
𝜎 ̂1 0,6297

t de student = 4,303

Si : |𝑡𝐵̂1 | < t de student. Alors H1 est rejetée ce qui implique que X1 n’est pas
une variable explicative de Y

 Test d’hypothèse B2 :

H0 : B2 = 0

H1 : B2 ≠ 0

On compare |𝑡𝐵̂2 | avec t de student

𝐵̂ 2 0,7273
|𝑡𝐵̂2 | = | |=| | = 0,6667
̂ 𝜎𝐵
̂2 1,0908

t de student = 4,303

Si : |𝑡𝐵̂2 | < t de student. Alors H1 est rejetée ce qui implique que X2 n’est pas
une variable explicative de Y
Application 2 :

Soit le modèle suivant :

Ŷ = 32,8913 + 0,8019 X1 - 0,3813 X2 - 0,0371 X3

Etant donné les éléments suivants :

∑14
𝑖=1(Yi − Ŷ)
2
= 67,46

∑14 ̅ 2 = 226,86
𝑖=1(Yi − 𝑌)

𝑡 0,025 ; 10 = 2,228

20,168 0,0151 −0,232 −0,076


0,0151 0,0132 0,001 −0,001
(X’X)−1 = ( )
−0,232 0,001 0,004 0,0006
−0,076 −0,001 0,0006 0,0004

1) calculer l’estimation d’écart type des coefficients de régression

2) calculer le coefficient de détermination ajusté

3) prédire Ŷ (4 ; 33 ; 150) par intervalle (α = 5%)

Solution :

1)
𝑆𝐶𝑅 67,46
𝜎̂Ƹ 2 = = = 6,746
𝑛−𝑝−1 14−3−1

𝛺̂ 𝐵 = 𝜎̂Ƹ 2 (X’X)−1

20,168 0,0151 −0,232 −0,076


0,0151 0,0132 0,001 −0,001
𝛺̂ 𝐵 = 6,746 × ( )
−0,232 0,001 0,004 0,0006
−0,076 −0,001 0,0006 0,0004
136,0533 0,1019 −1,5651 −0,5127
0,1019 0,089 0,0067 −0,0067
𝛺̂ 𝐵 = ( )
−1,5651 0,0067 0,0269 0,004
−0,5127 −0,0067 0,004 0,0027
136,0533
0,089
̂𝐵 2 = (
𝜎 )
0,0269
0,0027
11,6642
0,2983
𝜎 ̂𝐵 2
̂𝐵 = √𝜎 = ( )
0,164
0,052
2)
𝑆𝐶𝑅 67,46
𝑅2 = 1 - =1- = 0,7026
𝑆𝐶𝑇 226,86

𝑛−1
𝑅̅ 2 = 1 – × (1 – 𝑅 2)
𝑛−𝑝−1

14−1
𝑅̅ 2 = 1 – × (1 – 0,7026)
14−3−1

𝑅̅ 2 = 0,6134

3)

Ŷ = 32,8913 + 0,8019 X1 - 0,3813 X2 - 0,0371 X3

Ŷi ∗ = Ŷ (4 ; 33 ; 150)

Ŷi ∗ = 32,8913 + (0,8019 × 4) – (0,3813 × 33) – (0,0371 × 150)

Ŷi ∗ = 17,951

IC = [Ŷi ∗ ± 𝑡 𝛼 ; 𝑛−𝑝−1 𝜎̂
Ƹ𝑖∗ ]
2

Avec :
2
𝜎̂ ̂Ƹ 2 × (1 + Xi* (X’X)−1 X’i*)
Ƹ𝑖∗ = 𝜎
1
4
Avec : Xi* = (1 4 33 150) et X’i* = ( )
33
150
20,168 0,0151 −0,232 −0,076
0,0151 0,0132 0,001 −0,001
Xi* (X’X)−1 = (1 4 33 150) × ( −0,232 0,001 0,004 0,0006
)
−0,076 −0,001 0,0006 0,0004

On a (1 ; 4) × (4 ; 4) donc on obtient (1 ; 4)

Xi* (X’X)−1 = (1,1724 -0,0491 -0,006 -0,0002)

1
4
Xi* (X’X)−1 X’i* = (1,1724 -0,0491 -0,006 -0,0002) × ( )
33
150
On a (1 ; 4) × (4 ; 1) donc on obtient (1 ; 1)

Xi* (X’X)−1 X’i* = 0,748


2
𝜎̂ ̂Ƹ 2 × (1 + Xi* (X’X)−1 X’i*) = 6,746 × (1 + 0,748) = 11,792
Ƹ𝑖∗ = 𝜎

𝜎̂
Ƹ𝑖∗ = √11,792 = 3,4339

IC = [17,951 ± (2,228 × 3,4339)]

IC = [10,3002 ; 25,615]

Vous aimerez peut-être aussi