Vous êtes sur la page 1sur 28

Traitement préalable des séries statistiques

Introduction :

La nature des traitements dépend de plusieurs facteurs ; on retiendra ici la distinction entre données
chronologiques et données en coupe instantanée (données d’enquêtes).

Sur les données en coupe, il faudra par exemple de définir les rations en liaison avec la spécification
retenue.

Sur les séries chronologiques, il y a la correction des variations saisonnières, la colinéarité et la


distinction entre « volume » et « valeur ».

Lorsque l’on « déflate » par un indice approprié, une série en valeur, on obtient une série en
volume. On parlera aussi de série exprimée en dirhams constants ≠ dirhams courants ou encore
variation en terme nominal ≠ variation en terme réel.

DH constant DH courant
Valeur Volume
Réel Nominal

Ce travail consiste à exclure l’effet prix dans l’appréciation des variations d’une grandeur. En effet,
l’inflation fausse les conclusions que nous pouvons faire à propos de l’évaluation d’une grandeur :
par exemple les dépenses ; le chiffre d’affaire…

Comment déflater une série statistique ?

Pour observer l’évolution réelle d’une grandeur (chiffre d’affaire, dépenses, exportations…) il faut
exclure l’effet prix.

On dispose de plusieurs repères pour déflater une série statistique :

- Le coefficient d’érosion monétaire (dégradation de la valeur de la monnaie) ;


- Le taux d’inflation ;
- Les indices des prix.

Nous monterons ici comment utiliser les indices de prix.


L’utilisation des indices des prix :

 Travail sur une grandeur : les indices simples

T T+1 𝑪𝑨𝒕 𝑪𝑨𝒕+𝟏


Prix Quantité Prix Quantité
Bien A 10 300 12 290 3000 3480

Pour apprécier et analyser l’évolution du CA, on pourra dire que :

En terme nominal, le chiffre d’affaire a augmenté de 16%, par contre les quantités vendues (volume
de vente) ont baissé de 3.3% entre t et t+1.

Nous pouvons mesurer les variations du CA en terme réel en écartant l’effet de l’inflation, nous
allons alors déflater, c’est-à-dire corriger le CA en DH par « l’indice des prix ».
Prenons comme année de base T :
𝑃𝑡
On rappelle que 𝐼𝑃 𝑡 = ∗ 100
0 𝑃0

Pour l’année T :

Le chiffre d’affaire T va rester le même puisque l’indice des prix est égal à 100.

Pour l’année T+1 :


12
𝐼𝑃𝑡+1 = ∗ 100
𝑡 10
𝐶𝐴 𝑒𝑛 𝐷𝐻 𝑐𝑜𝑢𝑟𝑎𝑛𝑡 3480
𝐶𝐴 𝑒𝑛 𝐷𝐻 𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡 = ∗ 100 = ∗ 100 = 2900
𝐼𝑃𝑡+1 120
{ 𝑡

CA en DH CA en DH CA en DH Δ du CA Δ du CA en Δ de quantités
Crt (T) Crt (T+1) Cst (T+1) en DH Crt DH Cst produites
Bien A 3000 3480 2900 16% -3.33% -3.33%

L’égalité entre la variation du CA en DH constant et la variation des quantités vendues tient


au fait que nous avons éliminé l’effet des prix entre T et T+1.
Mathématiquement parlant, on peut la démontrer par la formule suivante :
𝐶𝐴 𝑒𝑛 𝐷𝐻 𝐶𝑠𝑡𝑡+1 𝑄𝑡+1 ∗ 𝑃𝑡 𝑄𝑡+1
= ∗ 100 = ∗ 100 = 𝐼𝑄𝑡+1
𝐶𝐴 𝑒𝑛 𝐷𝐻 𝐶𝑠𝑡𝑡 𝑄𝑡 ∗ 𝑃𝑡 𝑄𝑡 𝑡

Prenons cette fois T+1 comme année de base (référence) :

Pour l’année T :

12
𝐼𝑃𝑡+1 =∗ 100 = 83.33%
𝑡 10
3000
𝐶𝐴 𝑒𝑛 𝐷𝐻 𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡 = ∗ 100 = 3600
83.33
Pour l’année T+1 :

Le CA de l’année t+1 va rester le même puisque l’indice des prix est égale à 100, pour cette année
(quand elle est prise comme année de référence ou base).

 Lorsque nous travaillons sur une seule grandeur (le CA par exemple), raisonner sur les
quantités ou sur ma série en DH constant revient au même.
 Quand il s’agit de plusieurs grandeurs à la fois (CA réalisé par la vente de plusieurs biens), la
passage par les indices s’impose, on ne peut en effet pas ajouter des Kg de tomates avec des
litres d’huile, ou encore des souliers avec des chemises…
Exercice :
Dans l’exemple suivant, X représente le CA obtenu grâce à la vente des GSM et leurs accessoires.

Années Prix carcasse Quantité des Prix GSM Quantité Prix Kit man Quantité
en DH carcasses en DH GSM en DH kit man
𝐴0 5 21 50 12 1.3 7

𝐴1 5.7 29 57 17 1.8 6

𝐴2 6 33 49 8 2.4 3

1- Analyser le comportement des ventes par une lecture économique du tableau.


2- Calculer le CA réalise avec les ventes des GSM et ses accessoires.

En prenant 𝐴0 comme année de base :

3- Calculer les variations des quantités vendues des carcasses. Comparer les résultats.
4- Expliquer le biais et faire les calculs nécessaires pour l’écarter. Commenter.

Evolution des ventes des GSM et ses


accessoires
Quantité des carcasses quantités de GSM Quantité de Kit Man

35

30

25

20

15

10

0
A0 A1 A2

On constate que seules les ventes des carcasses qui ont augmenté entre𝐴0 , 𝐴1 et𝐴2 , malgré que
les prix ont subi une augmentation pendant 𝐴1 et𝐴2 . Les autres articles ont connu une diminution
au cours de 𝐴1 et𝐴2 .

𝑨𝟎 𝑨𝟏 𝑨𝟐
CA carcasse 105 165.3 198
CA GSM 600 969 392
CA Kit Man 9.1 10.8 7.2
CA ANNUEL 714.1 1145.1 597.2

Années Quantités des carcasses Δ Ai/A0


𝑨𝟎 21 1.00
𝑨𝟏 29 0.38
𝑨𝟐 33 0.57

Les ventes des carcasses ont connu un accroissement très important par rapport à𝑨𝟎 .
Elles sont passées d’une élévation de 38% en 𝑨𝟏 à 57% en𝑨𝟐 .

❹ Selon la dernière question, les quantités de carcasses ont connu respectivement une
augmentation de 38% et 57% en 𝑨𝟏 et 𝑨𝟐 . Par ailleurs, on peut affirmer selon le 2ème question que les
chiffres d’affaires en DH courant réalisés par l’entreprise pour cet article ont connu une élévation
respectivement de 57% et 88% en𝑨𝟏 et 𝑨𝟐 .

La différence d’accroissement constatée entre les variations des CA et des quantités ne peut être
engendrée qua par la présence de l’effet des prix et donc l’inflation.

Nous pouvons mesurer les variations du CA en terme réel en écartant l’effet de l’inflation ; nous
allons alors déflater, c’est-à-dire « corriger » le CA en DH courant par l’indice des prix.

Prenons comme année de base 𝑨𝟎 :

On rappelle que :

𝑃𝑡
𝐼𝑃 𝑡 = ∗ 100
0 𝑃0
Années Prix carcasse Quantités 𝑰𝑷 𝒕
en DH des carcasses 𝟎 CA courant CA constant Δ CA constant

𝑨𝟎 5 21 100 105 105 -


𝑨𝟏 5.7 29 114 165.3 145 38
𝑨𝟐 6 33 120 198 165 57

L’égalité entre la variation du CA en DH constant et la variation des quantités vendues tient au fait
𝑨
que nous avons éliminé l’effet des prix, entre 𝑨𝟎 𝑒𝑡 𝑒𝑛𝑡𝑟𝑒 𝑨𝑨𝟎.
𝟏 𝟐
Chapitre introductif : Typologie des modèles

MARCO MICRO

J=1 : volume de l’emploi de la main d’œuvre J=1 : part de marché.


J=2 : solde de la balance commerciale. J=2 : chiffre d’affaire.
J=3 : taux de croissance du PIB. J=3 : productivité.

Ces variables sont appelé variables décisifs. Ces variables sont appelées variables objectifs.

En effet, l’augmentation du PIB entraine une augmentation des dépenses publiques ce qui favorise
l’emploi à travers l’investissement ce qui engendre l’augmentation de la production.

On peut conclure donc que la dépense publique est une variable endogène alors que l’emploi,
l’investissement et la production sont des variables intermédiaires.

Exemple :

C = f(R)
C=aR+b
Année Consommation Revenu
2011 10 13
2012 12 15
2013 11 16
2014 10 13

diagramme de dispertion
12.5

12

11.5

11

10.5

10

9.5
0 2 4 6 8 10 12 14 16 18
A travers ces points on ne peut pas faire une prévision, donc on utilise la méthode moindre carrée
ordinaire ou on cherche une droite : ĉ=â r+ b^

C = aR+b constitue le modèle économique.

La première variable qui permet d’exprimer la consommation c’est le revenu puis les prix.

C = Ar+b+e :

« e » est un terme aléatoire qui permet d’expliquer les fonctions ainsi que d’écarter les erreurs,
l’indiction et la stimulation ainsi que de collecter l’information.

Don la différence entre C et Ĉ =e = 0.

EXEMPLE INTRODUCTIF :

Soir la fonction de consommation keynésienne : C = 𝑎0+ 𝑎1 𝑦 où :

- C = consommation ;
- Y = Revenu ;
- 𝑎0 : proportion marginal à consommer ;
- 𝑎1 : Consommation autonome ou incompressible.

 La variable consommation est appelée « variable à expliquer » ou « variable exogène ».


 La variable revenu est appelé « variable explicative » ou « variable exogène ».
 𝑎0 𝑒𝑡 𝑎1 sont les paramètres du modèle ou encore les coefficients de régression.
∑𝑒𝑖 0
∑(𝑒𝑖) = 0 Donc Espérance (𝑒𝑖) = 𝑛
=𝑁=0

∑(𝑒𝑖)²
𝑉𝑎𝑟𝑖𝑎𝑛𝑐𝑒 (𝑒𝑖) = 𝑛
= 𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑒 𝑑𝑜𝑛𝑐 𝑙 ′ é𝑐𝑎𝑟𝑡 𝑡𝑦𝑝𝑒 𝑒𝑠𝑡 𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡
E(â)=a et V(â)=a, E (b^)=b et V (b^)=b ; on dit que le modèle est BLEU (Best Linear Unbested
Estimateur).

𝒚 = 𝒂𝒙 + 𝒃 + 𝒖 𝑐𝑒 𝑞𝑢𝑖 𝑒𝑛𝑡𝑟𝑎𝑖𝑛𝑒 𝑞𝑢𝑒 ŷ = â𝒙 + 𝒃^ + û

Donc â = ∑(𝑿− )(𝒀−Ῡ)


et b^= y-âx
Ʃ(𝑿− )²

Révision :
Définir les concepts suivants ainsi que leurs fonctions.

a- Modèles de régression simple ;


b- Modèle linéaire de régression ;
c- Diagramme de dispersion ;
d- Terme d’erreur.
Formuler la relation générale entre consommation Y et le revenu X :

1- Sous une forme linéaire exacte.


2- Sous une forme aléatoire
3- Pourquoi peut-on s’attendre à ce que la plupart des valeurs observés de Y ne donnent pas
des points situés exactement en ligne droite.
En quel sens la méthode de MCO permet-elle d’estimer la meilleure droite d’ajustement pour un
échantillon d’observation XY ?

Pourquoi choisir les écarts verticaux ?

Pourquoi ne pas prendre simplement des écarts sous les postes au carré ?

Pourquoi ne pas prendre la somme de valeurs absolues des écarts ?

Détermination de â et de b^ par les moindres carrés ordinaires (MCO) :


EXEMPLE 1 :

Pendant 10 ans de 1996 à 2005, une femme a expérimenté le rendement du maïs (Y en kg/ha)
associé à l’emploi de quantité croissantes d’un fertilisant (X en g). Le tableau suivant rassemble ces
données.

1- Reporter ces données sur le diagramme de dispersion.


2- Donner l’équation estimée à la droite de régression.
3- Tracer la droite de régression et calculer l’écart (ei) entre Yi et Ŷi.

1 2
Année n Yi Xi Yi-Ῡ Xi- 1*2 2²
1996 1 40 6 -17 -12 20 144
1997 2 44 10 -13 -8 104 64
1998 3 46 12 -11 -6 66 36
1999 4 48 14 -9 -4 36 16
2000 5 52 16 -5 -2 10 4
2001 6 58 18 1 0 0 0
2002 7 60 22 3 4 12 16
2003 8 68 24 11 6 66 36
2004 9 74 26 17 8 136 64
2005 10 80 32 23 14 322 196
£=TOTAL 570 0 0 956 576
MOYENNE 57 18

Diagramme de dispersion
90

80

70

60

50

40

30

20

10

0
0 5 10 15 20 25 30 35

❷ Donc â=956/576=1.66 (pente estimée de la droite de régression)

Et b^=57-(1.66*18)=27.12

Equation estimée de la droite de régression ŷ= 1.66X+27.12

Par conséquent si Xi = 0 alors Ŷ = 27.12=B^ et lorsque Xi=18=moyenne de X alors :

Ŷ = 57=moyenne de Y.

Il en résulte que la droite de régression passe par le point (18, 57)

Yi Ŷi ei
1 40 37.08 2.92
2 44 43.72 0.28
3 46 47.04 -1.04
4 48 50.36 -2 :36
5 52 53.36 -1.68
6 58 57 1
7 60 63.64 -3.64
8 68 66.96 1.04
9 74 70.28 3.72
10 80 80.24 -0.24
Total 570
Exemple 2 :
1- Construire un diagramme de dispersion pour les données en Milliards de Dhs.
Dépense de consommation Y et le revenu disponible X pendant 12 année de 1994 à 2005.

2- Etablir l’équation de régression.


3- Tracer la droite de régression correspondante en indiquant l’écart spécifiant chaque couple.
n Yi Xi
1994 1 102 114
1995 2 106 118
1996 3 108 126
1997 4 110 130
1998 5 122 136
1999 6 124 140
2000 7 128 148
2001 8 130 156
2001 9 142 160
2003 10 148 164
2004 11 150 170
2005 12 154 178

Correction de l’exercice :

1 2
année n Yi Xi Yi-Ῡ Xi- 1*2 2²
1994 1 102 114 -31 -25 775 961
1995 2 106 118 -27 -21 567 729
1996 3 108 126 -19 -19 361 361
1997 4 110 130 -15 -17 255 225
1998 5 122 136 -9 -5 45 81
1999 6 124 140 -5 -3 15 25
2000 7 128 148 3 1 3 9
2001 8 130 156 11 3 33 121
2001 9 142 160 15 15 225 225
2003 10 148 164 19 21 399 361
2004 11 150 170 25 23 575 625
2005 12 154 178 33 27 891 1089
Total 1524 1740 4144 4812
Moyenne 127 145
Diagramme de Dispersion
200

180

160

140

120

100

80

60

40

20

0
100 110 120 130 140 150 160

❷ Donc â=4144/4812=0.86 Et b^=127-(0.86*145)=2.3

Equation estimée de la droite de régression ŷ= 0.86x+2.3

Par conséquent si Xi = 0 alors Ŷ = 2.3 = B^ et lorsque Xi = 145 =moyenne de X alors :

Ŷ = 127=moyenne de Y.

Il en résulte que la droite de régression passe par le point (145, 127)

Ŷi ei ei²
100.34 1.66 2.7556
103.78 2.22 4.9284
110.66 -2.66 7.0756
114.1 -4.1 16.81
119.29 2.74 7.5076
122.7 1.3 1.69
129.58 -1.58 2.4964
136.46 -6.46 41.7316
139.9 2.1 4.41
143.34 4.66 21.7156
148.5 1.5 2.25
155.38 -1.38 1.9044
Total 115.28

∑(𝑒𝑖)2 115.28
𝑆2 = = = 11.53
n−2 12 − 2
𝑆2 11.53
𝑆2â = 2 = = 0.0024
4812
∑ (𝑋𝑖 − )
1 1 (145)2
S²bˆ= S²[ + ] = 11.53 ∗ ( + ) = 51.34
𝑛 12 4812
∑(𝑋𝑖− )²

Ce qui nous donne:

Sâ= √0.0024 = 0.05

Sbˆ= √51.34= 7.17

Donc :

Ȃ= 0.86
0.86
Tâ= 0.05 = 17.2

Pour savoir si ka variable exogène choisi est pertinente on passe au test de student.

- Test de student de â = tâ = â/Sâ avec ddl = n-k = n-2 (avec k nombre de paramètre).
- Soit on compare le tâ par rapport à t tabler. Si tâ>â t tabler  on rejette Ho (Go : a = 0) la
variable exogène est pertinente. Sinon la variable exogène n’est pas pertinente.

Exemple 3 :

Considérons la série des indices de la livraison trimestrielle d’essence au Maroc pour années
consécutives :

Année 1er trimestre 2ème trimestre 3ème trimestre 4ème trimestre


1997 109 108 137 114
1998 111 119 140 122
1999 115 122 140 150
2000 125 125 150 137

Travail à faire :

1. Tracer le nuage de points, que fait-il apparaître ?


2. Donner la droite de régression.
3. Quel serait l’indice de la livraison en 2ème trimestre 2011 ?
Correction :

160

140

120

100

80

60

40

20

0
0 2 4 6 8 10 12 14 16 18

Commentaire :

- Le graphique fait apparaître une tendance générale à l’augmentation. Il convient de mentionner


qu’un mouvement saisonnier se produit chaque année un maximum absolu est atteint le
troisième trimestre de chaque année (arrivée des travailleurs marocain à l’étranger touriste).
- N.B : pour une bonne interprétation, il est nécessaire dessaisonner de cette série.
ti Yi Ti- Yi -Ῡ (Ti- ) ² (Ti- )(Yi -Ῡ )
1 109 -7.5 -16.25 56.25 121.875
2 108 -6.5 -17.25 42.25 112.125
3 137 -5.5 11.75 30.25 -64.625
4 114 -4.5 -11.75 20.25 50.625
5 111 -3.5 -14.25 6.25 49.875
6 119 -2.5 -6.25 6.25 15.625
7 140 -1.5 14.75 2.25 -22.125
8 122 -0.5 -3.25 0.25 1.625
9 115 0.5 -10.25 0.25 -5.125
10 122 1.5 -3.25 2.25 -4.875
11 140 2.5 14.75 6.25 36.875
12 130 3.5 4.75 12.25 16.625
13 125 4.5 -0.25 20.25 -1.125
14 125 5.5 -0.25 30.25 -1.375
15 150 6.5 24.75 42.25 160.875
16 137 7.5 11.75 46.25 88.125
Somme : 136 2004 340 555
Moyenne : 8.5 125.25

Détermination des coefficients :

Ʃ(Ti − )(Yi − Ῡ) 555


â= = = 1.63
Ʃ((Ti − )2 ) 340

bˆ= Ŷ-â = 125.25-(1.63*8.5) = 111.4


Ŷ=1.63x+111.4

Calcul de l’indice de la livraison en 2ème trimestre 2011.

On sait que Ŷ= 1.63 +111.4

T=58, alors :

Ŷ= (1.63*58) + 111.4 = 205.94

Exemple 4 :

On reprend les observations consignées dans le tableau « exemple 3 » à propos de la relation entre la
consommation globale et le revenu disponible.

Déterminer S², Ŝ²b, et S² â.

Où :

- S² est l’estimateur de la variance de l’erreur.


- Ŝ²b est l’estimateur de la variance de â.
- S² â est l’estimateur de la variance de bˆ.
 Les estimateurs sont-ils sans biais ?
 Les estimateurs sont-ils convergents ?
Alors la distribution des ûi (ou êi) converge en probabilité vers celle des ui (ou ei), et la valeur
∑(𝑒𝑖)²
𝑆² = n−2
Estimateur de la variance des résidus.

Où :

- N : le nombre d’observation ;
- N-2 : le nombre de degré de liberté ;
- 2 : n des paramètres (a et b).
Cela signifie que :

𝑆²
𝑆²â =
∑(𝑋𝑖 − )²
De même :

1
S²bˆ= S²[ + ]
𝑛
∑(𝑋𝑖− )²

Application :

- Tâ  â/Sâ = 17.5
- Avec ddl = n-k (avec k nombre de paramètre 12-2=10).
- T tabler à 5% = 2.228
- Alors tâ > â t tabler  17.5 >2.228 on rejette Ho (Ho : a=o)
- La variable exogène est pertinente.

Régression Simple : Exercices


Exercice 1 :
Au cours d’un mois donné, le représentant d’une société commercialisant du matériel de bureau a
visité 56 entreprises réparties dans 7 villes. Le tableau suivant indique le nombre de visites réalisés et
les commandes enregistrées en 10³Dhs.

Ni Xi Yi
1 2 23
2 3 27
3 5 28
4 9 39
5 10 39
6 12 45
7 15 51

Question ❶ :

- Représenter graphiquement le nuage des points et donner le modèle de régression Y=ax+b


par la méthode des moindres carrées (MCO) ;
- Interpréter les résultats.
Correction :

Relation entre les commandes et le nomble de visites de


représentants
0.06

0.05
1000 DH

0.04

0.03

0.02

0.01

0
0 2 4 6 8 10 12 14 16

On sait :
∑ (𝑋𝑖 − ) (Yi − Ῡ) 𝐶𝑂𝑉(𝑋, 𝑌) Ϭ𝑥𝑦
â= = = 2
∑(𝑋𝑖 − 𝑋) 𝑉𝑎𝑟(𝑋) Ϭ 𝑥
Alors
42.4
â= = 2.12 Et bˆ=19
20

Alors Y=2.12X+19

1 2
Ville I Nombre de Commande Xi- 𝐘𝐢 − Ῡ (1*2) (1)²
visite Xi Yi
1 2 23 -6 -13 78 36
2 3 27 -5 -9 45 25
3 5 28 -3 -8 24 9
4 9 39 1 3 3 1
5 10 39 2 3 6 4
6 12 45 4 9 36 16
7 15 51 7 15 105 49
Total 56 252 297 140
Moyenne 8 36

Ce résultat peut être interprété de la façon suivante :

- En l’absence de visite, le montant des commandes d’un département s’élèverait à 19000DH ;


- Chaque visite d’un représentant amène une masse de commandes supplémentaire d’environ
2120 DH.
Question ❷:

Calculer les différentes dispersions selon la loi des écarts.

La loi des écarts :

La loi des écarts permet de relier l’erreur associé à l’hypothèse nulle et l’erreur associée à
l’hypothèse « Y » dépend de « X ».

L’erreur attachée à l’hypothèse nulle est mesurée par la dispersion totale des Yi, c’est-à-dire par la
somme des carrées des écarts des Yi par rapport à la moyenneῩ.

Dispersion totale = - ∑(Yi − Ῡ)²  ∑ 𝐶𝑡

- ∑(Yi − Ŷ)²  ∑ 𝐶𝑅
- - ∑(Ŷ − Ῡ)²  ∑ 𝐶𝐸
L’erreur attachée à la seconde hypothèse, ou encore dispersion résiduelle est donné par ê somme
des carrées des écarts entre les observations Yi et les valeurs estimées (Ŷi) par le modèle.

Dispersion résiduelle = ∑(Ŷi − Yi)²

Dans le tableau précèdent, il apparait que l’erreur associé au modèle est très faible avec e²=7.9
Dans ce cas l’erreur de l’hypothèse nulle s’élève à 638
Ni Xi Yi Ŷi Yi − Ῡ (Yi − Ŷ)² Ŷi − Ῡ (Ŷi − Ῡ)² Ŷi − Yi (Ŷi − Yi)²
1 2 23 23.27 -13 196 -12.73 162.0529 0.27 0.0729
2 3 27 25.39 -9 81 -10.61 112.5721 -1.61 2.5921
3 5 28 29.64 -8 64 -6.36 40.4496 1.64 2.6896
4 9 39 38.12 3 9 2.12 4.4944 -0.88 0.7744
5 10 39 40.24 3 9 4.24 17.9776 1.24 1.5376
6 12 45 44.49 9 81 8.49 72.0801 -0.51 0.2601
7 15 51 50.85 15 225 14.85 220.5225 -0.15 0.2225
Ʃ 56 252 0 638 630.1492 7.9492
M 8 36

La différence entre la dispersion totale et la dispersion résiduelle correspond à la dispersion explique


par le modèle de régression compte tenu du fait que :
2
(Yi − Ῡ)2 = (Ŷi − Ῡ) + (Ŷi − Yi)²

On tire la décomposition suivante :


2
Ʃ(Yi − Ῡ)2 = Ʃ(Ŷi − Ῡ) + Ʃ(Ŷi − Yi)²

Relation connue sous le nom de loi des écarts, nous pouvons écrire :
2
Dispersion expliquée : Ʃ(Ŷi − Ῡ)

Donc on a :

Dispersion totale = dispersion expliqué + dispersion résiduelle

SCT = SCE + SCR

Pour l’exemple considéré, la dispersion expliquée s’élève à 630.09.

Question ❸ :

Déterminer le coefficient de détermination et le coefficient de corrélation.


𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛 𝑒𝑥𝑝𝑙𝑖𝑞𝑢é𝑒 𝑆𝐶𝐸 630
** 𝑅 2 = = = = 0.987
𝐷𝑖𝑠𝑝é𝑟𝑡𝑖𝑜𝑛 𝑡𝑜𝑡𝑎𝑙𝑒 𝑆𝐶𝑇 638

Il apparait que le modèle restitue 98.7% de l’information totale.

** 𝑟 = √𝑅 2 = √0.987 = 0.994

Ce qui indique une relation linéaire presque parfaite entre X et Y.

Question 4 :

Représenter l’analyse de la variance et le test de F. on note


𝑆𝐶𝐸
𝐹= 𝐾
𝑆𝐶𝑅
𝑛−𝐾−1
Dans notre exemple K=1 et n=7 alors Fc=395.
Ft (tablué) à 1% avec ddl (1.5) = 16.26.

Comme Fc > Ft on peut admettre la relation linéaire entre X et Y.

Analyse de la variance pour la régression Test Fisher


ddl Somme des Carrées moyens F
carrées
Régression K=1 630.09 630.09 630
396 =
∑(Ŷi − Ῡ)² 1.59

Erreur n-k-1=5 7.94 7.94


1.59 =
∑(Ŷi − Y)² 5
Total n-1=6 638
∑(Yi − Ῡ)²

𝐹0.01 = 16.26

Question 6 :

Si X = 20 visites, combien seront les commandes ?

Ainsi, X=20 visites devraient amener selon le modèle 61400 Dhs de commandes en moyennes
puisque 61.4 = 2.12 (20) +19

Exercice 2 :
On s’intéresse dans un secteur de production à la relation entre les bénéfices réalisés par les
entreprises et le budget annuel qu’elles consacrent à la publicité. 15 observations ont été réalisées.

Budget 15 8 36 41 16 8 21 21 53 10 32 17 58 6 20
Bénéfice 48 43 77 89 50 40 56 62 100 47 71 58 102 35 60

1- On veut établir une régression linéaire entre les deux variables, qu’elle doit être la variable
endogène ?
2- On admet l’existence d’une relation linéaire de la forme𝑦𝑖 = 𝑎𝑥𝑖 + 𝑏 + Ɛ. Calculer les
estimateurs des coefficients a et b.
3- Précisez l’équation d’analyse de la variance, calculer ses valeurs et en déduire le coefficient
de détermination et de corrélation.
CHAPITRE 2 : Modèle linéaire de régression multiple (M.R.M)
Les M.R.M sont du type :

𝑌𝑡 = 𝑎1 𝑋1𝑡 + 𝑎2 𝑋2𝑡 + ⋯ + 𝑎𝑝 𝑋𝑝𝑡 + 𝑈𝑡

𝑌𝑡 : Variable endogène, aléatoire à cause de l’introduction de 𝑈𝑡 .

𝑋1𝑡 … 𝑋𝑝𝑡 : Sont les observations à chaque période t des variables exogènes 𝑋1 … 𝑋𝑝 .

𝑎1 𝑋1𝑡 + ⋯ + 𝑎𝑝 𝑋𝑝𝑡 : Est la partie déterministe ou systématique ou explicative du modèle.

𝑈𝑡 : Est la partie aléatoire du modèle.

A- Les hypothèses dans le M.R.M :


Hypothèse 1 : le modèle est correctement spécifié. Autrement dit, il faut que les variables
explicatives retenus soient les « meilleures » sans omission d’autres variables, la vrai relation soit une
relation linéaire dans ou par rapport aux paramètres à estimer et enfin la variable aléatoire
intervienne de manière additive.

Hypothèse 2 : les 𝑌𝑡 et les 𝑋𝑖𝑡 sont des grandeurs numériques observés sans erreur.

𝐸(𝑈𝑡 ) = 0 𝑞𝑢𝑒𝑙𝑞𝑢𝑒 𝑠𝑜𝑖𝑒𝑛𝑡 𝑋𝑖𝑡 , et pour i=1…p.

Hypothèse 3 : Hypothèse d’homoscédasticité :

𝑈𝑡 𝑒𝑠𝑡 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢é𝑒 𝑠𝑒𝑙𝑜𝑛 𝑢𝑛𝑒 𝑙𝑜𝑖 𝑖𝑛𝑑é𝑝𝑒𝑛𝑑𝑒𝑛𝑡𝑒 𝑑𝑒 𝑡 𝑒𝑡 𝑑𝑒𝑠 𝑋𝑖𝑡 , 𝑝𝑜𝑢𝑟 𝑡 = 1 … 𝑛 𝑒𝑡 𝑖 = 1 … 𝑝


𝑉(𝑈𝑡 ) = 𝐸(𝑈 2 ²𝑡 ) = 𝛿 2 𝑢 𝑒𝑠𝑡 𝑢𝑛𝑒 𝑞𝑢𝑎𝑛𝑡𝑖𝑡é 𝑓𝑖𝑛𝑖𝑒.
Hypothèse 4 : indépendance des erreurs 𝐶𝑜𝑣 (𝑈𝑡, 𝑈 ′ 𝑡 ) = 0.

Hypothèse 5 : la loi de distribution de l’aléa est une loi gaussienne de moyenne nulle et l’écart-type
fini.

Hypothèse 6 : hypothèse sur les variables exogènes :

Absence de colinéarité des variables 𝑋1 … 𝑋𝑝−1 et E (vecteur unité).

Hypothèse 7 : on n’introduit pas de restriction sur les estimateurs. Ils peuvent être positifs, négatifs
ou nuls.

Problèmes particuliers :
La violation des hypothèses :
Deux formes classiques :

 Autocorrélation des erreurs ;


 Hétéroscédasticité.
Les causes et la détection de l’autocorrélation des erreurs :
1- Définition :
Nous sommes en présence d’une autocorrélation des erreurs lorsque les erreurs sont liées par un
processus de reproduction. Nous pouvons distinguer l’autocorrélation positive (graphique 1) et
l’autocorrélation négative (graphique 2).
L’autocorrélation des erreurs peut être observée pour plusieurs raisons:

- Absence d’une variable explicative importante


- Mauvaise spécification du modèle: les relations entre la variable à expliquer et les variables
explicatives ne sont pas linéaires et s’expriment sous une autre forme que celle du modèle
estimée (logarithme…)
- Une interpolation des données ou un lissage par moyenne crée une autocorrélation
artificielle des erreurs due à l’usage de ces deux opérations.
L’autocorrélation des erreurs se rencontre :

 Dans les modèles en série temporelle où l’influence d’une période sur l’autre est plausible.
 Dans le cas de modèle spécifie en coup instantané si les observations ont été préalablement
tirées (en fonction croissantes ou décroissante) de la variable à expliquer. (RARE)
Détection ne peut s’effectuer qu’à partir de l’analyse des résidus :

- Examen visuel des résidus :


Les résidus sont pendant plusieurs périodes consécutives soit positifs, soit négatifs : autocorrélation
positive (graphique 1). Les résidus sont alternés : autocorrélation négative (graphique 2).

- Test de Durbin et Watson (1950) :


Le test de DW permet de détecter une autocorrélation d’ordre 1.
Conséquence de l’héteroscédasticité :
(Sont identiques à celles de l’autocorrélation des erreurs).

- Estimation sans biais ;


- Estimateur de MCO n’est plus à variance minimale.
Causes de l’héteroscédasticité :

 Lorsque les observations représentent des moyennes calculées sur des échantillons de taille
différente ;
 La répétition d’une même valeur de la variable à expliquer pour des valeurs différentes d’une
variable explicative ;
 Lorsque les erreurs sont liées aux valeurs prises par une variable explicative dans un modèle
en coupe instantanée la variance de la consommation croit par exemple avec le revenu
disponible etc.
CONCEPTS :
On sait que :

Ʃ(Ŷ − Ῡ)² 𝑅²
𝐹= 𝐾 = 𝐾
Ʃ𝑒² (1 − 𝑅 2 )
𝑁−𝐾−1 𝑁−𝐾−1
Application :
On a :

𝑌𝑡 = 32.89 + 0.80𝑋1𝑡 + 0.38𝑋2𝑡 − 0.03𝑋3𝑡 + 𝑒𝑡


(11.66) (0.29) (0.15) (0.05)

R² = 0.702

N= 14

(.)= écart type


1- Les variables exogènes sont-elles pertinente ?
2- L’ajout des variables 𝑋2𝑡 et 𝑋3𝑡 améliore-t-il significativement la qualité de l’estimation par
rapport à 𝑋1𝑡 seul ?

B- Détermination des paramètres :


L’équation du MRM s’écrit sous la forme matricielle suivant: 𝒀 = 𝒂. 𝒙 + 𝑼

Avec : la matrice de dimension (n,p) des variables exogènes qui expliquent la variable endogène
𝑋(𝑛, 𝑝) = (𝑋1𝑡 , 𝑋2𝑡 , … , 𝑋𝑝−𝑢 , E) pour t variant de 1 à n.

â = (𝑋 ′ 𝑋)⁻¹.X’Y

Avec X’ la transposée de la matrice X.

â est la matrice des vecteurs des estimateurs de a.


Propriété de â :

𝐸(â) = 𝑎: â 𝑒𝑠𝑡 𝑢𝑛 𝑒𝑠𝑡𝑖𝑚𝑎𝑡𝑒𝑢𝑟 𝑑𝑎𝑛𝑠 𝑏𝑖𝑎𝑖𝑠 𝑑𝑒 𝑎.

𝑉(â) = 𝐸[(â − 𝑎)(â − 𝑎)′] = 𝛿𝑢²(𝑋 ′ 𝑋)⁻¹


A est BLEU : meilleur estimateur parmi les estimateurs linéaires de a.â est efficace dans la classe des
estimateurs de a sans biais en Y.

C- Test dans le MRM :


Le coefficient de détermination R².

Ʃ(𝑌𝑡 − Ῡ)2 − Ʃ(𝑌𝑡 − 𝑋𝑡 â)2 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑟é𝑠𝑖𝑑𝑢𝑒𝑙𝑙𝑒 Ʃ𝑒²


𝑅2 = 2
= =1−
Ʃ(𝑌𝑡 − Ῡ) 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑡𝑜𝑡𝑎𝑙𝑒 Ʃ(𝑌𝑡 − Ῡ)2
Le test de Fisher : F

*H0  a=0

*H1  a≠0

Hypothèse de nullité qui stipule que le modèle n’est pas pertinent.

𝑅²
ŷ′ŷ 𝑛 − 𝑝 𝐾
𝐹= 𝑥 =
𝑝 û′û (1 − 𝑅 2 )
𝑁−𝑝
Lorsque le F calculé est supérieur au F théorique obtenu à partir de la table par l’intersection entre
(n-p) et (p-1), l’hypothèse HO est rejeté.

Interprétation :

Fc>Ft : au moins une variable est pertinente pour expliquer la variable endogène.

Le test de student : T

*H0  a=0

*H1  a≠0

Hypothèse de nullité qui stipule que le modèle n’est pas pertinent.


« Le test de student mesure la significativité de chaque composante du vecteur a. il permet
d’apprécier la portée explicative de chaque variable exogène retenue ».

Méthode d’approximation :
â
𝑇= | |
𝛿
Méthode de l’intervalle :

𝑃[−𝑡𝑎. 𝛿 < â < +𝑡𝑎. 𝛿] = 0.95

Interprétation :

Si â n’appartient pas l’intervalle, HO est rejetée puisqu’elle accorde 95% des chances que â soit
compris entre[−𝑡𝑎. 𝛿; +𝑡𝑎. 𝛿].

Le coefficient est donc statistiquement différent de zéro et selon l’échantillon pertinent pour
expliquer la variation de la variable endogène.

D- Variation des modèles :


Le test de Durbin et Watson DW (avec p est le nombre des coefficients du modèle).

 Le test de l’hypothèse H4 Cov (ei,ej) = 0


Ʃ(Ʃ𝑡−Ʃ𝑡−1)²
 La statistique de DW est donnée par 𝐷𝑊 = comprise entre 0 et 4.
Ʃ(Ʃ𝑡)²

Auto corrélation Doute Indépendance Doute Auto corrélation


positive négative
D1 et d2 sont des valeurs critiques tabulées obtenus par DW (n ;p-1).

Décision :

- Si d1<DW<d2 : Doute, on peut se prononcer sur l’existence d’une autocorrélation des


résidus.
- Si d2<DW<4-d2 : Indépendance entre les erreurs. Le modèle est correctement spécifié p=0.
- Si 4-d2<DW<4-d1 : Doute.
- Si 4-d1<DW<4 autocorrélation négative p<0.
Illustration : suite de l’exemple 1
On ajoute au modèle précédent une nouvelle variable relative à l’indice de pluviométrie estimé sur la
période 1970 à 2009.

Le modèle devient : Pblé = 19.44 Eng +0.43 Pluv – 30.47

Les écarts = types estimés des estimateurs sont respectivement 5.19 ; 0.15 et 6.87.

On donne R²=0.96 et DW=2.31.

Analyser ces résultats sur le plan économique et statistique.

 R²=0.96
La variation des variables exogènes explique 96% de la variabilité de la variable endogène, soit 2% de
plus après l’introduction d’une 2ème variable explicative dans le modèle. En d’autre terme, la variation
de la quantité d’engrais utilisée par an et l’indice de pluviométrie explique 96% de la variabilité du
niveau de production de blé, soit 2% de plus suite à la prise en considération de la variation de
l’indice de pluviométrie.

 Test de Fisher n=40 et p=3


Ho : â=0

H1 : â≠0

𝑅²
𝐹= 𝐾 = 444 > 𝐹 𝑡ℎé𝑜𝑟𝑖𝑞𝑢𝑒
(1 − 𝑅 2 )
𝑁−𝑝
(37,2)  rejet de Ho : le modèle est globalement significatif

 Test de student T=â/δ


Pour la variable engrais : T= 19.44/5.19=3.74>2

Rejet de Ho, â1 est donc différent de 0 et la quantité d’engrais utilisée annuellement est explicative
du niveau de production de blé.

Pour la variable pluviométrie : T=0.43/0.15=2.86>2

Rejet de Ho, â2 est donc différent de 0, par conséquent ; l’indice de pluviométrie est pertinent pour
expliquer la variabilité du niveau de production de blé.

 Test de Durbin et Wetson DW=2.31


DW (p-1, n) DW (2.4)  d1=1.39 et d2= 1.6.

Auto corrélation Doute Indépendance Doute Auto corrélation


positive négative

D2<DW<4-d2 : Indépendance. Il n’y a pas d’autocorrélation entre les résidus.

Analyse par les modèles : la régression multiple


Le modèle linéaire à trois variables :

𝑦𝑖 = 𝑏0 + 𝑏1 𝑋1 + 𝑏2 𝑋2 + 𝑈𝑖
(Ʃ𝑥1 𝑦)(Ʃ𝑥22 ) − (Ʃ𝑥1 𝑦)(Ʃ𝑥1 , 𝑥2 )
𝑏1 ^ =
(Ʃ𝑥12 )(Ʃ𝑥22 ) − (Ʃ𝑥1 , 𝑥2 )²

(Ʃ𝑥2 𝑦)(Ʃ𝑥12 ) − (Ʃ𝑥1 𝑦)(Ʃ𝑥1 , 𝑥2 )


𝑏2 ^ =
(Ʃ𝑥12 )(Ʃ𝑥22 ) − (Ʃ𝑥1 , 𝑥2 )²

D’où :
L’estimateur b^1 mesure la variation unitaire de 𝑥1 lorsque il reste constant. L’estimateur b^2 se
définit de manière analogue. Les estimateurs b^1 et b^2 peuvent donc être appelés coefficients
partiels de régression𝑏0 ,𝑏1 𝑏2 sont des estimateurs BLEU.

Exercice 1 :

Il concerne 15 pays développés en 1981 et donne pour chacun le revenu réel par tête, Y en milieu de
dollars US avec le pourcentage X1 de la force de travail employé dans l’agriculture et la durée
moyenne de la scolarité X2 (en années) pour la population au-dessus de 25 ans.

a- Etablir l’équation de régression MCO de Y par rapport à 𝑥1 et𝑥2 .

Tableau : revenu par tête, population active dans l’agriculture durée de scolarité.

n Y 𝑥1 𝑥2 Y-Ῡ 𝑥1 𝑦 𝑥2 y 𝑥1 𝑥2 𝑥1 ² 𝑥2 ²

1 6 9 8 -3 2 -4 -6 12 -8 4 16
2 8 10 3 -1 3 1 -3 -1 3 9 1
3 8 8 11 -1 1 -1 -1 1 -1 1 1
4 7 7 10 -2 0 -2 0 4 0 0 4
5 7 10 12 -2 3 0 -6 0 0 9 0
6 12 4 16 3 -3 4 -9 12 -12 9 16
7 9 5 10 0 -2 -2 0 0 0 4 4
8 8 5 10 -1 -2 -2 2 2 2 4 4
9 9 6 12 0 -1 0 0 0 0 1 0
10 10 8 14 1 1 2 1 2 2 1 4
11 10 7 12 1 0 0 0 0 0 0 0
12 11 4 16 2 -3 4 -6 8 8 9 16
13 9 9 14 0 2 2 0 0 4 4 4
14 10 5 10 1 -2 -2 -2 -2 4 4 4
15 11 8 12 2 1 0 2 0 0 1 0
total 0 105 180 0 0 0 -28 38 -12 60 74

Il vient donc :

(Ʃ𝑥1 𝑦)(Ʃ𝑥22 ) − (Ʃ𝑥1 𝑦)(Ʃ𝑥1 , 𝑥2 ) (−28 ∗ 74) − (38 ∗ −12) −2072 + 456
𝑏1 ^ = = = = 0.38
(Ʃ𝑥12 )(Ʃ𝑥22 ) − (Ʃ𝑥1 , 𝑥2 )² (60 ∗ 74) − (−12)² 4440 − 144

(Ʃ𝑥2 𝑦)(Ʃ𝑥12 ) − (Ʃ𝑥1 𝑦)(Ʃ𝑥1 , 𝑥2 ) (38 ∗ 60) − (−28 ∗ −12) 2280 − 336
𝑏2 ^ = = = = 0.45
(Ʃ𝑥12 )(Ʃ𝑥22 ) − (Ʃ𝑥1 , 𝑥2 )² (60 ∗ 74) − (−12)² 4440 − 144

𝑏2 ^ = 9 − (−0.38 ∗ 7) − (0.45 ∗ 12) = 9 + 2.66 − 5.4 = 6.26


Par conséquent, la régression recherchée a pour équation :

𝑌𝑖 = 6.26 − 0.38𝑋1𝑖 + 0.45𝑋2𝑖


Exercice 2 :

Un économiste spécialisé en économie du travail s’intéresse à la réalisation liant la rémunération et


la durée des études (théorie du capital humain). Pour ce faire, il dispose d’un échantillon de 40
hommes et 25 femmes ayant le même âge dont il relève la rémunération annuelle (𝑌𝑖 ) exprimé en
milliers de Francs, et le nombre d’années d’études(𝑋𝑖 ).
Les estimations économétriques conduisent aux résultats suivants :

Pour les hommes :

𝑌𝑖 = 112.80 + 1.8𝑋𝑖 + 𝑒𝑖 ; 𝑖 = 1, … ,40; 𝑛𝑖 = 40


(9.3) (5.2)

(.)= ratio de student

R² = 0.42

Pour les femmes :

𝑌𝑖 = 87.20 + 0.7𝑋𝑖 + 𝑒𝑖 ; 𝑖 = 1, … ,25; 𝑛𝑖 = 25


(12.8) (2.5)

(.)= ratio de student

R² = 0.22

1- L’influence de la durée des études sur la rémunération vous semble-t-il significative ?


2- Existe-t-il une différence significative entre la rémunération des hommes et femmes ?

Solution :

1- Pour répondre à la première question, nous pouvons analyser soit les rations de student, soit le
coefficient de détermination.

Le ratio de student empirique de la variable « année d’études » est égale à

Pour les hommes :

Pour les femmes :

Comme le test de student respectivement pour les hommes et pour les femmes est largement
supérieur à 2, on peut conclure que la durée des études influence significativement la rémunération.
Par conséquent xf est une variable pertinente.

2- Pour les hommes, on remarque qu’une augmentation d’une année de scolarité permet selon
l’équation une augmentation des revenus de 1,8. Par ailleurs, pour les femmes une
augmentation d’une année de scolarité permet seulement une augmentation de revenu de
même nombre d’année d’étude permet à ce que le revenu des hommes augmente 2 fois plus à
celui que des femmes.

Exercice 3 :
Nous reprenons le modèle de consommations revenu :

𝑌𝑡 = 1176.08 + 0.78𝑋1 + 𝑒𝑡
(0.21) (14.7)

N= 10

(.)= ratio de student

1- Calculer le coefficient de détermination et effectuer le Test de Fisher permettant de


déterminer si la régression est globalement significative.
2- Qu’elle est la conséquence sur la consommation de l’augmentation du revenu de 8%

Question 1 :

Pour calculer le coefficient de détermination nous nous référons à la relation :

𝑅² 𝑟²
𝐹= 2 = = (𝑡 ∗)2 = 14.7²
(1 − 𝑅 ) 1 − 𝑟²
𝑁−2 𝑛−2
Soit r²=0.96, nous pouvons alors calculer le Fisher empirique :

La variable explicative est significative.

𝐹 = 𝑡 2 = 216.1 = (14.7)2
𝑅²(𝑛 − 2)
= 216.1
1 − 𝑅²
216.1
8𝑅2 = 216.1 − 216.1𝑅2 → 𝑅 2 (8 + 216.1) = 216.1 → 𝑅 2 = = 0.96 = 96%
224.1
Question 2 :

Augmentation de 8% du revenu.

Nous avons :

∆𝑌1 = â1 ∆𝑥1 𝑠𝑜𝑖𝑡


∆𝑌𝑡 = 0.78 ∗ ∆𝑥1 = 0.78 ∗ 0.08 = 0.0624
La consommation augmente de 6.24% soit un peu moins que le revenu.

Les prévisions sont calculées pour l’utilisation du modèle estimé.

Vous aimerez peut-être aussi