Vous êtes sur la page 1sur 52

2015 / 2016

Economtrie
Linaire
applique
Avec exemples pratiques

SOUSSI NOUFAIL OUTMANE


FSJES AGDAL

Economtrie linaire applique


Universit Mohammed V Rabat
FSJES Adal
Cycle Master
Filire ----

Anne 2015-2016

Semestre : Economtrie linaire applique


Pratique de lconomtrie travers des exemples
Mr. Soussi Noufail Outmane

Plan du cours :
1.
2.
3.
4.
5.
6.

Economtrie : Origine(s), dfinition(s) et objectif(s)


Dmarche conomtrique
Analyse de rgression simple
Analyse de rgression multiple
Types de donnes
Remise en cause des hypothses de base du modle linaire

Travaux dirigs
1. Gnralits : commentaires des relations conomiques et passage aux relations
conomtriques
2. Exercices : srie 4, srie 5

Bibliographie :
1.
2.
3.
4.
5.

Rgis BOURBONNAIS, Economtrie Manuel et exercices corrigs , Dunod, 1998.


Y.Dodge, V.Rousson, Analyse de rgression applique, Dunod, 2004.
M. Tenenhaus, Statistique : Mthodes pour dcrire, expliquer et prvoir , Dunod,
Ren GIRAUD, Nicole CHAIX, Economtrie, PUF, 1994.
Jack JOHNSTON, John DINARDO, Mthodes conomtriques , Economica, 1997.

Economtrie linaire applique

Economtrie : Origine(s), dfinition(s) et objectif(s)


Utilit
Lconomtrie est le principal outil danalyse quantitative utilis par les conomistes et gestionnaires
dans divers domaines dapplication. Comme la macroconomie, la finance ou le marketing. Les
mthodes dconomtrie permettent de vrifier lexistence de certaines relations entre des
phnomnes conomiques, et de mesurer correctement ces relations, sur la base dobservations et
de fais rels.
Quelques dfinitions
Dfinition 1. Etudes des relations quantitatives de la vie conomique faisant appel lanalyse
statistique et la formulation mathmatique.
Dfinition 2. L'conomtrie exprime quantitativement les corrlations pouvant exister entre des
phnomnes conomiques dont la thorie affirme l'existence. La thorie conomique fournit des
ides sur les processus qui dterminent les grandeurs conomiques, l'conomtrie apporte une
vrification empirique et tablit quantitativement les corrlations qui apparaissent valides.
Dfinition 3. Lobjectif de lconomtrie est de confronter un modle conomique un ensemble de
donnes (donnes de panel, srie temporelle, etc.) et ainsi den vrifier la validit.
Dfinition 4. Lconomtrie est une branche de lconomie qui traite de lestimation pratique des
relations conomiques.
Economtrie : Carrefour de 3 disciplines
Economiste (Expert du domaine)
Exprime une thorie sur un phnomne conomique
Ex. La demande dpend du prix

Mathmaticien (Modlisation)
Propose une formulation algbrique de la
thorie
Ex. = +

Statisticien (Estimation)
Estime les paramtres du modle partir de
donnes : Validation statistique
Ex. = 0.5 ; = 10

Sous le contrle de lEconomiste


Validation de lExpert du domaine (ex. est forcment ngatif)

Economtrie linaire applique


Notions Cls : Modle conomique
Un modle consiste en une prsentation formalise dun phnomne des ides sous forme
dquations mathmatiques.
Le raisonnement sur le modle nous permet dexplorer les consquences logiques des hypothses
retenues, de les confronter avec les rsultats de lexprience, darriver ainsi mieux connaitre la
ralit, et agir plus efficacement sur elle.
Comme toutes les variables conomiques sont interdpendantes (notion de systme), il n'est pas
suffisant de construire des quations isoles : il faut tablir un systme complet d'quations.
Exemple :
Depuis les premiers conomistes classiques, ont sait que, sur un march concurrentiel, lquilibre des
changes stablie grce un arbitrage entre lensemble des offres et des demandes. Toutes les
ventes dun mme produit se concluent au mme prix. Soient D et O les quantits demandes et
offertes dn certain produit, un certain jour, sur un certain march. Soit p le prix auquel seffectuent
les changes. Les quantits O et D dpendent des , car les changistes peuvent dcider de ne pas
acheter ou de ne pas vendre si le prix ne leur donne pas satisfaction. Pour exprimer ce faite, on dit
quil existe deux fonctions, = () fonction de demande, et = () fonction de loffre, qui
dterminent respectivement les quantits et partir des . Ceci convient dire quune fois les
prix du produit sont connus, les quantits et le sont. Pour quil y ait quilibre sur le march il faut
que = . Formellement on a :
= ()
= ()
= +

=+
= +

Equations de comportement

Thorie conomique

Identit
Modlisation
(Introduction dhypothses
simplificatrices sur la forme de la relation)

Estimation de , , partir des donnes disponibles

Limites de cette relation : existence dautres variables exognes au modle tels que le revenu, le prix
du bien de substitution, etc.
Les formulations prcdentes supposent un ajustement instantan de loffre et la demande aux
variations du prix, puisque le temps nintervient pas explicitement. Dans certains cas, cette
simplification ne sera pas admissible. Ainsi loffre de nombreux denres agricoles dpend peu de prix
auxquels elles se vendront, et beaucoup plus des prix observs au cours de lanne antrieure.
= ( )
= (1 )
= +

Economtrie linaire applique


Notions Cls : Modle conomtrique
Faire intervenir lalatoire dans lquation conomique.
Parce que la relation nest pas dterministe.
La spcification retenue est une simplification, il est vident quil ne rsume pas
toute la teneur de la relation (ex. dans les quations, la relation est vraiment
linaire ?)
Il y a dautres facteurs dont on ne tient pas compte (ex. le prix des autres de biens
qui peuvent se substituer au bien tudi).
Les erreurs de mesure sur les grandeurs tudies, soit lors du processus de
rcolte des informations, soit tout simplement parce que la donne rcolte
reprsente peu ou prou le concept que lon veut tudier.
Introduction du facteur alatoire
Rsum de toute linformation non prise en
compte dans le modle

= + +
= + +

Notions Cls : Variables


Les variables reprsentent des grandeurs conomiques observes ou mesures. Ex. les
quantits vendues dun bien, le prix dun bien, des taux dintrt, le solde dune balance
commerciale, le taux de change, etc.
La variable doit tre reprsentative du phnomne que lon tudie, de sa qualit dpend la
validit des rsultats obtenus

Problmes dur les


variables

Problmes dinadquation (tudier les ventes de pain, et utiliser


des donnes mesurant les ventes de biscottes)
Erreur de mesures (problmes lors du recueil des donnes ou des
transmissions des donnes), dunits (compter en nombre de pain
vendu, ou en chiffre daffaires)
Problme de reprsentativit (mesurer uniquement des ventes
des boulangeries, et ne pas tenir compte des ventes en grande
surface)

Notions Cls : Variables alatoire


Une variable alatoire est une grandeur mesurable dont les valeurs sont soumises une
certaine dispersion lors de la rptition dun processus donn.
La dispersion dune variable alatoire est rgie par une loi de probabilit.
Ex. le rsultat du jet dune pice de monnaie est une variable alatoire, il prend deux valeurs
possibles pile ou face, il suit une loi de Bernouilli de paramtre = 0.5.
Remarque : chaque phnomne tudi sa loi de probabilit.
Ex. Dure entre deux phnomnes, nombre doccurrence dun phnomne dans un laps de
temps, nombre dessais avant dobtenir un rsultat, etc.
4

Economtrie linaire applique


Notions cls - Types de variables
1. Quantitative
2. Qualitative nominale
3. Qualitative ordinale
Le critre le plus important pour distinguer les variables est de dterminer si lcart entre deux
valeurs a un sens, et quelles sont comparables deux a deux.
Ex. Age, Salaires, Satisfaction, Type dtudes suivies,
Notions cls Population et chantillon
La population dfinit lensemble dindividus sur lesquels nous voulons travailler : on parle
alors de population de rfrence ou de population parente ou population mre (ex. les
vhicules vendus au Maroc en 2005, etc.). Tous les rsultats obtenus sont toujours relatifs
(circonscrites ) une population.
Les enqutes exhaustives consistent observer tous les individus qui composent la
population. Opration trs coteuse.
On procde alors un chantillonnage, on prlve une fraction de la population en veillant
ce quil soit reprsentatif de la population cest--dire reflter la composition et la
complexit de la population.
Le taux de sondage correspond au rapport entre la taille de lchantillon et la taille de la
population.
Attention au mauvais chantillonnage.
Comment sassurer que lchantillon est reprsentatif ?
Rle des variables de contrle.
Notions cls Infrence statistique
Infrence statistique. Elle consiste alors effectuer des tudes sur lchantillon et transposer
les rsultats sur la population.
Cette transposition nest pas stricte, elle attache toujours une probabilit aux rsultats et aux
conclusions mises.
Tirer des conclusions sur lexistence ou non dun phnomne (test
dhypothses - ex. laugmentation du prix du tabac rduit-t-il vraiment la
consommation de cigarettes ?).
Estimer les paramtres dun phnomne (estimation de paramtres ex.
une augmentation de 1 dirham du prix du paquet de cigarette rduit de
combien le nombre de paquets vendus?).

Economtrie linaire applique

Dmarche conomtrique
THEORIE

FORMALISATION DE LA THEORIE (MODELISATION)

CONFRONTATION DU MODELE AVEC LA REALITE


ESTIMATION ECONOMETRIQUE

THEORIE NON VALIDEE


THEORIE VALIDEE
RE SPECIFICATION DU MODELE
Attention : Distinguer ce qui relve de la simple rgularit statistique (artefact) de ce qui reprsente
une causalit conomique.
La thorie conomique (la connaissance du domaine) est un garde-fou indispensable.
Phases de llaboration dun projet conomtrique professionnel
Comprhension du
la problmatique

Connaissance des
donnes

Dtermination
des objectifs
Background
Objectifs
Critres

Collecte des
donnes
Donnes initial
Rapport

Evaluer la
situation
Risc

Donnes
descriptives
Descriptif des
donnes
Rapport

Dterminer les
objectifs de
lexploration des
donnes
Data mining goals

Exploration des
donnes
Rapport

Produire le plan
du projet
Plan
Techniques
utiliser

Vrification de
la qualit des
donnes
Rapport

Prparation des
donnes

Modlisation

Slectionner les
donnes
Inclusion/exclusion

Slection de la
technique de
modlisation

Donnes claires
Rapport

Gnrer les tests

Construction des
donnes
Donnes intgre
Fusion

Construction du
modle
Paramtres
Modle
Description du
modle

Formes des
donnes
Description de
lensemble des
donnes

Evaluer le
modle
Evaluation du
modle
Rvision des
paramtres

Evaluation
Evaluer les
rsultats
Evaluation des
donnes

Dploiement
Plan du
dploiement
Production du
rapport final

Approuver le
modle
Examen du
Processus dexamen
projet
Exprience
Dtermination des documentation
tapes suivantes
Liste des actions
futures possibles

Economtrie linaire applique

Modle de rgression simple


Ce chapitre est consacr au traitement du modle le plus simple de tous ceux que lon puisse
rencontrer : cest un modle simple une seule quation comportant exactement deux variables ;
une variable endogne unique dpend linairement dune variable exogne unique et les
paramtres a et b sont deux paramtres rels inconnus estimer.
Variable explicative

Variable Endogne

= +
(1.1)
Comme il est douteux que tous les points appartiennent la droite correspondante, la relation
linaire exacte (1.1) doit tre modifie afin dinclure le terme stochastique1 (une perturbation
alatoire non observable) que nous dsignons par .
Terme dErreur
= + +
(1.2)
Lajustement par la mthode des moindres carres ordinaires, va apparaitre comme le procds
convenant lestimation des paramtres du modle.
Transformation simple permettant dtendre lusage du lajustement linaire
Sil existait une relation certaine entre consommation et revenu des mnages , et que cette
relation tait prcisment la mme pour tout le monde, on aurait pour chaque individu :
= 0 +
Dans ce cas, toutes les observations appartiendraient la mme droite, Il suffirait alors de connaitre
les observations pour 2 mnages seulement pour trouver les valeurs des paramtres 0 et . Ce
cadre de gure ne se rencontre jamais car la ralit est plus complexe. En effet, aucun mnage ou
presque ne vrifie exactement la fonction de consommation keynsienne : Certains mnages sont
plus dpensiers, Dautres mnages sont trs exposs au risque de chmage par exemple ils
cherchent consommer moins pour conomiser pour se constituer une pargne de prcaution. Pour
grer cette incertitude, on utilise une approche probabiliste en introduisant une variable alatoire :
Le modle conomtrique que lon considrera est alors le suivant :
= 0 + +
Bien entendu, on peut sintresser dautres modles, par exemple, lestimation dune fonction de
production Cobb-Douglass, o la production (variable endogne) dpend des facteurs de
production, le capital et le travail , ainsi que le temps :
= 1
On remarque que ce modle nest pas linaire tel que, mais on peut le rendre linaire (dans les
variables) si on prend le logarithme de cette quation. En effet, on obtient :
= + + (1 ) +
O on note en minuscule le logarithme des variables ( = (), = (), et des paramtres ( =
(), = ()). Le modle conomtrique estimer est dit modle de rgression multiple, car il
comporte plusieurs variables explicatives (capital, emploi, temps) au phnomne tudi (production
de lentreprise). Si nous disposons dobservations dans le temps pour les variables, le modle est
donn par :
= ( + ) + + (1 ) +
1

est un terme alatoire non observable appel : terme derreur, terme alatoire ou perturbation alatoire

Economtrie linaire applique


Hypothses dapplication du modle :
Nous supposons le modle soumis aux conditions suivantes :
1. Le modle est linaire en .
2. Les variables et sont observer sans erreurs ; la variable est certaine : elle prend des
valeurs fixes dans lchantillon rpts, de sorte que et ne sont pas corrls ;
3. Le terme derreurs est de moyenne (ou desprance mathmatique) nulle (hypothse
fondamentale) ;
4. Il suit une loi de distribution normale (hypothse de normalit) ;
5. Sa variance est constante (hypothse dhomoscdasticit) ;
6. Il ny pas de corrlation entre les termes derreurs (hypothse dindpendance des divers
observations)2.
Exemple :
Pendant dix ans, de 2001 2010, une ferme a expriment le rendement du Mas ( en Tonnes par
hectare) associ ladministration dune quantit croissante dun fertilisant ( en litres par hectare).
Le tableau (1.1) rassemble ces donnes qui sont galement rapportes sur le diagramme de
dispersion de la figure (1.1). La relation existante entre et apparait approximativement linaire,
les points (, ) se trouvent placs sur une ligne droit ou son voisinage immdiat.
Tableau (1.1) : production du Mas et emploi du fertilisant

2001

40

2002
2003

2
3

44
46

10
12

2004

48

14

2005

52

16

2006

58

18

2007

60

22

2008

68

24

2009

74

26

2010

10

80

32

10

570

180

Figure (1.1): Rendement du Fertlisant


100
Mas (tonnes par hectare)

Annes

80
60
40
20
0
0

10

20

30

40

Fertilisant (Litres par hectare)

Ajustement par la mthode des moindres carres ordinaires


La mthode des moindres carres ordinaire est un procd qui permet dajuster la meilleure
droite sur les donnes dobservation constituant un chantillon. Si nous considrons les
distances verticales (carts verticaux) des points par rapport la droite dajustement, cela
implique de minimiser la somme des carres des carts :
( )
(1.3)

O dsigne une observation effective et la valeur correspondante ajuste, de sorte que


= , le rsidu3 (cart rsiduel observ).

Ces hypothses sinscrivent respectivement : (2) ( ) = 0 ; (4) ( 2 ) = 2 , (pour tout i) ; (5) ( , ) = 0


pour = .
2

Economtrie linaire applique


Lquation (1.3) implique que lon minimise la somme des carts (des rsidus) quadratiques. On
dduit des quations normales les valeurs des paramtres et .
=

=
Lquation de rgression par la mthode des MCO est alors :

(1.4)
(1.5)

= +

Encadr 1 : calcul algbrique des paramtres a et b.


2

( ) = ( ( )) = ( )2 =
,

La solution du systme est donne par les conditions du premier et de deuxime ordre :

= 2 ( ) = 0

= 2 ( ) = 0

Nous avons partir des quations normales 1 et 2 :


A partir de lquation 1 on a :

Les quations
normales

( ) = 0
= +
Et partir de lquation 2, on a :
( ) = 0
= +
=

Do on peut crire
En remplaant la valeur de dans :

= +
= +
= + ( )
= ( )


On vrifie galement les conditions de deuxime ordre :

> 0 | | > 0

Strictement parler, dans les modle conomiques, les rsidus peuvent tre calculs ( est la diffrence entre
le terme calcul et le terme observ), tandis que les erreurs ( ) ne sont pas observables, donc inconnues
appeles simplement alas.

Economtrie linaire applique


Exemple : Le tableau (1.2) runit les rsultats des calculs en vue destimer lquation de rgression
correspondante :
Annes



2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
Sommes
Moyennes

1
2
3
4
5
6
7
8
9
10
10

40
44
46
48
52
58
60
68
74
80
570
57

6
10
12
14
16
18
22
24
26
32
180
18

240
440
552
672
832
1044
1320
1632
1924
2560
11216

36
100
144
196
256
324
484
576
676
1024
3816

Nous pouvons donc dduire les valeurs des paramtres du modle partir des relations (1.4) et (1.5).
=

1121610 1857
956
= 976
38161018

= = 57 1.65972 18 =

1,6597

la pente estime de la droite de rgression

Lordonne lorigine

27.125

= +

Il en rsulte :

= , + ,
Figure (1.2): Rendement du Fertlisant

Equation estime de la
droite de rgression

90
Mas (tonnes par hectare)

80
70
y = 1,6597x + 27,125

60

Par consquent si :

( , )

50

40
30

= 0, alors = 27.125 =

Et lorsque = 18 = , alors
= (1,6597 18) + 27,125 = 57 =

20
10
0
0

10

20

30

40

Fertilisant (Litres par hectare)

Il en rsulte que la droite de rgression


passe par le point ( , ).

Autres relations pour calculer du paramtre de la rgression linaire


=

Avec


( ) ( )( )) (, )
=
=
=

( )
( )
()

(, ) =

( )( ))

et

() =

10

( )

Economtrie linaire applique


Proprits des estimations des moindres carrs
dfaut de connatre la vraie droite, on retient la droite des moindres carrs, les valeurs : et ,
calcules comme prcdemment par la mthode MCO, ne sont plus simplement les coefficients
d'une droite gomtriquement satisfaisante, mais des estimations statistiques des coefficients : et
, du modle thorique de base.
Attention : La relation = + est l'quation estime. Tandis que chaque relation =
+ + ( ne pas confondre avec la relation vraie du paragraphe prcdent)
fournit le rsidu correspondant.
Les proprits des estimateurs des moindres carrs,
dpendent des caractristiques de l'ala
On suppose les hypothses de la mthode de MCO: la normalit, lindpendance et lefficacit. Et
sous ces conditions nous avons les proprits suivantes des estimateurs:
1. Les rsidus calculs: , approchent les erreurs inconnus: , et la quantit

2
lie la somme des carrs des rsidus, est une bonne estimation de l'cart-type: , de l'ala.
Elle est appele: cart-type rsiduel ;
2. Les estimateurs : et , sont les meilleurs possibles (en un sens mathmatique qu'on ne
prcisera pas davantage pour l'instant);
3. Les estimateurs : et , suivent des lois normales : ((), ) et ((), ), dont les
esprances de et , sont les quantits estimes ; ces estimateurs sont sans biais ;
4. Les carts-types : et , des estimateurs : et , peuvent galement tre estims.
Pour une prcision minimale des estimations, on demande gnralement que le nombre : ,
d'observations utilises approche au moins la quinzaine.
Thorme : Sous les hypothses prcdentes de H1 H5, les estimateurs et de la mthode des
MCO, sont linaires, sans biais, convergents et efficaces. (En anglais : BLUE: Best Linear Unbiased
Estimator.)
Encadr 2 : Les estimateurs et sont, sans biais (calcul algbrique )
a) Dmontrons que est sans biais (cest--dire () = )
=
Avec :

( )( ))
=
( )

= ( )

Donc :
= = ( + + ) = + +

11

Economtrie linaire applique


Et puisque : = 1

= 0

Donc : () = + ( )

alors = +

et puisque ( ) = 0

donc () =

b) Dmontrons que est sans biais (cest--dire () = )


= = +

= + + = + +

Or :

= = + + = ( ) +

Donc :

() = ( ) + () =

donc () =

Tests de signification de coefficients pour les estimations (Test de Student)


Si nous voulons tester la signification statistique des estimations des paramtres dans la rgression
nous devons dterminer les variances de et . (Pour les dmonstrations voir le cours)
Les tests de signification des estimateurs se font travers un test dhypothse sur et en
utilisant la distribution de Student, avec degrs de libert, afin de construire les
intervalles de confiances correspondants.
Pour raliser ces tests, nous devons tudier les paramtres des estimateurs savoir leurs
variances : () () et leurs esprances mathmatiques : () ().
Il s'agit de tester si, pour un niveau de confiance donn (en gnral 95%), l'intervalle de confiance
peut ou non contenir la valeur 0. En effet si la valeur vritable du coefficient peut tre 0, il n'est
mme pas certain que la variable explicative (ou le terme constant) intervienne rellement dans le
modle.
Sachant que pour un risque , l'intervalle de confiance pour est : [ ; + ]
Le test revient examiner si le rapport suivant dpasse ou non :
|| |Coefficient estim|
=
cart type estim
On fait en gnral ce test au risque = 5%, ce qui donne, en utilisant la valeur approche 0,05 1,96
=

|coefficient estim|
carttype estim

< 1.96

coefficient non significatif au risque 5% ;


Pour n = 30

|coefficient estim|
carttype estim

> 1.96

coefficient significatif au risque 5% ;

Ce test est gnralement appel test de Student, car, strictement, lorsque l'chantillon utilis est de
petite taille ( < 30), il conviendrait d'employer une loi de Student, voisine de la loi normale mais plus
disperse, pour tenir compte du fait que l'cart-type est lui-mme estim.
Lors d'une tude conomtrique, le test de Student sur chacun des coefficients est beaucoup plus
important que l'examen du coefficient de corrlation.

12

Economtrie linaire applique


Un bon test de Student doit toutefois tre regard avec une certaine modestie, ce test suppose en
effet la pertinence du modle, mais il n'a pas vocation la confirmer; en fait, il sert essentiellement
mettre en doute ou carter les variables d'influence incertaine.
Donc nous avons (voir le cours) : outils ncessaires pour faire le calcul ( tant leffectif total)

() =

() =

= ()

= ()

() = (

() =

=
=

()()

Variance de tant Inconnue, nous


utilisant la variance rsiduelle appele
encore variance des erreurs, note
simplement ou


( )

Alors
= = =

Nombre de paramtres estim ici


pour la rgression simple (nous
disposant de deux paramtres)

Donc une estimation non biaise des variances de et est alors de la forme :

( )

(1.6)

( )

~
~
~

Exemple : Le tableau (1.3) qui est une extension du tableau (1.2) rassemble des calculs ncessaires
pour tester la signification statistique de et .

2001
2002

1
2

40
44

6
10


240
440


36
100

37,08
43,72

2,92
0,28


8,51
0,08

)
(
144
64

2003
2004

3
4

46
48

12
14

552
672

144
196

47,04
50,36

-1,04
-2,36

1,09
5,57

36
16

2005
2006

5
6

52
58

16
18

832
1044

256
324

53,68
57,00

-1,68
1,00

2,82
1,00

4
0

2007
2008

7
8

60
68

22
24

1320
1632

484
576

63,64
66,96

-3,64
1,04

13,24
1,09

16
36

2009
2010

9
10

74
80

26
32

1924
2560

676
1024

70,28
80,24

3,72
-0,24

13,85
0,06

64
196

Sommes
Moyennes

10

570
57

180
18

11216

3816

47,31

576

Annes

13

Economtrie linaire applique

Il en rsulte que pour tester la signification des paramtres et partir de lquation estime :
= , + ,
Le calcul du test dhypothse suivant se
( ) ?

( ) ?

ralise en calculant

||

De dterminer (colonne 7), et par consquent le calcul des erreurs || (voir le cours du test

Seffectue = ( ) (colonne 8).
dhypothse)
Et partir des relations (1.6) :

1
47,31
1
=

= 0,01
( ) 10 2 567
= 0,01 0,1

Donc

De la mme manire,


47,31
3816
=

= 3,92 Donc = 3,92 1, 98


( ) 10 2 10 567
Par consquent,
|| |1,659 |
=
=
16,6

0,1
|| |27,125|
=
=
13,7

1,98
Comme et dpassent tous deux = 2,306 avec = 8 degrs de libert au seuil de
signification de 5% (daprs la table de Student), nous concluons que et ensemble sont
statistiquement signifiants au seuil de 0,05.
Test defficacit dajustement et coefficient de corrlation
Plus les points reprsentatifs des observations sont proches de la droite de rgression (c'est--dire
plus les rsidus sont faible), plus importante est la variabilit de explique par lquation de
rgression estime. La variabilit totale de est donc gale la somme de variabilit explique et la
variabilit rsiduelle.
( )2 =
Variabilit Totale de
(somme totale des carts la
moyenne)

Somme des carres Totale

( )

Variabilit explique de
(somme des carres de la
rgression)

( )

(1.7)

Variabilit rsiduelle de
(somme des carres des
erreurs)

= Somme des carres explicatives + Somme des carres rsiduelle

On peut encore crire :



+

Si le coefficient de dtermination, , dsigne la proportion de la variabilit totale de explique par
la rgression de par rapport , il vient :
1=

14

Economtrie linaire applique

=1

Ce qui peut sexprimer sous la forme :


=

( )

=1
( )
( )

La valeur de stablit entre 0 (lquation de rgression estime nexplique en rien la variabilit de


) et 1 (tous les points (, ) appartiennent la droite de rgression).
Le coefficient de corrlation , est alors tel que :
(yt y)
= =
(yt y)
Les valeurs de stablissent entre -1 (corrlation linaire ngative parfaite) et +1 (corrlation
linaire positive parfaite), mais ce coefficient nimplique ni causalit, ni dpendance entre les
variables. Avec des donnes qualitatives, on peut employer le coefficient de corrlation de rang (ou
dordre), appel le coefficient de Spearman, .
Exemple : le tableau (1.4) permet de calculer le coefficient de dtermination dans le cas du fertilisant
du mas en ajoutant les deux dernires colonnes:
Annes
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
Sommes
Moyennes

1
2
3
4
5
6
7
8
9
10
10

40
44
46
48
52
58
60
68
74
80
570
57

6
10
12
14
16
18
22
24
26
32
180
18


240
440
552
672
832
1044
1320
1632
1924
2560
11216


36
100
144
196
256
324
484
576
676
1024
3816

37,08
43,72
47,04
50,36
53,68
57,00
63,64
66,96
70,28
80,24

2,92
0,28
-1,04
-2,36
-1,68
1,00
-3,64
1,04
3,72
-0,24
0

)

(
8,51
144
0,08
64
1,09
36
5,57
16
2,82
4
1,00
0
13,24
16
1,09
36
13,85
64
0,06
196
47,31
576

47,31

)
(
289
169
121
81
25
1
9
121
289
529
1634

Nous avons :

t
R = 1 (y y
= 1 1634 = 1 0,029 0,971,
)

Et encore :

R = (yty) = 1634 0,971,

(y
y
)

1587

97,10%


)
(
397
176
99
44
11
0
44
99
176
540
1587

97,10%

3% reprsente la part
de la variabilit rsiduelle

Lquation de rgression explique donc environ 97% de la variabilit totale de la production du mas.
Les 3% restant peuvent tre attribus des facteurs inclus dans le terme derreur.
Ds lors :

= = 0,971 0,9854 = 98,54% ; est positif parce que lest.

Proprits des estimations par les moindres carres ordinaires


Les estimateurs MCO (mthode des moindres carres ordinaires) sont des estimateurs efficace dans
la classe des estimateurs linaires sans biais. On les dira encore estimateurs BLUE (de langlais
best linear unbiased estimators : meilleur estimateurs linaires sans biais). Labsence du biais signifie
15

Economtrie linaire applique


que lestimateur prsente une esprance mathmatique gale la valeur vrai (on dit aussi que
est centr) :
() =
De sorte que :
= () = 0
Un estimateur sans biais est efficace (ou optimal) si la variance est minimale. Les estimateurs MCO
sont donc les meilleurs de tous les estimateurs linaires sans biais. Ce rsultat est connu sous le non
de thorme de Gauss-Markov : il reprsente la justification la plus importante dont on dispose pour
lemploi du MCO.
Il peut arriver quun chercheur choisisse daccepter un lger biais afin dobtenir ventuellement une
variance plus faible : il cherchera alors minimiser lerreur quadratique moyenne :
() = ( )2 = () + ( )
Supposons une population infinie et un chantillon de plus en plus grand extrait de cette population :
la limite, lchantillon sera de taille infinie. Dans ce cas, lchantillon est dit convergent en
probabilit si sa valeur est gale la limite celle du paramtre vrai (lestimateur est
asymptotiquement centr) et si sa distribution se comprime sur le paramtre vrai.

16

Economtrie linaire applique


Rsum :

Le modle de rgression simple

Relation conomique

= +

Spcification conomtrique = + +

Hypothses

Ajustement linaire

= + +

Mthode des MCO


= a +

Recherche des paramtres

Proprits

Questions importantes :
1) Est-ce que lajustement est
bon dans sa globalit ?
2) Est-ce que les paramtres
sont significatifs ?

Rponse pour question 2 : Voir si ces paramtres sont robustes


||
||
Voir leurs significations (tests
=
=

dhypothses)
Problme qui se pose :

inconnue
(car est inconnue)

Solution : calcul de la variance


rsiduelle


= = =

Rponse pour question 1 : Tester la qualit de la rgression


Relations :
( )

=
=1
Solution :
( )
( )
0 1
(yt y)
1 1
= =
(yt y)
Si est proche de 1 : lajustement est bon
Si est proche de 1 : il y a une forte corrlation positive

17

Accepter si
leurs valeurs si
sont suprieurs
1.96.

Maintenant on
peut calculer :
et partir
des calculs de

= (

et =

( )

Economtrie linaire applique


Exercices rsolus : Modle linaire
Exercice :
Dfinir les concepts suivant ainsi que leurs fonctions : (a) modle de la rgression simple, (b)
modle linaire de la rgression, (c) diagramme de dispersion, (d) terme derreur.
a) Le modle de la rgression simple est utilis pour tester des hypothses portant sur la
relation entre la variable indpendante, , et une variable indpendante ou explicative, , il
sert galement la prvision, dans les mme conditions. Il faut le distingu du modle de la
rgression multiple qui au lieu dune variable indpendante, en comporte deux ou
davantage, le chapitre suivant traitera ce problme.
b) Le modle linaire de la rgression suppose quil existe une relation linaire approche entre
et : autrement dit, lensemble des couple de valeurs et appartenant lchantillon
alatoire observ par les points ( , ) rpartis sur une droite ou au voisinage immdiat de
celle-ci. Il faut distinguer un tel modle des modles de rgression non linaire.
c) Un diagramme de dispersion est un graphe qui associe chaque couple dobservations
indpendantes et indpendantes un point dans un plan euclidien orthonorm . Il permet
dtablir au jug, par observation direct, sil existe une relation linaire approche entre la
variable indpendante et la variable indpendante ou explicative .
d) Le terme derreur (encore appel terme stochastique ou perturbation alatoire) mesure
lcart (dordinaire en projection verticale) entre chaque valeur observe Y et la valeur vraie
mais inobservable, donne par la courbe de rgression. Ces termes derreurs dsigne par
, interviennent parce que (1) de nombreuses variables explicatives dont les effets sont
faibles et irrguliers ne figurent pas dans lquation linaire exacte (1.1), (2) la mesure de
peut tre entache derreur, (3) le comportement humain introduit un lment de variabilit
intrinsque.
Exercice :
Formuler la relation gnrale entre la consommation, , et le revenu disponible, , (a) sous une
forme linaire exacte, (b) sous une forme alatoire, (c) pourquoi peut on sattendre ce que la plus
part des valeurs observes de ne donnent des points situs exactement en ligne droite.
a) La relation exacte, dterministe, entre les dpenses globales de consommation, Y, et le
revenu disponible global, X, peut tre crite sous la forme suivante :
= +
O, selon le type danalyse, dsigne une anne ou une unit conomique, a et b sont des
constantes inconnues appele paramtres. Le paramtre reprsente lordonne lorigine,

tandis que le paramtre mesure , c'est--dire, ici dans le contexte du problme, mesure
la propension marginale consommer (PMC). Pour obtenir la relation linaire
correspondante la relation linaire gnrale (1.1), il faut estimer les valeurs de et ; ces
valeurs estims scrivent et et se lisent chapeau, et chapeau.
b) On peut rendre alatoire la relation linaire exacte (1.1) en lui adjoignant un terme derreur
non observable :
= + +
c) Divers raison empchent la plupart des valeurs observes de dappartenir exactement
lensemble des ordonnes dune droite : (1) bien quon suppose que la consommation
18

Economtrie linaire applique


dpende avant tout du revenu disponible , de nombreuses autres variables -omises icipeuvent intervenir, qui nont sur quun effet faible ou irrgulier (par contre, si leffet de
certaines dentre elles tait significatif et rgulier, il faudrait les introduire dans la relation
entre et titre de variable explicatives supplmentaires, ce qui exigerait de recourir un
modle de rgression multiple. (2) des erreurs sont susceptibles de modifier la mesure de .
(3) le comportement humain a en lui-mme un aspect alatoire, de sorte quon observera
dordinaire, des circonstances identiques, diffrentes valeurs de pour une mme valeur de
.
Exercice :
Formuler les cinq hypothses sur lesquelles repose le modle classique de rgression linaire
simple et donner une explication intuitive de la signification et de la ncessit de chacune ?
1. Premire hypothse du modle classique de rgression linaire simple (modle MCO) : le
terme derreur suit une loi de distribution normale. En consquence, et la distribution
dchantillonnage des paramtres de la rgression suivent aussi une loi normale et il est
possible deffectuer des tests de signification sur les paramtres.
2. Seconde hypothse : le terme derreur est desprance mathmatique ou de moyenne
nulle :
( ) = 0
En raison de cette hypothse, lquation (1.1) fournit la valeur moyenne de . En effet, dans
la mesure o lon dispose que la valeur de dans lquation (1.1) varie au-del de sa
moyenne suivant que est plus grand ou plus petit de zro. Puisque la valeur moyenne de
est nulle par hypothse, lquation (1.1) donne bien la valeur moyenne de .
3. Troisime hypothse : La variance du terme derreur est constante chaque priode et pour
tous les valeurs de . autrement dit :
( ) =
Lhypothse signifie que chaque observation est galement sre (les variables sont observe
sans erreur) : il en rsulte que les estimateurs des paramtres de la rgression sont efficaces
et que les tests les concernant ne prsentent pas de biais.
On peut rsumer ces trois hypothses sur le terme derreur par lexpression :
~(0, 2 )
4. Quatrime hypothse : Les erreurs relatives deux observations diffrentes quelconques ou
deux priodes quelconques sont indpendantes entre elles. Autrement dit,
( , ) = 0 ; , = 1,2, . ,
La valeur moyenne de dpend donc seulement de et non de , do, une fois encore,
lefficacit des estimateurs des paramtres et labsence du biais dans les tests de
signification qui sy rattachent.
5. Cinquime hypothse : La variable explicative est une variable certaine. En dautres termes,
elle prend des valeurs fixes qui peuvent se retrouver en prenant lchantillonnage, de sorte
quelle est sans corrlation avec le terme derreur :
( , ) = 0
Cette dernire hypothse permet de simplifier lanalyse.

19

Economtrie linaire applique


Exercices rsolus : Ajustement par la mthode de moindre carre ordinaire

Exercice :
(a) En quel sens la mthode dite des moindres carres ordinaire (MCO), permet-elle destimer la
meilleure droite dajustement par un chantillon dobservation ? (b) Pourquoi choisir les carts
verticaux ? (c) Pourquoi ne pas prendre simplement la somme des carres sans les porter au
carr ? (d) Pourquoi ne pas prendre la somme des valeurs absolues des carts ?
a) Une droite ajuste les donnes (les observations de lchantillon ) au sens des moindres
carres lorsque, sur un graphe de dispersion, la somme des distances verticales entre les
points observs et la droite est minimale.
b) On utilise les carts verticaux parce quon sefforce dexpliquer ou de prdire les
changements de , lequel est mesur sur laxe vertical.
c) Si lon somme simplement les carts, deux carts de mme valeur absolue mais de signes
opposs sliminent, de sorte que la somme totale est nulle (voir dans le tableau (1.3)) :
la mthode serait inapplicable.
d) On pourrait viter la difficult prcdente en prenant la somme des valeurs absolues des
carts. On prfre toutefois dutiliser la somme des carts quadratique de manire
dfavoriser relativement les grands carts par rapport au petits (voir le thorme dit de
Gauss-Markov).
Exercice
) ? (b) quelle est la
,
(a) Quelle est la diffrence entre les deux couples de termes (, ) et (
diffrence entre et ? (c) Ecrire les quations exprimant les deux relations, vraie et estime,
entre et ? (d) Ecrire les deux quations des droites correspondantes aux deux rgressions,
vraie et estime, de par rapport ?
a) (, ) sont les paramtres de la rgression linaire vraie mais inconnue de par rapport
; (, ) sont les paramtres de la rgression linaire estime.
b) est le terme derreur ou terme alatoire dans la relations vraie mais inconnue de par
rapport ; le terme est le rsidu calculable, dfini par la diffrence entre chaque valeur
observe et la valeur ajuste qui lui correspond dans la relation estime entre et .
c) Les deux relations, vraie et estime, entre et , ont respectivement pour quation :
= + +
= + +
d) Les deux rgressions, vraie et estime, de Y par rapport X ont, quant elles,
respectivement pour quation :
( ) = +
= +
Exercice
Le tableau suivant trace la relation entre la consommation globale et le revenu disponible dans un
? (b) tracer la droite de rgression?
et
pays pendant douze annes. (a) dterminer la valeur de
en utilisant les valeurs centre de et ( =
et
,
(c) calculer les valeurs des paramtres
) ?
et =
20

Economtrie linaire applique


a) Le tableau suivant fournit les rsultats des calculs ncessaires pour dterminer et .

1
2
3
4
5
6
7
8
9
10
11
12

102
106
108
110
122
124
128
130
142
148
150
154
1524
127

114
118
126
130
136
140
148
156
160
164
170
178
1740
145


11628
12508
13608
14300
16592
17360
18944
20280
22720
24272
25500
27412
225124


12996
13924
15876
16900
18496
19600
21904
24336
25600
26896
28900
31684
257112

=
-25
-21
-19
-17
-5
-3
1
3
15
21
23
27

=
-31
-27
-19
-15
-9
-5
3
11
15
19
25
33


775
567
361
255
45
15
3
33
225
399
575
891
4144


961
729
361
225
81
25
9
121
225
361
625
1089
4812

Minimiser revient calculer : (voir les colonnes 4 et 5)


=

225124 (12 127 145)


=
0,86

257112 (12 1452 )
= = 127 0,86 145 = 2,13
= + = 0,87 + 2,13 = 2,13 + 0,87

Revenu disponible

b) Pour dfinir compltement la droite de rgression correspondant cette quation, il suffit


videment de disposer de deux points de cette droite : par exemple quand = 114, =
2,13 + (0,86 114) = 100,34 ; et quand = 178, = 2,13 + (0,86 178) = 155,38. La
droite de rgression pour la consommation est trace sur la figure ci-dessous, laquelle on
peut dire quelle reprsente le meilleur ajustement des observations constituant
lchantillon consommation revenu disponible.
200
150
100
50
0
0

50

100

150

200

Consommation globale

c) Calcul des valeurs des paramtres et partir des valeurs centre de et : les colonnes
6, 7, 8 et 9, fournissent les calculs ncessaires pour calculer les paramtres du modle.
4144
Une autre relation (1.8) de sur la base des
=
=
0,86
valeurs centre de et de (sera utilise

4812
dans la rgression multiple
= = 127 0.86 145 = 2,13
= + = 0,87 + 2,13 = 2,13 + 0,87
Exercice
?
On considre les rsultats le lexercice prcdent, (a) indiquer la signification de lestimateur
? (c) dterminer llasticit-revenu de la consommation ?
(b) celle de

21

Economtrie linaire applique


a) Lestimateur = 2,13 reprsente la valeur de la consommation globale, en millions de
dirhams, lorsque le revenu disponible est nul ; cest aussi lordonne lorigine de la droite
de rgression sur le graphique. Le fait que > 0 confirme les considrations thoriques.

b) Lestimateur = 0,86 donne la pente de la droite de rgression estime. Il mesure la


proportion marginale consommer, PMC, cest--dire la variation de la consommation pour
une variation unitaire du revenu disponible. Ici encore, le fait que 0 < < 1 corrobore les
anticipations thoriques.
c) Llasticit-revenu de la consommation, , mesure la variation relative de la consommation
rapporte la variation relative du revenu disponible qui la provoque. Comme llasticit
change dordinaire en chaque point (, ) de la courbe concerne, on dfinit une lasticit
moyenne :

145

Dans ce cas trait, et daprs les donnes du tableau prcdent : = = 0,86 127 = 0,98
On notera qu la diffrence de la pente, llasticit est mesure par un nombre pur,
indpendant des units utilises.

22

Economtrie linaire applique


Exercices rsolus : Tests de signification pour les paramtres estims
Exercice :
) ? (c) et ?
) et (
Dfinir (a) et ? (b) (

a) est la variance du terme derreur dans la relation vraie entre et . par contre =
=

est la variance rsiduelle et fournit une estimation sans biais de , lequel est

inconnu. tant le nombre de paramtres estims : = 2 dans le cas de la rgression


simple. Par consquent, = 2 appel nombre de degrs de libert.

b) () = ( ) tandis que


() = ( ) . il est ncessaire de connaitre les

variances de et (ou leurs estimations) pour tester les hypothses sur ces deux
paramtres et pour construire les intervalles de confiances correspondants.
c) =

1
)

et =

( ) sont les carts types respectifs de e

d) t , lesquelles sont connues puisque est connue.


= et = sont respectivement les carts types respectifs de et : on les
appelle erreurs standard ou erreur types.
Exercice
En reprend les observations consignes dans le tableau prcdent qui trace la relation entre la
consommation globale et le revenu disponible. Dterminer (a) , (b) et , (c) et ?
Le tableau suivant, extension du tableau prcdent, rassemble les rsultats des calculs ncessaires
pour dterminer . Les valeurs de y, viennent de lquation de rgression tablie prcdemment.

1
2
3
4
5
6
7
8
9
10
11
12

102
106
108
110
122
124
128
130
142
148
150
154
1524
127

114
118
126
130
136
140
148
156
160
164
170
178
1740
145


11628
12508
13608
14300
16592
17360
18944
20280
22720
24272
25500
27412
225124

100,30
103,75
110,64
114,08
119,25
122,69
129,58
136,47
139,92
143,36
148,53
155,42


12996
13924
15876
16900
18496
19600
21904
24336
25600
26896
28900
31684
257112

a)

= = =

b)

= ( ) =

115,27
122

1,70
2,25
-2,64
-4,08
2,75
1,31
-1,58
-6,47
2,08
4,64
1,47
-1,42
0,00


2,88
5,07
6,96
16,67
7,57
1,71
2,51
41,90
4,34
21,51
2,16
2,01
115,27

)
(
961
729
361
225
81
25
9
121
225
361
625
1089
4812

= 11,52752 11,53

257112

( ) = 11,53 124812 51,32

23

Economtrie linaire applique


= = 51,32 7.23

Par la suite :
c)

)2
i x

sa2 = (x

11,53
4812

0,0024

= = 0,0024 0,05
Exercice
Dans le cas du problme prcdent, tester au seuil de signification de 5% pour (a) et (b) ?
a)

||

||

|2,13|
7,23

0,29

Cette valeur de est daprs la table de Student, infrieur la valeur tabule = 2,228 au
seuil de 5% (test bilatral) et pour = 10 : il faut conclure que nest pas statistiquement
signifiant au seuil de 5% ; autrement dit, on ne peut rejeter lhypothse 0 suivant laquelle
=0
b)

||

= =

||

|0,86|
0,05

17,2

Par consquent, a est statistiquement signifiant au seuil de 5% (et aussi au seuil de 1%) : on
ne peut rejeter lhypothse H1 , suivant laquelle a 0.
Exercice
Dans le cas du mme problme, tablir les intervalles de confiances 95% pour (a) et (b) ?
a) Lintervalle de confiance 95%, dans le cas de b est donn par :
= 2,228 = 2,13 (2,228 7,23) = 2,13 16,10
Par consquent est compris entre -13,97 et 18,23 au seuil de confiance de 95%. La largeur
de cette intervalle, qui lui te tout intrt, reflte que na pas de signification statistique.
b)

= 2,228 = 0,86 (2,228 0,05) = 0,86 0,11


est donc compris entre 0,75 et 9,97 (0,75 < < 9,97) au seuil de confiance de 95%.

24

Economtrie linaire applique


Exercices rsolus : Test defficacit dajustement et coefficient de corrlation
Exercice :
(a) Dfinir le (b) que mesure le coefficient de corrlation ? (c) quel est son intervalle de
variation ? (d) quel rapport existe-t-il entre corrlation et rgression ?
a) Par dfinition le coefficient de dtermination, , est la proportion de la variabilit totale de
explique par la rgression de par rapport . est une grandeur sans dimension,
indpendante de toute unit, et 0 1 parce que 0 . = 0 lorsque, par
exemple, tous les points reprsentatifs de lchantillonnage se trouvent sur la droite
horizontale = . = 1 quant tous les points de lchantillon appartiennent la droite de
rgression estime, ce qui est appel un ajustement parfait.
b) Le coefficient de corrlation donne une mesure de la liaison entre deux variables ou
davantage. Dans le cas o lon envisage que deux variable, le coefficient de la corrlation
linaire simple qui peut exister entre elle, pour lensemble des observations dun chantillon,
scrit :

(y
y
)

= = (yty)
t

Lintervalle de variation de dtermine videment celui de 1 1. Que soit ngatif


est lindication que et varient dans le sens inverse : sagissant dune marchandise, tel est
le cas, par exemple, de la quantit demande et du prix. Par contre > 0 signifie que et
varient dans le mme sens, comme loffre et le prix dune marchandise. = 1 et = 1
dnotent une corrlation parfaite, soit positive, soit ngative : toutes les observations de
lchantillon sont reprsentes par des points aligns sur une mme droite, pente
reprsentativement positive ou ngative. Ces deux ventualits se rencontrent rarement.
Mais plus se rapproche de 1, plus forte est la liaison linaire positive ou ngative entre
et . on notera que le signe de est toujours celui de . Un coefficient de corrlation nul
indique quil nexiste entre et aucune relation linaire quelle quelle soit ; autrement dit,
et ont tendance varier de faon indpendante lun de lautre. Par exemple, si tous les
points reprsentatifs dun chantillon appartiennent exactement une circonfrence, il
existe entre et une relation non linaire parfaite et une relation linaire nulle de sorte
= 0.
Un modle de rgression suppose une dpendance causale entre la variable indpendante
et la variable dpendante . La corrlation, en revanche, nimplique aucune notion de
causalit ou de dpendance, mais concerne seulement le mode et la force de la liaison entre
deux variables. Ainsi, par exemple, et peuvent tre troitement corrls par leffet dune
troisime variable qui agit sparment et fortement sur chacun deux. Au regard de la
rgression, la corrlation noffre donc quun instrument danalyse sensiblement moins
puisant.
Exercice :
On considre lquation de la rgression estime dans lexercice prcdent propos de la
( )

consommation, dterminer R en utilisant (a) lquation de = ( ) (b) lquation =


( )

a) Nous avons vu dans lexercice prcdent que :


25

Economtrie linaire applique

1
2
3
4
5
6
7
8
9
10
11
12

102
106
108
110
122
124
128
130
142
148
150
154
1524
127

114
118
126
130
136
140
148
156
160
164
170
178
1740
145


11628
12508
13608
14300
16592
17360
18944
20280
22720
24272
25500
27412
225124


12996
13924
15876
16900
18496
19600
21904
24336
25600
26896
28900
31684
257112

100,30
103,75
110,64
114,08
119,25
122,69
129,58
136,47
139,92
143,36
148,53
155,42

1,70
2,25
-2,64
-4,08
2,75
1,31
-1,58
-6,47
2,08
4,64
1,47
-1,42
0,00


(
)
2,88
961
5,07
729
6,96
361
16,67
225
7,57
81
1,71
25
2,51
9
41,90
121
4,34
225
21,51
361
2,16
625
2,01
1089
115,27
4812

)(
)
) (
(
625
775
441
567
361
361
289
255
25
45
9
15
1
3
9
33
225
225
441
399
529
575
729
891
3684
4144

( ) 3569
=
0,9687 = 96,87%
( ) 3684

= 1 (
=1
)

b)


)
(
712,71
540,65
267,73
166,87
60,07
18,54
6,67
89,74
166,87
267,73
463,52
807,64
3569

115,27
3684

0,9687 = 96,87%

Cest vraiment la mme valeur de (a).


Exercice :
Toujours dans le mme problme, dterminer en utilisant les expressions suivantes :

(b) =

(a) =

( )( )

(c) =

( )( )

( )( )
( )

a) Le tableau ci-dessus fournit les calculs ncessaires :


= = 0,9687 = 0,9842 est positif puisque > 0
b) Aussi :
=

( )( )
( ) ( )

4144
4812 3684

= 0,9842

c) Et
=

( )( )
0,86 4144
=
= 0,9836
( )
3684

26

Economtrie linaire applique


Exercices rsolus : Proprits des estimations par les moindres carres ordinaires
Exercice :
Que faut-il entendre par estimateur sans biais ? Comment dfinir le biais ?
Un estimateur est dit : centr ou sans biais, si la moyenne de sa distribution dchantillonnage est
gale au paramtre vrai. La moyenne de la distribution est gale lesprance mathmatique de
lestimateur. Si est estimateur du paramtre vrai de . Labsence de biais signifie donc que () =
. Le biais est alors dfini comme la diffrence entre lesprance mathmatique de lestimateur et la
valeur vraie du paramtre : = () . On notera que labsence du biais ne signifie pas que
= , mais que, si lon rpte lchantillonnage alatoire, on obtiendra, en moyenne, lestimation
correcte. On espre dons que lchantillon effectivement slectionn fournisse une valeur de
proche de la moyenne de la distribution dchantillonnage de lestimateur.
Exercice :
Que faut-il entendre par le meilleur estimateur sans biais (estimateur efficace) ? Quelle est
limportance de cet estimateur ?
Parmi tous les estimateurs sans biais, le meilleur qui est dit aussi efficace est celui dont la variance
est minimale. Cest lestimateur centr qui prsente la distribution la plus compacte, la moins
disperse. Cette caractristique est fort importante car le chercheur qui examine une population sera
ainsi mieux assurer que la valeur prise par lestimateur est voisine la valeur vraie du paramtre quil
doit estimer. Il revient au mme de dire quun estimateur efficace prsente le plus petit intervalle de
confiance et quil a donc plus de chance dtre statistiquement signifiant quaucun autre estimateur.
On notera toutefois que la variance minimale na pas grand intrt en elle-mme, moins dtre
coupl avec absence de biais.
Exercice :
Pourquoi des estimateurs MCO sont-ils frquemment utiliss ? Sont-ils suprieur tout autre
estimateur ?
Lintrt des estimateurs MCO, et qui rend compte de leur large usage, est quils sont BLUE (best
linear unbiaised estimators) : ce sont des estimateurs efficaces dans la classe des estimateurs
linaires ; autrement dit, parmi tous les estimateurs linaires sans biais, ils prsentent la plus faible
variance. Les proprits BLUE des estimateurs MCO droule du thorme de Gauss-Markov.
Exercice :
Que faut-il entendre par convergence ?
Pour tre convergent en probabilit, un estimateur doit satisfaire deux conditions (1) lorsque la
taille de lchantillon augmente indfiniment, la valeur de lestimateur tend vers la valeur vrai du
paramtre (il sagit dune probabilit asymptotique que lon peut appeler le centrage asymptotique
de lestimateur). (2) lorsque la taille de lchantillon devient infinie, la distribution de
lchantillonnage de lestimateur se comprime pour devenir, la limite un segment de droite
verticale de hauteur 1 et dabscisse a (valeur vraie du paramtre). On emploi cette proprit
asymptotique de convergences des grands chantillons seulement si lon ne peut obtenir de petits
chantillons BLUE ou des estimateurs EQM minimaux.

27

Economtrie linaire applique


Problmes supplmentaire : le modle de rgression simple
Exercice :
On cherche sil existe une relation linaire entre le revenu rel par tte dans les pays dvelopps et
leur population agricole active. Le tableau suivant rassemble les donnes correspondantes pou un
chantillon de 15 pays dvelopps, pendant une anne donne. (a) Estimer lquation de
rgression de par rapport . (b) Tester la signification statistique des paramtres, au seuil de
signification de 5%. (c) Trouver le coefficient de dtermination (d) prsenter sous forme habituelle
les rsultats obtenus.
Pays n

1
6
9

2
8
10

3
8
8

4
7
7

5
7
10

6
12
4

7
9
5

8
8
5

9
9
6

10
10
8

11
10
7

12
11
4

13
9
9

14
10
5

15
11
8

Donnes du revenu rel sont arrondis au millier de dollars American


Est en pourcentage de la population active totale

Le tableau suivant prsente les rsultats des diffrents calculs ncessaires pour rpondre aux
questions poses :
Pays n
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

6
8
8
7
7
12
9
8
9
10
10
11
9
10
11
135
9

9
10
8
7
10
4
5
5
6
8
7
4
9
5
8
105
7

(a) =

(b) =


54
80
64
49
70
48
45
40
54
80
70
44
81
50
88
917


81
100
64
49
100
16
25
25
36
64
49
16
81
25
64
795

Relations de base
et =

; sa2 = (x x)2 ; =
i

||

( ) ; =

; =

||

8,07
7,60
8,53
9,00
7,60
10,40
9,93
9,93
9,47
8,53
9,00
10,40
8,07
9,93
8,53


4,27
0,16
0,28
4,00
0,36
2,56
0,87
3,74
0,22
2,15
1,00
0,36
0,87
0,00
6,08
26,93

)
(
4
9
1
0
9
9
4
4
1
1
0
9
4
4
1
60

)
(
9
1
1
4
4
9
0
1
0
1
1
4
0
1
4
40

Rsultats
= 0,47 ; = 12,27
= 2,07 ; sa2 = 0,03 ; = 1,83 ; =
2,51 ; =

|12,27|
1,35

|0,47|
0,18

= 9,07 > 2,16

Les deux paramtres sont significativement diffrents de


zro au seuil de 5%.

(c) = 1 (y y
; =
)

= 0,33 ; = 0,57

(d)

= +

=? =?

( ) ? ( ) ?

= +
(2,51 ) (9,07)

28

= 0,33

= 0,57

Economtrie linaire applique


Exercice : La prvision des ventes du produit Jawal
Cest en fonction des prvisions de ventes que lentreprise dtermine la production, les achats et les
investissements ncessaires. La prvision des ventes conditionne lensemble de la construction
budgtaire. Elle est gnralement mise uvre partir de modles de prvisions reposant sur des
mthodes statistiques. Ces mthodes ont pour objet : De mesurer les phnomnes dvolution des
ventes moyen terme (tendance ou trend) et lestimation de la tendance laide dun ajustement
linaire.
Les mthodes bases sur lajustement linaire ncessitent une:
1. Reprsentation graphique de la srie afin dobserver la tendance.
2. Confirmation de lvolution linaire par le calcul du coefficient de corrlation linaire.
3. Identification de la relation par le calcul des paramtres du modle par la mthode MCO.
Vous tes analyste chez une entreprise de tlcom, et on vous pose les questions suivantes et vous
disposer dune plage de donnes, votre savoir faire pour construire votre modle et un logiciel de
bureautique pour faire des calculs, donc :
1. Les affiches publicitaires dans la presse ont-elles un impact sur les ventes du produit
Jawal?
2. Les quantits vendues dpendent-elles du nombre daffiches publicitaires ?
Au cours des annes coules lentreprise a relev les donnes suivantes (en millions de dirhams):
Annes

Dpenses publicitaires

2003
2004
2005
2006
2007
2008
2009
2010
2011
2012

Chiffre daffaires

5
3,4
3,6
5,6
4,4
4
3,8
4,4
6
6,1

560
500
510
584
530
520
524
560
570
592

Chiffre daffaires

600
580
560
540
520
500
480

4
6
Dpenses publicitaires

29

Le graphique illustre une relation


linaire entre le chiffre daffaire et les
dpenses publicitaires du produit
Jawal , la tendance est haussire
donne un premier aperu de la relation,
il parait que lvolution des dpenses
publicitaires suivent lvolution du
chiffre daffaire de lentreprise (on
prvoie une volution des deux variables
un sens unique.

Economtrie linaire applique


Nous pouvons maintenant construire notre modle thorique : on veut rechercher la relation entre
les dpenses publicitaire et le chiffre daffaire de lentreprise, = () , avec sont les dpenses
publicitaires et reprsente le chiffre daffaire de lentreprise.
= +
Puis notre spcification conomtrique est sous la forme :
= + +
On dispose du modle de rgression linaire, nous utilisons la mthode des moindres carres
ordinaires pour avoir un meilleur ajustement linaire des donnes par une droite de rgression qui
prendra la forme de :
= a +
Notre travail sera consacr en premier lieu la recherche des paramtres a et b , et en deuxime
lieu, valider notre modle partir des tests dhypothses sur les paramtres estims et calculer le
coefficient de dtermination qui permettra de juger la qualit de la rgression. Mais avant, on calcul
le coefficient de corrlation.
Annes
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012

n
1
2
3
4
5
6
7
8
9
10
N = 10

560
500
510
584
530
520
524
560
570
592
5450
545

5
3,4
3,6
5,6
4,4
4
3,8
4,4
6
6,1
46,300
4,630


2800
1700
1836
3270
2332
2080
1991
2464
3420
3611
25505


25,00
11,56
12,96
31,36
19,36
16,00
14,44
19,36
36,00
37,21
223,25

556,30
507,43
513,54
574,63
537,97
525,75
519,64
537,97
586,85
589,91


13,67
55,14
12,50
87,76
63,58
33,11
18,97
485,15
283,96
4,38
1058,229

)
(
0,137
1,513
1,061
0,941
0,053
0,397
0,689
0,053
1,877
2,161
8,881

)
(
225
2025
1225
1521
225
625
441
225
625
2209
9346

La corrlation linaire exprime lintensit de la liaison entre deux variables : le chiffre daffaires en
fonction des dpenses publicitaires.
Le coefficient de corrlation () est un indicateur de cette relation. Il est dtermin de la faon
suivante :

( ) ( )
(, )
=
=
=
= 0,942
( ) ( )

Ce qui confirme une forte corrlation entre les dpenses publicitaires et le chiffre daffaires.
Lorsque la corrlation linaire est significative, on peut estimer notre relation conomtrique.
Daprs le tableau des calculs, on peut calculer a
et b , nous avons donc :
= 30,55 + 403,56
Et
(7,9)
(22,13) R = 0,8868

600

y = 30,548x + 403,56
R = 0,8868

Chiffre daffaires

580
560
540

La droite obtenue permet deffectuer des


prvisions.
Par exemple, le chiffre daffaires prvisibles +
1 pour des dpenses publicitaires de 6.3 millions
de dirhams, serait de 596 Millions de dirhams.

520
500
480
0

Dpenses publicitaires

30

Economtrie linaire applique


Exercice : Lanalyse des ventes du carburant
Supposant que vous tre recrut en tant quanalyste au sein dune compagnie de distribution du
carburant oprant dans la rgion de Rabat, et elle prvoit investir en termes daugmentation des
points de vente dans dautre rgion que Rabat. Le tableau suivant trace lvolution pendant un mois
des ventes (en milliers de Dirhams) en fonction de lvolution du nombre des points de vente du
carburant (nombre de station dessence).

2000
12
48
192
24
768
96
96
384
1536

2
4
6
3
8
5
5
7
9

1500
1000
500
0
0

10

On vous demande danalyser dabord la courbe tire du croisement de variables partir du tableau,
et ensuite proposer une modlisation linaire et une estimation des ventes si le nombre des stations
gale 12.
La reprsentation graphique de lvolution des ventes nous renseigne que la relation entre les deux
variables peut avoir la forme dune courbe exponentielle, de la forme :
=
Dans ce cas on ramne la tendance exponentielle la forme linaire (logarithme nprien):
= () + ()
On procde un changement de variable de sorte que : = , = () et = () : on aura
la forme :
= +
Puis notre spcification conomtrique est sous la forme :
= + +
On calcul les paramtres et par la mthode des moindres carres ordinaires :

8,000
2,485
3,871
5,257
3,178
6,644
4,564
4,564
5,951
7,337

2
4
6
3
8
5
5
7
9

y = 0,6931x + 1,0986
R = 1

6,000
4,000
2,000
0,000
0

La valeur de et : = = 0,6931 2 et = = 1,0986 3


Maintenant on peut prvoir les ventes pour trois de stations supplmentaires : = 12,
= = 3 212 = 12281

31

10

Economtrie linaire applique


Exercice : Lanalyse & prvision des dpenses de cartes de crdit
Supposant que vous tre charger danalyser lutilisation de cartes de crdit comme un mode de
paiement chez une banque. Vous avez effectu une rgression du type :
= + +
= + +
O reprsente les dpenses moyennes mensuelles sur carte de crdit (Soit les dpenses annuelles
divises par 12) note CARTE et , le revenu des dtenteurs de carte, note REVENU . Sur le
fichier original, celui-ci est exprim sur une base annuelle et est divis par 10000. On rgresse cette
quation selon les MCO, qui comprennent 72 individus. Pour les donnes il faut voir le fichier Excel :
exercice_Carte_de_Crdit_Reg_Simple. Le rsultat est prsent au tableau suivant :
Dependent Variable: CARTE
Method: Least Squares
Date: 04/23/13 Time: 17:22
Sample: 1 72
Included observations: 72
Variable

Coefficient

Std. Error

t-Statistic

Prob.

C
REVENU

-22.50933
82.93119

76.78067
20.05219

-0.293164
4.135768

0.7703
0.0001

R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
F-statistic
Prob(F-statistic)

0.196368
0.184888
287.1440
5771618.
-508.6683
17.10458
0.000097

Mean dependent var


S.D. dependent var
Akaike info criterion
Schwarz criterion
Hannan-Quinn criter.
Durbin-Watson stat

262.5321
318.0468
14.18523
14.24847
14.21041
1.675659

La rgression a t faite par le logiciel Eviews. On vous demande de commenter le tableau ?


la lecture du tableau ci-dessus, on constate que le (R-squared) est de 0,20. Pour sa part, le
ajust se situe 0,18. Comme il sagit ici de donnes microconomiques, on sattend des plutt
modrs, de lordre de 0,25. En dpit du caractre trs modr du R, on observe que le coefficient
associ au revenu, hauteur de 82,9, a une statistique t significative gale :
=

82,93 0
= 4,13
20,05

Avec = = 72 2 = 70 degrs de libert et une


critique de 0,05.

= 0,0001 infrieur au seuil

On veut maintenant prvoir les dpenses sur carte de crdit associes un niveau de revenu de
40000 DH. Les dpenses prvues pour ce niveau de revenu seront de :
40000 = + 40000

40000 = 22,51 + 82,93

40000
= 309,21 DH
10000

Au regard de cet exemple, il parait claire les limites du modle de rgression simple, il est
indispensable de rajouter dautres variables explicatives pour expliquer les dpenses moyennes sur
carte de crdit, ce titre nous parlons du modle de rgression multiple.

32

Economtrie linaire applique

Modle de rgression multiple


Dfinition et Ajustement par la mthode des moindres carres ordinaires
Lanalyse par rgression multiple permet de tester les hypothses portant sur la relation entre une
variable dpendante , et au moins deux variables indpendantes notes (il sagit donc dun
ensemble de variables exognes, 1 , 2 , etc.). Cette analyse permet galement deffectuer des
prvisions. Le modle de rgression linaire plusieurs variables peut sexprimer sous la forme :
Terme constant
Variable Endogne

Variables explicatives (composante dterministe)

= 0 + 1 1 +
+ +
Paramtres

tant le nombre de variables exognes, et varie selon les individus.

Terme dErreur
composante
alatoire

(2.1)

Ce qui peut encore reprsent par la forme matricielle :


= +

(2.2)

La multiplicit des variables exognes conduit ajouter une hypothse nouvelle celles qui
spcifient le modle de rgression simple : il nexiste pas de relation linaire exacte entre les ,
(absence de colinarit).
On peut estimer les paramtres de lquation (2.1) par les moindres carres ordinaires (MCO) en
recherchant le minimum de la somme des rsidus quadratiques :
min

0 ,1 ,..

(2.3)

Il en rsulte des quations normales :


= ( )1
Avec :
0

= 1

( )
Exemple :
Le tableau (2.1) une extension du tableau (1.1) : il rapporte les effets dun insecticide ajouts ceux
du fertilisant sur la production du Mas. Les observations concernent galement les mmes annes.
Dans le cas de la rgression multiple il est difficile de mener les calculs avec plusieurs variables
explicatives. Lusage des logiciels spcialiss reste une solution trs pratique.
Nous utilisons :
1. Excel pour faire le calcul des paramtres
2. La calculette pour faire le calcul manuellement (pour le cas de deux variables exognes, les
calculs sont un peut abordable).
3. Le calcul matriciel
33

Economtrie linaire applique

1. Calcul en utilisant Excel (facile quelque soit le nombre k paramtres et de n observations)

40
44
46
48
52
58
60
68
74
80
570

Annes
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010

6
10
12
14
16
18
22
24
26
32
180

4
4
5
7
9
12
14
20
21
24
120

Procdure Excel:
1. Outils Utilitaire danalyse Rgression linaire
2. Indiquez les donnes pour la variable , et pour les
variable(s) . Cochez les cases : Intitul prsent, Rsidus,
Courbes des rsidus et Courbes de rgression et faites OK.
3. Les rsultats seront affichs sur une feuille spare.
NB : le cas ou Utilitaire danalyse ne figurent pas dans langlet
outil, allez au : option Excel Complment allez au grer
complment atteindre choisir utilitaire danalyse (analysis
toolPak) suivre les indications dinstallation.

Les rsultats sont les suivants :


Coefficients Erreur-type Statistique t Probabilit
Constante
31,9806714
1,63179572
1
0,65005086
0,25016126
1
1,10986775
0,26743364
Donc lquation prend la forme suivante :

19,5984528
2,59852729
4,1500679

2,2481E-07
0,0355012
0,00429473

= 31,98 + 0,651 + 1,112


2. Calcul en utilisant le calcul simple (difficile si k>2 et ~)
Pour le calcul manuelle nous utilisons les valeurs centre de = , 1 = 1 et de
2 = 2 , voir la relation (1.8), le tableau suivant rsume les calculs ncessaires :
Annes
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010

1 =

2 =

1
2
3
4
5
6
7
8
9
10
10

40
44
46
48
52
58
60
68
74
80
570
57

6
10
12
14
16
18
22
24
26
32
180
18

4
4
5
7
9
12
14
20
21
24
120
12

-17
-13
-11
-9
-5
1
3
11
17
23

-12
-8
-6
-4
-2
0
4
6
8
14

( 1 )( 2 ) ( 2 )( 1 2 )
( 1 )( 2 )

( 1 2

( 2 )( 1 ) ( 1 )( 1 2 )
( 1 )( 2 ) ( 1 2 )

-8
-8
-7
-5
-3
0
2
8
9
12


204
104
66
36
10
0
12
66
136
322
956


136
104
77
45
15
0
6
88
153
276
900


96
64
42
20
6
0
8
48
72
168
524


144
64
36
16
4
0
16
36
64
196
576


64
64
49
25
9
0
4
64
81
144
504

(956) (504) (900) (524)


0,65
(576) (504) (524)

(900) (576) (956) (524)


1,11
(576) (504) (524)

0 = 1 1 2 2 57 (0,65) 18 (1,11) 12 31,98


34

Economtrie linaire applique


= 31,98 + 0,651 + 1,112

De sorte que :

3. La recherche des paramtres en utilisant le calcul matriciel : (difficile si k> 2)


= +

Notre modle

peut tre crit de la faon suivante :

1
40
16 4

44
110 4
2
1
3
46
112 5

=
(2 ) +


9
3
74
12621
(80) (13224)
(10 )
Il sagit de calculer le vecteur des estimateurs dfini par lgalit suivante :
= ( )1

Important retenir

1 2

( 2
( )1 =?

Calculons dabord

1 2

2 )

Voir le tableau (1.3) pour le calcul


des et 1 , on vous laisse la peine
du calcul des valeurs de 2

10
180
120
= (180 3816 2684)
120 2684 1944

( ) :

( ) = 10 ((3816 1944) (2684)) 180((180 1944) 322080) + 120 25200


= 157280
La transpose de est :
10
180
120
= (180 3816 2684)
120 2684 1944
1

La matrice inverse est alors : ( )1 = det( ) ( ( ))


La co-matrice appele encore la matrice adjointe est calcule comme suit :
3816
2684
180

( ) = (
2684
180
((3816
(

( )1 =

2684
180
) (
1944
120
120
10
) (
1944
120
120
10
) (
2684
180

2684
180
) (
1944
120
120
10
) (
1944
120
120
10
) (
2684
180

3816
)
2684
+
180
) (
2684
+
180
))
3816

+
+ )
+

1,363 0,177 0,160


1

(
0,177
0,032 0,033)
(
))
=
(
det( )
0,160 0,033 0,037

35

Economtrie linaire applique


Aussi :

Important
retenir

1
( 2 )

570
= (11216)
7740

Donc :
1,363 0,177 0,160
31,98
570
= ( )1 = (0,177 0,032 0,033) (11216) = ( 0,65 )
0,16
0,033 0,037
1,11
7740
De sorte que :

= 31,98 + 0,651 + 1,112

Lestimation des paramtres plusieurs variables explicatives ncessite bien lassistance dun
ordinateur.
Tests de signification pour les paramtres estims (Test de Student)
Comme dans la rgression simple, il faut dterminer les variances des estimateurs si lon veut
valuer, dans une rgression multiple, la signification statistique des estimations de paramtres.
( ) = ( )1
Comme est inconnue, on utilise la variance rsiduelle, , titre destimation sans biais de cette
grandeur :

= = =
=

O reprsente le nombre de paramtres estims.
Lestimation de sans biais est alors donne par la formule :
= ( )1
De sorte que fournit les erreurs types de lestimation.
Exemple :
On teste la signification statistique des paramtres du modle de lexemple prcdent. Il en rsulte
des valeurs rassembles dans le tableau (2.1) que,
Nous pouvons galement calculer :

( )

13,67
= = =
=
=
=
= 1,95

10 3
Do :
1,363 0,177 0,160
2,663 0,346 0,313
= ( )1 = 1,95 (0,177 0,032 0,033) = (0,346 0,063 0,065)
0,16
0,033 0,037
0,313 0,065 0,072
Les carts types des estimateurs sont alors donns par les racines carres des lments
diagonaux de cette matrice. Nous avons ainsi :

36

Economtrie linaire applique


0 = 2,663 = 1,63
1 = 0,063 = 0,24
2 = 0,072 = 0,27
Par consquent =

0 = 0 =

|
|

, alors on dduit :

|0 | 31,98
|1 | 0,65
=
= 19,6 1 = 1 =
=
= 2,70
0
1,63
1
0,24

2 = 2 =

|2 | 1,11
=
= 4,15
2
0,27

Comme 0 , 1 , 2 dpassent tous le = 2,635 pour = 7 degrs de libert au seuil de


signification de 5% . 0 , 1 , 2 sont tous statistiquement signifiants au seuil de 0,05.
Coefficient de dtermination multiple
Le coefficient de dtermination multiple, , est dfini par la proportion de la variabilit totale de
explique par la rgression multiple de par rapport 1 et 2 et, on peut le calculer partir de
lexpression suivante :
=

=
=1
=1

Comme il est vraisemblable que linclusion de nouvelles variables explicatives accroisse la part
explique = , pour une mme variabilit totale, = , doit augmenter dans une
rgression multiple. Cette augmentation ne tenant quau nombre et non au pouvoir explicatif (
linfluence linaire) des variables additionnelles, on dfini un corrig, crit , qui tienne compte
de la diminution du nombre du degrs de libert conscutive lintroduction de nouvelles variables
indpendantes :
= 1 (1 2 )

=1

Ou reprsente le nombre dobservations et k, le nombre de paramtre estims.


Exemple :
Calculons sur la base du tableau (2.1) le et le .
Mthode : calculons le tableau dANOVA pour notre exemple, il sagit de calculer les quantits
suivantes : = +
570
Avec : = = (30,98 0,65 1,11) (11216) (10) (57)2 = 1620
7740
Et

= 2 = 34124 (10) (57)2 = 1634


= = 1634 1620 = 13,67

37

Economtrie linaire applique


1620
=
= 0,992
1634

1
101
Par consquent : 2 = 1 (1 2 )
= 1 (1 0,992)
= 0,989 98,9%

103

Mthode : calcul direct


Nous avons : = 34110,32
Et

et

= = 34124 34110,32 = 13,67

= 1,95 donc :
2 = 1
2 =

13,67
=1
= 0,992
2

34124 10 (57)2

1
1 10 1
31
2
=
0,992
= 0,989 98,9%

10 3
10 3

Test densemble sur la signification de la rgression


La signification globale de la rgression peut tre apprcie grce au rapport de la variance
explique et la variance inexplique. Celui-ci obit une loi de distribution de Ficher-Snedecor
(distribution ) avec 1 et degrs de libert, tant le nombre dobservations et le
nombre de paramtres estims :
Si le rapport calcul dpasse la valeur tabulaire de pour le risque admis (cest dire pour le seuil
de signification donne) en fonction des degrs de liberts 1 et , on accepte lhypothse
que les paramtres de la rgression ne sont pas tous nuls et diffre significativement de zro.
Exemple :
Pour tester au seuil de 5% la signification densemble de la rgression estime dans lexemple
prcdent, nous pouvons utiliser , de sorte que :
0,992

1 =
3 1 = 413,17
1; = 2;7 =
1 0,992
1
10 3

Comme la valeur calcule de dpasse la valeur tabulaire = 4,74 pour le seuil de signification de
5% avec le couple de degrs de libert (2 ; 7), nous admettons lhypothse que ne sont pas tous nuls
et que est significativement diffrent de zro.
Coefficients de corrlation partielle
Considrons lune des variables indpendantes du modle. Le coefficient de corrlation partielle
mesure la corrlation nette entre la variable dpendante et cette variable indpendante aprs avoir
exclu leffet collectif des autres variables indpendantes dan le modle : autrement dit, ces dernires
demeurent alors constantes. Par exemple 1 ,2 est le coefficient de corrlation partielle entre et
1 , aprs avoir liminer leffet de 2 sur els deux variables et 1 .
1 ,2 =

1 2 1 2
1 1 2 1 1

38

Economtrie linaire applique


O 1 , 2 et 1 2 reprsentent respectivement les coefficient de corrlation simple (ou dordre
zro) entre et 1 , et 2 , 1 et 2 . les coefficients de corrlation partielle ont une valeur
appartenant lintervalle (1, +1), borne comprises, comme les coefficients de corrlation simple.
Ils ont le signe du paramtre estim correspondant et servent dterminer limportance relative des
diffrentes variables explicatives dans une rgression multiple.

39

Economtrie linaire applique


Rsum :

Le modle de rgression multiple

Relation conomique

= 0 + 1 1 + +

Spcification conomtrique = 0 + 1 1 + + +

Hypothses du
Rgression Simple
+ absence de
colinarit (pas de
relations linaire

Ajustement linaire

min

Mthode des MCO

entre les

Proprits

= +

0 ,1 ,..

Recherche des paramtres = ( )1

Questions importantes :
1) Est-ce que lajustement est
bon dans sa globalit ?
2) Est-ce que les paramtres
sont significatifs ?
3) Tester labsence de
colinarit ?

Rponse pour question 2 : Voir si ces paramtres sont robustes


||
| |
Voir leurs significations (tests
=
=
dhypothses)


Problme qui se pose :

inconnue
(car est inconnue)

Solution : calcul de la variance


rsiduelle

= = =

Rponse pour question 1 : Tester la qualit de la rgression multiple


Relations :

=
=
=1
=1
Solution :

0 1
SCR
1 1
nk
=

=1
SCT

n1
est proche de 1 : lajustement est bon
Si
Rponse pour question 1 : test densemble sur la signification de la
rgression Test de Ficher-Snedecor

1
1; =
1

40

Accepter si
leurs valeurs si
sont suprieurs
1.96 pour n>30

Maintenant on
peut calculer :
et partir des
calculs de =
( )1

Economtrie linaire applique


Exercices rsolus : modle linaire plusieurs variables explicatives
Exercice :
Daprs le modle linaire fourni par lanalyse de rgression multiple, lorsque deux variables
exognes sont en jeu, indiquer la signification de (a) , (b) , (c) . (d) ces trois paramtres
sont ils BLUE ?
a) Le paramtre 0 est le terme constant de lquation de la rgression, = 0 + 1 1 +
2 2 ; Dans un espace euclidien trois dimensions, cest la coordonne , de lintersection
de laxe des Y avec le plan de rgression dfini par cette quation ; autrement dit, 0 donne
la valeur estime de lorsque 1 = 2 = 0.
b) Le paramtre 1 mesure la variation de pour toute variation unitaire de 1 , lorsque 2
reste constant ; il reprsente la pente des droites du plan de rgression parallle au plan
1 , O tant lorigine des coordonnes. Ce paramtre est un coefficient de rgression
partielle parce quil est gal la drive partielle de par rapport 1 soit

.
1

c) Le paramtre 2 mesure la variation de pour toute variation unitaire de 2 , lorsque 1


reste constant ; il reprsente la pente des droites du plan de rgression parallle au plan
2 . Cest le second coefficient de rgression partielle, tant gal la drive partielle de
par rapport 2 soit

.
2

d) Comme 0 , 1 et 2 sont obtenus par la mthode MCO, ils sont aussi les meilleurs
estimateurs linaires sans biais (BLUE). Autrement dit : (0 ) = 0 , (1 ) = 1 et (2 ) =
2 , et 0 , 1 et 2 ont des valeurs minimales par rapport tout autre estimateur linaire
sans biais. Prouver ces proprits manque particulirement dlgance hors lemploi du
calcul matriciel.
Exercice :
Le tableau suivant (2.2) concerne 15 pays dvelopps et donne pour chacun le niveau de revenu
rel par tte en milliers de US$. Avec le pourcentage de de la force de travail employ dans
lagriculture et la dure moyenne de la scolarit (en annes) pour une population au-dessus de
25 ans (a) tablir lquation de rgression MCO de par rapport et ? (b) interprter les
rsultats ainsi obtenus ?
pays n
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

6
8
8
7
7
12
9
8
9
10
10
11
9
10
11
135
9

1
9
10
8
7
10
4
5
5
6
8
7
4
9
5
8
105
7

2
8
13
11
10
12
16
10
10
12
14
12
16
14
10
12
180
12


36
64
64
49
49
144
81
64
81
100
100
121
81
100
121
1255

1
2
1 2
1
81
64
72
54
100
169
130
80
64
121
88
64
49
100
70
49
100
144
120
70
16
256
64
48
25
100
50
45
25
100
50
40
36
144
72
54
64
196
112
80
49
144
84
70
16
256
64
44
81
196
126
81
25
100
50
50
64
144
96
88
795
2234
1248
917
Quantits utilises pour calculer

41

2
48
104
88
70
84
192
90
80
108
140
120
176
126
100
132
1658

Economtrie linaire applique

a) Calcul des paramtres partir de lquation :


= 0 + 1 1 + 2 2 +
Nous utilisons le calcul matriciel, daprs les calculs tirs du tableau (2.2), nous avons :
= ( )1

1 =

1 2

( 2

1 2

2 )

3,391 0,154 0,187


= (0,154 0,017
0,003 )
0,187 0,003
0,014

Et

1
( 2 )

135
= ( 917 )
1658

6,20
= ( )1 = (0,38)
0,45

Donc :
= 6,20 0,381 + 0,452
b) Cette dernire quation indique que le niveau du revenu rel par tte , est inversement li
au pourcentage 1 de la force de travail dans lagriculture, mais quil est en relation directe
avec la dure 2 de la scolarit de la population au dessus de 25 ans : ce qui dailleurs aurait
pu tre anticip. De faon prcise 1 fait apparaitre quune rduction de 1% de leffectif
employ e agriculture est associe une augmentation de revenu rel par tte gale 380
dollars. 2 restant constant. Lorsque 2 = 2 = 0 , = 0 = 6,20. Dans la mesure o il est
prouv que 2 est statistiquement signifiant et doit par consquent tre inclus dans
lquation de rgression, la valeur 1 = 0.47 dtermine dans lexercice du modle de
rgression simple nest pas une estimation satisfaisante de .

42

Economtrie linaire applique


Exercices rsolus : tests de signification pour les paramtres
Exercice :
sont obtenues par
Daprs le tableau (2.2) qui runit les calculs ncessaires. Les valeurs de
substitution des valeurs de et de dans lquation estime par la rgression MCO, telle que
lon tablie dans lexercice prcdent. Dterminer , et , tablir lintervalle de confiance
, et dtermine pour lquation estim de la rgression par MCO, et dduire
,
95% pour les
sur quel intervalle le R prend ses valeurs
Ds lors :
Calculons dabord :

6,44
8,32
8,17
8,09
7,87
11,94
8,85
8,85
9,38
9,53
9,00
11,94
9,15
8,85
8,62
135

0,19
0,10
0,03
1,20
0,76
0,00
0,02
0,72
0,14
0,22
1,00
0,88
0,02
1,33
5,65
12,27

= = =
On dduit :

12,27
=
= 1,023
15 3

3,391 0,154 0,187


= ( )1 = 1,023 (0,154 0,017
0,003 )
0,187 0,003
0,014
3,468 0,154 0,193
= (0,154 0,017
0,003 )
0,193 0,003
0,014

Donc :
3,468

1,86
= (0,017) = (0,13)
0,12
0,014
3,33
= (2,83)
3,78

Puisque les valeurs absolues de dpassent sa valeur tabulaire = 2,17 au seuil de 5% pour =
= 15 3 = 12, on conclura que sont tous signifiant au seuil de 5%.
Lintervalle de confiance pour 1 = 2, 83 est donn par :
1 = 1 1 = (0,38) 2,17 0,13 = 0,38 0,28
De sorte que 0,66 1 0,1 au seuil de signification de 95%.
Pour 2 = 0,45 ce mme intervalle est donn par :
2 = 2 2 = 0,45 2,17 0,12 = 0,38 0,28
De sorte que 0,19 1 0,71 au seuil de signification de 95%.
=

=
=1
=1
= 0,69

43

Economtrie linaire applique


Problme de rcapitulation
On suppose une srie dobservations rassembles dans le tableau ci-dessous, portant sur les
quantits demande dune marchandise, sur son prix 1 et sur le revenu global des
consommateurs 2 pendant les dernires quinze annes. (a) Ajuster une rgression MCO ces
observations. (b) tester au seuil de 5% les paramtres de pente. (c) dterminer les coefficients de
corrlation multiple, non corrig et corrig. (d) tester la signification de lensemble de la rgression
(e) dterminer les coefficients de corrlation partielle et indiquer quelle variable indpendante
contribue le plus au pouvoir explicatif du modle. (f) calculer les valeurs de moyennes, llasticit prix
et llasticit revenu de la demande, notes respectivement et . (g) rsumer tous ces rsultats
sous forme habituelle.

40
45
50
55
60
70
65
65
75
75
80
100
90
95
85

9
8
9
8
7
6
6
8
5
5
5
3
4
3
4

400
500
600
700
800
900
1000
1100
1200
1300
1400
1500
1600
1700
1800

Rsultats voir le fichier Excel

44

Economtrie linaire applique


Problme de rcapitulation
Reprenons le dernier exercice du chapitre prcdent de la rgression simple : dpenses moyennes
sur carte de crdit. Maintenant que vous tes convaincu que les dpenses moyennes sur carte de
crdit (CARTE) ne dpendent pas seulement de revenus des individus mais peuvent galement tre
fonction dautres variables exognes : vous spcifiez une autre relation sous la forme :
= +
Avec reprsente les diffrentes variables exognes, tels que :
AGE : ge de lindividu ;
PROP : variable indicatrice qui prend la valeur 1 lorsque lindividu est propritaire de son logement et
0 sinon.
REVENU2 : carr du Revenu.
Donc votre spcification conomtrique peut scrire sous la forme suivante :
= 0 + 1 + 2 + 3 + 4 2 +
Estimer avec la mthode des MCO les dpenses des individus en fonction des variables : AGE, PROP,
REVENU et REVENU2, en utilisant Excel, puis EVIEWS.
Voir le fichier Excel : Exercice_Carte_de_Crdit_Reg_Multiple.

45

Economtrie linaire applique

Types de donnes
Il existe trois types de donnes et chaque type de donne peut fait appel des techniques
conomtriques particulires.
1. Les Donnes Cross-section , en coupes transversales
Il sagit dchantillon dindividus, de mnages, de firmes, ..., pris un point du temps donn.
Important: on peut souvent supposer que les observations sont reprsentes sous forme dun
chantillon alatoire, ce qui simplifie lanalyse.
Encore on peut prendre comme exemple : les donnes trs utilises en conomie et sciences sociales
et plus particulirement les donnes micro applique : march du travail, finances publiques,
organisation industrielle, conomie spatiale, dmographie, conomie de la sant, etc.
Exemple : rendement de parcelles de train en fonction des flux dengrais

Les lignes font rfrence aux individus

2. Les Sries temporelles, Longitudinales, sries chronologiques


En prend comme exemple des Sries chronologiques, les sries du : PNB, importations, indices de
prix, etc.
Les sries chronologiques diffrent des sries cross-section pour plusieurs raisons:
Lordre (temporel) importe;
Le pass (mmoire) influence souvent le futur;
La notion dchantillon alatoire est plus discutable car on na quune seule ralisation (sauf
si on pense que des conditions initiales diffrentes auraient donn une ralisation
diffrente).
Important: les sries chronologiques sont rarement indpendantes au court du temps ce qui
complexifie lanalyse.
En terme des sries chronologiques, elles sont exprimes sous diffrentes frquences: annuel,
trimestriel, mensuel, hebdomadaire, journalier, intra-journalier.
Les donnes qui sont trs utilises concernent les sries en macroconomie et en finance.
Exemple : volution du chiffre daffaires dune entreprise en fonction des prospectus distribus

46

Economtrie linaire applique

Les Lignes font rfrence aux dates

3. Les Donnes de Panel, et les pooling de donnes de cross section


Le pooling
Une srie cross-section constitue bien souvent un ensemble de donnes relatives des units
(individus, firmes, etc.) interroges un moment donn.
Dans certains cas, lenqute est rpte plusieurs fois donnant lieu des chantillons diffrents,
reprsentatifs de la population.
La technique du pooling suppose que les diffrents chantillons sont chaque fois tirs
alatoirement de la population.
On nobserve pas ncessairement les mmes units.
On dispose de plusieurs chantillons indpendants.
Par consquent, si la ( , ) = 0, et donc on peut donc empiler les
enqutes et effectuer une analyse MCO traditionnelle.
Le panel
Par contre, lorsquon observe la mme unit au court du temps, on parle de donnes de panel ou
longitudinales.
Faire des coupes transversales sur plusieurs dates. Si on observe spcifiquement les mmes
individus, on parle de cohorte.
Par consquent, on ne peut pas supposer que les observations sont indpendantes.
Un facteur non-observ (comme le QI) qui affecte le salaire dun individu en 1995 va
galement affecter son salaire en 2000.
Requiert des techniques particulires pour traiter ce problme.
Empiler les chantillons et utiliser les MCO donne des estimateurs biaiss.
Exemple 1 : le Recueille des ventes dun chantillon de concessionnaires, et renouveler lopration
sur plusieurs mois.
Exemple 2 : Donnes de Panel 2 priodes
On peut imaginer que certains de ces facteurs sont constants au court du temps et certains varient
au court du temps.
= 0 + 0 2 + 1 + +
, = 1,2
capture tous les facteurs non-observs affectant , appel effets non-observs ou effets fixes.

47

Economtrie linaire applique

Remise en cause des hypothses du modle linaire classique


En prsence de la mthode des moindres carres ordinaires, nous avons met en exergue les
hypothses de base sous desquelles leur respect fourni des estimateurs robuste (sans biais,
convergent, et que le thorme de Gauss-Markov tait vrifi (efficacit)) pour notre estimation.
Seulement dans la pratique, il arrive que certaines hypothses fondamentales des MCO ne soient pas
vrifies.
Par ailleurs, l'infrence statistique relative la rgression (estimation par intervalle des coefficients,
tests d'hypothses, etc.) repose principalement sur les hypothses lies au terme d'erreur qui
rsume les informations absentes du modle. Il importe donc que l'on vrifie ces hypothses afin de
pouvoir interprter les rsultats. Rappelant brivement les hypothses lies au terme derreur.
Sa distribution doit tre symtrique, plus prcisment elle suit une loi normale (normalit)
Sa variance est constante (homoscdasticit)
Les erreurs ( = 1, . . . , ) sont indpendantes (colinarit).
Encadr (cf chapitre : modle de rgression simple P8)
Le modle classique de rgression linaire est fond sur les quatre hypothses suivantes :
- Les variables et sont observer sans erreurs ; la variable est certaine : elle prend des valeurs
fixes dans lchantillon rpts, de sorte que et ne sont pas corrls ;
- Le terme derreurs est de moyenne (ou desprance mathmatique) nulle (hypothse
fondamentale) ;
- Il suit une loi de distribution normale (hypothse de normalit) ;
- Sa variance est constante (hypothse dhomoscdasticit) ;
- Il ny pas de corrlation entre les termes derreurs (hypothse dindpendance des divers
observations)
- Absence de colinarit entre les variables exognes. (Hypothse du modle de rgression multiple)
Les proprits des estimateurs MCO tiennent donc indpendamment des hypothses ci-dessus, par
consquent nous pouvant nous poser cette question : y-a-il des faons de dtecter la prsence de ces
hypothses dans le modle tudi ? La rponse est oui.
Pour inspecter ces hypothses, nous disposons des erreurs observes, les rsidus, produites par la
diffrence entre les valeurs observes de l'endogne et les prdictions ponctuelles de la
rgression .
Il sagit de regarder un graphique avec les rsidus de lquation estime sur laxe vertical et une des
variables explicatives du modle sur laxe horizontal. Si la grandeur absolue des rsidus varie
systmatiquement avec la variable explicative, cest un signe de la prsence de lhtroscdasticit.
On peut aussi regarder un graphique o on mesure les rsidus au carr sur laxe vertical. Si les points
on une pente non nulle vidente (positive ou ngative), cest un signe de la prsence de
lhtroscdasticit. Si cest le cas, il est fortement conseill deffecteur un ou plusieurs tests formels.

48

Economtrie linaire applique

Test de normalit :
Prsentation du problme :
Une grande partie de l'infrence statistique (ex. test de pertinence globale de la rgression,
prdiction par intervalle, etc.) repose sur l'hypothse de distribution normale (0, ) du terme
d'erreur de l'quation de rgression. Vrifier cette hypothse semble incontournable pour obtenir
des rsultats exacts, donc pour rsumer:
Lhypothse

)
~(,

est viole

Dtection
Haavelmo (1944) dans lobjectif de briser la rticence de ses contemporains vis--vis de lapplication
des mthodes statistiques aux donnes conomiques. Il a avanc deux thses. Dabord, il a dfendu
l'ide que l'emploi des mesures statistiques telles que les moyennes, les carts-type, les coefficients
de corrlation, des fins d'infrence n'a rellement de sens que dans un contexte probabiliste. De
plus, estimait-il, peu importe la vraie nature des faits conomiques, il suffisait, pour les analyser, de
faire comme si les donnes conomiques taient gnres par une loi de probabilit qu'il fallait
identifier de faon adquate
Avant donc toute tude srieuse, le travail de lconomtre est de tester ladquation ou la
conformit dune distribution observe avec une distribution thorique associe une loi de
probabilit. Parmi ces tests dadquation, la conformit la loi normale est le test le plus utilis, car
elle sous-tend la plupart de tests paramtriques utiliss en Economtrie. A titre de rappel, pour une
distribution gaussienne, 2 contiennent 95% des observations.
Il existe une batterie de tests de normalit, ici nous reprenons quelques uns regroups en deux
familles : tests formels et tests non formels.
Tests informels
Tests formels
1. Histogramme des frquences (ou
En termes defficacit
tuyau dorgue)
1. Test de Jarque Bera
Si > 88
2. Box plot (ou Bote--pattes)
2. Test de Shapiro Wilk
Si 50
3. Q-Q plot (ou droite de Henry)

Ci-aprs sont exposs uniquement les tests les plus frquemment utiliss et les plus oprationnels.
Graphique Q-Q plot
Il ne s'agit pas d'un test au sens statistique du terme. Le graphique Q-Q plot (quantile-quantile plot)
est un graphique "nuage de points" qui vise confronter les quantiles de la distribution empirique et
les quantiles d'une distribution thorique normale, de moyenne et d'cart type estims sur les
valeurs observes. Si la distribution est compatible avec la loi normale, les points forment une droite.
Dans la littrature francophone, ce dispositif est appel Droite de Henry.

49

Economtrie linaire applique


Le test de Jarque-Bera [JB]
Principe : Le test de Jarque-Bera, propos en 1980 par Carlos Jarque et Anil Bera, est parmi les tests
de normalit les plus populaires dans les milieux acadmiques. Mais la remarque faire, dores et
dj, est quil est particulirement appropri pour grand chantillon, soit n > 88.
Le test JB est fond sur les coefficients dasymtrie et daplatissement. Sa richesse consiste ce quil
permet de conclure la fois sur lasymtrie et limportance des queues [aplatissement] dune
distribution.
Les hypothses du test sont :
:
{ 0
1 :
Sous lhypothse de normalit de la srie, la statistique du test JB suit asymptotiquement une
distribution du Khi deux degrs de libert avec le risque davoir un seuil de signification =
5%.
La statistique du test est calcule comme suit :
= [

( 3)

( 3)
+
] = [ +
]
6
24
2
4

O est la taille de lchantillon, le Skewness et la Kurtosis.


Valeur lue dans la table de la loi du Khi carr deux degrs de libert
Seuil
1%
5%
valeur
9,210
5,99
Critre de dcision : Si JB la valeur du (2) de la table au seuil , alors Rejet de 0 de normalit.
Exemple :
Reprenant un exemple du chapitre prcdent (tableau 2.2), celui qui met en relation niveau de
revenu rel par tte en milliers de US$. Avec le pourcentage de la force de travail employ dans
lagriculture 1 et la dure moyenne de la scolarit 2 (en annes) pour une population au-dessus de
25 ans. En introduisant la commande suivante sur Eviews [ c 1 2 ], on obtient le rsultat suivant :
Dependent Variable: Y
Method: Least Squares
Sample: 1 15
Included observations: 15
Variable

Coefficient

Std. Error

t-Statistic

Prob.

C
X1
X2

6.202980
-0.376164
0.452514

1.862253
0.132724
0.119511

3.330900
-2.834186
3.786374

0.0060
0.0151
0.0026

0.693203
0.642070
1.011265
12.27188
-19.77853
13.55690
0.000834

Mean dependent var


S.D. dependent var
Akaike info criterion
Schwarz criterion
Hannan-Quinn criter.
Durbin-Watson stat

R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
F-statistic
Prob(F-statistic)

50

9.000000
1.690309
3.037137
3.178747
3.035629
0.946397

Economtrie linaire applique

En choisissant parmi les tests sur les rsidus, le test de normalit.


6

Series: Residuals
Sample 1 15
Observations 15

0
-1.5

51

-1.0

-0.5

0.0

0.5

1.0

1.5

2.0

2.5

Mean
Median
Maximum
Minimum
Std. Dev.
Skewness
Kurtosis

9.77e-16
-0.171322
2.376164
-1.094972
0.936249
1.123134
3.791781

Jarque-Bera
Probability

3.545399
0.169874