Vous êtes sur la page 1sur 10

14/09/2013

1.
Dfinition et modlisation conomtrique
a) Prsentation du modle

Introduction lconomtrie
II. Modle de rgression linaire simple
Claudio Araujo
CERDI, Universit dAuvergne
Clermont-Ferrand, France
www.cerdi.org
http://www.cerdi.org/claudio-araujo/perso/

Une rgression conomtrique permet de dcrire et


dvaluer la relation entre une variable dpendante (y) et
une ou plusieurs variables indpendantes (xk).
Dans le modle de rgression simple, k = 1.
Dans le modle de rgression multiple, k > 1.

Afin dobtenir des information des variables pour


lensemble dune population, on fait de linfrence
statistique.
Infrence statistique : consiste obtenir des informations sur
la population partir de lchantillon.
Echantillon : sous-ensemble de la population tudie.
Licence 3

1.

Dfinition et modlisation conomtrique

Lestimation du modle peut tre ponctuelle


(obtention dune valeur spcifique du paramtre) ou
par intervalle (la vraie valeur du paramtre est
comprise dans un intervalle de confiance).
Le plus souvent, on sintresse aux proprits
dune variable conditionnellement dautres
variables.
Proprit conditionnelle : esprance dune variable y
conditionnelle la variable x. E(y|x) = f(x)

Dpendante, endogne, explique,


rgressant, de rponse

Indpendante, exogne, explicative,


rgresseur, de contrle
Licence 3

Claudio Araujo, CERDI

1.

Dfinition et modlisation conomtrique

Dans une rgression, la variable y et la (ou les) variable(s) x


est (sont) traite(s) de manire asymtrique.
La variable y est suppose tre alatoire ou stochastique.
La (ou les) variable(s) x est (sont) suppose(s), au sens strict, avoir
des valeurs fixes dun chantillon lautre.

En raison du caractre alatoire de y, les valeurs observes


dvient de leur esprance conditionnelle. Cette dviation est
qualifie dcart alatoire ().
Cas dune rgression linaire simple :

yi = ( yi xi , i ) = 1 + 2 xi + i

1 : ordonne lorigine (constante - intercept)


2 : pente, mesure limpact marginal, ceteris paribus, de x sur y.
Licence 3

14/09/2013

1.

Dfinition et modlisation conomtrique

1.

b) Rle des erreurs stochastiques

Calculer la valeur thorique de y, sachant que


1 = 1000 et 2 = 0,8 ; dans le cas dune rgression linaire.

Revenu
Consommation
disponible (x)
observe (y)
9 000
8 170

Consommation
thorique
8 200

Cobs Cth

On remarque que la relation spcifie entre y et x ne


peut pas tre dterministe.

30

9 500
11 000

8 800
9 700

8 600
9 800

200
100

12 000

10 500

10 600

100

13 500

11 200

11 800

600

11 000

9 674

Le processus de gnration des donnes (PGD) est


inconnu.
Il est souvent impossible dobserver la totalit des
variables y et x de la population.
On doit ajouter un terme alatoire, (terme derreur ou
perturbation stochastique) au processus.
On peut obtenir une estimation de ; le estim est
appel rsidu.

y i = 1 + 2 x i + i

Moyenne
Licence 3

1.

Du point de vue statistique : ralisation dune variable


alatoire, ayant sa propre distribution de probabilit pour
chaque i (ou t, dans le cas des TS).
Du point de vue conomique :

Licence 3

Dfinition et modlisation conomtrique

Interprtation de lcart alatoire :

Erreur de spcification : la seule variable explicative nest pas


suffisante pour rendre compte de la totalit du phnomne
expliqu.
Erreur de mesure : les donnes ne reprsentent pas
exactement le phnomne.
Erreur de fluctuation dchantillonnage : les observations
comprises dans lchantillon, et donc les estimations, peuvent
tre diffrentes.

Consquences des termes alatoires


Licence 3

Claudio Araujo, CERDI

Dfinition et modlisation conomtrique

1.

Dfinition et modlisation conomtrique

c) Mthodes destimation

Mthode des moments

Principe : lestimation des moments de la population doivent


tre estim par les moments de lchantillon (moyenne,
variance, ).
On estime plusieurs paramtres. Il doit y avoir autant de
conditions sur les moments que de paramtres estimer.
Dans le cas o le nombre de conditions sur le moments est
suprieur au nombre de paramtres estimer, le modle est
sur-identifi : utilisation de la mthode des moments
gnraliss (GMM).
Estimateurs robuste (problme des points aberrants).
Aucune hypothse particulire concernant la distribution des
carts alatoires est ncessaire.
Licence 3

14/09/2013

1.

Dfinition et modlisation conomtrique

Mthode du maximum de vraisemblance

Principe : des populations diffrentes engendrent des


chantillons diffrents. Il est plus vraisemblable quun
chantillon donn provienne dune population particulire.
La mthode consiste estimer les paramtres inconnus
de manire maximiser la probabilit dobserver les yi
sachant la valeur de xi.
On suppose que les yi (i) sont distribus normalement et
indpendamment (nid) de moyenne 1 + 2 xi et de
variance .

1.

Mthode des moindres carrs

Principe : estimation des moments de la distribution de


la population autours de zro.

Soit la rgression suivante :

yi = 1 + 2 xi + i

Licence 3

Exercices pratiques
Calculer la valeur thorique de demande
dessence sachant que : 1 = 0.117 et
2 = 0,168 ; dans le cas dune rgression linaire.
Prix de
lessence
0.054

Demande
dessence
0.011

0.061
0.073

0.049
0.077

0.166

0.115

0.469

0.054

Demande
Dobs Dth
thorique
Travailler avec la source des
donnes qui est sur la
plateforme pdagogique.
Donnes en log ; priode de
1960 1995.
D = f (P)

Dfinition et modlisation conomtrique

On cherche les valeurs des coefficients 1 et 2 qui


minimisent la somme des carrs des carts alatoires.

Licence 3

2.

Lestimation des paramtres par les MCO

a) La mthode des moindres carrs ordinaires (MCO


/ OLS)

Cette mthode consiste ajuster le nuage de points


laide dune droite en minimisant la distance au carr
entre chaque valeur observe et la droite destimation.
Cette distance mesure le rsidu () pour chaque
observation :

ei = i = yi y i

Moyenne
Licence 3

Claudio Araujo, CERDI

Licence 3

14/09/2013

2.

Lestimation des paramtres par les MCO

2.

y4

4 {

y3
y2

Les estimateurs des coefficients sont obtenus en


minimisant la somme du carr des rsidus (SCR)

E(y) = 1 + 2x

i =1

i =1

Conditions de 1er ordre

=0
1

.} 1

x2

x4

x3

2.

Lestimation des paramtres par les MCO

On obtient les estimateurs 1 et 2 partir des quations normales :

( x x )( y y ) x y nx y
n

(x x )
i =1

i =1
n

i i
2
i

x
i =1

nx

2
>0
2 1

1 = y 2 x

(R Rm)

(C Cm) * (R Rm)

1 504
874

2 000
1 500

4 000 000
2 250 000

3 008 000
1 311 000

26
826

1 000

1 000 000

826 000

2 500
SOMME

6 250 000
13 500 000

3 815 000
8 960 000

Claudio Araujo, CERDI

2
>0
22

quations normales

Lestimation des paramtres par les MCO

^1 = 2 373,26 (ordonne lorigine) ;


^2 = 0,66 (pente de la droite)

Le coefficient 2 mesure limpact dune variation du


revenu sur la consommation (2 = y / x).
Interprtation (en supposant que x et y soient mesurs
en ) : Si x varie d1 point de %, y varie de 0,66 .
Ne pas confondre rgression et corrlation.

R - Rm (x)

Licence 3

En utilisant les donnes de consommation et revenu,


on obtient les valeurs suivantes pour les estimateurs :

C Cm (y)

1 526

1 , 2

i
Licence 3

2.

= Min

2 yi n1 2 xi = 0

Licence 3

i =1

Conditions de 2nd ordre

=0
2

2 xi yi 1 xi 2 xi2 = 0

x1

2 =

Min i2 = Min yi 1 2 xi

} 3

2 { .

y1

Lestimation des paramtres par les MCO

b) Calcul des estimateurs

Dans une rgression, les variables sont traites de manire


asymtrique (y : alatoire ; x : fixe).
Quant la corrlation, les variables sont traites de manire
symtrique (x et y : alatoires).
Licence 3

14/09/2013

2.

Lestimation des paramtres par les MCO

c) La corrlation

Lorsque deux phnomnes ont une volution commune, ils


sont corrls .
La corrlation simple (multiple) mesure le degr de liaison
existant entre ces deux (plusieurs) phnomnes.
La corrlation entre les variables peut tre positive, ngative
ou non corrles. Linaire ou non linaire.
Le coefficient de corrlation linaire simple permet de
calculer lintensit de la liaison. Il varie entre 1 et 1.

x, y =

cov( x, y )

x y

2.

Ce coefficient est calcul partir dun chantillon


dobservations et non pas sur la population.
On peut tester la significativit de ce coefficient
laide de la thorie des tests statistiques (t de
Student empirique).

(x x )( y y )
i =1

Soit H0 : x,y = 0 ; HA : x,y 0


On rejette H0 ( est significativement diffrent de 0) au
seuil ( = 0,05) et N 2 ddl, si : *
t > t n 22
Soit :

t* =

Lestimation des paramtres par les MCO

i =1

i =1

(1 )
2
x, y

n2

(x x ) ( y y )
i

x, y

Licence 3

Licence 3

2.

Lestimation des paramtres par les MCO

Exercices pratiques

Limites de la corrlation

La relation teste est linaire.

Par exemple : lquation dun cercle donn par :


(x x) + (y y) = R

Les variables x et y sont lies entre elles, mais leur


covariance est nulle, est donc = 0.

Une corrlation diffrente de 0, nimplique pas une


liaison dordre conomique (ou physique ou autre)
corrlation fortuite.

Par exemple : nombre de taches solaires et taux de


criminalit.
Licence 3

Claudio Araujo, CERDI

Calculer le coefficient de corrlation.


Liaison entre rendement de mas (x) dune parcelle de terre et la
quantit dengrais (y)
Tracer le nuage de points, commenter, calculer le coefficient de
corrlation et tester sa signification ( = 5%)
Rendement Engrais Rendement Engrais Rendement Engrais

16
18
23
24

20
24
28
22

28
29
26
31

32
28
32
36

32
34

41
41

Licence 3

14/09/2013

3.

3.

Identification et proprits des estimateurs

a) Notion dun estimateur

Soit les variables alatoires x et y, leurs distributions sont


caractrises par .
La population originale est compose de toutes les valeurs de x et
y.
Le paramtre est une des caractristiques paramtrique de cette
population.
x et/ou y peuvent tre continu ou discret.
Lestimation de dpend de linformation de lchantillon, on peut
la dcrire par une formule destimation : lestimateur

=
y , y ,L , y ; x , x , L , x

1
2
N
1
2
N

Sans biais si

Modle linaire par rapport ses paramtres.


Fonction couramment utilis pour linariser un modle par
rapport ses paramtres : logarithme nprien (ou naturel).
Proprit importante : approximation dune variation en
proportion.
Diffrents types de fonctions et interprtation de 2
Niveau niveau : y = 2 x
Log niveau : % y (100 2) x
Niveau log : y = ( 2 / 100) % x
Log log : % y ( 2) % x
Licence 3

Claudio Araujo, CERDI

Asymptotiquement sans biais si

()

limn E =

Fonction linaire des


observation de lchantillon
Non-biais
Variance minimale

3.

Convergent si

p lim =

(consistant en franglais )

Meilleur Estimateur linaire


sans biais (BLUE) si les 3
conditions sont satisfaites:

Efficience asymptotique, si les 3


conditions sont satisfaites
Distribution asymptotique avec
moyenne et variance finies
Convergent
Variance asymptotique minimale
Licence 3

Identification et proprit des estimateurs

Lestimateur est sans biais

Lestimateur existe

()

=
E

Non-biais
Variance minimale

Identification et proprit des estimateurs

b) Proprits sur petits chantillons

Proprits sur chantillon de taille


infinie (proprits asymptotiques)

Efficace si les 2 conditions


suivantes sont satisfaites:

Lestimateur a des proprits que lon distingue selon la taille de


lchantillon.
Licence 3

3.

Identification et proprit des estimateurs

Proprits sur petit


chantillon

Lerreur (conditionnelle) est, en moyenne, nulle.

La variable x doit tre strictement exogne par rapport au terme


derreur :

E( | x) = 0 E() = 0
E( | x) = 0 = E() Cov( , x) = 0 E( . x) = 0

x et ne sont pas corrls au temps :


E(t | xt) = 0 Cov(t , xt) = 0
x na aucun effet dcal sur le terme derreur :
E(t | xt-s) = 0 Cov(t , xt-s) = 0, s > 0
Le terme derreur na aucun effet dcal sur x :
E(t | xt+s) = 0 Cov(t , xt+s) = 0 Cov(t-s , xt) = 0, s > 0

Sous ces hypothses la valeur moyenne des estimations est


)=
gale la valeur vraie du paramtre :
E (
Licence 3

14/09/2013

3.

Identification et proprit des estimateurs

()

Illustrations graphiques

La variance de lerreur est constante (ou homoscdastique)

Elle ne dpend pas de x et ne varie pas au cours du temps


V( | x) = V() = E( ) =

Non-biais

Il ny a pas de corrlation srielle dans les erreurs


(indpendance srielle des carts)

3.

Lestimateur est BLUE (best linear unbiased estimator)

Identification et proprit des estimateurs

= E

Efficience

Corr(t , s | x) = 0
Il ny a pas de corrlation entre les erreur linstant t et une erreur
suivante (s > t) ou prcdente (s < t).

()

Licence 3

3.

Licence 3

Identification et proprit des estimateurs

3.

Identification et proprit des estimateurs

d) Caractristiques de base de la distribution de

()

Moyenne
Variance

()

() [

( )] = E( ) [E( )]

Var = E E

Biais

Erreur Quadratique
Moyen (MSE)

Erreur dchantillonnage

Licence 3

Claudio Araujo, CERDI

Sous lhypothses de Gauss Markov (existence, sans


biais et efficience), lestimateur MCO est BLUE
Si une hypothse est viole, lestimateur nest pas BLUE.

c) Proprits sur grandes


chantillons de taille infinie
(proprit asymptotiques)
Lestimateur est consistant
(convergent)
Un estimateur sans biais
est ncessairement
convergent, mais linverse
nest pas vrai.
Pour les donnes
temporelles, il suffit que
E(t | xt) = 0 pour quun
estimateur soit convergent.
Un estimateur efficient ne
garantit pas, non plus, la
convergence dun
estimateur.

()

Il peut avoir conflit entre


absence de biais et variance
minimale. La minimisation de
lEQM (MSE) est un moyen
darbitrer

Licence 3

14/09/2013

3.

Identification et proprit des estimateurs

4.
Biais

Variance minimale

Erreur
Quadratique
Moyen (MSE)

()

Non-biais

MSE = E

Dispersion
leve

[ () () ]
{[ ( )] [ ( ) ]}
= E[ E( )] + E[E( ) ] + 2E[ E( )][E( ) ]
2

MSE = E E + E
= E E + E
2

Infrence statistique

a) Normalit des erreurs


Les caractristiques de lchantillon refltent, avec
une certaine marge derreur, celles de la population.
Pour pouvoir induire les paramtres inconnus ()
dune population sur un chantillon issu de cette
population, on pose lhypothse de normalits des
erreurs

Soit i N(0,)

Sous les hypothses du modle de rgression linaire classique :

i i
i
N (0,1) i
t n 2 , i = (1,2 )

V ( i )

Variance

(Biais)

4.

Licence 3

=0

Infrence statistique

b) Test sur un seul coefficient : t ratio


Soit lquation suivante : yi = 1 + 2 xi + i
Etapes pour effectuer un test sur un seul coefficient:
1. Estimation de 1 , 2 , 1 , 2 par MCO
2*
2. Calcul de la statistique t de Student empirique t * = 2
2
2* : valeur de 2 sous H0
*
Lorsque 2 = 0 et que le test est bilatral, t* est appel le
RATIO t de Student (t-ratio test).
3. Prciser les H0 et HA et choisir un seuil de significativit (taille
du test, ). Seuil frquent : 10%, 5% ou 1%.
4. Sous les hypothses du modle de rgression classique, la
statistique du t de Student empirique suit une loi de Student
N K degrs de libert (cte comprise ds k).
Licence 3

Claudio Araujo, CERDI

Licence 3

4.

5.

Infrence statistique

Utiliser la table statistique (Student) pour obtenir la valeur


critique (quantile de la distribution, au-del duquel
lhypothse nulle est rejete).
Pour un test bilatral, avec k = 2, = 10% et N = 30 ;
ddl = N K = 28

H0 : 2 = 2*

Pour un test unilatral :

Rgion de non
rejet (H0)

HA : 2 2*

H0 : 2 = 2*
HA soit : 2 > 2*, si partie droite

f(t)

HA soit : 2 < 2*, si partie gauche

H0

(1)
(%)

90 %
HA

- t/2

2*

(%)

+ t/2

HA

Licence 3

14/09/2013

4.

6.

Utiliser la rgle de dcision suivante :

4.

Infrence statistique

1. Estimation de 1 , 2 , 1 , 2 par MCO


2. Choix du seuil de significativit, , pour obtenir un
intervalle de confiance (1 ) %. Par exemple si =
0,05, intervalle de confiance = 95%.
3. Utiliser la table statistique de Student pour obtenir la
valeur critique, ddl = N K.
4. Lintervalle de confiance est donne par :

Pour un test bilatral, H0 est rejete si

2 2*
S 2

> t N 2K

Pour un test unilatral dans la partie droite , H0 est rejete si


2 2*
> tN K
S

Pour un test unilatral dans la partie gauche, H0 est rejete si

{(

2 2*
S 2

d)

Licence 3

Claudio Araujo, CERDI

Licence 3

Infrence statistique

Les tests dhypothses permettent dvaluer la robustesse dun modle


estim.
Les tests dhypothses conomiques sont conditionns au non rejet de la
spcification conomtrique.
Le principe consiste comparer des paramtres. Confrontation dune
hypothse nulle (ou restreinte) H0 une hypothse alternative (HA).
Rappel : Aucune hypothse ne peut tre dfinitivement infirme. Elle est test
en liaison avec dautres hypothses auxiliaires.
Ne pas rejeter H0 contre HA signifie que H0 est provisoirement accepte .
Cela ne signifie nullement lacceptation de H0.
Si une hypothse nulle est rejete %, cela signifie que le rsultat est
qualifi de significatif % .
Si H0 est rejete 1 %, elle sera aussi rejete 5 % et 10 %.
Un rsultat peut tre significatif au niveau statistique mais marginal sur le plan
conomique.

5. On rejette H0, si 2* se trouve lextrieur de lintervalle


de confiance
Le test bilatral sur coefficient et lintervalle de confiance
aboutissent toujours aux mmes conclusions.

< t N K

Interprtation et observations

t N K S 2 , 2 + t N K S 2

Licence 3

4.

Infrence statistique

c) Intervalle de confiance

4.

Infrence statistique

Schmatiquement : 2 sous-rgions
Rejet de H0

Non rejet de H0

Erreur de premire espce


Taille du test

est la probabilit de
rejeter H0 sachant quelle
est vraie

seuil de signification
p-value
Licence 3

14/09/2013

4.

Infrence statistique

Il nest pas exclu daccepter H0 sachant quelle est fausse


Erreur de deuxime espce ()
La dcision se traduit par 2 erreurs : et antagonistes

5.

a) Equation fondamentale
N

SCT = ( yi y )

Dcision
Hypothses
vraies

H0

H0
Pas derreur

HA

HA

i =1

Puissance
dun test
(1 ) : puissance dun test. Mesure de la probabilit de
rejeter H0 sachant quelle est fausse
Plus la rgion dacceptation est grande plus est leve
Lerreur de premire espce est plus grave que lerreur de
deuxime espce

3 paramtres du modle
Obs : ne pas confondre ici et Licence
avec les

5.

Lajustement par la droite des MCO est meilleur quand


SCE est proche de SCT
Pour mesurer la qualit dajustement (goodness-of-fit)
on utilise le coefficient de dtermination, R.

SCE
SCR
= 1
SCT
SCT
Le R varie entre 0 et 1.
Plus le R est proche de 1, mieux est lajustement de la
droite de rgression. Mais lobjectif nest pas de
maximiser le R.
R2 =

Licence 3

Claudio Araujo, CERDI

SCR = ( yi y i ) = i2
2

i =1

SCE = ( y i y )

i =1

Somme des carrs des rsidus

SCT = SCE + SCR


Cf. dmonstration dans
lABC dE page 55

Somme des carrs explique


Licence 3

ANOVA

b) Coefficient de dtermination

ANOVA (ANalysis Of VAriance)

Exercices pratiques
Calculer le coefficient de dtermination pour les
modle de consommation.
Vous devez calculer : SCT, SCE et SCR partir du
tableau contenant, le revenu disponible et la
consommation observe.

Calculer le coefficient de dtermination pour les


modle de demande dessence en fonction du
prix.
Licence 3

10