Vous êtes sur la page 1sur 59

Introduction à l’économétrie

appliquée sous STATA


Mémoire de politiques du développement
Master 1

Olivia Bertelli– Victoire Girard

Février 2014
Plan de la séance

• Introduction: statistique et économétrie,


quelques définitions
• 1. Visualisation des données (graphiques)
• 2. Exploration des données: statistiques
descriptives
• 3. Modélisation: économétrie linéaire
• Conclusion: autres modèles rencontrés dans la
littérature 2
INTRODUCTION:
Statistique et économétrie,
quelques définitions

3
Statistique: quelques définitions

La statistique, c’est l’art de collecter les données, de les


organiser, de les décrire et de faire des projections pour
expliquer ou prévoir.

Les méthodes statistiques sont l’ensemble des outils


qui permettent d’analyser des faits représentés par des
données.

4
Démarche en statistique

• John Wilder TUKEY (1915-2000):


– 1977: exploratory data analysis.
– 1980: “We need both exploratory
and confirmatory statistics.”
Analyse des données

Analyse exploratoire Analyse confirmatoire


des données des données
idées/découverte vérifier des hypothèses/confirmer
5
Rappel: distinction théorique-
empirique
• La recherche en économie repose sur deux
piliers :
– la production de théories visant à expliquer la
réalité
• modélisation des phénomènes étudiés (choix,
interactions) avec les outils de la microéconomie et
de la macroéconomie
– l'étude de la validité de ces théories lorsqu'on
les confronte aux données réelles
• étude des prédictions théoriques sur données
6
statistiques
Démarche en statistique
Définir une problématique
Question 

 Elaborer un questionnaire

 Choisir une méthode de sondage

 Tirer un échantillon

Phase
préparatoire  Recueillir des informations
 Chiffrer, saisir des questionnaires

 Contrôler

 Corriger
Collecte
 Recoder des variables
Analyse  Elaborer des tableaux (moyennes,

corrélations,…)
 Mettre à l’épreuve des hypothèses

 Modéliser

 Utiliser une règle de décision

Réponse Ne pas promettre la lune! Les statistiques et l’économétrie ne


donnent jamais une réponse exacte au 100%. Vous êtes en
mesure de fournir des résultats moyens avec un certain niveau de
certitude.
7
Définitions

● Une variable aléatoire est une application qui associe


une information simple (observation) à un événement
particulier.

● Un échantillon est un ensemble fini d’observations.

● La distribution d’échantillonage d’une variable


aléatoire G est la distribution des différentes valeurs
que peut prendre G, pour les différents échantillons
d’effectif fixé qu’il serait possible d’extraire de la
population.
8
Types de variables
VARIABLES

Qualitatives Quantitatives

Nominales Ordinales Intervalle Ratio


Ex: sexe Ex: opinion Ex: température Ex: revenu

Données Catégorielles Discrètes ou Continues

Si Recodage en tranches

9
Types de données (ensemble
d’observations)
• Soit N le nombre d’individus et T le nombre de
périodes:
1. Si T=1 et N>1: Cross-section: transversal (même
année ‘à travers’ les individus)
2. Si N>1 et T>1 et N_i=N_i(t+1): Time series:
longitudinal (mêmes individus à travers les
années)
3. Si T>1 et N>1 et N_i≠N_i(t+1): : Time series:
cross-section
10
Types de données

• Exemples de format de base de données en


panel: Format Long Format Large
Id Time Var1 Var1- Var1-
Id 2000 2001 …
1 2000 140
1 140 120 …
1 2001 120
2 130 110 …
2 2000 130
… … … …
2 2001 110

… … …

L’analyse et la modélisation économétrique que vous


choisirez dépendra en partie de la nature des variables
et du type de données dont vous disposerez.
11
Stata:
créer sa base de données et
l’observer
• Commode de partir d’un fichier excel qu’on copie et colle
dans un fichier .dta de Stata
• Quelques commandes pour observer la base de données
– edit
– list
– describe
• Pour nommer des variables: label
• Pour générer des variables: gen

12
1. Visualisation des données:
graphiques

13
La « boite à moustaches »

outliers

max
4ème quart

Q3
médiane
Q1 1er quart
min

graph box gdp_capita

14
Histogrammes

histogram gdp_capita, percent title ("Histogramme")

15
Nuage de points

graph twoway scatter opennessrate gdp_capita


16
2. Exploration des données:
statistiques descriptives

17
Expliquer une variable DEPENDENTE
(Y) par des variables INDEPENDENTES
(X)

coefficient

Terme
paramètre d’erreur
intercepte

18
Terminologie

Source: Wooldridge (2003)


19
Les commandes classiques

– summarize <variables>: pour des variables numériques,


donne (nbre obs, moy, écart-type, min, max)

– tabulate <nom d’une variable>: donne le tri à plat de


la variable (fréquence et % par modalité)

– tabulate <nom de 2 variables>, ro col: donne le


tableau croisé, les % lignes, les % colonnes, et le test
d’indépendance du chi2.

– correlate <variables> : donne la matrice des coefficients


de corrélation

20
La corrélation (1)

y y y
. . . .. . .
. . . . .. . . . .
... . . .. . .
.. . . . . ..
.. . . . .
. .. . . . . ..
. . ... .. .. . . . .
. . . .
.
x x x

Corrélation Corrélation Corrélation


positive négative parfaite

21
La corrélation (2)
y y

. . .
.. .. . . .
. .. . .
. .. . . . . .. . .
. .. . . . . .. . . . .
. .. . . . . .. . . . . . .

x x

Absence de
Corrélation

y y .
. . . . .
. .
.. . . . .
. . .
.
. . . .
x x

Corrélation forte Corrélation faible


22
Calcul du coefficient de
corrélation linéaire
• La représentation graphique ne donne qu’une
impression.
• Pour avoir une idée précise de l’intensité de la
liaison on calcule le coefficient de corrélation
linéaire simple (compris entre -1 et 1):

r
 ( X  X ).(Y  Y )
 
2
( X  X )  (Y  Y ) 2

23
Exemples

24
Limites du coefficient de
corrélation
• Dans la pratique r est rarement proche de -
1, 1 ou 0 :
– Il est donc difficile de proposer une
interprétation fiable à la simple lecture du
coefficient surtout en économie où les variables
sont toutes plus ou moins reliées entre elles.
– Il n’est calculé que sur un échantillon
• La théorie des tests statistiques (t de
Student empirique) nous permet de lever
cette indétermination:
– Sous STATA: pwcorr <variables>, sig
25
Limites du coefficient de
corrélation

 La relation testée est linéaire.


Pour pallier cette limite, on peut transformer
les variables

 Corrélation ne veut pas dire causalité:


« corrélations fortuites ». La modélisation permet
d’aller plus loin.

26
Correlations folles:
http://www.tylervigen.com/

r=
0.992

r=
0.947

27
3. Modélisation:
économétrie linéaire

28
Le rôle de l’économétrie

L’économétrie rassemble l’ensemble des outils statistiques


de validation des théories économiques.

L’économétrie est aussi un outil d’investigation.

29
Recherche de liaisons

X X
Intervalle/ Ordinale/
Ratio Nominale
Y Intervalle/Ratio Régression Analyse de
linéaire variance (Anova)

Y Ordinale/Nominale Régression Régression


logistique/probit logistique/probit

30
La régression linéaire

La régression linéaire se classe parmi les méthodes


d’analyses multivariées qui traitent des données
quantitatives.

C'est une méthode d'investigation sur données


d'observations, ou d’expérimentations, où l'objectif
principal est de rechercher une liaison linéaire entre
une variable Y quantitative et une ou plusieurs variables
X également quantitatives.

31
Expliquer

• Problème:
– Y et =[X1,…,Xn] sont des variables aléatoires.
– Nous disposons d’observations de Y et de .
– On souhaite étudier comment  permet d’expliquer Y.

• On peut chercher à approcher E(Y| =[X1,…,Xn] )


– En se cantonnant à des fonctions linéaires par rapport aux
paramètres: économétrie linéaire
– En utilisant des fonctions non linéaires par rapport aux
paramètres: économétrie non linéaire
– En n’imposant pas de contraintes paramétriques (on ne fait plus
d’hypothèse sur la distribution des résidus): économétrie non
paramétrique 32
La régression linéaire
• C’est la méthode la plus utilisée pour deux
raisons majeures :
– c’est une méthode ancienne,
– c’est l'outil de base de la plupart des
modélisations plus sophistiquées.
• Rappel: On recherche la droite affine qui
passe au plus près de l’ensemble des points.
• Ceci nous permet d’avoir une idée de la
relation linéaire qui existe entre deux ou 33
La régression linéaire

34
La régression linéaire
• Comment trouver la droite qui passe au plus près des
points?
– Critère d’ajustement: le critère des moindres carrés.
– Pourquoi?
• Pour des raisons de simplicité de calcul.
• Pour les propriétés de l’estimateur des moindres carrés.

35
La régression linéaire

36
La régression linéaire: tableau
d’analyse de la variance

Non expliqué par le modèle

Expliqué par le modèle

37
Exemple: The Phillips Curve
Données1958–1969 (USA) suggèrent un
trade-off entre inflation et chomage.

Unemploymentt  0.06 - 0.55·Inflationt

ˆ0  0.06
ˆ1  0.55

38
Exemple: The Phillips Curve (cont.)
Unemploymentt  0.06 - 0.55·Inflationt
• Comment les interpréter?
• Si l’inflation est 0, le chômage augmente de 0.06
points de pourcentage.
• Si l’inflation augmente de 1 points de
pourcentage le chômage diminue de 0.55 points
de pourcentage.

39
U.S.A. Chomage et Inflation, 1958–1969

40
Transformation en log et interprétation

log(Y )  0  1 ·log(X)  
• Le coefficient estimé ne dit plus l’effet d’un
changement d’une unité de X sur Y.
Il montre le changement unitaire de log(X) on log(Y).
• Les changements unitaires de log-X se traduisent en
changement de pourcentage de X.

41
Exemple: The Phillips Curve
• Si chômage et inflation sont en forme
logarithmique, on prédit le changement de
pourcentage de chômage déterminé par un
changement de l’1% de l’inflation
• Attention! Les changements de pourcentage ne
son pas linéaires:
– Si l’inflation augmente de 0.01 a 0.02 =>100%
augmentation
– Si l’inflation augmente de 0.02 a 0.03 => 50%
augmentation

42
Figure 4.6 A Logarithmic Phillips Curve

6-43
Transformation en log et interprétation

Source: Wooldridge (2003)


44
Correlation ou causalité?
• OLS ne va pas donner une relation causale si:
– Variables manquantes (omitted variables bias)
– Causalité inverse
– Erreur de mesure
• Pour s’approcher d’une relation causale:
– Données Panel => séquence temporelle et effets
fixes
– Variation exogène
– Eviter données qualitatives (bien-être)

45
CONCLUSION:
l’économetrie comme utile pour
mieux comprendre les
phénomènes empiriques

46
Dans votre analyse:
• Bien définir la régression d’interet
• D-stat des variables: trends, means-test
• Pourquoi juste de la corrélation et pas de la
causalité? Pourquoi de la causalité?
• Interprétation des coefficients estimés:
direction et magnitude de l’effet

47
Merci!

NB: certaines diapositives de cette séance sont issues de notes du cours de Monique Leguen (AED et
SAS/INSIGHT) et d’une présentation de R. Bazillier et Lionel Page (Une introduction générale aux outils
économétriques).

A travers les années, ces slides ont bénéficié des apports des chargés de TD successifs, merci à tous.

Olivia.bertelli@ehess.fr

48
ANNEXES

49
Biais possibles de variables omises

Source: Wooldridge (2003)


50
Autres transformations possibles

51
La régression linéaire: tableau
d’analyse de la variance

52
La régression linéaire:
Estimation et inférence.
• Jusqu’ici aucune supposition n’était nécessaire.
• Si on veut utiliser les résultats obtenus sur l’échantillon
pour inférer sur la population, il faut faire appel à des
notions de probabilité et de statistique.
• Pour cela, changement de point de vue:
– Il n’y a plus une valeur unique associée à une valeur Xi mais une
distribution de valeurs. Yi est une variable aléatoire qui a une
distribution de probabilité p(Yi|Xi)
– Le résidu observé n’est qu’une estimation de l’erreur
inobservable.
• La régression linéaire suppose que les E(Yi|Xi) sont alignés
sur la vraie droite de régression qui est inconnue.

53
Rappel sur les Estimateurs MCO:
Hypothèses (1)
Hypothèses du modèle de régression multiple en cross-section
(Wooldridge (2003)):
H1: On raisonne en supposant que le modèle linéaire postulé est le
véritable modèle dans la population.
Y = 0 + 1 X1 + … + k Xk +  (=erreur)
H2: Nous disposons d’un échantillon aléatoire de n observations de
coordonnées {(Xi1, Xi2 ,…, Xik , Yi): i = 1,2,…,n} pour le modèle décrit
en H1.
H3: L’espérance mathématique de l’erreur est nulle: en moyenne le
modèle est bien spécifié et donc l’erreur moyenne est nulle.
E( | X1, X2 ,…, Xk )=0

54
Rappel sur les Estimateurs MCO:
Hypothèses (2)
H4: Dans l’échantillon (et donc dans la population), aucune des variables
indépendantes n’est constante et il n’y a pas de relation exactement
linéaire entre les variables indépendantes.
H5: Hypothèse d’homoscédasticité. La variance du terme d’erreur,
conditionnellement aux variables X1, X2 ,…, Xk « explicatives » ou
« indépendantes » est la même:V( | X1, X2 ,…, Xk )=2

55
Le Théorème de Gauss Markov:
H1 à H5

 Si les hypothèses H1 à H5 sont vérifiées l’estimateur


MCO est BLUE (Best linear unbiased estimator):
 Sans biais: E(^)=  (H1 à H4)
 A variance minimale (estimateur le plus efficace
(H5)): ^ est l’estimateur qui possède la variance
la plus faible parmi l’ensemble des estimateurs
linéaires et sans biais.

56
Quid si certaines hypothèses
sont relâchées?
1. Relâche de H1: transformer les variables Y ou X de façon à
rétablir cette relation linéaire (voir annexes)
2. Relâche de H2: il n’y a pas grand-chose à faire… si ce n’est
être conscient que les résultats obtenus ne peuvent être
généralisables
3. Relâche de H3: cela signifie qu’il y a un problème
d’endogénéité (causalité inverse, variable omise, erreur de
mesure): il faut instrumenter
4. Relâche de H4: il faut essayer d’augmenter la taille de
l’échantillon pour diminuer l’hyper corrélation/covariance
entre les variables explicatives
5. Relâche de H5: il faut corriger l’hétéroscédasticité en
utilisant les MCG (Moindre Carrés Généralisés). Plus
57
simplement, utilisez la commande ro.
Econométrie linéaire

• Liste (quasi-exhaustive) des modèles


rencontrés dans la littérature:
– OLS
– 2SLS
– GLS:
• WLS
• 3SLS
• Panel Data
– GMM
– Séries temporelles (Time-series)
• ARIMA
• GARCH
58
Econométrie non linéaire

• Liste (quasi-exhaustive) des modèles rencontrés dans la


littérature:
– GLM
– Probit/Logit
– Poisson
– Maximum Likelihood:
• Politomic variables
• Ordered Probit/Logit
• Conditional Logit/Multinomial Logit
– Tobit Selection Models
– Biprobit
– Duration Models
– Modèles structurels

59