Vous êtes sur la page 1sur 28

Ricco Rakotomalala

Universit Lumire Lyon 2

Tutoriels Tanagra pour la Data Science


http://tutoriels-data-mining.blogspot.fr/ 1
PLAN
1. Economtrie : Origine(s), dfinition(s) et objectif(s)

2. La dmarche conomtrique

3. Analyse de rgression Lhypothse de linarit

4. Domaines dapplication

5. Types de donnes

6. Bibliographie

Tutoriels Tanagra pour la Data Science


http://tutoriels-data-mining.blogspot.fr/ 2
Tutoriels Tanagra pour la Data Science
http://tutoriels-data-mining.blogspot.fr/ 3
Quelques dfinitions

Dfinition 1. Etudes des relations quantitatives de la vie conomique faisant appel lanalyse
statistique et la formulation mathmatique.

Dfinition 2. L'conomtrie exprime quantitativement les corrlations pouvant exister entre des
phnomnes conomiques dont la thorie affirme l'existence. La thorie conomique fournit
des ides sur les processus qui dterminent les grandeurs conomiques, l'conomtrie
apporte une vrification empirique et tablit quantitativement les corrlations qui apparaissent
valides.

Dfinition 3. Lobjectif de lconomtrie est de confronter un modle conomique un


ensemble de donnes (donnes de panel, srie temporelle, etc.) et ainsi den vrifier la validit.

Dfinition 4. Lconomtrie est une branche de lconomie qui traite de lestimation pratique
des relations conomiques.

Tutoriels Tanagra pour la Data Science


http://tutoriels-data-mining.blogspot.fr/ 4
Carrefour de 3 disciplines

Economiste (Expert du domaine)


Exprime une thorie sur un phnomne conomique
Ex. La demande dpend du prix

Mathmaticien (Modlisation) Statisticien (Estimation)


Propose une formulation Estime les paramtres du
algbrique de la thorie. modle partir de donnes.
Ex. Demande = a * prix + b Validation statistique.
Ex. a = -0.5 ; b = 10

Sous le contrle de lEconomiste


Validation de lExpert du domaine (ex. a est forcment ngatif)

Tutoriels Tanagra pour la Data Science


http://tutoriels-data-mining.blogspot.fr/ 5
Notions cls Modle Economique

Un modle consiste en une prsentation formalise dun phnomne sous


forme dquations mathmatiques.

Comme toutes les variables conomiques sont interdpendantes (notion


de systme), il n'est pas suffisant de construire des quations isoles : il
faut tablir un systme complet d'quations.

Exemple : O f ( p)
Equations de comportement.
D g ( p) Thorie conomique

O D Identit

O a p b Modlisation
(Introduction dhypothses
D p simplificatrices sur la forme de la relation)

Estimation de a, b, et partir des donnes disponibles

Tutoriels Tanagra pour la Data Science


http://tutoriels-data-mining.blogspot.fr/ 6
Notions cls Modle Economtrique

Faire intervenir lalatoire dans lquation conomique.


Parce que la relation nest pas dterministe.

La spcification retenue est une simplification, il est vident quil ne rsume


pas toute la teneur de la relation (ex. dans les quations, la relation est
vraiment linaire ?)

Il y a dautres facteurs dont on ne tient pas compte (ex. le prix des autres de
biens qui peuvent se substituer au bien tudi)

Les erreurs de mesure sur les grandeurs tudies, soit lors du processus de rcolte
des informations, soit tout simplement parce que la donne rcolte reprsente peu
ou prou le concept que lon veut tudier.

Introduction du facteur alatoire O a p b O


Rsum de toute linformation non prise
en compte dans le modle D p D

Tutoriels Tanagra pour la Data Science


http://tutoriels-data-mining.blogspot.fr/ 7
Notions cls Variable

Les variables reprsentent des grandeurs (conomiques) observes ou mesures.


Ex. les quantits vendues dun bien, le prix dun bien, des taux dintrt, le solde dune
balance commerciale, le taux de change, etc.

La variable doit tre reprsentative du phnomne que lon tudie, de sa qualit


dpend la validit des rsultats obtenus

Problmes dinadquation (tudier les ventes de pain, et utiliser


des donnes mesurant les ventes de biscottes)

Erreur de mesures (problmes lors du recueil des donnes ou


Problmes sur les des transmissions des donnes), dunits (compter en nombre de
variables pain vendu, ou en chiffre daffaires)

Problme de reprsentativit (mesurer uniquement des ventes


des boulangeries, et ne pas tenir compte des ventes en grande
surface)

Tutoriels Tanagra pour la Data Science


http://tutoriels-data-mining.blogspot.fr/ 8
Notions cls Variable alatoire

Une variable alatoire est une grandeur mesurable dont les valeurs sont
soumises une certaine dispersion lors de la rptition dun processus
donn.

La dispersion dune variable alatoire est rgie par une loi de probabilit .

Ex. le rsultat du jet dune pice de monnaie est une variable alatoire, il
prend deux valeurs possibles pile ou face , il suit une loi de
Bernouilli de paramtre p = 0.5.

Remarque : chaque phnomne tudi sa loi de probabilit.

Ex. Dure entre deux phnomnes, nombre doccurrence dun


phnomne dans un laps de temps, nombre dessais avant dobtenir un
rsultat, etc.

Tutoriels Tanagra pour la Data Science


http://tutoriels-data-mining.blogspot.fr/ 9
Notions cls Types de variables

Success Wages Job Refunding


Y 0 Unemployed Slow
N 2000 Skilled Worker Slow
Quantitative N 1400 Worker Slow
N 1573 Retired Slow
Y 2776 Skilled Worker Slow
N 2439 Retired Fast
Qualitative nominale N 862 Office employee Slow
Y 1400 Salesman Slow
N 1700 Skilled Worker Slow
Y 785 Employee Fast
Qualitative ordinale Y 1274 Worker Slow
N 960 Employee Fast
N 1656 Worker Fast
N 0 Unemployed Slow

Le critre le plus important pour distinguer les variables est de


dterminer si lcart entre deux valeurs a un sens, et que ces
carts sont comparables deux deux.

Ex. Age, Salaires, Satisfaction, Type dtudes suivies,

Tutoriels Tanagra pour la Data Science


http://tutoriels-data-mining.blogspot.fr/ 10
Notions cls Population et chantillon

La population dfinit lensemble dindividus sur lesquels nous voulons travailler :


on parle alors de population de rfrence ou de population parente ou population
mre (ex. les vhicules vendus en France en 2005, etc.). Tous les rsultats
obtenus sont toujours relatifs (circonscrites ) une population.

Les enqutes exhaustives consiste observer tous les individus qui composent
la population. Opration trs coteuse.

On procde alors un chantillonnage, on prlve une fraction de la population


en veillant ce quil soit reprsentatif de la population c.-.-d reflter la
composition et la complexit de la population.

Le taux de sondage correspond au rapport entre la taille de lchantillon et la


taille de la population.

Attention au mauvais chantillonnage.


Comment sassurer que lchantillon est reprsentatif ?
Rle des variables de contrle et le redressement.

Tutoriels Tanagra pour la Data Science


http://tutoriels-data-mining.blogspot.fr/ 11
Notions cls Infrence statistique

Infrence statistique. Elle consiste alors effectuer des tudes sur


lchantillon et transposer les rsultats sur la population.

Cette transposition nest pas stricte, elle attache toujours une probabilit
aux rsultats et aux conclusions mises.

Tirer des conclusions sur lexistence ou non dun


phnomne (test dhypothses ex. laugmentation du prix
du tabac rduit-t-il vraiment la consommation de
cigarettes ?) (on parle de Statistique confirmatoire)

Estimer les paramtres dun phnomne (estimation de


paramtres ex. une augmentation de 1 euro du prix du
paquet de cigarette rduit de combien le nombre de paquets
vendus ?)

Tutoriels Tanagra pour la Data Science


http://tutoriels-data-mining.blogspot.fr/ 12
Tutoriels Tanagra pour la Data Science
http://tutoriels-data-mining.blogspot.fr/ 13
THEORIE

Formalisation de la thorie
Modlisation

Confrontation du modle avec la ralit


Estimation conomtrique

Thorie valide Thorie non valide

Re-spcifier les Re-spcifier


donnes le modle

Attention : Distinguer ce qui relve de la simple rgularit statistique (artefact)


de ce qui reprsente une causalit conomique.

La thorie conomique (la connaissance du domaine) est un


garde-fou indispensable.

Tutoriels Tanagra pour la Data Science


http://tutoriels-data-mining.blogspot.fr/ 14
Tutoriels Tanagra pour la Data Science
http://tutoriels-data-mining.blogspot.fr/ 15
Source: CRISP-DM 1.0, Step-by-step Data Mining Guide, SPSS Publication

Tutoriels Tanagra pour la Data Science


http://tutoriels-data-mining.blogspot.fr/ 16
Tutoriels Tanagra pour la Data Science
http://tutoriels-data-mining.blogspot.fr/ 17
Analyse de rgression Schma de rgression

Modle une quation : Y f ( X 1 , X 2 ,, X p )

Prdiction / Explication : Prdire/expliquer les valeurs de Y partir des valeurs de


X1, X2, , Xp.

Y est dite variable endogne , cest la variable donc on essaie de prdire les
valeurs (variable prdire, variable dpendante, explique) ;

X1Xp sont les variables exognes , ce sont les variables qui servent prdire
les valeurs de Y (variables prdictives, variables indpendantes, explicatives).

Les valeurs des X sont donc connues (ou mesures rapidement, facilement), elles
servent prdire les valeurs des Y qui sont inconnues (ou connues avec retard).

Ex 1. Prdire les ventes nationales de pain sur lanne (connu uniquement la fin de lanne)
partir de son prix (connu instantanment).

Ex 2. Expliquer la consommation des pays europens partir du revenu et du taux de chmage.

Tutoriels Tanagra pour la Data Science


http://tutoriels-data-mining.blogspot.fr/ 18
Rgression linaire multiple

Le modle parfait nexiste pas. On procde trs souvent une simplification


supplmentaire en considrant que la liaison est linaire, ou encore on procde
des transformations (de variables) de manire se ramener combinaison linaire
des variables exognes.

Il faut pouvoir estimer les paramtres, il faut pouvoir les interprter !!!

Y a0 a1 X 1 a2 X 2 a p X p

est le terme derreur. Cest une


variable alatoire. Elle rsume tout
Y quantitative (forcment).
ce que le modle nexplique pas.
X quantitative ou qualitative
recode (0/1).
X est suppos non alatoire.

Y est alatoire cause de .

Tutoriels Tanagra pour la Data Science


http://tutoriels-data-mining.blogspot.fr/ 19
Linarit par rapport aux paramtres

Cest un modle linaire.


Y a0 a1 ln( X 1 ) a2 X 1 a3 X 12 Cf. Transformation de variables.

0 1 X 1
Y Ce nest pas un modle linaire.
0 1 X 2

Y b e aX
Linaire aprs transformation.
ln(Y ) ln(b) aX

Tutoriels Tanagra pour la Data Science


http://tutoriels-data-mining.blogspot.fr/ 20
Evaluation de la rgression linaire

Quel est le pouvoir explicatif du modle ? Est-ce la liaison dcouverte entre Y


et les X est significative ? (c.--d. transposable dans la population et non pas
propre lchantillon observ)

Quel est lapport marginal de chaque variable X dans lexplication des valeurs
de Y ? (c.--d. un paramtre est-il significativement diffrent de 0 ?)

Quelle sont les proprits (notamment la prcision) des paramtres a


obtenus ? (biais, variance)

Quelle sera la qualit de la prdiction des valeurs de Y partir des valeurs de X ?


(intervalle de prdiction, fourchettes)

Tutoriels Tanagra pour la Data Science


http://tutoriels-data-mining.blogspot.fr/ 21
Tutoriels Tanagra pour la Data Science
http://tutoriels-data-mining.blogspot.fr/ 22
Usage de la rgression linaire

Lexplication. Comprendre la nature des liaisons entre les variables. On


parle galement danalyse structurelle.

Outil privilgi pour valider les thories mises par les conomistes.
Ex. consommation = a * revenu + b : b > 0 , cest la consommation incompressible, a est positif et
srement infrieur 1, [1-a] correspond alors au taux dpargne des mnages)

La prdiction. Premier usage oprationnel de la rgression. Pour


lanticipation et la prise de dcision.

Ex. La consommation des mnages va augmenter lanne prochaine ?

La simulation et la dfinition des politiques conomiques. Second usage


oprationnel de la rgression. Permet de dfinir (1) les bonnes politiques
conomiques et (2) den mesurer lavance les consquences.

Ex. Fixer la bonne valeur de la prime la casse .

Tutoriels Tanagra pour la Data Science


http://tutoriels-data-mining.blogspot.fr/ 23
Autres domaines dapplication
Tous les domaines o on essaie de dtecter (exploiter) des relations de causalit

Economiste Expert du domaine

Marketing. Evaluer le budget publicitaire ncessaire une augmentation


significative des ventes.

Sociologie. Prdire le niveau des notes des tudiants partir de leur ge ou


du nombre de redoublements. Expliquer le niveau dtudes atteint par les
tudiants partir de la profession et des revenus des parents

Agriculture. Evaluer les rendements des parcelles de terrains partir de la


quantit dengrais utiliss ou du nombre de jours de pluie dans lanne.

Ecologie. Estimer la mortalit des poissons partir de la quantit de rsidus


rejets par les usines dans les cours deau.

Sant. Evaluer linfluence des complments alimentaires sur la frquence des


maladies cardio-vasculaires (cf. par exemple les omga 3 et les maladies
cardio-vasculaires).

Tutoriels Tanagra pour la Data Science


http://tutoriels-data-mining.blogspot.fr/ 24
Tutoriels Tanagra pour la Data Science
http://tutoriels-data-mining.blogspot.fr/ 25
Recueil des donnes

Problme rcurrent : le manque de donnes pertinentes.


Ex. Analyse des processus de blanchiment dargent, impact du secteur informel sur la croissance, etc.

Donnes brutes vs. donnes corrigs normalises


Donnes brutes : recueillies directement sur le terrain, trs bonne qualit si prcautions de recueil prises.
Donnes corriges (institut de sondages) : + normalisation des dfinitions ; - dj manipules et
corriges, attention, risque de retrouver simplement les corrections des statisticiens.

Donnes exprimentales vs. donnes non-exprimentales


Donnes exprimentales : contrles dans une exprimentation (ex. doses de mdicaments pour un
cobaye).
Donnes non exprimentales : directement observes.

X peut tre exprimental ; Y est toujours observ.

Tutoriels Tanagra pour la Data Science


http://tutoriels-data-mining.blogspot.fr/ 26
Donnes transversales, longitudinales, de panel

Rendement Engrais
Parcelle (quintal) (kilo)
A 16 20
B 18 24
Coupes transversales C 23 28
Ligne = individu D 24 22
Ex. Personne, vhicule, client, parcelle de E 28 32
terrain, etc. F 29 28
G 26 32
H 31 36
I 32 41
J 34 41

Donnes temporelles (longitudinales)


Ligne = date
Stock , dfinie sur une date Mois CA (K-euros) Prospectus distribus
Flux dfinie sur une priode janv-04 1250 156
fvr-04 1456 178
Stock Flux facile (ex. somme, moyenne) mars-04 4863 293
Flux Stock pas vident (Mars = 5000 euros de CA,
comment dfinir la valeur pour la date du 15 mars ?)

Donnes de panel Ex. Recueillir les ventes dun


Faire des coupes transversales sur plusieurs dates. chantillon de concessionnaires.
Si on observe spcifiquement les mmes individus, on Renouveler lopration sur plusieurs
parle de cohorte . mois.

Tutoriels Tanagra pour la Data Science


http://tutoriels-data-mining.blogspot.fr/ 27
Bibliographie

http://eric.univ-lyon2.fr/~ricco/cours/cours_econometrie.html

Rgis BOURBONNAIS, Economtrie Manuel et exercices corrigs , Dunod, 1998.

Y.Dodge, V.Rousson, Analyse de rgression applique , Dunod, 2004.

M. Tenenhaus, Statistique : Mthodes pour dcrire, expliquer et prvoir , Dunod, 2007.

Ren GIRAUD, Nicole CHAIX, Economtrie , PUF, 1994. (il existe une version QSJ, plus accessible)

Jack JOHNSTON, John DINARDO, Mthodes conomtriques , ECONOMICA, 1997.

Tutoriels Tanagra pour la Data Science


http://tutoriels-data-mining.blogspot.fr/ 28

Vous aimerez peut-être aussi