Vous êtes sur la page 1sur 28

Ricco Rakotomalala

Ricco.Rakotomalala@univ-lyon2.fr

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC 1
PLAN
1. Economtrie : Origine(s), dfinition(s) et objectif(s)

2. La dmarche conomtrique

3. Analyse de rgression Lhypothse de linarit

4. Domaines dapplication

5. Types de donnes

6. Bibliographie

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC 2
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC 3
Quelques dfinitions

Dfinition 1.
1. Etudes des relations quantitatives de la vie conomique faisant appel lanalyse
statistique et la formulation mathmatique.

Dfinition 2.
2. L'conomtrie exprime quantitativement les corrlations pouvant exister entre des
phnomnes conomiques dont la thorie affirme l'existence. La thorie conomique fournit
des ides sur les processus qui dterminent les grandeurs conomiques, l'conomtrie
apporte une vrification empirique et tablit quantitativement les corrlations qui apparaissent
valides.

Dfinition 3.
3. Lobjectif de lconomtrie est de confronter un modle conomique un
ensemble de donnes (donnes de panel, srie temporelle, etc.) et ainsi den vrifier la validit.

Dfinition 4.
4. Lconomtrie est une branche de lconomie qui traite de lestimation pratique
des relations conomiques.

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC 4
Carrefour de 3 disciplines
Economiste (Expert du domaine)
Exprime une thorie sur un phnomne conomique
Ex. La demande dpend du prix

Mathmaticien (Modlisation) Statisticien (Estimation)


Propose une formulation Estime les paramtres du
algbrique de la thorie. modle partir de donnes.
Ex. Demande = a * prix + b Validation statistique.
Ex. a = -0.5 ; b = 10

Sous le contrle de lEconomiste


Validation de lExpert du domaine (ex. a est forcment ngatif)

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC 5
Notions cls Modle Economique

Un modle consiste en une prsentation formalise dun phnomne sous


forme dquations mathmatiques.

Comme toutes les variables conomiques sont interdpendantes (notion


de systme), il n'est pas suffisant de construire des quations isoles : il
faut tablir un systme complet d'quations.

Exemple : O = f ( p)
Equations de comportement.
D = g ( p) Thorie conomique

O = D+ Identit

O = a p +b Modlisation
(Introduction dhypothses
D = p+ simplificatrices sur la forme de la relation)

Estimation de a, b, et partir des donnes disponibles

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC 6
Notions cls Modle Economtrique

Faire intervenir lalatoire dans lquation conomique.


Parce que la relation nest pas dterministe.

La spcification retenue est une simplification, il est vident quil ne rsume


pas toute la teneur de la relation (ex. dans les quations, la relation est
vraiment linaire ?)

Il y a dautres facteurs dont on ne tient pas compte (ex. le prix des autres de
biens qui peuvent se substituer au bien tudi)

Les erreurs de mesure sur les grandeurs tudies, soit lors du processus de rcolte
des informations, soit tout simplement parce que la donne rcolte reprsente peu
ou prou le concept que lon veut tudier.

Introduction du facteur alatoire O = a p + b + O


Rsum de toute linformation non prise
en compte dans le modle D = p + +D

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC 7
Notions cls Variable

Les variables reprsentent des grandeurs conomiques observes ou mesures. Ex.


les quantits vendues dun bien, le prix dun bien, des taux dintrt, le solde dune
balance commerciale, le taux de change, etc.

La variable doit tre reprsentative du phnomne que lon tudie, de sa qualit


dpend la validit des rsultats obtenus

 Problmes dinadquation (tudier les ventes de pain, et utiliser


des donnes mesurant les ventes de biscottes)

 Erreur de mesures (problmes lors du recueil des donnes ou


Problmes sur les
des transmissions des donnes), dunits (compter en nombre de
variables
pain vendu, ou en chiffre daffaires)

 Problme de reprsentativit (mesurer uniquement des ventes


des boulangeries, et ne pas tenir compte des ventes en grande
surface)

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC 8
Notions cls Variable alatoire

Une variable alatoire est une grandeur mesurable dont les valeurs
sont soumises une certaine dispersion lors de la rptition dun
processus donn.

La dispersion dune variable alatoire est rgie par une loi de probabilit .

Ex. le rsultat du jet dune pice de monnaie est une variable alatoire, il
prend deux valeurs possibles pile ou face , il suit une loi de
Bernouilli de paramtre p = 0.5.

Remarque : chaque phnomne tudi sa loi de probabilit.

Ex. Dure entre deux phnomnes, nombre doccurrence dun


phnomne dans un laps de temps, nombre dessais avant dobtenir un
rsultat, etc.

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC 9
Notions cls Types de variables

Success Wages Job Refunding


Y 0 Unemployed Slow
N 2000 Skilled Worker Slow
N 1400 Worker Slow
Quantitative N 1573 Retired Slow
Y 2776 Skilled Worker Slow
N 2439 Retired Fast
Qualitative nominale N 862 Office employee Slow
Y 1400 Salesman Slow
N 1700 Skilled Worker Slow
Qualitative ordinale Y 785 Employee Fast
Y 1274 Worker Slow
N 960 Employee Fast
N 1656 Worker Fast
N 0 Unemployed Slow

Le critre le plus important pour distinguer les variables est de


dterminer si lcart entre deux valeurs a un sens, et quelles
sont comparables deux deux.

Ex. Age, Salaires, Satisfaction, Type dtudes suivies,

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC 10
Notions cls Population et chantillon

La population dfinit lensemble dindividus sur lesquels nous voulons travailler :


on parle alors de population de rfrence ou de population parente ou population
mre (ex. les vhicules vendus en France en 2005, etc.). Tous les rsultats
obtenus sont toujours relatifs (circonscrites ) une population.

Les enqutes exhaustives consiste observer tous les individus qui composent
la population. Opration trs coteuse.

On procde alors un chantillonnage, on prlve une fraction de la population


en veillant ce quil soit reprsentatif de la population c.-.-d reflter la
composition et la complexit de la population.

Le taux de sondage correspond au rapport entre la taille de lchantillon et la


taille de la population.

Attention au mauvais chantillonnage.


Comment sassurer que lchantillon est reprsentatif ?
Rle des variables de contrle.

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC 11
Notions cls Infrence statistique

Infrence statistique.. Elle consiste alors effectuer des tudes sur


lchantillon et transposer les rsultats sur la population.

Cette transposition nest pas stricte, elle attache toujours une probabilit
aux rsultats et aux conclusions mises.

Tirer des conclusions sur lexistence ou non dun


phnomne (test dhypothses ex. laugmentation du prix
du tabac rduit-t-il vraiment la consommation de
cigarettes ?)

Estimer les paramtres dun phnomne (estimation de


paramtres ex. une augmentation de 1 euro du prix du
paquet de cigarette rduit de combien le nombre de paquets
vendus ?)

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC 12
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC 13
Attention : Distinguer ce qui relve de la simple rgularit statistique (artefact)
de ce qui reprsente une causalit conomique.

La thorie conomique (la connaissance du domaine) est un


garde-
garde-fou indispensable.

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC 14
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC 15
Source: CRISP-DM 1.0, Step-by-step Data Mining Guide, SPSS Publication

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC 16
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC 17
Analyse de rgression Schma de rgression

Modle une quation : Y = f ( X 1 , X 2 ,K , X p ) +

Prdiction / Explication : Prdire/expliquer les valeurs de Y partir des valeurs de


X1, X2, , Xp.

Y est dite variable endogne , cest la variable donc on essaie de prdire les
valeurs (variable prdire, variable dpendante, explique) ;

X1Xp sont les variables exognes , ce sont les variables qui servent prdire
les valeurs de Y (variables prdictives, variables indpendantes, explicatives).

Les valeurs des X sont donc connues (ou mesures rapidement, facilement), elles
servent prdire les valeurs des Y qui sont inconnues (ou connues avec retard).

Ex 1. Prdire les ventes nationales de pain sur lanne (connu uniquement la fin de lanne)
partir de son prix (connu instantanment).

Ex 2. Expliquer la consommation des pays europens partir du revenu et du taux de chmage.

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC 18
Rgression linaire multiple

Le modle parfait nexiste pas. On procde trs souvent une simplification


supplmentaire en considrant que la liaison est linaire, ou encore on procde
des transformations (de variables) de manire se ramener combinaison linaire
des variables exognes.

 Il faut pouvoir estimer les paramtres, il faut pouvoir les interprter !!!

Y = a 0 + a1 X 1 + a 2 X 2 + K + a p X p +

est le terme derreur. Cest une


variable alatoire. Elle rsume tout
Y quantitative (forcment).
ce que le modle nexplique pas.
X quantitative ou qualitative
recode (0/1).
X est suppos non alatoire.

Y est alatoire cause de .

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC 19
Linarit par rapport aux paramtres

Cest un modle linaire.


Y = a0 + a1 ln( X 1 ) + a2 X 1 + a3 X 12 Cf. Transformation de variables.

0 + 1 X 1
Y= Ce nest pas un modle linaire.
0 + 1 X 2

Y = b e aX
Linaire aprs transformation.
ln(Y ) = ln(b) + aX

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC 20
Evaluation de la rgression linaire

Quel est le pouvoir explicatif du modle ? Est-ce la liaison dcouverte entre Y et


les X est significative ? (c.--d. transposable dans la population et non pas propre
lchantillon observ)

Quel est lapport marginal de chaque variable X dans lexplication des valeurs de
Y ? (c.--d. un paramtre est-il significativement diffrent de 0 ?)

Quelle sont les proprits (notamment la prcision) des paramtres a


obtenus ? (biais, variance)

Quelle sera la qualit de la prdiction des valeurs de Y partir des valeurs de X ?


(intervalle de prdiction, fourchettes)

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC 21
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC 22
Usage de la rgression linaire

Lexplication.. Comprendre la nature des liaisons entre les variables. On


parle galement danalyse
analyse structurelle.
structurelle

Outil privilgi pour valider les thories mises par les conomistes.
Ex. consommation = a * revenu + b : b > 0 , cest la consommation incompressible, a est positif et
srement infrieur 1, [1-a] correspond alors au taux dpargne des mnages)

La prdiction.. Premier usage oprationnel de la rgression. Pour


lanticipation et la prise de dcision.

Ex. La consommation des mnages va augmenter lanne prochaine ?

La simulation et la dfinition des politiques conomiques.. Second usage


oprationnel de la rgression. Permet de dfinir (1) les bonnes politiques
conomiques et (2) den mesurer lavance les consquences.

Ex. Fixer la bonne valeur de la prime la casse .

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC 23
Autres domaines dapplication
Tous les domaines o on essaie de dtecter des relations de causalit

Economiste Expert du domaine

Marketing. Evaluer le budget publicitaire ncessaire une augmentation


significative des ventes.

Sociologie.. Prdire le niveau des notes des tudiants partir de leur ge ou du


nombre de redoublements. Expliquer le niveau dtudes atteint par les tudiants
partir de la profession et des revenus des parents

Agriculture.. Evaluer les rendements des parcelles de terrains partir de la


quantit dengrais utiliss ou du nombre de jours de pluie dans lanne.

Ecologie.. Estimer la mortalit des poissons partir de la quantit de rsidus


rejets par les usines dans les cours deau.

Sant. Evaluer linfluence des complments alimentaires sur la frquence des


maladies cardio-vasculaires (cf. par exemple les omga 3 et les maladies cardio-
vasculaires).

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC 24
quipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC 25
Recueil des donnes

Problme rcurrent : le manque de donnes pertinentes.


Ex. Analyse des processus de blanchiment dargent

Donnes brutes vs. donnes corrigs normalises


Donnes brutes : recueillies directement sur le terrain, trs bonne qualit si prcautions de recueil prises.
Donnes corriges (institut de sondages) : + normalisation des dfinitions ; - dj manipules et
corriges, attention.

Donnes exprimentales vs. donnes non-exprimentales


Donnes exprimentales : contrles dans une exprimentation (ex. doses de mdicaments pour un
cobaye).
Donnes non exprimentales : directement observes.

 X peut tre exprimental ; Y est toujours observ.

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC 26
Donnes transversales, longitudinales, de panel
Rendement Engrais
Parcelle (quintal) (kilo)
A 16 20
B 18 24
Coupes transversales C 23 28
Ligne = individu D 24 22
Ex. Personne, vhicule, client, parcelle de E 28 32
terrain, etc. F 29 28
G 26 32
H 31 36
I 32 41
J 34 41

Donnes temporelles (longitudinales)


Ligne = date
Stock , dfinie sur une date Mois CA (K-euros) Prospectus distribus
Flux dfinie sur une priode janv-04 1250 156
fvr-04 1456 178
Stock  Flux facile (ex. somme, moyenne) mars-04 4863 293
Flux  Stock pas vident (Mars = 5000 euros de CA,
comment dfinir la valeur pour la date du 15 mars ?)

Ex. Recueillir les ventes dun


Donnes de panel chantillon de concessionnaires.
Faire des coupes transversales sur plusieurs dates. Renouveler lopration sur plusieurs
Si on observe spcifiquement les mmes individus, on mois.
parle de cohorte .

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC 27
Bibliographique

http://eric.univ-lyon2.fr/~ricco/cours/cours_econometrie.html

Rgis BOURBONNAIS, Economtrie Manuel et exercices corrigs , Dunod, 1998.

Y.Dodge, V.Rousson, Analyse de rgression applique , Dunod, 2004.

M. Tenenhaus, Statistique : Mthodes pour dcrire, expliquer et prvoir , Dunod,


2007.

Ren GIRAUD, Nicole CHAIX, Economtrie , PUF, 1994. (il existe une version QSJ,
plus accessible)

Jack JOHNSTON, John DINARDO, Mthodes conomtriques , ECONOMICA, 1997.

quipe de recherche en Ingnierie des Connaissances


Laboratoire ERIC 28