Académique Documents
Professionnel Documents
Culture Documents
Position du problme
X et Y sont deux grandeurs statistiques observes
ex: en macro-conomie
PIB, Revenu des mnages, Importations
en micro-conomie
Revenu d un mnage, bnfices d une entreprise...
en mdecine ou autres sujets
taille d un individu, poids...
Hypothse de base : X et Y sont des grandeurs continues,
thoriquement dfinies dans IR. Dans la ralit on se contente
du fait que la diffrence entre deux valeurs de X (resp. Y) ait
un sens (par ex. l ge d une personne n est pas dfinie dans IR,
les valeurs sont discrtes, en revanche la diffrence d ge
entre deux personnes a un sens)
Etude de la corrlation
Position du problme
Evaluer la liaison entre X et Y, i.e rpondre la question X et Y ontils une volution commune ?
1) Etude graphique
Y
(a)
(b)
(c)
(d)
RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse
Le coefficient de corrlation
r=
cov( X , Y )
.
X
(x x )( y
i
(x
x)
y)
(y
y)
Tableau de donnes
i
Y
2.5
4.5
3.5
6.5
4.6
3.5
5.5
4.5
7.8
8.5
Interprtation : sens de
la corrlation
Interprtation : force de
la corrlation
| r |# 1, corrlation forte
r>0, corrlation positive
| r |# 0, corrlation faible
r<0, corrlation ngative
RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse
Attention :
on ne peut pas dcider avec certitude puisque l on
ne connat pas la population totale
mais le degr de confiance que l on accorde la
conclusion peut tre exprim en terme de probabilit
Hypothses tester :
On oppose gnralement une hypothse dite nulle (H0) avec une
hypothse dite alternative (H1), les risques associs la prise de
dcision sont les suivants :
Etat de la
nature (ralit)
H0 est vrai
H0 est faux
(H1 est vrai)
Dcider que
H0 est vrai
Dcision
correcte
RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse
H0 : r = 0
H1 : r 0
Une rgle de dcision simple serait :
RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse
t=
1 r
, on connat en
Student ( n 2)
n2
Loi de distribution de t, une loi de Student (n-2)
degrs de libert; n est le nombre d observations
du tableau statistique.
Rgle de dcision
' = P ( Student ( n 2) t )
La rgle de dcision devient ainsi
Accepter
Rejeter
0)
0)
>
ssi
ssi
'
'
Position du problme
On cherche une fonction f telle que Y=f(X,)
Comment spcifier cette fonction f ?
Thorie valide
Re-spcifier les
donnes
Re-spcifier
le modle
Attention :
Seule la thorie (conomique,) doit nous guider pour la
spcification du modle, les donnes ne doivent servir qu
valider ou invalider les hypothses que l on met
Il est donc ncessaire de bien comprendre les hypothses
sous-jacentes chacune des fonctions proposes
RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse
Formule
Propit
fondamentale
Linaire
Y = aX + b
Log-linaire
Exponentiel
Logarithmique
Y = B X
dy
=a
dx
simplicit
peut tre appliqu directement dans un premier temps pour vrifier
l existence d une relation
estimation directe des paramtres par la mthode des moindres
carrs
dy
y
=a
dx
x
dy
y
=a
dx
surtout utilis quand x=temps (ainsi dx=1)
dans ce cas, la croissance (dcroissance) de y est constant dans le
temps
ex : volution du nombre de pages web dans le monde
ce type d volution ne dure pas longtemps
linarisation : ln(y) = a x + b
dy
=a
dx
x
archtype de la croissance (dcroissance) qui s puise
ex : salaire = f(anciennet) ou vente=f(publicit)
linarisation : y = a ln(x) + b
RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse
Equation
Linarisation
Croissance acclre
large diffusion
Freinage
saturation du march
concurrence
y y
y = ymin + max ax +min
1+ e b
ymax y
ln(
) = ax+b
y ymin
RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse
Position du problme
On veut estimer les paramtres a et b de la fonction
y = a x+b
en utilisant les donnes issues de l chantillonage
y = a0 + a1 x1 + a2 x2 +
L+ a x
p
a 0 , a1 ,
Ka
, p
RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse
y1 1
1
y = 1
i
1
yn 1
x11
xi1
xij
xn1
x1 p a0
a1
xip
xnp a p
Y = Xa
L estimation statistique passe par le rajout d un terme alatoire
qui tient un rle essentiel
Y = Xa +
Le terme alatoire cristallise toutes les insuffisances du
modle :
le modle n est quune caricature de la ralit, la
spcification n est pas toujours rigoureusement exacte
les erreurs de mesure sur les donnes
les fluctuations lies l chantillonage (si on change
d chantillon, on peut obtenir un rsultat diffrent)
Valeur fournie
par le modle
SCR = e
avec e = Y Xa
i
RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse
1) Hypothses
L estimation des moindres carrs et son valuation ne prend
effet que si certaines hypothses sont respectes
Hypothses probabilistes
le modle est linaire en X
les X sont observs sans erreur
E() = 0, en moyenne le modle est bien spcifi
E(2)= 2 la variance de l erreur est constante (htroscdasticit)
E(i, j)=0, les erreurs sont non-corrls
Cov(,x)=0, l erreur est indpendante de la variable explicative
Normale(0, 2 )
Hypothses structurelles
Rang(X X)=p+1 cd (X X)-1 existe
(X X)/n tend vers une matrice finie non singulire
n>p+1, le nombre d observations est suprieur au nombre de
variables explicatives
a = ( X ' X ) 1 X ' Y
3) Interprtation des coefficients
y = a0 + a1 x1 +
L+ a x +L+ a x
j
Toutes choses gales par ailleurs i.e toutes les autres variables sont constantes,
alors
y
=a
x
j
RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse
(y
i
y ) = ( y y ) + ( y y
2
SCT
Variabilit totale
SCE
Variabilit
explique par le
modle
SCR
Variabilit nonexplique
(Variabilit rsiduelle)
SCE
SCR
= 1
R =
SCT
SCT
2
H0 : R2 = 0
H1 : R 2 > 0
2
Sachant que l on dispose du coefficient R estim sur l chantillon.
F=
R2
(1
(n
Fischer( p, n p 1)
p 1)
RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse
H 0 : a = 0
H1 : a 0
j
( X ' X )1
a0
a1
a p
2
i
n p 1
RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse
a j
t=
Student (n p 1)
a
j
On sait que
a j a j
Student (n p 1)
a
j
RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse
a j a j
t / 2
+t / 2
a
j
a j t a a j a j + t a
/2
/2
RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse
Un exemple simple
Effet de l engrais sur le rendement en mas
Rendement
(quintal)
16
18
23
24
28
29
26
31
32
34
Engrais
(kilo)
20
24
28
22
32
28
32
36
41
41
Rendement
R 2 =
F =
0 . 99
862 . 509 (
p value =
0 . 000 )
= 0 . 851 Engrais
a = 0 .029
t=
29 . 36 ( p
value =
0 .000 )
0.785 a 0.916
Y x1 , x2
<R
Y x1 , x2 , x3
Mme si x3 est une variable qui
n apporte aucune information
R 2 = 1
n 1
2
(1 R )
n p 1
Les modles qui introduisent beaucoup de
variables seront pnaliss
RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse
Principe : chercher
les variables les plus corrles avec l endogne
les moins corrles entre elles
Quelques techniques :
RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse
1) La prvision
On dispose du modle :
xh1 ,
et de l observation numro h
sur chacune des variables exognes
La valeur prdite sera :
L+ a x
x K x
+L+ a x
y = a0 + a1 x1 +
y h = a0 + a1 xh1
p p
h2 ,
hp
p hp
Prvision ponctuelle
L erreur de prvision :
eh = yh y h
Intervalle de prvision
La prvision est entache d erreur, il est plus intressant de
produire un intervalle de prvision sur laquelle nous contrlons
la probabilit d erreur
e 2 = 2 X 'h ( X ' X )1 X h + 1
h
avec
x h1
M
x hp
RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse
Sachant que :
eh
Student (n p 1)
eh
yh = y h t [X 'h ( X ' X ) X h + 1] 2
1
L intervalle de prvision
sera d autant plus large
On prend un risque
trs faible
La variance rsiduelle
est forte (standard error
of estimate)
E ( , ) 0
t
t'
Causes probables :
une variable explicative manque
le modle est mal spcifi
les donnes ont t travailles au pralable
RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse
Dtection graphique
Autocorrlation
positive
Autocorrlation
ngative
= 1 +
t
avec
H 0 : = 0
Le test porte sur
H1 : 0
Normale(0,
L indicateur
utilis est
DW =
2
e
e
(
)
t t 1
t =2
i =1
et
d1
>0
d2
?
4-d2
=0
4-d1
?
<0
RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse
Estimation
L estimation s effectue sur l quation en diffrences :
yt yt = a
1
1 ( xt ,1 xt 1,1 ) +
(1 ) + a
L+ a
p ( xt , p
xt
1,
p)
yt + = yt + a
1
1( xt +1,1 xt ,1) + . + a
p ( xt +1, p
(1 ) + a
xt p )
,
RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse
3) La multicolinarit
Problme
On parle de multicolinarit quand le coefficient de
corrlation entre deux variables exognes est proche de 1
rx
xj
#1
x #c x
j
Consquences
Rappelons que
a
(
X
'
X
)
X 'Y
=
2
1
X
X
(
'
)
RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse
chaque variable
R <r
2
xi , x j
Solutions
RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse
Causes probables :
erreur de mesure ou de saisie
vnement exceptionnel
l observation n appartient pas la population tudie
Normale(0, 2 )
Estim l aide de
X
5
6
6.5
5.2
14.5
3
d
3
1
2.5
2
3.5
1.5
0
0
0
0
1
0
y = a0 + a1 x + a2 d
Indique le dcalage
par rapport au modle
RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse
Sexe_Femme
{0,1}
sexe
Sexe_Homme
{0,1}
RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse
C) Analyse de la saisonnalit
(cadre des observations temporelles)
Certaines grandeurs conomiques (ventes, affluence,
trafic ferroviaire) sont influencs par les phnomnes
saisonniers
Ex : donnes trimestrielles
4 variables indicatrices (T1,T2,T3,T4)
RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse
D) Comparaisons de moyennes
(introduction l analyse de variance)
Y a-t-il des facteurs de variations systmatiques pesant
sur une variable d intrt
RAKOTOMALALA Ricco
Cours
Analysede
de Donnes,
Donnes, HEC Lausanne
CoursdAnalyse