Vous êtes sur la page 1sur 45

'

&
$
%

Econometrie non parametrique


I. Estimation dune densite
Stephane Adjemian
Universite d

Evry
Janvier 2004
1
'
&
$
%
1 Introduction
1.1 Pourquoi estimer une densite ?


Etudier la distribution des richesses...
Proposer un resume dun exercice de monte-carlo...
La distribution asymptotique dune statistique peut dependre
dun param`etre de nuisance lie `a une distribution inconnue...
2
'
&
$
%
5 4 3 2 1 0 1 2 3 4 5
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5
Produit relatif par tte
D
e
n
s
i
t

1960
3
'
&
$
%
5 4 3 2 1 0 1 2 3 4 5
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5
Produit relatif par tte
D
e
n
s
i
t

1998
1960

4
'
&
$
%
Test de Dickey Fuller
Soit le processus generateur des donnees suivant :
y
t
= y
t1
+
t
(1)
avec
t
N(0, 1). On estime le mod`ele :
y
t
= y
t1
+u
t
, pour t = 1, . . . , T (2)
La statistique de Dickey Fuller (pour tester = 1 contre || < 1)
est Z(
T
) = T(
T
1). On connat sa distribution asymptotique :
Z(
T
) =
T
1
2
W(1)
2
1
_
1
0
W(r)
2
dr
(3)
` a quoi peut bien ressembler cette distribution ?...
5
'
&
$
%
Monte Carlo
Id

ee : Simuler le mod`ele sous lhypoth`ese nulle, puis estimer (pour


chaque serie temporelle simulee) la statistique de test.
B = 50000;
T = 20000;
statistics = zeros(B,1);
for(i=0;i<B;i++)
{
epsilon = rann(T,1);
y = sumc(epsilon);
rho = y[0:T-2][1]*y[1:T-1][1]/
(y[0:T-2][1]*y[0:T-2][1]);
statistics[i][1] = T*(rho-1);
}
6
'
&
$
%
20 15 10 5 0 5
0
0.05
0.1
0.15
0.2
0.25
7
'
&
$
%
La variance de lestimateur de la mediane dune variable aleatoire
X est egale ` a (1/4)n
1
f
2
(0), o` u f() est la densite (inconnue)
de la variable aleatoire X.
1.2 Comment estimer une densite ?
1.2.1 Approche parametrique
Supposons que lon observe la realisation dune suite de variables
aleatoires independantes et identiques en loi (x
1
, x
2
, . . . , x
n
). Si on a
une idee precise du processus generateur des donnees, on peut alors
estimer la densite en utilisant un estimateur du maximum de
vraisemblance.
Exemple : Supposons que lon ait X
i
N(, 1), sa densite est alors
8
'
&
$
%
donnee par :
f
X
(x) =
1

2
e

1
2
(x)
2
Estimer la densite se ram`ene alors `a estimer un unique param`etre
(lesperance ). Limites evidentes...
1.2.2 Approche non-parametrique
Lhistograme. Il sagit de lestimateur le plus simple. Cet
estimateur nest pas con cu pour les variables aleatoires continues
mais discr`etes... Cela peut poser des probl`emes (par exemple
lorsque lon etudie la distribution mondiale des richesses).
Lestimateur
`
a noyau. Il sagit de lestimateur le plus
populaire. Il est adapte aux variables aleatoires continues (mais
surtout pas aux v.a. discr`etes).
9
'
&
$
%
2 LHistogramme
Soit X une variable aleatoire continue. On note f sa densite de
probabilite. On dispose dun echantillon de n realisations
(X
1
, . . . , X
n
) tirees dans cette distribution inconnue.
En selectionnant une origine x
0
on peut construire des intervalles:
B
j
= [x
0
+ (j 1)h, x
0
+jh] pour j dans Z
o` u h > 0 est le param`etre de binwidth qui denit la taille des
intervalles.
Lhistogramme estime la densite f au point x de la fa con
suivante :

f
h
(x) =
1
nh
n

i=1

j
I
X
i
B
j
I
xB
j
(4)
10
'
&
$
%
2.1 Construction de lhistogramme
2.2 Histogramme et Maximum de Vraisemblance
2.3 Biais
Supposons que x
0
= 0 ( B
j
= [(j 1)h, jh[) et que x B
j
.
Biais
_

f
h
(x)
_
=
1
nh
n

i=1
E
_
I
{X
i
B
j
}
(x)

f(x)
Biais
_

f
h
(x)
_
= f

(m
j
(h)) (m
j
(h) x) +o(h)
Biais
_

f
h
(x)
_
f

(m
j
(h)) (m
j
(h) x)
o` u m
j
(h) =
_
j
1
2
_
h est le centre de lintervalle B
j
. On voit que le
biais est generalement non nul, sauf si la densite est une fonction en
escalier...
11
'
&
$
%
2.4 Variance
V
_

f
h
(x)
_
=
1
nh
f(x) +o
_
1
nh
_
Une diminution du param`etre h induit une augmentation de la
variance et une augmentation du biais. Comment choisir le
param`etre de binwidth?
2.5 Mean Squared Error
MSE
_

f
h
(x)
_
= E
_
_

f
h
(x) f(x)
_
2
_
MSE
_

f
h
(x)
_
= V
_

f
h
(x)
_
+ Biais
_

f
h
(x)
_
2
12
'
&
$
%
MSE
_

f
h
(x)
_
=
1
nh
f(x)+f

(m
j
(h))
2
(m
j
(h) x)
2
+o(h)+o
_
1
nh
_
On note que lerreur quadratique moyenne tend vers zero lorsque h
tend vers zero et nh tend vers linni. Le param`etre h doit tendre
moins vite vers zero que la taille de lechantillon (n) tend vers
linni... Quelle vitesse relative ?... Le comportement de la MSE
implique la convergence au sens de L
2
de lhistogramme vers f(x) et
donc la convergence en probabilite.
Pb La MSE est une mesure locale, on obtient une mesure globale en
integrant la MSE sur le support de la variable aleatoire dinteret.
MISE
_

f
h
(x)
_
=
_

MSE
_

f
h
(x)
_
dx
13
'
&
$
%
MISE
_

f
h
(x)
_

1
nh
+
h
2
12
_
f

(x)dx pour h 0
Asymptotiquement, la MISE est donnee par :
AMISE
_

f
h
(x)
_
=
1
nh
+
h
2
12
f

2
2
2.6 Param`etre de binwidth optimal
On va choisir le param`etre de binwidth de fa con `a minimiser lAMISE.
h

=
_
6
nf

2
2
_
1/3
Ce resultat nous donne la vitesse de convergence de h vers zero
lorsque la taille de lechantillon n tend vers linni, ie
h

(n) n

1
3
.
14
'
&
$
%
Pour avoir une idee plus precise du h optimal il faut evaluer
f

2
2
... Pb On ne connat pas f()...
En premi`ere approximation, on peut supposer que le DGP est
gaussien, ie f(x) = (2)
1/2
e

1
2
x
2
. On obtient alors :
h

=
_
24

n
_
1
3
Cette approximation est valable si la vraie distribution nest pas
trop eloignee dune distribution gaussienne.
2.7 Limites de lhistogramme...
15
'
&
$
%
3 Lestimateur `a noyau
3.1 Un histogramme local
Estimer une densite en un point x `a laide dun histogramme consiste
essentiellement ` a compter le nombre de realisations appartenant `a un
intervalle contenant x. Lestimateur `a noyau de la densite en un
point x est construit en comptant le nombre dobservations dans un
intervalle autour de x. Plus formellement :

f
h
(x) =
1
2nh
Card {X
i
[x h, x +h]}
ou de fa con equivalente :

f
h
(x) =
1
2nh
N

i=1
I
{|
xX
i
h
|
1
}
(x)
16
'
&
$
%
Plus generalement, on adopte les notations suivantes :

f
h
(x) =
1
nh
N

i=1
K
_
x X
i
h
_
avec
K(u) =
1
2
I
{|u|1}
o` u K() est le noyau (ou la fenetre) uniforme. Pour ce noyau, les
observations sont identiquement ponderees dans la determination de

f
h
(x). Le choix du noyau est arbitraire... On pourrait attribuer plus
de poids aux observations les plus proches de x.
17
'
&
$
%
Fenetre K(u)
Uniform
1
2
I
|u|1
Bartlett (1 |u|)I
|u|1
Epanechnikov
3
4
(1 u
2
)I
|u|1
Quartic
15
16
(1 u
2
)
2
I
|u|1
Triweight
35
32
(1 u
2
)
3
I
|u|1
Gaussian
1

2
e

1
2
u
2
Cosinus

4
cos
_

2
u
_
I
|u|1
Table 1: Quelques Noyaux
18
'
&
$
%
On supposera que le noyau satisfait les hypoth`eses suivantes:
(i) K() est une fonction symetrique autour de zero.
(ii)
_
K(u)du = 1
(iii)
_
K(u)
2
du = K
2
2
<
(iv)
_
u
2
K(u)du =
2
(K) = 0
3.2 Proprietes statistiques
3.2.1 Le biais
Biais
_

f
h
(x)
_
=
h
2
f

(x)
2

2
(K) +o(h
2
)
Pour reduire le biais il faut choisir un petit param`etre de lissage...
Rapport ` a la convexite de la densite f(x)...
19
'
&
$
%
3.2.2 La variance
V
_

f
h
(x)
_
=
1
nh
K
2
2
f(x) +o
_
1
nh
_
lorsque nh
La variance est dautant plus grande que le param`etre de lissage est
faible. On retrouve larbitrage entre biais et variance...
3.2.3 Erreur quadratique moyenne MSE
MSE
_

f
h
(x)
_
=
h
4
4
f

(x)
2

2
2
(K) +
1
nh
K
2
2
f(x) +o(h
4
) +o(
1
nh
)
Lerreur quadratique moyenne tend vers zero lorsque h tend vers zero
et nh tend vers linni convergence en probabilite de

f
h
(x) vers la
densite f(x). Il sagit dune mesure locale...
20
'
&
$
%
3.2.4 MISE
On obtient une mesure globale de la distance entre lestimateur `a
noyau et la densite en integrant la MSE:
MISE
_

f
h
_
=
1
nh
K
2
2
+
h
4
4

2
2
(K)f

2
2
+o
_
1
nh
_
+o(h
4
)
En ignorant les termes dordre superieurs, on obtient lapproximation
suivante :
AMISE
_

f
h
_
=
1
nh
K
2
2
+
h
4
4

2
2
(K)f

2
2
La valeur de h qui minimise lAMISE est alors :
h

=
_
K
2
2

2
2
(K)f

2
2
n
_
1
5
21
'
&
$
%
Lexpression du param`etre de lissage optimal h

depend de la derivee
seconde de la densite (inconnue) mais elle nous donne la vitesse de
convergence optimale de h vers zero relativement `a la divergence de
la taille de lechantillon : h

1
5
.
En substituant h

dans lexpression de lAMISE on montre que pour


lestimateur ` a noyau :
n
4
5
AMISE
_

f
h

_
= O(1)
Alors que pour lhistogramme on a :
n
2
3
AMISE
_

f
h

_
= O(1)
On voit ainsi que la vitesse de convergence de lestimateur ` a noyau
est superieure ` a celle de lhistogramme.
22
'
&
$
%
3.3 Choix du param`etre de lissage
3.3.1 La r`egle du pouce (Silverman)
On veut choisir le param`etre de lissage qui minimise lAMISE, mais
on ne connat pas la norme de la derivee seconde de la densite que
nous cherchons ` a estimer. En premi`ere approximation, pour obtenir
h

, on va supposer que f est la densite dune v.a. gaussienne


desperance et de variance
2
. On a alors :
f

2
2
=
3
8
5

0, 212
5
et donc, si on utilise un noyau gaussien,

1, 06 n

1
5
Si la fenetre nest pas gaussienne on doit changer le chire devant
lecart type empirique...
23
'
&
$
%
Ce choix du param`etre de lissage peut se reveler desastreux si la
vraie distribution est eloignee du cas gaussien.
On peut facilement proposer un crit`ere modie pour tenir
compte de la presence eventuelle de points aberrants. Plutot que
dutiliser lecart type pour evaluer la dispersion de la distribution
on utilise lecart interquartile qui a lavantage de ne pas etre
sensible aux points aberrants.

1, 06 min
_
,

R
1, 34
_
n

1
5
o` u

R est lecart interquartile empirique.
Cette correction est insusante dans de nombreux cas... Par
exemple si la vraie densite est multi-modale.
24
'
&
$
%
3.3.2 Des Plug-in methods ameliorees
Plutot que de calculer la norme de la derivee seconde en
parametrisant la vraie distribution, on va directement lestimer.
Park et Marron (JASA, 1990)
Sheather et Jones (JRSS, 1991)
Pour estimer la derivee s-i`eme de la densite f on utilise lestimateur `a
noyau suivant :

f
(s)
h
(x) =
(1)
s
nh
s+1
n

i=1
K
(s)
_
x X
i
h
_
En particulier pour s = 2, on a :

f
(2)
g
(x) =
1
ng
3
n

i=1
K
(2)
_
x X
i
g
_
25
'
&
$
%
Probl`eme : Comment doit-on choisir le param`etre de lissage pour
estimer la derivee seconde de f? On va une nouvelle fois utiliser la
r`egle du pouce en supposant que la densite est gaussienne. Notons
que nous formulons cette hypoth`ese plus en amont (il sagit de
determiner le param`etre de lissage de lestimateur de f

). Des
simulations permettent de montrer que cette hypoth`ese devient alors,
en pratique, moins genante.
PJ90 montrent que lon doit avoir :
g =
_
18K
(4)

4
2
(K)

2
2
(K K)K
2
2
f
2
f

2
2
f

2
2
_
1
13
h
10
13
si on choisit g de fa con ` a minimiser lAMISE (de

f

g
), o` u h est le
param`etre de lissage de lestimateur de f. On determine les
fonctionnelles de f en faisant une hypoth`ese parametrique.
26
'
&
$
%
Finalement, PM1990 obtiennent le param`etre de lissage associe `a
lestimateur ` a noyau de la densite comme un point xe :

PM
=
_
_
_
K
2
2

g(

PM
)

2
2

2
2
(K)n
_
_
_
1
5
Sheather et Jones 1991...
3.3.3 Cross-Validation
On a obtenu un param`etre de lissage optimal en minimisant une
approximation asymptotique de
_
E
_
(

f
h
(x) f(x))
2
_
dx AMISE
27
'
&
$
%
LAMISE est une mesure globale de la distance entre lestimateur `a
noyau est la vraie densite. Dans cette section on consid`ere une
mesure alternative de cette distance, lerreur quadratique integree,
ISE
_

f
h
_
=
_
(

f
h
(x) f(x))
2
dx
Contrairement ` a la MISE, cette mesure est une variable aleatoire. En
developpant, il vient :
ISE
_

f
h
_
=
_

f
2
h
(x)dx 2
_

f
h
(x)f(x)dx +
_

f
2
(x)dx
Par la suite on omet le dernier terme puisquil ne depend pas de h.
Le terme croise sinterpr`ete comme une esperance :
_

f
h
(x)f(x)dx E
_

f
h
(X)
_
28
'
&
$
%
Un estimateur sans biais (leave one out estimator) de lesperance de

f
h
(X) est donne par :

E
_

f
h
(X)
_
=
1
n
n

i=1

f
h,i
(X
i
)
avec

f
h,i
(x) =
1
n 1
n

j=1,j=i
K
_
x X
j
h
_
Par ailleurs, on montre que :
_

f
h
(x)
2
dx =
1
n
2
h
n

i=1
n

j=1
K K
_
X
i
X
j
h
_
o` u K K est la convolution du noyau par lui meme. Finalement, on
29
'
&
$
%
obtient un param`etre h en minimisant le crit`ere suivant :
CV (h) =
1
n
2
h
n

i=1
n

j=1
K K
_
X
i
X
j
h
_
2
1
n
n

i=1

f
h,i
(X
i
)
Remarque : Si K() est le noyau gaussien, alors on a :
K K(u) =
_

K(x)K(u x)dx =
1
2

1
4
u
2
la densite dune loi normale desperance nulle et de variance 2.
30
'
&
$
%
3.4 Retour sur les proprietes statistiques
Proposition Sous les hypoth`eses (i ) (x
1
, x
2
, . . . , x
n
) un echantillon
iid, (ii ) le noyau est une fonction symetrique autour de zero veriant
_
K(u)du = 0,
_
u
2
K(u)du = 0 =
2
= 0 et
_
K(u)
2
du < , (iii ) les
derivees secondes de f sont continues et bornees dans un voisinage de
x, (iv) h tend vers zero lorsque n tend vers linni et nh tend vers
linni lorsque n tend vers linni, (v) > 0 tel que
_
K(u)
2+
< , alors on a le resultat asymptotique suivant :
(nh)
1
2
_

f
h
(x) E
_

f
h
(x)
__
=
n
N
_
0, f(x)K
2
2
_
(5)
En pratique on sinteresse plut ot `a la distribution asymptotique de
(nh)
1
2
_

f
h
(x) f(x)
_
pour construire un intervalle de conance...
31
'
&
$
%
(nh)
1
2
_

f
h
(x) f(x)
_
= (nh)
1
2
_

f
h
(x) E
_

f
h
(x)
__
+ (nh)
1
2
_
E
_

f
h
(x)
_
f(x)
_
Le membre de gauche sera asymptotiquement centre en zero si et
seulement si le deuxi`eme terme (le biais de lestimateur `a noyau) du
membre de droite tend vers zero lorsque n tend vers linni. Sachant
que le biais est un O(h
2
), une condition susante est:
(nh)
1
2
h
2

n
0
Si cette hypoth`ese est veriee, alors :
(nh)
1
2
_

f
h
(x) f(x)
_
=
n
N
_
0, f(x)K
2
2
_
Do` u, sous cette hypoth`ese, lintervalle de conance `a 95% :

f
h
(x) 1, 96(nh)

1
2
_
f(x)K
2
2

1
2
32
'
&
$
%
Probl`eme : Lhypoth`ese sur h, qui nous permet de construire cet
intervalle de conance, est incompatible avec un param`etre de lissage
obtenu en minimisant lAMISE.
Posons h = c n

1
5
+
. Pour = 0 on retrouve le param`etre de
lissage optimal. Pour > 0 (resp. < 0) on obtient un cas de
sur-lissage (resp. sous-lissage). En substituant cette expression dans
la condition susante qui nous permet de construire lintervalle de
conance, on voit cette condition est veriee seulement dans le cas o` u
< 0. Le biais disparat asymptotiquement dans le cas du
sous-lissage.
Si h est optimal, au sens o` u il minimise lAMISE, la condition
susante nest pas veriee. Utiliser lintervalle de conance deni
plus haut revient ` a supposer que le biais est negligeable (ie la derivee
seconde de la densite est petite).
33
'
&
$
%
3.5 Un estimateur alternatif de la densite
Soit X une variable aleatoire et f() sa densite sur lintervalle [0, 1]
(on pourrait considerer un support plus large).
On suppose que la fonction de densite admet une representation de
Fourrier (decomposition comme la somme de fonctions sinus et
cosinus), cest-`a-dire que lon peut ecrire :
f(x) =

i=1
a
j

j
(x)
o` u a
j
=
_
1
0
f(x)
j
(x)dx E[
j
(X)] et

j
(x) =
_
_
_

2 cos((j + 1)x), si j pair,

2 sin(jx), sinon.
34
'
&
$
%
Un estimateur convergent du coecient a
j
est donne par :
a
j
= n
1
n

i=1

j
(x
i
)
Un estimateur de la densite est alors :

f
m
(x) =
m

i=1
a
j

j
(x)
o` u le param`etre m de troncation joue un role analogue au param`etre
de lissage dans lestimateur `a noyau.
On pourrait considerer dautres series orthogonales que les series de
Fourrier (par exemple les polynomes hermitien)
35
'
&
$
%
3.6 Le cas multivarie
Soit un vecteur aleatoire de dimension d : X = (X
1
, X
2
, . . . , X
d
)

, o` u
X
i
est une variable aleatoire univariee. On dispose dun echantillon
iid de dimension n : (X
1
, X
2
, . . . , X
n
).
Cet echantillon est iid mais X
1,i
nest pas necessairement
independant de X
2,i
(pour i = 1, ..., n).
On note f(x
1
, . . . , x
d
) la densite jointe de cette variable aleatoire
multivariee.
On generalise lestimateur `a noyau de la fa con suivante :
f
H
(x) =
1
n|H|
n

i=1
K
_
H
1
(X
i
x)
_
avec x = (x
1
, . . . , x
d
)

, o` u H est la matrice de bandwidth et K(u) est


une fenetre multivariee.
36
'
&
$
%
La fenetre multivariee verie les hypoth`eses usuelles :
_
K(u)du = 1,
_
uK(u)du =

0 (symetrie),
_
uu

K(u)du =
2
(K)I
d
> 0 et
_
K(u)
2
du = K
2
2
< .
Alternatives pour la fenetre multivariee :
Utiliser une densite multivarie, comme, par exemple une densite
normale de dimension d : (2)

d
2
e

1
2
u

u
. De la meme fa con on
peut generaliser la fenetre dEpanechnikov :
K(u) =
1
2
c
1
d
(d + 2)(1 u

u)I
{u

u1}
(u)
avec c
1
= 2, c
2
= , c
3
= 4/3. O` u c
d
est le volume de la sph`ere
unite de dimension d.
37
'
&
$
%
Utiliser un produit de fenetres univariees :
K(u) =
d

j=1
K
j
(u
j
)
Par exemple dans le cas dune fenetre dEpanechnikov, en
supposant que la matrice de lissage est diagonale,
lestimateur ` a noyau aurait la forme suivante :

f
h
1
,...,h
d
=
1
nh
1
...h
d
_
3
4
_
d

i=1
d

j=1
_
1
_
x
j
X
j,i
h
j
_
2
_
I

x
j
X
j,i
h
j

1
38
'
&
$
%
Remarque : Dans le cas de la fenetre gaussienne on a equivalence
entre les deux specications.
La matrice de lissage H est denie positive.
Rappel : Lapproximation `a lordre deux dune fonction f : R
d
R
dans C
2
est donnee par :
f(x +s) = f(x) +s

f
(x) +
1
2
s

H
f
(x)s +o
_
s
2
_
o` u
f
(x) est le gradient de f evalue en x et H
f
(x) est le hessien de f
evalue en x.
39
'
&
$
%
3.6.1 Proprietes statistiques
Le biais :
E
_

f
H
(x)
_
= E
X
[K
H
(x X)]
=
_
K
H
(u x)f(u)du
=
_
K(s)f(x +Hs)ds

_
K(s)
_
f(x) +s

f
(x) +
1
2
s

H
f
(x)s
_
ds
= f(x) +
1
2

2
(K)trace {H

H
f
(x)H}
Do` u le biais au asymptotique integre :
AIBiais{

f
H
} =
1
2

2
(K)
_
trace {H

H
f
(x)H} dx
40
'
&
$
%
La variance : On proc`ede de la meme fa con avec une approximation
` a lordre un et on obtient la variance asymptotique integree :
AIV{

f
H
} =
K
2
2
n|H|
Finalement, lAMISE est donnee par :
AMISE{

f
H
} =
1
4

2
2
(K)
_
trace {H

H
f
(x)H}
2
dx +
K
2
2
n|H|
An devaluer la vitesse de convergence de lestimateur `a noyau
multivarie, on va supposer que la matrice de lissage est H = hI
d
.
LAMISE secrit alors de la fa con suivante :
AMISE{

f
h
} =
h
4
4

2
2
(K)
_
trace {H
f
(x)}
2
dx +
K
2
2
nh
d
41
'
&
$
%
La matrice qui minimise lAMISE verie alors:
h

= O
_
n

1
4+d
_
et on a :
AMISE{

f
h

} = O
_
n

4
4+d
_
La vitesse de convergence de lestimateur `a noyau depend de la
dimension de la variable aleatoire. Elle est dautant plus faible que la
dimension est grande (curse of dimensionality).
3.6.2 Choix du param`etre de lissage
Rule of Thumb : On suppose que le processus generateur des
donnees est gaussien, desperance et de matrice de
variance-covariance . Si la fenetre est gaussienne, alors on a

2
(K) = 1 et K
2
2
= 2
d

d
2
. Si la matrice est diagonale, on peut
42
'
&
$
%
alors montrer que la matrice de lissage qui minimise lAMISE est
diagonale et verie :
h

j
=
_
4
d + 2
_
1
d+4
n

1
d+4

j
On ne peut obtenir la matrice de lissage optimale dans le cas plus
general o` u la matrice est non diagonale. Mais le resultat precedant
sugg`ere dutiliser :
H

= n

1
d+4

1
2
Cela revient ` a appliquer une transformation de Mahalanobis aux
observations.
43
'
&
$
%
Cross-Validation : On generalise le crit`ere obtenu dans le cadre
univarie de la fa con suivante :
cv(H) =
1
n
2
|H|
n

i=1
n

j=1
K K
_
H
1
(X
j
X
i
)
_

2
n(n 1)
n

i=1
n

j=1,j=i
K
H
(X
j
X
i
)
Il reste alors ` a minimiser cv(H) para rapport `a d(d + 1)/2
param`etres...
44
'
&
$
%
Bibliographie
Trois ouvrages utilises pour preparer ce chapitre :
Adrian Pagan et Aman Ullah (1999), Nonparametric
Econometrics, Cambridge University Press.
Wolfgang H

ardle, Marlene M

uller, Stefan Sperlich et Axel


Werwatz (1999), A course on Non- and Semiparametric
Modelling, Humboldt-Universit at zu Berlin.
B.W. Silverman (1986), Density estimation for Statistics and
Data Analysis, Chapman and Hall.
45

Vous aimerez peut-être aussi