Vous êtes sur la page 1sur 12

Introduction

Supposons que nous observons n variables aléatoires indépendantes


identiquement distribuées (i,i,d) X 1 , X 2 , X n de densité de probabilité

inconnue f de dans [ 0,+¥ [


Soit F ( x ) = P ( X 1 £ x ) la fonction de répartition de la loi de X la fonction de
répartition empirique est estimée par :

1 n
F n (x ) = å1
n i =1 ( X i £ x )

La loi fort des grands nombres nous donne

" xÎ F n ( x ) ¾¾¾p¾® F ( x ) si n ¾¾¾¾


®¥

Rosenblatt (1956) est le premier qui a donné un exemple d’estimateur à partir


de Fn ( x ) pour h > 0 est petit h > 0

F n (x +h) - F n (x - h)
f (x )
2h

2.1.1 La construction d’un estimateur à noyaux


Rappelons que la densité de probabilité f est égale à la dérivée de la fonction
de répartition F (si cette dérivée existe) . On peut donc écrire

F n (x + h) - F n (x - h)
f ( x ) = lim
h® 0 2h

P (x - h <X < x + h)
= lim
h® 0 2h

Un estimateur de f ( x ) est alors :


1 P (x - h < X i < x +h)
f (x ) =
2h n
1 n
= å 1{x - h < X i < x + h}
2hn i =1

1 n ìï x - Xi ü
ï
= åI
2hn i =1
í - 1<
ïî h
< 1ý
ïþ

Notons que cet estimateur peut encore s’écrire comme

1 n 1
f ( x ) = å 1{x - h < X i <x +h}
nh i =1 2

1 n 1 æX i - x ö
= å K 0 çç ÷
÷
n i =1 2 è h ø

ìï 1/ 2 si y Î [ - 1,1]
K0(y ) =í
ïî 0 sinon

Avec K 0 (.) La densité de probabilité uniforme sur l’intervalle [ - 1,1] est appelée
noyau de Rosenblatt Cet estimateur peut être généralisé en remplaçant la
fonction de poids K 0 (.) par une fonction de poids plus générale K par exemple
une densité de probabilité quelconque ( Normale, Gamma, Bêta …… etc )

Notion de noyaux
Nous définitions maintenant plus généralement la notion d’estimateur à noyau

Définition soit K : ¾¾¾¾® +


une fonction intégrable tel que ò K (u ) du = 1

K est dit noyau.

Pour nÎ *
on appelle hn > 0 la fenêtre ou paramétré de lissage et f (x )
d’estimateur à noyau de la densité de probabilité f définit pour tout x Î par

1 n æX i - x ö
= åK
nh i =1
çç
è h
÷
÷
ø
Dans cette partie,nous présentons d’estimateur d’une densité de probabilité ‘a
noyau symétrique , puis nous donnons les différentes propriétés de cet
estimateur tel que le Biais la Variance,le MSE ,et le MISE.Puis nous précisions le
choix de paramètre de lissage h .

Définition Un noyau est dit symétrique si, pour tout u dans son ensemble de
définition K (u ) = K ( - u ) , " u dans sa domaine de définition.

ce qui implique l’égalité suivante :

òuK (u ) du = 0
De plus,elle est de carré intégrable

ò K (u ) du < ¥
2

et nous avons aussi la variance de K finie

òu K (u ) du < ¥
2

Exemples des noyaux continus symétriques


Voici quelques exemples de noyaux symétriques les plus utilisés

Noyaux Supports Densités


2
Biwieght [ - 1,1] K (u ) = 15
16 (1- u 2 )
Epanechnikov [ - 1,1] K (u ) = 3 1 - u 2
4 ( )
Gaussien K (u ) = 1 (
exp - u 2 / 2 )
2p
Rectangulaire [ - 1,1] K (u ) = 1
2
Triangulaire [ - 1,1] K (u ) = 1 - u 1{u £1}

Exemples des noyaux symétriques


Propriétés d’un estimateur à noyau symétrique
La fonction x ¾¾¾¾® f ( x ) est une densité de probabilité

Démonstration Soit f ( x ) un estimateur non paramétrique à noyau symétrique


définit par :

1 n æX - x ö
f (x ) = å
nh i =1
K ç i
ç h ÷
÷
è n ø

f ( x ) vérifie ò f ( x )dx =1 .En effet


1 n æX - x ö
ò f ( x )dx =ò åK
nh i =1
ç i
ç h ÷dx
÷
è n ø

1 n æX - x ö
= åòK ç i
ç h ÷dx
÷
nh i =1 è n ø
1 æX - x ö
=
h
ò K çç
è h ø
÷
÷dx

X -x
Car les X i sont i.i.d en posent u =
u

=ò K ( x )dx = 1

Biais ponctuel
Le biais ponctuel mesure la déférence entre la valeur moyenne de l’estimateur

f ( x ) et la valeur de la fonction inconnue f en un point x

( ) ( )
biais f ( x ) = Ε f ( x ) - f ( x )

Soit x fixe dans Le biais de l’estimateur à noyau présenté dans f ( x ) est :



h2
(
biais f ( x ) ) = f
2
"
( x ) ò uK (u ) du +o ( h

2
)
Les variables aléatoires sont i.i.d nous avons donc :

1 æn æX i - x öö
(
Ε f (x ) = ) Ε çå K çç ÷÷
÷
nh çè i =1 è h øø
÷

1 æ æX - x öö
= ΕçK çç ÷÷
÷
h çè è h øø
÷

1 +¥ æy - x ö
= ò K çç ÷
÷f ( y ) dy
h -¥ è h ø

1 +¥
= ò K (u ) f ( x +uh ) du
h -¥
en u=
y-x
h

En utilisant le développement de Taylor de f au voisinage de x on obtient :


2 ''

f ( x +uh ) = f ( x ) + huf ' ( x ) + ( ) ( x ) +o


uh f
2 (u h )
2 2
+¥ é '' 2 ù
Ε f (x ) =ò K (u ) êêf ( x ) + f
f ( x )(uh ) +o h ú
( ) -¥ êë
'
( x ) uh + 2 ( ) 2
údu
ú
û
+¥ +¥
h 2 +¥ 2
Ε f (x ) = f (x )ò
( ) K (u )du + hf ( x ) ò uK (u )du + f ( x ) ò u K (u )du
' ''

-¥ -¥ 2 -¥

Sous les conditions précédents on a :

h 2 +¥ 2
(
Ε f (x ) ) = f ( x ) + f ( x ) ò u K (u )du +o h 2
''
( )
2 -¥

Ainsi

h2
( ) (
biais f ( x ) = Ε f ( x ) ) - f (x ) = f
2
"
( x ) ò uK (u ) du +o ( h

2
)

Variance ponctuelle

Soit x fixe dans . La variance de l’estimateur f ( x ) est :


1 +¥
æ1 ö
(
V ar f ( x ) ) = f ( x ) ò uK 2 (u )du +o çç ÷ ÷
nh -¥ è nh ø

ìï n 1 æX i - x öü
ï
Var f ( x ) =Var í å
( ) K çç ÷
÷ý
ïî i =1 nh è h øïþ

ì æX - x ööü
1ï 1 æ

é æX - x öù ÷ 1 2æ ï
= í 2 Ε çç êK çç ÷ú
÷ú ÷ - Ε çK çç ÷÷
÷ ý
n ï h çè êë è h øû ÷ n çè ÷
è h øøïþ
î ø

1 +¥ 2 é 1 +¥ ù2
(
Var f ( x ) ) = ò K (u ) f ( x +uh ) du - ê ò K (u ) f ( x +uh ) du ú
nh - ¥ êë n - ¥ ú
û

Le terme

é 1 +¥ ù2
ê ò K (u ) f ( x +uh ) du ú ¾¾¾n¾¾¾ ¾®¾¾¾® 0
êë n - ¥ ú
û
¾¾¾¾ ¥

Donc
1 +¥
æ1 ö
(
V ar f ( x ) ) = f ( x ) ò uK 2 (u )du +o çç ÷ ÷
nh -¥ è nh ø

Ainsi

Biais

h2
(
biais f ( x ) ) = f
2
"
(x )u h 2
2
( )
+o h 2



u 2 = ò u 2 K (u )du

Variance

1 æ1 ö
(
V ar f ( x ) = ) nh
f ( x ) R ( K ) +o çç ÷ ÷
è nh ø



R ( K ) = ò K 2 (u )du

Pour un h ( )
petit le biais f ( x ) dépend de f ''
( x ) et du moment d’ordre 2 du
''
noyau,le Biais est de signe de f (x )
n ¾¾¾¾¾
®¥
(
Si h = hn ¾¾¾¾¾¾¾¾¾® 0 alors biais f ( x ) ¾¾¾¾® 0 )
n ¾¾¾¾¾
®¥ n ¾¾¾¾¾
®¥
Si h = hn ¾¾¾¾¾¾¾¾¾® 0 et nhn ¾¾¾¾¾¾¾¾¾® 0 alors Var f ( x ) ¾¾¾¾® 0 ( )
Erreur quadratique moyenne (MSE)
L’erreur quadratique moyenne (en anglais "Mean squared Error") est donne par
:

MSE ( x ) = var f ( x ) +biais 2 f ( x )

Propriétés
1 +¥
æ1 ö
MSE ( x ) = f ( x ) ò K 2 (u )du +o çç ÷ ÷
nh -¥ è nh ø

h4 é+¥ 2 ù2
êò u K (u )du ú +o h 4
2
+ {f ''
( x )} ( )
4 êë- ¥ ú
û

Demonstration
2

(
MSE ( x ) = Ε f ( x ) - f ( x ) )
2

( (
= Ε f (x ) - Ε f (x ) +Ε f (x ) - f (x ) ) ( ) )
2

( )( (
= var f ( x ) + biais f ( x ) ))
1 +¥
æ1 ö
= f ( x ) ò K 2 (u )du +o çç ÷ ÷
nh -¥ è nh ø

h4 é+¥ 2 ù2
êò u K (u )du ú +o h 4
2
+ {f ''
( x )} ( )
4 êë- ¥ ú
û

Erreur quadratique moyenne intégrée(MISE) :


L’erreur quadratique moyenne intégrée (en anglais "Mean Integrated Squared
Error") est donne par

MISE ( n , h ) = ò MSE ( x ) dx

Propriété
+¥ æ é+¥ ù æ öö
MISE ( n , h ) = ò ç f ( x ) êò K 2 (u )du ú+o çç 1 ÷
÷÷
ç ê ú ÷dx
-¥ è ë- ¥ û è øønh

h 4 +¥ æ é+¥ ù2 ö
+ ò ç f 2 4 ÷
êò uK (u )du ú +o h ÷dx
4 -¥ çç( ( x ))
''

êë- ¥
2

úû ÷ ( )
è ø
n ¾¾¾¾¾
®¥ n ¾¾¾¾¾
®¥
Si h = hn ¾¾¾¾¾¾¾¾¾® 0 et nhn ¾¾¾¾¾¾¾¾¾® 0 alors MSE ( x ) ¾¾¾¾® 0
''
On dit que f ( x ) converge en probabilité vers f ( x )
Choix du paramètre de lissage h
Le paramètre de lissage h a une grande influence sur la performance de
l’estimateur f '' ( x ) Il y a essentiellement deux approches pour trouver une
largeur de bande optimale. La première consiste à trouver le paramètre qui
minimise l’erreur quadratique moyenne de f '' ( x ) c’est-à-dire

é 2ù

(
ArgMin êΕ f ( x ) - f ( x ) ú
ë û )
On obtient donc un paramètre de lissage optimal, qui varie en fonction du x où
l’on veut estimer la fonction de densité f .

La seconde approche nous donne un paramètre de lissage optimal globale, qui


ne dépend pas de x . Pour ce faire, on cherche le h qui minimise l’erreur
quadratique moyenne intégrée (MISE) c’est-à-dire
é 2 ù
hoptimal = ArgMin[MISE(n; h)] = A rg Min êò Ε f ( x ) - f ( x ) dx ú ( )
êë ú
û

On suppose que la densité à estimer f et le noyau K sont des fonctions de


carré intégrable de sorte que le MISE est finie.

h4 2 1 æ1 ö
MISE(n; h)= R f ( )(
''
u2 (K ) + ) R ( K ) +o çç + h 4 ÷
÷
2 nh è nh ø

l’approximation asymptôtique de la MISE est donné par

h4 2 1
MISE(n; h)= R f
2 ( )( ''
u2 (K ) ) +
nh
R (K )

On dérive ce MISE par rapport à h et on égale à 0 ,on obtient


d 2 1
dh
MISE(n; h)=h 3R f ( ) (u ( K ))
''
2 +
nh 2
R (K )

é ù1/5
d ê R (K ) ú - 1/5
MISE(n; h)=0 Þ hoptimal =ê 2ú
n
dh
( )(
êë R f '' u 2 ( K ) ) ú
û

Cas particuliers
Soit X 1 , X 2 , Xn une suite de variables aléatoires de densité de probabilité f
supposons que f appartient à une famille de distributions normales N 0,s ( 2
)
ìX
ï i N m ,s
Si í ( 2
)
ïî K N ( 0,1)

Alors

hoptimal = 1.06s n - 1/5

1 æx - m ö 1 - x 2 /2
( ) alors f ( x ) = j çç ÷
2
Si f N m ,s
s è s
÷ avec j
ø
(x ) = 2p
e

1 æx - m ö 1 - x 2 /2
Et f
''
( x ) =s j ''
çç ÷
÷ et j
''
(x ) = ( x - 1) e
2

è s ø 2p

La quantité inconnue R f ( )
''
sécrit alors

+¥ 2

R f ( ) = ò éëf ( x ) ùû dx
''


''

1 +¥ é æ x - m öù2

( ) =s ò
R f ''
6

êj
êë
''
çç
è s øú
÷ú dx
÷
û
+¥ 2
1
( ) =s ò éëj (v ) ùû dv
R f ''
5

''

Nous avons :
1 - v 2 /2
j (v ) = 2p
e

v 2
Þj '
(v ) = e - v /2
2p

Þj ''
()
v = (v - 1)
e
2
- v 2 /2

2p
ì v2-1 ü2
( ) =s ò ( )

'' 1 ï 2 ï
R f 5 í e - v /2 ý dv
-¥ ïî 2p ïþ

1 ìï +¥ 4 - v 2 +¥ +¥ ü
ï
í ò v e dv - 2ò v e dv +ò e dv ý
2 -v 2 -v 2
= 5
2p s ïî - ¥ -¥ -¥ ïþ

1 ìï 1 +¥ 2 - v 2 +¥ ü
ï
í - ò v e dv +ò e dv ý
-v 2
= 5
2p s ïî 2 - ¥ -¥ ïþ

1 ìï 1 +¥ u 2 - u 2 1 +¥
1 -u2 2 ü ï
=
2p s 5 í - ò
ïî 2 - ¥ 2
e 2

2
du +ò 2
e du ý
ïþ

Avec u = 2v

1 ìï 1 ü
ï 3
R f ( ) ''
=
2p s 5 í-
ïî 4
p + p ý= 5
ïþ 8s p

Donc,l’expression du paramètre de lissage optimal devient


é ù1/5
= êê ( ) 2 ú
8 R K p - 1/5
hoptimal ú s n
(
êë 3 u 2 ( K ) úû )
où s est un estimateur de s ,tel que

1 n 2 1 n
s = å Xi - X
n - 1 i =1 ( ) X = å Xi
n i =1

On a K ¾¾¾¾
® N ( 0,1)

+¥ 2

R (K ) =ò éK ( x ) ù du
ë û

+¥ é 1 - u 2 /2 ù2
=ò ê e ú du
-¥ ëê 2p ú
û

1 -u2
=ò e du
-¥ 2p

Nous avons u 2 ( K ) = ò u K (u )du = 1


2


Nous remplaçons dans l’équation nous obtenons :
1
æ4 ö5
hoptimal = çç ÷
÷s n
- 1/5
= 1.06s n - 1/5
è3ø

Soit X 1 , X 2 , Xn une suite de variables aléatoires de densité de probabilité f


supposons que f appartient à une famille de distributions normales (
N m ,s 2
)
soit K est un noyau d’ Epanechnikov.
ìX
ïï i N m ,s ( 2
)
Si í alors hoptimal = 2.34s n - 1/5
ï K (u ) = 3 1 - u 2 1u £1
ïî 4 ( )
Choix du Noyaux
Pour mesurer l’efficacité d’un noyau symétrique on peut calculer le rapport de
AMISE des 2 noyaux
AMISE ( K 1 , n , h )
eff ( K 1 , K 2 ) = <1
AMISE ( K 2 , n , h )

Le choix du noyaux n’influe pas trop dans le cas du noyaux symétriques.