Académique Documents
Professionnel Documents
Culture Documents
DÉPARTEMENT DE MATHÉMATIQUES
MÉMOIRE PRÉSENTÉ EN VUE DE L’OTENTION DU DIPLÔME :
MASTER
Spécialité :Mathématiques
Juin 2021
Dédicace
J e dédie ce modeste travail : Dieu soit loué, qui m’a béni pour terminer ce
mémorandum et m’a approuvé.
Je dédie le fruit de mes efforts à celui qui est resté avec moi contre vents et marées de
ma chère mère, Zainuna Al-Saeedi,
et à ceux qui m’ont soutenu dans la vie, mon cher père bien-aimé, Muhammad,
et à mes sœurs qui étaient mon soutien, Rashid et sa petite famille, Abdul Ghani et sa
petite famille,
Muhammad Al-Eid et sa petite famille, Fateh et sa petite famille et Abdul Haq
. Merci pour votre soutien et à mes sœurs et sœurs chères qui ont soutenu moi, Wassila
et sa petite famille,
Karima et Asma et Shaima, je les remercie pour leur soutien,
à mes amis qui m’ont soutenu, à tous mes proches et à tous ceux qui m’ont soutenu de
près ou de loin.
i
REMERCIEMENTS
ii
Table des matières
Remerciements ii
Introduction 1
1 Rappels et Définitions 3
iii
Table des matières
3.1.2 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
Conclusion 43
Bibliographie 44
iv
Introduction générale
Donc dans le cas oú l’on n’a pas d’a priori sur la forme de la loi inconnue, on doit
alors estimer des fonctions,(par exemples : une fonction de densité f ou une fonction de
régression r) et non plus des paramètres. C’est l’objet de la statistique non-paramétrique,
qui nécessite moins de connaissances préalables de la loi. En contrepartie, il faut plus de
données pour obtenir une précision d’estimation équivalente à celle du cadre paramétrique.
1
Introduction
2
Chapitre 1
Rappels et Définitions
Définition 1.1.1 Soit X une variable aléatoire ayant pour densité f . On dit que X admet
R +∞
une espérance si l’intégrale −∞ | x | f (x)dx converge. Dans ce cas, on appelle espérance
de X le réel E(X) défini par :
Z +∞
E(x) = xf (x)dx (1.1)
−∞
Théorème 1.1.1 Soit X une variable aléatoire admettant f pour densité, et soit φ : Ω →
R une fonction continue. On suppose en outre que :
R +∞
−∞
| φ(x) | f (x)dx converge. Alors la variable aléatoire φ(x) admet une espérance
donnée par :
Z +∞
E(φ(x)) = φ(x)f (x)dx
−∞
Z +∞
2 2 2
V ar(X) = E[(X − E(X)) ] = E(X ) − [E(X)] = (x − E(X))2 f (x)dx
−∞
Z +∞ Z +∞
2
=; (x) f (x)dx − ( xf (x)dx)2
−∞ −∞
3
Introduction
Définition 1.1.3 On dit que l’estimateur θ̂n (x) de θ(x) est sans biais si :
Définition 2.1.1
On dit que Xn converge en loi vers la (v.a) X si l’on a, en tout x où sa fonction de
répartition FX est continue
lim FXn (x) = FX (x)
n→∞
et on note
L
Xn −−−→ X
n→∞
On dira aussi que la loi de X est la la loi limite ou asymptotique de la suite Xn . En pratique
la loi limite sera utile pour donner une approximation pour le calcul de la probabilité d’un
événement sur Xn quand n sera assez grand.
4
Introduction
On dit que Xn converge presque sûrement (ou converge avec probabilité 1, ou converge
fortement) vers la (v.a) X si les (v.a) au point x ∈ < si, quel que soit ε > 0 donné,
et on note
p.s
Xn −−−→ X
n→∞
il est clair que la convergence presque sûre entraı̂ne la convergence en probabilité (d’où
les qualificatifs de convergence forte et convergence faible)
On dit que Xn converge en probabilité vers la (v.a) X si, quel que soit ε > 0 donné
et note
p
Xn −−−→ X
n→∞
On dit que Xn converge en moyenne quadratique vers la (v.a) X si les (v.a) X1 , X2 , ... ont
un moment d’ordre 2 et si
lim E[(Xn − X)2 ] = 0
n→∞
et on note
m.q
Xn −−−→ X
n→∞
5
Introduction
p L
Xn −−−→ X ⇒ Xn −−−→ X
n→∞ n→∞
m.q p
Xn −−−→ X ⇒ Xn −−−→ X
n→∞ n→∞
p.s p
Xn −−−→ X ⇒ Xn −−−→ X
n→∞ n→∞
1
Pn
On lui préfère souvent Sn2 = ( n−1 ) i=1 (Xi − X̄)2 qui est sans biais,appelée variance
empirique corrigé Médiane empirique m̂n = Fn−1 (1/2) ou plus généralement le quantile
empirique q̂α = Fn−1 (α)
6
Chapitre 2
Dans la suite, nous émettons l’hypothèse que les classes Ak , k ∈ {1, ..., p}forment une
partition de Ω ( i.e Ω = ∪pk=1 Ak et ∀i, j ∈ N : i 6= j, Ai ∩ Aj = Φ) et définissons
pour chaque classe Ak ,son centre ak telles que : ∀k ∈ {1, ..., p} , Ak = [ak − h2 , ak + h2 ] et
∀k ∈ {1, ..., p − 1} , ak+1 = ak + h
7
Chapitre 1.Estimation non paramétrique de la fonction du densité
n
nk 1 X h h
fˆhn (x) = = 1 h h (xi ) x ∈ [ak − , ak + ]
nh nh 1 [ak − 2 ,ak + 2 ] 2 2
12
10
0
20 40 60 80 100 120
Chiffre 1.1 :Histogramme de fréquence de l’ensemble de données sur les chutes de neige à
Buffalo
Nous présentons, dans ce titre, les propriétés statistiques de l’estimateur par histogramme
fh n défini par l’expression 2.1 (pour une étude plus détaillée voir, par exemple, les livres
de Bosq et Lecoutre [5] , Simonoff [10] Hãrdle [7] ). En statistiques, il est nécessaire
de mesurer la qualité d’un estimateur. Pour cela, on évalue, d’une part, l’écart entre la
moyenne de l’estimateur et la densité à estimer, ce critère d’évaluation est appelé biais ,
et d’autre part, la variance de l’estimateur (due au caractère aléatoire d’observations) qui
caractérise la dispersion des valeurs de l’estimateur dans l’ensemble d’observations. On
essaye généralement de réduire au mieux ces deux quantités.
8
Chapitre 1.Estimation non paramétrique de la fonction du densité
Biais de l’estimateur
Le biais de l’estimation fˆhn définie en 2.1 est donnée,pour tout x ∈ Ak , ∀k ∈ {1, ..., p},par :
Ou f 0 la dérivée de f. qui doit être une fonction de L(Ω) absolument continue et carrée
R +∞
intégrable ( −∞ f 0 (x) < ∞) Nous observons que le biais de l’histogramme diminue dans
l’ordre O(h)2 lorsque h diminue. Pour étudier la stabilité de l’estimation on calculera sa
variance
Variance de l’estimateur
La Variance de l’estimateur fˆhn définie en 2.1 est donné pour tout x ∈ Ω par :
Cette variance tend vers zéro quand nh tend vers l’infini et le nombre d’observation n
tend vers l’infini.
Afin d’apprécier la qualité de l’estimateur, il faut évaluer la distance entre l’estimateur
et la densité à estimer. La distance la plus couramment utilisée est celle définie par la
moyenne du carré de leur différence. Elle porte le nom d’erreur quadratique moyenne en
anglais mean squared error (MSE) .
9
Chapitre 1.Estimation non paramétrique de la fonction du densité
Proposition 2.1.1
= E(fˆhn (x) − E(fˆn (x)))2 + 2 E(fˆhn (x) − E(fˆn (x)))(E(fˆhn (x) − f (x)))
| {z }
=0
La convergence en moyenne quadratique de l’estimateur fˆhn 2.1 a été établie par Lecoutre
[9] pour toutx ∈ Ak .
Cette erreur quadratique moyenne tend vers zéro quand h tend vers zéro et nh tend vers
l’infini quand n tend vers l’infini. Ce critère d’erreur quadratique moyenne est un critère
local. Pour généraliser ce critère sur tout le domaine Ω on intégrant sur tout le domaine Ω
. Ce critère porte le nom d’erreur quadratique moyenne intégrée en anglais mean integred
squared error (MISE)
Z Z
M ISE(fˆhn ) = (fˆhn − f )2 (x)dx = M SE(fˆhn )(x)dx (2.5)
Ω Ω
La convergence en moyenne quadratique intégrée de l’estimateur fˆhn défini par 2.1 a été
établie par Lecoutre [9]. Nous avons, d’après [10] :
(f 0 )2 (x)dx
R
1 h2
M ISE((fˆhn )) = + Ω
+ O(n−1 ) + O(h3 ) (2.6)
nh 12
10
Chapitre 1.Estimation non paramétrique de la fonction du densité
(f 0 )2 , décrit le degré
R
Et on a : lim M ISE = O quand h → 0 et nh → ∞ Notons que Ω
(f 0 )2 (x)dx
R
1 h2
A − M ISE((fˆhn )) = + Ω
(2.7)
nh 12
L’approche usuelle pour minimiser MISE est de minimiser A-MISE en fonction de h. Ap-
pelez le parametre de lissage optimal ho (hopt ) . Nous pouvons trouver ho en différenciant
par rapport à h
∂(A − M ISE) −1
Z
1
= 2
+ h (f 0 )2 (x)dx
∂h nh 6 Ω
Et par suite :
∂(A − M ISE) −1
Z
1
=0⇔ 2
+ h (f 0 )2 (x)dx = 0
∂h nh 6 Ω
6 1 1
⇔ ho = ( R ) 3 n− 3
Ω
(f 0 )2 (x)dx
(f 0 )2 (x)dx 1 −2
R
9
A − M ISE ? = ( Ω
)3 n 3
16
L’approche la plus simple pour choisir h est de choisir une densité particulière f et de
simplement la substituer dans pour obtenir une valeur de h. , Le choix typique est une
densité normale (gaussienne). On peut montrer que le minimum d’A-MISE est :
−1
ho = 3, 49σn 3
11
Chapitre 1.Estimation non paramétrique de la fonction du densité
L’idée de la méthode des noyaux est due à Parzen - Rosenblatt (1956). Celui-ci a proposé
une sorte d’histogramme mobile oú la fenêtre de comptage des observations se déplace
avec la valeur de x. La densité en x est estimée par la fréquence relative des observation
dans l’intervalle [x − h, x + h],donc centré sur x, divisée naturellement par la largeur de
l’intervalle 2h. On appelle h la largeur de fenêtre (bien que cette largeur soit en fait égale
à 2h).
1
Pn
∀x ∈ R : F̂n (x) = n 1 1Xi ≤x
12
Chapitre 1.Estimation non paramétrique de la fonction du densité
Une des premières idées intuitives est de considérer pourh > 0 petit
F (x + h) − F (x − h)
fˆn (x) =
2h
n
1 X
= 1x−h≤Xi ≤x+h
2nh i=1
n
1 X
= 1−h≤Xi −x≤h
2nh i=1
n
1 X
= 1 Xi −x
2nh i=1 −1≤ h ≤+1
n
1 X x − Xi
fˆn (x) = K0 ( ) (2.9)
nh i=1 h
Avec
1
K0 (s) = 1{−1≤s≤1}
2
1
si x∈[−1,1]
= {02 sinon
ˆn F (x + h) − F (x − h) (F (x + h) − F (x − h))2
V ar(fh (x)) = − (2.11)
4nh2 4nh2
Cette variance tend vers zéro lorsque nh tend vers l’infini quand n tend vers l’infini. et
par suite dans ce cas fˆhn (x) converge en moyenne quadratique vers f (x) . et par suite :
13
Chapitre 1.Estimation non paramétrique de la fonction du densité
Donc fhn défini par l’expression 2.9 est un estimateur consistant. Nous remarquons qu’il
n’a pas le problème du choix d’origine a0 comme le cas de l’histogramme mais il présente
l’inconvénient d’être discontinu aux points {(xi − h, xi + h)}i ∈ {1, . . . , n} Ainsi une
généralisation de cet estimateur a été introduite par (Parzen-Rozenblatt) est une méthode
non paramétrique d’estimation de la densité d’une variable aléatoire. Cette méthode
permet d’obtenir une densité continue et constitues en ce sens une généralisation de la
méthode de l’histogramme.
En effet, la fonction indicatrice utilisée pour l’histogramme est ici remplacée par une
fonction continue appel (le noyau) .
R
R
K(u)du = 1
K est appelée noyau. Soit h := hn > 0 un paramètre de lissage (fenêtre) qui dépend de la
taille de l’échantillon n. Pour toute n ∈ N ; l’estimateur à noyau de la densité f de la v.a
X au point xi , noté fˆhn (x) est donné par :
n
1 X x − Xi
fˆhK (x) = K( ) (2.14)
nh i=1 h
Généralement le noyau K est une fonction positive et bornée et vérifier les condition
suivantes :
— K est symétrique ∀x : K(x) = K(−x)
R +∞
— −∞ K(x)dx = 1
R +∞
— −∞ xK(x)dx = 0
R +∞
— −∞ x2 K(x)dx = µ2 ≺ ∞
Cet estimateur a été largement étudié par de nombreux auteurs, citons par exemple
Wolverton et Wagner (1969), Roussas (2000, 2001) [6], Bosq et al.(1999) et Lu (2001).
Exemple de noyaux K les plus utilisés dans l’estimation de la densité
- le noyau rectangulaire (Rosenblatt) :
1
K(u) = 1[−1,1] (u)
2
- le noyau triangulaire :
14
Chapitre 1.Estimation non paramétrique de la fonction du densité
3
K(u) = (1 − u2 )1[−1,1] (u)
4
- le noyau gauussien :
1 2
K(u) = √ exp−u /2
2π
15
Chapitre 1.Estimation non paramétrique de la fonction du densité
16
Chapitre 1.Estimation non paramétrique de la fonction du densité
R +∞
Lemme 2.2.1 Si le noyau K est positive et −∞
K(x)dx = 1 , alors fˆhK (x) est une
densité de probabilité. De plus, fˆhK est continue si K est continue.
Preuve. Si K est positif et coutinue alors fˆhK (x) doit être positif et continue , car c’est
une somme des fonctions positifs est continues et plus de ça on a :
+∞ +∞ n
x − Xi
Z Z
1 X
fˆhK (x)dx = K( )dx
−∞ −∞ nh i=1 h
Z +∞ X n
1 x − Xi x − Xi
= K( ) (posons t= alors hdt = dx)
nh −∞ i=1 h h
n
1 +∞ X
Z
= K(t)dt
n −∞ i=1
n Z
1 X +∞
= K(t)dt
n i=1 −∞
n
= =1
n
On voit donc que, tout comme l’estimateur par histogramme, l’estimateur à noyau est
une densité de probabilité. Il a de plus l’avantage d’être continu à condition que K le
soit, ce qui n’était pas le cas pour les histogrammes. Par conséquent, lorsqu’on estime une
densité continue, il est naturel de s’attendre que l’estimateur à noyau soit meilleur que
l’estimateur par histogramme.
Biais de l’estimateur
h2 µ2 (K)f 00 (x)
biais(fˆhK (x)) = + O(h2 ) (2.15)
2
Remarquons que Le terme de droite de l’équation 2.15 est différent de zéro, ceci signifie
que fˆhK (x) est biaisé. Cependant le biais biais(fˆhK (x)) converge vers zéro quand la (la
fenêtre ) h tend vers zéro.
17
Chapitre 1.Estimation non paramétrique de la fonction du densité
Le biais de fˆhK (x) ne dépend pas directement du nombre d’observations n mais seulement
de la fonction de noyauK et donc l’augmentation du nombre d’observationsn ne suffit pas
pour diminuer le biais(fˆhK (x)) .
Etude de biais
Tout d’abord, commençons par vérifier le non-alignement asymptotique, où l’estimation
de la densité de noyaux dépend de deux paramètres.
n
1X
E[fˆh (x)] = E[Kh (x − Xi )]
n i=1
= E[Kh (x − X)]
Z
= Kh (x − u)f (u)du
Z
= K(s)f (x + sh)ds.
Z
Biais[fˆh (x)] = K(s)f (x + sh)ds − f (x)
h2 s2 00
Z
0 2
= K(s) f (x) + shf (x) + f (x) + o(h ) ds − f (x)
2
h2
= f (x) + f 00 (x)µ2 (K) + o(h2 ) − f (x)
2
h2 00
Biais[fˆh (x)] = f (x) + f (x)µ2 (K) + o(h2 ) − f (x) h → 0 (2.16)
2
18
Chapitre 1.Estimation non paramétrique de la fonction du densité
Variance de l’estimateur
R +∞
f (x) −∞
(K(u))2 du
V ar(fˆhK (x)) = + O(nh)−1 (2.17)
nh
Cette variance tend vers zéro quand nh tend vers l’infini quand n tend vers l’infini.
La convergence en moyenne quadratique de l’estimateur fˆhK (x) a étéétablie par Bosq et
Lecoutre [5].
Etude de variance
n
!
X
V ar(fˆh (x)) = n−2 V ar Kh (x − Xi )
i=1
n
X
−2
=n V ar[Kh (x − Xi )]
i=1
x−u
Z
−1 −2 2 2
=n h K f (u)du − (f (x) + o(h))
h
Z
−1 −1 2 2
=n h K (s)f (x + sh)ds − (f (x) + o(h))
19
Chapitre 1.Estimation non paramétrique de la fonction du densité
Calculons maintenant l’erreur quadratique moyenne de fˆhK (x) Nous avons, pour tout
x∈R:
R +∞
f (x) −∞
(K(u))2 du h4
M SE(fˆhK (x)) = + (µ2 (K)f 00 (x))2 + O(nh)−1 + O(h4 ) (2.18)
nh 4
Calculons l’erreur quadratique moyenne intégrée M ISE(fˆhK (x)) par l’intégration de MSE
surR 2.18 on obtient :
R(K(u)) h4
M ISE(fˆhK ) = + (µ2 (K))2 R(f 00 ) + O(nh)−1 + O(h4 ) (2.19)
nh 4
R
avec R(w) = R
(w(x))2 dx Donc
h4
A − M ISE(fˆhK ) = R(K(u))
nh
+ 4
(µ2 (K))2 R(f 00 )
∂(A−M ISE)
Pour calculer ho optimale on résoudre l’équation ∂h
=0:
5 2 1 4
A − M ISE ? = (µ2 (K)R(K)2 ) 5 (Rf 00 ) 5 n− 5
4
20
Chapitre 1.Estimation non paramétrique de la fonction du densité
tions :
R +∞
— −∞
K(x)dx = 1
R +∞
— −∞
x2 K(x)dx = µ2 (K) ≺ ∞
Hodges et Lehmann (1956) [?, ?] montraient que ce problème de minimisation est résolu
en choisissant le noyau K défini par :
3
Kep (u) = (1 − u2 )1[−1,1] (u)
4
5
C(Ke ) 4
ef f (K) =
C(K)
3 1
ef f (K) = √ p
5 5 µ2 (K)R(K)
le tableau suivant présente les valeur d’efficacité de quelques noyaux continues symétriques
usuels.
Remarque 2.3.1 D’après le tableau on remarque que les valeurs d’efficacité des noyaux
symétriques sont très proches de 1 et qu’il ya très peu de différence entre les différents
noyaux par apport à l’erreur quadratique moyenne intégrée.
21
Chapitre 1.Estimation non paramétrique de la fonction du densité
Une approche très facile et naturel consiste à utiliser une famille  au niveau de la
distribution d’attribuer une valeur à (f 00 (x))2 dx terme de f 00 dans l’expression hAM IS
R
pour la fenêtre idéale par exemple Si x1 , x2 , ..., xn . Est un échantillon i.i.d. d’une variable
aléatoire, alors l’estimateur non-paramétrique par la méthode du noyau de la densité est :
n
1 X x − Xi
fˆh (x) = K( ) (2.20)
nh i=1 h
qui régit le degré de lissage de l’estimation .Bien souvent, K est choisi comme la densité
d’un fonction gauussienne standard (espérance nulle et variance unitaire) :
1 1 2
K(x) = √ exp− 2 x (2.21)
2π
22
Chapitre 1.Estimation non paramétrique de la fonction du densité
Z Z
00 −5 3 1
2
(f (x)) dx = σ (φ00 (x))2 dx = π − 2 σ −5 ' 0.212σ −5 (2.22)
8
De plus, si K est un noyau gaussien, alors la valeur pour le hopt notée dans ce cas par hrot
est obtenue en substituant ce noyau et la valeur R(f 00 )obtenue
− 11 3 −1σ −1
hopt = (4π) π 2 n 5
8
15
4 1
= σn− 5
3
1
= 1.06σn− 5 .
(2.23)
Remarques
Z Z
U CV (h) = |fh (x) − f (x)| dx − f 2 (x)dx
2
Z< Z <
(2.24)
23
Chapitre 1.Estimation non paramétrique de la fonction du densité
R
Puisque <
f 2 (x)dx ne dépend pas du paramètre de lissage h. On peut choisir le paramètre
de lissage de façon à ce qu’il minimise un estimateur de :
Z Z
fh2 (x)dx −2 fh (x)f (x)dx (2.25)
< <
R
On veut premièrement trouver un estimateur de <
fh (x)f (x)dx . Remarquons que
Z
fh (x)f (x)dx = E(fh (x))
<
R
L’estimateur empirique de <
fh (x)f (x)dx, est alors :
n
1X
fh,i (xi ).
n i=1
Z n
2X
U CV (h) = fh2 (x)dx − fh,i (xi )
< n i=1
1
P xi −xj
Où fh,i (xi ) = (n−1)h j=1,j6=i K h
est l’estimation de la densité construit
on a :
Z Z
M ISE(h) − R(f ) = E fh2 (x)dx −2 fh (x)f (x)dx (2.26)
R 1
Pn
Il suffit de montrer que fh2 (x) et n i=1 fh,i (xi ) sont des estimateurs
R R R
sans biais de E[ fh2 (x)dx] et E[ fh (x)f (x)dx] respectivement. Or E[ fh2 (x)dx]
24
Chapitre 1.Estimation non paramétrique de la fonction du densité
R
admet l’estimateur sans biais trivial fh2 dx . Il reste donc à montrer que
1
Pn R
n i=1 fh,i (xi ) est un estimateur sans biais de E[ fh (x)f (x)dx]
On a d’une part,
" n
# " n n
#
xi − xj
Z
1X 1 X X
E fh,i (xi ) = E K( )
n i=1 n(n − 1)h i=1 j=1,j6=i h
" n
#
xi − xj
Z
1 X
=E K( )f (x)dx
n(n − 1)h j6=1 h
x−z
Z Z
1
= f (z) K( )f (z)dxdz.
n h
D’autre part,
Z " n Z
#
1 X xi − xj
E fh (x)f (x) = E K( )f (x)dx
nh i=1 h
x−z
Z Z
1
= f (z) K( )f (x)dxdz
n h
" n
# Z
1X
E fh,i (xi ) = E fh (x)f (x)
n i=1
25
Chapitre 1.Estimation non paramétrique de la fonction du densité
Finalement, un estimateur sans biais de M ISE(h) − R(f ) est donnée donc par U CV (h).
En utilisant l’équation précédente, le critère U CV (h) devient :
n n Z
R(K) X X 1 x − xi x − xj 2 xi − xj
U CV (h) = + 2 h2
K( )K( )dx − K( )
nh i=1 j=1,j6=i
n h h n(n − 1)h h
(2.27)
Nous noterons hU CV l’estimateur de h qui minimise U CV (h).
fonction de densité f.
n n !
1 X X xi − xj 2
U CV (h) = 2 √ n+2 exp −( )
2n h π i=1 j=1,j6=i
2h
n n
(xi − xj )2
2 X X
−√ exp −
2πn(n − 1)h i=1 j=1,j6=i 2h2
(2.28)
h4 4 R(K)
AM ISE = σK R(f 00 ) + (2.29)
4 nh
Le paramètre de lissage basé sur la méthode de validation croisée biaisée est la valeur h
qui minimise un estimateur du AM ISE. On peut estimer le AMISE si l’on estime R(f 00 )
Un estimateur naturel de ce terme est donné par R(fh00 ) où fh est l’estimateur de la densité
qui utilise la méthode du noyau. Scott et Terrell [54]
26
Chapitre 1.Estimation non paramétrique de la fonction du densité
Z Z Z
00 00 00 00
K (u)du = 0, µ1 (K ) = uK (u) = 0, µ2 (K ) = u2 K 00 (u) = 2 (2.30)
R(K 00 )
E[R(fh00 )] = R(f 00 ) + + O(h2 ). (2.31)
nh5
Proposition 2
Soit x1 , x2 , ..., xn un n-échantillon i.i.d issu d’une variable aléatoire X de fonction de densité
f . En choisissant le noyau gaussien on obtient :
n n
(xi − xj )2
1 1 X X x i − xj 4 xi − xj 2
BCV (h) = √ + √ ( ) − 12( ) + 12 exp − .
2nh π 64n2 π i=1 j=1,j6=i h h 4h2
(2.33)
Cette méthode nous donne plusieurs minimums locaux pour la fonctionnelle cible à mini-
miser. Cependant, d’après plusieurs simulations, les auteurs proposent de choisir la valeur
inférieure parmi les minimums locaux.
Conclustion
Dans cette chapitre, nous concluons que le paramètre de lissage h est très sensible, nous de-
vons donc choisir avec soin h, en utilisant l’une des méthodes mentionnées précédemment.
27
Chapitre 3
le modèle régression consiste à estimer les relation entre l’une des variables dépendant et
une ou plusieur variables indépendantes sous une forme algébrique en utilisant les données
disponibles sur les variables en formulant une équation ou une courbe qui explique cette
relation. La relation est connue sous le nom d’équotion de régression,et régression est
defini par :
Y = r(X) + ε
28
Chapitre 3. Régression non paramétrique
yi = b0 + b1 xi + i i = 1, ..., n (3.1)
Une alternative plus générale à 3.1 est le modèle de régression non paramétrique
Z
fX : x 7→ fX (x) = f (x, y)dy > 0 (3.3)
la fonction de densité de X
29
Chapitre 3. Régression non paramétrique
r(x) = E(Y /X = x)
Z
= yf (y/x)dy
Z
f (x, y)
= y dy (3.4)
fX (x)
R R
Ky (u)du = 1 et que uKy (u)du = 0
Pn x−Xi
i=1 Yi K( h )
rnw = Pn x−Xi
i=1 K( h )
3.1.2 Définition
R
Soit K : < → < un noyau(K ≥ 0, et K = 1),h > 0 une fenêtre ,l’estimateur de Nadraya
Watson de régrisson de Y sur est donné par
Pn
r̂(x) = i=1 Yi Wn,i (x)
où
K( Xih−x )
Wn,i (x) = Pn Xj −x
1Pn K( Xj −x )6=0 .
j=1 K( h
) j=1 h
30
Chapitre 3. Régression non paramétrique
dont le choix est crucial pour obtenir de bonnes propriétés asymptotiques et la noyau K
dont on ne peut pas négliger le rôle pour la réduction du biais.
2.1 Proposition
Démonstration
y fˆn (x, y)
Z
r̂n (x) = dy
fˆn (x)
n
Xi − x Yi − y
Z
1 1 X
= y 2 K( )K( )dy
fˆn (x) nh i=1 h h
n
Xi − x Yi − y
Z
nh 1 X
= Pn Xi −x 2
K( ) yK( )dy
i=1 K( h )
nh i=1 h h
n
Xi − x 1 Yi − y
Z
1 X
= Pn Xi −x
K( ) yK( )dy
i=1 K( h
) i=1
h h h
n
1 X Xi − x
= Pn Xi −x
K( )Yi
i=1 K( h ) i=1
h
(3.5)
1
yK( Yi −Y 1
R R R R
h h
)dy = h
(Yi − uh)K(u)hdu = Yi K(u)du − h uK(u)du = Yi
31
Chapitre 3. Régression non paramétrique
Proposition
Sous les hypothèses de la proposition(3.2) etsi EY 2 < ∞, alors en chaque point de conti-
nuité des fonction r(x) , f(x) et σ 2 (x) = V ar(Y /X = x)
On a
σ 2 (x)
Z
1 2
V ar[rn (x, hn )] = K (u)du (o(1) + 1). (3.7)
nhn f (x) <
32
Chapitre 3. Régression non paramétrique
(3.8)
1 R
E[fn (x, hn ) − Efn (x, hn )φn (x, hn ) − E(φn (x, hn ))] = nhn φ(x) <
K 2 (u)du(1 + o(1))
et
1
R
varfn (x, hn ) = nhn
f (x) < K 2 (u)du(1 + o(1)).
Posons
fn (x, hn )
Bn =
φn (x, hn )
et
−r(x)
A(x) = , 1
|f (x)|2 f (x)
.
La matrice de variance covariance de Bn (x) est alors donnée par l’expression suivante
f (x) φ(x) Z
1
K 2 (u)du(1 + o(1)).
Σ :=
nhn
<
φ(x) ψ(x)
En remarquant,que
33
Chapitre 3. Régression non paramétrique
σ 2 (x)
Z
1 2
varrn (x, hn ) = K (u)du (o(1) + 1).
nhn f (x) <
3.4.2 Proposition
E[Φn (x, hn )] 1
Ern (x, hn ) = +O .
E[fn (x, hn )] nhn
E[Φn (x, hn )] 1
Ern (x, hn ) = +O √
E[fn (x, hn )] nhn
Preuve :
En multipliant les deux expression de l’identité suivante
EΦn (x)
Ern (x, hn ) = − (Efn (x, hn ))−2 E[(Φn (x, hn )
Efn (x, hn )
− E[φn (x, hn )](fn (x, hn ) − Efn (x, hn )
+ E(fn (x, hn )−1 (Efn (x, hn ))−2 φn (x, hn )[fn (x, hn ) − Efn (x, hn )]2
Eφn (x, hn )
= + [c1n (x) + c2n (x)](Efn (x, hn ))−2
Efn (x, hn )
34
Chapitre 3. Régression non paramétrique
où
c(1)
n (x) = E[(φn (x, hn ) − E[φn (x, hn )])(fn (x, hn ) − E[fn (x, hn )])],
−1
c(2) 2
n (x) = E(fn (x, hn ) Φn (x, hn )[fn (x, hn ) − Efn (x, hn )] .
1
R
Comme var[fn (x, hn )] ∼ nhn
f (x) < K 2 (t)dt(cf la preuve de la proposition(3.2)et
1
R R
var[Φn (x, hn )] ∼ nhn <
y 2 f (x, y)dy <
K 2 (t)dt(cf la proposition précédent),alors
1 1 1
|c1n (x) ≤ (varφ(x, hn )) (varfn (x, hn )) = O
2 2 . (3.9)
nhn
Lorsque nous voulons calculer l’esprance et la variance, nous rencontrons des difficultés au
numréateur et au dénominateur Nadraya Watson. Nous allons donc analyser le numérateur
et le dénominateur séparément .Défini par
R
r(x) = yf (x, y)dy = m(x)f (x),
Pn
r̂h (x) = n−1 i=1 Kh (x − Xi )Yi
35
Chapitre 3. Régression non paramétrique
r̂h (x)
m̂h (x) = .
fˆh (x)
X
E[r̂h (x)] = E[n−1 Kh (x − Xi )Yi ]
i=1
= E[Kh (x − X)Y ]
Z Z
= yKh (x − u)f (y \ u)f (u)dydu
Z Z
= Kh (x − u)f (u) yf (y \ u)dy du
Z
= Kh (x − u)f (u)(E[Y \ X = u])du
Z
= Kh (x − u)f (u)m(u)du
Z
= Kh (x − u)r(u)du (3.3.1)
h2 00
E[r̂h (x)] = r(x) + r µ2 + o(h2 ) (h → 0)
2
36
Chapitre 3. Régression non paramétrique
Par conséquent,rh (x) est asymptotiquement sans biais pour h → 0. Pour calculer la
variance rh (x) soit s2 (x) = E[Y 2 \ X = x], Ainsi
n
X
−1
V ar[r̂h (x)] = V ar[n Kh (x − Xi )Yi ]
i=1
Z Z
−1
=n Kh2 (x 2
− u)s f (u)du − ( Kh (x − u)r(u)du)2
Z
−1 −1
=n h K 2 (u)s2 (x + uh)f (x + uh)du + o((nh)−1 )
Lorsque nous combinons (3.3.1) et (3.3.2), nous obtenons la formule du Erreur quadratique
moyenne de r̂h (x)
1 h4
M SE[r̂h (x)] = f (x)s2 (x) k K k22 + (r00 (x)µ2 (K))2 + o(h4 ) + o((nh)−1 )
nh 4
(h → 0, nh → ∞) (3.3.3)
M SE[r̂h (x)] → 0
37
Chapitre 3. Régression non paramétrique
Conclusion
Dans cette chapitre , nous concluons que le théorème Nadraya Watson est important pour
estimer la fonction de régression dans l’estimation non paramétrique.
38
Conclusion
43
Bibliographie
[1] Bismut, J. M. (1973). Conjugate convex functions in optimal stochastic control. Jour-
nal of Mathematical Analysis and applications, 44(2), 384-404
[3] Chala, A, Khalout, R (2018). A risk-sensitive stochastic maximum principle for fully
coupled forward-backward stochastic differential equations with applications.Asian J
Control.
[5] D. Bosq and J.Lecoutre., M. (1987). Théorie de l’estimation fonctionnelle. Paris Eco-
nomica .
[8] Hodges, J., and Lehmann, E .(1956). The efficiency of some nonparametric competitors
of the t-test. Annals Mathematicals statistzcs 27(1) .
[12] Scott, D. W. (1992) Multivariate Density Estimation :Theory, Practice, and Visua-
lization.Wiley Interscience, New York, .
44
Annexe : Abréviations et Notations
Les différentes abréviations et notations utilisées tout au long de ce mémoire sont ex-
M SE Mean Squared Error en( Anglais) et (la farnçais) Erreur Quadrati
M ISE Mean Integred Squared Error
A − M ISE Asymptotique-Mean Integred Squared Error
p.s presque sur
U CV Un Validation Croisée
pliquées ci-dessous : reg regessgramme
E(X) l’espréance de Mathimatique
P propabilité
tq Telle que
i.e C’est à dire
(Ω, A, P ) espace probabilité
45
Annexe : Abréviations et Notations
Résumé
Dans ce travail, nous avons utilisé deux méthodes, la méthode des graphes et lahode
du noy méthode du noyau, pour trouver la fonction de densité dans l’estimation non
paramétrique.D’autre part, nous avons étudié la fonction de régression en utilisant la
métau complet de la théorie Nadraya Watson.
Abstract
In this work, we used two methods, the graph method and the kernel method, to find
the density function in the nonparametric estimation. On the other hand, we studied
the regression function by using the comprehensive kernel method of the theory Nadraya
Watson.
Pl
¨ TAk T A§¯ wn ¤ ¨Ayb Fr Tq§rV ytq§rV AndtF m` d¡ ¨
w Tq§rV Am`tF¯A Ф C d¯ T AnF C «r Th ¤ ¨ml`® r§dqt
. ws ¤ A§ Cd T§r\n TlAK
46