Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
Projet
Introduction à la statistique non paramétrique
Realise par :
Rezgui Beçem Ala Din
Ajili Houssem
: Encadre par
Mr khardani Salah
1
Partie 1 : k
Résumés du cours
▶ Quand on n’arrive pas à ajuster correctement les observations avec une distribut ion paramétrique
▶ Quand on n’a aucune idée de modéle, ou qu’on ne veut pas avoir un a priori sur le modéle
▶ Quand on ne sait pas combien de composantes on veut mettre dans un mélange
▶ ...
Avantages :
Inconvénients :
2
▶ Vitesses de convergence plus lentes = il faut plus de données pour obtenir une précision équivalente.
▶ Biais
n
1X
E(𭟋ˆn ) = P (Xi ≤ x) = 𭟋(x)
n i=1
i.e. estimateur sans biais.
▶ Variance
n
1 X 1
V ar(𭟋ˆn ) = V ar(1 X i ≤x ) = V ar(1Xi ≤x ) = 𭟋(x)(1−𭟋(x))
n
= −→ 0
n2 i=1 n n−→∞
▶ Convergence en probabilité
propa
F̂n (x) 7−→ n→∞ F (x)
▶ LGN :
p.s
F̂n (x) 7−→n→∞ F (x)
▶ TCL :
√ L
n(F̂n (x) − F (x)) 7−→n→∞ N (0, F (x)(1 − F (x))).
3
▶ Théoréme de Glivenko Cantelli
p.s
supx∈R |F̂n (x) − F (x)| 7−→n→∞ 0.
h p p i
F̂n (x) − log((2/α)/(2n)); F̂n (x) + log((2/α)/(2n)) .
Fonctionnelles de la distribution
Une fonctionnelle est une application T : F → R .
Exemples
▶ Moyenne :
▶ Variance
▶ Médiane :
U etV statistiques
Soit T = E(ϕ(X1 , ..., Xk )) une fonctionnelle de moment.(On peut supposer ϕ symétrique en les coor-
données).
▷ Son estimateur de substitution est la V -statistique V = T( F̂n ) = n1k ni1 . . . nik ϕ(Xi1 , ..., Xik ).
P P
−1
n
▷ Un autre estimateur sans biais de T est la U -statistique U =
P P
... ϕ(Xi1 , ..., Xik ).
k 1i1 <i2 <<ik n
4
▷ La U -stat et la V -stat correspondante ont le meme comportement asymptotique et ne différent
que par des extra-termes dans la V -stat et des facteurs de normalisations différents.
Propriétés des U -statistiques
▷ Estimateurs sans√ biais.
▷ Variance : V ar( nU ) →k2 σ 2 où σ 2 = Cov(φ(X, X2 , ..., Xk ) ; φ(X, X2′ , ..., Xk′ )) et X, X2 , ..., Xk , X2′ , ..., Xk′
i.i.d. de loi F. √ √
L L
▷ Si σ12 ∈]0, +∞[, alors n(U − T (F )) 7−→n→∞ N (0, k 2 σ12 ) et n(V − T (F )) 7−→n→∞ N (0, k 2 σ12 )
, i.e.asympt.gaussiens
Estimation de densité :
Contexte de l’estimation de densité (univariée)
▶ Observations :X1 , ..., Xn v.a i.i.d réelles de fdr F et admettant une densité f = F’ .
▶ But : estimer (à partir des observations) f en faisant le moins d’hypothéses possibles sur cette densité.
▶ Typiquement, on supposera que f ∈ F espace fonctionnel et on notera F̂n un estimateur de f .
Objectifs
Obtenir des informations de nature géométrique sur la distribution des variables. Ex :
▶ Combien de modes ?
▶ Zones peu denses ? trés denses ?
Mesure de la qualité d’un estimateur : risque
1) Distance sur F pourRmesurer l’écart entre F̂n et f . Ex :
▶d(f , g) = ||f g||p = [ |f g|p ]1/p , pour p ≥ 1.Par exemple p = 1 ou 2.
▶d(f , g) = ||f g||∞ = supessx |f (x)g(x)|.
▶d(f , g) = |f (x0 )g(x0 )| où x0 fixé.
2) Définition d’une fonction de perte ω : R → R+ convexe, telle que ω(0) = 0. Ex : ω : u → u3 fonction
de perte quadratique.
3) L’erreur ω(d(F̂n , f )) (par ex d(F̂n , f )2 ) dépend de l’échantillon observé. On définit donc une fonction
de risque R(F̂n , f ) = Ef (ω(d(F̂n , f ))). C’est en moyenne, l’erreur que l’on commet en estimant f par F̂n ,
pour la distance d et la perte ω.
Exemples de fonctions de risque
estimateurs à noyau
Définition
▶ Pour tout h > 0 petit (en fait h = hn −→ 0 ), on peut définir fˆn (x) = n1 ni=1 h1 K Xhi x , estimateur
P
n→∞
à noyau de f . On a fn (x) dx = 1 et si K > 0 alors fˆn est une densité.
ˆ
R
▶ Le paramétre h > 0 est appelé fenétre. C’est un paramétre de lissage : plus h est grand, plus
l’estimateur est régulier.
Exemples de noyaux
1[1;1] (u)
▶ Rosenblatt, ou noyau rectangulaire K(u) = 2
. ▶Noyau triangle K(u) = (1 − |u|)1[1;1] (u)
Rx (fˆn , f ) = Ef (fˆn (x) − f (x))2 = Biais2f (fˆn (x)) + V arf (fˆn (x)) .
Théorème
Si on pose
n
2 1 Xi − Xj
R̂(h) = ||fˆn,h ||22 −
X X
K̀( )
n(n − 1) i=1 j=1,j̸=i h h
Proposition
Si f ∈ d (β,L) avec β,L>0 et si K noyau d’ordre l = ⌊β⌋ tel que |u| β|K(u)|du<+∞ , alors pour
P R
Si f est une densité bornée sur R (i.e. ∥f ∥< ∞) et si K est un noyau tel que K 2 (u)du < +∞ , alors
R
7
Théoréme
R 2
Soit β > 0, L > 0 et K un noyau d’ordre ℓ = ⌊β⌋ tel que K (u)du < +∞ et
|u| |K(u)|du < +∞. Alors, en choisissant une fenetre h = cn−1/(2β+1 ), avec c > 0, on obtient
R β
∀x ∈ R, Rx (fˆn , d (β, L)) = supf ∈Pd (β,L) Ef [|fˆn (x) − f (x)|2 ] ≤ Cn2/(2+1) ,où C = C(c, β, L, K).
P
Proposition
Si f ∈ ℵd (β, L) et si K est un noyau d’ordre ℓ = ⌊β⌋ tel que |u|β |K(u)|du < +∞, alors pour tout h
R
> 0 et tout n ≥ 1, on a Biais2f = ||Ef fˆn − f ||22 ≤ ( ℓ!L |u|β |K(u)|du)2 h2β .
R
Le modèle linéaire consiste à supposer que r s’écrit, si x = (x1 , ..., xp ) ∈ Rp , r(x) = β0 +β1 x1 +..., +βp xp
On a donc, pour tout i = 1, . . . , n,
1 X11 . X1p
. . . .
On note X =
. . . .
. . . .
1 Xn1 ... Xnp
8
β0
.
et β =
.
.
βp
Dans ce cas, l’estimation de r revient à l’estimation du vecteur β. C’est un problème paramétrique.
Quand on ne sait rien sur la loi des observations, on utilise les moindres carrés ordinaires : β̂ =
argminβ∈Rp ||Y − Xβ||[ 22 = (X T X)−1 X T Y
Lorsqu’un forestier essaie de quantifier le volume de bois fourni par un arbre, il est nécessaire de
connaitre sa hauteur. Or il est parfois impossible d’effectuer une telle mesure. Une mesure plus simple
est la mesure de la circonférence de l’arbre à une hauteur fixée du sol. Le forestier souhaite trouver une
formule, si celle-ci existe, permettant de déduire la hauteur de l’arbre à partir de sa circonférence. Pour
cela il dispose d’un ensemble de n = 1429 couples de mesures circonférence-hauteur effectuées sur n
arbres.
Pour commencer, comme il n’y a qu’une seule variable, on représente les données. Cela nous permet de
savoir qu’une régression simple semble indiquée, les points étant disposés grossièrement le long d’une
droite.
Si les données se trouvent dans un data.frame appelé euca et si les noms des variables sont ht et circ
alors on peut utiliser reg=lm(ht circ,data=euca)
On peut ensuite représenter le nuage de points avec la droite de régression, ainsi que l’intervalle de
confiance sur un ensemble de valeurs de prévisions (à 95> plot(ht circ,data=euca)
> circ=euca[,’circ’]
> grille<-seq(min(circ),max(circ),length=100)
> grilledataframe<-data.frame(circ=grille)
> ICpred<-predict(reg,new=grilledataframe,interval="pred",level=0.95)
> matlines(grille,ICpred,lty=c(1,2,2),col=c(’red’,’blue’,’blue’))
Nous constatons que les observations sont globalement bien ajustées par le modèle, sauf peut-être pour
les faibles valeurs de circonférences, qui semblent en majorité situées en√dessous de la droite. Ceci suggère
d’utiliser plutôt le modèle de régression suivant ht = a1 + a2 circ + a3 circ + ϵ
On peut donc utiliser un modèle linéaire avec une transformation de la variable d’origine. On peut
d’ailleurs vérifier qu’en introduisant la variable sqrt(circ), on a bien un meilleur modèle :
> reg1=lm(ht circ,data=euca)
> reg2=lm(ht circ+I(sqrt(circ)),data=euca)
> anova(reg1,reg2)
Estimateur de Nadaraya-Watson
On supposeR que les (Xi , Yi ) admettent une densité f : R → R et on suppose que pour tout x > 0,
2
fRX (x) = f (x, y)dy > 0 (fX est la densité de X). On peut alors écrire ∈ R, r(x) = E[Y |X = x] =
yf (x, y)f
(R X (x)dy Donc pour estimer ) r, on peut passer par l’estimation de f et fX et poser
y fˆn (x,y)
dy si fˆn,X (x) ̸= 0
r̂n (x) = fˆn,X (x)
0sin,X (x) = 0
On peut utiliser les estimateurs à noyau du chapitre précédent :
n
1 X Xi − x
fˆn,X (x) = K( )
nh i=1 h
9
n
ˆ 1 X Xi − x Yi − y
fn (x, y) = 2
K( )K( )
nh i=1 h h
Proposition
Si K est un noyau d’ordre 1 alors ∀x ∈ R )
(P n Xi −x
i=1 Yi K( h )
si ni=1 K( Xih−x ) ̸= 0
P
r̂n (x) = Xi −x
Pn
i=1 K( h )
0sinon
Remarque
Si K est continu, positif et à support sur R (par ex le noyau gaussien) alors r̂n (x) est continu.
Remarque
( Xi −x )
K( )
si
Pn Xi −x
h
K( ) =
̸ 0
On peut écrire r̂n (x) = ωn,i (x)Yi où ωn,i (x) =
Pn Pn Xi −x i=1 h
i=1 K( )
i=1 h
0sinon
Remarque
(R )
y fˆn (x,y)
si X(x) ̸= 0
Il se peut que la densité fX soit connue. Dans ce cas, il est préférable d’utiliser r̂n (x) = fX (x)
0sinon
si
1 Pn Xi −x
Y i K( ) f X (x) =
̸ 0
i.e. , si K est un noyau d’ordre 1, r̂n (x) = nhfX (x) i=1 h
0sinon
Proposition
On suppose fX connue. On s’intéresse à l’estimation de r(x) pour x fixé. Soit K un noyau d’ordre 1.
On suppose de plus que
— fX ≻ 0.
— Il existe ϵ ≻ 0 tel que les fonctions fX et r sont continument dérivables sur [x - ϵ, x + ϵ]
— Pour tout y, si|u| ⪯ ϵ |fR(x + u, y)f (x, y)| ⪯ M (x, y)ϵ
où y 2 M (x, y)dy ≺ ∞ et y 2 f (x, y)dy ≺ ∞
R
— K est un noyau à support dans [1, 1] et de carré intégrable Alors, si |h| ⪯ ϵ, il existe une constante
C(x) (dépendant de x) telle que
1
E[(r̂n (x) − r(x))2 ] ≺ C(x)(h2 + )
nh
10
Définition
Si K est un noyau positif, h ≻ 0 une fenêtre et l ≻ 0 un entier, on définit
∀x ∈ R
,
n l
X Xi − x X θk Xi − x k 2
θ̂(x) = arg min K( )[Yi − ( ) ]
θ=(θ0 ,...,θl )∈Rl +1
i=1
h k=0
k! h
On pose θ̂ = (θˆ0 , ..., θ̂l ). L’estimateur par polynôme local d’ordre l est alors défini par
Remarque
Si l = 0 alors r̂nl (x) est égal à l’estimateur de Nadaraya-Watson.
Définition
Un estimateur r̂ de la fonction de régression r est linéaire s’il s’écrit r̂(x) = ψi (x)Yi , ∀x ∈ R où
Pn
i=1
les ψi (x) ne dépendent pas des Yi .
Proposition
Si la matrice Bn,x est définie positive alors l’estimateur par polynômes locaux r̂nl est un estimateur
linéaire.
11
Partie 2 : k
Travaux Dirigés
L’expression exacte de l’erreur quadratique moyenne integrée (en anglais: “Mean Inte-
grated Squared Error”, MISE) peut être obtenue à partir de
Z
MISE{f } = MSE{fb(x)}dx
b
h2
Biais{fˆh (x)} = f 00 (x)µ2 (K) + o(h2 ), h → 0,
2
R
où µ2 (K) = u2 K(u)du.
c) Montrez que pour K ∈ L2 , on a pour tout x ∈ R
1 1
Z
Var{fˆh (x)} = 2
f (x) K(u) du + o , nh → ∞.
nh nh
Solution 1. a
n
1 X Xi − x
fˆh (x) = K , K noyau.
nh i=1 h
12
b) Puisque les Xi sont iid on a facilement
ˆ −1 X −x
E{fh (x)} = h E K
h
u−x
Z
−1
=h K f (u)du
h
Z
= K(ũ)f (x + hũ)dũ, ũ = (u − x)/h.
De plus comme V ar(Y ) = E(Y 2 ) − E(Y )2 , il nous reste à calculer le premier terme (le 2ème
étant déjà fait). C’est parti pour le deuxième !
( 2 ) 2
− u−x
Z
−1 −2 X x −1 −2
n h E K =n h K f (u)du
h h
Z
−1 −1
=n h K(u)2 f (x + hu)du
Z
−1 −1 2
=n h K(u) f (x)du + o(1)
1 1
Z
2
= f (x) K(u) du + o .
nh nh
13
d) On a donc puisque M SE = Biais2 + V ariance
Z 4
1 1
Z Z
h 00 2 2 2 4
M ISE = {f (x)} µ2 (K) dx + f (x) K(u) dudx + o(h ) + o
4 nh nh
4
1 1
Z Z
h
= µ2 (K)2 {f 00 (x)}2 dx + K(u)2 du + o(h4 ) + o .
4 nh nh
e) Reste plus qu’à dériver par rapport à h et résoudre (on néglige les petits o).
1
Z Z
3 2 00
h µ2 (K) 2
{f (x)} dx − 2 K(u)2 du = 0
nh
1
Z Z
5 2 00 2
⇐⇒h µ2 (K) {f (x)} dx − K(u)2 du = 0
n
R 2
K(u) du
⇐⇒h5 = R
nµ2 (K)2 {f 00 (x)}2 dx
R 1/5
K(u)2 du
⇐⇒h =
PPP
R .
nµ2 (K)2 {f 00 (x)}2 dx
Astuce : on utilisera le fait que pour Y ∼ N (µ, σ 2 ), E{(X − µ)2k } = (2k)!σ 2k /(2k k!).
b) En déduire que le choix par défaut de la fenêtre selon Silverman est donné par
v
u
σ̂ 5 1/5 u 1 X n
hSilverman = 4 , σ̂ = t (X − X̄)2
3n n − 1 i=1 i
14
Solution 2. a) On commence par calculer f 00(x). Rien de bien compliqué et on trouve
(x − µ)2
00 1
f (x) = − 2 f (x).
σ2 σ
Ensuite on notera que
1
f (x)2 = √ f (x; µ, σ 2 /2),
2 πσ 2
de sorte que
2
(x − µ)2
Z
1
Z
00 2
f (x) dx = − 2 f (x)2 dx
σ4 σ
(X − µ)4 (X − µ)2
1 1 2 σ2
= √ E + 4 − 2E , X∼N 0,
2 πσ 2 σ8 σ σ σ4 2
4!(σ/2)4 σ 2 /2
1 1
= √ + 4 −2 6
2 πσ 2 22 2!σ 8 σ σ
3
= 5√ .
8σ π
Nous avons utilisé pour l’avant dernière égalité le fait que
4! 4
E{(Y − µ)4 } = σ , Y ∼ N (µ, σ 2 ).
22 2!
b) D’après nos calculs précédents on sait déjà que (ϕ ∼ N (0, 1))
1
Z
ϕ(x)2 dx = √ .
2 π
De plus comme Z
µ2 (ϕ) := x2 ϕ(x)dx = 1,
c) Il suffit d’utiliser un estimateur robuste de la variance pour le cas Gaussien. Soit X ∼ N (µ, σ 2 ).
Alors puisque pour une loi N (0, 1) l’intervale inter-quartile vérifie
X[3n/4] − µ X[n/4] − µ
− ≈ 1.349
σ σ
X[3n/4] − X[n/4]
⇐⇒ ≈ 1.349,
σ
15
soit l’estimateur suivant
X[3n/4] − X[n/4]
σ̃ = .
1.349
d) Vous savez que l’estimateur de l’écart-type σ
v
u n n
u 1 X 1X
σ̂ = t (Xi − X̄)2 , X̄ = Xi ,
n − 1 i=1 n i=1
est très sensible aux valeurs extrêmes présentes dans l’échantillon. Comment feriez vous pour
palier à ce problème ?
en effet une seule valeur peut causer une grande estimation, donc on utlise l'ecart interquartile
pour ignorer ces valeurs
Z n o2
ˆ
= E fh (x) − f (x) + f (x) dx
Z Z Z n o
= M SE{fh (x)}dx + f (x) dx − 2 E fˆh (x) − f (x) f (x)dx
ˆ 2
Z Z n o Z
= M ISE(fˆh ) + f (x) dx + 2 E fˆh (x) f (x)dx − 2 f (x)2 dx
2
Z h n oi
= M ISE(fh ) − f (x)2 dx + 2EX E fˆh (X)
ˆ
2 X1 − X
Z
ˆ 2
= M ISE(fh ) − f (x) dx + EX E K
h h
16
D’autre part on a
n X n
2 X X j − Xi 2
X2 − X1
E K = E K .
n(n − 1)h i=1 j=1
h
h h
j6=i
dépend pas de h.
data("faithful")
?faithful
PPP
for (bandwidth in c(0.5, 10, 4)){
for (bandwidth in c(0.5, 10, 4)){
plot(density(faithful$waiting, kernel = "gaussian", bw = bandwidth),
main = "")
rug(faithful$waiting)
}
Solution 4:
a)
En faisant entrer le code sur R une documentation va se lancer expliquant le modèle avec
272 observations sur 2 variables qui sont l'éruption et le temps d'attente entre 2 éruption
b)
c)
En faisant entrer la code ci dessus une graphe subdivisée en 1 ligne et 3 colonnes affichant
chacun l'estimation de la densité en utilisant la noyau gaussien et en variant la fenêtre entre
0.5 , 4 et 10
17
Exercice 5 : Mélange de gaussiennes
Soit la fonction
0.7 x−1
f (x) = 0.3ϕ(x) + ϕ , x ∈ R,
0.3 0.3
où ϕ(·) correspond à la densité d’une N (0, 1).
a) Montrez que f est une densité de probabilité.
b) Ecrivez une fonction R qui génère un n–échantillon (iid) selon cette loi.
c) Simulez un n–échantillon (n choisi par vos soins) et obtenez une estimation de la densité. Vosu
choisirez une fenêtre optimale à l’oeil .
d) Sur un même graphqiue, comparer cette estimation à la densité théorique.
0.7
Z Z
f (x)dx = 0.3 + ϕ(u)0.3du, u = (x − 1)/0.3
0.3
= 0.3 + 0.7 = 1,
R
où nous avons utilisé que ϕ = 1.
melange<-function(x)
{0.3*dnorm(x)+(0.7/0.3)*dnorm((x-1)/0.3) }
rmelange<-function(n)
{x<-runif(n*500,-3,3)
y<-matrix(melange(x),ncol=n,nrow=500)
return(y)
}
y1=rmelange(5)
x<-density(y1,kernel="gaussian",bw=0.28)##la fenetre n'est pas choisie par défaut
t=runif(5000,-3,3)
y2<-melange(t)
par(mfrow=c(1,2))
plot(x,col="red",main="l'estimation du densité")
plot(t,y2,col="blue",main="densité théorique")
18
Exercice 6 : Nadaraya–Watson
Dans cet exercice, nous allons retrouver la forme de l’estimateur de Nadaraya–Watson pour la
régression non paramétrique.
a) Soit K1 et K2 deux noyaux sur R montrez que le noyau (x, y) 7→ K1 (x)K2 (y) est un noyau sur
R2 .
b) Considérons l’estimateur de la densité bivariée f (x, y) suivant
n
1 X X i − x Y i − y
fˆh1 ,h2 (x, y) = Kh1 Kh2 .
nh1 h2 i=1 h1 h2
Montrez que
n
1X Xi − x
Z
y fˆh1 ,h2 (x, y)dy = Kh1 Yi .
n i=1 h1
e) Jouez un peu avec l’argument bandwidth pour faire le lien avec le cours.
f) Ecrivez un bout de code R permettant de choisir une fenêtre adaptée par leave-one-out.
Solution 6 .a) I l est vraiment facile , en effet la positivité est triviale. De plus en aplliquant Fubini-
Tonelli on aura
✂ ✂ ✂ ✂
ainsi le noyau est
|K1 (x)| |K2 (y )| dxdy = |K1 (x)| dx |K2 (y )| dy intégrable .l
19
Il ne reste que de vérifier que le noyau est d' intégrale 1.En effet en utilisons ce qui précédé on peut
appliquer le théorème de Fubin ce qui donne : lk
✂ ✂ ✂ ✂
K1 (x)K2 (y ) dxdy = K1 (x)dx K2 (y )dy = 1
b) On a
n
− −
Z Z
1 X X i x Y i y
yfˆh1 ,h2 (x, y)dy = y Kh1 Kh2 dy
nh1 h2 i=1 h1 h2
n Z
1 X Xi − x
= Kh1 (Yi − h2 ỹ)Kh2 (ỹ)(−h2 dỹ), ỹ = (Yi − y)/h2
nh1 h2 i=1 h1
n
1 X Xi − x
= Kh1 Yi , symétrie du noyau et intégrale à 1.
nh1 i=1 h1
c) On utilise simplement la relation f (y | x) = f (x, y)/f (x). On estime alors le numérateur via
la question précédente et le dénominateur par l’estimateur de Parzen–Rosenblatt. On trouve
alors
n−1 ni=1 Kh1 {(Xi − x)/h1 }Yi
P
r̂(x) = −1 Pn ,
n i=1 Kh1 {(Xi − x)/h1 }
qui est bien l’expression donnée en cours.
70
60
50
eruptions
20
bandwidths <- seq(0.1, 2, length = 100)
mse <- rep(NA, length(bandwidths))
n.obs <- nrow(faithful)
attach(faithful)
for (i in 1:length(bandwidths))
{ h <- bandwidths[i]
residuals <- rep(NA, n.obs)
for (j in 1:n.obs)
{ pred <- ksmooth(eruptions[-j], waiting[-j], kernel = "normal", bandwidth = h, x.points = eruptions[j])
residuals[j] <- pred$y - waiting[j] }
mse[i] <- mean(residualsˆ2) }
plot(bandwidths, mse, type = "l")
36
35
mse
34
33
bandwidths
## Fenetre optimale
hopt <- bandwidths[which.min(mse)]
plot(eruptions, waiting)
lines(ksmooth(eruptions, waiting, kernel = "normal", bandwidth = hopt), col = "seagreen3", lwd = 2)
90
80
70
60
50
eruptions
21
Chapitre
Partie 3 :3k
Application Simulation
sous R Numérique
Dans ce troisième partie de notre projet qui sera la dernier nous allons la consacrer
purement numérique
Dans ce dernier i.e nous utilisons le logiciel R, pour calculer et représenter graphi-
chapitre,
quement la fonction de regression et son estimateur en vue de les comparer dans des situa-
au chapitre
au partie 2 2. Nous donnons des exemples sur cet estimateur qui expriment l’importance
Ensuite, nous présentons les résultats obtenus pour les di¤érents jeux de données ainsi
que pour les di¤érentes noyaux K (noyau Gaussien : à support non compact et noyau
par l’expression :
Yi = r(Xi ) + "i
P
n
Yi Khn (Xi x)
i=1 n;X (x)
rn (x) = Pn = 2
(3.2)
fn;X (x)
Khn (Xi x)
i=1
22
1 X
n
1 X
n
fn;X (x) = Kh (Xi x)
nhn i=1 n
2
y = r(x) + "; où " ! N (0; ) 3
(3.3)
y = 3 + 0:8x + ":
23
Dans les résultats graphiques de cette section, on a :
- La droite noire exprime la fonction de régression r(x).
- La droite en rouge exprime la fonction de régression empirique rn (x)
p1 t2
Dans ce premier cas, on pose un noyau gaussien K(t) = 2
exp 2
et on va utiliser
le code ci-dessous pour estimer ce modèle, et le resultat graphique obtenu représenté dans
1
la …gure [FIG3.1]
Code R :
Rn =Hn/fn
# Régression Rn(.)
24
op=par(mfrow=c(1,3))
plot(x,Rn,xlab="x", ylab="Rn(x)", main="n=50",type='l',col=2, lwd= 2)
abline(3,.8,lwd= 2)
###Pour n =100###
n=100
X=rnorm(n,0,2)
E=rnorm(n)
Y=3+.8*X+E
h=nˆ-.2
V=numeric(n)
for(j in 1 :s){
for(i in 1 :n){ V[i]=K((x[j]-X[i])/h) }
fn[j]=sum(V)/(n*h)}
W=numeric(n)
for(j in 1 :s){
for(i in 1 :n){ W[i]=K((x[j]-X[i])/h)*Y[i] }
Hn[j]=sum(W)/(n*h)}
Rn =Hn/fn
plot(x,Rn,xlab="x", ylab="Rn(x)", main="n=100",type='l',col=2, lwd= 2)
abline(3,.8,lwd= 2)
####Pour n =500###
n=500
X=rnorm(n,0,2)
E=rnorm(n)
Y=3+.8*X+E
h=nˆ-.2
V=numeric(n)
for(j in 1 :s){
for(i in 1 :n){ V[i]=K((x[j]-X[i])/h) }
fn[j]=sum(V)/(n*h)}
W=numeric(n)
for(j in 1 :s){
for(i in 1 :n){ W[i]=K((x[j]-X[i])/h)*Y[i] }
Hn[j]=sum(W)/(n*h)}
Rn =Hn/fn
plot(x,Rn,xlab="x", ylab="Rn(x)", main="n=500",type='l',col=2, lwd= 2)
abline(3,.8,lwd= 2)
par(op)
25
n=50 n=100 n=500
7
6
6
5
5
5
4
4
4
Rn(x)
Rn(x)
Rn(x)
3
3
3
2
2
2
1
1
1
−4 −2 0 2 4 −4 −2 0 2 4 −4 −2 0 2 4
x x x
L’axe des absices représente les valeurs des x et l’axe des coordonnées les valeurs des rn (et
r). Par la comparaison graphique, on remarque que le graphe rouge de rn est approche
beaucoup à la droite noire de r dans le troisième graphe, donc ce graphe exprime la
convergence de l’estimateur rn vers r.
K à support compact
26
n=50 n=100 n=500
8
10
6
8
4
6
4
Rn(x)
Rn(x)
Rn(x)
4
2
2
2
0
0
0
−2
−4 0 2 4 6 −4 0 2 4 6 −4 0 2 4 6
x x x
Dans cette section, nous prenons le paramètre de lissage dans l’intervalle ]0; 1[ et avec des
tests graphique en va diterminer le paramètre h optimal (au sens graphique). On …xe la
taille de l’échantillon n = 250 et le noyau K est normal, l’estimation obtenue avec les
valeurs de h varié de 0:1 à 0:9 sont données dans la …gure. Il est clair que la valeur de h
optimale est de h = 0:7 (ligne 3, colonne 1)
Code R
Rn=array(dim=c(s,9))
for(k in 1 :9){ Rn[,k]=Hn[,k]/fn[,k]}
# Graphes
# nouvelle fenêtre graphique
op=par(mfrow=c(3,3))
for(k in 1 :9){
plot(x,Rn[,k],xlab="x", ylab="Rn(x)", main=" ",type='l',col=2, lwd= 2)
abline(3,.8,lwd= 2) }
par(op)
Rn(x)
Rn(x)
Rn(x)
−2 6
−2 6
0 6
−4 −2 0 2 4 6 −4 −2 0 2 4 6 −4 −2 0 2 4 6
x x x
Rn(x)
Rn(x)
Rn(x)
6
6
0 6
−4 −2 0 2 4 6 −4 −2 0 2 4 6 −4 −2 0 2 4 6
x x x
Rn(x)
Rn(x)
Rn(x)
6
6
6
0
−4 −2 0 2 4 6 −4 −2 0 2 4 6 −4 −2 0 2 4 6
x x x
28
Identique aux choix précédents, mais on change le noyau : K(t) = 34 (1 t2 ) 1fjtj 1g (noyau
4 qui explique l’estimation obtenue avec les
d’Epanechnikov). On obtenu la …gure [FIG3.4]
valeurs de h varié de 0:1 à 0:9.
Rn(x)
Rn(x)
Rn(x)
0 6
0 6
0 6
−4 −2 0 2 4 6 −4 −2 0 2 4 6 −4 −2 0 2 4 6
x x x
Rn(x)
Rn(x)
Rn(x)
0 6
0 6
0 6
−4 −2 0 2 4 6 −4 −2 0 2 4 6 −4 −2 0 2 4 6
x x x
Rn(x)
Rn(x)
Rn(x)
6
6
6
0
0
−4 −2 0 2 4 6 −4 −2 0 2 4 6 −4 −2 0 2 4 6
x x x
Il est claire que la valeur du h optimale est de h = 0:9 (ligne 3, colonne 3).
Dans cette section, nous allons répeter les mêmes étapes que dans la régression linéaire
mais avec un modèle non linéaire :
y = sin x + "
Code R :
rm(list=ls(all=TRUE)) # Nouveau
rn(list=ls(all=TRUE)) programme
# Nouveau programme
n=50 # taille de l'échantillon (X,Y)
X=rnorm(n,0,2)
n=50 # taille de l’\’{e}chantillon (X,Y)
E=rnorm(n)
Y=sin(X)+E # Modéle Sinus Non Linéaire
X=rnorm(n,0,2)
# Noyau Normale K(t) c’est une densité
K=function(t){(1/sqrt(2*pi))*exp(-0.5*tˆ2)}
E=rnorm(n)
# paramétre de lissage h
h=nˆ-.2
Y=sin(X)+E # Mod\‘{e}le Sinus Non Lin\’{e}aire
# Initiation
s=100 # taille
# Noyau de l’intervalle
Normale K(t) c’est [a,b]
une densit\’{e}
a=min(X) #borne inf
b=max(X) # borne sup
K=function(t){(1/sqrt(2*pi))*exp(-0.5*t^2)}
x=seq(a,b,length=s)
# param\‘{e}tre de # Intervalle
lissage h[a,b]
V=numeric(n)
fn=numeric(s)
h=n^-.2
# Densité fn(.)
in 1 :s){
# Initiation
for(j
for(i in 1 :n){ V[i]=K((x[j]-X[i])/h) }
fn[j]=sum(V)/(n*h)}
s=100 # taille de l’intervalle [a,b]
# Fonction Hn(.)
a=min(X) #borne inf
W=numeric(n)
Hn=numeric(s)
b=max(X) # borne sup
for(j in 1 :s){
for(i in 1 :n){ W[i]=K((x[j]-X[i])/h)*Y[i] }
Hn[j]=sum(W)/(n*h)}
Rn =Hn/fn # Régression Rn(.)
# Graphes
# nouvelle fenettre graphique
op=par(mfrow=c(1,3))
plot(x,Rn,xlab="x", ylab="Rn(x)", main="n=50",type='l',col=4, lwd= 2)
lines(x,sin(x),lwd= 2)
#####Pour n =100 ####
n=100
X=rnorm(n,0,2)
E=rnorm(n)
Y=sin(X)+E # Modéle Sinus Non Lin\’{e}aire
h=nˆ-.2
V=numeric(n)
for(j in 1 :s){
30
Rn =Hn/fn
plot(x,Rn,xlab="x", ylab="Rn(x)", main="n=100",type='l',col=4, lwd= 2)
lines(x,sin(x),lwd= 2)
#####Pour n =500
n=500
X=rnorm(n,0,2)
E=rnorm(n)
Y=sin(X)+E # Modéle Sinus Non Lin\’{e}aire
h=nˆ-.2
V=numeric(n)
for(j in 1 :s){
for(i in 1 :n){ V[i]=K((x[j]-X[i])/h) }
fn[j]=sum(V)/(n*h)}
W=numeric(n)
for(j in 1 :s){
for(i in 1 :n){ W[i]=K((x[j]-X[i])/h)*Y[i] }
Hn[j]=sum(W)/(n*h)}
Rn =Hn/fn
plot(x,Rn,xlab="x", ylab="Rn(x)", main="n=500",type='l',col=4, lwd= 2)
lines(x,sin(x),lwd= 2)
par(op)
1.0
1.0
0.5
0.5
0.5
0.0
0.0
Rn(x)
Rn(x)
Rn(x)
0.0
−0.5
−0.5
−0.5
−1.0
−1.0
−1.0
−2 0 2 4 −2 0 2 4 −2 0 2 4
x x x
3
Dans ce second cas, on choisit le noyau d’Epanechnikov : K(t) = 4
(1 t2 ) 1fjtj 1g . En
31
suite, on modi…e seulement cette partie dans le programme R précédent :
# Noyau Epanechnikov K(t)
1.5
1.0
1.0
0
0.5
0.5
Rn(x)
Rn(x)
Rn(x)
0.0
0.0
−1
−0.5
−0.5
−2
−1.0
−1.0
−1.5
−4 −2 0 2 4 −4 −2 0 2 4 −4 −2 0 2 4
x x x
Dans cette partie, on va prendre le paramètre de lissage dans l’intervalle [0; 1] de même
déterminerle paramètre
façon pour la régression linéaire, et avec des tests graphiques en va diterminer
h optimal (au sens graphique).
On …xe la taille de l’échantillon n = 250 et le noyau K est normal, l’estimation obtenue
7 Il est clair que
avec les valeurs de h varié de 0:1 à 0:9 sont données dans la …gure [FIG3.7].
la valeur du h optimale est de h = 0:5 (ligne 2, colonne 2).
Code R :
\’{e}chantillon’n=250#taille de l
(X=rnorm(n,0,2 32
n=250 #taille de l'échantillon
X=rnorm(n,0,2)
E=rnorm(n)
Y=sin(X)+E # Modéle Sinus Non Linéaire
# Noyau Normal K(t) c’est une densité
K=function(t){(1/sqrt(2*pi))*exp(-0.5*tˆ2)}
# paramètre de lissage h
h=seq(.1,.9,length=9)
# Initiation
s=100 # taille de l’intervalle [a,b]
a=min(X) #borne inf
b=max(X) # borne sup
x=seq(a,b,length=s) # Intervalle [a,b]
V=array(dim=c(n,s,9))
fn=array(dim=c(s,9))
W=array(dim=c(n,s,9))
Hn=array(dim=c(s,9))
# density fn(x)
for(k in 1 :9){
for(j in 1 :s){
# Graphes
33
1
−2 1
−2 1
Rn(x)
Rn(x)
Rn(x)
−2
−4 −2 0 2 4 −4 −2 0 2 4 −4 −2 0 2 4
x x x
Rn(x)
Rn(x)
Rn(x)
−1.5
−2.0
−2.5
−4 −2 0 2 4 −4 −2 0 2 4 −4 −2 0 2 4
x x x
Rn(x)
Rn(x)
Rn(x)
−0.5
−1.0
−0.6
−4 −2 0 2 4 −4 −2 0 2 4 −4 −2 0 2 4
x x x
Si nous gardons le même modèle non linéaire y = sinx + " ; mais avec le noyau d’Epane-
chikov. On note, que la valeur du h optimale est de h = 0:9 (ligne 3 ; colonne 3 ; voir la
8
FIG-3.8).
Finallement, ce chapitre montre l’importance de paramètre de lissage h et du noyau K
dans l’estimation non paramétrique de la régression linéaire et non linéaire. Mais à noté
que le choix de h est plus crucial que le choix de noyau.
34
2
Rn(x)
Rn(x)
Rn(x)
−1.0
−1.0
−1
−6 −2 0 2 4 6 −6 −2 0 2 4 6 −6 −2 0 2 4 6
x x x
Rn(x)
Rn(x)
Rn(x)
−0.5
−1.0
−1.0
−6 −2 0 2 4 6 −6 −2 0 2 4 6 −6 −2 0 2 4 6
x x x
Rn(x)
Rn(x)
Rn(x)
−0.5
−0.5
−0.5
−6 −2 0 2 4 6 −6 −2 0 2 4 6 −6 −2 0 2 4 6
x x x
35