Projet Becem-Houssem253

Republique Tunisienne
Campus Universitaire El-Manar

Faculté des sciences de Tunis
Projet
Introduction à la statistique non paramétrique
Realise par :
Rezgui Beçem Ala Din
Ajili Houssem
: Encadre par
Mr khardani Salah
Annee universite : 2022 2023
1
Partie 1 : k
Résumés du cours

La statistique paramétrique est le cadre ”classique” de la statistique. Le modéle statistique y est décrit
par un nombre fini de paramétres. Typiquement M = Pθ , θ ∈Rp est le modéle statistique qui décrit la
distribution des variables aléatoires observées.
Exemples
Observation réelles avec un seul mode
PK: M = N (µ,2 σ ), µ ∈R,σ ∈R ,Kmodéle
2 2 +∗
Gaussien. Observation
réelles avec plusieurs modes : MK = i=1 pi N (µi , σ ), (p1 , ..., pK ) ∈ (0, 1) , i pi = 1, (µ1 , ..., µK ) ∈ RK ,σ 2 ∈R+∗ ,
P
modéle de mélange Gaussien
Par opposition, en statistique non paramétrique, le modéle n’est pas décrit par un nombre fini de
paramétres. Divers cas de figures peuvent se présenter, comme par exemple :
↣ On s’autorise toutes les distributions possibles, i.e. on ne fait aucune hypothése sur la forme/nature/type
de la distribution des variables aléatoires.
↣ on travaille sur des espaces fonctionnels, de dimension infinie. comme Exemple : les densites continues
sur [0, 1], ou les densités monotones sur R.
statistique non paramétrique : Quand l’utiliser ?
Exemples de contextes d’utilisation :
▶ Quand on n’arrive pas à ajuster correctement les observations avec une distribut ion paramétrique
▶ Quand on n’a aucune idée de modéle, ou qu’on ne veut pas avoir un a priori sur le modéle
▶ Quand on ne sait pas combien de composantes on veut mettre dans un mélange
▶ ...
Avantages :
▶ Moins d’a priori sur les observations,

▶ Modéles plus généraux, donc plus robustes au modéle.
Inconvénients :
2
▶ Vitesses de convergence plus lentes = il faut plus de données pour obtenir une précision équivalente.
Fonctions de répartition et fonctionnelles de la

distribution
Estimer une fonction de répartition
On observe X1 , ..., Xn variables aléatoires (v.a.) réelles, i.i.d. de fonction de répartition (fdr)
F :κ →PF (κ) = P (Xi ≤x). L’estimateur naturel de la fdr 𭟋 est la fdr empirique 𭟋ˆn définie par Formula
𭟋ˆn = n1 ni=1 1Xi ≤x . C’est un estimateur non paramétrique de la fdr F
→ Qualité de cet estimateur ?
▶ Biais
n
1X
E(𭟋ˆn ) = P (Xi ≤ x) = 𭟋(x)
n i=1
i.e. estimateur sans biais.
▶ Variance
n
1 X 1
V ar(𭟋ˆn ) = V ar(1 X i ≤x ) = V ar(1Xi ≤x ) = 𭟋(x)(1−𭟋(x))
n
= −→ 0
n2 i=1 n n−→∞
▶ Erreur en moyenne quadratique (ou MSE pour ”mean square error”)
E[(F̂n (x) − F (x))2 ] = biais2 + variance = V ar(F̂n (x)) −→ 0.

n→∞
▶ Convergence en probabilité
propa
F̂n (x) 7−→ n→∞ F (x)
▶ LGN :
p.s
F̂n (x) 7−→n→∞ F (x)
▶ TCL :
√ L
n(F̂n (x) − F (x)) 7−→n→∞ N (0, F (x)(1 − F (x))).
3
▶ Théoréme de Glivenko Cantelli
p.s
supx∈R |F̂n (x) − F (x)| 7−→n→∞ 0.
▶ Inégalité de Dvoretzky-Kiefer-Wolfowitz (DKW)
∀n∈ℵ,∀ε > 0, P (supx∈R |F̂n (x) − F (x)| > ε)≤2exp(−2nε2 ).
→ Intervalles de confiance (IC)
h p p i
F̂n (x) − log((2/α)/(2n)); F̂n (x) + log((2/α)/(2n)) .
Fonctionnelles de la distribution
Une fonctionnelle est une application T : F → R .
Exemples
▶ Moyenne :
F →µ(F)= xdF (x)

R
▶ Variance
: F →σ 2 (F ) = (x(F ))2 dF (x) = x2 dF (x)( xdF (x))2

R R R
▶ Médiane :
F →m(F ) = F −1 (1/2) et Quantiles : F →q(F ) = F −1 (α)
▶ Skewness (ou coefficient d’asymétrie) :
F → (x(F ))3 dF (x)/(F )3/2

R
▶ E(|X1 X2 |), P ((X1 , X2 ) ∈S),...
U etV statistiques
Soit T = E(ϕ(X1 , ..., Xk )) une fonctionnelle de moment.(On peut supposer ϕ symétrique en les coor-
données).
▷ Son estimateur de substitution est la V -statistique V = T( F̂n ) = n1k ni1 . . . nik ϕ(Xi1 , ..., Xik ).
P P
−1
n
▷ Un autre estimateur sans biais de T est la U -statistique U =
P P
... ϕ(Xi1 , ..., Xik ).
k 1i1 <i2 <<ik n
4
▷ La U -stat et la V -stat correspondante ont le meme comportement asymptotique et ne différent
que par des extra-termes dans la V -stat et des facteurs de normalisations différents.
Propriétés des U -statistiques
▷ Estimateurs sans√ biais.
▷ Variance : V ar( nU ) →k2 σ 2 où σ 2 = Cov(φ(X, X2 , ..., Xk ) ; φ(X, X2′ , ..., Xk′ )) et X, X2 , ..., Xk , X2′ , ..., Xk′
i.i.d. de loi F. √ √
L L
▷ Si σ12 ∈]0, +∞[, alors n(U − T (F )) 7−→n→∞ N (0, k 2 σ12 ) et n(V − T (F )) 7−→n→∞ N (0, k 2 σ12 )
, i.e.asympt.gaussiens
Estimation de densité :
Contexte de l’estimation de densité (univariée)
▶ Observations :X1 , ..., Xn v.a i.i.d réelles de fdr F et admettant une densité f = F’ .
▶ But : estimer (à partir des observations) f en faisant le moins d’hypothéses possibles sur cette densité.
▶ Typiquement, on supposera que f ∈ F espace fonctionnel et on notera F̂n un estimateur de f .
Objectifs
Obtenir des informations de nature géométrique sur la distribution des variables. Ex :
▶ Combien de modes ?
▶ Zones peu denses ? trés denses ?
Mesure de la qualité d’un estimateur : risque
1) Distance sur F pourRmesurer l’écart entre F̂n et f . Ex :
▶d(f , g) = ||f g||p = [ |f g|p ]1/p , pour p ≥ 1.Par exemple p = 1 ou 2.
▶d(f , g) = ||f g||∞ = supessx |f (x)g(x)|.
▶d(f , g) = |f (x0 )g(x0 )| où x0 fixé.
2) Définition d’une fonction de perte ω : R → R+ convexe, telle que ω(0) = 0. Ex : ω : u → u3 fonction
de perte quadratique.
3) L’erreur ω(d(F̂n , f )) (par ex d(F̂n , f )2 ) dépend de l’échantillon observé. On définit donc une fonction
de risque R(F̂n , f ) = Ef (ω(d(F̂n , f ))). C’est en moyenne, l’erreur que l’on commet en estimant f par F̂n ,
pour la distance d et la perte ω.
Exemples de fonctions de risque
▶ En prenant la distance L2 et la perte quadratique, on obtient le risque quadratique intégré : MISE

= mean integrated squared error
Z
R(F̂n , f ) = Ef (F̂n (x) − f (x))2 dx
X
.
▶ En prenant la distance ponctuelle en x0 et la perte quadratique, on obtient le risque quadratique
ponctuel en x0 : MSE = mean squared error
Rx0 (F̂n , f ) = Ef |F̂n (x0 )f (x0 )|2
Estimateur par histogramme

Construction et risque quadratique
On suppose que la densité f est définie sur un intervalle borné [a, b] ⊂ R et f ∈ L2 ([a, b]).
5
Définition
▶ Soit I = (Ik )1≤k≤D une partition de [a, b] (i.e. intervalles disjoints dont l’union est [a, b]),
▶ On note nk = Card{i; Xi ∈ Ik } le nombre d’observations dans Ik , et |Ik | la longueur de l’intervalle
Ik .
▶ L’estimateur par histogramme de f est défini par fÎ,n (x) = D nk
P
k=1 n|Ik | 1Ik (x).
▶ Il affecte à chaque intervalle une valeur égale à la fréquence des observations dans cet intervalle,
renormalisée par la longueur de l’intervalle.
Choix de la partition par validation croisée
Minimisation du risque MISE et estimateur oracle
▶ On veut choisir la partition I qui minimise le risque quadratique intégré (MISE)
R(I, n, f ) := Ef ||fÎ,n (x) − f ||22
. Ansi I ∗ = ArgminI∈I R(I, n, f ), où I est l’ensemble des partitions de [a, b].
▶ Pbm : Le MISE dépend de la densité inconnue f .
Z
ArgminI∈I R(I, n, f ) = ArgminI∈I Ef ||fÎ,n (x) − f ||2 − 2 fÎ,n (x)f (x)dx.
2
x
Donc I n’est pas un estimateur. On dit que c’est un oracle.

∗
▶ On va donc estimer ce risque pour sélectionner une partition I.
estimateurs à noyau
Définition
▶ Soit K :R →R intégrable telle que K(u)du = 1 . Alors K est appelé noyau.

R
▶ Pour tout h > 0 petit (en fait h = hn −→ 0 ), on peut définir fˆn (x) = n1 ni=1 h1 K Xhi x , estimateur
P
n→∞
à noyau de f . On a fn (x) dx = 1 et si K > 0 alors fˆn est une densité.
ˆ
R
▶ Le paramétre h > 0 est appelé fenétre. C’est un paramétre de lissage : plus h est grand, plus
l’estimateur est régulier.
Exemples de noyaux
1[1;1] (u)
▶ Rosenblatt, ou noyau rectangulaire K(u) = 2
. ▶Noyau triangle K(u) = (1 − |u|)1[1;1] (u)
Rappel sur le risque quadratique ponctuel
Rx (fˆn , f ) = Ef (fˆn (x) − f (x))2 = Biais2f (fˆn (x)) + V arf (fˆn (x)) .
Classe de H ölder (régularité locale)

Définitions
▶ Pour tout β ∈ R , on note ⌊β ⌋. le plus petit entier strictement inférieur à β.

▶ Pour tous β > 0, L > 0, on définit la classe des fonctions de H ölder sur l’ensemble T par
(β, L) = {f : T → R ;fPest l = ⌊β⌋ f ois .dérivable Pet ∀x,y∈T .,|f (l) (x) − f (l) (y)|⪯L|xy|β−l }.
P
▶ On note également d (β,L) l’intersection entre (β, L) (pour T = R ) et l’ensemble des densités
sur R
6
Noyaux d’ordre l
Définition
Soit l ∈N∗ . Le noyau K : R → R est dit d’ordre l si :

▶ ∀j ∈ {1, ..., l }, on Ra u→uj K(u) est intégrable
▶ et ∀j ∈ {1, ..., l }, uj K(u)du = 0.
Théorème
Si on pose
n
2 1 Xi − Xj
R̂(h) = ||fˆn,h ||22 −
X X
K̀( )
n(n − 1) i=1 j=1,j̸=i h h
alors R̂(h) est un estimateur sans biais de R(fˆn,h , f ) − ||f ||22 ..

Choix de la fenêtre h par validation croisée
Le choix de la fenêtre dans la section précédente est critiquable : comme on l’a mentionné, il dépend
de la régularité qui est en général inconnue. On peut donc essayer d’estimer cette fenêtre idéale par
un estimateur .Def aonsoulignerladpendancelaf entreh, onvanotern,h l’estimateur associé à un choix de
fenêtre h. L’estimateur final sera fˆn,ĥ , une fois le choix de ĥ fait. On cherche à minimiser en h le risque
quadratique pour la distance L2 : R(fˆn,h , f ) = E[||f n, hf ||22 ] Or la fonction f étant inconnue, ce risque
n’est pas calculable à partir des données. On cherche donc à estimer ce risque en utilisant uniquement les
données. Remarquons tout de suite que minimiser en h la quantité R(fˆn,h , f ) est équivalent à minimiser
en h la quantité R(fˆn,h , f ) − ||f ||22 .
On définit alors ĥ = arg minh∈H R̂(h) si ce minimum est atteint. On cherche une fenêtre parmi une grille
finie de valeurs, grille qu’on a notée H dans la formule ci-dessus.
L’estimateur fˆn,ĥ a de bonnes propriétés pratiques et des propriétés de consistance.
La validation croisée est une méthode très générale dont on reparlera plus en détail dans le prochain
chapitre. L’idée d’utiliser un estimateur sans biais du risque est aussi une idée assez générale (cf critère
Cp).
P
Biais des estimateurs à noyaux sur la classe d (β,L)
Proposition
Si f ∈ d (β,L) avec β,L>0 et si K noyau d’ordre l = ⌊β⌋ tel que |u| β|K(u)|du<+∞ , alors pour
P R
tout x ∈ R , tout h > 0 et tout entier n1 on a

Z
L
Biaisf (fˆn (x)) = |Ef (fˆn (x)) − f (x)| ≤ |u||K(u)|du)hβ
l!
. En particulier, le biais tend vers 0 lorsque h → 0.
Variance des estimateurs à noyaux

Proposition
Si f est une densité bornée sur R (i.e. ∥f ∥< ∞) et si K est un noyau tel que K 2 (u)du < +∞ , alors
R
pour tout x ∈R , pour tout h > 0 et tout n ≥ 1, on a

R 2
∥f ∥ ( K (u)du)
V arf (fˆn (x)) ≤ ∞
nh
. Si de plus, f (x) > 0 et f continue au voisinage de x et |K(u)|du < +∞ , alors
R
V arf (fˆn (x)) = fnh ( K 2 (u)du)(1+ o(1)) , lorsque h → 0.

(x) R
7
Théoréme
R 2
Soit β > 0, L > 0 et K un noyau d’ordre ℓ = ⌊β⌋ tel que K (u)du < +∞ et
|u| |K(u)|du < +∞. Alors, en choisissant une fenetre h = cn−1/(2β+1 ), avec c > 0, on obtient
R β
∀x ∈ R, Rx (fˆn , d (β, L)) = supf ∈Pd (β,L) Ef [|fˆn (x) − f (x)|2 ] ≤ Cn2/(2+1) ,où C = C(c, β, L, K).
P
Proposition
Si f ∈ ℵd (β, L) et si K est un noyau d’ordre ℓ = ⌊β⌋ tel que |u|β |K(u)|du < +∞, alors pour tout h
R
> 0 et tout n ≥ 1, on a Biais2f = ||Ef fˆn − f ||22 ≤ ( ℓ!L |u|β |K(u)|du)2 h2β .
R
Régression non paramétrique

Introduction
Dans ce chapitre, on cherche à expliquer les valeurs que peut prendre une variable Y à partir des valeurs
que peut prendre une variable X.
Exemples :
— Y est le taux d’insuline dans le sang, qu’on explique (ou prédit) à l’aide de X= (IMC, pression du
sang, concentration de molécules).
— Y est le niveau de diplôme obtenu , qu’on explique à l’aide de X = (âge, sexe, revenu des parents,
métier des parents).
On suppose que la variable Y est intégrable E|Y | < ∞ et on note r la fonction de régression de Y sur
X : r(x) = E(Y |X = x)
L’objectif est d’estimer la fonction r pour expliquer et prédire Y à partir de X. Pour cela on dispose
des réalisations de n couples de variables (X1 , Y1 ), ..., (Xn , Yn ). On va supposer que les (Xi , Yi ) sont
indépendants.
Vocabulaire
— les Yi sont les variables à expliquer ou les variables réponses ou variables de sortie.
— les Xi constituent le design, les variables explicatives, les covariables, ou variables d’entrée.
Modélisation
Le design pourra être aléatoire ou déterministe. Dans ce dernier cas, on notera plutôt xi à la place de
Xi .
Le fait que r(x) = E(Y |X = x) se réécrit Y = r(X)+ϵ avec E(ϵ|X) = 0 On aura donc pour l’échantillon
Y i = r(Xi) + ϵi , i = 1, ..., n, E(ϵi |Xi) = 0 En particulier on a donc E(ϵ) = 0.
Les ϵi sont appelées erreurs et jouent le rôle de bruit. Dans la suite, on va faire une hypothèse très forte :
V ar(ϵi ) = σ 2 < ∞ variance finie et indépendante de i
EMC non paramétrique
Modèle linéaire : rappels
Le modèle linéaire consiste à supposer que r s’écrit, si x = (x1 , ..., xp ) ∈ Rp , r(x) = β0 +β1 x1 +..., +βp xp
On a donc, pour tout i = 1, . . . , n,
r(Xi ) = β0 + β1 Xi1 + ..., βp Xip = XiT β
1 X11 . X1p
 
. . . . 
On note X =
 
 . . . . 

. . . . 
1 Xn1 ... Xnp
8
 
β0
 . 
et β =
 
 . 

 . 
βp
Dans ce cas, l’estimation de r revient à l’estimation du vecteur β. C’est un problème paramétrique.
Quand on ne sait rien sur la loi des observations, on utilise les moindres carrés ordinaires : β̂ =
argminβ∈Rp ||Y − Xβ||[ 22 = (X T X)−1 X T Y
Un exemple : la hauteur des eucalyptus
Lorsqu’un forestier essaie de quantifier le volume de bois fourni par un arbre, il est nécessaire de
connaitre sa hauteur. Or il est parfois impossible d’effectuer une telle mesure. Une mesure plus simple
est la mesure de la circonférence de l’arbre à une hauteur fixée du sol. Le forestier souhaite trouver une
formule, si celle-ci existe, permettant de déduire la hauteur de l’arbre à partir de sa circonférence. Pour
cela il dispose d’un ensemble de n = 1429 couples de mesures circonférence-hauteur effectuées sur n
arbres.
Pour commencer, comme il n’y a qu’une seule variable, on représente les données. Cela nous permet de
savoir qu’une régression simple semble indiquée, les points étant disposés grossièrement le long d’une
droite.
Si les données se trouvent dans un data.frame appelé euca et si les noms des variables sont ht et circ
alors on peut utiliser reg=lm(ht circ,data=euca)
On peut ensuite représenter le nuage de points avec la droite de régression, ainsi que l’intervalle de
confiance sur un ensemble de valeurs de prévisions (à 95> plot(ht circ,data=euca)
> circ=euca[,’circ’]
> grille<-seq(min(circ),max(circ),length=100)
> grilledataframe<-data.frame(circ=grille)
> ICpred<-predict(reg,new=grilledataframe,interval="pred",level=0.95)
> matlines(grille,ICpred,lty=c(1,2,2),col=c(’red’,’blue’,’blue’))
Nous constatons que les observations sont globalement bien ajustées par le modèle, sauf peut-être pour
les faibles valeurs de circonférences, qui semblent en majorité situées en√dessous de la droite. Ceci suggère
d’utiliser plutôt le modèle de régression suivant ht = a1 + a2 circ + a3 circ + ϵ
On peut donc utiliser un modèle linéaire avec une transformation de la variable d’origine. On peut
d’ailleurs vérifier qu’en introduisant la variable sqrt(circ), on a bien un meilleur modèle :
> reg1=lm(ht circ,data=euca)
> reg2=lm(ht circ+I(sqrt(circ)),data=euca)
> anova(reg1,reg2)
Estimateur de Nadaraya-Watson
On supposeR que les (Xi , Yi ) admettent une densité f : R → R et on suppose que pour tout x > 0,
2
fRX (x) = f (x, y)dy > 0 (fX est la densité de X). On peut alors écrire ∈ R, r(x) = E[Y |X = x] =
yf (x, y)f
(R X (x)dy Donc pour estimer ) r, on peut passer par l’estimation de f et fX et poser
y fˆn (x,y)
dy si fˆn,X (x) ̸= 0
r̂n (x) = fˆn,X (x)
0sin,X (x) = 0
On peut utiliser les estimateurs à noyau du chapitre précédent :
n
1 X Xi − x
fˆn,X (x) = K( )
nh i=1 h
9
n
ˆ 1 X Xi − x Yi − y
fn (x, y) = 2
K( )K( )
nh i=1 h h
Proposition
Si K est un noyau d’ordre 1 alors ∀x ∈ R )
(P n Xi −x
i=1 Yi K( h )
si ni=1 K( Xih−x ) ̸= 0
P
r̂n (x) = Xi −x
Pn
i=1 K( h )
0sinon
Remarque
Si K est continu, positif et à support sur R (par ex le noyau gaussien) alors r̂n (x) est continu.
Remarque
( Xi −x )
K( )
si
Pn Xi −x
h
K( ) =
̸ 0
On peut écrire r̂n (x) = ωn,i (x)Yi où ωn,i (x) =
Pn Pn Xi −x i=1 h
i=1 K( )
i=1 h
0sinon
Remarque
(R )
y fˆn (x,y)
si X(x) ̸= 0
Il se peut que la densité fX soit connue. Dans ce cas, il est préférable d’utiliser r̂n (x) = fX (x)
0sinon
si
1 Pn Xi −x
Y i K( ) f X (x) =
̸ 0
i.e. , si K est un noyau d’ordre 1, r̂n (x) = nhfX (x) i=1 h
0sinon
Proposition
On suppose fX connue. On s’intéresse à l’estimation de r(x) pour x fixé. Soit K un noyau d’ordre 1.
On suppose de plus que
— fX ≻ 0.
— Il existe ϵ ≻ 0 tel que les fonctions fX et r sont continument dérivables sur [x - ϵ, x + ϵ]
— Pour tout y, si|u| ⪯ ϵ |fR(x + u, y)f (x, y)| ⪯ M (x, y)ϵ
où y 2 M (x, y)dy ≺ ∞ et y 2 f (x, y)dy ≺ ∞
R
— K est un noyau à support dans [1, 1] et de carré intégrable Alors, si |h| ⪯ ϵ, il existe une constante
C(x) (dépendant de x) telle que
1
E[(r̂n (x) − r(x))2 ] ≺ C(x)(h2 + )
nh
Estimateur par polynomes locaux

Proposition
Si r̂n est l’estimateur de Nadaraya-Watson associé à un noyau K ≻ 0 alors r̂n est solution de
n
X Xi − x
r̂n (x) = arg min K( )(Yi − θ)2
θ∈R
i=1
h
r̂n est donc un estimateur des moindres carrés pondéré si

Pn
i=1 K( Xhi x ) ̸= 0
10
Définition
Si K est un noyau positif, h ≻ 0 une fenêtre et l ≻ 0 un entier, on définit
∀x ∈ R
,
n l
X Xi − x X θk Xi − x k 2
θ̂(x) = arg min K( )[Yi − ( ) ]
θ=(θ0 ,...,θl )∈Rl +1
i=1
h k=0
k! h
On pose θ̂ = (θˆ0 , ..., θ̂l ). L’estimateur par polynôme local d’ordre l est alors défini par
r̂n (x) = θˆ0
Remarque
Si l = 0 alors r̂nl (x) est égal à l’estimateur de Nadaraya-Watson.
Définition
Un estimateur r̂ de la fonction de régression r est linéaire s’il s’écrit r̂(x) = ψi (x)Yi , ∀x ∈ R où
Pn
i=1
les ψi (x) ne dépendent pas des Yi .
Proposition
Si la matrice Bn,x est définie positive alors l’estimateur par polynômes locaux r̂nl est un estimateur
linéaire.
11
Partie 2 : k
Travaux Dirigés
Avant de commencer de faire les exercices , on rappelle les formules suivantes :m
Le risque quadratique moyen de l’estimateur fb(x) de f (x) est donné par

n o2
b 2 b b b
E{f (x) − f (x)} = E f (x) − E{f (x)} + E{f (x)} − f (x)
h i2
b b
= Var{f (x)} + E{f (x)} − f (x)
h i2
= Var{fb(x)} + Biais{fb(x)} .
L’expression exacte de l’erreur quadratique moyenne integrée (en anglais: “Mean Inte-
grated Squared Error”, MISE) peut être obtenue à partir de
Z
MISE{f } = MSE{fb(x)}dx
b
Exercice 1 : Propriétés s tatistique de Parzen–Rosenblatt

.On s ’intéresse i ci aux propriétés s tatistiques de l ’estimateur de Parzen–Rosenblatt
a) Rappelez l’expression de cet estimateur.
b) Montrez que si f est au moins C 2 alors pour tout x ∈ R
h2
Biais{fˆh (x)} = f 00 (x)µ2 (K) + o(h2 ), h → 0,
2
R
où µ2 (K) = u2 K(u)du.
c) Montrez que pour K ∈ L2 , on a pour tout x ∈ R

1 1
Z
Var{fˆh (x)} = 2
f (x) K(u) du + o , nh → ∞.
nh nh
d) En déduire une expression approchée pour la MISE.

e) Trouvez la fenêtre optimale minimisant cette MISE approchée.
Solution 1. a
n
1 X Xi − x
fˆh (x) = K , K noyau.
nh i=1 h
12
b) Puisque les Xi sont iid on a facilement

ˆ −1 X −x
E{fh (x)} = h E K
h

u−x
Z
−1
=h K f (u)du
h
Z
= K(ũ)f (x + hũ)dũ, ũ = (u − x)/h.
Faisons un développement de Taylor à l’ordre 2 pour f , on a

1
f (x + hũ) = f (x) + hũf 0 (x) + (hũ)2 f 00 (x) + o(h2 ).
2
De sorte que pour h → 0, on a
1 2 00
Z Z Z
ˆ 0
E{fh (x)} = f (x) K(u)du + hf (x) uK(u)du + h f (x) u2 K(u)du + o(h2 )
2
2
h
= f (x) + 0 + f 00 (x)µ2 (K) + o(h2 ).
2
c) Les Xi étant iid on a

ˆ −1 −2 X −x
V ar{fh (x)} = n h V ar K .
h
De plus comme V ar(Y ) = E(Y 2 ) − E(Y )2 , il nous reste à calculer le premier terme (le 2ème
étant déjà fait). C’est parti pour le deuxième !
( 2 ) 2
− u−x
Z
−1 −2 X x −1 −2
n h E K =n h K f (u)du
h h
Z
−1 −1
=n h K(u)2 f (x + hu)du
Z
−1 −1 2
=n h K(u) f (x)du + o(1)

1 1
Z
2
= f (x) K(u) du + o .
nh nh
Quand au premier on avait trouvé

2
−1 −2 X −x
n h E K = n−1 h−2 {f (x) + o(h)}
h
qui est négligeable devant o(1/nh).

On a donc le résultat attendu.
13
d) On a donc puisque M SE = Biais2 + V ariance
Z 4
1 1
Z Z
h 00 2 2 2 4
M ISE = {f (x)} µ2 (K) dx + f (x) K(u) dudx + o(h ) + o
4 nh nh
4

1 1
Z Z
h
= µ2 (K)2 {f 00 (x)}2 dx + K(u)2 du + o(h4 ) + o .
4 nh nh
e) Reste plus qu’à dériver par rapport à h et résoudre (on néglige les petits o).
1
Z Z
3 2 00
h µ2 (K) 2
{f (x)} dx − 2 K(u)2 du = 0
nh
1
Z Z
5 2 00 2
⇐⇒h µ2 (K) {f (x)} dx − K(u)2 du = 0
n
R 2
K(u) du
⇐⇒h5 = R
nµ2 (K)2 {f 00 (x)}2 dx
R 1/5
K(u)2 du

⇐⇒h =
PPP
R .
nµ2 (K)2 {f 00 (x)}2 dx
Exercice 2 : La r ègle empirique de Silverma n (the rule of thumb)

Dans cet exercice nous allons essayer de mieux comprendre ce qu’il se cache derrière la règle
. empirique de Silverman et voir quelques modifications de cette dernière
a) Soit f ∼ N (µ, σ2). Montrez que
3
Z
f 00 (x)2 dx = √ .
8σ 5 π
Astuce : on utilisera le fait que pour Y ∼ N (µ, σ 2 ), E{(X − µ)2k } = (2k)!σ 2k /(2k k!).
b) En déduire que le choix par défaut de la fenêtre selon Silverman est donné par
v
u
σ̂ 5 1/5 u 1 X n
hSilverman = 4 , σ̂ = t (X − X̄)2
3n n − 1 i=1 i
c) Expliquez l’intuition derrière la formule suivante

X[3n/4] − X[n/4]

1/5
h∗ = 4 min σ̂, ,
3n 1.349
X[np] représente la [np]–ième statistique d’ordre, i.e., la [np]–ième plus petite valeur de .`
l’échantillon X1, . . . , X
 cette fenêtre sera adaptée lorsque le vraie densité est assez proche d'une loi normale, c'est à dire à
peu prés symétrique ayant des queues de distributions légères
14
Solution 2. a) On commence par calculer f 00(x). Rien de bien compliqué et on trouve
(x − µ)2

00 1
f (x) = − 2 f (x).
σ2 σ
Ensuite on notera que
1
f (x)2 = √ f (x; µ, σ 2 /2),
2 πσ 2
de sorte que
2
(x − µ)2
Z
1
Z
00 2
f (x) dx = − 2 f (x)2 dx
σ4 σ
(X − µ)4 (X − µ)2

1 1 2 σ2
= √ E + 4 − 2E , X∼N 0,
2 πσ 2 σ8 σ σ σ4 2
4!(σ/2)4 σ 2 /2

1 1
= √ + 4 −2 6
2 πσ 2 22 2!σ 8 σ σ
3
= 5√ .
8σ π
Nous avons utilisé pour l’avant dernière égalité le fait que
4! 4
E{(Y − µ)4 } = σ , Y ∼ N (µ, σ 2 ).
22 2!
b) D’après nos calculs précédents on sait déjà que (ϕ ∼ N (0, 1))
1
Z
ϕ(x)2 dx = √ .
2 π
De plus comme Z
µ2 (ϕ) := x2 ϕ(x)dx = 1,
on trouve alors que

Z 1/5 Z −1/5
−2/5 −1/5 2 002
h∗ = µ2 (ϕ) n ϕ f
−1/5
√

−1/5 −1/5 3
=n (2 π) 4
√
8σ π
1/5
4σ 5

= .
3n
Comme σ est inconnue on l’estimera par sa version empirique σ̂.
c) Il suffit d’utiliser un estimateur robuste de la variance pour le cas Gaussien. Soit X ∼ N (µ, σ 2 ).
Alors puisque pour une loi N (0, 1) l’intervale inter-quartile vérifie
z0.75 − z0.25 = Φ(0.75) − Φ(0.25) ≈ 1.349,
et puisque (X − µ)/σ ∼ N (0, 1) ceci suggère d’estimer σ à l’aide de l’équation
X[3n/4] − µ X[n/4] − µ
− ≈ 1.349
σ σ
X[3n/4] − X[n/4]
⇐⇒ ≈ 1.349,
σ
15
soit l’estimateur suivant
X[3n/4] − X[n/4]
σ̃ = .
1.349
d) Vous savez que l’estimateur de l’écart-type σ
v
u n n
u 1 X 1X
σ̂ = t (Xi − X̄)2 , X̄ = Xi ,
n − 1 i=1 n i=1
est très sensible aux valeurs extrêmes présentes dans l’échantillon. Comment feriez vous pour
palier à ce problème ?
 en effet une seule valeur peut causer une grande estimation, donc on utlise l'ecart interquartile
pour ignorer ces valeurs
e) On remarque que h∗ correspond à la règle empirique de Silverman pour laquelle on estime

l’écart-type comme le minimum entre l’estimateur classique et sa version robuste. C’est une
manière de combiner les deux approches précédentes en prenant la fenêtre la plus petite des
deux afin de ne pas obtenir une densité trop lissée.
Exercice 3 : Validation croisée Leave one out

On suppose que la vraie densité vérifie f ∈ L2 et on pose h > 0.
a) Rappelez l’expression de ce type de validation croisée pour l’estimateur de Parzen–Rosenblatt.
b) Montrez que Z
E{CV (h)} = M ISE(h) − f (x)2 dx.
c) Qu’en déduisez vous ?
Solution 3. a) L’expression est donnée par

PPP
n n
2 Xj − Xi
Z XX
CV (h) = fˆh (x) dx −
2
K .
n(n − 1)h i=1 j=1 h
j6=i
b) Faisons les calculs séparément. D’une part on a
Z Z n o
E fh (x) dx = E fˆh (x)2 dx
ˆ 2
Z n o2
ˆ
= E fh (x) − f (x) + f (x) dx
Z Z Z n o
= M SE{fh (x)}dx + f (x) dx − 2 E fˆh (x) − f (x) f (x)dx
ˆ 2
Z Z n o Z
= M ISE(fˆh ) + f (x) dx + 2 E fˆh (x) f (x)dx − 2 f (x)2 dx
2
Z h n oi
= M ISE(fh ) − f (x)2 dx + 2EX E fˆh (X)
ˆ

2 X1 − X
Z
ˆ 2
= M ISE(fh ) − f (x) dx + EX E K
h h
16
D’autre part on a
 
 
 n X n 
2 X X j − Xi 2
 X2 − X1
E K = E K .
n(n − 1)h  i=1 j=1
h 
 h h
 
j6=i
En comibinant les deux résultats on trouve bien le résultat espéré.

c) En moyenne minimiser CV (h) revient à minimiser M ISE(fˆh ) puisque le terme f (x)2 dx ne
R
dépend pas de h.
Exercice 4 : Old faithful geyser

Dans cet exercice nous allons mettre tout ce que nous avons vu sur l’estimation non paramétrique
d’une densité de probabilité en s’appuyant sur le jeu de données old faithfull geyser. Ce jeu
de données collecte (entre autre) le temps d’attente entre deux éruptions du geyser Old Faithful
situté dans le parc de Yellowstone.
a) Importez le jeu de données et renseignez vous sur ce dernier via les commandes R
data("faithful")
data("faithful")
?faithful
b) Lisez la documentation de la fonction density.

c) Exécutez les commandes suivantes, dites ce qu’elles font et commentez les résultats
par(mfrow ==c(1,
par(mfrow c(1,3),3),
marmar
= c(4, 5, 0.5,
= c(4, 5, 0))
0.5, 0))
PPP
for (bandwidth in c(0.5, 10, 4)){
for (bandwidth in c(0.5, 10, 4)){
plot(density(faithful$waiting, kernel = "gaussian", bw = bandwidth),
main = "")
rug(faithful$waiting)
}
Solution 4:
a)
En faisant entrer le code sur R une documentation va se lancer expliquant le modèle avec
272 observations sur 2 variables qui sont l'éruption et le temps d'attente entre 2 éruption
b)
en faisant entrer "?density" sur R une documentation va se lancer expliquant cette

fonction qui estime la densité d'une variable X , il prend comme entrée observations, la
noyau K (gaussien, triangulaire, rectangulaire,etc) et la fenêtre
c)
En faisant entrer la code ci dessus une graphe subdivisée en 1 ligne et 3 colonnes affichant
chacun l'estimation de la densité en utilisant la noyau gaussien et en variant la fenêtre entre
0.5 , 4 et 10
17
Exercice 5 : Mélange de gaussiennes
Soit la fonction
0.7 x−1
f (x) = 0.3ϕ(x) + ϕ , x ∈ R,
0.3 0.3
où ϕ(·) correspond à la densité d’une N (0, 1).
a) Montrez que f est une densité de probabilité.
b) Ecrivez une fonction R qui génère un n–échantillon (iid) selon cette loi.
c) Simulez un n–échantillon (n choisi par vos soins) et obtenez une estimation de la densité. Vosu
choisirez une fenêtre optimale à l’oeil .
d) Sur un même graphqiue, comparer cette estimation à la densité théorique.
Solution 5. a) Clairement f est positive. Reste à montrer que f (x)dx = 1. On a
0.7
Z Z
f (x)dx = 0.3 + ϕ(u)0.3du, u = (x − 1)/0.3
0.3
= 0.3 + 0.7 = 1,
R
où nous avons utilisé que ϕ = 1.
melange<-function(x)
{0.3*dnorm(x)+(0.7/0.3)*dnorm((x-1)/0.3) }
rmelange<-function(n)
{x<-runif(n*500,-3,3)
y<-matrix(melange(x),ncol=n,nrow=500)
return(y)
}
y1=rmelange(5)
x<-density(y1,kernel="gaussian",bw=0.28)##la fenetre n'est pas choisie par défaut
t=runif(5000,-3,3)
y2<-melange(t)
par(mfrow=c(1,2))
plot(x,col="red",main="l'estimation du densité")
plot(t,y2,col="blue",main="densité théorique")
18
Exercice 6 : Nadaraya–Watson
Dans cet exercice, nous allons retrouver la forme de l’estimateur de Nadaraya–Watson pour la
régression non paramétrique.
a) Soit K1 et K2 deux noyaux sur R montrez que le noyau (x, y) 7→ K1 (x)K2 (y) est un noyau sur
R2 .
b) Considérons l’estimateur de la densité bivariée f (x, y) suivant
n
1 X X i − x Y i − y
fˆh1 ,h2 (x, y) = Kh1 Kh2 .
nh1 h2 i=1 h1 h2
Montrez que
n
1X Xi − x
Z
y fˆh1 ,h2 (x, y)dy = Kh1 Yi .
n i=1 h1
c) En déduire l’expression de l’estimateur de Nadaraya–Watson pour la régression non paramétrique.

d) Lisez la documentation de la fonction ksmooth et analysez le code suivant
data(faithful)
data(faithful)
attach(faithful)
attach(faithful)
plot(eruptions, waiting)
fit <- ksmooth(eruptions,
fit <- ksmooth(eruptions, waiting, kernelkernel
waiting, = "normal")
= "normal")
lines(fit, col = "seagreen3", lwd = 2)
lines(fit, col = "seagreen3", lwd = 2)
e) Jouez un peu avec l’argument bandwidth pour faire le lien avec le cours.
f) Ecrivez un bout de code R permettant de choisir une fenêtre adaptée par leave-one-out.
Solution 6 .a) I l est vraiment facile , en effet la positivité est triviale. De plus en aplliquant Fubini-
Tonelli on aura
✂ ✂ ✂ ✂
ainsi le noyau est
|K1 (x)| |K2 (y )| dxdy = |K1 (x)| dx |K2 (y )| dy intégrable .l
19
Il ne reste que de vérifier que le noyau est d' intégrale 1.En effet en utilisons ce qui précédé on peut
appliquer le théorème de Fubin ce qui donne : lk
✂ ✂ ✂ ✂
K1 (x)K2 (y ) dxdy = K1 (x)dx K2 (y )dy = 1
b) On a
n
− −
Z Z
1 X X i x Y i y
yfˆh1 ,h2 (x, y)dy = y Kh1 Kh2 dy
nh1 h2 i=1 h1 h2
n Z
1 X Xi − x
= Kh1 (Yi − h2 ỹ)Kh2 (ỹ)(−h2 dỹ), ỹ = (Yi − y)/h2
nh1 h2 i=1 h1
n
1 X Xi − x
= Kh1 Yi , symétrie du noyau et intégrale à 1.
nh1 i=1 h1
c) On utilise simplement la relation f (y | x) = f (x, y)/f (x). On estime alors le numérateur via
la question précédente et le dénominateur par l’estimateur de Parzen–Rosenblatt. On trouve
alors
n−1 ni=1 Kh1 {(Xi − x)/h1 }Yi
P
r̂(x) = −1 Pn ,
n i=1 Kh1 {(Xi − x)/h1 }
qui est bien l’expression donnée en cours.
d) en écrivant le code sur R voici le graphe que nous avons obtenues

90
80
waiting
70
60
50
1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
eruptions
f) en écrivant le code suivant sur R on obtient
20
bandwidths <- seq(0.1, 2, length = 100)
mse <- rep(NA, length(bandwidths))
n.obs <- nrow(faithful)
attach(faithful)
for (i in 1:length(bandwidths))
{ h <- bandwidths[i]
residuals <- rep(NA, n.obs)
for (j in 1:n.obs)
{ pred <- ksmooth(eruptions[-j], waiting[-j], kernel = "normal", bandwidth = h, x.points = eruptions[j])
residuals[j] <- pred$y - waiting[j] }
mse[i] <- mean(residualsˆ2) }
plot(bandwidths, mse, type = "l")
36
35
mse
34
33
0.5 1.0 1.5 2.0
bandwidths
## Fenetre optimale
hopt <- bandwidths[which.min(mse)]
lines(ksmooth(eruptions, waiting, kernel = "normal", bandwidth = hopt), col = "seagreen3", lwd = 2)
90
80
70
60
50
1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
eruptions
21
Chapitre
Partie 3 :3k
Application Simulation
sous R Numérique
Dans ce troisième partie de notre projet qui sera la dernier nous allons la consacrer
purement numérique
Dans ce dernier i.e nous utilisons le logiciel R, pour calculer et représenter graphi-
chapitre,
quement la fonction de regression et son estimateur en vue de les comparer dans des situa-
tions simulées. Il s’agit de l’estimateur proposé par Nadaraya-Watson (1964) et présenté
au chapitre
au partie 2 2. Nous donnons des exemples sur cet estimateur qui expriment l’importance
de paramétre de lissage h, du noyau K.
Ensuite, nous présentons les résultats obtenus pour les di¤érents jeux de données ainsi
que pour les di¤érentes noyaux K (noyau Gaussien : à support non compact et noyau
Epanichnekov : à support compact), di¤érents valeurs de h strictement positif (h …xé ou
h varié), régression linéaire et non linéaire.

Rappelons qu’on suppose que l’on a observé un échantillon f(Xi ; Yi ) ; i = 1; :::; ng et on
veut expliquer la variable aléatoire Yi par Xi . De plus, on suppose que le modèle est donné
par l’expression :
Yi = r(Xi ) + "i
où "i est l’aléatoire centré et indépendente de Xi . Aussi la fonction de regression

R
yf (x; y)dy
r(x) = E[Y =X = x] = 1
(3.1)
fX (x)
où fX (x) est la densité de la variable X.
Nous avons vu que r(x) est estimé par la quantité :
P
n
Yi Khn (Xi x)
i=1 n;X (x)
rn (x) = Pn = 2
(3.2)
fn;X (x)
Khn (Xi x)
i=1
Il dépend de la taille de l’échantillon n ; et aussi du noyau K et de la fenetre hn qu’il faut

choisir pour calculer rn (x) : avec n;X (x) est l’estimateur naturel de X (x) :
22
1 X
n
n;X (x) = Yi Khn (Xi x)

nhn i=1
et fn;X (x) l’estimateur à noyau de la densité
1 X
n
fn;X (x) = Kh (Xi x)
nhn i=1 n
Dans la suite de ce chapitre, nous supposons que notre modèle à la forme
2
y = r(x) + "; où " ! N (0; ) 3
(3.3)
et nous étudions les deux cas :

Régression linéaire : r(x) = 3 + 0:8x + ".
Régression non linéaire : r(x) = sin(x) + ".
2
on supposons que : X est de loi normale centré de variance = 0:2 et " un terme d’erreur
de loi N (0; 1).
Nous allons donc étudier les cas suivants dans chaque modèle :
-Paramètre de lissage ou fenêtre h …xe, noyau normal (noyau à support non compact) et
n varié.
-Paramètre de lissage ou fenêtre h …xe, noyau d’Epanechnikov (noyau à support non
compact) et n varié.
-n …xe et fenêtre, h varié (noyau normal).
-n …xe et fenêtre, h varié (noyau d’Epanechnikov).
3.1 Régression linéaire
On veut estimer le modèle linéaire
y = 3 + 0:8x + ":
23
Dans les résultats graphiques de cette section, on a :
- La droite noire exprime la fonction de régression r(x).
- La droite en rouge exprime la fonction de régression empirique rn (x)
3.1.1 Paramètre de lissage h …xé, n varié

1
En choisissant le paramètre de lissage hn = n 5 (…xé) et n varié (n = 50; 100; 500)
K à support non compact
p1 t2
Dans ce premier cas, on pose un noyau gaussien K(t) = 2
exp 2
et on va utiliser
le code ci-dessous pour estimer ce modèle, et le resultat graphique obtenu représenté dans
1
la …gure [FIG3.1]
Code R :
rm(list=ls(all=TRUE)) # Nouveau programme

rn(list=ls(all=TRUE)) # Nouveau programme
n=50 # taille de l'échantillon (X,Y)
X=rnorm(n,0,2)
n=50 # taille de l’\’{e}chantillon (X,Y)
E=rnorm(n)
Y=3+.8*X+E # Modéle linéaire
X=rnorm(n,0,2)
# Noyau Normale K(t) c’est une densité
K=function(t){(1/sqrt(2*pi))*exp(-0.5*tˆ2)}
E=rnorm(n)
# paramètre de lissage h
h=nˆ-.2
Y=3+.8*X+E # Mod\‘{e}le lin\’{e}aire
# Initiation
#s=100
Noyau# taille
Normalede K(t)
l’intervalle [a,b]densit\’{e}
c’est une
a=min(X) #borne inf
b=max(X) # borne sup
K=function(t){(1/sqrt(2*pi))*exp(-0.5*t^2)}
x=seq(a,b,length=s) # Intervalle [a,b]
V=numeric(n)
fn=numeric(s)
# Densité fn(.)
for(j in 1 :s){
for(i in 1 :n){ V[i]=K((x[j]-X[i])/h) }
fn[j]=sum(V)/(n*h)}
# Fonction Hn(.)
W=numeric(n)
Hn=numeric(s)
for(j in 1 :s){
for(i in 1 :n){ W[i]=K((x[j]-X[i])/h)*Y[i] }

Hn[j]=sum(W)/(n*h)}
Rn =Hn/fn
# Régression Rn(.)
24
op=par(mfrow=c(1,3))
plot(x,Rn,xlab="x", ylab="Rn(x)", main="n=50",type='l',col=2, lwd= 2)
abline(3,.8,lwd= 2)
###Pour n =100###
n=100
X=rnorm(n,0,2)
E=rnorm(n)
Y=3+.8*X+E
h=nˆ-.2
V=numeric(n)
for(j in 1 :s){
fn[j]=sum(V)/(n*h)}
W=numeric(n)
for(j in 1 :s){
Hn[j]=sum(W)/(n*h)}
Rn =Hn/fn
abline(3,.8,lwd= 2)
####Pour n =500###
n=500
X=rnorm(n,0,2)
E=rnorm(n)
Y=3+.8*X+E
h=nˆ-.2
V=numeric(n)
for(j in 1 :s){
fn[j]=sum(V)/(n*h)}
W=numeric(n)
for(j in 1 :s){
Hn[j]=sum(W)/(n*h)}
Rn =Hn/fn
abline(3,.8,lwd= 2)
par(op)
25
n=50 n=100 n=500
7
6
6
5
5
5
4
4
4
Rn(x)
Rn(x)
Rn(x)
3
3
3
2
2
2
1
1
1
−4 −2 0 2 4 −4 −2 0 2 4 −4 −2 0 2 4
x x x
Fig. 13.1 –Régression linéaire : h …xé, n varié et K noyau normal
L’axe des absices représente les valeurs des x et l’axe des coordonnées les valeurs des rn (et
r). Par la comparaison graphique, on remarque que le graphe rouge de rn est approche
beaucoup à la droite noire de r dans le troisième graphe, donc ce graphe exprime la
convergence de l’estimateur rn vers r.
K à support compact
Dans ce second cas, on choisit le noyau d’Epanechnikov :K(t) = 43 (1 t2 ) 1fjtj 1g : Ensuite,

on modi…e seulement cette partie dans le programme R précédent :
K=function(t){ if (abs(t)<1){(3/4)*(1-tˆ2)} else {0}}
K=function(t){ifelse(abs(t)<1,(3/4)*(1-t^2),0)}
2 suivante :
On obtient la …gure [FIG 3.2]
même conclusion de la convergence de l’estimateur (voir la [FIG-31 :1], i.e ; convergence de
l’estimateur pour n assez grand).
26
n=50 n=100 n=500
8
10
6
8
4
6
4
Rn(x)
Rn(x)
Rn(x)
4
2
2
2
0
0
0
−2
−4 0 2 4 6 −4 0 2 4 6 −4 0 2 4 6
x x x
Fig. 23.2 –Régression linéaire : h …xe, n varié et K noyau d’Epanechnikov
3.1.2 Choix graphique du paramètre de lissage
Dans cette section, nous prenons le paramètre de lissage dans l’intervalle ]0; 1[ et avec des
tests graphique en va diterminer le paramètre h optimal (au sens graphique). On …xe la
taille de l’échantillon n = 250 et le noyau K est normal, l’estimation obtenue avec les
valeurs de h varié de 0:1 à 0:9 sont données dans la …gure. Il est clair que la valeur de h
optimale est de h = 0:7 (ligne 3, colonne 1)
Code R
n=250 # taille de l'èchantillon

n=250 # taille de l’\’{e}chantillon
X=rnorm(n,0,2)
E=rnorm(n)
Y=3+.8*X+E
X=rnorm(n,0,2)
E=rnorm(n) # paramétrage de lissage h
h=seq(.1,.9,length=9)
Y=3+.8*X+E
# Initiation
s=100 # taille de l’intervalle [a,b]
# Noyau Normale K(t) c’est une densit\’{e} K=function(t){(1/
a=min(X) #borne inf
sqrt(2*pi))*exp(-0.5*t^2)}
#V=array(dim=c(n,s,9))
param\‘{e}tre de lissage h
fn=array(dim=c(s,9))
W=array(dim=c(n,s,9))
Hn=array(dim=c(s,9))
# Initiation
s=100 # taille de l’intervalle [a,b] 27
# density fn(x)
for(k in 1 :9){
for(j in 1 :s){
for(i in 1 :n){ V[i,j,k]=K((x[j]-X[i])/h[k]) }
fn[j,k]=sum(V[,j,k])/(n*h[k])}}
# fonction Hn(x)
for(k in 1 :9){
for(j in 1 :s){
for(i in 1 :n){ W[i,j,k]=K((x[j]-X[i])/h[k])*Y[i] }
Hn[j,k]=sum(W[,j,k])/(n*h[k])}}
Rn=array(dim=c(s,9))
for(k in 1 :9){ Rn[,k]=Hn[,k]/fn[,k]}
# Graphes
# nouvelle fenêtre graphique
for(k in 1 :9){
plot(x,Rn[,k],xlab="x", ylab="Rn(x)", main=" ",type='l',col=2, lwd= 2)
abline(3,.8,lwd= 2) }
par(op)
Rn(x)
Rn(x)
Rn(x)
−2 6
−2 6
0 6
−4 −2 0 2 4 6 −4 −2 0 2 4 6 −4 −2 0 2 4 6
x x x
Rn(x)
Rn(x)
Rn(x)
6
6
0 6
−4 −2 0 2 4 6 −4 −2 0 2 4 6 −4 −2 0 2 4 6
x x x
Rn(x)
Rn(x)
Rn(x)
6
6
6
0
−4 −2 0 2 4 6 −4 −2 0 2 4 6 −4 −2 0 2 4 6
x x x
3 –Régression linéaire avec h varié, n …xé et K noyau gaussion.

Fig. 3.3
28
Identique aux choix précédents, mais on change le noyau : K(t) = 34 (1 t2 ) 1fjtj 1g (noyau
4 qui explique l’estimation obtenue avec les
d’Epanechnikov). On obtenu la …gure [FIG3.4]
valeurs de h varié de 0:1 à 0:9.
Rn(x)
Rn(x)
Rn(x)
0 6
0 6
0 6
−4 −2 0 2 4 6 −4 −2 0 2 4 6 −4 −2 0 2 4 6
x x x
Rn(x)
Rn(x)
Rn(x)
0 6
0 6
0 6
−4 −2 0 2 4 6 −4 −2 0 2 4 6 −4 −2 0 2 4 6
x x x
Rn(x)
Rn(x)
Rn(x)
6
6
6
0
0
−4 −2 0 2 4 6 −4 −2 0 2 4 6 −4 −2 0 2 4 6
x x x
4 –Régression linéaire avec h varié, n …xé et K d’Epanechnikov

Fig. 3.4
Il est claire que la valeur du h optimale est de h = 0:9 (ligne 3, colonne 3).
3.2 Régression non linéaire
Dans cette section, nous allons répeter les mêmes étapes que dans la régression linéaire
mais avec un modèle non linéaire :
y = sin x + "
où " un terme d’erreur de loi N (0; 1).

1
Toujours, la ligne noire exprime la fonction de régression théorique r(x) [Eq.(3.1)]et la ligne
2
rouge exprime la fonction de régression empirique rn (x) donnée par l’équation [Eq.(3.2)].
3.2.1 Paramètre de lissage h …xé, n varié

29
1
Dans ce cas, on choisit le paramètre de lissage h = n 5 (…xé), n varié (n = 50; 100; 500) et
t2
K est un noyau gaussien K(t) = p1 exp
2 2
Code R :
rm(list=ls(all=TRUE)) # Nouveau
rn(list=ls(all=TRUE)) programme
# Nouveau programme
n=50 # taille de l'échantillon (X,Y)
X=rnorm(n,0,2)
n=50 # taille de l’\’{e}chantillon (X,Y)
E=rnorm(n)
Y=sin(X)+E # Modéle Sinus Non Linéaire
X=rnorm(n,0,2)
E=rnorm(n)
# paramétre de lissage h
h=nˆ-.2
Y=sin(X)+E # Mod\‘{e}le Sinus Non Lin\’{e}aire
# Initiation
s=100 # taille
# Noyau de l’intervalle
Normale K(t) c’est [a,b]
une densit\’{e}
a=min(X) #borne inf
K=function(t){(1/sqrt(2*pi))*exp(-0.5*t^2)}
x=seq(a,b,length=s)
# param\‘{e}tre de # Intervalle
lissage h[a,b]
V=numeric(n)
fn=numeric(s)
h=n^-.2
# Densité fn(.)
in 1 :s){
# Initiation
for(j
fn[j]=sum(V)/(n*h)}
# Fonction Hn(.)
a=min(X) #borne inf
W=numeric(n)
Hn=numeric(s)
for(j in 1 :s){
Hn[j]=sum(W)/(n*h)}
Rn =Hn/fn # Régression Rn(.)
# Graphes
# nouvelle fenettre graphique
lines(x,sin(x),lwd= 2)
#####Pour n =100 ####
n=100
X=rnorm(n,0,2)
E=rnorm(n)
Y=sin(X)+E # Modéle Sinus Non Lin\’{e}aire
h=nˆ-.2
V=numeric(n)
for(j in 1 :s){

fn[j]=sum(V)/(n*h)}
W=numeric(n)
for(j in 1 :s){
Hn[j]=sum(W)/(n*h)}
30
Rn =Hn/fn
#####Pour n =500
n=500
X=rnorm(n,0,2)
E=rnorm(n)
Y=sin(X)+E # Modéle Sinus Non Lin\’{e}aire
h=nˆ-.2
V=numeric(n)
for(j in 1 :s){
fn[j]=sum(V)/(n*h)}
W=numeric(n)
for(j in 1 :s){
Hn[j]=sum(W)/(n*h)}
Rn =Hn/fn
par(op)
n=50 n=100 n=500
1.0
1.0
0.5
0.5
0.5
0.0
0.0
Rn(x)
Rn(x)
Rn(x)
0.0
−0.5
−0.5
−0.5
−1.0
−1.0
−1.0
−2 0 2 4 −2 0 2 4 −2 0 2 4
x x x
Fig. 53.5 –Régression non linéaire : h …xé, n varié et K noyau normal
3
Dans ce second cas, on choisit le noyau d’Epanechnikov : K(t) = 4
(1 t2 ) 1fjtj 1g . En
31
suite, on modi…e seulement cette partie dans le programme R précédent :
# Noyau Epanechnikov K(t)
K=function(t){ if (abs(t)<1){(3/4)*(1-tˆ2)} else {0}}

K=function(t){ifelse(abs(t)<1,(3/4)*(1-t^2),0)}
6 ; et on arrive au même conclusion de la convergence de

On obtient la …gure [FIG 3.6]
5 i,e ; convergence de l’estimateur pour n assez grand).
l’estimateur (voir la [FIG3.5],
n=50 n=100 n=500

1
1.5
1.0
1.0
0
0.5
0.5
Rn(x)
Rn(x)
Rn(x)
0.0
0.0
−1
−0.5
−0.5
−2
−1.0
−1.0
−1.5
−4 −2 0 2 4 −4 −2 0 2 4 −4 −2 0 2 4
x x x
Fig. 63.6 –Régression non linéaire : h …xé, n varié et K noyau d’Epanechnikov
3.2.2 Choix graphique du paramètre de lissage
Dans cette partie, on va prendre le paramètre de lissage dans l’intervalle [0; 1] de même
déterminerle paramètre
façon pour la régression linéaire, et avec des tests graphiques en va diterminer
h optimal (au sens graphique).
On …xe la taille de l’échantillon n = 250 et le noyau K est normal, l’estimation obtenue
7 Il est clair que
avec les valeurs de h varié de 0:1 à 0:9 sont données dans la …gure [FIG3.7].
la valeur du h optimale est de h = 0:5 (ligne 2, colonne 2).
Code R :
\’{e}chantillon’n=250#taille de l
(X=rnorm(n,0,2 32
n=250 #taille de l'échantillon
X=rnorm(n,0,2)
E=rnorm(n)
Y=sin(X)+E # Modéle Sinus Non Linéaire
# Noyau Normal K(t) c’est une densité
# paramètre de lissage h
# Initiation
a=min(X) #borne inf
V=array(dim=c(n,s,9))
fn=array(dim=c(s,9))
W=array(dim=c(n,s,9))
Hn=array(dim=c(s,9))
# density fn(x)
for(k in 1 :9){
for(j in 1 :s){
for(i in 1 :n){ V[i,j,k]=K((x[j]-X[i])/h[k]) }

fn[j,k]=sum(V[,j,k])/(n*h[k])}}
# fonction Hn(x)
for(k in 1 :9){
for(j in 1 :s){
for(i in 1 :n){ W[i,j,k]=K((x[j]-X[i])/h[k])*Y[i] }

Hn[j,k]=sum(W[,j,k])/(n*h[k])}}
Rn=array(dim=c(s,9))
for(k in 1 :9){ Rn[,k]=Hn[,k]/fn[,k]}
# Graphes
# nouvelle fenettre graphique

for(k in 1 :9){
plot(x,Rn[,k],xlab="x", ylab="Rn(x)", main=" ",type='l',col=2, lwd= 2)
lines(x,sin(x),lwd= 2) }
par(op)
33
1
−2 1
−2 1
Rn(x)
Rn(x)
Rn(x)
−2
−4 −2 0 2 4 −4 −2 0 2 4 −4 −2 0 2 4
x x x
Rn(x)
Rn(x)
Rn(x)
−1.5
−2.0
−2.5
−4 −2 0 2 4 −4 −2 0 2 4 −4 −2 0 2 4
x x x
Rn(x)
Rn(x)
Rn(x)
−0.5
−1.0
−0.6
−4 −2 0 2 4 −4 −2 0 2 4 −4 −2 0 2 4
x x x
Fig. 73.7 –Régression non linéaire avec h varié, n …xé et K gaussien.
Si nous gardons le même modèle non linéaire y = sinx + " ; mais avec le noyau d’Epane-
chikov. On note, que la valeur du h optimale est de h = 0:9 (ligne 3 ; colonne 3 ; voir la
8
FIG-3.8).
Finallement, ce chapitre montre l’importance de paramètre de lissage h et du noyau K
dans l’estimation non paramétrique de la régression linéaire et non linéaire. Mais à noté
que le choix de h est plus crucial que le choix de noyau.
34
2
Rn(x)
Rn(x)
Rn(x)
−1.0
−1.0
−1
−6 −2 0 2 4 6 −6 −2 0 2 4 6 −6 −2 0 2 4 6
x x x
Rn(x)
Rn(x)
Rn(x)
−0.5
−1.0
−1.0
−6 −2 0 2 4 6 −6 −2 0 2 4 6 −6 −2 0 2 4 6
x x x
Rn(x)
Rn(x)
Rn(x)
−0.5
−0.5
−0.5
−6 −2 0 2 4 6 −6 −2 0 2 4 6 −6 −2 0 2 4 6
x x x
Fig. 83.8 –Régression non linéaire avec h varié, n …xé et K d’Epanechnikov.
35

Projet Becem-Houssem253

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Projet Becem-Houssem253

Transféré par

Droits d'auteur :

Formats disponibles

Republique Tunisienne

Campus Universitaire El-Manar

Annee universite : 2022 2023

Introduction à la statistique non paramétrique

Introduction à la statistique non paramétrique

▶ Moins d’a priori sur les observations,

Fonctions de répartition et fonctionnelles de la

→ Qualité de cet estimateur ?

▶ Erreur en moyenne quadratique (ou MSE pour ”mean square error”)

E[(F̂n (x) − F (x))2 ] = biais2 + variance = V ar(F̂n (x)) −→ 0.

▶ Inégalité de Dvoretzky-Kiefer-Wolfowitz (DKW)

∀n∈ℵ,∀ε > 0, P (supx∈R |F̂n (x) − F (x)| > ε)≤2exp(−2nε2 ).

→ Intervalles de confiance (IC)

F →µ(F)= xdF (x)

: F →σ 2 (F ) = (x(F ))2 dF (x) = x2 dF (x)( xdF (x))2

F →m(F ) = F −1 (1/2) et Quantiles : F →q(F ) = F −1 (α)

▶ Skewness (ou coefficient d’asymétrie) :

F → (x(F ))3 dF (x)/(F )3/2

▶ E(|X1 X2 |), P ((X1 , X2 ) ∈S),...

▶ En prenant la distance L2 et la perte quadratique, on obtient le risque quadratique intégré : MISE

Estimateur par histogramme

Donc I n’est pas un estimateur. On dit que c’est un oracle.

▶ On va donc estimer ce risque pour sélectionner une partition I.

▶ Soit K :R →R intégrable telle que K(u)du = 1 . Alors K est appelé noyau.

Rappel sur le risque quadratique ponctuel

Classe de H ölder (régularité locale)

▶ Pour tout β ∈ R , on note ⌊β ⌋. le plus petit entier strictement inférieur à β.

Soit l ∈N∗ . Le noyau K : R → R est dit d’ordre l si :

alors R̂(h) est un estimateur sans biais de R(fˆn,h , f ) − ||f ||22 ..

tout x ∈ R , tout h > 0 et tout entier n1 on a

Variance des estimateurs à noyaux

pour tout x ∈R , pour tout h > 0 et tout n ≥ 1, on a

V arf (fˆn (x)) = fnh ( K 2 (u)du)(1+ o(1)) , lorsque h → 0.

Régression non paramétrique

r(Xi ) = β0 + β1 Xi1 + ..., βp Xip = XiT β

Un exemple : la hauteur des eucalyptus

Estimateur par polynomes locaux

r̂n est donc un estimateur des moindres carrés pondéré si

r̂n (x) = θˆ0

Avant de commencer de faire les exercices , on rappelle les formules suivantes :m

Le risque quadratique moyen de l’estimateur fb(x) de f (x) est donné par

Exercice 1 : Propriétés s tatistique de Parzen–Rosenblatt

d) En déduire une expression approchée pour la MISE.

Faisons un développement de Taylor à l’ordre 2 pour f , on a

Quand au premier on avait trouvé

qui est négligeable devant o(1/nh).

Exercice 2 : La r ègle empirique de Silverma n (the rule of thumb)

c) Expliquez l’intuition derrière la formule suivante

on trouve alors que

z0.75 − z0.25 = Φ(0.75) − Φ(0.25) ≈ 1.349,

et puisque (X − µ)/σ ∼ N (0, 1) ceci suggère d’estimer σ à l’aide de l’équation

e) On remarque que h∗ correspond à la règle empirique de Silverman pour laquelle on estime

Exercice 3 : Validation croisée  Leave one out 

c) Qu’en déduisez vous ?

Solution 3. a) L’expression est donnée par

En comibinant les deux résultats on trouve bien le résultat espéré.

Exercice 4 : Old faithful geyser

b) Lisez la documentation de la fonction density.

en faisant entrer "?density" sur R une documentation va se lancer expliquant cette

Solution 5. a) Clairement f est positive. Reste à montrer que f (x)dx = 1. On a

c) En déduire l’expression de l’estimateur de Nadaraya–Watson pour la régression non paramétrique.

d) en écrivant le code sur R voici le graphe que nous avons obtenues

1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0

f) en écrivant le code suivant sur R on obtient

Exercice 3 : Validation croisée Leave one out