Vous êtes sur la page 1sur 35

Republique Tunisienne

Campus Universitaire El-Manar


Faculté des sciences de Tunis

Projet
Introduction à la statistique non paramétrique

Realise par :
Rezgui Beçem Ala Din
Ajili Houssem

: Encadre par
Mr khardani Salah

Annee universite : 2022 2023

1
Partie 1 : k
Résumés du cours

Introduction à la statistique non paramétrique

Introduction à la statistique non paramétrique


La statistique paramétrique est le cadre ”classique” de la statistique. Le modéle statistique y est d´ecrit
par un nombre fini de paramétres. Typiquement M = Pθ , θ ∈Rp est le modéle statistique qui d´ecrit la
distribution des variables aléatoires observées.
Exemples
Observation réelles avec un seul mode
PK: M = N (µ,2 σ ), µ ∈R,σ ∈R ,Kmodéle
2 2 +∗
Gaussien. Observation
réelles avec plusieurs modes : MK = i=1 pi N (µi , σ ), (p1 , ..., pK ) ∈ (0, 1) , i pi = 1, (µ1 , ..., µK ) ∈ RK ,σ 2 ∈R+∗ ,
P
modéle de mélange Gaussien
Par opposition, en statistique non paramétrique, le modéle n’est pas d´ecrit par un nombre fini de
paramétres. Divers cas de figures peuvent se présenter, comme par exemple :
↣ On s’autorise toutes les distributions possibles, i.e. on ne fait aucune hypothése sur la forme/nature/type
de la distribution des variables aléatoires.
↣ on travaille sur des espaces fonctionnels, de dimension infinie. comme Exemple : les densites continues
sur [0, 1], ou les densités monotones sur R.
statistique non paramétrique : Quand l’utiliser ?
Exemples de contextes d’utilisation :

▶ Quand on n’arrive pas à ajuster correctement les observations avec une distribut ion paramétrique
▶ Quand on n’a aucune idée de modéle, ou qu’on ne veut pas avoir un a priori sur le modéle
▶ Quand on ne sait pas combien de composantes on veut mettre dans un mélange
▶ ...

Avantages :

▶ Moins d’a priori sur les observations,


▶ Modéles plus généraux, donc plus robustes au modéle.

Inconvénients :

2
▶ Vitesses de convergence plus lentes = il faut plus de données pour obtenir une précision équivalente.

Fonctions de répartition et fonctionnelles de la


distribution
Estimer une fonction de répartition
On observe X1 , ..., Xn variables aléatoires (v.a.) réelles, i.i.d. de fonction de répartition (fdr)
F :κ →PF (κ) = P (Xi ≤x). L’estimateur naturel de la fdr 𭟋 est la fdr empirique 𭟋ˆn définie par Formula
𭟋ˆn = n1 ni=1 1Xi ≤x . C’est un estimateur non paramétrique de la fdr F

→ Qualité de cet estimateur ?

▶ Biais

n
1X
E(𭟋ˆn ) = P (Xi ≤ x) = 𭟋(x)
n i=1
i.e. estimateur sans biais.

▶ Variance

n
1 X 1
V ar(𭟋ˆn ) = V ar(1 X i ≤x ) = V ar(1Xi ≤x ) = 𭟋(x)(1−𭟋(x))
n
= −→ 0
n2 i=1 n n−→∞

▶ Erreur en moyenne quadratique (ou MSE pour ”mean square error”)

E[(F̂n (x) − F (x))2 ] = biais2 + variance = V ar(F̂n (x)) −→ 0.


n→∞

▶ Convergence en probabilité

propa
F̂n (x) 7−→ n→∞ F (x)

▶ LGN :

p.s
F̂n (x) 7−→n→∞ F (x)

▶ TCL :

√ L
n(F̂n (x) − F (x)) 7−→n→∞ N (0, F (x)(1 − F (x))).

3
▶ Théoréme de Glivenko Cantelli

p.s
supx∈R |F̂n (x) − F (x)| 7−→n→∞ 0.

▶ Inégalité de Dvoretzky-Kiefer-Wolfowitz (DKW)

∀n∈ℵ,∀ε > 0, P (supx∈R |F̂n (x) − F (x)| > ε)≤2exp(−2nε2 ).

→ Intervalles de confiance (IC)

h p p i
F̂n (x) − log((2/α)/(2n)); F̂n (x) + log((2/α)/(2n)) .

Fonctionnelles de la distribution
Une fonctionnelle est une application T : F → R .
Exemples
▶ Moyenne :

F →µ(F)= xdF (x)


R

▶ Variance

: F →σ 2 (F ) = (x(F ))2 dF (x) = x2 dF (x)( xdF (x))2


R R R

▶ Médiane :

F →m(F ) = F −1 (1/2) et Quantiles : F →q(F ) = F −1 (α)

▶ Skewness (ou coefficient d’asymétrie) :

F → (x(F ))3 dF (x)/(F )3/2


R

▶ E(|X1 X2 |), P ((X1 , X2 ) ∈S),...

U etV statistiques
Soit T = E(ϕ(X1 , ..., Xk )) une fonctionnelle de moment.(On peut supposer ϕ symétrique en les coor-
données).
▷ Son estimateur de substitution est la V -statistique V = T( F̂n ) = n1k ni1 . . . nik ϕ(Xi1 , ..., Xik ).
P P
 −1
n
▷ Un autre estimateur sans biais de T est la U -statistique U =
P P
... ϕ(Xi1 , ..., Xik ).
k 1i1 <i2 <<ik n

4
▷ La U -stat et la V -stat correspondante ont le meme comportement asymptotique et ne différent
que par des extra-termes dans la V -stat et des facteurs de normalisations différents.
Propriétés des U -statistiques
▷ Estimateurs sans√ biais.
▷ Variance : V ar( nU ) →k2 σ 2 où σ 2 = Cov(φ(X, X2 , ..., Xk ) ; φ(X, X2′ , ..., Xk′ )) et X, X2 , ..., Xk , X2′ , ..., Xk′
i.i.d. de loi F. √ √
L L
▷ Si σ12 ∈]0, +∞[, alors n(U − T (F )) 7−→n→∞ N (0, k 2 σ12 ) et n(V − T (F )) 7−→n→∞ N (0, k 2 σ12 )
, i.e.asympt.gaussiens

Estimation de densité :
Contexte de l’estimation de densité (univariée)
▶ Observations :X1 , ..., Xn v.a i.i.d réelles de fdr F et admettant une densité f = F’ .
▶ But : estimer (à partir des observations) f en faisant le moins d’hypothéses possibles sur cette densité.
▶ Typiquement, on supposera que f ∈ F espace fonctionnel et on notera F̂n un estimateur de f .
Objectifs
Obtenir des informations de nature géométrique sur la distribution des variables. Ex :
▶ Combien de modes ?
▶ Zones peu denses ? trés denses ?
Mesure de la qualité d’un estimateur : risque
1) Distance sur F pourRmesurer l’écart entre F̂n et f . Ex :
▶d(f , g) = ||f g||p = [ |f g|p ]1/p , pour p ≥ 1.Par exemple p = 1 ou 2.
▶d(f , g) = ||f g||∞ = supessx |f (x)g(x)|.
▶d(f , g) = |f (x0 )g(x0 )| où x0 fixé.
2) Définition d’une fonction de perte ω : R → R+ convexe, telle que ω(0) = 0. Ex : ω : u → u3 fonction
de perte quadratique.
3) L’erreur ω(d(F̂n , f )) (par ex d(F̂n , f )2 ) dépend de l’échantillon observé. On définit donc une fonction
de risque R(F̂n , f ) = Ef (ω(d(F̂n , f ))). C’est en moyenne, l’erreur que l’on commet en estimant f par F̂n ,
pour la distance d et la perte ω.
Exemples de fonctions de risque

▶ En prenant la distance L2 et la perte quadratique, on obtient le risque quadratique intégré : MISE


= mean integrated squared error
Z
R(F̂n , f ) = Ef (F̂n (x) − f (x))2 dx
X
.
▶ En prenant la distance ponctuelle en x0 et la perte quadratique, on obtient le risque quadratique
ponctuel en x0 : MSE = mean squared error
Rx0 (F̂n , f ) = Ef |F̂n (x0 )f (x0 )|2

Estimateur par histogramme


Construction et risque quadratique
On suppose que la densité f est définie sur un intervalle borné [a, b] ⊂ R et f ∈ L2 ([a, b]).
5
Définition
▶ Soit I = (Ik )1≤k≤D une partition de [a, b] (i.e. intervalles disjoints dont l’union est [a, b]),
▶ On note nk = Card{i; Xi ∈ Ik } le nombre d’observations dans Ik , et |Ik | la longueur de l’intervalle
Ik .
▶ L’estimateur par histogramme de f est défini par fˆI,n (x) = D nk
P
k=1 n|Ik | 1Ik (x).
▶ Il affecte à chaque intervalle une valeur égale à la fréquence des observations dans cet intervalle,
renormalisée par la longueur de l’intervalle.
Choix de la partition par validation croisée
Minimisation du risque MISE et estimateur oracle
▶ On veut choisir la partition I qui minimise le risque quadratique intégré (MISE)
R(I, n, f ) := Ef ||fˆI,n (x) − f ||22
. Ansi I ∗ = ArgminI∈I R(I, n, f ), où I est l’ensemble des partitions de [a, b].
▶ Pbm : Le MISE dépend de la densité inconnue f .
Z
ArgminI∈I R(I, n, f ) = ArgminI∈I Ef ||fˆI,n (x) − f ||2 − 2 fˆI,n (x)f (x)dx.
2
x

Donc I n’est pas un estimateur. On dit que c’est un oracle.


▶ On va donc estimer ce risque pour sélectionner une partition I.

estimateurs à noyau
Définition

▶ Soit K :R →R intégrable telle que K(u)du = 1 . Alors K est appelé noyau.


R

▶ Pour tout h > 0 petit (en fait h = hn −→ 0 ), on peut définir fˆn (x) = n1 ni=1 h1 K Xhi x , estimateur
P 
n→∞
à noyau de f . On a fn (x) dx = 1 et si K > 0 alors fˆn est une densité.
ˆ
R

▶ Le paramétre h > 0 est appelé fenétre. C’est un paramétre de lissage : plus h est grand, plus
l’estimateur est régulier.

Exemples de noyaux

1[1;1] (u)
▶ Rosenblatt, ou noyau rectangulaire K(u) = 2
. ▶Noyau triangle K(u) = (1 − |u|)1[1;1] (u)

Rappel sur le risque quadratique ponctuel

Rx (fˆn , f ) = Ef (fˆn (x) − f (x))2 = Biais2f (fˆn (x)) + V arf (fˆn (x)) .

Classe de H ölder (régularité locale)


Définitions

▶ Pour tout β ∈ R , on note ⌊β ⌋. le plus petit entier strictement inférieur à β.


▶ Pour tous β > 0, L > 0, on définit la classe des fonctions de H ölder sur l’ensemble T par
(β, L) = {f : T → R ;fPest l = ⌊β⌋ f ois .dérivable Pet ∀x,y∈T .,|f (l) (x) − f (l) (y)|⪯L|xy|β−l }.
P
▶ On note également d (β,L) l’intersection entre (β, L) (pour T = R ) et l’ensemble des densités
sur R
6
Noyaux d’ordre l
Définition

Soit l ∈N∗ . Le noyau K : R → R est dit d’ordre l si :


▶ ∀j ∈ {1, ..., l }, on Ra u→uj K(u) est intégrable
▶ et ∀j ∈ {1, ..., l }, uj K(u)du = 0.

Théorème
Si on pose
n
2 1 Xi − Xj
R̂(h) = ||fˆn,h ||22 −
X X
K̀( )
n(n − 1) i=1 j=1,j̸=i h h

alors R̂(h) est un estimateur sans biais de R(fˆn,h , f ) − ||f ||22 ..


Choix de la fenêtre h par validation croisée
Le choix de la fenêtre dans la section précédente est critiquable : comme on l’a mentionné, il dépend
de la régularité qui est en général inconnue. On peut donc essayer d’estimer cette fenêtre idéale par
un estimateur .Def aonsoulignerladpendancelaf entreh, onvanotern,h l’estimateur associé à un choix de
fenêtre h. L’estimateur final sera fˆn,ĥ , une fois le choix de ĥ fait. On cherche à minimiser en h le risque
quadratique pour la distance L2 : R(fˆn,h , f ) = E[||f n, hf ||22 ] Or la fonction f étant inconnue, ce risque
n’est pas calculable à partir des données. On cherche donc à estimer ce risque en utilisant uniquement les
données. Remarquons tout de suite que minimiser en h la quantité R(fˆn,h , f ) est équivalent à minimiser
en h la quantité R(fˆn,h , f ) − ||f ||22 .
On définit alors ĥ = arg minh∈H R̂(h) si ce minimum est atteint. On cherche une fenêtre parmi une grille
finie de valeurs, grille qu’on a notée H dans la formule ci-dessus.
L’estimateur fˆn,ĥ a de bonnes propriétés pratiques et des propriétés de consistance.
La validation croisée est une méthode très générale dont on reparlera plus en détail dans le prochain
chapitre. L’idée d’utiliser un estimateur sans biais du risque est aussi une idée assez générale (cf critère
Cp).
P
Biais des estimateurs à noyaux sur la classe d (β,L)

Proposition

Si f ∈ d (β,L) avec β,L>0 et si K noyau d’ordre l = ⌊β⌋ tel que |u| β|K(u)|du<+∞ , alors pour
P R

tout x ∈ R , tout h > 0 et tout entier n1 on a


Z
L
Biaisf (fˆn (x)) = |Ef (fˆn (x)) − f (x)| ≤ |u||K(u)|du)hβ
l!
. En particulier, le biais tend vers 0 lorsque h → 0.

Variance des estimateurs à noyaux


Proposition

Si f est une densité bornée sur R (i.e. ∥f ∥< ∞) et si K est un noyau tel que K 2 (u)du < +∞ , alors
R

pour tout x ∈R , pour tout h > 0 et tout n ≥ 1, on a


R 2
∥f ∥ ( K (u)du)
V arf (fˆn (x)) ≤ ∞
nh
. Si de plus, f (x) > 0 et f continue au voisinage de x et |K(u)|du < +∞ , alors
R

V arf (fˆn (x)) = fnh ( K 2 (u)du)(1+ o(1)) , lorsque h → 0.


(x) R

7
Théoréme
R 2
Soit β > 0, L > 0 et K un noyau d’ordre ℓ = ⌊β⌋ tel que K (u)du < +∞ et
|u| |K(u)|du < +∞. Alors, en choisissant une fenetre h = cn−1/(2β+1 ), avec c > 0, on obtient
R β

∀x ∈ R, Rx (fˆn , d (β, L)) = supf ∈Pd (β,L) Ef [|fˆn (x) − f (x)|2 ] ≤ Cn2/(2+1) ,où C = C(c, β, L, K).
P

Proposition

Si f ∈ ℵd (β, L) et si K est un noyau d’ordre ℓ = ⌊β⌋ tel que |u|β |K(u)|du < +∞, alors pour tout h
R

> 0 et tout n ≥ 1, on a Biais2f = ||Ef fˆn − f ||22 ≤ ( ℓ!L |u|β |K(u)|du)2 h2β .
R

Régression non paramétrique


Introduction
Dans ce chapitre, on cherche à expliquer les valeurs que peut prendre une variable Y à partir des valeurs
que peut prendre une variable X.
Exemples :
— Y est le taux d’insuline dans le sang, qu’on explique (ou prédit) à l’aide de X= (IMC, pression du
sang, concentration de molécules).
— Y est le niveau de diplôme obtenu , qu’on explique à l’aide de X = (âge, sexe, revenu des parents,
métier des parents).
On suppose que la variable Y est intégrable E|Y | < ∞ et on note r la fonction de régression de Y sur
X : r(x) = E(Y |X = x)
L’objectif est d’estimer la fonction r pour expliquer et prédire Y à partir de X. Pour cela on dispose
des réalisations de n couples de variables (X1 , Y1 ), ..., (Xn , Yn ). On va supposer que les (Xi , Yi ) sont
indépendants.
Vocabulaire
— les Yi sont les variables à expliquer ou les variables réponses ou variables de sortie.
— les Xi constituent le design, les variables explicatives, les covariables, ou variables d’entrée.
Modélisation
Le design pourra être aléatoire ou déterministe. Dans ce dernier cas, on notera plutôt xi à la place de
Xi .
Le fait que r(x) = E(Y |X = x) se réécrit Y = r(X)+ϵ avec E(ϵ|X) = 0 On aura donc pour l’échantillon
Y i = r(Xi) + ϵi , i = 1, ..., n, E(ϵi |Xi) = 0 En particulier on a donc E(ϵ) = 0.
Les ϵi sont appelées erreurs et jouent le rôle de bruit. Dans la suite, on va faire une hypothèse très forte :
V ar(ϵi ) = σ 2 < ∞ variance finie et indépendante de i
EMC non paramétrique
Modèle linéaire : rappels

Le modèle linéaire consiste à supposer que r s’écrit, si x = (x1 , ..., xp ) ∈ Rp , r(x) = β0 +β1 x1 +..., +βp xp
On a donc, pour tout i = 1, . . . , n,

r(Xi ) = β0 + β1 Xi1 + ..., βp Xip = XiT β

1 X11 . X1p
 
. . . . 
On note X =
 
 . . . . 

. . . . 
1 Xn1 ... Xnp
8
 
β0
 . 
et β =
 
 . 

 . 
βp
Dans ce cas, l’estimation de r revient à l’estimation du vecteur β. C’est un problème paramétrique.
Quand on ne sait rien sur la loi des observations, on utilise les moindres carrés ordinaires : β̂ =
argminβ∈Rp ||Y − Xβ||[ 22 = (X T X)−1 X T Y

Un exemple : la hauteur des eucalyptus

Lorsqu’un forestier essaie de quantifier le volume de bois fourni par un arbre, il est nécessaire de
connaitre sa hauteur. Or il est parfois impossible d’effectuer une telle mesure. Une mesure plus simple
est la mesure de la circonférence de l’arbre à une hauteur fixée du sol. Le forestier souhaite trouver une
formule, si celle-ci existe, permettant de déduire la hauteur de l’arbre à partir de sa circonférence. Pour
cela il dispose d’un ensemble de n = 1429 couples de mesures circonférence-hauteur effectuées sur n
arbres.
Pour commencer, comme il n’y a qu’une seule variable, on représente les données. Cela nous permet de
savoir qu’une régression simple semble indiquée, les points étant disposés grossièrement le long d’une
droite.
Si les données se trouvent dans un data.frame appelé euca et si les noms des variables sont ht et circ
alors on peut utiliser reg=lm(ht circ,data=euca)
On peut ensuite représenter le nuage de points avec la droite de régression, ainsi que l’intervalle de
confiance sur un ensemble de valeurs de prévisions (à 95> plot(ht circ,data=euca)
> circ=euca[,’circ’]
> grille<-seq(min(circ),max(circ),length=100)
> grilledataframe<-data.frame(circ=grille)
> ICpred<-predict(reg,new=grilledataframe,interval="pred",level=0.95)
> matlines(grille,ICpred,lty=c(1,2,2),col=c(’red’,’blue’,’blue’))
Nous constatons que les observations sont globalement bien ajustées par le modèle, sauf peut-être pour
les faibles valeurs de circonférences, qui semblent en majorité situées en√dessous de la droite. Ceci suggère
d’utiliser plutôt le modèle de régression suivant ht = a1 + a2 circ + a3 circ + ϵ
On peut donc utiliser un modèle linéaire avec une transformation de la variable d’origine. On peut
d’ailleurs vérifier qu’en introduisant la variable sqrt(circ), on a bien un meilleur modèle :
> reg1=lm(ht circ,data=euca)
> reg2=lm(ht circ+I(sqrt(circ)),data=euca)
> anova(reg1,reg2)

Estimateur de Nadaraya-Watson
On supposeR que les (Xi , Yi ) admettent une densité f : R → R et on suppose que pour tout x > 0,
2

fRX (x) = f (x, y)dy > 0 (fX est la densité de X). On peut alors écrire ∈ R, r(x) = E[Y |X = x] =
yf (x, y)f
(R X (x)dy Donc pour estimer ) r, on peut passer par l’estimation de f et fX et poser
y fˆn (x,y)
dy si fˆn,X (x) ̸= 0
r̂n (x) = fˆn,X (x)
0sin,X (x) = 0
On peut utiliser les estimateurs à noyau du chapitre précédent :
n
1 X Xi − x
fˆn,X (x) = K( )
nh i=1 h

9
n
ˆ 1 X Xi − x Yi − y
fn (x, y) = 2
K( )K( )
nh i=1 h h
Proposition
Si K est un noyau d’ordre 1 alors ∀x ∈ R )
(P n Xi −x
i=1 Yi K( h )
si ni=1 K( Xih−x ) ̸= 0
P
r̂n (x) = Xi −x
Pn
i=1 K( h )
0sinon
Remarque

Si K est continu, positif et à support sur R (par ex le noyau gaussien) alors r̂n (x) est continu.

Remarque
( Xi −x )
K( )
si
Pn Xi −x
h
K( ) =
̸ 0
On peut écrire r̂n (x) = ωn,i (x)Yi où ωn,i (x) =
Pn Pn Xi −x i=1 h
i=1 K( )
i=1 h
0sinon

Remarque
(R )
y fˆn (x,y)
si X(x) ̸= 0
Il se peut que la densité fX soit connue. Dans ce cas, il est préférable d’utiliser r̂n (x) = fX (x)
0sinon
si
 1 Pn Xi −x 
Y i K( ) f X (x) =
̸ 0
i.e. , si K est un noyau d’ordre 1, r̂n (x) = nhfX (x) i=1 h
0sinon

Proposition

On suppose fX connue. On s’intéresse à l’estimation de r(x) pour x fixé. Soit K un noyau d’ordre 1.
On suppose de plus que
— fX ≻ 0.
— Il existe ϵ ≻ 0 tel que les fonctions fX et r sont continument dérivables sur [x - ϵ, x + ϵ]
— Pour tout y, si|u| ⪯ ϵ |fR(x + u, y)f (x, y)| ⪯ M (x, y)ϵ
où y 2 M (x, y)dy ≺ ∞ et y 2 f (x, y)dy ≺ ∞
R

— K est un noyau à support dans [1, 1] et de carré intégrable Alors, si |h| ⪯ ϵ, il existe une constante
C(x) (dépendant de x) telle que
1
E[(r̂n (x) − r(x))2 ] ≺ C(x)(h2 + )
nh

Estimateur par polynomes locaux


Proposition
Si r̂n est l’estimateur de Nadaraya-Watson associé à un noyau K ≻ 0 alors r̂n est solution de
n
X Xi − x
r̂n (x) = arg min K( )(Yi − θ)2
θ∈R
i=1
h

r̂n est donc un estimateur des moindres carrés pondéré si


Pn
i=1 K( Xhi x ) ̸= 0

10
Définition
Si K est un noyau positif, h ≻ 0 une fenêtre et l ≻ 0 un entier, on définit

∀x ∈ R

,
n l
X Xi − x X θk Xi − x k 2
θ̂(x) = arg min K( )[Yi − ( ) ]
θ=(θ0 ,...,θl )∈Rl +1
i=1
h k=0
k! h

On pose θ̂ = (θˆ0 , ..., θ̂l ). L’estimateur par polynôme local d’ordre l est alors défini par

r̂n (x) = θˆ0

Remarque
Si l = 0 alors r̂nl (x) est égal à l’estimateur de Nadaraya-Watson.
Définition
Un estimateur r̂ de la fonction de régression r est linéaire s’il s’écrit r̂(x) = ψi (x)Yi , ∀x ∈ R où
Pn
i=1
les ψi (x) ne dépendent pas des Yi .
Proposition
Si la matrice Bn,x est définie positive alors l’estimateur par polynômes locaux r̂nl est un estimateur
linéaire.

11
Partie 2 : k
Travaux Dirigés

Avant de commencer de faire les exercices , on rappelle les formules suivantes :m

Le risque quadratique moyen de l’estimateur fb(x) de f (x) est donné par


n o2
b 2 b b b
E{f (x) − f (x)} = E f (x) − E{f (x)} + E{f (x)} − f (x)
h i2
b b
= Var{f (x)} + E{f (x)} − f (x)
h i2
= Var{fb(x)} + Biais{fb(x)} .

L’expression exacte de l’erreur quadratique moyenne integrée (en anglais: “Mean Inte-
grated Squared Error”, MISE) peut être obtenue à partir de
Z
MISE{f } = MSE{fb(x)}dx
b

Exercice 1 : Propriétés s tatistique de Parzen–Rosenblatt


.On s ’intéresse i ci aux propriétés s tatistiques de l ’estimateur de Parzen–Rosenblatt
a) Rappelez l’expression de cet estimateur.
b) Montrez que si f est au moins C 2 alors pour tout x ∈ R

h2
Biais{fˆh (x)} = f 00 (x)µ2 (K) + o(h2 ), h → 0,
2
R
où µ2 (K) = u2 K(u)du.
c) Montrez que pour K ∈ L2 , on a pour tout x ∈ R
 
1 1
Z
Var{fˆh (x)} = 2
f (x) K(u) du + o , nh → ∞.
nh nh

d) En déduire une expression approchée pour la MISE.


e) Trouvez la fenêtre optimale minimisant cette MISE approchée.

Solution 1. a
n  
1 X Xi − x
fˆh (x) = K , K noyau.
nh i=1 h

12
b) Puisque les Xi sont iid on a facilement
  
ˆ −1 X −x
E{fh (x)} = h E K
h
 
u−x
Z
−1
=h K f (u)du
h
Z
= K(ũ)f (x + hũ)dũ, ũ = (u − x)/h.

Faisons un développement de Taylor à l’ordre 2 pour f , on a


1
f (x + hũ) = f (x) + hũf 0 (x) + (hũ)2 f 00 (x) + o(h2 ).
2
De sorte que pour h → 0, on a
1 2 00
Z Z Z
ˆ 0
E{fh (x)} = f (x) K(u)du + hf (x) uK(u)du + h f (x) u2 K(u)du + o(h2 )
2
2
h
= f (x) + 0 + f 00 (x)µ2 (K) + o(h2 ).
2
c) Les Xi étant iid on a
  
ˆ −1 −2 X −x
V ar{fh (x)} = n h V ar K .
h

De plus comme V ar(Y ) = E(Y 2 ) − E(Y )2 , il nous reste à calculer le premier terme (le 2ème
étant déjà fait). C’est parti pour le deuxième !
(  2 )  2
− u−x
Z
−1 −2 X x −1 −2
n h E K =n h K f (u)du
h h
Z
−1 −1
=n h K(u)2 f (x + hu)du
Z 
−1 −1 2
=n h K(u) f (x)du + o(1)
 
1 1
Z
2
= f (x) K(u) du + o .
nh nh

Quand au premier on avait trouvé


  2
−1 −2 X −x
n h E K = n−1 h−2 {f (x) + o(h)}
h

qui est négligeable devant o(1/nh).


On a donc le résultat attendu.

13
d) On a donc puisque M SE = Biais2 + V ariance
Z 4  
1 1
Z Z
h 00 2 2 2 4
M ISE = {f (x)} µ2 (K) dx + f (x) K(u) dudx + o(h ) + o
4 nh nh
4
 
1 1
Z Z
h
= µ2 (K)2 {f 00 (x)}2 dx + K(u)2 du + o(h4 ) + o .
4 nh nh

e) Reste plus qu’à dériver par rapport à h et résoudre (on néglige les petits o).

1
Z Z
3 2 00
h µ2 (K) 2
{f (x)} dx − 2 K(u)2 du = 0
nh
1
Z Z
5 2 00 2
⇐⇒h µ2 (K) {f (x)} dx − K(u)2 du = 0
n
R 2
K(u) du
⇐⇒h5 = R
nµ2 (K)2 {f 00 (x)}2 dx
R 1/5
K(u)2 du

⇐⇒h =

PPP
R .
nµ2 (K)2 {f 00 (x)}2 dx

Exercice 2 : La r ègle empirique de Silverma n (the rule of thumb)


Dans cet exercice nous allons essayer de mieux comprendre ce qu’il se cache derrière la règle
. empirique de Silverman et voir quelques modifications de cette dernière
a) Soit f ∼ N (µ, σ2). Montrez que
3
Z
f 00 (x)2 dx = √ .
8σ 5 π

Astuce : on utilisera le fait que pour Y ∼ N (µ, σ 2 ), E{(X − µ)2k } = (2k)!σ 2k /(2k k!).

b) En déduire que le choix par défaut de la fenêtre selon Silverman est donné par
v
u
 σ̂ 5 1/5 u 1 X n
hSilverman = 4 , σ̂ = t (X − X̄)2
3n n − 1 i=1 i

c) Expliquez l’intuition derrière la formule suivante


X[3n/4] − X[n/4]
 
 1/5
h∗ = 4 min σ̂, ,
3n 1.349
X[np] représente la [np]–ième statistique d’ordre, i.e., la [np]–ième plus petite valeur de .`
l’échantillon X1, . . . , X
 cette fenêtre sera adaptée lorsque le vraie densité est assez proche d'une loi normale, c'est à dire à
peu prés symétrique ayant des queues de distributions légères

14
Solution 2. a) On commence par calculer f 00(x). Rien de bien compliqué et on trouve
(x − µ)2
 
00 1
f (x) = − 2 f (x).
σ2 σ
Ensuite on notera que
1
f (x)2 = √ f (x; µ, σ 2 /2),
2 πσ 2

de sorte que
2
(x − µ)2
Z 
1
Z
00 2
f (x) dx = − 2 f (x)2 dx
σ4 σ
(X − µ)4 (X − µ)2
      
1 1 2 σ2
= √ E + 4 − 2E , X∼N 0,
2 πσ 2 σ8 σ σ σ4 2
4!(σ/2)4 σ 2 /2
 
1 1
= √ + 4 −2 6
2 πσ 2 22 2!σ 8 σ σ
3
= 5√ .
8σ π
Nous avons utilisé pour l’avant dernière égalité le fait que
4! 4
E{(Y − µ)4 } = σ , Y ∼ N (µ, σ 2 ).
22 2!
b) D’après nos calculs précédents on sait déjà que (ϕ ∼ N (0, 1))
1
Z
ϕ(x)2 dx = √ .
2 π
De plus comme Z
µ2 (ϕ) := x2 ϕ(x)dx = 1,

on trouve alors que


Z 1/5 Z −1/5
−2/5 −1/5 2 002
h∗ = µ2 (ϕ) n ϕ f
−1/5


−1/5 −1/5 3
=n (2 π) 4

8σ π
1/5
4σ 5

= .
3n
Comme σ est inconnue on l’estimera par sa version empirique σ̂.

c) Il suffit d’utiliser un estimateur robuste de la variance pour le cas Gaussien. Soit X ∼ N (µ, σ 2 ).
Alors puisque pour une loi N (0, 1) l’intervale inter-quartile vérifie

z0.75 − z0.25 = Φ(0.75) − Φ(0.25) ≈ 1.349,

et puisque (X − µ)/σ ∼ N (0, 1) ceci suggère d’estimer σ à l’aide de l’équation

X[3n/4] − µ X[n/4] − µ
− ≈ 1.349
σ σ
X[3n/4] − X[n/4]
⇐⇒ ≈ 1.349,
σ

15
soit l’estimateur suivant
X[3n/4] − X[n/4]
σ̃ = .
1.349
d) Vous savez que l’estimateur de l’écart-type σ
v
u n n
u 1 X 1X
σ̂ = t (Xi − X̄)2 , X̄ = Xi ,
n − 1 i=1 n i=1

est très sensible aux valeurs extrêmes présentes dans l’échantillon. Comment feriez vous pour
palier à ce problème ?
 en effet une seule valeur peut causer une grande estimation, donc on utlise l'ecart interquartile
pour ignorer ces valeurs

e) On remarque que h∗ correspond à la règle empirique de Silverman pour laquelle on estime


l’écart-type comme le minimum entre l’estimateur classique et sa version robuste. C’est une
manière de combiner les deux approches précédentes en prenant la fenêtre la plus petite des
deux afin de ne pas obtenir une densité trop lissée.

Exercice 3 : Validation croisée  Leave one out 


On suppose que la vraie densité vérifie f ∈ L2 et on pose h > 0.
a) Rappelez l’expression de ce type de validation croisée pour l’estimateur de Parzen–Rosenblatt.
b) Montrez que Z
E{CV (h)} = M ISE(h) − f (x)2 dx.

c) Qu’en déduisez vous ?

Solution 3. a) L’expression est donnée par


PPP
n n  
2 Xj − Xi
Z XX
CV (h) = fˆh (x) dx −
2
K .
n(n − 1)h i=1 j=1 h
j6=i
b) Faisons les calculs séparément. D’une part on a
Z  Z n o
E fh (x) dx = E fˆh (x)2 dx
ˆ 2

Z n o2 
ˆ
= E fh (x) − f (x) + f (x) dx
Z Z Z n o
= M SE{fh (x)}dx + f (x) dx − 2 E fˆh (x) − f (x) f (x)dx
ˆ 2

Z Z n o Z
= M ISE(fˆh ) + f (x) dx + 2 E fˆh (x) f (x)dx − 2 f (x)2 dx
2

Z h n oi
= M ISE(fh ) − f (x)2 dx + 2EX E fˆh (X)
ˆ
   
2 X1 − X
Z
ˆ 2
= M ISE(fh ) − f (x) dx + EX E K
h h

16
D’autre part on a
 
 
 n X n     
2 X X j − Xi 2
 X2 − X1
E K = E K .
n(n − 1)h  i=1 j=1
h 
 h h
 
j6=i

En comibinant les deux résultats on trouve bien le résultat espéré.


c) En moyenne minimiser CV (h) revient à minimiser M ISE(fˆh ) puisque le terme f (x)2 dx ne
R

dépend pas de h.

Exercice 4 : Old faithful geyser


Dans cet exercice nous allons mettre tout ce que nous avons vu sur l’estimation non paramétrique
d’une densité de probabilité en s’appuyant sur le jeu de données old faithfull geyser. Ce jeu
de données collecte (entre autre) le temps d’attente entre deux éruptions du geyser Old Faithful
situté dans le parc de Yellowstone.
a) Importez le jeu de données et renseignez vous sur ce dernier via les commandes R
data("faithful")

data("faithful")
?faithful

b) Lisez la documentation de la fonction density.


c) Exécutez les commandes suivantes, dites ce qu’elles font et commentez les résultats
par(mfrow ==c(1,
par(mfrow c(1,3),3),
marmar
= c(4, 5, 0.5,
= c(4, 5, 0))
0.5, 0))

PPP
for (bandwidth in c(0.5, 10, 4)){
for (bandwidth in c(0.5, 10, 4)){
plot(density(faithful$waiting, kernel = "gaussian", bw = bandwidth),
main = "")
rug(faithful$waiting)
}

Solution 4:
a)

En faisant entrer le code sur R une documentation va se lancer expliquant le modèle avec
272 observations sur 2 variables qui sont l'éruption et le temps d'attente entre 2 éruption

b)

en faisant entrer "?density" sur R une documentation va se lancer expliquant cette


fonction qui estime la densité d'une variable X , il prend comme entrée observations, la
noyau K (gaussien, triangulaire, rectangulaire,etc) et la fenêtre

c)
En faisant entrer la code ci dessus une graphe subdivisée en 1 ligne et 3 colonnes affichant
chacun l'estimation de la densité en utilisant la noyau gaussien et en variant la fenêtre entre
0.5 , 4 et 10

17
Exercice 5 : Mélange de gaussiennes
Soit la fonction  
0.7 x−1
f (x) = 0.3ϕ(x) + ϕ , x ∈ R,
0.3 0.3
où ϕ(·) correspond à la densité d’une N (0, 1).
a) Montrez que f est une densité de probabilité.
b) Ecrivez une fonction R qui génère un n–échantillon (iid) selon cette loi.
c) Simulez un n–échantillon (n choisi par vos soins) et obtenez une estimation de la densité. Vosu
choisirez une fenêtre  optimale à l’oeil .
d) Sur un même graphqiue, comparer cette estimation à la densité théorique.

Solution 5. a) Clairement f est positive. Reste à montrer que f (x)dx = 1. On a

0.7
Z Z
f (x)dx = 0.3 + ϕ(u)0.3du, u = (x − 1)/0.3
0.3
= 0.3 + 0.7 = 1,
R
où nous avons utilisé que ϕ = 1.
melange<-function(x)
{0.3*dnorm(x)+(0.7/0.3)*dnorm((x-1)/0.3) }
rmelange<-function(n)
{x<-runif(n*500,-3,3)
y<-matrix(melange(x),ncol=n,nrow=500)
return(y)
}
y1=rmelange(5)
x<-density(y1,kernel="gaussian",bw=0.28)##la fenetre n'est pas choisie par défaut
t=runif(5000,-3,3)
y2<-melange(t)
par(mfrow=c(1,2))
plot(x,col="red",main="l'estimation du densité")
plot(t,y2,col="blue",main="densité théorique")

18
Exercice 6 : Nadaraya–Watson
Dans cet exercice, nous allons retrouver la forme de l’estimateur de Nadaraya–Watson pour la
régression non paramétrique.
a) Soit K1 et K2 deux noyaux sur R montrez que le noyau (x, y) 7→ K1 (x)K2 (y) est un noyau sur
R2 .
b) Considérons l’estimateur de la densité bivariée f (x, y) suivant
n    
1 X X i − x Y i − y
fˆh1 ,h2 (x, y) = Kh1 Kh2 .
nh1 h2 i=1 h1 h2

Montrez que
n  
1X Xi − x
Z
y fˆh1 ,h2 (x, y)dy = Kh1 Yi .
n i=1 h1

c) En déduire l’expression de l’estimateur de Nadaraya–Watson pour la régression non paramétrique.


d) Lisez la documentation de la fonction ksmooth et analysez le code suivant
data(faithful)
data(faithful)
attach(faithful)
attach(faithful)
plot(eruptions, waiting)
plot(eruptions, waiting)
fit <- ksmooth(eruptions,
fit <- ksmooth(eruptions, waiting, kernelkernel
waiting, = "normal")
= "normal")
lines(fit, col = "seagreen3", lwd = 2)
lines(fit, col = "seagreen3", lwd = 2)

e) Jouez un peu avec l’argument bandwidth pour faire le lien avec le cours.
f) Ecrivez un bout de code R permettant de choisir une fenêtre adaptée par leave-one-out.

Solution 6 .a) I l est vraiment facile , en effet la positivité est triviale. De plus en aplliquant Fubini-
Tonelli on aura
✂ ✂ ✂ ✂
ainsi le noyau est
|K1 (x)| |K2 (y )| dxdy = |K1 (x)| dx |K2 (y )| dy intégrable .l

19
Il ne reste que de vérifier que le noyau est d' intégrale 1.En effet en utilisons ce qui précédé on peut
appliquer le théorème de Fubin ce qui donne : lk
✂ ✂ ✂ ✂
K1 (x)K2 (y ) dxdy = K1 (x)dx K2 (y )dy = 1

b) On a
n    
− −
Z Z
1 X X i x Y i y
yfˆh1 ,h2 (x, y)dy = y Kh1 Kh2 dy
nh1 h2 i=1 h1 h2
n  Z
1 X Xi − x
= Kh1 (Yi − h2 ỹ)Kh2 (ỹ)(−h2 dỹ), ỹ = (Yi − y)/h2
nh1 h2 i=1 h1
n  
1 X Xi − x
= Kh1 Yi , symétrie du noyau et intégrale à 1.
nh1 i=1 h1

c) On utilise simplement la relation f (y | x) = f (x, y)/f (x). On estime alors le numérateur via
la question précédente et le dénominateur par l’estimateur de Parzen–Rosenblatt. On trouve
alors
n−1 ni=1 Kh1 {(Xi − x)/h1 }Yi
P
r̂(x) = −1 Pn ,
n i=1 Kh1 {(Xi − x)/h1 }
qui est bien l’expression donnée en cours.

d) en écrivant le code sur R voici le graphe que nous avons obtenues


90
80
waiting

70
60
50

1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0

eruptions

f) en écrivant le code suivant sur R on obtient

20
bandwidths <- seq(0.1, 2, length = 100)
mse <- rep(NA, length(bandwidths))
n.obs <- nrow(faithful)
attach(faithful)
for (i in 1:length(bandwidths))
{ h <- bandwidths[i]
residuals <- rep(NA, n.obs)
for (j in 1:n.obs)
{ pred <- ksmooth(eruptions[-j], waiting[-j], kernel = "normal", bandwidth = h, x.points = eruptions[j])
residuals[j] <- pred$y - waiting[j] }
mse[i] <- mean(residualsˆ2) }
plot(bandwidths, mse, type = "l")
36
35
mse

34
33

0.5 1.0 1.5 2.0

bandwidths

## Fenetre optimale
hopt <- bandwidths[which.min(mse)]
plot(eruptions, waiting)
lines(ksmooth(eruptions, waiting, kernel = "normal", bandwidth = hopt), col = "seagreen3", lwd = 2)
90
80
70
60
50

1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0

eruptions
21
Chapitre
Partie 3 :3k
Application Simulation
sous R Numérique
Dans ce troisième partie de notre projet qui sera la dernier nous allons la consacrer
purement numérique
Dans ce dernier i.e nous utilisons le logiciel R, pour calculer et représenter graphi-
chapitre,

quement la fonction de regression et son estimateur en vue de les comparer dans des situa-

tions simulées. Il s’agit de l’estimateur proposé par Nadaraya-Watson (1964) et présenté

au chapitre
au partie 2 2. Nous donnons des exemples sur cet estimateur qui expriment l’importance

de paramétre de lissage h, du noyau K.

Ensuite, nous présentons les résultats obtenus pour les di¤érents jeux de données ainsi

que pour les di¤érentes noyaux K (noyau Gaussien : à support non compact et noyau

Epanichnekov : à support compact), di¤érents valeurs de h strictement positif (h …xé ou

h varié), régression linéaire et non linéaire.


Rappelons qu’on suppose que l’on a observé un échantillon f(Xi ; Yi ) ; i = 1; :::; ng et on
veut expliquer la variable aléatoire Yi par Xi . De plus, on suppose que le modèle est donné

par l’expression :
Yi = r(Xi ) + "i

où "i est l’aléatoire centré et indépendente de Xi . Aussi la fonction de regression


R
yf (x; y)dy
r(x) = E[Y =X = x] = 1
(3.1)
fX (x)

où fX (x) est la densité de la variable X.

Nous avons vu que r(x) est estimé par la quantité :

P
n
Yi Khn (Xi x)
i=1 n;X (x)
rn (x) = Pn = 2
(3.2)
fn;X (x)
Khn (Xi x)
i=1

Il dépend de la taille de l’échantillon n ; et aussi du noyau K et de la fenetre hn qu’il faut


choisir pour calculer rn (x) : avec n;X (x) est l’estimateur naturel de X (x) :

22
1 X
n

n;X (x) = Yi Khn (Xi x)


nhn i=1

et fn;X (x) l’estimateur à noyau de la densité

1 X
n
fn;X (x) = Kh (Xi x)
nhn i=1 n

Dans la suite de ce chapitre, nous supposons que notre modèle à la forme

2
y = r(x) + "; où " ! N (0; ) 3
(3.3)

et nous étudions les deux cas :


Régression linéaire : r(x) = 3 + 0:8x + ".
Régression non linéaire : r(x) = sin(x) + ".
2
on supposons que : X est de loi normale centré de variance = 0:2 et " un terme d’erreur
de loi N (0; 1).
Nous allons donc étudier les cas suivants dans chaque modèle :
-Paramètre de lissage ou fenêtre h …xe, noyau normal (noyau à support non compact) et
n varié.
-Paramètre de lissage ou fenêtre h …xe, noyau d’Epanechnikov (noyau à support non
compact) et n varié.
-n …xe et fenêtre, h varié (noyau normal).

-n …xe et fenêtre, h varié (noyau d’Epanechnikov).

3.1 Régression linéaire

On veut estimer le modèle linéaire

y = 3 + 0:8x + ":

23
Dans les résultats graphiques de cette section, on a :
- La droite noire exprime la fonction de régression r(x).
- La droite en rouge exprime la fonction de régression empirique rn (x)

3.1.1 Paramètre de lissage h …xé, n varié


1
En choisissant le paramètre de lissage hn = n 5 (…xé) et n varié (n = 50; 100; 500)

K à support non compact

p1 t2
Dans ce premier cas, on pose un noyau gaussien K(t) = 2
exp 2
et on va utiliser
le code ci-dessous pour estimer ce modèle, et le resultat graphique obtenu représenté dans
1
la …gure [FIG3.1]
Code R :

rm(list=ls(all=TRUE)) # Nouveau programme


rn(list=ls(all=TRUE)) # Nouveau programme
n=50 # taille de l'échantillon (X,Y)
X=rnorm(n,0,2)
n=50 # taille de l’\’{e}chantillon (X,Y)
E=rnorm(n)
Y=3+.8*X+E # Modéle linéaire
X=rnorm(n,0,2)
# Noyau Normale K(t) c’est une densité
K=function(t){(1/sqrt(2*pi))*exp(-0.5*tˆ2)}
E=rnorm(n)
# paramètre de lissage h
h=nˆ-.2
Y=3+.8*X+E # Mod\‘{e}le lin\’{e}aire
# Initiation
#s=100
Noyau# taille
Normalede K(t)
l’intervalle [a,b]densit\’{e}
c’est une
a=min(X) #borne inf
b=max(X) # borne sup
K=function(t){(1/sqrt(2*pi))*exp(-0.5*t^2)}
x=seq(a,b,length=s) # Intervalle [a,b]
V=numeric(n)
fn=numeric(s)
# Densité fn(.)
for(j in 1 :s){
for(i in 1 :n){ V[i]=K((x[j]-X[i])/h) }
fn[j]=sum(V)/(n*h)}
# Fonction Hn(.)
W=numeric(n)
Hn=numeric(s)
for(j in 1 :s){

for(i in 1 :n){ W[i]=K((x[j]-X[i])/h)*Y[i] }


Hn[j]=sum(W)/(n*h)}

Rn =Hn/fn
# Régression Rn(.)

24
op=par(mfrow=c(1,3))
plot(x,Rn,xlab="x", ylab="Rn(x)", main="n=50",type='l',col=2, lwd= 2)
abline(3,.8,lwd= 2)
###Pour n =100###
n=100
X=rnorm(n,0,2)
E=rnorm(n)
Y=3+.8*X+E
h=nˆ-.2
V=numeric(n)
for(j in 1 :s){
for(i in 1 :n){ V[i]=K((x[j]-X[i])/h) }
fn[j]=sum(V)/(n*h)}
W=numeric(n)
for(j in 1 :s){
for(i in 1 :n){ W[i]=K((x[j]-X[i])/h)*Y[i] }
Hn[j]=sum(W)/(n*h)}
Rn =Hn/fn
plot(x,Rn,xlab="x", ylab="Rn(x)", main="n=100",type='l',col=2, lwd= 2)
abline(3,.8,lwd= 2)
####Pour n =500###
n=500
X=rnorm(n,0,2)
E=rnorm(n)
Y=3+.8*X+E
h=nˆ-.2
V=numeric(n)
for(j in 1 :s){
for(i in 1 :n){ V[i]=K((x[j]-X[i])/h) }
fn[j]=sum(V)/(n*h)}
W=numeric(n)
for(j in 1 :s){
for(i in 1 :n){ W[i]=K((x[j]-X[i])/h)*Y[i] }
Hn[j]=sum(W)/(n*h)}
Rn =Hn/fn
plot(x,Rn,xlab="x", ylab="Rn(x)", main="n=500",type='l',col=2, lwd= 2)
abline(3,.8,lwd= 2)
par(op)

25
n=50 n=100 n=500

7
6

6
5
5

5
4
4

4
Rn(x)

Rn(x)

Rn(x)
3
3

3
2
2

2
1
1

1
−4 −2 0 2 4 −4 −2 0 2 4 −4 −2 0 2 4

x x x

Fig. 13.1 –Régression linéaire : h …xé, n varié et K noyau normal

L’axe des absices représente les valeurs des x et l’axe des coordonnées les valeurs des rn (et
r). Par la comparaison graphique, on remarque que le graphe rouge de rn est approche
beaucoup à la droite noire de r dans le troisième graphe, donc ce graphe exprime la
convergence de l’estimateur rn vers r.

K à support compact

Dans ce second cas, on choisit le noyau d’Epanechnikov :K(t) = 43 (1 t2 ) 1fjtj 1g : Ensuite,


on modi…e seulement cette partie dans le programme R précédent :
K=function(t){ if (abs(t)<1){(3/4)*(1-tˆ2)} else {0}}
K=function(t){ifelse(abs(t)<1,(3/4)*(1-t^2),0)}
2 suivante :
On obtient la …gure [FIG 3.2]
même conclusion de la convergence de l’estimateur (voir la [FIG-31 :1], i.e ; convergence de
l’estimateur pour n assez grand).

26
n=50 n=100 n=500

8
10

6
8

4
6

4
Rn(x)

Rn(x)

Rn(x)
4

2
2
2

0
0
0

−2
−4 0 2 4 6 −4 0 2 4 6 −4 0 2 4 6

x x x

Fig. 23.2 –Régression linéaire : h …xe, n varié et K noyau d’Epanechnikov

3.1.2 Choix graphique du paramètre de lissage

Dans cette section, nous prenons le paramètre de lissage dans l’intervalle ]0; 1[ et avec des
tests graphique en va diterminer le paramètre h optimal (au sens graphique). On …xe la
taille de l’échantillon n = 250 et le noyau K est normal, l’estimation obtenue avec les
valeurs de h varié de 0:1 à 0:9 sont données dans la …gure. Il est clair que la valeur de h
optimale est de h = 0:7 (ligne 3, colonne 1)
Code R

n=250 # taille de l'èchantillon


n=250 # taille de l’\’{e}chantillon
X=rnorm(n,0,2)
E=rnorm(n)
Y=3+.8*X+E
X=rnorm(n,0,2)
# Noyau Normale K(t) c’est une densité
K=function(t){(1/sqrt(2*pi))*exp(-0.5*tˆ2)}
E=rnorm(n) # paramétrage de lissage h
h=seq(.1,.9,length=9)
Y=3+.8*X+E
# Initiation
s=100 # taille de l’intervalle [a,b]
# Noyau Normale K(t) c’est une densit\’{e} K=function(t){(1/
a=min(X) #borne inf
sqrt(2*pi))*exp(-0.5*t^2)}
b=max(X) # borne sup
x=seq(a,b,length=s) # Intervalle [a,b]
#V=array(dim=c(n,s,9))
param\‘{e}tre de lissage h
fn=array(dim=c(s,9))
h=seq(.1,.9,length=9)
W=array(dim=c(n,s,9))
Hn=array(dim=c(s,9))
# Initiation
s=100 # taille de l’intervalle [a,b] 27
# density fn(x)
for(k in 1 :9){
for(j in 1 :s){
for(i in 1 :n){ V[i,j,k]=K((x[j]-X[i])/h[k]) }
fn[j,k]=sum(V[,j,k])/(n*h[k])}}
# fonction Hn(x)
for(k in 1 :9){
for(j in 1 :s){
for(i in 1 :n){ W[i,j,k]=K((x[j]-X[i])/h[k])*Y[i] }
Hn[j,k]=sum(W[,j,k])/(n*h[k])}}

Rn=array(dim=c(s,9))
for(k in 1 :9){ Rn[,k]=Hn[,k]/fn[,k]}
# Graphes
# nouvelle fenêtre graphique
op=par(mfrow=c(3,3))
for(k in 1 :9){
plot(x,Rn[,k],xlab="x", ylab="Rn(x)", main=" ",type='l',col=2, lwd= 2)
abline(3,.8,lwd= 2) }
par(op)
Rn(x)

Rn(x)

Rn(x)
−2 6

−2 6

0 6
−4 −2 0 2 4 6 −4 −2 0 2 4 6 −4 −2 0 2 4 6

x x x
Rn(x)

Rn(x)

Rn(x)

6
6
0 6

−4 −2 0 2 4 6 −4 −2 0 2 4 6 −4 −2 0 2 4 6

x x x
Rn(x)

Rn(x)

Rn(x)

6
6
6
0

−4 −2 0 2 4 6 −4 −2 0 2 4 6 −4 −2 0 2 4 6

x x x

3 –Régression linéaire avec h varié, n …xé et K noyau gaussion.


Fig. 3.3

28
Identique aux choix précédents, mais on change le noyau : K(t) = 34 (1 t2 ) 1fjtj 1g (noyau
4 qui explique l’estimation obtenue avec les
d’Epanechnikov). On obtenu la …gure [FIG3.4]
valeurs de h varié de 0:1 à 0:9.
Rn(x)

Rn(x)

Rn(x)
0 6

0 6

0 6
−4 −2 0 2 4 6 −4 −2 0 2 4 6 −4 −2 0 2 4 6

x x x
Rn(x)

Rn(x)

Rn(x)
0 6

0 6

0 6
−4 −2 0 2 4 6 −4 −2 0 2 4 6 −4 −2 0 2 4 6

x x x
Rn(x)

Rn(x)

Rn(x)

6
6
6
0

0
−4 −2 0 2 4 6 −4 −2 0 2 4 6 −4 −2 0 2 4 6

x x x

4 –Régression linéaire avec h varié, n …xé et K d’Epanechnikov


Fig. 3.4

Il est claire que la valeur du h optimale est de h = 0:9 (ligne 3, colonne 3).

3.2 Régression non linéaire

Dans cette section, nous allons répeter les mêmes étapes que dans la régression linéaire
mais avec un modèle non linéaire :

y = sin x + "

où " un terme d’erreur de loi N (0; 1).


1
Toujours, la ligne noire exprime la fonction de régression théorique r(x) [Eq.(3.1)]et la ligne
2
rouge exprime la fonction de régression empirique rn (x) donnée par l’équation [Eq.(3.2)].

3.2.1 Paramètre de lissage h …xé, n varié


29
1
Dans ce cas, on choisit le paramètre de lissage h = n 5 (…xé), n varié (n = 50; 100; 500) et
t2
K est un noyau gaussien K(t) = p1 exp
2 2

Code R :

rm(list=ls(all=TRUE)) # Nouveau
rn(list=ls(all=TRUE)) programme
# Nouveau programme
n=50 # taille de l'échantillon (X,Y)
X=rnorm(n,0,2)
n=50 # taille de l’\’{e}chantillon (X,Y)
E=rnorm(n)
Y=sin(X)+E # Modéle Sinus Non Linéaire
X=rnorm(n,0,2)
# Noyau Normale K(t) c’est une densité
K=function(t){(1/sqrt(2*pi))*exp(-0.5*tˆ2)}
E=rnorm(n)
# paramétre de lissage h
h=nˆ-.2
Y=sin(X)+E # Mod\‘{e}le Sinus Non Lin\’{e}aire
# Initiation
s=100 # taille
# Noyau de l’intervalle
Normale K(t) c’est [a,b]
une densit\’{e}
a=min(X) #borne inf
b=max(X) # borne sup
K=function(t){(1/sqrt(2*pi))*exp(-0.5*t^2)}

x=seq(a,b,length=s)
# param\‘{e}tre de # Intervalle
lissage h[a,b]
V=numeric(n)
fn=numeric(s)
h=n^-.2
# Densité fn(.)
in 1 :s){
# Initiation
for(j
for(i in 1 :n){ V[i]=K((x[j]-X[i])/h) }
fn[j]=sum(V)/(n*h)}
s=100 # taille de l’intervalle [a,b]
# Fonction Hn(.)
a=min(X) #borne inf
W=numeric(n)
Hn=numeric(s)
b=max(X) # borne sup
for(j in 1 :s){
for(i in 1 :n){ W[i]=K((x[j]-X[i])/h)*Y[i] }
Hn[j]=sum(W)/(n*h)}
Rn =Hn/fn # Régression Rn(.)
# Graphes
# nouvelle fenettre graphique
op=par(mfrow=c(1,3))
plot(x,Rn,xlab="x", ylab="Rn(x)", main="n=50",type='l',col=4, lwd= 2)
lines(x,sin(x),lwd= 2)
#####Pour n =100 ####
n=100
X=rnorm(n,0,2)
E=rnorm(n)
Y=sin(X)+E # Modéle Sinus Non Lin\’{e}aire
h=nˆ-.2
V=numeric(n)
for(j in 1 :s){

for(i in 1 :n){ V[i]=K((x[j]-X[i])/h) }


fn[j]=sum(V)/(n*h)}
W=numeric(n)
for(j in 1 :s){
for(i in 1 :n){ W[i]=K((x[j]-X[i])/h)*Y[i] }
Hn[j]=sum(W)/(n*h)}

30
Rn =Hn/fn
plot(x,Rn,xlab="x", ylab="Rn(x)", main="n=100",type='l',col=4, lwd= 2)
lines(x,sin(x),lwd= 2)
#####Pour n =500
n=500
X=rnorm(n,0,2)
E=rnorm(n)
Y=sin(X)+E # Modéle Sinus Non Lin\’{e}aire
h=nˆ-.2
V=numeric(n)
for(j in 1 :s){
for(i in 1 :n){ V[i]=K((x[j]-X[i])/h) }
fn[j]=sum(V)/(n*h)}
W=numeric(n)
for(j in 1 :s){
for(i in 1 :n){ W[i]=K((x[j]-X[i])/h)*Y[i] }
Hn[j]=sum(W)/(n*h)}
Rn =Hn/fn
plot(x,Rn,xlab="x", ylab="Rn(x)", main="n=500",type='l',col=4, lwd= 2)
lines(x,sin(x),lwd= 2)
par(op)

n=50 n=100 n=500

1.0
1.0
0.5

0.5
0.5
0.0

0.0
Rn(x)

Rn(x)

Rn(x)
0.0
−0.5

−0.5
−0.5
−1.0

−1.0
−1.0

−2 0 2 4 −2 0 2 4 −2 0 2 4

x x x

Fig. 53.5 –Régression non linéaire : h …xé, n varié et K noyau normal

3
Dans ce second cas, on choisit le noyau d’Epanechnikov : K(t) = 4
(1 t2 ) 1fjtj 1g . En

31
suite, on modi…e seulement cette partie dans le programme R précédent :
# Noyau Epanechnikov K(t)

K=function(t){ if (abs(t)<1){(3/4)*(1-tˆ2)} else {0}}


K=function(t){ifelse(abs(t)<1,(3/4)*(1-t^2),0)}

6 ; et on arrive au même conclusion de la convergence de


On obtient la …gure [FIG 3.6]
5 i,e ; convergence de l’estimateur pour n assez grand).
l’estimateur (voir la [FIG3.5],

n=50 n=100 n=500


1

1.5

1.0
1.0
0

0.5
0.5
Rn(x)

Rn(x)

Rn(x)
0.0

0.0
−1

−0.5

−0.5
−2

−1.0

−1.0
−1.5

−4 −2 0 2 4 −4 −2 0 2 4 −4 −2 0 2 4

x x x

Fig. 63.6 –Régression non linéaire : h …xé, n varié et K noyau d’Epanechnikov

3.2.2 Choix graphique du paramètre de lissage

Dans cette partie, on va prendre le paramètre de lissage dans l’intervalle [0; 1] de même
déterminerle paramètre
façon pour la régression linéaire, et avec des tests graphiques en va diterminer
h optimal (au sens graphique).
On …xe la taille de l’échantillon n = 250 et le noyau K est normal, l’estimation obtenue
7 Il est clair que
avec les valeurs de h varié de 0:1 à 0:9 sont données dans la …gure [FIG3.7].
la valeur du h optimale est de h = 0:5 (ligne 2, colonne 2).
Code R :

\’{e}chantillon’n=250#taille de l
(X=rnorm(n,0,2 32
n=250 #taille de l'échantillon
X=rnorm(n,0,2)
E=rnorm(n)
Y=sin(X)+E # Modéle Sinus Non Linéaire
# Noyau Normal K(t) c’est une densité
K=function(t){(1/sqrt(2*pi))*exp(-0.5*tˆ2)}
# paramètre de lissage h
h=seq(.1,.9,length=9)
# Initiation
s=100 # taille de l’intervalle [a,b]
a=min(X) #borne inf
b=max(X) # borne sup
x=seq(a,b,length=s) # Intervalle [a,b]
V=array(dim=c(n,s,9))
fn=array(dim=c(s,9))
W=array(dim=c(n,s,9))
Hn=array(dim=c(s,9))
# density fn(x)
for(k in 1 :9){
for(j in 1 :s){

for(i in 1 :n){ V[i,j,k]=K((x[j]-X[i])/h[k]) }


fn[j,k]=sum(V[,j,k])/(n*h[k])}}
# fonction Hn(x)
for(k in 1 :9){
for(j in 1 :s){

for(i in 1 :n){ W[i,j,k]=K((x[j]-X[i])/h[k])*Y[i] }


Hn[j,k]=sum(W[,j,k])/(n*h[k])}}
Rn=array(dim=c(s,9))
for(k in 1 :9){ Rn[,k]=Hn[,k]/fn[,k]}

# Graphes

# nouvelle fenettre graphique


op=par(mfrow=c(3,3))
for(k in 1 :9){
plot(x,Rn[,k],xlab="x", ylab="Rn(x)", main=" ",type='l',col=2, lwd= 2)
lines(x,sin(x),lwd= 2) }
par(op)

33
1
−2 1
−2 1
Rn(x)

Rn(x)

Rn(x)

−2
−4 −2 0 2 4 −4 −2 0 2 4 −4 −2 0 2 4

x x x
Rn(x)

Rn(x)

Rn(x)

−1.5
−2.0
−2.5

−4 −2 0 2 4 −4 −2 0 2 4 −4 −2 0 2 4

x x x
Rn(x)

Rn(x)

Rn(x)
−0.5
−1.0

−0.6
−4 −2 0 2 4 −4 −2 0 2 4 −4 −2 0 2 4

x x x

Fig. 73.7 –Régression non linéaire avec h varié, n …xé et K gaussien.

Si nous gardons le même modèle non linéaire y = sinx + " ; mais avec le noyau d’Epane-
chikov. On note, que la valeur du h optimale est de h = 0:9 (ligne 3 ; colonne 3 ; voir la
8
FIG-3.8).
Finallement, ce chapitre montre l’importance de paramètre de lissage h et du noyau K
dans l’estimation non paramétrique de la régression linéaire et non linéaire. Mais à noté
que le choix de h est plus crucial que le choix de noyau.

34
2
Rn(x)

Rn(x)

Rn(x)
−1.0

−1.0
−1

−6 −2 0 2 4 6 −6 −2 0 2 4 6 −6 −2 0 2 4 6

x x x
Rn(x)

Rn(x)

Rn(x)

−0.5
−1.0

−1.0
−6 −2 0 2 4 6 −6 −2 0 2 4 6 −6 −2 0 2 4 6

x x x
Rn(x)

Rn(x)

Rn(x)
−0.5

−0.5

−0.5
−6 −2 0 2 4 6 −6 −2 0 2 4 6 −6 −2 0 2 4 6

x x x

Fig. 83.8 –Régression non linéaire avec h varié, n …xé et K d’Epanechnikov.

35

Vous aimerez peut-être aussi