Académique Documents
Professionnel Documents
Culture Documents
Chap 4
Chap 4
Chap 4
Statistique non–paramétrique
Chapitre 4 :
Statistique non–paramétrique :
Rudiments
Introduction
Estimation de la densité
Tests non-paramétriques
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–paramétrique
Introduction
Problème :
Comment conduire une inférence statistique quand on ne connait
pas la loi des observations X1 , . . . , Xn ?
i.i.d.
X1 , . . . , Xn ∼ F
avec F inconnu
F ∈ F0 ? F == F0 ? θ(F ) ∈ Θ0 ?
Estimation de la densité
Pour estimer
dF
f (x) = (x)
dx
[densité de X]
on peut songer à prendre
dF̂n
fˆn (x) = (x)
dx
mais
F̂n n’est pas dérivable !
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–paramétrique
Estimation de la densité
Par exemple,
n
1 X
ωi (ai+1 − ai ) = I[ai ,ai+1 [ (Xi )
n
i=1
= F̂n (ai+1 ) − F̂n (ai )
[bootstrap]
est un estimateur convergent de PF (X ∈ [ai , ai+1 [)
[Attention aux effets de bord !]
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–paramétrique
Estimation de la densité
hist(x)$density
En R, hist(x)$density donne les valeurs des ωi et hist(x)$breaks les
valeurs des ai
0.5
0.4
Il est préférable d’utiliser les valeurs
0.3
produites par hist(x)$density pour
0.2
contruire une fonction linéaire par
0.1
morceaux par plot(hist(x)$density)
plutôt qu’une fonction par escalier. 0.0 −2 −1 0 1 2 3
Interprétation probabiliste
Défauts
Fenêtres de Scott
k= 5 k = 15 k = 25
0.4
0.30
0.2
0.10
0.1
0.00
0.0
−2 −1 0 1 2 3 −2 −1 0 1 2 3 −2 −1 0 1 2 3
k = 35 k = 45 k = 55
0.0 0.1 0.2 0.3 0.4
0.4
0.4
0.2
0.2
0.0
0.0
−2 −1 0 1 2 3 −2 −1 0 1 2 3 −2 −1 0 1 2 3
k = 65 k = 75 k = 85
0.6
0.4
0.4
0.4
0.2
0.2
0.2
0.0
0.0
0.0
−2 −1 0 1 2 3 −2 −1 0 1 2 3 −2 −1 0 1 2 3
Estimateur du noyau
Partant de la définition
dF
f (x) = (x) ,
dx
on peut utiliser l’approximation
F̂n (x + δ) − F̂n (x − δ)
fˆ(x) =
2δ
Xn
1
= {IXi <x+δ − IXi <x−δ }
2δn
i=1
Xn
1
= I[−δ,δ] (x − Xi )
2δn
i=1
On a
Nb. observations proches de x
fˆn (x) =
2δn
Cas particulier de l’estimateur par histogramme où les ai sont de la
forme Xj ± δ
Représentation de fˆn comme somme pondérée d’uniformes
n
1X
U([Xi − δ, Xi + δ])
n
i=1
0.4
0.8
0.3
0.6
0.2
0.4
0.1
0.2
0.0
0.0
−2 −1 0 1 2 3 4 −2 0 2 4
0.12
0.30
0.08
0.20
0.04
0.10
0.00
0.00
−2 0 2 4 −10 −5 0 5 10
bandwith 1 bandwith 10
Extension
En R, density(x)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–paramétrique
Estimation de la densité
Choix de noyaux
−4 −2 0 2 4 6 −4 −2 0 2 4 6
−4 −2 0 2 4 6 −4 −2 0 2 4 6
Convergence vers f
0.30
0.30
0.20
0.20
0.10
0.10
0.00
0.00
−2 0 2 4 −2 0 2 4
0.20
0.00 0.05 0.10 0.15 0.20 0.25
0.15
0.10
0.05
0.00
−4 −2 0 2 4 6 −6 −4 −2 0 2 4 6 8
Fenêtre optimale
De la décomposition
Z n h io2 Z
ˆ
f (x) − E f (x) dx + var{fˆ(x)} dx ,
[Biais2 +variance]
et des approximations
h i f ′′ (x)
f (x) − E f˜(x) ≃ h2n
2
exp{−(Xi − x)2 /2h2n }
E √ ≃ f (x) ,
2πhn
[Exercice]
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–paramétrique
Estimation de la densité
[Exercice]
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–paramétrique
Estimation de la densité
Fenêtre empirique
où σ̂ est l’écart-type estimé et q̂25 et q̂75 sont les quantiles à 25%
et à 75% estimés.
Note : Les constantes 0.9 et 1.34 correspondent au noyau normal.
Warning! Cette formule n’est pas celle utilisée par défaut dans R
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–paramétrique
Tests non-paramétriques
X1 , . . . , Xn ∼ F
Acceptation
0.1
Rejet
0.0
0 1 2 3 4
Comparaison de distributions
F == G ?
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–paramétrique
Tests non-paramétriques
Idée :
Comparer les estimateurs de F et G,
n m
1 X 1 X
F̂n (x) = IXi ≤x et Ĝm (x) = IYi ≤x
n m
i=1 i=1
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–paramétrique
Tests non-paramétriques
Statistique de Kolmogorov–Smirnov
Meme distribution Deux distributions
difference maximale 0.05 difference maximale 0.14
1.0
1.0
0.8
0.8
0.6
0.6
0.4
0.4
0.2
0.2
0.0
0.0
−4 −2 0 2 4 6 −4 −2 0 2 4 6
0.14
0.04
0.12
0.10
0.02
0.08
0.06
0.00
0.04
0.02
−0.02
0.00
−4 −2 0 2 4 6 −4 −2 0 2 4 6
Utilisation :
Si K(m, n) “grand”, les distributions F et G sont
significativement différentes.
Si K(m, n) “petit”, on ne peut pas les distinguer au vu des
échantillons X1 , . . . , Xn et Y1 , . . . , Ym , donc on “accepte” que
F = G.
[Test de Kolmogorov–Smirnov]
En R, ks.test(x,y)
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–paramétrique
Tests non-paramétriques
Calibration du test
A m et n donnés, si F = G, K(m, n) a la même distribution pour
tout F .
On peut se ramener à la comparaison de deux échantillons
uniformes et utiliser la simulation pour approcher la distribution de
K(m, n) et ses quantiles.
m=200,n=200
Valeur
15
observee
10
Quantile
a 95%
5
0
si F = G
Exemple de sortie R :
Two-sample Kolmogorov-Smirnov test
data: z[, 1] and z[, 2]
D = 0.05, p-value = 0.964
alternative hypothesis: two.sided
p-value = 0.964 signifie que la probabilité que K(m, n) dépasse la
valeur observée D = 0.05 est de 0.964, donc la valeur observée est
petite pour la distribution de K(m, n) : on accepte l’hypothèse
d’égalité.
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–paramétrique
Tests non-paramétriques
Test d’indépendence
Example (Indépendence)
On cherche à tester l’indépendence entre deux v.a. X et Y en
observant les couples (X1 , Y1 ), . . . , (Xn , Yn )
Question
X⊥Y ?
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–paramétrique
Tests non-paramétriques
Test de rang
Idée :
Si on range les Xi par ordre croissant
X(1) ≤ . . . X(n)
Y[1] , . . . , Y[n] ,
En R, rank(y[order(x)])
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–paramétrique
Tests non-paramétriques
Rang : On appelle
R = (R1 , . . . , Rn )
la statistique de rang de l’échantillon (Y[1] , . . . Y[n])
La statistique de Spearman est
n
X
Sn = i Ri
i=1
[Corrélation entre i et Ri ]
On montre que, si X ⊥ Y ,
Statistique de Spearman
Distribution de Sn disponible par simulation [uniforme] ou
approximation normale
Distribution de S sur
500 echantillons de 200 points
0.4
0.3
0.2
0.1
0.0
−2 −1 0 1 2 3
Tests multinomiaux
Idée:
On remplace le problème par sa forme discrétisée à des intervalles
[ai , ai+1 ]
Est ce que
Z ai+1
exp(−x2 /2) def
P (Xi ∈ [ai , ai+1 ]) = √ dx = pi ?
ai 2π
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–paramétrique
Tests non-paramétriques
Principe
Modélisation multinomiale
On se ramène toujours à un problème d’adéquation à une loi
multinomiale
Mk p01 , . . . , p0k
ou à une famille de lois multinomiales
Exemples
Exemples (suite)
et
def
pi,j (θ) = P (X ∈ [ai , ai+1 ], Y ∈ [bi , bi+1 ])
= θ1i × θ2j
Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE)
Statistique non–paramétrique
Tests non-paramétriques
Test du chi-deux
L’estimateur naturel des pi est
[Cf. bootstrap]
La statistique du chi-deux est
k
X (p̂i − p0 )2 i
Sn = n
i=1
p0i
k
X (n̂i − np0 )2 i
=
i=1
np0i
et
k
X (p̂i − pi (θ̂))2
Sn = n
i=1 pi (θ̂)
k
X (n̂i − npi (θ̂))2
=
i=1 npi (θ̂)
Loi approchée
Sn ∼ χ2k−1
Distributions of Sn
0.25
0.20
0.15
0.10
0.05
0.00
0 5 10 15 20
Utilisation et limitations
200
2
150
1
Quantile observe
Sn
0
100
−1
50
−2
Quantile normal n