Vous êtes sur la page 1sur 109

Tests non parametriques

Anne Gegout-Petit

Universit
e de Lorraine, master de math
ematiques 1`
ere ann
ee, IMOI

Annee 2016-2017
Contexte

I Variable qualitative X `a J modalites (m1 , . . . , mJ )


I Loi de X donnee par les pi = P(X = mi ) 1 i J
I Observation de (X1 , . . . , Xn ), v.a. i.i.d. de meme loi que X
I On veut tester H0 (p1 . . . pJ ) = (p10 . . . pJ0 )

Exemples
Les accidents de la route sur une nationale donnee sont-ils
equirepartis sur les 4 periodes 00h-6h, 6h-12h, 12h-18h, 18h-24h ?
Lemme de Pearson

I (X1 , . . . , Xn ), v.a. i.i.d. de meme loi que X


Nj = ni=1 1{Xi =mj }
P
I

I Loi de Nj ?
I loi du vecteur (N1 , . . . , NJ ) ?
Lemme de Pearson

I (X1 , . . . , Xn ), v.a. i.i.d. de meme loi que X


Nj = ni=1 1{Xi =mj }
P
I

I Loi de Nj ?
I loi du vecteur (N1 , . . . , NJ ) ?
Loi multinomiale associee aux pj , si (n1 + . . . + nJ = n :

n!
P {N1 = n1 , . . . , NJ = nJ } = p n1 p n2 . . . pJnJ .
n1 ! . . . nJ ! 1 2
Lemme de Pearson

I (X1 , . . . , Xn ), v.a. i.i.d. de meme loi que X


Nj = ni=1 1{Xi =mj }
P
I

I Loi de Nj ?
I loi du vecteur (N1 , . . . , NJ ) ?
Sous H0 (p1 . . . pJ ) = (p10 . . . pJ0 )
I ENj =??
I Estimateur de pj :
Lemme de Pearson

I (X1 , . . . , Xn ), v.a. i.i.d. de meme loi que X


Nj = ni=1 1{Xi =mj }
P
I

I Loi de Nj ?
I loi du vecteur (N1 , . . . , NJ ) ?
Sous H0 (p1 . . . pJ ) = (p10 . . . pJ0 )
I ENj = npj0
Nj
I Estimateur de pj : pj = n
I Mesure dun ecart entre les donnees et H0 (p10 . . . pJ0 )

J
2
X (Nj npj0 )2
X = (1)
npj0
j=1
Lemme de Pearson

J
2
X (Nj npj0 )2
X = (2)
npj0
j=1

Theoreme
Si tous pj > 0 alors, lorsque n , la loi de la statistique (2)
tend vers la loi du chi deux `a J 1 degres de liberte sous H0 . Sous
H1 , elle converge vers linfini.
Lemme de Pearson

J
X (Nj npj0 )2
X2 = (2)
npj0
j=1

Theoreme
Si tous pj > 0 alors, lorsque n , la loi de la statistique (2)
tend vers la loi du chi deux `a J 1 degres de liberte sous H0 . Sous
H1 , elle converge vers linfini.
Idee de preuve : theor`eme central limite et theor`eme de Cochran
Test du 2 dajustement

I (X1 , . . . , Xn ), v.a. i.i.d. qualitatives `a J modalites


I Test H0 (p1 . . . pJ ) = (p10 . . . pJ0 )
(Nj np 0 )2
Statistique de test X 2 = Jj=1 np0 j
P
I
j

I Rejet si X 2 q1 (J 1)
I q1 (J 1) quantile de niveau (1 ) de la loi du 2 `a
(J 1) d.d.l..
I Le test est asymptotiquement de niveau (1 ) et il est
consistant.
I Attention, test asymptotique ! On lutilise si n 30 et tous les
npj0 5 sinon, on regroupe des modalites.
Test du 2 dajustement

I Adapte `a une loi `a support fini


I Loi discr`ete `a support infini apr`es regroupement des modalites
I Loi continue regroupee en classes meme sil est preferable
dans ce dernier cas dutiliser le test de Kolmogorov qui est
plus adapte et qui ne depend pas des classes.
Convergence apr`es estimation de param`etres

Les (p10 . . . pJ0 ) ne sont pas forcement connus, ils peuvent dependre
dun param`etre `a estimer.
Convergence apr`es estimation de param`etres
Les (p10 . . . pJ0 ) ne sont pas forcement connus, ils peuvent dependre
dun param`etre `a estimer.
Exemple
I H0 : Y appartient `a une famille connue (normale,
exponentielle, etc, ...) mais dont on ne connat pas le
param`etre (moyenne, ou (moyenne,variance)).
I A laide de (X1 , . . . , Xn ), on estime par
I On regroupe en J classes :

]x0 , x1 ], ]x1 , x2 ], . . . , ]xJ1 , xJ [, x0 = , xJ = ,

I
On a alors P(Y ]xj1 , xj ]) = pj0 ()
Probl`eme : loi de
J
X 2
(Nj npj0 ())
=
X 2 () (3)

np 0 ()
j=1 j
Estimateurs de
1. Lestimateur du maximum de vraisemblance n
2. Lestimateur du minimum du chi-deux : cest lestimateur
n , qui minimise la statistique (??) par rapport `a :
= inf X 2 (),
X 2 ()

3. Lestimateur du minimum du chi deux modifi e n qui


minimise en la statistique de Pearson modifiee :
k
X (Ni npi ())2
Xm2 () = .
Ni
i=1

4. Lestimateur de maximum de vraisemblance pour des


donn ees groupees appele n , il maximise la fonction de
vraisemblance L () associee `a la loi multinomiale et
construite en utilisant des donnees N1 , . . . , Nk :
n!
L () = (p1 ())N1 (p2 ())N2 . . . (pk ())Nk .
N1 !N2 !...Nk !

Loi du X 2 ()

Conditions de Cram
er :
1) c > 0) tel que pour tout j = 1, . . . , J

pj () > c, ;
2p
j ()
2) les fonctions j2
sont continues dans lensemble ;
3) le rang de la matrice dinformation de Fisher J() = J()kl ,

1 pj ()
J()jk =
pj pk k
est egal `a s o`
u s est la dimension de .

Loi du X 2 ()

Theoreme
Si les conditions de Cramer sont verifiees sous H0 , alors les
statistiques X 2 (n ), Xm2 (n ), X 2 (n ) et Rn (n ) sont
asymptotiquement (n ) equivalentes :

X 2 (n ) = Xm2 (n ) + op (1) = X 2 (n ) + op (1) = X 2 (Rn (n )) + op (1).

La loi de chaque statistique tend vers la loi du chi-deux `a J s 1


degres de liberte sous H0 et vers linfini sous H1 (enfin, il y a qq
cas pathologique si H1 H0 ).
Test du chi-deux dindependance

I A et B deux variables qualitatives de modalites respectives


A1 , . . . , As et B1 , . . . , Br .
I (X1 , . . . Xn ), n realisations independantes de A et B
I Nij variable aleatoire nombre des experiences o`
u levenement
Ai Bj a lieu parmi les n.
Test du chi-deux dindependance
I A et B deux variables qualitatives de modalites respectives
A1 , . . . , As et B1 , . . . , Br .
I (X1 , . . . Xn ), n realisations independantes de A et B
I Nij variable aleatoire nombre des experiences o`
u levenement
Ai Bj a lieu parmi les n.
On a le tableau de contingence :

B1 Bj Br
A1 N11 N1j N1r N1
...
Ai Ni1 Nij Nir Ni
...
As Ns1 Nsj Nsr Ns
N1 Nj Nr n
Pr Ps Ps Pr
Ici Ni = j=1 Nij , Nj = i=1 Nij , n= i=1 Ni = j=1 Nj .
Test du chi-deux dindependance
Posons

pij = P(Ai Bj ) (i = 1, . . . , k; j = 1, . . . , r )

On a une table correspondante des probabilites pij :

B1 Bj Br
A1 p11 p1j p1r p1
...
Ai pi1 pij pir pi
...
As ps1 psj psr ps
p1 pj pr 1

Ici pi = rj=1 = si=1 pij = P(Bj ),


P P
pij = P(Ai ), pjP
P s Pr P s r
i=1 pi = j=1 pj = i=1 j=1 pij = 1.
Test du chi-deux dindependance
H0 les variables A et B sont independantes

H0 : pij = pi pj (i, j)contre H1 : (i, j) pij 6= pi pj

Le vecteur aleatoire des Nij suit la loi multinomiale :

N = (N11 , . . . , N1r , . . . , Ns1 , . . . , Nsr ) M(n, p)


p = (p11 , . . . , p1r , . . . , ps1 , . . . , psr )

Statistique de test
s X
r
X (Nij npi pj )2
X2 = (4)
npi pj
i=1 j=1

Les pi et les pj sont inconnus, il faut estimer (s + r 2)


param`etres.
Test du chi-deux dindependance

On peut montrer que lestimateur du maximum de vraisemblance


de la loi multinomiale sous H0 dont la fonction est donnee par :

s Y
r s Y
r s Y
r
n! Y Nij n! Y Nij
Y N
L(p) = ; pij = pi pj ij
N11 ! Nsr ! N11 ! Nsr !
i=1 j=1 i=1 j=1 i=1 j=1
s r
n! Y Y N
= piNi pj j ,
N11 ! Nsr !
i=1 j=1

Ni Nj
pi = et pj = .
n n
Sous H0
s X
r
X (Nij npi pj )2
X2 =
n
pi pj
i=1 j=1
Sous H0
s X
r
2
X (Nij npi pj )2
X =
n
pi pj
i=1 j=1

tend en loi vers n , la loi du 2


sr 1 (s + r 2) = (s 1)(r 1) d.d.l.

Ni Nj
Conditions dapplication n 5 pour tout (i, j).
Application : Test de la mediane

Ce test permet de comparer les medianes de k echantillons


independants (X11 , . . . , Xn11 ) . . . (X1k , . . . , Xnkk ) de taille n1 , . . . , nk
de lois admettant une densite.

H0 : M1 = ... = Mk := M, Mi mediane theorique lechantilloni

H1 : il existe s 6= l : Ms 6= Ml .
Sous H0 ,
nj nj
1{Xij 1{Xij > M}
X X
N1j = < M}, N2j = (j = 1, . . . k).
i=1 i=1
Sous H0 on a :
1
I pl1 = . . . plk := pl = 2 (l = 1, 2)
I (N1i , N2i ) independants de loi multinomiale M(ni , 12 , 12 )
I Par le lemme de Pearson,
2
X (Nij nj pi )2
2 (1)
nj pi
i=1

et par independance des echantillons,


k X
2
X (Nlj nj /2)2
X2 = 2 (k).
nj /2
j=1 l=1

Statistique de test ?
M inconnu ! sous H0 , il faut lestimer par la mediane empirique de
lechantillon unifie ordonne :
k
X
X(1) ... X(n) , n= nj .
j=1

= (X(n/2) + X(n/2+1) )/2, si n est pair
M
X((n+1)/2) , sinon
La loi des Xij est continue donc P(Xij = M) = 0. Si on a des
j j ils ne rentreront pas dans la definition des
Xi : Xi = M,
statistiques suivantes.
Soient
nj nj
X X

N1j =
1{Xij < M}, N2j = 1{Xij > M} (j = 1, . . . k).
i=1 i=1
Comme on a estime la mediane, alors la statistique
k X
2 lj nj /2)2
2 =
X (N
X 2 (k 1) sous H0 .
nj /2
j=1 l=1
Test exact de Fischer, contexte

Ni Nj
I Test du chi-deux condition n 5 non verifiee pour tout
(i, j)
I On regroupe (intelligemment !) les modalites
I Si tableau 2 x2, condition non verifiee toujours
Tableau de contingence dans le cas typique utilise en epidemiologie
pour etudier leffet dun facteur de risque sur une maladie

Malade oui non Total


Facteur
oui a b a+b
non c d c +d
Total a + c b + d N

Avec N = a + b + c + d.
Test exact de Fischer, loi hypergeometrique

Malade oui non Total


Facteur
oui X a+b
non c +d
Total a + c b + d N
Avec N = a + b + c + d.
Sous lhypoth`ese dindependance H0 des variables Facteur et
Maladie, quelle est la loi du nombre de malade X dans la
sous-population des exposes de taille a + b ?
Test exact de Fischer, loi hypergeometrique

Malade oui non Total


Facteur
oui X a+b
non c +d
Total a + c b + d N
Avec N = a + b + c + d.
Sous lhypoth`ese dindependance H0 des variables Facteur et
Maladie, quelle est la loi du nombre de malade X dans la
sous-population des exposes de taille a + b ?
a+c
I Loi hypergeometrique de param`etres (N, n = a + b, p = N )
I
a+c b+d
 
k nk
P(X = k) = N

a+b
Test exact de Fischer, test
Malade oui non Total
Facteur
oui a b a+b
non c d c +d
Total a + c b + d N

I Lintervalle de pari de la loi hypergeometrique peut etre long


et fastidieux `a calculer.
I Probabilite dobserver la table precedente si on connat ses
marges

(a + c)!(b + d)!(a + b)!(c + d)!


P(X = a) =
N!a!c!b!d!
I Calcul de la p-valeur du test en calculant la probabilite
dobtenir un tableau au moins aussi eloigne de lhypoth`ese
dindependance que celui observe dans lechantillon.
Test exact de Fischer,exemple

On interroge un groupe detudiants pour savoir si 3 jours avant


leur examen de statistique, ils ont commence `a travailler pour le
preparer. Peut-on dire que les filles semblent plus serieuses,
peut-on dire que cette tendance est significative ?

Sexe Hommes Femmes Total


Revision
oui 1 9 10
non 11 3 14
Total 12 12 24
Definitions

Definition
On appelle fonction de repartition empirique de lechantillon
(X1 , . . . , Xn ) la fonction definie sur R et `a valeurs dans [0, 1] par :
n
1X
Fn (t) = 1{Xi t} (5)
n
i=1

I Interpretation
I Loi de nFn (t)
I Propriete de la fonction
Definitions

Definition
On appelle fonction de repartition empirique de lechantillon
(X1 , . . . , Xn ) la fonction definie sur R et `a valeurs dans [0, 1] par :
n
1X
Fn (t) = 1{Xi t} (5)
n
i=1

I Fn (t) : proportion de Xi inferieurs `a t


I nFn (t) ' B(n, F (t)) avec F (t) = P(Xi t)
I Croissante, constante par morceaux, continue `a droite
Definition
Soit hk la fonction de Rn dans R qui `a (x1 , . . . , xn ) fait
correspondre la ki`eme valeur parmi les (x1 , x2 . . . , xn ) rangees dans
lordre croissant. On note x(k) = hk (x1 , . . . , xn ). On a alors
x(1) x(2) . . . x(n) .
On appelle statistique dordre k la variable aleatoire

X(k) = hk (X1 , . . . , Xn ) (6)


Proposition
On a les proprietes suivantes pour Fn
1. Fn (t) est constante sur les intervalles [X(i) , X(i+1) [. Elle est
croissante et prend ses valeurs dans lensemble
{0, n1 , . . . , kn , . . . , 1}
2. P(Fn (t) = k ) = Cnk (F (t))k (1 F (t))nk
n
3. Quand n , (Fn (t) F (t)) tend vers 0 p.s.
4. Quand n tend vers ,

Fn (t) F (t) L
np N (0, 1)
F (t)(1 F (t)

On a donc Fn (t) a pour loi approchee N (F (t), F (t)(1F


n
(t)
)
Proprietes des statistiques de rang

I Loi de X(n) ?
I Loi de X(1) ?
I X(n1) ?
I X(k) ?
Proprietes des statistiques de rang

Proposition
La fonction de repartition de X(k) est donnee par
n
X
FX(k) (t) = Cnj (F (t))j (1 F (t))nj (6)
j=k
Proprietes des statistiques de rang

Proposition
La fonction de repartition de X(k) est donnee par
n
X
FX(k) (t) = Cnj (F (t))j (1 F (t))nj (6)
j=k

D
emonstration : Il faut remarquer que levenement
n
[ 
(X(k) t) = (X(j) t) (X(j+1) > t)
j=k

de plus P((X(j) t) (X(j+1) > t)) = Cnj (F (t))j (1 F (t))nj en


utilisant lindependance entre les Xi et parce quil y a Cnj facon de
choisir les j xi qui sont plus petits que t parmi les n.
Definition
Sous lhypoth`ese que la loi des Xi est `a densite continue, on definit
le vecteur des rangs (R1 , . . . , Rn ) associe `a (X1 , . . . , Xn ) par :

Ri = k Xi = X(k) (7)
Definition
Sous lhypoth`ese que la loi des Xi est `a densite continue, on definit
le vecteur des rangs (R1 , . . . , Rn ) associe `a (X1 , . . . , Xn ) par :

Ri = k Xi = X(k) (7)

Lhypoth`ese dabsolue continuite de X implique que presque


s
urement, ny a pas dexaequo dans (X1 , . . . , Xn ) et les rangs sont
alors bien definis.
Proposition
On a les proprietes suivantes pour (R1 , . . . , Rn ) :
1. La loi de (R1 , . . . , Rn ) ne depend pas de la loi m`ere f
n+1
2. E [Rj ] = 2 1j n
3. Var [Rj ] = (n+1)(n1)
12 1 j n
n+1
4. cov (Ri , Rj ) = 12 i 6= j
Demonstration : Les permutations de (X1 , . . . , Xn ) ont toutes la meme proba. Il en
r
esulte que le vecteur des rangs est uniform
ement distribu e dans lensemble de toutes
les permutations de {1, 2 . . . , n}.

1 n+1
ERj = (1 + ... + n) =
n 2
varRj = E(Rj2 ) (ERj )2
Demonstration : Les permutations de (X1 , . . . , Xn ) ont toutes la meme proba. Il en
r
esulte que le vecteur des rangs est uniform
ement distribu e dans lensemble de toutes
les permutations de {1, 2 . . . , n}.

1 n+1
ERj = (1 + ... + n) =
n 2
varRj = E(Rj2 ) (ERj )2
12 + ... + n2 (n + 1)2 n(n + 1)(2n + 1) (n + 1)2
= = =
n 4 6n 4

n + 1 2n + 1 n+1

(n + 1)(n 1) 2
n 1
= = =
2 3 2 12 12

Le r
esultat concernant la covariance d
ecoule du fait que la somme des Ri est
constante, ce qui entrane :

Var (R1 + . . . + Rn ) = nVar (R1 ) + 2Cn2 cov (R1 , R2 ) = 0

do`
u le r
esultat.
Corollaire
Soit deux echantillons de taille n1 et n2 issus de la meme loi. La
somme des rangs Sn1 correspondant `a lechantillon 1 verifie les
proprietes suivantes :
1. La loi de Sn1 ne depend pas de la loi m`ere f et suit la loi
appelee loi de Wilcoxon de param`etre (n1 ; n2 )
n1 (n1 +n2 +1)
2. E [Sn1 ] = 2
n1 n2 (n1 +n2 +1)
3. Var [Sn1 ] = 12
4. Si n1 et n2 sont plus grands que 10, on fait lapproximation de
la loi de Sn1 par la loi normale correspondante.

Les points (1) `a (3) se demontrent aisement par le calcul. Le point


(4) nest pas demontre ici.
Loi centree en zero

Proposition
Soit (X1 , . . . , Xn ) un echantillon issu dune loi centree en 0. Soit
(R1 , . . . , Rn ) le vecteur aleatoire des rangs de (|X1 |, . . . , |Xn |), soit
S + la somme des rangs de la serie des termes positifs :
n
X
+
S = Ri 1{Xi >0}
i=1

Sous lhypoth`ese que la loi des Xi est `a densite, alors la loi de S +


est independante de f suis la loi de Wilcoxon pour series appariees.

n(n + 1) n(n + 1)(2n + 1)


E (S+) = Var (S + ) =
4 24
Lorsque n est superieur `a 15, on peut faire lapproximation par la
loi normale correspondante.
Tests de Wilcoxon-Mann-Withney-Contexte

I 2 echantillons independants
I Hypoth`ese nulle H0 les deux echantillons sont issus de la
meme distribution
I Principe : on melange les deux echantillons, on attribue les
rangs et on somme les rangs de chacun des deux echantillons
Sn1 et Sn2
I On connait la loi de loi de Sn1 et Sn2 , on choisit lun des deux
pour statistique de test
Choix de lhypoth`
ese nulle H0 et de lhypoth`
ese
alternative H1

H0 : X1 et X2 ont la meme distribution

H1 Cas bilateral X1 et X2 nont pas la meme distribution


Cas unilateral : X1 et X2 nont pas la meme distribution et les
valeurs de X1 sont superieures aux valeurs de X2 . (On peut bien
s
ur avoir la tendance contraire).
Statistique de test

La statistique de test S est le score de lechantillon qui a le plus


petit effectif.
u min(n1, n2) 10 : cette statistique ne suit pas une loi
1. cas o`
usuelle, mais on trouve les probabilites correspondantes dans
la table de Mann-Whitney/Wilcoxon. Nous donnons la table
pour n1 10 et n2 13. On peut aussi trouver des tables
plus compl`etes sur internet.
Statistique de test

La statistique de test S est le score de lechantillon qui a le plus


petit effectif.
1. cas o`u min(n1, n2) 10, dapr`es le corollaire 1, sous H0 , S
suit approximativement une loi normale et si n1 est le plus
petit effectif :

n1 (n1 + n2 + 1) n1 n2 (n1 + n2 + 1)
S ' N( ; )
2 12
Sinon, on inverse le role des deux effectifs. La statistique de
test est alors la variable centree reduite correspondante.
R
egion critique

cas o` u min(n1, n2) 10, on lit les valeurs Cl et CU utiles pour la


region critique dans la table de Wilcoxon :
1. cas bilateral : [0, Cl ] [Cu ; +[. Ces 2 intervalles etant les plus
grands possibles tels que P(S < Cl ) 0, 025 et
P(S > Cu ) 0, 025. Comme la table de Wilcoxon donne la
fonction de repartition de S il ny a pas de probl`emes pour
trouver Cl . Pour CU , on le choisira le plus petit possible tel
que P(S < CU 1) > 0, 975.
2. cas unilateral `a gauche : [0, Cl ] le plus grand possible tel que
P(S < Cl ) 0, 05
3. cas unilateral `a droite : [Cu ; +[ le plus petit possible tel que
P(S > Cu ) < 0, 05 cest-`a-dire P(S CU 1) 0, 95.
R
egion critique

cas o`u min(n1 , n2 ) 10, on a la region critique habituelle pour


une loi normale centree reduite.
Test de wilcoxon pour series appariees-Contexte

I Series appariees (mesure avant-apr`es), lien familial


I H0 les deux series ont la meme distribution
I On fait la difference entre les paires, on elimine les zeros
(Attention, n change !
I On trie suivant les valeurs absolue
I On compare la somme des scores des deux series S + , S
Test de wilcoxon pour series appariees-Mise en oeuvre

I H0 les deux series ont la meme distribution


I Sous H0 , S + et S ont la meme loi de Wilcoxon pour series
appariees
I Si n 20, on utiles la table
I Si n 20, on fait lapproximation par la loi normale
correspondante.
Exemple

Donnees des tensions arterielles systoliques (en mm hg)


apr`
es traitement actif et apr`es placebo de 27 patients
(exemple fictif)
no patient 1 2 3 4 5 6 7 8 9 10 11
HTA placebo 175 155 170 170 150 170 170 200 150 150 190
HTA traite 175 130 170 150 165 140 150 190 160 150 195
no de patient 12 13 14 15 16 17 18 19 20 21 22
HTA placebo 190 160 175 170 145 150 150 155 170 180 200
HTA traite 160 135 175 150 125 155 140 125 145 160 200
Mise en oeuvre

no de patient 1 2 3 4 5 6 7 8 9 10 11
Diff
erence 0 25 0 20 -15 30 20 10 -10 0 -5
no de patient 12 13 14 15 16 17 18 19 20 21 22
Diff
erence 30 25 0 20 20 -5 10 30 25 20 0
Le test des signes-Principe

I Meme contexte que Wilcoxon pour series appariees


I Principe : compter le nombre de differences positives N + et les
negatives N (n = N + + N )
N + = ni=1 1{Xi >0} , N = ni=1 1{Xi <0}
P P
I

I Loi sous H0 ?
Le test des signes-Principe

I Meme contexte que Wilcoxon pour series appariees


I Principe : compter le nombre de differences positives N + et les
negatives N (n = N + + N )
N + = ni=1 1{Xi >0} , N = ni=1 1{Xi <0}
P P
I

I Loi sous H0 ?
I Sous H0 , N + ' B(n, 1/2)
Retour `a la fonction de repartition empirique

n
1X
Fn (t) = 1{Xi t}
n
i=1

I |Fn (t) F (t)| tend vers 0 p.s.


I Test sur la distribution dun echantillon H0 : Xi ' F0 (t)
I Statistique basee sur |Fn (t) F0 (t)|
Test de Kolmogorov

Contexte, test dajustement H0 : Xi ' F0 (t)

I Statistique de test : Dn = suptR |Fn (t) F (t)|


I Dn = max(Dn+ , Dn )
n (X(m) ) F (X(m) )) = sup
I Dn+ = sup1mn (F m
1mn ( n F (X(m) ))

I Dn = sup1mn (F (X ) F
n (X )) = sup
1mn (F (X(m) )
m1
)
(m) (m) n

I Le max est atteint aux points de discontinuite de Fn


Proposition
On a les propri
et n sous lhypoth`
es 1-4. pour F ese H0
1. Quand n , Dn = suptR |F n (t) F0 (t)| tend vers 0 p.s.
2. La variable al
eatoire
n (t) F0 (t)|
Dn = sup |F (7)
tR

a une loi qui ne d epend pas de la loi m`
ere et nDn converge en loi lorsque n
tend vers linfini :

X 2
P( nDn < t) n 1 2 (1)k1 e 2(kt) (8)
k=1

3. Pour n suffisamment grand, on utilisera donc lapproximation suivante du


quantile dordre (1 ) de Dn :
r
ln(/2) 1
d1 (n) (9)
2n 6n

4. On a aussi les lois asymptotiques pour Dn+ et Dn :

2
P( nDn < t) = P( nDn+ < t) n 1 e 2t (10)

5. sous H1 , on a liminfDn > 0 p.s.


Test de Kolmogorov

I Cas bilateral (H1 F 6= F0 ) : Dn = max(Dn+ , Dn )


I On utilise la table jusqu`a n = 40 puis lapproximation (9)
I H1 F < F0 , (resp H1 F > F0 ), Dn+ (resp. Dn ) est la
statistique de test
I Approximation (10) quand n est grand.
Comparaison de deux echantillons, contexte

I Deux echantillons independants de taille n1 et n2 de loi F1 et


F2
I Statistique de test : Dn ,n = suptR |Fn1 (t) Fn2 (t)|
1 2 1 2
I Dn1 ,n2 = max (Dn+1 ,n2 , Dn1 ,n2 )
 
I Dn+1 ,n2 = max1kn1 k
n1 Fn2 (X(k) )
 
j
I Dn1 ,n2 = max1jn2 n2 Fn1 (Y(j) )
Proposition
Sous H0 : F1 = F2 , la loi de Dn1 ,n2 ne depend pas de la loi m`
ere f mais seulement de
(n1 , n2 ) sa loi est appel
ee loi de Kolmogorov-Smirnov. De plus lorsque les deux tailles
d
echantillons tendent vers +, :

r
n1 n2 X 2
P( Dn1 ,n2 t) 1 2 (1)k1 e 2(kt) (11)
n1 + n2 k=1

Pour n suffisamment grand, on utilisera donc lapproximation suivante du quantile


dordre (1 ) de Dn1 ,n2 :
s
ln(/2)(n1 + n2 ) (n1 + n2 )
d1 (n1 , n2 ) (12)
2n1 n2 6(n1 n2 )
Regression, contexte

I Une variable linteret Y et des covariables (X1 , X2 , . . . , Xp )


I Question : les variables (X1 , X2 , . . . , Xp ) apportent-elles de
linformation sur Y ?
I Objectifs : explication, comprehension, prediction
Mod`ele oui ou non ?

Pour repondre `a la question, on a plusieurs possibilites :


Modeliser le lien entre Y et les covariables.

Y = f (X1 , X2 , . . . , Xp , , )

avec f imposee (mod`ele parametrique) ou non (mod`ele non


parametrique), vecteur de param`etres `a estimer, un bruit.
I Avantages : interpretation des param`etres, mesure des effets,
tests statistiques sur chacun des param`etres
I Inconvenients : la realite peut-etre tr`es eloignee du mod`ele
I Tous les mod`eles sont faux, mais certains sont utiles
Mod`ele oui ou non ?
Pour repondre `a la question, on a plusieurs possibilites :
Modeliser le lien entre Y et les covariables.

Y = f (X1 , X2 , . . . , Xp , , )

avec f imposee (mod`ele parametrique) ou non (mod`ele non


parametrique), vecteur de param`etres `a estimer, un bruit.
I Avantages : interpretation des param`etres, mesure des effets,
tests statistiques sur chacun des param`etres
I Inconvenients : la realite peut-etre tr`es eloignee du mod`ele
I Tous les mod`eles sont faux, mais certains sont utiles
Avoir des m
ethodes plus botes noires (apprentissage)
I Avantages : pas de forme imposee, meilleures predictions
I Inconvenients : temps de calcul, pas dinterpretation possible
Mod`ele oui ou non ?

Pour repondre `a la question, on a plusieurs possibilites :


Modeliser le lien entre Y et les covariables.

Y = f (X1 , X2 , . . . , Xp , , )

I Cette annee mod`ele lineaire simple et/ou multiple


I en M2, mod`eles lineaires generalises
Mod`ele oui ou non ?

Pour repondre `a la question, on a plusieurs possibilites :


Modeliser le lien entre Y et les covariables.

Y = f (X1 , X2 , . . . , Xp , , )

I Cette annee mod`ele lineaire simple et/ou multiple


I en M2, mod`eles lineaires generalises
Avoir des m
ethodes plus botes noires (apprentissage)
I Master 2, apprentissage, methode de K-means, arbre de
classification, forets aleatoires
Mod`ele de regression lineaire simple

Y , X variables quantitatives `a valeurs dans R. On observe n


couples (Yi , xi )

Yi = 0 + 1 xi + i pour i = 1, , n (13)

I xi valeur de la covariable, supposee deterministe


I = (0 , 1 ) param`etre du mod`ele ( R2 )
I i bruit sur lequel on fait des hypoth`eses (a minima E(i ) = 0)
I E(Yi |xi ) = 0 + 1 xi
I Les Yi ne sont pas i.i.d. !
Hypoth`eses

Yi = 0 + 1 xi + i pour i = 1, , n

I E(i ) = 0 et les xi deterministes


I Var (i ) = 2 , hypoth`ese dhomocedasticite
I (i )(1in) sont independants
I Mod`ele gaussien : i ' N (0, 2 ) et independants
Objectifs

Yi = 0 + 1 xi + i pour i = 1, , n
I Estimer les param`etres = (0 , 1 ) et 2
I Interpreter 1
I Tester linteret du mod`ele, ici 1 = 0
I Donner des intervalles de confiance pour 0 , 1 ,
E(Yi |xi ) = 0 + 1 xi
I Donner une prevision et un intervalle de prevision pour une
nouvelle variables inconnue Yn+1 si on connat la valeur de la
covariable xn+1
Estimation

Yi = 0 + 1 xi + i pour i = 1, , n
Notations
I estimateur de (`a determiner !)
I Valeur predite pour Yi par le mod`ele : Yi = 0 + 1 xi
I Vecteurs Y = (Y1 , . . . , Yn )t Y = (Y1 , ..., Yn )t
I Residus du mod`ele : i = Yi Yi
I Vecteur des residus : = (1 , ..., n )t = Y Y
Estimation

Yi = 0 + 1 xi + i pour i = 1, , n
Notations
I estimateur de (`a determiner !)
I Valeur predite pour Yi par le mod`ele : Yi = 0 + 1 xi
I Vecteurs Y = (Y1 , . . . , Yn )t Y = (Y1 , ..., Yn )t
I Residus du mod`ele : i = Yi Yi
I Vecteur des residus : = (1 , ..., n )t = Y Y
Principe des moindres carr
es
n
X n
X
= arg min ||
||2 = arg min 2i = arg min (Yi (0 +1 xi ))2 .
Rk Rk i=1 Rk i=1
Estimateur des moindres carres

Proposition
Lestimateur des moindres carres est donne par
Pn n
xi Yi n
xn Y cov (x,Y )
1 = Pi=1
n
x 2 n(
x )2 = 2
sxn
i=1 i n
(14)
0 = Yn 1 xn
Estimateur des moindres carres

Proposition
Si le mod`
ele est gaussien,
1. = (0 , 1 ) est un estimateur sans biais de ,

2. La matrice de covariance de d efinie par

Var (0 ) Cov (0 , 1 ))

=
Var ()
Cov (1 , 0 ) Var (1 ))

est donn
ee par :

2
!
2
P
i=1 xi
= P
Var () n

xn (14)
n )2
i=1 (xi x
xn 1

tend vers 0, lestimateur est consistant.


3. Si Var ()
4. Th
eor`
eme de Gauss-Markov De tous les estimateurs sans biais de de la forme
eaire, est de variance minimale.
BY ou B est la matrice dune application lin
Estimateur de la variance des erreurs

i ' N (0, 2 )
Estimateur de la variance des erreurs

i ' N (0, 2 )

Definition
On definit lestimateur de 2 par lequation suivante
n
1 X ||Y Y ||2
2
= i
( n )2 = (15)
n2 n2
i=1
Estimateur de la variance des erreurs

i ' N (0, 2 )

Proposition
Sous lhypoth`ese gaussienne, les estimateurs et 2 verifient :
1. et n2
n 2 sont aussi les estimateurs du maximum de
vraisemblance de (, 2 ).
2. et
2 sont independants et de lois respectives
n2 2
' N (, Var ())
=' 2 (n 2)

2
Decomposition de la variance

n
X n
X
n )2
(Yi Y = i + Y
(Yi Y i Y
n )2
i=1 i=1
Xn n
X n
X
= i )2 +
(Yi Y i Y
(Y n )2 + 2 i )(Y
(Yi Y i Y
n )
i=1 i=1 i=1
| {z }
=0
SCT = SCR + SCM
Decomposition de la variance

n
X n
X
n )2
(Yi Y = i + Y
(Yi Y i Y
n )2
i=1 i=1
n
X n
X n
X
= i )2 +
(Yi Y i Y
(Y n )2 + 2 i )(Y
(Yi Y i Y
n )
i=1 i=1 i=1
| {z }
=0
SCT = SCR + SCM

I SCT : somme des carres totale


I SCM somme des carres expliques par le mod`ele
I SCR somme des carres des residus
Pn 2
i=1 (Yi Yi ) SCR
I 2 =
n2 = n2
Decomposition de la variance

n
X n
X
n )2
(Yi Y = i + Y
(Yi Y i Y
n )2
i=1 i=1
n
X n
X n
X
= i )2 +
(Yi Y i Y
(Y n )2 + 2 i )(Y
(Yi Y i Y
n )
i=1 i=1 i=1
| {z }
=0
SCT = SCR + SCM

Pn
2 (Yi Yn )2 SCM
R = Pni=1 2
= (16)
i=1 (Yi Yn ) SCT
Coefficient de determination : part de variance expliquee par le
mod`ele
Proprietes

Proposition
Sous le mod`ele gaussien, sous lhypoth`ese nulle H0 , on a
SCT SCM
2
' 2 (n 1) 2
' 2 (1)

SCR
2
' 2 (n 2) SCM
SCR

SCM
F = SCR /(n2) ' F(1, n 2)

u F(1, n 2) est la loi de Fischer-Snedecor .


o`
Definition
Y et Z deux v.a. r ependantes telles que Y 2 (d1 ) et Z 2 (d2 )
eelles ind
Y /d1
Alors la variable T = suit une loi continue appel
ee loi de Fischer-Snedecor `
a
Z /d2
(d1 , d2 ) degr
es de liberte.
Test H0 1 = 0

H0 : 1 = 0 contre H1 : 1 6= 0.

I Statistique de test ?
I Loi sous H0 ?
Test H0 1 = 0

H0 : 1 = 0 contre H1 : 1 6= 0.

I Statistique de test :
1 1 (1 1 ) n2
Tn = q P =
xn )2
P
2 / xn )2 ( SCR/ i=1 (xi
i=1 (xi

I Loi sous H0 : loi de Student `a (n 2) degres de liberte


Intervalles de confiance

Intervalle de confiance `a (1 )% du param`etre inconnu 1 :


" s s #

2
2
(n2) (n2)
1 t1/2 P ; 1 + t1/2 P
n )2
i=1 (xi x n )2
i=1 (xi x
Intervalles de confiance

Intervalle de confiance `a (1 )% du param`etre inconnu 1 :


" s s #

2
2
(n2) (n2)
1 t1/2 P 2
; 1 + t1/2 P
i=1 (x i x
n ) n )2
i=1 (xi x

Intervalle de confiance pour E(Yi |xi ) = 0 + 1 xi donne par


s Pn
2 2 2
(xi + j=1 xj /n 2xi xn )

0 + 1 xi t (n2)
1/2 2
P
i=1 (xi x
n )
Intervalles de prediction

Intervalle de prediction de niveau (1 ) pour la variable aleatoire


Yn+1 connaissant xn+1 : a ete estime grace aux (Yi , xi )(1in)

p
I Prediction Yn+1 pour Yn+1
I Loi de Yn+1 Y pn+1
I Intervalle de prediction
Intervalles de prediction

Intervalle de prediction de niveau (1 ) pour la variable aleatoire


Yn+1 connaissant xn+1 : a ete estime grace aux (Yi , xi )(1in)

p
I Prediction Yn+1 = 0 + 1 xn+1
I Loi de Yn+1 Y p = n+1 x 0
n+1
)
n+1 (

2 + nj=1 xj2 /n 2xn+1 xn


P
(xn+1
p ' N (0, Var (0 +1 xn+1 +n+1 ) = N (0, 2 (1+
Yn+1 Y Pn
n+1
i=1 (xi xn )2

I Intervalle de prediction
s
2 + nj=1 xj2 /n 2xn+1 xn )
P
p (xn+1
Yn+1 tn2; 2 2 (1 +
Pn )
i=1 (xi xn )2
Regression Lineaire Multiple

Yi = 0 + 1 xi1 + 2 xi2 + + k1 xi k1 + i pour i = 1, , n

I xij , j = 1, , k 1, valeur prise par la j `eme variable sur


lindividu i
I j , j = 1, , k 1, coefficient de regression de la j `eme
variable explicative,
I 0 terme constant,
I i erreurs de specification (inconnues et aleatoires)
Regression Lineaire Multiple

Yi = 0 + 1 xi1 + 2 xi2 + + k1 xi k1 + i pour i = 1, , n

Y = X + (17)
Y1 0 1

Y2 1 2
Y = . ; = .. ; = .. ;

.. . .
Yn k1 n
1 x11 x12 x1

k1
1 x21 x22 x2 k1

. .. .. .. ..

.

X = . . . . .

1
xt1 xt2 xt k1



1 xn1 xn2 xn k1
Hypoth`eses

Yi = 0 + 1 xi1 + 2 xi2 + + k1 xi k1 + i pour i = 1, , n

I E(i ) = 0 et les xi deterministes


I Var (i ) = 2 , hypoth`ese dhomocedasticite
I (i )(1in) sont independants
I Mod`ele gaussien : i ' N (0, 2 ) et independants
I Rang(X ) = k, (X 0 X )1 existe
Estimateur des moindres carres

Y = X +
i = Yi Yi = (1 , ..., n )t = Y Y = Y X (18)

Definition
On appelle estimateur des moindre carres du param`etre la valeur
de qui minimise la somme des carres des residus :
n
X
= arg min ||
||2 = arg min 2i = arg min ||Y X ||2 .
Rk Rk i=1 Rk
Estimateur des moindres carres

Y = X +
i = Yi Yi = (1 , ..., n )t = Y Y = Y X (18)

Definition
On appelle estimateur des moindre carres du param`etre la valeur
de qui minimise la somme des carres des residus :
n
X
= arg min ||
||2 = arg min 2i = arg min ||Y X ||2 .
Rk Rk i=1 Rk

Sous H1 et H5, il est donne par :

= (X 0 X )1 X 0 Y (19)
Proposition
Sous les hypoth`
eses H1 et H5,
1. est un estimateur sans biais de ,
2. La matrice de covariance de est donn
ee par :

= 2 (X 0 X )1 ,
Var ()

3. Th
eor`
eme de Gauss-Markov De tous les estimateurs sans biais de de la forme
eaire, est de variance minimale.
BY ou B est la matrice dune application lin
0
4. Sous H1-3, 5 alors si (X X )1 tend vers 0 avec n, lestimateur est consistant.
eses H1-3,5, si ||X || n 0, et Y
5. Sous les hypoth` sont asymptotiquement
gaussiens
eses H1-3,5, si ||X || n 0, Y
6. Sous les hypoth` i (X )i converge vers 0 en
moyenne quadratique donc en probabilit e
Estimation de la variance

n
1 X ||Y Y ||2
2 =
i
( n )2 = (20)
nk nk
i=1
Remarque On peut d emontrer ais
ement que
||Y Y || = (Y X ) (Y X ) = Y 0 Y 0 X 0 Y
2 0
Estimation de la variance

n
1 X ||Y Y ||2
2
= i
( n )2 = (20)
nk nk
i=1

Proposition
Sous les hypoth`eses H1` a5, les estimateurs et 2 verifient :
1. et nk
n 2 sont aussi les estimateurs du maximum de
vraisemblance de (, 2 ).
2. et
2 sont independants et de lois respectives
nk 2
' N (, 2 (X 0 X )1 ) ' 2 (n k)

2
Preuve

Il est facile de verifier 1. par le calcul.


Pour le point 2, remarquons tout dabord que est une
transformation lineaire du vecteur gaussien Y et reste donc
gaussien
La suite est une nouvelle fois une consequence du theor`eme de
Cochran. En effet ImX () = X ( ) et (ImX ) () = (Y Y )
et ce sont les projections du meme vecteur gaussien sur des sous
espaces orthogonaux, ils sont donc independants.
par transformation deterministe, on obtient lindependance de et
||2
de 2 = ||Ynk
Y
le theor`eme de Cochran nous donne la loi de 2
une fois remarque que dimImX = n k.
Test sur les coefficients du mod`ele

I H0 : j = 0
I H0 : C = c avec C matrice r k de rang r k et c un
vecteur r 1
Test sur les coefficients du mod`ele

I H0 : j = 0
I H0 : C = c avec C matrice r k de rang r k et c un
vecteur r 1
I Exemples
I H 0 : j = 0
I 1 = 2 = . . . = k1 = 0
I kl = kl+1 = . . . = k1 = 0
Test sur les coefficients du mod`ele

I H0 : j = 0
I H0 : C = c avec C matrice r k de rang r k et c un
vecteur r 1
I Test
I Loi de C ?
I Statistique de test ?
Test sur les coefficients du mod`ele

I H0 : j = 0
I H0 : C = c avec C matrice r k de rang r k et c un
vecteur r 1
I Test
I Sous H0 : C c ' N (0, 2 C (X 0 X )1 C 0 )
I
(C c)t (C (X 0 X )1 C 0 )1 (C c)
' 2 (r )
2
I
(C c)t (C (X 0 X )1 C 0 )1 (C c)/r
F = ,
2

loi de Fischer-Snedecor F(r , n k)
Region de confiance

Ellipsode de confiance de (C c)
(le plus souvent utilis
ee pour C = Idk )

(C c)t (C (X 0 X )1 C 0 )1 (C c)/r
E .C .1 = {c Rr : f1 (r , n k)}
2

(21)
Quelques tests

Corollaire
1. Sous H0 : j = j0 ,

(j j0 )2 2
F = = tnk ' F (1, n k)
2 [(X 0 X )1 ]j+1,j+1

et ce test est equivalent `a

(j j0 )
T = p ' T (n k)
[(X 0 X )1 ]j+1,j+1

2. Sous H0 : = 0k ,

0 (X 0 X )/k

F = ' F (k, n k)
2

Autre vision du test dun sous-mod`ele
I Test du mod`ele complet contre mod`ele H0 : C =c
I On cherche un estimateur c verifiant la contrainte C = c.
I R c avec Y
esidus sous H0 , c = Y Y c = X c ,
I Methode des moindres carr
es Yc = V
V sous espace de ImX engendr e par {X c tel que C c = c}
de dimension (k r ).
I Theor`
eme de Pythagore,

c ||2 = ||Y Y
||Y Y ||2 + ||Y
Y
c ||2

ImX = V A do`
u Rk = V A (ImX ) , gr
ace `
a Cochran

||Y Y ||2 Y
||Y c ||2
2
' 2 (n k) est ind
ependant de 2
' 2 (r )

on obtient donc le test de statistique :
||Y Yc ||2 /r
F = ' F (r , n k) sous H0 : C = c
2

Autre vision du test dun sous-mod`ele
I Test du mod`ele complet contre mod`ele H0 : C =c
I On cherche un estimateur c verifiant la contrainte C = c.
I R c avec Y
esidus sous H0 , c = Y Y c = X c ,
I Methode des moindres carr
es Yc = V
V sous espace de ImX engendr e par {X c tel que C c = c}
de dimension (k r ).
I Theor`
eme de Pythagore,

c ||2 = ||Y Y
||Y Y ||2 + ||Y
Y
c ||2

ImX = V A do`
u Rk = V A (ImX ) , gr
ace `
a Cochran

||Y Y ||2 Y
||Y c ||2
2
' 2 (n k) est ind
ependant de 2
' 2 (r )

equivalent `a
(||Y Yc ||2 ||Y Y ||2 )/r
F = ' F (r , nk) sous H0 : C = c
2

Mod`ele complet contre pas de mod`ele
kl = kl+1 = . . . = k1 = 0

c ||2 ||Y Y
(||Y Y ||2 )/r
F = 2
' F (r , n k) sous H0 : C = c


c = Y
Or, sous H0 : kl = kl+1 = . . . = k1 = 0, Y n

n ||2 = ||Y Y
||Y Y ||2 + ||Y
Y
n ||2
| {z } | {z } | {z }
=SCT =SCR =SCM

(SCT SCR)/k 1 SCM/k 1


F = = ' F (k 1, n k) sous H0
SCR/n k SCR/n k
Tableau danalyse de variance

Source de Degres de Somme Moyenne F


variation libert
e des carr
es des carr
es

R
egression k 1 Y
SCM = ||Y n ||2 MC0 = SCM MCM
X k1 MCR
=
(Yi Y )2

R
esiduelle nk ||2
SCR = ||Y Y 2 =
MCR = SCR
X nk
= i )2
(Yi Y
X
Totale n1 SCT = (Yi y )2
0
= Y Y ny2
Coefficient de determination

||Y Yn ||2 SCM var expliquee par le mod`ele


R2 = 2
= =
||Y Yn || SCT Var totale
Ce coefficient ne tient pas compte de la dimension du mod`ele aussi
on definit le coefficient de determination ajuste :

(n 1)SCR/(n k)
Ra2 = 1
SCT
Intervalle de prevision
Intervalle de prevision

p
I Yn+1 0
= xn+1
I x 0 ' N (x 0
n+1 k+1 ,
2)

p
I Yn+1 Yn+1 ' N (0, 2 (1 + x0 (X 0 X )1 xn+1 ))
p
Yn+1 Y
I 0
n+1
' Student(n k)

(1+xn+1 (X 0 X )1 xn+1 )
I Intervalle de prevision de niveau (1 )
q
p
Yn+1 tnk; 2 0
1 + xn+1 (X 0 X )1 xn+1