Académique Documents
Professionnel Documents
Culture Documents
0.6
0.7
0.8
0.9
0.10
0.5.6 Estimateur bootstrap parametrique de l'erreurstandard : : : : : : : : : : : : : : : : : : 18 0.5.7 Avant le bootstrap : : : : : : : : : : : : 19 Exemple d'utilisation : : : : : : : : : : : : : : : 20 0.6.1 L'analyse factorielle : : : : : : : : : : : : 20 0.6.2 Pourquoi une acp? : : : : : : : : : : : : 21 0.6.3 Le bootstrap : : : : : : : : : : : : : : : : 22 0.6.4 Et les vecteurs propres : : : : : : : : : : 25 Structures de donnees plus complexes : : : : : : 27 0.7.1 Generalites : : : : : : : : : : : : : : : : 27 0.7.2 Deux echantillons : : : : : : : : : : : : : 28 0.7.3 Bootstrap : : : : : : : : : : : : : : : : : 29 0.7.4 Structures de donnees plus generales : : : 31 0.7.5 Exemple : serie chronologique : : : : : : : 32 0.7.6 Comment utiliser le bootstrap? : : : : : : 33 Regression lineaire : : : : : : : : : : : : : : : : 36 0.8.1 Presentation du probleme : : : : : : : : : 36 0.8.2 modele probabiliste : : : : : : : : : : : : 37 0.8.3 Bootstrap : : : : : : : : : : : : : : : : : 38 0.8.4 bootstrap par paires ou par residus? : : : 40 Estimation du biais : : : : : : : : : : : : : : : : 41 0.9.1 Presentation du probleme : : : : : : : : : 41 0.9.2 Exemple : les patchs : : : : : : : : : : : : 42 0.9.3 Bootstrap : : : : : : : : : : : : : : : : : 43 0.9.4 Loi des grands nombres : : : : : : : : : : 45 Le Jacknife : : : : : : : : : : : : : : : : : : : : 46 0.10.1 Presentation : : : : : : : : : : : : : : : : 46 0.10.2 Estimation Jacknife du biais : : : : : : : 47
0.10.3 Exemple : tests etudiants : : : : : : : : : 0.10.4 Relation bootstrap et jacknife : : : : : : : 0.10.5 Problemes du jacknife : : : : : : : : : : : 0.10.6 D-jacknife : : : : : : : : : : : : : : : : : 0.11 Intervalles de con ance et Bootstrap : : : : : : : 0.11.1 Intervalle \normalise" : : : : : : : : : : : 0.11.2 Intervalle \t-Studentise" : : : : : : : : : : 0.11.3 Intervalle \t-bootstrape" : : : : : : : : : 0.11.4 Exemple : souris : : : : : : : : : : : : : : 0.11.5 Transformations : : : : : : : : : : : : : : 0.11.6 Intervalle des percentiles : : : : : : : : : 0.11.7 Intervalle accelere et non-biaise : : : : : : 0.12 Tests de permutation : : : : : : : : : : : : : : : 0.12.1 Historique : : : : : : : : : : : : : : : : : 0.12.2 Exemple : les souris : : : : : : : : : : : : 0.12.3 L'idee : : : : : : : : : : : : : : : : : : : 0.12.4 Calcul de la statistique par test de permutation : : : : : : : : : : : : : : : : : : : 0.12.5 Un autre exemple : : : : : : : : : : : : :
48 49 50 51 52 52 54 55 56 57 58 60 62 62 63 64 66 68
Les Souris. Temps de survie en jours apres une intervention chirurgicale. Groupe Donnees Traitees 94 197 16 38 99 141 23 Contr^le 52 104 146 o 10 51 30 40 27 46 Moyenne Erreur-standard 86.86 25.24 56.22 30.63
r
14.14 28.93
x = i=1 xi=n
Qu'est ce qui ce passe si on veut comparer les 2 groupes par leur mediane?
{ n iid x = (x1 x2 : : : xn) { on est interesse par une statistique s(x) { on tire B echantillons xb = (x1 x2 : : : xn) ou chaque x est constitue en tirant avec remise n valeurs parmi les xi. exemple: x = (x7 x1 x7 x3 : : : x4) { on calcule chaque valeur s(xb ) pour chaque bootstrap. { on calcule :
B X
S( X*2 ) S( X*1 )
*1 X
*2 X
*B X
X = (X1, X2 , . . . X ) n
donnees
Quelques rappels
Population U : U1 U2 : : : UN de taille N . un echantillon de taille n est un ensemble de n individus u1 u2 : : : un selectionnes au hasard parmi les individus de U. en pratique on tire n entiers au hasard j1 j2 : : : jn entre 1 et N chacun ayant une probabilite 1=N d'^tre tire. On admet les e remises. a chaque ui on associe des mesures notees xi, la collection x = (x1 x2 : : : xn) represente les donnees observees si on avait toute la population on obtiendrait un recensement X = (X1 X2 : : : XN )
Quelques rappels
Quelques rappels
{ Population : 82 ecoles americaines. { LSAT : moyenne sur le test national. { GPA : moyenne des moyennes a la sortie. { on tire un echantillon de 15 ecoles. { Comment a partir de l'echantillon conna^tre la population?
3.4
3.4
o o
o o o
o o o o o o o o
2.8
2.8
2.6
2.6
500
550
600 LSAT
650
700
Estimateur \Plug-in"
On a une Fonction de distribution a partir de laquelle on tire un echantillon x F ! x = (x1 x2 : : : xn) ^ La Fonction de distribution Empirique F donne a chaque valeur xi la probabilite 1=n. En d'autres termes : d ProbfAg = ProbF fAg = #fxi 2 Ag=n c Exemple :
A = f(y z ) : 0 < y < 600 0 < z < 3:00g Prob(A) = 16=82 = 0:195 ProbF fAg = 5=15 = 0:333 c
Estimateur \Plug-in"
Si on regarde toute la population : on conna^t exactement les esperances des deux variables et on peut calculer LA statistique corr(y z ) =
= 597:5 et
= 3:13
corr(y z ) = 0:761 Ce n'est que de l'arithmetique ! Mais le coe cient de correlation de l'echantillon :
d corr(
y z) =
^ y = 600:3 et ^ z = 3:09
d corr(y z ) = 0:776 Ce n'est qu'une estimation de corr(y z ) !
Estimateur \Plug-in"
{ Le param^tre: = t(F ) e C'est une fonction de la distribution de probabilite. ^ { L'estimateur \plug-in" : ^ = t(F ) ^ C'est la m^me fonction utilisee pour F que pour F . e ^ = resume statistique = la statistique = l'estimateur = LA sortie d'un listing Oui , mais comment ^ approche-t-il { Quel est le biais? { Quelle est l'erreur \standard"?
Erreurs standards
10
= EF (x)
2 F
= varF (x) = EF (x ;
F
2 F)
2 F) ]
On tire un echantillon x de taille n a partir de F, F ! x = (x1 x2 : : : xn) La moyenne x = Pn=1 xi=n de l'echantillon a pour esperance i 2 =n et pour variance F 2 x ( F F =n) l'erreur-standard de la moyenne x : seF (x) = se(x) = varF (x) =
r
x (
F =n
Erreurs standards
11
Quand n est \assez grand", x suit une loi Normale d'esperance 2 F et de variance =n. En d'autres termes :
x N(
n)
Probfjx ; Probfjx ;
Fj <
: j < 2 pn g = 0:954 F
: pn g = 0:683
95.4% 68.3%
1/2 F -2 F/n
F- F/n1/2
F+ F/n1/2
F +2 F/n
1/2
Erreurs standards
12
ProbF fx = 1g = p et ProbF fx = 0g = 1 ; p On tire n fois la piece, soit s le nombre de fois ou on tire \pile" s = Pn=1 xi suit une binomiale. i ^ la moyenne x = s=n = p est l'estimateur \plug-in" de p.
p = (p p(1 ; p)=n) ^
0.25
o
0.20
o o p=0.90 o o o o p=0.25 o
0.05
o o o o o o o o 0.2 o o o o o o o o o o o o o o o o o o o 0.0
0.0
o 0.8
o 1.0
0.4 x
0.6
13
On veut estimer un param^tre = t(F ) a partir de x e On calcule un estimateur ^ = s(x) ^ F est la fonction de distribution qui donne la probabilite 1=n a chaque xi ^ on tire des echantillons Bootstrap a partir de F ^ F ! xb = (x1 x2 : : : xn) on calcule la copie bootstrap ^ = s(x ) l'estimation bootstrap ideale de l'erreur-standard seF ( ^) est l'erreur-standard de ^ pour des ensembles de donnees de taille ^ n tires suivant F , c'est-a-dire seF ( ^ ) ^
14
Algorithme d'estimation des erreurs-standards 1. Tirer B echantillons bootstrap x 1 x 2 : : : 2. calculer la copie bootstrap ^ (b) = s(x b) 3. calculer l'erreur-standard pour les B copies
B X
x B a partir de x
l'estimation bootstrap non-parametrique de l'erreur-standard seB a pour limite seF ( ^) quand B tend vers l'in ni. ^
15
Distribution Empirique
X *1
* (1) = S (X*1 )
X *2 X *3
^ F
X *b * (b) = S (X*b )
X *B
* (B) = S (X*B)
1/2 2
Se
B-1
ou
^ * (.) =
B b=1
^ * (b)
B
16
0.5.4 un exemple
300
200
100
0.0
0.2
0.8
1.0
0
0.0
100
200
300
1.0
25 50 100 200 400 800 1600 3200 seB : 0.140 0.142 0.151 0.143 0.141 0.137 0.133 0.132 ^
B:
17
COMBIEN DE BOOTSTRAP?
Ca depend !
Regles \pifometriques" { B=25 a B=50 : pour obtenir un debut d'information. { B=200 : pour estimer l'erreur-standard. { B=500 : pour l'evaluation d'intervalles de con ance.
18
^ On suppose qu'on a une estimation Fpar d'un modele parametrique de F. l'estimateur Bootstrap parametrique de l'erreur-standard est seFpar ( ^ ) ^ Exemple : les ecoles. On suppose que les 2 variables suivent une loi binormale de moyenne (y z ) et de matrice de covariance : 1 B P(yi ; y)2 P(yi ; y )(zi ; z ) C BP C @ A P 2 (zi ; z ) 14 (yi ; y)(zi ; z ) On tire B echantillons de taille 15 qui suivent cette loi et on calcule les copies bootstrap, puis l'estimateur bootstrap de l'erreurstandard.
0 1
19
AVANT LE BOOTSTRAP
{ QUE DES MATHS ! { Quelques distributions { Quelques statistiques { Exemple : la correlation. Si F est un loi bi-normale alors senormal = (1 ; ^ corr2)= ^
n;3
AVEC LE BOOTSTRAP
{ QUE DES CALCULS INFORMATIQUES ! { On est libre des hypotheses { On est plus pres des donnees
Exemple d'utilisation
20
88 etudiants ont passe 5 examens en mathematiques. Matrice de donnees : 88 lignes xi = (xi1 xi2 xi3 xi4 xi5) et 5 colonnes. moyenne empirique x = (38:95 50:59 50:60 46:68 42:31) matrice empirique de covariance : G Calcul des 5 valeurs propres de G : ^ 1 = 679:2 ^ 2 = 199:8 ^ 3 = 102:6 ^ 4 = 83:7 ^ 5 = 31:8
Exemple d'utilisation
21
Si il existe une seule valeur Qi pour chaque etudiant qui pourrait le \resumer" et 5 valeurs v = (v1 v2 v3 v4 v5) avec alors seul ^ 1 est positif, les autres sont nuls.
5 ^ = ^ 1= X ^ i
^ est-il
egal a 1?
^ = 0:619
Exemple d'utilisation
22
0.6.3 Le bootstrap
LE BOOTSTRAP
Chaque echantillon bootstrap sera une matrice X de 5 colonnes et 88 lignes tiree au hasard parmi les xi. On calcule G On calcule les 5 valeurs propres : ^ i On calcule : ^ = ^ 1= P5=1 ^ i i
Exemple d'utilisation
23
10
20
30
0.50
0.55
0.60 QI
0.65
0.70
0.75
Exemple d'utilisation
24
= 0:625 se200 = 0:047 ^ L'intervalle de con ance standard pour la vraie valeur de avec une probabilite (1 ; 2 ) est : ou z (1; ) est le 100(1 ; )-ieme percentile de la loi normale centree reduite. Ici :
2 ^ z(1; ):se ^
2 0:619 0:047
= 0:572 0:666] avec une probabilite 0:683 avec une probabilite 0:900
Exemple d'utilisation
25
-0.5
0.0
0.5
Exemple d'utilisation
26
1.0
0.5
0.0
-0.5
-1.0
1 Composante
-1.0
1
-0.5
0.0
0.5
1.0
3 Composante
27
Distribution Empirique
Echantillon Bootstrap
X = (X 1 , X 2, ,. . . X n)
* * * * X = (X 1 , X 2, ,. . . X n)
^ = S( X )
* ^* = S( X )
Interet de la Statistique
Copie Bootstrap
{ Le Point Crucial : =) ^ { Comment calculer une estimation F de F a partir des donnees x? { On note :
28
DEUX ECHANTILLONS
Les souris Soit F la distribution des valeurs pour le groupe traite Soit G la distribution des valeurs pour le groupe de contr^le o
z = (z1 z2 : : : zm) les valeurs du groupe traite y = (y1 y2 : : : yn) les valeurs du groupe de contr^le o x = (z y)
c'est
P = (F G)
P ;! x F ;! z independamment de G ;! y
29
0.7.3 Bootstrap
BOOTSTRAP
{ echantillons bootstrap ou (i1 i2 : : : i7) est un echantillon de taille 7 tire parmi les entiers 1,2,: : : ,7 et (j1 j2 : : : j9) est un echantillon de taille 9 tire parmi les entiers 1,2,: : : ,9 independamment. { param^tre : = z ; y = EF (z ) ; EG(y) e { statistique : ^ = ^ z ; ^ y = z ; y = 30:63 { copie bootstrap = z ; y { estimation bootstrap de l'erreur-standard : se1400 = 26:85 ^ { rapport : ^=se1400 = 1:14 trop petit pour conclure a un e et ! ^
x = (z y ) = (zi zi : : : zi zj zj : : : zj )
1 2 7 1 2 9
30
-50
100
31
X = (X 1 , X 2, ,. . . X n)
^ P
* * * * X = (X 1 , X 2, ,. . . X n)
^ = S( X )
^* =
* S( X )
Interet de la Statistique
Copie Bootstrap
1. On doit estimer le modele probabiliste P a partir des donnees x: ^ 2. On doit simuler des donnees bootstrap x a partir de P : ^ P ;! x ^ x =) P
32
hormone
1.5
0
2.0
2.5
3.0
3.5
10
20 periode de temps
30
40
{ A chaque temps t on mesure une hormone yt { modele le plus simpliste : auto-regressif d'ordre 1. zt = yt ; EF (y) = yt ; AR(1) : zt = zt;1 + tpour1 < t 48 avec ; 1 < < 1 { les t sont un echantillon tire d'une loi de distribution F F ;! ( 2 3 : : : 48) avec EF ( ) = 0.
33
{ Estimation du param^tre . e { exemple : par les moindres carres. X ^= min 48(zt ; bzt;1)2
b 2
{ Precision de l'estimateur ^ ??? { bootstrap { Quel est le modele probabiliste P ?? { P = ( F) ^ { Estimation de : x =) P { on estime par ^. ^ { soit ^t = zt ; ^zt;1 F de nit une probabilite 1=47 sur chaque ^t = zt
^ = 0:586
34
^ { Tirage du bootstrap : P ;! x { On pose z1 = y1 ; y C'est une constante comme n=48 ! ^ { On tire les t a partir de F : ^ F ;! ( 2 3 : : : 48) { On pose : z2 = ^z1 + 2 z3 = ^z2 + 3 .. .. z48 = ^z47 + 48 { Pour chaque bootstrap on calcule ^
30 0 5 10 15 20 25
0.4
0.8
1.0
35
50
40
30
20
10
0.4
0.6
0.8
1.0
1.2
0
-0.6
10
20
30
40
50
-0.4
-0.2
0.0
0.2
Premier coefficient
Deuxieme coefficient
Regression lineaire
36
c = i=1 cij
p X
c C= c cn ^ = (CT C);1CT y
b i=1
0 1 B 1C B C B B 2C C B C B B . C B . C C B C B C @ A
Regression lineaire
37
modele probabiliste
i i
Modele : yi = ci + alors :
2 F
= varF ( ) et G = CT C
se( ^j ) =
estimation
Gjj
Regression lineaire
38
0.8.3 Bootstrap
bootstrap
1. mecanisme probabiliste: P ;! x. 2 composantes : P = ( F ) ^ ^ 2. estimation de P x =) P { estimation de ^ { Soit ^i = yi ; ci ^ ^ F : probabilite 1=n sur chaque ^i ^ ^ P = (^ F)
5. estimation bootstrap de l'erreur-standard : var( ^ ) = (CT C);1CT var(y )C(CT C);1 2 = ^F (CT C);1
Regression lineaire
39
c'est le m^me! e
Regression lineaire
40
1. par paires :
c2 ^ + ^i ) : : : (cn cn ^ + ^in )g
2
Estimation du biais
41
ESTIMATION DU BIAIS
{ Une fonction de distribution inconnue : F F ! x = (x1 x2 : : : xn) { Param^tre : = t(F ) e { Estimateur : ^ = s(x) { biais : biaisF ( ^ ) = EF s(x)] ; t(F ) { L'estimation bootstrap du biais : ^ biaisF = EF s(x )] ; t(F ) ^ ^ Remarques : ^ { t(F ) peut ^tre di erent de ^ = s(x) e { biaisF est l'estimateur \plug-in" de biaisF . ^ { En pratique : { on tire B bootstrap { approximation de biaisF par : ^ { ^ (b) = s(x ) { ^ (:) = PB=1 ^ (b)=B b ^ { biaisB = ^ (:) ; t(F )
Estimation du biais
42
Nouveau \patch" medical pour infuser une hormone dans le sang. La compagnie a deja un ancien \patch".
0:20 z =vieux-
Estimation du biais
43
0.9.3 Bootstrap
BOOTSTRAP
^ =y
-0.2
0.0 Rapport
0.2
0.4
se400 = 0:105 ^
^ biais400=se400 = 0:041 < 0:25 ^
Estimation du biais
44
Estimation du biais
45
Loi des grands nombres : seB ^ ProbF fj ^ (:) ; EF f ^ gj < 2 pB g = ^ ^ ^ ^ ^ pB : ProbF fjbiais400 ; biais1j < 2 seB g = 0:95 ^ en ayant : seB = 0:105 et B = 400 on a: ^
Le Jacknife
46
0.10 Le Jacknife
0.10.1 Presentation
Le Jacknife
47
^(i)=n
^(:))2 ]1=2
Le Jacknife
48
0.45
0.50
0.55
0.60 jackknife
0.65
0.70
0.75
0.45
0.50
0.55
0.65
0.70
0.75
0.45
0.50
0.55
0.60 bootstrap
0.65
0.70
0.75
Le Jacknife
49
1 { Cas d'une statistique lineaire : ^ = + n P (xi). Exemple : moyenne (xi) = xi = 0 Dans ce cas les erreurs-standard sont egales a un facteur (n ; 1)=n)]1=2 pres.
Le Jacknife
50
PROBLEMES DU JACKKNIFE
{ Jacknife marche bien si la statistique est \lisse" ! Exemple : mediane { groupe de contr^le des souris : o 10 27 31 40 46 50 52 104 146 { Valeurs jackknife : 48 48 48 48 45 43 43 43 43 { ^ biaisjack = 6:68 { ^ biais100 = 9:58
Le Jacknife
51
0.10.6 D-jacknife
D-JACKKNIFE
r ^ biaisjack = d X( ^(i) ; ^(:))2 ]1=2 Cn
On enleve d observations au lieu d'une seule, avec n = r:d estimation de l'erreur-standard : Pour que ca marche pour la mediane il faut que
52
Intervalle \normalise" : { F ! x = (x1 x2 : : : xn) { Param^tre : = t(F ) e ^ { Estimateur : ^ = t(F ) { on conna^t un estimateur se de l'erreur-standard de ^. ^ { dans beaucoup de circonstances, on applique la loi des grands nombres : ^; Z = se N (0 1) ^ En d'autres mots , si z ( ) est 100. ieme percentile de la loi N (0 1 :
^; se ^
53
54
^; Z = se tn;1 ^ avec tn;1 suit une loi de Student a n ; 1 degres de liberte. { Quand n est grand, tn;1 ressemble etrangement a N (0 1). { Meilleur approximation dans le cas de petits echantillons.
Exemple : souris : ^ = 56:22 se = 13:33 ^ Intervalle de con ance \studentise" a 90 % : 56:22 1:86 13:33 = 31:22 81:01]
55
Intervalle \t-bootstrape" : { Se liberer des hypotheses de normalite ! { Contruire une table de Z a partir des donnees . { Calcul : { generation de B bootstraps. { Calcul de : ^ (b) ; ^ Z (b) = se (b) ^ ^ { le ieme percentile de Z (b) est estime par la valeur t( ) tel que : ^ #fZ (b) t( )g=B = exemple : B = 1000 . 5 % ! 50ieme valeur 95 % ! 950ieme valeur { Intervalle de con ance : ^ ; t(1; ) se ^ ; t( ) se] ^ ^ ^ ^
56
t8
-1.86 -1.40 -1.10 0.00 1.10 1.40 1.86 -1.65 -1.28 -0.99 0.00 0.99 1.28 1.65 -4.53 -2.01 -1.32 -0.025 0.86 1.19 1.53
Intervalle normalise : 34:29 78:15] Intervalle studentise: 31:22 81:01] Intervalle t-bootstrape : 35:82 116:74] Problemes : { symetrie de la distribution de la statistique. { Marche bien pour les statistiques de localisation. { estimation de se (b)?? -> double bootstrap ! ^ { eratique si n est petit.
57
0.11.5 Transformations
TRANSFORMATIONS
On peut obtenir des intervalles de con ance assez farfelus ! Exemple : coe cient de correlation des notes des etudiants. Intervalle de con ance a 98% : ;0:68 1:03] On transforme pour que les valeurs possibles de l'estimation de la statistique soit reelles. Exemple : coe cient de correlation = 0:5 log 1+ 1;
58
Intervalle des percentiles : { Generation de B bootstraps : ^ P ! x et ^ = s(x ) ^ { soit G la fonction de distribution cumulee des ^ . { l'intervalle de con ance a (1 ; 2 ) base sur les percentiles est : ^ ^ G;1 ( ) G;1(1 ; )] { Si B: est un entier, l'intervalle de con ance est : ^B( ) ^B(1; ) ] Exemple : (x1 x2 : : : x40)tire deN (0 1) Param^tre : = e ou est la moyenne. ( = 1). e Statistique : ^ = ex 2.5% 5% 10% 16%50% 84% 90%95% 97.5% 0.75 0.82 0.90 0.98 .125 1.61 1.75 1.93 2.07 ICperc = 0:75 2:07] ICnorm = 0:59 1:92] { ICnorm marche si la distribution de est \Normale".
59
60
^B( )]
2
z ( ) = 100 ieme percentile deN (0 1) z0 = ^ a = ^ 1. si a et z0 sont nuls alors BCa = ICVperc. ^ 2. z0 corrige le biais. Il mesure le biais median de ^ . 3. a est l'acceleration. L'approximation ^ N ( se2) suppose que ^ la variance ne depend pas de . a corrige ce possible defaut. ^
;1 ( #f ^ (b)< ^g ) Pn ^ B ^ 3 i=1 ( (:) ; (i) ) Pn ( ^ ; ^ )2g 6f i=1 (:) (i) 3=2
61
1. Comme l'ICperc, le BCa conserve les transformations. p exemple : le BCa de est calcule en prenant les racines carrees de ^bas ^haut] BCa( ) = ^bas ^haut] 2. BCa est plus precis que les autres. Pour BCa : Probf < ^basg = + cbas n pn Pour ICperc ICnorm : Probf < ^basg = + cbas
Tests de permutation
62
TESTS DE PERMUTATION
{ Fisher 1930. (t de Student). { Problemes d'hypotheses mathematiques. { Exemple : 2 echantillons independants. { F ;! z = (z1 z2 : : : zm) independamment de G ;! y = (y1 y2 : : : yn) { Hypothese nulle : H0 : F = G { H0 c'est l'avocat du diable. { exemple des souris : un souhait ^ = z ; y > 0 { Niveau de signi cation : ASL = ProbH f ^
0
^g
{ ^ est une variable aleatoire qui suit la loi de distribution de ^ si H0 est vraie { Plus ASL est petit, plus on a de chances que H0 soit vraie.
Tests de permutation
63
H0 : ^ N (0
2( 1
n m
1 + )
30:63 ASL = 1 ; ( ) = 0:131 54:21 1=9 + 1=7 { t de Student : 30:63 r ASL = Probft14 g = 0:141 54:21 1=9 + 1=7 { On ne peut pas rejeter H0
r
Tests de permutation
64
0.12.3 L'idee
L'IDEE
On peut ranger les valeurs zi et yj par ordre croissant et indiquer pour chaque valeur a quel groupe elle appartient. valeur : groupe : valeur : groupe : 10 y 50 y 16 z 52 y 23 z 94 z 27 31 38 40 46 y y z y y 99 104 141 146 197 z y z y z
N = n+m
Tests de permutation
65
m Sous H0, le vecteur g a la probabilite 1=CN de valoir chacune de ces valeurs possibles
La statistique ^ est une fonction de (g,v) : ^ = S ((g,v)) m Pour chacune des CN vecteurs possibles de g on peut calculer : ^ = ^(g ) = S (g v) ASLperm = Probpermf ^ ^g m = #f ^ ^g=CN
Tests de permutation
66
Calcul de la statistique par test de permutation 1. Choisir B vecteurs independants g (1) g (2) : : : m parmi les CN vecteurs possibles. 2. Calculer : ^(b) = S (g v) 3. Calculer l'approximation : ^ ASLperm = #f ^ ^g=B NOMBRE DE PERMUTATIONS ASLperm : 0.5 0.25 0.10 0.005 0.025 B: 100 300 900 2000 4000 Exemple des souris : ASLperm = 0.132
g (B)
{ Aucune hypothese n'est faite sur F et G. { On peut remplacer la di erence des moyennes par la di erence d'une autre tendance centrale. { Dans la pratique on tire N valeurs uniforme entre 0 et 1, puis les n plus petites valeurs sont dites appartenir au pre-
Tests de permutation
67
Tests de permutation
68
PROBLEME : COMPARER 2 MARQUES D'AIGUILLES UTILISEES POUR DES PRELEVEMENTS SANGUINS. Marque Nombre de Nombre prelevements d'infections A 40 4 B 30 0 QUESTION : PEUT-ON ATTRIBUER LA DIFFERENCE DE 4 AU HASARD?
Tests de permutation
69
TEST DE PERMUTATION : 1. faire B fois : (a) generer 40 nombres entiers au hasard entre 1 et 70. (b) compter le nombre de fois g1 ou les entiers 1 a 4 (supposes ^tre infectes) apparaissent. e (c) generer 30 nombres entiers au hasard entre 1 et 70. (d) compter le nombre de fois g2 ou les entiers 1 a 4 apparaissent. (e) calculer la di erence ^ = g1 ; g2. 2. calculer : ^ ASLperm = #f ^ 4g=B DANS NOTRE EXEMPLE : ^ B = 3000 et ASLperm = 0:043
70
Bibliographie
1] P. Diaconis et B. Efron. Methodes de calculs statistiques intensifs sur ordinateurs. dans Le calcul intensif. Bibliotheque Pour La Science. (1989). 2] B. Efron. An Introduction to the Bootstrap. Chapmann & Hall . (1993). 3] F. Mosteller et J. W. Tukey. Data Analysis and Regression. Addison-Wesley (1977).