MR-Tekaya 06

MOHAMED RIDHA TEKAYA
Calcul dun intervalle de conance pour la moyenne dans une population asymtrique e
Essai prsent e e ` la Facult des tudes suprieures de lUniversit Laval a e e e e dans le cadre du programme de ma trise en statistique pour lobtention du grade de Ma tre `s sciences (M.Sc.) e
FACULTE DES SCIENCES ET DE GENIE LAVAL UNIVERSITE QUEBEC
Avril 2006
c Mohamed Ridha Tekaya, 2006
Rsum e e
Cet essai a pour objectif de calculer un intervalle de conance pour la moyenne ` a 100(1)% dans un plan de sondage alatoire simple, ainsi que dans un plan de sondage e strati ` deux strates. La population tudie nest pas symtrique et la distribution ea e e e des donnes nest pas normale. Avec le plan de sondage alatoire simple nous utilisons e e trois mthodes : le thor`me limite centrale, lapproche mod`le et la vraisemblance e e e e empirique. Dans le plan de sondage strati nous prsentons la vraisemblance empirique e e et le thor`me limite centrale. Pour chacun des plans et pour chacune des mthodes e e e nous prsentons la thorie de calcul dun intervalle de conance pour la moyenne. Dans e e chaque cas, un exemple sera ralis avec R an de bien comprendre la thorie de calcul e e e dun intervalle de conance.
Avant-propos
Je tiens ` remercier Monsieur Louis-Paul Rivest, mon directeur de recherche, proa fesseur au dpartement de mathmatiques et de statistique de lUniversit Laval, de e e e mavoir accueilli dans son quipe et davoir accept de diriger mes travaux. Je lui dois e e une grande reconnaissance pour la conance et le soutient qui ma accorde, pour sa e direction, et ses conseils judicieux tout au long de cette recherche. Ma gratitude va aussi ` Madame Hl`ne Crpeau, consultante de lUniversit Laval a ee e e qui a co-dirige mes travaux de programmation sur SAS. e Finalement, je voudrais exprimer la profonde gratitude que jai envers mes parents, mes deux surs et mon fr`re pour leurs encouragements et leur soutien. e
Table des mati`res e

Rsum e e Avant-Propos Table des mati`res e Liste des tableaux Table des gures 1 Introduction 2 Calcul dintervalle de conance pour une moyenne 2.1 Notation . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Mthode traditionnelle destimation de . . . . . . . e 2.3 Approche mod`le . . . . . . . . . . . . . . . . . . . . e 2.4 Limites de ces mthodes . . . . . . . . . . . . . . . . e 3 La vraisemblance empirique 3.1 Estimation de la fonction de rpartition . e 3.2 Intervalle de conance pour . . . . . . 3.3 Lalgorithme dtaill de calcul . . . . . . e e 3.4 Etude par simulation . . . . . . . . . . . 3.5 Exemple . . . . . . . . . . . . . . . . . . ii iii v vi vii 1 2 2 3 8 12 13 13 15 19 22 24 26 26 29 31 32 33
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
4 Plan de sondage strati ` deux strates ea 4.1 Thorie de calcul de lintervalle de conance . . . . . . . . . . . . . . . e 4.2 Lalgorithme dtaill de calcul . . . . . . . . . . . . . . . . . . . . . . . e e 4.3 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Conclusion Bibliographie
v A Fonction R pour la vraisemblance empirique dans un plan alatoire e simple 34 B Macro SAS 36 40 41 44 46
C Le programme R pour lexemple 2.1 D Le programme R pour lexemple 2.2 E Le programme R pour lexemple 3.1 F Fonction R pour la vraisemblance empirique dans un plan strati e
Liste des tableaux

2.1 Taux de conance rel et les taux de non couverture de lintervalle de e conance (2.2) pour les donnes simules selon la distribution (2.3) avec e e = 1 et n = 40 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Taux de conance rel obtenu avec un taux nominal de 95% et les taux de e non couverture de lintervalle de conance (2.5) pour les donnes simules e e de lexemple 2.2 avec n = 40 . . . . . . . . . . . . . . . . . . . . . . . . Taux de conance rel et les taux de non couverture de lintervalle de e conance (3.7) pour les donnes simules de lexemple 3.1 avec n = 40 . e e Taux de conance rel et les taux de non couverture pour les donnes e e simules ` partir dune N (5, 16) tronque ` 0 avec n = 40 . . . . . . . . e a e a Taux de conance rels et les taux de non couverture pour les donnes e e simules ` partir de deux lois exponentielle direntes tronques ` 0 avec e a e e a m = 60 et n = 140 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2
12 23 24
3.1 3.2 4.1
30
Table des gures

2.1 2.2 Droite de Henry pour les donnes de T . . . . . . . . . . . . . . . . . . e La valeur de () en fonction de la valeur du param`tre accompagne e e 2 du quantile de 0.95,1 pour lexemple 2.2. avec n = 40 et p = 3/4 = 1/ 5 11
Chapitre 1 Introduction
Lobjectif principal de ce travail de recherche est le calcul dun intervalle de conance pour la moyenne dune population asymtrique contenant de nombreuses valeurs nulles. e Un intervalle de conance est un outil permettant dexprimer notre degr de certitude e ` propos des param`tres dun mod`le statistique. a e e Cet essai est compos de trois chapitres. Le chapitre 2 prsente deux mthodes du e e e calcul dun intervalle de conance dans un plan de sondage alatoire simple : mthode e e traditionnelle et mthode base sur un mod`le. Dans le chapitre 3, nous expliquons come e e ment on peut dduire un intervalle de conance ` partir de la vraisemblance empirique e a prol. Un algorithme dtaill explique les tapes ` suivre pour trouver cet intervalle e e e a de conance. Aussi, nous comparons les trois mthodes prsentes. Le dernier chapitre e e e est consacr au calcul dun intervalle de conance par la vraisemblance empirique prol e dans un plan de sondage stratif ` deux strates. On y prsente un algorithme dtaill ea e e e de calcul, suivi dun exemple qui permet de comparer cette mthode avec lintervalle e de conance construit ` partir du thor`me limite centrale. a e e Lannexe A donne une fonction R qui calcule les bornes dun intervalle de conance pour la moyenne dduit ` partir de la vraisemblance empirique dans un plan de sondage e a alatoire simple. Lannexe B donne une macro SAS pour accomplir le mme travail. e e Lannexe F prsente une fonction R qui calcule les bornes dun intervalle de conance e dans un plan de sondage strati avec la vraisemblance empirique et le thor`me limite e e e centrale. Avant de commencer, notons que tout au long de ce travail nous nous intressons e seulement ` des variables prenant des valeurs positives ou nulles. a
Chapitre 2 Calcul dintervalle de conance pour une moyenne

2.1 Notation
La notation suivante est utilise dans tout cet essai : e (X1 , . . . , Xn ) : est un chantillon alatoire de taille n dune distribution F , de e e 2 moyenne et de variance IC : est un acronyme pour Intervalle de Conance. ICts : est un IC dduit ` partir de la distribution de Student. e a ICtlc : est un IC dduit ` partir du thor`me limite centrale. e a e e ICmv : est un IC dduit ` partir de la mthode du maximum de vraisemblance. e a e ICve : est un IC dduit ` partir de la mthode du maximum de vraisemblance e a e empirique. 100(1 )% : est le niveau de conance associ ` un intervalle. ea X =
1 n 1 s2 = n1 variance chantillonnale. e T = n(X )/s : est un pivot utilis pour construire un intervalle de conance e pour . n i=1 Xi : est la moyenne n 2 i=1 (Xi X) : est la
chantillonnale. e
tn1,/2 : dnote le quantile suprieur dordre /2 de la loi de student t avec (n1) e e degrs de libert. e e z/2 : dnote le quantile dordre /2 dune loi normale centre et rduite, N (0, 1). e e e e e 2 1,1 : dnote le quantile dordre (1 ) de la loi de khi-deux avec 1 degr de libert. e
Chapitre 2. Calcul dintervalle de conance pour une moyenne
2.2
Mthode traditionnelle destimation de e
Lestimation de par intervalle de conance est couramment utilise en pratique. e Elle augmente le niveau dinformation par rapport ` une estimation ponctuelle. Elle a permet davoir un aperu des valeurs possibles pour . Un intervalle de conance c ` 100(1 )% pour consiste ` trouver deux bornes, infrieure et suprieure, qui a a e e dpendent de lchantillon tir. Si on tire un grand nombre de fois un chantillon et e e e e si pour chacun on calcule lintervalle de conance, alors dans 100(1 )% des cas le param`tre devrait tre dans lintervalle de conance. Nous envisageons ici deux cas e e de calcul dintervalle de conance pour , i) La distribution F de la variable alatoire X est normale et la taille dchantillon e e n est quelconque. ii) La distribution F de la variable alatoire X nest pas normale et la taille e dchantillon n est grande. e Pour ce faire, nous avons besoin de la loi Student et du thor`me limite centrale. e e Thor`me 2.1. (Loi de Student) e e Si X et s2 dnotent la moyenne et la variance dun chantillon alatoire de taille n e e e 2 issu de la loi N (, ), une distribution normale de moyenne et de variance 2 , alors T = X s/ n
est distribue selon une loi t ` (n 1) degrs de libert. e a e e Ce thor`me permet de faire de linfrence sur le param`tre dune loi normale. Les e e e e bornes de lintervalle de conance ` 100(1 )% pour sont obtenues ` partir de a a lgalit suivante e e
1 = P tn1,/2
X tn1,/2 s/ n s s = P X tn1,/2 X + tn1,/2 . n n
Chapitre 2. Calcul dintervalle de conance pour une moyenne Lintervalle de conance est donn par e s s ICts = X tn1,/2 , X + tn1,/2 . n n Thor`me 2.2. (Thor`me limite centrale) e e e e
Si X1 , X2 , . . . sont des variables alatoires indpendantes et identiquement dise e tribues avec moyenne R et avec variance 0 < 2 < , alors quand n e on obtient X N (0, 1). / n Et sous certaines conditions de rgularit qui ne seront pas cits ici, Hjek (1960) e e e a montre que la distribution asymptotique lorsque n tends vers est X N (0, 1). s/ n
T =
(2.1)
Ce thor`me nous permet de construire un intervalle de conance ` 100(1 )% e e a pour ` partir de lgalit a e e
1 = P z/2
X z/2 s/ n s s = P X z/2 X + z/2 . n n
On obtient lintervalle de conance suivant
s s ICtlc = X z/2 , X + z/2 . n n (2.2)
4 3
valeur de t
Quantiles of Standard Normal
Fig. 2.1 Droite de Henry pour les donnes de T e
Si la distribution F de la variable alatoire X est normale, le thor`me limite centrale e e e reste valide pour une taille dchantillon nie. Peut on appliquer ce thor`me pour une e e e taille dchantillon nie, lorsque la loi de X di`re dune normale ? On tudie cette e e e question pour une variable X issue dune loi asymtrique dans lexemple suivant. e Exemple 2.1. (Distribution de T ) Soit F la distribution associe avec le mod`le exponentielle avec masse ` 0 tel que e e a
f (x) =
p exp(x/) 1p
si x > 0 si x = 0 .
(2.3)
Soit (X1 , . . . , Xn ) un chantillon alatoire simple de taille n = 40 issu de F . La e e distribution de X est asymtrique. Nous pouvons crire X comme le produit de deux e e variables alatoires indpendantes Y et Z telles que e e
Y Bernoulli(p)
P [Y = 1] = p E[Y ] = p. E[Z] = .
Z Exponentielle(1/)
Ainsi, la moyenne de X est gale ` E[X] = E[Y ]E[Z] = p. e a Pour vrier la normalit de la statistique de pivot T donne en (2.1), nous faisons e e e une tude par simulation. Nous simulons 500 chantillons de taille n = 40 issus de (2.3) e e avec p = 3/4, = 4/3 et nous calculons la variable alatoire T pour chacun. Pour e tudier la normalit de T , nous traons la droite de Henry. e e c ` A la lumi`re de la gure 2.1, il est raisonnable de prsumer que les valeurs de T ne e e sont pas normalement distribues. Lorsque lchantillon alatoire de taille n = 40 est e e e issu dune loi exponentielle avec masse ` 0, nous concluons que, lquation (2.1) nest a e pas valide. Et par consquent, lapproximation suggre par le thor`me limite centrale e ee e e laisse ` dsirer. a e Pour direntes valeurs de la probabilit de succ`s p = P (Y = 1), nous prsentons e e e e dans le tableau 2.1, le taux de conance rel, le taux de non couverture ` gauche e a de la borne infrieure et le taux de non couverture ` droite de la borne suprieure de e a e e lintervalle de conance ` 95% pour donn par (2.2). Nous dnissons le taux conance a e rel de (2.2) par e
P |T | < z0.025 .
La valeur 95% est le taux de conance nominal gal au vrai taux de conance lorsque e le thor`me limite centrale sapplique. Par contre, si une N (0, 1) approxime mal la loi e e de T en (2.1) le taux de conance rel de (2.2) ne sera pas gal ` 95%. Le taux de e e a conance rel est estim par e e
tcr =
Le nombre de fois o` appartient ` lIC calcul u a e . Le nombre de simulations
Chapitre 2. Calcul dintervalle de conance pour une moyenne Lestimateur du taux de non couverture ` gauche est donn par a e
tncg =
Le nombre de fois o` est infrieure ` la borne infrieure de lIC calcul u e a e e . Le nombre de simulations
P (Y = 1) 0.25 0.50 0.75 0.85 0.95
Taux de non Taux de non Taux de couverture estim couverture estim conance rel e e e ` gauche en (%) a ` droite en (%) a estim en (%) e 0.2 0.8 0.8 1.0 0.2 12.8 9.0 6.6 5.2 5.6 87.0 90.2 92.6 93.8 94.2
Tab. 2.1 Taux de conance rel et les taux de non couverture de lintervalle de e e e conance (2.2) pour les donnes simules selon la distribution (2.3) avec = 1 et n = 40
Ces taux de couverture sont des estimations obtenus ` laide de 500 chantillons a e simuls, lerreur type associe ` chaque taux scrit e e a e
et =
(1 ) , 500
o` est le taux de couverture ou de non couverture. Si = 95% alors et = 0.0097 et u pour = 2.5% nous obtenons et = 0.0069. En vertu du tableau 2.1, nous remarquons que les estims de taux de non couverture e ` gauche et ` droite sont dirents de 2.5%. Nous concluons que mme en tenant compte a a e e de la variabilit associe ` la simulation lestim du taux de conance rel dmeure e e a e e e toujours infrieur au taux de conance nominal de 95%. e Le programme R que nous avons utilis pour analyser les donnes de lexemple 2.1 e e est prsent en annexe C. e e
2.3
Approche mod`le e
Lorsque la distribution F nest pas normale, on veut postuler un mod`le paramtrique e e pour F et utiliser la vraisemblance prol de associe ` ce mod`le pour calculer un e a e intervalle de conance pour . Appelons f (x; 1 , . . . , m ) la densit de X et soit e = g(1 , . . . , m ) son esprance. e An de pouvoir estimer , en premier lieu, nous calculons (1 , . . . , m ) les estimateurs du maximum de vraisemblance des param`tres. En second lieu, nous utilisons la e proprit dinvariance de lestimateur du maximum de vraisemblance pour armer que ee
= g(1 , . . . , m ), est lestimateur du maximum de vraisemblance de . Pour calculer un intervalle de conance pour , on estime tout dabord les param`tres par la mthode du maximum de vraisemblance. La fonction de vraisemblance e e est donne par e
L = L(1 , . . . , m )
n
=
i=1
f (Xi , 1 , . . . , m ).
Dans la pratique pour simplier les calculs des estimateurs, nous utilisons le logarithme de la fonction de vraisemblance. Il est dnot par e e
l(1 , . . . , m ) = log L(1 , . . . , m )

n
=
i=1
log f (Xi , 1 , . . . , m ) .
Chapitre 2. Calcul dintervalle de conance pour une moyenne Les valeurs des estimateurs sont trouvs telles que e
l(1 , . . . , m ) = 0, j
pour
j = 1, . . . , m.
Ensuite, nous xons et maximisons la vraisemblance sous la contrainte = g(1 , . . . , m ). Nous obtenons ainsi la vraisemblance prol, une fonction qui dpend e uniquement du param`tre dintrt . Elle est utile pour le calcul dun intervalle de e ee conance pour ; on la dnit comme suit e
lp () =
1 ,...,m , =g(1 ,...,m )
max
l(1 , . . . , m ).
Le calcul de lp () utilise pour chaque valeur de des estimateurs des j , j () pour j = 1, . . . , m. Notons que lp () est maximale ` = lestimateur du maximum de a vraisemblance de . Enn, sous certaines conditions de rgularit qui ne sont pas cits ici, Wilks (1938) e e e montre que
(0 ) = 2 lp () lp (0 ) 2 . 1
(2.4)
Si 0 est la vraie valeur du param`tre , lintervalle de conance prol pour ` un e a seuil de conance de 100(1 )% est donn par e
ICmv =
0 : 2 lp () lp (0 ) < 2 1,1
(2.5)
10
Lexemple suivant est une application de la thorie nonce ci-dessus pour calculer un e e e intervalle de conance pour . Exemple 2.2. (Mod`le exponentiel avec masse ` 0 ) e a Considrons un chantillon alatoire simple de taille n issu de la loi exponentielle e e e avec masse ` zro donn par (2.3). Cet chantillon consiste en k zros et (n k) erreurs a e e e e qui suivent la loi exponentielle de moyenne . A partir du mod`le (2.3) nous voyons e que la moyenne est fonction de p et . Cependant, nous crivons e = p = g(p, ). En utilisant la thorie prsente, nous obtenons alors e e e (0 ) = 2 log ,(2.6)
1 0 /0 1 /
k k
0 /0 /
nk nk
1/0 1/
nk
exp
nk i=1 nk i=1
xi /0
nk
exp
xi /
o`, u
p= et
nk , n
xi , nk
n i=1
= p =
n i=1
xi
0 = avec,
A+
A2 4AB , 2
A=
2n0 + n xi k0 i=1 2(n k)
et B =
0 n x i i=1 . 2(n k)
Lquation (2.6) et les autres estimateurs des param`tres inconnues p, et sont e e tirs de larticle de Kvanli et al. (1998). Les estims p, et sont trouvs en maximisant e e e
11
rhomu
1.0
1.5 mu
2.0
Fig. 2.2 La valeur de () en fonction de la valeur du param`tre accompagne du e e 2 quantile de 0.95,1 pour lexemple 2.2. avec n = 40 et p = 3/4 = 1/
L sous aucune contrainte. Mais on obtient 0 en maximisant la vraisemblance prol sous la contrainte 0 = p0 . Avant de chercher lintervalle de conance pour , nous traons c dans la gure 2.2 la fonction () et la droite horizontale qui reprsente le quantile e dordre 95% de la loi de khi-deux avec 1 degr de libert. e e ` A la lumi`re de la gure 2.2, nous voyons que la droite horizontale coupe la courbe e de () en deux points distincts. Soient bi et bs les abscisses respectifs de ces deux points. lintervalle de conance ` 95% pour est lensemble de valeurs comprises entre a bi et bs. Pour direntes valeurs de la proportion p, nous prsentons dans le tableau 2.2, le e e taux de conance rel, le taux de non couverture ` gauche de la borne infrieure et le e a e taux de non couverture ` droite de la borne suprieure de lintervalle de conance ` a e a 95% pour donn par (2.5). e
12
P (Y = 1) 0.25 0.50 0.75 0.85 0.95
Tab. 2.2 Taux de conance rel obtenu avec un taux nominal de 95% et les taux de e non couverture de lintervalle de conance (2.5) pour les donnes simules de lexemple e e 2.2 avec n = 40 En vertu du tableau 2.2, nous voyons que pour certaines valeurs de p = P (Y = 1) le taux de conance rel dpasse le seuil nominal 95%. Mais ces taux de couverture ne e e sont pas signicativement dirents du taux nominal de 95%. Lintervalle de conance e (2.5) donne donc de bons rsultats pour des chantillons de taille 40 provenant dune e e loi exponentielle avec masse ` zro. a e Le programme R que nous avons utilis pour calculer lintervalle de conance pour e de lexemple 2.2 est prsent en annexe D. e e
2.4
Limites de ces mthodes e
Lorsque la population contient plusieurs valeurs nulles, la distribution F nest pas symtrique et lapproximation suggre par le thor`me limite centrale nest pas bonne. e ee e e Lintervalle de conance pour dduit de la vraisemblance prol dpend du mod`le e e e paramtrique choisi. En gnral nous ne disposons pas de la vraie distribution des e e e donnes. Pour rsoudre ces probl`mes on a recours ` la vraisemblance empirique, une e e e a mthode non paramtrique pour le calcul dintervalle de conance de la moyenne . e e Cette mthode est lobjet du chapitre suivant. e
Chapitre 3 La vraisemblance empirique

Dans le prsent chapitre, nous estimons la moyenne par la vraisemblance empirique e qui est une mthode non paramtrique dinfrence statistique. La distribution F de e e e (X1 , . . . , Xn ) est inconnue, nous utilisons la vraisemblance empirique prol pour calculer un intervalle de conance pour la moyenne .
3.1
Estimation de la fonction de rpartition e
La fonction de rpartition sert ` calculer la fonction de vraisemblance. Pour ce faire e a nous dnissons ci-apr`s la fonction de rpartition empirique ainsi que la vraisemblance e e e empirique. Dnition 1 e Soient X1 , . . . , Xn un chantillon de F . La fonction de rpartition empirique de e e X1 , . . . , Xn est donne par e
1 Fn (x) = n
I{Xi
i=1
x}
pour tout < x < +.
Chapitre 3. La vraisemblance empirique O` IA est une indicatrice qui est dnie comme suit u e
14
IA =
1 0
si A est vraie sinon .
Dnition 2 e Soient X1 , . . . , Xn des variables alatoires relles qui sont indpendantes et de mme e e e e fonction de rpartition F . La vraisemblance non paramtrique pour F prend la forme e e suivante
L(F ) =
i=1
F (Xi ) F (Xi )
=
i=1
P (Xi = xi ).
Avec, pour tout < x < + F (x) = P (X x) F (x) = P (X < x) P (X = x) = F (x) F (x).
La consquence immdiate qui dcoule de la dnition 2 est que L(F ) = 0 si Xi est e e e e une variable alatoire continue. e Thor`me e e Soient X1 , . . . , Xn un chantillon de F , soit Fn la fonction de rpartition empirique e e et G une fonction de rpartition quelconque. e
Si G = Fn alors L(G) < L(Fn ).
Dmonstration e Soient z1 , . . . , zm des valeurs distinctes dans {X1 , . . . , Xn }, nj 1 est le nombre des Xi qui sont gales ` zj . Soit pj = G(zj ) G(zj ) et posons que pj = nj /n. e a
Chapitre 3. La vraisemblance empirique
15
Si pj = 0 pour au moins un j = 1, . . . , m alors L(G) = 0 < L(Fn ). Dans la suite, on suppose que pour tout j = 1, . . . , m pj > 0 et pour au moins un j, pj = pj . Donc
log
L(G) L(Fn )
= log
m j=1 m j=1
pj nj pj nj
=
j=1 m
nj log pj log
j=1
pj pj pj . pj
=n
Or, g(x) = log(x) x + 1 est une fonction concave qui atteint son maximum au point x = 1 et g(1) = 0. Donc pour tout x 0
g(x) 0 log(x) x 1. En utilisant lingalit (3.1) on obtient que e e
(3.1)
n
j=1
pj log
pj pj
< n
j=1
pj
pj 1 pj
0.
Do`, u L(G) < L(Fn ).
Ces deux derni`res dnitions et thor`me sont tirs du chapitre 2 de Owen(2001). e e e e e
3.2
Intervalle de conance pour
Dans cette section nous utilisons une procdure semblable ` celle utilise ` la section e a e a 2.3 pour calculer un intervalle de conance pour la moyenne . Sauf que ici nous utilisons
16
la fonction de vraisemblance empirique ` la place de la fonction de vraisemblance. Nous a prsentons ci-apr`s la thorie pour calculer un intervalle de conance pour la moyenne e e e ` 100(1 )%. a On dnote par pi la probabilit que la variable alatoire Xi prenne la valeur xi . e e e Le logarithme de la fonction de vraisemblance empirique est donn par e
el(F ) = log
i=1 n
pi log pi .
=
i=1
An de pouvoir maximiser el(F ) sous la contrainte n pi = 1 nous utilisons la i=1 mthode de Lagrange. La fonction de Lagrange G scrit comme suit e e
G =
i=1
log pi +
i=1
pi 1 .
En calculant la drive partielle de G par rapport ` pi , nous trouvons le maximum e e a de el(F ) :
G 1 = + pi pi = 0.
On peut crire aussi que e
pi
i=1
G = n+ pi = 0.
17
` A partir de cette derni`re galit nous obtenons que n = . Sous la contrainte e e e pi = 1, la log-vraisemblance empirique atteind son maximum lorsque pi = 1/n. Ce dernier est donn par e
n i=1
max el(F ) Pn i=1 pi =1
= n log n.
(3.2)
Pour calculer la log-vraisemblance empirique prol pour nous maximisons el(F ) sous une contrainte additionnelle. Cette contrainte prend la forme suivante
pi Xi =
i=1
i=1
pi Xi
= 0.
Nous considrons des valeurs de dans lintervalle (min Xi , max Xi ). La fonction de e Lagrange et la drive partielle de G par rapport ` pi scrivent e e a e
G =
i=1
log pi +
i=1
pi 1 n
i=1
pi Xi .
G 1 = + n Xi pi pi = 0.
De plus
i=1
G pi = pi
i=1
1 pi + n pi
pi Xi
i=1
= 0, do` n = . Donc sous ces deux contraintes le maximum de el(F ) est atteint lorsque u
pi =
1 . n 1 + (Xi )
(3.3)
18
Le param`tre sappelle le multiplicateur de Lagrange ; il rsout lquation suivante e e e
g() =
i=1
Xi = 0. 1 + (Xi )
(3.4)
Cette quation a plusieurs solutions en . La discussion qui suit cherche ` dterminer e a e lintervalle I des valeurs intressantes de de telle sorte que (3.4) ait une seule solution e dans I . Rappelons que est xe dans lintervalle (min Xi , max Xi ). Maintenant, nous dterminons lintervalle I tel que, la probabilit pi donne par e e e (3.3) soit suprieure ` 0, cest ` dire tel que {1 + (Xi )} > 0. e a a Puisque max(Xi ) > , > Puisque min(Xi ) < , < 1 . min(Xi ) 1 . max(Xi )
Nous concluons que lintervalle des valeurs possibles de pour x, scrit comme e e
I =
1 1 , . max(Xi ) min(Xi )
(3.5)
La maximisation de la log-vraisemblance empirique el(F ) sous les deux contraintes, permet de calculer la fonction de log-vraisemblance empirique prol comme suit
elp () = =
Pn
i=1
max el() P pi =1, n pi Xi = i=1 1 n 1 + (Xi )

n
log
i=1
= n log n
i=1
log{1 + (Xi )}.
(3.6)
19
Nous dnotons par e()/2 la dirence entre le maximum de el(F ) sous une e e contrainte, voir (3.2), et sous deux contraintes, voir (3.6) tel que
e() = 2
max el() Pn i=1 pi =1
Pn
i=1
pi =1 , n
maxn P
i=1
pi Xi =
el()
= 2 n log n + n log n +
i=1 n
log{1 + (Xi )
= 2
i=1
log 1 + (Xi ) .
Si 0 = E(X) est la vraie moyenne, et si le moment dordre 3 pour X existe, Owen (1990) montre que quand n tend vers linni
e(0 ) 2 . 1 Enn, nous obtenons lintervalle de conance prol pour 0 ` un seuil de conance a de 100(1 )%. Il scrit e
ICve =
0 : e(0 ) 2 1,1 .
(3.7)
3.3
Lalgorithme dtaill de calcul e e
Soient (X1 , . . . , Xn ) des variables indpendantes et identiquement distribues. Nous e e supposons que min Xi < < max Xi . Cet algorithme nous permet de calculer la borne suprieure. e 1. Posons t1 = X, t2 = max Xi . 2. Nous calculons = (t1 + t2 )/2. 3. Nous calculons la solution qui rsout lquation (3.4) pour = (t1 + t2 )/2. e e 4. Nous valuons e() ` laide de la valeur de trouve en 3. e a e
20
5. Nous comparons e() et 2 1,1 . Si e() > 2 1,1 alors t2 = . Sinon t1 = . 6. On compare t1 et t2 tel que Si | t1 t2 |< 105 on sarrte et on note que la borne suprieure est gale ` e e e a . Sinon on rpte les tapes 2 ` 5 jusqu` ce que ltape 6 soit vrie. e e e a a e e e La borne infrieure est calcule dune faon similaire en remplaant seulement ` la e e c c a premi`re tape t2 par la plus petite observation des Xi qui est dnote par min Xi . e e e e Dans ce qui suit nous expliquons en dtail ltape 3 de lalgorithme prsent cie e e e dessus. An de pouvoir calculer un intervalle de conance pour la moyenne avec R et avec SAS, nous utilisons deux fonctions permettant de trouver la solution de lquation e (3.4). Avec le progiciel R Nous avons utilis la fonction uniroot en spciant une borne e e infrieure et une borne suprieure pour les valeurs possibles de , voir (3.5). Ces bornes e e sont dnotes par bi et bs respectivement dans lannexe A. e e Dans le progiciel SAS il ny a pas de fonction qui calcule la solution de lquation e (3.4). Nous avons programm ` laide de la procdure IML une fonction sous forme dun ea e algorithme. Nous devons excut les tapes suivantes : e e e On dcoupe lintervalle I = [bi, bs] en des sous intervalles de longueur 104 e chacun. Tout les lments du tableau suivant sont les composantes du vecteur a. ee bi bi + 104 bi + 2 104 ... bi + (k 1) 104 bi + k 104 bs
On cre un vecteur result qui contient la valeur de g() = g(a[k]), avec a[k] = e bi + (k 1)104 pour tout k = 1, . . . , A, o` A est tel que : bi + A104 bs et u 4 bi + (A + 1)10 > bs. La fonction g() est strictement dcroissante par rapport ` . Avec cette ine a formation nous calculons g(a[k]) et d`s quon trouve g(a[k]) < 0 cest ` dire e a result[k] < 0, on arrte les itrations et on note par : ibi = a[k 1] et ibs = a[k]. e e On cre un vecteur b de dimension y qui scrit de la mani`re suivante : e e e
21
ibi
ibi + 107
ibi + 2 107
...
ibs 2 107
ibs 107
ibs
On cre un autre vecteur vecone de mme dimension que b et on calcule de e e nouveau g() = g(b[i]), avec b[1] = ibi. La valeur de g() est remise dans le e vecteur vecone. Nous calculons la valeur absolue des toutes les composantes du vecone et on les mettent dans un autre vecteur qui sappelle vecdeux. Nous dnotons par solftek la plus petite valeur du vecdeux. e Nous cherchons la valeur de qui nous permet dobtenir solftek. Pour ce faire on parcourt tout le vecteur vecdeux an de trouver vecdeux[i] solftek. Quand cette derni`re condition est vrie on dnote alors = b[i]. e e e e Finalement, la solution de lquation (3.4) est gale ` b[i]. e e a Maintenant, nous prsentons le code SAS qui calcule un intervalle de conance ` e a 95% pour la moyenne des variables X1 et X2. Nous observons 10 fois la variable X1 et 13 fois la variable X2. ods printer file="sortie1.ps"; data one; input X1 X2 @@; cards; 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2.447904 0 0.814802 0.895326 1.659665 0.080676 . 2.328459 . 0.417263 . 0 /* nous remplaons les donnes manquantes par des points */ c e ; run; %include "intervalle.sas"; title "intervalle de confiance pour X1"; %intek(data=one, var=X1); title "intervalle de confiance pour X2"; %intek(data=one, var=X2); ods printer close; Les sorties fournies par SAS sont : intervalle de conance pour X1
22
BINFVE 0.1290305
BSUPVE 1.1317246
intervalle de conance pour X2 BINFVE 0.070462 BSUPVE 0.783999
Les intervalles de conance pour les moyennes de X1 et X2 obtenus par le thor`me lie e mite centrale, voir (2.2), sont respectivement [0.219174, 0.765299] et [0.079588, 0.492984]. Les intervalles de conance calculs par la vraisemblance empirique prol sont plus e longs que les intervalles de conance du thor`me limite centrale. e e
3.4
Etude par simulation
Dans cette section nous appliquons la mthode non paramtrique aux simulations e e du mod`le exponentiel avec masse ` 0. Ensuite, nous prsentons dans le tableau 3.2 les e a e rsultats des trois mthodes qui calculent lintervalle de conance pour la moyenne . e e Ces mthodes sont appliques sur des donnes gnres ` partir dune loi normale de e e e e ee a moyenne 5 et variance 16 tronque ` 0. e a Exemple 3.1. (Mod`le exponentiel avec masse ` 0 ) e a Considrons un chantillon alatoire simple de taille n issu de la loi exponentielle e e e e avec masse ` zro donn par (2.3). Nous prsentons dans le tableau ci-dessous pour a e e direntes valeurs de la probabilit de succ`s P (Y = 1), les estims du taux de conance e e e e rel et les taux de non couverture ` gauche et ` droite de (3.7). Ce tableau permet de e a a comparer lintervalle de conance obtenu par la mthode de la vraisemblance empirique e avec ceux obtenus par le thor`me limite centrale et la vraisemblance prol aux tableaux e e 2.1 et 2.2. ` A la lumi`re de ce tableau, nous remarquons que lestim du taux de conance rel e e e est infrieur au taux de conance nominal x ` 95%. La mthode de la vraisemblance e ea e empirique prol donne des intervalles de conance avec des taux de non couverture dsquilibrs. Mais le taux de non couverture ` gauche est proche de la valeur 2.5%. ee e a
23
P (Y = 1) 0.25 0.50 0.75 0.85 0.95
Tab. 3.1 Taux de conance rel et les taux de non couverture de lintervalle de e e e conance (3.7) pour les donnes simules de lexemple 3.1 avec n = 40
Le dsquilibre est moins important que celui obtenu pour les intervalles de conance ee construits avec le thor`me limite centrale prsents au tableau 2.1. e e e e Le programme R que nous avons utilis pour analyser les donnes de lexemple 3.1 e e est prsent en annexe E. e e Exemple 3.2. (Normale tronque ` 0 ) e a Nous crivons X comme le produit de deux variables alatoires indpendantes Y et e e e Z telles que Y Bernoulli(p) Z + 1 (U ) avec U U nif orme (/), 1 , et dnote la fonction de rpartition dune variable normale centre rduite. e e e e En vertu de cette loi lesprance de X sobtient de la mani`re suivante e e pE(Z) = p
ze 2 ( 0 2 0 2
1 z )2
dz dz
1 z 2 e 2 ( )
(3.8)
Lorsque = 5 et 2 = 16, est gale ` E(X) = 5.8169p. e a Nous avons simul des chantillons de taille n = 40 de la loi normale tronque ` 0 e e e a 2 avec = 5 et = 16. Ces simulations ont permis de calculer les taux de conance et les taux de non couverture ` gauche et ` droite des intervalles de conance construit a a selon les mthodes (2.2), (2.5) et (3.7). Les rsultats sont prsents au tableau 3.2. e e e e
24
p 0.25 0.50 0.75 0.85 0.95 p 0.25 0.50 0.75 0.85 0.95
thor`me limite centrale e e tncg % tncd % tcr % 0.6 7.8 91.6 1.6 6.4 92.0 2.2 3.4 94.4 2.0 3.6 94.4 2.0 2.6 95.4 vraisemblance empirique tncg % tncd % tcr % 2.2 5.0 92.8 3.0 4.4 92.6 3.0 2.4 94.6 2.2 2.6 95.2 2.0 2.0 96.0
mod`le exponentiel e tncg % tncd % tcr % 0.4 0.8 98.8 0.8 0.2 99.0 0.0 0.2 99.8 0.0 0.2 99.8 0.0 0.0 100
Tab. 3.2 Taux de conance rel et les taux de non couverture pour les donnes e e simules ` partir dune N (5, 16) tronque ` 0 avec n = 40 e a e a ` A la lumi`re du tableau 3.2 nous remarquons que le taux de couverture samliore e e graduellement ` mesure que la proportion de non zro p augmente. Lintervalle de a e conance construit par le thor`me limite centrale a un faible taux de couverture. En e e appliquant le mod`le exponentiel, nous avons un probl`me de sur-estimation du taux de e e conance rel. Nous obtenons des intervalles de conance plus longs que ncessaire. La e e mthode de la vraisemblance empirique prol donne des intervalles de conance avec e des taux de non couverture plus quilibrs. De plus la borne infrieure calcule par la e e e e vraisemblance empirique est plus grande que celles calcules par les autres mthodes. e e
3.5
Exemple
Dans le cadre de la vrication des tats nanciers des fonds nominatifs et collectifs, e e administrs par le curateur public du Qubec, le vricateur gnral du Qubec doit e e e e e e estimer le montant moyen de lerreur attribuable ` lintgralit de lenregistrement a e e des transactions aectant les actifs et les passifs du fonds nominatif pour lexercice termin le 31 mars 2004. Au 31 mars 2003, le curateur administrait le patrimoine de e 10950 personnes sous rgime public de protection et 3000 successions vacantes pour une e population totale de 13950. Parmi cette population, un chantillon alatoire simple de e e 60 dossiers a t prlev. Pour chacun de ces dossiers une analyse a t eectue pour ee e e ee e
Chapitre 3. La vraisemblance empirique identier sil y a erreur ainsi que la nature, la cause et le montant en erreur.
25
Le programme SAS qui suit calcule ` 95% lintervalle de conance pour le montant a moyen de lerreur.
data EF; input x @@; cards; 0 0 ... 0 43.06 95.98 ; run; %include "curateur.sas"; title "intervalle de confiance pour le montant moyen de lerreur"; %intek(data=EF, var=x);
Les bornes infrieure et suprieure sont 0.366 et 7.677 respectivement. Dans cet e e chantillon de taille 60 la proportion des valeurs non nulles est tr`s faible, 2/60 = 3.33%. e e La borne infrieure de ce mme intervalle calcule en utilisant le thor`me limite centrale e e e e e est gale ` 1.864. Il est clair que dans ce cas nous ne pouvons pas utiliser une mthode e a e autre que la vraisemblance empirique prol pour calculer lintervalle de conance pour le montant moyen de lerreur.
Chapitre 4 Plan de sondage strati ` deux ea strates

Ce chapitre prsente tout dabord, la thorie de calcul de lintervalle de conance e e pour la moyenne dans un plan de sondage ` deux strates par la mthode de la a e vraisemblance empirique. Ensuite, la section 2 est consacre ` un algorithme qui nous e a permet de trouver les bornes infrieure et suprieure de cet intervalle. Finalement, nous e e simulons des donnes exponentielles avec masse ` 0 an de comparer les deux mthodes e a e de construction dun intervalle de conance, par le thor`me limite centrale et par la e e vraisemblance empirique prol.
4.1
Thorie de calcul de lintervalle de conance e
Les strates sont des partitions de la population ` ltude. Un chantillon alatoire a e e e strati est tir en prenant un chantillon alatoire x dans chacune des strates. e e e e e Nous tudions une population de taille N avec deux strates 1 et 2 de taille respectives e N1 et N2 . Le poids de chacune de deux strates est gal ` W1 = N1 /N et W2 = N2 /N . e a Soient m et n les tailles des chantillons slectionns dans les strates 1 et 2. Nous e e e observons donc x1 , . . . , xm et y1 , . . . , yn . Nous supposons que les fractions de sondage m/N1 et n/N2 sont tr`s petites, de sorte que les units tires dans les deux strates e e e peuvent tre considres comme des variables alatoires indpendantes. On dnote par e ee e e e pi et qj les probabilits que les variables alatoires Xi et Yj prennent les valeurs xi et e e yj respectivement.
Chapitre 4. Plan de sondage strati ` deux strates ea Le logarithme de la fonction de vraisemblance empirique peut tre crit comme e e
m n
27
elm,n =
i=1
log pi +
j=1
log qj .
(4.1)
Sous ces contraintes

m n
pi = 1,
i=1 j=1
qj = 1,
le maximum de elm,n est atteint lorsque pi = 1/m et qj = 1/n, ` savoir a

Pm
i=1
elm,n max P pi =1, n qj =1 j=1
= m log m n log n.
(4.2)
Dans un plan de sondage stratif ` deux strates nous pouvons crire la moyenne e a e thorique en fonction des poids comme e = W1 E(X) + W2 E(Y ) = W 1 1 + W 2 2 . Lestimateur de correspondant est = W 1 xm + W 2 y n . o` xm et y n sont les moyennes chantillonnales. u e An de pouvoir calculer la fonction log-vraisemblance empirique prol pour la moyenne , nous devons maximiser lquation (4.1) sous une contrainte additionnelle. e Cette troisi`me contrainte scrit e e
m n
W1
i=1
p i xi + W 2
j=1
qj yj = .
La dtermination de la fonction du vraisemblance empirique prol elm,n () ` partir e a de ce dernier probl`me de maximisation est tr`s complique. Nous prsentons ci-apr`s e e e e e la technique dveloppe par Chen et al. (2003) pour le calcul de elm,n (). e e En utilisant la mthode de Lagrange, nous trouvons que la log-vraisemblance empie rique prol pour 1 , 2 est la somme de deux log-vraisemlance
m
elm,n (1 , 2 ) =
i=1 n
log 1 + 1 (xi 1 ) m log m
j=1
log 1 + 2 (yj 2 ) n log n,
Chapitre 4. Plan de sondage strati ` deux strates ea o` 1 et 2 sont les solutions de ces deux quations u e
m
28
i=1
(xi 1 ) = 0, 1 + 1 (xi 1 )
j=1
(yj 2 ) = 0. 1 + 2 (yj 2 )
(4.3)
Par dnition, il existe une relation entre la vraisemblance empirique prol pour la e moyenne elm,n () et celle de elm,n (1 , 2 ) tels que
elm,n () =
P2
max
Wk k =
elm,n (1 , 2 ).
(4.4)
k=1
En appliquant la mthode de Lagrange lquation (4.4) devient e e g(1 , 2 , t) = elm,n (1 , 2 ) t(W1 1 + W2 2 ) La valeur de t est le multiplicateur de Lagrange. Nous prenons la drive partielle de e e g respectivement par rapport ` 1 , 2 et t. Puis en galisant ` 0 ces trois deni`res a e a e drives, nous obtenons 1 = W1 t/m et 2 = W2 t/n. Ainsi nous calculons 1 (t) et 2 (t) e e les solutions de lquation (4.3). En eet, le maximum est atteint aux points 1 (t) et e e 2 (t). On value lquation (4.4) au point (t), nous pouvons crire que e e elm,n (t) = elm,n 1 (t), 2 (t)
m
=
i=1 n
log 1 + m1 W1 t xi 1 (t) log 1 + n1 W2 t yj 2 (t)

j=1
m log m n log n, (4.5)
Nous dnotons par em,n {(t)}/2 la dirence entre le maximum de elm,n sous deux e e contraintes, voir (4.2), et le maximum sous trois contraintes, voir (4.5). Ainsi
m n
em,n {(t)} = 2
i=1
log 1 + m W1 t(xi 1 ) + 2
j=1
log 1 + n1 W2 t(yj 2 ) .
Si 0 = W1 E(X) + W2 E(Y ) est la vraie moyenne, et si les moments dordre 3 pour X et Y existent, Chen et al. (2003) montrent que quand n tends vers linni
em,n (0 ) 2 . 1
Chapitre 4. Plan de sondage strati ` deux strates ea
29
Finalement, nous obtenons lintervalle de conance prol pour ` un seuil de a conance de 100(1 )% qui scrit e
ICve =
: em,n () 2 1,1 .
(4.6)
4.2
Lalgorithme dtaill de calcul e e
Soient (X1 , . . . , Xm ) et (Y1 , . . . , Yn ) deux chantillons alatoires simples de taille e e respectives m et n. En faisant la drive de la fonction em,n {(t)} par rapport ` t e e a nous trouvons que cette derni`re est convexe. Puisque lintervalle de conance (4.6) e est lensemble des valeurs qui sont infrieures au quantile de la loi de khi-deux 2 e 1,1 , en eet, les bornes infrieure et suprieure sont les deux points dintersection entre la e e courbe de em,n {(t)} et la droite horizontale qui passe par le point (0, 2 1,1 ). Cependant, en suivant ces tapes nous pouvons calculer la borne infrieure de line e tervalle de conance pour la moyenne dans un plan de sondage ` 2 strates. a 1. Nous prenons une valeur initiale t = 0. 2. Nous calculons 1 = W1 t/m et 2 = W2 t/n. 3. Nous calculons les solutions 1 (t) et 2 (t) de lquation (4.3). e 4. Nous valuons em,n {} ` laide des valeurs trouves en 3. e a e 5. Nous comparons em,n {} et 2 1,1 . (a) Si |em,n {}2 e e 1,1 | est petite, on sarrte et on note que la borne infrieure est gale ` W1 1 (t) + W2 2 (t). e a (b) Sinon on prend t = t + avec > 0, et on retourne ` ltape 2 jusqu` ce que a e a ltape 5.a soit vrie. e e e La borne suprieure est calcule dune faon similaire en choisissant e e c Exemple 4.1. (Exponentielle tronque ` 0 ) e a Dans cette section nous faisons une tude par simulation an de pouvoir calculer e un intervalle de conance pour la moyenne ` 95% dans un plan de sondage strati ` a ea deux strates, par la vraisemblance empirique prol et par le thor`me limite centrale. e e < 0.
Chapitre 4. Plan de sondage strati ` deux strates ea Pour le thor`me limite centrale on utilise la formule suivante e e
30
ICtlc = W1 X + W2 Y z/2
2 2 m1 W1 s2 + n1 W2 s2 , 1 2
s2 est la variance chantillonnale dans la strate i = 1, 2. e i Considrons une population de taille N avec deux strates 1 et 2. On tire deux e chantillons alatoires simples de taille m = 60 et n = 140 dans les strates 1 et 2. e e Le poids de la strate 1 est gal ` W1 = 0.4. Les chantillons sont issus de deux lois e a e exponentielles tronques ` 0 direntes. Les probabilits de succ`s dans les strates 1 et 2 e a e e e sont dnotes respectivement par px et py . En utilisant la paramtrisation de lquation e e e e e (2.3), nous crivons E[X] = px 1 et E[Y ] = py 2 . Pour toutes les simulations nous prenons 1 = 1/px et 2 = 1/py . Ainsi, la moyenne dans la population est gale ` e a = W1 E[X] + W2 E[Y ] = W1 px 1 + W2 py 2 = 1.
Nous prsentons dans le tableau ci-dessous pour direntes valeurs de px et py , les e e estims du taux de conance rel et les taux de non couverture ` gauche et ` droite. e e a a px 0.15 0.25 0.50 0.75 0.95 py 0.10 0.15 0.15 0.50 0.85 vraisemblance empirique tncg % tncd % tcr % 3.33 4.67 92.00 2.80 5.00 92.20 1.60 4.80 93.60 1.80 2.60 95.60 2.20 4.20 93.60 thor`me limite centrale e e tncg % tncd % tcr % 2.00 8.67 89.33 1.00 7.40 91.60 0.20 7.80 92.00 0.80 4.20 95.00 1.40 5.00 93.60
Tab. 4.1 Taux de conance rels et les taux de non couverture pour les donnes e e simules ` partir de deux lois exponentielle direntes tronques ` 0 avec m = 60 et e a e e a n = 140 En vertu de ce tableau, nous voyons que le taux de conance calcul par la mthode e e du thor`me limite centrale est toujours infrieur ou gal ` celui trouv par la vraiseme e e e a e blance empirique prol. Le thor`me limite centrale donne des intervalles de conance e e avec des taux de non couverture tr`s dsquilibrs. e ee e Le programme R que nous avons utilis pour faire cette simulation est prsent en e e e annexe F.
Chapitre 4. Plan de sondage strati ` deux strates ea
31
4.3
Exemple
Considrons une population de taille N = 1602 comts avec deux strates N1 = 220 e e et N2 = 1382. Les strates 1 et 2 sont respectivement les rgions nord-est et sud de e Etats-Unis, voir Lohr (1999) chapitre 4. Le poids de la strate 1 est gal ` W1 = 0.14. e a Le nombre dacres dans un comt consacr ` la ferme en 1992 a t observ pour un e ea ee e chantillon strati de taille 156 (m=21, n=135). e e Lintervalle de conance ` 95% pour le nombre moyen dacres consacr ` la ferme a ea en 1992 calcul par la vraisemblance empirique prol est gal ` e e a
ICve =
165 428, 236 069.7 .
(4.7)
Cet intervalle calcul avec le thor`me limite centrale est donn par e e e e
ICtlc =
161 411, 229 387.3 .
(4.8)
Nous voyons que la borne infrieure de lintervalle (4.7) est plus grande que celle de e lintervalle (4.8). Lintervalle de conance calcul par la vraisemblance empirique prol e est 3.9% plus long que lintervalle de conance du thor`me limite centrale. Le premier e e intervalle est dcal vers la droite par rapport au deuxi`me. e e e
Chapitre 5 Conclusion
Nous avons prsent dans cet essai la thorie du calcul dun intervalle de conance e e e pour la moyenne. Dans le cas dun chantillon alatoire simple contenant de nombreuses valeurs nulles, e e lintervalle de conance dcoulant du thor`me limite centrale na pas toujours un bon e e e taux de couverture. De plus il peut donner une borne infrieure ngative mme si la e e e variable ` ltude prend des valeurs positives ou nulles. Ce probl`me peut tre corrig si a e e e e on conna la distribution des donnes en ayant recours ` des intervalles calculs ` partir t e a e a de la vraisemblance prol pour la moyenne. Il est rare de conna la vraie distribution tre des donnes cest pourquoi nous suggrons de construire un intervalle de conance ` e e a partir de la vraisemblance empirique prol. Les simulations faitent montrent que les intervalles dduits de cette mthode non paramtrique sont souvent prfrables ` ceux e e e ee a calculs ` partir du thor`me limite centrale. Ils donnent des bornes infrieures positives e a e e e et des taux de non couverture plus quilibrs et plus pr`s de leurs valeurs nominales. e e e Dans ce travail nous avons calcul des intervalles de conance uniquement pour la e moyenne. Il serait intressant dans des travaux futurs dtudier la mthode de vraiseme e e blance empirique prol pour construire des intervalles de conance pour des param`tres e plus complexes.
Bibliographie
Chen, J., Chen, S. Y., Rao, J. N. K. (2003). Empirical likelihood condence intervals for the mean of a population containing many zero values. La Revue Canadienne de Statistique, 31 :53-68. Freund, John E., Walpole, Ronald E. (1987). Mathematical Statistics, Fourth Edition. Prentice-Hall, New Jersey. Hjek, J. (1960). Limiting distributions in simple random sampling from a nite poa pulation. Publication of the Mathematical Institute of the Hungarian Academy of Sciences, 5 :361-374. Hogg, Robert V., Craig, Allen T. (1995). Introduction to Mathematical Statistics. Prentice Hall, New Jersey. Kvanli, A. H., Shen, Y. K., Deng, L. Y. (1998). Construction of condence intervals for the mean of a population containing many zero values. Journal of Business and Economic Statistics, 16 :362-368. Lohr, Sharon L. (1999). Sampling : Design and Analysis. Duxbury, Etats-Unis. Owen, Art B. (2001). Empirical Likelihood. Chapman and Hall/CRC, Etats-Unis. Owen, Art B. (1990). Empirical likelihood condence regions. The Annals of Statistics, 18 :90-120. Venzon, D. J., Moolgavkar, S. H. (1988). A method for computing prole-likelihoodbased condence intervals. Applied Statistics, 37 :87-94 Wu, C. (2005). Algorithmes et codes R pour la mthode de la pseudo-vraisemblance e empirique dans les sondages. Techniques denqute, 31 :261-266. e
Annexe A Fonction R pour la vraisemblance empirique dans un plan alatoire e simple

#################################################################### # CALCUL DUN INTERVALLE DE CONFIANCE POUR LA MOYENNE # # DE X EN SE BASANT SUR LA VRAISEMBLANCE EMPIRIQUE # #################################################################### #quation(3) de larticle de CHEN et al. (2003) E ftek<-function(lamb,xf,muf){sum((xf-muf)/(1+lamb*(xf-muf)))} #Variable en entre e #x = Donnes de lchantillon alatoire simple e e e #En sortie: bornes dintervalle de confiance ma_fonction <- function(x) { diff<- 0.00001 #diff est la diffrence entre t1 et t2 e alpha<-0.05 #******************************************************************* # Calcul de la borne suprieure de cet intervalle e # #******************************************************************* t1<-mean(x) #t1 est la moyenne de x t2<-max(x) #t2 est le maximum de x repeat { mu<-((t1+t2)/2) #On dfinit les bornes infrieure(bi) et suprieure(bs) e e e
Annexe A. Fonction R pour la vraisemblance empirique dans un plan alatoire simple35 e #pour toutes les valeurs possibles de lamb bi<-(-1/max(x-mu))+0.000000001 bs<-(-1/min(x-mu))-0.000000001 #lamb est la solution de lquation (3) e lamb<-uniroot(ftek,lower=bi,upper=bs,xf=x,muf=mu)$root #Le rapport de vraisemblance profil de mu er<-2*sum(log(1+(lamb*(x-mu)))) #Le (1-alpha)quantile de la loi de Khi-deux avec #un degr de libert e e quantile<-qchisq((1-alpha),1) if (er>quantile) t2<-mu if(er<quantile) t1<-mu if (abs(t1-t2)<diff) break #bsupve est la borne suprieure de cet intervalle e bsupve<-mu } #******************************************************************* # Calcul de la borne infrieure de cet intervalle e # #******************************************************************* t1<-mean(x) #t1 est la moyenne de x t2<-min(x) #t2 est le minimum de x repeat { mu<-((t1+t2)/2) bi<-(-1/max(x-mu))+0.000001 bs<-(-1/min(x-mu))-0.000001 lamb<-uniroot(ftek,lower=bi,upper=bs,xf=x,muf=mu)$root er<-2*sum(log(1+(lamb*(x-mu)))) quantile<-qchisq((1-alpha),1) if (er>quantile) t2<-mu if(er<quantile) t1<-mu if (abs(t1-t2)<diff) break #binfve est la borne infrieure de cet intervalle e binfve<-mu } list(ICve=c(binfve,bsupve)) #ICve est un intervalle de confiance } ma_fonction(pmax(0,rnorm(100)))
Annexe B Macro SAS

/******************************************************************/ /******************************************************************/ /*** CALCUL DUN INTERVALLE DE CONFIANCE POUR LA MOYENNE ***/ /*** EN SE BASANT SUR LA VRAISAMBLANCE EMPIRIQUE PROFIL ***/ /*** ***/ /*** La macro intek nous permet de calculer cet intervalle ***/ /*** dans une population contenant plusieurs valeurs zro. ***/ e /*** ***/ /*** Variables dentre: e ***/ /*** ***/ /*** data = est un fichier des donnes e ***/ /*** x = est une variable du fichier ***/ /*** ***/ /*** Variables de sortie: ***/ /*** ***/ /*** bsupve = est la borne suprieure de cet intervalle e ***/ /*** binfve = est la borne infrieure de cet intervalle e ***/ /*** ***/ /*** Remarque: ***/ /*** ***/ /*** Si on a plusieurs variables du fichier des donnes, e ***/ /*** il faut quelles poss`dent les m^mes nombres e e ***/ /*** dobservations. Cest ` dire nous mettons un point a ***/ /*** ` la place dune donne manquante. a e ***/ /*** ***/ /*** Exemple: ***/
Annexe B. Macro SAS /*** ***/ /*** data lecture; ***/ /*** input x @@; ***/ /*** cards; ***/ /*** 0 0 0 0 0 0 0 2.447904 0.814802 1.659665 ***/ /*** ; ***/ /*** %include "intervalle.sas"; ***/ /*** %intek(data=lecture, var=x); ***/ /*** ***/ /******************************************************************/ /******************************************************************/ /*** ***/ /*** Programme ralis par Tekaya Mohamed Ridha e e ***/ /*** (Ao^t 2005) u ***/ /*** ***/ /******************************************************************/ /******************************************************************/ %macro intek(data=,var=); proc iml; use &data; read all var{&var} into tx; x=t(tx); n=ncol(x); qtil=cinv(0.95,1); t1=sum(x)/n; t2=min(x); start ftek(x,mu,lamb); /*ftek est une fonction dcroissante */ e ftek=sum((x-mu)/(1+lamb*(x-mu))); return (ftek); /*ftek est lquation (3) de larticle de e */ finish ftek; /* Chen et al. (2003)*/ *******************************************************************; *** Calcul de la borne infrieure de cet intervalle e ***; *******************************************************************; DO UNTIL(compar<0.00001); mu=((t1+t2)/2); bi=-1/(max(x-mu))+0.000000001; /*bi est la borne infrieure*/ e /*pour les valeurs de lamb */ bs=-1/(min(x-mu))-0.000000001; /*bs est la borne suprieure*/ e /*pour les valeurs de lamb */ a=do(bi,bs,0.0001); /*on cre un vecteur a e */
37
Annexe B. Macro SAS /*on donne des valeurs */ /*initiales pour result et k*/ /*losque la condition (result<0) est /*vrifie, on termine la boucle e e */ */
38
result=10; k=0; DO UNTIL(result<0);
k=k+1; lamb=a[k]; result=ftek(x,mu,lamb); END; /*ibi est la derni`re valeur du vecteur a */ e /*o` (result>0) u */ ibs=a[k]; /*ibs est la premi`re valeur du vecteur a */ e /*o` (result<0) u */ b=do(ibi,ibs,0.0000001); /*on cre un vecteur b e */ y=ncol(b); vecone=j(1,y,.); /*vecone est un vecteur de m^me dimension */ e /*que le vecteur b */ DO i=1 to y by 1; /*pour toutes les valeurs du vecteur b on */ /*calcule ftek et nous mettons ces valeurs */ /*dans le vecteur vecone */ vecone[i]=ftek(x,mu,b[i]); END; vecdeux=abs(vecone); /*on calcule la valeur absolue de */ /*chaque valeur du vecteur vecone */ solftek=min(vecdeux); /*solftek est le minimum de toutes */ /*les valeurs du vecdeux */ DO i=1 to y by 1; /*lamb est la solution de lquation (3) e */ /*avec cette boucle nous trouvons lamb */ IF (vecdeux[i] <= solftek) THEN lamb=b[i]; END; er=2*sum(log(((x-mu)*lamb)+1)); /*avec le lamb trouv, nous */ e /*calculons er */ IF (er> qtil) THEN t2=mu; ELSE t1=mu; compar=abs(t1-t2); END; binfve=mu; /*binfve est la borne infrieure de cet intervalle */ e *******************************************************************; *** Calcul de la borne suprieure de cet intervalle e ***; *******************************************************************; ibi=a[k-1];
Annexe B. Macro SAS n=ncol(x); qtil=cinv(0.95,1); t1=sum(x)/n; t2=max(x); DO UNTIL(compar<0.00001); mu=((t1+t2)/2); bi=-1/(max(x-mu))+0.000000001; bs=-1/(min(x-mu))-0.000000001; a=do(bi,bs,0.0001); result=10; k=0; DO UNTIL(result<0); k=k+1; lamb=a[k]; result=ftek(x,mu,lamb); END; ibi=a[k-1]; ibs=a[k]; b=do(ibi,ibs,0.0000001); y=ncol(b); vecone=j(1,y,.); DO i=1 to y by 1; vecone[i]=ftek(x,mu,b[i]); END; vecdeux=abs(vecone); solftek=min(vecdeux); DO i=1 to y by 1; IF (vecdeux[i] <= solftek) THEN lamb=b[i]; END; er=2*sum(log(((x-mu)*lamb)+1)); IF (er> qtil) THEN t2=mu; ELSE t1=mu; compar=abs(t1-t2); END; bsupve=mu; /*bsupve est la borne suprieure de cet intervalle e print binfve bsupve; %mend; /*on donne des valeurs */ /*initiales pour res, result*/ /*et k */
39
/*bi est la borne infrieure*/ e /*pour les valeurs de lamb */ /*bs est la borne suprieure*/ e /*pour les valeurs de lamb */
*/
Annexe C Le programme R pour lexemple 2.1

#################################################################### # SIMULATION DUNE EXPONENTIELLE AVEC MASSE ` 0 A # #################################################################### y<-rbinom(20000,1,0.75) z<-rexp(20000,rate=0.75) x<-y*z don<-matrix(x,500,40) stt<-function(x){(mean(x)-1)/(sqrt(var(x)/40))} valeur.de.t<-apply(don,1,stt) qqnorm(valeur.de.t) abline(0,1) stat1<-function(x){c(mean(x)-1.959964*(sqrt(var(x)/40)), mean(x)+1.959964*(sqrt(var(x)/40)))} nod<-apply(don,1,stat1) nodbi<-nod[1,] nodbs<-nod[2,] un<-rep(1,500) txreel<-(sum((un>nodbi)&(un<nodbs))/500)*100 ncg<-(sum(un<nodbi)/500)*100 nca<-(sum(un>nodbs)/500)*100 list(tx=c(ncg,txreel,nca))
Annexe D Le programme R pour lexemple 2.2

#################################################################### # SIMULATION DUNE EXPONENTIELLE AVEC MASSE ` 0 A # # AFIN DE TRACER LA FIGURE 2.2 # #################################################################### y<-rbinom(40,1,0.75) z<-rexp(40,rate=0.75) x<-y*z #le vecteur x est issu dune exponentielle avec masse ` 0 a n<-length(x) max<-max(x) k<-length(x[x<= 10e-16]) #k est le nombre des valeurs non nulles erreur<-(n-k) #erreur est le nombre des valeurs nulles parmi n lamch<-sum(x)/erreur #lamch est lestimateur de lambda much<-sum(x)/n seuil<-(qchisq(0.95,1)) #******************************************************************* # Rhomu est une fonction qui calcule 2*(l_p(much)-l_p(mu)) # #******************************************************************* denom<-((1-much/lamch)^k)*((much/(lamch^2))êrreur)*exp(-sum(x)/lamch) #La fonction Rhomu est une fonction importante quon dnote par "fimp" e Rhomu<-function(mu){-2*log(((1-(mu/(((2*n*mu+sum(x)-k*mu)/(2*erreur)+ sqrt(((2*n*mu+sum(x)-k*mu)/(2*erreur))^2-4*((sum(x))*mu)/(2*erreur))) /2)))^k)*((mu/((((2*n*mu+sum(x)-k*mu)/(2*erreur)+sqrt(((2*n*mu+sum(x)
Annexe D. Le programme R pour lexemple 2.2
42
-k*mu)/(2*erreur))^2-4*((sum(x))*mu)/(2*erreur)))/2)^2))êrreur)*exp( (-sum(x))/(((2*n*mu+sum(x)-k*mu)/(2*erreur)+sqrt(((2*n*mu+sum(x)-k*mu) /(2*erreur))^2-4*((sum(x))*mu)/(2*erreur)))/2))/denom)} #******************************************************************* # fRhomu est une fonction qui calcule [2*(l_p(much)-l_p(mu))]-seuil# #******************************************************************* #Il faut remplacer "fimp" par son expression pour pouvoir excuter e #le programme fRhomu<-function(mu){fimp-seuil} #******************************************************************* # Calcul des bornes infrieure et suprieure de lintervalle de e e # # confiance pour mu avec la vraisemblance profil # #******************************************************************* binf<-uniroot(fRhomu,lower=10e-10,upper=much)$root #binfmv est la borne infrieure e bsup<-uniroot(fRhomu,lower=much,upper=max)$root #binfmv est la borne suprieure e list(ICmv=c(binf,bsup)) #ICmv est un intervalle de confiance pour mu ******************************************************************** # Pour tracer la fonction (Rhomu) # #******************************************************************* muv<-seq(0,max,by=0.1) #muv est un intervalle des valeurs de mu taille<-length(muv) rhomu<-rep(0,taille) #on cre un vecteur de m^me taille que muv e e for (i in (1:taille)){rhomu[i]<-(Rhomu(muv[i]))} mu<-muv[rhomu<8] #on choisi les valeurs de mu o` (rhomu<8) u rhomu<-rhomu[rhomu<8] plot(mu,rhomu, type="l") abline(seuil,0)
Annexe D. Le programme R pour lexemple 2.2 #################################################################### # SIMULATION DUNE EXPONENTIELLE AVEC MASSE ` 0 A # EL ET # AFIN DE DESTIMER LE TAUX DE CONFIANCE RE # ` GAUCHE ET ` DROITE # LES TAUX DE NON COUVERTURE A A # #################################################################### #Il faut remplacer sum(x) par sum dans la fonction "fimp". y<-rbinom(20000,1,0.75) z<-rexp(20000,rate=0.75) x<-y*z matrice<-matrix(x,500,40) maxf<-function(x){max(x)} max<-apply(matrice,1,maxf) #on cre un vecteur de taille 500 qui e #contient des maximums kf<-function(x){length(x[x<= 10e-16])} k<-apply(matrice,1,kf) n=40 erreur<-(n-k) sumf<-function(x){sum(x)} sum<-apply(matrice,1,sumf) lamch<-sum/erreur much<-sum/n seuil<-(qchisq(0.95,1)) #******************************************************************* # Rho est une fonction qui calcule 2*(l_p(much)-l_p(mu)) # #******************************************************************* denom<-((1-much/lamch)^k)*((much/(lamch^2))êrreur)*exp(-sum/lamch) Rho<-function(mu){fimp} Rho1<-Rho(1) txr<-((sum(Rho1<seuil))/500)*100 #txr est lestimateur du taux de Rho11<-Rho(1.0001) #confiance rel e compar1<-Rho1[Rho1>seuil] compar11<-Rho11[Rho11>seuil] ncag<-((sum (compar1>compar11))/500)*100 ncad<-((sum(compar1<compar11))/500)*100 list(tstx=c(txr,ncag,ncad))
43
Annexe E Le programme R pour lexemple 3.1

#################################################################### # CALCUL DUN INTERVALLE DE CONFIANCE POUR LA MOYENNE # # EN SIMULANT UNE EXPONENTIELLE AVEC MASSE ` 0 A # #################################################################### y<-rbinom(20000,1,0.95) z<-rexp(20000,rate=0.95) x<-y*z matrice<-matrix(x,500,40) esperance=1 #esperance est gale ` E[x]=E[y]E[z] e a mu=esperance bif<-function(x){(-1/max(x-mu))+0.000000001} bi<-apply(matrice,1,bif) bsf<-function(x){(-1/min(x-mu))-0.000000001} bs<-apply(matrice,1,bsf) n=length(bs) lamb<-rep(0,n) erho1<-rep(0,n) for(i in 1:n) { x<-matrice[i,] ftek<-function(lamb){sum((x-mu)/(1+lamb*(x-mu)))} lamb[i]<-uniroot(ftek,lower=bi[i],upper=bs[i])$root erho1[i]<-2*sum(log(1+(lamb[i]*(x-mu)))) } seuil<-(qchisq(0.95,1)) txr<-((sum(erho1<seuil))/500)*100
Annexe E. Le programme R pour lexemple 3.1 compar1<-erho1[erho1>seuil] mu=esperance+0.00001 bif<-function(x){(-1/max(x-mu))+0.000000001} bi<-apply(matrice,1,bif) bsf<-function(x){(-1/min(x-mu))-0.000000001} bs<-apply(matrice,1,bsf) n=length(bs) lamb<-rep(0,n) erho11<-rep(0,n) for(i in 1:n) { x<-matrice[i,] ftek<-function(lamb){sum((x-mu)/(1+lamb*(x-mu)))} lamb[i]<-uniroot(ftek,lower=bi[i],upper=bs[i])$root erho11[i]<-2*sum(log(1+(lamb[i]*(x-mu)))) } compar11<-erho11[erho11>seuil] ncag<-((sum(compar1>compar11))/500)*100 ncad<-((sum(compar1<compar11))/500)*100 list(touslestx=c(ncag,txr,ncad))
45
Annexe F Fonction R pour la vraisemblance empirique dans un plan strati e

#################################################################### # CALCUL DUN INTERVALLE DE CONFIANCE POUR LA MOYENNE # # DANS UN PLAN DE SONDAGE ` DEUX STRATES A # #################################################################### #La fonction fstr calcule les bornes infrieure et suprieure avec e e #la vraisemblance empririque profil et le thor`me limite centrale. e e #La fonction fstr ne fonctionne pas si lun deux vecteurs x ou y #contient que des valeurs nulles. # Variables en entre e # x = Donnes de la strate 1 e # y = Donnes de la strate 2 e # w1 = poids relatif de la strate 1 # En sortie: bornes dintervalle de confiance fstr<-function(x,y,w1) { w2=1-w1 m=length(x) n=length(y) e1<-mean(x) e2<-max(x) d1<-mean(y) d2<-max(y) seuil<-(qchisq(0.95,1)) #---------------AVEC LA VRAISEMBLANCE EMPIRIQUE PROFIL---------------#
Annexe F. Fonction R pour la vraisemblance empirique dans un plan strati e
47
#---------------------------BORNE INFRIEURE-------------------------# E t=0 repeat { lamb1<-(w1*t)/m lamb2<-(w2*t)/n ftau1<-function(tau1){sum((x-tau1)/(1+lamb1*(x-tau1)))} ftau2<-function(tau2){sum((y-tau2)/(1+lamb2*(y-tau2)))} kx<-e2 repeat{ if (ftau1(kx)<0) break if (ftau1(kx)>0) kx<-(kx-0.5) } ky<-d2 repeat{ if ((ftau2(ky))<0) break if ((ftau2(ky))>0) ky<-(ky-0.5) } soltau1<-uniroot(ftau1,lower=0,upper=kx)$root soltau2<-uniroot(ftau2,lower=0,upper=ky)$root ertau<-2*sum(log(1+((w1*t)/m)*(x-soltau1)))+ 2*sum(log(1+((w2*t)/n)*(y-soltau2))) if ((ertau >= 3.831459) && (ertau<= 3.851459)) break if (ertau < 3.831459) t<-(t+0.1) if (ertau > 3.851459) t<-(t-0.001) } btfve<-(w1*soltau1+w2*soltau2) #------------------------BORNE SUPRIEURE------------------------# E t=0 repeat { lamb1<-(w1*t)/m lamb2<-(w2*t)/n ftau1<-function(tau1){sum((x-tau1)/(1+lamb1*(x-tau1)))} ftau2<-function(tau2){sum((y-tau2)/(1+lamb2*(y-tau2)))} kx<-e2 repeat{ if (ftau1(kx)<0) break if (ftau1(kx)>0) kx<-(kx-0.5) }
Annexe F. Fonction R pour la vraisemblance empirique dans un plan strati e ky<-d2 repeat{ if ((ftau2(ky))<0) if ((ftau2(ky))>0) break ky<-(ky-0.5)
48
} soltau1<-uniroot(ftau1,lower=0,upper=kx)$root soltau2<-uniroot(ftau2,lower=0,upper=ky)$root ertau<-2*sum(log(1+((w1*t)/m)*(x-soltau1)))+ 2*sum(log(1+((w2*t)/n)*(y-soltau2))) if ((ertau >= 3.831459) && (ertau<= 3.851459)) break if (ertau < 3.831459) t<-(t-0.1) if (ertau > 3.851459) t<-(t+0.001) } btsve<-(w1*soltau1+w2*soltau2) much=w1*e1+w2*d1 #---------------AVEC LE THOR`ME LIMITE CENTRALE------------------# E E zalpha<-(qnorm(0.975,0,1)) ybar.str<-w1*e1+w2*d1 cx<-(w1^2)/m cy<-(w2^2)/n var.ybar.str<-sum(cx*var(x)+cy*var(y)) #--------------------------BORNE INFRIEURE------------------------# E bftlc<-(ybar.str-zalpha*sqrt(var.ybar.str)) #------------------------BORNE SUPRIEURE--------------------------# E bstlc<-(ybar.str+zalpha*sqrt(var.ybar.str)) list(ICve=c(btfve,btsve),ICtlc=c(bftlc,bstlc),much=much) } #Fin de la fonction. fstr(x=,y=,w1=0.4)

MR-Tekaya 06

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

MR-Tekaya 06

Transféré par

Droits d'auteur :

Formats disponibles

MOHAMED RIDHA TEKAYA

FACULTE DES SCIENCES ET DE GENIE LAVAL UNIVERSITE QUEBEC

c Mohamed Ridha Tekaya, 2006

Table des mati`res e

Liste des tableaux

3.1 3.2 4.1

Table des gures

Chapitre 2 Calcul dintervalle de conance pour une moyenne

Chapitre 2. Calcul dintervalle de conance pour une moyenne

Mthode traditionnelle destimation de e

X tn1,/2 s/ n s s = P X tn1,/2 X + tn1,/2 . n n

X z/2 s/ n s s = P X z/2 X + z/2 . n n

On obtient lintervalle de conance suivant

s s ICtlc = X z/2 , X + z/2 . n n (2.2)

Chapitre 2. Calcul dintervalle de conance pour une moyenne

Quantiles of Standard Normal

Fig. 2.1 Droite de Henry pour les donnes de T e

Chapitre 2. Calcul dintervalle de conance pour une moyenne

Le nombre de fois o` appartient ` lIC calcul u a e . Le nombre de simulations

P (Y = 1) 0.25 0.50 0.75 0.85 0.95

Chapitre 2. Calcul dintervalle de conance pour une moyenne

l(1 , . . . , m ) = log L(1 , . . . , m )

1 ,...,m , =g(1 ,...,m )

Chapitre 2. Calcul dintervalle de conance pour une moyenne

2n0 + n xi k0 i=1 2(n k)

Chapitre 2. Calcul dintervalle de conance pour une moyenne

Chapitre 2. Calcul dintervalle de conance pour une moyenne

P (Y = 1) 0.25 0.50 0.75 0.85 0.95

Limites de ces mthodes e

Chapitre 3 La vraisemblance empirique

Estimation de la fonction de rpartition e

pour tout < x < +.

si A est vraie sinon .

Si G = Fn alors L(G) < L(Fn ).

Chapitre 3. La vraisemblance empirique

g(x) 0 log(x) x 1. En utilisant lingalit (3.1) on obtient que e e

Do`, u L(G) < L(Fn ).

Ces deux derni`res dnitions et thor`me sont tirs du chapitre 2 de Owen(2001). e e e e e

Intervalle de conance pour

Chapitre 3. La vraisemblance empirique

En calculant la drive partielle de G par rapport ` pi , nous trouvons le maximum e e a de el(F ) :

On peut crire aussi que e

Chapitre 3. La vraisemblance empirique

max el(F ) Pn i=1 pi =1

Chapitre 3. La vraisemblance empirique

Le param`tre sappelle le multiplicateur de Lagrange ; il rsout lquation suivante e e e

max el() P pi =1, n pi Xi = i=1 1 n 1 + (Xi )

log{1 + (Xi )}.

Chapitre 3. La vraisemblance empirique

max el() Pn i=1 pi =1

Lalgorithme dtaill de calcul e e

Chapitre 3. La vraisemblance empirique

Chapitre 3. La vraisemblance empirique

Chapitre 3. La vraisemblance empirique

intervalle de conance pour X2 BINFVE 0.070462 BSUPVE 0.783999

Etude par simulation

Chapitre 3. La vraisemblance empirique

P (Y = 1) 0.25 0.50 0.75 0.85 0.95

Chapitre 3. La vraisemblance empirique

Chapitre 4 Plan de sondage strati ` deux ea strates

Thorie de calcul de lintervalle de conance e

Sous ces contraintes

le maximum de elm,n est atteint lorsque pi = 1/m et qj = 1/n, ` savoir a