Vous êtes sur la page 1sur 114

BENEMRITA

UNIVERSIDAD
AUTNOMA DE PUEBLA
FACULTAD DE CIENCIAS FSICO
MATEMTICAS

Desempeo de intervalos de conanza para


una proporcin y criterios para su
aplicacin.

TESIS

para obtener el ttulo de :

LICENCIADO EN
MATEMTICAS

presenta :

MARCOS MORALES CORTS

directores de tesis:

DR. FLIX ALMENDRA ARAO


DRA. HORTENSIA J. REYES CERVANTES

PUEBLA, PUE. DICIEMBRE 2017


2
Agradecimientos
ii
ndice

1. introduccin 1
1.1. Revisin de la literatura . . . . . . . . . . . . . . . . . . . . . . 3
1.2. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2. Preliminares 5
2.1. Distribucin Binomial . . . . . . . . . . . . . . . . . . . . . . . 5
2.2. Algunos tipos de convergencia . . . . . . . . . . . . . . . . . . . 9
2.3. Estimacin puntual . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.4. Pruebas de hiptesis. . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4.1. Mtodos de evaluacin de pruebas. . . . . . . . . . . . . 18
2.4.2. Pruebas para muestras grandes. . . . . . . . . . . . . . . 19
2.5. Intervalos de conanza . . . . . . . . . . . . . . . . . . . . . . . 21
2.5.1. Mtodos para encontrar estimadores por intervalo. . . . . 23

3. Intervalos de conanza para una proporcin 27


3.1. Intervalo de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.2. El intervalo de Wilson . . . . . . . . . . . . . . . . . . . . . . . 39
3.3. El intervalo de Agresti-Coull . . . . . . . . . . . . . . . . . . . 39
3.4. Intervalo Arcoseno . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.5. Intervalo de Clopper-Pearson . . . . . . . . . . . . . . . . . . . 40

iii
4. Comparacin de los intervalos de conanza 43
4.1. ndices de comparacin de un intervalo de conanza . . . . . . 44
4.2. Anlisis del comportamiento del intervalo de Wald sujeto a los
criterios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.3. Estudio sobre tamaos de muestra y variaciones de p . . . . . . 54
4.4. Desempeo de los intervalos alternativos . . . . . . . . . . . . . 57
4.5. Comparacin de los intervalos alternativos . . . . . . . . . . . . 73

5. Conclusiones 89

A. Teoremas 91

B. Programas para calcular los ndices de comparacin 99

viii
Captulo 1

introduccin

La distribucin binomial es muy conocida en la estadstica aplicada, se ob-


tiene a partir de ensayos Bernoulli, que son realizaciones independientes con
una probabilidad de xito o fracaso conocida p. Si p permanece constante en
cada realizacin del ensayo y n toma cualquier valor entero, la variable alea-
toria que cuenta el nmero de xitos en los n ensayos tiene una distribucin
binomial. Si se satisfacen las condiciones anteriores se puede aplicar a dife-
rentes reas del conocimiento: como estudios de mercado, muestreo, industria,
qumica, control de calidad, ingeniera, etc. Tambin es comn encontrarla en
estudios con tratamientos, en la industria farmacutica, industrial y espacial
entre otros. En la mayora de los casos el parmetro p es desconocido y por
tanto el investigador estar interesado en estimarlo ya sea por medio de un
estimador puntual o por un estimador por intervalo (intervalo de conanza),
en este trabajo se tratar el segundo caso.
En la presente tsis se revisa uno de los problemas ms importantes en
la prctica estadstica, la estimacin por intervalo de la probabilidad de xito
en una distribucin binomial, el cual ha sido tratado por varios autores, por
ejemplo Agresti & Coull [1], Agresti & Cao [2], Brown y Cai & DasGupta ([6]
y [7]) entre otros. En la mayora de libros a un nivel elemental, por ejemplo

1
[9] y [13], se presenta un intervalo de conanza que ha adquirido aceptacin
casi universal en la prctica. Este intervalo es conocido como el intervalo de
Wald, ya que proviene de la prueba de Wald para muestras grandes para el
caso binomial.
Sin embargo diversos autores por ejemplo Agresti-Coull [1], Agresti-Cao
[2], Brown, Cai y DasGupta [6] y Ghosh [12] han demostrado que este inter-
valo tiene serios problemas sobre todo cuando p est cerca de los extremos
del intervalo (0,1) o cuando n es pequeo, e incluso, se ha sealado tambin
que la probabilidad de cobertura del intervalo de Wald puede estar muy por
debajo del coeciente de conanza incluso si p est alejado de los extremos
del intervalo (0,1) y adems, tambin cuando n es demasiado grande. Debido
a las inconsistencias en la probabilidad de cobertura del intervalo de Wald en
diversos textos al presentarlo se le incluye una condicin o sugerencia para su
uso, esperando que con ello su desempeo mejore notablemente, Brown, Cai
y DasGupta en su artculo [6] registra las condiciones ms comunes que se
presentan en diversos textos al tratar este tema, en este trabajo a estas con-
diciones se les da el nombre de criterios. En el captulo 2 se hace un resumen
de los conceptos bsicos de la estimacin puntual y por intervalos relacionados
con observaciones Bernoulli que dan el inicio para el desarrollo del trabajo.
En el captulo 3 se presenta al intervalo de Wald y se muestran las principa-
les inconsistencias de este, tambin se presentan las condiciones ms comunes
registrados por Brown [6] para el uso del intervalo de Wald y nalmente se
presentan otros intervalos que resaltan en la literatura como opcin alternati-
va.
En el captulo 4 se comienza mostrando que el raro comportamiento de la
probabilidad de cobertura del intervalo de Wald es bastante ms profundo, y
que este no mejora lo suciente an cuando se aplican los criterios o sugerencias
para su uso ni cuando n es muy grande. El mal comportamiento del intervalo de

2
Wald se presenta tanto para p como para n. Se analizar su comportamiento
variando ambos parmetros haciendo uso de las cantidades obtenidas de la
evaluacin de un intervalo, el mismo anlisis se realizar para comparar otros
intervalos que son sugeridos en la literatura. En el captulo 5, se presentan
las conclusiones sobre este anlisis al mismo tiempo se harn recomendaciones
sobre la eleccin de un intervalo especco y de algn criterio para el uso en la
prctica para diferentes valores de p y n.
Se realizaron programas en R con la nalidad de poder analizar de una
forma factible el comportamiento del intervalo de Wald y de los otros intervalos,
los programas pueden ser vistos en el Apndice.

1.1. Revisin de la literatura


Agresti A. and Coull B. [1] llegan a la conclusin de que los intervalos exac-
tos adems de tener probabilidades de cobertura que son mayores al nivel de
conanza nominal (1) estn puede ser mucho mayor que ese nivel. Tambin
muestran que los intervalos de Agresti-Coull y de Wilson (conocidos como in-
tervalos aproximados) en ocasiones pueden tener probabilidades de cobertura
inferiores al nivel de conanza nominal (1 ), pero la probabilidad de co-
bertura es cercana a ese nivel. As que concluyen que para la mayora de las
aplicaciones, se deben preferir a los intervalos de Wilson y de Agresti-Coull.
Tambin recomiendan fuertemente que los instructores presenten el interva-
lo de Wilson en lugar del intervalo de Wald y Santner [21] hace la misma
recomendacin.
Las conclusiones obtenidas por Brown en su artculo [6] son que el intervalo
de Wilson sea usado para n pequeos (n 40) y el de Agresti-Coull para n
grandes (n 40), los artculos [10] y [18] concuerdan con esto, sin embargo
[10] arma que si lo que se desea es que en promedio se tenga una cobertura de

3
100(1-) %, entonces la alternativa ms recomendada est dada por el inter-
valo de Wilson, sin embargo tambin aaden que este procedimiento es muy
complicado de presentar en niveles elementales. En [18] se concluye que los
criterios tienen buen desempeo para tamaos de muestra superiores a 1000,
teniendo un desempeo similar, destacando la condicin de que el intervalo de
Wald sea usado solo si n 50 y 0.2 p 0.8.

1.2. Objetivos
1. Revisin bibliogrca de los estudios que se han realizado sobre los in-
tervalos de conanza para una proporcin.

2. Realizar programas en R para calcular las respectivas probabilidades de


cobertura y longitudes de los intervalos de conanza para una proporcin.

3. Realizar comparaciones de los diferentes criterios as como de los inter-


valos de conanza.

4. Presentar imgenes y tablas con el n de mostrar el comportamiento de


los intervalos de conanza.

5. Proporcionar al lector recomendaciones sobre el uso de un intervalo y


criterio.

4
Captulo 2

Preliminares

Un problema estadstico muy comn es la estimacin de los parmetros que


ayudan a caracterizar una variable aleatoria (v.a.). Un intervalo de conanza
nos permite hacer investigaciones sobre qu valores se pueden esperar para
un parmetro. Los intervalos de conanza dependen de la muestra aleatoria,
del tamao muestral y del nivel de conanza seleccionado. A continuacin
se presentan algunos conceptos bsicos relativos a la distribucin binomial,
prueba de hiptesis e intervalos de conanza (ver [9]) as como otros conceptos.

2.1. Distribucin Binomial


En la mayora de las disciplinas del conocimiento cuando se trabaja con
individuos (objetos, plantas, animales o personas) es frecuente realizar expe-
rimentos en los cuales se tienen dos posibles resultados mutuamente exclu-
yentes, llamados xito (E) y fracaso (F) en donde P(E)=p y la P(F)=1 p
con p [0, 1], a tales experimentos se les conoce como experimentos Bernoulli
(B(p)), si se llevan a cabo n repeticiones independientes de dicho experimento
de tal forma que en cada una de las repeticiones P (E) = p y P (F) = 1 p,
la variable aleatoria X que cuenta el nmero de xitos en los n ensayos es

5
una variable aleatoria binomial (X B(n, p)) con funcin de densidad de
probabilidad.
(
n

px (1 p)nx , x = 0, 1, 2, . . . , n;
fX (x) = x
0 p 1. (2.1)
0, de otra forma,
y funcin masa de probabilidad
y  
n x
(2.2)
X
FX (y) = p (1 p)nx .
x=0
x

Teorema 2.1. Si X B(n, p) entonces (a) E(X) = np y (b) V ar(X) =


np(1 p).

Demostracin. (a) Por la denicin de esperanza de una variable aleatoria


discreta y por la ecuacin (2.1) se obtiene que:
n
n

px (1 p)nx
P
E(X) = x x
x=0

se observa que el primer trmino de la suma es 0 y, por tanto:


n n! n n!
px (1 p)nx = px (1 p)nx
P P
E(X) = x
x=1 (n x)!x! x=1 (n x)!(x 1)!
factorizando np en cada trmino de la suma y si z = x 1,
n (n 1)!
px1 (1 p)nx
P
E(X) = np
x=1 (n x)!(x 1)!

n1 (n 1)!
pz (1 p)n1z
P
E(X) = np
z=0 (n 1 z)!(z)!
n1
n1
 z
p (1 p)n1z
P
E(X) = np z
z=0

se observa que fz (z) = n1 p (1 p)n1z es la funcin de densidad de pro-


 z
z
babilidad binomial basada en (n 1) pruebas y que por lo tanto fz (z) = 1
P
z
por tanto E(X) = np.
(b) La varianza puede ser calculada como (ver [9] pag. 60) :

6
V ar(X) = E(X 2 ) (E(X))2

por la parte (a) E(X) = np, as que solo faltara calcular E(X 2 )
n
n

E(X 2 ) = x2 px (1 p)nx
P
x
x=0

nuevamente se observa que el primer trmino de la suma es 0 y por tanto


n n n!
n
 x
E(X 2 ) = x2 p (1 p)nx = px (1 p)nx
P P
x
x
x=1 x=1 (n x)!(x 1)!
n (n 1)!
E(X 2 ) = np px1 (1 p)nx
P
x
x=1 (n x)!(x 1)!
si y = x 1 entonces tenemos
n1 (n 1)!
E(X 2 ) = np py (1 p)n1y
P
(y + 1)
y=0 (n 1 y)!(y)!
n1 (n 1)! n1 (n 1)!
py (1p)n1y +np py (1p)n1y
P P
= np y
y=0 (n 1 y)!(y)! y=0 (n 1 y)!(y)!
   
n1 n1 y n1y
P n1 y
n1
p (1 p)n1y
P
= np y p (1 p) + np
y=0 y y=0 y

note que fy (y) = n1 p (1 p)n1y es la funcin de probabilidad binomial


 y
y
n1 n1
basada en (n 1) pruebas y por lo tanto fy (y) = 1 y
P P
yfy (y) = E(Y ) =
y=0 y=0
(n 1)p, por lo tanto

E(X 2 ) = np(n 1)p + np = n(n 1)p2 + np

nalmente

V ar(X) = E(X 2 ) (E(X))2 = n(n 1)p2 + np n2 p2 = np(1 p).

Otra variable aleatoria de gran importancia y que posteriormente ser muy


usada es una variable aleatoria normalmente distribuida, denida como.

7
Denicin 2.1. Se dice que la variable aleatoria continua X tiene una distri-
bucin normal si su funcin de densidad est dada por la siguiente expresin
1
(2.3)
2 2
f (x) = e(x) /(2 ) ,
2
donde R (R representa al conjunto de nmeros reales) y > 0 son dos
parmetros y se denota X N (, 2 ).
Las reas bajo la funcin de densidad normal correspondientes a P (a
X b) requieren la evaluacin de la integral, es decir:
Z b
1
(2.4)
2 2
P (a X b) = e(x) /(2 ) .
a 2
Teorema 2.2. Si X es una variable aleatoria normalmente distribuida con
parmetros y , entonces E(X) = y V ar(X) = 2 .

Demostracin. Ver [8] pag. 133.

Se dice que una variable aleatoria X tiene una distribucin normal estndar
si tiene una distribucin normal con parmetros = 0 y 2 = 1 (X N (0, 1)).
Es posible transformar una variable aleatoria normal no estndar en una es-
tndar mediante la siguiente operacin.
X
Teorema 2.3. Si X N (, 2 ) entonces la variable aleatoria Z =

tiene una distribucin N(0,1).

Demostracin. Por denicin


FZ (z) = P (Z z)
 
X
=P z

= P (X + z)

Por lo tanto

8
fZ (z) = fX ( + z)
1 2
fZ (z) = ez /2 .
2

De esta manera an cuando hay un nmero innito de distribuciones nor-


males ( puede tomar cualquier valor nito, en tanto que puede tomar cual-
quier valor nito positivo), slo es necesaria una tabla, la Tabla 4, Apndice 3
[23].
En la presente tsis se menciona en varias ocasiones el valor = z 2 =
1 (1 /2) donde (z) es la funcin de distribucin de una normal estndar,
es el valor que cumple que:

P (Z ) = P (Z z 2 ) = 1 ; (2.5)
2
en la mayora de ejemplos presentados en esta tsis = 0.05 entonces es el
valor tal que

P (Z ) = 1 = 0.975;
2
como
P (Z ) = 1 P (Z )

entonces es tal que P (Z ) = = 0.025, por lo tanto 1.96 (ver [23],
2
pag 848).

2.2. Algunos tipos de convergencia


Convergencia en probabilidad
Denicin 2.2. Se dice que una sucesin de variables aleatorias X1 , X2 , ...,
converge en probabilidad a la variable aleatoria X denotado por Xi
X si,
P

para cada  > 0,

9
lm P (|Xi c| ) = 0, o equivalentemente, lm P (|Xi c| < ) = 1
i i

Teorema 2.4. Si Xi y Yi son dos sucesiones de variables aleatorias que satis-


facen que Xi
X y Yj
Y , entonces
P P

Xi + Yj
P
X + Y, (2.6)

Xi Yj
P
X y, (2.7)
P
Xi Yj
XY, (2.8)

Xi P X

si Y 6= 0. (2.9)
Yj Y
Demostracin. Demostracin ver [13].

Convergencia en distribucin
Denicin 2.3. Sea X1 , X2 , ..., una sucesin de variables aleatorias con fun-
cin de distribucin de probabilidad acumulativa FXi y X una variable alea-
toria con funcin de distribucin de probabilidad acumulativa FX . Se dice que
Xi converge en distribucin a X (denotado como Xi X ) si
D

lm FXi = FX ,
i

en todos los puntos donde FX es continua.

Denicin 2.4. Sea X una variable aleatoria con funcin de distribucin


acumulada FX . La funcin generadora de momentos de X denotada por MX (t),
es

MX (t) = E[etX ],

con la condicin de que la esperanza exista para t en alguna vecindad del 0.


Esto es, hay un h > 0 tal que, para todo t con, h < t < h, E[etX ] existe.

10
Ms explcitamente se puede escribir a la funcin generadora de momentos de
X como

si X es discreta ;
( P
etX p(x),
MX (t) = E[etX ] = (2.10)
e f (x)dx, si X es continua.
R tX

Proposicin 2.1. La funcin generadora de momentos de una variable alea-


toria normal estndar Z est dada por
t2
MZ (t) = e 2 .

Demostracin.
Mz (t) = E[etZ ]
Z
1 2
= etz ez /2 dz
2
Z
1 z 2 2tz
= e 2 dz
2
Z
1 (zt)2 t2
= e 2 + 2 dz
2
Z
t2 1 (zt)2
=e2 e 2 dz
2
t2
=e2

Teorema 2.5. Sean FX y FY dos funciones de distribucin acumulada y sean


MX (t) y MY (t) sus funciones generadoras de momentos respectivamente, si
MX (t) = MY (t) para todo t en alguna vecindad del 0, entonces

FX (u) = FY (u)

para toda u.

Demostracin. Ver [24].

11
Teorema 2.6. Sean X1 , X2 , ..., una sucesin de variables aleatorias tal que
MXi (t) es la funcin generadora de momentos de Xi , adems suponga que

lm MXi (t) = MX (t), para t en alguna vecindad del 0.


i

donde MX (t) es una funcin generadora de momentos. Entonces hay una nica
funcin de distribucin acumulada FX y cuyos momentos son determinados por
MX (t), para todo x donde FX (x) es continua, se tiene

lm FXi (x) = FX (x). (2.11)


i

Es decir, la convergencia, para |t| < h de funciones generadoras de momentos a


una funcin generadora de momentos implica la convergencia de las funciones
de distribucin acumuladas.
Demostracin. Ver [24].
Teorema 2.7 (Teorema central del lmite). Sea X1 , X2 , . . . variables aleato-
rias independientes e idnticamente distribuidas cuyas funciones generatrices
de momentos existen en alguna vecindad alrededor 0 (esto es, MXi (t) existe
para |t| <h para algn h positivo). Sea E[Xi] = y V ar(Xi) = 2 > 0 ( y
2 son nitos puesto que la funcin generatriz de momentos existe). Se de-
ne Xn = (1/n) ni=1 Xi y sea Gn (x) la funcin de distribucin acumulada de
P

n(Xn )/ . Entonces para < x < :

Rx 2
lm Gn (x) = 1 ey /2 dy;
n 2

esto es, n(Xn )/ tiene distribucin lmite normal estndar.

Demostracin. Se prueba que para |t|<h, la funcin generatriz de momentos



de n(Xn )/ converge hacia et /2 , la funcin generatriz de momentos de
2

una variable aleatoria normal estndar (N(0, 1)).


Se dene Yi = (Xi )/ y sea MY (t) la funcin generatriz de momentos de
las Yi s, las cuales existen para |t| < h. Sea W tal que:

12

n(Xn )
Yi ,
Pn
W = = 1
n i=1

entonces:

MW (t) = M 1 Pn
i=1 Yi
(t) = MPni=1 Yi (t/ n) = [MY (t/ n)]n .
n

Expandiendo en series de Taylor,




MY (t/ n) =
(k) (t/ n)k
donde MY(k) (0) = dk
.
P
k=0 MY (0) k! dtk
MY (t)
t=0

Como la funcin generatriz de momento existe para |t|<h, la expresin en



serie de potencias es vlida si t < nh. Usando el hecho de que MY(0) = 1,
MY = 0 y MY = 1, ya que por construccin la media y varianza de Y son 0
(1) (2)

y 1 respectivamente. Entonces:

(t/ n)2
MY (t/ n) = 1 + 2!
+ RY (t/ n)

donde RY es el residuo en la expansin de Taylor.



(t/ n)k
,
P (k)
RY (t/ n) = k=3 My (0)
k!
para t 6= 0 jo, se tiene:

RY (t/ n)
lm 2 = 0.
n (t/ n)

Como t es ja, se tiene:


 
RY (t/ n) t
lm = lm nRY =0
n (1/ n)2 n n

y lo anterior se cumple tambin en t=0 ya que RY (0/ n) = 0, as que para t
jo, se tiene;
n n
 
 (t/ n)2
lm MY (t/ n) = lm 1 + 2! + RY (t/ n)
n n
n

 
1 t2
= lm 1 + n 2 + nRY (t/ n)
n

y por ltimo se tiene:


 n 2
lm MY (t/ n) = et /2
n

13
que es la funcin generatriz de momentos de la distribucin N(0,1).
Teorema 2.8 (Teorema de Slutsky).
Si Xn X en distribucin y Yn a en probabilidad, donde a es una cons-
tante entonces:

Yn Xn aX en distribucin.

Yn + Xn X + a en distribucin.

Demostracin. Ver [13].

2.3. Estimacin puntual


Denicin 2.5 (Muestra aleatoria).
Las variables aleatorias X1 , X2 , ..., Xn son llamadas una muestra aleatoria de
tamao n de la poblacin f (x) si X1 , X2 , ..., Xn son variables aleatorias mutua-
mente independientes y la funcin de densidad de probabilidad de cada Xi es
la misma funcin f (x). De manera alternativa se dice que X1 , X2 , ..., Xn son
variables aleatorias independientes e idnticamente distribuidas con funcin de
densidad f (x).

El propsito de la estadstica frecuentemente es usar la informacin conteni-


da en una muestra con el n de realizar estimaciones acerca de una poblacin.
Para realizar esto un investigador tiene que obtener datos muestrales de la
poblacin estudiada. Las conclusiones pueden entonces basarse en los valores
calculados de varias cantidades muestrales. La estimacin tiene varias apli-
caciones prcticas. Por ejemplo, un fabricante de mquinas lavadoras podra
estar interesado en estimar la proporcin p de lavadoras que esperara que fa-
llen antes de la expiracin de la garanta de un ao. Tambin se podra estar
interesado en estimar otros parmetros poblacionales tales como la media po-
blacional, la varianza y la desviacin estndar. Por ejemplo se puede estimar

14
la media del tiempo de espera m en una caja registradora del supermercado o
la desviacin estndar del error de medicin s de un instrumento electrnico.
Existen dos tipos de estimacin la estimacin puntual y la estimacin por
intervalo, en esta seccin nos concentrremos en la estimacin puntual.

Denicin 2.6. Un estimador puntual es cualquier funcin W (X1 , . . . , Xn )


de la muestra. Es decir, cualquier estadstica es una estimador puntual.

Hay diferencia entre estimador y estimacin. Un estimador es una funcin


de una muestra, mientras que una estimacin es el valor obtenido al aplicar
un estimador a los datos de una muestra. Un estimador es una funcin de las
variables aleatorias X1 , . . . , Xn mientras que una estimacin es una funcin de
los valores muestrales x1 , . . . , xn .
La estimacin puntual consiste en encontrar un nmero, con base en las
observaciones realizadas de la variable aleatoria, que sirva como estimacin del
parmetro desconocido .
Por ejemplo, en la mayora de casos la probabilidad de xito p asociada con
cierto ensayo Bernoulli es desconocida y se desea estimar su valor. Una manera
de lograr esto consiste en realizar n ensayos independientes y contabilizar el
nmero de xitos X. Para estimar p se calcula la proporcin muestral p denida
como:
X
p =
n
donde X B(n, p).

Estimadores de mxima verosimilitud


Denicin 2.7. Si f(x|) denota la funcin de probabilidad o densidad con-
junta de la muestra X = (X1 , . . . , Xn ). Entonces, dado que X =x es observado,
la funcin de denida por:

15
L(|x) = f (x|)

es llamada funcin de verosimilitud.


Si X1 , . . . , Xn es una muestra independiente e idnticamente distribuida de una
poblacin con funcin de probabilidad o densidad f (x|1 , . . . , k ), la funcin de
verosimilitud se dene por:
n
L(|x) = L(1 , ..., k |x1 , . . . , xn ) = (2.12)
Y
f (xi |1 , . . . , k ).
i=1

Denicin 2.8. Para cada punto muestral x, sea (x) el valor del parmetro
en que L(|x) toma su mximo valor como funcin de , con x jo. Un es-
timador de mxima verosimilitud del parmetro basado en la muestra X es
(X).
Si la funcin de verosimilitud es diferenciable en i , los posibles candidatos
para estimadores de mxima verosimilitud son los valores de (1 , . . . , k ) que
resuelven:

L(|x) = 0i = 1, 2, . . . , k. (2.13)
i
Ejemplo 2.1. Sea X1 , . . . , Xn independientes e idnticamente distribuidas se-
gn B(p):

L(p|x) =
Qn Pn Pn
i=1 pxi (1 p)1xi = p i=1 xi
(1 p)n i=1 xi
.

Tomando logaritmo a ambos lados obtenemos:

log L(p|x) = xi ) log(1 p).


Pn Pn
i=1 xi log p + (n i=1
  Pn
d i=1 xi
Derivando e igualando a 0 log L(p|x) = 0 se obtiene que p =
dp n
es el candidato a estimador de mxima verosimilitud. Luego, vericando que:
d2

x

log L(p| ) <0
dp2
p=x

16
Pn
Xi
se concluye que p = i=1
= X es el estimador de mxima verosimilitud.
n

Teorema 2.9. (Propiedad de invarianza) Si es el estimador de mxima


verosimilitud de , entonces para toda funcin (), su estimador de mxima
verosimilitud es ().

Demostracin. Ver [9] pag. 294.

Teorema 2.10. Si Xq B(n, p) entonces el estimador de mxima verosimili-


tud de p(1 p) es X(1 X).
p

2.4. Pruebas de hiptesis.


Consideramos el problema estadstico que contiene un parmetro descono-
cido, digamos . Se supone que pertenece a un espacio paramtrico Rn .
Supongamos adems que es una particin de dos subconjuntos que son dis-
juntos 0 y 1 , as el problema consiste en decidir si el parmetro desconocido
pertenece a 0 o a 1 .
En varios aspectos, el procedimiento formal para pruebas de hiptesis es se-
mejante al mtodo cientco. ste observa la naturaleza, frmula una teora
y la confronta con lo que es observado. En nuestro contexto, el investigador
plantea alguna hiptesis respecto a uno o ms parmetros poblacionales: les
da algunos valores especicados con base a su experiencia. Despus toma una
muestra de la poblacin y compara sus observaciones con la hiptesis. Si las
observaciones no concuerdan con la hiptesis, las rechaza usando un valor jo
de equivocacin entre cero y uno. De lo contrario, concluye que la hiptesis
es verdadera o que la muestra no detecta diferencia entre los valores real e
hipottico de los parmetros poblacionales.

17
Denicin 2.9. Una hiptesis es una declaracin acerca de un parmetro
poblacional.

Denicin 2.10. Las dos hiptesis complementarias en un problema de prue-


ba de hiptesis son llamadas hiptesis nula e hiptesis alternativa y se denotan
por H0 y H1 , respectivamente.

El objetivo de una prueba de hiptesis es decidir, basada en una muestra


de una poblacin, cul de las dos hiptesis complementarias es verdadera.
Si denota un parmetro poblacional, el formato general de las hiptesis nu-
la es H0 : 0 y de la alternativa es H1 : c0 ; donde 0 es algn
subconjunto del espacio paramtrico y c0 es su complemento.

Denicin 2.11. Un procedimiento de prueba de hiptesis es una regla que


especica:

i. Para que valores muestrales no se rechaza H0 y se encuentra que es verda-


dera.

ii. Para que valores muestrales la decisin es rechazar H0 y no se rechaza H1


encontrndose que es verdadera.

El conjunto del espacio muestra para el cual H0 sera rechazada es llamado


la regin de rechazo o regin crtica. El complemento de la regin de
rechazo (RR) es llamado la regin de no rechazo.

2.4.1. Mtodos de evaluacin de pruebas.

En la decisin de aceptar o rechazar la hiptesis nula H, un experimentador


podra cometer un error. Usualmente, las pruebas de hiptesis son evaluadas
y comparadas con base en dichas posibilidades de error. En esta seccin se
discutir como esas probabilidades pueden ser controladas.

18
Probabilidades de error y potencia de prueba
Una prueba de hiptesis para H0 : 0 vs H1 : c0 puede conducir
a dos tipos de error.
Decisin
Hiptesis verdadera No se rechaza H0 Se rechaza H0
H0 Decisin correcta Error tipo I
H1 Error tipo II Decisin correcta
Suponga que R denota la regin de rechazo de una prueba, entonces:

Pr( Cometer Error tipo I), si 0 ;


(
P (X R)=
1- Pr( Cometer Error tipo II), si c0 .
La probabilidad de un error tipo I ser denotada por , el valor de se de-
nomina nivel de la prueba. La probabilidad de un error tipo II ser denotada
por .

2.4.2. Pruebas para muestras grandes.

Un mtodo comn para construir una prueba estadstica est basado en


un estimador que tiene una distribucin normal asinttica. Suponga que se
desea probar una hiptesis acerca de un parmetro de valor real y Wn =
W (X1 , X2 , ..., Xn ) es un estimador puntual de basado en una muestra alea-
toria de tamao n, que ha sido derivado por algn mtodo. Por ejemplo, Wn
puede ser el estimador de mxima verosimilitudes de . Una prueba aproxima-
da basada en una aproximacin normal, puede ser justicada de la siguiente
manera.
Si n2 denota la varianza de Wn y si podemos usar el teorema central del
lmite (seccin teorema 2.7) o de alguna de sus variaciones para probar que,

19
Wn
cuando n , converge en distribucin a una variable aleatoria nor-
n
W
mal estndar (N (0, 1)), entonces n se puede comparar con una N(0,1).
n
Por lo tanto, se tiene la base para una prueba aproximada.
Hay, por supuesto muchos detalles a ser vericados en el argumento del
prrafo anterior, pero esta idea tiene aplicaciones en muchas situaciones. Por
ejemplo si Wn es un estimador de mxima verosimilitudes el argumento de
arriba es usualmente valido. Note que la distribucin de Wn y quizs el valor
de n dependen del valor de . La convergencia por lo tanto, ms formalmente
dice, que para cada valor jo , si usamos la correspondiente distribu-
W
cin de Wn y el valor correspondiente de n , n converge a una normal
n
estndar. Si para cada n, n es una constante calculable (que puede depender
de pero no de otro parmetro desconocido), entonces una prueba basada en
Wn
podra ser derivada.
n
En algunos casos, n puede depender de parmetros desconocidos. En tal

caso buscaremos el estimador Sn de n con la propiedad de que n converja
Sn
en probabilidad a 1. Entonces utilizando el teorema de Slutsky (2.8) pode-
W
mos deducir que n converge en distribucin a una distribucin normal
Sn
estndar. Una prueba para muestras grandes puede ser basada en este hecho.
Suponga que deseamos probar
H0 : = 0 vs H0 : 6= 0 .
W
Una prueba aproximada puede ser basado en el estadstico Zn = n 0
y
Sn
rechazara H0 si y solo si Zn < z/2 o Zn > z/2 . Si H0 es verdadero, entonces
= 0 y Zn converge en distribucin a una N(0,1). As la probabilidad de error
tipo 1, P0 (Zn < z/2 o Zn > z/2 ) P (Z < z/2 o Z > z/2 ) = .
Para ejemplicar este hecho vemos un ejemplo.
Ejemplo 2.2. Si X1 , X2 , ..., Xn es una muestra aleatoria de una poblacin
Bernoulli B(p), considere probar H0 : p p0 vs H1 : p > p0 donde 0 < p0 < 1

20
es un valor especico. El estimador de mxima verosimilitud de p basado en
una muestra de tamao n, es pn = n1 ni=1 Xi . Debido a que pn es solo la media
P

muestral, el teorema central del lmite se aplica y establece que para cualquier
pn p
p, 0 < p < 1, converge a una variable aleatoria normal estndar. Aqu
n
p(1 p)/n es un valor que depende del parmetro desconocido p. Un
p
n =

estimador razonable de n es Sn = pn (1 pn )/n y puede mostrarse que n
p
Sn
converge en probabilidad a 1. As para cualquier p por el teorema de Slutsky se
tiene que,
pn p
r N (0, 1). (2.14)
pn (1 pn )
n
El estadstico de prueba Zn est denido mediante la sustitucin de p por p0 y
la prueba para muestras grandes rechaza H0 si Zn > z .
Si haba inters en probar la hiptesis H0 : p = p0 vs H1 : p 6= p0 donde
0 < p0 < 1 es un valor especico, la estrategia de arriba es otra vez aplicable.
Sin embargo, en este caso, hay una prueba aproximada alternativa. Por el
teorema central del lmite, para cualquier p, 0 < p < 1,
pn p
p N (0, 1). (2.15)
p(1 p)/n
Por lo tanto, se deduce que, si la hiptesis nula es verdadera, el estadstico
pn p0
Zn = p N (0, 1) (aproximadamente). (2.16)
p0 (1 p0 )/n

La prueba aproximada nivel rechaza H0 si |Zn | > z/2 .

2.5. Intervalos de conanza


Al tomar una muestra aleatoria (m.a.) X1 , X2 , ..., Xn de alguna poblacin
con funcin de densidad f (, ) con desconocido, podemos a partir de la
muestra, estimar un valor puntual del parmetro . Sin embargo al tomar otra

21
muestra aleatoria distinta a X1 , X2 ,. . . , Xn de la misma poblacin, obtendra-
mos un valor del parmetro, en general diferente al de la primera muestra. Y
as cada muestra aleatoria proporcionar un valor diferente para el parmetro.
Cul de estos valores ser el ms cercano a ?. Es imposible precisar cul de
todos esos valores es el ms cercano. Ya que en general la probabilidad de que
el valor estimado sea igual al parmetro es cero.
Al usar estimacin por intervalo estamos perdiendo precisin en nuestra esti-
macin, sin embargo se ha ganado alguna conanza o garanta de que nuestra
armacin es correcta.
A continuacin se presentan algunos conceptos bsicos relativos a los intervalos
de conanza (ver [9]).

Denicin 2.12. Una estimacin por intervalo de un parmetro consiste en


un par de funciones L(x1 , x2 , . . . , xn ) y U(x1 , x2 , . . . , xn ) de una muestra que
satisface L(x)U(x) para todo x , donde es el espacio muestra. Si X=x
es observado, la inferencia L(x) U(x) est hecha. El intervalo aleatorio
[L(X), U (X)] es llamado un estimador por intervalo.

Como mencionamos anteriormente el propsito de usar un estimador por


intervalo en lugar de un estimador puntual es tener alguna garanta de que
el estimador contenga al parmetro de inters. La certeza de esta garanta se
encuentra determinada por las siguientes deniciones.

Denicin 2.13. Para un estimador por intervalo [L(X), U (X)] de un pa-


rmetro , la probabilidad de cobertura (PC) es la probabilidad de que el in-
tervalo aleatorio contenga al verdadero parmetro, . Esto es denotado por
P ( [L(X), U (X)]) o por P ( [L(X), U (X)] |).

Denicin 2.14. Para un estimador por intervalo [L(X), U (X)] de un par-


metro , el coeciente de conanza de [L(X), U (X)] es el nmo de la proba-
bilidades de cobertura, es decir inf P ( [L(X), U (X)]).

22
Nota 1. Es importante aclarar dos puntos:
1. El intervalo es la cantidad aleatoria, no el parmetro.
2. En P ( [L(X), U (X)]), estas probabilidades se reeren a X no a .

Los estimadores por intervalo junto con una medida de conanza (usual-
mente un coeciente de conanza) son tambin conocidos como intervalos de
conanza (IC). Aunque principalmente se trata con intervalos de conanza
existen conjuntos ms generales (conjuntos de conanza).
Un intervalo de conanza con un coeciente de conanza igual a 1 ,
es simplemente llamado un intervalo de conanza 1-, donde es llamado
nivel de signicancia del intervalo e indica el porcentaje de error que podemos
cometer en la construccin del intervalo.
En el proceso de tomar muestras aleatoria de una poblacin y calcular un
intervalo de conanza con coeciente de conanza 1 para un parmetro .
Estos intervalos son construidos de tal manera que a largo plazo la proporcin
de intervalos que cubren al parmetro es equivalente a 1 , otra forma
de ver esto (ver [5]) es imaginarlo como el juego de lanzar palos de diferentes
longitudes a un blanco (). Los intervalos en este caso son las longitudes de
los palos de tal manera que el blanco no es impactado en 100 % de los casos.

2.5.1. Mtodos para encontrar estimadores por intervalo.

Existen diversas formas de construir intervalo de conanza, algunas de ellas


son: inversin de pruebas estadsticas, uso de cantidades pivotales, el pivoteo
de la funcin de distribucin acumulada e Intervalos Bayesianos (ver [9]).

Inversin de pruebas estadsticas

Existe una fuerte correspondencia entre prueba de hiptesis y estimadores


por intervalo, podemos decir en general que a cada conjunto de conanza le

23
corresponde una prueba y viceversa (ver [9] pag. 406-412).
La correspondencia est descrita en el siguiente teorema.
Teorema 2.11. Para cada 0 , sea A( 0 ) la regin de no rechazo de la
prueba de nivel de H0 : = 0 . Para cada x , denimos un conjunto
C(x), en el espacio paramtrico como
C(x) = {0 : x A(0 )}. (2.17)
Entonces el conjunto aleatorio C(X) es un conjunto de conanza 1 . In-
versamente, si C(X) es un 1- conjunto de conanza. Para algn 0 ,
denimos
A(0 ) = {x : 0 C(x)}.
Entonces A(0 ) es la regin de no rechazo de una prueba de nivel de H0 :
= 0 .

Demostracin. Para la primera parte. Ya que A(0 )es la regin de no rechazo


de una prueba de nivel ,
P0 (X 6 A(0 )) y por lo tanto P0 (X A(0 )) 1 .

Debido a que 0 es arbitrario, escribimos en lugar de 0 . La inecuacin de


arriba junto con (2.17), muestran que la probabilidad de cobertura del conjunto
C(X) est dada por
P ( C(X)) = P0 (X A()) 1 .

Mostrando que C(X) es un conjunto de conanza 1 .


Para la segunda parte, el error de probabilidad tipo 1 para la prueba de H0 :
= 0 con regin de no rechazo A(0 ) es

P0 (X 6 A(0 )) = P0 (0 6 C(X)) .

Asi que se trata de una prueba nivel

24
Uso de cantidades pivotales.

Denicin 2.15. Una variable aleatoria Q(X,)=Q(X1 , X2 , . . . , Xn , ) es una


cantidad pivotal, o pivote, si la distribucin de Q(X,) es independiente del
parmetro. Es decir, si XF(x,) entonces Q(X,) tiene la misma distribucin
para todos los valores de .

Mtodo de la Cantidad Pivotal


Si Q(X,)=Q(X1 , X2 , . . . , Xn , ) es una cantidad pivotal para el parmetro ,
entonces, para cualquier 0 < 1 < 1 jo, existen q1 y q2 dependientes de
tales que,
P [q1 < Q < q2 ] = 1 ,

si para cada valor muestral x1 , x2 , . . . , xn tenemos que:

q1 < q(x1 , x2 , . . . , xn ; ) < q2 ,

si y slo si, t1 (x1 , x2 , . . . , xn ) < < t2 (x1 , x2 , . . . , xn ) para t1 y t2 funciones que


no dependen de , entonces (t1 (x1 , x2 , . . . , xn ), t2 (x1 , x2 , . . . , xn )) es un intervalo
de conanza 1 .

Pivoteo de la funcin de distribucin acumulada

En la seccin anterior vimos que un pivote Q, conduce a un conjunto de


conanza de la forma,

C(x)={0 : a Q(x, 0 ) b}.

Si para cualquier x, la funcin Q(x,) es una funcin montona de , entonces


C(x) est garantizado a ser un intervalo. Los pivotes que son principalmente
construidos usando transformaciones de forma y escala, resultan una funcin
Q montona y por tanto conducen a intervalos de conanza. En esta seccin se
trabajar con otro pivote, que es totalmente general y con menos suposiciones

25
garantiza un intervalo.
Basamos nuestra construccin de un intervalo de conanza para un parmetro
en una estadstica T con su FT (t). En la prctica usualmente se toma T una
estadstica suciente para , ms no necesariamente debe ser as, consideremos
el caso discreto.

Teorema 2.12. Si T es una estadstica discreta con CDF FT (t | ) = P (T


t | ). Si 1 y 2 = con 0 < < 1 un valor jo. Suponga que para todo t T
L (t) y U (t) pueden denirse como sigue:

1. Si FT (t | ) es una funcin decreciente de para cada t, se dene L (t)


y U (t) por:

Pr(T t | U (t))= 2 , Pr(T t | L (t))= 2 .

2. Si FT (t | ) es una funcin creciente de para cada t, se dene L (t) y


U (t) por:

Pr(T t | U (t))= 2 , Pr(T t | L (t))= 2 .

Entonces, el intervalo aleatorio [L (t), U (t)] es un intervalo de conanza 1-


para .

Demostracin. Ver [9] pag. 420 y 421.

26
Captulo 3

Intervalos de conanza para una


proporcin

En el presente captulo presentaremos el intervalo de conanza para una


proporcin ms usado por los estadsticos y se remarcan los casos en los cuales
tiene un desempeo detestable, se realiza una revisin del porque se han su-
gerido algunos criterios para mejorarlo. Tambin se presentan otros intervalos
que han sido sugeridos como opciones a este debido a que tienen un mejor
desempeo. Dos parmetros sern de gran utilidad al analizar su desempeo,
la probabilidad de cobertura y la longitud esperada.
Al construir un intervalo de conanza usualmente se desea que su probabili-
dad de cobertura (denotado por PC) est cercana al nivel de conanza nominal
(1 ), debido a que la distribucin binomial es una variable aleatoria dis-
creta, no es posible construir intervalos con cualquier nivel de conanza, a no
ser que se aleatorice y es un procedimiento que no es aceptado en la prctica,
as que se trabaja con mtodos aproximados, en especial usando propiedades
de muestras grandes. Otros mtodos mediante el cual se generan intervalos de
conanza para el parmetro binomial son los procedimientos exactos los cua-
les son la inversin de la prueba binomial de colas iguales, sin embargo estos

27
intervalos cumplen el hecho de que para cualquier p jo, su probabilidad de
cobertura es siempre mayor o igual que el nivel de conanza nominal (1 )
y en ocasiones estas pueden estar muy cercanas a 1.

3.1. Intervalo de Wald


En textos introductorios de estadstica a un nivel elemental por ejemplo
[9], [13] y [19] se presenta un intervalo, el cual tiene aceptacin casi universal.
Sin embargo la probabilidad de cobertura de este intervalo a menudo es mucho
menor de lo deseado. El procedimiento est basado en la aproximacin normal
y garantiza que para cualquier p (0, 1) su probabilidad de cobertura converge
a 1 cuando n . Este intervalo es conocido como el intervalo de Wald
o intervalo estndar (denotado por IE ) ya que proviene de invertir la regin de
aceptacin de la conocida prueba de Wald para muestras grandes (ver seccin
2.4.2).
Su frmula es:
[p n1/2 (pq)1/2 , p + n1/2 (pq)1/2 ] (3.1)
X
donde X =nmero de xitos en n realizaciones, p = , = z 2 = 1 (1 )
n 2
y q = 1 p, (z) es la funcin de distribucin de una normal estndar. El
intervalo de conanza para p es el conjunto de valores p0 para los cuales se
cumple que:
|p p0 |
r < .
p(1 p)
n
Debido a la naturaleza discreta de la variable aleatoria es imposible encontrar
intervalos de conanza tal que su probabilidad de cobertura sea igual al coe-
ciente de conanza (1 ), sin embargo se esperara que su probabilidad de
cobertura se encuentre cercana a 1, es decir se esperara que: |PC (1)|
sea pequea.

28
La probabilidad de cobertura PC para n y p ser denotada por PC(n, p).
Por la denicin (2.13) la probabilidad de cobertura del intervalo de conanza
(denotado por IC) para n y p donde n N y p (0, 1) se dene como;

PC(n, p) = Pp (p [L(X), U (X)])

de la ecuacin (3.1) se tiene que la probabilidad de cobertura del intervalo de


Wald es:
 
PC(n, p) = Pp p n 1/2
1/2 1/2
1/2
pq p p + n pq ,

por la proposicin (A.1) (ver Anexo A) la probabilidad de cobertura para n y


p puede ser calculada como:
  r   r 
n c c 2 n c c2
Pp 2
p+ cp + cp + X 2
p+ + cp + cp +
1+c 2 4 1+c 2 4
(3.2)
donde c = n y X Bin(n,p).
k2

De una manera ms compacta la ecuacin (3.2) puede escribirse como:


bx2 c
!
n
PC(n, p) = (3.3)
X
px (1 p)nx
x=dx1 e x
 q   q 
donde x1 = n
1+c
p+ 2c cp2 + cp + c2
4
, x2 = n
1+c
p+ 2c + cp2 + cp + c2
4

y dx1 e, bx2 c son las funciones techo (ceiling) y piso (oor) respectivamente.

Por ejemplo si X se distribuye de forma binomial con parmetros p = 0.4 y


n = 100, para este caso consideramos a = 0.05, entonces bx2 c=49 y dx1 e=31
y usando (3.3) se tiene que PC(100, 0.4) = .9481.
Con la nalidad de evidenciar el comportamiento errtico del intervalo de
Wald se revisaron algunos artculos importantes que lo trabajan ([4], [6] y [7]).
Los estudios sobre el intervalo de Wald han concluido que el intervalo acta de

29
manera inconsistente cuando el verdadero parmetro binomial p est cercano
a 0 o a 1 y tambin cuando el tamao de muestra n es pequeo (ver [1], [2],
[4], [6], [7], [15] y [17]). En los problemas sobre control de calidad usualmente
se desea que el porcentaje de artculos defectuosos de un producto sea peque-
o, as que no es extrao encontrar aplicaciones reales para estos parmetros,
y por tanto es importante analizar la conducta de su probabilidad de cobertura.

Para ejemplicar estas situaciones se ven ejemplos: en el primero se con-


sidera un p pequeo digamos p = 0.001, se elaboraron programas realizados
en el lenguaje de programacin R con el objeto de analizar el comportamiento
de los intervalos de conanza (Ver Apendice B), algunos de los resultados se
muestran a continuacin.

Ejemplo 3.1 (Comportamiento del intervalo de Wald para p cercano a 0).


La siguiente gura presenta las probabilidades de cobertura para el intervalo de
Wald del 95 % de conanza nominal para p = 0.001 y n = 1, . . . , 10000.

Figura 3.1: Probabilidad de cobertura, n = 1, , . . . , 10000 y p = 0.001.

Se puede observar de la grca que la oscilacin es signicante y que la


probabilidad de cobertura se acerca al coeciente de conanza nominal (0.95)

30
pero no de manera montona, tambin se observa que para que la PC alcance
un valor admisible (consideramos que la PC es un valor admisible cuando la
PC(n, p) 1(+0.02)) se tendra que tomar un valor bastante grande ya que
por ejemplo PC(2000,0.001)= 0.8637. La grca 3.1 comienza en 0 y conforme
aumenta el valor de n tambin aumenta la prbabilidad de cobertura, este proceso
se realiza hasta llegar a n = 2959 donde la probabilidad de cobertura es 0.9447
pero cae de inmediato hasta 0.7915 en n = 2960, nuevamente la grca realiza
un crecimiento de manera montona hasta n = 4771 donde su PC(n, p) es
0.9474 pero cae de inmediato hasta 0.8511 en n = 4772. Se puede apreciar que
la probabilidad de cobertura del intervalo de Wald es deciente para p = 0.001,
an con tamaos de muestra bastante grandes. Otros puntos (n,0.001) donde
su probabilidad de cobertura est muy por debajo de 0.95 son n = 100 donde
PC(100,0.001) es solamente 0.0952, en n = 1000 apenas alcanza 0.6317 y
como se ha sealado para n = 2000 es 0.8637, un comportamiento similar es
mostrada en [6] p.105.

De manera anloga el comportamiento del intervalo de Wald es errtico


en trminos de probabilidad de cobertura para tamaos de muestra pequeos
(ver [6]), un primer acercamiento a esta cuestin se observa en la gura 3.1, sin
embargo esta situacin se mantiene an para p no cercanos a 0 o 1. Un ejemplo
para evidenciar esta situacin es la gura 4 de Brown, Cai y DasGupta (ver
[6]), que se reproduce en el siguiente ejemplo.

Ejemplo 3.2 (Comportamiento del intervalo de Wald para tamaos de mues-


tra pequeos.).
Se presenta la probabilidad de cobertura del intervalo de Wald del 99 % de con-
anza nominal para n = 20 y p {0.001, 0.002, ..., 0.999}.

31
Figura 3.2: Probabilidad de cobertura, p (0, 1) y n=20.

Se observa que no hay algn punto p, 0 < p < 1 tal que PC(n, p) 0.99,
la probabilidad de cobertura ms cercana a 0.99 se alcanza en p = 0.272 (por
simetra tambin en p = 0.728) y esta es es 0.9831, el valor promedio de
PC(n, p) es solo de 0.8835.
Debido a que los principales problemas del intervalo de Wald surgen cuan-
do p est cerca de 0 o de 1 y cuando el tamao muestral n es pequeo, un
usuario desprevenido pensara que el intervalo de Wald presentara un desem-
peo decente si p no est cerca del 0 o del 1 o si n no es pequeo. Sin embargo
diversos autores han mostrado que el comportamiento errtico sigue presente
para estos casos (ver [1], [6] y [7]). Los siguientes ejemplos conrman esto.

Ejemplo 3.3.
La gura 3.3 muestra las probabilidades de cobertura del intervalo de Wald del
95 % de conanza nominal para n = 100 y p {0.001, 0.002, . . . , 0.999}.

32
Figura 3.3: Probabilidad de cobertura, p (0, 1) y n=100.

Se observa nuevamente que las probabilidades de cobertura para n = 100 y


p {0.001, 0.002, 0.999} en su mayora son menores que 0.95 y su comporta-
miento es bastante inestable dicho de otra forma existen saltos en las proba-
bilidades de cobertura para valores de p cercanos y consecutivos y estos saltos
son ms evidentes cuando p esta cercano a 0 o bien a 1, adems an se siguen
presentando probabilidades de cobertura pobres para p cercanos a 0 o bien a 1
por ejemplo en p=0.001 la probabilidad de cobertura es solamente 0.0952. La
probabilidad de cobertura solo es razonable para valores de p cercanos a 0.5.

Debido a que la probabilidad de cobertura puede variar signicativamente


para n cercanos con p jo, as tambin para p cercanos con n jo, sera de ayuda
poder clasicar los puntos (n, p) que consideramos adecuados de los que no.
De esta forma los puntos (n, p) sern clasicados en dos categoras de manera
similar a lo realizado por Brown, Cai y DasGupta (ver [6]). La caracterstica
de clasicacin est en trminos de su PC, siendo adecuados e inadecuados,
tal como se dene a continuacin.
Si es un nmero entre 0 y 1, n representa el tamao de muestra y p P

33
donde P = {0.001, 0.002, . . . 0.999}.
Entonces
C = {(n, p) con n N y p P}

A = {(n, p) C| PC(n, p) 1 }
B = {(n, p) C| PC(n, p) 1 ( + 0.02)}.
donde (n, p) es adecuado si (n, p) A e inadecuado si (n, p) B.
Con el objetivo de analizar el desempeo del intervalo de conanza de Wald
se considerarn dos parmetros. El primero es el porcentaje de puntos adecua-
dos (denotado por PA), es decir el porcentaje de puntos (n, p) C tal que
Card(A)
PC(n, p) 1 y asi PA = 100 % (Card signica la cardinalidad
Card(C)
del conjunto en cuestin). El segundo parmetro es el porcentaje de puntos
inadecuados (denotado por PI), es decir el porcentaje de puntos (n, p) C tal
Card(B)
que PC(n, p) 1 ( + 0.02), y as PI = 100 %. Ambos parmetros
Card(C)
nos servirn a analizar el desempeo del intervalo de Wald. Consideraremos
PA
que el intervalo de Wald tiene un desempeo tolerable cuando > 1.
PI
Tomando en cuenta las observaciones anteriores, en el ejemplo 3.3 tenemos
que el valor de PA es solamente 11.81 % y el valor de PI es 21.42 % y cla-
PA
ramente < 1, en consecuencia el intervalo de Wald contina presentando
PI
un pobre desempeo en trminos de probabilidad de cobertura an cuando se
toma un tamao muestral n "sucientemente grande", desafortunadamente el
pobre desempeo persiste para valores mucho ms grandes que 100.
A continuacin analizamos un ejemplo para el caso de que p no tome valores
cercanos a los extremos del intervalo.

Ejemplo 3.4. La gura siguiente muestra el comportamiento de la probabi-


lidad de cobertura del intervalo de Wald del 95 % de conanza nominal para
valores de p con 0.2 p 0.8 y n=100.

34
Figura 3.4: Probabilidad de cobertura, p=0.2,0.201,. . . ,0.8, n=100.

Se observa claramente que el intervalo de Wald mejora notablemente cuan-


do se consideran solamente valores de p no cercanos a los extremos del inter-
valo ya que para 0.2 p 0.8 y n = 100 la PC(n, p) 0.9267, sin embargo
an contina presentndose un desempeo que podramos considerar pobre en
trminos de su probabilidad de cobertura y en trminos generales dicha pro-
babilidad de cobertura es menor que el nivel nominal (0.95). El porcentaje de
puntos adecuados PA es solamente del 16.03 % el cual es pequeo an cuan-
do se toma un tamao de muestra n=100 y valores de p 0.2 p 0.8, sin
embargo el porcentaje de puntos inadecuados PI es solamente el 1 % el cual es
demasiado pequeo, esto implica que, an cuando la probabilidad de cobertura
del intervalo de Wald para n = 100 y 0.2 p 0.8 no es la deseada para
un intervalo de conanza del 95 % nominal esta se encuentra cercana a 0.95.
PA
Y como > 1, se podra considerar tolerable al desempeo del intervalo de
PI
Wald para este caso.
Aparte de la probabilidad de cobertura otro parmetro importante en la
evaluacin del desempeo de un intervalo de conanza (IC) es su longitud es-

35
perada. En la literatura se ha remarcado que la longitud esperada del intervalo
de Wald converge a 0 cuando p converge a los extremos del intervalo (ver [6],
[7] y[18]). La longitud esperada para n y p est dada por la siguiente frmula.

LE(n, p) = E(n,p) (Longitud(IC)) =


n  
n x
(3.4)
X
= (U (x, n) L(x, n)) p (1 p)nx .
x=0
x
Donde U(x,n) y L(x,n) son los lmites superior e inferior del intervalo de con-
anza (IC), respectivamente. La longitud media esperada es solo la integral
Z 1
LME = E(n,p) (Longitud(IC))dp. (3.5)
0

Ejemplo 3.5 (Longitud esperada del intervalo de Wald del 95 % para n = 30


y p P).
Se puede observar que cuando p est alejado de los extremos del intervalo (0,1)
la longitud esperada es demasiado grande, tambin se observa que en efecto esta
converge a cero cuando p converge a 0 o 1. Se podra pensar que por esta razn
el desempeo del intervalo de Wald es adecuado para p cercanos a 0 o 1 sin
embargo no es as debido a su pobre desempeo con respecto a la probabilidad
de cobertura en estos p. La LME= 0.2705.

Figura 3.5: Longitud esperada cuando n = 30 y p P.

36
Debido a que el intervalo de Wald presenta inconsistencias notables en p
cercano a 0 o 1 o cuando el tamao de muestra n es pequeo y que estas no
desaparecen an cuando se consideran solamente p alejados de 0 y de 1 o cuan-
do n es "sucientemente grande". Diversos textos populares en la literatura
acompaan al intervalo de Wald con alguna condicin para su uso. Brown, Cai
y DasGupta [6] as como Lawrence, leemis y Trivedy [15] enlistan las condi-
ciones ms comunes que suelen aparecer en la literatura cuando se presenta al
intervalo de Wald. En esta tsis se considerarn las condiciones que enlistan
Brown Cai and DasGupta y estas son las siguientes.
El intervalo de conanza de Wald se puede utilizar si:

1. np 5 y n(1 p) 5 o np 10 y n(1 p) 10;

2. np(1 p) 5 o np(1 p) 10;

3. np 5 y n(1 p) 5 o np 10 y n(1 p) 10;

4. p 3 p(1 p)/n no contiene al 0 o al 1;


p

5. n bastante grande;

6. n50 a menos que p sea muy pequeo.

Se observar ms adelante que estos criterios no son adecuados para el in-


tervalo de Wald en varios aspectos (ver [6] proposicin 1 p. 106 y [7] tabla 1
pag. 164), sin embargo dado que el intervalo de Wald an sigue siendo el inter-
valo de conanza para el parmetro binomial ms usado en niveles elementales
se estudiar su comportamiento bajo el inujo de estos. Para esto sea p P,
n tomar los valores que se indiqu, se calcular y gracar la respectiva pro-
babilidad de cobertura para los puntos de la forma (n, p) cuando se cumplan
los criterios siguientes;

Criterio 1 np 5 y n(1 p) 5 ;

37
Criterio 2 np 10 y n(1 p) 10;

Criterio 3 np(1 p) 5;

Criterio 4 np(1 p) 10;

Criterio 5 n 100 (consideramos a 100 sucientemente grande);

Criterio 6 n 50, p > 0.2 y p < 0.8 (consideramos a p pequeo cuando


p 0.2 y por simetra tambin cuando p 0.8).

De la lista anterior para ser ms precisos se subdivide la condicin 1 (np 5


y n(1p) 5 o np 10 y n(1p) 10) en el criterio 1 (np 5 y n(1p) 5)
y el criterio 2 ( np 10 y n(1 p) 10), la condicin 2 (np(1 p) 5 o
np(1 p) 10), se subdivide en el criterio 3 (np(1 p) 5) y el criterio 4
(np(1 p) 10) y nalmente las condiciones 5 (n bastante grande) y 6 (n50
a menos que n sea muy pequeo), se toman tal cuales solo siendo concisos en
que en el criterio 5 consideramos a 100 sucientemente grande y en el crite-
rio 6 consideramos a p pequeo cuando p0.2 y por simetra tambin cuando
p0.8, es importante notar que las condiciones 3 y 4 son vericables, pero son
intiles porque en el contexto de las probabilidades de cobertura frecuentista,
una condicin a base de datos no tiene un signicado. El anlisis con respecto
a las condiciones anteriores se realizar en el siguiente captulo

Ahora se presentan otros intervalos para una proporcion que aparecen en la


literatura los cuales tienen un mejor desempeo que el intervalo de Wald, estos
son el intervalo de Wilson y el Intervalo de Agresti-Coull, as otro intervalo
que de alguna manera ha ganado importancia en la literatura conocido como
el intervalo Arcoseno.

38
3.2. El intervalo de Wilson
El intervalo de Wilson fue aparentemente introducido por Wilson (ver [25])
resulta de la misma forma que el intervalo de Wald, es decir se obtiene de
invertir la regin de aceptacin de la prueba de Wald para muestras grandes
solo que en vez de usar el error estimado estndar (pq)1/2 n1/2 usa el error
estndar nulo (pq)1/2 n1/2 su forma es:
X + 2 /2 n1/2 2 1/2 X + 2 /2 n1/2 2 1/2
[ (pq + ) , + (pq + ) ] (3.6)
n + 2 n + 2 4n n + 2 n + 2 4n
X
donde X = nmero de xitos en n realizaciones, p = , q = 1 p y = z 2 =
n

(1 ) donde (z) es la funcin de distribucin de una normal estndar.
1
2
El intervalo de Wilson tiene un atractivo terico, ste es la inversin de la
aproximacin del TCL (ver teorema 2.7) a la familia de las pruebas de colas
iguales H0 :p= p0 .
Por lo tanto, se acepta H0 basado en la aproximacin TCL si y slo si p0 est
en este intervalo. Como Wilson mostr, el argumento consiste en la solucin
de una ecuacin cuadrtica; ver Tamhane y Dunlop ([22], Ejercicio 9.39).

3.3. El intervalo de Agresti-Coull


El intervalo de Agresti-Coull tiene una forma familiar al intervalo de Wald
[p n1/2 (pq)1/2 , p + n1/2 (pq)1/2 ],

usando un nuevo estimador p en lugar de p. Esto puede lograrse mediante


el uso del centro de la regin de Wilson. Sea X = X + 2 , n = n + 2 ,
2


= z 2 = 1 (1 ) donde (z) es la funcin de distribucin de una normal
2
estndar, si p = X
n
y q = 1 p, entonces el intervalo de Agresti-Coull se dene
como;  
(3.7)
1/2
1/2 1/2
1/2
p n pq , p + n pq .

39
Para el caso en que = 0.05, si usamos el valor 2 en lugar de 1.96 para ,
este intervalo es el intervalo en Agresti y Coull (1998) [4] que aade 2 xitos
y 2 fracasos. Por esta razn, lo llamamos el intervalo Agresti Coull. Se tiene
conocimientos de que, Samuels y Witmer [20], es el primer libro de texto de
introduccin a la estadstica que recomienda el uso de este intervalo.

3.4. Intervalo Arcoseno


X+ 38
Si X = nmero de xitos en n realizaciones, p = n+ 34
, y = z 2 = 1 (1

) donde (z) es la funcin de distribucin de una normal estndar, entonces


2
el intervalo Arcoseno es:
     
1 1/2  1 1/2
sin 2
arcsin p 1/2
n 2
, sin arcsin p 1/2
+ n . (3.8)
2 2

3.5. Intervalo de Clopper-Pearson


Otro intervalo de conanza muy conocido es el intervalo de Clopper-Pearson
(ver [11]) el cual es la inversin de la prueba binomial de colas iguales en lu-
gar de su aproximacin normal. Algunos autores se reeren a est como el
procedimiento exacto a causa de su derivacin de la distribucin binomial.
Si X = x se observa, entonces el intervalo Clopper-Pearson se dene por:
CICP = [LCP (x), UCP (x)] donde LCP (x) y UCP (x) son respectivamente las so-
luciones en p a las ecuaciones

Pp (X x) =
2
y Pp (X x) = 2 .

Otra forma de presentar al punto nal inferior es el 2 cuantil de una distribu-



cin beta Beta(x,n-x+1), y el punto nal superior es el 1 cuantil de una
2
distribucin beta Beta(x+1,n-x). El intervalo Clopper- Pearson garantiza que

40
la probabilidad de cobertura es siempre mayor o igual que el nivel de conanza
nominal por lo cual se dice que es conservador. Sin embargo, para cualquier p
jo, la probabilidad de cobertura puede ser mucho ms grande que (1 ) a
menos que n sea bastante grande, y por lo tanto el intervalo de conanza es bas-
tante inexacto en este sentido (ver [6] pag. 113). El intervalo Clopper-Pearson
es intilmente conservador y no es una buena opcin para el uso prctico, a
menos que se exiga la adhesin estricta a la prescripcin PC(n, p) 1 . Es
por esta razn que el intervalo de Clopper-Pearson no se considerara en este
anlisis.

41
42
Captulo 4

Comparacin de los intervalos de


conanza

En el captulo 3 se mostraron algunos casos en los cuales el desempeo


del intervalo de Wald es pobre y por ello algunos textos populares presentan
condiciones para mejorar su desempeo (estas condiciones eliminan las parejas
de puntos (n, p) que tienen una probabilidad de cobertura muy diferente a la
deseada). Ms adelante se observar que no ocurre tal mejora y que desgra-
ciadamente contina presentndose un mal comportamiento en el intervalo de
Wald. Para visualizar esto se presentan algunos parmetros que nos servirn
para evaluar el desempeo de los intervalos de conanza para una proporcin
(Wald, Wilson, Agresti-Coull y Arcoseno), tales parmetros sern llamados
ndices de comparacin.

43
4.1. ndices de comparacin de un intervalo de
conanza
En esta seccin se tomarn en cuenta los 6 criterios que fueron presentados
en el captulo anterior (ver pgina 37) y en base a estos se denen tales ndices.
El primer ndice fue introducido en el captulo anterior y est denido de la
siguiente manera.
Porcentaje de puntos adecuados.
Sea N el conjunto de los nmeros naturales, I N donde I = {m} o
I = {k, k + 1, ..., k + m} y P = {0.001, 0.002, . . . , 0.999}. Para n I y p P,
se denen los siguientes conjuntos
Sea
Ci = {(n, p) I P | (n, p) cumple el criterio i} (4.1)
Ai = {(n, p) Ci | PC(n, p) 1 }, (4.2)
donde es un nmero real entre 0 y 1.
Entonces el porcentaje de puntos adecuados para el criterio i (el porcentaje
de puntos (n, p) I P tal que cumplen el criterio i y la PC(n, p) 0.95)
denotado como PAi es.
Card(Ai )
PAi = 100 %, (4.3)
Card(Ci )
donde Card signica la cardinalidad del conjunto en cuestin.
Al momento de calcular la probabilidad de cobertura para n y p, se en-
cuentra que, en general:

|(1 ) PC(n, p)| =


6 0,

por esta razn se consideran dos tipos de errores en la cobertura, el primero


est denido de la siguiente manera.
Error de cobertura por defecto (ECD).

44
Sea Ci como se deni en (4.1) y sea

Ii = {(n, p) Ci | PC(n, p) < 1 } (4.4)

entonces, el error de cobertura por defecto para (n, p) Ii (denotado por


ECD(n, p)) es
ECD(n, p) = (1 ) PC(n, p). (4.5)

Generalmente, al jar n y variar p los intervalos aproximados producen una


gran cantidad de puntos (n, p) tal que la PC(n, p) < (1 ) lo mismo ocurre
si se ja p y se vara n, de ah tenemos varios ECD (uno para cada (n, p) Ii ).
Con esta informacin podemos calcular el valor promedio de esos ECD, esto
con la intencin de tener otra medida de la efectividad de un intervalo de con-
anza. En caso de que este valor sea pequeo implicara que, el intervalo de
conanza tiene un buen comportamiento ya que anque existan puntos (n, p)
tal que PC(n, p) < (1 ) stas estaran en promedio cercanas a 1 . Y esto
es deseable.

Error de cobertura promedio por defecto.


Sea Ci como se dene en (4.1), si (n, p) Ii donde Ii se dine como en
(4.4), entonces el error de cobertura promedio por defecto para el criterio i
(denotado por ECPDi ) es:
) PC(n, p))
P
(n,p)Ii ((1
ECPDi = . (4.6)
Card(Ii )

En algunas ocasiones para hacer ms sencilla la comparacin en lugar del


error de probabilidad de cobertura promedio por defecto, se hablar de la
probabilidad de cobertura promedio por defecto y sta se calcula de la siguiente
forma.
Probabilidad de cobertura promedio por defecto

45
Sea Ci como se deni en (4.1), si (n, p) Ii donde Ii se dene como
en (4.4), entonces la probabilidad de cobertura promedio por defecto para el
criterio i (denotado por PCPDi ) es:

PCPDi = (1 ) ECPDi . (4.7)

El segundo tipo de error en la cobertura, est denido de la siguiente manera.


Error de cobertura por exceso (ECE).
Sea Ci = {(n, p) I P | (n, p) cumple el criterio i},
y sea
Ai = {(n, p) Ci | PC(n, p) > 1 } (4.8)
entonces, el error de cobertura por exceso para (n, p) Ai (denotado por
ECE(n, p)) es
ECE(n, p) = PC(n, p) (1 ). (4.9)
De manera similar, al jar n y variar p los intervalos aproximados producen
una gran cantidad de puntos (n, p) tal que la PC(n, p) > (1 ) lo mismo
ocurre si se ja p y se vara n, de ah tenemos varios ECE (uno para cada
(n, p) Ai ). Con esta informacin podemos calcular el valor promedio de esos
ECE, esto con la intencin de tener una medida ms de la efectividad de un
intervalo de conanza. En caso de que este valor sea pequeo implicara que,
el intervalo de conanza tiene un buen comportamiento ya que anque existan
puntos (n, p) tal que PC(n, p) > (1 ) stas estaran en promedio cercanas
a 1 . Y esto tambin es deseable.
Error de cobertura promedio por exceso.
Sea Ci como se deni en (4.1) si (n, p) Ai donde Ai se dene como
en (4.8), entonces el error de cobertura promedio por exceso para el criterio i
(denotado por ECPEi ) es:
PC(n, p)) (1 )
P
(n,p)Ai (
ECPEi = . (4.10)
Card(Ai )

46
En algunas ocasiones para hacer ms sencilla la comparacin en lugar del
error de probabilidad de cobertura promedio por exceso, se hablar de la pro-
babilidad de cobertura promedio por exceso y sta se calcula de la siguiente
forma.
Probabilidad de cobertura promedio por exceso.
Sea Ci como se dene en (4.1) si (n, p) Ai donde Ai se dene como
en (4.8) entonces la probabilidad de cobertura promedio por exceso para el
criterio i (denotado por PCPEi ) es:

PCPEi = EPCEi (1 ). (4.11)

El ltimo aspecto por medio del cual se analizar el desempeo de un inter-


valo de conanza (IC) ser su longitud esperada (denotada por LE), denida
anteriormente en el captulo 3 de la siguiente manera.
Longitud esperada.
Sea Ci como se dene en (4.1). Si (n, p) Ci entonces:

LE(n, p) = E(n,p) (Longitud(IC)) =


n  
n x
(4.12)
X
= (U (x, n) L(x, n)) p (1 p)nx .
x=0
x
Donde U(x,n) y L(x,n) son los lmites superior e inferior del intervalo de con-
anza, respectivamente. La longitud media esperada para el criterio i es solo
la integral Z 1
LMEi = E(n,p)Ci (Longitud(IC))dp. (4.13)
0

Es importante observar que Agresti y Min en [3] concluyen que al usar va-
riables discretas se obtienen comportamientos inesperados en los intervalos de
conanza y esto es independiente del mtodo usado con el que se construy.
Por esta razn en esta tsis se considerar que un intervalo de conanza tiene
un buen desempeo cuando:

47
PA sea grande y ECPE pequeo
ECPD sea pequeo,
LME sea pequea.

4.2. Anlisis del comportamiento del intervalo


de Wald sujeto a los criterios.
Los criterios o condiciones han sido sugeridos por los autores con la nalidad
de que el intervalo de Wald mejore su desempeo de una forma notable. Nos
interesara saber cul es el grado de esa mejora y por esta razn en la presente
seccin se analizar el desempeo del intervalo de Wald sujeto a tales criterios,
haciendo uso de los ndices de comparacin denidos en la seccin anterior.
Las siguientes grcas y tablas fueron realizadas con ayuda del lenguaje de
programacin R usando la frmula (3.3) y el coeciente de conanza nominal
0.95, es decir = 0.05.
La gura 4.1 presenta el comportamiento de la probabilidad de cobertura
del intervalo de Wald para los criterios 1-6 (ver pgina 37), para n = 100 y
p P. Los puntos en negro representan las probabilidades de cobertura para
n y p cuando (100, p) cumple el criterio establecido i con i = 1, 2, ..., 6 y los
puntos en azul cuando no es cumplido.

48
Figura 4.1: Probabilidades de cobertura del intervalo de Wald con n=100 y
p P para los criterios 1-6.

49
Se observa que los criterios 1, 2, 3, 4 y 6 previenen algunos puntos (100, p)
con p P en los cuales la probabilidad de cobertura es extremadamente irregu-
lar y en algunos casos cercana a 0. Se observa tambin que las probabilidades
de cobertura cuando (n, p) cumple el criterio i continan situndose en su ma-
yora por debajo del coeciente de conanza (.95). Esto ejemplica que s en
efecto, los criterios mejoran el desempeo del intervalo de Wald pero no de la
manera esperada.
Los ndices de efectividad nos ayudaran a tener una mejor apreciacin y
estos son mostrados en la tabla 4.1.

1 2 3 4 5 6
```
``Criterio (i)
ndice
```
` `
PA 13.11 % 14.75 % 13.18 % 14.71 % 11.81 % 16.03 %
ECPD 0.0121 0.0095 0.0118 0.0091 0.0308 0.0075
ECPE 0.0028 0.0028 0.0028 0.0029 0.0028 0.0030
LME 0.1634 0.1712 0.1638 0.1729 0.1524 0.1825
Tabla 4.1: ndices de comparacin del intervalo de Wald para p P y n = 100, donde PA es el
porcentaje de puntos adecuados, ECPD el error de cobertura promedio por exceso, ECPE el error de
cobertura promedio por defecto y LME la longitud media esperada.

Los porcentajes de puntos adecuados (PAi ) para los criterios 1-6, son res-
pectivamente, 13.11 %, 14.75 %, 13.18 %, 14.71 %, 11.81 %, 16.03 %, los cuales
continan siendo a nuestra consideracin pequeos, siendo el mayor el obteni-
do por el criterio 6 (no es extrao esto, ya que el intervalo de Wald mantiene
un comportamiento aceptable para p no cercanos a 0 o a 1) pero solo es de
16.03 %. Los errores de cobertura promedio por defecto (ECPDi ) no son tan
pequeos cmo se desean, siendo el ms pequeo el obtenido tambin por el
criterio 6 el cual es 0.0075. En general los ECPDi al ser grandes proporcionan
probabilidades de cobertura promedio por defecto (PCPDi ) muy por debajo

50
del nivel de conanza (0.95), para este caso el valor ms grande se obtiene
con el criterio 6, pero solamente logra una PCPD6 de 0.9425. Los errores de
cobertura promedio por exceso (ECPEi ) son pequeos y esto implica que las
probabilidad de cobertura para (n, p) cuando PC(n, p) > 0.95 estn muy pr-
xima a 0.95. Se sabe que la longitud esperada del intervalo de Wald converge
a 0 cuando p converge a 0 o bien a 1, pero tambin que la longitud esperada es
grande cuando p est cercano a 1/2. Sin embargo el intervalo de Wald mantie-
ne un comportamiento aceptable en tales p es decir, la longitud esperada del
intervalo de Wald es ms grande en los p en los cuales tiene un mejor desem-
peo que en los que no. Por esta razn, para la comparacin de los criterios
1-6 consideraremos a la longitud media esperada (LMEi ) ms grande. En este
ejemplo esta se logra tambin con el criterio 6.
Quizs pueda pensarse que n = 100 no es lo sucientemente grande y
que si en lugar de 100, n tomara algn tamao de muestra ms grande el
resultado de aplicar los criterios junto con el intervalo de Wald podra mejorar
el desempeo de ste de la forma deseada. Para estudiar este escenario, se toma
n=1000 repitiendo el mismo anlisis.

51
Figura 4.2: Probabilidades de cobertura del intervalo de Wald cuando n=1000
y p P para cada uno de los 6 criterios.

52
La gura 4.2 muestra las probabilidades de cobertura para n = 1000 y
p P de la misma manera que en la gura 4.1. Lo que se observa es que la
cantidad de puntos de la forma (1000, p) tal que (1000, p) no cumple el criterio i
con i=1,2,3,4, es muy pequeo, es decir los criterios 1, 2, 3 y 4 se cumplen para
la mayora de puntos (1000,p). As que se podra pensar que las diferencias
entre los criterios 1, 2, 3 y 4 sern insignicantes y esto puede observarse en
la tabla 4.2. Las PC(1000, p) cuando (1000, p) cumple el criterio i continan
situndose en su mayora por debajo del coeciente de conanza (0.95).

Criterio
1 2 3 4 5 6
XXX
XX
ndice XXX
PA 25.03 % 25.28 % 25.08 % 25.33 % 24.82 % 26.38 %
EPCD 0.0035 0.0031 0.0033 0.003 0.0051 0.002
ECPE 0.0012 0.0012 0.0012 0.0012 0.0012 0.0012
LME 0.0490 0.0494 0.0491 0.0495 0.0487 0.0580
Tabla 4.2: ndices de comparacin del intervalo de Wald para p P y n = 1000, donde PA es el
porcentaje de puntos adecuados, ECPD el error de cobertura promedio por exceso, ECPE el error de
cobertura promedio por defecto y LME la longitud media esperada.

De la tabla anterior se observa que el desempeo del intervalo de Wald


contina siendo inconsistente an despus de acompaarlo con los criterios
1-6 y de tomar un tamao de muestra muy grande (n = 1000), los valores
del ndice PAi an continan siendo insucientes, ya que su valor mximo es
26.38 % obtenido por el criterio 6. Sin embargo los ECPDi son demasiado
pequeos de igual manera los ECPEi , esto implica que las probabilidades de
cobertura se encuentran bastante cerca del coeciente de conanza nominal
(0.95).

53
4.3. Estudio sobre tamaos de muestra y varia-
ciones de p
Brown et al. en sus ejemplos 2, 3 y 4 (ver [6]) muestra que los valores
adecuados e inadecuados surgen de manera imprevista y que la probabilidad de
cobertura puede variar signicativamente para tamaos de muestra prximos,
esto tambin es cierto para valores p cercanos entre s. Tales situacines pueden
observarse tambin en las guras 3.1 y 3.3 de la seccin 3.1. Por este motivo
se realizar un anlisis detallado del comportamiento del intervalo de Wald
variando los parmetros n y p.
Para esto sea n {1, 2, ..., 10}, p P = {0.001, 0.002, ..., 0.999} y se consi-
deran los siguientes conjuntos Ai donde,
Ai = {100(n 1) + 1, 100(n 1) + 2, ..., 100(n 1) + 100}, notar que A1 =
{1, 2, ..., 100}, A2 = {101, 102, ..., 200},..., A10 = {901, 902, ..., 1000}.
Tomando Ai = I y usando las ecuaciones (4.3), (4.6), (4.7), (4.10), (4.11) y
(4.13) se proceder a calcular los ndices de comparacin del intervalo de Wald
para n Ai y p P en base a los criterios 1-6. Los resultados se muestran el
la tabla 4.3

54
Criterio 1 (np 5 y n(1 p) 5) Criterio 2 (np 10 y n(1 p) 10) Criterio 3 (np(1 p) 5)
PA PCPD PCPE LME PA PCPD PCPE LME PA PCPD PCPE LME
{1,2,..,100} 10.69 % 0.9326 0.9527 0.2383 13.58 % 0.9377 0.9527 0.228 11.49 % 0.9346 0.9527 0.2252
{101,102,..,200} 17.71 % 0.9399 0.9522 0.1329 19.04 % 0.942 0.9522 0.1377 17.77 % 0.9401 0.9522 0.1331
{201,202,..,300} 21.66 % 0.9424 0.9519 0.1005 22.53 % 0.9438 0.9519 0.1031 21.68 % 0.9425 0.9519 0.1006
{301,302,..,400} 24.31 % 0.9437 0.9517 0.0842 25.03 % 0.9448 0.9517 0.0858 24.32 % 0.9438 0.9517 0.0842
{401,402,..,500} 25.9 % 0.9446 0.9516 0.0739 26.5 % 0.9454 0.9516 0.075 25.91 % 0.9446 0.9516 0.0739
{501,502,..,600} 27.64 % 0.9451 0.9515 0.0666 28.16 % 0.9459 0.9515 0.0675 27.65 % 0.9452 0.9515 0.0666
{601,602,..,700} 28.69 % 0.9456 0.9514 0.0611 29.14 % 0.9462 0.9514 0.0618 28.69 % 0.9456 0.9514 0.0611
{701,702,..,800} 29.73 % 0.946 0.9513 0.0568 30.14 % 0.9465 0.9513 0.0574 29.74 % 0.946 0.9513 0.0568
{801,802,..,900} 30.6 % 0.9462 0.9513 0.0533 30.98 % 0.9467 0.9513 0.0538 30.6 % 0.9462 0.9513 0.0533
{901,902,..,1000} 31.35 % 0.9465 0.9512 0.0504 31.67 % 0.9469 0.9512 0.0508 31.35 % 0.9465 0.9512 0.0504

(a)

55
Criterio 4 (np(1 p) 10) Criterio 5 (n 100) Criterio 6 (n 50 y 0.2 < p < 0.8)
PA PCPD PCPE LME PA PCPD PCPE LME PA PCPD PCPE LME
{1,2,..,100} 15.13 % 0.9394 0.9527 0.2122 11.81 % 0.9192 0.9528 0.1524 15.89 % 0.94 0.9527 0.2134
{101,102,..,200} 19.23 % 0.9421 0.9522 0.1384 16.51 % 0.9264 0.9522 0.1265 22.87 % 0.9442 0.9523 0.1512
{201,202,..,300} 22.62 % 0.9438 0.9519 0.1033 20.8 % 0.9344 0.9519 0.0974 27.51 % 0.9461 0.9519 0.1163
{301,302,..,400} 25.07 % 0.9448 0.9517 0.0859 23.63 % 0.9381 0.9517 0.0823 30.39 % 0.9469 0.9517 0.0981
{401,402,..,500} 26.53 % 0.9454 0.9516 0.0751 25.35 % 0.9403 0.9516 0.0725 31.83 % 0.9474 0.9516 0.0865
{501,502,..,600} 28.19 % 0.9459 0.9515 0.0675 27.17 % 0.9418 0.9515 0.0656 33.84 % 0.9477 0.9514 0.0782
{601,602,..,700} 29.15 % 0.9462 0.9514 0.0619 28.27 % 0.9428 0.9514 0.0604 34.76 % 0.9479 0.9514 0.072
{701,702,..,800} 30.15 % 0.9465 0.9513 0.0574 29.37 % 0.9437 0.9513 0.0562 35.74 % 0.9481 0.9513 0.067
{801,802,..,900} 30.98 % 0.9467 0.9513 0.0538 30.28 % 0.9443 0.9513 0.0528 36.5 % 0.9482 0.9512 0.0629
{901,902,..,1000} 31.68 % 0.9469 0.9512 0.0508 31.03 % 0.9449 0.9512 0.0499 37.22 % 0.9483 0.9512 0.0595

Tabla 4.3: ndices de efectividad del intervalo de Wald para los criterios 1-6, para p P y n Ai .
(b)
Se observa de la tablas (a) y (b) que el intervalo de Wald contina teniendo
probabilidades de cobertura para n y p en su mayora inferiores al coeciente
de conanza nominal (0.95) an cuando se ha hecho uso de los criterios co-
mnmente sugeridos. Los porcentaje de puntos (n, p) tal que (n, p) cumple el
criterio i y la PC(n, p) 0.95 (PAi ) no son los deseados, principalmente para
n {1, 2, ..., 100} = A1 estos son bastante pequeos siendo el mayor obteni-
do cuando n 50 y 0.2 < p < 0.8 (criterio 6) anque solo es del 15.89 %.
Conforme n avanza de A1 a A10 los ndices PAi aumenta para cada criterio
siendo los obtenidos por el criterio 6 siempre los mayores, anque solo alcan-
za el valor mximo de 37.22 % en n A10 . Las probabilidades de cobertura
promedio por defecto (PCPDi ) tambin aumentan conforme se avanza de A1
hasta A10 , pero para n A1 estas estn bastante alejadas de 0.95 en todos los
criterios sobre todo con el criterio 5. Tambin se observa que las PCPDi ms
cercanas al nivel nominal son obtenidas por el criterio 6 anque esta alcanza
su valor mximo de 0.9483 cuando n A10 . Las probabilidades de cobertura
promedio por exceso (PCPEi ) decrecen conforme se avanza de A1 hasta A10
sin embargo estas son bastante similares para todos los criterios y estn muy
cercanas al nivel de conanza (0.95), an para n A1 estas son 0.9527 para
los criterios 1, 2, 3, 4 y 6 y 0.9528 para el criterio 5 sin embargo para n A10
estas alcanzan el valor 0.9512 para todos los criterios, excepto en el criterio
6 ah lo alcanza desde A9 . Las longitudes medias esperadas (LMEi ) tambin
mantienen un decrecimiento en todos los criterios cuando n avanza de A1 a
A10 , sin embargo los valores ms grandes excepto para A1 son obtenidos por
el criterio 6 y para A1 por el criterio 1.

56
4.4. Desempeo de los intervalos alternativos
De la ecuacin (3.6) tenemos que el intervalo de Wilson es:
X + 2 /2 n1/2 2 1/2 X + 2 /2 n1/2 2 1/2
[ (pq + ) , + (pq + ) ]
n + 2 n + 2 4n n + 2 n + 2 4n
X
donde p = , q = 1 p y = z 2 = 1 (1 ) donde (z) es la funcin de
n 2
distribucin de una normal estndar.
Su probabilidad de cobertura se calcula de la siguiente manera:
X + 2 /2 n1/2 2 1/2 X + 2 /2 n1/2 2 1/2
 
Pp pq + p + pq + .
n + 2 n + 2 4n n + 2 n + 2 4n
(4.14)
Por la proposicin (A.2) (ver Anexo A) se tiene que la probabilidad de cober-
tura para el intervalo de Wilson tambin podra calcularse como;
 
(4.15)
p p
Pp pn np(1 p) X pn + np(1 p) .

donde XBin(n,p).
De una manera ms compacta la probabilidad de cobertura del intervalo
de Wilson puede escribirse como:
bx2 c
!
n
(4.16)
X
Pp (p [L(X), U (X)]) = px (1 p)nx
x=dx1 e x

donde x1 = pn k np(1 p) y x2 = pn + k np(1 p), dx1 e y bx2 c son las


p p

funciones techo (ceiling) y piso (oor) respectivamente.


Es conocido que el intervalo de Wilson presenta comportamientos caticos
cuando p est cerca de los lmites 0 y 1 y que ese comportamiento se mantiene
para todo n y toda (ver [4] y [6]). Sin embargo cuando p no est cerca de los
lmites el intervalo de Wilson mantiene probabilidades de cobertura cercanas
al nivel nominal (ver [6] y [17]).

57
A continuacin se presentan algunas guras que muestran el comporta-
miento del intervalo de Wilson con respecto al Intervalo de Wald en la gura
4.3, y otras guras similares se encuentran en [6].

58
(a) (b)

Figura 4.3: Probabilidad de cobertura para n = 10 (a), n = 20 (b) y p P,


intervalo de Wald (lnea punteada), intervalo de Wilson (lnea continua).

Se observa de la gura 4.3 que el comportamiento de la probabilidad de


cobertura del intervalo de Wilson es mejor que el del intervalo de Wald, ya
que las probabilidades de cobertura para n = 10 o n = 20 y p P estn ms
cercanas a 0.95 y esto es ms notable para valores de p cercanos a 0 o a 1.
La gura 4.4 presenta la probabilidad de cobertura del intervalo de Wilson
para p = 0.001 y n {1, 2, ..., 1000}. Se observa que la probabilidad de cober-
tura es deciente para p = 0.001. La probabilidad de cobertura comienza cerca
de 1 y a conforme n aumenta esta decrece hasta caer a 0.8385 en n = 176, pero
inmediatamente aumenta a 0.9861 en n = 177. Nuevamente la probabilidad de
cobertura decrece hasta llegar a 0.895 en n = 548 e inmediatamente aumenta
hasta 0.9817 en n = 549, otros valores en los cuales surgen cambios drsticos
en la probabilidad de cobertura son en n = 1020 y n = 1556. Como puede
observarse el intervalo de Wilson mantiene un comportamiento similar para p
cerca del 0 o del 1 tal como el intervalo de Wald (ver gura 3.1) anque mejor
que ste.

59
Figura 4.4: Probabilidad de cobertura del intervalo de Wilson, cuando p=0.001
y n=1,2,. . . ,1000.

La Figura 4.5 presenta el comportamiento de la probabilidad de cobertura


del intervalo de Wilson para los criterios 1-6 (ver captulo 3 pgina, 37), con
n = 100 y p P. Los puntos en negro representan las probabilidades de
cobertura para (100, p) cuando (100, p) cumple el criterio establecido i y los
puntos en azul cuando no.

60
Figura 4.5: Probabilidades de cobertura del intervalo de Wilson cuando n=100
y p P para los criterios 1-6.

61
De la gura 4.5 se puede constatar que el desempeo del intervalo de Wil-
son es mejor al del intervalo de Wald (ver gura 4.1), las probabilidades de
cobertura para n = 100 y p P que se obtienen con el intervalo de Wilson
estn ms prximas al nivel nominal (0.95), en valores de p cercanos a 0 o a 1 es
ms clara esta mejora. Tambin se observa que los criterio 1-6 (ver pgina 37)
eliminan puntos (100, p) en los cuales la probabilidad de cobertura obtenida
por el intervalo de Wilson es catica.
La tabla 4.4 presenta los valores de los ndices de comparacin (ver seccin
4.1) que provee el intervalo de Wilson cuando n=100 y p P.
Criterio
1 2 3 4 5 6
XXX
XX
ndice XXX
PA 54.78 % 53.50 % 54.53 % 52.90 % 55.46 % 52.09 %
ECPD 0.0050 0.0049 0.0050 0.0049 0.0057 0.0046
ECPE 0.0052 0.0049 0.0052 0.0048 0.0064 0.0046
LME 0.1619 0.1691 0.1623 0.1707 0.1524 0.1796

Tabla 4.4: ndices obtenidos por el intervalo de Wilson en base a los criterios
1,2,. . . ,6, cuando n=100 y p P.

De la tabla 4.4 puede observarse que el intervalo de Wilson otorga porcen-


tajes de puntos adecuados (PA) mayores a los obtenidos por el intervalo de
Wald (ver tabla 4.1), los errores de cobertura promedio por defecto (ECPD)
son inferiores a los obtenidos por el intervalo de Wald, pero los errores de
cobertura promedio por exceso (ECPE) son mayores a los obtenidos por el
intervalo de Wald pero tales valores son pequeos. Las longitudes medias es-
peradas (LME) son tambin menores a los obtenidos por el intervalo de Wald.
Los mejores resultados se obtienen con el criterio 6.
De la ecuacin (3.7) tenemos que el intervalo de Agresti-Coull es:
 
1/2
1/2 1/2
1/2
p n pq , p + n pq

62

donde p = Xn , X = X + 2 , n = n + 2 , = z 2 = 1 (1 ); (z) es la
2

2
funcin de distribucin de una normal estndar y q = 1 p.
Su probabilidad de cobertura se calcula como:
 
(4.17)
1/2
1/2 1/2
1/2
Pp p n pq p p + n pq .

Por la proposicin (A.3) (ver Anexo A) se tiene que la probabilidad de cober-


tura para el intervalo de Agresti-Coull puede ser calculada tambin como;
r r
n + 2 2
 2 2
 2
c2
  
c c n + c
Pp p+ p2 c + pc + X p+ + p2 c + pc + .
1+c 2 4 2 1+c 2 4 2
(4.18)
2
donde c = y X Bin(n, p).
n
De una manera ms compacta la probabilidad de cobertura del intervalo de
Agresti-Coull puede escribirse como:
bx2 c
!
n
(4.19)
X
Pp (p [L(X), U (X)]) = px (1 p)nx
x=dx1 e x
   
,
q q
n+2 c2 2
n+2 c2 2
donde x1 = 1+c p+ 2c p2 c + pc + 4 2 y x2 = 1+c p+ 2c p2 c + pc + 4 + 2
dx1 e y bx2 c son las funciones techo (ceiling) y piso (oor) respectivamente.

Como Alan Agresti y Yongyi Min muestran en su artculo (ver [4]) el in-
tervalo de Agresti-Coull puede ser bastante conservador para p cercano a 0 o
a 1, pero esto es preferible a las muy bajas probabilidades de cobertura que el
intervalo de Wald puede dar en esas regiones.
A continuacin se presenta la gura 4.6 la cual muestra el comportamiento
del intervalo de Agresti-Coull con respecto al Intervalo de Wald, dicha gura
pueden encontrarse tambin en [4].

63
(a) (b)

Figura 4.6: Probabilidad de cobertura para n=10 y n=20 y p P donde el


intervalo de Wald es la lnea punteada y el intervalo de Agresti-Coull es la
lnea continua.

Se observa de la gura (4.6) que las probabilidades de cobertura obtenidas


por el intervalo de Agresti-Coull para n = 10 o n = 20 y p P estn ms
cercanas a 0.95 que las obtenidas por medio del intervalo de Wald, esto es ms
notable para valores de p cercanos a 0 o a 1. Sin embargo se observa tambin
que para valores de p cercanos a 0 o a 1 las probabilidades de cobertura estn
muy cercanas a 1.
La gura 4.7 presenta la probabilidad de cobertura del intervalo de Agresti-
Coull para p = 0.001 y n {1, 2, ..., 10000}.

64
Figura 4.7: Probabilidad de cobertura del intervalo de Agresti-Coull, cuando
p=0.001 y n=1,2,. . . ,10000.

Se observa de la gura 4.7 que el comportamiento del intervalo de Agresti-


Coull para p cercanos a 0 o a 1 es contrario al comportamiento del intervalo
de Wald (ver gura 3.1) para los mismos casos. En el intervalo de Agresti-
Coull la probabilidades de cobertura (PC) comienza cerca de 1, 0.999 cuando
n = 1 y de ah decrecen anque no de manera montona al nivel nominal 0.95.
Los valores de n que proveen PC cercanas a 0.95 son demasiado grandes, por
ejemplo en n = 5157 la PC(n, p) es 0.9564, sin embargo en n=5158 aumenta
a 0.9775.
La gura 4.8 muestra el comportamiento de la probabilidad de cobertura
del intervalo de Agresti-Coull para los criterios 1-6 (captulo 3), para n = 100
y p P. Los puntos en negro representan las probabilidades de cobertura para
(100, p) cuando (100, p) cumple el criterio establecido i y los puntos en azul
cuando no.

65
Figura 4.8: Probabilidades de cobertura del intervalo de Agresti-Coull cuando
n=100 y p P para los criterios 1-6.

66
De la gura 4.8 puede observarse que las probabilidades de cobertura en
su mayora son mayores que el nivel de conanza nominal (0.95), tambin
que los criterios 1, 2, 3, 4 y 6 excluyen puntos (100, p) con p P tal que
PC(n, p) 0.95 sin embargo en la mayora de estos puntos se cumple que:
PC(100, p) 0.95
es grande, es decir tales puntos tienen una probabilidad de cobertura que
sobrepasa por mucho a 0.95, tales puntos estn cercanos a los lmites 0 y 1 qu
es donde el intervalo de Agresti-Coull es bastante conservador.
La tabla 4.5 presenta los valores de los ndices de comparacin que provee el
intervalo de Agresti-Coull cuando n = 100 y p P.

Criterio
1 2 3 4 5 6
XX
XXX
ndice XXX
PA 65.22 % 62.38 % 65.03 % 61.42 % 68.47 % 57.76 %
ECPD 0.0041 0.0042 0.0041 0.0042 0.0041 0.0042
ECPE 0.0071 0.0059 0.0070 0.0057 0.0099 0.0049
LME 0.1633 0.1701 0.1637 0.1716 0.1546 0.1801

Tabla 4.5: ndices obtenidos por el intervalo de Agresti-Coull en base a los


criterios 1,2,. . . ,6, cuando n=100 y p P.

De la tabla 4.5 se puede observar que los porcentajes de puntos adecuados


(PA) para los criterios 1-6; son mayores a los obtenidos por los intervalos de
Wilson (ver tabla 4.4) y por supuesto a los obtenidos por el intervalo de Wald
(ver tabla 4.1), los errores de cobertura promedio por defecto (ECPD) son
inferiores a los obtenidos por el intervalo de Wilson, los errores de cobertura
promedio por exceso (ECPE) son superiores a los obtenidos por el intervalo
de Wilson y las longitudes medias esperadas (LME) tambin son mayores a
los obtenidos por el intervalo de Wilson.

67
De la ecuacin (3.8) tenemos que el intervalo Arcoseno es:
     
2 1/2 1 1/2 2 1/2
 1 1/2
sin arcsin p n , sin arcsin p + n
2 2

X+ 3
donde p = n+ 38 , y = z 2 = 1 (1 ) donde (z) es la funcin de distribu-
4 2
cin de una normal estndar.
Su probabilidad de cobertura se calcula como:

 
2 1/2
 1 1/2 2 1/2
 1 1/2 
Pp sin arcsin(p n ) p sin arcsin p + n .
2 2
(4.20)
Por la proposicin (A.4) (ver Anexo A) se tiene que la probabilidad de cober-
tura para el intervalo Arcoseno puede ser calculada como;

    
3  1  3 3  1  3
Pp n+ sin2 arcsin p n1/2 X n+ sin2 arcsin p + n1/2
4 2 8 4 2 8
(4.21)

donde X Bin(n, p).


De una manera ms compacta la probabilidad de cobertura del intervalo Ar-
coseno puede escribirse como.
bx2 c
!
n
(4.22)
X
Pp (p [L(X), U (X)]) = px (1 p)nx ,
x=dx1 e x

 1 1/2  3   3
donde x1 = n + 43 sin2 arcsin , x2 = n + 43 sin2 arcsin p + 12 n1/2 ,
 
p 2 n
8 8
dx1 e y bx2 c son las funciones techo (ceiling) y piso (oor) respectivamente.

Se conoce de Brown, Cai y DasGupta (ver [6]) qu el intervalo Arcoseno


acta razonablemente bien para p no cercano a 0 o a 1. Sin embargo para
p cercano a 0 o a 1 la cobertura tiene picos descendentes y ascendentes y en
ocasiones esta cae a 0, adems la longitudes esperadadas son signicativamente
ms grandes que la de los intervalos de Wald, Agresti-Coull y Wilson.

68
A continuacin se presentan algunas grcas que muestran el comporta-
miento del intervalo Arcoseno con respecto al del Intervalo de Wald, otras
grcas pueden encontrarse en [6].

(a) (b)

Figura 4.9: Probabilidad de cobertura para n = 10 (a), n = 20 (b) y p P


donde el intervalo de Wald es la lnea punteada y el intervalo de Arcoseno es
la lnea continua.

Es claro de la gura 4.9 que anque el intervalo Arcoseno no produzca una


cobertura aceptable sta es mejor a la obtenida por medio del intervalo de Wald
excepto para p muy cercanos a 0 o a 1. Por ejemplo para n = 10 y p 0.003
las probabilidades de cobertura obtenida por el intervalo Arcoseno son iguales
a 0 mientras que las obtenidas por el intervalo de Wald son 0.0099, 0.0198
y 0.0295 respectivamente, y para 0.004 p 0.015 las probabilidades de
cobertura obtenidas por el intervalo de Arcoseno son menores a las obtenidas
por el intervalo de Wald.
Con la nalidad de analizar el desempeo del intervalo Arcoseno en puntos
cercanos a 0 o a 1 se presenta la gura 4.10 que presenta su probabilidad de
cobertura para p = 0.001 y n {1, 2, ..., 10000}.

69
Figura 4.10: Probabilidad de cobertura del intervalo Arcoseno, cuando p=0.001
y n=1,2,. . . ,10000.

De la gura 4.10 puede observarse que las probabilidades de cobertura


obtenidas por el Intervalo Arcoseno son demasiado pobres para p = 0.001 e
incluso para n 35 stas son 0, en n = 36 la probabilidad de cobertura es
solamente 0.0348 y sta aumenta conforme aumenta n hasta llegar a 0.1188
en n = 136, pero salta inmediatamente hasta 0.9915 en n = 137, al igual que
en los intervalos anteriores los saltos en la probabilidad de cobertura surgen
de manera imprevista, sin embargo existen saltos que son demasiado notables
tales como el que ocurre en n = 136, situaciones similares ocurren en n = 2534
donde la probabilidad de cobertura es 0.9887 y cae hasta 0.9057 en n = 2535.
Otros saltos drsticos en la cobertura surgen en n = 4631 y en n = 6353.
Veamos el comportamiento del Intervalo Arcoseno con respecto a los crite-
rios 1-6 para n = 100 y p P. Los puntos en negro representan las probabi-
lidades de cobertura para n = 100 y p P cuando (100, p) cumple el criterio
establecido i y los puntos en azul cuando no.

70
Figura 4.11: Probabilidades de cobertura del intervalo Arcoseno cuando n=100
y p P para los criterios 1-6.

71
Puede observarse nuevamente que los criterios eliminan puntos cercanos
a 0 o a 1 en los cuales el intervalo Arcoseno produce malas probabilidades
de cobertura y tambin se observa que las probabilidades de cobertura se
encuentran en cantidad similar por arriba y por abajo de 0.95. Los ndices
para este caso pueden observarse en la tabla 4.6.

Criterio
1 2 3 4 5 6
XXX
XX
ndice XXX
PA 55.56 % 54.38 % 55.64 % 54.71 % 56.46 % 54.09 %
ECPD 0.0056 0.0049 0.0055 0.0049 0.0103 0.0044
ECPE 0.0052 0.0049 0.0052 0.0050 0.0075 0.0047
LME 0.196 0.196 0.196 0.196 0.196 0.196

Tabla 4.6: ndices obtenidos por el intervalo Arcoseno en base a los criterios
1,2,. . . ,6, cuando n=100 y p P.

De la tabla 4.6 se observa que los porcentajes de puntos adecuados (PA)


obtenidos por el intervalo Arcoseno son mayores a los obtenidos por los interva-
los de Wald y de Wilson (ver tablas 4.1 y 4.4) pero menores a los obtenidos por
el intervalo de Agresti-Coull (ver tabla4.5). Los errores de cobertura promedio
por defecto ECPD son menores a los obtenidos por los intervalos de Wald,
mayores o iguales a los del intervalo de Wilson excepto para el criterio 6 ah
son menores, y mayores a los obtenidos por el Intervalo de Agresti-Coull. Los
errores de cobertura promedio por exceso (ECPE) son mayores a los obtenidos
por los intervalos de Wald y Wilson y menores a los del Intervalo de Agresti-
Coull. Las longitudes medias esperadas (LME) son por mucho mayores a las
obtenidas por otros tres intervalos.

72
4.5. Comparacin de los intervalos alternativos
Con el objetivo de hacer la comparacin entre intervalos ms amena se
comenzar con un caso drstico para el intervalo de Wald anque tambin
se presentan problemas en los dems intervalos, sea n = 20. Se denotar al
Intervalo de Wald por IE , al Intervalo de Wilson IW , al intervalo de Agresti-
Coull IAC y al intervalo Arcoseno IA . La gura 4.12 muestra la probabilidad
de cobertura para los cuatro intervalos para n = 20 y p P.

(a) (b)

(c) (d)

Figura 4.12: Probabilidad de cobertura, n=20 y p P.

73
Al visualizar la gura 4.12 se percata que los tres intervalos Agresti-Coull,
Wilson y Arcoseno muestran una probabilidad de cobertura preferible a la
del Intervalo de Wald, en especial el comportamiento del intervalo de Wilson
parece ser el mejor sobre todo para p cercanos a 0 o a 1, ya que para tales p
el intervalo de Agresti-Coull otorga probabilidades de cobertura cercanas a 1
y el intervalo Arcoseno a 0.
La gura 4.13 representa las longitudes esperadas de los 4 intervalos cuando
n = 20 y p P.

Figura 4.13: Longitud esperada, con n=20 y p P ( ) Intervalo de Wald, ( )


Intervalo de Agresti-Coull, ( ) Intervalo de Wilson (. . .) Intervalo Arcoseno.

Como puede observarse la longitud esperada (LE) del intervalo de Wald


es la ms corta para p cercano a 0 o a 1 (p 0.166 y p 0.834), mientras
que para 0.166 < p < 0.834 el intervalo de Wilson posee la LE ms corta, la
LE del intervalo de Agresti-Coull es mayor a la de Wilson sin embargo para p
cercanos a 1/2 son bastante similares. La LE del intervalo Arcoseno es mayor

74
a los otros intervalos y esta es similar para todo p.
La tabla 4.7 muestra los ndices de efectividad para los 4 intervalos cuando
n = 20 y p P.

IE
```
```Intervalo IAC IW IS
ndice ``` `
PA 0.5 % 80.58 % 59.56 % 62.76 %
ECPD 0.1039 0.0083 0.0129 0.0409
ECPE 0.0027 0.0166 0.0141 0.0190
LME 0.3243 0.3409 0.3255 0.4383

Tabla 4.7: ndices de comparacin de los intervalos (sin criterio), n=20, p


{0.001, 0.002, , . . . , 0.999} (Fuente: Propia).

El intervalo que genera un porcentaje de puntos adecuados (PA) mayor es


el intervalo de Agresti-Coull, tambin posee el error de cobertura promedio por
defecto (ECPD) ms pequeo, sin embargo posee el error de cobertura pro-
medio por exceso (ECPE) superior al del intervalo de Wilson y considerando
que el 80.58 % de puntos (20, p) cumplen que su PC 0.95 sera una mala
eleccin elegir al intervalo de Agresti-Coull como el idneo para este caso.
Otro de los comportamientos drsticos del intervalo de Wald y de los dems
intervalos es cuando el parmetro p es pequeo consideremos el caso p = 0.005
y n {1, 2, . . . , 1000} la grca muestra las respectivas probabilidades de
cobertura para los cuatro intervalos.

75
(a) (b)

(c) (d)

Figura 4.14: Probabilidad de cobertura para los intervalos Wald, Agresti-Coull,


Wilson y Arcoseno con p=0.005 y n {1, 2, . . . , 1000}.

76
De la gura 4.14 puede verse que el intervalo con un mejor desempeo
en trminos de la probabilidad de cobertura es el intervalo de Wilson ya
que el intervalo de Agresti-Coull cumple que para todo n {1, 2, ..., 1000}
PC(n, p) 0.9619 lo cual est bastante alejada del nivel nominal. El intervalo
Arcoseno provee probabilidades de cobertura pobres para n 5 esta es 0, para
6 n 27 la PC(n, p) 0.1185 y para 28 n 506 la PA(n, p) 0.9612.
La tabla 4.8 muestra los ndices de efectividad de los 4 intervalos para
p = 0.005 y n {1, 2, . . . , 1000}.

IE
```
```Intervalo IAC IW IS
ndice ``` `
PA 0% 100 % 67.80 % 67.50 %
ECPD 0.1863 NA 0.0159 0.0781
ECPE NA 0.0289 0.0152 0.0259
LME 0.0122 0.0335 0.0273 0.1211

Tabla 4.8: ndices de comparacin de los intervalos (sin criterio), p=0.005,


n {1, 2, , . . . , 100}.

De la tabla 4.8 se observa nuevamente, que el intervalo con un mejor desem-


peo en trminos de probabilidad de cobertura para p = 0.005 es nuevamente
el intervalo de Wilson ya que en el intervalo de Agresti-Coull cumple siempre
que PC(n, p) 0.95 y por tanto tiene un error de cobertura promedio por
exceso ECPE bastante grande (0.0289), el intervalo Arcoseno provee un PA
similar al obtenido por el intervalo de Wilson pero los ECPD y ECPE son
demasiado mayores a este ltimo.
Debido a que el intervalo de Wald es bastante inestable y tambin a que los
intervalos alternativos continan presentando inconsistencia anque en menor
grado. A continuacin se analizar cul de estos ltimos debera ser la op-
cin ms recomendada para cualquier tamao de muestra y observar si alguno

77
de los criterios del captulo 3 podra mejorar su desempeo, para lograr es-
to a continuacin se compara el comportamiento de los 4 intervalos (Wald,
Agresti-Coull, Wilson y Arcoseno) de la misma manera en la que se compar
nicamente al intervalo de Wald (ver tabla 4.3). Usando las deniciones de los
llamados ndices de comparacin PAi (ver (4.3)), PCPDi (ver (4.7)), PCPEi
(ver (4.11)) y LMEi (ver (4.13)).
Sean Ai con i {1, 2, ..., 10} los conjuntos denidos de la siguiente manera;

Ai = {100(n 1) + 1, 100(n 1) + 2, ..., 100(n 1) + 100},

notar que A1 = {1, 2, ..., 100}, A2 = {101, 102, ..., 200},..., A10 = {901, 902, ..., 1000}.
Se proceder a continuacin a calcular los ndices de comparacin cuando
n Ai y p P, los resultados se muestran a continuacin.

78
Criterio 1 (np 5 y n(1 p) 5)
Intervalo de Wald Intervalo de Wilson Intervalo de Agresti-Coull Intervalo Arcoseno

PA
PA
PA
PA

LME
LME
LME
LME

PCPE
PCPE
PCPE
PCPE

PCPD
PCPD
PCPD
{1,...,100} 10.69 % 0.9326 0.9527 0.2383 54.83 % 0.9439 0.9567 0.2307 67.22 % 0.9451 0.9582 0.2332 55.46 % PCPD
0.9436 0.9568 0.2731
{101,...,200} 17.71 % 0.9399 0.9522 0.1329 53.41 % 0.9462 0.9543 0.1322 64.9 % 0.9468 0.9558 0.1331 52.82 % 0.9458 0.9543 0.1618
{201,...,300} 21.66 % 0.9424 0.9519 0.1005 52.88 % 0.9469 0.9535 0.1003 63.06 % 0.9474 0.9547 0.1008 52.16 % 0.9466 0.9534 0.1244
{301,...,400} 24.31 % 0.9437 0.9517 0.0842 52.48 % 0.9473 0.953 0.084 62.05 % 0.9478 0.954 0.0843 51.15 % 0.9471 0.953 0.1049
{401,...,500} 25.9 % 0.9446 0.9516 0.0739 52.18 % 0.9476 0.9527 0.0738 60.85 % 0.948 0.9536 0.074 51.22 % 0.9474 0.9527 0.0925
{501,...,600} 27.64 % 0.9451 0.9515 0.0666 52.4 % 0.9478 0.9525 0.0665 60.45 % 0.9482 0.9532 0.0667 51.35 % 0.9476 0.9524 0.0836
{601,...,700} 28.69 % 0.9456 0.9514 0.0611 51.88 % 0.9479 0.9523 0.0611 59.6 % 0.9483 0.953 0.0612 51.08 % 0.9478 0.9522 0.0769
{701,...,800} 29.73 % 0.946 0.9513 0.0568 51.96 % 0.9481 0.9522 0.0568 59.18 % 0.9484 0.9528 0.0569 50.8 % 0.9479 0.9521 0.0716
{801,...,900} 30.6 % 0.9462 0.9513 0.0533 51.69 % 0.9482 0.952 0.0533 58.81 % 0.9485 0.9527 0.0534 50.95 % 0.9481 0.952 0.0672
{901,...,1000} 31.35 % 0.9465 0.9512 0.0504 51.64 % 0.9482 0.9519 0.0504 58.45 % 0.9485 0.9525 0.0504 50.99 % 0.9481 0.9518 0.0636

(a)

79
Criterio 2 (np 10 y n(1 p) 10)
Intervalo de Wald Intervalo de Wilson Intervalo de Agresti-Coull Intervalo Arcoseno

PA
PA
PA
PA

LME
LME
LME
LME

PCPE
PCPE
PCPE
PCPE

PCPD
PCPD
PCPD
PCPD

{1,...,100} 13.58 % 0.9377 0.9527 0.228 53.33 % 0.9447 0.9557 0.2218 62.29 % 0.9453 0.9564 0.223 54.26 % 0.9446 0.9558 0.2501
{101,...,200} 19.04 % 0.942 0.9522 0.1377 52.9 % 0.9463 0.954 0.1366 62.41 % 0.9468 0.9549 0.1373 52.69 % 0.9461 0.954 0.1616
{201,...,300} 22.53 % 0.9438 0.9519 0.1031 52.63 % 0.947 0.9532 0.1027 61.43 % 0.9474 0.954 0.1031 52.54 % 0.9468 0.9532 0.1244
{301,...,400} 25.03 % 0.9448 0.9517 0.0858 52.27 % 0.9474 0.9528 0.0856 60.89 % 0.9478 0.9535 0.0859 51.44 % 0.9473 0.9528 0.1049
{401,...,500} 26.5 % 0.9454 0.9516 0.075 52.01 % 0.9476 0.9526 0.0749 59.94 % 0.948 0.9532 0.0751 51.48 % 0.9475 0.9525 0.0925
{501,...,600} 28.16 % 0.9459 0.9515 0.0675 52.22 % 0.9478 0.9523 0.0674 59.7 % 0.9482 0.9529 0.0676 51.59 % 0.9477 0.9523 0.0836
{601,...,700} 29.14 % 0.9462 0.9514 0.0618 51.77 % 0.948 0.9522 0.0618 58.96 % 0.9483 0.9527 0.0619 51.23 % 0.9479 0.9521 0.0769
{701,...,800} 30.14 % 0.9465 0.9513 0.0574 51.72 % 0.9481 0.952 0.0574 58.61 % 0.9484 0.9525 0.0575 50.95 % 0.948 0.952 0.0716
{801,...,900} 30.98 % 0.9467 0.9513 0.0538 51.62 % 0.9482 0.9519 0.0538 58.31 % 0.9485 0.9524 0.0539 51.06 % 0.9481 0.9519 0.0672
{901,...,1000} 31.67 % 0.9469 0.9512 0.0508 51.58 % 0.9483 0.9518 0.0508 58.02 % 0.9485 0.9523 0.0508 51.09 % 0.9482 0.9518 0.0636

Tabla 4.9: ndices de IE , IAC , IW y IA , Criterio 1 (a), Criterio 2 (b).


(b)
Para el criterio 1 (a) tenemos que para todo Ai los porcentajes mayores
de puntos adecuados (PAi ) son obtenidos por medio del intervalo de Agresti-
Coull as como tambin las probabilidades de cobertura promedio por defecto
(PCPDi ) ms cercanas al nivel nominal pero al mismo tiempo provee las
probabilidades de cobertura promedio por exceso (PCPEi ) ms alejadas de
0.95, las PCPEi ms cercanas a .95 son logradas por el intervalo de Wilson
y Arcoseno. Sin embargo las longitudes medias esperasLMEi del intervalo
Arcoseno son demasiado grandes comparadas a las LMEi del intervalo de
Wilson, las cuales son las mnimas. La diferencia entre las probabilidades de
cobertura por exceso (PCPEi ) del intervalo de Agresti-Coull Y el intervalo de
Wilson es 0.0015 en A1 y decrecen hasta 0.0006 en A10 .
Para el criterio 2 (b) tenemos las mismas observaciones y en este criterio
las diferencias entre las PCPEi del intervalo de Agresti-Coull Y el intervalo
de Wilson son 0.0009 en A1 y decrecen hasta 0.0005 en A10 .

80
Criterio 3 (np(1 p) 5)
Intervalo de Wald Intervalo de Wilson Intervalo de Agresti-Coull Intervalo Arcoseno

PA
PA
PA
PA

LME
LME
LME
LME

PCPE
PCPE
PCPE
PCPE

PCPD
PCPD
PCPD
{1,...,100} 11.49 % 0.9346 0.9527 0.2252 54.73 % 0.9443 0.9562 0.2194 66.18 % 0.9453 0.9576 0.2215 55.01 % PCPD
0.9439 0.9563 0.2578
{101,...,200} 17.77 % 0.9401 0.9522 0.1331 53.28 % 0.9462 0.9543 0.1323 64.79 % 0.9468 0.9557 0.1333 52.83 % 0.9458 0.9543 0.1618
{201,...,300} 21.68 % 0.9425 0.9519 0.1006 52.83 % 0.9469 0.9535 0.1003 63.02 % 0.9474 0.9547 0.1008 52.2 % 0.9466 0.9534 0.1244
{301,...,400} 24.32 % 0.9438 0.9517 0.0842 52.46 % 0.9473 0.953 0.0841 62.04 % 0.9478 0.954 0.0844 51.17 % 0.9471 0.953 0.1049
{401,...,500} 25.91 % 0.9446 0.9516 0.0739 52.16 % 0.9476 0.9527 0.0738 60.84 % 0.948 0.9536 0.074 51.23 % 0.9474 0.9527 0.0925
{501,...,600} 27.65 % 0.9452 0.9515 0.0666 52.39 % 0.9478 0.9525 0.0665 60.44 % 0.9482 0.9532 0.0667 51.36 % 0.9476 0.9524 0.0836
{601,...,700} 28.69 % 0.9456 0.9514 0.0611 51.87 % 0.9479 0.9523 0.0611 59.59 % 0.9483 0.953 0.0612 51.08 % 0.9478 0.9522 0.0769
{701,...,800} 29.74 % 0.946 0.9513 0.0568 51.96 % 0.9481 0.9522 0.0568 59.17 % 0.9484 0.9528 0.0569 50.8 % 0.948 0.9521 0.0716
{801,...,900} 30.6 % 0.9462 0.9513 0.0533 51.69 % 0.9482 0.952 0.0533 58.81 % 0.9485 0.9527 0.0534 50.95 % 0.9481 0.952 0.0672
{901,...,1000} 31.35 % 0.9465 0.9512 0.0504 51.64 % 0.9482 0.9519 0.0504 58.45 % 0.9485 0.9525 0.0504 50.99 % 0.9481 0.9518 0.0636

(c)

81
Criterio 4 (np(1 p) 10)
Intervalo de Wald Intervalo de Wilson Intervalo de Agresti-Coull Intervalo Arcoseno

PA
PA
PA
PA

LME
LME
LME
LME

PCPE
PCPE
PCPE
PCPE

PCPD
PCPD
PCPD
PCPD

{1,...,100} 15.13 % 0.9394 0.9527 0.2122 53.59 % 0.9449 0.9552 0.2075 61.41 % 0.9455 0.9557 0.2085 54.57 % 0.9449 0.9553 0.2316
{101,...,200} 19.23 % 0.9421 0.9522 0.1384 52.95 % 0.9463 0.954 0.1373 62.26 % 0.9468 0.9547 0.1379 52.54 % 0.9461 0.954 0.1615
{201,...,300} 22.62 % 0.9438 0.9519 0.1033 52.75 % 0.947 0.9532 0.1029 61.3 % 0.9474 0.954 0.1033 52.62 % 0.9468 0.9532 0.1244
{301,...,400} 25.07 % 0.9448 0.9517 0.0859 52.27 % 0.9474 0.9528 0.0857 60.82 % 0.9478 0.9535 0.086 51.5 % 0.9473 0.9528 0.1049
{401,...,500} 26.53 % 0.9454 0.9516 0.0751 51.98 % 0.9476 0.9525 0.075 59.89 % 0.948 0.9532 0.0752 51.54 % 0.9475 0.9525 0.0925
{501,...,600} 28.19 % 0.9459 0.9515 0.0675 52.19 % 0.9478 0.9523 0.0674 59.67 % 0.9482 0.9529 0.0676 51.63 % 0.9477 0.9523 0.0836
{601,...,700} 29.15 % 0.9462 0.9514 0.0619 51.74 % 0.948 0.9522 0.0618 58.94 % 0.9483 0.9527 0.0619 51.25 % 0.9479 0.9521 0.0769
{701,...,800} 30.15 % 0.9465 0.9513 0.0574 51.7 % 0.9481 0.952 0.0574 58.6 % 0.9484 0.9525 0.0575 50.97 % 0.948 0.952 0.0716
{801,...,900} 30.98 % 0.9467 0.9513 0.0538 51.61 % 0.9482 0.9519 0.0538 58.3 % 0.9485 0.9524 0.0539 51.07 % 0.9481 0.9519 0.0672
{901,...,1000} 31.68 % 0.9469 0.9512 0.0508 51.57 % 0.9483 0.9518 0.0508 58.01 % 0.9485 0.9523 0.0508 51.1 % 0.9482 0.9518 0.0636

Tabla 4.10: ndices de IE , IAC , IW y IA , Criterio 3 (c), Criterio 4 (d).


(d)
Para el criterio 3 (c) tenemos nuevamente que para todo Ai los mayores PAi
son obtenidos por medio del intervalo de Agresti-Coull de manera similar con l
se obtienen las PCPDi ms cercanas al nivel nominal pero provee las PCPEi
ms alejadas del nivel nominal, estas son logradas por el intervalo de Wilson y
Arcoseno, sin embargo las LMEi del intervalo Arcoseno son demasiado grandes
comparadas a las LMEi del intervalo de Wilson. Las diferencias entre las
PCPEi del intervalo de Agresti-Coull Y el intervalo de Wilson se encuentran
entre 0.0014 y 0.0006.
Para el criterio 4 (d) tenemos las mismas observaciones que para el criterio
6, las diferencias entre las PCPEi del intervalo de Agresti-Coull Y el intervalo
de Wilson se encuentran entre 0.0008 y 0.0005.

82
Criterio 5 (n 100)
Intervalo de Wald Intervalo de Wilson Intervalo de Agresti-Coull Intervalo Arcoseno

PA
PA
PA
PA

LME
LME
LME
LME

PCPE
PCPE
PCPE
PCPE

PCPD
PCPD
PCPD
{1,2,...,100} 11.81 % 0.9192 0.9528 0.1524 55.46 % 0.9443 0.9564 0.1524 68.47 % 0.9459 0.9599 0.1546 56.46 % PCPD
0.9397 0.9575 0.196
{101,102,...,200} 16.51 % 0.9264 0.9522 0.1265 54.26 % 0.9456 0.9553 0.1264 67.28 % 0.9468 0.958 0.1278 53.72 % 0.9438 0.9562 0.1621
{201,202,...,300} 20.8 % 0.9344 0.9519 0.0974 53.5 % 0.9467 0.9541 0.0974 64.52 % 0.9474 0.9561 0.098 52.77 % 0.9462 0.9545 0.1245
{301,302,...,400} 23.63 % 0.9381 0.9517 0.0823 52.98 % 0.9472 0.9535 0.0823 63.1 % 0.9478 0.9551 0.0826 51.61 % 0.9468 0.9538 0.105
{501,402,...,500} 25.35 % 0.9403 0.9516 0.0725 52.34 % 0.9474 0.953 0.0725 61.68 % 0.948 0.9545 0.0728 51.59 % 0.9472 0.9534 0.0925
{501,502,...,600} 27.17 % 0.9418 0.9515 0.0656 52.69 % 0.9476 0.9528 0.0656 61.13 % 0.9482 0.9539 0.0658 51.61 % 0.9474 0.9528 0.0836
{601,602,...,700} 28.27 % 0.9428 0.9514 0.0604 52.19 % 0.9479 0.9525 0.0604 60.18 % 0.9483 0.9537 0.0605 51.3 % 0.9476 0.9527 0.0769
{701,702,...,800} 29.37 % 0.9437 0.9513 0.0562 52.21 % 0.948 0.9524 0.0562 59.68 % 0.9484 0.9533 0.0563 51.05 % 0.9478 0.9525 0.0716
{801,802,...,900} 30.28 % 0.9443 0.9513 0.0528 51.9 % 0.9481 0.9522 0.0528 59.25 % 0.9485 0.9531 0.0529 51.09 % 0.9479 0.9523 0.0672
{901,902,...,1000} 31.03 % 0.9449 0.9512 0.0499 51.68 % 0.9481 0.9521 0.0499 58.86 % 0.9485 0.9529 0.05 51.1 % 0.9479 0.9522 0.0636

(e)

83
Criterio 6 (n 50 y 0.2 < p < 0.8)
Intervalo de Wald Intervalo de Wilson Intervalo de Agresti-Coull Intervalo Arcoseno

PA
PA
PA
PA

LME
LME
LME
LME

PCPE
PCPE
PCPE
PCPE

PCPD
PCPD
PCPD
PCPD

{1,2,...,100} 15.89 % 0.94 0.9527 0.2134 52.83 % 0.9452 0.9551 0.2087 59.61 % 0.9456 0.9555 0.2096 53.91 % 0.9452 0.9551 0.2298
{101,102,...,200} 22.87 % 0.9442 0.9523 0.1512 51.88 % 0.9466 0.9535 0.1495 56.38 % 0.9468 0.9537 0.1498 52.74 % 0.9466 0.9536 0.1621
{201,202,...,300} 27.51 % 0.9461 0.9519 0.1163 51.56 % 0.9474 0.9527 0.1155 54.72 % 0.9475 0.9528 0.1157 52.44 % 0.9474 0.9527 0.1245
{301,302,...,400} 30.39 % 0.9469 0.9517 0.0981 51.27 % 0.9478 0.9523 0.0977 54.05 % 0.9479 0.9523 0.0977 51.88 % 0.9478 0.9523 0.105
{401,402,...,500} 31.83 % 0.9474 0.9516 0.0865 50.63 % 0.948 0.952 0.0862 53.16 % 0.9481 0.9521 0.0862 51.35 % 0.9481 0.952 0.0925
{501,502,...,600} 33.84 % 0.9477 0.9514 0.0782 51.1 % 0.9482 0.9518 0.078 53.29 % 0.9483 0.9518 0.078 51.62 % 0.9482 0.9518 0.0836
{601,602,...,700} 34.76 % 0.9479 0.9514 0.072 50.61 % 0.9484 0.9517 0.0718 52.72 % 0.9484 0.9517 0.0718 51.14 % 0.9484 0.9517 0.0769
{701,702,...,800} 35.74 % 0.9481 0.9513 0.067 50.77 % 0.9485 0.9515 0.0668 52.65 % 0.9485 0.9516 0.0669 51.22 % 0.9485 0.9515 0.0716
{801,802,...,900} 36.5 % 0.9482 0.9512 0.0629 50.74 % 0.9486 0.9515 0.0628 52.49 % 0.9486 0.9515 0.0628 51.19 % 0.9486 0.9515 0.0672
{901,902,...,1000} 37.22 % 0.9483 0.9512 0.0595 50.55 % 0.9486 0.9514 0.0594 52.19 % 0.9487 0.9514 0.0594 51.32 % 0.9486 0.9514 0.0636

Tabla 4.11: ndices de IE , IAC , IW y IA , Criterio 5 (e), Criterio 6 (f).


(f)
Para el criterio 5 (e) tenemos que para todo Ai los mayores PAi son ob-
tenidos por medio del intervalo de Agresti-Coull de manera similar con l se
obtienen las PCPDi ms cercanas al nivel nominal pero provee las PCPEi
ms alejadas del nivel nominal, estas son logradas por el intervalo de Wilson y
Arcoseno, sin embargo las LMEi del intervalo Arcoseno son demasiado gran-
des comparadas a las LMEi del intervalo de Wilson. Las diferencias entre las
PCPEi del intervalo de Agresti-Coull Y el intervalo de Wilson se encuentran
entre 0.0035 y 0.0008.
Para el criterio 6 (f) tenemos las mismas observaciones que para el criterio
5, sin embargo las diferencias entre las PCPEi del intervalo de Agresti-Coull
Y el intervalo de Wilson se encuentran entre 0.0004 y 0.
En este apartado se presentan estudios similares a los anteriores pero para
tamaos de muestra muy grandes 25 n 10000. Esto con el n de corroborar
que las inconsistencias del intervalo de Wald no desaparecen an con estos
tamaos de muestra y tambin para comparar los intervalos alternativos con
estos tamaos de muestra y corroborar.

84
CRITERIO 1 (np 5 y n(1 p) 5)
WALD AGRESTI-COULL WILSON ARCSENO

PA
PA
PA
PA

LME
LME
LME
LME

PCPE
PCPE
PCPE
PCPE

PCPD
PCPD
PCPD
{25,...,1000}] 25.47 % 0.9435 0.9516 0.0847 61.19 % 0.9479 0.9539 0.0846 52.44 % 0.9474 0.953 0.0842 51.62 % PCPD
0.9472 0.9529 0.1043
{1001,...,2000} 33.9 % 0.9472 0.951 0.0405 57.15 % 0.9488 0.952 0.0406 51.39 % 0.9486 0.9516 0.0418 50.62 % 0.9485 0.9515 0.0513
{2001,...,3000} 36.83 % 0.948 0.9508 0.031 55.8 % 0.949 0.9515 0.0311 51.13 % 0.9489 0.9512 0.031 50.55 % 0.9488 0.9512 0.0394
{3001,...,4000} 38.48 % 0.9484 0.9507 0.0262 55.02 % 0.9492 0.9513 0.0262 50.98 % 0.949 0.951 0.0261 50.44 % 0.949 0.951 0.0332
{4001,...,5000} 39.65 % 0.9486 0.9507 0.023 54.41 % 0.9493 0.9511 0.023 50.79 % 0.9492 0.9509 0.023 50.31 % 0.9491 0.9509 0.0293
{5001,...,6000} 40.4 % 0.9487 0.9506 0.0208 54.2 % 0.9493 0.951 0.0208 50.82 % 0.9492 0.9508 0.0208 50.35 % 0.9492 0.9492 0.0265
{5001,...,7000} 41.00 % 0.9488 0.9506 0.0191 53.9 % 0.9494 0.9509 0.0191 50.77 % 0.9493 0.9508 0.0191 50.36 % 0.9492 0.9507 0.0243
{7001,...,8000} 41.56 % 0.949 0.9505 0.0178 53.6 % 0.9494 0.9509 0.0178 50.73 % 0.9493 0.9507 0.0178 50.42 % 0.9493 0.9507 0.0226
{8001,...,9000} 41.97 % 0.949 0.9505 0.0167 53.44 % 0.9494 0.9508 0.0167 50.64 % 0.9494 0.9507 0.0167 50.28 % 0.9493 0.9506 0.0213
{9001,...,10000} 42.46 % 0.9491 0.9505 0.0158 53.31 % 0.9495 0.9507 0.0158 50.7 % 0.9494 0.9506 0.0158 50.29 % 0.9494 0.9506 0.0206

(a)

85
CRITERIO 2 (np 10 y n(1 p) 10)
WALD AGRESTI-COULL WILSON ARCSENO

PA
PA
PA
PA

LME
LME
LME
LME

PCPE
PCPE
PCPE
PCPE

PCPD
PCPD
PCPD
PCPD

{25,...,1000} 26.45 % 0.9449 0.9516 0.084 59.9 % 0.9479 0.9533 0.0837 52.14 % 0.9475 0.9527 0.0835 51.69 % 0.9474 0.9527 0.1012
{1001,...,2000} 34.14 % 0.9476 0.951 0.0408 56.84 % 0.9488 0.9518 0.0408 51.31 % 0.9486 0.9515 0.0421 50.68 % 0.9485 0.9515 0.0513
{2001,...,3000} 36.98 % 0.9482 0.9508 0.0312 55.62 % 0.949 0.9514 0.0312 51.09 % 0.9489 0.9512 0.0311 50.59 % 0.9489 0.9512 0.0394
{3001,...,4000} 38.58 % 0.9485 0.9507 0.0262 54.9 % 0.9492 0.9512 0.0262 50.93 % 0.9491 0.951 0.0261 50.44 % 0.949 0.951 0.0332
{4001,...,5000} 39.73 % 0.9487 0.9507 0.0231 54.32 % 0.9493 0.951 0.0231 50.76 % 0.9492 0.9509 0.0231 50.33 % 0.9491 0.9509 0.0293
{5001,...,6000} 40.48 % 0.9488 0.9506 0.0208 54.11 % 0.9493 0.951 0.0208 50.82 % 0.9492 0.9508 0.0208 50.4 % 0.9492 0.9492 0.0265
{6001,...,7000} 41.08 % 0.9489 0.9506 0.0192 53.8 % 0.9494 0.9509 0.0192 50.74 % 0.9493 0.9507 0.0192 50.39 % 0.9493 0.9507 0.0243
{7001,...,8000} 41.64 % 0.949 0.9505 0.0178 53.51 % 0.9494 0.9508 0.0178 50.69 % 0.9493 0.9507 0.0178 50.37 % 0.9493 0.9507 0.0226
{8001,...,9000} 42.05 % 0.9491 0.9505 0.0167 53.34 % 0.9494 0.9507 0.0168 50.63 % 0.9494 0.9506 0.0167 50.31 % 0.9494 0.9506 0.0213
{9001,...,10000} 42.54 % 0.9492 0.9505 0.0158 53.22 % 0.9495 0.9507 0.0158 50.67 % 0.9494 0.9506 0.0158 50.31 % 0.9494 0.9506 0.0206

Tabla 4.12: ndices de IE, IAC , IW y IS , Criterio 1 (a), Criterio 2 (b).


(b)
CRITERIO 3 (np(1 p) 5)
WALD AGRESTI-COULL WILSON ARCSENO

PA
PA
PA
PA

LME
LME
LME
LME

PCPE
PCPE
PCPE
PCPE

PCPD
PCPD
PCPD
{25,...,1000} 25.54 % 0.9437 0.9516 0.0844 61.11 % 0.9479 0.9539 0.0843 52.4 % 0.9474 0.9529 0.0839 51.62 % PCPD
0.9472 0.9529 0.1038
{1001,...,2000} 33.9 % 0.9472 0.951 0.0405 57.15 % 0.9488 0.952 0.0406 51.39 % 0.9486 0.9516 0.0418 50.62 % 0.9485 0.9515 0.0513
{2001,...,3000} 36.83 % 0.948 0.9508 0.031 55.8 % 0.949 0.9515 0.0311 51.13 % 0.9489 0.9512 0.031 50.55 % 0.9488 0.9512 0.0394
{3001,...,4000} 38.48 % 0.9484 0.9507 0.0262 55.02 % 0.9492 0.9513 0.0262 50.98 % 0.949 0.951 0.0262 50.44 % 0.949 0.951 0.0332
{4001,...,5000} 39.65 % 0.9486 0.9507 0.023 54.41 % 0.9493 0.9511 0.023 50.79 % 0.9492 0.9509 0.023 50.31 % 0.9491 0.9509 0.0293
{5001,...,6000} 40.4 % 0.9487 0.9506 0.0208 54.2 % 0.9493 0.951 0.0208 50.82 % 0.9492 0.9508 0.0208 50.35 % 0.9492 0.9492 0.0265
{6001,...,7000} 41.00 % 0.9488 0.9506 0.0191 53.9 % 0.9494 0.9509 0.0191 50.77 % 0.9493 0.9508 0.0191 50.36 % 0.9492 0.9507 0.0243
{7001,...,8000} 41.56 % 0.949 0.9505 0.0178 53.6 % 0.9494 0.9509 0.0178 50.73 % 0.9493 0.9507 0.0178 50.42 % 0.9493 0.9507 0.0226
{8001,...,9000} 41.97 % 0.949 0.9505 0.0167 53.44 % 0.9494 0.9508 0.0167 50.64 % 0.9494 0.9507 0.0167 50.28 % 0.9493 0.9506 0.0213
{9001,...,10000} 42.46 % 0.9491 0.9505 0.0158 53.31 % 0.9495 0.9507 0.0158 50.7 % 0.9494 0.9506 0.0158 50.29 % 0.9494 0.9506 0.0206

(a)

86
CRITERIO 4 (np(1 p) 10)
WALD AGRESTI-COULL WILSON ARCSENO

PA
PA
PA
PA

LME
LME
LME
LME

PCPE
PCPE
PCPE
PCPE

PCPD
PCPD
PCPD
PCPD

{25,...,1000} 26.72 % 0.9451 0.9515 0.0816 59.77 % 0.9479 0.9532 0.0815 52.13 % 0.9476 0.9526 0.0812 51.68 % 0.9474 0.9526 0.0985
{1001,...,2000} 34.14 % 0.9476 0.951 0.0408 56.84 % 0.9488 0.9518 0.0408 51.3 % 0.9486 0.9515 0.0421 50.68 % 0.9485 0.9515 0.0513
{2001,...,3000} 36.98 % 0.9482 0.9508 0.0312 55.62 % 0.949 0.9514 0.0312 51.09 % 0.9489 0.9512 0.0311 50.59 % 0.9489 0.9512 0.0394
{3001,...,4000} 38.58 % 0.9485 0.9507 0.0262 54.9 % 0.9492 0.9512 0.0262 50.93 % 0.9491 0.951 0.0261 50.44 % 0.949 0.951 0.0332
{4001,...,5000} 39.73 % 0.9487 0.9507 0.0231 54.32 % 0.9493 0.951 0.0231 50.76 % 0.9492 0.9509 0.0231 50.33 % 0.9491 0.9509 0.0293
{5001,...,6000} 40.48 % 0.9488 0.9506 0.0208 54.11 % 0.9493 0.951 0.0208 50.81 % 0.9492 0.9508 0.0208 50.4 % 0.9492 0.9492 0.0265
{6001,...,7000} 41.08 % 0.9489 0.9506 0.0192 53.8 % 0.9494 0.9509 0.0192 50.74 % 0.9493 0.9507 0.0192 50.39 % 0.9493 0.9507 0.0243
{7001,...,8000} 41.64 % 0.949 0.9505 0.0178 53.51 % 0.9494 0.9508 0.0178 50.69 % 0.9493 0.9507 0.0178 50.37 % 0.9493 0.9507 0.0226
{8001,...,9000} 42.05 % 0.9491 0.9505 0.0167 53.34 % 0.9494 0.9507 0.0168 50.63 % 0.9494 0.9506 0.0167 50.31 % 0.9494 0.9506 0.0213
{9001,...,10000} 42.54 % 0.9492 0.9505 0.0158 53.22 % 0.9495 0.9507 0.0158 50.67 % 0.9494 0.9506 0.0158 50.31 % 0.9494 0.9506 0.0206

Tabla 4.13: ndices de IE, IAC , IW y IS , Criterio 3 (a), Criterio 4 (b).


(b)
CRITERIO 5 (n 100)
WALD AGRESTI-COULL WILSON ARCSENO

PA
PA
PA
PA

LME
LME
LME
LME

PCPE
PCPE
PCPE
PCPE

PCPD
PCPD
PCPD
{25,...,1000} 25.81 % 0.9392 0.9515 0.0738 61.75 % 0.948 0.9546 0.0742 52.64 % 0.9474 0.9531 0.0738 51.77 % PCPD
0.947 0.9534 0.0942
{1001,..,2000} 33.7 % 0.9463 0.951 0.0403 57.4 % 0.9488 0.9523 0.0404 51.51 % 0.9485 0.9517 0.0416 50.71 % 0.9484 0.9517 0.0513
{2001,...,3000} 36.72 % 0.9478 0.9508 0.031 55.93 % 0.949 0.9516 0.031 51.19 % 0.9489 0.9513 0.031 50.56 % 0.9487 0.9513 0.0394
{3001,...,4000} 38.4 % 0.9481 0.9507 0.0261 55.11 % 0.9492 0.9514 0.0261 51.02 % 0.949 0.9511 0.0261 50.41 % 0.949 0.951 0.0332
{4001,...,5000} 39.58 % 0.9485 0.9507 0.023 54.5 % 0.9493 0.9512 0.023 50.82 % 0.9491 0.9509 0.023 50.33 % 0.9491 0.9509 0.0293
{5001,...,6000} 40.4 % 0.9487 0.9506 0.0208 54.2 % 0.9493 0.951 0.0208 50.82 % 0.9492 0.9508 0.0208 50.35 % 0.9492 0.9492 0.0265
{6001,...,7000} 41.00 % 0.9488 0.9506 0.0191 53.9 % 0.9494 0.9509 0.0191 50.77 % 0.9493 0.9508 0.0191 50.36 % 0.9492 0.9507 0.0243
{7001,...,8000} 41.56 % 0.949 0.9505 0.0178 53.6 % 0.9494 0.9509 0.0178 50.73 % 0.9493 0.9507 0.0178 50.42 % 0.9493 0.9507 0.0226
{8001,...,9000} 41.97 % 0.949 0.9505 0.0167 53.44 % 0.9494 0.9508 0.0167 50.64 % 0.9494 0.9507 0.0167 50.28 % 0.9493 0.9506 0.0213
{9001,...,10000} 42.46 % 0.9491 0.9505 0.0158 53.31 % 0.9495 0.9507 0.0158 50.7 % 0.9494 0.9506 0.0158 50.29 % 0.9494 0.9506 0.0206

(a)

87
CRITERIO 6 (n 50 y 0.2 < p < 0.8)
WALD AGRESTI-COULL WILSON ARCSENO

PA
PA
PA
PA

LME
LME
LME
LME

PCPE
PCPE
PCPE
PCPE

PCPD
PCPD
PCPD
PCPD

{25,...,1000} 31.41 % 0.9467 0.9515 0.0947 53.84 % 0.948 0.9523 0.0941 51.11 % 0.9479 0.9522 0.094 51.78 % 0.9479 0.9522 0.1014
{1001,...,2000} 39.26 % 0.9487 0.951 0.0481 51.78 % 0.9489 0.9511 0.048 50.48 % 0.9489 0.9511 0.0495 50.79 % 0.9489 0.9511 0.0513
{2001,...,3000} 41.62 % 0.9491 0.9508 0.0369 51.4 % 0.9492 0.9509 0.0369 50.37 % 0.9492 0.9508 0.0369 50.69 % 0.9492 0.9508 0.0394
{3001,...,4000} 42.84 % 0.9492 0.9507 0.0311 51.16 % 0.9493 0.9507 0.0311 50.3 % 0.9493 0.9507 0.0311 50.51 % 0.9493 0.9507 0.0332
{4001,...,5000} 43.66 % 0.9493 0.9506 0.0274 51.02 % 0.9494 0.9506 0.0274 50.26 % 0.9494 0.9506 0.0274 50.5 % 0.9494 0.9506 0.0293
{5001,...,6000} 44.26 % 0.9494 0.9505 0.0248 50.98 % 0.9494 0.9506 0.0248 50.31 % 0.9494 0.9506 0.0248 50.46 % 0.9494 0.9496 0.0265
{6001,...,7000} 44.65 % 0.9494 0.9505 0.0228 50.85 % 0.9495 0.9505 0.0228 50.21 % 0.9495 0.9505 0.0228 50.46 % 0.9495 0.9505 0.0243
{7001,...,8000} 45.00 % 0.9495 0.9505 0.0212 50.82 % 0.9495 0.9505 0.0212 50.23 % 0.9495 0.9505 0.0212 50.35 % 0.9497 0.9505 0.0226
{8001,...,9000} 45.33 % 0.9495 0.9504 0.0199 50.76 % 0.9495 0.9505 0.0199 50.2 % 0.9495 0.9505 0.0199 50.3 % 0.9495 0.9505 0.0213
{9001,...,10000} 45.67 % 0.9495 0.9504 0.0188 50.8 % 0.9496 0.9504 0.0188 50.27 % 0.9496 0.9504 0.0188 50.38 % 0.9496 0.9504 0.0206

Tabla 4.14: ndices de IE, IAC , IW y IS , Criterio 5 (a), Criterio 6 (b).


(b)
Como puede observarse el desempeo inconsistente del intervalo de Wald
contina presente an para valores muestrales bastante grandes 1000 < n <
10000 y los criterios sugeridos para el intervalo de Wald aplicado a estos tama-
os de muestra continan siendo insucientes. Las probabilidades de cobertura
de los intervalos de Wilson y Agresti-Coull para estos valores son bastante si-
milares y cercanas a el nivel de conanza sobre todo para p con 0.2 < p < 0.8.
Las probabilidades de cobertura del intervalo Arcoseno se encuentra tambin
cercanas al nivel de conanza pero su longitud media esperada es bastante
grande comparada con la de los dems intervalos.

88
Captulo 5

Conclusiones

Con base en el trabajo realizado, se presentan a continuacin las conclu-


siones ms relevantes.

1. Con los resultados de este trabajo se refuerzan las conclusiones ya cono-


cidas de diversos artculos de investigacin (ver Khurshid & Ageel [14])
de que el intervalo de Wald no tiene un buen desempeo en trminos de
probabilidades de cobertura (ya que las PC(n, p) se comportan de forma
errtica y por debajo del nivel nominal en muchos casos). Tambin se
concluye que los criterios que se sugieren para su aplicacin no son del
todo adecuados, sin embargo dado que el intervalo de Wald an conti-
na siendo el intervalo de conanza para una proporcin ms usado, se
recomienda el uso del criterio 6 (n 50 y 0.2 < p < 0.8) y en caso de
tener p 0.2 o p 0.8, se recomienda usar el criterio 4.

2. Los intervalos recomendados producen probabilidades de cobertura me-


jores que el intervalo de Wald y esto es ms notable cuando p est cerca
de 0 o 1 o el tamao muestral n es pequeo. Los criterios sugeridos para
el intervalo de Wald mejoran an ms el desempeo de los intervalos re-
comendados sobre todo los criterios 4 y 6 en los cuales las probabilidades

89
de cobertura estn bastante cerca del nivel de conanza y en el criterio
6 las probabilidades de cobertura obtenidas por los intervalos de Wilson
y Agresti-Coull son muy similares y podra hacerse uso de ambos.

3. Para p 0.2 o p 0.8 en los cuales sea difcil o costoso cumplir con la
sugerencia 1 se recomienda usar el intervalo de Wilson para n < 200 y el
intervalo de Agresti-Coull n 200 y si se aplica el criterio 4 el resultado
ser an mejor.

4. En caso de tener n < 200 y que no sea posible cumplir con la sugerencia 1
se recomienda usar el intervalo de Wilson y el intervalo de Agresti-Coull
para n 200.

5. Para p con 0.2 < p < 0.8 y n grande n 100 tambin se podra reco-
mendar el intervalo Arcoseno, este provee probabilidades de cobertura
muy decentes, pero su LME es superior a los dems intervalos.

90
Apndice A

Teoremas

INTERVALO DE WALD

Proposicin A.1. Dado el intervalo de Wald

[p n1/2 (pq)1/2 , p + n1/2 (pq)1/2 ]


X
Donde p = , q = 1 p y = z 2 = 1 (1 ) donde (z) es la funcin de
n 2
distribucin de una distribucin normal estndar.
Demostrar que:
 
1/2
1/2 1/2
1/2
Pp p n pq p p + n pq ,

puede ser calculada como.


  r   r 
n c c 2 n c c2
Pp 2
p+ cp + cp + X 2
p+ + cp + cp +
1+c 2 4 1+c 2 4

donde c = k2
n
y X Bin(n,p).

Demostracin.

Pp (p n1/2 (pq)1/2 p p + n1/2 (pq)1/2 )

91
Pp (n1/2 (pq)1/2 p p n1/2 (pq)1/2 )
Pp (|p p| n1/2 (pq)1/2 )
Pp (|p p| n1/2 (pq)1/2 )
Pp ((p p)2 2 n1 (pq))
2
si c = 2 n1 =
n
Pp (p2 2pp + p2 cp(1 p))
Pp (p2 2pp + p2 cp cp2 )
Pp ((1 + c)p2 (2p + c)p p2 )
 
2 2p + c 2
Pp (1 + c)[p p] p
1+c
p2
 
2 2p + c
Pp p p
1+c (1 + c)
c 2 p + 2c 2
 
p+ 2 2 p
Pp (p ) +( )
1+c (1 + c) 1+c
s
c
p + 2c 2
 
p+ 2 p2
Pp |p | +( )
1+c (1 + c) 1+c
q
2

p+ 2 c p2 c + pc + c4 
Pp |p |
1+c 1+c
q q
2 2
 p2 c + pc + c4 p+ 2 c p2 c + pc + c4 
Pp p
1+c 1+c 1+c
q q
2 2

p + 2c p2 c + pc + c4 p + 2c p2 c + pc + c4 
Pp p +
1+c 1+c 1+c 1+c
q q
2 2

p + 2c p2 c + pc + c4 X p + 2c p2 c + pc + c4 
Pp +
1+c 1+c n 1+c 1+c
q q
2 2

p + 2c p2 c + pc + c4 p + 2c p2 c + pc + c4 
Pp n( ) X n( + )
1+c 1+c 1+c 1+c

92
INTERVALO DE WILSON

Proposicin A.2. Dado el intervalo de Wilson


2 2
X + 2 n1/2 2 1/2 X + 2 n1/2 2 1/2
[ (pq + ) , + (pq + ) ]
n + 2 n + 2 4n n + 2 n + 2 4n
X
Donde p = , q = 1 p y = z 2 = 1 (1 ) donde (z) es la funcin de
n 2
una distribucin de una normal estndar.
Demostrar que

X + 2 /2 n1/2 2 1/2 X + 2 /2 n1/2 2 1/2


 
Pp pq + p + pq + .
n + 2 n + 2 4n n + 2 n + 2 4n

Puede ser calculada como


 
p p
Pp pn np(1 p) X pn + np(1 p) .

donde XBin(n,p).

Demostracin.
2 2
X + 2 n1/2 2 1/2 X + 2 n1/2 2 1/2
 
Pp (pq + ) p + (pq + )
n + 2 n + 2 4n n + 2 n + 2 4n
2
n1/2 2 1/2 X + 2 n1/2 2 1/2
 
Pp (pq + ) p (pq + )
n + 2 4n n + 2 n + 2 4n
2
X + 2 n1/2 2 1/2
 
Pp |p | (pq + )
n + 2 n + 2 4n
2
X + 2 n + 2 2 1/2
 
Pp |p |( ) (pq + )
n + 2 n1/2 4n
2
|pn + p2 X 2 | n + 2 2 1/2
 
Pp ( 1/2 ) (pq + )
|n + 2 | n 4n

93
como (n + 2 ) > 0 para toda n,
2
|pn + p2 X | 2
 
Pp 2
(pq + )1/2
n1/2 4n
2
pn + p2 X 2
 
2 2
Pp ( ) pq +
n1/2 4n
4
p2 (n + 2 )2 2Xp(n + 2 ) p2 (n + 2 ) + X 2 + X2 + X X 2 2
 
4
Pp 2+
2 n n n 4n
4
p2 (n + 2 )2 p2 (n + 2 ) + 2Xp(n + 2 ) + X 2 + X2 X X 2 2
 
4
Pp + 2+
2 n 2 n n n 4n
4
X X 2 2 p2 (n + 2 )2 p2 (n + 2 ) + 4
 2
X + X2 2Xp(n + 2 )

Pp 2+
2 n n n 4n 2 n
4
(n + 2 )(p2 (n + 2 ) p2 ) + 4 2
 2
X 2Xp(n + 2 ) X X 2

X
Pp 2 + + 2 +
n n 2 n n n 2 n 4n
4
2Xp(n + 2 ) (n + 2 )(p2 (n + 2 ) p2 ) + 4 2
 
2 1 1
Pp X ( 2 + 2 ) +
n n 2 n 2 n 4n
4
2
2Xp(n + 2 ) (n + 2 )(p2 (n + 2 ) p2 ) + 4 2
 
2n +
Pp X +
2 n2 2 n 2 n 4n
4
2 2 2
2 n2 (n + 2 )(p2 (n + 2 ) p2 ) + 4 2
 
2 2p(n + ) n
Pp X X ( + )
2 n n + 2 n + 2 2 n 4n
4
2 n2 2 (n + 2 )(p2 (n + 2 ) p2 ) + 4
 
2
Pp X 2pnX ( )
n + 2 4n 2 n
4 
2 n2 4 n 4n[(n + 2 )(p2 (n + 2 ) p2 ) + 4 ]

2
Pp X 2pnX
n + 2 42 n2
4 n 4n[(n + 2 )(p2 (n + 2 ) p2 ) n4 ]
 
2 1
Pp X 2pnX [ ]
n + 2 4
 
2 1 2 2 2 2
Pp X 2pnX (n(n + ))(p (n + ) p )
n + 2
 
2 2 2 2
Pp X 2pnX n(p (n + ) p )

94
Pp (X 2 2pnX n2 p2 np2 2 + np2 )

Pp ((X pn)2 n2 p2 np2 2 + np2 + p2 n2 )

Pp ((X pn)2 np2 np2 2 )


p
Pp (|X pn| np2 np2 2 )
p p
Pp ( np2 np2 2 X pn np2 np2 2 )
p p
Pp (pn np2 np2 2 X pn + np2 np2 2 )
p p
Pp (pn np(1 p) X pn + np(1 p))

INTERVALO DE AGRESTI-COULL-COULL

Proposicin A.3. Dado el intervalo de Agresti-Coull

[p n1/2 (pq)1/2 , p + n1/2 (pq)1/2 ]


donde X = X + 2 , n = n + 2 , = z 2 = 1 (1 ) donde (z) es la funcin
2

2
de distribucin de una normal estndar, si p = X
n
y q = 1 p.
Demostrar que
 
1/2
1/2 1/2
1/2
Pp p n pq p p + n pq .

Puede ser calculada como


r r
n + 2 2
 2 2
 2
c2
  
c c n + c
Pp p+ p2 c + pc + X p+ + p2 c + pc + .
1+c 2 4 2 1+c 2 4 2

2
donde c = y XBin(n,p).
n
95
Demostracin.

Pp (p n1/2 (pq)1/2 p p + n1/2 (pq)1/2 )

Pp (n1/2 (pq)1/2 p p n1/2 (pq)1/2 )

Pp (|p p| n1/2 (pq)1/2 )

Pp (|p p| n1/2 (pq)1/2 )

Pp ((p p)2 2 n1 (pq))


2
si c = 2 n1 =
n
Pp (p2 2pp + p2 c(p(1 p)))

Pp (p2 2pp + p2 cp cp2 )

Pp ((1 + c)p2 (2p + c)p p2 )


 
2 2p + c 2
Pp (1 + c)[p p] p
1+c
p2
 
2 2p + c
Pp p p
1+c 1+c
p + 2c 2 p2 p + 2c 2
 
Pp (p ) +( )
1+c 1+c 1+c
r
p + 2c p + 2c 2
 
p2
Pp |p | +( )
1+c 1+c 1+c
q
2

p+ 2 c p2 c + pc + c4 
Pp |p |
1+c 1+c
q q
c2 2
 2
p c + pc + 4 p+ 2 c p2 c + pc + c4 
Pp p
1+c 1+c 1+c
q q
2 2

p + 2c p2 c + pc + c4 p + 2c p2 c + pc + c4 
Pp p +
1+c 1+c 1+c 1+c

96
q q
c2 c2 
p+
 c p2 c + pc +
X p+
4
c p2 c + pc +
4
2 2
Pp +
1+c 1+c n 1+c 1+c
q q
2 2

p + 2c p2 c + pc + c4 X + 2
2
p + 2c p2 c + pc + c4 
Pp +
1+c 1+c n + 2 1+c 1+c
r r
n + 2 2 2
c2 2
 2

c 2
c n + c 2
Pp [p+ p c + pc + ] X [p+ + p c + pc + ]
1+c 2 4 2 1+c 2 4 2

INTERVALO ARCOSENO

Proposicin A.4. Dado el intervalo Arcoseno


1 1
[sin2 (arcsin(p1/2 ) n1/2 ), sin2 (arcsin(p1/2 ) + n1/2 )]
2 2
X+ 3
donde p = n+ 38 , y = z 2 = 1 (1 ) donde (z) es la funcin de distribu-
4 2
cin de una normal estndar.
Demostrar que
 
2 1/2
 1 1/2 2 1/2
 1 1/2 
= Pp sin arcsin(p n ) p sin arcsin p + n .
2 2
Puede ser calculada como
    
3  1  3 3  1  3
Pp n+ sin2 arcsin p n1/2 X n+ sin2 arcsin p + n1/2
4 2 8 4 2 8

donde XBin(n,p).

Demostracin.
 
2 1/2 1 1/2 2 1/2 1 1/2
Pp sin (arcsin(p ) n ) p sin (arcsin(p ) + n )
2 2
 
1/2 1 1/2 1/2 1 1/2
Pp sin(arcsin(p ) n ) p sin(arcsin(p ) + n )
2 2
 
1/2 1 1/2 1/2 1 1/2
Pp arcsin(p ) n arcsin( p) arcsin(p ) + n
2 2

97
 
1 1
Pp n1/2 arcsin( p) arcsin(p1/2 ) n1/2
2 2
 
1 1/2 1/2 1 1/2
Pp arcsin( p) n arcsin(p ) arcsin( p) + n
2 2
 
1 1/2 1/2 1 1/2
Pp sin(arcsin( p) n ) p sin(arcsin( p) + n )
2 2
 
2 1 1/2 2 1 1/2
Pp sin (arcsin( p) n ) p sin (arcsin( p) + n )
2 2
X + 83
 
2 1 1/2 2 1 1/2
Pp sin (arcsin( p) n ) sin (arcsin( p) + n )
2 n + 34 2
 
3 2 1 1/2 3 3 2 1 1/2 3
Pp (n+ )sin (arcsin( p) n ) X (n+ )sin (arcsin( p)+ n )
4 2 8 4 2 8

98
Apndice B

Programas para calcular los


ndices de comparacin
# FUNCION PARA CALCULAR LAS PROBABILIDADES DE COBERTURA PC. ASI COMO PA,
ECPD, PCPD,ECPE y PCPE ESTO PARA EL INTERVALO DE WALD. (PARA CALCULAR LOS
INDICES DE COMPARACION DE LOS DEMAS INTERVALOS USAR LAS ECUACIONES (4.16),(4.19)
y (4.22).
CovPro < function(n,p,Alpha){
z = qnorm(1 Alpha/2, 0, 1)
z2
c= n
x1e < ceiling(n ((p + c/2)/(1 + c)) n (sqrt(c p2 c + c2 /4)/(1 + c)))
x2e < f loor(n ((p + c/2)/(1 + c)) + n (sqrt(c p2 + p c + c2 /4)/(1 + c)))
print(sum(dbinom(x1e : x2e, n, p)))
}
# n1: Tamao de prueba inicial
n1 = 100
# n2: Tamao de prueba nal
n2 = 100
# Alpha: Valor de Alpha
Alpha = 0.05
# Delta: Incremento para p
Delta = 0.001
# principio y n de p
pf = 1/Delta 1
Vcc < rep(0,6) #Puntos de la forma (n,p) tal que cumplen el criterio i
Lcp < rep(0,6) #Puntos de la forma (n,p) tal que cumplen el criterio i y su P C (1 Alpha)
VecLcp < rep(0,6) #Porcentajes de puntos de la forma (n,p) tal que cumplen el criterio i y su P C

99
(1 Alpha)
Vcn < rep(0,6) #Puntos de la forma (n,p) tal que cumplen el criterio i y su PC<(1-Alpha)
s<- rep(0,6) #Error de cobertura para puntos de la forma (n,p) tal que cumplen el criterio i y su PC<(1-
Alpha)
VecLcpn < rep(0,6) #Error de cobertura promedio para puntos de la forma (n,p) tal que cumplen el
criterio i y su PC<(1-Alpha)
VecPcp < rep(0,6) #Cobertura promedio para puntos de la forma (n,p) tal que cumplen el criterio i y su
PC<(1-Alpha)
Vcnn < rep(0,7) #Puntos de la forma (n,p) tal que cumplen el criterio i y su PC>(1-Alpha)
sn<- rep(0,7) #Error de cobertura para puntos de la forma (n,p) tal que cumplen el criterio i y su PC>(1-
Alpha)
VecLcpnn < rep(0,7) #Error de cobertura promedio para puntos de la forma (n,p) tal que cumplen el
criterio i y su PC>(1-Alpha)
VecPcpn < rep(0,7) #Cobertura promedio para puntos de la forma (n,p) tal que cumplen el criterio i y
su PC>(1-Alpha)
for (n in n1:n2) {
for (pc in 1:pf) {
p=pc*Delta
# Criterion 1
if ( n*p>=5 && n*(1-p)>=5 )
{
Vcc[1]=Vcc[1]+1
if ( CovPro(n,p,Alpha) >= 1-Alpha) {
Lcp[1]=Lcp[1]+1
}
else{
Vcn[1]=Vcn[1]+1
s[1]=s[1]+((1-Alpha)-CovPro(n,p,Alpha))
}
if ( CovPro(n,p,Alpha)>1-Alpha) {
Vcnn[1]=Vcnn[1]+1
sn[1]=sn[1]+(CovPro(n,p,Alpha)-(1-Alpha)) }
}
# Criterion 2
if ( n*p>=10 && n*(1-p)>=10 ) {
Vcc[2]=Vcc[2]+1
if ( CovPro(n,p,Alpha) >= 1-Alpha) {
Lcp[2]=Lcp[2]+1
}
else{
Vcn[2]=Vcn[2]+1
s[2]=s[2]+((1-Alpha)-CovPro(n,p,Alpha))
}

100
if ( CovPro(n,p,Alpha)>1-Alpha) {
Vcnn[2]=Vcnn[2]+1
sn[2]=sn[2]+(CovPro(n,p,Alpha)-(1-Alpha)) }
}
# Criterion 3
if ( n*p*(1-p)>=5) {
Vcc[3]=Vcc[3]+1
if ( CovPro(n,p,Alpha) >= 1-Alpha) {
Lcp[3]=Lcp[3]+1
}
else{
Vcn[3]=Vcn[3]+1
s[3]=s[3]+((1-Alpha)-CovPro(n,p,Alpha))
}
if ( CovPro(n,p,Alpha)>1-Alpha) {
Vcnn[3]=Vcnn[3]+1
sn[3]=sn[3]+(CovPro(n,p,Alpha)-(1-Alpha)) }
}
# Criterion 4
if ( n*p*(1-p)>=10 ) {
Vcc[4]=Vcc[4]+1
if ( CovPro(n,p,Alpha) >= 1-Alpha) {
Lcp[4]=Lcp[4]+1
}
else{
Vcn[4]=Vcn[4]+1
s[4]=s[4]+((1-Alpha)-CovPro(n,p,Alpha))
}
if ( CovPro(n,p,Alpha)>1-Alpha) {
Vcnn[4]=Vcnn[4]+1
sn[4]=sn[4]+(CovPro(n,p,Alpha)-(1-Alpha)) }
}
# Criterion 5. We are considering n big when n>=100
if ( n >= 100 ) {
Vcc[5]=Vcc[5]+1
if ( CovPro(n,p,Alpha) >= 1-Alpha) {
Lcp[5]=Lcp[5]+1
}
else{
Vcn[5]=Vcn[5]+1
s[5]=s[5]+((1-Alpha)-CovPro(n,p,Alpha))
}
if ( CovPro(n,p,Alpha)>1-Alpha) {

101
Vcnn[5]=Vcnn[5]+1
sn[5]=sn[5]+(CovPro(n,p,Alpha)-(1-Alpha)) }
}
# Criterion 6. We are considering p small when p<=.2,
# By Symmetry we include the dual situation p>=.8
if ( n>=50 && p>.2 && p<.8) {
Vcc[6]=Vcc[6]+1
if ( CovPro(n,p,Alpha) >= 1-Alpha) {
Lcp[6]=Lcp[6]+1
}
else{
Vcn[6]=Vcn[6]+1
s[6]=s[6]+((1-Alpha)-CovPro(n,p,Alpha))
}
if ( CovPro(n,p,Alpha)>1-Alpha) {
Vcnn[6]=Vcnn[6]+1
sn[6]=sn[6]+(CovPro(n,p,Alpha)-(1-Alpha)) }
}
}
}
for (i in 1:6) {
VecLcp[i] < Lcp[i]*100/Vcc[i]
VecLcpn[i] < s[i]/Vcn[i]
VecPcp[i] < ((1-Alpha)-VecLcpn[i])
VecLcpnn [i] < sn[i]/Vcnn[i]
VecPcpn[i] <-((1-Alpha)+VecLcpnn[i])
}
round(VecLcp,2) #Porcentajes
round(VecLcpn,4) #Error de cobertura promedio para puntos de la forma (n,p) tal que cumplen el criterio
i y su PC<(1-Alpha)
round(VecPcp,4) #Cobertura promedio para puntos de la forma (n,p) tal que cumplen el criterio i y su
PC<(1-Alpha)
round(VecLcpnn,4) #Error de cobertura promedio para puntos de la forma (n,p) tal que cumplen el criterio
i y su PC>(1-Alpha)
round(VecPcpn,4) #Cobertura promedio para puntos de la forma (n,p) tal que cumplen el criterio i y su
PC>(1-Alpha)

Para calcular otros tamaos de muestra solo modicar n1 y n2.


# FUNCION PARA CALCULAR LA LME PARA EL INTERVALO DE
WALD. (PARA CALCULAR LAS LME DE LOS DEMAS INTERVALOS
USAR LAS ECUACIONES (3.6), (3.7) y (3.8).
longcov <-function(n,p,Alpha){
s=0

102
for(i in 0:n){
k = qnorm(1 Alpha/2, 0, 1)
s = s + (2 k n1/2 (i/n (1 i/n))1/2 dbinom(i, n, p))}
print(s)}
# n1: Tamao de prueba inicial
n1 = 100
# n2: Tamao de prueba nal
n2 = 100
# Alpha: Valor de Alpha
Alpha = 0.05
# Delta: Incremento para p
Delta = 0.001
# principio y n de p
pf = 1/Delta 1
V cc < rep(0, 6) #Puntos de la forma (n,p) tal que cumplen el criterio i
Lm < rep(0, 6) #Puntos de la forma (n,p) tal que cumplen el criterio i y su P C (1 Alpha)
V ecLme < rep(0, 6) #Porcentaje
for (n in n1:n2)
{
for (pc in 1:pf)
{
p = pc Delta
# Criterion 1
if ( n*p>=5 && n*(1-p)>=5 ) {
Vcc[1]=Vcc[1]+1
Lm[1]=Lm[1]+longcov(n,p,Alpha)}
# Criterion 2
if ( n*p>=10 && n*(1-p)>=10 ) {
Vcc[2]=Vcc[2]+1
Lm[2]=Lm[2]+longcov(n,p,Alpha)}
# Criterion 3
if ( n*p*(1-p)>=5 ) {
Vcc[3]=Vcc[3]+1
Lm[3]=Lm[3]+longcov(n,p,Alpha)}
# Criterion 4
if ( n*p*(1-p)>=10 ){
Vcc[4]=Vcc[4]+1
Lm[4]=Lm[4]+longcov(n,p,Alpha)}
# Criterion 5
if ( n>=100 ) {
Vcc[5]=Vcc[5]+1
Lm[5]=Lm[5]+longcov(n,p,Alpha)}
# Criterion 6. We are considering p small when p .2,

103
# By Symmetry we include the dual situation p .8 if ( n>=50 && p>.2 && p<.8) {
Vcc[6]=Vcc[6]+1
Lm[6]=Lm[6]+longcov(n,p,Alpha)}
}
}
for (i in 1:6) {
VecLme[i] <- Lm[i]/Vcc[i]}
round(VecLme,4) #lonjitud media esperada

Para calcular otros tamaos de muestra solo modicar n1 y n2.

104
Bibliografa

[1] Agresti A. and Coull B., Approximate is Better than Exact for Interval
Estimation of Binomial Proportions,The American Statistician, Vol. 52,
No. 2, p. 119-126,1998.

[2] Agresti A. and Cao B., Simple and Eective Condence Intervals for
Proportions and Dierences of Proportions Result from Adding Two Suc-
cesses and Two Failures, The American Statistician, Vol. 54, No. 4, p.
280-288, American Statistical Association, 2000.

[3] Agresti, A. and Min, Y., On Small-Sample Conidence Intervals for Pa-
rameters in Discrete Distribution, Biometrics 57, 963?971, 2001.

[4] Agresti A. and Minon Y., On sample Size Guidelines for Teaching Infe-
rence about the Binomial Parameter in Introductory Statistics, Depart-
ment of Statistics, University of Florida, Gainesville, Florida 32611-8545,
2002.

[5] Boomsma A., Conidence Intervals for a Binomial Proportion, Depart-


ment of Statistics & Measurement Theory University of Groningen, 2005.

[6] Brown L. D., Cai T. T. and DasGupta A., Interval Estimation for a
Binomial Proportion, Statistical Science 16, p. 101-133, 2001.

105
[7] Brown L. D., Cai T. T. , DasGupta A., Condence Intervals for a Bino-
mial Proportion and Asymptotic Expansions, The Annals of Statistics,
p. 160-201,2002.

[8] Canavos G. C., Probabilidad y Estadstica (Aplicaciones y mtodos),


Virginia Commonwealth University, McGraw-Hill, 1987.

[9] Casella, G. & Berger, R., Statistical Inference, Wadsworth & Brooks,
California, 1990.

[10] Cepeda Cuervo E., Aguilar W., Cervantes V., Corrales M., Daz I., Ro-
drguez D., Intervalos de conanza e intervalos de credibilidad para una
proporcin, Departamento de Estadstica, Facultad de Ciencias, Univer-
sidad Nacional de Colombia, Bogot, Colombia, 2008.

[11] Clopper C. J., Pearson, E. S., The use of condence or ducial limits
illustrated in the case of the binomial, Biometrika 26 404-413, 1934.

[12] Ghosh B. K., A Comparison of Some Approximate Condence Intervals


for the Binomial Parameter, Journal of the American Statistical Asso-
ciation, Vol. 74, No. 368, p. 894-900, 1979.

[13] Hogg R. V., McKeanm J.W and Craig A. T., Introduction to Mathema-
tical Statistic, sisth edition, 2005.

[14] Khurshid, A. & Ageel, M., 'Binomial and Poisson Condence Intervals
and its Variants: A Bibliography', Pakistan Journal Statistical and Ope-
ration Research VI(1), 75-100, (2010).

[15] Leemis L. M. and Trivedi K S., A Comparison of Approximate Interval


Estimators for the Bernoulli Parameter, stat.50(1), 1994.

[16] Navdi W., Estadstica para ingenieros y cientcos, primera edicin,


2006.

106
[17] Newcombe R. G., Condence Intervals for Proportions and Related Mea-
sures of Eect Size, Chapman & Hall/CRC Biostatistics Series, 2013.

[18] Reyes Cervantes. H., Almendra Arao. F., Morales Cortes. M., Tajo-
nar S F., Problemas al usar la aproximacin normal en intervalos de
conanza suponiendo datos Bernoulli, Memorias Simposio Internacio-
nal de Estadstica, XXV Version, Armenia 5 al 8 de agosto, 2015.
http://simposioestadistica.unal.edu.co/historico-de-memorias/

[19] Ross, S. M., A First Course in Probability Theory, 3rd edition, New
York: Macmillan, 1988.

[20] Samuels, M. L. and Witmer, J. W. Statistics for the Life Sciences, 2nd
ed., Prentice Hall, 1999.

[21] Santner, T. J. A note on teaching binomial condence intervals, Teaching


Statistics.1998.

[22] Tamhane, A. C. and Dunlop, D. D., Statistics and Data Analysis from
Elementary to Intermediate. Prentice Hall, Englewood Clis, NJ, 2000.

[23] Wackerly D. D., Mendenhall W. & Scheaer R. L., Estadstica matem-


tica con aplicaciones, sptima edicin, 2008.

[24] Widder, D. V., The Laplace Transform, Princeton, New Jersey: Prince-
ton University Press, 1946.

[25] Wilson, E. B., Probable inference, the law of succession, and statistical
inference. J., Amer. Statist. Assoc, 1927.

107

Vous aimerez peut-être aussi