Académique Documents
Professionnel Documents
Culture Documents
ESTIMACIN
5.1 INTRODUCCIN
Los mtodos de inferencia sirven para determinar la probabilidad de que cualquier conclusin
sobre una poblacin que se haya derivado de la informacin aportada por un grupo de datos
sea correcta. Los valores de los estadsticos muestrales, por muy bueno que haya sido el
muestreo, siempre presentarn diferencias con respecto al respectivo valor poblacional o
parmetro, debido fundamentalmente a que se est tratando con variables aleatorias que
asumen valores distintos y que ocurren en la poblacin con frecuencias diferentes. De modo
que al ser imposible eliminar la aleatoriedad y si se quieren hacer generalizaciones a partir de
la informacin obtenida de una muestra se debe establecer la confianza que se tiene en la
muestra. Es decir se debe determinar que tan buena es la aproximacin entre valor del
estadstico y el valor del parmetro respectivo. En ste punto la estadstica inferencial es de
gran ayuda al ofrecer mtodos que cuantifican el grado de confianza requerido para hacer las
generalizaciones mencionadas anteriormente. Son dos los mtodos de inferencia, en unos se
usa la informacin proporcionada por los estadsticos muestrales para estimar con cierta
probabilidad el valor de un parmetro poblacional; el otro tipo de mtodo, usa esa misma
informacin para decidir con una probabilidad conocida si el parmetro poblacional es igual a
algn valor preconcebido. El primero de estos procedimientos se conoce como Estimacin y
el segundo como Prueba de Hiptesis. En ste captulo nos ocuparemos de los mtodos de
estimacin y dejaremos para el prximo las pruebas de hiptesis.
Figura 5.1
Figura 5.2
E(S) 2 si S =
(xi x)
n
Para hacer insesgada la varianza muestral, la misma debe calcularse usando n-1 grados de
libertad, de modo que:
E( S) = si S =
(xi x )
n 1
5.2.2 Estimador consistente
Se dice que un estimador del parmetro es consistente si el valor absoluto de la
diferencia entre los valores del estimador y del parmetro es menor a medida que aumenta el
tamao de la muestra (n). En trminos ms formales:
lim P
n
( )
= 1 para todo > 0
E( 1 ) < E( 2 )
x x x x
z1 = 1 + z2 = 2
x n x n
Para hacer ms general la situacin, las dos ecuaciones anteriores pueden expresarse de la
manera siguiente:
x x x x
z( 1 2 ) = 1 + z( 1 2 ) = 2
x n x n
donde + z( 1 2 ) es el valor de Z a la izquierda del cual se encuentra una fraccon del rea
igual a 1 2 . Por simetra el valor de z1 es igual al valor de + z 2 . Estos valores de Z se
encuentran en la tabla de reas de la distribucin de Z. Por lo tanto es posible conocer los
valores x1 y x2 mediante un despeje en las dos expresiones anteriores.
x1 = x z( 1 2 ) x n y x2 = x + z( 1 2 ) x n
Los valores de x1 y x2 representan el lmite inferior y superior del intervalo que contiene el
(1 )100% de los valores de X . Este intervalo puede expresarse de la manera siguiente:
x z( 1 2 ) x n . La proporcin de medias muestrales que se espera queden
dentro del intervalo depende del valor de z( 1 2 ) . A continuacin se presentan algunos
intervalos y la proporcin de valores de X , que se espera est contenida dentro de ellos.
Samuel Segnini Fundamentos de Bioestadstica Captulo 5 109
Figura 5.5. Intervalos del mismo tamao construdos con algunas medias muestrales.
Se puede ver que solo aquellos intervalos construdos de medias cuya probabilidad de
ocurrencia es muy baja, es decir con valores menores a X 1 mayores a X 2 , no incluyen a
x . De modo que un intervalo de la forma [ x z( 1 2 ) x n ] recibe el nombre de
intervalo de confianza del (1- )100%. Los valores extremos se denominan lmites de
confianza, existiendo un lmite superior ( LS = x + z( 1 2 ) x n ) y un lmite inferior
( LI = x z( 1 2 ) x n ). El trmino z(1-/2) recibe el nombre de coeficiente de
confiabilidad. La fraccin 1- se denomina nivel de confianza y representa la probabilidad de
Samuel Segnini Fundamentos de Bioestadstica Captulo 5 110
m = z( 1 2 ) x n
Una consecuencia directa de conocer el valor de m es que permite determinar cul debe ser
el tamao muestral adecuado para cometer ese error mximo un ( 1 )100% de las veces,
dado que:
2
z( 1 ) x
n= 2
m
Samuel Segnini Fundamentos de Bioestadstica Captulo 5 111
Ejemplo 5.1
Al examinar 9 porciones de agua se encontr una concentracin promedio de in nitrato igual
a 0,5 g/ml. Se desea estimar mediante un intervalo de confianza del 95% la concentracin
promedio del nitrato en el agua, si se sabe que la desviacin del mtodo para ste anlisis es de
0,15 g/ml.
Tambin se puede decir que el error mximo de estimacin con un 95% de confianza es:
Por consiguiente, el tamao de muestra necesario para cometer ste error un 95% de las veces
ser igual a:
2
z( 1 ) x
2 2
= ( 0,975 ) x 1,96 ( 015 )
z
n= 2
= = 9
m m 0,098
Ahora bien, si se desea aumentar el nivel de confianza, por ejemplo a un 99%, sin aumentar
el error de estimacin, el tamao de la muestra debe ser igual a:
2
z( 1 ) x
2 2
= ( 0,995 ) x 2,58 ( 0,15 )
z
n= 2
= 16
m m 0,098
Por otra parte, si se quiere reducir el error de estimacin a unos 0,05 g / ml , manteniendo el
nivel de confianza del 95%, entonces el tamao muestral debe ser:
Samuel Segnini Fundamentos de Bioestadstica Captulo 5 112
2
z( 1 ) x
2 2
= ( 0,975 ) x 1,96 ( 0,15 )
z
n= 2
= 35
m m 0,05
Ejemplo 5.2
Al determinar el valor de pH de una solucin buffer, se encontr que 36 mediciones
produjeron un valor promedio de pH igual a 5,2 con una desviacin de 1,3 unidades. Estime
mediante un intervalo el verdadero valor de pH de la solucin con una confianza del 90%.
El intervalo buscado es [ 4,84; 5,56 ] . Se concluye que se tiene un 90% de confianza de que
el valor promedio de pH de la solucin se encuentra includo dentro de ste intervalo.
x t( 1 2; n-1) S x n
5.3.1.3.1 Distribucin de T
La variable aleatoria T tiene la funcin de probabilidad siguiente:
(( 1 ) 2 )e y dy
( ) ( )
y
( +1 )
f (t )= 0 1 + t 2 2
2
1
y 2 e y dy
0
Donde es un parmetro de la distribucin, conocido con el nombre de grados de libertad y
se obtiene a partir del tamao de la muestra menos uno (n-1). La funcin de probabilidad f(t),
se caracteriza por lo siguiente: 1) la variable T toma valores entre y +
( T + ); 2) los valores de T se distribuyen simtricamente alrededor de la media
= 0 . Su forma es parecida a la distribucin normal pero ms prominente y con las colas ms
levantadas. En la medida que se hace ms grande la forma de la distribucin de T se
asemeja ms a la distribucin de Z, y 3) Para cada valor de existe una distribucin de T.
La funcin acumulada de la variable T se ha tabulado de una manera diferente a la tabla de Z.
Las tablas de la distribucin acumulativa de T tienen dos entradas: i) los grados de libertad (n-
1) y ii) 1- = la probabilidad de tener un valor menor a t.
Samuel Segnini Fundamentos de Bioestadstica Captulo 5 114
El cuerpo de la tabla lo conforman los valores de T a la izquierda del cual se encuentra una
proporcin 1- del rea. Tambin se puede decir que 1- es la probabilidad de encontrar un
valor de la variable T a la izquierda del t tabulado. Cualquier valor de t se identifica de la
manera siguiente: t( 1 ; n-1) . Por ejemplo t( 0975; 6) = 2,447 es el valor de t a la izquierda del
cual se encuentra una proporcin del rea igual a 0,975 con 6 grados de libertad, o de otra
manera: existe una probabilidad igual a 0,975 de encontrar un valor igual o menor a
t = 2,447 para 6 grados de libertad.
Ejemplo 5.3
Se capturaron 25 murcilagos en una selva nublada y se encontr que esta muestra
proporcion un peso promedio de 100 g y una varianza de 400 g. Si se sabe que la variable
peso se distribuye normalmente, estime el peso promedio de la poblacin con la seguridad de
no equivocarse en ms de un 10% de las veces.
Se desea estimar x con una probabilidad del 90%, a partir de una muestra pequea (n < 30)
que proviene de una poblacin distribuida normalmente pero con varianza desconocida. En
ste caso el estadstico ( x x ) ( S x n ) sigue la distribucin de T, y el intervalo de
confianza es de la forma siguiente:
x t [ 1( 2 ); n-1 ] S x n
El intervalo buscado es [93,14 ; 106,86]. Se concluye que se tiene un 90% de confianza que el
intervalo incluya el valor del peso promedio de la poblacin de murcilagos.
Ejemplo 5.4
Con el propsito de conocer el valor promedio de la concentracin de cierto metabolito en la
sangre de una poblacin determinada, se analiz la sangre de 30 adultos. La concentracin
promedio del metabolito en esta muestra fue de 92 g/l. Estudios anteriores haban
Samuel Segnini Fundamentos de Bioestadstica Captulo 5 115
determinado para la misma poblacin una varianza de 100 g/l. Usando sta informacin
construya un intervalo de confianza del 99% para la media poblacional del metabolito.
El intervalo buscado es [87,29; 96,71]. Se concluye que se tiene un 99% de confianza que el
valor promedio de la concentracin del metabolito en la sangre de la poblacin estudiada est
incluido en ese intervalo.
Ejemplo 5.5
Los niveles de glucosa en la sangre de 40 estudiantes de nuevo ingreso en la Facultad de
Ciencias dieron un valor promedio de 4,05 mmol/l y una desviacin igual a 0,3 mmol/l.
Construya un intervalo de confianza para la media poblacional. Use un = 0,08 .
El intervalo buscado es [3,96 ; 4,13]. Se concluye que se tiene un 92% de confianza que el
valor promedio de los niveles de glucosa en la sangre de la poblacin de estudiantes de nuevo
ingreso est incluido en ese intervalo.
Samuel Segnini Fundamentos de Bioestadstica Captulo 5 116
En la Figura 5.7 se presentan un esquema con la combinacin de los diferentes aspectos que
determinan la construccin de un intervalo de confianza
Figura 5.7
x2 x2
( x2 x1 ) = x2 x1 2 = 1
+ 2
( x2 x1 ) n1 n2
{ }
P ( x2 x1 )1 X 2 X 1 ( x2 x1 ) 2 = 1
P { z1 Z z 2 }=1-
( x2 x1 ) ( x2 x1 )
Sabiendo que Z =
x2 x1
( x2 x1 ) ( x2 x1 )
P { z1 Z z 2 } = P z( 1 2 ) + z( 1 2 ) = 1
x2 x1
{
P ( x2 x1 ) z( 1 2 ) x2 x1 x2 x1 ( x2 x1 ) + z( 1 2 ) x2 x1 = 1 }
Samuel Segnini Fundamentos de Bioestadstica Captulo 5 118
x2 x2
Sustituyendo en la expresin anterior x x por 1
+ 2
se tiene,
( 2 1) n1 n2
x2 x2 x2 x2
P ( x2 x1 ) z( 1 2 ) 2 + 1 x2 x1 ( x2 x1 ) + z( 1 2)
2 + 1
= 1
n2 n1 n2 n1
De manera que el intervalo de confianza para estimar la diferencia entre dos medias
poblacionales tiene la forma general,
x2 x2
x x z 1
( 2 1 ) ( 1 2 ) +
2
n2 n1
Ejemplo 5.6
En un trabajo de investigacin se encontr que el contenido promedio de cido rico en 12
nios con el Sndrome de Down fue de 4,75 mg/100ml, mientras que en 18 nios normales el
valor promedio encontrado fue de 3,95 mg/100 ml.. Mediante trabajos previos se haba
determinado que las varianzas de ambos grupos son 1,02 y 0,98 respectivamente. Suponiendo
que la concentracin de cido rico es una variable que se distribuye normalmente construya
un intervalo de confianza del 98% para la diferencia de medias poblacionales.
( x2 x1 ) z( 1 2 )
( x22
) (
n2 + x2 n1
1
)
Sus lmites son los siguientes:
LI = ( x2 x1 ) z(0,99 )
( x22
) (
)
n2 + x2 n1 = 0,80 2,33
1
( 1,02 12 ) + ( 0,98 18 ) = 0,1099
LS = ( x2 x1 ) + z(0,99 )
( x2 2
) (
)
n2 + x2 n1 = 0,80 + 2,33
1
(1,02 12 ) + ( 0,98 18 ) = 1,8501
El intervalo buscado es [0,1099 ; 1,85501]. Se concluye que se tiene un 98% de confianza que
el valor de la diferencia de medias poblacionales sea un punto dentro de ese intervalo.
Samuel Segnini Fundamentos de Bioestadstica Captulo 5 119
Figura 5.9
Ejemplo 5.7
En una investigacin sobre la calidad qumica del agua en un ro, se determin el fsforo total
en solucin en dos pocas distintas. En la primera fecha, 25 mediciones del elemento
proporcionaron un valor promedio de 0,78 mg/l y una varianza de 0,063 mg/l. En la segunda
fecha se efectuaron 16 mediciones y los valores encontrados para la media y la varianza
fueron de 0,06 y 0,048 mg/l respectivamente. Suponiendo que la variable concentracin de
fsforo se distribuye normalmente construya un intervalo de confianza del 95% para la
diferencia de medias poblacionales.
Las muestras de valores del contenido de fsforo son pequeas (n1 y n2 < 30) y provienen de
dos poblaciones diferentes que se distribuyen normalmente con varianzas desconocidas. Por lo
tanto antes de construir el intervalo de confianza se debe comprobar si es posible suponer que
las dos varianzas poblacionales son iguales, para lo cual se aplica una de las reglas prcticas
para la comparacin de varianzas.
s 2 0,063
Como = 0,05 y RV = 1 = = 1,31 es menor a 2 se acepta que las dos varianzas son
s22 0,048
iguales. Por lo tanto, de acuerdo al diagrama de la Figura 5.9 el intervalo a usar es el que se
muestra a continuacin:
S 2p S 2p
( x2 x1 ) t(1 2 ; n1 + n2 2 ) +
n2 n1
Samuel Segnini Fundamentos de Bioestadstica Captulo 5 121
S 2p S 2p 0,0572 0,0572
LS = ( x2 x1 ) + t(0,975; 39 ) + = 0,15 + 2,3313 + = 0,3285
n2 n1 25 16
S 2p S 2p 0,0572 0,0572
LI = ( x2 x1 ) t(0,975; 39 ) + = 0,15 2,3313 + = 0,0285
n2 n1 25 16
El intervalo buscado es [-0,0285; 0,3285]. Se concluye que se tiene un 95% de confianza que
ste intervalo contenga el valor de la diferencia de las medias poblacionales.
s2 s2
Donde w1 = 1 y w2 = 2
n1 n2
S x2 S2
El intervalo de confianza se obtiene mediante la frmula: ( x2 x1 ) t * +
2 x1
(1 2 ) n2 n1
Ejemplo 5.8
Al comparar dos mtodos para determinar la concentracin de Boro en un material vegetal se
efectuaron varias mediciones obtenindose los resultados siguientes para los dos mtodos.
Samuel Segnini Fundamentos de Bioestadstica Captulo 5 122
Concentracin de Boro
Espectrofotometra Fluorimetra
n 10 16
Media 26,00 g/l 28,00 g/l
Desviacin 0,23 g/l 1,30 g/l
Las condiciones del problema indican que las muestras son pequeas y provienen de dos
poblaciones que se distribuyen normalmente y con varianzas desconocidas. Al seguir el
esquema de la Figura 5.9 para escoger el intervalo adecuado, es necesario decidir si las
desconocidas varianzas poblacionales son iguales o diferentes.
s2 1,3
Como = 0,01 y RV = 1 = = 5,65 es mayor a 3,5 se acepta que las dos varianzas son
2
s2 0,23
diferentes. Por lo tanto de acuerdo al diagrama de la Figura 5.9 el intervalo a construir debe
ser el siguiente:
S x2 S2
( x2 x1 ) t (*1 2 ) 2
+
x1
n2 n1
S2 ( 0,23 ) 2 S2 ( 1,30 ) 2
x x
w1 = 1 = = 0,0053 w2 = 2 = = 0,1056
n1 10 n2 16
S x2 S2 1,30 2 0,23 2
= ( x2 x1 ) + t (*1 2 ) + = 2 + 2,96 + = 2 + 0,9858 = 2,9858
2 x1
LS
n2 n1 16 10
El intervalo buscado es [1,0142; 2,9858]. Se concluye que se tiene un 99% de confianza que
el intervalo anterior incluya el valor de x2 x1 .
5.4 EJERCICIOS
2. El peso de las partculas slidas en el aire es una variable aleatoria que se distribuye
normalmente y su valor promedio se usa como indicador de la contaminacin
atmosfrica. Si en una investigacin de la calidad del aire se determin en 30 ocasiones
que el peso promedio de las partculas suspendidas fue de 75 mg/m3 con una desviacin
igual a 12 mg/m3, construya con un 95% de confianza un intervalo que contenga el
verdadero peso promedio de las partculas suspendidas en el aire.
3. Ciertas especies de plantas para poder producir flores requieren permanecer diariamente
en oscuridad un nmero mnimo de horas en forma ininterrumpida. Para una determinada
especie se determin que hubo floracin cuando los lapsos de oscuridad medidos en
horas presentaron los valores siguientes:
4. Bajo el supuesto que el tiempo de oscuridad requerido para la floracin es una variable
aleatoria que se distribuye normalmente, estime el tiempo medio de oscuridad
ininterrumpida que requieren los individuos de sta especie de planta para producir
flores. Escoja el nivel de confianza que le parezca ms adecuado.
5. Se sabe que para cierta comunidad el consumo de caloras en varones de 20 aos con
pesos que varan entre los 70 y 75 Kg tiene una varianza igual a 0,7225 Kcal/da.
Determine mediante un intervalo de confianza del 90% el consumo medio de caloras de
la poblacin de jvenes con las caractersticas antes mencionadas, si la medicin del
consumo de caloras en 42 de ellos produjo un valor medio de 2,9 Kcal/da. A cuntos
Samuel Segnini Fundamentos de Bioestadstica Captulo 5 124
jvenes se les debera medir el consumo diario de caloras para que la amplitud del
intervalo no fuese mayor a 0,5 Kcal?.
7. Un taxnomo midi la longitud promedio del cuerpo de dos razas de ratones de la misma
especie que viven en una sabana y encontr que 10 individuos de la raza A tienen una
longitud promedio de 16,25 cm y que en 14 ejemplares de la raza B el promedio de
longitud es de 15,40 cm. Si se sabe que la variable se distribuye normalmente con una
desviacin igual 1,0 cm para la raza A y de 1,16 cm para la raza B, estime mediante un
intervalo de confianza la verdadera diferencia entre las medias poblacionales con un
nivel de confianza del 80%..
10. En los mismos sitios de muestreo del problema anterior se determin en 10 fechas el
contenido de fsforo disuelto en el agua. Los resultados encontrados fueron los
siguientes:
11. Encuentre un intervalo de confianza del 95% para la diferencia en los contenidos
promedios reales de fsforo en las dos estaciones, asumiendo que las muestras provienen
de poblaciones de valores que se distribuye normalmente.
Samuel Segnini Fundamentos de Bioestadstica Captulo 5 125
12. En un proceso qumico se comparan dos catalizadores para verificar su efecto en una
reaccin. Se efectuaron 32 reacciones utilizando el catalizador I y 32 reacciones usando
el catalizador II. En el primer caso el rendimiento promedio fue de 85% con una
desviacin de 6%. Para el segundo grupo de reacciones el rendimiento fue de 81% y la
desviacin fue de 7%. Construya un intervalo de confianza del 90% para la verdadera
diferencia promedio en el rendimiento.
13. En un ensayo sobre el efecto del nitrgeno en el crecimiento de una especie de rbol se
plantaron dos lotes de 1000 rboles cada uno. Uno de los lotes fue fertilizado con Na
NO3 y el otro no fue tratado. Despus de cinco meses se pesaron los tallos de 50 rboles
en cada lote. Los rboles no tratados produjeron un valor promedio del tallo igual a 3,93
kg y una desviacin de 0,78 kg. En los rboles fertilizados el promedio fue de 4,87 kg y
una desviacin de 2,52 kg. Calcule un intervalo de confianza del 99% para la diferencia
promedio del peso del tronco entre los dos lotes.
14. En un estudio para determinar la capacidad de absorcin de bromuro por los tejidos
vegetales se le aadi a dos tipos de vegetales, tomate y pepino, la misma cantidad de
bromuro y luego se procedi a medir mediante cromatografa de gases la cantidad de
bromuro recuperado. Si la concentracin de bromuro recuperado en el tomate es una
variable aleatoria que se distribuye normalmente con una desviacin igual a 13,6 g/g,
mientras que en el pepino la misma variable se distribuye normalmente con una varianza
igual a 10,4 g/g. Estime mediante un intervalo de confianza del 92% la diferencia que
existe entre los promedios poblacionales de recuperacin de bromuro para los dos
vegetales, si siete mediciones del bromuro recuperado en el tomatte produjeron un media
igual 772,6 g/g y las misma cantidad de mediciones en el pepino produjeron una media
igual a 780,6 g/g.
16. Para evaluar en mtodo espectrofotomtrico con el fin de determinar titanio, se aplic el
mtodo a dos aleaciones conteniendo diferentes cantidades certificadas de titanio. Para
los dos tipos de aleaciones se hicieron 8 mediciones, encontrndose que una produjo un
valor medio de 0,482% de titanio con una desviacin igual a 0,0257%, mientras que en la
segunda aleacin el promedio fue de 2,002% con una media de 0,0287%. Si la
concentracin de titanio se distribuye normalmente, estime mediante un intervalo de
confianza del 95% la diferencia real que existe entre el contenido de titanio en las dos
aleaciones.
18. En un proceso qumico se comparan dos catalizadores para verificar su efecto en una
reaccin. Se efectuaron 32 reacciones utilizando el catalizador I y 32 reacciones usando
el catalizador II. En el primer caso el rendimiento promedio fue de 85% con una
desviacin de 6%. Para el segundo grupo de reacciones el rendimiento fue de 81% y la
desviacin fue de 7%. Construya un intervalo de confianza del 90% para la verdadera
diferencia promedio en el rendimiento.
19. En un ensayo sobre el efecto del nitrgeno en el crecimiento de una especie de rbol se
plantaron dos lotes de 1000 rboles cada uno. Uno de los lotes fue fertilizado con Na
NO3 y el otro no fue tratado. Despus de cinco meses se pesaron los tallos de 50 rboles
en cada lote. Los rboles no tratados produjeron un valor promedio del tallo igual a 3,93
kg y una desviacin de 0,78 kg. En los rboles fertilizados el promedio fue de 4,87 kg y
una desviacin de 2,52 kg. Calcule un intervalo de confianza del 99% para la diferencia
promedio del peso del tronco entre los dos lotes.