Vous êtes sur la page 1sur 181

BIOESTADSTICA

1. Conceptos previos
o 1.2 Introduccin
o 1.3 Qu es la estadstica?
o 1.5 Elementos. Poblacin. Caracteres
1.5.0.1 Ejemplo
o 1.7 Organizacin de los datos
1.7.2 Variables estadsticas
1.7.4 Tablas estadsticas
o 1.9 Representaciones Grficas
1.9.2 Grficos para variables cualitativas
1.9.4 Grficos para variables cuantitativas
o 1.11 Problemas
2. Medidas descriptivas
o 2.1 Introduccin
o 2.3 Estadsticos de tendencia central
2.3.2 La media
2.3.4 La mediana
2.3.6 La moda
2.3.8 Relacin entre media, mediana y moda
o 2.5 Estadsticos de posicin
2.5.0.1 Ejemplo
2.5.0.2 Ejemplo
2.5.0.3 Ejemplo
2.5.0.4 Ejemplo
o 2.7 Medidas de variabilidad o dispersin
2.7.2 Desviacin media, Dm
2.7.4 Varianza y desviacin tpica
2.7.6 Coeficiente de variacin
o 2.9 Asimetra y apuntamiento
2.9.2 Estadsticos de asimetra
2.9.4 Estadsticos de apuntamiento
o 2.11 Problemas
3. Variables bidimensionales
o 3.2 introduccin
o 3.4 Tablas de doble entrada
3.4.2 Distribuciones marginales
3.4.4 Distribuciones condicionadas
o 3.6 Dependencia funcional e independencia
3.6.2 Dependencia funcional
3.6.4 Independencia
o 3.8 Medias y varianzas marginales y condicionadas
3.8.0.1 Proposicin
o 3.10 Covarianza y coeficiente de correlacin
3.10.0.1 Proposicin
3.10.0.2 Ejemplo
3.10.2 Una interpretacin geomtrica de la covarianza
3.10.4 Interpretacin geomtrica de r
o 3.12 Regresin
3.12.2 Bondad de un ajuste
3.12.4 Regresin lineal
o 3.14 Problemas
4. Clculo de probabilidades y variables aleatorias
o 4.2 introduccin
o 4.4 Experimentos y sucesos aleatorios
4.4.0.0.0.1 Suceso seguro:
4.4.0.0.0.2 Suceso imposible:
4.4.0.0.0.3 Suceso contrario a un suceso A:
4.4.0.1 Ejemplo
o 4.6 Operaciones bsicas con sucesos aleatorios
4.6.0.0.0.1 Unin:
4.6.0.0.0.2 Interseccin:
4.6.0.0.0.3 Diferencia:
4.6.0.0.0.4 Diferencia simtrica:
o 4.8 Experimentos aleatorios y probabilidad
4.8.0.1 Ejemplo
4.8.2 Probabilidad de Laplace
4.8.4 Definicin axiomtica de probabilidad
o 4.10 Probabilidad condicionada e independencia de sucesos
4.10.0.1 Ejemplo
4.10.0.2 Observacin
o 4.12 Ciertos teoremas fundamentales del clculo de probabilidades
4.12.0.1 Proposicin
4.12.0.2 Ejemplo
4.12.0.3 Ejemplo
4.12.0.4 Teorema (Probabilidad compuesta)
4.12.0.5 Teorema (Probabilidad total)
4.12.0.6 Ejemplo
4.12.0.7 Teorema (Bayes)
4.12.0.8 Ejemplo
4.12.0.9 Observacin
o 4.14 Tests diagnsticos
4.14.0.1 Ejemplo
o 4.16 Problemas
5. Variables aleatorias
o 5.2 Introduccin
5.2.0.1 Observacin
5.2.0.2 Observacin
o 5.4 Variables aleatorias discretas
5.4.0.1 Observacin
5.4.0.2 Proposicin (Distribuciones discretas)
o 5.6 Variables aleatorias continuas
5.6.0.1 Observacin
5.6.0.2 Observacin
5.6.0.3 Proposicin
5.6.2 Cambio de variable
o 5.8 Medidas de tendencia central y dispersin de v.a.
5.8.2 Valor esperado o esperanza matemtica
5.8.4 Varianza
5.8.6 Momentos de una v.a.
5.8.8 Desigualdad de Tchebycheff y v.a. tipificadas
5.8.10 Funcin caracterstica
6. Principales leyes de distribucin de variables aleatorias
o 6.2 Introduccin
o 6.4 Distribuciones discretas
6.4.2 Distribucin de Bernoulli
6.4.4 Distribucin binomial
6.4.6 Distribucin geomtrica ( o de fracasos)
6.4.8 Distribucin binomial negativa
6.4.10 Distribucin hipergeomtrica
6.4.12 Distribucin de Poisson (o de los sucesos raros)
o 6.6 Reproductividad de familias de v.a.
o 6.8 Distribuciones continuas
6.8.2 Distribucin uniforme o rectangular
6.8.4 Distribucin exponencial
6.8.6 Distribucin normal o gaussiana

6.8.8 Distribucin
6.8.10 Distribucin de Student
6.8.12 La distribucin de Snedecor
o 6.10 Problemas
I. Inferencia estadstica
o 7. Introduccin a la inferencia
7.2 Introduccin
7.4 Tcnicas de muestreo sobre una poblacin
7.4.2 Muestreo aleatorio
7.4.4 Muestreo aleatorio estratificado
7.4.6 Muestreo sistemtico
7.4.8 Muestreo por conglomerados
7.6 Propiedades deseables de un estimador
7.6.0.1 Ejemplo
7.6.2 Carencia de sesgo
7.6.4 Consistencia
7.6.6 Eficiencia
7.6.8 Suficiencia
7.6.10 Estimadores de mxima verosimilitud
7.6.12 Algunos estimadores fundamentales
o 8. Estimacin confidencial
8.2 Introduccin
8.4 Intervalos de confianza para la distribucin normal
8.4.2 Intervalo para la media si se conoce la varianza
8.4.4 Intervalo para la media (caso general)
8.4.6 Intervalo de confianza para la varianza
8.4.8 Estimacin del tamao muestral
8.4.10 Intervalos para la diferencia de medias de dos
poblaciones
8.6 Intervalos de confianza para variables dicotmicas
8.6.2 Intervalo para una proporcin
8.6.4 Eleccin del tamao muestral para una proporcin
8.6.6 Intervalo para la diferencia de dos proporciones
8.8 Problemas
o 9. Contrastes de hiptesis
9.2 Introduccin
9.2.0.1 Ejemplo
9.2.2 Observaciones
9.4 Contrastes paramtricos en una poblacin normal
9.4.2 Contrastes para la media
9.4.4 Contrastes para la varianza
9.6 Contrastes de una proporcin
9.6.0.1 Contraste bilateral
9.6.0.2 Contrastes unilaterales
9.8 Contrastes para la diferencia de medias apareadas
9.8.0.1 Contraste bilateral
9.8.0.2 Contrastes unilaterales
9.8.0.3 Observacin
9.10 Contrastes de dos distribuciones normales independientes
9.10.2 Contraste de medias con varianzas conocidas
9.10.4 Contraste de medias homocedticas
9.10.6 Contraste de medias no homocedticas
9.10.8 Contrastes de la razn de varianzas
9.10.10 Caso particular: Contraste de homocedasticidad
9.12 Contrastes sobre la diferencia de proporciones
9.12.0.1 Contraste bilateral
9.12.0.2 Contrastes unilaterales
9.14 Problemas
o 10. Contrastes basados en el estadstico Ji-Cuadrado
10.2 Introduccin
10.4 El estadstico y su distribucin
10.4.0.1 Observacin
10.4.0.2 Observacin
10.4.0.3 Observacin
10.4.0.4 Ejemplo
10.4.0.5 Observacin
10.6 Contraste de bondad de ajuste para distribuciones
10.6.2 Distribuciones de parmetros conocidos
10.6.4 Distribuciones con parmetros desconocidos
10.8 Problemas
o 11. Anlisis de la varianza
11.2 Introduccin
11.4 ANOVA con un factor
11.4.0.1 Observacin
11.4.2 Especificacin del modelo
11.4.4 Algo de notacin relativa al modelo
11.4.6 Forma de efectuar el contraste
11.4.8 Mtodo reducido para el anlisis de un factor
11.4.10 Anlisis de los resultados del ANOVA:
Comparaciones mltiples
11.6 ANOVA de varios factores
11.8 Consideraciones sobre las hiptesis subyacentes en el modelo
factorial
11.8.2 Contraste de homocedasticidad de Cochran
11.8.4 Contraste de homocedasticidad de Bartlett
11.10 Problemas
o 12. Contrastes no paramtricos
12.2 Introduccin
12.4 Aleatoriedad de una muestra: Test de rachas
12.4.0.1 Aproximacin normal del test de rachas
12.6 Normalidad de una muestra: Test de D'Agostino
12.8 Equidistribucin de dos poblaciones
12.8.2 Contraste de rachas de Wald--Wolfowitz
12.8.4 Contraste de Mann--Withney
12.10 Contraste de Wilcoxon para muestras apareadas
12.10.0.1 Aproximacin normal en el contraste de Wilcoxon
12.12 Contraste de Kruskal-Wallis
12.12.2 Comparaciones mltiples
12.14 Problemas
Bibliografa

I. Inferencia estadstica
7. Introduccin a la inferencia

7.2 Introduccin
El propsito de un estudio estadstico suele ser, como hemos venido citando, extraer
conclusiones acerca de la naturaleza de una poblacin. Al ser la poblacin grande y no
poder ser estudiada en su integridad en la mayora de los casos, las conclusiones obtenidas
deben basarse en el examen de solamente una parte de sta, lo que nos lleva, en primer
lugar a la justificacin, necesidad y definicin de las diferentes tcnicas de muestreo.

Los primeros trminos obligados a los que debemos hacer referencia, definidos en el primer
captulo, sern los de estadstico y estimador.

Dentro de este contexto, ser necesario asumir un estadstico o estimador como una
variable aleatoria con una determinada distribucin, y que ser la pieza clave en las dos
amplias categoras de la inferencia estadstica: la estimacin y el contraste de hiptesis.

El concepto de estimador, como herramienta fundamental, lo caracterizamos mediante una


serie de propiedades que nos servirn para elegir el ``mejor" para un determinado
parmetro de una poblacin, as como algunos mtodos para la obtencin de ellos, tanto en
la estimacin puntual como por intervalos.

Cmo deducir la ley de probabilidad sobre determinado carcter de una poblacin cuando
slo conocemos una muestra?

Este es un problema al que nos enfrentamos cuando por ejemplo tratamos de estudiar la
relacin entre el fumar y el cncer de pulmn e intentamos extender las conclusiones
obtenidas sobre una muestra al resto de individuos de la poblacin.

La tarea fundamental de la estadstica inferencial, es hacer inferencias acerca de la


poblacin a partir de una muestra extrada de la misma.

7.4 Tcnicas de muestreo sobre una


poblacin
La teora del muestreo tiene por objetivo, el estudio de las relaciones existentes entre la
distribucin de un carcter en dicha poblacin y las distribuciones de dicho carcter en
todas sus muestras.
Las ventajas de estudiar una poblacin a partir de sus muestras son principalmente:

Coste reducido:
Si los datos que buscamos los podemos obtener a partir de una pequea parte del
total de la poblacin, los gastos de recogida y tratamiento de los datos sern
menores. Por ejemplo, cuando se realizan encuestas previas a un referndum, es
ms barato preguntar a 4.000 personas su intencin de voto, que a 30.000.000;
Mayor rapidez:
Estamos acostumbrados a ver cmo con los resultados del escrutinio de las primeras
mesas electorales, se obtiene una aproximacin bastante buena del resultado final de
unas elecciones, muchas horas antes de que el recuento final de votos haya
finalizado;
Ms posibilidades:
Para hacer cierto tipo de estudios, por ejemplo el de duracin de cierto tipo de
bombillas, no es posible en la prctica destruirlas todas para conocer su vida media,
ya que no quedara nada que vender. Es mejor destruir slo una pequea parte de
ellas y sacar conclusiones sobre las dems.

De este modo se ve que al hacer estadstica inferencial debemos enfrentarnos con dos
problemas:

Eleccin de la muestra (muestreo), que es a lo que nos dedicaremos en este captulo.


Extrapolacin de las conclusiones obtenidas sobre la muestra, al resto de la
poblacin (inferencia).

El tipo de muestreo ms importante es el muestreo aleatorio, en el que todos los elementos


de la poblacin tienen la misma probabilidad de ser extrados; Aunque dependiendo del
problema y con el objetivo de reducir los costes o aumentar la precisin, otros tipos de
muestreo pueden ser considerados como veremos ms adelante: muestreo sistemtico,
estratificado y por conglomerados.

7.4.2 Muestreo aleatorio

Consideremos una poblacin finita, de la que deseamos extraer una muestra. Cuando el
proceso de extraccin es tal que garantiza a cada uno de los elementos de la poblacin la
misma oportunidad de ser incluidos en dicha muestra, denominamos al proceso de
seleccin muestreo aleatorio.

El muestreo aleatorio se puede plantear bajo dos puntos de vista:

Sin reposicin de los elementos;


Con reposicin.
7.4.2.1 Muestreo aleatorio sin reposicin

Consideremos una poblacin E formada por N elementos. Si observamos un elemento

particular, , en un muestreo aleatorio sin reposicin se da la siguiente circunstancia:

La probabilidad de que e sea elegido en primer lugar es ;

Si no ha sido elegido en primer lugar (lo que ocurre con una probabilidad de ),

la probabilidad de que sea elegido en el segundo intento es de .


en el (i+1)-simo intento, la poblacin consta de N-i elementos, con lo cual si e no
ha sido seleccionado previamente, la probabilidad de que lo sea en este momento es

de .

Si consideramos una muestra de elementos, donde el orden en la eleccin de los


mismos tiene importancia, la probabilidad de eleccin de una muestra

cualquiera es

lo que corresponde en el sentido de la definicin de probabilidad de Laplace a un caso


posible entre las VN,n posibles n-uplas de N elementos de la poblacin.

Si el orden no interviene, la probabilidad de que una muestra


sea elegida es la suma de las probabilidades de elegir una cualquiera de sus n-uplas, tantas
veces como permutaciones en el orden de sus elementos sea posible, es decir

7.4.2.2 Muestreo aleatorio con reposicin

Sobre una poblacin E de tamao N podemos realizar extracciones de n elementos, pero de


modo que cada vez el elemento extrado es repuesto al total de la poblacin. De esta forma
un elemento puede ser extrado varias veces. Si el orden en la extraccin de la muestra
interviene, la probabilidad de una cualquiera de ellas, formada por n elementos es:

Si el orden no interviene, la probabilidad de una muestra cualquiera, ser la suma de la


anterior, repitindola tantas veces como manera de combinar sus elementos sea posible. Es
decir,

sea n1 el nmero de veces que se repite cierto elemento e1 en la muestra;

sea n2 el nmero de veces que se repite cierto elemento e2;

sea nk el nmero de veces que se repite cierto elemento ek,


de modo que . Entonces la probabilidad de obtener la muestra
es

es decir,

El muestreo aleatorio con reposicin es tambin denominado muestreo aleatorio simple,


que como hemos mencionado se caracteriza por que

cada elemento de la poblacin tiene la misma probabilidad de ser elegido, y


las observaciones se realizan con reemplazamiento. De este modo, cada observacin
es realizada sobre la misma poblacin (no disminuye con las extracciones
sucesivas).

Sea X una v.a. definida sobre la poblacin E, y f(x) su ley de probabilidad.

En una muestra aleatoria simple, cada observacin tiene la distribucin de probabilidad de


la poblacin:
Adems todos las observaciones de la v.a. son independientes, es decir
Las relaciones(7.1)-(7.2) caracterizan a las muestras aleatorias simples.

La seleccin de una muestra aleatoria puede realizarse con la ayuda de #.#>

7.4.2.3 Tablas de nmeros aleatorios: Lotera Nacional

Un ejemplo de una tabla de nmeros aleatorios consiste en la lista de los nmeros de


Lotera Nacional premiados a lo largo de su historia, pues se caracterizan por que cada
dgito tiene la misma probabilidad de ser elegido, y su eleccin es independiente de las
dems extracciones.

Un modo de hacerlo es el siguiente. Supongamos que tenemos una lista de nmeros


aleatorios de k=5 cifras (00000-99.999), una poblacin de N=600individuos, y deseamos
extraer una muestra de n=6 de ellos. En este caso ordenamos a toda la poblacin (usando
cualquier criterio) de modo que a cada uno de sus elementos le corresponda un nmero del
1 al 600. En segundo lugar nos dirigimos a la tabla de nmeros aleatorios, y comenzando en
cualquier punto extraemos un nmero t, y tomamos como primer elemento de la muestra al
elemento de la poblacin:

El proceso se repite tomando los siguientes nmeros de la tabla de nmeros aleatorios,


hasta obtener la muestra de 10 individuos.

Las cantidades

pueden ser consideradas como observaciones de una v.a. U, que sigue una distribucin
uniforme en el intervalo [0,1]
7.4.2.4 Mtodo de Montecarlo

El mtodo de Montecarlo es una tcnica para obtener muestras aleatorias simples de una
v.a. X, de la que conocemos su ley de probabilidad (a partir de su funcin de distribucin
F). Con este mtodo, el modo de elegir aleatoriamente un valor de X siguiendo usando su
ley de probabilidad es:

1.
Usando una tabla de nmeros aleatorios7.1 se toma un valor u de una v.a.

.
2.
Si X es continua tomar como observacin de X, la cantidad x=F-1(u). En el caso en
que X sea discreta se toma x como el percentil de X, es decir el valor ms

pequeo que verifica que .


Este proceso se debe repetir n veces para obtener una muestra de tamao n.

7.4.2.5 Ejemplo

Si queremos extraer n=10 muestras de una distribucin podemos recurrir a una


tabla de nmeros aleatorios de k=5cifras, en las que observamos las cantidades (por
ejemplo)

A partir de ellas podemos obtener una muestra de usando una tabla de la


distribucin normal:

Nmeros aleatorios Muestra Muestra

ti xi = F-1(ui)

76.293 0'76 0'71


31.776 0'32(=1-0'68) -0'47
50.803 0'51 0'03
71.153 0'71 0'55
20.271 0'20(=1-0'80) -0'84
33.717 0'34(=1-0'66) -0'41
17.979 0'18(=1-0'82) -0'92
52.125 0'52 0'05
41.330 0'41(=1-0'59) -0'23
95.141 0'95 1'65

Obsrvese que como era de esperar, las observaciones xi tienden a agruparse alrededor de la

esperanza matemtica de . Por otra parte, esto no implica que el


valor medio de la muestra sea necesariamente . Sin embargo como sabemos por el
teorema de Fisher que

su dispersin con respecto al valor central es pequea, lo que implica que probablemente el
valor medio estar muy prximo a 0, como se puede calcular:

Obsrvese que si el problema fuese el inverso, donde nicamente conocisemos las


observaciones xi y que el mecanismo que gener esos datos hubiese sido una distribucin
normal de parmetros desconocidos, con obtenida hubisemos tenido una buena
aproximacin del ``parmetro desconocido'' . Sobre esta cuestin volveremos ms
adelante al abordar el problema de la estimacin puntual de parmetros.
7.4.4 Muestreo aleatorio estratificado

Un muestreo aleatorio estratificado es aquel en el que se divide la poblacin de N


individuos, en k subpoblaciones o estratos, atendiendo a criterios que puedan ser
importantes en el estudio, de tamaos respectivos N1, ..., Nk,

y realizando en cada una de estas subpoblaciones muestreos aleatorios simples de tamao ni

A continuacin nos planteamos el problema de cuantos elementos de muestra se han de


elegir de cada uno de los estratos. Para ello tenemos fundamentalmente dos tcnicas: la
asignacin proporcional y la asignacin optima.

7.4.4.1 Ejemplo
Supongamos que realizamos un estudio sobre la poblacin de estudiantes de una
Universidad, en el que a travs de una muestra de 10 de ellos queremos obtener
informacin sobre el uso de barras de labios.

En primera aproximacin lo que procede es hacer un muestreo aleatorio simple, pero en su


lugar podemos reflexionar sobre el hecho de que el comportamiento de la poblacin con
respecto a este carcter no es homogneo, y atendiendo a l, podemos dividir a la poblacin
en dos estratos:

Estudiantes masculinos (60% del total);


Estudiantes femeninos (40% restante).

de modo que se repartan proporcionalmente ambos grupos el nmero total de muestras, en


funcin de sus respectivos tamaos (6 varones y 4 mujeres). Esto es lo que se denomina
asignacin proporcional.

Si observamos con ms atencin, nos encontramos (salvo sorpresas de probabilidad


reducida) que el comportamiento de los varones con respecto al carcter que se estudia es
muy homogneo y diferenciado del grupo de las mujeres.

Por otra parte, con toda seguridad la precisin sobre el carcter que estudiamos, ser muy
alta en el grupo de los varones aunque en la muestra haya muy pocos (pequea varianza),
mientras que en el grupo de las mujeres habr mayor dispersin. Cuando las varianzas
poblacionales son pequens, con pocos elementos de una muestra se obtiene una
informacin ms precisa del total de la poblacin que cuando la varianza es grande. Por
tanto, si nuestros medios slo nos permiten tomar una muestra de 10 alumnos, ser ms
conveniente dividir la muestra en dos estratos, y tomar mediante muestreo aleatorio simple
cierto nmero de individuos de cada estrato, de modo que se elegirn ms individuos en los
grupos de mayor variabilidad. As probablemente obtendramos mejores resultados
estudiando una muestra de

1 varn.
9 hembras.

Esto es lo que se denomina asignacin ptima.

7.4.4.2 Asignacin proporcional

Sea n el nmero de individuos de la poblacin total que forman parte de alguna muestra:

Cuando la asignacin es proporcional el tamao de la muestra de cada estrato es


proporcional al tamao del estrato correspondiente con respecto a la poblacin total:

7.4.4.3 Asignacin ptima

Cuando se realiza un muestreo estratificado, los tamaos muestrales en cada uno de los
estratos, ni, los elige quien hace el muestreo, y para ello puede basarse en alguno de los
siguientes criterios:

Elegir los ni de tal modo que se minimice la varianza del estimador, para un coste
especificado, o bien,
habiendo fijado la varianza que podemos admitir para el estimador, minimizar el
coste en la obtencin de las muestras.

As en un estrato dado, se tiende a tomar una muestra ms grande cuando:


El estrato es ms grande;
El estrato posee mayor variabilidad interna (varianza);
El muestreo es ms barato en ese estrato.

Para ajustar el tamao de los estratos cuando conocemos la dispersin interna de cada uno
de los mismos, tenemos el siguiente resultado:

7.4.4.4 Teorema
[Asignacin de Neyman] Sea E una poblacin con N elementos, dividida en k estratos, con

Ni elementos cada uno de ellos,

Sea n el nmero total de elementos al realizar el muestreo, y que se dividen en cada estrato
como

Sea X la v.a. que representa el carcter que intentamos estudiar. Sobre cada estrato puede
definirse entonces la v.a.

como el valor medio de X obtenida en una muestra de tamao ni en el estrato Ei. Sea

la varianza de dicha v.a.; Entonces

se minimiza cuando
donde

es la cuasi-varianza del estrato Ei.

7.4.6 Muestreo sistemtico

Cuando los elementos de la poblacin estn ordenados en fichas o en una lista, una manera
de muestrear consiste en

Sea ;
Elegir aleatoriamente un nmero m, entre 1 y k;
Tomar como muestra los elementos de la lista:

Esto es lo que se denomina muestreo sistemtico. Cuando el criterio de ordenacin de los


elementos en la lista es tal que los elementos ms parecidos tienden a estar ms cercanos, el
muestreo sistemtico suele ser ms preciso que el aleatorio simple, ya que recorre la
poblacin de un modo ms uniforme. Por otro lado, es a menudo ms fcil no cometer
errores con un muestreo sistemtico que con este ltimo.

7.4.6.1 Observacin

El mtodo tal como se ha definido anteriormente es sesgado si no es entero, ya que los


ltimos elementos de la lista nunca pueden ser escogidos. Un modo de evitar este problema
consiste en considerar la lista como si fuese circular (el elemento N+1 coincide con el
primero) y:

Sea k el entero ms cercano a ;


Se selecciona un nmero al azar m, entre 1 y N;
Se toma como muestra los elementos de la lista que consisten en ir saltando de k
elementos en k, a partir de m, teniendo en cuenta que la lista es circular.

Se puede comprobar que con este mtodo todos los elementos de la lista tienen la misma
probabilidad de seleccin.

7.4.8 Muestreo por conglomerados

Si intentamos hacer un estudio sobre los habitantes de una ciudad, el muestreo aleatorio
simple puede resultar muy costoso, ya que estudiar una muestra de tamao n implica enviar
a los encuestadores a npuntos distintos de la misma, de modo que en cada uno de ellos slo
se realiza una entrevista. En esta situacin es ms econmico realizar el denominado
muestreo por conglomerados, que consiste en elegir aleatoriamente ciertos barrios dentro
de la ciudad, para despus elegir calles y edificios. Una vez elegido el edificio, se entrevista
a todos los vecinos.

7.6 Propiedades deseables de un estimador


Sea X una v.a. cuya funcin de probabilidad (o densidad de probabilidad si es continua)

depende de unos parmetros desconocidos.

Representamos mediante una muestra aleatoria simple de la variable.


Denotamos mediante fc a la funcin de densidad conjunta de la muestra, que por estar
formada por observaciones independientes, puede factorizarse del siguiente modo:

Se denomina estimador de un parmetro , a cualquier v.a. que se exprese en funcin

de la muestra aleatoria y que tenga por objetivo aproximar el valor de ,


Obsrvese que el estimador no es un valor concreto sino una variable aleatoria, ya que
aunque depende unvocamente de los valores de la muestra observados (Xi=xi), la eleccin
de la muestra es un proceso aleatorio. Una vez que la muestra ha sido elegida, se denomina
estimacin el valor numrico que toma el estimador sobre esa muestra.

Intuitivamente, las caractersticas que seran deseables para esta nueva variable aleatoria
(que usaremos para estimar el parmetro desconocido) deben ser:

Consistencia
Cuando el tamao de la muestra crece arbitrariamente, el valor estimado se
aproxima al parmetro desconocido.
Carencia de sesgo
El valor medio que se obtiene de la estimacin para diferentes muestras debe ser el
valor del parmetro.
Eficiencia
Al estimador, al ser v.a., no puede exigrsele que para una muestra cualquiera se
obtenga como estimacin el valor exacto del parmetro. Sin embargo podemos
pedirle que su dispersin con respecto al valor central (varianza) sea tan pequea
como sea posible.
Suficiencia
El estimador debera aprovechar toda la informacin existente en la muestra.

A continuacin vamos a enunciar de modo ms preciso y estudiar cada una de esas


caractersticas.

7.6.0.1 Ejemplo
Consideremos una v.a. de la que slo conocemos que su ley de distribucin es gaussiana,

Para muestras aleatorias de tamao n=3,


un posible estimador del parmetro es

Si al realizar un muestreo aleatorio simple obtenemos

Hemos dicho que el estimador sirve para aproximar el valor de un parmetro desconocido,
pero... si el parmetro es desconocido cmo podemos decir que un estimador dado sirve
para aproximarlo? As pues, es necesario que definamos en qu sentido un estimador es
bueno para cierto parmetro.

7.6.2 Carencia de sesgo

Se dice que un estimador de un parmetro es insesgado si:

La carencia de sesgo puede interpretarse del siguiente modo: Supongamos que se tiene un
nmero indefinido de muestras de una poblacin, todas ellas del mismo tamao n. Sobre
cada muestra el estimador nos ofrece una estimacin concreta del parmetro que buscamos.
Pues bien, el estimador es insesgado, si sobre dicha cantidad indefinida de estimaciones, el
valor medio obtenido en las estimaciones es (el valor que se desea conocer).

7.6.4 Consistencia

Decimos que es un estimador consistente con el parmetro si:


o lo que es equivalente

Este tipo de propiedades definidas cuando el nmero de observaciones n, tiende a infinito,


es lo que se denomina propiedades asintticas.

7.6.4.1 Teorema
Como consecuencia de de la desigualdad de Thebycheff (pgina ) se puede demostrar el
siguiente resultado:

Si se verifican las condiciones

entonces es consistente.

7.6.6 Eficiencia

Dados dos estimadores y de un mismo parmetro , diremos que es ms eficiente

que si
7.6.8 Suficiencia

Diremos que es un estimador suficiente del parmetro si

para todo posible valor de .

Esta definicin as enunciada tal vez resulte un poco oscura, pero lo que expresa es que un
estimador es suficiente, si agota toda la informacin existente en la muestra que sirva para
estimar el parmetro.

7.6.8.1 Teorema

[Criterio de factorizacin de Fisher--Neyman] Sea la distribucin

conjunta para las muestras de tamao n, . Entonces

siendo h una funcin no negativa que no depende de y r una funcin que slo depende del
parmetro y de la muestra a travs del estimador.

7.6.10 Estimadores de mxima verosimilitud

Sea X una v.a. con funcin de probabilidad


Las muestras aleatorias simples de tamao n, tienen por distribucin de
probabilidad conjunta

Esta funcin que depende de n+1 cantidades podemos considerarla de dos maneras:

Fijando , es una funcin de las n cantidades xi. Esto es la funcin de probabilidad


o densidad.
Fijados los xi como consecuencia de los resultados de elegir una muestra mediante
un experimento aleatorio, es nicamente funcin de . A esta funcin de la
denominamos funcin de verosimilitud.

En este punto podemos plantearnos el que dado una muestra sobre la que se ha observado
los valores xi, una posible estimacin del parmetro es aquella que maximiza la funcin de
verosimilitud (cf. figura 7.1)

Figura: La funcin de verosimilitud se obtiene a partir de la funcin de densidad,


intercambiando los papeles entre parmetro y estimador. En una funcin de
verosimilitud consideramos que las observaciones x1, ..., xn,estn fijadas, y se representa
la grfica con el valor de los valores que tomara la funcin de densidad para todos los
posibles valores del parmetro . El estimador mximo verosmil del parmetro

buscado, , es aquel que maximiza su funcin de verosimilitud, .


Como es lo mismo maximizar una funcin que su logaritmo (al ser este una funcin
estrictamente creciente), este mximo puede calcularse derivando con respecto a la
funcin de verosimilitud ( bien su logaritmo) y tomando como estimador mximo verosmil
al que haga la derivada nula:

De modo ms preciso, se define el estimador mximo verosmil como la v.a.

Los estimadores de mxima verosimilitud tienen ciertas propiedades en general que a


continuacin enunciamos:

1.
Son consistentes;
2.

Son invariantes frente a transformaciones biunvocas, es decir, si es el

estimador mximo verosmil de y es una funcin biunvoca de , entonces

es el estimador mximo verosmil de .


3.
Si es un estimador suficiente de , su estimador mximo verosmil, es
funcin de la muestra a travs de ;
4.
Son asintticamente normales;
5.
Son asintticamente eficientes, es decir, entre todos los estimadores consistentes de
un parmetro , los de mxima verosimilitud son los de varianza mnima.
6.
No siempre son insesgados.

7.6.12 Algunos estimadores fundamentales

Vamos a estudiar las propiedades de ciertos estimadores que por su importancia en las
aplicaciones resultan fundamentales: estimadores de la esperanza matemtica y varianza de
una distribucin de probabilidad.

7.6.12.1 Estimador de la esperanza matemtica

Consideremos las muestras de tamao n, , de un carcter sobre una


poblacin que viene expresado a travs de una v.a. Xque posee momentos de primer y

segundo orden, es decir, existen y :

El estimador media muestral que denotaremos normalmente como (en lugar de es

verifica:
Por tanto es un estimador insesgado. Si adems sabemos que X se distribuye segn una ley
gaussiana, es sencillo comprobar que coincide con el estimador de mxima verosimilitud
(figura 7.3):

7.6.12.2 Proposicin

Demostracin

La funcin de densidad de una observacin cualquiera de la muestra es:

Por tanto la distribucin conjunta de la muestra es

Para unos valores fijados, la funcin de verosimilitud es


(en principio escribimos tambin el otro parmetro desconocido, , aunque no nos
interesamos en su estimacin por el momento). La expresin de la funcin de verosimilitud
es algo engorrosa. Por ello es preferible trabajar con su logaritmo:

El mximo de la funcin de verosimilitud se alcanza donde lo hace su logaritmo

(monotona), por tanto derivando con respecto a e igualando a cero se llega a:

Es decir, el estimador mximo verosmil de la media poblacional, , coincide con la media


muestral

como queramos demostrar (cf. figura 7.2).


Figura: El estimador de mxima verosimilitud de para una variable gaussiana es la
media muestral.

Figura: La distribucin del estimador muestral del parmetro poblacional , tiene por valor esperado

al mismo (insesgado), y su dispersin disminuye a medida que aumenta el nmero de observaciones


7.6.12.3 Estimador de la varianza

A la hora de elegir un estimador de , podemos comenzar con el estimador


ms natural:

Podemos comprobar que cuando el carcter que se estudia sobre la poblacin es gaussiano,
en realidad este es el estimador mximo verosmil para la varianza. Sin embargo se
comprueba tambin su falta de sesgo, lo que hace mas adecuado que se utilice como
estimador de la varianza al siguiente concepto: cuasi varianza muestral

7.6.12.4 Proposicin

Demostracin

Recuperamos el logaritmo de la funcin de verosimilitud escrita en la relacin (7.4), donde


en esta ocasin el primer parmetro ya fue obtenido por el mtodo de mxima verosimilitud
(y vimos que era la media muestral) y tratamos de maximizarla con respecto al segundo
parmetro:

Derivando con respecto a e igualando a 0se obtiene el estimador mximo verosmil:


Despejando de esta ecuacin se obtiene que el estimador mximo verosmil coincide con la
varianza muestral,

7.6.12.5 Proposicin
El valor esperado del estimador

no es , y por tanto el estimador mximo verosmil para la varianza no es insesgado. Ms

an,

Demostracin
Comenzamos escribiendo

Por otro lado

Luego
7.6.12.6 Cuasivarianza muestral

Para tener un estimador insesgado de la varianza introducimos la cuasivarianza muestral


que se define como

Es inmediato comprobar que realmente este estimador es insesgado

Esa esperanza puede ser calculada de un modo ms directo, ya que la distribucin del
estimador es conocida usando el teorema de Cochran (pgina ):

luego

Es consecuencia de las relaciones (7.8) y (7.9) que la distribucin de la cuasivarianza


muestral es tal que
(cf. figura 7.4).

Figura: Funcin de densidad del estadstico que relaciona , y los grados de libertad de la muestra
(n-1). La falta de simetra del mismo hace que su valor esperado (n-1) se desplace a la derecha de la moda
(asimetra positiva).

8. Estimacin confidencial

8.2 Introduccin
La estimacin confidencial consiste en determinar un posible rango de valores o intervalo,
en los que pueda precisarse --con una determinada probabilidad-- que el valor de un
parmetro se encuentra dentro de esos lmites. Este parmetro ser habitualmente una
proporcin en el caso de variables dicotmicas, y la media o la varianza para distribuciones
gaussianas.

La tcnica de la estimacin confidencial consiste en asociar a cada muestra un intervalo


que se sospecha que debe contener al parmetro. A ste se le denomina intervalo de
confianza

Evidentemente esta tcnica no tiene porqu dar siempre un resultado correcto. A la


probabilidad de que hayamos acertado al decir que el parmetro estaba contenido en dicho
intervalo se la denomina nivel de confianza. Tambin se denomina nivel de significacin a
la probabilidad de equivocarnos.
8.4 Intervalos de confianza para la
distribucin normal
Dada una variable aleatoria de distribucin gaussiana, , nos interesamos en
primer lugar, en calcular intervalos de confianza para sus dos parmetros, y .

He aqu un resumen de las situaciones que consideraremos:

Intervalo para la media si se conoce la varianza:


Este no es un caso prctico (no se puede conocer sin conocer previamente ),
pero sirve para introducirnos en el problema de la estimacin confidencial de la
media;
Intervalos de confianza para la media (caso general):
Este se trata del caso con verdadero inters prctico. Por ejemplo sirve para estimar
intervalos que contenga la media del colesterol en sangre en una poblacin, la
altura, el peso, etc, cuando disponemos de una muestra de la variable.
Intervalo de confianza para la varianza:
ste es otro caso de inters en las aplicaciones. El objetivo es calcular un intervalo
de confianza para , cuando slo se dispone de una muestra.
Estimacin de tamao muestral
La utilidad consiste en decidir cul deber ser el tamao necesario de una muestra
para obtener intervalos de confianza para una media, con precisin y significacin
dadas de antemano. Para que esto sea posible es necesario poseer cierta informacin
previa, que se obtiene a partir de las denominadas muestras piloto.

Ms adelante, consideramos el caso en que tenemos dos poblaciones donde cada una sigue

su propia ley de distribucin y . Los problemas asociados a este


caso son

Diferencia de medias homocedticas


Se realiza el clculo del intervalo de confianza suponiendo que ambas variables
tienen la misma varianza, es decir son homocedticas. En la prctica se usa este
clculo, cuando ambas variables tienen parecida dispersin.
Diferencia de medias (caso general)
Es el mismo caso que el anterior, pero se realiza cuando se observa que hay
diferencia notable en la dispersin de ambas variables.
8.4.2 Intervalo para la media si se conoce la varianza

Este caso que planteamos es ms a nivel terico que prctico: difcilmente vamos a poder
conocer con exactitud mientras que es desconocido. Sin embargo nos aproxima del
modo ms simple a la estimacin confidencial de medias.

Para estimar , el estadstico que mejor nos va a ayudar es , del que conocemos su ley
de distribucin:

Esa ley de distribucin depende de (desconocida). Lo ms conveniente es hacer que la


ley de distribucin no dependa de ningn parmetro desconocido, para ello tipificamos:

Este es el modo en que haremos siempre la estimacin puntual: buscaremos una relacin
en la que intervengan el parmetro desconocido junto con su estimador y de modo que
estos se distribuyan segn una ley de probabilidad que es bien conocida y a ser posible
tabulada.
De este modo, fijado , consideramos la v.a. y tomamos un intervalo
que contenga una masa de probabilidad de . Este intervalo lo queremos tan pequeo
como sea posible. Por ello lo mejor es tomarlo simtrico con respecto a la media (0), ya que
all es donde se acumula ms masa (vase la figura 8.1). As las dos colas de la distribucin
(zonas ms alejadas de la media) se repartirn a partes iguales el resto de la masa de
probabilidad, .

Figura: La distribucin y el intervalo ms pequeo posible cuya

probabilidad es . Por simetra, los cuantiles y slo difieren en el


signo.

Vamos a precisar cmo calcular el intervalo de confianza:

Sea el percentil de Z, es decir, aquel valor de que deja por debajo de

si la cantidad de la masa de probabilidad de Z, es decir:


Sea el percentil , es decir,

Es til considerar en este punto la simetra de la distribucin normal, y observar que


los percentiles anteriores son los mismos aunque con el signo cambiado:

El intervalo alrededor del origen que contiene la mayor parte de la masa ( ) es


el intervalo siguiente (cf. Figura 8.1):

lo que habitualmente escribiremos como:

De este modo podemos afirmar que existe una probabilidad de de que al


extraer una muestra aleatoria de la variable en estudio, ocurra:
De este modo un intervalo de confianza al nivel para la esperanza de una normal de
varianza conocida es el comprendido entre los valores

La forma habitual de escribir este intervalo est inspirada en la Figura :

Figura: Intervalo de confianza para la media.


8.4.4 Intervalo para la media (caso general)

Como hemos mencionado, los casos anteriores se presentarn poco en la prctica, ya que lo
usual es que sobre una poblacin quizs podamos conocer si se distribuye normalmente,
pero el valor exacto de los parmetros y no son conocidos. De ah nuestro inters en
buscar intervalos de confianza para ellos.

El problema que tenemos en este caso es ms complicado que el anterior, pues no es tan
sencillo eliminar los dos parmetros a la vez. Para ello nos vamos a ayudar de lo siguiente:

Por el teorema de Cochran sabemos por otro lado que:

y que adems estas dos ltimas distribuciones son independientes. A partir de estas
relaciones podemos construir una distribucin de Student con n-1 grados de libertad (cf.
figura 8.3):
Figura: La distribucin es algo diferente a cuando n es
pequeo, pero conforme ste aumenta, ambas distribuciones se
aproximan.

Simplificando la expresin anterior tenemos:

Dado el nivel de significacin buscamos en una tabla de el percentil

, , el cual deja por encima de si la cantidad de la masa de


probabilidad (figura 8.4). Por simetra de la distribucin de Student se tiene que
, luego
Figura: La distribucin de Student tiene las mismas propiedades de simetra que la
normal tipificada.

El intervalo de confianza se obtiene a partir del siguiente clculo:

Es decir, el intervalo de confianza al nivel para la esperanza de una distribucin


gaussiana cuando sus parmetros son desconocidos es:
Figura: Intervalo de confianza para cuando es desconocido (caso general).

Al igual que en el caso del clculo del intervalo de confianza para cuando es
conocido, podemos en el caso desconocido, utilizar la funcin de verosimilitud
(figura8.5) para representarlo geomtricamente. En este caso se usa la notacin:

8.4.4.1 Ejemplo

Se quiere estimar un intervalo de confianza al nivel de significacin para la


altura media de los individuos de una ciudad. En principio slo sabemos que la
distribucin de las alturas es una v.a. X de distribucin normal. Para ello se toma una
muestra de n=25 personas y se obtiene

Solucin:
En primer lugar, en estadstica inferencial, los estadsticos para medir la dispersin ms
convenientes son los insesgados. Por ello vamos a dejar de lado la desviacin tpica
muestral, para utilizar la cuasidesviacin tpica:

Si queremos estimar un intervalo de confianza para , es conveniente utilizar el estadstico

y tomar como intervalo de confianza aquella regin en la que

es decir,

o dicho de forma ms precisa: Con un nivel de confianza del podemos decir que la
media poblacional est en el intervalo siguiente (vase la Figura):
Figura: Clculo del intervalo de confianza para la media usando para ello la
distribucin de Student y la funcin de verosimilitud asociada, la cual est tiene su

mximo en , ya que esta estimacin puntual de es la mximo verosmil.

8.4.6 Intervalo de confianza para la varianza

Para estimar un intervalo de confianza para la varianza, nos ayudaremos de la siguiente

propiedad de la distribucin :

Consideremos dos cuantiles de esta distribucin que nos dejen una probabilidad en la
``zona central'' de la distribucin (cf. figura 8.7):

Figura: Cuantiles de la distribucin .


Entonces un intervalo de confianza al nivel para la varianza de una distribucin
gaussiana (cuyos parmetros desconocemos) lo obtenemos teniendo en cuenta que existe
una probabilidad de que:

Por tanto el intervalo que buscamos es


8.4.6.1 Ejemplo

En un ejemplo anterior se estudiaba la altura de los individuos de una ciudad, obtenindose


en una muestra de tamao 25 los siguientes valores:

Calcular un intervalo de confianza con para la varianza de la altura de los


individuos de la ciudad.

Solucin:

Para estimar un intervalo de confianza para (varianza poblacional) el estadstico que nos
resulta til es:

Entonces el intervalo de confianza que buscamos lo obtenemos mediante (cf. figura 8.8)

Figura: Percentiles del 2,5% y del 97,5% para la

distribucin .
Por tanto, para el valor poblacional de la desviacin tpica tenemos que

con una confianza del 95%, que por supuesto contiene a las estimaciones puntuales

y calculados sobre la muestra.

8.4.8 Estimacin del tamao muestral

Antes de realizar un estudio de inferencia estadstica sobre una variable, lo primero es


decidir el nmero de elementos, N, a elegir en la muestra aleatoria. Para ello consideremos
que el estudio se basara en una variable de distribucin normal, y nos interesa obtener para
un nivel de significacin dado, una precisin (error) d.

Para ello, recordemos que un intervalo de confianza para una media en el caso general se
escribe como:
Si N es suficientemente grande, la distribucin de Student se aproxima a la distribucin
normal. Luego una manera de obtener la precisin buscada consiste en elegir N con el
siguiente criterio:

Donde es una estimacin puntual a priori de la varianza de la muestra. Para obtenerla


nos podemos basar en una cota superior conocida por nuestra experiencia previa, o
simplemente, tomando una muestra piloto que sirve para dar una idea previa de los
parmetros que describen una poblacin.

8.4.8.1 Ejemplo

En los ltimos ejemplos se ha estudiado la variable altura de los individuos de una


poblacin, considerando que sta es una variable que se distribuye de modo gaussiana.

Para ello se tom una muestra de 25 individuos (que podemos considerar piloto), que
ofreci los siguientes resultados:

Calcular el tamao que debera tener una muestra para que se obtuviese un intervalo de

confianza para la media poblacional con un nivel de significacin (al ) y con


una precisin de d=1 cm.

Solucin:
Obsrvese que sobre la muestra piloto, el error cometido al estimar el intervalo al fue
aproximadamente de 4'2 cm por lo que si buscamos un intervalo de confianza tan preciso,
el tamao de la muestra, N, deber ser bastante mayor. En este caso se obtiene:

Por tanto, si queremos realizar un estudio con toda la precisin requerida en el enunciado se
debera tomar una muestra de 694 individuos. Esto es una indicacin de gran utilidad antes
de comenzar el estudio. Una vez que el muestreo haya sido realizado, debemos confirmar
que el error para el nivel de significacin dado es inferior o igual a 1 cm, utilizando la
muestra obtenida.

8.4.10 Intervalos para la diferencia de medias de dos poblaciones

Consideremos el caso en que tenemos dos poblaciones de modo que el carcter que
estudiamos en ambas (X1 y X2) son v.a. distribuidas segn leyes gaussianas

En cada una de estas poblaciones se extrae mediante muestreo aleatorio simple, muestras
que no tienen por que ser necesariamente del mismo tamao (respectivamente n1 y n2)

Podemos plantearnos a partir de las muestras el saber qu diferencias existen entre las
medias de ambas poblaciones, o por ejemplo estudiar las relacin existente entre sus
dispersiones respectivas. A ello vamos a dedicar los siguientes puntos.
8.4.10.1 Intervalo para la diferencia de medias homocedticas

Supongamos que dos poblaciones tengan varianzas idnticas (homocedasticidad), . Es


decir

Por razones anlogas a las expuestas en el caso de una poblacin una poblacin, se tiene
que

Sea Z la v.a. definida como

El siguiente cociente se distribuye entonces como una de Student con n1+n2-2 grados de
libertad

donde se ha definido a como la cuasivarianza muestral ponderada de y


Si es el nivel de significacin con el que deseamos establecer el intervalo para la
diferencia de las dos medias, calculamos el valor que deja por encima de si

de la masa de probabilidad de Tn1+n2-2

Repitiendo un proceso que ya hemos realizado en ocasiones anteriores, tenemos una


probabilidad de de que a extraer una muestra aleatoria simple ocurra:

Luego el intervalo de confianza al nivel para la diferencia de esperanzas de dos


poblaciones con la misma varianza (aunque esta sea desconocida) es:
8.4.10.2 Ejemplo
Queremos estudiar la influencia que puede tener el tabaco con el peso de los nios al nacer.
Para ello se consideran dos grupos de mujeres embarazadas (unas que fuman un paquete al
da y otras que no) y se obtienen los siguientes datos sobre el peso X, de sus hijos:

En ambos grupos los pesos de los recin nacidos provienen de sendas distribuciones
normales de medias desconocidas, y con varianzas que si bien son desconocidas, podemos
suponer que son las mismas. Calcular en cuanto influye el que la madre sea fumadora en el
peso de su hijo.

Solucin:

Si X1 es la v.a. que describe el peso de un nio que nace de madre no fumadora, y X2 el de


un hijo de madre fumadora, se tiene por hiptesis que

Si queremos estimar en cuanto influye el que la madre sea fumadora en el peso de su hijo,
podemos estimar un intervalo de confianza para , lo que nos dar la diferencia de
peso esperado entre un nio del primer grupo y otro del segundo. El estadstico que se ha de
aplicar para esta cuestin es:
donde

Consideramos un nivel de significacin que nos parezca aceptable, por ejemplo ,


y el intervalo buscado se obtiene a partir de: (ver la Figura 8.9)

Figura: Regin que se utiliza para calcular el intervalo de confianza.


con lo cual se puede decir que un intervalo de confianza para el peso esperado en que
supera un hijo de madre no fumadora al de otro de madre fumadora est comprendido con

un nivel de confianza del entre los 0,068 Kg y los 0,731 Kg.

8.6 Intervalos de confianza para variables


dicotmicas
Cuando tenemos una variable dicotmica (o de Bernoulli) a menudo interesa saber en qu
proporcin de casos, p, ocurre el xito en la realizacin de un experimento. Tambin nos
puede interesar el comparar la diferencia existente entre las proporciones en distintas
poblaciones. Tambin es de inters calcular para un nivel de significacin dado, el tamao
muestral necesario para calcular un intervalo de confianza de cuyo radio sea menor que
cierta cantidad.

8.6.2 Intervalo para una proporcin

Sean . Si queremos estimar el parmetro p, la manera ms natural de


hacerlo consiste en definir la suma de estas --lo que nos proporciona una distribucin
Binomial (pgina ):

y tomar como estimador suyo la v.a.

Es decir, tomamos como estimacin de p la proporcin de xitos obtenidos en las n

pruebas8.1, .
La distribucin del nmero de xitos es binomial, y puede ser aproximada a la normal
cuando el tamao de la muestra n es grande, y p no es una cantidad muy cercana a cero o
uno:

El estimador no es ms que un cambio de escala de X, por tanto

Esta expresin presenta dificultades para el clculo, siendo ms cmodo sustituirla por la
siguiente aproximacin:

Para encontrar el intervalo de confianza al nivel de significacin para p se considera el

intervalo que hace que la distribucin de deje la probabilidad fuera del

mismo. Es decir, se considera el intervalo cuyos extremos son los cuantiles y .


As se puede afirmar con una confianza de que:
Esto se resume en la siguiente expresin:

con una confianza de

Figura: Intervalo de confianza para una proporcin.

8.6.2.1 Ejemplo
Se quiere estimar el resultado de un referndum mediante un sondeo. Para ello se realiza
un muestreo aleatorio simple con n=100 personas y se obtienen 35% que votarn a favor y
65% que votarn en contra (suponemos que no hay indecisos para simplificar el problema a
una variable dicotmica). Con un nivel de significacin del 5%, calcule un intervalo de
confianza para el verdadero resultado de las elecciones.

Solucin: Dada una persona cualquiera (i) de la poblacin, el resultado de su voto es una
variable dicotmica:
El parmetro a estimar en un intervalo de confianza con es p, y tenemos sobre
una muestra de tamao n=100, la siguiente estimacin puntual de p:

Sabemos que

En la prctica el error que se comete no es muy grande si tomamos algo ms simple como

As el intervalo de confianza buscado lo calculamos como se indica en la Figura 8.11:

Por tanto, tenemos con esa muestra un error aproximado de 9,3 puntos al nivel de confianza
del 95%.

Figura: Regin a partir de la cual se realiza una estimacin


confidencial para una proporcin, con una confianza del 95%.
8.6.4 Eleccin del tamao muestral para una proporcin

En un ejemplo previo con una muestra de 100 individuos se realiz una estimacin
confidencial, con un 95% de confianza, del porcentaje de votantes a una cuestin en un
referndum, obtenindose un margen de error de 9,3 puntos.

Si pretendemos reducir el error a 1 punto y queremos aumentar el nivel de confianza hasta


el 97% ( ) hemos de tomar una muestra lgicamente de mayor tamao, N. La
tcnica para aproximar dicha cantidad consiste en observar que el error cometido en una
estimacin es de la forma:

donde es una estimacin puntual de p.

Por tanto un valor de N que satisfaga nuestros requerimientos con respecto al error sera:
Si en un principio no tenemos una idea sobre que valores puede tomar p, debemos
considerar el peor caso posible, que es en el que se ha de estimar el tamao muestral
cuando p=q=1/2. As:

8.6.4.1 Ejemplo
Continuemos el ltimo ejemplo. Se quiere estimar el resultado de un referndum mediante
un sondeo, y sin tener una idea sobre el posible resultado del mismo, se desea conocer el
tamao de muestra que se ha de tomar para obtener un intervalo al 97% de confianza, con
un error del 1

Solucin:

Como no se tiene una idea previa del posible resultado del referndum, hay que tomar un
tamao de muestra, N, que se calcula mediante:

As para tener un resultado tan fiable, el nmero de personas a entrevistar debe ser muy
elevado --lo que puede volver excesivamente costoso el sondeo.

8.6.6 Intervalo para la diferencia de dos proporciones

Vamos a considerar que tenemos dos poblaciones de modo que en cada una de ellas
estudiamos una v.a. dicotmica (Bernoulli) de parmetros respectivos p1 y p2. De cada
poblacin vamos a extraer muestras de tamao n1 y n2
Entonces

Si las muestras son suficientemente grandes ocurre que

Esta ltima relacin se puede aproximar por otra que simplifica bastante los clculos:

Por el mismo razonamiento que en el caso de una poblacin llegamos a que una
aproximacin para un intervalo de confianza al nivel para la diferencia de
proporciones de dos poblaciones es:
8.8 Problemas
Ejercicio 8..1. Se ha medido el volumen diario de bilis, expresado en litros, en 10
individuos sanos, obtenindose

0,98; 0,85; 0,77; 0,92; 1,12; 1,06; 0,89; 1,01; 1,21; 0,77.

Cuanto vale la produccin diaria media de bilis en individuos sanos suponiendo que la
muestra ha sido obtenida por muestreo aleatorio simple sobre una poblacin normal?

Ejercicio 8..2. La cantidad mnima requerida para que un anestsico surta efecto en una
intervencin quirrgica fue por trmino medio de 50 mg, con una desviacin tpica de
10,2 mg, en una muestra de 60 pacientes. Obtener un intervalo de confianza para la media
al 99%, suponiendo que la muestra fue extrada mediante muestreo aleatorio simple sobre
una poblacin normal.

Ejercicio 8..3. Un investigador est interesado en estimar la proporcin de muertes debidas


a cncer de estmago en relacin con el nmero de defunciones por cualquier tipo de
neoplasia. Su experiencia le indica que sera sorprendente que tal proporcin supere el valor
de 1/3. Qu tamao de muestra debe tomar para estimar la anterior proporcin, con una
confianza del 99%, para que el valor estimado no difiera del valor real en ms de 0,03?.

Ejercicio 8..4. Se desea realizar una estimacin confidencial de la varianza de la estatura de


los nios varones de 10 aos de una ciudad con una confianza del 95%. Cul ser dicho
intervalo si se toma una muestra de 101 nios al azar, entre todos los que renen las
caractersticas deseadas, y medimos sus estaturas, y se obtienen las siguientes estimaciones

puntuales: , ?

Ejercicio 8..5. Un cardilogo se encuentra interesado en encontrar lmites de confianza al


90%, para la presin sistlica tras un cierto ejercicio fsico. Obtenerlos si en 50 individuos
se obtuvo , y suponemos que el comportamiento de la v.a. es normal.

Ejercicio 8..6. En una muestra de 25 bebs varones de 12 semanas de vida, se obtuvo un


peso medio de 5.900 gr y una desviacin tpica de 94 gr.

1.
Obtener un intervalo de confianza (al 95%) para el peso medio poblacional.
2.
Cuntos nios habra que tomar para estimar dicha media con una precisin de
15 gr?
Ejercicio 8..7. En un determinado servicio de odontologa se sabe que el 22% de las visitas
llevan consigo una extraccin dentaria inmediata. En cierto ao, de 2.366 visitas, 498
dieron lugar a una extraccin inmediata. Entran en contradiccin las cifras de ese ao con
el porcentaje establecido de siempre?

Ejercicio 8..8. Slo una parte de los pacientes que sufren un determinado sndrome
neurolgico consiguen una curacin completa; Si de 64 pacientes observados se han curado
41, dar una estimaciones puntual y un intervalos de la proporcin de los que sanan. Qu
nmero de enfermos habra que observar para estimar la proporcin de curados con un error
inferior a 0,05 y una confianza del 95%?

Ejercicio 8..9. Se desea estimar el tiempo medio de sangra en fumadores de ms de 20


cigarrillos diarios, con edades comprendidas entre 35 y 40 aos, con una precisin de 5
segundos. Ante la ausencia de cualquier informacin acerca de la variabilidad del tiempo de
sangra es este tipo de individuos, se tom una muestra preliminar de 5 individuos, en los
que se obtuvieron los siguientes tiempos (en segundos):

97, 80, 67, 91, 73.

Determinar el tamao mnimo de muestra, al 95%, para cumplir el objetivo anterior.

Ejercicio 8..10. En una determinada regin se tom una muestra aleatoria de 125
individuos, de los cuales 12 padecan afecciones pulmonares.

1.
Estmese la proporcin de afecciones pulmonares en dicha regin.
2.
Si queremos estimar dicha proporcin con un error mximo del 4%, para una
confianza del 95%, qu tamao de muestra debemos tomar?

Ejercicio 8..11. En una muestra de tabletas de aspirinas, de las cuales observamos su peso
expresado en gramos, obtenemos:

1,19; 1,23; 1,18; 1,21; 1,27; 1,17; 1,15; 1,14; 1,19; 1,2

Suponiendo la Normalidad para esta distribucin de pesos, determinar un intervalo al 80%


de confianza para la varianza.

Ejercicio 8..12. Se quiere estimar la incidencia de la hipertensin arterial en el embarazo.


Cuantas embarazadas tenemos que observar para, con una confianza del 95%, estimar
dicha incidencia con un error del 2% en los siguientes casos:

1.
Sabiendo que un sondeo previo se ha observado un 9% de hipertensas.
2.
Sin ninguna informacin previa.
9. Contrastes de hiptesis

9.2 Introduccin
Pueden presentarse en la prctica, situaciones en las que exista una teora preconcebida
relativa a la caracterstica de la poblacin sometida a estudio. Tal sera el caso, por ejemplo
si pensamos que un tratamiento nuevo puede tener un porcentaje de mejora mayor que otro
estndar, o cuando nos planteamos si los nios de las distintas comunidades espaolas
tienen la misma altura. Este tipo de circunstancias son las que nos llevan al estudio de la
parcela de la Estadstica Inferencial que se recoge bajo el ttulo genrico de Contraste de
Hiptesis. Implica, en cualquier investigacin, la existencia de dos teoras o hiptesis
implcitas, que denominaremos hiptesis nula e hiptesis alternativa, que de alguna manera
reflejarn esa idea a priori que tenemos y que pretendemos contrastar con la ``realidad''. De
la misma manera aparecen, implcitamente, diferentes tipos de errores que podemos
cometer durante el procedimiento. No podemos olvidar que, habitualmente, el estudio y las
conclusiones que obtengamos para una poblacin cualquiera, se habrn apoyado
exclusivamente en el anlisis de slo una parte de sta. De la probabilidad con la que
estemos dispuestos a asumir estos errores, depender, por ejemplo, el tamao de la muestra
requerida. Desarrollamos en este captulo los contrastes de hiptesis para los parmetros
ms usuales que venimos estudiando en los captulos anteriores: medias, varianzas y
proporciones, para una o dos poblaciones. Los contrastes desarrollados en este captulo se
apoyan en que los datos de partida siguen una distribucin normal.

Los contrastes de significacin se realizan:

suponiendo a priori que la ley de distribucin de la poblacin es conocida.

Se extrae una muestra aleatoria de dicha poblacin.

Si la distribucin de la muestra es ``diferente'' de la distribucin de probabilidad que


hemos asignado a priori a la poblacin, concluimos que probablemente sea errnea la
suposicin inicial.

9.2.0.1 Ejemplo
Supongamos que debemos realizar un estudio sobre la altura media de los habitantes de
cierto pueblo de Espaa. Antes de tomar una muestra, lo lgico es hacer la siguiente
suposicin a priori, (hiptesis que se desea contrastar y que denotamos H0):
Al obtener una muestra de tamao n=8, podramos encontrarnos ante uno de los siguientes
casos:

1.
Muestra = {1,50 ;1,52; 1,48; 1,55; 1,60; 1,49; 1,55; 1,63}
2.
Muestra = {1,65; 1,80; 1,73; 1,52; 1,75; 1,65; 1,75; 1,78}

Intuitivamente, en el caso a sera lgico suponer que salvo que la muestra obtenida sobre
los habitantes del pueblo sea muy poco representativa9.1, la hiptesis H0 debe ser rechazada.
En el caso b tal vez no podamos afirmar con rotundidad que la hiptesis H0 sea cierta, sin
embargo no podramos descartarla y la admitimos por una cuestin de simplicidad.

Este ejemplo sirve como introduccin de los siguientes conceptos: En un contraste de


hiptesis (tambin denominado test de hiptesis o Contraste de significacin) se decide si
cierta hiptesis H0 que denominamos hiptesis nula puede ser rechazada o no a la vista de
los datos suministrados por una muestra de la poblacin. Para realizar el contraste es
necesario establecer previamente una hiptesis alternativa (H1) que ser admitida cuando
H0 sea rechazada. Normalmente H1es la negacin de H0, aunque esto no es necesariamente
as.

El procedimiento general consiste en definir un estadstico T relacionado con la hiptesis


que deseamos contrastar. A ste lo denominamos estadstico del contraste. A continuacin
suponiendo que H0 es verdadera se calcula un intervalo de denominado intervalo de

aceptacin9.2 de la hiptesis nula, de manera que al calcular sobre la muestra T=Texp


el criterio a seguir sea:

El intervalo de aceptacin o ms precisamente, de no rechazo de la hiptesis nula, se


establece fijando una cantidad suficientemente pequea denominada nivel de
significacin, de modo que la probabilidad de que el estadstico del contraste tome un valor
fuera del mismo -- regin crtica--
cuando la hiptesis nula es cierta sea inferior o al ; Esto se ha de entender como
sigue:

Si H0 es correcta el criterio de rechazo slo se equivoca con probabilidad , que es la


probabilidad de que una muestra d un valor del estadstico del contraste extrao (fuera
del intervalo de aceptacin).

La decisin de rechazar o no la hiptesis nula est al fin y al cabo basado en la eleccin de


una muestra tomada al azar, y por tanto es posible cometer decisiones errneas. Los errores
que se pueden cometer se clasifican como sigue:

Error de tipo I:
Es el error que consiste en rechazar H0 cuando es cierta. La probabilidad de cometer
este error es lo que anteriormente hemos denominado nivel de significacin. Es una
costumbre establecida el denotarlo siempre con la letra

Error de tipo II:


Es el error que consiste en no rechazar H0 cuando es falsa. La probabilidad de

cometer este error la denotamos con la letra

9.2.2 Observaciones
1.
Los errores de tipo I y II no estn relacionados ms que del siguiente modo: Cuando

decrece crece. Por tanto no es posible encontrar tests que hagan tan pequeos
como queramos ambos errores simultneamente. De este modo es siempre necesario
privilegiar a una de las hiptesis, de manera que no ser rechazada, a menos que su
falsedad se haga muy evidente. En los contrastes, la hiptesis privilegiada es H0 que
slo ser rechazada cuando la evidencia de su falsedad supere el umbral del

.
2.

Al tomar muy pequeo tendremos que se puede aproximar a uno. Lo ideal a la

hora de definir un test es encontrar un compromiso satisfactorio entre y (aunque


siempre a favor de H0). Denominamos potencia de un contraste a la cantidad

, es decir

no rechazar H0 rechazar H0
H0 es cierta Correcto Error tipo I

Probabilidad Probabilidad

H0 es falsa Error tipo II Correcto

Probabilidad Probabilidad
3.
En el momento de elegir una hiptesis privilegiada podemos en principio dudar
entre si elegir una dada o bien su contraria. Criterios a tener en cuenta en estos casos
son los siguientes:
Simplicidad cientfica: A la hora de elegir entre dos hiptesis
cientficamente razonables, tomaremos como H0 aquella que sea ms simple.
Las consecuencias de equivocarnos: Por ejemplo al juzgar el efecto que
puede causar cierto tratamiento mdico que est en fase de experimentacin,
en principio se ha de tomar como hiptesis nula aquella cuyas consecuencias
por no rechazarla siendo falsa son menos graves, y como hiptesis
alternativa aquella en la que el aceptarla siendo falsa trae peores
consecuencias. Es decir,
Otro ejemplo claro es cuando acaban de instalar un nuevo ascensor en el
edificio que habitamos y queremos saber si el ascensor caer o no al vaco
cuando nosotros estemos dentro. Una persona prudente es la que espera a
que un nmero suficiente de vecinos suyos hayan usado el ascensor (muestra
aleatoria) y realiza un test del tipo

y slo aceptar la hiptesis alternativa para aunque para ello tenga

que ocurrir que , ya que las consecuencias del error de tipo I (ir al
hospital) son mucho ms graves que las del error del tipo II (subir a pie
varios pisos).

Es decir a la hora de decidirse por una de las dos hiptesis no basta con
elegir la ms probable (nadie dira ``voy a tomar el ascensor pues la

probabilidad de que no se caiga es del "). Hay que elegir siempre la


hiptesis H0 a menos que la evidencia a favor de H1 sea muy significativa.

Volviendo al ejemplo de la estatura de los habitantes de un pueblo, un estadstico de


contraste adecuado es . Si la hiptesis H0 fuese cierta se tendra que

(suponiendo claro est que la distribucin de las alturas de los espaoles siga una
distribucin normal de parmetros conocidos, por ejemplo9.3
Denotemos mediante el verdadero valor de la media en el pueblo que estudiamos. Como
la varianza de es pequea para grandes valores de n, lo lgico es pensar que si el valor

obtenido con la muestra est muy alejado de (regin crtica), entonces

o bien la muestra es muy extraa si H0 es cierta (probabilidad );


o bien la hiptesis H0 no es cierta.

Concretamente en el caso a, donde la muestra es

el contraste de hiptesis conveniente es:

En este caso H1 no es estrictamente la negacin de H0. Esto dar lugar a un contraste


unilateral, que son aquellos en los que la regin crtica est formada por un slo intervalo:

En el caso b, donde la muestra es


el contraste de hiptesis que deberamos realizar es:

Como vemos, ahora s se puede decir que H1 es la negacin de H0. Esto es un contraste
bilateral, que son aquellos en los que la regin crtica est formada por dos intervalos
separados:

Los ltimos conceptos que introducimos son:

Hiptesis simple:
Aquella en la que se especifica un nico valor del parmetro. Este es el caso de las
hiptesis nulas en los dos ltimos contrastes mencionados.
Hiptesis compuesta:
Aquella en la que se especifica ms de un posible valor del parmetro. Por ejemplo
tenemos que son compuestas las hiptesis alternativas de esos mismos contrastes.

9.4 Contrastes paramtricos en una


poblacin normal
Supongamos que la caracterstica X que estudiamos sobre la poblacin sigue una
distribucin normal y tomamos una muestra de tamao n

mediante muestreo aleatorio simple. Vamos a ver cuales son las tcnicas para contrastar
hiptesis sobre los parmetros que rigen X. Vamos a comenzar haciendo diferentes tipos de
contrastes para medias y despus sobre las varianzas y desviaciones tpicas.
9.4.2 Contrastes para la media
9.4.2.1 Test de dos colas con varianza conocida

Suponemos que donde es conocido y queremos contrastar si es posible


que (desconocida) sea en realidad cierto valor fijado. Esto es un supuesto terico que
nunca se dar en la realidad 9.4 pero servir para introducir la teora sobre contrastes.

El test se escribe entonces como:

Como hemos mencionado anteriormente, la tcnica para hacer el contraste consiste en


suponer que H0 es cierta, y averiguar con esta hiptesis quien es la distribucin del
estadstico del contraste que este caso es lgico que deba estar muy relacionado con . Si
al obtener una muestra concreta se tiene que es un valor muy alejado de , se debe
rechazar H0. Veamos esto con ms detalle:

Para poder acceder a las probabilidades de la normal, hemos tipificado (ya que los valores
para hacer la tipificacin son conocidos). Si H0 es cierta, entonces esperamos que el valor
zexpobtenido sobre la muestra
est cercano a cero con una gran probabilidad. Esto se expresa fijando un nivel de
significacin , y tomando como regin crtica , a los valores que son muy extremados y
con probabilidad en total, o sea,

Entonces la regin crtica consiste en

Luego rechazaremos la hiptesis nula si

aceptando en consecuencia la hiptesis alternativa (cf. figura 9.1).

Figura: La regin de rechazo de la hiptesis nula es la sombreada. Se rechaza H0


cuando el estadstico zexp toma un valor comprendido en la zona sombreada de la

grfica pequea, , o equivalentemente, cuando el estadstico toma un


valor en la zona sombreada de la grfica grande, .

9.4.2.2 Tests de una cola con varianza conocido

Consideremos un contraste de hiptesis donde ahora la hiptesis alternativa es compuesta:

Bajo la hiptesis nula la distribucin de la media muestral es

y como regin crtica consideraremos aquella formada por los valores extremadamente
bajos de Zexp, con probabilidad , es decir
Entonces la regin de aceptacin, o de modo ms correcto, de no rechazo de la hiptesis

nula es (cf. figura 9.2:

Figura: Se rechaza la hiptesis nula, cuando uno de los estadstico Z o toma un


valor en la zona sombreada de sus grficas respectivas.

Es evidente que si en el contraste de significacin (9.1), hubisemos tomado como hiptesis


alternativa su contraria, es decir

por simetra con respecto al caso anterior, la regin donde no se rechaza la hiptesis nula es
(vase la figura 9.3 y contrstese con la 9.2):

Figura: Regiones de aceptacin y rechazo para el test unilateral contrario.


9.4.2.3 Test de dos colas con varianza desconocida

Sea donde ni ni son conocidos y queremos realizar el contraste

Al no conocer va a ser necesario estimarlo a partir de su estimador insesgado: la


cuasivarianza muestral, , ya definida en la relacin 7.8f, pgina . Por ello la
distribucin del estimador del contraste ser una de Student, que ha perdido un grado de
libertad, segn el teorema de Cochran, enunciado en la pgina y la definicin de la
distribucin de Student en la pgina :

Consideramos como regin crtica , a las observaciones de Texp extremas


o sea

9.4.2.4 Observacin
Para dar una forma homognea a todos los contrastes de hiptesis es costumbre denominar
al valor del estadstico del contraste calculado sobre la muestra como valor experimental y
a los extremos de la regin crtica, como valores tericos. Definiendo entonces

el resultado del contraste es el siguiente (cf. figura 9.4):

Figura: Regin crtica para el contraste bilateral de una media.


9.4.2.5 Tests de una cola con varianza desconocido

Si realizamos el contraste

por analoga con el contraste bilateral, definiremos

y el criterio para contrastar al nivel de significacin es (cf. figura 9.5):


Figura: Regin crtica para uno de los contrastes unilaterales de una media.

Para el contraste contrario,

definimos Texp y Tteo como anteriormente y el criterio a aplicar es (vase la figura 9.6):

Figura: Regin crtica para el contrastes unilateral de una media contrario al


anterior.
9.4.2.6 Ejemplo
Conocemos que las alturas X de los individuos de una ciudad, se distribuyen de modo
gaussiano. Deseamos contrastar con un nivel de significacin de si la altura media
es diferente de 174 cm. Para ello nos basamos en un estudio en el que con una muestra de
n=25 personas se obtuvo:

Solucin:

El contraste que se plantea es:


La tcnica a utilizar consiste en suponer que H0 es cierta y ver si el valor que toma el
estadstico

es ``razonable" o no bajo esta hiptesis, para el nivel de significacin dado. Aceptaremos la


hiptesis alternativa (y en consecuencia se rechazar la hiptesis nula) si no lo es, es decir,
si

Para ello procedemos al clculo de Texp:

Luego, aunque podamos pensar que ciertamente el verdadero valor de no es 174, no hay

una evidencia suficiente para rechazar esta hiptesis al nivel de confianza del (cf.
figura 9.7). Es decir, no se rechaza H0.
Figura: El valor de Texp no est en la regin crtica (aunque ha
quedado muy cerca), por tanto al no ser la evidencia en contra de H0
suficientemente significativa, sta hiptesis no se rechaza.

9.4.2.7 Ejemplo
Consideramos el mismo ejemplo de antes. Visto que no hemos podido rechazar el que la
altura media de la poblacin sea igual a 174 cm, deseamos realizar el contraste sobre si la
altura media es menor de 174 cm.

Solucin:

Ahora el contraste es

Para realizar este contraste, consideramos el caso lmite y observamos si la hiptesis nula
debe ser rechazada o no. Este es:
De nuevo la tcnica a utilizar consiste en suponer que H0' es cierta y ver si el valor que
toma el estadstico

es aceptable bajo esta hiptesis, con un nivel de confianza del . Se aceptar la


hiptesis alternativa (y en consecuencia se rechazar la hiptesis nula) si

Recordamos que el valor de Texp obtenido fue de

Texp=-1'959< t24,0'05= -t24,0'95 = -1'71

Por ello hemos de aceptar la hiptesis alternativa (vase la figura 9.8).

Figura: El valor te Texp est en la regin crtica, por tanto existe una
evidencia significativa en contra de H0, y a favor de H1.
Es importante observar este hecho curioso: Mientras que en el ejemplo anterior no exista

una evidencia significativa para decir que cm, el ``simple hecho" de plantearnos
un contraste que parece el mismo pero en versin unilateral nos conduce a rechazar de
modo significativo que y aceptamos que cm. Es por ello que podemos
decir que no slo H0' es rechazada, sino tambin H0. Es en este sentido en el que los tests
con H0 y H0' los consideramos equivalentes:

9.4.4 Contrastes para la varianza

Consideremos que el carcter que estudiamos sobre la poblacin sea una v.a. normal cuya
media y varianza son desconocidas. Vamos a contrastar la hiptesis
frente a otras hiptesis alternativas que podrn dar lugar a contrastes bilaterales o
unilaterales. La tcnica consiste en utilizar el teorema de Cochran, para observar que el
siguiente estadstico experimental que utiliza el estimador insesgado de la varianza, posee

una distribucin , con n-1 grados de libertad:

Entonces construimos las regiones crticas que correspondan a las hiptesis alternativas que

se formulen en cada caso atendiendo a la ley de distribucin .

9.4.4.1 Contraste bilateral

Cuando el contraste a realizar es

definimos

y el criterio que suministra el contraste es el expresado en la figura 9.9:


Figura: Contraste bilateral de una varianza.

9.4.4.2 Contrastes unilaterales

Para un contraste de significacin al nivel del tipo

se tiene que el resultado del mismo es el que refleja la figura 9.10:

Figura: Contraste unilateral del tipo .


Para el contraste contrario tenemos la formulacin anloga (cf. figura 9.11):

calculamos el extremo inferior de la regin crtica en una tabla de la distribucin


Figura: Contraste unilateral del tipo .

Tabla: Estadsticos asociados a una muestra aleatoria simple, procedente de una poblacin
normal.

X1, X2, ...,


9.6 Contrastes de una proporcin
Supongamos que poseemos una sucesin de observaciones independientes, de modo que
cada una de ellas se comporta como una distribucin de Bernoulli de parmetro p:

La v.a. X, definida como el nmero de xitos obtenidos en una muestra de tamao n es por
definicin una v.a. de distribucin binomial:

La proporcin muestral (estimador del verdadero parmetro p a partir de la muestra) es

Nos interesamos en el contraste de significacin de


frente a otras hiptesis alternativas. Para ello nos basamos en un estadstico (de contraste)
que ya fue considerado anteriormente en la construccin de intervalos de confianza para
proporciones y que sigue una distribucin aproximadamente normal para tamaos
muestrales suficientemente grandes:

Si la hiptesis H0 es cierta se tiene

9.6.0.1 Contraste bilateral

Para el contraste

extraemos una muestra y observamos el valor . Entonces se define


siendo el criterio de aceptacin o rechazo de la hiptesis nula el que refleja la figura 9.12:

Figura: Contraste bilateral de una proporcin.

9.6.0.2 Contrastes unilaterales

Consideremos un contraste del tipo

La figura 9.13 expresa el criterio de aceptacin o rechazo a seguir:


Figura: Contraste unilateral cuando

Para el test unilateral contrario, se tiene la expresin simtrica (cf. figura 9.14):

Luego
Figura: Contraste unilateral cuando se tiene

9.8 Contrastes para la diferencia de medias


apareadas
Las muestras apareadas aparecen como distintas observaciones realizadas sobre los mismos
individuos. Un ejemplo de observaciones apareadas consiste en considerar a un conjunto de
n personas a las que se le aplica un tratamiento mdico y se mide por ejemplo el nivel de
insulina en la sangre antes (X) y despus del mismo (Y)

Paciente xi yi di
1 150 120 30
2 180 130 50
... ... ... ...
n 140 90 50

No es posible considerar a X e Y como variables independientes ya que va a existir una


dependencia clara entre las dos variables. Si queremos contrastar el que los pacientes han
experimentado o no una mejora con el tratamiento, llamemos di a la diferencia entre las
observaciones antes y despus del tratamiento

di = xi-yi
Supongamos que la v.a. que define la diferencia entre el antes y despus del tratamiento es
una v.a. d que se distribuye normalmente, pero cuyas media y varianza son desconocidas

Si queremos contrastar la hiptesis de que el tratamiento ha producido cierto efecto

en el caso en que H0 fuese cierta tendramos que el estadstico de contraste que nos
conviene es

donde es la media muestral de las diferencias diy es la cuasivarianza muestral de las


mismas. El tipo de contraste sera entonces del mismo tipo que el realizado para la media
con varianza desconocida.

9.8.0.1 Contraste bilateral

Consideramos el contraste de tipo


Entonces se define

y se rechaza la hiptesis nula cuando .

9.8.0.2 Contrastes unilaterales

Si el contraste es

entonces se rechaza H0 si . Para el test contrario

se rechaza H0 si .

9.8.0.3 Observacin

No supone ninguna dificultad el haber realizado el contraste con conocida, ya que


entonces el estadstico del contraste es
y el tratamiento sera anlogo.

9.10 Contrastes de dos distribuciones


normales independientes
Consideramos a lo largo de toda esta seccin a dos poblaciones normales que
representamos mediante

De las que de modo independiente se extraen muestras de tamao respectivo n1 y n2. Los
tests que vamos a realizar estn relacionados con la diferencias existentes entre ambas
medias o los cocientes de sus varianzas.

9.10.2 Contraste de medias con varianzas conocidas

De manera similar al caso del contraste para una media, queremos en esta ocasin
contrastar la hiptesis de que las dos poblaciones (cuyas varianzas suponemos conocidas)
slo difieren en una cantidad
frente a hiptesis alternativas que darn lugar a contrastes unilaterales o bilaterales como
veremos ms tarde. Para ello nos basamos en la distribucin del siguiente estadstico de
contraste:

9.10.2.1 Contraste bilateral

Consideremos en primer lugar el contraste de dos colas

Se define entonces
y el test consiste en

9.10.2.2 Contrastes unilaterales

Para el test

el contraste consiste en

y para el contraste de significacin contrario


se tiene

9.10.4 Contraste de medias homocedticas

Ahora consideramos el problema de contrastar

cuando slo conocemos que las varianzas de ambas poblaciones son iguales, pero
desconocidas. El estadstico que usaremos para el contraste fue ya introducido en la
relacin (8.3) (pgina ), pues si suponemos que H0 es cierta se tiene

donde es la cuasivarianza muestral ponderada de y


Obsrvese que se han perdido dos grados de libertad a causa de la estimacin de

mediante y .

9.10.4.1 Contraste bilateral

Para el contraste de significacin

se tiene como en casos anteriores que el contraste adecuado consiste en definir

y rechazar o admitir la hiptesis nula siguiendo el criterio

9.10.4.2 Contrastes unilaterales

Cuando el contraste es unilateral del modo


el contraste se realiza siguiendo el mismo proceso que en otros realizados anteriormente, lo
que nos lleva a

y cuando el contraste de significacin es el contrario

del mismo modo

9.10.6 Contraste de medias no homocedticas

Consideramos el contraste

en el caso ms problemtico, es decir cuando slo conocemos de las dos poblaciones que su
distribucin es normal, y que sus varianzas no son conocidas y significativamente
diferentes. En este caso el estadstico de contraste tendr una ley de distribucin muy
particular. Consistir en una distribucin de Student, con un nmero de grados de libertad
que en lugar de depender de modo determinista de la muestra (a travs de su tamao),
depende de un modo aleatorio mediante las varianzas muestrales. Concretamente, el
estadstico que nos interesa es

donde f es el nmero de grados de libertad que se calcula mediante la frmula de Welch

No desarrollamos en detalle los clculos a realizar, pues la tcnica para efectuar los
contrastes son anlogos a los vistos anteriormente cuando las varianzas son desconocidas e
iguales.

9.10.6.1 Observacin
Si lo que pretendemos contrastar es si las medias poblacionales de dos muestras
independientes obtenidas de poblaciones normales son idnticas, esto se reduce a los casos
anteriores tomando , es decir, realizando el contraste:
9.10.8 Contrastes de la razn de varianzas

Consideramos dos muestras independientes de dos poblaciones que se distribuyen


normalmente (cuyas medias y varianzas son desconocidas). Vamos a abordar cuestiones
relacionadas con saber si las varianzas de ambas poblaciones son las mismas, o si la razn
(cociente) entre ambas es una cantidad conocida, R. La igualdad entre las dos varianzas

puede escribirse o bien, la existencia de una diferencia entre ambas ( ), del

modo . Este modo de escribir la diferencia entre varianzas (que era el


adecuado para las medias) no es sin embargo fcil de utilizar para las varianzas, de modo
que nos ser ms fcil sacarle partido a las expresiones de las relaciones entre varianzas
como

Por ejemplo, si R=1 tenemos que ambas varianzas son iguales.

Consideramos entonces la hiptesis nula

la cual vamos a contrastar teniendo en cuenta que:


Por tanto el estadstico del contraste que nos conviene tiene una distribucin conocida
cuando H0 es cierta --vase la definicin de la distribucin de Snedecor:

9.10.8.1 Contraste bilateral

El contraste bilateral para el cociente de varianzas se escribe como:

Habida cuenta que la distribucin de Snedecor no es simtrica sino que slo toma valores
positivos, se rechazar la hiptesis nula cuando el el valor que tome el estadstico del
contraste al aplicarlo sobre una muestra sea muy cercano a cero, o bien, muy grande. Es
decir, se define el estadstico experimental y los lmites de la regin crtica como:

y el criterio de aceptacin o rechazo es:


Una cuestin que conviene observar es que

dada la no simetra de F. A la hora de usar una tabla de la distribucin


podemos tal vez encontrar que no est tabulada para los valores pequeos, pero si para
. Una regla que es de bastante utilidad para estos casos es la siguiente

9.10.8.2 Contrastes unilaterales

El primer contraste unilateral que consideramos es:

para el cual se tiene

El tests unilateral opuesto es:


y entonces

9.10.10 Caso particular: Contraste de homocedasticidad

En la prctica un contraste de gran inters es el de la homocedasticidad o igualdad de


varianzas. Decimos que dos poblaciones son homocedticas si tienen la misma varianza. El
test de homocedasticidad sera entonces el mismo que el de un cociente de varianzas, donde
R=1, es decir:

9.10.10.1 Observacin
Una de las razones de la importancia de este contraste es la siguiente: Si queremos estudiar
la diferencia entre las medias de dos poblaciones normales, el caso ms realista es
considerar un contraste donde las varianzas de las poblaciones son desconocidas. Ante esta
situacin podemos encontrarnos dos situaciones:
1.
Las dos varianzas son iguales. Este es el caso ms favorable pues utilizamos la
distribucin de Student para el contraste con un nmero de grados de libertad que
slo depende del tamao de la muestra.
2.
Las varianzas son distintas. En este caso el nmero de grados de libertad es una v.a.
(frmula de Welch) y por tanto al realizar el contraste se pierde cierta precisin.
En esta situacin lo recomendable es
En primer lugar realizar un test de homocedasticidad.
Si la igualdad de varianzas no puede ser rechazada de modo significativo, aplicamos
un test de diferencia de medias suponiendo que las varianzas son desconocidas pero
iguales. En otro caso se utiliza la aproximacin de Welch.

Tabla: Estadsticos asociados a dos muestras independientes, procedente de sendas


poblaciones normales.

X1, X2, ...,

Y1, Y2, ...,


9.10.10.2 Observacin
Al realizar el contraste bilateral sobre la igualdad de varianzas podemos tambin
economizar parte de trabajo definiendo Fexp como el cociente entre la mayor varianza
muestral y la menor

ya que as no es necesario calcular el extremo inferior para la regin donde no se rechaza


H0, pues Fexp nunca estar prxima a 0. Con esta definicin de Fexpel criterio a seguir frente
al contraste de significacin para un valor dado es (cf. figura 9.15):

Figura: Criterio para el rechazo de la hiptesis nula sobre la


homocedasticidad. Aunque en realidad el test a realizar es bilateral, al
elegir el estadstico del contraste de modo que el numerador sea mayor
que el numerador, podemos concentrar toda la probabilidad del error de
tipo I, , en la cola derecha de la distribucin.
9.10.10.3 Ejemplo
Se desea comparar la actividad motora espontnea de un grupo de 25 ratas control y otro de
36 ratas desnutridas. Se midi el nmero de veces que pasaban delante de una clula
fotoelctrica durante 24 horas. Los datos obtenidos fueron los siguientes:
Ratas de control n1=25

Ratas desnutridas n2=36

Se observan diferencias significativas entre el grupo control y el grupo desnutrido?

Solucin:

En primer lugar, por tratarse de un problema de inferencia estadstica, nos sern ms tiles
las cuasivarianzas que las varianzas. Por ello calculamos:
El contraste que debemos realizar est basado en el de la de Student para la diferencia de
medias de dos poblaciones. Para ello conocemos dos estadsticos posibles, segn que las
varianzas poblacionales de ambos grupos de ratas puedan ser supuestas iguales
(homocedasticidad) o distintas (heterocedasticidad). Para ello realizamos previamente el
contraste:

Suponiendo H0 cierta, tenemos que el estadstico del contraste conveniente es

ya que as no es necesario calcular el extremo inferior para la regin donde no se rechaza


H0. En este caso:
Como , no podemos concluir (al menos al nivel de significacin )
que H0 deba ser rechazada (cf. figura 9.16).

Figura: No hay evidencia significativa para rechazar la


homocedasticidad. El estadstico del contraste ha sido elegido
modo que el numerador de Fexp sea mayor que el denominador, es
decir, Fexp>1.

Por lo tanto no rechazamos la hiptesis de homocedasticidad de ambas poblaciones, y


pasamos a contrastar la igualdad de las medias

utilizando el estadstico ms sencillo (el que no necesita aproximar los grados de libertad
mediante la frmula de Welch). Para ello calculamos en primer lugar la cuasivarianza
muestral ponderada:
y posteriormente

Como concluimos que se ha de rechazar la hiptesis de igualdad de las


medias, y por tanto aceptamos que las medias son diferentes. Adems, como se aprecia en
la figura 9.17, la evidencia a favor de la hiptesis alternativa es muy alta, y se puede
afirmar que con gran probabilidad la media poblacional de las ratas de control es mayor que
la de las ratas desnutridas.

Figura: Hay una gran evidencia en contra de la hiptesis de que ambas medias
poblacionales coincidan, y a favor de que la de la primera poblacin es mayor que la
de la segunda.

9.12 Contrastes sobre la diferencia de


proporciones
Supongamos que tenemos dos muestras independientes tomadas sobre dos poblaciones, en
la que estudiamos una variable de tipo dicotmico (Bernoulli):
Si X1 y X2 contabilizan en cada caso el nmero de xitos en cada muestra se tiene que cada
una de ellas se distribuye como una variable aleatoria binomial:

de modo que los estimadores de las proporciones en cada poblacin tienen distribuciones
que de un modo aproximado son normales (cuando n1 y n2 son bastante grandes)

El contraste que nos interesa realizar es el de si la diferencia entre las proporciones en cada
poblacin es una cantidad conocida

Si H0 fuese cierta se tendra que


Desafortunadamente ni p1 ni p2 son conocidos de antemano y utilizamos sus estimadores, lo
que da lugar a un error que es pequeo cuando los tamaos muestrales son importantes:

9.12.0.1 Contraste bilateral

El contraste bilateral sobre la diferencia de proporciones es

Entonces se define

y se rechaza la hiptesis nula si o si

9.12.0.2 Contrastes unilaterales

En el contraste
se rechazar H0 si . Para el test contrario

se rechaza H0 si .

9.14 Problemas
En todos los problemas que siguen a continuacin, se supone que las muestras han sido
elegidas de modo independiente, y que las cantidades cuantitativas que se miden, se
distribuyen de modo gaussiano. En temas posteriores se ver cmo contrastar si estas
premisas pueden ser aceptadas o no al examinar las muestras.

Ejercicio 9..1. El calcio se presenta normalmente en la sangre de los mamferos en


concentraciones de alrededor de 6 mg por cada 100 ml del total de sangre. La desviacin
tpica normal de sta variable es 1 mg de calcio por cada 100 ml del volumen total de
sangre. Una variabilidad mayor a sta puede ocasionar graves trastornos en la coagulacin
de la sangre. Una serie de nueve pruebas sobre un paciente revelaron una media muestral de
6,2 mg de calcio por 100 ml del volumen total de sangre, y una desviacin tpica muestral
de 2 mg de calcio por cada 100 ml de sangre. Hay alguna evidencia, para un nivel
, de que el nivel medio de calcio para este paciente sea ms alto del normal?

Ejercicio 9..2. El nmero de accidentes mortales en una ciudad es, en promedio, de 12


mensuales. Tras una campaa de sealizacin y adecentamiento de las vas urbanas se
contabilizaron en 6 meses sucesivos
8, 11, 9, 7, 10 , 9

accidentes mortales. Fue efectiva la campaa?

Ejercicio 9..3. El promedio de las puntuaciones de un nmero elevado de alumnos de


Bioestadstica es de 6,50. Un determinado ao se examinaron 50 alumnos con resultados
promedio de 7,25 y desviacin tpica de 1. Variaron las calificaciones?

Ejercicio 9..4. El peso medio de mujeres de 30 a 40 aos es de 53 kg. Un estudio realizado


en 16 mujeres de tales edades que siguen una dieta vegetariana da y .
Modifica la dieta el peso medio?

Ejercicio 9..5. Una poblacin infantil se dice que es susceptible de recibir una campaa de

educacin e higiene si su porcentaje de nios con dientes cariados es superior al . Una


poblacin con 12.637 nios, debe hacerse la campaa si de 387 de ellos 70 tenan algn
diente cariado?

Ejercicio 9..6. Un 8% de los individuos que acuden a un servicio sanitario son


hiperutilizadores del mismo (ms de 11 visitas al ao) y, de entre ellos, un 70% son
mujeres. De entre los no hiperutilizadores, son mujeres el 51%. Puede afirmarse que han
variado los hbitos de estas si, tras una campaa de informacin y control de visitas, de 90
mujeres elegidas al azar 6 resultaron hiperutilizadoras?

Ejercicio 9..7. Se conoce que un de los individuos tratados crnicamente con digoxina
sufren una reaccin adversa por causa de ella. A 10 pacientes se les administr durante
largo tiempo digoxina mas otros medicamentos, y de ellos 5 desarrollaron la reaccin
adversa. Puede afirmarse que la asociacin entre la digoxina y los otros medicamentos
hace variar el nmero de reacciones adversas?

Ejercicio 9..8. Para comprobar si un tratamiento con cidos grasos es eficaz en pacientes
con eczema atpico, se tomaron 10 pacientes con eczema de ms de 9 meses y se les
someti durante 3 semanas a un tratamiento ficticio (placebo) y durante las tres siguientes a
un tratamiento con cidos grasos. Tras cada periodo, un mdico ajeno al proyecto evalu la
importancia del eczema en una escala de 0 (no eczema) a 10 (tamao mximo de eczema).
Los datos fueron los siguientes:

Placebo 6 8 4 8 5 6 5 6 4 5
Tratamiento 5 6 4 5 3 6 6 2 2 6

Es eficaz el tratamiento?

Ejercicio 9..9. En un programa de Control de Enfermedades Crnicas, la hipertensin est


incluida como la primera patologa a controlar. 15 pacientes hipertensos son sometidos al
programa y controlados en su tensin asistlica antes y despus de 6 meses de tratamiento.
Los datos son los siguientes:

Inic. 180 200 160 170 180 190 190 180 190 160 170 190 200 210 220
Fin. 140 170 160 140 130 150 140 150 190 170 120 160 170 160 150

Es efectivo el tratamiento?

Ejercicio 9..10. Muchos autores afirman que los pacientes con depresin tienen una funcin cortical por
debajo de lo normal debido a un riego sanguneo cerebral por debajo de lo normal. A dos muestras de
individuos, unos con depresin y otros normales, se les midi un ndice que indica el flujo sanguneo en la
materia gris (dado en mg/(100g/min))obtenindose:

Depresivos n1=19

Normales n2=22

Hay evidencia significativa a favor de la afirmacin de los autores?

Ejercicio 9..11. Por fistulizacin se obtuvo el pH de 6 muestras de bilis heptica con los siguientes resultados:

7,83; 8,52; 7,32; 7,79; 7,57; 6,58

Se desea saber al nivel de significacin del 0,05 si la bilis heptica puede considerarse neutra. Si se conociera

, qu decisin tomaramos?

Ejercicio 9..12. La prueba de la d-xilosa permite la diferenciacin entre una esteatorrea originada por una
mala absorcin intestinal y la debida a una insuficiencia pancretica, de modo que cifras inferiores a 4 grs. de
d-xilosa, indican una mala absorcin intestinal. Se realiza dicha prueba a 10 individuos, obtenindose una
media de 3,5 grs. y una desviacin tpica de 0'5 grs. Sepuede decir que esos pacientes padecen una mala
absorcin intestinal?

Ejercicio 9..13. La eliminacin por orina de aldosterona est valorada en individuos normales en 12 mgs/24
h. por trmino medio. En 50 individuos con insuficiencia cardaca se observ una eliminacin media de
aldosterona de 13 mgs/24 h., con una desviacin tpica de 2,5 mgs/24 h.

1.
Son compatibles estos resultados con los de los individuos normales?
2.
La insuficiencia cardaca aumenta la eliminacin por orina de aldosterona?

Ejercicio 9..14. La tabla siguiente muestra los efectos de un placebo y de la hidroclorotiacida sobre la presin
sangunea sistlica de 11 pacientes.
Placebo 211 210 210 203 196 190 191 177 173 170 163
H-cloro 181 172 196 191 167 161 178 160 149 119 156

Segn estos datos experimentales, podemos afirmar que existe diferencia en la presin sistlica media
durante la utilizacin de estos dos frmacos?

Ejercicio 9..15. Se sabe que el 70% de los pacientes internados en un hospital traumatolgico requieren algn
tipo de intervencin quirrgica. Para determinar si un nuevo mtodo de fisioterapia reduce el porcentaje de
intervenciones, se aplica ste a 30 pacientes de los cuales 17 requieren alguna intervencin quirrgica.
Comprobar que no hay razones suficientes para afirmar la eficacia del mtodo con un nivel de confianza del
95%.

Ejercicio 9..16. De un estudio sobre la incidencia de la hipertensin en la provincia de Mlaga, se sabe que en
la zona rural el porcentaje de hipertensos es del 27,7%. Tras una encuesta a 400 personas de una zona urbana,
se obtuvo un 24% de hipertensos.

1.
Se puede decir que el porcentaje de hipertensos en la zona urbana es distinto que
en la zona rural?
2.
Es menor el porcentaje de hipertensos en la zona urbana que en la zona rural?

Ejercicio 9..17. Con cierto mtodo de enseanza para nios subnormales se obtiene una desviacin tpica de
8, en las puntuaciones de los tests finales. Se pone a prueba un nuevo mtodo y se ensaya en 51 nios. Las
calificaciones obtenidas en los tests finales dan una desviacin tpica de 10. Puede asegurarse que el nuevo
mtodo produce distinta variacin en las puntuaciones?

Ejercicio 9..18. Se desea comparar la actividad motora espontnea de un grupo de 25 ratas control y otro de
36 ratas desnutridas. Se midi el nmero de veces que pasaban delante de una clula fotoelctrica durante 24
horas. Los datos obtenidos fueron los siguientes:

Ratas de control n1=25

Ratas desnutridas n2=36

Se observan diferencias significativas entre el grupo control y el grupo desnutrido?

Ejercicio 9..19. Se pretende comprobar la hiptesis expuesta en algunos trabajos de investigacin acerca de
que la presencia del antgeno AG-4 est relacionada con un desenlace Con ste fin, se hizo una revisin sobre
las historias clnicas de 21 mujeres muertas por carcinoma de cuello uterino, observando que 6 de ellas
presentaban el citado antgeno. Por otro lado y con fines de comparacin se tom otra muestra de 42 personas,
con edades similares a las del grupo anterior y que reaccionaron bien al tratamiento del carcinoma de cuello
uterino, en 28 de las cuales se observ la presencia del citado antgeno. Est relacionada la presencia del
antgeno con una efectividad del tratamiento?

Ejercicio 9..20. Se quiso probar si la cirrosis de hgado hacia variar el ndice de actividad de la colinesterasa
en suero. Se eligieron dos muestras aleatorias e independientes de individuos. Los resultados fueron:
Individuos normales n1 = 20

Individuos cirrticos n2=25

La cirrosis de hgado, hace variar el ndice de la colinesterasa en suero?

Ejercicio 9..21. Un investigador ha realizado el siguiente experimento: Tom una primera muestra de 25
pacientes que padecan cierto sntoma y otra segunda muestra de 30 pacientes con el mismo sntoma. A los de
la primera muestra les aplic un tratamiento especifico y a los de la segunda les dio un placebo. Anot el
tiempo en horas en que cada uno dijo que el sntoma haba desaparecido y obtuvo los siguientes resultados:

Muestra 1a n1=25

Muestra 2a n2=30

Puede concluir el investigador que el tratamiento es realmente efectivo?

Ejercicio 9..22. Para comprobar si la tolerancia a la glucosa en sujetos sanos tiende a decrecer con la edad se
realiz un test oral de glucosa a dos muestras de pacientes sanos, unos jvenes y otros adultos. El test
consisti en medir el nivel de glucosa en sangre en el momento de la ingestin (nivel basal) de 100 grs. de
glucosa y a los 60 minutos de la toma. Los resultados fueron los siguientes:

Jvenes:
Basal 81 89 80 75 74 97 76 89 83 77
60 minutos 136 150 149 141 138 154 141 155 145 147
Adultos:
Basal 98 94 93 88 79 90 86 89 81 90
60 minutos 196 190 191 189 159 185 182 190 170 197
1.
Se detecta una variacin significativa del nivel de glucosa en sangre en cada
grupo?
2.
Es mayor la concentracin de glucosa en sangre a los 60 minutos, en adultos que
en jvenes?
3.
El contenido basal de glucosa en sangre, es menor en jvenes que en adultos?
4.
Se detecta a los 60 minutos una variacin del nivel de glucosa en sangre diferente
de los adultos, en los jvenes?
10. Contrastes basados en el estadstico Ji-
Cuadrado

10.2 Introduccin
Existen multitud de situaciones en el mbito de la salud en el que las variables de inters, las cuales no pueden
cuantificarse mediante cantidades numricas, entre las que el investigador est interesado en determinar
posibles relaciones. Ejemplos de este tipo de variables pueden ser las complicaciones tras una intervencin
quirrgica, el sexo, el nivel socio-cultural, etc. En este caso tendramos, a lo sumo, las observaciones
agrupadas en forma de frecuencia, dependiendo de las modalidades que presente cada paciente en cada una de
las variables, por los que los mtodos estudiados en los captulos anteriores no seran aplicables.

El objetivo de este tema es el estudio de este tipo de cuestiones en relacin con las variables cualitativas (y
tambin v.a. discretas o continuas agrupadas en intervalo). Estos son los contrastes asociados con el

estadstico . En general este tipo de tests consisten en tomar una muestra y observar si hay diferencia
significativa entre las frecuencias observadas y las especificadas por la ley terica del modelo que se
contrasta, tambin denominadas ``frecuencias esperadas".

Sin embargo, aunque ste sea el aspecto ms conocido, el uso del test no se limita al estudio de variables
cualitativas. Podramos decir que existen tres aplicaciones bsicas en el uso de este test, y cuyo desarrollo
veremos en el transcurso de este captulo:

Tres son los temas que abordaremos de esta manera:

Test de ajuste de distribuciones:


Es un contraste de significacin para saber si los datos de una muestra son
conformes a una ley de distribucin terica que sospechamos que es la correcta.
Test de homogeneidad de varias muestras cualitativas:
Sirve para contrastar la igualdad de procedencia de un conjunto de muestras de tipo
cualitativo.
Test para tablas de contingencia:
Es un contraste para determinar la dependencia o independencia de caracteres
cualitativos.

10.4 El estadstico y su distribucin


Sea X una v.a. cuyo rango son los valores , de modo que pi es la probabilidad de cada valor;
Este tipo de v.a. puede corresponder a variables ya estudiadas como es el caso de la distribucin Binomial

pero nosotros vamos a usarla para v.a. ms generales. Supongamos que el resultado de un experimento

aleatorio es una clase c1, c2, ..., ck(ci, ), que puede representar valores cualitativos, discretos o
bien intervalos para variables continuas. Sea pi la probabilidad de que el resultado del experimento sea la
clase ci. Vamos a considerar contrastes cuyo objetivo es comprobar si ciertos valores pi0, propuestos para las
cantidades pi son correctas o no, en funcin de los resultados experimentales

Mediante muestreo aleatorio simple, se toma una muestra de tamao n y se obtienen a partir de ella unas

frecuencias observadas de cada clase que representamos mediante , , ...,

Clase Frec. Abs.

ci
c1

c2

... ...

ck

Supongamos que la hiptesis nula es cierta. Al ser pi=pi0 la proporcin de elementos de la clase ci en la
poblacin, el nmero de individuos de que presentan esta modalidad al tomar una muestra de tamao n, es

una v.a. de distribucin binomial, . Por tanto la frecuencia esperada de individuos de esa clase es

Obsrvese que a diferencia de las cantidades , que son las frecuencias que realmente se obtienen en una
muestra, las frecuencias esperadas no tienen por que ser nmeros enteros. De cualquier modo, bajo la

suposicin de que H0 es cierta cabe esperar que las diferencias entre las cantidades y sea pequea.

Pearson propuso el estadstico


el cual, siguiendo la linea de razonamiento anterior debe tomar valores pequeos si H0 es cierta. Si al tomar
una muestra, su valor es grande eso pone en evidencia que la hiptesis inicial es probablemente falsa. Para

decidir cuando los valores de son grandes es necesario conocer su ley de probabilidad. Se tiene entonces
el siguiente resultado

Como slo son los valores grandes de los que nos llevan a rechazar H0, la regin crtica es (vase la figura
10.1

Figura: Regin crtica (sombreada) para un contraste con el estadstico .


es decir,

10.4.0.1 Observacin
A pesar de que el contraste parece ser bilateral al ver la expresin de la relacin (10.1), la forma de , nos
indica que el contraste es unilateral: Slo podemos saber si existe desajuste entre los esperado y lo observado,
pero no podemos contrastar hiptesis alternativas del tipo ``pi mayor que cierto valor''.

10.4.0.2 Observacin

Obsrvese que en realidad no es una variable aleatoria continua: Los posibles resultados de la muestra se

resumen en las cantidades , , ..., , que nicamente toman valores discretos. Luego las cantidades
slo puede tomar un nmero finito de valores distintos (aunque sean cantidades con decimales). Por tanto su
distribucin no es continua. Luego al realizar la aproximacin mencionada hay que precisar en qu
condiciones el error cometido es pequeo. De modo aproximado podemos enunciar el siguiente criterio que
recuerda al de la aproximacin binomial por la distribucin normal:

1.
n>30;
2.

para todo .

Sin embargo esta regla resulta demasiado estricta a la hora de aplicarla en la prctica. Se utiliza entonces una
regla ms flexible y que no sacrifica demasiada precisin con respecto a la anterior:

1.

Para ninguna clase ocurre que


2.

para casi todos los , salvo a lo sumo un de ellos.


Si a pesar de todo, estas condiciones no son verificadas, es necesario agrupar las clases que tengan menos
elementos con sus adyacentes.

10.4.0.3 Observacin

El lector puede considerar los contrastes con el estadstico como una generalizacin del contraste de
proporciones. Para ello le invitamos a estudiar el siguiente ejemplo.

10.4.0.4 Ejemplo
Se desea saber si cierta enfermedad afecta del mismo modo a los hombres que a las mujeres. Para ello se
considera una muestra de n=618 individuos que padecen la enfermedad, y se observa que 341 son hombres y
el resto son mujeres. Qu conclusiones se obtiene de ello?

Solucin:

El contraste a realizar se puede plantear de dos formas que despus veremos que son equivalentes:

Contraste de una proporcin:


Si p es el porcentaje de hombres en la poblacin de enfermos, podemos considerar
el contraste:
De la muestra obtenemos la siguiente estimacin puntual del porcentaje de
enfermos de sexo masculino:

Para ver si esto es un valor ``coherente'' con la hiptesis nula, calculemos la


significatividad del contraste:

Por otro lado,

Como el contraste es de tipo bilateral, la significatividad del contraste es (buscando


en la tabla de la distribucin normal):

Lo que nos indica que se ha de rechazar la hiptesis nula y aceptar la hiptesis


alternativa, es decir, afirmamos que existe una evidencia significativa a favor de la
hiptesis de que la enfermedad no afecta por igual a hombres y mujeres.
Contraste con el estadstico :
En este caso planteamos el contraste:

Para resolverlo escribimos en una tabla los frecuencias muestrales observadas de


hombres y mujeres, junto a los valores esperados en el caso de que la hiptesis nula
fuese cierta:

frecuencias frecuencias
observadas esperadas diferencia

Hombres 341 9 322/309

Mujeres 277 -9 (-32)2/309

618 618 0 6,63

Consideremos entonces el estadstico

donde:
k=2es el numero de modalidades posibles que toma la variable sexo:
hombres y mujeres;
p=0 es el nmero de parmetros estimados;
h=1 es el nmeros de restricciones impuestas a los valores esperados. Slo
hay una (que es habitual), que consiste en que el nmero esperado de
enfermos entre hombres y mujeres es 60.

El estadstico calculado sobre la muestra ofrece el valor experimental:

que es el percentil 99 de la distribucin . De nuevo se obtiene que la


significatividad del contraste es del 1%<5%.

En conclusin, con los dos mtodos llegamos a que hay una fuerte evidencia en contra de que hay el mismo
porcentaje de hobres y mujeres que padecen la enfermedad. La ventaja de la ltima forma de plantear el
contraste (diferencia entre frecuencias observadas y esperadas) es que la tcnica se puede aplicar a casos ms
generales que variables dicotmicas, como se ver ms adelante.

10.4.0.5 Observacin

Hay una frmula alternativa para el clculo de cuya expresin es ms fcil de utilizar cuando realizamos
clculos:

Demostracin
10.6 Contraste de bondad de ajuste para
distribuciones
Vamos a aplicar el contraste para determinar a travs de una muestra si una v.a. X sigue o no cierta
distribucin. Podemos encontrarnos entonces con dos casos:

La ley de la v.a. X que deseamos contrastar est completamente determinada.


La ley de la v.a. X no es totalmente conocida y es necesario estimar algunos de sus
parmetros.

Figura: En los contrastes de distribuciones, se compara si las observaciones


(histograma) se distribuye segn una ley de probabilidad conocida.
10.6.2 Distribuciones de parmetros conocidos

Deseamos contrastar si la v.a. X sigue una ley de distribucin

donde todos los pi estn fijados (hiptesis H0). Entonces por lo mencionado anteriormente, el contraste
consiste en:
En este contraste se comete cierto error de aproximacin y por tanto ser tanto mejor cuanto mayor sea n.

10.6.2.1 Ejemplo
Dadas dos parejas de genes Aa y Bb, la descendencia del cruce efectuado segn las leyes de Mendel, debe
estar compuesto del siguiente modo:
Leyes de Mendel
Frecuencias
Fenotipo relativas
AB 9/16
Ab 3/16
aB 3/16
ab 1/16

Elegidos 300 individuos al azar de cierta poblacin se observa la siguiente distribucin de frecuencias:

Frecuencias
Fenotipo observadas
AB 165
Ab 47
aB 67
ab 21
Total 300

Se puede aceptar que se cumplen las leyes de Mendel sobre los individuos de dicha poblacin?

Solucin:

El contraste a realizar es:


Para ello vamos a representar en una sla tabla las frecuencias observadas, junto con las que seran de esperar
en el caso de que H0 fuese cierta:

Fenotipo

AB 165 161,33

Ab 47 42,27

aB 67 85,91

ab 21 23,52

Total 300 300 313,03

Bajo la hiptesis de que H0 sea cierta, se tiene que:

ya que 4 son los posibles fenotipos, no se ha estimado ningn parmetro (la distribucin segn las leyes de

Mendel es conocida), y sobre las cantidades Ei existe solamente una restriccin, que es: .

Por otro lado,


que segn la tabla de la distribucin es aproximadamente el percentil 99,5 de la distribucin . Por

tanto la significatividad del contraste es del , lo que nos conduce a rechazar la hiptesis de que
la poblacin de la que la muestra ha sido extrada sigue las leyes de Mendel.

Al mismo resultado llegamos sin calcular con precisin la significatividad del contraste, sino considerando
que el valor terico mximo que admitimos para el estadstico experimental con un nivel de significacin del

5% es el percentil 95 de , es decir,

y claramente ocurre que , por lo que se rechaza la hiptesis nula.

Obsrvese tambin que el que se haya rechazado la hiptesis nula significa que hay diferencia
estadsticamente significativa entre las frecuencias observadas y las esperadas, aunque a primera vista no lo
hubisemos percibido en el grfico de la Figura 10.3.

Figura: Aunque aparentan ser aproximadamente iguales las frecuencias observadas


y esperadas, existe diferencia estadsticamente significativa entre ellas.
10.6.4 Distribuciones con parmetros desconocidos

Supongamos que la distribucin de X que queremos contrastar no especifica ciertos valores de r parmetros

Estimemoslos a partir de la muestra, y consideremos las cantidades

Entonces el contraste consiste en


10.6.4.1 Contraste de una distribucin binomial
Queremos contrastar

Las cantidades pi son desconocidas, aunque tienen una forma en la que slo dependen del nico parmetro
que debe ser estimado a partir de la muestra (r=1): Realizando esta estimacin

tenemos todas las cantidades pi,

y la distribucin del estadstico es aproximadamente .

10.6.4.2 Contraste de una distribucin normal

Si queremos contrastar si una v.a. X se distribuye normalmente


podemos realizar el contraste correspondiente mediante la tcnica del estadstico tomando una muestra,
estimando los parmetros mediante y , y agrupando las observaciones (continuas) en un nmero finito,
k, de intervalos. No rechazaremos entonces la normalidad de X si las probabilidades esperadas de los
intervalos no son muy diferentes de las obtenidas sobre la muestra, es decir,

Intervalo

- e1

e1 - e2

e2 - e3

... ... ... ... ...

ek-1 -

n 1 n

Entonces
10.6.4.3 Ejemplo
En un grupo de n=70 varones, se ha calculado su peso y se han observado las siguientes cantidades:
Peso M. clase Frecuencias
55 - 60 57,5 5
60 - 65 62,5 10
65 - 70 67,5 15
70 - 75 72,5 17
75 - 80 77,5 12
80 - 85 82,5 8
85 - 95 90 3

Se ajustan estos datos a una distribucin normal?

Solucin:

Definimos la v.a. X como el peso de un individuo elegido al azar de la poblacin de varones. El test a realizar
se escribe entonces como:

En primer lugar, vamos a unir el ltimo intervalo con el primero, para asegurarnos de que cada intervalo
contenga por lo menos 5observaciones:

Peso M. clase Frecuencias


55 - 60 57,5 5
60 - 65 62,5 10
65 - 70 67,5 15
70 - 75 72,5 17
75 - 80 77,5 12
80 - 95 87,5 11
n=70
Posteriormente estimamos los parmetros desconocidos, suponiendo que realmente los datos provienen de

una distribucin normal. Para , su estimador puntual mximo verosmil es . Para es , pero
tambin es posible utilizar . As:

La diferencia entre el histograma de frecuencias relativas y la funcin de densidad de la distribucin

est representada en la figura 10.4.

Figura: Histograma de frecuencias absolutas y funcin de densidad gaussiana


(cambiada de escala) ms prxima al mismo, en el sentido de que sus parmetros
han sido calculados a partir del histograma.

Posteriormente escribimos la tabla con los valores observados y los valores esperados de suponer cierta H0:
Peso

ai - bi ni

- 60 5 5,761 4,3395

60 - 65 10 8,729 11,456
65 - 70 15 13,874 16,2174
70 - 75 17 15,687 18,4229
75 - 80 12 13,062 11,0243

80 - 11 12,887 9,3893

n=70 n=70 70,849

donde

y .

Bajo la hiptesis H0 se tiene que el estadstico . Consideramos un nivel de

significacin . Como
entonces , luego no se puede rechazar a la vista de los datos, el que estos provengan

de una poblacin normal. 10.8 Problemas


Ejercicio 10..1. Ante la sospecha de que el hbito de fumar de una embarazada puede influir en el peso de su
hijo al nacer, se tomaron dos muestras, una de fumadoras y otra de no fumadoras, y se clasific a sus hijos en

tres categoras en funcin de su peso en relacin con los percentiles y de la poblacin. El resultado
se expresa en la tabla siguiente:

Peso del nio

Madre fumadora? Menor de Entre y Mayor de


Si 117 529 19
No 124 1147 117

Hay una evidencia significativa a favor de la sospecha a la vista de los resultados de la muestra?

Ejercicio 10..2. Varios libros de Medicina Interna recomiendan al mdico la palpacin de la arteria radial con
el fin de evaluar el estado de la pared arterial. Se tomaron 215 pacientes y se les clasific segn la
palpabilidad de dicha arteria (grados 0, 1 y 2 para no palpable, palpable y muy palpable o dura,
respectivamente) y segn una puntuacin de 0 a 4 en orden creciente de degeneracin arterial (evaluada tras
la muerte del paciente y su anlisis anatomo-patolgico). Los datos son los de la tabla siguiente:

Palpabilidad
Degeneracin 0 1 2
0 20 5 5
1 60 20 10
2 45 15 15
3 10 5 5

Existe relacin entre el grado de palpabilidad y el anlisis anatomopatolgico?

Ejercicio 10..3. Se realiz una encuesta a 2979 andaluces para evaluar su opinin acerca de la atencin
recibida en los Ambulatorios de la Seguridad Social, clasificndolos tambin en relacin a sus estudios.
Analizar los datos de la siguiente tabla:

Opinin
Nivel de estudios Buena Regular Mala
Ninguno 800 144 32
Primarios 905 312 67
Bachiller 287 157 44
Medios 95 48 11
Superiores 38 32 7

Ejercicio 10..4. Con el fin de conocer si un cierto tipo de bacterias se distribuyen al azar en un determinado
cultivo o si, por el contrario, lo hacen con algn tipo de preferencia (el centro, los extremos, etc...), se divide
un cultivo en 576 reas iguales y se cuenta el nmero de bacterias en cada rea. Los resultados son los
siguientes:

no de bacterias 0 1 2 3 4 5
no de reas 229 211 93 35 7 1

Obedecen los datos a una distribucin de Poisson?

Ejercicio 10..5. La siguiente tabla recoge la distribucin de los triglicridos en suero, expresados en mg/dl en
90 nios de 6 aos:

Nivel de triglicridos Frecuencias


10 - 20 5
20 - 30 11
30 - 40 15
40 - 50 24
50 - 60 18
60 - 70 12
70 - 80 4
80 - 90 1

Contrastar la hiptesis de que el nivel de triglicridos en nios de 6 aos sigue una distribucin Normal.

Ejercicio 10..6. La distribucin en Andaluca del grupo sanguneo es de un 35%, 10%, 6% y un 49% para los
grupos A, B, AB y O respectivamente. En Mlaga, se realiz el estudio en una muestra de 200 individuos
obtenindose una distribucin del 50%, 30%, 18%, y 10% para los grupos A, B AB y O respectivamente.
Se desea saber si la distribucin del grupo sanguneo en dicha provincia es igual que en Andaluca.

Ejercicio 10..7. En un estudio diseado para determinar la aceptacin por una parte de los pacientes de un
nuevo analgsico, 100 mdicos seleccionaron cada uno de ellos una muestra de 25 pacientes para participar en
el estudio. Cada paciente despus de haber tomado el nuevo analgsico durante un periodo de tiempo
determinado, fue interrogado para saber si prefera ste o el que haba tomado anteriormente con regularidad,
obteniendo los siguientes resultados:

no de pacientes que no de mdicos que no total de pacientes


prefieren el nuevo obtienen estos que prefieren el
analgsico resultados nuevo analgsico
0 5 0
1 6 6
2 8 16
3 10 30
4 10 40
5 15 75
6 17 102
7 10 70
8 10 80
9 9 81
10 o ms 0 0
Total 100 500

Queremos saber si estos datos se ajustan a una distribucin binomial.

Ejercicio 10..8. Disponemos de una muestra de 250 mujeres mayores de 18 aos, cuyos pesos son los
presentados en la tabla adjunta, y queremos saber si los datos de esta muestra provienen de una distribucin
Normal.

Pesos no de mujeres
30 - 40 16
40 - 50 18
50 - 60 22
60 - 70 51
70 - 80 62
80 - 90 55
90 - 100 22
100 - 110 4
Ejercicio 10..9. Deseamos conocer, si las distribuciones atendiendo al grupo sanguneo, en tres muestras
referidas atendiendo al tipo de tensin arterial, se distribuyen de igual manera. Para lo cual, se reuni una
muestra de 1500 sujetos a los que se les determin su grupo sanguneo y se les tom la tensin arterial,
clasificndose sta en baja, normal, y alta. Obtenindose los siguientes resultados:

Grupo sanguneo
Tensin arterial A B AB O Total
Baja 28 9 7 31 75
Normal 543 211 90 476 1.320
Alta 44 22 8 31 105
Total 615 242 105 538 1.500

Ejercicio 10..10. La recuperacin producida por dos tratamientos distintos A y B se clasifican en tres
categoras: muy buena, buena y mala. Se administra el tratamiento A a 30 pacientes y B a otros 30: De las 22
recuperaciones muy buenas, 10 corresponden al tratamiento A; de las 24 recuperaciones buenas , 14
corresponden al tratamiento A y de los 14 que tienen una mala recuperacin corresponden al tratamiento A.
Son igualmente efectivos ambos tratamientos para la recuperacin de los pacientes?

10.8 Problemas
Ejercicio 10..1. Ante la sospecha de que el hbito de fumar de una embarazada puede influir en el peso de su
hijo al nacer, se tomaron dos muestras, una de fumadoras y otra de no fumadoras, y se clasific a sus hijos en

tres categoras en funcin de su peso en relacin con los percentiles y de la poblacin. El resultado
se expresa en la tabla siguiente:

Peso del nio

Madre fumadora? Menor de Entre y Mayor de


Si 117 529 19
No 124 1147 117

Hay una evidencia significativa a favor de la sospecha a la vista de los resultados de la muestra?

Ejercicio 10..2. Varios libros de Medicina Interna recomiendan al mdico la palpacin de la arteria radial con
el fin de evaluar el estado de la pared arterial. Se tomaron 215 pacientes y se les clasific segn la
palpabilidad de dicha arteria (grados 0, 1 y 2 para no palpable, palpable y muy palpable o dura,
respectivamente) y segn una puntuacin de 0 a 4 en orden creciente de degeneracin arterial (evaluada tras
la muerte del paciente y su anlisis anatomo-patolgico). Los datos son los de la tabla siguiente:

Palpabilidad
Degeneracin 0 1 2
0 20 5 5
1 60 20 10
2 45 15 15
3 10 5 5

Existe relacin entre el grado de palpabilidad y el anlisis anatomopatolgico?

Ejercicio 10..3. Se realiz una encuesta a 2979 andaluces para evaluar su opinin acerca de la atencin
recibida en los Ambulatorios de la Seguridad Social, clasificndolos tambin en relacin a sus estudios.
Analizar los datos de la siguiente tabla:

Opinin
Nivel de estudios Buena Regular Mala
Ninguno 800 144 32
Primarios 905 312 67
Bachiller 287 157 44
Medios 95 48 11
Superiores 38 32 7

Ejercicio 10..4. Con el fin de conocer si un cierto tipo de bacterias se distribuyen al azar en un determinado
cultivo o si, por el contrario, lo hacen con algn tipo de preferencia (el centro, los extremos, etc...), se divide
un cultivo en 576 reas iguales y se cuenta el nmero de bacterias en cada rea. Los resultados son los
siguientes:

no de bacterias 0 1 2 3 4 5
no de reas 229 211 93 35 7 1

Obedecen los datos a una distribucin de Poisson?

Ejercicio 10..5. La siguiente tabla recoge la distribucin de los triglicridos en suero, expresados en mg/dl en
90 nios de 6 aos:

Nivel de triglicridos Frecuencias


10 - 20 5
20 - 30 11
30 - 40 15
40 - 50 24
50 - 60 18
60 - 70 12
70 - 80 4
80 - 90 1

Contrastar la hiptesis de que el nivel de triglicridos en nios de 6 aos sigue una distribucin Normal.

Ejercicio 10..6. La distribucin en Andaluca del grupo sanguneo es de un 35%, 10%, 6% y un 49% para los
grupos A, B, AB y O respectivamente. En Mlaga, se realiz el estudio en una muestra de 200 individuos
obtenindose una distribucin del 50%, 30%, 18%, y 10% para los grupos A, B AB y O respectivamente.
Se desea saber si la distribucin del grupo sanguneo en dicha provincia es igual que en Andaluca.

Ejercicio 10..7. En un estudio diseado para determinar la aceptacin por una parte de los pacientes de un
nuevo analgsico, 100 mdicos seleccionaron cada uno de ellos una muestra de 25 pacientes para participar en
el estudio. Cada paciente despus de haber tomado el nuevo analgsico durante un periodo de tiempo
determinado, fue interrogado para saber si prefera ste o el que haba tomado anteriormente con regularidad,
obteniendo los siguientes resultados:

no de pacientes que no de mdicos que no total de pacientes


prefieren el nuevo obtienen estos que prefieren el
analgsico resultados nuevo analgsico
0 5 0
1 6 6
2 8 16
3 10 30
4 10 40
5 15 75
6 17 102
7 10 70
8 10 80
9 9 81
10 o ms 0 0
Total 100 500

Queremos saber si estos datos se ajustan a una distribucin binomial.


Ejercicio 10..8. Disponemos de una muestra de 250 mujeres mayores de 18 aos, cuyos pesos son los
presentados en la tabla adjunta, y queremos saber si los datos de esta muestra provienen de una distribucin
Normal.

Pesos no de mujeres
30 - 40 16
40 - 50 18
50 - 60 22
60 - 70 51
70 - 80 62
80 - 90 55
90 - 100 22
100 - 110 4

Ejercicio 10..9. Deseamos conocer, si las distribuciones atendiendo al grupo sanguneo, en tres muestras
referidas atendiendo al tipo de tensin arterial, se distribuyen de igual manera. Para lo cual, se reuni una
muestra de 1500 sujetos a los que se les determin su grupo sanguneo y se les tom la tensin arterial,
clasificndose sta en baja, normal, y alta. Obtenindose los siguientes resultados:

Grupo sanguneo
Tensin arterial A B AB O Total
Baja 28 9 7 31 75
Normal 543 211 90 476 1.320
Alta 44 22 8 31 105
Total 615 242 105 538 1.500

Ejercicio 10..10. La recuperacin producida por dos tratamientos distintos A y B se clasifican en tres
categoras: muy buena, buena y mala. Se administra el tratamiento A a 30 pacientes y B a otros 30: De las 22
recuperaciones muy buenas, 10 corresponden al tratamiento A; de las 24 recuperaciones buenas , 14
corresponden al tratamiento A y de los 14 que tienen una mala recuperacin corresponden al tratamiento A.
Son igualmente efectivos ambos tratamientos para la recuperacin de los pacientes?

11. Anlisis de la varianza

11.2 Introduccin
Del mismo modo que el contraste generalizaba el contraste de dos proporciones, es necesario definir un
nuevo contraste de hiptesis que sea aplicable en aquellas situaciones en las que el nmero de medias que
queremos comparar sea superior a dos. Es por ello por lo que el anlisis de la varianza, ANOVA11.1 surge
como una generalizacin del contraste para dos medias de la de Student, cuando el nmero de muestras a
contrastar es mayor que dos.

Por ejemplo, supongamos que tenemos 3 muestras de diferentes tamaos que suponemos que provienen de
tres poblaciones normales con la misma varianza:

Si queremos realizar el contraste

podramos en plantearnos como primer mtodo el fijar una cantidad prxima a cero y realizar los

contrastes siguientes con como nivel de significacin:


de modo que se aceptara H1 y se rechazara H0 slo si alguna de las hiptesis alternativas H1', H1'' H1''' es
aceptada y rechazada su correspondiente hiptesis nula. El error de tipo I para este contraste es:

Por ello el nivel de significacin obtenido para este contraste sobre la igualdad de medias de tres muestras no

es como hubisemos esperado obtener inicialmente, sino . Por ejemplo, si tomamos un


nivel de significacin para cada uno de los contrastes de igualdad de dos medias, se obtendra que
el nivel de significacin (error de tipo I) para el contraste de las tres medias es de 1-0,93=0,27, lo que es una
cantidad muy alta para lo que acostumbramos a usar.

En consecuencia, no es adecuado realizar el contraste de igualdad de medias de varias muestras mediante


una multitud de contrastes de igualdad de medias de dos muestras.

Una tcnica que nos permite realizar el contraste de modo conveniente es la que exponemos en este captulo y
que se denomina anlisis de la varianza.

11.4 ANOVA con un factor


Se denomina modelo factorial con un factor o ANOVA con un factor al modelo (lineal) en el que la
variable analizada la hacemos depender de un slo factor de tal manera que las causas de su variabilidad son
englobadas en una componente aleatoria que se denomina error experimental:
Vamos a exponer esto con ms claridad. Consideremos una variable sobre la que acta un factor que puede
presentarse bajo un determinado nmero de niveles, t. Por ejemplo podemos considerar un frmaco que se
administra a t=3 grupos de personas y se les realiza cierta medicin del efecto causado:

Resultado de la medicin

Gripe (nivel 1) 5 3 2 5 4 3

Apendicitis (nivel 2) 8 9 6 7 8 9 10 8 10

Sanos (nivel 3) 2 3 2 1 2 3 2

En este caso los factores que influyen en las observaciones son tres: el que la persona padezca la gripe,
apendicitis, o que est sana.

De modo general podemos representar las t muestras (o niveles) del siguiente modo:

Niveles Observaciones de X tamaos muestrales

Nivel x11 x12 x1n1 n1

Nivel x21 x22 x2n2 n2

... ... ...

Nivel xt1 xt2 xtnt nt

donde por supuesto, los tamaos de cada muestra ni, no tienen por que ser iguales. En este caso decimos que
se trata del modelo no equilibrado.

11.4.0.1 Observacin
De ahora en adelante asumiremos que las siguientes condiciones son verificadas por las t muestras:
Las observaciones proceden de poblaciones normales;
Las t muestras son aleatorias e independientes. Adems, dentro de cada nivel las
observaciones son independientes entre s.
En el modelo de un factor suponemos que las observaciones del nivel i, xij,
provienen de una variable Xij de forma que todas tienen la misma varianza
--hiptesis de homocedasticidad:
o lo que es lo mismo,

De este modo es el valor esperado para las observaciones del nivel i, y los errores
son variables aleatorias independientes, con valor esperado nulo, y con el mismo
grado de dispersin para todas las observaciones.

Otro modo de escribir lo mismo consiste en introducir una cantidad que sea el
valor esperado para una persona cualquiera de la poblacin (sin tener en cuenta los
diferentes niveles), y considerar los efectos introducidos por los niveles, de modo
que

11.4 ANOVA con un factor


Se denomina modelo factorial con un factor o ANOVA con un factor al modelo (lineal) en el que la
variable analizada la hacemos depender de un slo factor de tal manera que las causas de su variabilidad son
englobadas en una componente aleatoria que se denomina error experimental:
Vamos a exponer esto con ms claridad. Consideremos una variable sobre la que acta un factor que puede
presentarse bajo un determinado nmero de niveles, t. Por ejemplo podemos considerar un frmaco que se
administra a t=3 grupos de personas y se les realiza cierta medicin del efecto causado:

Resultado de la medicin

Gripe (nivel 1) 5 3 2 5 4 3

Apendicitis (nivel 2) 8 9 6 7 8 9 10 8 10

Sanos (nivel 3) 2 3 2 1 2 3 2

En este caso los factores que influyen en las observaciones son tres: el que la persona padezca la gripe,
apendicitis, o que est sana.

De modo general podemos representar las t muestras (o niveles) del siguiente modo:

Niveles Observaciones de X tamaos muestrales

Nivel x11 x12 x1n1 n1

Nivel x21 x22 x2n2 n2

... ... ...

Nivel xt1 xt2 xtnt nt

donde por supuesto, los tamaos de cada muestra ni, no tienen por que ser iguales. En este caso decimos que
se trata del modelo no equilibrado.

11.4.0.1 Observacin
De ahora en adelante asumiremos que las siguientes condiciones son verificadas por las t muestras:
Las observaciones proceden de poblaciones normales;
Las t muestras son aleatorias e independientes. Adems, dentro de cada nivel las
observaciones son independientes entre s.
En el modelo de un factor suponemos que las observaciones del nivel i, xij,
provienen de una variable Xij de forma que todas tienen la misma varianza
--hiptesis de homocedasticidad:
o lo que es lo mismo,

De este modo es el valor esperado para las observaciones del nivel i, y los errores
son variables aleatorias independientes, con valor esperado nulo, y con el mismo
grado de dispersin para todas las observaciones.

Otro modo de escribir lo mismo consiste en introducir una cantidad que sea el
valor esperado para una persona cualquiera de la poblacin (sin tener en cuenta los
diferentes niveles), y considerar los efectos introducidos por los niveles, de modo
que

11.4.2 Especificacin del modelo


Con todo lo anterior, el modelo ANOVA de un factor puede escribirse como
y con la siguiente interpretacin:

es una constante comn a todos los niveles;


es el efecto producido por el i-simo nivel. Al sumarlos todos deben compensarse
los efectos negativos con los positivos para que la media comn a todos los niveles
sea realmente . Esto implica en particular que los efectos, , de los niveles no
son independientes;
es la parte de la variable Xij no explicada por ni , y que se distribuye del
mismo modo (aunque independientemente) para cada observacin, segn la ley
gaussiana:

sta es la condicin de homocedasticidad, y es fundamental en el anlisis de la


varianza.

Obsrvese que ahora podemos escribir el contraste de que los diferentes niveles no tienen influencia sobre la
observacin de la variable como:

o bien
11.4.2.1 Observacin
Se utiliza el nombre de anlisis de la varianza ya que el elemento bsico del anlisis estadstico ser
precisamente el estudio de la variabilidad. Tericamente es posible dividir la variabilidad de la variable que se
estudia en dos partes:
La originada por el factor en cuestin;
La producida por los restantes factores que entran en juego, conocidos o no,
controlables o no, que se conocen con el nombre de error experimental.

Si mediante los contrastes estadsticos adecuados la variacin producida por cierto factor es
significativamente mayor que la producida por el error experimental podemos aceptar la hiptesis de que los
distintos niveles del factor actan de forma distinta.

11.4.2.2 Ejemplo
Consideremos dos muestras tomadas en diferentes niveles de una variable, de forma que ambas tengan la
misma varianza muestral (lo que indica que no se puede rechazar la igualdad de varianzas poblacionales) y
medias muestrales bastante diferentes. Por ejemplo:

La dispersin calculada al medir la de los dos niveles conjuntamente es mucho mayor que la de cada uno de
ellos por separado. Por tanto puede deducirse que ambos niveles no tienen el mismo valor esperado.

11.4.4 Algo de notacin relativa al modelo


Este apartado est dedicado a introducir alguna notacin para escribir los trminos que sern ms importantes
a la hora de realizar un contraste por el mtodo ANOVA. En primer lugar tenemos:
Usando estos trminos vamos a desglosar la variacin total de la muestra en variacin total dentro de cada
nivel (intravariacin) ms la variacin entre los distintos niveles (intervariacin). Para ello utilizamos la
proposicin 2.1 (pgina ):

donde

11.4.4.1 Observacin
En el clculo del estadstico intervienen N cantidades, ligadas por una relacin:
de este modo el nmero de grados de libertad de este estadstico es N-1 (recurdese la nocin de grados de
libertad de un estadstico, pgina ). Por razones anlogas tenemos que el nmero de grados de libertad de
es N-t y el de es t-1. As introducimos los siguientes estadsticos:

Estos son los estadsticos que realmente nos interesan a la hora de realizar el contraste de igualdad de medias.
Cuando la diferencia entre los efectos de los diferentes niveles sea muy baja, es de esperar que la
cuasivarianza total sea prxima a la intravarianza, o lo que es lo mismo, que la intervarianza sea pequea en
relacin con la intravarianza. Obsrvese la figura 11.1

Figura: En la figura de superior no existe una


evidencia significativa en contra de que las medias de
los tres grupos de observaciones coinciden. En la
figura inferior s.
11.4.6 Forma de efectuar el contraste
Consideramos el contraste

y suponemos que estamos en las condiciones del modelo factorial de un factor. Si H0 es cierta se puede
demostrar que el siguiente estadstico se distribuye como una de Snedecor:
Luego si al calcular Fexp obtenemos que donde es un nivel de significacin

dado, deberemos de rechazar la hiptesis nula (ya que si H0 fuese cierta, era de esperar que fuese

pequeo en relacin con ).

11.4.8 Mtodo reducido para el anlisis de un factor


En este apartado vamos a resumir lo ms importante de lo visto hasta ahora, indicando la forma ms sencilla
de realizar el contraste. En primer lugar calculamos los siguientes estadsticos a partir de la tabla de las
observaciones en cada nivel:

Niveles Observaciones de X Clculos al margen

Nivel 1 x11 x12 x1n1 n1

Nivel 2 x21 x22 x2n2 n2

... ... ... ...


Nivel t xt1 xt2 xtnt nt

N B A

Entonces las siguientes cantidades admiten una expresin muy sencilla:

Calculamos

y dado el nivel de significacin buscamos en una tabla de la distribucin de Snedecor el valor

rechazando H0 si Fexp>Fteo, como se aprecia en la Figura 11.2.

Figura: Regin crtica en un contraste ANOVA.


11.4.8.1 Ejemplo
Se aplican 4 tratamientos distintos a 4 grupos de 5 pacientes, obtenindose los resultados de la tabla que se
adjunta. Queremos saber si se puede concluir que todos los tratamientos tienen el mismo efecto. Para ello
vamos a suponer que estamos en condiciones de aplicar el modelo de un factor11.2.

Tratamientos Observaciones ni

Tratamiento 1 -1 1 2 0 -1 5 1 1/5 7
Tratamiento 2 -2 -4 -5 -4 -7 5 -22 484/5 110
Tratamiento 3 0 -1 -2 -4 -1 5 -8 64/5 22
Tratamiento 4 1 4 6 3 8 5 22 484/5 126

N=20 A=265

Fuente de grados de Suma cuadrados Cuasivarianzas Estadstico


variacin libertad

Entre t-1=3 = B-C Fexp

tratamientos =204,15 =68,167 =18,676

Dentro de los N-t=16 = A-B Fteo = Ft-1,N-t


tratamientos =58,4 =3,65 =3,24

Figura: Se rechaza la hiptesis de que los


tratamientos tienen el mismo efecto en los tres grupos.

En conclusin, Fexp>Fteo, como se observa en la Figura 11.3, por tanto se ha de rechazar la igualdad de
efectos de los tratamientos.

En la Figura 11.4 se representan las observaciones de cada nivel de tratamiento mediante una curva normal
cuyos parmetros se han estimado puntualmente a partir de las observaciones. Obsrvese que las diferencias
ms importantes se encuentran entre Los tratamientos 2 y 4. Esto motiva los contrastes de comparaciones
mltiples (dos a dos), para que, en el caso en que la igualdad de medias sea rechazada, se pueda establecer
qu niveles tuvieron mayor influencia en esta decisin.

Figura: Las diferencias ms importantes se


encuentran entre los niveles 2 y 4.
11.4.10 Anlisis de los resultados del ANOVA: Comparaciones
mltiples
Una vez contrastado el que existen diferencias significativas mediante el anlisis de la varianza, nos interesa
conocer que niveles del factor son los que han influido ms para que se de este resultado. Como ilustracin,
en el ltimo ejemplo se ve claramente que los tratamientos segundo y cuarto dan resultados muy diferentes, y
probablemente de hay venga el que se haya rechazado la igualdad de todos los efectos.

El mtodo ms utilizado consiste en realizar todas las comparaciones por parejas:

lo que corresponde a los ya conocidos contrastes de la de Student, que tienen en este caso como estadstico
experimental a (de nuevo suponiendo la homocedasticidad en todas las muestras):

ya que la intravarianza , es un estimador de con N-t grados de libertad.

11.6 ANOVA de varios factores


Hemos estudiado el modelo ANOVA de un factor, tambin denominado modelo de efecto fijo. Existen otros
modelos denominados ANOVA de varios factores que no vamos a estudiar aqu, pero que vamos a enunciar
brevemente.

Como ilustracin podemos escribir el modelo ANOVA de dos factores con interaccin en el cual se tiene
Si suponemos que no hay interaccin entre ambos factores, es decir, cada factor acta independientemente del
otro, tenemos el modelo de efectos aditivos:

En ambos casos se supone que las cantidades son independientes para todos los niveles i1 e i2 y todos
los individuos jdentro de esos niveles, estando equidistribuidos y con la misma varianza segn una ley
gaussiana:

11.8 Consideraciones sobre las hiptesis


subyacentes en el modelo factorial
Para aplicar el modelo de un factor hemos hecho, entre otras, las siguientes suposiciones:

Las observaciones de cada muestra han de ser independientes y tambin la de las


muestras entre s. Para ello podemos aplicar cualquiera de los contrastes no
paramtricos de aleatoriedad. En principio esta aleatoriedad es algo que es bastante
razonable admitir si la metodologa para elegir los datos (muestreo) ha sido
realizada siguiendo tcnicas adecuadas.
Los datos han de ser normales en cada una de las muestras. Esto es algo que debera
ser contrastado previamente antes de utilizar el ANOVA de un factor mediante, por

ejemplo, el test de ajuste a la distribucin normal mediante el estadstico que ya


conocemos, o bien el test de d'Agostino, que veremos ms adelante en la pgina ,
y que es mucho ms cmodo de utilizar;
Las varianzas de cada muestra son todas iguales, es decir:
Para esto podemos utilizar un par de contrastes que exponemos brevemente a
continuacin: contraste de Cochran y contraste de Bartlett.

Figura: En la figura superior hay evidencia en contra


de la homocedasticidad en las tres muestras. En la
inferior, no.

11.8.2 Contraste de homocedasticidad de Cochran

Este test se aplica cuando y si ha sido verificada previamente la aleatoriedad y


la normalidad de las observaciones. En este caso . El estadstico del contraste es:

donde se define como la cuasivarianza de la muestra del nivel i, es decir


Fijado un nivel de significacin se busca en la tabla de la distribucin de Cochran el valor

y se rechaza H0 si Rexp>Rteo.

11.8.4 Contraste de homocedasticidad de Bartlett


Este test se aplica si estamos en la misma situacin que en el de Cochran, pero en este caso no es necesario el
que todas las muestras sean del mismo tamao. El estadstico del contraste es:

siendo

Se rechaza H0 si

11.8.4 Contraste de homocedasticidad de Bartlett


Este test se aplica si estamos en la misma situacin que en el de Cochran, pero en este caso no es necesario el
que todas las muestras sean del mismo tamao. El estadstico del contraste es:
siendo

Se rechaza H0 si

11.10 Problemas
1.- Para evaluar la influencia del tipo de acidosis del recin nacido en los niveles de glucemia medidos en el
cordn umbilical del mismo, se obtuvieron los datos de la siguiente tabla:

Niveles de glucemia
Controles 51 56 58 60 62 63 65 68 72 73
Acid. Respiratoria 60 65 66 68 68 69 73 75 78 80
Acid. Metablica 69 73 74 78 79 79 82 85 87 88
Acid. Mixta 70 75 76 77 79 80 82 86 88 89

Obtener conclusiones a partir de los resultados de esas muestras.

2.- Se desea saber si el grado de ansiedad es el mismo, por trmino medio, en tres enfermedades distintas.
Para ello se tomaron tres muestras de 10, 12 y 8 personas, respectivamente, con esas enfermedades,
pasndoles a cada una de ellas un test que mide el grado de ansiedad del individuo. Los resultados se dan en
la tabla adjunta.

Enfermedad Grado de ansiedad


A 4 6 5 5 6 3 3 2 6 5
B 2 1 5 5 4 6 4 4 4 3 3 2
C 7 5 8 7 9 3 5 5

Que puede concluirse de los datos?.

3.- En una experiencia para comparar la eficacia de diversas tcnicas en el tratamiento del dolor producido
por una intervencin quirrgica superficial, 28 pacientes se agruparon al azar en 4 grupos de 7, tratando al
primero con placebo, y a los siguientes con dos tipos de analgsicos (A y B) y acupuntura. Los datos se dan
en la siguiente tabla:

Tratamiento Minutos para la remisin del dolor


Placebo 35 22 5 14 38 42 65
Analgsico A 85 80 46 61 99 114 110
Analgsico B 100 107 142 88 63 94 70
Acupuntura 86 125 103 99 154 75 160

Que conclusiones pueden obtenerse de esta experiencia?.

4.- Se est llevando a cabo un estudio para comprobar el efecto de tres dietas diferentes en el nivel de
colesterina de pacientes hipercolesterinmicos. Para ello se han seleccionado al azar 3 grupos de pacientes, de
tamaos 12, 8 y 10. Los niveles de colesterina medidos despus de 2 semanas de dieta se representan a
continuacin:

Dieta Nivel de colesterina


A 2'9 3'35 3'25 3 3'3 3'1 3'25 3'25 3'1 3'05 3'25 3
B 3'15 2'95 2'8 3'1 2'75 2'6 2'8 3'05
C 3 2'6 2'65 2'2 2'55 2'3 2'35 2'6 2'35 2'6

Analice los resultados obtenidos.

5.- En un colectivo de 5 individuos se aplican 3 frmacos para estudiar su influencia sobre sus movimientos
respiratorios (nmero de inspiraciones por minuto). Los valores obtenidos para cada individuo vienen
expresados en la tabla:

Individuos
1 2 3 4 5
Antes de los tratamientos 14 16 18 15 20
Despus de I 16 17 21 16 24
Despus de II 15 14 18 15 22
Despus de III 17 16 20 13 18

Estudie si el efecto de estos frmacos en la variacin respiratoria producida puede considerarse o no el


mismo.

12. Contrastes no paramtricos


12.2 Introduccin
Hasta ahora todas las tcnicas utilizadas para realizar algn tipo de inferencia exigan:

bien asumir de ciertas hiptesis como la aleatoriedad en las observaciones que


componen la muestra, o la normalidad de la poblacin, o la igualdad de varianzas
de dos poblaciones, etc;
o bien, la estimacin de cualquier parmetro como la media, varianza, proporcin,
etc, de la poblacin.

El conjunto de estas tcnicas de inferencia se denominan tcnicas paramtricas. Existen sin embargo otros
mtodos paralelos cuyos procedimientos no precisan la estimacin de parmetros ni suponer conocida
ninguna ley de probabilidad subyacente en la poblacin de la que se extrae la muestra. Estas son las
denominadas tcnicas no paramtricas o contrastes de distribuciones libres, algunos de los cuales
desarrollamos en este captulo. Sus mayores atractivos residen en que:
Son ms fciles de aplicar que las alternativas paramtricas;
Al no exigir ninguna condicin suplementaria a la muestra sobre su proveniencia de
una poblacin con cierto tipo de distribucin, son ms generales que las
paramtricas, pudindose aplicar en los mismos casos en que estas son vlidas.

Por otro lado, esta liberacin en los supuestos sobre la poblacin tiene inconvenientes. El principal es la falta
de sensibilidad que poseen para detectar efectos importantes. En las tcnicas no paramtricas juega un papel
fundamental la ordenacin de los datos, hasta el punto de que en gran cantidad de casos ni siquiera es
necesario hacer intervenir en los clculos las magnitudes observadas, ms que para establecer una relacin de
menor a mayor entre las mismas, denominadas rangos.

12.4 Aleatoriedad de una muestra: Test de


rachas
A veces al realizar un muestreo, puede llegar a influir el orden temporal o espacial en que las muestras han
sido elegidas, con lo cual no estamos en las condiciones de un muestreo aleatorio simple, ya que la ley de
probabilidad vara de una observacin a otra. Como ilustracin obsrvese la figura adjunta. Tambin podemos
denominar a este contraste como test de independencia de las observaciones de una muestra.
Consideremos una muestra de tamao n que ha sido dividida en dos categoras y con n1 y n2
observaciones cada una. Se denomina racha a una sucesin de valores de la misma categora. Por ejemplo si
estudiamos una poblacin de personas podemos considerar como categora el sexo

En funcin de las cantidades n1 y n2 se espera que el nmero de rachas no sea ni muy pequeo ni muy
grande.
Si las observaciones son cantidades numricas estas pueden ser divididas en dos categoras que poseen

aproximadamente el mismo tamao ( ), si consideramos la mediana de las observaciones


como el valor que sirve para dividir a la muestra:

Se define la v.a. R como el nmero de rachas. Su distribucin est tabulada para los casos y

(tabla 7 de Downie). La aleatoriedad en la extraccin de la muestra se rechaza cuando

12.4.0.1 Aproximacin normal del test de rachas

Si el tamao de cualquiera de las dos muestras es mayor que 30, la distribucin de R se aproxima a una
normal de media

y varianza

y se considera el estadstico

Se rechaza la hiptesis nula (aleatoriedad) si .

12.6 Normalidad de una muestra: Test de


D'Agostino
Consideremos n observaciones, las cuales ordenamos de menor a mayor y les asignamos su rango en funcin
de este orden

Se calculan sobre la muestra la media, la desviacin tpica un estadstico T y por ltimo el estadstico del
contraste D cuya distribucin est tabulada

En la tabla de la distribucin del estadstico de D'Agostino, (tabla 8) D, para un nivel de significacin , se

busca un intervalo de modo que si se rechaza la normalidad y en otro

caso se asume. Para realizar este test es necesario que al menos .

12.8 Equidistribucin de dos poblaciones


Estas son las alternativas no paramtricas del contraste de la de Student para poblaciones normales (seccin
9, pgina ). Estn concebidas para contrastar la hiptesis de que dos muestras aleatorias independientes

provienen de poblaciones que tienen idnticas distribuciones. Para aplicar estos contrastes ser en primer
lugar necesario contrastar si cada una de las muestras se ha obtenido mediante un mecanismo aleatorio. Esto
puede realizarse mediante un test de rachas.

Supongamos que el contraste de aleatoriedad de ambas muestras (cuantitativas) no permite que sta se
rechace a un nivel de significacin . Entonces aplicaremos el contraste de Mann--Withney o el de rachas
de Wald--Wolfowitz, que exponemos a continuacin.
12.8.2 Contraste de rachas de Wald--Wolfowitz
Si combinamos las dos muestras y disponemos el conjunto completo de todas las observaciones, ordenadas de
menor a mayor, cabe esperar que bajo la hiptesis

las dos muestras estn muy entremezcladas, y por tanto el nmero de rachas, Rexp, formadas por las categoras

debe ser muy alto.

Cuando el valor terico del nmero de rachas por debajo del cual se rechaza H0,

se busca en la tabla 7 (de Downie) y entonces no se rechaza H0 si y se rechaza en otro caso.

12.8.2.1 Aproximacin normal del test de Wald--Wolfowitz

Si n1>30 o bien n2>30 se aproxima R por

donde

Luego si definimos

se rechaza la hiptesis nula si .


Si tenemos observaciones repetidas en las dos muestras se fija el criterio de colocar primero aquellas que
pertenecen a la primera muestra.

12.8.4 Contraste de Mann--Withney


El objetivo es el mismo que el del test anterior: contrastar la hiptesis

para dos muestras , cuantitativas independientes, tomadas de modo aleatorio. El contraste se efecta
combinando las dos muestras y disponiendo el conjunto completo de las observaciones, ordenado de menor a
mayor. Se asignan despus nmeros de rango a cada observacin

Se calcula despus la suma de los rangos de las observaciones pertenecientes a la primera muestra y a la
segunda, obtenindose respectivamente R1 y R2, para despus calcular los estadsticos

Entonces si la hiptesis H0 es cierta, U1 y U2tienen una distribucin de Mann--Withney de parmetros n1 y


n2que est tabulada (tabla 9) para valores en que
Para el contrate bilateral, se define

y se rechaza H0 si .

Si el contraste que pretendemos realizar es unilateral, como por ejemplo,

rechazaremos la hiptesis nula si . Si el test es el contrario

se rechaza H0 si .

12.8.4.1 Aproximacin normal del test de Mann--Withney

Cuando los tamaos de las muestras son grandes, n1,n2>40, no es posible recurrir a las tablas de Mann--
Withney. En este caso utilizamos la aproximacin normal

donde

y se utiliza el estadstico de contraste

rechazndose la equidistribucin de ambas poblaciones utilizando los mismos criterios que con los contrastes
paramtricos.
12.10 Contraste de Wilcoxon para
muestras apareadas
El contraste de Wilcoxon es la tcnica no paramtrica paralela a el de la de Student para muestras
apareadas (seccin 9, pgina ). Igualmente dispondramos de n parejas de valores (xi,yi) que podemos
considerar como una variable medida en cada sujeto en dos momentos diferentes.

El test de Wilcoxon, al igual que los otros contrastes no paramtricos puede realizarse siempre que lo sea su

homlogo paramtrico, con el inconveniente de que este ltimo detecta diferencias significativas en un
de casos que el de la de Student.

Sin embargo a veces las hiptesis necesarias para el test paramtrico (normalidad de las diferencias apareadas,
di) no se verifican y es estrictamente necesario realizar el contraste que presentamos aqu. Un caso muy claro
de no normalidad es cuando los datos pertenecen a una escala ordinal.

El procedimiento consiste en:

1.

Ordenar las cantidades de menor a mayor y obtener sus rangos.


2.
Consideramos las diferencias di cuyo signo (positivo o negativo) tiene menor
frecuencia (no consideramos las cantidades di=0) y calculamos su suma, T

Del mismo modo es necesario calcular la cantidad T', suma de los rangos de las
observaciones con signo de di de mayor frecuencia, pero si hemos ya calculado T la
siguiente expresin de T' es ms sencilla de usar

T' = m(n+1)-T

donde m es el nmero de rangos con signo de di de menor frecuencia.


3.
Si T T' es menor o igual que las cantidades que aparecen en la tabla de Wilcoxon
(tabla nmero 10), se rechaza la hiptesis nula del contraste

12.10.0.1 Aproximacin normal en el contraste de Wilcoxon

Si la distribucin de T admite una aproximacin normal

donde

por lo que el estadstico

da como criterio el rechazar H0 si .

12.12 Contraste de Kruskal-Wallis


El contraste de Kruskall-Wallis es la alternativa no paramtrica del mtodo ANOVA, es decir, sirve para
contrastar la hiptesis de que k muestras cuantitativas han sido obtenidas de la misma poblacin. La nica
exigencia versa sobre la aleatoriedad en la extraccin de las muestras, no haciendo referencia a ninguna de las
otras condiciones adicionales de homocedasticidad y normalidad necesarias para la aplicacin del test
paramtrico ANOVA.

De este modo, este contraste es el que debemos aplicar necesariamente cuando no se cumple algunas de las
condiciones que se necesitan para aplicar dicho mtodo.

Al igual que las dems tcnicas no paramtricas, sta se apoya en el uso de los rangos asignados a las
observaciones.
Para la exposicin de este contraste, supongamos que tenemos k muestras representadas en una tabla como
sigue,

Niveles Observaciones de X

Nivel x11 x12 x1n1

Nivel x21 x22 x2n2

... ...

Nivel xk1 xk2 xknk

El nmero total de elementos en todas las muestras es:

La hiptesis a contrastar es:

El modo de realizar el contraste es el siguiente:

Se ordenan las observaciones de menor a mayor, asignando a cada una de ellas su


rango (1 para la menor, 2 para la siguiente, ...,Npara la mayor).

Para cada una de las muestras, se calcula Ri, , como la suma de los
rangos de las observaciones que les corresponden. Si H0 es falsa, cabe esperar que
esas cantidades sean muy diferentes.

Se calcula el estadstico:

La regla para decidir si se ha de rechazar o no la hiptesis nula es la siguiente:

Si el nmero de muestras es k=3 y el nmero de observaciones en cada una de ellas


no pasa de 5 se rechaza H0 si el valor de Hsupera el valor terico que encontramos
en la tabla de Kruskall-Wallis --tabla nmero 11.
En cualquier otro caso, se compara el valor de H con el de la tabla de la con
k-1 grados de libertad. Se rechaza H0 si el valor del estadstico supera el valor

terico .

12.12.2 Comparaciones mltiples


En aquellas situaciones en las que se haya rechazado la hiptesis acerca de la igualdad de las distribuciones
poblacionales de las cuales hayan sido extradas las muestras, ser necesario, igual que en el caso del
ANOVA, realizar contrastes a posteriori que determinen o precisen entre qu muestras existen las diferencias
significativas que provocan el rechazar la hiptesis nula del contraste de Kruskal-Wallis.

El procedimiento consistir en los siguientes pasos:

En primer lugar determinaremos la cantidad:

Posteriormente calculamos el valor del percentil de la distribucin , z1-a.

Por ltimo calculamos la cantidad


y en lo que respecta a la regla de decisin diremos que existen diferencias

significativas entre dos poblaciones siempre que:

donde es el rango medio de la muestra i, es decir,


no admitiendo posibles diferencias en otro caso.

12.14 Problemas
Ejercicio 12..1. Recientes estudios sobre el ejercicio de la Medicina en centros en los que no actan
estudiantes, indican que la duracin media de la visita por paciente es de 22 minutos. Se cree que en centros
donde con un elevado nmero de estudiantes en prcticas esta cifra es menor. Se obtuvieron los siguientes
datos sobre las visitas de 20 pacientes aleatoriamente seleccionados:

Duracin en minutos de la visita


21'6 13'4 20'4 16'4 23'5 26'8 24'8 19'3
23'4 9'4 16'8 21'9 24'9 15'6 20'1 16'2
18'7 18'1 19'1 18'9
1.
Constituyen estos datos una muestra aleatoria?
2.
Podemos concluir en base a estos datos que la poblacin de la cual fue extrada
esta muestra sigue una distribucin Normal?

Ejercicio 12..2. Se realiza un estudio para determinar los efectos de poner fin a un bloqueo renal en pacientes
cuya funcin renal est deteriorada a causa de una metstasis maligna avanzada de causa no urolgica. Se
mide la tensin arterial de cada paciente antes y despus de la operacin. Se obtienen los siguientes
resultados:

Tensin arterial
Antes 150 132 130 116 107 100 101 96 90 78
Despus 90 102 80 82 90 94 84 93 89 8?????

Se puede concluir que la intervencin quirrgica tiende a disminuir la tensin arterial?

Ejercicio 12..3. Se ensayaron dos tratamientos antirreumticos administrados al azar, sobre dos grupos de 10
pacientes, con referencia a una escala convencional (a mayor puntuacin, mayor eficacia), valorada despus
del tratamiento. Los resultados fueron:

Nivel de eficacia del tratamiento


Tratamiento primero 12 15 21 17 38 42 10 23 35 28
Tratamiento segundo 21 18 25 14 52 65 40 43 35 42

Decidir si existe diferencia entre los tratamientos.

Ejercicio 12..4. Puesto que el hgado es el principal lugar para el metabolismo de los frmacos, se espera que
los pacientes con enfermedades de hgado tengan dificultades en la eliminacin de frmacos. Uno de tales
frmacos es la fenilbutazona. Se realiza un estudio de la respuesta del sistema a este frmaco. Se estudian tres
grupos: controles normales, pacientes con cirrosis heptica, pacientes con hepatitis activa crnica. A cada
individuo se les suministra oralmente 19 mg de fenilbutazona/Kg. de peso. Basndose en los anlisis de
sangre se determina para cada uno el tiempo de mxima concentracin en plasma (en horas). Se obtienen
estos datos:

Normal Cirrsis Hepattis


4 22,6 16,6
30,6 14,4 12,1
26,8 26,3 7,2
37,9 13,8 6,6
13,7 17,4 12,5
49 15'1
6,7
20

Se puede concluir que las tres poblaciones difieren respecto del tiempo de mxima concentracin en plasma
de fenilbutazona?

Ejercicio 12..5. El administrador de un laboratorio est considerando la compra de un aparato para analizar
muestras de sangre. En el mercado hay 5 de tales aparatos. Se le pide a cada uno de los 7 tcnicos mdicos
que despus de probar los aparatos, les asignen un rango de acuerdo con el orden de preferencia, dndole el
rango 1 al preferido. Se obtienen los siguientes datos:

Analizador de sangre
Tcnico I II III IV V
1 1 3 4 2 5
2 4 5 1 2 3
3 4 1 3 5 2
4 1 3 2 5 4
5 1 2 3 4 5
6 5 1 3 2 4
7 5 1 4 3 2

Utilizar el contraste adecuado para determinar si los tcnicos perciben diferencias entre los aparatos.

Ejercicio 12..6. Los efectos de tres drogas con respecto al tiempo de reaccin a cierto estmulo fueron
estudiados en 4 grupos de animales experimentales. El grupo IV sirvi de grupo control, mientras que a los
grupos I, II y III les fueron aplicadas las drogas A, B y C respectivamente, con anterioridad a la aplicacin
del estmulo:

A B C Control
17 8 3 2
20 7 5 5
40 9 2 4
31 8 9 3
35

Puede afirmarse que los tres grupos difieren en cuanto al tiempo de reaccin?
Ejercicio 12..7. La tabla siguiente muestra los niveles de residuo pesticida (PPB) en muestras de sangre de 4
grupos de personas. Usar el test de Kruskal-Wallis para contrastar a un nivel de confianza de 0'05, la hiptesis
nula de que no existe diferencia en los niveles de PPB en los cuatro grupos considerados.

Niveles de PPB
Grupo I 10 37 12 31 11 9 23
Grupo II 4 35 32 19 33 18 8
Grupo III 15 5 10 12 6 6 15
Grupo IV 7 11 1 08 2 5 3

Ejercicio 12..8. La cantidad de aminocidos libres fue determinada para 4 especies de ratas sobre 1 muestra
de tamao 6 para cada especie. Comprobar si el contenido de aminocidos libres es el mismo para las 4
especies.

Especies de ratas
I II III IV
431'1 477'1 385'5 366'8
440'2 479'0 387'9 369'9
443'2 481'3 389'6 371'4
445'5 487'8 391'4 373'2
448'6 489'6 399'1 377'2
451'2 403'6 379'4 381'3

Ejercicio 12..9. Los siguientes datos nos dan el peso de comida (en Kg.) consumidos por adulto y da en
diferentes momentos en un ao. Usar un contraste no paramtrico para comprobar si el consumo de comida es
el mismo en los 4 meses considerados.

Febrero Mayo Agosto Noviembre


4,7 4,7 4,8 4,9
4,9 4,4 4,7 5,2
5,0 4,3 4,6 5,4
4,8 4,4 4,4 5,1
4,7 4,1 4,7 5,6

Ejercicio 12..10. Se hizo un estudio neurofisiolgico sobre la conduccin motora tibial posterior en dos
grupos de pacientes embarazadas con las siguientes determinaciones:
Conduccin motora tibial posterior
Primer grupo 51 40 41 53 48 50 45 58 45 44
Segundo grupo 58 43 40 45 41 42 44 52 56 48

Comprobar la igualdad o no de ambas muestras.

Ejercicio 12..11. En un experimento diseado para estimar los efectos de la inhalacin prolongada de xido
de cadmio, 15 animales de laboratorio sirvieron de sujetos para el experimento, mientras que 10 animales
similares sirvieron de controles. La variable de inters fue el nivel de hemoglobina despus del experimento.
Se desea saber si puede concluirse que la inhalacin prolongada de xido de cadmio disminuye el nivel de
hemoglobina segn los siguientes datos que presentamos:

Nivel de hemoglobina
Expuestos 14'4 14'2 13'8 16'5 14'1 16'6 15'9 15'6 14'1 15'3
15'7 16'7 13'7 15'3 14'0
No expuestos 17'4 16'2 17'1 17'5 15'0 16'0 16'9 15'0 16'3 16'8

Ejercicio 12..12. A 11 ratas tratadas crnicamente con alcohol se les midi la presin sangunea sistlica antes
y despus de 30 minutos de administrarles a todas ellas una cantidad fija de etanol, obtenindose los datos
siguientes:

Presin sangunea sistlica


Antes 126 120 124 122 130 129 114 116 119 112 118
Despus 119 116 117 122 127 122 110 120 112 110 111

Hay un descenso significativo de la presin sangunea sistlica tras la ingestin de etanol?

Ejercicio 12..13. Un test de personalidad, tiene dos formas de determinar su valoracin suponiendo
inicialmente que ambos mtodos miden igualmente la extroversin. Para ello se estudia en 12 personas
obtenindose los siguientes resultados:

Medida de la extraversin
Forma A 12 18 21 10 15 27 31 6 15 13 8 10
Forma B 10 17 20 5 21 24 29 7 11 13 8 11

Hay diferencia entre los dos mtodos?

Bibliografa
AB 92
P. ARMITAGE, G. BERRY, Estadstica para la Investigacin Biomdica. Doyma,
Barcelona, 1992.
Cal 74
G. CALOT, Curso de Estadstica Descriptiva. Paraninfo, Madrid, 1974.
Car 82
J.L. CARRASCO DE LA PEA, El Mtodo Estadstico en la Investigacin Mdica.
Karpus, Madrid, 1982.
Dan 90
W.W. DANIEL, Applied Nonparemetric Statistics. PWS-Kent Publishing Company,
Boston, 1990.
Ham 90
L.C. HAMILTON, Modern Data Analysis. Brooks/Cole Publishing Company, Pacific
Grove, 1990.
Mar 94
A. MARTN ANDRS, J.D. LUNA DEL CASTILLO, Bioestadstica para las Ciencias de
la salud. Norma, Granada, 1994.
MS 88
L.A. MARASCUILO, R.C. SERLIN, Statistical Methods for the Social and Behavioral
Sciences. W.H. Freeman and Company, Nueva York, 1988.
Pe 94
D. PEA SNCHEZ DE RIVERA, Estadstica: Modelos y Mtodos, 1. Alianza
Universidad Textos, Madrid, 1994.
RMR 91
T. RIVAS MOYA, M.A. MATEO, F. RUS DAZ, M. RUIZ, Estadstica Aplicada a las
Ciencias Sociales: Teora y Ejercicios (EAC). Secretariado de Publicaciones de la
Universidad de Mlaga, Mlaga, 1991.
RM 92
E. RUBIO CALVO, T. MARTNEZ TERRER Y OTROS, Bioestadstica. Coleccin
Monografas Didcticas, Universidad de Zaragoza, Zaragoza, 1992.
RS 79
R.D. REMINGTON, M.A. SCHORK, Estadstica Biomtrica y Sanitaria. Prentice Hall
International, Madrid, 1979.
Rum 77
L. RUIZ-MAYA, Mtodos Estadsticos de investigacin (Introduccin al Anlisis de
la Varianza). I.N.E. Artes Grficas, Madrid, 1977.
SR 90
E. SNCHEZ FONT, F. RUS DAZ, Gua para la Asignatura de Bioestadstica (EAC).
Secretariado de Publicaciones de la Universidad de Mlaga, Mlaga, 1990.
ST 85
STEEL, TORRIE, Bioestadstica (Principios y Procedimientos). Mac Graw-Hill,
Bogot, 1985.
Tso 89
M. TSOKOS, Estadstica para Psicologa y Ciencias de la Salud. Interamericana
Mac Graw-Hill, Madrid, 1989.
WG 82
S.L. WEINBERG, K.P. GOLDBERG, Estadstica Bsica para las Ciencias Sociales.
Nueva Editorial Interamericana, Mexico, 1982.
Zar 74
J.H. ZAR, Biostatistical Analysis. Prentice Hall Inc., Englewood Cliffs, 1974.

Vous aimerez peut-être aussi