Académique Documents
Professionnel Documents
Culture Documents
1. Conceptos previos
o 1.2 Introduccin
o 1.3 Qu es la estadstica?
o 1.5 Elementos. Poblacin. Caracteres
1.5.0.1 Ejemplo
o 1.7 Organizacin de los datos
1.7.2 Variables estadsticas
1.7.4 Tablas estadsticas
o 1.9 Representaciones Grficas
1.9.2 Grficos para variables cualitativas
1.9.4 Grficos para variables cuantitativas
o 1.11 Problemas
2. Medidas descriptivas
o 2.1 Introduccin
o 2.3 Estadsticos de tendencia central
2.3.2 La media
2.3.4 La mediana
2.3.6 La moda
2.3.8 Relacin entre media, mediana y moda
o 2.5 Estadsticos de posicin
2.5.0.1 Ejemplo
2.5.0.2 Ejemplo
2.5.0.3 Ejemplo
2.5.0.4 Ejemplo
o 2.7 Medidas de variabilidad o dispersin
2.7.2 Desviacin media, Dm
2.7.4 Varianza y desviacin tpica
2.7.6 Coeficiente de variacin
o 2.9 Asimetra y apuntamiento
2.9.2 Estadsticos de asimetra
2.9.4 Estadsticos de apuntamiento
o 2.11 Problemas
3. Variables bidimensionales
o 3.2 introduccin
o 3.4 Tablas de doble entrada
3.4.2 Distribuciones marginales
3.4.4 Distribuciones condicionadas
o 3.6 Dependencia funcional e independencia
3.6.2 Dependencia funcional
3.6.4 Independencia
o 3.8 Medias y varianzas marginales y condicionadas
3.8.0.1 Proposicin
o 3.10 Covarianza y coeficiente de correlacin
3.10.0.1 Proposicin
3.10.0.2 Ejemplo
3.10.2 Una interpretacin geomtrica de la covarianza
3.10.4 Interpretacin geomtrica de r
o 3.12 Regresin
3.12.2 Bondad de un ajuste
3.12.4 Regresin lineal
o 3.14 Problemas
4. Clculo de probabilidades y variables aleatorias
o 4.2 introduccin
o 4.4 Experimentos y sucesos aleatorios
4.4.0.0.0.1 Suceso seguro:
4.4.0.0.0.2 Suceso imposible:
4.4.0.0.0.3 Suceso contrario a un suceso A:
4.4.0.1 Ejemplo
o 4.6 Operaciones bsicas con sucesos aleatorios
4.6.0.0.0.1 Unin:
4.6.0.0.0.2 Interseccin:
4.6.0.0.0.3 Diferencia:
4.6.0.0.0.4 Diferencia simtrica:
o 4.8 Experimentos aleatorios y probabilidad
4.8.0.1 Ejemplo
4.8.2 Probabilidad de Laplace
4.8.4 Definicin axiomtica de probabilidad
o 4.10 Probabilidad condicionada e independencia de sucesos
4.10.0.1 Ejemplo
4.10.0.2 Observacin
o 4.12 Ciertos teoremas fundamentales del clculo de probabilidades
4.12.0.1 Proposicin
4.12.0.2 Ejemplo
4.12.0.3 Ejemplo
4.12.0.4 Teorema (Probabilidad compuesta)
4.12.0.5 Teorema (Probabilidad total)
4.12.0.6 Ejemplo
4.12.0.7 Teorema (Bayes)
4.12.0.8 Ejemplo
4.12.0.9 Observacin
o 4.14 Tests diagnsticos
4.14.0.1 Ejemplo
o 4.16 Problemas
5. Variables aleatorias
o 5.2 Introduccin
5.2.0.1 Observacin
5.2.0.2 Observacin
o 5.4 Variables aleatorias discretas
5.4.0.1 Observacin
5.4.0.2 Proposicin (Distribuciones discretas)
o 5.6 Variables aleatorias continuas
5.6.0.1 Observacin
5.6.0.2 Observacin
5.6.0.3 Proposicin
5.6.2 Cambio de variable
o 5.8 Medidas de tendencia central y dispersin de v.a.
5.8.2 Valor esperado o esperanza matemtica
5.8.4 Varianza
5.8.6 Momentos de una v.a.
5.8.8 Desigualdad de Tchebycheff y v.a. tipificadas
5.8.10 Funcin caracterstica
6. Principales leyes de distribucin de variables aleatorias
o 6.2 Introduccin
o 6.4 Distribuciones discretas
6.4.2 Distribucin de Bernoulli
6.4.4 Distribucin binomial
6.4.6 Distribucin geomtrica ( o de fracasos)
6.4.8 Distribucin binomial negativa
6.4.10 Distribucin hipergeomtrica
6.4.12 Distribucin de Poisson (o de los sucesos raros)
o 6.6 Reproductividad de familias de v.a.
o 6.8 Distribuciones continuas
6.8.2 Distribucin uniforme o rectangular
6.8.4 Distribucin exponencial
6.8.6 Distribucin normal o gaussiana
6.8.8 Distribucin
6.8.10 Distribucin de Student
6.8.12 La distribucin de Snedecor
o 6.10 Problemas
I. Inferencia estadstica
o 7. Introduccin a la inferencia
7.2 Introduccin
7.4 Tcnicas de muestreo sobre una poblacin
7.4.2 Muestreo aleatorio
7.4.4 Muestreo aleatorio estratificado
7.4.6 Muestreo sistemtico
7.4.8 Muestreo por conglomerados
7.6 Propiedades deseables de un estimador
7.6.0.1 Ejemplo
7.6.2 Carencia de sesgo
7.6.4 Consistencia
7.6.6 Eficiencia
7.6.8 Suficiencia
7.6.10 Estimadores de mxima verosimilitud
7.6.12 Algunos estimadores fundamentales
o 8. Estimacin confidencial
8.2 Introduccin
8.4 Intervalos de confianza para la distribucin normal
8.4.2 Intervalo para la media si se conoce la varianza
8.4.4 Intervalo para la media (caso general)
8.4.6 Intervalo de confianza para la varianza
8.4.8 Estimacin del tamao muestral
8.4.10 Intervalos para la diferencia de medias de dos
poblaciones
8.6 Intervalos de confianza para variables dicotmicas
8.6.2 Intervalo para una proporcin
8.6.4 Eleccin del tamao muestral para una proporcin
8.6.6 Intervalo para la diferencia de dos proporciones
8.8 Problemas
o 9. Contrastes de hiptesis
9.2 Introduccin
9.2.0.1 Ejemplo
9.2.2 Observaciones
9.4 Contrastes paramtricos en una poblacin normal
9.4.2 Contrastes para la media
9.4.4 Contrastes para la varianza
9.6 Contrastes de una proporcin
9.6.0.1 Contraste bilateral
9.6.0.2 Contrastes unilaterales
9.8 Contrastes para la diferencia de medias apareadas
9.8.0.1 Contraste bilateral
9.8.0.2 Contrastes unilaterales
9.8.0.3 Observacin
9.10 Contrastes de dos distribuciones normales independientes
9.10.2 Contraste de medias con varianzas conocidas
9.10.4 Contraste de medias homocedticas
9.10.6 Contraste de medias no homocedticas
9.10.8 Contrastes de la razn de varianzas
9.10.10 Caso particular: Contraste de homocedasticidad
9.12 Contrastes sobre la diferencia de proporciones
9.12.0.1 Contraste bilateral
9.12.0.2 Contrastes unilaterales
9.14 Problemas
o 10. Contrastes basados en el estadstico Ji-Cuadrado
10.2 Introduccin
10.4 El estadstico y su distribucin
10.4.0.1 Observacin
10.4.0.2 Observacin
10.4.0.3 Observacin
10.4.0.4 Ejemplo
10.4.0.5 Observacin
10.6 Contraste de bondad de ajuste para distribuciones
10.6.2 Distribuciones de parmetros conocidos
10.6.4 Distribuciones con parmetros desconocidos
10.8 Problemas
o 11. Anlisis de la varianza
11.2 Introduccin
11.4 ANOVA con un factor
11.4.0.1 Observacin
11.4.2 Especificacin del modelo
11.4.4 Algo de notacin relativa al modelo
11.4.6 Forma de efectuar el contraste
11.4.8 Mtodo reducido para el anlisis de un factor
11.4.10 Anlisis de los resultados del ANOVA:
Comparaciones mltiples
11.6 ANOVA de varios factores
11.8 Consideraciones sobre las hiptesis subyacentes en el modelo
factorial
11.8.2 Contraste de homocedasticidad de Cochran
11.8.4 Contraste de homocedasticidad de Bartlett
11.10 Problemas
o 12. Contrastes no paramtricos
12.2 Introduccin
12.4 Aleatoriedad de una muestra: Test de rachas
12.4.0.1 Aproximacin normal del test de rachas
12.6 Normalidad de una muestra: Test de D'Agostino
12.8 Equidistribucin de dos poblaciones
12.8.2 Contraste de rachas de Wald--Wolfowitz
12.8.4 Contraste de Mann--Withney
12.10 Contraste de Wilcoxon para muestras apareadas
12.10.0.1 Aproximacin normal en el contraste de Wilcoxon
12.12 Contraste de Kruskal-Wallis
12.12.2 Comparaciones mltiples
12.14 Problemas
Bibliografa
I. Inferencia estadstica
7. Introduccin a la inferencia
7.2 Introduccin
El propsito de un estudio estadstico suele ser, como hemos venido citando, extraer
conclusiones acerca de la naturaleza de una poblacin. Al ser la poblacin grande y no
poder ser estudiada en su integridad en la mayora de los casos, las conclusiones obtenidas
deben basarse en el examen de solamente una parte de sta, lo que nos lleva, en primer
lugar a la justificacin, necesidad y definicin de las diferentes tcnicas de muestreo.
Los primeros trminos obligados a los que debemos hacer referencia, definidos en el primer
captulo, sern los de estadstico y estimador.
Dentro de este contexto, ser necesario asumir un estadstico o estimador como una
variable aleatoria con una determinada distribucin, y que ser la pieza clave en las dos
amplias categoras de la inferencia estadstica: la estimacin y el contraste de hiptesis.
Cmo deducir la ley de probabilidad sobre determinado carcter de una poblacin cuando
slo conocemos una muestra?
Este es un problema al que nos enfrentamos cuando por ejemplo tratamos de estudiar la
relacin entre el fumar y el cncer de pulmn e intentamos extender las conclusiones
obtenidas sobre una muestra al resto de individuos de la poblacin.
Coste reducido:
Si los datos que buscamos los podemos obtener a partir de una pequea parte del
total de la poblacin, los gastos de recogida y tratamiento de los datos sern
menores. Por ejemplo, cuando se realizan encuestas previas a un referndum, es
ms barato preguntar a 4.000 personas su intencin de voto, que a 30.000.000;
Mayor rapidez:
Estamos acostumbrados a ver cmo con los resultados del escrutinio de las primeras
mesas electorales, se obtiene una aproximacin bastante buena del resultado final de
unas elecciones, muchas horas antes de que el recuento final de votos haya
finalizado;
Ms posibilidades:
Para hacer cierto tipo de estudios, por ejemplo el de duracin de cierto tipo de
bombillas, no es posible en la prctica destruirlas todas para conocer su vida media,
ya que no quedara nada que vender. Es mejor destruir slo una pequea parte de
ellas y sacar conclusiones sobre las dems.
De este modo se ve que al hacer estadstica inferencial debemos enfrentarnos con dos
problemas:
Consideremos una poblacin finita, de la que deseamos extraer una muestra. Cuando el
proceso de extraccin es tal que garantiza a cada uno de los elementos de la poblacin la
misma oportunidad de ser incluidos en dicha muestra, denominamos al proceso de
seleccin muestreo aleatorio.
Si no ha sido elegido en primer lugar (lo que ocurre con una probabilidad de ),
de .
cualquiera es
es decir,
Las cantidades
pueden ser consideradas como observaciones de una v.a. U, que sigue una distribucin
uniforme en el intervalo [0,1]
7.4.2.4 Mtodo de Montecarlo
El mtodo de Montecarlo es una tcnica para obtener muestras aleatorias simples de una
v.a. X, de la que conocemos su ley de probabilidad (a partir de su funcin de distribucin
F). Con este mtodo, el modo de elegir aleatoriamente un valor de X siguiendo usando su
ley de probabilidad es:
1.
Usando una tabla de nmeros aleatorios7.1 se toma un valor u de una v.a.
.
2.
Si X es continua tomar como observacin de X, la cantidad x=F-1(u). En el caso en
que X sea discreta se toma x como el percentil de X, es decir el valor ms
7.4.2.5 Ejemplo
ti xi = F-1(ui)
Obsrvese que como era de esperar, las observaciones xi tienden a agruparse alrededor de la
su dispersin con respecto al valor central es pequea, lo que implica que probablemente el
valor medio estar muy prximo a 0, como se puede calcular:
7.4.4.1 Ejemplo
Supongamos que realizamos un estudio sobre la poblacin de estudiantes de una
Universidad, en el que a travs de una muestra de 10 de ellos queremos obtener
informacin sobre el uso de barras de labios.
Por otra parte, con toda seguridad la precisin sobre el carcter que estudiamos, ser muy
alta en el grupo de los varones aunque en la muestra haya muy pocos (pequea varianza),
mientras que en el grupo de las mujeres habr mayor dispersin. Cuando las varianzas
poblacionales son pequens, con pocos elementos de una muestra se obtiene una
informacin ms precisa del total de la poblacin que cuando la varianza es grande. Por
tanto, si nuestros medios slo nos permiten tomar una muestra de 10 alumnos, ser ms
conveniente dividir la muestra en dos estratos, y tomar mediante muestreo aleatorio simple
cierto nmero de individuos de cada estrato, de modo que se elegirn ms individuos en los
grupos de mayor variabilidad. As probablemente obtendramos mejores resultados
estudiando una muestra de
1 varn.
9 hembras.
Sea n el nmero de individuos de la poblacin total que forman parte de alguna muestra:
Cuando se realiza un muestreo estratificado, los tamaos muestrales en cada uno de los
estratos, ni, los elige quien hace el muestreo, y para ello puede basarse en alguno de los
siguientes criterios:
Elegir los ni de tal modo que se minimice la varianza del estimador, para un coste
especificado, o bien,
habiendo fijado la varianza que podemos admitir para el estimador, minimizar el
coste en la obtencin de las muestras.
Para ajustar el tamao de los estratos cuando conocemos la dispersin interna de cada uno
de los mismos, tenemos el siguiente resultado:
7.4.4.4 Teorema
[Asignacin de Neyman] Sea E una poblacin con N elementos, dividida en k estratos, con
Sea n el nmero total de elementos al realizar el muestreo, y que se dividen en cada estrato
como
Sea X la v.a. que representa el carcter que intentamos estudiar. Sobre cada estrato puede
definirse entonces la v.a.
como el valor medio de X obtenida en una muestra de tamao ni en el estrato Ei. Sea
se minimiza cuando
donde
Cuando los elementos de la poblacin estn ordenados en fichas o en una lista, una manera
de muestrear consiste en
Sea ;
Elegir aleatoriamente un nmero m, entre 1 y k;
Tomar como muestra los elementos de la lista:
7.4.6.1 Observacin
Se puede comprobar que con este mtodo todos los elementos de la lista tienen la misma
probabilidad de seleccin.
Si intentamos hacer un estudio sobre los habitantes de una ciudad, el muestreo aleatorio
simple puede resultar muy costoso, ya que estudiar una muestra de tamao n implica enviar
a los encuestadores a npuntos distintos de la misma, de modo que en cada uno de ellos slo
se realiza una entrevista. En esta situacin es ms econmico realizar el denominado
muestreo por conglomerados, que consiste en elegir aleatoriamente ciertos barrios dentro
de la ciudad, para despus elegir calles y edificios. Una vez elegido el edificio, se entrevista
a todos los vecinos.
Intuitivamente, las caractersticas que seran deseables para esta nueva variable aleatoria
(que usaremos para estimar el parmetro desconocido) deben ser:
Consistencia
Cuando el tamao de la muestra crece arbitrariamente, el valor estimado se
aproxima al parmetro desconocido.
Carencia de sesgo
El valor medio que se obtiene de la estimacin para diferentes muestras debe ser el
valor del parmetro.
Eficiencia
Al estimador, al ser v.a., no puede exigrsele que para una muestra cualquiera se
obtenga como estimacin el valor exacto del parmetro. Sin embargo podemos
pedirle que su dispersin con respecto al valor central (varianza) sea tan pequea
como sea posible.
Suficiencia
El estimador debera aprovechar toda la informacin existente en la muestra.
7.6.0.1 Ejemplo
Consideremos una v.a. de la que slo conocemos que su ley de distribucin es gaussiana,
Hemos dicho que el estimador sirve para aproximar el valor de un parmetro desconocido,
pero... si el parmetro es desconocido cmo podemos decir que un estimador dado sirve
para aproximarlo? As pues, es necesario que definamos en qu sentido un estimador es
bueno para cierto parmetro.
La carencia de sesgo puede interpretarse del siguiente modo: Supongamos que se tiene un
nmero indefinido de muestras de una poblacin, todas ellas del mismo tamao n. Sobre
cada muestra el estimador nos ofrece una estimacin concreta del parmetro que buscamos.
Pues bien, el estimador es insesgado, si sobre dicha cantidad indefinida de estimaciones, el
valor medio obtenido en las estimaciones es (el valor que se desea conocer).
7.6.4 Consistencia
7.6.4.1 Teorema
Como consecuencia de de la desigualdad de Thebycheff (pgina ) se puede demostrar el
siguiente resultado:
entonces es consistente.
7.6.6 Eficiencia
que si
7.6.8 Suficiencia
Esta definicin as enunciada tal vez resulte un poco oscura, pero lo que expresa es que un
estimador es suficiente, si agota toda la informacin existente en la muestra que sirva para
estimar el parmetro.
7.6.8.1 Teorema
siendo h una funcin no negativa que no depende de y r una funcin que slo depende del
parmetro y de la muestra a travs del estimador.
Esta funcin que depende de n+1 cantidades podemos considerarla de dos maneras:
En este punto podemos plantearnos el que dado una muestra sobre la que se ha observado
los valores xi, una posible estimacin del parmetro es aquella que maximiza la funcin de
verosimilitud (cf. figura 7.1)
1.
Son consistentes;
2.
Vamos a estudiar las propiedades de ciertos estimadores que por su importancia en las
aplicaciones resultan fundamentales: estimadores de la esperanza matemtica y varianza de
una distribucin de probabilidad.
verifica:
Por tanto es un estimador insesgado. Si adems sabemos que X se distribuye segn una ley
gaussiana, es sencillo comprobar que coincide con el estimador de mxima verosimilitud
(figura 7.3):
7.6.12.2 Proposicin
Demostracin
Figura: La distribucin del estimador muestral del parmetro poblacional , tiene por valor esperado
Podemos comprobar que cuando el carcter que se estudia sobre la poblacin es gaussiano,
en realidad este es el estimador mximo verosmil para la varianza. Sin embargo se
comprueba tambin su falta de sesgo, lo que hace mas adecuado que se utilice como
estimador de la varianza al siguiente concepto: cuasi varianza muestral
7.6.12.4 Proposicin
Demostracin
7.6.12.5 Proposicin
El valor esperado del estimador
an,
Demostracin
Comenzamos escribiendo
Luego
7.6.12.6 Cuasivarianza muestral
Esa esperanza puede ser calculada de un modo ms directo, ya que la distribucin del
estimador es conocida usando el teorema de Cochran (pgina ):
luego
Figura: Funcin de densidad del estadstico que relaciona , y los grados de libertad de la muestra
(n-1). La falta de simetra del mismo hace que su valor esperado (n-1) se desplace a la derecha de la moda
(asimetra positiva).
8. Estimacin confidencial
8.2 Introduccin
La estimacin confidencial consiste en determinar un posible rango de valores o intervalo,
en los que pueda precisarse --con una determinada probabilidad-- que el valor de un
parmetro se encuentra dentro de esos lmites. Este parmetro ser habitualmente una
proporcin en el caso de variables dicotmicas, y la media o la varianza para distribuciones
gaussianas.
Ms adelante, consideramos el caso en que tenemos dos poblaciones donde cada una sigue
Este caso que planteamos es ms a nivel terico que prctico: difcilmente vamos a poder
conocer con exactitud mientras que es desconocido. Sin embargo nos aproxima del
modo ms simple a la estimacin confidencial de medias.
Para estimar , el estadstico que mejor nos va a ayudar es , del que conocemos su ley
de distribucin:
Este es el modo en que haremos siempre la estimacin puntual: buscaremos una relacin
en la que intervengan el parmetro desconocido junto con su estimador y de modo que
estos se distribuyan segn una ley de probabilidad que es bien conocida y a ser posible
tabulada.
De este modo, fijado , consideramos la v.a. y tomamos un intervalo
que contenga una masa de probabilidad de . Este intervalo lo queremos tan pequeo
como sea posible. Por ello lo mejor es tomarlo simtrico con respecto a la media (0), ya que
all es donde se acumula ms masa (vase la figura 8.1). As las dos colas de la distribucin
(zonas ms alejadas de la media) se repartirn a partes iguales el resto de la masa de
probabilidad, .
Como hemos mencionado, los casos anteriores se presentarn poco en la prctica, ya que lo
usual es que sobre una poblacin quizs podamos conocer si se distribuye normalmente,
pero el valor exacto de los parmetros y no son conocidos. De ah nuestro inters en
buscar intervalos de confianza para ellos.
El problema que tenemos en este caso es ms complicado que el anterior, pues no es tan
sencillo eliminar los dos parmetros a la vez. Para ello nos vamos a ayudar de lo siguiente:
y que adems estas dos ltimas distribuciones son independientes. A partir de estas
relaciones podemos construir una distribucin de Student con n-1 grados de libertad (cf.
figura 8.3):
Figura: La distribucin es algo diferente a cuando n es
pequeo, pero conforme ste aumenta, ambas distribuciones se
aproximan.
Al igual que en el caso del clculo del intervalo de confianza para cuando es
conocido, podemos en el caso desconocido, utilizar la funcin de verosimilitud
(figura8.5) para representarlo geomtricamente. En este caso se usa la notacin:
8.4.4.1 Ejemplo
Solucin:
En primer lugar, en estadstica inferencial, los estadsticos para medir la dispersin ms
convenientes son los insesgados. Por ello vamos a dejar de lado la desviacin tpica
muestral, para utilizar la cuasidesviacin tpica:
es decir,
o dicho de forma ms precisa: Con un nivel de confianza del podemos decir que la
media poblacional est en el intervalo siguiente (vase la Figura):
Figura: Clculo del intervalo de confianza para la media usando para ello la
distribucin de Student y la funcin de verosimilitud asociada, la cual est tiene su
propiedad de la distribucin :
Consideremos dos cuantiles de esta distribucin que nos dejen una probabilidad en la
``zona central'' de la distribucin (cf. figura 8.7):
Solucin:
Para estimar un intervalo de confianza para (varianza poblacional) el estadstico que nos
resulta til es:
Entonces el intervalo de confianza que buscamos lo obtenemos mediante (cf. figura 8.8)
distribucin .
Por tanto, para el valor poblacional de la desviacin tpica tenemos que
con una confianza del 95%, que por supuesto contiene a las estimaciones puntuales
Para ello, recordemos que un intervalo de confianza para una media en el caso general se
escribe como:
Si N es suficientemente grande, la distribucin de Student se aproxima a la distribucin
normal. Luego una manera de obtener la precisin buscada consiste en elegir N con el
siguiente criterio:
8.4.8.1 Ejemplo
Para ello se tom una muestra de 25 individuos (que podemos considerar piloto), que
ofreci los siguientes resultados:
Calcular el tamao que debera tener una muestra para que se obtuviese un intervalo de
Solucin:
Obsrvese que sobre la muestra piloto, el error cometido al estimar el intervalo al fue
aproximadamente de 4'2 cm por lo que si buscamos un intervalo de confianza tan preciso,
el tamao de la muestra, N, deber ser bastante mayor. En este caso se obtiene:
Por tanto, si queremos realizar un estudio con toda la precisin requerida en el enunciado se
debera tomar una muestra de 694 individuos. Esto es una indicacin de gran utilidad antes
de comenzar el estudio. Una vez que el muestreo haya sido realizado, debemos confirmar
que el error para el nivel de significacin dado es inferior o igual a 1 cm, utilizando la
muestra obtenida.
Consideremos el caso en que tenemos dos poblaciones de modo que el carcter que
estudiamos en ambas (X1 y X2) son v.a. distribuidas segn leyes gaussianas
En cada una de estas poblaciones se extrae mediante muestreo aleatorio simple, muestras
que no tienen por que ser necesariamente del mismo tamao (respectivamente n1 y n2)
Podemos plantearnos a partir de las muestras el saber qu diferencias existen entre las
medias de ambas poblaciones, o por ejemplo estudiar las relacin existente entre sus
dispersiones respectivas. A ello vamos a dedicar los siguientes puntos.
8.4.10.1 Intervalo para la diferencia de medias homocedticas
Por razones anlogas a las expuestas en el caso de una poblacin una poblacin, se tiene
que
El siguiente cociente se distribuye entonces como una de Student con n1+n2-2 grados de
libertad
En ambos grupos los pesos de los recin nacidos provienen de sendas distribuciones
normales de medias desconocidas, y con varianzas que si bien son desconocidas, podemos
suponer que son las mismas. Calcular en cuanto influye el que la madre sea fumadora en el
peso de su hijo.
Solucin:
Si queremos estimar en cuanto influye el que la madre sea fumadora en el peso de su hijo,
podemos estimar un intervalo de confianza para , lo que nos dar la diferencia de
peso esperado entre un nio del primer grupo y otro del segundo. El estadstico que se ha de
aplicar para esta cuestin es:
donde
pruebas8.1, .
La distribucin del nmero de xitos es binomial, y puede ser aproximada a la normal
cuando el tamao de la muestra n es grande, y p no es una cantidad muy cercana a cero o
uno:
Esta expresin presenta dificultades para el clculo, siendo ms cmodo sustituirla por la
siguiente aproximacin:
8.6.2.1 Ejemplo
Se quiere estimar el resultado de un referndum mediante un sondeo. Para ello se realiza
un muestreo aleatorio simple con n=100 personas y se obtienen 35% que votarn a favor y
65% que votarn en contra (suponemos que no hay indecisos para simplificar el problema a
una variable dicotmica). Con un nivel de significacin del 5%, calcule un intervalo de
confianza para el verdadero resultado de las elecciones.
Solucin: Dada una persona cualquiera (i) de la poblacin, el resultado de su voto es una
variable dicotmica:
El parmetro a estimar en un intervalo de confianza con es p, y tenemos sobre
una muestra de tamao n=100, la siguiente estimacin puntual de p:
Sabemos que
En la prctica el error que se comete no es muy grande si tomamos algo ms simple como
Por tanto, tenemos con esa muestra un error aproximado de 9,3 puntos al nivel de confianza
del 95%.
En un ejemplo previo con una muestra de 100 individuos se realiz una estimacin
confidencial, con un 95% de confianza, del porcentaje de votantes a una cuestin en un
referndum, obtenindose un margen de error de 9,3 puntos.
Por tanto un valor de N que satisfaga nuestros requerimientos con respecto al error sera:
Si en un principio no tenemos una idea sobre que valores puede tomar p, debemos
considerar el peor caso posible, que es en el que se ha de estimar el tamao muestral
cuando p=q=1/2. As:
8.6.4.1 Ejemplo
Continuemos el ltimo ejemplo. Se quiere estimar el resultado de un referndum mediante
un sondeo, y sin tener una idea sobre el posible resultado del mismo, se desea conocer el
tamao de muestra que se ha de tomar para obtener un intervalo al 97% de confianza, con
un error del 1
Solucin:
Como no se tiene una idea previa del posible resultado del referndum, hay que tomar un
tamao de muestra, N, que se calcula mediante:
As para tener un resultado tan fiable, el nmero de personas a entrevistar debe ser muy
elevado --lo que puede volver excesivamente costoso el sondeo.
Vamos a considerar que tenemos dos poblaciones de modo que en cada una de ellas
estudiamos una v.a. dicotmica (Bernoulli) de parmetros respectivos p1 y p2. De cada
poblacin vamos a extraer muestras de tamao n1 y n2
Entonces
Esta ltima relacin se puede aproximar por otra que simplifica bastante los clculos:
Por el mismo razonamiento que en el caso de una poblacin llegamos a que una
aproximacin para un intervalo de confianza al nivel para la diferencia de
proporciones de dos poblaciones es:
8.8 Problemas
Ejercicio 8..1. Se ha medido el volumen diario de bilis, expresado en litros, en 10
individuos sanos, obtenindose
0,98; 0,85; 0,77; 0,92; 1,12; 1,06; 0,89; 1,01; 1,21; 0,77.
Cuanto vale la produccin diaria media de bilis en individuos sanos suponiendo que la
muestra ha sido obtenida por muestreo aleatorio simple sobre una poblacin normal?
Ejercicio 8..2. La cantidad mnima requerida para que un anestsico surta efecto en una
intervencin quirrgica fue por trmino medio de 50 mg, con una desviacin tpica de
10,2 mg, en una muestra de 60 pacientes. Obtener un intervalo de confianza para la media
al 99%, suponiendo que la muestra fue extrada mediante muestreo aleatorio simple sobre
una poblacin normal.
puntuales: , ?
1.
Obtener un intervalo de confianza (al 95%) para el peso medio poblacional.
2.
Cuntos nios habra que tomar para estimar dicha media con una precisin de
15 gr?
Ejercicio 8..7. En un determinado servicio de odontologa se sabe que el 22% de las visitas
llevan consigo una extraccin dentaria inmediata. En cierto ao, de 2.366 visitas, 498
dieron lugar a una extraccin inmediata. Entran en contradiccin las cifras de ese ao con
el porcentaje establecido de siempre?
Ejercicio 8..8. Slo una parte de los pacientes que sufren un determinado sndrome
neurolgico consiguen una curacin completa; Si de 64 pacientes observados se han curado
41, dar una estimaciones puntual y un intervalos de la proporcin de los que sanan. Qu
nmero de enfermos habra que observar para estimar la proporcin de curados con un error
inferior a 0,05 y una confianza del 95%?
Ejercicio 8..10. En una determinada regin se tom una muestra aleatoria de 125
individuos, de los cuales 12 padecan afecciones pulmonares.
1.
Estmese la proporcin de afecciones pulmonares en dicha regin.
2.
Si queremos estimar dicha proporcin con un error mximo del 4%, para una
confianza del 95%, qu tamao de muestra debemos tomar?
Ejercicio 8..11. En una muestra de tabletas de aspirinas, de las cuales observamos su peso
expresado en gramos, obtenemos:
1,19; 1,23; 1,18; 1,21; 1,27; 1,17; 1,15; 1,14; 1,19; 1,2
1.
Sabiendo que un sondeo previo se ha observado un 9% de hipertensas.
2.
Sin ninguna informacin previa.
9. Contrastes de hiptesis
9.2 Introduccin
Pueden presentarse en la prctica, situaciones en las que exista una teora preconcebida
relativa a la caracterstica de la poblacin sometida a estudio. Tal sera el caso, por ejemplo
si pensamos que un tratamiento nuevo puede tener un porcentaje de mejora mayor que otro
estndar, o cuando nos planteamos si los nios de las distintas comunidades espaolas
tienen la misma altura. Este tipo de circunstancias son las que nos llevan al estudio de la
parcela de la Estadstica Inferencial que se recoge bajo el ttulo genrico de Contraste de
Hiptesis. Implica, en cualquier investigacin, la existencia de dos teoras o hiptesis
implcitas, que denominaremos hiptesis nula e hiptesis alternativa, que de alguna manera
reflejarn esa idea a priori que tenemos y que pretendemos contrastar con la ``realidad''. De
la misma manera aparecen, implcitamente, diferentes tipos de errores que podemos
cometer durante el procedimiento. No podemos olvidar que, habitualmente, el estudio y las
conclusiones que obtengamos para una poblacin cualquiera, se habrn apoyado
exclusivamente en el anlisis de slo una parte de sta. De la probabilidad con la que
estemos dispuestos a asumir estos errores, depender, por ejemplo, el tamao de la muestra
requerida. Desarrollamos en este captulo los contrastes de hiptesis para los parmetros
ms usuales que venimos estudiando en los captulos anteriores: medias, varianzas y
proporciones, para una o dos poblaciones. Los contrastes desarrollados en este captulo se
apoyan en que los datos de partida siguen una distribucin normal.
9.2.0.1 Ejemplo
Supongamos que debemos realizar un estudio sobre la altura media de los habitantes de
cierto pueblo de Espaa. Antes de tomar una muestra, lo lgico es hacer la siguiente
suposicin a priori, (hiptesis que se desea contrastar y que denotamos H0):
Al obtener una muestra de tamao n=8, podramos encontrarnos ante uno de los siguientes
casos:
1.
Muestra = {1,50 ;1,52; 1,48; 1,55; 1,60; 1,49; 1,55; 1,63}
2.
Muestra = {1,65; 1,80; 1,73; 1,52; 1,75; 1,65; 1,75; 1,78}
Intuitivamente, en el caso a sera lgico suponer que salvo que la muestra obtenida sobre
los habitantes del pueblo sea muy poco representativa9.1, la hiptesis H0 debe ser rechazada.
En el caso b tal vez no podamos afirmar con rotundidad que la hiptesis H0 sea cierta, sin
embargo no podramos descartarla y la admitimos por una cuestin de simplicidad.
Error de tipo I:
Es el error que consiste en rechazar H0 cuando es cierta. La probabilidad de cometer
este error es lo que anteriormente hemos denominado nivel de significacin. Es una
costumbre establecida el denotarlo siempre con la letra
9.2.2 Observaciones
1.
Los errores de tipo I y II no estn relacionados ms que del siguiente modo: Cuando
decrece crece. Por tanto no es posible encontrar tests que hagan tan pequeos
como queramos ambos errores simultneamente. De este modo es siempre necesario
privilegiar a una de las hiptesis, de manera que no ser rechazada, a menos que su
falsedad se haga muy evidente. En los contrastes, la hiptesis privilegiada es H0 que
slo ser rechazada cuando la evidencia de su falsedad supere el umbral del
.
2.
, es decir
no rechazar H0 rechazar H0
H0 es cierta Correcto Error tipo I
Probabilidad Probabilidad
Probabilidad Probabilidad
3.
En el momento de elegir una hiptesis privilegiada podemos en principio dudar
entre si elegir una dada o bien su contraria. Criterios a tener en cuenta en estos casos
son los siguientes:
Simplicidad cientfica: A la hora de elegir entre dos hiptesis
cientficamente razonables, tomaremos como H0 aquella que sea ms simple.
Las consecuencias de equivocarnos: Por ejemplo al juzgar el efecto que
puede causar cierto tratamiento mdico que est en fase de experimentacin,
en principio se ha de tomar como hiptesis nula aquella cuyas consecuencias
por no rechazarla siendo falsa son menos graves, y como hiptesis
alternativa aquella en la que el aceptarla siendo falsa trae peores
consecuencias. Es decir,
Otro ejemplo claro es cuando acaban de instalar un nuevo ascensor en el
edificio que habitamos y queremos saber si el ascensor caer o no al vaco
cuando nosotros estemos dentro. Una persona prudente es la que espera a
que un nmero suficiente de vecinos suyos hayan usado el ascensor (muestra
aleatoria) y realiza un test del tipo
que ocurrir que , ya que las consecuencias del error de tipo I (ir al
hospital) son mucho ms graves que las del error del tipo II (subir a pie
varios pisos).
Es decir a la hora de decidirse por una de las dos hiptesis no basta con
elegir la ms probable (nadie dira ``voy a tomar el ascensor pues la
(suponiendo claro est que la distribucin de las alturas de los espaoles siga una
distribucin normal de parmetros conocidos, por ejemplo9.3
Denotemos mediante el verdadero valor de la media en el pueblo que estudiamos. Como
la varianza de es pequea para grandes valores de n, lo lgico es pensar que si el valor
Como vemos, ahora s se puede decir que H1 es la negacin de H0. Esto es un contraste
bilateral, que son aquellos en los que la regin crtica est formada por dos intervalos
separados:
Hiptesis simple:
Aquella en la que se especifica un nico valor del parmetro. Este es el caso de las
hiptesis nulas en los dos ltimos contrastes mencionados.
Hiptesis compuesta:
Aquella en la que se especifica ms de un posible valor del parmetro. Por ejemplo
tenemos que son compuestas las hiptesis alternativas de esos mismos contrastes.
mediante muestreo aleatorio simple. Vamos a ver cuales son las tcnicas para contrastar
hiptesis sobre los parmetros que rigen X. Vamos a comenzar haciendo diferentes tipos de
contrastes para medias y despus sobre las varianzas y desviaciones tpicas.
9.4.2 Contrastes para la media
9.4.2.1 Test de dos colas con varianza conocida
Para poder acceder a las probabilidades de la normal, hemos tipificado (ya que los valores
para hacer la tipificacin son conocidos). Si H0 es cierta, entonces esperamos que el valor
zexpobtenido sobre la muestra
est cercano a cero con una gran probabilidad. Esto se expresa fijando un nivel de
significacin , y tomando como regin crtica , a los valores que son muy extremados y
con probabilidad en total, o sea,
y como regin crtica consideraremos aquella formada por los valores extremadamente
bajos de Zexp, con probabilidad , es decir
Entonces la regin de aceptacin, o de modo ms correcto, de no rechazo de la hiptesis
por simetra con respecto al caso anterior, la regin donde no se rechaza la hiptesis nula es
(vase la figura 9.3 y contrstese con la 9.2):
9.4.2.4 Observacin
Para dar una forma homognea a todos los contrastes de hiptesis es costumbre denominar
al valor del estadstico del contraste calculado sobre la muestra como valor experimental y
a los extremos de la regin crtica, como valores tericos. Definiendo entonces
Si realizamos el contraste
definimos Texp y Tteo como anteriormente y el criterio a aplicar es (vase la figura 9.6):
Solucin:
Luego, aunque podamos pensar que ciertamente el verdadero valor de no es 174, no hay
una evidencia suficiente para rechazar esta hiptesis al nivel de confianza del (cf.
figura 9.7). Es decir, no se rechaza H0.
Figura: El valor de Texp no est en la regin crtica (aunque ha
quedado muy cerca), por tanto al no ser la evidencia en contra de H0
suficientemente significativa, sta hiptesis no se rechaza.
9.4.2.7 Ejemplo
Consideramos el mismo ejemplo de antes. Visto que no hemos podido rechazar el que la
altura media de la poblacin sea igual a 174 cm, deseamos realizar el contraste sobre si la
altura media es menor de 174 cm.
Solucin:
Ahora el contraste es
Para realizar este contraste, consideramos el caso lmite y observamos si la hiptesis nula
debe ser rechazada o no. Este es:
De nuevo la tcnica a utilizar consiste en suponer que H0' es cierta y ver si el valor que
toma el estadstico
Figura: El valor te Texp est en la regin crtica, por tanto existe una
evidencia significativa en contra de H0, y a favor de H1.
Es importante observar este hecho curioso: Mientras que en el ejemplo anterior no exista
una evidencia significativa para decir que cm, el ``simple hecho" de plantearnos
un contraste que parece el mismo pero en versin unilateral nos conduce a rechazar de
modo significativo que y aceptamos que cm. Es por ello que podemos
decir que no slo H0' es rechazada, sino tambin H0. Es en este sentido en el que los tests
con H0 y H0' los consideramos equivalentes:
Consideremos que el carcter que estudiamos sobre la poblacin sea una v.a. normal cuya
media y varianza son desconocidas. Vamos a contrastar la hiptesis
frente a otras hiptesis alternativas que podrn dar lugar a contrastes bilaterales o
unilaterales. La tcnica consiste en utilizar el teorema de Cochran, para observar que el
siguiente estadstico experimental que utiliza el estimador insesgado de la varianza, posee
Entonces construimos las regiones crticas que correspondan a las hiptesis alternativas que
definimos
Tabla: Estadsticos asociados a una muestra aleatoria simple, procedente de una poblacin
normal.
La v.a. X, definida como el nmero de xitos obtenidos en una muestra de tamao n es por
definicin una v.a. de distribucin binomial:
Para el contraste
Para el test unilateral contrario, se tiene la expresin simtrica (cf. figura 9.14):
Luego
Figura: Contraste unilateral cuando se tiene
Paciente xi yi di
1 150 120 30
2 180 130 50
... ... ... ...
n 140 90 50
di = xi-yi
Supongamos que la v.a. que define la diferencia entre el antes y despus del tratamiento es
una v.a. d que se distribuye normalmente, pero cuyas media y varianza son desconocidas
en el caso en que H0 fuese cierta tendramos que el estadstico de contraste que nos
conviene es
Si el contraste es
se rechaza H0 si .
9.8.0.3 Observacin
De las que de modo independiente se extraen muestras de tamao respectivo n1 y n2. Los
tests que vamos a realizar estn relacionados con la diferencias existentes entre ambas
medias o los cocientes de sus varianzas.
De manera similar al caso del contraste para una media, queremos en esta ocasin
contrastar la hiptesis de que las dos poblaciones (cuyas varianzas suponemos conocidas)
slo difieren en una cantidad
frente a hiptesis alternativas que darn lugar a contrastes unilaterales o bilaterales como
veremos ms tarde. Para ello nos basamos en la distribucin del siguiente estadstico de
contraste:
Se define entonces
y el test consiste en
Para el test
el contraste consiste en
cuando slo conocemos que las varianzas de ambas poblaciones son iguales, pero
desconocidas. El estadstico que usaremos para el contraste fue ya introducido en la
relacin (8.3) (pgina ), pues si suponemos que H0 es cierta se tiene
mediante y .
Consideramos el contraste
en el caso ms problemtico, es decir cuando slo conocemos de las dos poblaciones que su
distribucin es normal, y que sus varianzas no son conocidas y significativamente
diferentes. En este caso el estadstico de contraste tendr una ley de distribucin muy
particular. Consistir en una distribucin de Student, con un nmero de grados de libertad
que en lugar de depender de modo determinista de la muestra (a travs de su tamao),
depende de un modo aleatorio mediante las varianzas muestrales. Concretamente, el
estadstico que nos interesa es
No desarrollamos en detalle los clculos a realizar, pues la tcnica para efectuar los
contrastes son anlogos a los vistos anteriormente cuando las varianzas son desconocidas e
iguales.
9.10.6.1 Observacin
Si lo que pretendemos contrastar es si las medias poblacionales de dos muestras
independientes obtenidas de poblaciones normales son idnticas, esto se reduce a los casos
anteriores tomando , es decir, realizando el contraste:
9.10.8 Contrastes de la razn de varianzas
Habida cuenta que la distribucin de Snedecor no es simtrica sino que slo toma valores
positivos, se rechazar la hiptesis nula cuando el el valor que tome el estadstico del
contraste al aplicarlo sobre una muestra sea muy cercano a cero, o bien, muy grande. Es
decir, se define el estadstico experimental y los lmites de la regin crtica como:
9.10.10.1 Observacin
Una de las razones de la importancia de este contraste es la siguiente: Si queremos estudiar
la diferencia entre las medias de dos poblaciones normales, el caso ms realista es
considerar un contraste donde las varianzas de las poblaciones son desconocidas. Ante esta
situacin podemos encontrarnos dos situaciones:
1.
Las dos varianzas son iguales. Este es el caso ms favorable pues utilizamos la
distribucin de Student para el contraste con un nmero de grados de libertad que
slo depende del tamao de la muestra.
2.
Las varianzas son distintas. En este caso el nmero de grados de libertad es una v.a.
(frmula de Welch) y por tanto al realizar el contraste se pierde cierta precisin.
En esta situacin lo recomendable es
En primer lugar realizar un test de homocedasticidad.
Si la igualdad de varianzas no puede ser rechazada de modo significativo, aplicamos
un test de diferencia de medias suponiendo que las varianzas son desconocidas pero
iguales. En otro caso se utiliza la aproximacin de Welch.
Solucin:
En primer lugar, por tratarse de un problema de inferencia estadstica, nos sern ms tiles
las cuasivarianzas que las varianzas. Por ello calculamos:
El contraste que debemos realizar est basado en el de la de Student para la diferencia de
medias de dos poblaciones. Para ello conocemos dos estadsticos posibles, segn que las
varianzas poblacionales de ambos grupos de ratas puedan ser supuestas iguales
(homocedasticidad) o distintas (heterocedasticidad). Para ello realizamos previamente el
contraste:
utilizando el estadstico ms sencillo (el que no necesita aproximar los grados de libertad
mediante la frmula de Welch). Para ello calculamos en primer lugar la cuasivarianza
muestral ponderada:
y posteriormente
Figura: Hay una gran evidencia en contra de la hiptesis de que ambas medias
poblacionales coincidan, y a favor de que la de la primera poblacin es mayor que la
de la segunda.
de modo que los estimadores de las proporciones en cada poblacin tienen distribuciones
que de un modo aproximado son normales (cuando n1 y n2 son bastante grandes)
El contraste que nos interesa realizar es el de si la diferencia entre las proporciones en cada
poblacin es una cantidad conocida
Entonces se define
En el contraste
se rechazar H0 si . Para el test contrario
se rechaza H0 si .
9.14 Problemas
En todos los problemas que siguen a continuacin, se supone que las muestras han sido
elegidas de modo independiente, y que las cantidades cuantitativas que se miden, se
distribuyen de modo gaussiano. En temas posteriores se ver cmo contrastar si estas
premisas pueden ser aceptadas o no al examinar las muestras.
Ejercicio 9..5. Una poblacin infantil se dice que es susceptible de recibir una campaa de
Ejercicio 9..7. Se conoce que un de los individuos tratados crnicamente con digoxina
sufren una reaccin adversa por causa de ella. A 10 pacientes se les administr durante
largo tiempo digoxina mas otros medicamentos, y de ellos 5 desarrollaron la reaccin
adversa. Puede afirmarse que la asociacin entre la digoxina y los otros medicamentos
hace variar el nmero de reacciones adversas?
Ejercicio 9..8. Para comprobar si un tratamiento con cidos grasos es eficaz en pacientes
con eczema atpico, se tomaron 10 pacientes con eczema de ms de 9 meses y se les
someti durante 3 semanas a un tratamiento ficticio (placebo) y durante las tres siguientes a
un tratamiento con cidos grasos. Tras cada periodo, un mdico ajeno al proyecto evalu la
importancia del eczema en una escala de 0 (no eczema) a 10 (tamao mximo de eczema).
Los datos fueron los siguientes:
Placebo 6 8 4 8 5 6 5 6 4 5
Tratamiento 5 6 4 5 3 6 6 2 2 6
Es eficaz el tratamiento?
Inic. 180 200 160 170 180 190 190 180 190 160 170 190 200 210 220
Fin. 140 170 160 140 130 150 140 150 190 170 120 160 170 160 150
Es efectivo el tratamiento?
Ejercicio 9..10. Muchos autores afirman que los pacientes con depresin tienen una funcin cortical por
debajo de lo normal debido a un riego sanguneo cerebral por debajo de lo normal. A dos muestras de
individuos, unos con depresin y otros normales, se les midi un ndice que indica el flujo sanguneo en la
materia gris (dado en mg/(100g/min))obtenindose:
Depresivos n1=19
Normales n2=22
Ejercicio 9..11. Por fistulizacin se obtuvo el pH de 6 muestras de bilis heptica con los siguientes resultados:
Se desea saber al nivel de significacin del 0,05 si la bilis heptica puede considerarse neutra. Si se conociera
, qu decisin tomaramos?
Ejercicio 9..12. La prueba de la d-xilosa permite la diferenciacin entre una esteatorrea originada por una
mala absorcin intestinal y la debida a una insuficiencia pancretica, de modo que cifras inferiores a 4 grs. de
d-xilosa, indican una mala absorcin intestinal. Se realiza dicha prueba a 10 individuos, obtenindose una
media de 3,5 grs. y una desviacin tpica de 0'5 grs. Sepuede decir que esos pacientes padecen una mala
absorcin intestinal?
Ejercicio 9..13. La eliminacin por orina de aldosterona est valorada en individuos normales en 12 mgs/24
h. por trmino medio. En 50 individuos con insuficiencia cardaca se observ una eliminacin media de
aldosterona de 13 mgs/24 h., con una desviacin tpica de 2,5 mgs/24 h.
1.
Son compatibles estos resultados con los de los individuos normales?
2.
La insuficiencia cardaca aumenta la eliminacin por orina de aldosterona?
Ejercicio 9..14. La tabla siguiente muestra los efectos de un placebo y de la hidroclorotiacida sobre la presin
sangunea sistlica de 11 pacientes.
Placebo 211 210 210 203 196 190 191 177 173 170 163
H-cloro 181 172 196 191 167 161 178 160 149 119 156
Segn estos datos experimentales, podemos afirmar que existe diferencia en la presin sistlica media
durante la utilizacin de estos dos frmacos?
Ejercicio 9..15. Se sabe que el 70% de los pacientes internados en un hospital traumatolgico requieren algn
tipo de intervencin quirrgica. Para determinar si un nuevo mtodo de fisioterapia reduce el porcentaje de
intervenciones, se aplica ste a 30 pacientes de los cuales 17 requieren alguna intervencin quirrgica.
Comprobar que no hay razones suficientes para afirmar la eficacia del mtodo con un nivel de confianza del
95%.
Ejercicio 9..16. De un estudio sobre la incidencia de la hipertensin en la provincia de Mlaga, se sabe que en
la zona rural el porcentaje de hipertensos es del 27,7%. Tras una encuesta a 400 personas de una zona urbana,
se obtuvo un 24% de hipertensos.
1.
Se puede decir que el porcentaje de hipertensos en la zona urbana es distinto que
en la zona rural?
2.
Es menor el porcentaje de hipertensos en la zona urbana que en la zona rural?
Ejercicio 9..17. Con cierto mtodo de enseanza para nios subnormales se obtiene una desviacin tpica de
8, en las puntuaciones de los tests finales. Se pone a prueba un nuevo mtodo y se ensaya en 51 nios. Las
calificaciones obtenidas en los tests finales dan una desviacin tpica de 10. Puede asegurarse que el nuevo
mtodo produce distinta variacin en las puntuaciones?
Ejercicio 9..18. Se desea comparar la actividad motora espontnea de un grupo de 25 ratas control y otro de
36 ratas desnutridas. Se midi el nmero de veces que pasaban delante de una clula fotoelctrica durante 24
horas. Los datos obtenidos fueron los siguientes:
Ejercicio 9..19. Se pretende comprobar la hiptesis expuesta en algunos trabajos de investigacin acerca de
que la presencia del antgeno AG-4 est relacionada con un desenlace Con ste fin, se hizo una revisin sobre
las historias clnicas de 21 mujeres muertas por carcinoma de cuello uterino, observando que 6 de ellas
presentaban el citado antgeno. Por otro lado y con fines de comparacin se tom otra muestra de 42 personas,
con edades similares a las del grupo anterior y que reaccionaron bien al tratamiento del carcinoma de cuello
uterino, en 28 de las cuales se observ la presencia del citado antgeno. Est relacionada la presencia del
antgeno con una efectividad del tratamiento?
Ejercicio 9..20. Se quiso probar si la cirrosis de hgado hacia variar el ndice de actividad de la colinesterasa
en suero. Se eligieron dos muestras aleatorias e independientes de individuos. Los resultados fueron:
Individuos normales n1 = 20
Ejercicio 9..21. Un investigador ha realizado el siguiente experimento: Tom una primera muestra de 25
pacientes que padecan cierto sntoma y otra segunda muestra de 30 pacientes con el mismo sntoma. A los de
la primera muestra les aplic un tratamiento especifico y a los de la segunda les dio un placebo. Anot el
tiempo en horas en que cada uno dijo que el sntoma haba desaparecido y obtuvo los siguientes resultados:
Muestra 1a n1=25
Muestra 2a n2=30
Ejercicio 9..22. Para comprobar si la tolerancia a la glucosa en sujetos sanos tiende a decrecer con la edad se
realiz un test oral de glucosa a dos muestras de pacientes sanos, unos jvenes y otros adultos. El test
consisti en medir el nivel de glucosa en sangre en el momento de la ingestin (nivel basal) de 100 grs. de
glucosa y a los 60 minutos de la toma. Los resultados fueron los siguientes:
Jvenes:
Basal 81 89 80 75 74 97 76 89 83 77
60 minutos 136 150 149 141 138 154 141 155 145 147
Adultos:
Basal 98 94 93 88 79 90 86 89 81 90
60 minutos 196 190 191 189 159 185 182 190 170 197
1.
Se detecta una variacin significativa del nivel de glucosa en sangre en cada
grupo?
2.
Es mayor la concentracin de glucosa en sangre a los 60 minutos, en adultos que
en jvenes?
3.
El contenido basal de glucosa en sangre, es menor en jvenes que en adultos?
4.
Se detecta a los 60 minutos una variacin del nivel de glucosa en sangre diferente
de los adultos, en los jvenes?
10. Contrastes basados en el estadstico Ji-
Cuadrado
10.2 Introduccin
Existen multitud de situaciones en el mbito de la salud en el que las variables de inters, las cuales no pueden
cuantificarse mediante cantidades numricas, entre las que el investigador est interesado en determinar
posibles relaciones. Ejemplos de este tipo de variables pueden ser las complicaciones tras una intervencin
quirrgica, el sexo, el nivel socio-cultural, etc. En este caso tendramos, a lo sumo, las observaciones
agrupadas en forma de frecuencia, dependiendo de las modalidades que presente cada paciente en cada una de
las variables, por los que los mtodos estudiados en los captulos anteriores no seran aplicables.
El objetivo de este tema es el estudio de este tipo de cuestiones en relacin con las variables cualitativas (y
tambin v.a. discretas o continuas agrupadas en intervalo). Estos son los contrastes asociados con el
estadstico . En general este tipo de tests consisten en tomar una muestra y observar si hay diferencia
significativa entre las frecuencias observadas y las especificadas por la ley terica del modelo que se
contrasta, tambin denominadas ``frecuencias esperadas".
Sin embargo, aunque ste sea el aspecto ms conocido, el uso del test no se limita al estudio de variables
cualitativas. Podramos decir que existen tres aplicaciones bsicas en el uso de este test, y cuyo desarrollo
veremos en el transcurso de este captulo:
pero nosotros vamos a usarla para v.a. ms generales. Supongamos que el resultado de un experimento
aleatorio es una clase c1, c2, ..., ck(ci, ), que puede representar valores cualitativos, discretos o
bien intervalos para variables continuas. Sea pi la probabilidad de que el resultado del experimento sea la
clase ci. Vamos a considerar contrastes cuyo objetivo es comprobar si ciertos valores pi0, propuestos para las
cantidades pi son correctas o no, en funcin de los resultados experimentales
Mediante muestreo aleatorio simple, se toma una muestra de tamao n y se obtienen a partir de ella unas
ci
c1
c2
... ...
ck
Supongamos que la hiptesis nula es cierta. Al ser pi=pi0 la proporcin de elementos de la clase ci en la
poblacin, el nmero de individuos de que presentan esta modalidad al tomar una muestra de tamao n, es
una v.a. de distribucin binomial, . Por tanto la frecuencia esperada de individuos de esa clase es
Obsrvese que a diferencia de las cantidades , que son las frecuencias que realmente se obtienen en una
muestra, las frecuencias esperadas no tienen por que ser nmeros enteros. De cualquier modo, bajo la
suposicin de que H0 es cierta cabe esperar que las diferencias entre las cantidades y sea pequea.
decidir cuando los valores de son grandes es necesario conocer su ley de probabilidad. Se tiene entonces
el siguiente resultado
Como slo son los valores grandes de los que nos llevan a rechazar H0, la regin crtica es (vase la figura
10.1
10.4.0.1 Observacin
A pesar de que el contraste parece ser bilateral al ver la expresin de la relacin (10.1), la forma de , nos
indica que el contraste es unilateral: Slo podemos saber si existe desajuste entre los esperado y lo observado,
pero no podemos contrastar hiptesis alternativas del tipo ``pi mayor que cierto valor''.
10.4.0.2 Observacin
Obsrvese que en realidad no es una variable aleatoria continua: Los posibles resultados de la muestra se
resumen en las cantidades , , ..., , que nicamente toman valores discretos. Luego las cantidades
slo puede tomar un nmero finito de valores distintos (aunque sean cantidades con decimales). Por tanto su
distribucin no es continua. Luego al realizar la aproximacin mencionada hay que precisar en qu
condiciones el error cometido es pequeo. De modo aproximado podemos enunciar el siguiente criterio que
recuerda al de la aproximacin binomial por la distribucin normal:
1.
n>30;
2.
para todo .
Sin embargo esta regla resulta demasiado estricta a la hora de aplicarla en la prctica. Se utiliza entonces una
regla ms flexible y que no sacrifica demasiada precisin con respecto a la anterior:
1.
10.4.0.3 Observacin
El lector puede considerar los contrastes con el estadstico como una generalizacin del contraste de
proporciones. Para ello le invitamos a estudiar el siguiente ejemplo.
10.4.0.4 Ejemplo
Se desea saber si cierta enfermedad afecta del mismo modo a los hombres que a las mujeres. Para ello se
considera una muestra de n=618 individuos que padecen la enfermedad, y se observa que 341 son hombres y
el resto son mujeres. Qu conclusiones se obtiene de ello?
Solucin:
El contraste a realizar se puede plantear de dos formas que despus veremos que son equivalentes:
frecuencias frecuencias
observadas esperadas diferencia
donde:
k=2es el numero de modalidades posibles que toma la variable sexo:
hombres y mujeres;
p=0 es el nmero de parmetros estimados;
h=1 es el nmeros de restricciones impuestas a los valores esperados. Slo
hay una (que es habitual), que consiste en que el nmero esperado de
enfermos entre hombres y mujeres es 60.
En conclusin, con los dos mtodos llegamos a que hay una fuerte evidencia en contra de que hay el mismo
porcentaje de hobres y mujeres que padecen la enfermedad. La ventaja de la ltima forma de plantear el
contraste (diferencia entre frecuencias observadas y esperadas) es que la tcnica se puede aplicar a casos ms
generales que variables dicotmicas, como se ver ms adelante.
10.4.0.5 Observacin
Hay una frmula alternativa para el clculo de cuya expresin es ms fcil de utilizar cuando realizamos
clculos:
Demostracin
10.6 Contraste de bondad de ajuste para
distribuciones
Vamos a aplicar el contraste para determinar a travs de una muestra si una v.a. X sigue o no cierta
distribucin. Podemos encontrarnos entonces con dos casos:
donde todos los pi estn fijados (hiptesis H0). Entonces por lo mencionado anteriormente, el contraste
consiste en:
En este contraste se comete cierto error de aproximacin y por tanto ser tanto mejor cuanto mayor sea n.
10.6.2.1 Ejemplo
Dadas dos parejas de genes Aa y Bb, la descendencia del cruce efectuado segn las leyes de Mendel, debe
estar compuesto del siguiente modo:
Leyes de Mendel
Frecuencias
Fenotipo relativas
AB 9/16
Ab 3/16
aB 3/16
ab 1/16
Elegidos 300 individuos al azar de cierta poblacin se observa la siguiente distribucin de frecuencias:
Frecuencias
Fenotipo observadas
AB 165
Ab 47
aB 67
ab 21
Total 300
Se puede aceptar que se cumplen las leyes de Mendel sobre los individuos de dicha poblacin?
Solucin:
Fenotipo
AB 165 161,33
Ab 47 42,27
aB 67 85,91
ab 21 23,52
ya que 4 son los posibles fenotipos, no se ha estimado ningn parmetro (la distribucin segn las leyes de
Mendel es conocida), y sobre las cantidades Ei existe solamente una restriccin, que es: .
tanto la significatividad del contraste es del , lo que nos conduce a rechazar la hiptesis de que
la poblacin de la que la muestra ha sido extrada sigue las leyes de Mendel.
Al mismo resultado llegamos sin calcular con precisin la significatividad del contraste, sino considerando
que el valor terico mximo que admitimos para el estadstico experimental con un nivel de significacin del
5% es el percentil 95 de , es decir,
Obsrvese tambin que el que se haya rechazado la hiptesis nula significa que hay diferencia
estadsticamente significativa entre las frecuencias observadas y las esperadas, aunque a primera vista no lo
hubisemos percibido en el grfico de la Figura 10.3.
Supongamos que la distribucin de X que queremos contrastar no especifica ciertos valores de r parmetros
Las cantidades pi son desconocidas, aunque tienen una forma en la que slo dependen del nico parmetro
que debe ser estimado a partir de la muestra (r=1): Realizando esta estimacin
Intervalo
- e1
e1 - e2
e2 - e3
ek-1 -
n 1 n
Entonces
10.6.4.3 Ejemplo
En un grupo de n=70 varones, se ha calculado su peso y se han observado las siguientes cantidades:
Peso M. clase Frecuencias
55 - 60 57,5 5
60 - 65 62,5 10
65 - 70 67,5 15
70 - 75 72,5 17
75 - 80 77,5 12
80 - 85 82,5 8
85 - 95 90 3
Solucin:
Definimos la v.a. X como el peso de un individuo elegido al azar de la poblacin de varones. El test a realizar
se escribe entonces como:
En primer lugar, vamos a unir el ltimo intervalo con el primero, para asegurarnos de que cada intervalo
contenga por lo menos 5observaciones:
una distribucin normal. Para , su estimador puntual mximo verosmil es . Para es , pero
tambin es posible utilizar . As:
Posteriormente escribimos la tabla con los valores observados y los valores esperados de suponer cierta H0:
Peso
ai - bi ni
- 60 5 5,761 4,3395
60 - 65 10 8,729 11,456
65 - 70 15 13,874 16,2174
70 - 75 17 15,687 18,4229
75 - 80 12 13,062 11,0243
80 - 11 12,887 9,3893
donde
y .
significacin . Como
entonces , luego no se puede rechazar a la vista de los datos, el que estos provengan
tres categoras en funcin de su peso en relacin con los percentiles y de la poblacin. El resultado
se expresa en la tabla siguiente:
Hay una evidencia significativa a favor de la sospecha a la vista de los resultados de la muestra?
Ejercicio 10..2. Varios libros de Medicina Interna recomiendan al mdico la palpacin de la arteria radial con
el fin de evaluar el estado de la pared arterial. Se tomaron 215 pacientes y se les clasific segn la
palpabilidad de dicha arteria (grados 0, 1 y 2 para no palpable, palpable y muy palpable o dura,
respectivamente) y segn una puntuacin de 0 a 4 en orden creciente de degeneracin arterial (evaluada tras
la muerte del paciente y su anlisis anatomo-patolgico). Los datos son los de la tabla siguiente:
Palpabilidad
Degeneracin 0 1 2
0 20 5 5
1 60 20 10
2 45 15 15
3 10 5 5
Ejercicio 10..3. Se realiz una encuesta a 2979 andaluces para evaluar su opinin acerca de la atencin
recibida en los Ambulatorios de la Seguridad Social, clasificndolos tambin en relacin a sus estudios.
Analizar los datos de la siguiente tabla:
Opinin
Nivel de estudios Buena Regular Mala
Ninguno 800 144 32
Primarios 905 312 67
Bachiller 287 157 44
Medios 95 48 11
Superiores 38 32 7
Ejercicio 10..4. Con el fin de conocer si un cierto tipo de bacterias se distribuyen al azar en un determinado
cultivo o si, por el contrario, lo hacen con algn tipo de preferencia (el centro, los extremos, etc...), se divide
un cultivo en 576 reas iguales y se cuenta el nmero de bacterias en cada rea. Los resultados son los
siguientes:
no de bacterias 0 1 2 3 4 5
no de reas 229 211 93 35 7 1
Ejercicio 10..5. La siguiente tabla recoge la distribucin de los triglicridos en suero, expresados en mg/dl en
90 nios de 6 aos:
Contrastar la hiptesis de que el nivel de triglicridos en nios de 6 aos sigue una distribucin Normal.
Ejercicio 10..6. La distribucin en Andaluca del grupo sanguneo es de un 35%, 10%, 6% y un 49% para los
grupos A, B, AB y O respectivamente. En Mlaga, se realiz el estudio en una muestra de 200 individuos
obtenindose una distribucin del 50%, 30%, 18%, y 10% para los grupos A, B AB y O respectivamente.
Se desea saber si la distribucin del grupo sanguneo en dicha provincia es igual que en Andaluca.
Ejercicio 10..7. En un estudio diseado para determinar la aceptacin por una parte de los pacientes de un
nuevo analgsico, 100 mdicos seleccionaron cada uno de ellos una muestra de 25 pacientes para participar en
el estudio. Cada paciente despus de haber tomado el nuevo analgsico durante un periodo de tiempo
determinado, fue interrogado para saber si prefera ste o el que haba tomado anteriormente con regularidad,
obteniendo los siguientes resultados:
Ejercicio 10..8. Disponemos de una muestra de 250 mujeres mayores de 18 aos, cuyos pesos son los
presentados en la tabla adjunta, y queremos saber si los datos de esta muestra provienen de una distribucin
Normal.
Pesos no de mujeres
30 - 40 16
40 - 50 18
50 - 60 22
60 - 70 51
70 - 80 62
80 - 90 55
90 - 100 22
100 - 110 4
Ejercicio 10..9. Deseamos conocer, si las distribuciones atendiendo al grupo sanguneo, en tres muestras
referidas atendiendo al tipo de tensin arterial, se distribuyen de igual manera. Para lo cual, se reuni una
muestra de 1500 sujetos a los que se les determin su grupo sanguneo y se les tom la tensin arterial,
clasificndose sta en baja, normal, y alta. Obtenindose los siguientes resultados:
Grupo sanguneo
Tensin arterial A B AB O Total
Baja 28 9 7 31 75
Normal 543 211 90 476 1.320
Alta 44 22 8 31 105
Total 615 242 105 538 1.500
Ejercicio 10..10. La recuperacin producida por dos tratamientos distintos A y B se clasifican en tres
categoras: muy buena, buena y mala. Se administra el tratamiento A a 30 pacientes y B a otros 30: De las 22
recuperaciones muy buenas, 10 corresponden al tratamiento A; de las 24 recuperaciones buenas , 14
corresponden al tratamiento A y de los 14 que tienen una mala recuperacin corresponden al tratamiento A.
Son igualmente efectivos ambos tratamientos para la recuperacin de los pacientes?
10.8 Problemas
Ejercicio 10..1. Ante la sospecha de que el hbito de fumar de una embarazada puede influir en el peso de su
hijo al nacer, se tomaron dos muestras, una de fumadoras y otra de no fumadoras, y se clasific a sus hijos en
tres categoras en funcin de su peso en relacin con los percentiles y de la poblacin. El resultado
se expresa en la tabla siguiente:
Hay una evidencia significativa a favor de la sospecha a la vista de los resultados de la muestra?
Ejercicio 10..2. Varios libros de Medicina Interna recomiendan al mdico la palpacin de la arteria radial con
el fin de evaluar el estado de la pared arterial. Se tomaron 215 pacientes y se les clasific segn la
palpabilidad de dicha arteria (grados 0, 1 y 2 para no palpable, palpable y muy palpable o dura,
respectivamente) y segn una puntuacin de 0 a 4 en orden creciente de degeneracin arterial (evaluada tras
la muerte del paciente y su anlisis anatomo-patolgico). Los datos son los de la tabla siguiente:
Palpabilidad
Degeneracin 0 1 2
0 20 5 5
1 60 20 10
2 45 15 15
3 10 5 5
Ejercicio 10..3. Se realiz una encuesta a 2979 andaluces para evaluar su opinin acerca de la atencin
recibida en los Ambulatorios de la Seguridad Social, clasificndolos tambin en relacin a sus estudios.
Analizar los datos de la siguiente tabla:
Opinin
Nivel de estudios Buena Regular Mala
Ninguno 800 144 32
Primarios 905 312 67
Bachiller 287 157 44
Medios 95 48 11
Superiores 38 32 7
Ejercicio 10..4. Con el fin de conocer si un cierto tipo de bacterias se distribuyen al azar en un determinado
cultivo o si, por el contrario, lo hacen con algn tipo de preferencia (el centro, los extremos, etc...), se divide
un cultivo en 576 reas iguales y se cuenta el nmero de bacterias en cada rea. Los resultados son los
siguientes:
no de bacterias 0 1 2 3 4 5
no de reas 229 211 93 35 7 1
Ejercicio 10..5. La siguiente tabla recoge la distribucin de los triglicridos en suero, expresados en mg/dl en
90 nios de 6 aos:
Contrastar la hiptesis de que el nivel de triglicridos en nios de 6 aos sigue una distribucin Normal.
Ejercicio 10..6. La distribucin en Andaluca del grupo sanguneo es de un 35%, 10%, 6% y un 49% para los
grupos A, B, AB y O respectivamente. En Mlaga, se realiz el estudio en una muestra de 200 individuos
obtenindose una distribucin del 50%, 30%, 18%, y 10% para los grupos A, B AB y O respectivamente.
Se desea saber si la distribucin del grupo sanguneo en dicha provincia es igual que en Andaluca.
Ejercicio 10..7. En un estudio diseado para determinar la aceptacin por una parte de los pacientes de un
nuevo analgsico, 100 mdicos seleccionaron cada uno de ellos una muestra de 25 pacientes para participar en
el estudio. Cada paciente despus de haber tomado el nuevo analgsico durante un periodo de tiempo
determinado, fue interrogado para saber si prefera ste o el que haba tomado anteriormente con regularidad,
obteniendo los siguientes resultados:
Pesos no de mujeres
30 - 40 16
40 - 50 18
50 - 60 22
60 - 70 51
70 - 80 62
80 - 90 55
90 - 100 22
100 - 110 4
Ejercicio 10..9. Deseamos conocer, si las distribuciones atendiendo al grupo sanguneo, en tres muestras
referidas atendiendo al tipo de tensin arterial, se distribuyen de igual manera. Para lo cual, se reuni una
muestra de 1500 sujetos a los que se les determin su grupo sanguneo y se les tom la tensin arterial,
clasificndose sta en baja, normal, y alta. Obtenindose los siguientes resultados:
Grupo sanguneo
Tensin arterial A B AB O Total
Baja 28 9 7 31 75
Normal 543 211 90 476 1.320
Alta 44 22 8 31 105
Total 615 242 105 538 1.500
Ejercicio 10..10. La recuperacin producida por dos tratamientos distintos A y B se clasifican en tres
categoras: muy buena, buena y mala. Se administra el tratamiento A a 30 pacientes y B a otros 30: De las 22
recuperaciones muy buenas, 10 corresponden al tratamiento A; de las 24 recuperaciones buenas , 14
corresponden al tratamiento A y de los 14 que tienen una mala recuperacin corresponden al tratamiento A.
Son igualmente efectivos ambos tratamientos para la recuperacin de los pacientes?
11.2 Introduccin
Del mismo modo que el contraste generalizaba el contraste de dos proporciones, es necesario definir un
nuevo contraste de hiptesis que sea aplicable en aquellas situaciones en las que el nmero de medias que
queremos comparar sea superior a dos. Es por ello por lo que el anlisis de la varianza, ANOVA11.1 surge
como una generalizacin del contraste para dos medias de la de Student, cuando el nmero de muestras a
contrastar es mayor que dos.
Por ejemplo, supongamos que tenemos 3 muestras de diferentes tamaos que suponemos que provienen de
tres poblaciones normales con la misma varianza:
podramos en plantearnos como primer mtodo el fijar una cantidad prxima a cero y realizar los
Por ello el nivel de significacin obtenido para este contraste sobre la igualdad de medias de tres muestras no
Una tcnica que nos permite realizar el contraste de modo conveniente es la que exponemos en este captulo y
que se denomina anlisis de la varianza.
Resultado de la medicin
Gripe (nivel 1) 5 3 2 5 4 3
Apendicitis (nivel 2) 8 9 6 7 8 9 10 8 10
Sanos (nivel 3) 2 3 2 1 2 3 2
En este caso los factores que influyen en las observaciones son tres: el que la persona padezca la gripe,
apendicitis, o que est sana.
De modo general podemos representar las t muestras (o niveles) del siguiente modo:
donde por supuesto, los tamaos de cada muestra ni, no tienen por que ser iguales. En este caso decimos que
se trata del modelo no equilibrado.
11.4.0.1 Observacin
De ahora en adelante asumiremos que las siguientes condiciones son verificadas por las t muestras:
Las observaciones proceden de poblaciones normales;
Las t muestras son aleatorias e independientes. Adems, dentro de cada nivel las
observaciones son independientes entre s.
En el modelo de un factor suponemos que las observaciones del nivel i, xij,
provienen de una variable Xij de forma que todas tienen la misma varianza
--hiptesis de homocedasticidad:
o lo que es lo mismo,
De este modo es el valor esperado para las observaciones del nivel i, y los errores
son variables aleatorias independientes, con valor esperado nulo, y con el mismo
grado de dispersin para todas las observaciones.
Otro modo de escribir lo mismo consiste en introducir una cantidad que sea el
valor esperado para una persona cualquiera de la poblacin (sin tener en cuenta los
diferentes niveles), y considerar los efectos introducidos por los niveles, de modo
que
Resultado de la medicin
Gripe (nivel 1) 5 3 2 5 4 3
Apendicitis (nivel 2) 8 9 6 7 8 9 10 8 10
Sanos (nivel 3) 2 3 2 1 2 3 2
En este caso los factores que influyen en las observaciones son tres: el que la persona padezca la gripe,
apendicitis, o que est sana.
De modo general podemos representar las t muestras (o niveles) del siguiente modo:
donde por supuesto, los tamaos de cada muestra ni, no tienen por que ser iguales. En este caso decimos que
se trata del modelo no equilibrado.
11.4.0.1 Observacin
De ahora en adelante asumiremos que las siguientes condiciones son verificadas por las t muestras:
Las observaciones proceden de poblaciones normales;
Las t muestras son aleatorias e independientes. Adems, dentro de cada nivel las
observaciones son independientes entre s.
En el modelo de un factor suponemos que las observaciones del nivel i, xij,
provienen de una variable Xij de forma que todas tienen la misma varianza
--hiptesis de homocedasticidad:
o lo que es lo mismo,
De este modo es el valor esperado para las observaciones del nivel i, y los errores
son variables aleatorias independientes, con valor esperado nulo, y con el mismo
grado de dispersin para todas las observaciones.
Otro modo de escribir lo mismo consiste en introducir una cantidad que sea el
valor esperado para una persona cualquiera de la poblacin (sin tener en cuenta los
diferentes niveles), y considerar los efectos introducidos por los niveles, de modo
que
Obsrvese que ahora podemos escribir el contraste de que los diferentes niveles no tienen influencia sobre la
observacin de la variable como:
o bien
11.4.2.1 Observacin
Se utiliza el nombre de anlisis de la varianza ya que el elemento bsico del anlisis estadstico ser
precisamente el estudio de la variabilidad. Tericamente es posible dividir la variabilidad de la variable que se
estudia en dos partes:
La originada por el factor en cuestin;
La producida por los restantes factores que entran en juego, conocidos o no,
controlables o no, que se conocen con el nombre de error experimental.
Si mediante los contrastes estadsticos adecuados la variacin producida por cierto factor es
significativamente mayor que la producida por el error experimental podemos aceptar la hiptesis de que los
distintos niveles del factor actan de forma distinta.
11.4.2.2 Ejemplo
Consideremos dos muestras tomadas en diferentes niveles de una variable, de forma que ambas tengan la
misma varianza muestral (lo que indica que no se puede rechazar la igualdad de varianzas poblacionales) y
medias muestrales bastante diferentes. Por ejemplo:
La dispersin calculada al medir la de los dos niveles conjuntamente es mucho mayor que la de cada uno de
ellos por separado. Por tanto puede deducirse que ambos niveles no tienen el mismo valor esperado.
donde
11.4.4.1 Observacin
En el clculo del estadstico intervienen N cantidades, ligadas por una relacin:
de este modo el nmero de grados de libertad de este estadstico es N-1 (recurdese la nocin de grados de
libertad de un estadstico, pgina ). Por razones anlogas tenemos que el nmero de grados de libertad de
es N-t y el de es t-1. As introducimos los siguientes estadsticos:
Estos son los estadsticos que realmente nos interesan a la hora de realizar el contraste de igualdad de medias.
Cuando la diferencia entre los efectos de los diferentes niveles sea muy baja, es de esperar que la
cuasivarianza total sea prxima a la intravarianza, o lo que es lo mismo, que la intervarianza sea pequea en
relacin con la intravarianza. Obsrvese la figura 11.1
y suponemos que estamos en las condiciones del modelo factorial de un factor. Si H0 es cierta se puede
demostrar que el siguiente estadstico se distribuye como una de Snedecor:
Luego si al calcular Fexp obtenemos que donde es un nivel de significacin
dado, deberemos de rechazar la hiptesis nula (ya que si H0 fuese cierta, era de esperar que fuese
N B A
Calculamos
Tratamientos Observaciones ni
Tratamiento 1 -1 1 2 0 -1 5 1 1/5 7
Tratamiento 2 -2 -4 -5 -4 -7 5 -22 484/5 110
Tratamiento 3 0 -1 -2 -4 -1 5 -8 64/5 22
Tratamiento 4 1 4 6 3 8 5 22 484/5 126
N=20 A=265
En conclusin, Fexp>Fteo, como se observa en la Figura 11.3, por tanto se ha de rechazar la igualdad de
efectos de los tratamientos.
En la Figura 11.4 se representan las observaciones de cada nivel de tratamiento mediante una curva normal
cuyos parmetros se han estimado puntualmente a partir de las observaciones. Obsrvese que las diferencias
ms importantes se encuentran entre Los tratamientos 2 y 4. Esto motiva los contrastes de comparaciones
mltiples (dos a dos), para que, en el caso en que la igualdad de medias sea rechazada, se pueda establecer
qu niveles tuvieron mayor influencia en esta decisin.
lo que corresponde a los ya conocidos contrastes de la de Student, que tienen en este caso como estadstico
experimental a (de nuevo suponiendo la homocedasticidad en todas las muestras):
Como ilustracin podemos escribir el modelo ANOVA de dos factores con interaccin en el cual se tiene
Si suponemos que no hay interaccin entre ambos factores, es decir, cada factor acta independientemente del
otro, tenemos el modelo de efectos aditivos:
En ambos casos se supone que las cantidades son independientes para todos los niveles i1 e i2 y todos
los individuos jdentro de esos niveles, estando equidistribuidos y con la misma varianza segn una ley
gaussiana:
y se rechaza H0 si Rexp>Rteo.
siendo
Se rechaza H0 si
Se rechaza H0 si
11.10 Problemas
1.- Para evaluar la influencia del tipo de acidosis del recin nacido en los niveles de glucemia medidos en el
cordn umbilical del mismo, se obtuvieron los datos de la siguiente tabla:
Niveles de glucemia
Controles 51 56 58 60 62 63 65 68 72 73
Acid. Respiratoria 60 65 66 68 68 69 73 75 78 80
Acid. Metablica 69 73 74 78 79 79 82 85 87 88
Acid. Mixta 70 75 76 77 79 80 82 86 88 89
2.- Se desea saber si el grado de ansiedad es el mismo, por trmino medio, en tres enfermedades distintas.
Para ello se tomaron tres muestras de 10, 12 y 8 personas, respectivamente, con esas enfermedades,
pasndoles a cada una de ellas un test que mide el grado de ansiedad del individuo. Los resultados se dan en
la tabla adjunta.
3.- En una experiencia para comparar la eficacia de diversas tcnicas en el tratamiento del dolor producido
por una intervencin quirrgica superficial, 28 pacientes se agruparon al azar en 4 grupos de 7, tratando al
primero con placebo, y a los siguientes con dos tipos de analgsicos (A y B) y acupuntura. Los datos se dan
en la siguiente tabla:
4.- Se est llevando a cabo un estudio para comprobar el efecto de tres dietas diferentes en el nivel de
colesterina de pacientes hipercolesterinmicos. Para ello se han seleccionado al azar 3 grupos de pacientes, de
tamaos 12, 8 y 10. Los niveles de colesterina medidos despus de 2 semanas de dieta se representan a
continuacin:
5.- En un colectivo de 5 individuos se aplican 3 frmacos para estudiar su influencia sobre sus movimientos
respiratorios (nmero de inspiraciones por minuto). Los valores obtenidos para cada individuo vienen
expresados en la tabla:
Individuos
1 2 3 4 5
Antes de los tratamientos 14 16 18 15 20
Despus de I 16 17 21 16 24
Despus de II 15 14 18 15 22
Despus de III 17 16 20 13 18
El conjunto de estas tcnicas de inferencia se denominan tcnicas paramtricas. Existen sin embargo otros
mtodos paralelos cuyos procedimientos no precisan la estimacin de parmetros ni suponer conocida
ninguna ley de probabilidad subyacente en la poblacin de la que se extrae la muestra. Estas son las
denominadas tcnicas no paramtricas o contrastes de distribuciones libres, algunos de los cuales
desarrollamos en este captulo. Sus mayores atractivos residen en que:
Son ms fciles de aplicar que las alternativas paramtricas;
Al no exigir ninguna condicin suplementaria a la muestra sobre su proveniencia de
una poblacin con cierto tipo de distribucin, son ms generales que las
paramtricas, pudindose aplicar en los mismos casos en que estas son vlidas.
Por otro lado, esta liberacin en los supuestos sobre la poblacin tiene inconvenientes. El principal es la falta
de sensibilidad que poseen para detectar efectos importantes. En las tcnicas no paramtricas juega un papel
fundamental la ordenacin de los datos, hasta el punto de que en gran cantidad de casos ni siquiera es
necesario hacer intervenir en los clculos las magnitudes observadas, ms que para establecer una relacin de
menor a mayor entre las mismas, denominadas rangos.
En funcin de las cantidades n1 y n2 se espera que el nmero de rachas no sea ni muy pequeo ni muy
grande.
Si las observaciones son cantidades numricas estas pueden ser divididas en dos categoras que poseen
Se define la v.a. R como el nmero de rachas. Su distribucin est tabulada para los casos y
Si el tamao de cualquiera de las dos muestras es mayor que 30, la distribucin de R se aproxima a una
normal de media
y varianza
y se considera el estadstico
Se calculan sobre la muestra la media, la desviacin tpica un estadstico T y por ltimo el estadstico del
contraste D cuya distribucin est tabulada
provienen de poblaciones que tienen idnticas distribuciones. Para aplicar estos contrastes ser en primer
lugar necesario contrastar si cada una de las muestras se ha obtenido mediante un mecanismo aleatorio. Esto
puede realizarse mediante un test de rachas.
Supongamos que el contraste de aleatoriedad de ambas muestras (cuantitativas) no permite que sta se
rechace a un nivel de significacin . Entonces aplicaremos el contraste de Mann--Withney o el de rachas
de Wald--Wolfowitz, que exponemos a continuacin.
12.8.2 Contraste de rachas de Wald--Wolfowitz
Si combinamos las dos muestras y disponemos el conjunto completo de todas las observaciones, ordenadas de
menor a mayor, cabe esperar que bajo la hiptesis
las dos muestras estn muy entremezcladas, y por tanto el nmero de rachas, Rexp, formadas por las categoras
Cuando el valor terico del nmero de rachas por debajo del cual se rechaza H0,
donde
Luego si definimos
para dos muestras , cuantitativas independientes, tomadas de modo aleatorio. El contraste se efecta
combinando las dos muestras y disponiendo el conjunto completo de las observaciones, ordenado de menor a
mayor. Se asignan despus nmeros de rango a cada observacin
Se calcula despus la suma de los rangos de las observaciones pertenecientes a la primera muestra y a la
segunda, obtenindose respectivamente R1 y R2, para despus calcular los estadsticos
y se rechaza H0 si .
se rechaza H0 si .
Cuando los tamaos de las muestras son grandes, n1,n2>40, no es posible recurrir a las tablas de Mann--
Withney. En este caso utilizamos la aproximacin normal
donde
rechazndose la equidistribucin de ambas poblaciones utilizando los mismos criterios que con los contrastes
paramtricos.
12.10 Contraste de Wilcoxon para
muestras apareadas
El contraste de Wilcoxon es la tcnica no paramtrica paralela a el de la de Student para muestras
apareadas (seccin 9, pgina ). Igualmente dispondramos de n parejas de valores (xi,yi) que podemos
considerar como una variable medida en cada sujeto en dos momentos diferentes.
El test de Wilcoxon, al igual que los otros contrastes no paramtricos puede realizarse siempre que lo sea su
homlogo paramtrico, con el inconveniente de que este ltimo detecta diferencias significativas en un
de casos que el de la de Student.
Sin embargo a veces las hiptesis necesarias para el test paramtrico (normalidad de las diferencias apareadas,
di) no se verifican y es estrictamente necesario realizar el contraste que presentamos aqu. Un caso muy claro
de no normalidad es cuando los datos pertenecen a una escala ordinal.
1.
Del mismo modo es necesario calcular la cantidad T', suma de los rangos de las
observaciones con signo de di de mayor frecuencia, pero si hemos ya calculado T la
siguiente expresin de T' es ms sencilla de usar
T' = m(n+1)-T
donde
De este modo, este contraste es el que debemos aplicar necesariamente cuando no se cumple algunas de las
condiciones que se necesitan para aplicar dicho mtodo.
Al igual que las dems tcnicas no paramtricas, sta se apoya en el uso de los rangos asignados a las
observaciones.
Para la exposicin de este contraste, supongamos que tenemos k muestras representadas en una tabla como
sigue,
Niveles Observaciones de X
... ...
Para cada una de las muestras, se calcula Ri, , como la suma de los
rangos de las observaciones que les corresponden. Si H0 es falsa, cabe esperar que
esas cantidades sean muy diferentes.
Se calcula el estadstico:
terico .
12.14 Problemas
Ejercicio 12..1. Recientes estudios sobre el ejercicio de la Medicina en centros en los que no actan
estudiantes, indican que la duracin media de la visita por paciente es de 22 minutos. Se cree que en centros
donde con un elevado nmero de estudiantes en prcticas esta cifra es menor. Se obtuvieron los siguientes
datos sobre las visitas de 20 pacientes aleatoriamente seleccionados:
Ejercicio 12..2. Se realiza un estudio para determinar los efectos de poner fin a un bloqueo renal en pacientes
cuya funcin renal est deteriorada a causa de una metstasis maligna avanzada de causa no urolgica. Se
mide la tensin arterial de cada paciente antes y despus de la operacin. Se obtienen los siguientes
resultados:
Tensin arterial
Antes 150 132 130 116 107 100 101 96 90 78
Despus 90 102 80 82 90 94 84 93 89 8?????
Ejercicio 12..3. Se ensayaron dos tratamientos antirreumticos administrados al azar, sobre dos grupos de 10
pacientes, con referencia a una escala convencional (a mayor puntuacin, mayor eficacia), valorada despus
del tratamiento. Los resultados fueron:
Ejercicio 12..4. Puesto que el hgado es el principal lugar para el metabolismo de los frmacos, se espera que
los pacientes con enfermedades de hgado tengan dificultades en la eliminacin de frmacos. Uno de tales
frmacos es la fenilbutazona. Se realiza un estudio de la respuesta del sistema a este frmaco. Se estudian tres
grupos: controles normales, pacientes con cirrosis heptica, pacientes con hepatitis activa crnica. A cada
individuo se les suministra oralmente 19 mg de fenilbutazona/Kg. de peso. Basndose en los anlisis de
sangre se determina para cada uno el tiempo de mxima concentracin en plasma (en horas). Se obtienen
estos datos:
Se puede concluir que las tres poblaciones difieren respecto del tiempo de mxima concentracin en plasma
de fenilbutazona?
Ejercicio 12..5. El administrador de un laboratorio est considerando la compra de un aparato para analizar
muestras de sangre. En el mercado hay 5 de tales aparatos. Se le pide a cada uno de los 7 tcnicos mdicos
que despus de probar los aparatos, les asignen un rango de acuerdo con el orden de preferencia, dndole el
rango 1 al preferido. Se obtienen los siguientes datos:
Analizador de sangre
Tcnico I II III IV V
1 1 3 4 2 5
2 4 5 1 2 3
3 4 1 3 5 2
4 1 3 2 5 4
5 1 2 3 4 5
6 5 1 3 2 4
7 5 1 4 3 2
Utilizar el contraste adecuado para determinar si los tcnicos perciben diferencias entre los aparatos.
Ejercicio 12..6. Los efectos de tres drogas con respecto al tiempo de reaccin a cierto estmulo fueron
estudiados en 4 grupos de animales experimentales. El grupo IV sirvi de grupo control, mientras que a los
grupos I, II y III les fueron aplicadas las drogas A, B y C respectivamente, con anterioridad a la aplicacin
del estmulo:
A B C Control
17 8 3 2
20 7 5 5
40 9 2 4
31 8 9 3
35
Puede afirmarse que los tres grupos difieren en cuanto al tiempo de reaccin?
Ejercicio 12..7. La tabla siguiente muestra los niveles de residuo pesticida (PPB) en muestras de sangre de 4
grupos de personas. Usar el test de Kruskal-Wallis para contrastar a un nivel de confianza de 0'05, la hiptesis
nula de que no existe diferencia en los niveles de PPB en los cuatro grupos considerados.
Niveles de PPB
Grupo I 10 37 12 31 11 9 23
Grupo II 4 35 32 19 33 18 8
Grupo III 15 5 10 12 6 6 15
Grupo IV 7 11 1 08 2 5 3
Ejercicio 12..8. La cantidad de aminocidos libres fue determinada para 4 especies de ratas sobre 1 muestra
de tamao 6 para cada especie. Comprobar si el contenido de aminocidos libres es el mismo para las 4
especies.
Especies de ratas
I II III IV
431'1 477'1 385'5 366'8
440'2 479'0 387'9 369'9
443'2 481'3 389'6 371'4
445'5 487'8 391'4 373'2
448'6 489'6 399'1 377'2
451'2 403'6 379'4 381'3
Ejercicio 12..9. Los siguientes datos nos dan el peso de comida (en Kg.) consumidos por adulto y da en
diferentes momentos en un ao. Usar un contraste no paramtrico para comprobar si el consumo de comida es
el mismo en los 4 meses considerados.
Ejercicio 12..10. Se hizo un estudio neurofisiolgico sobre la conduccin motora tibial posterior en dos
grupos de pacientes embarazadas con las siguientes determinaciones:
Conduccin motora tibial posterior
Primer grupo 51 40 41 53 48 50 45 58 45 44
Segundo grupo 58 43 40 45 41 42 44 52 56 48
Ejercicio 12..11. En un experimento diseado para estimar los efectos de la inhalacin prolongada de xido
de cadmio, 15 animales de laboratorio sirvieron de sujetos para el experimento, mientras que 10 animales
similares sirvieron de controles. La variable de inters fue el nivel de hemoglobina despus del experimento.
Se desea saber si puede concluirse que la inhalacin prolongada de xido de cadmio disminuye el nivel de
hemoglobina segn los siguientes datos que presentamos:
Nivel de hemoglobina
Expuestos 14'4 14'2 13'8 16'5 14'1 16'6 15'9 15'6 14'1 15'3
15'7 16'7 13'7 15'3 14'0
No expuestos 17'4 16'2 17'1 17'5 15'0 16'0 16'9 15'0 16'3 16'8
Ejercicio 12..12. A 11 ratas tratadas crnicamente con alcohol se les midi la presin sangunea sistlica antes
y despus de 30 minutos de administrarles a todas ellas una cantidad fija de etanol, obtenindose los datos
siguientes:
Ejercicio 12..13. Un test de personalidad, tiene dos formas de determinar su valoracin suponiendo
inicialmente que ambos mtodos miden igualmente la extroversin. Para ello se estudia en 12 personas
obtenindose los siguientes resultados:
Medida de la extraversin
Forma A 12 18 21 10 15 27 31 6 15 13 8 10
Forma B 10 17 20 5 21 24 29 7 11 13 8 11
Bibliografa
AB 92
P. ARMITAGE, G. BERRY, Estadstica para la Investigacin Biomdica. Doyma,
Barcelona, 1992.
Cal 74
G. CALOT, Curso de Estadstica Descriptiva. Paraninfo, Madrid, 1974.
Car 82
J.L. CARRASCO DE LA PEA, El Mtodo Estadstico en la Investigacin Mdica.
Karpus, Madrid, 1982.
Dan 90
W.W. DANIEL, Applied Nonparemetric Statistics. PWS-Kent Publishing Company,
Boston, 1990.
Ham 90
L.C. HAMILTON, Modern Data Analysis. Brooks/Cole Publishing Company, Pacific
Grove, 1990.
Mar 94
A. MARTN ANDRS, J.D. LUNA DEL CASTILLO, Bioestadstica para las Ciencias de
la salud. Norma, Granada, 1994.
MS 88
L.A. MARASCUILO, R.C. SERLIN, Statistical Methods for the Social and Behavioral
Sciences. W.H. Freeman and Company, Nueva York, 1988.
Pe 94
D. PEA SNCHEZ DE RIVERA, Estadstica: Modelos y Mtodos, 1. Alianza
Universidad Textos, Madrid, 1994.
RMR 91
T. RIVAS MOYA, M.A. MATEO, F. RUS DAZ, M. RUIZ, Estadstica Aplicada a las
Ciencias Sociales: Teora y Ejercicios (EAC). Secretariado de Publicaciones de la
Universidad de Mlaga, Mlaga, 1991.
RM 92
E. RUBIO CALVO, T. MARTNEZ TERRER Y OTROS, Bioestadstica. Coleccin
Monografas Didcticas, Universidad de Zaragoza, Zaragoza, 1992.
RS 79
R.D. REMINGTON, M.A. SCHORK, Estadstica Biomtrica y Sanitaria. Prentice Hall
International, Madrid, 1979.
Rum 77
L. RUIZ-MAYA, Mtodos Estadsticos de investigacin (Introduccin al Anlisis de
la Varianza). I.N.E. Artes Grficas, Madrid, 1977.
SR 90
E. SNCHEZ FONT, F. RUS DAZ, Gua para la Asignatura de Bioestadstica (EAC).
Secretariado de Publicaciones de la Universidad de Mlaga, Mlaga, 1990.
ST 85
STEEL, TORRIE, Bioestadstica (Principios y Procedimientos). Mac Graw-Hill,
Bogot, 1985.
Tso 89
M. TSOKOS, Estadstica para Psicologa y Ciencias de la Salud. Interamericana
Mac Graw-Hill, Madrid, 1989.
WG 82
S.L. WEINBERG, K.P. GOLDBERG, Estadstica Bsica para las Ciencias Sociales.
Nueva Editorial Interamericana, Mexico, 1982.
Zar 74
J.H. ZAR, Biostatistical Analysis. Prentice Hall Inc., Englewood Cliffs, 1974.