Vous êtes sur la page 1sur 100

CENTRO DE ESTUDIANTES DE VETERINARIA UNIVERSIDAD DE BUENOS AIRES

FACULTAD DE CIENCIAS VETERINARIAS

ESTADÍSTICA
ANALÍTICA
GUÍA DE TRABAJOS
PRÁCTICOS

2011
SECRETARIA DE PUBLICACIONES
Facultad de Ciencias
Veterinarias

U.B.A.

Estadística Analítica
Guía de Trabajos Prácticos

Área Bioestadística
2011 – 1er. Cuatrimestre
Cronograma 2011
Se lunes
1 Miér 9/3 Jue: Revisión de conceptos relativos a inferencia. Intervalos de confian-
za y pruebas de hipótesis para la media de las diferencias y para la di-
ferencia de medias de dos poblaciones.
2 14/3 Mar: Revisión de conceptos relativos a inferencia. Intervalos de confian-
za y pruebas de hipótesis para la media de las diferencias y para la di-
ferencia de medias de dos poblaciones. Jue: Intervalos de confianza y
pruebas de hipótesis para la diferencia de proporciones de dos pobla-
ciones y para el cociente de varianzas de dos poblaciones.
3 21/3 Mar: Intervalos de confianza y pruebas de hipótesis para la diferencia de
Feriado proporciones de dos poblaciones y para el cociente de varianzas de dos
Jue 24 poblaciones.
4 28/3 Prueba de hipótesis y estimación para dos poblaciones (integración)
Feriado Diseño de experimentos – Análisis de Varianza -
Sáb 2/4
5 4/4 Diseño Completamente Aleatorizado. Modelo paramétrico.
6 11/4 Diseño Completamente Aleatorizado no paramétrico. Ejercitación
7 18/4 Mar: ejercitación y consulta.
F SSan- En esta clase no se controlara la asistencia.
ta
21 22 23
8 24 de Integración (sábado 30-4-11 parcial)
25/4

9 2/5 Estadístico de Chi cuadrado para pruebas de bondad de ajuste. Pruebas


de Pruebas de Independencia.
10 9/5 Estadístico de Chi cuadrado para Pruebas de Homogeneidad
Ejercitación.
11 16/5 Regresión Lineal Simple. Supuestos del Modelo y Estimadores. Dócima
de hipótesis utilizando la t de Student
12 23/5 Regresión Lineal Simple. Intervalos de confianza y predicción. Coefi-
Feriado ciente de Determinación- ANOVA en la regresión.
Mi 25/5
13 30/5 Ejercitación. Regresión Lineal Múltiple.
14 6/6 Correlación Simple Paramétrica y no paramétrica
15 13/6 Integración. Revisión y consultas. (sábado 18-6-11 parcial)
16 20/6
Feriado
Lu 20/6
17 27/6 Recuperatorio martes 28/6 a las 18 hs

II
Bibliografía

 Cantatore de Frank, Norma M.: Manual de Estadística Aplicada. Ed.


Hemisferio Sur. 1ra. Edición. Buenos Aires. Capítulos: 4, 5, 6, 7, 8, 12 y
13.

 Cappelletti, Carlos A.: Elementos de estadística. Cesarini Hnos. Editores.


2da. Edición. Bs. As. Capítulos 8, 9, 10, 11, 13 y 14.

 Daniel, Wayne W.: Bioestadística. Base para el análisis de las ciencias de


la salud. 3ra. Edición. Uteha, Noriega Editores. México. Capítulos: 5, 6, 8,
y 10.

NOTA IMPORTANTE:

La cátedra publica solamente la


GUIA DE TRABAJOS PRACTICOS
y la GUIA DE FORMULAS Y TABLAS
para la cursada de esta materia.
Cualquier otra publicación NO CUENTA
CON LA APROBACION DE LA CATEDRA.

III
Sistema de Evaluación de Elementos de Estadística
Se tomarán dos parciales, que serán calificados en una escala de 0 a 10, en
forma global.

La condición de LIBRE se obtiene si en ambos parciales la calificación obteni-


da es inferior a 4 (cuatro), o cuando no se cumpla el requisito del 75% de
concurrencia a las clases teórico-prácticas.

La condición de ASISTENCIA CUMPLIDA se obtiene al cumplir el requisito de


presentismo, correspondiente al 75% de concurrencia a las clases teórico-
prácticas, o sea, como máximo 4 ausentes; y obtener como calificación:
♦ en ambos parciales, mayor o igual a 4 (cuatro) y menor de 6(seis)
♦ en un parcial, mayor o igual a 4 (cuatro) y menor de 6 (seis); y en el
otro, menos de 4 (cuatro).
No se recuperarán parciales para quedar en condición de ASISTENCIA CUM-
PLIDA.

La condición de REGULAR se obtiene al cumplir el requisito de presentismo,


correspondiente al 75% de concurrencia a las clases teórico-prácticas, o sea,
como máximo 4 ausentes; y obtener como calificación:
♦ en ambos parciales, 6(seis), sin uso del examen recuperatorio.
♦ en un parcial 6 (seis) y en el otro, nota 7 (siete), sin uso del examen
recuperatorio.
♦ en un parcial, inferior a 6 (seis); y en el otro, 6 (seis) o más. En este
caso, deberá recuperar el parcial correspondiente a una calificación inferior a 6
(seis) y aprobarlo. La nota de aprobación del recuperatorio es 6 (seis).

La condición de PROMOCIÓN se obtiene al cumplir el requisito de presentis-


mo, correspondiente al 80% de concurrencia a las clases teórico-prácticas, o
sea, como máximo 3 ausentes; y obtener como calificación:
♦ de al menos 7(siete) en ambos parciales, de tal forma que la suma de
ambos puntajes sea mayor o igual a 14.
♦ en un parcial, de al menos 7 (siete), y en el otro, un puntaje desde 4
(cuatro) hasta menos de 6 (seis); pero que la suma de ambos sea de al me-
nos 14 puntos. En este caso, se tomará un coloquio oral de los contenidos que
involucra el parcial de menor puntaje para definir su situación, dependiendo
ésta de la aprobación del mismo.

IV
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)

Unidad 1: INFERENCIA para DOS POBLACIONES

Objetivos específicos:

• Comprender la importancia de diseñar experimentos.


• Analizar la adecuación de cada diseño en función del contexto de la investigación.
• Aplicar los conceptos de inferencia estadística a la comparación de dos poblaciones, utilizando como
procedimientos la estimación y la prueba de hipótesis.
• Seleccionar el procedimiento de inferencia adecuado en función del objetivo y del cumplimiento de los
supuestos.
• Resolver problemas e interpretar conclusiones aplicando los métodos de análisis sobre dos
poblaciones.

Contenidos temáticos:
 Diseño de experimentos: necesidad, ventajas, propósitos, definiciones previas. Tipos de diseños y
alcances.
 Revisión de conceptos relativos a la estimación puntual y por intervalos. Intervalos de confianza
para la diferencia de medias y para la media de las diferencias. Estimaciones para la diferencia de dos
proporciones, para el cociente de varianzas, y para el cociente de desvíos estándar.
 Revisión de conceptos relacionados con las pruebas de hipótesis. Prueba de hipótesis para:
diferencia de medias en base a dos muestras independientes: diferencia de medias, cociente de
varianzas, diferencias de proporciones. Muestras apareadas: media de las diferencias.
 Relación entre intervalo de confianza y prueba de hipótesis bilateral. Aplicaciones.

Glosario:
Diseño de experimentos: experimento, unidad experimental, tratamiento, factor, niveles de un factor,
observación, efecto. Repetición, aleatorización, control local. Estudios observacionales, pre-
experimentales, cuasiexperimentales y experimentales.
Inferencia para dos poblaciones: Población, muestra. Parámetro. Estimador. Estimación. Estimador
puntual. Intervalo. Intervalo de confianza. Nivel de confianza. Hipótesis de trabajo. Hipótesis estadística.
Hipótesis nula y alternativa. Error tipo I y tipo II. Nivel de significación. Región crítica. Regla de decisión.
Distribución F de Snedecor. Diferencia de medias y de proporciones, cociente de varianzas para muestras
independientes. Muestras apareadas: media de las diferencias.

El diseño de experimentos
La ciencia, tiene como objetivo la explicación y la predicción de los hechos. Un requisito fundamental en
toda ciencia fáctica es el contraste de las hipótesis planteadas, poniendo a prueba las mismas mediante
una confrontación con la experiencia.
El diseño experimental crea las condiciones para el contraste de la hipótesis y brinda la metodología esta-
dística correspondiente para el análisis de los datos.
Es el proceso de planear un experimento para obtener datos apropiados que puedan ser analizados
mediante métodos estadísticos, con objeto de producir conclusiones válidas y objetivas. La metodolo-
gía estadística es el único enfoque objetivo para analizar un problema que involucre datos sujetos a
errores experimentales. Así es que hay dos aspectos en cualquier problema experimental: el diseño del
experimento y el análisis estadístico de los datos.

El propósito del diseño experimental es proporcionar la máxima cantidad de información pertinente al


problema bajo investigación. Sin embargo también es importante que el diseño o plan sea tan simple
como sea posible, a fin de ahorrar tiempo, dinero, personal y material experimental.
Para que la metodología de diseño de experimentos sea eficaz es fundamental que el diseño sea el ade-
cuado. Un experimento puede realizarse por alguno de los siguientes motivos:
 Determinar los factores principales que influyen sobre la variable respuesta.
 Encontrar las condiciones experimentales con las que se consigue un valor extremo en la variable
de interés o respuesta.
 Comparar las respuestas en diferentes niveles de observación de variables controladas.
 Obtener un modelo estadístico-matemático que permita hacer predicciones de respuestas futuras.

1
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)

Para poder realizar un buen diseño experimental, es necesario previamente comprender el problema
que se desea estudiar, planteándose un conjunto de preguntas clásicas:
1- ¿Cuáles son las características que se van a analizar?
2- ¿Qué variables afectan a las características que se van a analizar?
3- ¿Cuántas veces debería repetirse el experimento?
4- ¿A partir de qué valor se considerará que existe un efecto?

Lo cual conduce a elegir las variables más apropiadas y sus niveles de medición, elegir la o las res-
puestas a evaluar y el modelo de diseño.

Para poder responder las preguntas anteriores es necesario que definamos claramente algunos térmi-
nos fundamentales:
 Experimento: es un ensayo o una observación especial realizada para confirmar o descartar una
hipótesis especialmente bajo condiciones establecidas por el experimentador.
 Variable de interés o respuesta: es la variable que se desea estudiar.
 Unidad experimental: es la parte más pequeña de material experimental, entidad física o sujeto,
en la que se aplica un tratamiento una sola vez. También puede entenderse como cada una de las
reproducciones del experimento.
 Tamaño del Experimento: es el número total de observaciones recogidas en la ejecución del ex-
perimento. Ejemplo: si se asignan 10 gallinas a cada una de tres dietas el tamaño del experimento es
30.
 Factor: es una variable que se sospecha que puede ejercer influencia sobre la variable respuesta
de interés.
 Factor controlado: se denomina así a una variable manipulada por el investigador o variable in-
dependiente, a fin de estudiar su influencia sobre la variable de interés o dependiente. Algunos autores
la denominan variable de entrada al proceso. Ejemplo: si pensamos que la temperatura o la humedad
pueden afectar a la conservación de cierta propiedad de un alimento o medicamento, se puede contro-
lar manteniendo dicho producto con tres valores distintos de temperatura.
 Niveles del factor: son cada una de las categorías, o valores, o formas específicas que adopta la
variable independiente o controlada. Ejemplo: en el caso de las tres dietas, el factor dieta tiene tres
niveles; en el caso del rodeo, el factor tiene dos niveles.
 Tipos de factores: existen factores cuantitativos, cuyos niveles son cantidades numéricas, y cuali-
tativas, cuyos niveles son procedimientos o cualidades. Ejemplo de factor cuantitativo puede ser la
cantidad de fertilizante adicionado a las parcelas de cultivo por hectárea con niveles: 10kg/ha – 20
kg/ha -30 kg/ha de fertilizante. Ejemplo de factor cualitativo puede ser el tipo de nutriente adicionado a
una dieta con niveles: potasio, magnesio y calcio.
 Tratamiento: conjunto de condiciones experimentales o procedimientos creados para el experi-
mento en función de la hipótesis de investigación a las que se someterá a las unidades experimentales
en un diseño elegido. Es una combinación específica de los niveles de los factores de estudio en un
diseño con varios factores, y son los distintos niveles del factor en el caso de un diseño unifactorial. Por
ejemplo: si se asignan tres dietas distintas a las gallinas de un criadero, cada una de las dietas es un
tratamiento. Si en un tambo se combinan tres raciones de alimentación dos rodeos con vacas en orde-
ñe (uno con vacas de alta producción y el otro con las de baja producción). Cada combinación de ro-
deo y ración constituye un tratamiento (6 tratamientos).
 Observación: valor que asume una variable, también denominada variable respuesta, en una de-
terminada realización del experimento, es decir cada registro realizado en el contexto del experimento
de la variable respuesta.
 Efecto: diferencia entre los valores medios de la variable respuesta en presencia y ausencia de un
nivel del factor. Si la variable respuesta de interés es el engorde semanal medido en gramos de una
gallina con cierta dieta enriquecida, el efecto es la diferencia entre el engorde medio con la dieta enri-
quecida y el engorde medio con la dieta tradicional, ambos medidos en gramos.
 Diseño equilibrado o balanceado: es el diseño en el que todos los tratamientos son asignados a
un número igual de unidades experimentales, en el cual se obtiene la misma cantidad de repeticiones
por tratamiento. Por ejemplo hay cuatro vacas en cada combinación de rodeo y nutriente para el agua.
Principios Básicos del diseño experimental

Los tres principios básicos que caracterizan a un diseño experimental:

2
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)

♦ Repetición: cuando un tratamiento es aplicado a más de una unidad experimental. Las observacio-
nes repetidas con las mismas condiciones experimentales en el contexto de un experimento no coinci-
den necesariamente, y por lo tanto una de las cuestiones fundamentales a la hora de diseñar un expe-
rimento es la selección del tamaño de muestra o número de repeticiones adecuado en cada contexto.

Las razones por las cuales es deseable realizar repeticiones del experimento son:
a- Proporcionar una estimación del error experimental (error generado por causas no controladas por
el experimentador), que actúa como unidad básica de medida para indicar el significado de las di-
ferencias.
b- Obtener mayor precisión en la estimación.
c- Permitirnos extender el alcance de la inferencia relativa al experimento.

El error experimental según el contexto puede reflejar:


• errores de experimentación
• errores de observación
• errores de medición
• variación del material experimental

El error experimental puede reducirse generalmente adoptando una o más de las técnicas siguientes:
• usando material experimental tan homogéneo como sea posible.
• utilizando información proporcionada por otras variables aleatorias
• teniendo cuidado al dirigir el experimento
• usando un diseño experimental más eficiente.

♦ Aleatorización: Todo procedimiento de prueba se basa en un conjunto de supuestos que deben


satisfacerse para que la prueba resulte válida. Una de las suposiciones más frecuentes es que las
observaciones, o los errores en ellas, están distribuidos independientemente. Dicho en otras palabras
la aleatorización hace válida la prueba.

♦ Control local: Se denomina de esta manera al conjunto de acciones que implementa el investiga-
dor con el fin de reducir al máximo posible el error experimental manteniéndolo en un rango de varia-
ción manejable.
Por ejemplo: selección de unidades experimentales homogéneas, división en bloques, calibración de
instrumentos, etc.

Tipos de estudios de investigación


Los estudios observacionales son un conjunto de estudios en los que no hay intervención por parte
del investigador y este se limita a medir las variables que define en el estudio. Por ejemplo, los estu-
dios epidemiológicos.

Ventajas de los estudios observacionales


1. Son más prácticos y factibles de realizar, ya que la cooperación de los sujetos es menos necesa-
ria.
2. Sus resultados son más generalizables a poblaciones, geográfica o demográficamente definidas.

Inconvenientes de los estudios observacionales


1. Escaso control de las influencias de los factores de confusión sobre los resultados del estudio.
(Los factores de confusión son factores no tenidos en cuenta que pueden llegar a modificar los re-
sultados de un análisis).
2. Debido a la falta de control por parte del investigador, cada estudio observacional tiende a ser úni-
co, siendo muy difícil reproducir los resultados por otro investigador.
Los estudios pre-experimentales se caracterizan por analizar una única variable y prácticamente no
existe ningún tipo de control. No existe manipulación de la variable independiente ni se utiliza el grupo
de control; por consiguiente son escasas las posibilidades de que este grupo sea representativo de los
demás. Este tipo de diseño consiste en administrar un tratamiento o estímulo en la modalidad de solo
pre-prueba / posprueba.

3
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)

Un estudio de intervención, también llamado estudio experimental, es un estudio caracterizado por


la manipulación artificial del factor de estudio por el investigador y por la aleatorización de los casos o
sujetos en dos grupos, llamados control y tratado.

Cuando la característica de la aleatorización en el estudio no se cumple, se dice que el estudio es cua-


siexperimental. La falta de aleatorización de los estudios cuasiexperimentales indica que no existe
manera de asegurar la equivalencia inicial de los grupos denominados experimental y de control.
También es usual que, en un experimento, se utilicen controles históricos. El problema que presenta
este tipo de diseño es que el grupo actualmente en tratamiento puede presentar importantes diferen-
cias relativas al tratamiento respecto al grupo de control histórico. Los trabajos con controles históricos
están generalmente sesgados a favor del tratamiento, mientras que los experimentos aleatorios evitan
este tipo de sesgo.

PROBLEMA RESUELTO

1) Gracias a la técnica de la ecografía, los bebés pueden actualmente ser observados mientras están
en el seno materno. Sin embargo, gran cantidad de experimentos desarrollados en animales de labora-
torio dieron como resultado que la aplicación de ultrasonidos podía ser la causa de que el peso al na-
cer fuese inferior al normal.
Ante el temor de que esta conclusión fuese aplicable a los humanos, un grupo de especialistas del
Hospital John Hopkins de Baltimore puso en marcha un estudio para investigar el tema. En el mismo
se observó el peso al nacimiento de los bebés que estuvieron expuestos a controles ecográficos (ultra-
sonido) y de los que no estuvieron expuestos.
También en este caso los bebés expuestos al ultrasonido durante el embarazo pesaban en su mayo-
ría al nacer menos que aquellos que no lo habían estado, pero un dato a tener en cuenta es que los
obstetras recomendaban el ultrasonido cuando sospechaban que el embarazo no se desarrollaba con
normalidad.

a) ¿Se trata de un estudio observacional o experimental? ¿Por qué?


b) ¿Puede concluirse que el ultrasonido influye sobre el peso del nacimiento?

Solución:
a) Se trata de un estudio observacional, porque no hay intervención del investigador.
b) Los bebés expuestos al ultrasonido y los no expuestos presentaban diferencias que no tenían nada
que ver con el hecho de ser tratados o no. De modo tal que los investigadores tuvieron un conjunto de
factores de confusión con el cual enfrentarse. La conclusión del estudio fue, por lo tanto, que las eco-
grafías y el menor peso de los bebés tenían una causa común: problemas durante el embarazo.

4
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)

PROBLEMAS RESUELTOS

1) Mediante la siguiente experiencia se quiere determinar si una droga reduce el nivel promedio de gluco-
sa en sangre (glucemia) en una línea de ratas diabéticas.
Se tomaron al azar 40 ratas de esta línea y se les suministró la droga (grupo tratado). Al mismo
tiempo se tomaron otras 30 ratas de la misma línea y se les suministró un placebo (grupo control).
Los niveles sanguíneos de glucosa (mg/ml) en las ratas fueron:
Tratadas con droga Tratadas con placebo
1,82 1,89 1,39 1,79 1,27 1,73 2,01 1,74 1,91 1,52 2,15 1,91 1,93 2,22 2,18 1,75 1,93 2,03
1,41 1,88 1,88 1,66 1,93 1,56 1,93 1,70 1,74 2,16 2,37 1,65 2,09 1,75 2,00 2,23 2,10 1,95
1,60 1,70 1,69 1,94 1,62 1,44 1,68 1,99 1,82 1,40 2,18 1,95 1,92 2,01 2,48 1,67 2,23 1,96
1,68 1,57 1,91 1,83 1,60 1,58 2,12 1,61 1,91 1,70 1,87 2,06 2,00 2,26 1,94 1,89
a) ¿Es la droga efectiva para reducir el nivel promedio de glucosa en sangre, al 5%? Asuma que la
droga no modifica la varianza poblacional del nivel de glucosa en sangre, y que ésta es conocida, sim-
bólicamente σ droga=σ placebo =0,04 mg /ml
2 2 2 2

b) Construya un intervalo de confianza del 95% para la diferencia entre la media poblacional de la
glucemia de las ratas tratadas con droga y la media poblacional de la glucemia de las ratas tratadas con
placebo.

Datos del problema:


• Variables en estudio
X1: nivel de glucosa de una rata diabética de la línea, tratada con droga, en mg/ml
X2: nivel de glucosa de una rata diabética de la línea, tratada con placebo, en mg/ml

• Tamaños de las muestras: n1= 40 y n2= 30


2 2 2 2
Varianzas poblacionales: Conocidas e iguales. (σ 1=σ 2 =0,04 mg /ml )

• Nivel de significación: α=0,05

• Nivel de confianza: 1-α=0,95

Solución:
a)
• La hipótesis de trabajo que se desea poner a prueba es:
“El empleo de la droga disminuye el nivel medio de glucosa en sangre de ratas diabéticas de la línea”

• Verificación de supuestos: Para poder plantear las hipótesis estadísticas y poder llevar a cabo la
prueba, hay que verificar los supuestos teóricos necesarios. En este caso, los supuestos son que am-
bas variables (X1 y X2) sean independientes y se distribuyan normalmente. El supuesto de indepen-
dencia se cumple por la forma en que se realizó el experimento: a un grupo de ratas se le suministró la
droga y a otro grupo, también tomado al azar, se lo trató con placebo.

Para X1: se realizó un gráfico de cuantil-cuantil (qqplot) para visualizar el comportamiento distribucional de
la variable.

Nota: En este gráfico se comparan dos distribuciones, la de los datos muestrales y la de una normal. Para descri-
bir el hecho de que los datos se distribuyen de manera normal, hay que observar que los puntos estén alineados
sobre la recta.

5
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)

Qqplot Observando el gráfico se puede ver que los puntos no se


2.17
alejan notoriamente de la recta, sin embargo, por ser un
Cuantiles observados(X1) gráfico, no se puede hacer inferencia sobre el
1.95
comportamiento distribucional de la variable a nivel
poblacional. Para poder concluir a nivel poblacional es
1.72 necesario un test de normalidad. En Elementos de
Estadística se estudió la prueba Shapiro-Wilks, para
1.50
verificar normalidad, y cuyas hipótesis son:

1.27  H 0 : X 1se distribuye normal


1.27 1.50 1.72 1.95 2.17 
Cuantiles de una Normal(1.7328,0.04161)  H1 : X 1 no se distribuye normal

Al realizar el test, utilizando InfoStat, se obtuvieron los siguientes resultados:

Shapiro-Wilks (modificado)
Variable n Media D.E. W* p (una cola)
X1 40 1.73 0.20 0.97 0.7731

Como p-valor= 0,7731 y es mayor que α=0.05, no se rechaza la hipótesis nula, por lo tanto, con un
nivel de significación del 5% se puede decir que la variable X1 (nivel de glucosa en sangre de una rata
tratada con droga, en mg/ml) se distribuye normalmente.
Análogamente se estudia la normalidad de la variable X2:
Qqplot

2.48
Cuantiles observados(X2)

 H 0 : X 2 se distribuye normal
2.27 
 H1 : X 2 no se distribuye normal
2.05

1.84
Shapiro-Wilks (modificado)
Variable n Media D.E. W* p (una cola)
X2 30 2.02 0.20 0.97 0.7739
1.62
1.62 1.84 2.05 2.27 2.48
Cuantiles de una Normal(2.022,0.038086)

Como p-valor= 0,7739 y es mayor que α=0,05, no se rechaza la hipótesis nula, por lo tanto, con un
nivel de significación del 5% se puede decir que la variable X2 (nivel de glucosa en sangre de una rata
tratada con placebo, en mg/ml) se distribuye normalmente.
Una vez verificado el supuesto teórico se puede seguir adelante con la prueba.
Nota: si, por experiencias previas o por información previa, se sabe que se verifican los supuestos,
este ítem no es necesario.
• Hipótesis estadísticas.
El interés del investigador es probar si la droga disminuye el nivel medio de glucosa en sangre,
por lo tanto quiere saber si la media del nivel de glucosa en sangre de ratas tratadas con droga es
menor que la media del nivel de glucosa en sangre de las ratas tratadas con placebo.
Simbólicamente: µ1 < µ 2 , esta expresión no lleva el signo igual, por lo tanto debe corresponder a
la hipótesis alternativa. Es decir que las hipótesis estadísticas son:

 H 0 : µ1 ≥ µ 2  H 0 : µ1 − µ 2 ≥ 0  H 0 : µ 2 − µ1 ≤ 0
 equivalentemente podría escribirse  o también 
 H1 : µ1 < µ 2  H1 : µ1 − µ 2 < 0  H1 : µ 2 − µ1 > 0
cualquiera de estas formas expresan las mismas hipótesis estadísticas. Sin embargo hay que
elegir una expresión para poder continuar con la prueba manteniendo la elección a lo largo de todo el
análisis y por sobre todo concluir para las hipótesis elegidas. Si esto no se mantiene deja de tener vali-
6
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)

dez la prueba o peor aún, se podría estar concluyendo erróneamente. En este caso se va a trabajar
 H 0 : µ1 ≥ µ 2
con: 
 H1 : µ1 < µ 2
• Nivel de significación: α=0.05
• Estadístico de prueba (o variable pivotal)
Se está realizando un test de hipótesis para la diferencia de medias poblacionales, por lo cual se
cuenta con dos opciones al elegir la variable pivotal: Z o t de Student, dependiendo del hecho de cono-
cer o no las varianzas poblacionales. En este caso las varianzas poblacionales son conocidas e igua-

les, por lo tanto se utiliza una Z, con la siguiente expresión: Z =


(X 1 − X 2 ) − ( µ1 − µ2 )
~N (0; 1) .
σ 12 σ 22
+
n1 n2
• Región crítica:
Observando la hipótesis alternativa (del par de hipótesis elegidas), se ve que la región crítica es unila-
teral izquierda. Por lo tanto el valor crítico es: Z 0,05 = −1, 64 y la región crítica es: Z H 0 ≤ −1, 64
• Regla de decisión:
Rechazo H0 si Z H 0 ≤ −1, 64
No rechazo H0 si Z H 0 > −1, 64
• Cálculo de ZHo:
Hasta este momento no fueron necesarias las muestras, excepto en la verificación de supuestos,
sin embargo se podría haber hecho con muestras piloto y recién en esta instancia extraer las muestras
para el análisis. Antes de calcular el valor del estadístico de prueba hay que calcular las medias mues-
trales utilizando las fórmulas dadas en la unidad de estadística descriptiva de Elementos de Estadísti-
ca: X 1 = 1, 73; X 2 = 2, 02 . Hay que tener en cuenta que la prueba se está realizando bajo la hipótesis
nula que contiene el caso en que las medias poblacionales son iguales, por lo tanto la diferencia de las
medias poblacionales es cero, es decir que µ1 − µ 2 = 0 . Reemplazando estos valores y el resto de la
información en la fórmula nos queda:

Z H0 =
(X 1 − X 2 ) − ( µ1 − µ2 )
=
(1, 73 − 2, 02 ) − 0 = −0, 29
=
−0, 29
= −6, 017
σ 2
σ 2
0, 04 0, 04 0, 001 + 0, 00133 0, 0482
1
+ 2 +
n1 n2 40 30
• Decisión: Se rechaza la hipótesis nula porque Z Ho = -6, 017 , es menor que –1,64, o sea que
ZCALCULADO < ZCRITICO.
• Conclusión: Con un nivel de significación de 5% tengo evidencia suficiente para rechazar la hipó-
tesis nula ( H 0 : µ1 ≥ µ 2 ), por lo tanto la media poblacional del nivel de glucosa en sangre de ratas
diabéticas tratadas con droga es menor que la media poblacional del nivel de glucosa en sangre de
ratas diabéticas tratadas con placebo, en estas poblaciones de ratas diabéticas en estudio. Por lo tanto
puedo decir que la droga es efectiva.
b) La fórmula del intervalo del 95% que se está pidiendo se despeja de la variable pivotal y es:
 σ 12 σ 22 σ 12 σ 22 
( X 1 − X 2 ) − Z1−α / 2 + ;( X 1 − X 2 ) + Z1−α / 2 + 
 n1 n2 n1 n2 
reemplazando se obtiene que

7
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)

 0, 04 0, 04 0, 04 0, 04 
(1, 73 − 2, 02) − 1,96 + ; (1, 73 − 2, 02) + 1,96 + =
 40 30 40 30 
 −0, 29 − 1,96 0, 0023; − 0, 29 + 1,96 0, 0023  =
 
[ −0, 29 − 0, 0939; − 0, 29 + 0, 0939] = [ −0,3839; − 0,1961]
Por lo el tanto intervalo de confianza para la diferencia de medias poblacionales µ1 − µ 2 es:
[ -0,3839mg/ml; -0,1961mg/ml]
Conclusión: Con un nivel de confianza del 95%, se espera que el intervalo [-0,3839mg/ml; -0,1961
mg/ml] cubra o contenga a la diferencia entre la media poblacional del nivel de glucosa de las ratas
tratadas con droga y la media poblacional del nivel de glucosa de las ratas tratadas con placebo, en
estas poblaciones de ratas diabéticas en estudio.

NOTA: Observemos que el 0 (cero) no está incluido en el intervalo de confianza, y que ambos límites
son negativos, lo cual es indicador de que la diferencia es negativa. Sin embargo, hay que tener en
cuenta que el IC no es equivalente porque la prueba es unilateral.

2) Se tomó una muestra aleatoria de 21 cerdos Yorkshire del norte de la provincia de Buenos Aires. Los
mismos tenían 3 meses de edad y pesos homogéneos, y se los separó, aleatoriamente, en dos lotes. Al
lote 1 se le asignó una ración estándar (A) y al lote 2 otra con distinta formulación (B). La siguiente tabla
contiene las ganancias de peso de cada animal, luego de 30 días de experiencia, expresadas en kg.
Lote 1 24 26 25 23 28 27 28 24 29 29
Lote 2 26 32 28 25 29 27 28 27 27 28 30

Por estudios anteriores se sabe que ambas variables se distribuyen normalmente con varianzas igua-
les, pero desconocidas.
a) ¿Se puede suponer, al 5%, que la ganancia media de peso de los animales alimentados con la
ración B supera significativamente la ganancia media de peso de los animales alimentados con ración
A?
b) Construir un intervalo para la diferencia de medias al 95%. ¿Qué puede concluir?

Datos del problema:


• Variables en estudio:
XA: ganancia de peso de un cerdo Yorkshire de 3 meses de edad del norte de la provincia de Bs. As.
alimentado con la ración estándar A
XB: ganancia de peso de un cerdo Yorkshire de 3 meses de edad del norte de la provincia de Bs. As.
alimentado con la formulación distinta B
• Tamaños de las muestras: nA=10 y nB=11
• Varianzas Poblacionales: σA =σB =σ (desconocidas)
2 2 2

• Nivel de significación: α=0,05


• Nivel de confianza: 1-α=0,95

Solución
a)
• Hipótesis de trabajo: “La ganancia media de peso de los animales alimentados con la ración B supera
la ganancia media de peso de los animales alimentados con ración A”
• Verificación de supuestos: En este caso, a diferencia del ejercicio anterior, en el enunciado se
asegura la normalidad de ambas variables, por estudios anteriores. Por lo tanto no es necesaria la
prueba de Shapiro–Wilks para verificarla porque es un dato que nos provee el investigador. Por otro
lado el supuesto de independencia también se cumple por la forma en que se realizó el experimento: a
un grupo de cerdos, tomado al azar, se lo alimenta con la ración A y al otro grupo, también tomado al
azar, se lo alimentó con la ración B. Es decir que: XA ∼ N (µA, σ ) y XB ∼ N (µB, σ ) son variables
2 2

aleatorias independientes. Observar que ambas variables tiene la misma varianza poblacional.

8
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)

• Hipótesis estadísticas: La hipótesis de trabajo simbólicamente nos lleva a la expresión: µ B > µ A , por
lo tanto esta corresponde a la hipótesis alternativa, ya que no contiene la igualdad.

H 0 : µB ≤ µ A
 como en el ejercicio anterior, existen muchas forma diferentes de plantear la misma
 H1 : µ B > µ A
H 0 : µB − µ A ≤ 0
hipótesis, como por ejemplo:  y otras más. En este caso, se trabajará con la segunda
 H1 : µ B − µ A > 0
H 0 : µB − µ A ≤ 0
expresión y se concluirá para esta expresión: 
 H1 : µ B − µ A > 0
• Nivel de significación: α=0,05
• Variable pivotal: En este caso, como en el ejercicio anterior, se está realizando un test para la
diferencia de medias poblacionales, por lo tanto hay dos opciones para la variable pivotal (Z o t-Student).
Como las varianzas poblacionales son desconocidas no se puede utilizar la variable Z, por lo tanto se

utilizará la variable pivotal t de Student, cuya fórmula es: t=


(X B − X A ) − ( µB − µ A )
~t( nA + nB − 2) . Donde
1 1
Sa +
nA nB
Sa es la raíz cuadrada positiva de la varianza amalgamada, es decir que es un promedio ponderado entre
la varianza muestral de la variable XA y la varianza muestral de la variable XB y estima a la única varianza
poblacional que se desconoce, σ .
2

• Región crítica: Observando la hipótesis alternativa planteada se deduce que la región crítica es
unilateral derecha (es decir que se rechaza la hipótesis nula a valores grandes de la variable pivotal). El
valor crítico que se utiliza es tnA + nB − 2;1−α = t10+11− 2;0,95 = t19;0,95 = 1, 729 , por lo tanto la región crítica es:
t ≥ 1, 729 . Gráficamente:

• Regla de decisión: Rechazo H0 si t H 0 ≥ 1, 729 y no rechazo H0 si t H 0 < 1, 729


• Cálculo: Para obtener el valor calculado del estadístico de prueba, hay que realizar ciertos cálcu-
2
los auxiliares ( X A ; X B y S a ) utilizando las fórmulas habituales para las medias y las varianzas muestra-
les, y la siguiente fórmula para la varianza amalgamada:
(nA − 1) S A2 + (nB − 1) S 22
S a2 =
nA + nB − 2

Se obtuvo: X A = 26, 3 ; X B = 27,91 ; S A2 = 4,90 ; S B2 = 3, 69 y


(9)4,90 + (10)3, 69 44,1 + 36,9
Sa = =
2
= 4, 26
10 + 11- 2 19
por lo tanto S a = 2, 06
Reemplazando estos valores en la fórmula de la variable pivotal queda:

tH0 =
(X B − X A ) − ( µB − µ A )
=
( 27,91 − 26,3) − 0 = 1, 61
=
1, 61
=
1, 61
= 1, 78
1 1 1 1 21 2, 06*0, 44 0,906
Sa + 2, 06 + 2,06
nA nB 10 11 110

9
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)

Como t H 0 = 1, 78 y utilizando la regla de decisión se rechaza la hipótesis nula ya que 1,78 es mayor
que 1.729.
• Conclusión: Con un nivel de significación del 5% tengo evidencia suficiente para rechazar la hipó-
tesis nula (Ho: µB - µA ≤ 0), por lo tanto, la diferencia entre la media poblacional de la ganancia de peso
de los cerdos alimentados con la ración B y la media poblacional de la ganancia de peso de los cerdos
alimentados con la ración A es mayor a cero, en estas poblaciones de cerdos de 3 meses de raza
Yorkshire del norte de la provincia de Buenos Aires.
• Respuesta: Se puede suponer, al 5%, que la ganancia media poblacional del peso de los cerdos
alimentados con la ración B supera significativamente a la media poblacional del peso de los cerdos
alimentados con la ración A.
Para este problema, la salida de InfoStat correspondiente es:
Prueba T para muestras Independientes
Gr(1) Gr(2) n(1) n(2) media(1) media(2) p(Var.Hom.) T p prueba
{A} {B} 10 11 26,30 27,91 0,6623 -1,78 0,0452 UnilatI

Nota: InfoStat compara grupos en orden alfabético, por lo cual la prueba es unilateral izquierda, o sea
que utiliza H1: µA-µB<0. Para la comparación es indistinta la forma en que se plantea la diferencia,
siempre que se respete el sentido de la misma. El valor de t observado es el mismo que obtuvimos al
aplicar la fórmula, pero de signo opuesto, por haber invertido el orden de la diferencia.
Como puede verse, al realizar la Prueba T para muestras independientes, también se realiza una
prueba para evaluar la Homogeneidad de Varianzas, el p-valor es 0,6623, por lo que se cumple este
supuesto.

En este caso, en que la región crítica es unilateral


izquierda, el cálculo del p valor es:,
p valor= P(t ≤ V.Calc.) = P(t19≤ -1,78)

Ahora, si consideramos la región crítica derecha que


planteamos al principio, el p valor se grafica y se calcula de la
siguiente forma, dado que la región crítica es unilateral
derecha:
p valor= P(t ≥ V.Calc) = P(t19≥ 1,78)

b) La fórmula del intervalo de 95% de confianza para la diferencia de medias se deduce de la fórmula de la
variable pivotal:
 1 1 1 1 
( X B − X A ) − tnA + nB − 2;1−α / 2 Sa + ;( X B − X A ) + tnA + nB − 2;1−α / 2 Sa + 
 nA nB n A nB 
Reemplazando con los valores correspondientes queda:
 1 1 1 1
 (27,91 − 26,3) − t10 +11− 2;0.975 * 2, 06 + ;(27,91 − 26,3) + t10+11− 2;0.975 * 2, 06 + =
 10 11 10 11 
[1, 61 − 2, 093* 2, 06 *0, 44 ; 1, 61 + 2, 093* 2, 06* 0, 44] = [1, 61 − 1,90 ; 1, 61 + 1,90] = [ −0, 29;3,51]
Por lo tanto el intervalo pedido es: [-0,29 Kg ; 3,51 Kg]
Conclusión: Con un nivel de confianza del 95% se espera que el intervalo [-0,29 Kg ; 3,51 Kg] cubra o
contenga a la diferencia entre la media poblacional del peso de los cerdos alimentados con la ración B y la
media poblacional del peso de los cerdos alimentados con la ración A, en estas poblaciones de cerdos
Yorkshire de 3 meses de la provincia de Buenos Aires.
10
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)

Nota: En este caso el p valor < nivel de significación, y sin embargo el 0 (cero) pertenece al IC. Recordar que la prueba
es unilateral derecha, mientras que el IC es bilateral.

3) En un experimento referido al uso de la vitamina B12 en casos de anemia perniciosa durante el período
de remisión, se administró, por vía intramuscular, 30 µg de B12 a un total de 10 pacientes tomado al azar.
En ellos se midió la concentración de hemoglobina en sangre (mg%) en dos momentos, al inicio del
tratamiento y luego de tres meses. Los valores observados se muestran en la siguiente tabla:
Paciente 1 2 3 4 5 6 7 8 9 10
Inicial (I) 12,2 11,3 14,7 11,4 11,5 12,7 12,3 13,0 12,7 13,0
Hemoglobina
(mg%) Después de 3
13,0 13,4 16,0 13,6 14,0 13,0 14,2 15,1 15,9 14,5
meses (F, o final)

¿Hay aumento significativo de hemoglobina después del tratamiento al nivel del 5%?
Datos del problema:
• Variable en estudio:
D: diferencia entre la concentración de hemoglobina en sangre (en mg%) al inicio del tratamiento
con vitamina B12 y la concentración de hemoglobina en sangre (en mg%) después de tres meses del
tratamiento con vitamina B12, de un paciente con anemia perniciosa.
En símbolos: di = ii - fi

En la siguiente tabla están calculados los valores correspondientes a la diferencia planteada:


di -0,8 -2,1 -1,3 -2,2 -2,5 -0,3 -1,9 -2,1 -3,2 -1,5

Nota: En este caso se utilizará: di = ii - fi, pero también se podría haber definido la variable como di = fi -
ii . La definición de esta variable debe quedar clara al comienzo de la resolución del ejercicio y debe
mantenerse a lo largo del mismo.
• Nivel de significación: α=0,05
Solución:
• Hipótesis de trabajo: “Hay aumento significativo del nivel de hemoglobina después del tratamiento”
Antes de plantear las hipótesis estadísticas hay que analizar la situación planteada, ya que no es
igual a las anteriores, dado que no hay independencia entre las mediciones realizadas, ya que se realiza-
ron en cada individuo, al inicio y al finalizar los 3 meses de aplicado el tratamiento con vitamina B12. Por
esta razón no se van a comparar las medias en los diferentes tiempos, sino que se va estudiar la variable
diferencia.
• Verificación de supuestos: En este caso, solamente hay que probar la normalidad de la variable Di. El
otro supuesto teórico corresponde a la no independencia entre las mediciones, o sea, X1 y X2 no son inde-
pendientes.
Qq plot

-0,30
Cuantiles observados(D)

 H 0 : D se distribuye normal -1,02


 H1 : D no se distribuye normal -1,75

Shapiro-Wilks (modificado)
Variable n Media D.E. W* p (una cola) -2,48
D 10 -1,79 0,84 0,97 0,9425

-3,20
-3,20 -2,48 -1,75 -1,02 -0,30
C uantiles de una Norm al(-1,79,0,70989)

11
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)

Como 0,9425 es mayor que 0,05, no se rechaza la hipótesis nula. Entonces, con un nivel de significa-
ción del 5% se puede concluir que la diferencia entre la concentración de hemoglobina en sangre (mg%) al
inicio del tratamiento con vitamina B12 y la concentración de hemoglobina en sangre (mg%) luego de 3
meses de tratamiento con vitamina B12 en pacientes con anemia perniciosa se distribuye normalmente.
Simbólicamente D ~N ( µ , σ D2 )
• Hipótesis estadísticas: si el tratamiento produce un aumento en el nivel de hemoglobina en
sangre, los niveles de hemoglobina medidos a los 3 meses deberían ser mayores que los medidos al
inicio del tratamiento, es decir que la variable D = I – F, tendría una media negativa. Simbólicamente
µ D < 0 . La orientación de esta hipótesis depende exclusivamente de la definición de la variable en
estudio, por esta razón debe quedar clara la forma en que se realiza la diferencia entre Ii y Fi. Esta
expresión no contiene al signo igual, por lo tanto corresponde a la hipótesis alternativa, es decir que las
H 0 : µD ≥ 0
hipótesis estadísticas son: 
 H1 : µ D < 0
• Variable pivotal: Por ser una prueba de medias apareadas la única opción para la variable pivotal
d − µd
es una t de Student con la siguiente fórmula: t= ~tn −1 . Observar que esta expresión es la
sd
n
misma que la utilizada en Elementos de Estadística para estudiar una población, la variable estudiada
es D, su media muestral es d y su varianza muestral es S D2 .
• Región crítica: Observando la hipótesis alternativa planteada, se ve que la región critica es
unilateral izquierda, con valor crítico: tn −1;0,05 = t10 −1;0,05 = t9;0,05 = −t9;0,95 = −1,83 (los grados de
libertad son 10-1, porque hay 10 diferencias). Por lo tanto, la región crítica queda definida como
t ≤ −1,83 . Gráficamente:

• Regla de decisión: Rechazo H0 si t H 0 ≤ −1,83 y no rechazo H0 si t H 0 > −1,83


• Cálculo: Para obtener el valor calculado del estadístico de prueba hay que realizar ciertos cálculos
auxiliares ( d y sD2 ), utilizando las fórmulas habituales para la media muestral y la varianza muestral,
sobre las 10 diferencias.
Utilizando los valores calculados para di (ver la tabla correspondiente al plantear la forma de realizar la
misma), se obtuvo d = −1, 79 y sD2 = 0, 71 , reemplazando en la fórmula de la variable pivotal:
−1, 79 −1, 79
tH0 = = = −6, 7 .
0,84 0, 26
10
Como –6,7 es menor que –1,83 se rechaza la hipótesis nula.
• Conclusión: Con un nivel de significación del 5% tengo evidencia suficiente para rechazar la
hipótesis nula ( µ D ≥ 0 ), por lo tanto la media poblacional de las diferencias entre la concentración de
hemoglobina en sangre (mg%) de pacientes con anemia perniciosa al inicio del tratamiento y la
concentración de hemoglobina en sangre (mg%) de pacientes con anemia perniciosa después de tres
meses de iniciado el tratamiento con vitamina B12 es menor que cero, en la población de pacientes con
anemia perniciosa. Por lo cual la hemoglobina aumenta significativamente luego del tratamiento con
vitamina B12.
• A continuación se da la salida del programa InfoStat para este problema, en donde aplicaremos
el concepto del valor p, explicado en la página anterior:

12
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)

Prueba T para un parámetro


Valor del parámetro probado: 0
Variable n Media DE T p(Unilateral I)
D 10 -1,79 0,84 -6,72 <0,0001
Como el p-valor<0.0001<0,05, entonces Rechazo H0, siendo esta la misma decisión obtenida
anteriormente.
Nota: con un p-valor tan pequeño puede decirse que esta es una decisión “fuerte“.

Para el caso de que la región crítica sea unilateral


izquierda, el cálculo del p valor es:
p valor= P(t ≤ V.Calc.)

Nota: Al comienzo del ejercicio se definió la variable diferencia como: di = ii - fi, Se recomienda realizar
de nuevo la prueba, pero definiendo de la otra forma a la variable y observar qué se modifica y qué
permanece igual.

4) En las poblaciones de adultos y adolescentes que veían un programa de televisión los sábados a la
noche se tomaron sendas muestras al azar de 400 y 600 individuos, respectivamente. A la pregunta “si
realmente les gustaba el programa”, 100 adultos y 300 adolescentes, de estas muestras, contestaron
que sí.
a) Estimar puntualmente y con una confianza del 95% la diferencia entre las proporciones de adultos y
adolescentes que ven el programa y les gusta.
b) Probar, al 5%, si ambas proporciones son iguales.
Datos del problema
• Variable en estudio:
X1: Cantidad de adultos que ven el programa los sábados a la noche y les gusta, en una muestra de 400.
X2: Cantidad de adolescentes que ven el programa los sábados a la noche y les gusta, en una muestra de
600.
• Tamaños de muestras: n1 = 400; n2 = 600
• Nivel de confianza: 1 – α = 0,95.
Solución:
a) Antes de comenzar a construir el intervalo hay que verificar los supuestos teóricos.
• Supuestos teóricos: En este caso, a diferencia de los ejercicios anteriores, el supuesto teórico es
la Binomialidad de ambas variables. La verificación de este supuesto es más sencilla que la verifica-
ción de la normalidad de las variables, ya que solamente hay que verificar que las variables cumplan
con las condiciones de una variable binomial, es decir:
 Que cada repetición del experimento tenga dos resultados posibles (éxito y fracaso). Si lo aplica-
mos al ejemplo veremos que las dos posibles respuestas que podemos obtener, al encuestar a una
persona, son: “que le guste el programa del sábado a la noche” y “que no le guste el programa del
sábado a la noche”.
 Que los resultados (éxito y fracaso) sean mutuamente excluyentes en una misma repetición.
 Que los resultados (éxito y fracaso) sean independientes de repetición en repetición.
 Que el número de repeticiones esté prefijado de antemano y que la probabilidad de éxito sea cons-
tante a lo largo de todas las repeticiones del experimento aleatorio.
En este caso ambas variables cumplen con estas condiciones.
• Estimación puntual: Lo que se quiere estimar es: ”la diferencia entre las proporciones
poblacionales de adultos y adolescentes que ven el programa y les gusta”, simbólicamente: p1-p2. Por
lo tanto la estimación puntual de esta diferencia es la diferencia entre las proporciones estimadas,
pˆ1 − pˆ 2 .

13
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)

cantidad de adultos que ven el programa los sábados a la noche y les gusta 100
pˆ1 = = = 0, 25
cantidad total de adultos 400

cantidad de adolescentes que ven el programa los sábados a la noche y les gusta 300
pˆ 2 = = = 0,5
cantidad total de adolescentes 600

Por lo tanto la estimación puntual es: pˆ1 − pˆ 2 = 0, 25 − 0,5 = −0, 25


• Intervalo de confianza: La fórmula del intervalo de confianza para la diferencia de proporciones se
deduce de la única variable pivotal posible, cuya fórmula es:
pˆ1 − pˆ 2 − ( p1 − p2 ) x x
Z= 
d
→ N (0, 1) donde pˆ1 = 1 y pˆ 2 = 2
pˆ1 (1 − pˆ1 ) pˆ 2 (1 − pˆ 2 ) n1 n2
+
n1 n2
Por lo tanto la fórmula del intervalo es:
 pˆ1 (1 − pˆ1 ) pˆ 2 (1 − pˆ 2 ) pˆ1 (1 − pˆ1 ) pˆ 2 (1 − pˆ 2 ) 
( pˆ1 − pˆ 2 ) − Z1−α + ; ( pˆ1 − pˆ 2 ) + Z1−α + 
 2 n1 n2 2 n1 n2 

Reemplazando:
 0, 25 (1 − 0, 25 ) 0,5 (1 − 0,5 ) 0, 25 (1 − 0, 25 ) 0,5 (1 − 0,5 ) 
( 0, 25 − 0,5 ) − 1,96 + ; ( 0, 25 − 0,5 ) + 1,96 + =
 400 600 400 600 
 0,1875 0, 25 0,1875 0, 25 
=  −0, 25 − 1,96 + ; −0, 25 + 1,96 + =
 400 600 400 600 
= [ −0, 25 − 1,96 *0, 03; −0, 25 + 1,96 *0, 03] = [ −0, 25 − 0, 0588; −0, 25 + 0, 0588] = [ −0,31; −0,19]

• Conclusión: Con un nivel de confianza del 95% se espera que el intervalo [-0,31;-0,19] cubra o
contenga a la diferencia entre la proporción poblacional de adultos que ven el programa los sábados a
la noche y les gusta y la proporción poblacional de adolescentes que ven el programa los sábados a la
noche y les gusta.
b) Las hipótesis estadísticas son: H0: p1-p2=0 versus H1: p1-p2≠0

El nivel de significación es 5%, siendo el estadístico de contraste:

pˆ1 − pˆ 2 − ( p1 − p2 ) x1 x x +x
Z= 
d
→ N (0, 1) donde pˆ1 = , pˆ 2 = 2 y pˆ = 1 2
1 1  n1 n2 n1 + n2
pˆ (1 − pˆ )  + 
 n1 n2 
La región crítica es bilateral, y está formada por los valores de Z mayores o iguales a 1,96, y los meno-
res o iguales a -1,96.

La regla de decisión es: RECHAZO H0 si Zobs ≥ 1,96 o Zobs ≤ -1,96


NO RECHAZO H0 si -1,96 < Zobs < 1,96

x1 + x2 100 + 300
pˆ = = = 0, 4
n1 + n2 400 + 600
( 0, 25 − 0,5 ) − 0 −0, 25 −0, 25
Z obs = = = = −7,81
 1 1  1 0, 032
0, 4 (1 − 0, 4 )  + 0, 24 *
 400 600  240

Como Zobs = -7,81 la decisión es


................................................................................................................................

En esta situación (región crítica bilateral) el p valor se grafica y se calcula de la siguiente forma:

14
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)

p valor= P(Z ≥ V.Calc2) + P(Z ≤ V.Calc1)


= 2* P(Z ≤ -8,33)

Con un nivel de significación del 5%, hay/no hay (tache lo que no corresponda) evidencias suficientes
para rechazar H0, por lo tanto ...........................................................................................................

.....................................................................................................................................................................
.........................................................................................................................................

5) Basándose en el mismo texto y los mismos datos del problema 02, responda los siguientes ítems:
a.- Estimar el cociente entre las varianzas, puntualmente y con un nivel de confianza del 95%.
b.- Los nutricionistas que desarrollaron la nueva ración (B) temen que esta genere menor uniformidad
en el crecimiento. Probar la hipótesis sugerida con un nivel de significación del 5%.
(Nota: “Menor uniformidad” hace referencia a la obtención de ganancias de peso desparejas dentro del
lote, con alta dispersión, siendo esta una característica no deseada por los productores.)
Solución: Los datos son los mismos que los del problema 3 y los supuestos teóricos también
a)
• Estimación puntual: se pide estimar puntualmente el cociente entre las varianzas, por ejemplo, sim-
σ A2 S A2
bólicamente 2 , cuyo estimador puntual es el cociente de las varianzas muestrales, es decir 2
σB SB
Utilizando la fórmula de la varianza muestral se obtiene:

1  ( ∑ x1i )  1  ( 263)  1
2 2
44,1
S = ∑ x1i −  = 6961 −  = [ 6961 − 6916,9] = = 4,9
2 2

n1 − 1 
A
n  9  10  9 9
 
1  ( ∑ x2i )  1  ( 307 )  = 1 8605 − 8568,09 = 36,91 = 3, 69
2 2

S = 2
∑ 2i
x 2
−  =  8605 −  [ ]
n2 − 1 
B
n  10  11  10 10
 
S2 4,9
Por lo tanto el estimador puntual del cociente entre SA y SB es: A2 = = 1,3279
2 2

S B 3, 69
(Nota: En este caso se estima el cociente entre la varianza poblacional de A sobre la varianza pobla-
cional de B, pero también podríamos resolver este ejercicio haciendo el cociente inverso, dado que en
el enunciado no hay ninguna orientación en especial para realizarlo.)
• Intervalo de confianza: La fórmula del intervalo de confianza para el cociente de varianzas se de-
duce de la variable pivotal que se utiliza para estudiar el cociente de varianzas, cuya fórmula es:
S A2 S A2
σ A2 S B2
F= ~F( nA −1),( nB −1) o F= ~F( nA −1),( nB −1)
S B2 σ A2
σ B2 σ B2
La distribución se grafica de la siguiente manera:

Donde: F1 = F α y F2 = F α .
( n A −1),( nB −1); ( n A −1),( nB −1);1−
2 2

15
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)

Como en la tabla de F de Snedecor que se usa en el presente curso el valor de F1 no está tabulado,
para conocerlo es necesario hacer uso de la siguiente igualdad:
1
F α =
( nA −1),( nB −1); F
2 α
( nB −1),( n A −1);1−
2
Por ejemplo, en el problema que estamos resolviendo:
1 1
F9,10;0,975 = 3, 78; F9,10;0,025 = ; F9,10;0,025 = = 0, 25.
F10,9;0,975 3,96
El intervalo se construye basándose en las siguientes igualdades:

 S A2 
 2 
SB
P F α ≤ ≤F α
 = 1−α
 ( nA −1),( nB −1); 2 σ A 2
( nA −1),( nB −1);1− 
2
 σ B2 
 

 σ A2 
 
1 σ2 1
P ≥ B2 ≥  = 1−α
F α S A F α 
 ( nA −1),( nB −1); 2 S 2 ( nA −1),( nB −1);1−
2 
 B 

 σ A2 
 
1 σ2 1
P ≤ B2 ≤  = 1−α
F α SA F α 
 ( nA −1),( nB −1);1− 2 S 2 ( n A −1),( nB −1);
2 
 B 

 S A2 S A2 
 
S B2 σ2 S B2
P ≤ A2 ≤  = 1−α
F α σB F α 
 ( nA −1),( nB −1);1− 2 ( n A −1),( nB −1);
2 
 
Entonces, en nuestro problema:
 1,3279 σ A2 1,3279 
 ≤ 2 ≤ 
 3, 78 σ B 0, 25 
 σ A2 
 0,3513 ≤ ≤ 5,3116 
 σB 2

• Conclusión: Con una confianza del 95% se espera que el intervalo [0,35136; 5,3116] cubra, o
contenga, al cociente entre la varianza poblacional de la ganancia de peso de los cerdos Yorkshire de 3
meses de edad del norte de la provincia de Buenos Aires alimentados con la ración A durante 30 días, y
la varianza poblacional de la ganancia de peso de los cerdos Yorkshire de 3 meses de edad del norte de la
provincia de Buenos Aires alimentados con la ración B durante 30 días.

b)
• Hipótesis de trabajo: “la nueva ración genera menor uniformidad en el crecimiento”.
• Supuestos teóricos: Ya fueron verificados en el ejercicio 3
• Hipótesis estadísticas: Si se quiere probar que la nueva formulación es menos uniforme, se quiere
probar que la nueva formulación es más variable que la ración A, simbólicamente: σ A < σ B2 , esta
2

expresión no contiene el signo igual por lo que corresponde a la hipótesis alternativa. Entonces las

16
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)

 σ2
 H 0 : A2 ≥ 1
 H : σ ≥ σ 2 2
σB
hipótesis quedan:  0 o equivalentemente 
A B
 al igual que en las demás pruebas se
 H1 : σ A < σ B σ
2 2 2
H : A < 1
 1 σ B2
debe plantear solo un par de hipótesis y mantenerlas a lo largo de toda la prueba, en esta caso vamos a
 σ A2
H0 : σ 2 ≥ 1
trabajar con 

B

H : σ A < 1
2

 1 σ B2

• Nivel de significación: α=0,05


• Variable pivotal: Existe una única opción al elegir la variable pivotal en esta prueba, la F de Snedecor,
cuya fórmula es:
S A2 S A2
σ 2
S B2
F= A
~F( nA −1),( nB −1) o F= ~F( nA −1),( nB −1)
S 2
B σ A2
σ 2
B σ B2
• Región crítica: Observando la hipótesis alternativa, se ve que la región crítica es unilateral izquierda.
El valor crítico que la determina, debe buscarse en la tabla de la distribución de F de Snedecor y es:
1 1 1 1
FnA −1;nB −1,α = = = = = 0,3185 , por lo tanto la región crítica está
FnB −1;nA −1,1−α F11−1;10−1,1− 0,05 F10;9,0,95 3,14
determinada por F ≤ 0, 3185
• Regla de decisión: Rechazo H0 si FH 0 ≤ 0, 3185 y no rechazo H0 si FH 0 > 0,3185
• Cálculo del estadístico de prueba: Todos los valores necesarios ya fueron calculados, por lo tanto,
reemplazando en la fórmula, se obtiene:
S A2 4, 9
Observar que el cociente de las varianzas poblacionales fue
S B2 3, 69
FH 0 = = = 1, 3279 reemplazado por 1, porque el cálculo se hace bajo la hipótesis nula que
σ A2 1 plantea la igualdad de las varianzas. Como 1,3279 es mayor que 0,3145,
σ B2 no se rechaza la hipótesis nula.

• Conclusión: Con un nivel de significación del 5% no hay evidencia suficiente para rechazar H0
σ A2
( H0 : ≥ 1 ). Esto significa que el cociente entre la varianza poblacional de la ganancia de peso de los
σ B2
cerdos Yorkshire del norte de la provincia de Buenos Aires de 3 meses de edad alimentados con la
ración A y la varianza poblacional de la ganancia de peso de los cerdos Yorkshire del norte de la
provincia de Buenos Aires de 3 meses de edad alimentados con la ración B, es mayor o igual a 1. Por
lo tanto, al mismo nivel, no es cierta la hipótesis de los nutricionistas.

Nota: a continuación se da la salida del programa InfoStat para este problema. Observar que los
resultados son los mismos que se obtuvieron anteriormente.

Prueba F para igualdad de varianzas


Grupo(1) Grupo(2) n(1) n(2) Var(1) Var(2) F p prueba
1 2 10 11 4.900 3.691 1.328 0.6688 Unilat I

y la decisión es la misma (p=0,6688>0,05, por lo que no se rechaza la H0).

17
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)

6) Con el fin de comparar el rendimiento académico (en una escala de 0 a 10 puntos) entre estableci-
mientos privados y estatales, se seleccionan aleatoriamente 15 personas que han realizado estudios
secundarios en establecimientos privados, y de 15 personas que han realizado estudios secundarios
en establecimientos estatales. Los datos obtenidos son los siguientes:

PRIVADO ESTATAL
7 9
6 6
4 5
7 6
5 5
5 4
4 4
9 4
9 4
8 4
4 6
5 3
5 3
7 5
5 4
¿Podemos suponer que los rendimientos académicos difieren significativamente? (α=0,05)

Como primer paso debemos verificar el supuesto de normalidad, por lo que realizamos el test de Sha-
piro-Wilks:

Shapiro-Wilks (modificado)
Secundario Variable n Media D.E. W* p (una cola)
Estatal Rendim 15 4,80 1,52 0,85 0,0330
Privado Rendim 15 6,00 1,73 0,85 0,0253
No se cumple el supuesto de normalidad para el rendimiento académico de las personas que provie-
nen de establecimientos secundarios estatales y privados, por lo que no podemos realizar una prueba t
para muestras independientes, debemos realizar un análisis no paramétrico, la prueba de Mann-
Whitney.

Boxplot

10,00

Como podemos ver en el boxplot, las distribuciones de


8,00 rendimiento académico de los individuos que provie-
nen de establecimientos estatales y privados, son
similares. Ambas son asimétricas positivas, ya que
6,00
Puntaje

prácticamente coinciden el C2 con el C1. La falta de


normalidad ya la habíamos confirmado con la prueba
4,00 de Shapiro Wilks.

2,00

0,00
Privado Estatal
Secundario

Las hipótesis a testear en este caso son:


H0: θE − θP = 0 vs H1: θE − θP ≠ 0 (hipótesis bilateral)
Se combinan ambas muestras en una única muestra ordenada y luego asignamos a cada dato su ran-
go (posición) sin tener en cuenta de cuál de las muestras proviene.

18
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)

Datos Secundario Orden Rango


3 Estatal 1 1,5
3 Estatal 2 1,5
4 Estatal 3 7
4 Estatal 4 7
4 Estatal 5 7
4 Estatal 6 7 3+4+5+6+7+8+9+10+11 63
4 Estatal 7 7 = =7
9 9
4 Estatal 8 7
4 Privado 9 7
4 Privado 10 7
4 Privado 11 7
5 Estatal 12 15,5 Estadístico:
5 Estatal 13 15,5
5 Estatal 14 15,5 T = Suma de rangos de una de las muestras
5 Privado 15 15,5
5 Privado 16 15,5 El valor esperado del estadístico y la varianza del estadístico bajo H0
5 Privado 17 15,5 son, respectivamente:
5 Privado 18 15,5
T (estatal)= 1,5*2 + 7*6 + 15,5*3 + 21,5*3 + 29 = 185
5 Privado 19 15,5
n (n + n2 + 1) 15*(15 + 15 + 1)
6 Estatal 20 21,5 E (T ) = 1 1 = µT E (T ) = = 232,5
6 Estatal 21 21,5 2 2
6 Estatal 22 21,5 n1 n2 (n1 + n 2 + 1)
V(T) = = σ T2
6 Privado 23 21,5 12
7 Privado 24 25 15*15* (15 + 15 + 1)
7 Privado 25 25 V(T) = = 581, 25
7 Privado 26 25 12
8 Privado 27 27 σ T = 581,5 = 24,109
9 Estatal 28 29
T - E(T) 185 − 232,5
9 Privado 29 29 Z obs = ≈ N (0;1) Z obs = = −1,97
9 Privado 30 29 V(T) 24,109

A un nivel de significación del 5%, y para nuestra hipótesis, rechazamos H0 si Zobs< -1,96 o Zobs>1,96
Puesto que -1,97 < -1,96, la decisión es rechazar Ho.

Al nivel del 5%, existen evidencias suficientes para rechazar H0, por lo que la mediana poblacional del
rendimiento académico de los individuos que han realizado estudios secundarios en establecimientos
estatales es distinta a la mediana poblacional de los que han realizado sus estudios secundarios en esta-
blecimientos privados.
Como respuesta a la pregunta, podemos decir, que, al 5%, los rendimientos académicos difieren significa-
tivamente entre los individuos que han realizado sus estudios secundarios, al comparar establecimientos
estatales y privados.

Utilizando InfoStat, tenemos que aplicar el test de Wilcoxon para muestras independientes, y obtenemos la
siguiente salida, en la que figuran medidas resumen, el estadístico correspondiente, y el p-valor de la
prueba.
Prueba de Wilcoxon para muestras independientes (Mann Whitney)
Estadístico
Grupos Media Desvío estándar Mediana Media del rango p-valor
(T)
Estatal 4,80 1,52 4,00 12,33
185,00 0,0433
Privado 6,00 1,73 5,00 18,67

7) Los datos que se presentan a continuación provienen de los pesos, en g, de 22 ratas hembras, de entre
28 y 84 días de vida. Doce de ellas fueron alimentadas con una dieta alta en proteínas, y 10 con una dieta
baja en proteínas.

19
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)

Alta en proteína 120,2 120,57 119,78 120,29 118,62 120,69 120,27 119,13 118,04 120,29 117,46 119,7
Baja en proteína 102,13 105,3 103,39 104,73 98,00 95,89 98,65 98,73 95,2 102,47

a) ¿Se puede suponer, al 5%, que el peso medio las ratas alimentadas con la dieta alta en proteínas
es mayor que el peso medio las ratas alimentadas con la dieta baja en proteínas?
b) Construir un intervalo para la diferencia de medias al 95%. ¿Qué puede concluir?

Datos del problema:


• Variables en estudio
X1: peso de una rata de entre 28 y 84 días de vida alimentada con una dieta alta en proteínas. Medida
en g.
X2: peso de una rata de entre 28 y 84 días de vida alimentada con una dieta baja en proteínas.
Medida en g.

• Tamaños de las muestras: n1= 12 y n2= 10

• Varianzas poblacionales: Desconocidas

• Nivel de significación: α=0,05

• Nivel de confianza: 1-α=0,95

Solución:
a)
• La hipótesis de trabajo que se desea poner a prueba es:
“La dieta alta en proteínas produce un peso medio mayor que la dieta baja en proteínas”

• Verificación de supuestos: Para poder plantear las hipótesis estadísticas y poder llevar a cabo la
prueba, hay que verificar los supuestos teóricos necesarios. En este caso, los supuestos son que am-
bas variables (X1 y X2) sean independientes y se distribuyan normalmente. El supuesto de indepen-
dencia se cumple por la forma en que se realizó el experimento: a un grupo de ratas seleccionado
aleatoriamente se le suministró la dieta alta en proteínas y a otro grupo, también tomado al azar, se le
suministro una dieta baja en proteínas.

Para X1: se realizó un test de Shapiro Wilks cuyas hipótesis son:


 H 0 : X 1 se distribuye normalmente

 H1 : X 1 no se distribuye normalmente

Al realizar el test, utilizando InfoStat, se obtuvieron los siguientes resultados:


Shapiro-Wilks (modificado)
Variable n Media D.E. W* p (una cola)
X1 12 119.58 1.049 0.8715 0.0683

Como p-valor= 0,0683 y es mayor que α=0,05, no se rechaza la hipótesis nula. por lo tanto, con un nivel
de significación del 5% se puede decir que la variable X1 (peso de una rata de entre 28 y 84 días de vida
alimentada con una dieta alta en proteínas medido en g) se distribuye normalmente.
Análogamente se estudia la normalidad de la variable X2:
 H 0 : X 2 se distribuye normalmente

 H1 : X 2 no se distribuye normalmente
Shapiro-Wilks (modificado)
Variable n Media D.E. W* p (una cola)
X2 10 100.45 3.62 0.9282 0.4305

20
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)

Como p-valor= 0,4305 y es mayor que α=0,05, no se rechaza la hipótesis nula. Por lo tanto, con un nivel
de significación del 5%, se puede decir que la variable X2 (peso de una rata de entre 28 y 84 días de vida
alimentada con una dieta baja en proteínas medida en g) se distribuye normalmente.

En este caso, no hay información de las varianzas poblacionales, por lo tanto son desconocidas, y hay que
probar si son iguales. Para esto hay que realizar un test de homogeneidad de varianzas, cuyas hipótesis
son:
 H 0 : σ 12 = σ 22

 H 1 : σ 12 ≠ σ 22

Prueba F para igualdad de varianzas


Variable Grupo(1) Grupo(2) n(1) n(2) Var(1) Var(2) F p prueba
Peso {Alta} {Baja} 12 10 1,10 13,10 0,08 0,0009 Bilateral

El resultado del estadístico es F= 0,08 y un p-valor de 0,0009, por lo tanto se rechaza la hipótesis de
homogeneidad de varianzas.
Es decir que ambas variables se distribuyen normalmente con varianzas desconocidas y diferentes.

• Hipótesis estadísticas.
Como el interés del investigador es probar si al alimentar a las ratas con una dieta con alta con-
centración de proteínas produce un peso medio superior, simbólicamente: µ1 > µ 2 . Por lo que las
hipótesis estadísticas son:
 H 0 : µ1 ≤ µ 2

 H 1 : µ1 > µ 2
• Nivel de significación: α=0,05
• Estadístico de prueba (o variable pivotal)
Se está realizando un test de hipótesis para la diferencia de medias poblacionales de variables
con distribución normal, por lo cual se cuenta con dos opciones al elegir la variable pivotal: Z o t de
Student, dependiendo del hecho de conocer o no las varianzas poblacionales. En este caso, las va-
rianzas poblacionales son desconocidas y desiguales, por lo tanto se utiliza una t, con la siguiente ex-
  s 2 s 2 2 
  1 + 2 
− −
≈ t w con w =   12 2  2 
presión: T = ( X 1 X 2 ) 0 n n
2 2  
  s1   s2  
2 2
s1 s 2
+
n1 n 2   n1   n2  
 + 
 n1 − 1 n2 − 1 
• Región crítica:
Es unilateral derecha, dado que H1: µ1-µ2>0 , por lo tanto el valor crítico es: t w,0,95 , siendo w
 
   
   1,10 13,1   
2
  s1 + s2   
2 2 2

 +   
  n1 n2     
 =  ( 0, 091 + 1, 31) (1, 401)
 2 2

= 
12 10  =
w= =
   1,10   13,1    ( 0, 091)2 (1,31) 2   0, 008281 + 1, 7161 
2 2 2 2
  s12   s22 
            + 
  n1  +  n2   
12   10 
+   11 9   11 9 
 n1 − 1 n2 − 1   12 − 1 10 − 1 

 1,9628   1,9628 
= =  = 10, 28 = 10
 0, 00075 + 0,19   0,19075 
El valor crítico es t10, 0,95 = 1,812 y la región crítica queda determinada por: t ≥ 1,812

21
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)

• Regla de decisión:
Rechazo H0 si t H 0 ≥ 1,812
No rechazo H0 si t H 0 < 1,812

• Cálculo de tHo:
Hasta este momento no fueron necesarias las muestras, excepto en la verificación de supuestos,
sin embargo se podría haber hecho con muestras piloto y recién en esta instancia extraer las muestras
para el análisis. Antes de calcular el valor del estadístico de prueba hay que calcular las medias mues-
trales utilizando las fórmulas dadas en la unidad de estadística descriptiva de Elementos de Estadísti-
ca: X 1 = 119,58 X 2 = 100,45 . Hay que tener en cuenta que la prueba se está realizando bajo la
hipótesis nula que contiene el caso en que las medias poblacionales son iguales, por lo tanto la dife-
rencia de las medias poblacionales es cero, es decir que µ1 − µ 2 = 0 . Reemplazando estos valores y
el resto de la información en la fórmula nos queda:
(X1 − X 2 ) − 0 (119,58 − 100,45) (19,13) (19,13) (19,13)
TH 0 = = = = = = 16,162
s 2
s 2
1,1 13,1 0.091 + 1,31 1,401 1,1836
+
1 2 +
n1 n 2 12 10

• Decisión: Se rechaza la hipótesis nula porque t H 0 = 16,162 , es mayor que 1,812


• Conclusión: Con un nivel de significación de 5% tengo evidencia suficiente para rechazar la hipó-
tesis nula ( H 0 : µ1 ≤ µ 2 ), por lo tanto la media poblacional del peso de las ratas de entre 28 y 84 días
de vida que reciben la dieta alta en proteínas es mayor que la media poblacional de las ratas de entre
28 y 84 días de vida que reciben la dieta baja en proteínas, en estas poblaciones de ratas en estudio.

b) La fórmula del intervalo del 95% que se está pidiendo se despeja de la variable pivotal y es:
 s12 s 22 s12 s 22 
( X 1 − X 2 ) − t w,1−α + ; ( X 1 − X 2 ) + t w,1−α + 
 2 n1 n2 2 n1 n2 
reemplazando se obtiene que
 1,1 13,1 1,1 13,1 
 (119,58 − 100, 45) − t10;0,0975 + ; (119,58 − 100, 45) + t10;0,0975 + =
 12 10 12 10 
=  (19,13) − 2, 228 0, 091 + 1,31; (19,13) + 2, 228 0, 091 + 1,31 =

=  (19,13) − 2, 228 1, 401; (19,13) + 2, 228 1, 401  = [ (19,13) − 2, 228(1,1836); (19,13) + 2, 228(1,1836) ] =
= [ (19,13) − 2, 637; (19,13) + 2, 637] = [16,493 g; 21, 767 g ]

Conclusión: Con un nivel de confianza del 95%, se espera que el intervalo [ 16,493 g ; 21,767 g ] cubra
o contenga a la diferencia entre la media poblacional del peso de la ratas de entre 28 y 84 días de vida
alimentadas con la dieta alta en proteínas y la media poblacional de las ratas de entre 28 y 84 días de
vida alimentadas con la dieta baja en proteínas, en estas poblaciones de ratas de entre 28 y 84 días de
vida.

PROBLEMAS PROPUESTOS

1) Para comparar cinco dietas para porcinos se seleccionaron veinticinco animales al azar para ser
usados en el experimento. Aleatoriamente se les asignó una dieta a cada grupo, midiéndose sobre
cada animal el peso inicial y el peso al cabo de 30 días.
Responder:
a- La unidad experimental es ...........................................................................................................
b- Los tratamientos son ...................................................................................................................
c- La observación es .......................................................................................................................
22
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)

d- El objetivo del trabajo es ............................................................................................................


......................................................................................................................................................

2) Para estudiar el efecto de un nuevo fertilizante sobre el rendimiento de un cultivo de oleaginosas, se


sembraron 12 ha del cultivo con fertilizante y 10 ha sin fertilizante. Una vez levantada la cosecha resultó:
X 1 =1089 kg/ha y X 2 = 877 kg/ha, respectivamente. Suponiendo que σ1 = σ2 = 105 kg/ha, y que ambas
variables tienen distribución normal:
a.- ¿Es la diferencia entre los rendimientos medios con y sin fertilizante, significativa al 5%?
b.- ¿Considera conveniente construir un intervalo de confianza para la diferencia entre las medias?
Justifique.

3) Las personas que tienen el síndrome de Raynaud sufren un súbito deterioro en la circulación sanguínea
de los dedos de las manos y de los pies. Para estudiar esta enfermedad, en un experimento se midió la
2
generación de calor, mediante calorimetría, en cal/cm /min, de un dedo índice luego de haberlo sumergido
en agua a 19°C. En este estudio, se contó con una m uestra tomada al azar de 10 individuos con el
síndrome y una muestra de 10 individuos sanos.
Sanos (S) 2,43 1,83 2,43 2,70 1,88 1,96 1,53 2,08 1,85 2,44
Síndrome de Raynaud (E) 0,81 0,70 0,74 0,36 0,75 0,56 0,65 0,87 0,40 0,31
Asuma que las distribuciones de ambas variables son normales, y que σE = σS .
2 2

a.- Definir:
Variables en estudio: ........................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................
Parámetros: .....................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................
Poblaciones: ....................................................................................................................................
.............................................................................................................................................................
.............................................................................................................................................................

b.- Estimar puntualmente y por intervalo de confianza la diferencia entre la generación de calor media de
los individuos enfermos (µE) y la generación de calor media de los individuos sanos (µS) (1-α = 0,95).

c.- Se cree que la generación de calor por parte de los afectados por este síndrome es más homogénea.
Probarlo con un nivel de significación del 5%.

4) De una población de individuos afectados por una enfermedad, se tomaron dos muestras aleatorias e
independientes de 100 individuos cada una. A una de las mismas (que llamaremos grupo A), se le
administró un suero, al otro grupo (B, control) se le administró un placebo; en todo lo demás, los dos
grupos fueron tratados idénticamente. Se encontró que en los grupos A y B, 75 y 55 individuos,
respectivamente, se habían recuperado luego de un mes de observación. Probar la hipótesis de que el
suero ayuda a curar la enfermedad con un nivel de significación del 5%.
a) La hipótesis de trabajo es: .........................................................................................................
.....................................................................................................................................................
.....................................................................................................................................................

b) La región crítica es .....................................................

c) El valor calculado del estadístico de prueba es:

23
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)

Fórmula empleada Reemplazo numérico Resultado

d) Conclusión a la que llega luego de la prueba: .......................................................................................


.......................................................................................................................................................
.......................................................................................................................................................
.......................................................................................................................................................
.......................................................................................................................................................
5) Un estudio llevado a cabo para probar si la aspirina afecta el tiempo de coagulación, se tomó una
muestra de 12 adultos varones. El tiempo de protrombina, que mide el tiempo en segundos entre el
inicio de la reacción de coagulación y la formación del coágulo, fue medido en cada uno de los
individuos antes y después de 3 hs de haber ingerido dos tabletas de aspirina (500mg cada una).
Antes 12,3 12,0 12,0 13,0 13,0 12,5 11,3 11,8 11,5 11,0 11,0 11,3
Después 12,0 12,3 12,5 12,0 13,0 12,5 10,3 11,3 11,5 11,5 11,0 11,5
a) Probar si existe alguna diferencia en el tiempo de protrombina con un nivel de significación del 5%,
tener en cuenta la verificación de supuestos, sin hacer cálculos y utilizando la información que le
proporciona alguna de las salidas de InfoStat que abajo se detallan. Comente brevemente por qué eligió
esa salida y a qué decisión llega a partir de la información.
Shapiro-Wilks (modificado) Shapiro-Wilks (modificado)
Variable n Media D.E. W* p (una cola) Variable n Media D.E. W* p (una cola)
antes 12 11.89 0.71 0.89 0.2210 Dif_AD 12 0,11 0,51 0,86 0,0972
después 12 11.79 0.75 0.97 0.9213

Prueba T para muestras Independientes


Grupo1 Grupo2 n1 n2 med1 med2 LI(95%) LS(95%) T p prueba
Antes Después 12 12 11,89 11,78 -0,51 0,72 0,37 0,7186 Bilat

Prueba T para un parámetro


Valor del parámetro probado: 0
Variable n Media DE LI(95) LS(95) T p(Bilateral)
Dif_AD 12 0,11 0,51 -0,21 0,43 0,74 0,4748
.......................................................................................................................................................
.......................................................................................................................................................
b) El intervalo de confianza correspondiente tiene como límites: .........................................................
c) La conclusión para el intervalo de confianza es: ............................................................................
.......................................................................................................................................................
.......................................................................................................................................................
.......................................................................................................................................................

6) Las empresas que comercializan agua para beber, realizan controles de calidad diariamente. Una de
las variables de interés es el pH, que mide el grado de acidez del agua contenida en los envases lista
para su distribución. Un pH menor a 7 es considerado ácido, un pH mayor a 7 es considerado alcalino
y un pH igual a 7 es considerado neutro. Un investigador sospecha que el material de los nuevos en-
vases modifica el pH del agua. Para estimar la diferencia entre los pH medios, extrae 20 muestras de
agua con el envase viejo y 15 muestras de agua con el envase nuevo. Algunos datos obtenidos son:

Media Desvío Shapiro-Wilks (p-valor)


Envase viejo 8,366 0,54 0,6413
Envase nuevo 6,318 3,73 0,9609

Al hacer la prueba de homogeneidad de varianzas, resultó: F = 0,0209, p-value = 0


Construir un intervalo para la diferencia de medias al 95%. ¿Qué puede concluir?

24
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)

7) Alle y Bowen (1932) estudiaron el tiempo de supervivencia de la carpa dorada, en minutos, cuando se
coloca en suspensiones de plata. Los investigadores realizaron varios experimentos, entre ellos el siguien-
te: se asignan aleatoriamente 10 carpas a cada grupo. En uno de ellos se exponen a las carpas a una
concentración baja de nitrato de plata disuelto en el agua (Conc1, 50 g/l), y el otro grupo, a una concentra-
ción mayor (Conc2, 80g/l). Al nivel del 5%, ¿difieren los tiempos de supervivencia?
Boxplot
Conc1 Conc2
250
210 81
180 75
240 156 200

60 180

Sobrevida
55 102 150
75 200
78 135
100
82 85
125 78
83 87 50
1 2
Concentración

Shapiro-Wilks (modificado)
Concentración Variable n Media D.E. W* p (una cola)
1 Sobrevida 10 118,80 67,11 0,81 0,0247
2 Sobrevida 10 117,90 46,46 0,82 0,0307

Prueba de Wilcoxon para muestras independientes (Mann Whitney)


Estadístico
Grupos Media Desvío estándar Mediana Media del rango p-valor
T
Conc1 118,80 67,11 82,50 9,75
97,50 0,5703
Conc2 117,90 46,46 94,50 11,25

CUESTIONARIO

1.- ¿Cuál es el objeto de un diseño experimental? ¿Qué beneficios trae?


.......................................................................................................................................................
2.- ¿De qué manera puede controlarse la confusión de factores en el estudio experimental?
.......................................................................................................................................................
3.- ¿Cuál/es de las siguientes preguntas corresponde hacerse en un estudio observacional? Tache lo
que no corresponda.
a) ¿se aleatorizaron las asignaciones a tratamiento y control? SÍ NO
b) ¿qué característica determinó la separación entre los grupos? SÍ NO
c) ¿existen factores que pueden confundirse con los tratamientos? SÍ NO
d) ¿si existe posibilidad de confusión, puede controlarse? SÍ NO

4.- En los estudios observacionales pueden establecerse asociaciones, es decir poner de manifiesto
que una cosa está relacionada con otra. ¿Pueden estos estudios establecer causalidad?
.....................................................................................................................................................................
.........................................................................................................................................
5.- ¿Cómo diseñaría un experimento para estudiar si la hipertensión durante el embarazo provoca be-
bés nacidos con menor peso? ¿Qué factor podría confundirse y cómo lo controlaría?
.....................................................................................................................................................................
.....................................................................................................................................................................
...........................................................................................................................

25
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)

6.- Según un estudio observacional realizado en el Kaiser Permanente de Walmut Creek, California, se
daba un índice más elevado de cáncer de cuello de matriz entre mujeres que usaban anticonceptivos ora-
les que entre las que no usaban, independientemente de su edad, educación, estado civil, religión y hábito
de fumar. Los investigadores llegaron a la conclusión de que la píldora causaba el cáncer del cuello de
matriz. ¿Es correcta esta afirmación? ¿Por qué?
..............................................................................................................................................................................
................................................................................................................................................

7.- Identifique en el ejemplo anterior los términos: unidad experimental, tratamiento, factor, niveles del
factor.
..............................................................................................................................................................................
................................................................................................................................................

...............................................................................................................................................................

8.- En qué casos debe aplicarse el test de Welch? ..............................................................................


.......................................................................................................................................................
9.- Un estimador puntual es ........................................................................................................... y se
utiliza para ...............................................................................................................................
10.- ¿Qué entiende por confianza en la estimación de un intervalo?
...............................................................................................................................................................
...............................................................................................................................................................
11.- Establezca las diferencias entre ambos tipos de estimación.
...............................................................................................................................................................
...............................................................................................................................................................
12.- ¿Qué ocurre con la amplitud de un intervalo de confianza para la diferencia de medias
poblacionales con varianzas desconocidas pero iguales si:
a.- aumenta el tamaño de las muestras (manteniéndose la varianza muestral constante)
b.- disminuye el nivel de confianza.
c.- disminuye la variabilidad de las muestras.
13.- ¿Es la diferencia de medias poblacionales la que fluctúa en el intervalo ó es el intervalo el que fluctúa
alrededor de la diferencia de medias poblacionales? Explique su respuesta.
14.- ¿Puede resultar negativo algún límite de un intervalo de confianza para la diferencia de dos
proporciones? Justifique su respuesta.

15- ¿En qué casos es recomendable aplicar un test de Mann Whitney? Explicite los supuestos y las
hipótesis que se corresponden con los mismos.
16.- Si al realizar una prueba de hipótesis, donde H0: p1 − p2 ≥ 0 versus H1: p1 − p2 < 0 , se rechaza
H0 al nivel 5%; se puede estar:
a.- actuando correctamente con probabilidad igual a 0,95.
b.- actuando correctamente con probabilidad igual a (1 - β).
c.- cometiendo un error tipo I con probabilidad igual a 0,05.
d.- cometiendo un error tipo II con probabilidad igual a β.
Indicar cuál o cuáles de las situaciones son correctas justificando claramente la respuesta.
17.- ¿Qué elementos necesita para definir la región crítica? Detalle cómo interviene cada uno de ellos.
18.- ¿Cuándo le parece conveniente utilizar una prueba para la media de las diferencias apareadas?
¿Cuántas son las variables en estudio?
19.- Se tiene la sospecha de que la proporción de individuos que no tienen enfermedades cardiovascu-
lares en la población A es mayor que en la población B. Para poner a prueba esta hipótesis se tomó

26
Estadística Analítica 2010 Fac. Cs. Veterinarias (U.B.A)

una muestra aleatoria de individuos de la población A y otra de la población B y se observó el número


de individuos sin esta afección en cada grupo.
a.- La hipótesis de trabajo es: ..........................................................................................................
.......................................................................................................................................................
.......................................................................................................................................................
b.- Interpretación biológica de parámetro/s en estudio: ......................................................................
.......................................................................................................................................................
.......................................................................................................................................................
c.- Las hipótesis estadísticas son: ......................................................................................................
d.- Los supuestos necesarios para la validez de la prueba estadística son: ...........................................
.......................................................................................................................................................
.......................................................................................................................................................

20.- Se realizó una dócima a un nivel del 5%, con las hipótesis H0: σ 12 = σ 22 versus H1: σ 12 ≠ σ 22 y
resultó no significativa (es decir, no se rechazó H0). ¿En qué situación de las cuatro que quedan
planteadas en una dócima de hipótesis se ubica este ejemplo si supiéramos que para estas
poblaciones σ 12 > σ 22 ? ¿Cuál es la probabilidad asociada a esta situación?
21.- En una población con µ1 > µ2 se realizó la dócima H0: µ1 = µ2 contra H1: µ1 ≠ µ2 y resultó
significativa al 1%, es decir se rechazó H0. ¿En qué situación de las cuatro posibles ubica este
ejemplo? ¿Cuál es la probabilidad asociada a esta situación?
22.- Dentro del marco de la dócima de hipótesis definir en forma clara y concisa los siguientes concep-
tos:
• Hipótesis estadística
• Nivel de significación
•1-α

27
Unidad 2: CONTRASTES de CHI-CUADRADO
Objetivos específicos
• Elegir las hipótesis adecuadas a cada problema planteado con datos categóricos y seleccionar la
prueba correspondiente.
• Aplicar correctamente los contrastes Chi Cuadrado para los ensayos de independencia, homogeneidad
y bondad de ajuste.

Contenidos temáticos
Bondad de ajuste. Tablas de contingencia: Ensayos de Independencia. Contrastes Ji-cuadrado para
homogeneidad con varias poblaciones. Alcance de los ensayos.

Glosario
Datos categorizados (cualitativos o atributos). Respuestas categóricas y dicotómicas. Categorías
mutuamente excluyentes. Categorías independientes. Frecuencia observada. Frecuencia esperada o
teórica. Frecuencia total o marginal. Tablas o criterios de clasificación. Bondad de ajuste entre frecuencias
observadas y frecuencias teóricas. Hipótesis de independencia. Asociación entre atributos. Hipótesis de
homogeneidad.

PROBLEMAS RESUELTOS
01.- Se realizó un estudio para saber si el grado de eficacia de un medicamento contra mastitis a partir del
nivel de mejoría está relacionado con el nivel de gravedad del cuadro clínico. Se tomó una muestra de 642
vacas Holando con mastitis y se registró el nivel de gravedad. A todas se las trató con la misma dosis del
medicamento y luego de 10 días se las clasificó en función del nivel de mejoría. Los resultados se
observan en la siguiente tabla:

Nivel de mejoría
Ninguna Ligera Notable
Leve 8 7 12
Niveles de
Intermedio 6 37 36
Infestación
Grave 37 148 351

¿Es sustentable la hipótesis de que existe relación entre la eficacia del medicamento y el nivel de mastitis
del animal al 5%? Justifique.
Datos del problema:
• Variables en estudio:
X1: Nivel de infestación de un paciente, categorizada en leve, intermedio y grave
X2: Nivel de mejoría de un paciente, categorizada en ninguna, ligera y notable
• Cantidad y tamaño de muestras: hay una única población de pacientes de la cual se extrajo una única
muestra de tamaño 642
• Nivel de significación:α = 0,05
• Se completa la tabla de frecuencias observadas (Oij) con los totales de filas y columnas (Oi٠ y O٠j ,
respectivamente) y el total general (O٠٠ = n)
Nivel de mejoría
Ninguna Ligera Notable Total
Leve 8 7 12 27

Niveles de Intermedio 6 37 36 79
Infestación Grave 37 148 351 536
Total 51 192 399 642=n

28
Solución:
Existen dos variables en estudio X1 y X2 ambas con tres categorías y una única población de
vacas. Se quiere probar si las variables, o criterios de clasificación, nivel de infestación y nivel de mejoría,
son independientes en la población. Entonces nuestras hipótesis estadísticas son:
H 0 : p ij = p i• * p • j para i = 1, 2, 3; j = 1, 2, 3
H 1 : a lg una de las igualdades anteriores no se cumple
En este caso H0 está expresando la independencia de las variables para todos los pares de sucesos o
categorías que las componen y H1 la falta de independencia o no independencia entre ellas.
Donde:
pij: es la probabilidad conjunta esperada de la intersección de la fila i-ésima y la columna j-ésima de la
tabla.
pi.: es la probabilidad total esperada de elementos de la fila i-ésima.
p.j: es la probabilidad total esperada de los elementos de la columna j-ésima.

El nivel de significación, es la probabilidad de cometer error de tipo I, es del 5%.

El estadístico de prueba a utilizar es:

(Oij - Eˆ ij )2

f c
χ = ∑∑
2
χ (2f -1)(c-1)
i =1 j =1 Eˆij

siendo f = Nº de filas y c = Nº de columnas.

La región crítica es unilateral derecha, debido a que grandes discrepancias entre los valores
observados y sus correspondientes valores esperados nos harán sospechar de la veracidad de la
hipótesis planteada.
El valor crítico es χ 4;0,95 = 9,48, quedando como región crítica: χ ≥ 9,48.
2 2

Recordemos que la región crítica está formada por los valores del estadístico de prueba para los cuales
se va a rechazar la hipótesis nula. Y la determinamos a partir de la distribución del estadístico de prueba,
el nivel de significación, la hipótesis alternativa y, a veces, del tamaño de la muestra.
Gráficamente:

RECHAZO H0 si χ H2 0
≥ 9,48
La regla de decisión es
NO RECHAZO H0 si χ H2 0
< 9,48

Por ser un caso de independencia, multiplicando las probabilidades esperadas ( pij = pi. ∗ p. j ) por n
(tamaño de la única muestra), se obtienen las frecuencias esperadas ( Eij = n * pij = n * pi. * p. j ).
Debido a que no tenemos las probabilidades esperadas las estimamos a partir de la muestra, es decir:
Oi• O• j
pˆ ij = pˆ i• * pˆ • j = *
O•• O••
y luego obtenemos los valores esperados estimados como:
Eˆij = n * pˆ ij = n * pˆ i. * pˆ . j
29
Por ejemplo, para el elemento ubicado en la fila 1 y la columna 1 tenemos:

Ê =642*
 27 * 51 
 642 642  = 2,1448
11
 
Si efectuamos la misma operación para todos los elementos de la tabla de contingencia, obtenemos la
tabla de frecuencias esperadas estimadas:
Nivel de mejoría
Ninguna Ligera Notable
Total
Leve 2,145 8,075 16,780 27

Nivel de Intermedio 6,276 23,626 49,098 79


infestación Grave 42,579 160,299 333,122 536
Total 51 192 399 642 = n

El valor del estadístico calculado se obtiene reemplazando estos valores ( Eˆ ij ) en lugar de los ( Eˆ ij ) sin
modificar la distribución y los correspondientes valores observados llegando a:

χ Ho =
2 (8 − 2,145)2 + (6 − 6,276)2 + (37 − 42,579)2 + (7 − 8,075)2 + (37 − 23,626)2 +
2,145 6,276 42,579 8,075 23,626

+
(148 − 160,299)2 + (12 − 16,78)2 + (36 − 49,098)2 + (351 − 333,122)2 =
160,299 16,78 49,098 333,122
Por lo tanto, el valor es
χ H2 = 15,982 + 0,012 + 0,731 + 0,143 + 7,571 ++0,944 + 1,36 + 3,494 + 0,959 = 31,198
0

Nota: Suele aportar información observar si las mayores magnitudes que forman este valor calculado (ej.:
15,982; 7,571 y 3,494) provienen de una misma fila o de una misma columna.

Conclusión: Al nivel de significación del 5%, hay evidencias suficientes para rechazar la hipótesis nula
(donde se plantea la independencia), es decir que las variables nivel de infestación de mastitis,
categorizada en Leve, Intermedio y Grave; y nivel de mejoría, con niveles Ninguna, Ligera y Notable, no
son independientes, por lo tanto, a este nivel de significación es sustentable la hipótesis de que en esta
población existe relación entre la eficacia del medicamento y el nivel de gravedad de mastitis en vacas
Holando.

02.- Se espera que una determinada droga sea efectiva para la curación del catarro común en personas.
En un experimento con 164 personas con catarro, la mitad de ellas recibió la droga y la otra mitad recibió
píldoras azucaradas (grupo control). En la siguiente tabla se encuentran los resultados obtenidos luego de
aplicar los tratamientos.
Resultado
Mejorados Efecto nulo Empeorados
Droga 50 22 10
Tratamiento
Píldoras azucaradas 40 28 14
Probar la hipótesis de que la droga no produce efectos, con un nivel de significación del 1%
Datos del problema:
• Variable en estudio:
X: Resultado de un paciente luego del tratamiento, categorizado en: mejorado, efecto nulo, empeorado.
• Cantidad y tamaño de muestras: hay dos muestras, una de 82 de pacientes que tomaron droga y otra
de 82 pacientes que tomaron píldora azucarada
• Nivel de significación:α = 0,01

30
• Se completa la tabla de frecuencias observadas con los totales de las muestras y los totales de cada
categoría:

Resultados
Mejorados Efecto Empeorados
Total
(m) nulo (n) (e)
Droga (d) 50 22 10 82
Tratamiento Píldoras azucaradas (a) 40 28 14 82
Total 90 50 24 164

Solución:
Se cuenta con dos muestras de igual tamaño, proveniente de dos poblaciones, y una variable ordinal con
3 categorías.
La hipótesis que interesa docimar es que "la probabilidad de mejorar es la misma en las dos poblaciones
de personas con catarro”: la población de personas con catarro tratados con droga y la población de
personas con catarro tratados con las píldoras azucaradas. Es decir, que hay homogeneidad en los
resultados del tratamiento con droga y píldoras. Entonces las hipótesis estadísticas son:

H0: pm / pob: dorga = pm / pob: azuc = pm (probabilidad de mejorar en la población que recibe droga = probabili-
dad de mejorar en la población que recibe píldora azucarada)
pn / pob: dorga = pn / pob: azuc = pn (probabilidad de efecto nulo en la población que recibe droga = probabili-
dad de efecto nulo en la población que recibe píldora azucarada)
pe / pob: dorga = pe / pob: azuc = pe (probabilidad de empeorar en la población que recibe droga = probabilidad
de empeorar en la población que recibe píldora azucarada)
H1 : alguna igualdad de las anteriores no se cumple.

Nivel de significación α = 0,01

El estadístico de prueba a utilizar es:

2
 f = número de filas
≈χ
f
(O ij - Eˆ ij )
c
χ = ∑∑
2 2
 c = número de columnas
Eˆ ij
( f -1)( c -1)
i =1 j =1 
2
El valor crítico es χ (3-1)( 2-1);0,99 = 9, 21

Por lo tanto la región crítica es χ ≥ 9,21


2

RECHAZO H0 si χ H2 0
≥ 9,21
La regla de decisión es:
NO RECHAZO H0 si χ H2 0
< 9,21

Información muestral: para calcular el valor del estadístico de prueba es necesario estimar las frecuencias
esperadas, considerando que la hipótesis nula es verdadera. Previamente estimamos pm ; pn y pe .

31
En este caso las muestras están representadas en las filas de la tabla y se estiman las proporciones
O•1 O O
correspondientes a las categorías de la variable resultados como pˆ m = ; pˆ n = •2 ; pˆ e = •3
O•• O•• O••
90 24 50
obteniendo: pˆ m = ; pˆ n = ; pˆ e =
164 164 164

A partir de aquí se calculan las frecuencias esperadas estimadas en cada clase o categoría:
24
eˆde = nd * pˆ ee = 82 * = 12 (donde nd es el tamaño de la muestra de las personas tratadas con la
164
droga).
Efectuando la operación equivalente en todas las celdas del cuerpo de la tabla de frecuencias observadas,
se obtiene la tabla de frecuencias esperadas estimadas:

Resultado
Mejorados Efecto nulo Empeorados Total
(m) (n) (e)
Droga (d) 45 25 12 82
Tratamiento
Píldoras (a) 45 25 12 82
Total 90 50 24 164

Por lo tanto el estadístico de prueba resulta


2 2 2 2 2 2
(50 - 45) (40 - 45) (10 -12) (14 -12) (22 - 25) (28 - 25)
χ H2 0 = + + + + +
45 45 12 12 25 25
25 25 4 4 9 9
χ H2 0 = + + + + + = 1,111 + 0, 667 + 0, 720 = 2, 498
45 45 12 12 25 25
y como 2,498 < 9,21 se decide no rechazar H0

Conclusión: A un nivel de significación del 1%, no hay evidencias suficientes para rechazar la hipótesis
nula ( pm / pob: dorga = pm / pob: azuc = pm ; pn / pob: dorga = pn / pob: azuc = pn ; pe / pob: dorga = pe / pob: azuc = pe ) entonces la pro-
babilidad poblacional de personas con catarro común mejorados sería la misma para los tratados con
droga y los tratados con píldoras azucaradas. Lo mismo ocurre con las probabilidades poblacionales de
empeorados y de los que tuvieron efecto nulo, o sea que la droga y la píldora azucarada producirían
reacciones similares en cuanto a las probabilidades poblacionales de mejorados, empeorados y de efecto
nulo, con respecto a la curación del catarro común en personas. Por lo tanto, al 1% se puede decir que la
droga no es efectiva para la curación del catarro común.

03.- Supongamos que cuando las palomas son desorientadas no demuestran preferencia por ninguna
dirección de vuelo, de manera que la dirección debería estar distribuida uniformemente en el intervalo
(0°;360°]. Para probar esta suposición se desorient ó a 60 palomas y se estudió la dirección de vuelo de
cada una de ellas dividiéndola en 4 categorías (como se indica en la tabla siguiente), obteniéndose los
siguientes resultados:
Dirección (0°;90°] (90°;180°] (180°;270°] (270°;360°]
Frecuencia 12 16 17 15
¿Son compatibles estos resultados con la suposición planteada? (α=0,05).
Datos del problema
• Variable en estudio:
X: Dirección de vuelo de una paloma, categorizada en (0°;90°],(90°;180°];(180°;270°] y (270°;360°]
• Cantidad y tamaño de muestras: hay una única muestra de palomas de tamaño 60, obtenida de la
población de palomas desorientadas.

32
• Nivel de significación:α = 0,05
Solución
Aquí tenemos una única muestra (como en el primer ejemplo) pero sólo se registra una variable de 4
categorías, que es la dirección de vuelo. Es de interés ver si dicha variable tiene en la población una
distribución determinada. De esto, se puede deducir que la hipótesis que nos interesa docimar es que la
variable responde a una distribución teórica y por lo tanto se trata de un caso de bondad de ajuste.
Las hipótesis estadísticas son:
H0 : p1 = p2 = p3 = p4 = 1/4
H1 : alguna igualdad de las anteriores no se cumple.
Donde:
p1: probabilidad esperada de elegir la dirección (0°; 90°]
p2: probabilidad esperada de elegir la dirección (90°;180°]
p3: probabilidad esperada de elegir la dirección (180°;270°]
p4: probabilidad esperada de elegir la dirección (270°;360°]

El nivel de significación es del 5%


k 2
(O i - E i )
χ2 = ∑ ≈ χ ( k -1)
2
k = N °clases
El estadístico de prueba a utilizar es: k =1 Ei

χ (4-1);0,95 = 7, 81 , resultando como región


2
La región crítica es unilateral derecha, siendo el valor crítico:
crítica los valores de χ ≥ 7,81
2

Gráficamente:

RECHAZO H0 si χ H2 0
≥ 7,81
La regla de decisión es:
NO RECHAZO H0 si χ H2 0
< 7,81

Información:
Dado que pi = 1/4 para i = 1, 2, 3, 4; resulta que ei= n*pi = 60*1/4 = 15 para i = 1, 2, 3, 4.
Por lo tanto el cálculo del estadístico es:
(12 − 15 ) (16 − 15 ) (17 − 15 ) (15 − 15 )
2 2 2 2
9 1 4 14
χ 2
H0 = + + + = + + +0 = = 0, 93
15 15 15 15 15 15 15 15

Conclusión: Con un nivel de significación del 5%, no existen evidencias suficientes para rechazar H0 (p1 =
p2 = p3 = p4 = 0,25), o sea que en la población se puede decir que se cumple el modelo teórico de que las
cuatro direcciones de vuelo (0°; 90°]; (90°; 180°]; (180°; 270°] y (270°;360°] son igualmente probables . Por
lo tanto, la dirección de vuelo de las palomas estaría distribuida uniformemente en la población de palomas
que han sido desorientadas.

PROBLEMAS PROPUESTOS
01.- En la localidad A se realizó una colecta de la especie S. Un examen de los 167 machos adultos
recogidos reveló que 35 de ellos tienen bandas color pálido alrededor del cuello. De la localidad B, situada
a 90 Km, se obtiene una muestra de 27 machos adultos de la misma especie, de los que 6 tienen bandas
y en la localidad C, situada a 150 Km, en una muestra de 79 machos adultos de la misma especie, 17
tienen bandas. ¿Pertenecen las muestras a la misma población? Justifique estadísticamente su respuesta
(α=0,01).

02.- En un estudio anatómico de ulceraciones gástricas benignas y malignas, se analizaron los


antecedentes de todos los pacientes con tales ulceraciones que fueron autopsiados entre 1975 y 1985.

33
Solamente se examinaron pacientes con 50 años o más de edad, pues es en estos individuos en quienes
el diagnóstico diferencial ofrece mayores dificultades, resultando:
Clasificación de pacientes con ulceración gástrica
de acuerdo con el lugar de la úlcera y el estado de malignidad.

ESTADO DE MALIGNIDAD

LUGAR DE LA ÚLCERA Benigna Maligna Total


Prepilórica 87 34 121
Cuerpo 52 19 71
Cardias 11 8 19
Total 150 61 211
Realizar con estos datos la prueba de asociación entre el lugar de la úlcera y el estado de malignidad, a un
nivel de significación del 5%.

03.- Se desea analizar si el tenor de la fosfatasa alcalina en casos de hepatitis humana varía según la
edad. Se tomaron enfermos de distintas edades que se agruparon en tres clases, y se midió el tenor de
fosfatasa alcalina. Los resultados fueron:
Niveles de Fosfatasa
Edad Menos de 20 UI 20 UI o más
Menos de 20 años 11 49
20 a 40 años 15 45
Más de 40 años 20 40
¿Influye la edad sobre el tenor de fosfatasa alcalina? Concluir al nivel del 5%

04.- Se realiza un experimento entre dos cobayos heterocigotas (AaBb) en los cuales A determina el
pelaje negro y a determina el pelaje blanco, mientras que B determina el pelo corto y b el pelo largo. Se
obtuvieron las siguientes frecuencias fenotípicas:
Pelaje negro y corto 85
Pelaje negro y largo 28
Pelaje blanco y corto 35
Pelaje blanco y largo 12
¿Puede considerarse que la segregación de la descendencia está en una proporción de 9:3:3:1, a un nivel
del 5%?

05.- Se arroja 48 veces un dado con los siguientes resultados:


Resultado 1 2 3 4 5 6
Frecuencia 11 5 8 15 1 8
¿Puede considerarse el dado equilibrado con un nivel de significación del 5%?

06.- Para investigar si el dosaje de transaminasa en casos de hepatitis de tipo A está asociado con la
edad, se tomaron sesenta historias clínicas de pacientes registrados en un hospital en un período
determinado y se las clasificó por grupo de edad y por dosaje de transaminasa, obteniéndose la siguiente
tabla:
DOSAJE DE TRANSAMINASA
EDAD (AÑOS) 15 - 30 30 – 45 más de 45
Menos de 18 10 6 5
18 a 35 años 8 7 5
Más de 35 años 9 7 5

a) Plantear las hipótesis nula y alternativa


b) Indicar la zona crítica (Use α=0,05)
c) Detallar los pasos a seguir para calcular el valor esperado de la celda (2;3) bajo la hipótesis
nula.

34
d) Si χ² = 0,475, ¿cuál es la decisión? Concluir en términos del problema.
Ho
07.- Suponga que para comparar tres métodos de enseñanza se realizan pruebas en tres cursos de 30; 43
y 50 alumnos respectivamente, impartiendo un método a cada curso. Al cabo de la experiencia se toma
una prueba escrita individual y se clasifica a los alumnos según el grado de comprensión del tema. Los
resultados se muestran en el siguiente cuadro:
Método de enseñanza
Grado de Curso 1: Curso 2: Curso 3:
comprensión Simulación Estudio de casos Exposición
Alta 16 25 12
Media 9 11 28
Baja 5 7 10
A un nivel de significación del 5%, ¿cree que la respuesta de los alumnos resulta similar bajo los tres
métodos de enseñanza?
¿Corresponde a un problema que se resuelve realizando una prueba de Independencia? Justifique.

08.- Un criador de perros de raza desea determinar si han cambiado las preferencias de la gente en
relación a las razas de perros a la hora de comprar una mascota. Se sabe que las preferencias por razas
de perros en el pasado sigue los siguientes porcentajes: 35% del público prefería la raza A; 21% la raza B;
el 16% la raza C y el resto la raza D; mientras que en el último año entre 250 individuos que compraron
como mascota un perro de raza resultó que optaron: 63 por raza A, 32 por raza B, 38 por raza C y el resto
prefirió la D.
A un nivel de significación del 5%, ¿se puede decir que la preferencia del público se ha modificado?
a. Indicar Hipótesis estadísticas
b. Seleccione una categoría, simbolice el correspondiente valor observado e indique como obtiene el
correspondiente valor esperado.

CUESTIONARIO

1.- ¿Cuál es la utilidad de las pruebas de Bondad de Ajuste?


2.- ¿Cuándo aplica una Dócima de Independencia y cuándo una de Homogeneidad? Señale similitudes
y diferencias entre ambas pruebas.
3.- ¿Por qué la región crítica es unilateral derecha en este tipo de prueba de hipótesis?
4.- Dada la siguiente tabla:
A1 A2 Total
B1 10 15 25
B2 15 30 45
B3 25 40 65
Total 50 85 135

Responda las siguientes consignas suponiendo que es una prueba para:


A- Independencia
B- Homogeneidad
a) Definir las variables A (con 2 niveles) y B (con 3 niveles) de modo que tenga sentido realizar la
dócima.
b) Indicar el modo en que se seleccionaría/n la/s muestra/s.
c) Proponer las hipótesis correspondientes.
d) Suponiendo que se rechaza la hipótesis nula, redactar la conclusión.
5.- Seleccionar una alternativa en cada caso y justificar claramente:
 En una prueba de INDEPENDENCIA
 a.- La/s variables en estudio debe/n ser:

35
a.1.- ambas cuantitativas continuas
a.2.- ambas cuantitativas discretas
a.3.- ambas cualitativas
a.4.- al menos una cualitativa
a.5.- ninguna de las situaciones anteriores
b.- La región crítica es:
b.1.- unilateral derecha
b.2.- unilateral izquierda
b.3.- bilateral
c.- El valor esperado de la celda que se encuentra en la intersección de la primera fila con la segunda
columna se calcula como:
c.1. - eˆ12 = pˆ •2 * n1•
c.2. - eˆ12 = p ˆ 1• * n•2
c.3. - eˆ12 = pˆ 1• * pˆ •2 * n••
c.4. - Ninguna de las situaciones anteriores
 En una prueba de HOMOGENEIDAD
El valor esperado de la celda que se encuentra en la intersección de la primera fila con la segunda colum-
na se calcula, si las poblaciones están ordenadas por columnas, como:
a.1. - eˆ12 = pˆ •2 * n1•
a.2. - eˆ12 = p ˆ 1• * n•2
a.3. - eˆ12 = pˆ 1• * pˆ •2 * n••
a.4. - Ninguna de las situaciones anteriores
6.- Para una dócima de bondad de ajuste se concluyó de la siguiente forma: “Con un nivel de significa-
ción del 1% se tiene evidencia suficiente para rechazar H0, por lo tanto la población de vacas Shorthorn
se puede suponer que sigue una distribución según el modelo teórico 1:2:3, en la población bajo estu-
dio”. Seleccionar el ítem correcto y justificar su respuesta.
a.- la conclusión es correcta
b.- la conclusión esta incompleta ya que le falta detallar las categorías del modelo
c.- la conclusión esta incompleta ya que le falta detallar la variable en estudio
d.- b y c son correctas
e.- ninguna de las anteriores
7.- Seleccionar la respuesta correcta, el estadístico de prueba en la dócima de Chi-cuadrado siempre
toma valores
a.- no negativos
b.- entre 0 y 1
c.- mayores o iguales al valor crítico
d.- menores o iguales al valor crítico
8.- Escribir para cada situación: H0, variable pivotal y región crítica
• Las calificaciones categorizadas en libres, regulares y promociones no están balanceadas en la
población correspondiente a los alumnos de estadística.
H0: ..................................................................................................................................................
Variable pivotal: ...............................................................................................................................
Región crítica: .................................................................................................................................
• Aprobar o desaprobar un examen final no está asociado a sí el presidente de mesa es el titular, el
adjunto o el jefe de trabajos prácticos en la población correspondiente a los alumnos de estadística.
H0: ..................................................................................................................................................
Variable pivotal: ...............................................................................................................................
Región crítica: .................................................................................................................................
36
9.- Completar
a) En una prueba de Homogeneidad se trabaja con la cantidad de .......... población/es y se registra la
cantidad de ........................ variable/es.
b) En una prueba de Bondad de Ajuste se quiere probar si una................................... se comporta
como .................. respecto a una variable aleatoria de interés.
c) Las pruebas de independencia sólo se pueden aplicar cuando al muestrear se toma la/las
.................... en forma aleatoria .
10.- Se tomó aleatoriamente una muestra y se registró presión diastólica y colesterol ambas variables
con niveles normal y alto resultando:
Presión Diastólica
Normal Alta
Normal 716 79
Colesterol
Alto 207 25
Completar:
a.- Población o poblaciones:..............................................................................................................
b.- El valor esperado de la segunda celda de la primera fila se obtiene ...............................................

37
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)

UNIDAD 3: Regresión Lineal Simple y Múltiple.

Objetivos específicos
• Comprender el sentido de las técnicas de regresión lineal así como su importancia en el marco de la
Inferencia Estadística para dos o más variables conjuntamente distribuidas.
• Conocer las ventajas y limitaciones de esta técnica así como los procedimientos de diagnóstico para
evaluar la calidad de los resultados obtenidos en la estimación.
• Distinguir claramente entre casos de relación funcional entre variables respecto a independencia de
variables aleatorias.

Contenidos temáticos
Concepto de regresión. Caso particular: regresión lineal simple. Diagrama de dispersión. Variable
dependiente. Modelo, supuestos. Método de mínimos cuadrados. Coeficiente de regresión: cálculo e
interpretación. Varianza del error. Prueba de hipótesis e intervalo de confianza para β. Banda de confianza
para la recta de regresión. Intervalo de predicción. Coeficiente de determinación. Aplicaciones. Regresión
múltiple: Conceptos y aplicaciones. Interpretación de análisis realizados mediante programas de
computación.

Glosario
Relación entre variables. Concepto de función. Variable dependiente e independiente. Diagrama de
dispersión. Curva aproximada de ajuste. La función lineal simple. Criterio de los mínimos cuadrados.
Concepto de error: como distancia vertical entre el punto observado y la función propuesta. Las ecuaciones
normales. Pendiente de la recta (β, coeficiente de regresión lineal). Ordenada al origen (α). Contrastes e
intervalo para β. Varianza del error. Varianza explicada (coeficiente de determinación). Partición de la
varianza total. Coeficientes de regresión parcial.

PROBLEMAS RESUELTOS
1) La siguiente tabla da los resultados del estudio de la energía metabolizada por el gorrión Passer domes-
ticus, bajo diversas condiciones de temperatura seleccionadas por el experimentador y un fotoperíodo de 10
hs. Considere que se verifican todos los supuestos teóricos necesarios para realizar el análisis

Temperatura (°C) 10 12 14 16 18 20 22 24 26 28

Energía metabolizada (cal) 24 23 22 24 20 18 18 15 16 13

a) Dibujar el diagrama de dispersión.


b) Estimar la función lineal de regresión y graficarla en el diagrama anterior.
c) Probar estadísticamente que el aumento de la temperatura genera una disminución de la energía
metabolizable (α = 0,05).
d) Calcular el intervalo de confianza del 95% para β.
e) Particionar la suma de cuadrados total mostrando la proporción explicada por el modelo y la no explicada
o residual.
2
f) Calcular el R e interpretar el resultado.
g) ¿Qué porcentaje de la variabilidad de la variable respuesta no es explicada por el modelo escogido?
h) ¿Cuál es la estimación, por intervalo, de la energía media metabolizada (en calorías) a los 25°C, con un
nivel de confianza del 95%?
i) Construir un intervalo de predicción para la energía metabolizada por un gorrión que es sometido a una
temperatura de 21 °C
El objetivo del estudio de regresión es investigar si se puede explicar la relación entre dos variables
cuantitativas por una relación funcional con el propósito de estimar o predecir valores de una de ellas a partir
de la otra.

Datos del problema


• Variables en estudio:

38
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)

X: Temperatura ambiente donde habita un gorrión Passer domesticus, medida en ºC; variable explicatoria,
independiente (no aleatoria)
Y: Energía metabolizada por un gorrión Passer domesticus, medida en calorías (cal); variable respuesta,
dependiente (aleatoria)
• Supuestos teóricos
Antes de comenzar el estudio, deberíamos verificar si se cumplen los supuestos requeridos:
i) Para cada valor de temperatura, existe una subpoblación de valores de energía metabolizada por el
gorrión, con distribución normal (al tener un solo valor de esta subpoblación no podemos verificarlo y
suponemos que se cumple)
ii) Los valores de energía metabolizada son independientes dentro de cada temperatura. Para
garantizar este supuesto, se toman 10 gorriones y cada uno de ellos es sometido a una de las temperaturas
ambientales
iii) Las varianzas de los valores de energía metabolizada para cada temperatura deben ser iguales (al
tener un solo valor de esta subpoblación no podemos verificarlo y suponemos que se cumple)
Solución 25
a) El diagrama de dispersión es recomendable como primer
paso del estudio de regresión, ya que nos permitirá apreciar 20

Energía metabolizada
visualmente la existencia o no de una tendencia lineal, tener
una idea sobre el tipo de relación entre las variables, y
sobre su grado de dispersión. 15
Se grafican los puntos (pares (xi;yj)) colocando la variable
independiente sobre el eje X (horizontal) y la variable 10
dependiente sobre el eje Y (vertical). Es importante elegir
escalas adecuadas y mantener las mismas para todos los
5
puntos, porque de lo contrario se desvirtúa el objetivo del
gráfico, que es dar una idea a priori de la forma de la
relación. 0
10 15 20 25 30
En este caso parecería haber una relación lineal inversa
entre la “energía metabolizada” y la “temperatura ambiente”, Temperatura
de modo tal que al aumentar la temperatura del ambiente
donde se encuentra el gorrión, disminuye la energía metabolizada por el mismo en forma lineal.

b) Modelo poblacional propuesto es:


E(Yi) = α + βXi ó Yi = α + βXi + εi donde εi ~ N(0; σ ) y son independientes entre sí
2

Los estimadores de mínimos cuadrados de los parámetros (son los que se obtienen al hacer mínima
∑εi = ∑( Yi - α - βXi )
2 2
son: αˆ = a y βˆ = b
Por lo tanto Yˆi = a + bxi es la recta estimada

2 2
Información muestral: ∑xi = 190; ∑xi = 3940; ∑yi =193; ∑yi = 3863; ∑xi yi = 3464

Reemplazando en las fórmulas correspondientes se obtienen las estimaciones de los parámetros:

∑ XY - (∑ X )(∑ Y ) / n 3464 - (190)(193) / 10 -203


b= = = = - 0, 62
∑ x 2 - (∑ X ) 2 / n 3940 - 36100 /10 330

193  190 
a =Y -b X = - -0.62 = 19, 3 + 0, 62 *19, 0 = 31, 08
10  10 

La recta estimada con la muestra que tenemos resulta: Yˆi = 31, 08 − 0, 62 xi

39
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)

Gráfico

25

20

Energía metabolizada
15

10

0
10 15 20 25 30
Temperatura

c) Lo planteado en esta parte se responde resolviendo una prueba cuyas hipótesis son:
H0: β ≥ 0
H1: β < 0
Para encontrar el estadístico de prueba adecuado, tenemos en cuenta que el parámetro en estudio es
β, y que su estimador es b, cuya expresión se obtiene por el método de mínimos cuadrados.
Resulta que: E(b) = β por lo que b es estimador insesgado de β, y además b ∼ N (β , σβ ), lo cual puede
2

verse intuitivamente observando la fórmula de b, dado que los xi son valores constantes y que los yi tienen
distribución normal.
Por lo tanto, estandarizando a b, obtenemos
Z = b - β ∼ N (0 , 1)
σβ

Considerando que desconocemos la varianza poblacional, y el caso general en que la variable respuesta
sea aproximadamente normal, tenemos como estadístico de prueba:
b-β
t= ~t
( n -2)
Sb
El nivel de significación es α = 0,05
La región crítica (RC) es unilateral izquierda: t8 ≤ -1,86 (Valor crítico: -t(8;0,95) = -1,86)

La regla de decisión (RD) es: RECHAZO HO si tHo ≤ - 1,86


NO RECHAZO HO si tHo > - 1,86

Se2
La varianza muestral de b es: Sb2 =
(∑ X )
2

∑X 2
-
n

siendo la varianza muestral del error:

40
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)

1  (∑ Y ) 2 2  (∑ X ) 2  
S e2 = ∑ Y 2 - - b ∑ X 2 - 
n-2  n  n 
  
Luego, tomando la información muestral:
1  (193) 2  (190 ) 2  
S e2 =  3863 - - (-0, 62 ) 2 3940 - 
10 - 2  10  10  
  

( 3863 − 3724, 9 − 0, 3844 ⋅ 330 ) (138,10 − 126, 85) = 1, 405


1 1
= =
8 8

sb2 = 1,405/330 = 0,0043 ; sb =0,0653 ≅ 0,07

-0, 62
t Ho =
= - 9, 4946
0, 0653
Conclusión: A un nivel de significación del 5%, hay evidencias suficientes para rechazar H0 (H0: β ≥ 0), es
decir β < 0. Se puede concluir que por cada aumento de temperatura ambiente en 1ºC hay una disminución
de la energía media poblacional metabolizada por los gorriones, en calorías, en esta población de gorriones
Passer domesticus.

d) Para el cálculo del intervalo de confianza para β, se toma como variable pivotal el estadístico de prueba
que se utilizó en la dócima para ese parámetro, y su construcción es similar al de todos los intervalos
simétricos.
En este caso, calculamos el intervalo de confianza del 95% para β:

L.I. = b - t8; 0,975 . Sb = -0,62 - (2,306 · 0,07) = - 0,78

L.S. = b + t8; 0,975 . Sb = -0,62 + (2,306 · 0,07) = - 0,46

Conclusión: Con una confianza del 95%, se espera que el intervalo [- 0,78 cal/°C; - 0,46 cal/°C] cubra al
verdadero valor del coeficiente de regresión, en este caso la modificación o cambio de la energía media
metabolizada (cal) por los gorriones al aumentar en 1°C la temperatura ambiente, en la población de
gorriones Passer domesticus.

e) Sean: yi un valor observado de la variable respuesta


ŷ i el valor estimado correspondiente, para el mismo xi y según la recta estimada.
y el promedio de todos los valores observados de la variable respuesta.

yi - y : desvío total
ŷ i - y : desvío debido a la regresión
yi - ŷ i : desvío debido al error muestral o residuo (ei = yi - ŷ i error muestral)

Se verifica que: yi - y = ( ŷ i - y ) + (yi - ŷ i)

(Por ejemplo: en x4 = 16 el valor observado es y4 = 24, el valor estimado es ŷ 4 = 21,16 ; y = 19,3


24 – 19,3 = 4,7 desvío total correspondiente al punto 4
21,16 – 19,3 = 1,86 desvío debido a la regresión del punto 4
24 – 21,16 = 2,84 desvío debido al error o residuo del punto 4

Luego, la igualdad se verifica para el punto 4, ya que 4,7 = 1,86 + 2,84


Elevando al cuadrado cada uno de los miembros de la igualdad, sumando y operando algebraicamente se
obtiene la partición de la suma de cuadrados total

41
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)

2 2 2
∑(yi - y ) = ∑( ŷ i - y ) + ∑(yi - ŷ i)
SCtotal = SCregresión + SCresidual

En este caso: SCtotal = ∑(yi - y )2 = ∑ y2 – (∑yi )2 /n = 3863 – (193)2 /10 = 138,10


n
SCregresión = ∑( ŷ i - y )2 = b 2 ∑ ( X i − X )2 = (-0,62)2 330 = 126,85
i =1

SCresidual = SCtotal - SCregresión = 138,10 – 126,85 = 11,25

Luego:
SCregresión 126, 85
= = 0, 91 es la proporción explicada por el modelo estimado.
SCtotal 138,10

SCresidual 11, 25
= = 0,09 es la proporción no explicada por el modelo estimado.
SCtotal 138,10

2 SCregresión
f) Se define: R =
SCtotal
Como se vio en el punto anterior, expresa la proporción de la suma de cuadrados total explicada por la
regresión. Es una medida muestral.
2
En este caso: R = 0,91
Interpretación: El 91% de la variabilidad total de la variable respuesta es explicada por la regresión en la
variable explicatoria, en la relación dada por el modelo estimado. En este caso, el 91% de la variabilidad
de la energía metabolizada (cal) es explicada por la temperatura (°C) a la que están sometidos los
gorriones Passer domesticus, según el modelo estimado: ŷ = 31,08 + 0,62 ⋅ x

g) Si R² = 0,91 es una medida de la variabilidad de la variable respuesta que es explicada por el modelo
estimado, teniendo en cuenta que 0 ≤ R ≤ 1, su complemento, 1 – R , es una medida de la variabilidad
2 2

de y no explicada por el modelo estimado.


En este caso: 1- 0,91 = 0,09, y por lo tanto el porcentaje que no es explicado por el modelo estimado es el
9%, como ya se había visto en el punto e).

h) La estimación puntual de E(Y) para X=25°C es: Yˆ( X = 25) = 31, 08 - 0, 62(25) = 15, 58 cal, (teniendo en
cuenta el modelo estimado en el punto b).
La estimación mediante un intervalo de confianza se realiza empleando la fórmula:

1 ( X ′ - X )2
a + b′X m t n - 2;1 − α / 2 S e +
n ∑( X - X ) 2

donde X' es el valor de la variable X de nuestro interés, en este caso X' = 25°C.

1 (25 -19) 2
31, 08 - (0, 62) 25 m 2, 306 1, 405 + = 15,58 ± 2,306 * 0,54
10 330
En consecuencia: L.I. = 15,58 - 1,25 = 14,33 cal
L.S. = 15,58 + 1,25 = 16,83 cal
Conclusión: Con una confianza del 95%, se espera que el intervalo (14,33 cal; 16,83 cal) contenga al
verdadero valor medio de la energía metabolizada por la población de gorriones Passer domesticus cuando
la temperatura ambiente es de 25°C.

i) La estimación puntual es Yˆ( X = 21) = 31, 08 - 0, 62(21) = 18, 06


La estimación mediante un intervalo de predicción se realiza empleando la fórmula:

42
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)

1 ( X ′ - X )2
a + bX ′ m tn -2;1−α / 2 S e 1 + +
n ∑( X - X ) 2

donde X' es el valor de la variable X de nuestro interés, en este caso X' = 21°C.

1 (21-19) 2
31, 08 - (0, 62) 21 m 2, 306 1, 405 1 + + = 18,06 ± 2,306 * 1,25
10 330
En consecuencia: L.I. = 18,06 - 2,88 = 15,18 cal
L.S. = 18,06 + 2,88 = 20,94 cal

Es decir el intervalo de predicción del 95% para el valor de la energía metabolizada por un gorrión Passer
domesticus sometido a una temperatura ambiente de 21°C se esp era que se encuentre en el intervalo (15,18
cal; 20,94 cal).

2) Con el objeto de estudiar el efecto del tratamiento con estrona sobre el peso uterino de ratas hembra, un
conjunto de ratas se dividió aleatoriamente en grupos y a cada grupo se le administró una dosis diferente de
estrona. Considere que se verifican todos los supuestos teóricos necesarios para realizar el análisis
Después de cierto tiempo se observó el peso del útero de una rata, tomada al azar, para cada una de las
dosis, expresado en mg.

Dosis (µg) 4 6 8 10 12 14 16 18 20 22

Peso (mg) 12,4 14,8 15,2 16,9 19,1 19,9 20,2 21,0 18,7 20,9

Analizar la siguiente salida de computadora generada al realizar el análisis estadístico mediante el


programa InfoStat:
a) Estimación del modelo.
b) Dócima para β, utilizando la Tabla de Análisis de Varianza. (α = 0,05)
c) Intervalo de confianza del 95% para β
d) Intervalo de confianza del 95% para α
e) Valor del coeficiente de determinación.

Análisis de regresión lineal


Variable N R² R² Aj ECMP
Peso 10 0.80 0.77 3.28

Coeficientes de regresión y estadísticos asociados


Coef Est. EE LI(95%) LS(95%) T p-valor
Const 12.26 1.10 9.73 14.79 11.17 <0.0001
Dosis 0.43 0.08 0.26 0.61 5.63 0.0005

Cuadro de Análisis de la Varianza (SC tipo III)


F.V. SC gl CM F p-valor
Modelo 62.40 1 62.40 31.74 0.0005
Dosis 62.40 1 62.40 31.74 0.0005
Error 15.73 8 1.97
Total 78.13 9

Datos del problema


• Variables en estudio:
X: dosis de estrona administrada a una rata hembra (en µg)
Y: peso del útero de una rata hembra después de cierto tiempo de haberle administrado una dosis de
estrona (en mg)

43
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)

Solución
a) Modelo teórico propuesto: E(Y) = α + βX
Los valores correspondientes a los estimadores de los parámetros del modelo pueden extraerse de la
tabla: “Coeficientes de regresión y estadísticos asociados”, columna “Est.”
El valor de a es el que corresponde a “const” (constante), en este caso es de 12,26, y el valor de b es el
que corresponde al nombre de la variable independiente (por ser el coeficiente que la multiplica), en este
caso es “Dosis”, y su valor es de 0,43.

Por lo que el modelo estimado es: yˆi = 12, 26 + 0, 43 xi .

Interpretación:
a = 12,26 mg, por lo tanto, el peso medio estimado del útero de las ratas con dosis 0µg, es decir sin
haber recibido tratamiento con estrona es 12,26 mg.
b = 0,43 mg/µg, indica que al aumentar la dosis de estrona en un µg, el peso medio estimado del útero
de las ratas aumenta en 0,43 mg.

b) La tabla de Análisis de la Varianza fue construida basándose en la descomposición de la Suma de


Cuadrados Total. Hay dos fuentes de variación que la afectan: una debida a la regresión, simbolizada por el
nombre de la variable explicatoria, en este caso “Dosis”; y otra debida al residuo o error muestral,
simbolizada por “Error”.
Suma de Cuadrados
La tercera columna de la tabla, es la de Cuadrados Medios: C.M. = . Son varianzas y
grados de libertad
con ellos se construye el estadístico de prueba.
Con los datos de la Tabla de Análisis de Varianza, las únicas hipótesis que se plantean son:
H0: β = 0
H1: β ≠ 0

La variable pivotal a usar es F de Snedecor, que, bajo la hipótesis nula, es el cociente de dos varianzas
que provienen de variables independientes, cada una con distribución χ :
2

CMregresión CM DOSIS
F= ∼ F1, n-2 ; en este caso F= ~ F1,8
CMresidual CM ERROR

 Si F es grande (F>1), esto equivale a que CMregresión > CMresidual entonces es mayor la variabilidad debida
a la regresión que la debida a los residuos, por lo tanto se rechaza la hipótesis nula y la regresión es
significativa (β≠0).
 Si F es chico (F≤1), esto equivale a que CMregresión ≤ CMresidual entonces es mayor o igual la variabilidad
debida al residuo que la debida a la regresión, por lo tanto no se rechaza la hipótesis nula y la regresión es
no significativa (β=0).

Por lo tanto la región crítica es siempre unilateral derecha.


En este caso, α = 0,05; el valor crítico es: F1, 8; 0,95 = 5,32 → RC: F 1, 8 ≥ 5,32

La regla de decisión es: RECHAZO HO si FHo ≥ 5,32


NO RECHAZO HO si FHo < 5,32
Según la tabla de Análisis de Varianza, el valor de FHo = 31,74 es mayor que 5,32, entonces RECHAZO H0.

44
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)

Conclusión: A un nivel de significación del 5%, hay evidencias suficientes para rechazar H0 (H0: ß=0), por lo
tanto se puede concluir que por cada aumento de la dosis de estrona en 1µg hay una modificación del peso
medio poblacional del útero de las ratas, en mg, en la población de ratas hembra.
Esta decisión también la podemos tomar utilizando el p-valor que aparece en la tabla de Análisis de
Varianza. En este caso, p-valor=0,0005<0,05, por lo que RECHAZO H0 y concluimos que hay diferencias
significativas que nos permiten rechazar a la hipótesis nula. Otra forma de expresarlo es: p<0,05, que
corresponde a la comparación con el valor que toma el nivel de significación en este problema. Esta
última expresión se utiliza en las conclusiones de trabajos de investigación, y generalmente figura entre
paréntesis.

Con el programa estadístico utilizado también se puede realizar el diagrama de dispersión, en


donde los datos aparecen expresados como círculos pequeños, junto a la recta muestral, y a la banda de
confianza de nivel 1-α.

25.0 25.0

20.0 22.0

15.0 19.0
Peso

Peso

10.0 16.0

5.0 13.0

0.0 10.0
0 5 10 15 20 25 0 5 10 15 20 25
Dosis
Dosis

Estos gráficos fueron hechos con distintas escalas para el eje Y. Al respecto debemos hacer notar que:
 la recta solamente está graficada para los valores de X que consideramos en el problema, o sea en
el intervalo [4; 22].
 se ve modificada (falsamente) la pendiente, ya que por cálculos b=0,43, sea cual sea el gráfico.
2
 R = 0,80 se ve mejor reflejado en el primer gráfico que en el segundo.

c) Este intervalo de confianza también puede leerse de la tabla “Coeficientes de regresión y estadísticos
asociados”, donde figuran LI (límite inferior) y LS (límite superior), en este caso los correspondientes a
“Dosis”, valores calculados para un nivel de confianza del 95%. Luego: [0,26 mg/µµg ; 0,61 mg/µ
µg]] es el IC
del 95% para β.
Con un nivel de confianza del 95%, espero que el intervalo [0,26mg/µg ; 0,61 mg/µg] contenga al
cambio del verdadero valor del peso medio del útero de las ratas hembra al aumentar la dosis de estrona en
un µg, en la población de ratas hembra.

d) Este intervalo se lee en la misma tabla que el anterior, en la fila correspondiente a “const”. Luego: [9,73
mg ; 14,79 mg]] es el IC del 95% para α.
Con un nivel de confianza del 95%, espero que el intervalo [9,73 mg ; 14,79 mg]] contenga al
verdadero valor del peso medio del útero de las ratas hembra que no recibieron tratamiento con estrona.
2
e) En la salida de computadora tenemos también información sobre el valor de R , calculado con los datos de
la muestra. El que nos interesa es el primero, por lo tanto es 0,80. La interpretación correspondiente es: El
80% de la variabilidad del peso del útero es explicada por la dosis de estrona aplicada a las ratas
hembra, según el modelo estimado: yˆ i = 12, 26 + 0, 43 xi .

45
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)

Regresión Lineal Múltiple


3) En un estudio sobre la duración de la hospitalización para pacientes de un hospital de enfermedades
crónicas, un grupo de investigadores deseaba poder predecir la duración de la internación (Y, en días),
dadas las variables independientes: número de admisiones previas (X1) y edad (X2, en años). Se
obtuvieron datos de una muestra de 15 pacientes. Considere que se verifican todos los supuestos teóricos
necesarios para realizar el análisis
a) Indicar e interpretar la expresión del plano estimado
b) Analizar la significación de la regresión (α = 0,05)
c) Analizar el ajuste a nivel muestral.

Y X1 X2 Y X1 X2 Y X1 X2
15 0 21 35 1 25 50 3 44
15 0 18 40 1 26 60 3 51
21 0 22 35 2 34 45 4 39
28 1 24 30 2 25 60 4 54
30 1 25 45 2 38 50 5 55

Análisis de regresión lineal


Variable N R² R² Aj ECMP
Y 15 0.85 0.83 59.81

Coeficientes de regresión y estadísticos asociados


Coef Est. EE LI(95%) LS(95%) T p-valor
const 2.09 6.74 -12.60 16.77 0.31 0.7623
X1 0.06 2.61 -5.64 5.75 0.02 0.9830
X2 1.05 0.33 0.34 1.76 3.22 0.0074

Cuadro de Análisis de la Varianza (SC tipo III)


F.V. SC gl CM F p-valor
Modelo 2502.39 2 1251.20 34.08 <0.0001
X1 0.02 1 0.02 4.8E-04 0.9830
X2 380.37 1 380.37 10.36 0.0074
Error 440.54 12 36.71
Total 2942.93 14

Datos del problema:


• Variables en estudio:
X1: Número de admisiones previas de un paciente de un hospital de enfermedades crónicas
X2: Edad de un paciente, en años, de un hospital de enfermedades crónicas
Y: Duración de la internación de un paciente, en días, de un hospital de enfermedades crónicas

Solución:
a) Modelo teórico: E(Y)= α + β1 X1 + β2 X2
Ecuación del plano estimado: ŷ = 2,09 + 0,06 x1 + 1,05 x 2 , extraída de la salida de computadora
Interpretaciones
b1 = 0,06 días/número de admisiones previas. Indica que para cada edad fija, al aumentar en 1 el número
de hospitalizaciones previas, el tiempo medio estimado de hospitalización aumenta 0,06 días (≅ 1
hora) en los pacientes de enfermedades crónicas de un hospital
b2 = 1,05 días/año de edad. Indica que para un número de admisiones previas fijo, al aumentar en 1 año
la edad del paciente, el tiempo medio estimado de hospitalización aumenta 1,05 días (≅ 1 día) en los
pacientes de enfermedades crónicas de un hospital
a = 2,09 días. Indicaría el tiempo medio estimado de internación en un hospital para enfermedades
crónicas para pacientes recién nacidos (edad cero) y sin internaciones previas, sin sentido biológico.

46
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)

b) Análisis de Regresión
H 0 : β1 = β 2 = 0
Hipótesis conjunta 
H1 : algún β i ≠ 0 con i = 1, 2
F = CMREGRESION / CMRESIDUAL ~ F2, n-3

Regla de decisión (α = 0.05)


Rechazo H0 si FHo ≥ 3.89 (F2, 12; 0.95 = 3,89)
No rechazo H0 si FHo < 3.89
ó
Rechazo H0 si p-valor ≤ 0.05 donde P = P( F >FHo)
No rechazo H0 si p-valor > 0.05

Decisión: p < 0.0001 (o F=34.08) por lo tanto se rechaza H0, el resultado es significativo.
Conclusión: Con un nivel de significación del 5% se tienen evidencias suficientes para rechazar H0
(H0:β1=β2=0), por lo tanto algún βi ≠ 0, la regresión conjunta con las variables explicatorias número de
admisiones previas y edad del paciente es significativa; o sea que al aumentar conjuntamente, en una
unidad, el número de admisiones previas y la edad, se modifica el tiempo medio poblacional de
hospitalización de los pacientes en este hospital de enfermedades crónicas. El modelo propuesto parece
aceptable para explicar la duración de la internación en pacientes crónicos en este hospital.

Hipótesis individuales
H 0 :β1 = 0
Para X1 Hipótesis estadística  t = b1 / s b1 ~ t
H1:β1 ≠ 0
n-3

H 0 :β 2 = 0
Para X2 Hipótesis estadísticas  t = b2 / s b2 ~ t n-3
H1:β 2 ≠ 0

Regla de decisión (α=0,05)


Rechazo H0 si tHo ≥ 2,179 ó tHo ≤ -2,179 (t12,0.975 = 2,179)
No rechazo H0 si -2,179 < tHo < 2,179

o
Rechazo H0 si p-valor ≤ 0,05 [donde p-valor = P(|t| >tHo) = P(t>tHo)+P(t<-tHo)]
No rechazo H0 si p-valor > 0,05

Decisión 1: p=0,9830 (o t=0,02) por lo tanto no se rechaza H0, el resultado es no significativo.


Conclusión 1: Con un nivel de significación del 5%, no se tienen evidencias suficientes para rechazar H0:
β1=0, por lo tanto se supone que al aumentar en uno el número de admisiones previas y manteniendo fija
la edad, no se modifica el tiempo medio poblacional de internación en pacientes crónicos en este hospital
en estudio.

Decisión 2: p=0,0074 (o t=3,22) por lo tanto se rechaza H0, el resultado es significativo.


Conclusión 2: Con un nivel de significación del 5%, se tienen evidencias suficientes para rechazar
H0:β2=0, por lo tanto β2 ≠ 0, lo que significa que podemos suponer que al aumentar la edad en un año y
manteniendo fijo el número de internaciones previas, se modifica el tiempo medio poblacional de
internación en pacientes crónicos en este hospital en estudio.

Conclusión final: Si bien el modelo propuesto para la duración de las internaciones en pacientes crónicos
en función del número de internaciones previas y de la edad del paciente resultó adecuado, parecería que el
tiempo de internación está afectado en forma significativa por la edad y no por la cantidad de internaciones
previas en los pacientes de este hospital de enfermedades crónicas.

47
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)

2
c) Coeficiente de determinación: R = 0,85
El 85% de la variabilidad total del tiempo de internación en los pacientes de un hospital de enfermeda-
des crónicas está explicada por el número de internaciones previas (X1) y la edad del paciente (X2) con-
juntamente, según la relación dada por el modelo estimado ŷ i = 2,09 + 0,06 x1i + 1,05 x 2i .

PROBLEMAS PROPUESTOS
04.- Para analizar el rendimiento (en toneladas) de una pastura en función de la cantidad de agua aplicada
(riego artificial en mm) se realizó un experimento con 10 parcelas. Considere que se verifican todos los
supuestos teóricos necesarios para realizar el análisis. Los resultados se muestran en la tabla siguiente:

Agua 12 18 24 30 36 42 48 54 60 66

Rendimiento 5 6 6 7 8 9 8 8 9 9

a) Graficar e interpretar el diagrama de dispersión.


b) Estimar la ecuación de regresión y graficarla en el diagrama anterior
c) Docimar el coeficiente de regresión al 5%
d) Para el supuesto de que al aumentar el riego en 1mm, el rendimiento de la pastura aumenta más de
0,01tn
i) Las hipótesis estadísticas son: H0: ............................... H1: .................................
ii) El valor crítico es (α=0,05): ..........................
iii) La regla de decisión es: ..............................................................................................
2
e) Calcular el R e interpretarlo.
f) Estimar el rendimiento medio de la pastura sin riego artificial con una confianza del 95%.
Fórmula Reemplazo de valores Resultado

LI

LS

Seleccione la opción correcta para concluir: Con un nivel de confianza del 95%
i) se espera que el intervalo [ ; ] contenga al rendimiento medio de la pastura sin riego artificial en la
población en estudio
ii) el intervalo [ ; ] cubre al verdadero valor del rendimiento medio de la pastura sin riego artificial en la
población en estudio
iii) se espera que el intervalo [ ; ] cubra al valor medio poblacional del rendimiento de la pastura sin riego
artificial
iv) se espera que el intervalo [ ; ] cubra al valor medio poblacional del rendimiento de la pastura sin riego
artificial en la población en estudio
g) Predecir el rendimiento de la pastura con un riego artificial de 50 mm con una confianza del 95%.
Fórmula Reemplazo de valores

LI

LS

El resultado obtenido es ..............................................................................................................................

05.– La siguiente tabla registra datos correspondientes a concentraciones conocidas de β-eritroidina (C, en
mg/ml) en una solución acuosa, y la lectura de la turbidez de la solución correspondiente (L) registrada en un
colorímetro.

48
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)

ci 40 45 50 55 60 65 70 75 80 85

li 69 72 175 180 272 265 335 340 490 492

Considerando que la recta estimada de regresión es: lˆ = −338, 27 + 9, 72c


i i
Considere que se verifican todos los supuestos teóricos necesarios para realizar el análisis
a) Interpretar los coeficientes en términos del problema.
b) Estimar la lectura media de una solución cuya concentración de β-eritroidina es de 72 mg/ml, con un
nivel de confianza del 95%.
Datos:
∑c i = 625; ∑c 2
i
= 41125; ∑l i = 2690; ∑l 2
i = 927168; ∑c l
i i = 188165; Se2 = 966, 26

06.- Se realizó una experiencia para analizar la influencia de la anestesia en la presión intraocular. A 10 pe-
rros que habían recibido pentobarbital como inducción anestésica, se les aplicó además, como refuerzo,
metoxifluorano por inhalación. Se controló la presión intraocular media (pi, en unidades de presión), cada
cinco minutos una vez comenzada la inhalación (ti, en minutos).

ti 5 10 15 20 25 30 35 40 45 50

pi 25,1 29,2 27,7 24,9 22,1 19,6 19,1 18,8 17,9 17,7

Considere que se verifican todos los supuestos teóricos necesarios para realizar el análisis
a) Indicar e interpretar el modelo lineal que se propone
b) Estimar los coeficientes para el modelo propuesto y expresar dicho modelo
c) Indicar los supuestos que deben tenerse en cuenta, en este caso, para poder hacer inferencia a la
población en estudio
d) Estimar el coeficiente de regresión puntualmente y con una confianza del 95%

Cuestionario

1.- Dadas las variables X1: longitud y X2: peso, dentro del contexto de un análisis de Regresión proponga:
a.- hipótesis de trabajo
b.- experimento (sea claro al comentar las acciones que realiza)
c.- supuestos teóricos en este caso (No en forma genérica)
d.- significado biológico de el o los parámetros poblacionales en estudio.

2.- Si en un análisis de regresión lineal simple al estimar β se obtiene que b = 2, ¿puede afirmar que la
regresión es significativa? ¿por qué? Explique de qué depende que se concluya "es significativo".

3.- Si debe elegir entre dos variables independientes o explicatorias (X1 o X2) para predecir la variable
aleatoria Y, y mediante dos muestras independientes estima ambas regresiones. ¿En qué se basa para
seleccionar la mejor variable explicatoria? ¿Por qué?
4.- En un modelo de regresión lineal, ¿mediante qué método obtiene los estimadores de los parámetros
poblacionales? Explique brevemente el método, NO LAS FÓRMULAS.
5.- En un Análisis de Regresión Lineal Simple considerando un valor de Y por cada valor de X:
a) ¿Cuál es el parámetro más importante? ¿Qué significa? Expréselo en términos de un problema
propuesto por Ud.
b) ¿Cuál es la descomposición de la suma de cuadrados (SC) que se puede realizar a partir de una
observación? Indicar gráficamente dicha partición señalando a qué parte de la suma de cuadrados da
origen cada una de ellas.
c) ¿Por qué en el Análisis de Varianza para la Regresión Lineal la región crítica es unilateral derecha?
d) El estadístico al que se hace referencia, ¿qué relación tiene con la distribución t-Student?

49
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)

2
6.- Relacione los siguientes gráficos con posibles valores de R , suponiendo que el gráfico representa la
situación promedio de los desvíos presentados.

A) Y B) Y C) Y



Y Y Y

7.- Elija la opción correcta:


En una prueba de hipótesis para β en regresión lineal simple, los supuestos son:
a) X e Y son independientes, Y ∼ N (µY , σ )
2

b) X prefijada, X e Y son independientes, Y ∼ N (µY, σ )


2

c) X prefijada, los valores de Y son independientes entre si, Y ∼ N (µY, σ )


2

8.- Seleccionar V (verdadero) o F (falso), según corresponda:


V F a) Si el coeficiente de determinación es igual a 1, entonces la recta poblacional pasa exactamente
por los valores (Xi , Yi )
V F b) En un análisis de RLS, el método de mínimos cuadrados consiste en minimizar la SC de la
regresión

9.- Completar para obtener una expresión verdadera:


a) En un análisis de RLS, bajo el modelo E(Yi)= α + β Xi, β representa el ...............................en el valor
medio ............................ de la variable Y cuando la variable regresora ................................en una unidad.
b) En una prueba F de Snedecor para β, se pone a prueba .....................................de la regresión
c) En una prueba F de Snedecor para β, el p-valor representa el área ubicada ........................... de los
valores mayores o iguales a FHo

50
Estadística Analítica 2011 Fac. Cs. Veterinarias(U.B.A)

UNIDAD 4: Diseño Completamente Aleatorizado (DCA)


Análisis de la Varianza (ADEVA)

Objetivos específicos
• Comprender la importancia de las aplicaciones del análisis de la varianza.
• Adquirir vocabulario específico y manejar algunos métodos del Diseño Experimental.
• Aplicar análisis de la varianza paramétrico y no paramétrico, según corresponda, en casos relativos
al campo profesional del veterinario.

Contenidos temáticos
Concepto de Modelo. Supuestos. Método de mínimos cuadrados. ADEVA para DCA. Prueba de hipótesis
para comparar valores medios de más de dos tratamientos. Análisis de varianza de una clasificación por
rangos de Kruskal-Wallis. Aplicaciones. Interpretación de análisis realizados mediante programas de
computación.

Glosario
Diseño completamente aleatorizado (DCA). Modelo estadístico. Análisis de la varianza (ADEVA) para un
DCA, Modelo I. Pruebas de Hipótesis. Suma de cuadrados. Cuadrado medio. Varianza. Análisis de
varianza Kruskal-Wallis. Rango. Variables al menos ordinales. Mediana.

PROBLEMAS RESUELTOS
1) Para comparar cuatro suplementos “de engorde” en bovinos para carne, se seleccionaron, al azar,
cuarenta animales Hereford de iguales edad y sexo, y de pesos homogéneos para ser usados en un
experimento. Los suplementos a comparar se definieron sobre la base de las características del grano de
maíz empleado (“entero” o “partido”) y la fuente comercial de vitaminas y minerales (“A” y “B”). Entonces
el suplemento 1 (S1) estuvo constituido por grano partido y fuente A, mientras que el suplemento 2 (S2)
por grano partido y fuente B, el suplemento 3 (S3) por grano entero y fuente A, y el suplemento 4 (S4)
por grano entero y fuente B. Se asignaron aleatoriamente 10 animales por suplemento, los que fueron
alimentados individualmente con una dieta estándar más el correspondiente suplemento durante 80 días.
La variable en estudio (o respuesta) fue la eficiencia de conversión (EfCon) individual (kg Materia Seca/
kg Ganancia de Peso) cuyos registros se presentan en la siguiente tabla:

S1 S2 S3 S4
3,3 4,6 6,7 6,3
4,4 4,5 5,8 6,0
4,9 5,0 5,0 6,7
4,9 4,0 4,8 5,5
3,9 4,5 5,3 6,6
4,2 5,2 6,2 6,1
4,7 4,9 5,0 5,3
5,1 5,5 6,4 6,5
4,6 4,8 5,9 6,3
4,5 5,3 5,4 6,8

a.- ¿Cuál es el objetivo del experimento?


b.- ¿Cuál fue la unidad experimental? ¿En qué condiciones se desarrolla el experimento? ¿Qué se regis-
tra?
c.-¿Qué diseño se empleó? ¿Por qué? ¿qué se asumió?
d.- ¿Qué puede decir con respecto a la validez del DCA paramétrico?
e.- Escriba las hipótesis de interés, y teniendo en cuenta la salida de computadora concluya al 5%.

Solución
a.- ¿Cuál es el objetivo del experimento?
Objetivo: comparar cuatro suplementos “de engorde”.

51
Estadística Analítica 2011 Fac. Cs. Veterinarias(U.B.A)

Los suplementos se definieron sobre la base de las características del grano de maíz empleado (“entero”
o “partido”) y la fuente comercial de vitaminas y minerales (“A” y “B”) quedando constituidos por:
Suplemento 1 (S1): grano partido y fuente A
Suplemento 2 (S2): grano partido y fuente B
Suplemento 3 (S3): grano entero y fuente A
Suplemento 4 (S4): grano entero y fuente B.

b.- ¿Cuál fue la unidad experimental? ¿En qué condiciones se desarrolla el experimento? ¿Qué se regis-
tra?
Unidad experimental: un bovino raza Hereford.
Condiciones en que se desarrolla el experimento: 40 bovinos de raza Hereford de iguales edad y sexo, y
de pesos homogéneos, alimentados individualmente con una dieta estándar más el correspondiente su-
plemento durante 80 días. Se asigna al azar igual cantidad de bovinos a cada dieta.
Variable respuesta: Eficiencia de conversión (EfCon) de un bovino (kg Materia Seca/ kg Ganancia de
Peso).

c.- ¿Qué diseño se empleó? ¿Por qué? ¿Qué se asumió?


Se aplicó un diseño completamente aleatorizado debido a que los animales se asignaron sin restricciones a
los tratamientos. Se asumió que:
1) los factores raza, peso y sexo podían influir en los resultados por lo cual fueron controlados por el
experimentador.
2) No hay otros factores que influyan en los resultados del experimento.

d.- ¿qué puede decir con respecto a la validez del DCA paramétrico?
Supuestos teóricos
Antes de realizar el estudio, deberíamos verificar si se cumplen los supuestos requeridos:
i) Las observaciones de eficiencia de conversión son independientes por como se ha diseñado el
experimento.
ii) Para cada tratamiento existe una subpoblación de valores de Eficiencia de conversión por los bovinos
Hereford de sexo, edad y peso inicial semejantes con distribución normal e igual varianza.
Este supuesto se puede probar y/o observar a partir de:
a) la variable respuesta
Shapiro-Wilks (modificado)
Variable n Media D.E. W* p (una cola) EfCon por tratamiento
S1 10 4,45 0,54 0,92 0,5174
S2 10 4,83 0,45 0,97 0,9167 6,97
S3 10 5,65 0,65 0,92 0,4806
S4 10 6,21 0,50 0,90 0,3451 6,01
EfCon

En las cuatro poblaciones ocurre que, al 5%, no se 5,05


rechaza la hipótesis de normalidad de Eficiencia de
conversión. 4,09
En el gráfico se observa que las varianzas de las
cuatro poblaciones, en cuanto a la variable eficiencia 3,13
de conversión, son similares. S1 S2 S3 S4
Tratam

b) los residuos (diferencia entre valor observado y valore esperado bajo el modelo propuesto)
Cuando se tienen pocas observaciones por tratamiento es mejor probar el supuesto de normalidad a partir de
los residuos, pues si el modelo es:
Yij = µi + εij para i=1, 2, 3, 4; j=1, 2, …, 10
Donde:
Yij es Eficiencia de conversión registrada en el j-ésimo individuo que recibió la i-ésima dieta.
µi : Eficiencia de conversión media de la i-ésima dieta en bovinos de raza Hereford

52
Estadística Analítica 2011 Fac. Cs. Veterinarias(U.B.A)

εij: variable aleatoria no observable correspondiente a la respuesta propia del j-ésimo bovino de raza
Hereford que recibió la dieta i-ésima.(ε ~ N(0, σ )).
2

µi, i=1, 2, 3, 4) suponer que la variable respuesta se


Dado que los parámetros son información fija (µ
distribuye normalmente es equivalente a suponer normalidad para los errores.
Dado que los errores son no observables el supuesto se verifica utilizando sus equivalentes a nivel
muestral llamados residuos.
i) Los errores son independientes por como se ha diseñado el experimento.
ii)
Hipótesis estadísticas:
Q Q plot
H0: ε ~N(0, σ ) vs H1: ε no se distribuye N(0,σ )
2 2

2,18
n= 40 r= 0,989 (RE_Ef Con)
Shapiro-Wilks (modificado)

Cuantiles obs(RE_EfCon)
Variable n Media D.E. W* p(una cola)
1,08
RE_EfCon 40 0,00 1,01 0,96 0,4386

Con un nivel de significación del 5% no tengo eviden- -0,02


cia suficiente para rechazar H0, es decir que los erro-
res provenientes del modelo propuesto (DCA Modelo -1,12
fijo) se distribuyen normalmente. Por lo tanto la Efi-
ciencia de conversión en la población de bovinos
-2,22
Hereford de iguales edad y sexo se distribuye normal- -2,22 -1,12 -0,02 1,08 2,18
mente, teniendo en cuenta los 4 suplementos diferen- C uantiles de la N orm al(-5,55E-016,1,026)
tes (S1, S2, S3 y S4 ya especificados).

En el gráfico no se observan puntos (residuos) con


gran alejamiento de los valores normales teóricos,
por lo que se puede suponer que la distribución
que siguen los errores es normal.
iii) Para observar si se puede suponer homogeneidad de varianzas

D ia g r a m a d e D is p e r s ió n Box plot por tratamiento


2 ,2 4 6,97

1 ,0 7 6,01
RE_EfCon

EfCon

- 0 ,1 0 5,05

4,09
- 1 ,2 6

3,13
- 2 ,4 3 S1 S2 S3 S4
4 ,3 6 4 ,8 6 5 ,3 6 5 ,8 5 6 ,3 5
Tratam
P R E D _ E fC o n

En este gráfico se observa asimetría en algunos


En el diagrama de dispersión de residuos vs valores casos y alguna varianza sensiblemente menor que
predichos no se observan diferencias notorias entre las otras. Se debe recordar que este gráfico puede
las varianzas de la Eficiencia de conversión en ser engañoso cuando las muestras son muy
bovinos Hereford de iguales edad y sexo para cada pequeñas.
suplemento “de engorde” en bovinos para carne.
Prueba de Levene
Es una prueba que tiene la ventaja de no ser tan exigente respecto a al distribución normal de la variable
respuesta.

53
Estadística Analítica 2011 Fac. Cs. Veterinarias(U.B.A)

H0 : σ 12 = σ 22 = σ 32 = σ 42 = σ 2
H1 : algún σ i2 ≠ σ 2 i=1, 2, 3, 4

Se calcula para cada observación (repetición j-ésima del i-ésimo tratamiento)) la diferencia en valor
absoluta entre su puntuación (Yij) y la mediana del grupo o nivel del factor al que pertenece (Medianai)
obteniendo así una nueva variable.

dif ij = yij − Mnai


Con ésta variable (dif) se realiza un ANOVA.

Análisis de la varianza – Test de Levene


Variable N R² R² Aj CV
dif_abs(efcon-mna) 40 0,07 0,00 75,24

Cuadro de Análisis de la Varianza (SC tipo III)


F.V. SC gl CM F p-valor
Modelo 0,25 3 0,08 0,86 0,4716
Tratam 0,25 3 0,08 0,86 0,4716
Error 3,51 36 0,10
Total 3,76 39
Como el pvalor es 0,4716 no se rechaza la hipótesis nula y se puede considerar que las varianzas
poblacionales de la Eficiencia de conversión de las cuatro poblaciones (las poblaciones que reciben S1,
S2, S3 y S4 previamente definidas) de bovinos Hereford de iguales edad y sexo son iguales
(homoscedasticidad).

e.- Escriba las hipótesis de interés, y teniendo en cuenta la salida de computadora concluya al 5%.
Debido a los supuestos realizados en los puntos anteriores, seleccionamos el ANOVA (o ADEVA) para-
métrico,
i)
Análisis de la varianza
Variable N R² R² Aj CV
EfCon 40 0,65 0,62 10,32

Cuadro de Análisis de la Varianza (SC tipo III)


F.V. SC gl CM F p-valor
Modelo 19,87 3 6,62 22,18 <0,0001
Tratam 19,87 3 6,62 22,18 <0,0001  Significativo
Error 10,76 36 0,30
Total 30,63 39

Las hipótesis estadísticas son:


H0: µi = µ para i=1, 2, 3, 4 vs H1: algún µi ≠ µ
Como se rechaza H0 (p-valor<0,0001) se concluye:
Con un nivel de significaron del 5% existe evidencia suficiente para rechazar H0, por lo tanto al menos un
valor medio poblacional de Eficiencia de conversión en bovinos Hereford, de iguales edad y sexo, difiere
de los restantes, es decir, que la eficiencia de conversión media poblacional en bovinos alimentados con
Suplemento 1 (grano partido y fuente A), Suplemento 2 (grano partido y fuente B), Suplemento 3 (grano
entero y fuente A) o Suplemento 4 (grano entero y fuente B) no es la misma. (p-valor<0,05)

Nota: Cuando se rechaza la hipótesis nula, es decir todos los valores medios no son iguales, es intere-
sante comparar los valores medios poblacionales para ver cuál o cuales son diferentes. Existen diferentes
métodos de comparaciones múltiples pero esta parte del estudio escapa de los alcances de esta materia.

2) El esculeno es un hidrocarburo insaturado que se encuentra en aceites vegetales. En una experiencia


se desea comparar cuantitativamente el contenido de esta sustancia entre 4 aceites vegetales: maní,

54
Estadística Analítica 2011 Fac. Cs. Veterinarias(U.B.A)

maíz, soja y girasol. Para ello se tomaron 8 muestras para cada tipo de aceite determinándose el conte-
nido de esculeno en mg/100 g de aceite.
a.- ¿Cuál es el objetivo del experimento?
b.- ¿Cuál fue la unidad experimental? ¿Qué se registra?
c.- ¿Qué puede decir con respecto a la validez del DCA paramétrico?
d.- Escriba las hipótesis de interés, y teniendo en cuenta la salida de computadora concluya al 5%.

Contenido de esculeno (mg/100 g de aceite)


Maní 21 22 38 13 23 25 14 16
Maíz 33 18 14 27 21 17 15 23
Aceite
Soja 8 12 21 9 16 7 6 11
Girasol 5 12 10 13 9 10 15 6

Solución
a.- ¿Cuál es el objetivo del experimento?
Objetivo: comparar el contenido de esculeno en aceites vegetales provenientes de maíz, maní, girasol y
soja.

b.- ¿Cuál fue la unidad experimental? ¿Qué se registra?


La unidad experimental es una muestra de aceite, a la que se le observa la concentración de esculeno,
medida en mg/100 g de aceite.

c.- ¿qué puede decir con respecto a la validez del DCA paramétrico?
Se propone en ese caso el modelo Yij= µi + εij para i=1, 2, 3, 4 j= 1, 2, ....., 8
i) Los errores son independientes dado que en cada población (Vegetal) las muestras de aceite fueron
seleccionadas al azar,
ii)
Hipótesis estadísticas:
3,03 n= 32 r= 0,940 (RE_Esculeno)

H0: ε tiene distribución normal


Cuantiles observados(RE_Esculeno)

H1: ε no tiene distribución normal


1,77

Shapiro-Wilks (modificado)
Variable n Media D.E. W* p(unacola)
0,52
RE_Esculeno 32 -0,02 0,95 0,90 0,0180

Con un nivel de significación del 5% tengo eviden-


-0,73
cia suficiente para rechazar H0, es decir que los
errores provenientes del modelo propuesto (DCA
Modelo fijo) no se distribuyen normalmente, Por lo
-1,98
tanto la variable concentración de esculeno no se -1,98 -0,73 0,52 1,77 3,03
distribuye normalmente, teniendo en cuenta los 4 Cuantiles de una Normal(-0,016999,0,89847)
vegetales (maíz, maní, girasol y soja), Se
observan varios residuos que son más grandes que
los restantes y se alejan de los valores normales
teóricos lo que pone en duda el supuesto de que la
distribución que siguen los errores, según el modelo
propuesto, es normal,

iii) Para observar si se puede suponer homogeneidad de varianzas, se realiza el Test de Levene

H0 : σ 12 = σ 22 = σ 32 = σ 42 = σ 2
H1 : algún σ i ≠ σ
2 2
i=1, 2, 3, 4

55
Estadística Analítica 2011 Fac. Cs. Veterinarias(U.B.A)

Análisis de la varianza – Test de Levene


Variable N R² R² Aj CV
abs dif 32 0,09 0,00 93,09

Cuadro de Análisis de la Varianza (SC tipo III)


F.V. SC gl CM F p-valor
Modelo 43,38 3 14,46 0,95 0,4292
Aceite 43,38 3 14,46 0,95 0,4292
Error 425,50 28 15,20
Total 468,88 31

Como p-valor=0,4292, no rechazo H0, y se puede considerar que las varianzas de la concentración de
esculeno en los aceites vegetales de maíz, maní, girasol y soja son iguales (supuesto de
homoscedasticidad),

d.- Escriba las hipótesis de interés, y teniendo en cuenta la salida de computadora concluya al 5%,
Por todo el análisis anterior no es válido utilizar un DCA Modelo 1 o fijo Paramétrico,
Por otro lado, los cuatro vegetales son independientes y la variable concentración de esculeno en aceite es al
menos de escala ordinal, por lo que selecciono la salida correspondiente a la Prueba de Kruskal Wallis.

Prueba de Kruskal Wallis


Variable Aceite N Medias D.E. Medianas H p
Esculeno Girasol 8 10,00 3,38 10,00 17,79 0,0005
Esculeno Maíz 8 21,00 6,48 19,50
Esculeno Maní 8 21,50 7,98 21,50
Esculeno Soja 8 11,25 5,06 10,00

Si simbolizamos con θ a la mediana poblacional para la concentración de esculeno en aceite.

Hipótesis estadísticas

H0 : θ12 =θ 22 =θ 32 =θ 24 =θ 2
H1 : algún θ i2 ≠ θ 2 i=1, 2, 3, 4

Es decir que se prueba si la variable concentración de esculeno en aceite tiene la misma posición para
los cuatro vegetales: maíz, maní, girasol y soja.

Conclusión: A un nivel de significación del 5%, hay evidencias suficientes para rechazar H0 por lo que se
puede suponer que al menos alguna de las medianas poblacionales de los cuatro vegetales (maíz, maní,
girasol y soja), difiere de las restantes para la variable concentración de esculeno, en esta población de
aceites vegetales en estudio.

Nota: La potencia-eficiencia de la prueba de Kruskal Wallis comparada con el ANOVA de un factor


modelo 1 es de 3/π = 95,5%, Algunos experimentadores para trabajar con el ANOVA paramétrico ante
ésta situación aplican alguna transformación a la variable respuesta (por ejemplo: ytranf = ln(y), ytranf =
0,5
y , ytranf = 1/y, etc,) para lograr que se cumplan los supuestos con respecto a al variable transformada.
Nosotros no veremos transformaciones pues escapa de los alcances de esta materia.

PROBLEMAS PROPUESTOS

3) Se realizó un ensayo para estudiar el efecto de 5 raciones sobre la ganancia de peso de novillos. Para ello
se emplearon 5 lotes de 6 animales cada uno, de la misma raza y edad. El diseño experimental fue un DCA.
Los datos corresponden a la ganancia de peso por animal expresada en kg, para el período total del ensayo.

56
Estadística Analítica 2011 Fac. Cs. Veterinarias(U.B.A)

Tratamientos
1 2 3 4 5
43 54 62 61 85
49 54 55 68 83
39 50 59 62 89
41 48 57 64 91
43 51 60 68 89
46 55 56 62 82

Estadística descriptiva
Tratamientos Variable n Media D.E. Mín Máx Mediana
1 Ganancia 6 43.50 3.56 39.00 49.00 43.00
2 Ganancia 6 52.00 2.76 48.00 55.00 52.50
3 Ganancia 6 58.17 2.64 55.00 62.00 58.00
4 Ganancia 6 64.17 3.13 61.00 68.00 63.00
5 Ganancia 6 86.50 3.67 82.00 91.00 87.00

A partir de los gráficos y las salidas correspondientes, responda los siguientes ítems:

a) Verificar si se cumplen los supuestos para un DCA modelo fijo (concluya u opine para cada supuesto)
Normalidad ....................................................................................................................................................
.........................................................................................................................................................................
.........................................................................................................................................................................
.........................................................................................................................................................................
.........................................................................................................................................................................
Homoscedasticidad ........................................................................................................................................
.........................................................................................................................................................................
.........................................................................................................................................................................
.........................................................................................................................................................................
.........................................................................................................................................................................
.........................................................................................................................................................................
.........................................................................................................................................................................

b) Teniendo en cuenta lo anterior y que el nivel es del 5%


La salida elegida es .......................................................................................................................................
Las hipótesis planteadas son: ........................................................................................................................
Como p-valor es .......................... la decisión es ......................................, por lo que la conclusión es
.........................................................................................................................................................................
.........................................................................................................................................................................
SALIDAS Y GRAFICOS OBTENIDOS POR COMPUTADORA:

Tabla 1
Shapiro-Wilks (modificado)
Variable n Media D.E. W* p (una cola)
REGanancia 30 0.00 1.02 0.91 0.0600

57
Estadística Analítica 2011 Fac. Cs. Veterinarias(U.B.A)

Tabla 2
Análisis de la varianza – Test de Levene
Variable N R² R² Aj CV
abs dif 30 0,05 0,00 65,82

Cuadro de Análisis de la Varianza (SC tipo III)


F.V. SC gl CM F p-valor
Modelo 3,47 4 0,87 0,31 0,8674
Tratamientos 3,47 4 0,87 0,31 0,8674
Error 69,50 25 2,78
Total 72,97 29

Residuos vs Predichos QQ-plot

2.07 2,08

Cuantiles observados(RE_ganancia)
1.12 1,04
RE_Ganancia

0.17 0,00

-0.78 -1,04

-1.72 -2,08
41.35 53.18 65.00 76.83 88.65 -2,08 -1,04 0,00 1,04 2,08
PRED_Ganancia Cuantiles de una Normal(2,3759E-015,1,0345)

Tabla 3
Análisis de la varianza
Variable N R² R² Aj CV
Ganancia 30 0,96 0,96 5,22
Cuadro de Análisis de la Varianza (SC tipo III)
F,V, SC gl CM F p-valor
Modelo 6332,80 4 1583,20 156,65 <0,0001
Tratamientos 6332,80 4 1583,20 156,65 <0,0001
Error 252,67 25 10,11
Total 6585,47 29
Tabla 4
Prueba de Kruskal Wallis
Variable Tratamientos N Medianas H p
Ganancia 1 6 43,00 27,35 <0,0001
Ganancia 2 6 52,50
Ganancia 3 6 58,00
Ganancia 4 6 63,00
Ganancia 5 6 87,00

4) Un fisiólogo estudió la función pituitaria de las gallinas ponedoras asociada a cada etapa del régimen es-
tándar para muda forzada de plumas que usan los productores de huevos con el fin de mantener a las aves
en producción. Las etapas de la dieta son cinco: (A) premuda, previa al inicio del régimen; (B) ayuno de 8
días; (C) 60 gr de salvado durante 10 días; (D) 80 gr de salvado durante 10 días; y (E) mezcla de malta du-
rante 42 días. En el estudio se utilizaron 25 gallinas elegidas aleatoriamente de la población. Todas fueron
puestas bajo la misma dieta en jaulas. Después de cada etapa, se seleccionaban aleatoriamente grupos de
cinco y se las sacrificaba. Entre los compuestos medidos, el fisiólogo estaba interesado en saber si las distin-

58
Estadística Analítica 2011 Fac. Cs. Veterinarias(U.B.A)

tas etapas afectaban la concentración de T3 en suero (medida en ng/dl). Se obtuvo como resultado el si-
guiente conjunto de observaciones:

Etapas de Dieta Concentración de T3 (ng/dl) en suero


Premuda (A) 94.09 90.45 99.38 91 98.00
Ayuno (B) 117.9 115 115.23 129.06 117.61
60 g de Salvado (C) 197.18 207.31 194 192.50 202.25
80 g de Salvado (D) 112.47 117.51 119.92 112.01 110
Mezcla de malta (E) 83.14 89.59 87.76 82.94 79.21
Estadística descriptiva
Etapas Variable n Media D.E. Mín Máx Mediana Q1 Q3
a T3 5 94,58 4,03 90,45 99,38 94,09 91,00 98,00
b T3 5 118,96 5,80 115,00 129,06 117,61 115,23 117,90
c T3 5 198,65 6,11 192,50 207,31 197,18 194,00 202,25
d T3 5 114,38 4,15 110,00 119,92 112,47 112,01 117,51
e T3 5 84,53 4,15 79,21 89,59 83,14 82,94 87,76

A partir de los gráficos y las salidas correspondientes, responda los siguientes ítems:
a) Verificar si se cumplen los supuestos para un DCA modelo fijo (concluya u opine para cada supuesto)
Normalidad ....................................................................................................................................................
.........................................................................................................................................................................
.........................................................................................................................................................................
Homoscedasticidad ........................................................................................................................................
.........................................................................................................................................................................
.........................................................................................................................................................................
b) Teniendo en cuenta lo anterior y que el nivel es del 5%
La salida elegida es ........................................................................................................................................
Las hipótesis planteadas son: ........................................................................................................................
Como p-valor es .......................... la decisión es ......................................, por lo que la conclusión es
.........................................................................................................................................................................
.........................................................................................................................................................................
.........................................................................................................................................................................

SALIDAS Y GRAFICOS OBTENIDOS POR COMPUTADORA:


Tabla 1
Shapiro-Wilks (modificado)
Variable n Media D.E. W* p (una cola)
RE_T3 25 -4,5E-03 1,03 0,90 0,0469
Tabla 2
Análisis de la varianza – Test de Levene
Variable N R² R² Aj CV
abs dif 25 0,04 0,00 97,95
Cuadro de Análisis de la Varianza (SC tipo III)
F.V. SC gl CM F p-valor
Modelo 8,66 4 2,17 0,19 0,9412
Etapas 8,66 4 2,17 0,19 0,9412
Error 228,87 20 11,44
Total 237,53 24
Tabla 3
Análisis de la varianza
Variable N R² R² Aj CV
T3 25 0,99 0,99 4,04

59
Estadística Analítica 2011 Fac. Cs. Veterinarias(U.B.A)

Cuadro de Análisis de la Varianza (SC tipo III)


F,V, SC gl CM F p-valor
Modelo 40488,68 4 10122,17 415,95 <0,0001
Etapas 40488,68 4 10122,17 415,95 <0,0001
Error 486,70 20 24,33
Total 40975,38 24

Tabla 4
Prueba de Kruskal Wallis
Variable Etapas N Medias D,E, Medianas H p
T3 a 5 94,58 4,03 94,09 22,24 0,0002
T3 b 5 118,96 5,80 117,61
T3 c 5 198,65 6,11 197,18
T3 d 5 114,38 4,15 112,47
T3 e 5 84,53 4,15 83,14

Gráfico de densidad de puntos QQ-plot

2,47 2,29

Cuantiles observados(RE_T3)
1,45 1,21
RE_T3

0,13
0,42

-0,95
-0,60

-2,02
-1,63 -2,02 -0,95 0,13 1,21 2,29
a b c d e Cuantiles de una Normal(-0,0045184,1,0556)
Etapas

5) (Un experimento ilegal). Es un hecho muy conocido que casi todos los caballos que corren carreras
“cuadreras” o extraoficiales, reciben tratamientos medicamentosos que en las carreras oficiales no están
permitidos. Todos los cuidadores afirman que de otro modo no es posible competir, pero la efectividad de
esos tratamientos suele ser objeto de polémicas. A tal efecto se diseñó un experimento para comparar a
tres de tales tratamientos, con 5 caballos cada uno y un grupo testigo, sin medicar. Se utilizaron, en con-
secuencia, 20 caballos de características lo más similares posibles (en velocidad, edad, sanidad). Se
registraron en cada caso los tiempos (en segundos) empleados en una corrida a fondo sobre la distancia
clásica cuadrera de 300 metros en pista normal, con los siguientes resultados:

Trat 1 Trat 2 Trat 3 Trat 4 (control)


17,96 17,80 18,30 18,60
17,62 17,90 18,50 18,80
17,90 17,68 18,40 18,60
17,70 17,72 18,22 18,90
17,70 18,00 18,30 18,80

Estadística descriptiva
Tratamiento Variable n Media D.E. Mín Máx Mediana
1 Tiempo 5 17.78 0.15 17.62 17.96 17.70
2 Tiempo 5 17.82 0.13 17.68 18.00 17.80
3 Tiempo 5 18.34 0.11 18.22 18.50 18.30
4 Tiempo 5 18.74 0.13 18.60 18.90 18.80
A partir de los gráficos y las salidas correspondientes, responda los siguientes ítems:

60
Estadística Analítica 2011 Fac. Cs. Veterinarias(U.B.A)

a) Verificar si se cumplen los supuestos para un DCA modelo fijo (concluya u opine para cada supuesto)
Normalidad ...................................................................................................................................................
.........................................................................................................................................................................
.........................................................................................................................................................................
........................................................................................................................................................................
Homoscedasticidad ........................................................................................................................................
.........................................................................................................................................................................
.........................................................................................................................................................................
...............................................................................................................................
b) Teniendo en cuenta lo anterior y que el nivel es del 5%
La salida elegida es .............................................................................................................................
Las hipótesis planteadas son: ..............................................................................................................
Como p-valor es .......................... la decisión es ......................................, por lo que la conclusión es
.........................................................................................................................................................................
.........................................................................................................................................................................

SALIDAS Y GRAFICOS OBTENIDOS POR COMPUTADORA:


Tabla 1
Shapiro-Wilks (modificado)
Variable n Media D.E. W* p (una cola)
RE_Tiempo 20 0.01 1.06 0.87 0.0201
Tabla 2
Análisis de la varianza
Variable N R² R² Aj CV
abs dif 20 0,02 0,00 98,82
Cuadro de Análisis de la Varianza (SC tipo III)
F.V. SC gl CM F p-valor
Modelo 2,9E-03 3 9,6E-04 0,11 0,9550
Trat 2,9E-03 3 9,6E-04 0,11 0,9550
Error 0,14 16 0,01
Total 0,15 19
Tabla 3
Análisis de la varianza
Variable N R² R² Aj CV
Tiempo 20 0,92 0,91 0,72
Cuadro de Análisis de la Varianza (SC tipo III)
F,V, SC gl CM F p-valor
Modelo 3,16 3 1,05 61,90 <0,0001
Tratamiento 3,16 3 1,05 61,90 <0,0001
Error 0,27 16 0,02
Total 3,44 19
Tabla 4
Prueba de Kruskal Wallis
Variable Tratamiento N Medianas H p
Tiempo 1 5 17,70 16,17 0,0010
Tiempo 2 5 17,80
Tiempo 3 5 18,30
Tiempo 4 5 18,80

61
Estadística Analítica 2011 Fac. Cs. Veterinarias(U.B.A)

Gráfico de densidad de puntos


QQ-plot
19,00
2,00
Cuantiles observados(RE_Tiempo)

18,50
1,01

Tiempo
18,00
0,01

17,50
-0,98

17,00
-1,97 1 2 3 4
-1,97 -0,98 0,01 1,01 2,00
Tratamiento
Cuantiles de una Normal(0,014126,1,1307)

6) Interesa determinar si existen diferencias significativas entre las concentraciones medias de glucosa regis-
tradas después de aplicar diferentes drogas a conejos de cierta raza. Para ello se empleó un conjunto de 18
conejos de esa raza y se lo dividió aleatoriamente en tres grupos. Cada grupo recibió una droga diferente. Al
cabo de cierto tiempo se midió la concentración de glucosa en plasma, en mg/100 ml, y se obtuvieron los
siguientes datos:
Droga A: 94 97 84 92 95 107
Droga B: 82 73 77 81 84 73
Droga C: 91 106 102 104 107 92

Estadística descriptiva
Droga Variable n Media D.E. Mín Máx Mediana
A Concentración 6 94.83 7.47 84.00 107.00 94.50
B Concentración 6 78.33 4.72 73.00 84.00 79.00
C Concentración 6 100.33 7.06 91.00 107.00 103.00

A partir de los gráficos y las salidas correspondientes, responda los siguientes ítems:
a) Verificar si se cumplen los supuestos para un DCA modelo fijo (concluya u opine para cada supuesto)
Normalidad ....................................................................................................................................................
.........................................................................................................................................................................
.........................................................................................................................................................................
.........................................................................................................................................................................
Homoscedasticidad ........................................................................................................................................
.........................................................................................................................................................................
.........................................................................................................................................................................
...............................................................................................................................
b) Teniendo en cuenta lo anterior y que el nivel es del 5%
La salida elegida es ......................................................................................................................................
Las hipótesis planteadas son: .......................................................................................................................
Como p-valor es .......................... la decisión es ......................................, por lo que la conclusión es
.........................................................................................................................................................................
.........................................................................................................................................................................
.........................................................................................................................................................................

62
Estadística Analítica 2011 Fac. Cs. Veterinarias(U.B.A)

SALIDAS Y GRAFICOS OBTENIDOS POR COMPUTADORA:


Tabla 1
Shapiro-Wilks (modificado)
Variable n Media D.E. W* p (una cola)
RE_Concentración 18 0,00 1,03 0,96 0,7830

Tabla 2
Análisis de la varianza – Test de Levene
Variable N R² R² Aj CV
abs dif 18 0,02 0,00 91,27

Cuadro de Análisis de la Varianza (SC tipo III)


F.V. SC gl CM F p-valor
Modelo 5,44 2 2,72 0,15 0,8649
Droga 5,44 2 2,72 0,15 0,8649
Error 278,67 15 18,58
Total 284,11 17

Tabla 3
Análisis de la varianza
Variable N R² R² Aj CV
Concentración 18 0,71 0,67 7,16
Cuadro de Análisis de la Varianza (SC tipo III)
F,V, SC gl CM F p-valor
Modelo 1573,00 2 786,50 18,45 0,0001
Droga 1573,00 2 786,50 18,45 0,0001
Error 639,50 15 42,63
Total 2212,50 17

Tabla 4
Prueba de Kruskal Wallis
Variable Droga N Medianas H p
Concentración A 6 94,50 11,38 0,0033
Concentración B 6 79,00
Concentración C 6 103,00

Gráfico de densidad de puntos


QQ-plot
110,00
2,08
Cuantiles observados(RE_Concentración)

1,08 100,00
Concentración

0,07 90,00

-0,93 80,00

-1,93 70,00
-1,93 -0,93 0,07 1,08 2,08 a b c
Cuantiles de una Normal(-0,0027137,1,1226) Droga

63
Estadística Analítica 2011 Fac. Cs. Veterinarias(U.B.A)

CUESTIONARIO

1.- ¿Cuáles son los supuestos del Análisis de la Varianza paramétrico? ¿Cómo puede verificarlos y/o
garantizarlos?

2.- ¿Cuáles son los supuestos del Análisis de la Varianza no paramétrico? ¿Cómo puede verificarlos y/o
garantizarlos?

3.- En los problemas propuestos 3) y 4) indique:


Para el problema propuesto 3:
a) Factor en estudio: ..........................................................................................................................
b) Tratamientos: ................................................................................................................................
c) Unidad experimental: .....................................................................................................................
d) Observación: .................................................................................................................................

Para el problema propuesto 4:


a) Factor en estudio: ..........................................................................................................................
b) Tratamientos: ................................................................................................................................
c) Unidad experimental: .....................................................................................................................
d) Observación: .................................................................................................................................

4.- En los problemas propuestos 5) y 6) indique los supuestos que tuvo en cuenta para elegir el tipo de
análisis adecuado.

5.- En un Análisis de la Varianza paramétrico, ¿por qué la región crítica es unilateral derecha?

64
Estadística Analítica 2008 Fac. Cs. Veterinarias(U.B.A)

Unidad 5 – CORRELACIÓN LINEAL (Pearson) Y NO PARAMÉTRICA (Spearman)


Objetivos específicos
• Destacar la necesidad y utilidad del análisis de correlación.
• Diferenciar el análisis de correlación del análisis de regresión.
• Analizar resultados y casos específicos y sus aplicaciones en el campo de los procesos biológicos.

Contenidos temáticos
Concepto de correlación. Diagrama de dispersión. Coeficiente de correlación: cálculo e
interpretación. Prueba de hipótesis para ρ = 0. Correlación no paramétrica. Actividad globalizante de los
conocimientos adquiridos basándose en el estudio de casos que se presentan en la experimentación o
investigación biológica.

Glosario
Distribución bivariada (dos variables aleatorias conjuntamente distribuidas). Distribución normal
bivariada. Parámetros de esta distribución. Elipse de concentración. Asociación entre variables aleatorias
normales y no normales. Coeficiente de correlación lineal y no lineal. Aplicaciones a inferencia estadística:
Estimación y contraste.

PROBLEMAS RESUELTOS
01.- Los siguientes datos corresponden al peso vivo (PV, en Kg) y al espesor de grasa dorsal (EGD, en mm)
de 30 lechones elegidos al azar de una población de porcinos Duroc Jersey del Oeste de la provincia de
Buenos Aires:
Obs 1 2 3 4 5 6 7 8 9 10
PV 56,81 70,40 71,73 75,10 79,65 51,43 52,10 69,10 35,70 76,44
EGD 16,19 22,00 19,52 31,00 23,58 16,58 17,20 26,70 21,60 24,51
Obs 11 12 13 14 15 16 17 18 19 20
PV 27,51 67,90 51,61 69,40 48,93 55,02 62,70 84,00 67,50 58,62
EGD 16,21 13,80 16,43 33,60 25,07 20,52 26,20 11,50 21,50 27,26
Obs 21 22 23 24 25 26 27 28 29 30
PV 68,58 67,10 49,10 73,80 61,40 63,44 93,00 58,90 58,70 66,45
EGD 12,60 23,30 32,46 19,90 20,48 7,29 40,90 9,21 27,60 23,27

a.- Dibujar el diagrama de dispersión e interpretarlo.


b.- Calcular el coeficiente de correlación muestral.
c.- ¿Hay suficiente evidencia para admitir asociación entre el peso y el espesor de grasa? (α = 0,05)

Datos del problema:


• Variables en estudio:
X1: peso vivo de un lechón, en kg;
X2: espesor de grasa dorsal de un lechón, en mm;
• Tamaño de muestra: n = 30
Diagrama de dispersión
Solución 45.0

a) En el eje de la abscisas está graficado el peso vivo


(PV), y en el eje de las ordenadas, el espesor de grasa 35.0
dorsal (EGD). Se podría haber graficado al revés, ya
EGD

que en el análisis de correlación no hay una variable 25.0


que explica a la otra, sino que se estudia el
comportamiento de ambas variables conjuntamente.
15.0
En este gráfico se puede observar una asociación
directa suave entre ambas variables, es decir que a 5.0
valores grandes de peso vivo corresponden valores 25.0 35.0 45.0 55.0 65.0 75.0 85.0 95.0
grandes de espesor de grasa dorsal. (Se denomina PV
directa porque al aumentar los valores de una de las
65
Estadística Analítica 2008 Fac. Cs. Veterinarias(U.B.A)

variables aumentan los valores de la otra, y viceversa).

b) Para calcular el coeficiente de correlación muestral tenemos dos coeficientes, el de Pearson y el de


Spearman. Las variables en estudio en este caso cumplen, en principio, con el supuesto teórico de
Spearman, ya que ambas variables (Peso vivo y espesor de grasa dorsal) son al menos ordinales, es decir
que tienen un orden natural porque son números. Sin embargo podríamos docimar la hipótesis de
normalidad, para ver si se cumple el supuesto de Pearson
Dócima de normalidad para X1 al 5%
 H 0 : X 1 ~N ( µ1 ;σ 12 )

 H1 : X 1 no se distribuye normalmente

Salida del programa InfoStat para X1


Shapiro-Wilks (modificado)
Variable n Media D.E. W* p (una cola)
PV 30 63.07 13.54 0.98 0.9463

Como el p-valor = 0,9463>0,05 no se rechaza la hipótesis nula. Por lo tanto al 5% la variable X1 se puede
suponer que se distribuye normalmente.
Dócima de normalidad para X2 al 5%
 H 0 : X 2 ~N ( µ 2 ;σ 22 )

 H1 : X 2 no se distribuye normalmente

Salida del programa InfoStat para X2


Shapiro-Wilks (modificado)
Variable n Media D.E. W* p (una cola)
EGD 30 21.59 7.44 0.98 0.9485

Como el p-valor = 0,2501>0,05 no se rechaza la hipótesis nula. Por lo tanto al 5% la variable X2 se puede
suponer que se distribuye normalmente.
Por lo tanto ambas variables se distribuyen normalmente y es mejor utilizar el coeficiente de Pearson, ya que
utiliza la información que proporciona la normalidad de la variable y, por esto, es un estimador más eficiente.
Es decir que, en los casos en los cuales las variables se distribuyen normalmente, aunque se pudiera usar el
coeficiente Spearman, es mejor utilizar el coeficiente de Pearson. Entonces vamos a calcular el
coeficiente de correlación lineal muestral, que estima a ρ (Rho).

( ∑ x )( ∑ x )
∑x
1i 2i
1i x 2i -
r= n
 ( ∑ x 1i )  ( ∑ x 2i ) 
2 2

 ∑ x 1i -
2
  ∑ x 2i -
2

 n  n 
  

1892,1 * 647, 7
41604, 3 -
r= 30 = 0.2572
 (1892,1) 
2  (647, 7 ) 
2
124659 -  × 15597, 3 - 
 30   30 
   
Sabemos que el estimador del coeficiente de correlación debe ser un número entre –1 y 1, por lo tanto este
valor está en el rango apropiado de valores.

66
Estadística Analítica 2008 Fac. Cs. Veterinarias(U.B.A)

c) Para responder a esta pregunta debemos realizar la dócima correspondiente cuyas hipótesis son:

H 0 : ρ = 0 (no hay correlación lineal)


Hipótesis estadísticas: 
H1 : ρ ≠ 0 (hay correlación lineal)

Como no nos dice asociación positiva o asociación negativa, se plantea igual versus distinto.

Nivel de significación: α = 0,05

r n-2
Estadístico de prueba: t = ~ t n-2
1-r 2

Región crítica: Para este punto vamos a necesitar los valores críticos, son dos por que la región crítica es
bilateral, y van a estar determinados por tn − 2,α / 2 y tn − 2,1−α / 2 . En este caso, t28;0,025 y t28;0,975 . Valores Críticos:
t28;0,025 = -2,048 y t28;0,975 = 2,048. Región Crítica: t ≤ -2,048 conjuntamente t ≥ 2,048

Regla de decisión: RECHAZO HO si tH0 ≤ - 2,048 o tH0 ≥ 2,048


NO RECHAZO HO si -2,048 < tH0 < 2,048

Cálculo: Reemplazando los datos muestrales en el estadístico


0, 2572 28 1,3606
t = = = 1, 408
Ho 2 0,9663
1 - (0, 2572)
Decisión: Como 1,5746<2,048 y 1,5746>-2,048 no se rechaza la hipótesis nula al 5%

Conclusión: Al nivel de significación del 5%, no hay evidencias suficientes para rechazar H0
(H0:ρ=0), por lo tanto no existiría asociación lineal poblacional entre el peso vivo y el espesor de grasa dorsal
en los lechones Duroc Jersey del Oeste de la provincia de Buenos Aires.

Cuando se procesa con infoStat se obtiene:

Coeficientes de correlación
Correlación de Pearson: coeficientes\probabilidades

PV EGD
PV 1,00 0,17 p valor
EGD 0,25 1,00

Valor de r

02.- Al finalizar el primer año de un programa de promoción de la salud aplicado a los habitantes de la
ciudad de Córdoba se tomaron mediciones de algunas variables de interés en una muestra aleatoria de 8
(ocho) hombres de dicha ciudad. Se quiere saber si la concentración de colesterol (X1) y la concentración
de ácido úrico (X2), ambas medidas en sangre, están correlacionadas en forma inversa al 5%. Los datos
obtenidos se muestran en la siguiente tabla:
X1 269 279 248 318 318 254 263 320
X2 43 65 78 73 71 69 67 45

Datos del problema:


• Variables en estudio
X1: concentración de colesterol en un hombre
X2: concentración de ácido úrico en un hombre.
• Tamaño de muestra: n = 8

67
Estadística Analítica 2008 Fac. Cs. Veterinarias(U.B.A)

Solución:
Para poder resolver esta situación hay dos posibilidades, utilizar el coeficiente de correlación de
Pearson o el de Spearman. Las variable en estudio, en este caso, cumplen con el supuesto teórico de
Spearman, ya que ambas variables (concentración de colesterol y concentración de ácido úrico) son al
menos ordinales (es decir que tienen un orden natural porque son números). Sin embargo podríamos
docimar la hipótesis de normalidad, para ver si se cumple el supuesto de Pearson

Dócima de normalidad para X1 al 5%


 H 0 : X 1 ~N ( µ1 ;σ 12 )

 H1 : X 1 no se distribuye normalmente
Salida del programa InfoStat para X1
Shapiro-Wilks (modificado)
Variable n Media D.E. W* p (una cola)
X1 8 283.63 30.46 0.81 0.0463

Como el p-valor = 0,0463<0,05 se rechaza la hipótesis nula. Por lo tanto al 5% la variable X1 no se puede
suponer que se distribuye normalmente.

Dócima de normalidad para X2 al 5%


 H 0 : X 2 ~N ( µ2 ;σ 22 )

 H1 : X 2 no se distribuye normalmente

Salida del programa InfoStat para X2


Shapiro-Wilks (modificado)
Variable n Media D.E. W* p (una cola)
X2 8 63.50 12.46 0.78 0.0196

Como el p-valor = 0,0196<0,05 se rechaza la hipótesis nula. Por lo tanto al 5% la variable X2 no se puede
suponer que se distribuye normalmente.
Como estas variables no cumplen con el supuesto para utilizar Pearson vamos a utilizar Spearman.

H 0 : X1 y X 2 no están asociadas inversamente


Hipótesis estadísticas: 
H1: X1 y X 2 están asociadas inversamente

Nivel de significación: α = 0,05


6 Σdi2
Estadístico de prueba: rS = 1 - , (esta fórmula está en la Guía de Fórmulas y Tablas)
(n-1) n (n+1)
Región crítica: Para este punto vamos a necesitar el valor crítico ya que es una región critica unilateral
izquierda, determinada por rn; 1-α = -rn; α , en este caso: r8;0.95 = -r8;0.05 . Buscando en la tabla de la
distribución Spearman observamos que la probabilidad considerada es la de la cola derecha.
Valores Críticos: r8;0.95 = −r8;0.05 = −0.619
Región Crítica: r ≤ −0.619
Regla de decisión: RECHAZO H0 si rS ≤ -0,619
NO RECHAZO H0 si rS > -0,619

Cálculo: Para calcular el valor del estadístico se utilizarán los órdenes o rangos de los datos muestrales
sabiendo que:
ui: rango correspondiente a la observación “i” de la variable X1.
vi: rango correspondiente a la observación “i” de la variable X2.

68
Estadística Analítica 2008 Fac. Cs. Veterinarias(U.B.A)

di: diferencia entre ui y vi;


2
di : cuadrado de la diferencia entre ui y vi.
Se obtiene la tabla:
2
x1i x2i ui vi di di
269 43 4 1 3 9
279 65 5 3 2 4
248 78 1 8 -7 49
318 73 6,5 7 -0,5 0,25
318 71 6,5 6 0,5 0,25
254 69 2 5 -3 9
263 67 3 4 -1 1
320 45 8 2 6 36
0 108,5

La estimación del coeficiente de correlación de Spearman es:


6*108,5 651 651
rS = 1 - =1- =1- = 1 - 1,2916 = -0, 2916
( ) ( )
8-1 *8* 8+1 7*8*9 504
Decisión: Como -0,2916>-0.619 no se rechaza la hipótesis nula al 5%

Conclusión: Con un nivel de significación del 5%, no se tienen evidencias suficientes para rechazar H0 (H0: X1
y X2 no están asociadas inversamente), por lo tanto se puede concluir que la concentración de colesterol y la
concentración de ácido úrico en sangre no estarían asociadas inversamente la población de hombres de
la ciudad de Córdoba.
Salida del programa InfoStat
Coeficientes de correlación
Correlación de Spearman: coeficientes\probabilidades
X1 X2
X1 1,00 0,44
X2 -0,29 1,00

PROBLEMAS PROPUESTOS
03.- Se registra la temperatura (T) y el pulso (P) en forma simultánea a un grupo de 10 pacientes.
ti 39,0 39,9 39,5 39,0 38,7 38,4 38,0 37,5 36,9 36,7
pi 100 90 80 70 65 64 62 62 60 59

a.- Dibujar el diagrama de dispersión.


b.- Teniendo en cuenta la siguiente salida decidir cual de los estimadores es el adecuado para estimar el
coeficiente de correlación
Shapiro-Wilks (modificado)
Variable n Media D.E. W* p (una cola)
T 10 38.36 1.07 0.93 0.5915
P 10 71.20 14.12 0.80 0.0190

c.- Comprobar estadísticamente si existe asociación positiva entre la temperatura y el pulso, usando un nivel
de significación del 5%.

04.- Considerando que la estimación del coeficiente de correlación entre el peso al nacer y al destete en una
especie fue igual a 0,40 (r=0,40) a partir de una muestra de 20 individuos. ¿Podría afirmar que el peso al
nacer y el peso al destete están significativamente asociados? (α=0,05). Suponer que ambas variables tienen
distribución normal.

05.- Sabiendo que el contenido de celulosa, hemicelulosa, y lignina se estudian a través de la fibra
detergente neutro (FDN) de la dieta, se quiere analizar su relación con el pH ruminal generado. Se tomaron
10 bovinos y se midieron ambas variables:
FDN 37,9 39,2 41,2 43,1 44,6 45,8 46,2 55,8 57,0 59,0
pH 5,88 5,92 6,01 6,10 5,92 6,56 5,93 6,20 6,30 6,57
69
Estadística Analítica 2008 Fac. Cs. Veterinarias(U.B.A)

Suponiendo que ambas variables se distribuyen normalmente, y que α = 0,05, responder:


Hipótesis estadísticas:...................................................................................................................................
Región crítica:..............................................................................................................................................
Valor de la variable pivotal:..........................................................................................................................
Población:....................................................................................................................................................
2 2
Datos: ∑ di pi = 2896,574; ∑ di = 22592, 98; ∑ pi = 377, 4907; ∑ di = 469, 8; ∑ pi = 61, 39.

06.- El director de un centro de internación veterinaria les pide a dos enfermeros que califiquen de 1 a 100 los
pacientes internados de acuerdo a la dificultad de cuidados médicos que los mismos requieren. La siguiente
tabla tiene la respuesta de los enfermeros.
Paciente A B C D E F G H I J
Enfermero 1 9 3 15 6 100 12 18 80 21 95
Enfermero 2 25 10 35 5 50 15 28 100 40 70
¿Se puede afirmar que la opinión de estos enfermeros está asociada? ¿Qué supuesto debe hacer para
poder contestar la pregunta anterior?

07.-Se quiere analizar si existe asociación negativa entre el numero de hijos de un matrimonio (X1) y su
ingreso anual (X2 ). Se muestrearon 10 matrimonios y se obtuvieron los siguientes datos:

X1 1 8 3 2 6 2 0 4 5 6
X2 13005 11096 8720 9166 10111 12937 13734 8861 9747 9568

Responder, sabiendo que α = 0,05.


Hipótesis estadísticas:...........................................................................................................................
Regla de decisión.................................................................................................................................
Decisión:..............................................................................................................................................
Conclusión: .........................................................................................................................................
...........................................................................................................................................................
...........................................................................................................................................................
CUESTIONARIO
1.- Suponer que las variables en estudio son A: peso y B: longitud.
a.- Explicar cómo seleccionaría las unidades experimentales y qué observaría en cada una para
que se pueda realizar un análisis de correlación entre ambas variables.
b.- Modificar el enunciado para que corresponda a un estudio de regresión.

2.-Indicar verdadero o falso según corresponda.


a) V F Spearman se aplica solamente a variable con distribución no normal.
b) V F En un análisis de correlación de Spearman se estudia la diferencia entre los valores de las
variables.
c) V F ρ es un parámetro que toma valores entre 0 y 1.
d) V F Si X 1 ~ N ( µ , σ 2 ) y X2 es una variable aleatoria ordinal entonces no se puede utilizar Pearson.
e) V F El estimador “r” se distribuye normalmente.

3.-Indicar qué método o métodos se puede/n utilizar para analizar la asociación entre cada par de
variables (S: Spearman, P: Pearson, N: ninguno)
a) X1:”Peso de un lechón al nacer”; X2: “Peso de la madre al momento del parto”. ................................
b) X1:”Longitud del fémur de un animal”; X2:”Peso de un animal”. ........................................................

70
Estadística Analítica 2008 Fac. Cs. Veterinarias(U.B.A)

c) X1:”Concentración de glóbulos rojos en sangre en un individuo”; X2:”Consumo de carne de un


individuo (categorizado en: alto, medio, bajo)”.......................................................................................
d) X1:”Nota de un alumno en elementos de estadística”; X2:”Nota de un alumno en Estadística analítica”.
...........................................................................................................................................................
e) X1:”Cantidad de cachorros nacidos por camada”; X2:”Peso de una madre”. ........................................
f) X1:”Ubicación de un caballo en una carrera”; X2:”Ritmo cardiaco de un caballo al finalizar una carrera”.
...........................................................................................................................................................
g) X1:”Color del pelaje de un animal”; X2:”Color de ojos de un animal”. .................................................
h) X1:”Color de la herida de un animal”; X2:”Nivel de glóbulos rojos de un animal”. ................................
i) X1:”Estado civil de una persona”; X2:”Cantidad de hijos de una persona”. ..........................................

4.- ¿Qué indica el coeficiente de correlación lineal? ¿Cuál es su rango de valores posibles? Proponer un
ejemplo donde sospeche que existe correlación negativa. Indicar cómo selecciona los individuos en
estudio, qué registra en cada uno de ellos y cómo se interpreta en caso de rechazar la hipótesis nula a un
cierto nivel?

5.- ¿Cuándo se utiliza el análisis de correlación? ¿Cuántas muestras son necesarias para dicho estudio?
Proponer un ejemplo donde se especifique: cómo se muestreó, algunos valores de la muestra, las
variables y supuestos teóricos que deben cumplirse para realizar dicho estudio.

6.- En un análisis de correlación lineal simple:


a.- ¿Cuál es la distribución en que se basa el estudio?
b.- ¿Cuántos y cuáles son los parámetros de la distribución?
c.- Proponga un ejemplo donde identifique los parámetros e indique su significado biológico.

7.-Elegir la opción correcta:


a.-Si (X1,X2) se distribuyen normal bivariada y son independientes entre si, entonces:
1) ρ = 1
2) ρ = 0
3) ρ > 0
4) ρ = −1
b.-Si dos variables no están correlacionadas linealmente, para estimar la correlación se emplea:
1) El coeficiente de Spearman
2) El coeficiente de Pearson
3) No se puede estimar la correlación
4) No tienen sentido estimar la correlación.
c.-El supuesto teórico para emplear el coeficiente de correlación de Spearman es
1) Ambas variables no se distribuyan normalmente
2) Ambas variable se distribuyan normalmente
3) Ambas variable al menos ordinales
4) Una de las variable no se distribuye normalmente

8.- ¿Cuándo se utiliza el análisis de correlación no paramétrico? Proponer un ejemplo donde se


especifique: cómo se hizo el muestreo, algunos valores de la muestra, las variables y supuestos teóricos
que deben cumplirse para realizar dicho estudio.

71
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)

PROBLEMAS COMPLEMENTARIOS
UNIDADES TEMÁTICAS 1 y 2

01.- Dos analistas, X e Y, midieron la dureza del agua en una ciudad. Se desea comparar si los resultados
de X e Y son similares, por lo cual se toma una muestra, de tamaño 10, de agua de distintas regiones de
la Ciudad de Buenos Aires. Cada analista midió las 10 muestras. Estime un intervalo de confianza del 95%
para la media de las diferencias entre estos dos analistas. ¿Qué supuesto debe hacer para poder realizar
el intervalo?
xi 0,46 0,62 0,37 0,40 0,44 0,58 0,48 0,53 0,59 0,68
yi 0,72 0,61 0,73 0,51 0,33 0,48 0,43 0,35 0,67 0,78

02.- En un estudio sobre llamadas de apareamiento, realizado en el sapo arbóreo (Hyla ewingi), se estimó
en Tasmania, en una muestra de 29 observaciones, que la duración de las llamadas tenía una media de
189 ms (milisegundos) y un desvío estándar de 32 ms; y en Bristbane, en una muestra de 31
observaciones, una media de 216 ms (milisegundos) y un desvío estándar de 28 ms. a) Estime un
intervalo de confianza del 95% para el cociente de varianzas. b) Asumiendo igualdad de varianzas, pruebe
la hipótesis: “el tiempo de llamada del sapo arbóreo es mayor en Britsbane que en Tasmania”.

03.- A 300 pacientes que sufrían una enfermedad se los dividió al azar en tres grupos iguales de 100
pacientes cada uno. A cada grupo se le asignó, al azar, uno de los siguientes tratamientos: a) estándar, b)
nuevo, y c) placebo. Durante la primera semana de tratamiento, en el primer grupo se recuperaron 78
pacientes; en el segundo grupo se recuperaron 90; y en el grupo placebo, se recuperaron 55. Probar si
existen diferencias significativas entre tratamientos al 5%

04.- En un experimento, se compararon las propiedades hipnóticas de dos drogas A y B. Para ello se
midió, con cada una de las drogas, la cantidad de horas ganadas en sueño por cada sujeto. La aparente
superioridad de la droga B, ¿puede ser atribuida a las diferencias entre los sujetos? (α=0,05)

SUJETO 1 2 3 4 5 6 7 8 9 10
DROGA A 2,2 3,5 1,7 4,4 2,8 1,6 2,5 2,0 2,4 2,9
DROGA B 5,3 4,8 5,9 2,3 6,7 5,0 6,1 4,3 4,9 6,0
Realizar el análisis estadístico suponiendo que las drogas se aplicaron:
a) a dos grupos diferentes de sujetos (asumir homogeneidad de varianzas).
b) a los mismos sujetos (en orden aleatorio y dejando transcurrir un tiempo prudencial).

05.- Hay dos formas de abordar el abdomen al realizar castraciones en gatas, por el flanco y por línea
media. Para saber si hay alguna preferencia por una de estas entre los Veterinarios de la Ciudad
Autónoma de Buenos Aires, se realizó una muestra de 200 profesionales y se les preguntó que abordaje
prefieren. Resultó que 113 de los encuestados prefieren por el flanco mientras que los restantes prefieren
por línea media. ¿Provee la información recogida evidencia suficiente que indique diferencias en la
preferencia de estos abordajes? (α=0,05).

06.- Un experimentador quiere probar si un nuevo probiótico reduce la mortandad en pollitos parrilleros.
Para esto, de manera experimental, mantiene a 200 pollitos en jaulas individuales y les asigna
aleatoriamente a la mitad el probiótico estándar y a la otra mitad el nuevo. A los 20 días, cuenta 85
sobrevivientes con el probiótico estándar y 93 con el nuevo. Pruebe si el nuevo probiótico reduce la
mortandad (α=0,05), y estime un intervalo de confianza del 95% para la diferencia de proporciones
poblacionales de sobrevivientes de ambos grupos.

07.- Se desea saber si existe relación entre el tipo de tenencia de tierra de los agricultores de la Pcia. de
Córdoba y la participación, o no, de los mismos en una cooperativa. El investigador obtiene una muestra
aleatoria de 360 agricultores de esta región y organiza la información en la siguiente tabla de contingencia:

72
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)

Tipo de tenencia Forman parte de una cooperativa


de tierra SI NO
Propietarios 52 68
Aparceros 25 65
Arrendatarios 43 107
¿Cuál es la H0 a contrastar? Usando un estadístico χ y un nivel de significación del 5%, ¿se rechaza H0?
2

Dar conclusiones.

08.- Se realizó un ensayo sobre el rendimiento de cultivares de papa utilizando diez parcelas con plantas
sanas y nueve con plantas enfermas por el mosaico deformante. El rendimiento promedio en plantas
sanas fue de 16.042 kg/ha con un desvío de 35,21 kg/ha y en plantas enfermas se obtuvo un promedio de
12.027 kg/ha y un desvío de 42,43 kg/ha. Estimar, con una confianza del 90%, la diferencia de los
rendimientos medios poblacionales. ¿En qué supuestos teóricos se basa para realizar esta estimación?

09.- Con el objeto de orientar su propaganda a fin de neutralizar el efecto de la competencia, una empresa
productora de artículos de consumo realizó una encuesta piloto sobre la preferencia del público a
personas de cada una de las cuatro regiones del país. Los resultados son los siguientes:

Zona
Preferencia Norte Sur Este Oeste
Empresa 35 22 28 33
Competencia 45 28 12 17
¿Es la preferencia del público la misma en las distintas zonas geográficas, al nivel del 5%?

10.- Se quiere comparar la eficiencia de dos test para detectar cierto tipo de enfermedad. Para ello se
seleccionaron 200 pacientes con esa enfermedad, a 100 de ellos se les aplicó el test 1 y a los otros 100 el
test 2. En el primer caso el test dio positivo en 65 pacientes y en el segundo en 83. Construir un intervalo
de 95% de confianza para la diferencia de proporciones poblacionales de positivos.

11.- Se hizo un cruzamiento de prueba entre un conejo de Viena y una hembra blanca Neocelandesa, se
obtuvieron las siguientes frecuencias genotípicas en la descendencia:
A Pelo negro, ojos rojos 108
B Pelo negro, ojos negros 46
C Pelo blanco, ojos negros 32
D Pelo blanco, ojos rojos 14
¿Se puede considerar que la segregación de la descendencia en este tipo cruzamiento sigue una
distribución 9:3:3:1 para A:B:C:D, respectivamente, con un nivel de significación del 5%?

12.- Una muestra de 150 compradores tomada en forma aleatoria en un comercio tenía un 96% de
mujeres y una muestra de 100 compradores tomada en el local de su mejor competidor resultó contener
88% de mujeres. Construir un intervalo de confianza del 90% para la diferencia de las proporciones de
compradores femeninos.

13.- Se hicieron análisis para determinar el porcentaje de gas amoníaco en un laboratorio durante 9 días
consecutivos mediante dos métodos diferentes. La composición del gas varía notablemente de un día
para otro. Los datos obtenidos son:

73
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)

Método A 14 37 35 43 34 36 48 33 33
Método B 18 37 38 36 47 38 57 28 42

Determinar si hay diferencias entre los dos métodos al nivel del 5%

14.- Se ha demostrado que un alto contenido de nitrato en la composición de los alimentos da origen a
numerosos efectos nocivos. En un experimento se tomaron 16 ratas al azar de una línea, las mismas
fueron alimentadas con una dieta estándar. A 9 de ellas, elegidas al azar, se les dio de beber agua con
2000 ppm de nitrato. Luego se midió la ganancia de peso y se expresó en porcentaje:

A 12,7 19,3 20,5 10,5 14,0 10,8 16,6 14,0 17,2


B 18,2 22,9 10,1 14,3 10,2 17,1 15,7

¿Se puede concluir que la dosis de nitrato disminuye la ganancia de peso de las ratas? Justifique
estadísticamente su respuesta (α= 0,05). ¿En qué supuestos se basa para realizar el test de hipótesis?

15.- Un Veterinario sabe, por archivo de datos históricos, que en su clínica durante el mes de diciembre
los casos se distribuyen así: infecciones 50%, vacunaciones 35%, cirugías 10% y otros 5%. Durante
diciembre de 2003 se encontró con las siguientes distribución de casos: infecciones 90, vacunaciones
80, cirugías 30 y otros 20. Con un nivel de significación de 5%, ¿cree Ud. que estos datos confirman la
distribución histórica de los casos en la población durante el mes de Diciembre?

16.- Un tambero con 279 vacas en ordeñe probó un nuevo producto para prevenir problemas de
pezones. Para esto, el veterinario asignó al azar 139 vacas al producto nuevo y 140 al usado
anteriormente. Luego de las lactancias de estas vacas se comprobó que 31 de las últimas presentaron
problemas de pezones, mientras que sólo 17 de las primeras dichos presentaron problemas. ¿Qué
puede concluir con respecto a la distribución de los problemas de pezón entre estos dos tratamientos?
Concluya con un nivel de significación del 5%. Si deseara saber cual de estos dos tratamientos es
mejor, ¿qué le diría al tambero? ¿En qué basaría su respuesta?

17.- En un experimento que incluye un cruzamiento entre dos variedades de porotos (Phaseolus vulgaris),
se obtuvieron los siguientes resultados:
Fenotipos Frecuencias

Púrpura 103
Rojo 46
Ante 40
Testáceo 12
¿Cree que estos resultados, con un nivel de significación del 5%, soportan el modelo genético 9:3:3:1?
Justifique estadísticamente su respuesta.

18.- Se estudió la influencia de un nuevo fertilizante sobre el rendimiento de una oleaginosa. Como se
desea estudiar el comportamiento del fertilizante bajo distintas condiciones climáticas, se eligieron 8
estaciones experimentales ubicadas estratégicamente en una región y en cada estación se tomó una
parcela. En una mitad, elegida aleatoriamente, se adicionó fertilizante y la otra mitad de la parcela no
recibió fertilizante.
Se han obtenido los siguientes resultados expresados en kg de producción por ha:

Estación número: 1 2 3 4 5 6 7 8
Con fertilizante 810 540 930 690 710 720 840 740
Control 610 405 805 560 570 620 730 620
En función del costo del fertilizante, los productores no estarían dispuestos a invertir en fertilizante si el
74
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)

aumento debido al uso es de a lo sumo 140 kg/ha. ¿Con un nivel de significación del 10%, cree que los
productores invertirán en fertilizante?

19.- Los siguientes datos indican el aumento de peso, en g, de 20 ratas elegidas al azar de las cuales la
mitad recibió proteína de maní crudo y la otra mitad de maní tostado. Probar si el tostado del maní ha
tenido efecto sobre su valor proteico (α=0,05). Suponga homogeneidad de varianzas, y tenga presente
que se sospecha que el tostado aumenta el valor proteico del maní, y que, obviamente, a mayor nivel
proteico mayor aumento de peso.

Crudo 61 61 56 63 56 63 59 56 44 61

Tostado 55 54 47 59 51 61 57 54 62 58

20.- La desviación estándar de la concentración de sodio en la sangre de una muestra de 10 anguilas


marinas, tomada al azar, fue de 40,5 mg%; mientras que para una muestra de 10 anguilas de agua dulce,
también tomada al azar, resultó 32,1 mg%. ¿Se puede concluir estadísticamente que la varianza de la
concentración de sodio en las anguilas marinas es superior a la de agua dulce? (α=0,01). ¿En qué
supuestos se debe basar para realizar la prueba de hipótesis sugerida?

21.- Un grupo de investigación estudia la relación entre el tipo de sangre y el grado de cierta afección en
una población. Se toma una muestra aleatoria de 1200 individuos, y se los clasifica según grado de
afección y tipo de sangre en la siguiente tabla de contingencia:

TIPO DE SANGRE
GRADOS DE A B AB 0
AFECCIÓN
Ninguno 243 211 90 476
Leve 44 22 8 31
Severo 28 9 7 31
Los investigadores desean saber si estos datos sustentan la hipótesis de que el grado de afección y el tipo
de sangre son independientes en la población al nivel del 1%.

22.- Con el fin de probar si un tratamiento especial sobre tubos de ensayo modifica la resistencia al calor,
se realizó un pequeño experimento. De un lote de tubos se tomaron dos muestras y a una se le aplicó el
tratamiento. Luego fueron probados y registradas las resistencias al calor, obteniéndose:
NO TRATADOS TRATADOS
X = 81,4 X = 91,8
S² = 37,3 S² = 40,7
n = 15 n = 15
Estimar la diferencia entre las medias poblacionales de los tubos tratados y no tratados mediante un
intervalo de confianza del 95%. ¿Qué supuestos debe realizar para la estimación anterior?

23.- En un experimento se cruzaron conejos gigantes polacos y conejos flamencos en dos criaderos
obteniéndose 10 conejos de esa cruza en el criadero 1, y 61 en el criadero 2. Los siguientes datos
corresponden a longitudes del fémur (en mm) de los conejos resultantes de la cruza.

n X S
Criadero 1 10 83,30 1,65
Criadero 2 61 80,50 3,81
¿Es significativamente mayor la varianza de las longitudes del fémur entre conejos del criadero 2 con
respecto a los del criadero 1? Justifique estadísticamente su respuesta (α = 0,05). ¿En qué supuestos se
basa para realizar la prueba de hipótesis?

24.- Dos establecimientos dedicados al cultivo de maíz híbrido siembran en quince parcelas diferentes,
obteniendo los siguientes rendimientos (en Kg/parcela):

75
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)

ESTABLECIMIENTO 1: 114 - 86 - 93 - 75 - 102 - 89 - 83 - 89 - 92 - 96 – 100 - 98 - 87 - 80 - 86


ESTABLECIMIENTO 2: 107 - 94 - 86 - 70 - 78 - 90 - 82 - 77 - 95 - 84 - 100 - 89 - 92 - 99 - 85

Construir un intervalo del 99% de confianza para el cociente de las varianzas de los rendimientos
de maíz híbrido entre los establecimientos. ¿En qué supuestos se basa para realizar el intervalo
de confianza?

25.- Dos tratamientos A y B fueron asignados al azar a cada uno de dos lotes de animales tomados
aleatoriamente de una población. La respuesta registrada fue el aumento de peso, en kg, durante el
2 2 2 2
período experimental. Datos: X A =1,57g ; X B =1,89g ; nA=11 ; nB=10 ; S A=0,15g ; S B=0,12g . Calcular un
intervalo de confianza para el cociente de las varianzas (A/B) de los tratamientos, con un coeficiente de
confianza del 95%. ¿Qué conclusiones puede extraer del experimento?

26.- En un área de 30 m x 10 m sembrada con plantas de una determinada especie, se observaron 296
plantas con flor y 987 sin flor. En otra área del mismo tamaño sembrada con 1000 plantas de la misma
especie se observaron sólo 200 con flor. ¿Puede suponerse a un nivel del 1% que la proporción de
plantas florecidas es la misma en ambas áreas?

27.- Se sabe que la alta presión sanguínea es un factor que aumenta el riesgo de padecer una
enfermedad coronaria. Para estudiar la relación entre las presiones sanguíneas de padres e hijos se
tomó una muestra aleatoria de 184 pares de padres e hijos. Se les midió la presión sanguínea y se los
ubicó en las categorías baja, media, y alta; los resultados se observan en la siguiente tabla.
Presión sanguínea de los hijos

Alta Media Baja


Alta 28 22 16
Presión
sanguínea de los Media 22 22 18
padres
Baja 12 20 24

¿Existe relación entre la presión de los padres con la de los hijos? Use un valor de α=0,05.

28.- Al finalizar un curso de asistencia no obligatoria, un profesor realizó la siguiente agrupación basada
en la aprobación o no del curso y la asistencia al mismo. Usando un α=0,05 a que conclusión puede
llegar.
Número de días Resultados del Curso
ausente Aprobado Reprobado
0-3 84 5
4-6 60 8
Más de 6 10 25
29.- Si las frecuencias esperadas de genotipos en una determinada experiencia de cruzamiento son
9:3:3:1 según una hipótesis del área de genética. ¿Cree que los siguientes datos: 190, 85, 80 y 35
soportan la hipótesis? Use un α=0,05.

30.- Una medicación nueva para tratar resfriados se comparó con la medicación de más uso. Para esto
se tomó al azar un grupo de 300 individuos que padecían resfriado; a la mitad de estos, tomados al
azar, se los trató con la nueva medicación y a los otros 150 con la medicación tradicional. La opinión de
los pacientes se resume a continuación.
Opinión de los pacientes
Tratamiento Empeoró Sin efecto Mejoró Totales
Nuevo 16 30 104 150
Tradicional 20 42 88 150
Totales 36 72 192 300
76
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)

¿Considera que estos medicamentos se comportan de manera similar, use un α=0,05?

31.- Se consideró una muestra de 97 niños escolarizados de 10 años que fueron clasificados según las
siguientes variables: La Conducta en Clase, que fue clasificada por los maestros en Buena (B) y No
Buena (NB) y la Adversidad Escolar en baja (b), media (m) o alta (a).

Adversidad Escolar
b m a
Conducta B 20 49 8
en clase
NB 5 11 4
Indicar:
a. Posible Hipótesis de trabajo: .................................................................................................
...................................................................................................................................................
b. Hipótesis estadística: .............................................................................................................
c. Fórmula y reemplazo para obtener el valor esperado de la celda (2;1).
Fórmula Reemplazo numérico Resultado

d. Si se trabaja a un nivel del 5% la decisión es ...............................................................................

32.- Con el fin de comparar la efectividad de tres fármacos se seleccionaron al azar doce peces con
cierta infección viral de una población, y se los dividió aleatoriamente en tres grupos, a cada grupo se
lo medicó con un fármaco diferente y se midió la carga viral al principio y al final del tratamiento para
cada animal.
Responder:
a- La unidad experimental es ...................................................................................................
b- Los tratamientos son ...........................................................................................................
c- La observación es ................................................................................................................
d- El objetivo del trabajo es .....................................................................................................
...................................................................................................................................................

33.- Se realiza un experimento para comparar la absorción media de garrapaticida por unidad de tejido
muscular, registrándose la concentración sanguínea del principio activo. Para ello se seleccionan al
azar dieciséis perros y se los subdivide en cuatro grupos aleatoriamente. A cada uno de los subgrupos
se le asigna un producto diferente: A, B, C y D.
Responder:
a- La unidad experimental es ..................................................................................................
b- Los tratamientos son ..........................................................................................................
c- La observación es ...............................................................................................................
d- El objetivo del trabajo es ....................................................................................................
..................................................................................................................................................

34.- La columnista Ann Landers se preguntó si tener hijos valía la pena considerando los problemas
que acarrean. Le preguntó a los lectores: “Si pudiera volver a empezar, ¿valdría la pena tener hijos?”
Unas semanas después el titular de su columna era: “El 70% de los padres afirman que tener hijos no
vale la pena”, ya que el 70% de los padres norteamericanos que le escribió opinaron que si pudieran
volver a elegir no tendrían hijos. ¿Es esta conclusión válida? Justificar.
......................................................................................................................................................................
......................................................................................................................................................................
......................................................................................................................................................................

77
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)

35.- Con el objeto de medir el efecto del ejercicio en enfermedades coronarias, un grupo de investiga-
dores decidió comparar el índice de enfermedad en dos grandes grupos de personas que trabajan en
los colectivos de Buenos Aires: choferes e inspectores. Los inspectores realizan más ejercicio, ya que
su actividad requiere que estén caminando gran parte del día, mientras que la tarea de los choferes es
más sedentaria. Se consideraron aquellas personas que vinieran realizando el mismo trabajo durante
los últimos 8 años y además la distribución de las edades en ambos grupos es similar. Se observó que
el índice de enfermedades coronarias entre los conductores era sustancialmente mayor.
a) Este experimento ¿es observacional o experimental? Justificar.
......................................................................................................................................................................
......................................................................................................................................................................
......................................................................................................................................................................
b) ¿Por qué cree usted que los investigadores le dan importancia a la distribución de las edades?
......................................................................................................................................................................
......................................................................................................................................................................
.....................................................................................................................................................................
c) ¿Cree que puede haber efectos confundidos no mencionados en el experimento que expliquen el
resultado obtenido?
......................................................................................................................................................................
......................................................................................................................................................................
......................................................................................................................................................................

36.- Los registros de 3000 historias clínicas muestran que los fumadores están más propensos a de-
primirse que los no fumadores.
a) ¿De qué tipo de estudio se trata? .........................................................................................
b) ¿Considera que están controlados todos los factores? .........................................................

37.- Estudios realizados en el período 1850-1900 en Estados Unidos, muestran que el promedio de
duración de los matrimonios era de 12 años.
a) ¿De qué tipo de estudio se trata? .........................................................................................

b) Mencione posibles factores de confusión.


.........................................................................................................................................................
c) Usted está interesado en diseñar un experimento para analizar el mismo objetivo, ¿qué factores
tendría en cuenta?
......................................................................................................................................................................
................................................................................................................................
d) ¿Muestran estas observaciones que la proporción de divorcios era alta en ese periodo?
...................................................................................................................................................

38.- La flebitis es una inflamación de las venas que altera el equilibrio hemodinámico en el individuo que
la padece, que generalmente presenta otros signos cardiológicos. Se puede producir por causas natu-
rales o artificiales como, por ejemplo, la aplicación endovenosa de ciertas drogas, ya sea por la droga
en sí misma (principio activo), o por el excipiente (vehículo).
El problema de detectar la aparición de flebitis es de particular importancia para los investigadores,
ya que se pueden prevenir complicaciones cardíacas.
Este estudio se diseñó con la finalidad primordial de buscar mecanismos para la detección temprana
de la misma. Para ello se trabajó con conejos del bioterio y se eligió como droga a la amiodarona (anti-
arrítmico), para ser aplicada por vía endovenosa, ya que como efecto colateral se observa la aparición
de flebitis en el lugar de la aplicación.
Se sospecha que un aumento en la temperatura de los tejidos cercanos al lugar de la administración
intravenosa serían señal de una inflamación inminente.
Se administraron tres tratamientos intravenosos en conejos. Estos fueron:
78
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)

 amiodarona en una solución excipiente


 sólo una solución excipiente
 una solución salina (control)
Los conejos utilizados como animales de prueba se asignaron al azar a los tres grupos de tratamien-
tos y se les insertó una aguja en la vena de una de las orejas, por donde les fueron suministradas las
soluciones.
Un incremento en la temperatura de la oreja tratada se consideró como posible indicador temprano
de flebitis. La diferencia en la temperatura de las orejas (tratada menos no tratada) se usó como varia-
ble respuesta.
El incremento medio estimado en la temperatura de las orejas de conejos tratados con amiodarona
más excipiente fue de 1,20ºC, que es un valor con significado clínico, mientras que las estimaciones
medias respectivas para las soluciones excipiente y salina fueron de 0,13ºC y 0,000ºC, que no son
significativas en el sentido clínico.
Si la amiodarona incrementa la temperatura más que la solución excipiente, entonces se presumi-
ría que contribuye a la inflamación de los tejidos. De la misma manera, la comparación de la solución
excipiente con la salina proporcionaría información sobre la contribución del excipiente a la inflamación
de los tejidos.
Identificar en este diseño:
a) ¿Cuál es la variable respuesta a analizar? .............................................................................
...................................................................................................................................................
b) ¿Qué factores se controlaron mediante el diseño experimental? ..........................................
...................................................................................................................................................
c) ¿Qué hipótesis se planteó el investigador? ...........................................................................
...................................................................................................................................................
d) ¿Qué conclusiones podrían resultar del experimento? .........................................................
...................................................................................................................................................
e) ¿Considera que se han respetado los principios básicos del diseño experimental (repetición, aleato-
rización y control local)? ..........................................................................................

39.- La vida útil de las carnes refrigeradas sin cocción es el tiempo en que un corte previamente empa-
quetado es sano, nutritivo y vendible. Un paquete de estos expuesto al aire ambiental tiene una vida útil
aproximada de 48 hs, después de la cual la carne comienza a deteriorarse por contaminación de mi-
crobios, degradación del color y encogimiento. El empaque al vacío es efectivo para suprimir el desa-
rrollo de microbios; sin embargo, continúan siendo un problema los otros aspectos.
Algunos estudios recientes sugieren las atmósferas controladas de gas, como alternativa a los
empaques actuales. Dos atmósferas que prometen combinar la capacidad de suprimir el desarrollo de
microbios con la conservación de las cualidades de la carne son:
1) dióxido de carbono puro (CO2) y
2) mezclas de monóxido de carbono(CO), oxígeno (O2) y nitrógeno (N2).
Se cree que alguna forma de atmósfera controlada proporcionará un entorno más efectivo de em-
paque para el almacenamiento de carne.
En base a las siguientes preguntas previas:
a. Para reducir el desarrollo de bacterias, ¿es más efectiva la creación de una atmósfera
artificial que el aire ambiental del empaque comercial?
b. ¿Son más efectivos los gases que el vacío total?
c. ¿Es más efectivo el CO2 que una mezcla de CO, O2 y N2?
El investigador diseña un experimento a fin de responderlas, incluyendo carne envasada, con un em-
paque comercial de plástico, con:
1) aire del ambiente
2) al vacío
3) una mezcla de gases con 1% de CO, 40% de O2 y 59% de N2
4) 100% de CO2
79
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)

Los empaques con aire del ambiente y al vacío sirven como tratamientos de control, ya que ambos
son estándares, con cuya efectividad se puede comparar la de los nuevos empaques.
A cada conjunto de empaque se le asignaron al azar tres cortes del mismo tamaño (75 g). Cada
corte se empacó por separado en las condiciones asignadas.
Se desea, en este caso, estudiar la efectividad de cada tratamiento para suprimir el desarrollo bac-
terial. Después de nueve días de almacenamiento a 4ºC en una instalación normal, se midió el número
de bacterias sicotrópicas en la carne. Las bacterias sicotrópicas se encuentran en la superficie de la
carne y se asocian con el deterioro de la carne.
Se pide:
a) Señalar el tratamiento o factor que se analiza con sus niveles.
......................................................................................................................................................................
................................................................................................................................
b) La hipótesis del investigador es: ..........................................................................................
......................................................................................................................................................................
................................................................................................................................
c) Explicar si es un diseño experimental o cuasiexperimental, justificando adecuadamente.
......................................................................................................................................................................
................................................................................................................................
d) ¿Cuáles podrían ser las conclusiones de este experimento?
.............................................................................................................................................................................
.....................................................................................................................................
40.- En un estudio se analiza la hipótesis de que el ancho del escudo, o placa dorsal, medida en µm, de
ninfas de garrapata del conejo, Haemaphysalis leporispalustris, es mayor en regiones cálidas que en tem-
pladas. Para poner a prueba esta suposición se toma una muestra aleatoria de 10 conejos infestados por
la garrapata que pertenecen a granjas de clima cálido (Región 1), y lo mismo se hace en granjas de clima
templado (Región 2), seleccionándose, también 10 conejos infestados. Los datos obtenidos son:
Boxplot
Región 1 Región 2
300,00
225 220
220 190
250,00
240 250
145 80
200,00
Ancho

260 100
255 95 150,00
270 200
185 215 100,00
130 225
165 198 50,00
1 2
Región

Shapiro-Wilks (modificado)
Región Variable n Media D.E. W* p (una cola)
1 Ancho 10 209,50 50,14 0,89 0,2657
2 Ancho 10 177,30 61,58 0,81 0,0290

Prueba de Wilcoxon para muestras independientes (Mann Whitney)


Desvío es- Media del
Grupos Media Mediana Estadístico p-valor
tándar rango
Región 1 209,50 50,14 222,50 12,20
122,00 0,1984
Región 2 117,30 61,58 199,00 8,80

Realizar la prueba de interés al 10%.

80
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)

41.- En un estudio farmacológico se compararon los tiempos de recuperación, en días, de pacientes


que fueron tratados con un principio activo, y los tiempos de recuperación de los que fueron considera-
dos como grupo control, a los que se les aplicó un placebo. Para el primer grupo se seleccionaron alea-
toriamente 20 pacientes que recibieron el principio activo. El segundo grupo, formado por 20 pacientes,
también seleccionados de manera aleatoria, recibió un placebo. ¿Se puede suponer, al 5%, que los
tiempos de recuperación son diferentes?

Shapiro-Wilks (modificado)
Variable n Media D.E. W* p (una cola)
Principio activo 20 10.864 2.162543 0.964 0.6262
Placebo 20 12.300 3.537248 0.9697 0.7482
Al realizar la Prueba de homogeneidad de varianzas se obtuvo que F=0.3738, p-valor=0.0378

UNIDADES TEMÁTICAS 3, 4 y 5
01.- Se midió la producción de leche y el porcentaje de grasa en la misma, en 8 vacas elegidas al azar:

Producción (kg) 18 10 11 12 12 19 15 14
Grasa (%) 5,2 6,0 5,8 5,7 5,4 5,1 5,4 5,3

¿Puede afirmarse que la producción de leche y el porcentaje de grasa están correlacionados? Justificar la
respuesta con α = 0,05, suponiendo que las variables se distribuyen normalmente.

02.- Los siguientes valores corresponden a la edad (ei, en semanas) y la concentración de cierto mineral
encontrado en el tejido (ci, en ppm), en 10 animales.
c1 70 49 41 64 34 25 26 24 14 19
e1 82 85 83 64 82 53 26 47 37 49
Shapiro-Wilks (modificado)
Variable n Media D.E. W* p (una cola)
concent 10 36.60 19.07 0.89 0.2537
peso 10 60.80 21.49 0.86 0.1320
De acuerdo con los resultados anteriores, plantear al 5% y resolver el análisis de correlación que
considere adecuado

03.- Se desea estudiar la relación entre el tiempo (ti) después de administrar 5 mg de xilocaína (anestesia
local) por kilo de peso vivo, medido en minutos, y la presión venosa (pi), en mm de mercurio, en una
muestra de 9 perros. Para ello se fijaron (determinaron) los tiempos y se observó la presión venosa.

ti 0 10 20 30 40 50 60 70 80
pi 9,41 9,07 8,81 8,40 7,93 7,38 7,36 7,21 7,01

¿Qué porcentaje de la variación total de la presión venosa es explicada por el tiempo transcurrido después
de aplicar la anestesia local?
Fórmula Reemplazo Resultado

Interpretación:..................................................................................................................................
.........................................................................................................................................................

04.- Los siguientes datos corresponden al peso branquial (bi, en mg) y al peso corporal (ci, en g), en una
muestra de 8 individuos de la población de cangrejos de mar Pachygrapsus crassipes:
81
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)

bi 159 179 100 384 230 320 220 210


ci 14,4 15,2 11,3 22,7 14,9 15,8 15,4 9,5

Probar la hipótesis de que los pesos branquial y corporal están asociados, sabiendo que ambas variables
tiene distribución normal. Justificar estadísticamente la respuesta (α = 0,01).

05.- Un estudio realizado sobre dos tipos distintos de bacterias produjo la siguiente información:
Cultivo A Cultivo B
Ŷ= 200 + 0,8 x Ŷ= 50 + 1,2 x
2
R = 0,49 R² = 0,81
donde Y es el número de colonias cada 0,1 ml y X es la cantidad de nutrientes en el caldo de cultivo,
medidos en moles/litro.
a) ¿Cuál de los dos tipos de bacteria aumenta más por incremento de la cantidad de nutrientes
introducido? Fundamentar brevemente la respuesta.
b) ¿Le resulta útil para obtener alguna conclusión el cálculo de los respectivos coeficientes de
determinación? ¿Qué indican en este caso?

06.- Diez nuevas pinturas fueron puestas en exhibición, y dos expertos en arte las ordenaron de mejor
a peor según sus criterios. ¿Existe asociación entre los puntos de vista de estos dos expertos? Use un
alfa de 0,05.
Pintura 1 2 3 4 5 6 7 8 9 10
Experto 1 4 1 9 5 2 10 7 3 6 8
Experto 2 5 2 10 6 1 9 7 3 4 8
07.- La siguiente tabla muestra el número de bacterias (bi) presentes en un cultivo después de un cierto
número controlado de horas (ti):

ti 1 2 3 4 5 6 7 8 9 10
bi 35 40 41 47 54 62 63 70 72 78
Estimar puntualmente y con un nivel de confianza del 95%, el aumento de bacterias en función del tiempo.
a) Estimación puntual
Fórmula Reemplazo Resultado

Interpretación : ................................................................................................................................

b) Estimación con un nivel del 95%


Fórmula Reemplazo Resultado

LI

LS

Interpretación : ................................................................................................................................
.........................................................................................................................................................
.........................................................................................................................................................
82
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)

08.- Para estudiar la influencia de la temperatura (ti, en °C) en el ritmo cardíaco (ri, en latidos/min), en
sapos, se observaron 10 animales sometidos a temperaturas determinadas, obteniéndose los siguientes
resultados:

ti 2 4 6 8 10 12 14 16 18 20
ri 5 6 11 14 22 30 32 30 32 30

a) Representar gráficamente.
b) Estimar e interpretar la recta de regresión.
c) Indicar los supuestos necesarios, en este caso, para poder inferir a la población
d) Analizar a un nivel del 5%, si los latidos aumentan significativamente con la temperatura, planteando:
Hipótesis estadísticas ..............................................................................................................................
Región crítica ..........................................................................................................................................
Valor calculado del estadístico de prueba .................................................................................................
Decisión .................................................................................................................................................
Interpretación biológica del parámetro en estudio ....................................................................................
..............................................................................................................................................................
Población ..............................................................................................................................................

09.- Se toma una muestra aleatoria de tamaño n = 17 y se calcula el coeficiente de correlación muestral
r =0,75. ¿Es significativo al 5%? ¿En qué supuestos se basa?

10.- Los siguientes datos corresponden al tiempo de la caída del cordón umbilical (Ci, en días), con
respecto al aumento de peso del lactante (Ai, en g):

Ai 510 400 600 550 660 480 575 700 780


Ci 13 17 10 12 8 15 11 6 7
¿Podría afirmar, a un nivel del 5%, que ambas variables están correlacionadas? Las variables tienen
distribución normal. Plantear:
Hipótesis estadísticas...............................................................................................................................
Valor calculado de la variable pivotal: .......................................................................................................
Decisión .................................................................................................................................................

11.- Para estudiar la relación entre la edad y presión sanguínea entre bovinos, se seleccionaron 40
animales de distintas edades. Se les midió la presión sanguínea, obteniéndose los siguientes resultados:
X = edad en meses Y = presión sanguínea
ΣX = 2000; ΣY = 480; ΣX² = 104000; ΣXY = 24400; S²e = 1000
a) Definir en forma completa las variables en estudio
b) Indicar el modelo propuesto e interpretar los coeficientes
c) Estimar el modelo e interpretar lo obtenido.
d) ¿Hay evidencia estadística suficiente para decir que la edad influye sobre la presión sanguínea?
(α=0,01).

12.- Para estudiar la relación entre el número de cigarrillos fumado por día durante el embarazo y el
peso del recién nacido se tomó una muestra al azar de 15 madres que fumaron durante el embarazo.
Los datos se muestran a continuación:

83
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)

Madre 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Cigarrillos/día 12 15 35 21 20 17 19 46 20 25 39 25 30 27 29
Peso al Nacer (Kg) 3,5 3,7 3,1 3,7 3,9 3,8 4,3 2,9 3,8 2,4 2,7 3,6 3,6 2,8 3,4

Usando un alfa de 5%, responda:


Hipótesis estadísticas.........................................................................................................................
Regla de decisión...............................................................................................................................
Población en estudio..........................................................................................................................

13.- Los siguientes datos corresponden al peso de la cresta (X2) y al peso del cuerpo (X1) de 10 pollos
parrilleros:
ΣX1 = 740 ; ΣX2 = 544; ΣX1² = 61790 ; ΣX2² = 39718; ΣX1 X2 = 42062
¿Puede afirmar, a un nivel del 5% que el peso de la cresta está asociado al peso del cuerpo? Las
variables se distribuyen normalmente.

14.- Los datos de la siguiente tabla corresponden a la edad (ei, en meses), prefijada por el investigador, y
a la concentración de hemoglobina en sangre (hi, en %), de un grupo de perros normales:

ei 10 11 12 13 14 15 16 17 18 19
hi 93 96 98 100 103 110 111 115 117 120

a.- Dibujar el diagrama de dispersión.


b.- Estimar e interpretar la función que mejor ajuste los datos.
c.- Se pusieron a prueba las hipótesis estadísticas H0: β = 0 versus H1: β ≠ 0
c1) La hipótesis de trabajo correspondiente es ...................................................................................
............................................................................................................................................................
c2) La región crítica es (α=0,05) .....................................................................................................
c3) La decisión es ............................................................................................................................
c4) El parámetro en estudio es ........................................................................................................
c5) La población es ................................................................................................. .......................

15.- En un laboratorio se realizó un estudio para analizar si la tasa de conversión alimenticia está
relacionada con el peso de los animales. Se seleccionaron al azar 6 pollos de pesos determinados
obteniéndose los siguientes datos:

Peso 35 40 45 50 55 60
Tasa Conversión 3,8 3,4 3,2 2,8 2,5 2,2

Datos: Σpi = 285; Σpi = 13975; Σti = 17,9; Σti = 55,17; Σpiti = 822,5
2 2

a) Establecer la relación funcional entre las variables.


b) Obtener un intervalo de confianza del 95% para la tasa de conversión media esperada
correspondiente a un peso de 42 g. Interpretar en términos del problema.

16.- A continuación se dan el peso, en kg, y el diámetro torácico, en cm, de 10 perros de una determinada
raza a los 10 meses de edad. Estos datos corresponden a un estudio en el que se quiere probar si existe
asociación entre estas variables.

84
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)

Peso (p) 23,0 22,7 21,2 21,5 17,0 28,4 19,0 14,5 19,0 19,5
Diámetro (d) 22,0 21,5 20,5 20,0 21,0 25,0 21,0 20,0 19,0 19,0

Shapiro-Wilks (modificado)
Variable n Media D.E. W* p (una cola)
Peso 10 20,58 3,78 0,97 0,9373
Diámetro 10 20,90 1,74 0,88 0,2174
a) Efectuar el gráfico correspondiente.
b) Realizar el análisis estadístico que considere adecuado respecto de la información suministrada
(α=0,01).
c) Concluir.

17.- A un químico le interesa encontrar un método rápido de determinación del contenido de


alfa-resina en el lúpulo. Para ello realiza un experimento que evidencia la relación funcional existente entre
las lecturas de un colorímetro (L), para ciertas cubetas tipo, y sus respectivas concentraciones conocidas
de alfa-resina (C). Los datos obtenidos fueron:
L 8 50 81 102 140 181 199 223 254
C 0,20 0,71 1,09 1,38 1,95 2,50 2,78 3,08 3,57
¿Qué conclusiones podría extraer acerca de la relación mencionada? (α = 0,05)
3
18.- Se ha determinado el volumen de plasma (V), en cm , y la cantidad de albúmina circulante (A), en g,
de 8 hombres normales. Estas determinaciones se dan a continuación:
V 2,5 2,8 2,4 2,5 3,2 2,9 3,6 3,14
A 119 133 123 129 146 146 182 145

¿Hay evidencia de alguna relación entre albúmina circulante y volumen de plasma? Justifique
estadísticamente su respuesta, planteando Hipótesis estadística, valor calculado de la variable pivotal,
decisión y población en estudio. (α = 0,01). Las variables se distribuyen normalmente.

19.- Una gran empresa quiere determinar si existe una relación negativa entre las horas perdidas por
empleado por año y la ganancia anual por empleado. Una muestra aleatoria de 16 empleados se
expone a continuación:
Empleado 1 2 3 4 5 6 7 8
Horas de Trabajo Perdidas 49 36 127 91 72 34 155 11
Ganancia Anual (en 1000$) 15,8 17,5 11,3 13,2 13,0 14,5 11,8 20,2

Empleado 9 10 11 12 13 14 15 16
Horas de Trabajo Perdidas 191 6 63 79 43 57 82 24
Ganancia Anual (en 1000$) 10,8 18,8 13,8 12,7 15,1 24,2 13,9 15,1

Shapiro-Wilks (modificado)
Variable n Media D.E. W* p (una cola)
h 16 70.00 51.20 0.90 0.2020
g 16 15.11 3.56 0.90 0.1618
¿Cree Ud., usando un alfa del 1%, que la empresa tiene razón?

85
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)

20.- Para el estudio del crecimiento del hongo de la papa se inocularon tubos con medio de cultivo. El
crecimiento (C), en mm, se midió en determinados tiempos (T), en días, fijados por el experimentador. Se
obtuvieron los siguientes resultados:
T 2 3 5 7 9 10 12 13 15 17
C 10 15 27 35 42 50 51 66 68 72

a.- Graficar e interpretar los datos.


b.- Establecer la relación funcional entre el crecimiento y el tiempo.
c.- ¿Es significativo el crecimiento diario a nivel del 5%?

21.- Una compañía de productos químicos desea estudiar los efectos que tiene el tiempo (t), en minutos,
en la eficiencia de una operación de extracción (e), en %, obteniendo los datos que aparecen en la
siguiente tabla:
ei 19 19 15 27 35 45 31 39 49 41
ti 46 52 57 59 62 64 68 72 77 80

Datos: Σei = 320; Σei = 11490; Σti = 637; Σeiti = 21329; Σti = 41627
2 2

a) Estimar la ecuación de regresión lineal y graficar.


b) Estimar la eficiencia media de extracción que puede esperarse cuando el tiempo de extracción es de 50
minutos, con una confianza del 99%

22.- Para estudiar si existe relación funcional entre la estatura (E, en cm) y la longitud del radio (L, en
cm), en jóvenes varones con edades entre 12 y 18 años, se tomó una muestra de 12 de ellos, tomando
valores determinados de estatura y observando la longitud del radio. Los valores correspondientes se
ordenaron en la siguiente tabla:

E 149,0 152,0 155,7 159,0 163,3 166,0 169,0 172,0 174,5 176,1 176,5 179,0
L 21,0 21,79 22,4 23,0 23,7 24,3 24,92 25,5 25,8 26,01 26,15 26,3

a.- Estimar la relación funcional existente entre ambas variables.


b.- Completar los datos de la tabla de ADEVA y realizar la dócima de interés, con un nivel del 5%.
c.- Utilizando la tabla de ADEVA, calcular el coeficiente de determinación e interpretar el resultado.
FUENTE DE
G.L. SC CM F P
VARIACION
REGRESION 37,05 < 0,0001
RESIDUAL 0,018
TOTAL 11 37,23

Coeficientes de regresión y estadísticos asociados


Coef Est. EE LI(95%) LS(95%) T p-valor
const -5.61 0.66 -7.07 -4.15 -8.55 <0.0001
E 0.18 3.9E-03 0.17 0.19 45.58 <0.0001

23.- En un estudio se sospecha que la cantidad de folículos ovulados (fi) está asociado positivamente
con la cantidad de huevos puestos (hi), por las hembras de faisán de cuello anidado. En la siguiente
tabla se presentan los datos obtenidos de 10 hembras cautivas:

hi 39 29 46 28 31 25 49 57 51 21
fi 37 34 52 26 32 25 55 65 44 25

Calcular el coeficiente de correlación de Spearman. Poner a prueba la hipótesis de los investigadores al


nivel del 5%.

86
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)

24.- Como parte de un estudio acerca del efecto de las presiones del grupo sobre un individuo con
respecto a una situación que involucraba riesgo monetario, los investigadores asignaron una escala
para medir el autoritarismo (ai) y otra para medir el esfuerzo por alcanzar posición social (pi), en cada
uno de 6 estudiantes universitarios. Se buscaba información acerca de la correlación entre los puntajes
de autoritarismo y los del esfuerzo por alcanzar posición social:

ai 82 98 87 40 116 113
pi 42 46 39 37 65 88

Indicar si existe correlación significativa entre las variables al 5%.

25.- Para realizar un experimento sobre engorde intensivo de novillos una estación experimental somete a
24 novillos cruza de la misma edad al siguiente experimento: los individuos son asignados aleatoriamente
a 3 grupos (1, 2 y 3) y antes de llevarlos a la pastura son inoculados con tres dosis de un novedoso anabó-
lico no esteroide. Luego de 45 días se pesan los animales obteniendo para cada uno de ellos el aumento
promedio diario de peso (en kg). Los resultados son los siguientes:

Grupo 1 Grupo 2 Grupo 3


0,4 0,7 0,7
0,5 0,7 0,8
0,4 0,8 0,8
0,2 0,6 0,9
0,4 0,5 0,6
0,6 0,7 0,8
0,5 0,7 0,6
0,5 0,7 0,7

Estadística descriptiva
Dosis Variable n Media D.E. Mín Máx Mediana
1 AumPeso 8 0,44 0,12 0,20 0,60 0,45
2 AumPeso 8 0,68 0,09 0,50 0,80 0,70
3 AumPeso 8 0,74 0,11 0,60 0,90 0,75

A partir de los gráficos y las salidas correspondientes, responda los siguientes ítems:
a) Verificar si se cumplen los supuestos para un DCA modelo fijo (concluya u opine para cada supues-
to)
Normalidad .......................................................................................................................................
Homoscedasticidad ...........................................................................................................................

b) Teniendo en cuenta lo anterior y que el nivel es del 5%


La salida elegida es ...........................................................................................................................
Las hipótesis planteadas son: ............................................................................................................
c) Decidir y concluir.

SALIDAS Y GRAFICOS OBTENIDOS POR COMPUTADORA:

Tabla 1
Shapiro-Wilks (modificado)
Variable n Media D.E. W* p (una cola)
RDUO_AumPeso 24 0,00 0,10 0,93 0,2558

87
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)

Tabla 2
Análisis de la varianza – Test de Levene
Variable N R² R² Aj CV
abs dif 24 0,07 0,00 90,85

Cuadro de Análisis de la Varianza (SC tipo III)


F.V. SC gl CM F p-valor
Modelo 0,01 2 3,8E-03 0,81 0,4593
Dosis 0,01 2 3,8E-03 0,81 0,4593
Error 0,10 21 4,6E-03
Total 0,11 23
Tabla 3
Análisis de la varianza
Variable N R² R² Aj CV
AumPeso 24 0,63 0,60 17,06

Cuadro de Análisis de la Varianza (SC tipo III)


F.V. SC gl CM F p-valor
Modelo 0,40 2 0,20 18,10 <0,0001
Dosis 0,40 2 0,20 18,10 <0,0001
Error 0,23 21 0,01
Total 0,63 23
Tabla 4
Prueba de Kruskal Wallis
Variable Dosis N Medias D.E. Medianas H p
AumPeso 1 8 0,44 0,12 0,45 14,16 0,0006
AumPeso 2 8 0,68 0,09 0,70
AumPeso 3 8 0,74 0,11 0,75

QQ-plot
Gráfico de densidad de puntos
2,04
0,94
Cuantiles observados(RE_Peso)

0,91
0,74
AumPeso

-0,22
0,55

-1,35
0,36

-2,47
-2,47 -1,35 -0,22 0,91 2,04 0,17
1 2 3
Cuantiles de una Normal(1,0547E-015,1,0957)
Dosis

26.- En un estudio realizado sobre pacientes hipertensos con el propósito de investigar la relación del
nivel de presión arterial tomado como la presión media en un determinado período (Y, medida en mm
de Hg) con la edad (X1, en años) y el peso (X2, en kg), se obtuvieron datos de una muestra aleatoria de
20 pacientes.

88
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)

Y X1 X2 Y X1 X2
105 47 85,4 114 47 94,4
115 49 94,.2 115 49 94,1
116 49 95,3 114 50 91,6
117 50 94,7 106 45 87,1
112 51 89,4 125 52 101,3
121 48 99,5 114 46 94,5
121 49 99,8 106 46 87,0
110 47 90,9 113 46 94,5
110 49 89,2 110 48 90,5
114 48 92,7 122 56 95,7

Estimar la ecuación de regresión múltiple, analizar la significación de la regresión al nivel del 1%, y el
ajuste.
Análisis de regresión lineal
Variable N R² R² Aj ECMP
Y 20 0.99 0.99 0.37
Coeficientes de regresión y estadísticos asociados
Coef Est. EE LI(95%) LS(95%) T p-valor
const -16.58 3.01 -22.92 -10.23 -5.51 <0.0001
X1 0.71 0.05 0.60 0.82 13.23 <0.0001
X2 1.03 0.03 0.97 1.10 33.15 <0.0001
Cuadro de Análisis de la Varianza (SC tipo III)
F.V. SC gl CM F p-valor
Modelo 555.18 2 277.59 978.25 <0.0001
X1 49.70 1 49.70 175.16 <0.0001
X2 311.91 1 311.91 1099.20 <0.0001
Error 4.82 17 0.28
Total 560.00 19

27.- En un estudio realizado en niños sobre la relación entre la excreción de creatinina (en mg/día,
tomada como variable dependiente), el peso (en kg) y la estatura (en cm), se obtuvieron 20 datos de
niños del sexo masculino.
Y Peso Estatura Y Peso Estatura
100 9 72 86 7 64
115 10 76 80 7 66
52 6 59 65 6 61
85 8 68 95 8 66
135 10 60 25 5 57
58 5 58 125 11 81
90 8 70 40 5 59
60 7 65 95 9 71
45 4 54 70 6 72
125 11 83 120 10 75
a.- Estimar la ecuación de regresión múltiple que describe la relación entre estas variables
b.- Analizar la significación de la regresión al nivel del 5%
2
c.- Interpretar el R
d.- Explicitar el modelo teórico supuesto e interpretar los parámetros

89
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)

Análisis de regresión lineal


Variable N R² R² Aj ECMP
Y 20 0.90 0.89 196.69
Coeficientes de regresión y estadísticos asociados
Coef Est. EE LI(95%) LS(95%) T p-valor
const 1.38 23.96 -49.18 51.94 0.06 0.9547
Peso 15.58 1.98 11.40 19.77 7.86 <0.0001
Estatura -0.55 0.52 -1.65 0.56 -1.04 0.3107
Cuadro de Análisis de la Varianza (SC tipo III)
F.V. SC gl CM F p-valor
Modelo 16769.73 2 8384.86 80.69 <0.0001
Peso 6412.62 1 6412.62 61.71 <0.0001
Estatura 113.44 1 113.44 1.09 0.3107
Error 1766.47 17 103.91
Total 18536.20 19

28.- Como parte de un estudio para investigar la relación entre la tensión nerviosa y otras variables, se
reunieron datos a partir de una muestra aleatoria de 15 ejecutivos medios de una corporación. Las
variables observadas fueron:
Y: medición del estrés
X1: salario anual (x 1000)
X2: edad (años)
Y X1 X2 Y X1 X2
101 30 38 184 52 60
60 20 52 34 34 44
10 20 27 17 28 39
27 54 36 78 42 41
89 52 34 141 84 58
60 27 45 11 31 51
16 26 50 104 38 63
76 41 30
a.- Estimar la ecuación de regresión múltiple que describe la relación entre estas variables tomadas
b.- Analizar la significación de la regresión al nivel del 5%
2
c.- Interpretar el R
d.- Explicitar el modelo teórico supuesto e interpretar los parámetros

Análisis de regresión lineal


Variable N R² R² Aj ECMP
Y 15 0.49 0.41 2437.79

Coeficientes de regresión y estadísticos asociados


Coef Est. EE LI(95%) LS(95%) T p-valor
const -67.13 46.10 -167.58 33.32 -1.46 0.1710
X1 1.60 0.65 0.18 3.02 2.46 0.0303
X2 1.63 1.00 -0.54 3.80 1.63 0.1282

Cuadro de Análisis de la Varianza (SC tipo III)


F.V. SC gl CM F p-valor
Modelo 17995.73 2 8997.87 5.79 0.0174
X1 9368.94 1 9368.94 6.03 0.0303
X2 4150.88 1 4150.88 2.67 0.1282
Error 18652.67 12 1554.39
Total 36648.40 14

90
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)

29.- Se desea saber si cuatro tratamientos antiinflamatorios utilizados en patologías articulares difieren
en cuanto a su efectividad. Se eligieron al azar 24 caballos con dicho signo clínico y se los repartió en 4
grupos de igual tamaño y a cada uno se le asigna un tratamiento distinto. Al final de un período deter-
minado, cada grupo es revisado clínicamente para cuantificar la efectividad del tratamiento y el puntaje
asignado corresponde a la reducción del área inflamada y va de 0 a 100. Se obtuvieron los siguientes
puntajes:
Tratamiento
1 2 3 4
64 76 58 95
75 81 74 90
72 90 76 80
80 80 60 87
79 89 75 85
71 85 69 89
Estadística descriptiva
Trat Variable n Media D.E. Mín Máx Mediana
1 Puntaje 6 73,50 5,89 64,00 80,00 73,50
2 Puntaje 6 83,50 5,47 76,00 90,00 83,00
3 Puntaje 6 68,67 7,89 58,00 76,00 71,50
4 Puntaje 6 87,67 5,05 80,00 95,00 88,00

A partir de los gráficos y las salidas correspondientes, responda los siguientes ítems:
a) Verificar si se cumplen los supuestos para un DCA modelo fijo (concluya u opine para cada supues-
to)
Normalidad .......................................................................................................................................
Homoscedasticidad ...........................................................................................................................
b) Teniendo en cuenta lo anterior y que el nivel es del 5%
La salida elegida es ...........................................................................................................................
Las hipótesis planteadas son: ............................................................................................................
c) Decidir y concluir.
SALIDAS Y GRAFICOS OBTENIDOS POR COMPUTADORA:
Tabla 1
Shapiro-Wilks (modificado)
Variable n Media D.E. W* p (una cola)
RE_Puntaje 24 0.02 1.05 0.88 0.0224
Tabla 2
Análisis de la varianza – Test de Levene
Variable N R² R² Aj CV
abs dif 24 0,08 0,00 74,08

Cuadro de Análisis de la Varianza (SC tipo III)


F.V. SC gl CM F p-valor
Modelo 22,83 3 7,61 0,61 0,6135
Trat 22,83 3 7,61 0,61 0,6135
Error 247,67 20 12,38
Total 270,50 23
Tabla 3
Análisis de la varianza
Variable N R² R² Aj CV
Puntaje 24 0.64 0.59 7.88

91
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)

Cuadro de Análisis de la Varianza (SC tipo III)


F.V. SC gl CM F p-valor
Modelo 1383.67 3 461.22 12.11 0.0001
Trat 1383.67 3 461.22 12.11 0.0001
Error 761.67 20 38.08
Total 2145.33 23
Tabla 4
Prueba de Kruskal Wallis
Variable Tratamientos N Medianas H p
Puntaje 1 6 73.50 16.50 0.0009
Puntaje 2 6 83.00
Puntaje 3 6 71.50
Puntaje 4 6 88.00

QQ-plot Gráfico de densidad de puntos


1,99 100,00
Cuantiles observados(RE_Efectividad)

0,99 87,50
Efectividad

0,00
75,00

-0,99
62,50

-1,99
-1,99 -0,99 0,00 0,99 1,99 50,00
1 2 3 4
Cuantiles de una Normal(3,7007E-017,1,0435)
Tratamientos

30.- De cierto producto se tomaron 25 muestras, lo más parecidas posibles y se almacenaron bajo dife-
rentes condiciones (métodos). Se trata de ver con los datos de hidratación del cuadro adjunto si hay
diferencias significativas entre los métodos de almacenamiento en cuanto al contenido de agua (en %).
Método
A B C D E
8,30 7,90 8,10 7,40 7,60
8,10 7,10 8,50 8,50 7,70
8,40 7,90 7,82 8,50 7,90
8,30 7,80 8,30 8,50 7,98
8,40 7,68 8,15 8,22 8,10
Estadística descriptiva
Método Variable n Media D.E. Mín Máx Mediana
A Hidratación 5 8.30 0.12 8.10 8.40 8.30
B Hidratación 5 7.68 0.33 7.10 7.90 7.80
C Hidratación 5 8.17 0.25 7.82 8.50 8.15
D Hidratación 5 8.22 0.48 7.40 8.50 8.50
E Hidratación 5 7.86 0.20 7.60 8.10 7.90
A partir de los gráficos y las salidas correspondientes, responda los siguientes ítems:
a) Verificar si se cumplen los supuestos para un DCA modelo fijo (concluya u opine para cada uno)
Normalidad .......................................................................................................................................
Homoscedasticidad ...........................................................................................................................

92
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)

b) Teniendo en cuenta lo anterior y que el nivel es del 5%


La salida elegida es ...........................................................................................................................
Las hipótesis planteadas son: ............................................................................................................
c) Decidir y concluir.
SALIDAS Y GRAFICOS OBTENIDOS POR COMPUTADORA:
Tabla 1
Shapiro-Wilks (modificado)
Variable n Media D.E. W* p (una cola)
RE_Hidratación 25 0,00 1,02 0,87 0,0078
Tabla 2
Análisis de la varianza – Test de Levene
Variable N R² R² Aj CV
abs dif 25 0,07 0,00 148,73
Cuadro de Análisis de la Varianza (SC tipo III)
F.V. SC gl CM F p-valor
Modelo 0,10 4 0,03 0,36 0,8329
Método 0,10 4 0,03 0,36 0,8329
Error 1,41 20 0,07
Total 1,51 24
Tabla 3
Análisis de la varianza
Variable N R² R² Aj CV
Hidratación 25 0,44 0,33 3,76
Cuadro de Análisis de la Varianza (SC tipo III)
F.V. SC gl CM F p-valor
Modelo 1,43 4 0,36 3,89 0,0170
Método 1,43 4 0,36 3,89 0,0170
Error 1,84 20 0,09
Total 3,26 24
Tabla 4
Prueba de Kruskal Wallis
Variable Método N Medianas H p
Hidratación A 5 8,30 11,75 0,0185
Hidratación B 5 7,80
Hidratación C 5 8,15
Hidratación D 5 8,50
Hidratación E 5 7,90
QQ-plot Gráfico de densidad de puntos

2,00 9,00
Cuantiles observados(RE_Hidratación)

0,74 8,50
Hidratación

-0,52 8,00

7,50
-1,78

7,00
-3,04
A B C D E
-3,04 -1,78 -0,52 0,74 2,00
Método
Cuantiles de una Normal(3,5527E-017,1,0417)

93
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)

31.- Para realizar un ensayo sobre la actividad estrogénica se compararon varias soluciones que habían
sido sometidas a una técnica de inactivación in vitro. Se inyectaron ratones hembra y como medida de la
actividad estrogénica se utilizó el peso del útero. Los siguientes datos de los pesos de úteros, en mg, de
diez ratones hembra para cada uno de los tratamientos: control y dos soluciones diferentes son:
Control Solución 1 Solución 2
89,8 64,4 75,2
93,8 79,8 62,4
112,6 69,4 73,8
101,6 76,3 71,8
97,2 67,1 65,1
106,5 71,5 74,6
98,1 78,2 66,8
94,4 68,6 70,1
105,3 70,4 64,7
95,7 71,9 69,3
Estadística descriptiva
Soluciones Variable n Media D.E. Mín Máx Mediana
0 Peso 10 99.50 6.94 89.80 112.60 97.65
1 Peso 10 71.76 4.95 64.40 79.80 70.95
2 Peso 10 69.38 4.50 62.40 75.20 69.70
A partir de los gráficos y las salidas correspondientes, responda los siguientes ítems:
a) Verificar si se cumplen los supuestos para un DCA modelo fijo (concluya u opine para cada uno)
Normalidad .......................................................................................................................................
Homoscedasticidad ...........................................................................................................................
b) Teniendo en cuenta lo anterior y que el nivel es del 5%
La salida elegida es ...........................................................................................................................
Las hipótesis planteadas son: ............................................................................................................

c) Decidir y concluir.
SALIDAS Y GRAFICOS OBTENIDOS POR COMPUTADORA:
Tabla 1
Shapiro-Wilks (modificado)
Variable n Media D.E. W* p (una cola)
RE_Peso 30 0.00 1.06 0.96 0.6534

Tabla 2
Análisis de la varianza – Test de Levene
Variable N R² R² Aj CV
abs dif 30 0,05 0,00 79,70

Cuadro de Análisis de la Varianza (SC tipo III)


F.V. SC gl CM F p-valor
Modelo 16,45 2 8,23 0,71 0,5010
Trat 16,45 2 8,23 0,71 0,5010
Error 313,20 27 11,60
Total 329,65 29

Tabla 3
Análisis de la varianza
Variable N R² R² Aj CV
Peso 30 0.87 0.86 6.94

94
Estadística Analítica 2011 Fac. Cs. Veterinarias (U.B.A)

Cuadro de Análisis de la Varianza (SC tipo III)


F.V. SC gl CM F p-valor
Modelo 5607.95 2 2803.98 90.59 <0.0001
Soluciones 5607.95 2 2803.98 90.59 <0.0001
Error 835.68 27 30.95
Total 6443.63 29

Tabla 4
Prueba de Kruskal Wallis
Variable Soluciones N Medianas H p
Peso 0 10 97.65 19.79 0.0001
Peso 1 10 70.95
Peso 2 10 69.70
Gráfico de densidad de puntos
QQ-plot
120,00
2,58
Cuantiles observados(RE_Peso)

105,00
1,40

0,21 Peso 90,00

-0,97 75,00

-2,16 60,00
-2,16 -0,97 0,21 1,40 2,58 0 1 2
Cuantiles de una Normal(2,0724E-016,1,1172) Soluciones

95

Vous aimerez peut-être aussi