Vous êtes sur la page 1sur 300

CalEst:

Un enfoque visual en la enseanza y aprendizaje de la


Estadstica

Jorge Axel Domnguez Lpez Jorge Domnguez Domnguez

2009
ii
Contenido

Prefacio vii

1 Instalacin de CalEst 1
1.1 Instalacin del programa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 El ambiente de CalEst . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2 Organizacin y descripcin de datos 9


2.1 Presentacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.1.1 Elaboracin de la tabla de frecuencias . . . . . . . . . . . . . . . . . . . . . 10
2.1.2 El Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.1.3 Polgono de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.1.4 Frecuencia relativa acumulada . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.1.5 Diagrama de tallo y hoja . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.6 Ejercicios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3 Estadsticas 23
3.0.7 Medidas de tendencia central . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.0.8 Medidas de dispersin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.0.9 Medidas de posicin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.0.10 Diagrama de caja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

4 Probabilidad 37
4.1 Espacio muestral y eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2 Probabilidad de un evento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.2.1 Eventos compuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.2.2 Independencia y probabilidad condicional . . . . . . . . . . . . . . . . . . . 46
4.2.3 Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.3 Principios bsicos de conteo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

5 Distribuciones de probabilidad discretas 69


5.1 Distribuciones de probabilidad Discretas . . . . . . . . . . . . . . . . . . . . . . . 70
5.1.1 Distribucin Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.1.2 Denicin de una distribucin de probabilidad discreta . . . . . . . . . . . 71

iii
iv CONTENIDO

5.1.3 Distribucin Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72


5.1.4 La distribucin binomial y CalEst . . . . . . . . . . . . . . . . . . . . . . . 73
5.1.5 Distribucin Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

6 Distribuciones de probabilidad continua 81


6.1 Variables aleatorias continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
6.1.1 Distribucin normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
6.1.2 Normal Estndar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
6.1.3 Temas selectos: aplicacin de la normal . . . . . . . . . . . . . . . . . . . . 89

7 Galera de distribuciones* 97
7.1 Ideas Generales: distribucin de probabilidad . . . . . . . . . . . . . . . . . . . . 97
7.1.1 Distribucin Weibull . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
7.1.2 Distribucin Gama . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
7.1.3 Distribucin exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
7.1.4 Distribucin beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
7.1.5 Distribucin uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
7.1.6 Distribucin Lognormal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
7.1.7 Distribucin Logstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
7.1.8 Distribucin Gumbel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

8 Distribuciones 2 , t, F +
107
8.1 Distribucin 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
8.2 La distribucin t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
8.3 La distribucin F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

9 Estimacin estadstica 119


9.1 Parmetro y estimacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
9.1.1 Estimacin puntual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
9.1.2 Muestreo con reemplazo y sin reemplazo . . . . . . . . . . . . . . . . . . . 124
9.2 Distribucin muestral de la media muestral . . . . . . . . . . . . . . . . . . . . . . 125
9.3 Teorema de lmite central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
9.4 Intervalos de conanza para la media . . . . . . . . . . . . . . . . . . . . . . . . . 138
9.4.1 Muestras grandes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
9.4.2 Ideas preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
9.4.3 Intervalo de conanza para cuando la poblacin es normalmente distribuida
y la desviacin estndar es conocida . . . . . . . . . . . . . . . . . . . . . . 139

10 Inferencia estadstica 143


10.1 Presentacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
10.2 Prueba de hiptesis: utilizando el CalEst . . . . . . . . . . . . . . . . . . . . . . . 143
CONTENIDO v

10.2.1 Utilidad de la opcin didctica H0 . . . . . . . . . . . . . . . . . . . . . . 145


10.2.2 Observaciones que surgen de las bondades de utilizar el CalEst: . . . . . . 146
10.3 Prueba de hiptesis para una media . . . . . . . . . . . . . . . . . . . . . . . . . . 147
10.3.1 Caso muestras grandes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
10.4 Prueba de hiptesis para una proporcin . . . . . . . . . . . . . . . . . . . . . . . 155
10.5 Prueba de hiptesis para una media: . . . . . . . . . . . . . . . . . . . . . . . . . 161
10.5.1 Caso muestras pequeas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
10.5.2 Valores crticos en una distribucin t-student . . . . . . . . . . . . . . . . . 161
10.5.3 Prueba de hiptesis de un lado . . . . . . . . . . . . . . . . . . . . . . . . 161
10.5.4 Prueba de hiptesis de un lado . . . . . . . . . . . . . . . . . . . . . . . . 162
10.5.5 Prueba de hiptesis de dos lados . . . . . . . . . . . . . . . . . . . . . . . . 163
10.6 Inferencia sobre la varianza  2 y  . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
10.6.1 Intervalos de conanza y prueba de hiptesis para  2 . . . . . . . . . . . . 171
10.7 Aplicacin en CalEst: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
10.7.1 Lgica de la prueba de hiptesis . . . . . . . . . . . . . . . . . . . . . . . . 178

11 Inferencia para dos poblaciones 181


11.1 Inferencia para dos medias: muestras dependientes . . . . . . . . . . . . . . . . . 182
11.1.1 La prueba z para la diferencia de medias: Muestras grandes . . . . . . . . 182
11.1.2 La prueba t Student para la diferencia de medias: Muestras pequeas . . 185
11.2 Inferencia para dos medias: muestras pareadas . . . . . . . . . . . . . . . . . . . . 188
11.3 Inferencia para dos proporciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
11.3.1 Prueba F, comparacin de Varianzas . . . . . . . . . . . . . . . . . . . . . 193

12 Anlisis de Varianza 199


12.1 Ideas generales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
12.1.1 Componentes de la variacin total . . . . . . . . . . . . . . . . . . . . . . . 201

13 Modelo de regresin lineal simple 207


13.1 Planteamiento del problema de regresin . . . . . . . . . . . . . . . . . . . . . . . 207
13.2 Modelo de regresin lineal simple . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
13.2.1 El mtodo de mnimos cuadrados . . . . . . . . . . . . . . . . . . . . . . . 211
13.2.2 Residuales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
13.3 Estimadores de mnimos cuadrados. . . . . . . . . . . . . . . . . . . . . . . . . . . 214
13.3.1 Inferencia con respecto a la pendiente. . . . . . . . . . . . . . . . . . . . . 215
13.3.2 Intervalo de conanza para los parmetros del modelo. . . . . . . . . . . . 217
13.3.3 Prediccin de la respuesta media para un valor dado de X . . . . . . . . . 217
13.3.4 Reporte estadstico del modelo de regresin en CalEst . . . . . . . . . . . . 218
13.3.5 Evaluacin de la relacin lineal . . . . . . . . . . . . . . . . . . . . . . . . 219
vi CONTENIDO

13.3.6 Regresin lineal simple: notacin matricial . . . . . . . . . . . . . . . . . . 222

14 Regresin Mltiple 225


14.1 Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
14.2 Ajuste del modelo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
14.2.1 Supuestos estadsticos sobre el modelo. . . . . . . . . . . . . . . . . . . . . 226
14.2.2 Proceso de estimacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
14.2.3 Estimacin por mnimos cuadrados . . . . . . . . . . . . . . . . . . . . . . 226
14.2.4 Estimacin de los parmetros del modelo. . . . . . . . . . . . . . . . . . . 227
14.2.5 CalEst en el anlisis estadstico del modelo . . . . . . . . . . . . . . . . . . 227
14.2.6 Prueba de hiptesis: parmetros del modelo . . . . . . . . . . . . . . . . . 230
14.2.7 Anlisis e Interpretacin del Modelo. . . . . . . . . . . . . . . . . . . . . . 230

15 Pruebas de bondad de ajuste 239


15.1 Anlisis de datos categricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239
15.1.1 Pruebas de independencia y homogeneidad en tabla de contingencia . . . . 242
15.2 Pruebas de Bondad de Ajuste sobre distribuciones de probabilidad . . . . . . . . . 245
15.2.1 Prueba de bondad de ajuste para una Distribucin Binomial . . . . . . . . 245
15.2.2 Prueba de bondad de ajuste para una Distribucin Poisson. . . . . . . . . 247
15.3 Prueba de bondad de ajuste cuando la variable aleatoria es continua . . . . . . . . 249
15.4 La prueba Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252

16 Pruebas no paramtricas 257


16.1 Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257
16.2 Prueba del signo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257

17 Diseo de Experimentos 261


17.1 Presentacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
17.2 Material experimental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
17.2.1 Diseos de experimentos en CalEst . . . . . . . . . . . . . . . . . . . . . . 262
17.2.2 Glosario de trminos bsicos . . . . . . . . . . . . . . . . . . . . . . . . . . 271

18 Proyectos de estudios estadsticos 277


18.0.3 Ejemplo 1: Consumo de energa . . . . . . . . . . . . . . . . . . . . . . . . 278
18.0.4 Ejemplo 2 : Rompecabezas del mapa de Mxico . . . . . . . . . . . . . . . 279
18.0.5 Problema: Hombre en granos de caf* . . . . . . . . . . . . . . . . . . . . 281
18.0.6 Problema: memoria a corto plazo . . . . . . . . . . . . . . . . . . . . . . . 283
18.0.7 Simulacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284

Referencias 286
Prefacio
De la experiencia se conoce que existen varias dicultades para transmitir diferentes conceptos
en estadstica y probabilidad, as como asimilarlos por parte del educando. Con el n de contribuir
en la solucin de esta problemtica se ha realizado un proyecto de desarrollo tecnolgico que
denominaremos CalEst. La investigacin en este trabajo se plantea en dos direcciones, la primera
se da en la elaboracin de este proyecto en el cual se han desarrollado ideas y propuestas didcticas
con el propsito de facilitar la comprensin de conceptos en las dos reas citadas. La segunda
tiene la nalidad de evaluar el impacto en la comprensin de nociones estadsticas usando el
material de este proyecto.
El CalEst se aboca a cubrir dos reas principales, una de ellas tiene por objeto presentar un
conjunto de herramientas con un enfoque didctico para cubrir el proceso enseanza apren-
dizaje. La otra consiste en abarcar de manera sencilla la descripcin y el anlisis de datos
generados en un estudio. Esto permitir al usuario trabajar con los diferentes temas propuestos
en los planes y programas de estadstica y probabilidad para los cursos a nivel bachillerato y
superior. La aplicacin en estas dos lneas del CalEst permite estudiar los ejemplos y encontrar
las soluciones de los ejercicios planteados en diferentes textos de estadstica.
Finalmente se ha desarrollado el material temtico tal que la metodologa del tratamiento de
la informacin surja de problemas reales o que los estudiantes generen su propia informacin.
La integracin de ste desarrollo tecnolgico asistido de manera visual y las estrategias para
producir la informacin crean una dinmica que proporcionan una mayor facilidad para la com-
prensin de conceptos y motivan el aprendizaje de estas dos disciplinas.
Una parte fundamental del desarrollo de este trabajo se da en el conocimiento y habilidad de
cmputo aplicada para explicar y desarrollar conceptos y resultados en la enseanza de la estads-
tica y probabilidad. Este proyecto se ha elaborado con alto desarrollo en programacin avanzada
y cmputo especializado dedicado como apoyo integral a la educacin con la presentacin de im-
genes animadas y visuales para comprender los conceptos bsicos en estadstica y probabilidad.
CalEst corre en los sistemas operativos Windows XP y Vista.
Esta propuesta usa como recurso tecnolgico la animacin asistida por computadora y se
presenta como un paquete. As este desarrollo resulta novedoso, visualmente atractivo y es
una herramienta complementaria que benecia en el aprendizaje, enseanza y aplicacin de los
conceptos de estadstica y probabilidad. Por un lado, da elementos a los profesores para explicar
diferentes temticas de una manera mas amena y fcil de entender. Asimismo, le da al profesor
la opcin de profundizar ampliamente en los temas. Su entorno visual y animaciones no solo
permite, sino adems alienta, que el estudiante explore y aprenda por si mismo utilizando el
material de prcticas auxiliar al paquete. El material contribuye a que los estudiantes entiendan
claramente los conceptos, se motiven a conocer ms y a explorar por si mismos.
viii Prefacio

CalEst sirve como material de apoyo para comprender mejor algunos conceptos en estadstica
y probabilidad, as como resolver problemas de diferentes libros de estadstica cuya temtica
se enfoca a los planes de estudio en los bachilleratos, tecnolgicos regionales, licenciaturas e
ingenieras. Inclusive, por sus animaciones y grcas, tambin puede ser utilizado en primaria o
secundaria para adentrar a los estudiantes en el tratamiento de la informacin.
Presentacin. Partimos del hecho de que la disciplina de estadstica es el proceso de descubrir
ms sobre el mundo real mediante la coleccin, anlisis e interpretacin de datos. En esa direccin
los estudios en estadstica se plantean como un procedimiento de bsqueda, en el que se plantea
un problema y a partir de ah se derivan una serie de cuestiones, las cuales se respondern y
explicarn con una apropiada recoleccin y anlisis de datos. Sin embargo en la prctica es comn
dar datos para que los estudiantes hagan clculos, por lo general no se hacen interpretaciones
de los resultados. Por otro lado, el estudio de la estadstica se fundamenta en conceptos de la
teora de probabilidad, por lo general, en la prctica existe una cierta dicultad para ensear
y aprender nociones sobre estos temas. Por ejemplo, en un estudio sobre el cerebro, se desea
conocer el tiempo de respuesta de una persona ante un estmulo visual. En este caso se desea
conocer el porcentaje de personas que tardan menos de 30 segundos en responder, o estimar el
porcentaje de individuos en responder entre 70 y 180 segundos. Ambas situaciones se plantean
en trminos de probabilidad. A partir de este planteamiento se generan una serie de cuestiones
tales como la de comprender, el concepto de probabilidad, el de variable aleatoria, funcin de
densidad, distribucin de probabilidad. Para abordar este tipo de problemas en cursos bsicos
de estadstica y probabilidad se supone la distribucin normal. Lo primero que se le explica al
estudiante, antes de hacer el clculo de estas probabilidades dados los parmetros para la media
y desviacin estndar de esta distribucin, es el proceso de estandarizacin. Situacin que distrae
de la nalidad principal, toma tiempo y de alguna manera complica al estudiante. Adems de
las dicultades que genera al estudiante comprender estas funciones de probabilidad y distinguir
la diferencia entre ellas.
El desarrollo tecnolgico propuesto mediante el CalEst, ayuda de manera animada a calcular
directamente esas probabilidades, adems de ilustrar los conceptos de funcin densidad y dis-
tribucin de probabilidad. Esta tcnica se extiende a una gama de distribuciones tales como:
Bernulli, Binomial, Poisson, t-Student, Ji cuadrada, la F, Weibull, Gama Exponencial, Uniforme
para variables continuas-, Beta, Lognormal, Logstica y Valores Extremos.
En el ejemplo descrito, tambin se tiene el inters en vericar la hiptesis de que las personas
no reaccionan de manera lenta, en trminos estadsticos la media debe ser menor a 130 segundos.
El planteamiento estadstico formal es:

H0 =  = 130
H1 =  6= 130
Prefacio ix

La vericacin de esta prueba estadstica se fundamenta en conceptos de la teora de pro-


babilidad. As es necesario comprender lo que signica la probabilidad de rechazar la hiptesis
cuando esta es verdadera, o la probabilidad de no rechazarla cuando esta es falsa, as como la
potencia de la prueba. Estos conceptos se muestran de manera animada mediante una grca y
se pueden simular diferentes escenarios del problema aplicando el CalEst. Esta temtica cae en
la parte de inferencia estadstica, algunos conceptos en los que se sustenta esta teora tal como
el teorema de lmite central, tambin se ilustran de manera visual con el n de entender como al
variar el tamao de muestra la distribucin de probabilidad del estadstico tiende a ser simtrica.
De igual forma se ilustra el concepto de prueba de hiptesis por medio de la animacin de un
sistema de seguridad mediante la identicacin del iris.
Como se indic, las nociones de probabilidad desempean un papel esencial en el anlisis e
interpretacin de los datos estadsticos, con esa nalidad en este proyecto se presentan varias
animaciones con el propsito de motivar algunos conceptos de probabilidad, tal como juegos
clsicos con monedas, dados, se presenta una animacin de un robot con inteligencia articial
que realiza un tarea usando tcnicas de probabilidad y se ha agregado un generador de nmeros
aleatorios.
Finalmente, una vez que se han obtenido los datos, el CalEst cuenta con una variedad de he-
rramientas para el clculo, anlisis, manipulacin de datos, grcas y est ilustrado con una gua
didctica. El trabajo que se realiza en esta parte cubren los temas de cursos a nivel bachillerato
y licenciatura en varias carreras, tales como: medidas de tendencia central, dispersin y posi-
cin, histograma, polgono de frecuencia, distribucin emprica, diagrama de pastel, diagrama de
puntos, diagrama de tallo y hoja, diagrama de caja, grca de dispersin, papeles de probabi-
lidad, pruebas de hiptesis para 1 o 2 medias, proporciones, para la varianza, no paramtricas,
intervalos de conanza, anlisis de varianza, regresiones, pruebas de bondad de ajuste.
Desarrollo. Una parte fundamental del desarrollo de este trabajo se da en el conocimiento
y habilidad de cmputo aplicada para explicar y desarrollar conceptos y resultados en la en-
seanza de la estadstica y probabilidad. Este proyecto se ha elaborado con alto desarrollo en
programacin avanzada y cmputo especializado dedicado como apoyo integral a la educacin
con la presentacin de imgenes animadas y visuales para comprender los conceptos bsicos en
estadstica y probabilidad. CalEst corre en los sistemas operativos Windows XP y Vista.
Puesto que el objetivo principal es mostrar un efecto visual de conceptos, en este resumen ser
difcil ilustrar el potencial del proyecto, as que slo se describirn mediante guras los resultados
del ejemplo descrito anteriormente. En la Figura 1 se ilustra el clculo de probabilidad descritos
por grcas de la densidad y distribucin de probabilidad normal.
Se pueden calcular diferentes probabilidades mediante el movimiento de los umbrales, cam-
biando los valores o usando el ratn. Es importante resaltar que aqu se calculan las proba-
bilidades de la normal declarando el valor de la media y desviacin estndar, sin necesidad de
x Prefacio

estandarizar. Esta ltima queda implcita al escribir :  = 0;  = 1 . En la parte superior de la


pantalla se tiene un calculador de la normal, el cual permite obtener diferentes probabilidades
dados los valores de la variable aleatoria, la media y la desviacin estndar. Tambin aplica la
inversa, es decir dada una probabilidad se obtienen los valores de la variable aleatoria.
El segundo caso que se presenta corresponde a la prueba de hiptesis, como se muestra en
la Figura 2. En referencia a la expresin indicada en el ejemplo inicial, la grca muestra el
caso para una posible hiptesis alterna. Aqu se pueden usar diferentes escenarios para ver las
probabilidades del error tipo I y el error tipo II en el contexto de esta temtica. Se observa que a
partir de esta se consigue motivar los conceptos de prueba de hiptesis ante distintos problemas.
En este caso tambin se anexa el calculador para la distribucin normal.
Prefacio xi
xii Prefacio
Captulo 1

Instalacin de CalEst

CalEst es un paquete estadstico que le permitir al usuario, realizar los clculos y anlisis
estadsticos de un conjunto de datos en la solucin de problemas.
CalEst cuenta adems con una serie de animaciones visuales que facilitar al usuario la
comprensin de diferentes conceptos estadsticos.

1.1 Instalacin del programa


Para realizar la instalacin sigue los siguientes pasos:
1.a Introduzca el CD en su computadora. De forma automtica se ejecutar el programa
asistente del instalador. La ventana del asistente es ilustrada por la Figura 1.1. Si no ejecuta de
forma automtica vaya al paso 1.c.

Figura 1.1: Asistente del instalador


2 1. Instalacin de CalEst

Figura 1.2: Se inicia la instalacin del programa

1.b Apriete sobre la opcin instalar. El instalador se ejecutar y una ventana como la
mostrada por la Figura 1.2 aparecer.
1.c Si no se ejecuta automticamente el programa es posible que no est habilitada la ca-
racterstica de autoejecucin. Si la autoejecucin est deshabilitada. Desde Mi PC, seleccione la
unidad del CD, ejecuta el programa Instalame.exe y una ventana como la ilustrada en la Figura
1.2 aparecer.
2 Seleccione el idioma de la instalacin y aprieta el botn Aceptar. Una pantalla como la
mostrada en la parte inferior de la Figura 1.2 aparecer.
3 A continuacin apriete el botn Siguiente. Se mostrar la licencia del software.
4 Lea dicha licencia y si est de acuerdo con los puntos all expuesto seleccione Acepto el
acuerdo y aprieta Siguiente.
1.1. Instalacin del programa 3

Figura 1.3: Paso 4

5 Se presentar la opcin de escoger la carpeta donde quiere o desea instalar el programa.


Por defecto, la carpeta es C:nArchivos de programanCalEst Una vez que haya seleccionado la
carpeta que quiere o dejado la sugerida, apriete Siguiente para continuar, Figura 1.4

6 En este paso puede escoger la carpeta del men de inicio Figura 1.5. Por defecto la carpeta
es CalEst Studio. Puede escoger otra carpeta. Cuando est de acuerdo con el nombre de la
carpeta apriete el botn Siguiente.

7 En este paso se le pregunta si quiere crear un icono de acceso directo en su escritorio Figura
1.6. Si as lo desea, seleccione la casilla. Para continuar apriete Siguiente.

8 Estamos listos para instalar el programa. Aparece un resumen de la conguracin Figura


1.7. Si desea cambiar algo, apriete Atrs. Para empezar el proceso de instalacin apriete Instalar.

9 El programa se instala Figura 1.8. El proceso puede tomar unos cuantos minutos. Al
terminar la instalacin puede ejecutar el programa. No es necesario reiniciar la computadora.
Apriete el botn Finalizar para concluir el proceso.

Las siguientes grcas muestran la secuencia de instalacin:


4 1. Instalacin de CalEst

Figura 1.4: Paso 5, escoger carpeta

Figura 1.5: Paso 6, seleccionar men desde el inicio


1.1. Instalacin del programa 5

Figura 1.6: Paso 7, se desea crear un icono?

Figura 1.7: Paso 8, instalacin del programa


6 1. Instalacin de CalEst

Figura 1.8: Paso 9, proceso de instalacin

1.2 El ambiente de CalEst


Cuando se ejecuta CalEst aparece el escenario que se muestra en la Figura 1.9, es lo que cono-
ceremos como ambiente CalEst . En esta se muestra el men de opciones y tareas que realiza
este calculador.
Para iniciar la aplicacin del CalEst, primero, hay que tener una hoja de trabajo, la cual se
genera creando un nuevo archivo o abriendo uno ya existente, para ello hay que ir a la opcin
"Archivo" el cual cuenta con varias funciones para operar con archivos, Figura 1.10, dos opciones
operativas son las relativas a Edicin y la de Herramientas. Esta ltima contiene la referente
a un enfoque didctica con la nalidad de apoyar en la comprensin de algunos conceptos en
estadstica y probabilidad.
La opcin Estadstica cuenta con los clculos de medidas de tendencia central y dispersin.
Tambin se tiene un eleccin temporal que contiene temas de control estadstico del proceso, ah
se puede realizar el clculo de seis sigma y el de la capacidad del proceso. As como algunos la
posibilidad de escoger algn experimento y realizar el respectivo anlisis. La siguiente opcin
corresponde a temas de inferencia estadstica, en la que se puede realizar pruebas de hiptesis
para la media, varianza y proporcin de una poblacin. En otra eleccin est la inferencia para la
comparacin de los parmetros de dos poblaciones: medias, proporciones y razn de varianzas, se
tratan los casos de muestras independientes y pareadas, se contemplan pruebas no paramtricas.
En sta parte de inferencia se presenta la construccin de un intervalo y se ilustran conceptos
1.2. El ambiente de CalEst 7

Figura 1.9: Presentacin general del CalEst

Figura 1.10: Tres opciones operativas.


8 1. Instalacin de CalEst

relevantes sobre stos. Dos elecciones ms a esta opcin conciernen al anlisis de la varianza y
pruebas de bondad de ajuste.
Las Grcas que tiene CalEst son las tpicas en estadstica descriptivas tales como el his-
tograma y su correspondiente tabla de frecuencia, polgono de frecuencia, polgono de frecuencia
acumulada, diagrama de pastel, diagrama de puntos, diagrama de tallo y hoja, diagrama de caja
y diagrama de dispersin y la grca de la distribucin emprica que permite visualizar que tan
cercana es la distribucin de los datos a una distribucin normal.
El anlisis de Regresin simple y mltiple es una parte que complementa la parte clculos
estadsticos para estimar los parmetros de un modelo y su anlisis, as como las representaciones
grcas de los conceptos relacionados.
La parte correspondiente a las Distribuciones tiene una conguracin relevante para que
el usuario tenga la posibilidad de realizar clculos de probabilidad. En cada caso aparece la
distribucin caracterizada por sus parmetros, as aparece la funcin densidad con uno o dos
umbrales, moviendo stos generan valores de la probabilidad a la derecha, izquierda de un valor
de referencia o entre dos valores dados. Esta opcin tiene la versatilidad de trabajar de manera
animada con la funcin distribucin de probabilidad para hacer clculos, y comprender la relacin
matemtica con la funcin densidad. Se ha anexado un calculador de probabilidad en cada
distribucin lo que equivale al manejo de las tablas, esta permite tener el valor de la variable
aleatoria que dena a la distribucin o el valor de una distribucin probabilidad acumulada.
Opciones didcticas:

1. Con la nalidad de ilustrar conceptos de probabilidad, el lanzamiento de monedas, tirar


un dado, la misin a Marte, arrogar dos dados, el lanzamiento de una moneda y un dado,
monedas considerando la distribucin binomial (xito - fracaso), ramicaciones, ruletas y
extraer canicas de una bolsa.

2. Para explicar el Teorema de lmite central, los conceptos de prueba de hiptesis, prueba de
hiptesis de un sistema de seguridad.

3. Dos simuladores que corresponden a un can y un helicptero respectivamente para


generar datos, hacer pruebas de hiptesis, estudios de relacin entre variables y plantear
estrategias de diseo de experimentos.
Captulo 2

Organizacin y descripcin de datos

2.1 Presentacin
Una vez que se han aplicado las encuestas o algn procedimiento formal para obtener la informa-
cin, es necesario contar con una estrategia para hacer ms comprensible la informacin generada
por los datos. La estadstica descriptiva es el procedimiento que permite organizar y describir los
datos. Esto se alcanza mediante la representacin de los datos de manera grca. Es importante
tener presente y caracterizada la poblacin objeto de estudio para poder hacer inferencia sobre
ella a travs de una muestra representativa.

Objetivo:
Presentar diferentes procedimientos grcos para
describir y analizar los datos de una muestra

A continuacin se mostrar la opcin de Grcas, en la Figura 2.1 se ilustra la coleccin


tcnicas para presentar la organizacin y descripcin de los datos. Mediante un ejemplo se
expondrn las grcas de esta opcin. El primer diagrama que se explica es el histograma.

Ejemplo 1.

Un siclogo tiene inters en estudiar la memoria a corto plazo, su experimento consiste en mostrar
una tarjeta que contiene 16 palabras a un grupo de 100 personas seleccionadas al azar entre 15
y 25 aos. El procedimiento consiste en mostrar la tarjeta a cada persona por un espacio de
20 segundos, luego platica con la persona por espacio de un minuto, a continuacin, les da
otro minuto para que le digan las palabras que recuerdan. Los datos aparecen en el bloque
Herramientas del archivo DataEjemplo1.Tab en la columna palabras.
El procedimiento para organizar y describir los datos es construir una tabla, conocida como
Tabla de frecuencias .

9
10 2. Organizacin y descripcin de datos

Figura 2.1: Diagramas disponibles en la opcin Grcas

Tabla de frecuencias:
Una tabla de frecuencias o distribucin de frecuencia es una tabla que
registra categoras, valores o clases de valores que una variable debe
tener y el nmero de veces que cada una ocurre.

La tabla de frecuencias contiene un determinado nmero de clases de igual tamao. Al


nmero de datos que cae dentro del intervalo de clase se le denomina frecuencia. Para elaborar
una tabla de este tipo se deben responder las siguientes preguntas: Cmo denimos el nmero
de clases? Cmo determinamos el ancho o tamao del intervalo de clase? El ancho del intervalo
de clase que buscamos cuenta con dos lmites (extremos). Una vez denido lo anterior, Cmo
se determinan esos lmites del intervalo de clase?
El resumen de los datos se presenta en una tabla de frecuencias Figura 2.2, este se gener
usando el CalEst, primero se traza el histograma primera opcin.

2.1.1 Elaboracin de la tabla de frecuencias


La exposicin tcnica del procedimiento para la construccin de los intervalos es como sigue:

Se determina la lectura mayor mxima y la menor mnima en los datos, y se calcula la


distancia entre estos valores. As la distancia es:
distancia = m
aximo m{nimo
2.1. Presentacin 11

Figura 2.2: Un ejemplo de la Tabla de frecuencias para los datos del ejemplo 1.

1. Se divide la distancia entre el nmero k de clases que se deseen, todas de igual ancho.

distancia
ancho (aproximado del intervalo de clase) =
k

El ancho del intervalo de clase se determina en funcin del nmero de clases que desee.
Aunque esto resulta arbitrario, casi siempre se propone entre 5 y 15 intervalos, pero
ello depende del nmero de datos. Las observaciones agrupadas sacrican informacin
dependiendo de cmo las observaciones se distribuyan dentro de cada clase. Por un lado,
un nmero limitado de intervalos (menos de 5) nos dara muy poca informacin

2. Se establecen los intervalos de clase, para lo cual se requiere obtener el primero de ellos.
Se elige el menor de los datos y se suma el valor del ancho. Al valor resultante se le vuelve
a sumar el ancho, y as sucesivamente hasta obtener el nmero de clases establecidos.
Cada intervalo de clase, como podemos observar, presenta dos valores que se pueden su-
perponer. Para evitar que ello ocurra, deben contarse las observaciones iguales o mayores
al valor de la izquierda del intervalo y las menores al valor de la derecha. Se denota con X
el valor de la observacin, por lo que la representacin formal en trminos matemticos de
un intervalo de clase es:
valor izquierdo  X < valor derecho

Esta ltima expresin se simplica mediante la siguiente notacin:

valor izquierdo valor derecho

3. Se cuenta el nmero de observaciones que caen dentro del intervalo de clase. A este nmero
se le conoce como frecuencia.
12 2. Organizacin y descripcin de datos

La tabla frecuencias es una clasicacin de datos y permite tener una mejor idea acerca
de los datos iniciales. Adems, los valores de las frecuencias individuales se ven inuidos por el
tamao de la muestra, pues cuando las muestras son grandes, las frecuencias individuales sern
mayores que cuando son pequeas. La comparacin entre diferentes muestras se vuelve compli-
cada; tambin se convierte en difcil de interpretar y comprender la problemtica planteada, por
ello, se recurre al concepto de frecuencia relativa.
La frecuencia relativa de una clasicacin de datos es el nmero de veces que una ob-
servacin cae sobre una clase, y representa una proporcin del nmero total de datos. Por esta
razn, la frecuencia relativa se expresa en fracciones, decimales o porcentajes.
El clculo de la frecuencia relativa se obtiene empleando la expresin:

f recuencia
f recuencia relativa =
total

2.1.2 El Histograma
Una vez capturados los datos en la hoja de datos, se pulsa la opcin Grcas y aparece el
histograma Figura 2.3. Aparece una hoja que contiene la o las variables que se desean estudiar,
en este caso el nmero de palabras recordadas por 100 personas. Se completan los espacios, en
datos se escribe el nombre de la variable, los nombres de las clases es opcional y deben estar en
una columna. Se escoge el nmero de intervalos que se deseen obtener.
El histograma es una grca de barras que consiste bsicamente de un conjunto de rectngulos.
Su forma est determinada por tres elementos: el nmero de rectngulos, el ancho y la altura
de stos. En esencia, el histograma es una representacin visual de la tabla de frecuencias. En
ese sentido, el nmero de barras (rectngulos) corresponde al nmero de clases. El ancho del
rectngulo corresponde al intervalo de clase y la altura es la frecuencia. El histograma y la tabla
de frecuencias del conjunto de datos son una estrategia conjunta para organizar y describir los
datos de una muestra.

La frecuencia relativa en un intervalo de clase es la proporcin del nmero total de


observaciones que caen dentro de ese intervalo de clase, y es proporcional al rea
de la barra correspondiente a ese intervalo.

Si en el eje vertical del histograma se cambia la marca de frecuencia por el de la frecuencia


relativa, se tiene el que se conoce como histograma de fecuencia relativa y ste se presenta en la
grca que aparece a la derecha en la Figura 2.4.
Dado que todas las barras de un histograma tienen el mismo ancho, el rea de una barra es
proporcional a la frecuencia relativa de la clase correspondiente. Por ejemplo, si 25% del rea
2.1. Presentacin 13

Figura 2.3: Histograma para el nmero de palabras recordadas en un minuto

bajo la distribucin queda sobre cierto intervalo, entonces 25% (0.25) de las observaciones caen
en ese intervalo. En ese sentido, el rea total de las barras es igual al 100% (1).
Interpretacin: aproximadamente el 10% de personas recuerda entre 9 y 10 palabras, lo que
resulta una cantidad pequea de la poblacin. El 21% de los entrevistados recuerda muy pocas
palabras 5 o menos. Qu cantidad de palabras recuerda el 50% de personas? El histograma de
frecuencias relativas reeja esta situacin en la Figura 2.4 se presentan de manera conjunta los
dos histogramas:

2.1.3 Polgono de frecuencias


En las opciones grcas aparece el polgono de frecuencias, sta es tambin una herramienta
disponible para describir la distribucin de los datos y su construccin depende del histograma.
El histograma se convierte fcilmente en un polgono de frecuencias uniendo mediante lneas
rectas las alturas de las barras del histograma que corresponden al punto medio del intervalo de
clase. Este punto es conocido como marca de clase.
Polgono de frecuencias relativas
El polgono de frecuencias relativas es una grca eciente que tambin permite representar
la tabla de frecuencias en funcin de la frecuencia entre el total; esta condicin facilita la inter-
pretacin de los resultados, ya que estos se pueden expresar en porcentajes. ste se construye
14 2. Organizacin y descripcin de datos

Figura 2.4: Histogramas de frecuencias relativas y el de frecuencias.

tomando como referencia el histograma de frecuencias relativas. Su procedimiento de construc-


cin es similar al de polgono de frecuencias. Para el ejemplo de las palabras la Figura 2.5 muestra
ambos polgonos.
Interpretacin: Aproximadamente el 25% recuerda 7 palabras, es decir un cuarto de la mues-
tra. Se observa que la forma del polgono tiene una ligera asimetra. Esta situacin se puede
visualizar en grcas descritas tanto por el histograma como por los polgonos de frecuencias.
En la eleccin 5 de la opcin de grcas aparece la alternativa para describir conjuntamente
el histograma y el polgono de frecuencias. Como se percibe de la Figura 2.6, el polgono de
frecuencias relativas tiene en comn con el histograma que las reas de las grcas sobre un
intervalo son idnticas. A estas grca tambin se le conoce como densidad emprica de la
distribucin de datos. Para aclarar la relacin de ambas representaciones, se sobreponen las
grcas de la Figura 2.6.
Recapitulacin: el polgono de frecuencias es una descripcin pictrica que permite captar la
forma del histograma. Esta descripcin grca es una herramienta muy til para delinear varias
caractersticas de la distribucin de los datos, como son la simetra, el sesgo y la variabilidad de
los datos.

2.1.4 Frecuencia relativa acumulada


En los datos presentados en la Figura 2.2 se puede observar que estn ordenados de menor a
mayor. En ese contexto se pueden sumar las frecuencias relativas y, ante esa situacin, pueden
2.1. Presentacin 15

Figura 2.5: Polgonos de frecuencias y frecuencias relativas.

Figura 2.6: Representacin conjunta del histograma con el polgono de frecuencias


16 2. Organizacin y descripcin de datos

Figura 2.7: Grcas que ilustran los polgonos de frecuencia, tambin conocidos como ojivas.

plantearse algunas preguntas que resultan interesantes para realizar una interpretacin de una
muestra de datos. Por ejemplo, podramos preguntarnos a qu valor de los datos le corresponde
75%?

La frecuencia relativa acumulada de una clase C, es la suma de las frecuencias relativas


de todas las clases anteriores a C. Esta se expresa como fraccin, decimal o porcentaje.

Con la informacin que se proporciona en la Figura 2.2 se facilita la construccin del his-
tograma de frecuencias acumulado y del polgono de frecuencias relativas en forma acumulada.
Vase la ltima columna de esa gura, donde se observa cmo se han utilizado estos datos para
elaborar la grca poligonal de la izquierda en la Figura 2.7, ah se muestra el polgono que des-
cribe las frecuencias relativas acumuladas; ste es el ms utilizado en la prctica. En esa grca
se han trazado los porcentajes correspondientes a las personas que recordaron 5 o 7 palabras.
El polgono de frecuencias relativas acumuladas tambin recibe el nombre de ojiva . As cuando
se requiera construir la ojiva de un conjunto de datos, lo que se desea es trazar el polgono de
frecuencias relativas acumuladas. En la grca a la derecha de la Figura 2.7 se compara ese pol-
gono de frecuencias relativas con la distribucin acumulada de la normal estndar: distribucin
terica. Nota: El polgono de frecuencias relativas que proceden de los datos de una muestra se
llama tambin distribucin emprica.
2.1. Presentacin 17

2.1.5 Diagrama de tallo y hoja


Ejemplo 2.

Varias de estas opciones se ilustrarn utilizando 125 datos que corresponden al tiempo en que
una muestra de estudiantes completaron un rompecabezas electrnico de la Repblica Mexicana
. Los datos estn en el cuadro de abajo, en CalEst se abre un archivo y en una columna se
capturan estos.

El objetivo es ilustrar la elaboracin de la grca de tallo y hoja. Esta es una grca que
permite complementar el estudio descriptivo de los datos. Es una grca alternativa al his-
tograma. Con estos datos a continuacin se elabora un diagrama de tallo y hoja, la nalidad de
este diagrama es describir a la vez una tabla de frecuencias y un histograma, ste se presenta en
la Figura 2.8.

Construccin del diagrama de tallo y hoja

Se ilustrar la construccin del diagrama de tallo y hoja considerando los nueve datos corre-
spondientes a la muestra de la produccin de maz en un rea de 100m2 . El peso del maz para
cada muestra es: 312, 324, 310, 314, 322, 328, 316, 314, 324 toneladas. Antes de elaborar este
diagrama, se dar una idea general de cmo se forman el tallo y la hoja.
La idea principal es partir cada nmero para formar primero el tallo y luego la hoja. En
general, donde se hace la particin depende del rango de los datos. Para jar ideas considere el
nmero 310, el cual se parte en dos cifras, 31 y 0. 31 representar al tallo y el 0 a la hoja. En la
representacin se escribe el 31 a la derecha separndolo con un espacio, que aqu se resalta con
una lnea vertical, y el 0 del lado izquierdo. Esto es:

31 j 0

El procedimiento para formar el diagrama de tallo y hoja es como sigue:


18 2. Organizacin y descripcin de datos

Figura 2.8: Diagrama de tallo y hoja

Paso 1. Se ordenan los datos de menor a mayor:

310; 312; 314; 314; 316; 322; 324; 324; 328:

Paso 2. Se consideran todos los datos de manera integral. Los nmeros candidatos para el
tallo en estos datos son el 31 (para los nmeros 310, 312, 314, 316) y 32 (para los nmeros 322,
324, 328); as:

Paso 3. Se incorpora la otra parte del nmero partido; as, se anexan 0, 2, 4, 4 y 6, que son
la parte correspondiente del 31, o sea:

Paso 4. Se agrega la parte dividida correspondiente al nmero 32; as la grca queda como
sigue:
2.1. Presentacin 19

Cabe observar que en este ejemplo, el ancho de los intervalos de clase es de 10 unidades
(de 310 a 320). Adems se puede resaltar que la realizacin del paso 1 facilita la construccin
del diagrama.
Supongase que el ancho de intervalos sea de tan slo 5 unidades (310 a 315, 315 a 320, y
as sucesivamente). Para construir el diagrama de tallo y hoja con 5 unidades, se pone el 31 dos
veces en el tallo. As, en la hoja del primer 31 del tallo, se consideran los nmeros menores que
5, que en este caso sern 310, 312, 314 y 314. En el segundo tallo los nmeros mayores o iguales
que 5 y menores o iguales que 9, esto es, el 316 del ejemplo. De manera anloga se procede para
el otro nmero del tallo. En este caso el diagrama es:

Con el auxilio de esta grca se tendr una idea general de la distribucin de los datos.

Unidad en un diagrama de tallo y hoja

Establecer una unidad ayuda en la construccin de un diagrama de tallo y hoja. Por lo general,
sta debe aparecer en la parte superior del diagrama. Por ejemplo:

En este caso la unidad que se lee indica que la particin se da entre diez de miles y los miles.
De este modo si el nmero con tallo fuera 9 y el de la hoja 6 se leera como 96000.
En contraste si dice:

Esto signica que el nmero con tallo 9 y hoja 6 se leera como 0.096.

Distribucin emprica

En la Figura 2.8 se muestra una aparente simetra en la distribucin de los datos. Con el propsito
de ilustrar la utilidad del polgono de frecuencias acumulado en la descripcin de los datos se
describe este en la grca izquierda de la Figura 2.9. La grca a la derecha muestra el mismo
polgono comparado con distribucin de probabilidad normal. Esta situacin permite evaluar de
manera descriptiva si los datos se ajustan a una distribucin de probabilidad normal.
20 2. Organizacin y descripcin de datos

Figura 2.9: Polgono de frecuencias acumulado izquierda, este mismo comparado con la normal.

2.1.6 Ejercicios.
1. Para el conjuntos de datos del ejemplo 2:

(a) Trace e interprete el histograma, use inicialmente 13 clases.


(b) Una vez construido el histograma use la opcin tabla de frecuencia y elabore dicha
tabla.
(c) Encuentre el porcentaje de los alumnos que resolvieron el rompecabezas en 480, 560
segundos, los que lo resolvieron en ms de 560 segundos, los que lo resolvieron entre
490 y 550 segundos, los que lo resolvieron en menos de 480 segundos. Use el polgono
de frecuencias acumulado.

2. En otro estudio para resolver el rompecabezas de la Repblica Mexicana 119 estudiantes


tardaron el tiempo que se muestra en la columna: tiempo en el archivo DataEjemplo1.Tab
en el bloque Herramientas en CalEst.

(a) Trace el histograma y elabore la tabla de frecuencias, interprete sus resultados.


(b) Encuentre el porcentaje de los alumnos que resolvieron el rompecabezas en 490, 510
segundos, los que lo resolvieron en ms de 505 segundos, los que lo resolvieron entre
490 y 500 segundos, los que lo resolvieron en menos de 490 segundos. Use el polgono
de frecuencias acumulado.
2.1. Presentacin 21

(c) Verique que tan simtrica es la distribucin comparndola con una distribucin nor-
mal
(d) Elabore un diagrama de tallo y hojas.

(e) En qu conjunto de datos hay mayor variabilidad en los del ejercicio 1 o los del ejercicio
2.
(f) Si se aplica este mismo rompecabezas a 1000 personas con las mismas caractersticas
de esta muestra, cuntas tardarn en resolverlo en menos de 500 segundos?

3. Un mdico esta interesado en conocer el tiempo, en segundos, de respuesta de un individuo


para encontrar una cara en una cuadro lleno de granos de caf. Esta informacin le per-
mitir saber ms sobre el cerebro. La respuesta ante este estmulo visual se muestra en el
archivo DatosEjemplo1.TAB, bloque Herramientas, en la columna resp.

(a) Trace el histograma y elabore la tabla de frecuencias, interprete sus resultados.

(b) Encuentre el porcentaje de los individuos que tardaron en encontrar la cara en 90


segundos, en 150 segundos, los que tardaron ms de 100 segundos, los que tardaron
entre 30 y 180 segundos, los que lo resolvieron en menos de 30 segundos. Use el
polgono de frecuencias acumulado.
(c) Verique que tan simtrica es la distribucin comparndola con una distribucin nor-
mal
(d) Elabore un diagrama de tallo y hojas.

(e) Si se muestra este mismo cuadro a 1500 personas con las mismas caractersticas de
esta muestra, cuntas tardarn en encontrar la cara en menos de 30 segundos?

4. Con el n de evaluar la habilidad de sus alumnos, al nalizar el semestre el profesor del


taller de mecanografa aplic una prueba, que consista en escribir el mayor nmero de
palabras en dos minutos. Despus de realizar la prueba, seleccion una muestra de 20
alumnos. Los datos reportados fueron:

En este caso, hay que construir el diagrama de tallo y hoja para este conjunto de datos e
interpretarlo.
22 2. Organizacin y descripcin de datos
Captulo 3

Estadsticas

Las estadsticas son medidas descriptivas que complementan la informacin e interpretacin de


los datos descritos en una grca. Se agrupan en tres clases: las medidas de tendencia central,
las medidas de dispersin y las medidas de posicin.

Ejemplo 1

Un socilogo ha realizado un estudio para conocer la edad en la cual contraen matrimonio las
mujeres que radican en una ciudad determinada. Del registro civil obtuvo una muestra aleatoria
de 120 parejas. Es de inters conocer Cul es la media o la mediana en la que una mujer se
casa? Qu porcentaje de mujeres se casa cuando tiene 20 aos o menos? Qu tanta variacin
de edad existe entre las mujeres que se casan? Qu diferencia existe entre la edad mxima y
mnima para casarse? A qu edad se casan al menos el 25% de las mujeres?
Datos: Los datos relacionados con esta investigacin aparecen en el archivo DatosEjem-
plo1.TAB en la columna edad. Para poder responder a estas preguntas aplicamos la opcin
Estadstica y luego Numrica en CalEst, a continuacin aparecen las tres clases de mediciones
como se ilustra en la Figura 3.1.
A continuacin se explica el procedimiento para obtener esta informacin y sobre todo es
relevante interpretar estos resultados.

3.0.7 Medidas de tendencia central


La media

Denicin. Dado una coleccin de n valores de una variable, la media aritmtica es una medida
de tendencia central que se obtiene sumando cada uno de estos valores y el total de esta suma
se divide por n. En general a esta medida se le conoce como la media. La frmula para calcular
la media de la poblacin y de la muestra son:

23
24 3. Estadsticas

Figura 3.1: Resultados de las estadsticas de tendencia central, dispersin y posicin

P
N P
n
xi xi
i=1 i=1
poblacin  = ; muestra x =
N n

Ejemplo 2

Se tom una muestra de siete farmacias para conocer el precio en pesos de una medicina, los
datos son: 510, 850, 480, 420, 445, 495 y 500.

Solucin
La suma del precio de las siete farmacias es:

n
X
xi = 510 + 850 + 480 + 420 + 445 + 495 + 500 = 3700
i=1

Se divide la cantidad anterior por 7, as la media de la muestra es:

P
n
xi
i=1 3700
x= = = 528:6
n 7
25

La mediana

Denicin. Dado una coleccin de n valores de una variable, la mediana es una medida de
tendencia central cuyo valor est en la mitad de los n datos ordenados de menor a mayor.
Si el nmero de datos es impar, la mediana es el dato que est situado a la mitad. Si el
nmero de datos es par, la mediana es la media de los dos datos que estn situados a la mitad.

Ejemplo 3

Encontrar la mediana del precio en pesos de una medicina de las farmacias en el ejemplo 1.

Solucin
Para encontrar la mediana se ordenan los datos 510, 850, 480, 420, 445, 495 y 500 de menor a
mayor.

Sitio 1 2 3 4 5 6 7
Orden 420 445 480 495 500 510 850:

Son siete datos, por lo que se tiene un nmero impar, la mediana es el dato situado a la mitad,
esto es: m
e = 495. Con el smbolo m
e se representa la mediana. En la mitad de las farmacias la
medicina cuesta menos de 495 pesos.

Ejemplo 4

Una compaa que manufactura un pesticida estudia el nmero de insectos que aniquila una dosis
especca del insecticida. Se realizan 10 pruebas. En cada una de ellas, el nmero de insectos
muertos de 40 son:
19; 22; 34; 28; 18; 16; 25; 27; 31; 30

Calcular la mediana. Con base en esos datos, qu tan efectivo es el insecticida?

Solucin
A partir de la denicin se ordenan los datos de menor a mayor y se identica el lugar que
ocupan.
Sitio 1 2 3 4 5 6 7 8 9 10
Orden 16 18 19 22 25 27 28 30 31 34

Puesto que el nmero de datos es par la mediana es la media de los datos situados en los
lugares 5 y 6, es decir 25+27
2
= 26:
26 3. Estadsticas

La moda

Denicin. Dado una coleccin de n valores de una variable, la moda es una medida de
tendencia central, y es el valor que ocurre con mayor frecuencia.

 Cuando dos valores aparecen con la misma frecuencia, cada uno es una moda y el conjunto
de datos es bimodal.

 Cuando ms de dos valores se tienen con la misma frecuencia, cada unos es una moda y el
conjunto de datos es multimodal.

 Cuando no hay valores repetidos, se dice que los datos no tienen moda.

La media armnica y la media geomtrica

La media armnica y la media geomtrica completan el panorama de medidas de tendencia


central. En la prctica, stas son usadas con menos frecuencia y en general para aplicaciones
especcas, por ejemplo en comercio y economa.
Con el n de facilitar su denicin de la media armnica se describen los siguientes
trminos.

1
El recproco de un nmero X es
X
1 1 1
El recproco de n nmeros X1 ; X2 ; :::; Xn es ; ; :::;
X1 X2 Xn
n
1X 1
La media de estos recprocos es
n i=1 Xi

1
El recproco de la media es P
n
1 1
n Xi
i=1

La media armnica

La media armnica (denotada por la letra H) de un conjunto de datos X1 ,X2 ,...,Xn es el recproco
de la media aritmtica del recproco de esos datos.

1 n
H Pn = P
n
1 1 1
n Xi Xi
i=1 i=1
27

La media armnica se emplea cuando se desea promediar velocidades, tiempos, rendimiento,


etc., es decir, cuando inuyen los valores pequeos. Pero es necesario ser cuidadoso en estos
casos, ya que cuando algn dato es cero o muy cercano a cero, no se puede calcular.

La media geomtrica

Si algunos valores son muy grandes en magnitud y otros son pequeos, entonces la media geo-
mtrica es una medida que representa los datos mejor que la media.
Si hay n observaciones X1 ; X2 ; :::; Xn la media geomtrica G de un conjunto de datos es la
raz ensima del producto de esos datos.
p
n
G= X1 X2 :::Xn

Por lo general, la media geomtrica se utiliza cuando los valores de la variable siguen una
progresin geomtrica, o cuando se necesitan promediar porcentajes, tasas, ndices, etc., siempre
que vengan dados en porcentajes.

3.0.8 Medidas de dispersin


En esta seccin se mostrarn diferentes maneras de denir la variacin de un conjunto de datos.
Una medida que es sencilla y prctica es el rango.

Rango

El rango es una de las medidas ms sencillas para expresar la dispersin de los datos. Tan slo
se requiere considerar los valores mximo y mnimo de las observaciones.

El rango muestral ( R) es la diferencia entre el mximo y el mnimo


de las observaciones de la muestra:
R=mximo-mnimo.

Ejemplo 5

El consumo de energa elctrica en KWh registrada en los recibos de 10 hogares son:

Consumo 416 378 390 454 472 413 440 441 379 421

Solucin
Se ordenan de menor a mayor ese conjunto de datos:

Consumo 378 379 390 413 416 421 440 441 454 472
28 3. Estadsticas

As el valor deseado para el rango es: R= mximo-mnimo = 472 -378 =94 .

La varianza y la desviacin estndar

Como se ha visto el rango slo requiere de dos datos para obtener su valor. La varianza y
la desviacin estndar son dos medidas para la variacin que utilizan todos los datos de la
informacin. Primero se necesita comprender la desviacin de cada una de las entradas de los
datos.

Desviacin
La desviacin de la entrada x en una muestra aleatoria de un conjunto de datos es la
diferencia entre cada entrada y la media X del conjunto de datos.

Para el ejemplo 5, la media es X = 420:4; la desviacin con respecto al primer dato es X X =


416 420:4 = 4:4: La desviacin para cada uno de los datos se muestra a continuacin en
la Tabla 1. Con esta informacin se podr calcular la varianza y la desviacin estndar. La
expresin general para la varianza es:

P
n 2
Xi X
i=1
S2 =
n 1

Al numerador se le conoce como la suma de cuadrados, es decir la suma de los cuadrados


de la desviacin. El nmero de observaciones es n, y recuerde que i recorre todos los datos.

Tabla 1. Desarrollo del clculo de la varianza



Dato Xi X (Xi X)2 Xi X
416 416 420:4 4:4 19.36 4:4
378 378 420:4 42:4 1797.76 42:4
390 390 420:4 30:4 924.16 30:4
454 454 420:4 33:6 1128.96 33:6
472 472 420:4 51:6 2662.56 51:6
413 413 420:4 7:4 54.76 7:4
440 440 420:4 19:6 384.16 19:6
441 441 420:4 20:6 424.36 20:6
379 379 420:4 41:4 1713.96 41:4
421 421 420:4 0:6 0.36 0:6
Suma 0 9110.40 252.0
29

Ejemplo 6

Calcular la varianza para los datos del ejemplo 5. En la Tabla 1 se han calculado los cuadrados
de las desviaciones y luego se sumaron, as la varianza es:

P
n 2
Xi X
i=1 9110:40
S2 = = = 1012:267
n 1 10 1

La varianza muestral ( S2 ) es la media del cuadrado de las desviaciones de cada


observacin con respecto a la media muestral.

Una expresin alternativa para calcular la varianza es:

P
n 2 P
n 2
Xi X Xi2 X
i=1 i=1
S2 = =
n 1 n 1

Observaciones
Para encontrar el promedio de la suma de cuadrados, se ha dividido entre n 1 y no exactamente
entre n. Esto se debe a dos razones. La primera es que, como se ve en la segunda columna de
la Tabla 1, la suma de las desviaciones es cero. Esto quiere decir que cualquier desviacin se
puede encontrar a partir de las nueve desviaciones restantes. De modo que el valor de la suma
de cuadrados depende slo de nueve desviaciones que son la libertad de variar de una muestra
a la siguiente. En general, se dice que la suma de cuadrados tiene n 1 grados de libertad.
La segunda razn es tema de la inferencia estadstica, y se puede decir que dividir la suma
de cuadrados entre n 1 hace que la varianza muestral (estadstico) sea un mejor estimador
de la varianza poblacional (parmetro). sta ltima se expresa mediante la letra griega sigma
minscula elevada al cuadrado,  2 .
La varianza  2 de la poblacin se dene por:

P
N
(Xi )2
i=1
2 =
N
Donde  es la media de la poblacin y N es el tamao de la poblacin.

Clculo de la desviacin estndar


A partir de la varianza de manera directa. Se calcula la desviacin estndar sacando la raz
cuadrada de la varianza. La frmula para la desviacin estndar es:
30 3. Estadsticas

v v
uP 2 uP
u n u n 2 2
u Xi X u Xi X
t t
S = i=1 ; o S = i=1
n 1 n 1

Para los datos del ejemplo 6 se saca la raz cuadrada y se obtiene el valor de S; as:

v
uP 2
u n r
u Xi X
t i=1 9110:40 p
S= = = 1012:267 = 31:816
n 1 10 1

En la prctica, se usa ms la desviacin estndar porque tiene las mismas unidades de


los datos originales.

La desviacin estndar:
La desviacin estndar muestral (S) es la raz cuadrada positiva de la varianza.
La desviacin estndar de la poblacin se denota por :

La desviacin estndar ; de la poblacin se dene por:

v
uN
uP
u (Xi
t i=1 )2
=
N

La desviacin media

Una medida que se menciona y aparece en muchos estudios es la desviacin media (DM ), la cual
consiste en sumar el valor absoluto de la desviacin. Por el momento slo se dir aqu que, debido
a propiedades matemticas se usan la varianza y desviacin estndar con mayor frecuencia.

n
P
Xi X
i=1
DM =
n

Para los datos del ejemplo 5, el clculo de DM es:

n
P
Xi X
i=1 252
DM = = = 25:2
n 10
31

Comparacin de la variacin en diferentes poblaciones

Una medida que permite comparar la variacin en diferentes poblaciones se conoce como el
coeciente de variacin. Esta medida no tiene unidades.

Coeciente de variacin
El coeciente de variacin muestral (CV) describe la desviacin estndar S
relativa a la media X y se expresa en porcentaje (%).

muestra poblacin

S
CV = X
100% CV =  100%

Considerando los datos del ejemplo 6, el CV es:

S 31:816
CV = 100% = = 7:57%
X 420:4

3.0.9 Medidas de posicin


Anteriormente se present la mediana de un conjunto de datos, esta es una medida que co-
rresponde exactamente al punto medio de los datos ordenados de menor a mayor, es decir que
corresponde al 50% de los datos que son menores o iguales a la mediana y el 50% de los datos
son mayores o iguales a la mediana. De esa manera la mediana divide a los datos en dos partes
iguales, en ese mismo sentido los tres cuartiles, denotados por C1 ; C2 y C3 ; dividen a los datos
en cuatro partes iguales.

Primer cuartil C1
El primer cuartil es el valor de los datos ordenados que representa al 25%, es decir:
al menos el 25% de los valores de datos ordenados son menores o igual a C1 y al
menos 75% de los valores son mayores o iguales a C1 :
Segundo cuartil C2
El segundo cuartil es el valor de los datos ordenados que corresponde a la mediana.
Tercer cuartil C3
El tercer cuartil es el valor de los datos ordenados que representa al 75%, es decir:
al menos el 75% de los valores de datos ordenados son menores o igual a C3 y al
menos 25% de los valores son mayores o iguales a C3 :

Nota. El procedimiento para la obtencin de los cuartiles no es un resultado universalmente


uniforme, puesto que diferentes programas estadsticos dan distintos valores para los cuartiles.
Aqu se ha considerado el siguiente: El primer cuartil es la mediana de los datos ordenados
menores o iguales a la mediana, el segundo cuartil es la mediana y el tercer cuartil es la mediana
de los datos mayores e iguales a la mediana.
32 3. Estadsticas

Ejemplo 7

Un profesor de historia aplica un cuestionario a sus alumnos sobre temas de historia universal y
nacional, el cuestionario es 20 preguntas de opcin mltiple. Los resultados de una muestra de
esos 15 alumnos son: 16, 9, 13, 15, 16, 19, 8, 11, 12, 6, 20, 17, 10, 18, 5.

Posicin 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Orden 5 6 8 9 10 12 12 13 15 16 16 17 18 19 20
C1 C2 C3

As, menos un cuarto de alumnos tiene 9 o menos aciertos. La mitad tiene 13 aciertos y 75%
tiene 17 o ms aciertos.

3.0.10 Diagrama de caja


Estas medidas de localizacin tienen una aplicacin que resulta relevante en el anlisis descriptivo
de los datos. El llamado diagrama de caja recoge la informacin de las medidas de posicin,
observa la Figura 3.2. La opcin 8 de grcas en el paquete, contiene el mecanismo para elaborar
los diagramas de caja.

Figura 3.2: Diagrama de caja para los datos del rompecabezas


33

Ejemplo 8

La variable de respuesta es el tiempo en que tardan en resolver el rompecabezas de la Repblica


Mexicana una muestra de 119 estudiantes de secundaria. Los datos aparecen en la columna
tiempo del archivo DatosEjemplo1.TAB, bloque Herramientas, en CalEst. Del reporte estadstico
generado por CalEst se consideran 5 valores, estos son los tres cuartiles, el mximo y el mnimo,
estos se muestran en la siguiente tabla:

Variable M in M ax C1 C2 C3
Tiempo 474 524 491 499 509

Con este reporte se elabora el diagrama de caja, Figura 3.2

Gua para la construccin del diagrama de caja


Paso 1. Trazar una lnea horizontal que incluya los valores mnimos y mximo.
Paso 2. Dibujar un rectngulo (caja), cuyos lados queden en
los puntos C1 y C3 :
Paso 3. Dentro de la caja, trazar una lnea en el punto que corresponde a la mediana.
Paso 4. Se traza una lnea de cada lado de la caja cuya extensin es: 1.5 (RIC).
Es decir para la izquierda:
L1 = C1 1:5(RIC)
y para la derecha
L2 = C3 + 1:5(RIC)
Paso 5. Si hay puntos mas all de estas lneas, stas se marcan con un asterisco (*).
Estas observaciones corresponden a datos anmalos
Paso 6. Si no existen datos anmalos, al nal de las lneas hay unas lneas pequeas.
A tales lneas se les conoce como "bigotes".

Ejercicios

1. El gasto (pesos) de transporte que realizan en una semana una muestra de 40 familias se
muestra a continuacin:

43; 52; 63; 55; 66; 78; 79; 87; 42; 43; 44; 49; 52; 53; 53; 53; 64; 58; 76; 78
70; 78; 86; 87; 90; 81; 84; 85; 97; 79; 88; 96; 91; 92; 89; 94; 60; 85; 85; 97:

(a) Traza un polgono de frecuencia acumulado y estima los cuartiles.


(b) Calcule las medidas de tendencia central e interpreta los resultados en el contexto del
problema.
(c) Estime la varianza, la desviacin estndar.
(d) Trace el diagrama de caja.
34 3. Estadsticas

2. La prdida de calcio es un problema que se presenta principalmente en las mujeres mayores.


Un mdico investiga, en una muestra de 40 mujeres, la prdida de calcio a lo largo de un
ao. A cada mujer le hace una medicin inicial de calcio y luego al ao siguiente una nueva
medicin. Los datos de prdida de calcio al ao son:

4; 4; 5; 10; 11; 8; 2; 5; 85; 17; 2; 15; 10; 8; 7; 13; 7; 1; 16;


3; 2; 0; 1; 11; 7; 1; 9; 6; 9; 11; 7; 16; 12; 3; 3; 11; 8; 7; 11:

(a) Encuentra la media y mediana muestral.

(b) Cul de las dos medidas dan mejor indicacin de la prdida de calcio?

(c) Estime la varianza, la desviacin estndar.

(d) Trace el diagrama de caja.

3. Para estimar el nmero de rboles de caf en una granja, el agrnomo divide la granja en
1000 pequeas parcelas. l selecciona de manera aleatoria 20 de estas parcelas y cuenta el
nmero de rboles. Los resultados son: Calcula el rango y el rango intercuartil para este
conjunto de datos. Qu informacin adicional le proporciona este nuevo clculo, unido al
de la media, la mediana y al primer y tercer cuartil?

41 56 47 59 24 37 23 53 44 43
62 28 54 41 30 44 52 69 34 46

4. Al inicio del semestre un profesor realiza una prueba para evaluar la lectura de comprensin
a una muestra de 20 alumnos. Se calica sobre 100, y los resultados de la prueba se
describen a continuacin:

24 31 54 62 36 28 37 55 18 27
58 32 37 41 55 39 56 42 29 35

Durante el semestre el profesor aplic un mtodo para mejorar la lectura de comprensin.


Al nalizar el semestre se utiliz una prueba similar a una muestra de 25 alumnos. Los
resultados son:

64 71 81 43 69 75 86 58 63 66 82 62 79
91 83 55 68 74 48 66 84 77 73 59 55

(a) Calcule el rango, el rango intercuartil y elabora un diagrama de dispersin, y traza la


media para el primer conjunto de datos.
35

(b) Calcule el rango, el rango intercuartil y elabora un diagrama de dispersin, y traza la


media para el segundo conjunto de datos.
(c) Result efectivo el mtodo del profesor para la lectura de comprensin?

5. A un grupo de estudiantes se les aplic un examen de opcin mltiple en geografa. Las


calicaciones que obtuvieron se dividieron en dos grupos: en el primero estn los que
sacaron entre 6 y 8; en el otro, los que obtuvieron una calicacin mayor que 8.

(a) El tiempo que emplearon los 22 estudiantes del primer grupo en contestar las preguntas
se muestra a continuacin:

95; 85; 87; 82; 98; 92; 92; 97; 103; 92; 94; 94; 94; 75; 98; 90; 100; 92
91; 92; 100; 87:

Calcula la desviacin media, la varianza y la desviacin estndar del tiempo. Luego,


completa el resumen estadstico. Elabora el diagrama de tallo y hoja para estos datos.
(b) El tiempo que emplearon los 23 estudiantes del segundo grupo en contestar las pre-
guntas se muestra a continuacin:

122; 116; 120; 121; 120; 115; 118; 115; 113; 112; 117; 115; 122; 119
119; 126; 117; 118; 120; 123; 120; 125; 112:

Calcula la desviacin media, la varianza y la desviacin estndar del tiempo. Luego


completa el resumen estadstico. Elabora el diagrama de tallo y hoja para estos datos.
(c) Compara los resultados de los incisos a y b. Qu puedes concluir?

(d) Trace los diagramas de caja para cada caso y haga un anlisis comparativo.

6. Una empresa que elabora alimentos procesados realiza pruebas para determinar la vida de
anaquel de un nuevo producto. En el estudio se consideran 21 productos. El nmero de
das que duraron los productos sin descomponerse se presenta en el siguiente cuadro.

152; 152; 115; 109; 137; 88; 94; 77; 160; 165; 125; 40; 128; 136; 101;
62; 153; 83; 69; 132; 120:

(a) Calcule desviacin media, la varianza y la desviacin estndar.

(b) Complete el resumen estadstico para este conjunto de datos.

(c) En cada caso interprete su valor.


36 3. Estadsticas

(d) Trace el diagrama de caja e interprete.

7. Los mdicos de una clnica probaron dos tratamientos para reducir los niveles de colesterol.
El tratamiento 1 se aplic a 13 pacientes. El nivel de colesterol se midi antes de la
aplicacin y despus de ella. Los datos que indican la reduccin son:

54; 39; 44; 53; 56; 66; 34; 61; 36; 67; 32; 22; 40:

El segundo tratamiento se emple en 11 personas y los resultados fueron:

40; 31; 50; 40; 52; 44; 74; 38; 81; 64; 66:

Con base en los datos responda lo siguiente:

(a) Calcule desviacin media, la varianza y la desviacin estndar para el primer tratamiento.

(b) Calcule desviacin media, la varianza y la desviacin estndar para el segundo tratamiento.

(c) En qu tratamiento hay mayor variacin.

(d) Complete un resumen estadstico para cada tratamiento.

(e) Intuitivamente menciona cul tratamiento es mejor. Interprete tus resultados.

(f) Diagramas de caja.


Captulo 4

Probabilidad

En esta parte se presentarn los conceptos bsicos de probabilidad para conocer sus deniciones
y las propiedades. En la parte de herramientas en el CalEst en la opcin didctica se describen
una serie de elementos para motivar el aprendizaje y comprensin de la probabilidad. En la
Figura 4.1 se describen estas alternativas.
Con la nalidad de comprender cmo funciona esta opcin didctica, a continuacin se des-
cribirn, denirn e ilustrarn algunos de los conceptos bsicos en probabilidad.

Objetivo:

Comprender los conceptos de espacio muestral, evento y el clculos de probabilidad

4.1 Espacio muestral y eventos


Espacio muestral

Para entender lo que es un espacio muestral es necesario denir el concepto experimento. Un


experimento es cualquier proceso que genera una observacin (por ejemplo, al nacer un beb se
registra el sexo). Sin embargo, cabe aclarar que el concepto de experimento que mencionamos es
ms amplio que el empleado en las ciencias fsicas, donde se usan diferentes equipos como tubos
de ensayo, etc. Otros ejemplos de experimentos son: 1. Anotar la preferencia de un cliente por
la marca de un telfono. 2. Registrar la opinin de una persona respecto a la pldora del da
despus. 3. Medir la concentracin de oxgeno en un ro contaminado. 4. Lanzar un dado y
anotar el nmero de la cara que queda arriba.

Un experimento aleatorio es el resultado de un proceso que genera una


observacin que no puede predecirse.

Se llamarn sucesos aleatorios a los resultados posibles de un experimento aleatorio.

37
38 4. Probabilidad

Figura 4.1: Elementos de probabilidad en el proceso de enseanza y aprendizaje.

Ejemplo 1

Una experiencia aleatoria consiste en preguntar a una persona, elegida al azar de un grupo de
10 clientes, si es partidaria o no de consumir un determinado producto. Los sucesos aleatorios
en este caso son dos: es partidaria, no es partidaria.

Entre los resultados, se distingue a los sucesos elementales o simples,


pues stos no pueden descomponerse en otros ms simples, y los
compuestos son los que se componen de dos o ms sucesos elementales.

Se puede considerar cada suceso elemental asociado a un experimento como un elemento


del conjunto formado por todos los sucesos elementales posibles asociados a ese experimento.

Denicin

A la coleccin, o al conjunto de todos los resultados posibles distintos que pueden ocurrir
cuando un experimento es efectuado se le llama espacio muestral para el experimento.
Esta coleccin de resultados tiene la propiedad de que cuando el experimento es
efectuado, uno y solo uno de estos resultados puede ocurrir.
4.1. Espacio muestral y eventos 39

Ejemplo 2

Considere el experimento de lanzar una moneda. Existen dos resultados posibles: cara, sello.
Identicar los sucesos elementales y escribir el espacio muestral. Usar la opcin de volados en
CalEst.

Solucin
Los sucesos elementales son: e1 = cara; e2 = sello:

M = fe1 ; e2 g

Nota. En el tradicional juego de volados, los resultados posibles se consideraban el guila y


sol. En la mayora de libros de estadstica y probabilidad contemplan como resultados la cara y
sello. Ambas situaciones son similares, en este trabajo se consideran indistintamente estas dos
opciones.

Ejemplo 3

Las calicaciones de 50 estudiantes para la materia de literatura se dividen en 5 categoras A, B,


C, D y E. El experimento aleatorio consiste en seleccionar de manera aleatoria a un estudiante
y observar en qu categora est su calicacin. Identicar los sucesos elementales y escribir el
espacio muestral. Proponer un suceso compuesto.

Solucin
Los sucesos elementales son 5 resultados posibles: e1 = A; e2 = B; e3 = C; e4 = D; e5 = E: Todos
los resultados posibles para los 50 estudiantes se representan en el conjunto:

M = fe1 ; e2 ; e3 ; e4 ; e5 g

Un suceso compuesto es fe4 ; e5 g , que consta de dos sucesos elementales. En el contexto del
ejemplo se puede referir a que los alumnos que obtengan una calicacin en las categoras D y
E tienen que entregar un trabajo extra para aprobar el curso. Como analoga a este ejemplo se
pueden usar las ruletas (F), luego seleccionar una ruleta con 5 opciones. En este caso cada una
de las categoras tiene la misma probabilidad de ocurrir. En otro caso usar una de las ruletas
aleatorias (A).
En resumen:
Se dice que un experimento es aleatorio si se cumplen los siguientes puntos:

 Se repite bajo condiciones idnticas.


40 4. Probabilidad

 El resultado observado no se puede predecir.

 El resultado que se obtiene, pertenece a un conjunto conocido previamente de resultados


posibles. A este conjunto, de resultados posibles, se denomina espacio muestral:

Ejemplo 4

Se describen varios casos de experimentos aleatorios, sealando todos sus posibles resultados.

Experimentos aleatorios M: Muestral


Conocer el estado de salud de una persona. {Sano, enfermo}
Observar el tiempo de vida de una lmpara. [0; +1]
Observar el tiempo de vida de un virus. [0; +1]
Contar el nmero de vehculos que pasan por una caseta
durante un intervalo de 15 minutos. {0; 1; 2:::}
Observar el nmero de viajeros que usarn el autobs. {0; 1; 2:::}
Contestar al azar un examen. {Verdadero, falso}
Cobrar una pliza de seguro. {Si, no}
Pesar a una persona. (0; 200)*
En un juego de azar tirar un dado de seis caras. {1; 2; 3; 4; 5; 6}

(*) Suponiendo que el peso no es mayor que 200 kg.

Ejemplo 5

En un estudio sobre el hbito de lectura de jvenes entre los 15 y 20 aos se estim que 50% no
lee un libro (ciencia ccin, divulgacin, novela, literario, otros gneros atractivos) durante las
vacaciones de verano. Al regreso a clases se seleccion de manera aleatoria a tres estudiantes y
se les pregunt si haban ledo en las vacaciones. En la raya responde S o No a la siguiente
pregunta: Leste un libro en estas vacaciones?

 Escriba una lista del espacio muestral Figura 4.2.

 Escriba una lista de los siguientes eventos:

Evento A: Exactamente dos de tres leyeron.


Evento B: Slo uno ley.
Evento C: Los tres leyeron.
Evento D: Al menos uno de los tres ley.
4.1. Espacio muestral y eventos 41

Figura 4.2: Descripcin de los posibles resultados en el hbito por la lectura.

Solucin

Una de las metas en el estudio de la probabilidad es alcanzar el dominio y la habilidad en la


elaboracin de la lista de los resultados del experimento. El diagrama de rbol es un grca que
resulta til para alcanzar ese n.
Para comprender el ejemplo se construye un diagrama de rbol. Cada uno de los alumnos
responder que s ley con una (s) y que no ley por medio de una (n). En la Figura 4.2 se
describen las posibilidades sobre la prctica de lectura de los tres estudiantes.
A partir del diagrama de rbol, tendremos denido el espacio muestra, y ste queda
descrito por:

M = f(sss); (ssn); (sns); (snn); (nss); (nsn); (nns); (nnn)g

La segunda parte del ejemplo consiste en obtener los diferentes eventos. stos se obtienen
a partir del espacio muestral . De los resultados se construye cada uno de los eventos. As:
A = f(ssn); (sns); (nss)g
B = f(snn); (nsn); (nns)g
C = f(sss)g
D = f(sss); (ssn); (sns); (snn); (nss); (nsn); (nns)g
Nota 1: En la construccin del espacio muestra de este ejemplo, se puede tener como analoga
el lanzamiento de monedas, ir a la opcin de volados para generar el espacio muestra: tres
monedas en este caso. Si cambia el valor de p = 0:5 ir a la opcin volados (binomial) y en el caso
de n > 20 ir a la distribucin binomial.
Nota 2: Para ver otras ramicaciones ver la opcin de rboles.
42 4. Probabilidad

Figura 4.3: Espacio muestral al lanzar un dado y la probabilidad.

Denicin
Un evento es una coleccin, o el conjunto de alguno de los resultados posibles
de un espacio muestral. Dicho de otra manera, un evento es un subconjunto del
espacio muestra. Se dice que un evento ocurre si, al realizar un experimento, uno
y solo uno de los resultados que lo componen ocurre.

4.2 Probabilidad de un evento


Entre la opcin didctica est el lanzamiento del dado, al seleccionarla se genera una pantalla
como la que se muestra en la Figura 4.3. En sta se han realizado 250 lanzamientos, la frecuencia
con la que apareci la cara del dado se muestra en el diagrama de barras. Este resultado
permitir plantear y comprender cmo calcular la probabilidad de un evento. Por ejemplo, se
puede observar que la cara del dado con el nmero apareci 50 veces de los 250 lanzamientos.

Notacin para las probabilidades


P denota la probabilidad
Las letras A, B y C denotan eventos especcos
P(A) indica la probabilidad de que el evento A ocurra
4.2. Probabilidad de un evento 43

Probabilidad Emprica
Se realiza un experimento, y se cuenta el nmero de veces que el evento A ocurre.
La probabilidad emprica del evento A es la frecuencia relativa de A, as P(A) es:

Nmero de veces que A ocurri f


P (A) = =
Nmero de veces que se repiti la prueba N

Lanzamiento dado De la Figura 4.3, considere, por ejemplo, el evento A = fel dado muestre
el nmero uno}. Se observa que la probabilidad emprica de A es P (A) = 50
250
= 0:2: Si el
experimento de lanzar el dado es repetido una y otra vez, la probabilidad emprica de un evento
se aproxima a la probabilidad terica del evento.

Lanzamiento moneda Al lanzar una moneda muchas veces, n es grande, se puede observar
una estabilizacin de la frecuencia relativa, eso da lugar a lo que se conoce como frecuencia
relativa, o la ley de los grandes nmeros. A nivel de prctica puede realizar el lanzamiento de la
moneda en el bloque didctica del CalEst. Observe que el espacio muestral es M = f
aguila; solg,
se pueden lanzar un nmero de monedas que va desde una hasta cien, repetir el procedimiento las
veces que se desee. En la Figura 4.4 se ilustra el lanzamiento de 200 monedas. La probabilidad
de obtener un guila P (
aguila) se aproxima a 0.5.

Probabilidad Clsica o Terica


Se supone que un experimento tiene n diferentes eventos simples y cada uno de estos
tiene la misma posibilidad de ocurrir. Si un evento A ocurre en s de esas n, entonces:

Nmero de resultados de A s
P (A) = =
Nmero de resultados en el espacio muestral n
El espacio muestra en lanzamiento del dado es M = f1; 2; 3; 4; 5; 6g el evento A de que la cara
del dado caiga en el nmero 1: A = f1g; se sigue que P (A) = 1
6
= 0:1666:
En resumen:
La probabilidad satisface las siguientes propiedades:

 La probabilidad de un evento imposible es 0.

 La probabilidad de un evento que tiene una certeza de ocurrir es 1.

 Para cualquier evento A, la probabilidad de A est entre 0 y 1 inclusive, esto es: 0 


P (A)  1:
44 4. Probabilidad

Figura 4.4: Descripcin de los resultados del lanzamiento de la moneda.

4.2.1 Eventos compuestos


Un evento compuesto es aquel que se puede expresar como una combinacin de otros even-
tos. A continuacin se presentan algunos resultados para encontrar la probabilidad de eventos
compuestos.

Regla aditiva

La regla de la adicin como un procedimiento para encontrar la probabilidad que se expresa


como P(A o B), la probabilidad que ocurra el evento A o el evento B, o que ocurran ambos,
como el resultado de una sola prueba de un experimento.
Nota. Cuando se calcula la probabilidad de que el evento A ocurre o que el evento B ocurre,
consiste en calcular el total de formas que ocurre A y el de formas que ocurre B, pero de tal
manera que los resultados no se cuenten ms de una vez. Regla de la adicin:

Regla aditiva
Consideremos dos eventos A y B. Entonces
P (A [ B) = P (A) + P (B) P (A \ B)
donde P (A \ B) denota la probabilidad que A y B ocurren a la vez como un resultado
en la prueba experimental
4.2. Probabilidad de un evento 45

Ejemplo 6

En el lanzamiento de un dado de seis caras considere los siguientes eventos:


A: el dado marque un nmero impar= {1,3,5}
B: el dado marque un nmero mayor que 4 = {5,6}
C: el dado marque un nmero primo = {2,3,5}
Nota. Vea la opcin lanzamiento de un dado, Figura 4.3.
Cul es la probabilidad de A [ B; A [ C y B [ C? aplicando la regla aditiva:

3 2 1 4
P (A [ B) = P (A) + P (B) P (A \ B) = + = :
6 6 6 6

Estime los otros dos casos.

Denicin:
Dos eventos A y B son ajenos o mutuamente excluyentes
si entre ellos no hay un resultado comn y

P (A \ B) = 0

Regla del complemento

El complemento del evento A se denota por Ac , consiste de todos los resultados en los que el
evento A no ocurre. As P (A) + P (Ac ) es la suma de las probabilidades, los sucesos elementales
que estn en A ms la suma de las probabilidades de los sucesos elementales que no est
an en
A. Juntando estos dos eventos se forma el espacio muestral M y P (M ) = 1. En consecuencia,
P (A) + P (Ac ) = 1 .

Regla del complemento


Consideremos a A un evento con probabilidad P (A): Entonces, P (Ac ) = 1 P (A):

Los diagramas de Venn son un auxiliar grco para representar un evento. En la Figura 4.5 se
utilizan los diagramas de Venn para representar la relacin de eventos.
En el bloque didctica en CalEst est la opcin de lanzar dos dados, en la Figura 4.6
aparece la descripcin del espacio muestral, la estimacin de probabilidad emprica, el clculo
de probabilidad clsica para los eventos simples y el casino donde se puede generar varios cl-
culos de probabilidades aplicando las reglas. Por ejemplo, cul es la probabilidad de que al
lanzar dos dados ambos sean iguales o que la suma sea 7? El evento A ambos dados mar-
que el mismo nmero, A = f(1; 1); (2; 2); (3; 3); (4; 4); (5; 5); (6; 6)g -observe el espacio muestra
46 4. Probabilidad

Figura 4.5: Representacin grca de las relaciones bsicas entre dos eventos.

Figura 4.6. El evento B los datos suman 7: B = f(1; 6); (2; 5); (3; 4); (4; 3); (5; 2); (6; 1): As
P (A [ B) = P (A) + P (B) = 6
36
+ 6
36
= 13 : Los eventos A y B son mutuamente excluyentes.
Se formula la regla para la suma de eventos excluyentes:

Regla aditiva para eventos mutuamente excluyentes


Si los eventos A y B son mutuamente excluyentes, entonces
P (A [ B) = P (A) + P (B)

4.2.2 Independencia y probabilidad condicional


Ahora considere el caso en que dos eventos pueden ocurrir de manera simultnea, y si uno sucede
pero que no afecta la probabilidad de ocurrencia del otro. Es decir, la probabilidad de que ocurra
el evento A no afecta la probabilidad de que suceda B. En este caso, se dice que los eventos A
y B son independientes.
Por ejemplo, si se lanzan dos monedas, el hecho de que la primera caiga cara no afecta
a lo que sucede al lanzar la segunda moneda. Sus resultados son independientes.
La probabilidad de A como la de B es 1
2
de que caiga cara. En ese sentido la probabilidad
de B permanece como 1
2
sin importar lo que pase al lanzar la otra moneda. El espacio muestral
M = fcc; cs; sc; ssg y 1
4
es la probabilidad de que ambas monedas caigan cara A \ B: fccg. Si se
multiplica la probabilidad A por la de B, es decir P (A)P (B), se tiene que es 1
4
. En resumen:

Eventos independientes
La probabilidad de que ocurra el evento A no afecta la probabilidad de que
suceda B. En este caso, se dice que los eventos A y B son independientes:
Si los eventos A y B son independientes, entonces P (A \ B) = P (A)P (B):

Ntese que
4.2. Probabilidad de un evento 47

Figura 4.6: Descripcin de elementos de probabildad al lanzar dos dados.

Diferencia entre eventos mutuamente excluyentes e independientes


 Si los eventos A y B son mutuamente excluyentes, entonces P (A \ B) = 0:
 Si los eventos A y B son independientes, entonces P (A \ B) = P (A)P (B):

4.2.3 Probabilidad condicional


Si los eventos A y B se relacionan, la informacin que nos proporciona A cuando B ha ocurrido
es importante para mejorar la evaluacin de la probabilidad de A. La probabilidad corregida de
A, esto es, cuando se sabe que B ha ocurrido, se llama probabilidad condicional de A dado B y
se denota por P (AjB).

La probabilidad condicional de un evento A dado que un evento B ha ocurrido se establece


dividiendo la probabilidad de que A y B ocurren entre la probabilidad de que B ocurri,
esto es, se debe vericar que es, P (B) es diferente de cero.

P (A \ B) P (B \ A)
P (AjB) = ; o P (BjA) = :
P (B) P (A)
48 4. Probabilidad

Figura 4.7: Espacio muestra y clculo de probabilidades para una moneda y un dado

Si los eventos son independientes se tiene:

P (AjB) = P (A), o si P (BjA) = P (B):

Una moneda (cara, sello) y un dado de seis caras son lanzados, Figura 4.7. Encontrar la
probabilidad de obtener una cara al lanzar la moneda y que el dado caiga en seis. El espacio
muestra es:
M = fc1; c2; c3; c4; c5; c6; s1; s2; s3; s4; s5; s6)

Los eventos son A: salga cara y B : caiga un 6. La probabilidad de A es P (A) = 1


2
; y
P (B) = 16 : Los eventos son independientes, entonces

1 1 1
P (A y B) = P (A)P (B) =  = ' 0:083
2 6 12

As la probabilidad de que al lanzar la moneda salga cara y al tirar el dado marque 6 es aproxi-
madamente 0.083.

Clculo de probabilidades lanzando dado con diferentes nmero caras

En la Figura 4.8 se muestra una opcin para el clculo de probabilidades, en esta se tienen tres
dados. Con el signo ms se considera los dados que se lanzan, as por ejemplo en esa gura se
describe el lanzamiento de dos dados, uno de cuatro lados y otro de 12, existen 48 posibilidades
4.2. Probabilidad de un evento 49

Figura 4.8: Lanzamiento de tres tipos de dados

diferentes al lanzar estos dos dados, como se ve en la Tabla 4.1.

1 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 7 8 9 10 11 12 13
2 3 4 5 6 7 8 9 10 11 12 13 14
3 4 5 6 7 8 9 10 11 12 13 14 15
4 5 6 7 8 9 10 11 12 13 14 15 16

Tabla 4.1 Suma al lanzar los dados de 4 y 12 caras.

En la hoja se presenta el espacio muestra que indica la suma de los nmeros que marcan los
dados. En este caso se puede preguntar por la probabilidad de que la suma de los dados sea un
nmero primo, es decir P (la suma sea un nmero primo) = 19
48
:
Usando estos dados se pueden organizar varias prcticas para el clculo de probabilidades.
Nota. Apretando el signo ms con el botn del ratn, se activa un dado, con el signo menos
se quita el dado.

Ejemplo 7.

Se lanza de manera independiente dos dados, el primero de 4 caras y el segundo de doce caras,
en ambos casos se observa el nmero que cay.
50 4. Probabilidad

 Cul es la probabilidad de que el primer dado muestre un nmero par? P (n


umero
2 1
par) = 4
= 2

 Cul es la probabilidad de que el segundo muestre un nmero impar? P (n


umero par) =
6 1
12
= 2

 Cul es la probabilidad de que la suma sea impar? P (n


umero impar) = 24
48
= 12 :

Ejercicio 1

a.- Se lanza un dado de seis caras. encuentre la probabilidad en cada uno de los siguientes
eventos
b.- Evento A: Caiga un 3,

c.- Evento B: Caiga un nmero menor que 5

d.- Evento C: Caiga un nmero impar.

e.- Evento D: Caiga un nmero primo.

f.- Use el simulador de lanzamientos de dados en CalEst, slo se pueden lanzar de 100 en 100.
Si se lanza un dado, cien veces, mil veces, cinco mil veces escriba las frecuencias registradas
y complete la tabla, qu puede concluir?

X 1 2 3 4 5 6
F recuencia(100)
F recuencia(1000)
F recuencia(5000)

Ejercicio 2

Considere el experimento de lanzar un par de dados, suponga que X es la suma de los valores que
marcan al caer. En la siguiente tabla se resumen los resultados y las probabilidades relacionadas.

X 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 5 4 3 2 1
P (X = x) 36 36 36 36 36 36 36 36 36 36 36

a.- Use la opcin de grcas en el programa y trace el diagrama de barras para estos valores.
Estime las probabilidades P (X  11) y P (X  2):

b.- Considere los eventos E obtener una suma que sea un nmero par y F obtener una suma que
sea un nmero primo. Hallar la probabilidad P (E [ F ) y P (E [ F ):
4.2. Probabilidad de un evento 51

c.- Use el simulador de lanzamientos de dados en CalEst, slo se pueden lanzar de 100 en 100.
Si se lanza el par de dado, cien veces, mil veces, cinco mil veces escriba las frecuencias
registradas y complete la tabla, qu puede concluir?

X 2 3 4 5 6 7 8 9 10 11 12
F recuencia(100)
F recuencia(1000)
F recuencia(5000)

Ejercicio 3

El juego craps consiste en lanzar dos dados, referencia ejercicio anterior, este considera las reglas
que a continuacin se describen.

a.- Si se obtiene una suma de 7 u 11 en la primera tirada, gana. Cul es la probabilidad de


ganar en la primera tirada?

b.- Si se obtiene una suma de 2, 3 o 12 en la primera tirada se pierde el juego. Cul es la


probabilidad de perder en la primera tirada?

c.- Si se obtiene una suma de 4, 5, 6, 7, 8, 9, o 10 en la primera tirada ni se pierde ni se gana el


juego. Cul es la probabilidad de que no se pierde ni se gana en la primera tirada?

d.- Cul es la probabilidad de obtener una suma de 1 en cualquier tirada?

e.- Cul es la probabilidad de obtener una suma menor que 13 en cualquier tirada?

f.- Si los dados se tiran 60 veces, estime cuntas veces se obtendr una suma de 7?

Ejercicio 4.

Se lanzan dos dados y se calcula la diferencia entre los valores de mayor a menor situacin que
se describe en la siguiente tabla:

X 0 1 2 3 4 5
6 10 8 6 4 2
P (X = x) 36 36 36 36 36 36

a.- Use la opcin de grcas en el programa y trace el diagrama de barras para estos valores.
Estime las probabilidades P (X  5) y P (X  1):

b.- Pedro y Pablo juegan a los dados y calculan la diferencia tal como se ha descrito. Pedro gana
si la diferencia es 0, 1, o 2. Pablo gana si la diferencia es 3, 4 o 5. Cul es la probabilidad
de que Pedro gane? Cul es la probabilidad de que Pablo gane?
52 4. Probabilidad

Ejercicio 5.

Se lanza de manera independiente dos dados, el primero de 4 caras y el segundo de 6 caras, en


ambos casos se observa el nmero que cay. Complete la siguiente tabla tal que en el segundo
rengln se calcule la probabilidad de la suma de los valores que muestra cada dado.

X 2 3 4 5 6 7 8 9 10
P (X = x)

 Cul es la probabilidad de que el primer dado muestre un nmero par? P (n


umero par) =

 Cul es la probabilidad de que el segundo muestre un nmero impar? P (n


umero impar) =

 Cul es la probabilidad de que la suma est entre 4 y 8?

Ejercicio 6.

Se lanza de manera independiente dos dados, el primero de 6 caras y el segundo de 12 caras, en


ambos casos se observa el nmero que cay. Complete la siguiente tabla tal que en el segundo
rengln se calcule la probabilidad de la suma de los valores que muestra cada dado.

X 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
P (X = x)

 Sea E el evento que el primer dado sea mayor que 3, calcule P (E).

 Sea F el evento que el segundo dado sea mltiplo de 3, calcule P (F ).

 Cul es la probabilidad de que la suma est entre 4 y 12?

 Cul es la probabilidad de que la suma sea menor a 4 o mayor a 16?

Clculo de probabilidad con ruletas

A continuacin se presenta la posibilidad de el clculo de probabilidades usando ruletas. En la


Figura 4.9 se muestra la oportunidad de dividir dos ruletas con diferentes opciones esto permite
crear varias prcticas para obtener probabilidades con colores, nmeros y letras. En la Figura
4.10 se crean situaciones similares, pero adems la divisin de los crculos se puede generar de
manera aleatoria. En este caso se genera la frecuencia al girar las ruletas lo que permite estudiar
la regularidad estadstica y as estimar probabilidades en trminos de la frecuencia.
4.2. Probabilidad de un evento 53

Figura 4.9: El caso de dos ruletas con cuatro colores, tambin se puede considerar el caso de la
combinacin de nmeros y letras.

Ejemplo 8

 Cul es la probabilidad de que ambas ruletas tengan el mismo color? Se tienen que se
repiten 4 colores de 16 resultados posibles entonces P (E : mismo color) = 4
16
= 0:25

 Cul es la probabilidad de que al menos una de las ruletas sea azul? En el espacio muestra
se cuenta en el nmero renglones que tienen al menos un azul, de estos hay 7, as P (F : al
menos una es azul) = 7
16
= 0:4375

 Considere los nmeros y las letras en la primer y segunda ruleta respectivamente, ahora
se denen los evento E como los nmeros: E = f1; 2; 3; 4g; y el F como las letras: F =
fA; B; C; Dg. Cul es la probabilidad de que al girar ambas ruletas la echa marque un
nmero par y una consonante? R: rojo y A: amarillo corresponden a los nmeros pares
y R: rojo, V: verde y A: amarillo se asocian a las consonantes, de esa manera se tiene
H = f(R; V ); (A; A); (R; A); (A; R); (R; R); (A; V )g de manera equivalente el evento H se
escribe por H = f(2; C); (4; D); (2; D); (4; B); (2; B); (4; C)g. Entonces la probabilidad es
0.375, o sea P (H) = 0:375
54 4. Probabilidad

Ejercicio 7

Use la opcin de ruletas, considere slo una de ellas y divdela en nueve partes iguales. Tome
en cuenta los nmeros en cada color y sean los eventos E: obtener un nmero par y G: obtener
un nmero divisible entre 3, es decir: E = f2; 4; 6; 8g; G = f3; 6; 9g: Calcule las siguientes
probabilidades: a.- P (E [ G); b.- P (E); c.- P (E \ G); d.- P (Factor de 35); e.- P (6 o 2):

Ejercicio 8

Utilizar las ruletas de la opcin 1, con cuatro grupos cada una de ellas. Supngase que se asignan
los valores 3 al azul, 4 al rojo, 5 al verde, 6 al amarillo. Se plantea construir una fraccin, para
ello realice el siguiente experimento, el valor que marque la echa en la ruleta superior pngalo
en numerador y el valor que marque la otra ruleta pngalo en el denominador. Cul es la
probabilidad de que la fraccin sea mayor que 32 ?

Ejercicio 9

Con las ruletas: Un experimento consiste en girar la ruleta superior dividida en cuatro considere
los nmeros 1, 2, 3 y 4, despus gire la ruleta de abajo donde el azul o letra A vale 1 y el rojo o
letra B vale 2. Cul es la probabilidad de que a.- el nmero en la ruleta superior sea mayor que
en la ruleta inferior, b.- en ambas ruletas sea un nmero par, c.- el resultado sean dos enteros
consecutivos en cualquier orden?

Ejercicio 10

En referencia a las dos ruletas se divide cada una de ellas en 3 grupos, a los colores se les asignan
valores como se indica a continuacin: en la ruleta de arriba los colores azul, verde y rojo valen
4, 8 y 6 respectivamente, de manera equivalente en la ruleta de abajo los colores azul, verde y
rojo valen 10, 3 y 5. Se plantea realizar un juego, este consiste en que la ruleta que tenga el
nmero mayor gana, si se desea ganar Qu ruleta escogera? Por qu?

Ruleta 2
Ejercicio 11

Relacionada con la Figura 4.10 a.- Cul es la probabilidad que al girar ambas ruletas la echa
marque el color negro en la primera y color verde en la segunda? b.-Cul es la probabilidad de
que la primer ruleta no se detenga en el negro? c.- Cul es la probabilidad de que en la segunda
ruleta no pare en el verde? d.- Cul es la probabilidad de que ambas ruletas la echa marque
4.2. Probabilidad de un evento 55

Figura 4.10: Ruletas con varias opciones para el clculo de probabilidades.

azul? e.- Cul es la probabilidad de que en la primera ruleta se pare en amarillo o la segunda
se detenga en verde?

Ejercicio 12

Use esta segunda opcin de ruletas en el programa, seleccione en la primera ruleta 2 grupos y en
la segunda 3 grupos en ambos casos idnticos.

1. Halle el espacio muestra para este experimento.

2. Calcule las siguientes probabilidades de que a.- La primera sea roja y la segunda amarilla.
b.- La segunda no sea amarilla. c.- La primera sea azul y la segunda no sea amarilla. d.-
Ambas rojas.

3. 2.- Luego en el nmero de tiradas vaya haciendo de cien en cien hasta completar quinientos,
en cada caso observe la tabla de frecuencias utilice la ltima para estimar las probabilidades.
Estime la probabilidad, frecuencia de que a.- La primera sea roja y la segunda amarilla.
b.- La segunda no sea amarilla. c.- La primera sea azul y la segunda no sea amarilla. d.-
Ambas rojas.

4. Compare sus resultados 2 y 3.


56 4. Probabilidad

Ejercicio 13

Con la segunda opcin de ruletas, dibuje las siguientes ruletas la superior con tres grupos el azul
con 59 ; el rojo con 2
9
y el verde con 29 : La segunda ruleta con dos grupos el azul con 6
11
y el rojo
con 5
11
:

1. Cul es la probabilidad de que al girar ambas ruletas la echa se detenga en azul?

2. En cul de ellas tiene mayor posibilidad de que la echa marque azul?

3. Gire varias veces la ruleta, digamos unas 600 veces y vea la tabla de frecuencia, qu ruleta
tiene mayor posibilidad de ganar con el azul?

Ejercicio 14

Utilizando la segunda opcin de las ruletas simule la situacin de lanzar dos dados, es decir,
divida las ruletas en 6 partes iguales cada una. Luego gire varias veces de cien en cien y vea
las frecuencias generadas compare estos resultados con el lanzamiento de los datos. En este
caso se pueden buscar varias situaciones para generar clculo de probabilidades, por ejemplo la
probabilidad de que una de las ruletas sea roja y la otra azul, o una azul y la otra roja, equivale
a la probabilidad de que la suma de los dados sea tres.

Probabilidades usando ramicaciones


Se presenta una serie de ramicaciones para el clculo de probabilidades, en cada caso se aplica
la estimacin de probabilidades aplicando las deniciones tanto clsica como frecuentista, Figura
4.11. En esta gura se muestra una entrada con tres salidas, en la primera divisin la canica
tiene una probabilidad de continuar de 12 , este valor prevalece si va por la rama de la derecha,
por la izquierda se encuentra con otra ramicacin; de nuevo la probabilidad es 12 ; entonces la
probabilidad de salida por algunas de esas ramas 1 o 2, es 1
2
 1
2
= 14 : En la ilustracin de la
Figura 4.11 se lanzaron 300 canicas, 79 salieron por la rama 1, 77 por la rama 2 y 144 por la rama
3, as 79
300
73
= 0:2633(26:33%); 300 = 0:2567(25:67%) y 144
300
= 0:48(48%): Estos resultados tienden
al valor de la probabilidad cuando n es cada vez ms grande.

Ejercicio 15

1. Simule salidas por las 5 rboles diferentes y estime el porcentaje de salidas al lanzar la
canica, 300, 1000, 2500, 5000 veces. Qu observa?

2. Calcule la probabilidad de salida en cada unos de los rboles.


4.2. Probabilidad de un evento 57

Figura 4.11: Opciones de clculo usando rboles o ramas

Probabilidades mediante extraccin de canicas

El clculo de probabilidades mediante la extraccin de canicas, o bolas, es un problema clsico,


bajo este sistema se generan una buena cantidad de ejemplos para ilustrar las reglas de probabi-
lidad y situaciones diferentes. Se ha simulado un mecanismo mediante el cual se pueden extraer
canicas con cuatro colores distintos, se consideran los casos de reemplazo y sin reemplazo. Un
nmero de canicas se pueden seleccionar en cuatro selecciones posibles, se puede ir de lo ms
sencillo a lo ms complejo. Una vez planteado un problema, se realiza la extraccin de un nmero
establecido de canicas con reemplazo o sin reemplazo; de esa manera el usuario puede indicar
de qu color sern las canicas que extraer. Segn el planteamiento, el usuario puede dar su
resultado y luego conrmarlo con la solucin que se proporciona en el programa de opciones
didcticas: bolsa de canicas. Antes de dar el resultado se puede consultar el espacio muestra
que se proporciona, de manera compacta, como una alternativa. En los siguientes ejemplo se
describen algunos casos posibles para usar las bolsas de canicas. Con canicas de dos colores se
puede simular el espacio muestra para los casos en que la variable aleatoria de respuesta tiene
dos valores: xito y fracaso, defecto y no defecto. As por ejemplo al lanzar dos monedas tres
veces, se pueden tener tres canicas amarillas y tres rojas, con el amarillo representar la cara en
la moneda y el rojo el sello. El nmero de extraccin son tres canicas y calcular la probabilidad
de que caigan al menos una cara es equivalente a observar al menos una canica amarilla. Estas
ideas se pueden llevar al plano de problemas reales.
58 4. Probabilidad

Figura 4.12: Bolsa de canicas y clculo de probabilidades izquierda, nmero de posibilidades


derecha.

Ejemplo 9

Javier invit a tres amigos a jugar Wii, cada uno de ellos llevaba una gorra al entrar se la quitaron
y la pusieron en una silla. Cuando terminaron de jugar, Javier les di una gorra, al azar, a cada
uno de sus amigos. Cul es la probabilidad de que los tres recibieron su gorra? Para resolver
este ejemplo se usar la bolsa de canicas que viene en el grupo Didctica del programa. Ah
escogemos tres como se muestra en la Figura 4.12 a la izquierda para representar cada una de
las gorras.
Sugerencia para usar esta opcin, aparecen el nmero de canicas a extraer sin reemplazo o con
reemplazo. Por ejemplo, si selecciona extraer 3 canicas, aparecern tres signos de interrogacin,
este le permite seleccionar una de las posibles alternativas. Aparece la eleccin para que usted d
su respuesta o para ver la probabilidad que se describe en el cuadro del resultado. La opcin de
espacio muestra, en este caso, indica todas las posibilidades de seleccionar el nmero de canicas
que se pueden sacar. Para el ejemplo de las 3 canicas ste se describe a la derecha de la Figura
4.12, la extraccin se hizo sin remplazo. Primero usted puede dar su respuesta de probabilidad
y luego compararla al aplicar la opcin ver probabilidades, estas se presentan en el cuadro de
resultados.
La probabilidad de que los tres amigos recibieron su gorra es 1
6
= 0:167: Razonamiento:
suponga que A: canica azul (gorra amigo 1), R: canica roja (gorra amigo 2) y V: canica verde
(gorra amigo 3). En la primera extraccin cada una de las tres canicas tienen la misma posibilidad
de salir, una vez seleccionada una de estas en la segunda slo hay dos canicas, nalmente en la
4.2. Probabilidad de un evento 59

Figura 4.13: ARV todos reciben su gorra ( 16 ), al menos uno tiene su gorra ( 36 ), o nadie tiene la
gorra que traa ( 26 ).

tercera slo una se puede escoger, situacin que se describe en la Figura 4.13

Ejercicio 16

Se tiene una bolsa con tres canicas de color A: azul. R: rojo, V: verde, considere un experimento
en dos etapas como sigue: se extrae una canica de la bolsa y se registra el color. Despus se
repone la canica en la bolsa, se hace una segunda extraccin y se registra su color. Haga un
diagrama de rbol para representar esta situacin, verique sus resultados con los presentados
en el espacio muestra descrito en CalEst.
Determinar la probabilidad de que a.- ambas canicas sean rojas, b.- ninguna canica sea roja,
c.- al menos una canica sea roja, d.- a lo sumo una canica sea roja, e.- ambas canicas sean del
mismo color.

Ejercicio 17

Una bolsa contiene 5 canicas amarillas, 10 canicas rojas. Se extraen dos canicas al azar, una
despus de otra sin reemplazo. Cules son los posibles resultados de este experimento? Cul
es la probabilidad de que se extraigan dos canicas amarillas? Puesto que las canicas se extraen
al azar, todas las canicas de la bolsa tienen la misma probabilidad de que salgan en cualquier
extraccin. Hay 15 canicas P (1er: canica amarilla) = 5
15
; P (2da: canica amarillaj 1era: canica
amarilla) = 4
14
60 4. Probabilidad

Solucin
Usando la opcin canicas en el programa, se tiene:

f(A; A); (A; R); (R; A); (R; R)g

P (A; A) = P (1er: canica amarilla)  P (2da: canica amarilla j 1er:canica amarilla) =


5 4 1 2 2
 =  =
15 14 3 7 21

Cules son las probabilidades P (A; R); P (R; A); P (R; A) y P (R; R)?
Cules son las probabilidades P (A; A); P (A; R); P (R; A) y P (R; R)?
Si la extraccin es con remplazo.
Cules son las probabilidades P (A; R); P (R; A); P (R; A) y P (R; R)?
Cules son las probabilidades P (A; A); P (A; R); P (R; A) y P (R; R)?

Ejercicio 18

Suponga que tiene dos bolsas, la primera contiene 3 canicas azules, 2 canicas rojas y 1 canica
verde. La segunda bolsa contiene 4 canicas rojas, 2 canicas verdes y ninguna azul. Adems se
tiene un dado de seis caras.
Haga el siguiente experimento, lance el dado, si este cae 1 o 6 saque una canica de la bolsa
1. En caso contrario saque una canica de la bolsa 2.
Complete las probabilidades en la siguiente Tabla:

Color canica
Azul Roja Verde Suma
Bolsa 1 ? ? 1
18
1
3
Bolsa 2 0 4
9
? ?
Suma 1
6
? ? 1

Cul es la probabilidad de que venga de la bolsa 1, si la canica es roja, es decir: P (bolsa


1j R)?
Encuentre las siguientes probabilidades condicionales a: P (bolsa 2 j R); b: P (bolsa 1j A);
c. P (bolsa 2 jAzul), d: P (bolsa 2 j V ):

Ejercicio 19

Una bolsa contiene 3 canicas rojas, 4 canicas azules y 5 canicas verdes.

1. (a) Cul es la probabilidad de sacar al azar una canica roja?


4.3. Principios bsicos de conteo 61

(b) Cul es la probabilidad de sacar al azar una canica que no sea roja?

(c) Cul es la probabilidad de que la canica sacada al azar sea azul o verde?

Ejercicio 20

1. Considere el problema de extraer dos canicas al azar, sin reemplazo, de una bolsa que
contiene dos canicas rojas y tres amarillas. Liste el espacio muestra y los resultados de los
siguientes tres eventos: A = fAmbas canicas son rojasg, B = fla primer canica es roja y la
segunda canica es amarillag y C = funa de la canicas es rojag: Encuentre las probabilidad
de cada uno de los eventos A; B y C:

2. Suponga, una bolsa contiene 3 canicas rojas y 2 verdes. Se toman 3 canicas sacando una
a una sin reemplazo. Cul es la probabilidad de que las 3 sean rojas? Idea: Dena los
eventos A1 : la primer canica es roja. A2 : la segunda canica es roja y A3 : la tercer canica
es roja. Entonces calcule: P (A1 \ A2 \ A3 ):

Ejercicio 21

De una urna que contiene 6 pelotas blancas y 5 negras, se toman dos pelotas de forma aleatoria.
Cul es la probabilidad de que una de las pelotas tomadas sea blanca y la otra negra?
65
110
+ 56
110
= 0:2727 + 0:2727 = 0:5454 o 65
11:10
= 30+30
110
= 6
11

Solucin

Hay 11 pelotas, si se saca una quedan 10; as el nmero de posibilidades diferentes de extraer
una, dos bolas es 11  10 = 110
Se puede generar una serie de problemas previos para que los estudiantes puedan deducir
estos resultados.

4.3 Principios bsicos de conteo


Existen varias tcnicas para contar el nmero de las diferentes maneras en las que un evento
puede ocurrir. Una de ellas es el principio bsico de conteo. Se puede usar este principio para
encontrar el nmero de las diferentes maneras que dos o ms eventos pueden ocurrir. En el grupo
de herramientas en CalEst se presenta la opcin para realizar los clculos de estos principios,
como se muestra en la Figura 4.14
62 4. Probabilidad

Figura 4.14: Opciones para usar los principios bsicos de conteo.

Principio bsico de conteo:


Si se van a realizar 2 experimentos, tales que el primero puede tener cualquiera de
n1 resultados posibles, y si para cada uno de estos n1 resultados posibles hay para el
segundo experimento n2 resultados posibles, entonces hay un total n1  n2 resultados
posibles en los 2 experimentos. Esta regla se puede extender para m experimentos,
as hay un total de n1  n2  :::  nm resultados posibles.

Ejemplo 10.

1. Un restaurante de comida rpida, vende helados de tres marcas comerciales diferentes


(mc1 ; mc2 ; mc3 ) en dos tamaos de cono (pequeo y grande) y cuatro sabores diferentes
(chocolate, vainilla, fresa y limn) De cuntas maneras diferentes se puede comprar un
helado?
n1  n2  n3 = 3  2  4 = 24

2. Las placas para que un automvil pueda circular en un estado, est compuesta por tres
letras y cuatro nmeros, estas estn ordenadas de la siguiente forma, la primera letra es ja,
la segunda posicin se tienen seis letras y veintids en la tercer letra, si el primer nmero
4.3. Principios bsicos de conteo 63

no puede ir el cero Cuntas placas se tienen?

1  6  22  9  10  10  10 = 1188000

Nota: Esta es la presentacin que aparece en CalEst para aplicar las tcnicas de conteo.
Cuando se llenan las casillas calcula todas las tcnicas, se selecciona slo la que se tiene in-
ters.
la Figura 4.14 se describe el clculo, usando principio bsico de conteo (principio de multi-
plicacin). En la Figura 4.15 se ilustra el caso de las placas, a la vez aparece el clculo del
factorial en este caso el de 7!

3. De cuntas maneras distintas se pueden ordenar las letras A,B,C? se puede aplicar el
principio bsico de conteo para determinar el nmero de las diferentes maneras en las que
n objetos se pueden acomodar en orden. As:

ABC; ACB; BAC; BCA; CAB y CBA

En este caso se dice que hay 6 posibles permutaciones para un conjunto de 3 objetos,
aplicando el principio bsico: El primer objeto de la permutacin puede ser cualquiera de
los 3, despus el segundo objeto puede ser cualquiera de los 2 restantes y el tercer objeto
es el que falta. De esa manera existen 3  2  1 = permutaciones posibles. En general para
n objetos se tiene:
n  (n 1)  (n 2)  :::  2  1

Esta opcin se conoce como n factorial y se denota por n!:

Permutacin
Una importante aplicacin del principio de conteo es la determinacin del nmero de maneras
diferentes en que m objetos se pueden arreglar en orden o en permutaciones.

Una permutacin es un arreglo ordenado de objetos.


El nmero de diferentes permutaciones de n objetos distintos es n!

Si se desea escoger algunos de los objetos en un grupo y ordenarlos, a ese ordenamiento se


llama una permutacin de n objetos tomados k veces.

Permutacin de n objetos tomando k a la vez.


El nmero de permutaciones de n objetos distintos tomando n a la vez es:
n!
n Pk = (n k)! ;donde k  n
64 4. Probabilidad

Figura 4.15: Principio de multiplicacin para el ejemplo del nmero de placas

Ejemplo 11

1. Encontrar el nmero de maneras diferentes de formar un cdigo de tres dgitos, en el que


ningn dgito se repite.

Solucin
Para formar un cdigo de tres dgitos sin que ninguno de ellos se repita, se necesita seleccionar
3 dgitos de un grupo de 10, as r = 10 y k = 3:

10! 10!
n Pr =10 P3 = = = 720
(10 3)! 7!

2. De los 20 coches que compiten en una carrera de Frmula 1. De cuntas maneras distintas
pueden los carros nalizar primero, segundo y tercero?

Solucin
En este caso n = 20 y r = 3; ilustrado en la parte superior de la Figura 4.16.

20!
20 P3 = = 6840
(20 3)!
4.3. Principios bsicos de conteo 65

Figura 4.16: Clculos para la permutacin y combinacin

Combinaciones.
A continuacin se presenta otra tcnica en el conteo, la caracterstica de sta, es que no considera
el orden de seleccin.

Combinacin de n objetos tomando k a la vez.


Una combinacin es una seleccin de k objetos de un grupo de
n objetos sin considerar el orden y se denota por n Cr : El nmero
de combinaciones de k objetos
 seleccionados de un grupo de n
n
n Cr = (n k)!k! o n Cr = r
n!

Ejemplo 12

1. Se desean comprar 3 CDs de una seleccin de 5 CDs. Para jar ideas denote los CDs, por
A, B, C, D, y E.

Solucin.
ABC, ABD, ABE
ACD, ACE
ADE
66 4. Probabilidad

BCD, BCE
BDE
CDE
Observe que es lo mismo seleccionar ABC que BAC, as en los dems casos. El clculo se
muestra en la parte de la Figura 4.16.

5!
5 C3 = = 10
(5 3)!3!

Principio Descripcin Frmula


Principio bsico Si un evento puede ocurrir de n1 maneras distintas n1  n2
de conteo y un segundo evento ocurre de n2 maneras distintas,
el nmero de resultados posibles es n1  n2

Permutaciones En nmero de arreglos ordenados de n objetos n!


distintos.
El nmero de permutaciones de n objetos distintos n Pk = n!
(n k)!
tomados k a la vez, donde k  n

Combinaciones El nmero de combinaciones de k objetos selecciona- n Ck = n!


(n k)!k!
dos de un grupo de n objetos sin considerar el orden

Aplicaciones del principio de Conteos

Ejemplo 13

1. Encontrar la probabilidad de que sea n seleccionado 5 diamantes en un juego de cartas en


una partida de pker. El espacio muestra es 52 C5 y el evento es 13 C5 entonces la probabilidad
de un diamante es:

13 C5 1285
P (diamante) = =
52 C5 2 598 960

Ejemplo 14

Un subdirector de una escuela ha recibido una lista de 12 alumnos distinguidos por su buen rendi-
miento escolar, tiene que seleccionar 4 estudiantes para formar un comit de representacin. La
lista est compuesta por 5 mujeres y 7 hombres.

1. De cuntas maneras se pueden seleccionar 4 estudiantes de la lista de 12?


4.3. Principios bsicos de conteo 67

2. Cuntos posibles selecciones se incluyen 1 hombre y 3 mujeres?

3. Si el proceso de seleccin es aleatoria. Cul es la probabilidad de que 1 hombre y 3 mujeres


sean seleccionados?

Solucin
1. El nmero de maneras en los que 4 estudiantes se pueden seleccionar de 12 es:
 
12 12!
= = 495
4 4!8!

7
 5

2. Un hombre se puede escoger en 1
= 7 maneras y 3 mujeres se pueden escoger en 3
= 10:
Cada uno de los 7 hombres puede acompaar a cada una de las 10 seleccionadas de 3
mujeres. Razonando por la regla de conteo m  n; se concluye que el nmero posible de
muestras es:
   
7 5
 = 7  10 = 70
1 3

3. Suponga que las 495 posibles son igualmente probables. De estos 70 son casos favorables
para el evento A = f1 estudiante es hombre y 3 son mujeresg; as:

5

70 2 10
P (A) = = 5 = = 0:3125
495 2 32
68 4. Probabilidad
Captulo 5

Distribuciones de probabilidad discretas

Galera de distribuciones
En general, resulta poco prctico estudiar un proceso o investigar sobre un tema especco
en toda una poblacin sobre todo cuando los componentes de sta son muy numerosos. Por
ejemplo, supongamos que se desea saber en una ciudad el estado civil (soltero, casado, divorciado,
unin libre) de las personas que trabajan de meseros en restaurantes de una ciudad, por lo que
recurrimos a examinar una muestra e inferir de la poblacin entera a partir de la muestra.
Debido a que las predicciones o decisiones que formulamos sobre una poblacin, con apoyo de
la informacin muestral, genera un grado de incertidumbre, sta se expresa en probabilidades.
Para el caso de los meseros puede ser de inters estudiar si la probabilidad de divorcio es alta.
Una poblacin consiste en una coleccin de individuos u objetos a lo que se les observa una
caracterstica particular que ser objeto de estudio.
El principio de la distribucin de probabilidad resulta al considerar un experimento aleatorio,
y al preguntarnos acerca de los eventos posibles y sus respectivas probabilidades. Hay dos tipos
de distribucin de probabilidad y son de importancia en muchas reas del conocimiento; stas
son las distribuciones discretas y continuas. Las primeras se derivan de las variables aleatorias
discretas, tales como el nmero de llamadas telefnicas que se reciben por quejas, el nmero de
respuestas contestadas de manera correcta en un examen, el nmero de artculos defectuosos,
etctera. Las distribuciones continuas se generan a partir de variables aleatorias continuas;
ejemplos de este tipo de variables son el periodo de vida de una batera, el promedio de las
calicaciones al nalizar un ciclo escolar o el coeciente intelectual de una persona.
Se ha presentado el concepto de espacio muestral en el captulo anterior, y tanto los problemas
como ejemplos que se explican en esta unidad toman en cuenta esa idea para indicar cmo surgen
la variable aleatoria y su distribucin de probabilidad.
Con el n de conocer y estudiar las distribuciones CalEst muestra varias distribuciones que
son muy importantes en el estudio cuantitativo de las investigaciones. En la Figura 5.1 se
describen esta serie de distribuciones. En todas se cuenta con un calculador estadstico que

69
70 5. Distribuciones de probabilidad discretas

Figura 5.1: Distribuciones de probabilidad disponibles en CalEst

resulta relevante puesto que le permite el clculo de probabilidades y de modo inverso dada una
probabilidad se establece el valor de la variable..

5.1 Distribuciones de probabilidad Discretas


En muchos estudios, un evento experimental -tambin llamado ensayo o prueba- es frecuente que
se restringe a dos posibles resultados, usualmente denominados xito e y falla f .

Por ejemplo, un seleccin aleatoria de un producto se clasica en defectuoso o no defectuoso.


En un tratamiento mdico, a una persona se le suministra una medicina y el resultado se alivi
o no se alivi.

Los resultados de un experimento en probabilidad es a menudo un conteo o una medicin.


Cuando esto se realiza, al resultado se le conoce como variable aleatoria.

Variable aleatoria.

Una variable aleatoria x representa un valor numrico asociado con cada resultado
de un experimento de probabilidad

Existen dos tipos de variable aleatoria: discreta y continua en este apartado se vern las dis-
tribuciones relacionadas con la variable discreta.
5.1. Distribuciones de probabilidad Discretas 71

Variable discreta.

Una variable aleatoria x es discreta si este tiene un nmero nito o contable de posibles
resultados, los que presentan en una tabla.

5.1.1 Distribucin Bernoulli


Una distribucin Bernoulli se dene como una accin que produce uno de dos resultados posibles.
Suponga que esos resultados, llamados xito y falla, tiene probabilidad p y (1 p) respectivamente.
Entonces la variable nmero de xitos en un ensayo Bernoulli tiene una distribucin Bernoulli
con parmetro p. Esta distribucin se resume como:

Nmero de xitos 0 1
Probabilidades 1 p p

La distribucin de Bernoulli se expresa como una funcin de probabilidad, P (x) como sigue:

P (x) = px (1 p)1 x
para x = 0; 1 (5.1a)

La expresin (5.1a), P (x) es la probabilidad de tener x xitos en una prueba Bernoulli. Clara-
mente x puede ser 0 o 1, as:

p para x = 1
P (x) =
1 p para x = 0

La media y la varianza para la distribucin Bernoulli son:

media  = p varianza  2 = p(1 p)

5.1.2 Denicin de una distribucin de probabilidad discreta


A cada valor de una variable aleatoria discreta se le asigna una probabilidad. Se elabora una
tabla de cada valor de la variable aleatoria con su probabilidad correspondiente, as se tiene una
distribucin de probabilidad.

Distribucin de probabilidad discreta.

Una distribucin de probabilidad discreta se presenta una tabla con cada valor que
la variable aleatoria puede tomar, conjuntamente con su probabilidad.

Una distribucin de probabilidad satisface las siguientes condiciones:


72 5. Distribuciones de probabilidad discretas

1. La probabilidad de cada valor de la variable aleatoria 0  P (x)  1


discreta est entre 0 y 1, incluyndolos P
2. La suma de todas las probabilidades es igual a 1 P (x) = 1

5.1.3 Distribucin Binomial


Si se realizan una serie de n ensayos Bernoulli independientes, entonces la variable aleatoria
nmero de xitos en n ensayos tiene una distribucin Binomial con parmetros n y p, una
descripcin de esta distribucin es B(n; p).
A la serie de realizaciones se le conoce como experimento binomial y se debe vericar las
siguientes condiciones:

 Existe un nmero n jo de ensayos.

 Cada ensayo produce uno de dos posibles resultados, referidos como xito y falla.

 La probabilidad de un xito de un ensayo, p; es constante.

 Los ensayos son independientes, es decir la probabilidad de xito en cualquier ensayo no es


afectado por el resultado de un ensayo previo.

La distribucin de probabilidad esta dada por:

 
n x
f (x) = P (X = x) = p (1 p)n x
para x = 0; 1; 2; :::; n (5.2a)
x

Interpretacin de la expresin (5.2a):


P (x) es la probabilidad de x xitos en n ensayos.
n

x
es la frmula resumida de x!(nn! x)! :
x = 0; 1; 2; :::; n signica que se puede utilizar la frmula para cada valor de x; que es el
nmero de los xitos posibles en n ensayos.
P
c Pc 
n x
Distribucin de probabilidad acumulada P (X  c) = f (x) = x
p (1 p)n x
x=0 x=0

La media y la varianza para la distribucin binomial son:

media  = np varianza  2 = np(1 p)


5.1. Distribuciones de probabilidad Discretas 73

5.1.4 La distribucin binomial y CalEst


En el bloque didctico aparece una opcin denominada la distribucin binomial y volados, este
enfoque tiene varios objetivos:

1. Conocer la distribucin binomial considerando como caso inicial el valor de p = 0:5, ese
valor se puede mover para tener otros valores de p y as ver cmo cambia la distribucin.
Adems proponiendo diferentes valores de n hasta el valor de n = 20.

2. Comprender los conceptos probabilidad y regularidad estadstica, al lanzar las monedas


varias veces aparecen los valores de la probabilidad denida en la expresin (5.2a) y el de
la frecuencia relativa cuando el nmero de repeticiones es muy grande los valores de cada
celda se van aproximando.

3. Calcular probabilidad de la binomial para diferentes valores de los parmetros.

4. Aplicar este esquema en diferentes problemas donde el xito y la falla corresponderan a la


cara y cruz en la moneda respectivamente.

5. Se tiene el valor de la probabilidad acumulada P (X  x).

6. 6. Plantear las soluciones a ejemplos y ejercicios expuestos en diferentes libros de estadstica


en cada caso tiene que identicar el valor de los parmetros n y p.

Ejemplo 1: Clculo de probabilidades usando el CalEst.

En la Figura 5.2 se muestra el caso en el que se lanzaron 9 monedas con 100 repeticiones en
el rengln donde aparecen las monedas corresponden a la ltima repeticin. El valor de los
parmetros de la distribucin son p = 0:5 y n = 9; los puntos en la grca corresponden a la
probabilidad de la binomial para cada valor de la variable x, es de 0 hasta 9, por ejemplo: la
probabilidad de tener cuatro caras a lanzar las nueve monedas es: 0.2461, es decir: P (x = 4) =
0:2461: La frecuencia relativa tiene un valor de 0.2300, si se van incrementando las repeticiones
este valor se aproximar ms al de la probabilidad.
Otras situaciones que se pueden considerar son:

1. Calcular la probabilidad de obtener al menos 3 caras.

2. Calcular la probabilidad de obtener 5 o ms monedas con una cruz.


74 5. Distribuciones de probabilidad discretas

Figura 5.2: Ilustracin de la distribucin de la binomial considerando diferentes valores de p y n:

Solucin

Con los dos primeros renglones de la tabla que aparece en la grca se tiene la distribucin de
probabilidad.
En la primera situacin se calcula P (X  3) corresponde a sumar los primeros cuatro valores
del rengln Px, Figura 5.2, as
P (X  3) ' 0:2440

Para el inciso 2, se calcula la P (X  5) en este caso se deben sumar los ltimos cinco valores
del rengln Px, esto es:

P (X  5) ' 0:5001

Nota el smbolo ' indica que por redondeo pueden existir diferencias en milsimas con el valor
real.

En el CalEst en el apartado de distribuciones se tiene la alternativa de hacer los clculos


directos de la probabilidad binomial usando la expresin (5.2a), hasta n = 170. Se ilustra la
aplicacin de esta opcin mediante un ejemplo.
5.1. Distribuciones de probabilidad Discretas 75

Figura 5.3: Distribucin binomial con parmetros p = 0:25 y n = 5

Ejemplo 2

Considerando la teora de la herencia estudiada por Mendel, en la fertilizacin del cruce de


dos especies de plantas con ores rojas y blancas produce una generacin cuya descendencia
tendr 25% de plantas con ores rojas. Si un horticultor cruza 5 pares de estas especies, de la
descendencia resultante de estos 5, Cul es la probabilidad de que: i. Exista una planta con
or de color rojo? ii. Existan 2 o ms plantas con ores rojas?

Solucin
Usando CalEst, en el apartado de distribuciones se elige la distribucin de probabilidad binomial
Figura 5.3.
Se muestra la distribucin de probabilidad en la tabla de abajo, esta se ha construido aplicando
la calculadora binomial para cada valor de x:

Nmero de ores rojas x 0 1 2 3 4 5


Probabilidad P (x) 0.237 0.396 0.264 0.0088 0.014 0.001
Probabilidad acumulada P (X  x) 0.237 0.633 0.897 0.985 0.999 1

As para el primer inciso: P (X = 1) = 0:396; para el otro: P (X  2) = 0:367:


76 5. Distribuciones de probabilidad discretas

Ejemplo 3

Un mdico asegura que tiene un tratamiento que cura un malestar muscular con una probabilidad
p = 0:45: En la atencin de 12 pacientes Cul es la probabilidad de que se curen entre 7 y 10
pacientes, es decir P (7  X  10). Cul es la media y la varianza en este ejemplo? Usando la
grca y los umbrales o la tabla se calculan las probabilidades P (X < 8) y P (X < 11); as:

P (7  X  10) = P (X < 11) P (X < 8) = 0:99892 0:88826 = 0:11066:

La media y la varianza son:

media  = np = 12(0:45) = 5:4 varianza  2 = np(1 p) = 2:97

5.1.5 Distribucin Poisson


En diferentes estudios es frecuente encontrarse con problemas donde una informacin se deriva
de la ocurrencia aleatoria de eventos durante un periodo de tiempo establecido o en la longitud
determinada en un segmento.

Por ejemplo, el nmero de ocurrencias de fenmenos naturales tales como terremotos,


huracanes, en algn intervalo de tiempo en un ao, se considera como una
variable aleatoria con una distribucin de Poisson.

La distribucin de probabilidad esta dada por:

exp( )x
P (x) = para x = 0; 1; 2; :::;  > 0; (5.3a)
x!

Donde P (x) es la probabilidad de que x eventos aleatorios ocurrirn por unidad de tiempo o
espacio;  es la razn de ocurrencias (la media del nmero de eventos aleatorios) por unidad de
tiempo o espacio.
La media y la varianza para la distribucin Poisson son:

media  =  varianza  2 = 

Ejemplo 4. Clculo de probabilidades usando el CalEst

La probabilidad de que un artculo, producido por una mquina durante cada periodo de revisin,
sea defectuoso es: 0.1. Determine la probabilidad de que en una muestra de 30 artculos no haya
ms de dos defectuosos.
5.1. Distribuciones de probabilidad Discretas 77

Figura 5.4: Distribucin de Poisson con parmetros 7=3 en una muestra n = 30

Solucin

Se desea estimar P (X  2) = P (X = 0) + P (X = 1) + P (X = 2); se sustituyen en la expresin


(5.3a) los valores de x y  = 30(0:1) = 3. Usando la distribucin Poisson en el grupo de
distribuciones en CalEst se obtiene el valor deseado Figura 5.4, observe que en la grca se
indican tres valores con respecto a donde se puso el cursor, en el caso de la Figura 5.4 el cursor
est en 2, entonces se indican las probabilidad de: X menor a 2, X igual a 2 y X mayor a 2:
Para el clculo deseado se tienen dos posibilidades:
Primero si se pone el cursor en 2 la probabilidad P (X  2) se obtiene sumando los valores
de 0.19915 y 0.22404, es decir

P (X  2) = 0:19915 + 0:22404 = 0:42319

La otra es poner el cursor en 3 y el valor es el anterior porque se ha calculado la probabilidad


de que x sea menor que 3 lo que resulta equivalente a que x sea menor e igual a 2 (x  2):
Empleando la calculadora Poisson tambin se obtienen los valores de las probabilidades, en la
Figura 5.4, se ha ilustrado la segunda situacin explicada anteriormente.
78 5. Distribuciones de probabilidad discretas

Ejercicios

1. En el apartado didctica de CalEst vaya a la opcin distribucin binomial y monedas,


realice la siguiente prctica escribiendo en un papel la solucin de los siguientes incisos:

(a) Ponga el valor de p = 0:5 y el nmero n = 10 monedas, use el rengln Px para calcular
las probabilidades para x = 4; 6 y 9.
(b) Ponga el valor de p = 0:5 y el nmero n = 10 monedas, use el rengln Px para calcular
las probabilidades: i.-P (X = 5); ii.- P (X  2); iii.- P (X  8); iv.- P (2  X  8):

(c) Haga repeticiones de 50 hasta completar 1500 volados, en cada una de ellas observe
los renglones Px y el de Frec. rel. Qu observa? Qu se podra esperar si el nmero
de volados al nal fuera 5000?

2. Repita el ejercicio anterior para un valor de p = 0:25: Qu diferencias puede observar con
respecto a los resultados del ejercicio 1? Puede realizar este ejercicio para diferentes valores
de p. Esto le ayudar a familiarizarse con la distribucin binomial.

3. El 65% de las personas en un fraccionamiento residencial tiene contratado TV por cable.


Si selecciona al azar 7 familias de ese conjunto habitacional y pregunta si estn suscritas al
cable. Construya la distribucin de probabilidad para cada valor de x para ello complete
la tabla, use la opcin distribucin binomial y monedas en CalEst.

Nmero de familias x 0 1 2 3 4 5 6 7
Probabilidad P (x)
Probabilidad acumulada P (X  x)

4. Para resolver los siguientes ejemplos use la distribucin binomial en el apartado de dis-
tribuciones en CalEst:

(a) El nmero de nacimientos en un hospital sigue una distribucin binomial B(6; 0:5):
Cul es la probabilidad de que nazcan 0, 1, 2, 3, 4, 6 bebs que sean del sexo
femenino? Complete la siguiente tabla.

Nmero de nias nacidas. x 0 1 2 3 4 5 6


Probabilidad P (x)
Probabilidad acumulada P (X  x)

(b) Para una distribucin B(10; 0:3) Cul es la probabilidad de 5 o ms xitos? Cul es
la probabilidad de exactamente 7 xitos? Cul es la probabilidad entre 4 y 8 xitos?
5.1. Distribuciones de probabilidad Discretas 79

(c) En una examen de opcin mltiple, hay 5 posibles respuestas en cada una de las 20
preguntas. Si un candidato contesta adivinando la respuesta a cada pregunta :
i. Cul es la probabilidad de que el candidato pase el examen obteniendo 8 o ms
respuestas correctas?
ii. Cul es la probabilidad de que el candidato tenga al menos una respuesta co-
rrecta?
iii. Cual es la media de respuesta correctas a las que el aspirante puede acceder?

(d) En un lote de produccin de cubetas, el 5% son defectuosas. Si se toma una muestra


aleatoria de 50 cubetas de ese lote, Cul es la probabilidad que?
i. Al menos una sea defectuosa?
ii. Exactamente dos sean defectuosas?
iii. Diez o ms sean defectuosas?

(e) Una encuesta reporta que el 75% de las mujeres adultas van a consulta con su mdico
para un anlisis fsico al menos una vez cada dos aos. Si 17 mujeres se seleccionan
de manera aleatoria, encontrar la probabilidad de que:
i. Menos de 12 de ellas asistieron a consulta en esos dos aos?
ii. Al menos 15 de ellas asistieron a consulta en esos dos aos?

(f) Un profesor de letras plantea una estrategia de enseanza que considera exitoso en la
lectura de comprensin en el 60% de los casos. Esta la verica con 15 estudiantes de
nuevo ingreso, encontrar la probabilidad de que:
i. Al menos 6 comprendan la lectura?
ii. El nmero de estudiantes que comprenden la lectura no sea menor que 6 y no
mayor a 10?
iii. Doce o ms comprenden la lectura?

(g) Un estudio revela que 43% de las mujeres en una regin urbana la lectura es uno se su
pasatiempo favorito. Se toma una muestra aleatoria de 12 mujeres y se les pregunta
si la lectura es una de su pasatiempo favorito. Cul es la probabilidad de que?
i. 7 mujeres respondan si?
ii. Al menos 7 respondan si?
iii. Menos de 3 respondan si?

(h) La produccin de un proceso genera artculos defectuosos a razn del 6%. Cul es la
probabilidad de que en el embarque de 150 artculos no haya ms de 8 defectuosos?
80 5. Distribuciones de probabilidad discretas

5. En los siguientes ejercicios use el CalEst para ilustrar la distribucin Poisson.

(a) Una empresa recibe llamadas por telfono de manera aleatoria a su conmutador en
un promedio de una llamada por minuto. Cul es la probabilidad de que 0, 1, 2,...,5
llamadas sean recibidas en un periodo de 2 minutos? Complete la siguiente tabla:

# de llamadas recibidas en 2 min. x 0 1 2 3 4 5


Probabilidad P (x)
Probabilidad acumulada P (X  x)

(b) Considere que el nmero de llamadas en 5 minutos, es decir  = 5; y n = 10: Poner


el umbral en diferentes valores, indique en un papel las probabilidades que est cal-
culando. Estime e interprete las probabilidades i.- P (X = 5); ii.- P (X > 7); iii.-
P (X  4); iv.- P (3  X  8); v. P (X < n) para n; 0  n  10:

(c) El nmero de accidentes por mes en un crucero es 3. Cul es la probabilidad de que


ocurran 4 accidentes en ese crucero para un mes determinado?
(d) Resuelva el inciso h del ejercicio 3 usando la distribucin de Poisson.
Captulo 6

Distribuciones de probabilidad continua

6.1 Variables aleatorias continuas


Una caracterstica de una variable aleatoria discreta es que slo toma valores separados, distintos
o contables. No todas las mediciones son de este tipo; por ejemplo, medir el tiempo de llegada
a la escuela, los valores pueden ser 40 o 41 minutos, o cualquier nmero entre 40 y 41 minutos,
tal como 40.36 minutos. No existe separacin ni valores distintos en este caso. Adems, en
este intervalo son posibles un nmero innito de nmeros. De modo que los resultados no son
contables como en el caso de la variable aleatoria discreta.
A la variable aleatoria como la del tiempo de llegada a la escuela se le llama variable aleatoria
continua. Sus valores posibles forman un intervalo continuo y las probabilidades de las variables
aleatorias continuas se asocian slo con intervalos de observaciones, no con valores individuales,
como ocurre en el caso de las variables aleatorias discretas. Las tpicas variables continuas miden
alguna cantidad, como pueden ser el tiempo, el peso, la altura, el volumen, la presin de la
sangre, la concentracin de los qumicos en la sangre. Ejemplo de variables aleatorias continuas
seran:

 El tiempo en llegar a la escuela.

 El tiempo entre llamadas en un celular.

 El peso de la carne en una torta.

 La resistencia elctrica de un diodo en una tarjeta impresa.

 El volumen de contenido de un refresco.

 La temperatura de un horno.

6.1.1 Distribucin normal


Objetivos:

81
82 6. Distribuciones de probabilidad continua

 Conocer y caracterizar el modelo de probabilidad normal.

 Comprender que muchas variables que explican el comportamiento de fenmenos o procesos


se pueden modelar mediante la distribucin normal.

 Aprender a calcular probabilidades con este modelo usando las diferentes opciones del
CalEst.

La distribucin de probabilidad normal se aplica de manera frecuente para estudiar procesos


cuya variable aleatoria es continua.

La distribucin normal
La densidad de probabilidad de esta distribucin se caracteriza por los parmetros (  y  2 ),
es decir, su media (  ) y su varianza (  2 ); y  es la desviacin estndar.

La densidad de probabilidad de esta distribucin se caracteriza por los parmetros (  y  2 ),


es decir, su media (  ) y su varianza (  2 ); y  es la desviacin estndar. Esta distribucin
es simtrica con respecto a la  y tiene forma de campana la amplitud depende de la desviacin
estndar. La expresin matemtica que caracteriza la funcin de densidad de la normal est
dada por:
1 2 2
f (x) = p e (X ) =(2 ) :
 2
Donde  = 3:1416 y e = 2:7183: A continuacin se describir la forma de esta funcin, Figura
6.1, como a partir de esta se obtienen las probabilidades de la normal. Las opciones descritas
por el CalEst permitirn resolver diferentes problemas de otros libros .

Descripcin del CalEst para la distribucin normal

En el bloque de distribuciones en CalEst aparece las opciones para la normal entre ellas la funcin
densidad y la acumulada. Con estas se pueden calcular probabilidades o los valores de la variable
X correspondientes a diferentes percentiles. Con el n de conocer su aplicacin en la estimacin
de probabilidades se ha jado una media  = 12; (para ver la grca de el valor a  de 12 y
apriete la tecla enter) y una desviacin estndar  = 2, la variable X describe el tiempo de un
servicio bancario: Nota aqu se pueden obtener los valores de las probabilidades para cualquier
pareja de (; ):

1. Sin umbrales, en el cuadro sin la paloma, aparece la funcin densidad, para conocer el valor
de la funcin para diferentes valores de la variable use el signo ms en azul, ste aparece
en la parte superior izquierda.
6.1. Variables aleatorias continuas 83

Figura 6.1: Caractersticas del CalEst para la distribucin normal

2. Con umbrales, stos se emplean para calcular probabilidades. Un umbral permite estimar
el rea a la derecha o a la izquierda, su valor aparece en un recuadro superior a la derecha.
Ah tambin se indica la diferencia de 1 el a rea, abajo aparece el valor de la variable Z
que corresponde a la normal estndar que se indica ms adelante.

3. Dos umbrales, colocados abajo, arriba o uno arriba y otro abajo, permite estimar la pro-
babilidad entre dos valores da la variable. Muestra el valor de la diferencia de 1 el a
rea;
y los valores de la normal estndar respectivos a los valores de la variable X:

4. Para obtener percentiles, se mueven los umbrales considerando el valor de las reas.

5. Una mayor precisin en el cmputo de las probabilidades se obtiene usando un calculador


que viene integrado, este se activa accediendo al ltimo cuadro que aparece en el segundo
rengln a la derecha. Ah se pide dar el valor de la media y desviacin estndar, luego para
obtener probabilidades se deben dar valores de la variable X: La otra opcin es dar una
probabilidad y saber a qu valores de la variable corresponden para una pareja (; ): La
precisin en los umbrales se da hasta milsimas.

6. Siempre que de el valor de  oprima enter para cambiar la media en la distribucin, luego
el valor de , y nuevamente, oprima enter.
84 6. Distribuciones de probabilidad continua

7. Aparecen dos guras en azul que corresponden a la funcin densidad y acumulada de la


normal, con estas se puede obtener una u otra de manera alternativa.

8. Con las lupas, le permiten agrandar (+), empequeecer (-) y actualizar (A) la gura.

9. Active el smbolo + para encontrar el valor de la funcin densidad para un valor de X,


para descativarlo use la echa ubicada en la parte superior izquierda.

Ejemplo1. Clculo de probabilidades usando el CalEst

El tiempo que dura un embarazo tiene una distribucin normal con media  = 266 das y una
desviacin estndar de 16 das. Esta situacin se describe en la Figura 6.2 generada por CalEst
en el bloque de distribuciones con la opcin normal.

1. Usando esta grca encuentre la proporcin de embarazos entre 285 y 305 das.

2. Una compaia de seguros tiene un plan familiar de salud, en una de sus clusulas indica que
no se cubre los costos de hospitalizacin si el nacimiento es en menos de 217 das despus
de la fecha de casamiento. Encuentre la probabilidad de que el nacimiento se da en menos
de 217 das.

3. Encontrar el 90 percentil.

4. Encontrar el 30 percentil.

5. Encontrar el rango percentil del valor de 275 das.

6. Cul es la probabilidad del que el embarazo termine en 280 das o ms?

Solucin
En la Figura 6.2 en la grca se muestra la primera solucin, la segunda se muestra en la tabla.
sta muestra las alternativas del calculador para obtener los valores de probabilidad en una
distribucin normal.

1. En el primer inciso se est calculando la probabilidad P (285  X  305) = 0:110.

2. En el segundo P (X  217) = 0:0011; es una probabilidad muy baja de que esto ocurra.

3. En el tercer caso se desea encontrar el nmero que satisface P (266  X ?) = 0:40; se
puede notar que P (X  266) = 0:5, verique esta situacin usando el cursor. En la Figura
6.3 se describe esta situacin.
6.1. Variables aleatorias continuas 85

Figura 6.2: La funcin densidad de la normal y clculo de probabilidades de esta distribucin.

4. De manera anloga se resuelve el caso cuarto, ver Figura 6.3 en la grca derecha. P (? 
X) = 0:3

5. En este caso P (X  275) = 0:713; solucin se tiene colocando un solo cursor en 275. En
los resultados del calculador mostrados en la Figura 6.4

6. La solucin es P (X  280) = 0:191; los resultados se describen en la Figura 6.4.

Un resultado que se usa frecuentemente como referencia para la distribucin normal es la


desviacin estndar alrededor de la media y se conoce como la regla emprica. As se consideran

Figura 6.3: Distribucin normal con  = 266;  = 16; soluciones 3 y 4.


86 6. Distribuciones de probabilidad continua

Figura 6.4: Resultados mostrados por el calculador para los incisos 4 y 5.

la media a una, dos y tres desviaciones estndar, esto es:

P (   X   + ) = 0:6826
P ( 2  X   + 2) = 0:9544
P ( 3  X   + 3) = 0:9974

Verique estos resultados en el CalEst usando los datos del ejemplo 1. En la Figura 6.5 se
presenta la funcin acumulada, distribucin de probabilidad normal, con sta se obtiene el rea
bajo la curva de la funcin densidad para valores especcos de la variable aleatoria X. En
particular el caso que se ilustra es el rea desde menos innito hasta el valor de X = 275, para
(; ) = (266; 16):

6.1.2 Normal Estndar


En la Figura 6.6, izquierda, se dibuja la normal con media cero y varianza 1, sta se conoce como
la normal estndar. En el calculador se tiene la opcin de uno o dos umbrales, stos le permiten
obtener diferentes probabilidades y cada una de ellas aparece sealada con el rea bajo la curva.
En la Figura 6.6 en la grca a la derecha se muestra la distribucin de probabilidad acumulada
de la normal, usando el cursor tambin puede estimar la probabilidad que requiera. Finalmente
en la Figura 6.7 se muestra cmo se usa el calculador de probabilidad, se debe oprimir la caja
sealada, sta aparece en el ambiente de la distribucin.
Esta variable normal caracterizada por la pareja (; ) = (0; 1) tiene su importancia porque
se usa para encontrar probabilidad asociadas con cualquier otra distribucin normal con (; ):
6.1. Variables aleatorias continuas 87

Figura 6.5: Distribucin normal acumulada con la probabilidad P (X  275)

Figura 6.6: Funcin densidad y la acumulada de la distribucin normal. El uso del smbolo +,
el efecto se quita con la echa.
88 6. Distribuciones de probabilidad continua

Figura 6.7: Distribucin y el calculador de la normal

Por ello en los libros de estadstica se trabaja con la variable normal estndar y en cada uno
de ellos viene una tabla de esta distribucin para el clculo de probabilidades. En el desarrollo
de este paquete sta queda como un caso particular, aqu se describe con la nalidad de que los
usuarios tengan una visin completa de la normal estndar y la aprovechen en la solucin de sus
problemas y en otras aplicaciones.

Denicin

La variable aleatoria normal estndar es una variable normal con media 0 y


desviacin estndar 1. Usualmente se representa por el smbolo Z.

La expresin que relaciona la variable aleatoria X de una normal con (; ) y la normal
estndar Z es:
X 
Z= , o X =  + Z

X 
As para los datos de la Figura 6.1: Z = 
= 9 12
2
= 1:5: El clculo de la probabilidad
del primer inciso del ejemplo 1,

285 266 X  305 266


P (285  X  305) = P (   ) = P (1:188  Z  2:438) = 0:101
16  16
6.1. Variables aleatorias continuas 89

Figura 6.8: Opciones del mdulo de Control de calidad

6.1.3 Temas selectos: aplicacin de la normal


En este apartado se presentan algunas aplicaciones de la distribucin normal desarrolladas en
CalEst y que tienen importancia en la actividad industrial. Aqu slo se darn a conocer las
referencias donde el usuario puede profundizar en el conocimiento de estos temas. En la Figura
6.8 se describe las opciones del mdulo Control de calidad.

Mtrica de Seis Sigma

La mtrica seis sigma evala un proceso, sta se basa en el nivel de : Existen varios libros
donde se puede profundizar en el concepto. Entre ellos puede consultar el de Escalante (2004)
pgina 239, y el de Breyfogle I I I (2003) Captulo 9 pgina 188. La distribucin normal como se
ha desarrollado aqu ser de mucha utilidad para resolver los ejemplos y problemas planteados
en esos libros. En esos mismos libros se puede encontrar los conceptos de capacidad del proceso,
la eciencia del clculo de este ndice depende de la distribucin normal.
En la opcin estadstica, mtodos avanzados, control de calidad en CalEst aparece el clculo
del valor de X y Z para estimar la mtrica

Papel de probabilidad normal

Este mtodo grco es de mucha utilidad para evaluar si unos datos siguen una distribucin
normal. El principio es tener un conjunto de datos, ordenarlos de menor a mayor. La idea es
construir en un plano de coordenadas (x; y), donde x es el eje horizontal: los datos ordenados,
y es el eje vertical y representa los porcentajes correspondientes a la distribucin normal, por lo
general y es:

i 0:5
yi = %, donde i = 1; :::; n:
n
El valor de i representa la isima observacin de los n datos estudiados.
90 6. Distribuciones de probabilidad continua

Cartas de control X RoX S

Las cartas (X R) son apropiadas para estudiar el promedio de la variable y la dispersin de


los datos obtenidos del proceso cuando la caracterstica de calidad que medimos en un producto
se expresa en nmeros. Por ejemplo podemos medir en un artculo la longitud, masa, peso,
temperatura, viscosidad, velocidad, densidad, alcalinidad, entre otras. Con el n de obtener ms
detalle en la construccin de estas cartas consultar Escalante (2004) pgina 194.
Para construir una carta de control (X R) se sigue el siguiente procedimiento:

1. Determinamos la caracterstica de calidad. En la manufactura o en un servicio es impor-


tante identicar la variable que describir la calidad del producto o bien.

2. Escoger el subgrupo muestra. El subgrupo es una pequea parte de la produccin que


la representa, la idea fundamental es detectar los cambios que se producen en el sistema.
Existen dos procedimientos para seleccionar este subgrupo una vez denido el tamao de
la muestra.

En el primer procedimiento la meta es minimizar la variabilidad dentro de las unidades en la


muestra, y maximizar la variabilidad entre las muestras. Esto se logra seleccionando los artculos
en la muestra en un rango de tiempo lo ms pequeo posible.
Debemos tener presente que las cartas X RoX S nos ayudan a determinar si un proceso
est fuera de control. Con la carta X observamos la caracterstica de calidad y con las cartas R
o S la variabilidad del proceso, para ello primero tomamos en cuenta la carta R o S, es decir,
conocer la variabilidad del proceso. Aunque es importante mantener en control la caracterstica
de calidad y la dispersin, no se puede interpretar la carta X cuando las cartas R o S nos
muestran condiciones que implican un proceso fuera de control.

Capacidad del proceso

Con objeto de medir la capacidad de un proceso, se establece un sistema de 5 ndices que son de
utilidad para cuanticar la capacidad de un proceso estable, stos permitirn evaluar un proceso
con respecto a los lmites de especicacin. Los ndices son:

Cp = ndice potencial del proceso.

CP U = ndice superior del desempeo del proceso.

CP L = ndice inferior del desempeo del proceso.


6.1. Variables aleatorias continuas 91

k = ndice de centrado del proceso.

Cpk = ndice del desempeo del proceso.

Conceptos generales

Con objeto de estimar los ndices indicados anteriormente, primero se determina la caracters-
tica de calidad que se desea medir, se toma una muestra aleatoria del proceso, se obtiene el
histograma tal que contenga los lmites de especicacin inferior (LEI) y superior (LES). A
simple vista del histograma se puede analizar la forma de la distribucin, si sta tiene una forma
acampanada puede representar a un proceso capaz si este est cerca del centro. Tambin, se
puede emplear el papel de probabilidad de una distribucin normal para observar la tendencia
de los datos. La mayor amplitud es 6  b; es decir la longitud comprendida entre los lmites de
tolerancia del proceso. Se puede establecer que un proceso no es capaz si:

1. El proceso no es estable.

2. El proceso est centrado cerca de los lmites de especicacin

3. El proceso es excesivamente variable.

Las cartas de control permiten conocer la estabilidad de un proceso. Por otro lado, es ms
fcil obtener un proceso capaz, si la variabilidad del proceso no es tan grande.Por qu?

Indice potencial del proceso Cp

Este ndice depende slo de la variabilidad en condiciones denidas del proceso a corto plazo y
que ste se encuentre bajo control estadstico. Un mtodo simple para estimar el Cp , es relacionar
la amplitud del proceso, con la amplitud permitida, esta ltima se establece de antemano.

amplitud permitida LES LEI


Cp = =
amplitud actual del proceso 6

se dice que el ndice Cp estima la habilidad del proceso. Otra manera de evaluar al proceso
en trminos de porcentaje, es mediante el ndice de razn de capacidad, este se obtiene por el
recproco del ndice Cp multiplicado por 100, es decir:

1
CR = 100%
Cp
92 6. Distribuciones de probabilidad continua

La interpretacin de ste ndice se mostrar en el siguiente ejemplo, durante el curso ste se


denoto por Por .
El ndice potencial del proceso presenta tres situaciones que permiten establecer la habilidad
del proceso, stas se denen como sigue:
8
< < 1 es no capaz
Cp = 1 es deseable
:
> 1 es capaz

Indice del desempeo del proceso Cpk

Cuando un proceso est bajo control estadstico, se espera que la caracterstica de calidad que
se le mide a los artculos tenga una distribucin con promedio  y varianza  2 . Generalmente
un industrial requiere que la caracterstica de calidad de su proceso tenga un compotamiento
en promedio a un cierto valor establecido, este frecuentemente se identica como valor nominal
del proceso denotado por T . Si el promedio y el valor nominal coinciden, es decir, que  = T:
Entonces dice que el proceso est centrado. Cuando esto no es as, se requiere de un ndice
que indique qu tan lejos est el proceso del valor objetivo. Un objetivo es plantear cmo el
desempeo del proceso se puede relacionar con el potencial del proceso Cp y con la medida de
_
localizacin X:
Considere la situacin en la que el proceso nicamente se relaciona con el lmite de especi-
_
cacin superior, en esta situacin intervienen tanto la media X; como la desviacin estandar 
b
para denir el ndice CPS denominado ndice de capacidad superior, es decir:
_
LES X
CP S(CP U ) =
3b

Anlogamente, se puede considerar de un proceso el lmite de especicacin inferior, esto da
lugar a denir el ndice de capacidad inferior como sigue:
_
X LES
CP I = (CP L ) =
3b

El ndice Cpk mide el desempeo del proceso y su clculo es

Cpk = min( CP I; CP S )

Ejercicios

1. El tiempo de respuesta para un estimulo tiene una distribucin normal con media  = 46,
 = 4. Qu porcentaje de valores estn?
6.1. Variables aleatorias continuas 93

(a) i. Mayores de 46? ii. Mayores de 50?

(b) i. Mayores de 40? ii. Menor que 38?

(c) i. Menor que 49? ii. Entre 45 y 49?

(d) i. Entre 50 y 54? ii. Mayor que 56 y menor 46?

(e) Dentro 1.5 desviaciones estndar de la media?

(f) Fuera de 2.3 desviaciones estndar de la media?

2. En un proceso de produccin un producto tiene un encogimiento con una media 80 mm y


una desviacin estndar de 12. Si un producto se selecciona al azar, encontrar cada una de
las siguientes probabilidades.

(a) i. P (80  X  92), ii. P (71  X  80), iii. P (X  92), iv. P (X  56), iv.
1 P (65  X  98),

(b) i. 1 P (66  X), ii. 1 P (X  104), iii. P (53  X  59), iv. P (X = 80).

3. Para un grupo de estudiantes de secundaria y preparatoria, el tiempo de solucin del


rompecabezas de la Repblica Mexicana tiene una distribucin normal con media 150
segundos y una desviacin estndar de 10. Encuentre:

(a) El primer, segundo y tercer cuartil.

(b) El 65 percentil y el 35 percentil.

(c) El rango del percentil del valor 165, es decir P (X  165):

(d) El rango del percentil del valor 145.

4. Supongamos que X es una variable aleatoria con una distribucin normal con media y
desviacin estndar . Calcula:

(a) P (40  X  56)

(b) P (X  64)

(c) w tal que P (X  w) = 0:32

(d) w tal que P (X < w) = 0:063

5. El tiempo en que el cajero bancario tarda en atender a los clientes tiene una distribucin
normal con media  = 10 minutos y desviacin estndar  = 2 minutos.
94 6. Distribuciones de probabilidad continua

(a) Qu porcentaje de clientes espera menos de 8 minutos?

(b) Cul es la probabilidad de que el cajero tarde en atender a un cliente en un tiempo


mayor que 16 minutos?

6. En estudios realizados por una rma para medir el coeciente intelectual de las personas
que solicitan un empleo, hay una distribucin normal con media y desviacin estndar .

(a) Cul es la probabilidad de un coeciente intelectual mayor a dos desviaciones estn-


dar de la media?
(b) Qu porcentaje de las personas presenta un coeciente intelectual superior a 120?

(c) Qu porcentaje de las personas muestra un coeciente intelectual entre 80 y 120?

7. El nmero de caloras de una sopa en un men se distribuye como una normal con media
200 y desviacin estndar de 5. Encuentra la probabilidad de que la sopa contenga:

(a) Ms de 210 caloras.

(b) Entre 190 y 200 caloras.

(c) Encuentra el 14 percentil de las caloras.

8. En un restaurante sirven manzanas como postre. El peso de ellas muestra una distribucin
normal con media 60 gramos y una desviacin estndar de 0.8 gramos. Cul es la pro-
babilidad de que a la siguiente persona que se le sirva una manzana, el peso de sta sea de
50 gramos?

9. Las calicaciones de admisin presentan una distribucin normal con media 500 y desviacin
estndar de 100. Encuentra la probabilidad de que un estudiante:

(a) Obtenga una calicacin mayor que 650.

(b) Obtenga una calicacin menor que 375.

(c) Obtenga una calicacin entre 350 y 575.

(d) Si la escuela admite a los que slo tienen una calicacin mayor a 670, cul es la
proporcin de los estudiantes que pueden ser admitidos?
(e) En qu lmite se debe jar la calicacin si el 50% de los estudiantes deben ser
admitidos?
(f) Cul debe ser la calicacin lmite si el tope de admisin es del 15% de estudiantes?
6.1. Variables aleatorias continuas 95

10. Supongamos que Z es una distribucin normal estndar. Encuentra el percentil de la


distribucin en cada caso.

(a) Debajo de z = 2:0

(b) Debajo de z = 2:6

(c) Debajo de z = 1:36

(d) Debajo de z = 1:36

(e) Entre z = 1:42 y z = 1:25

(f) Entre z = 2:82 y z = 0:58

11. Supongamos que Z es una distribucin normal estndar. Encuentra:

(a) P (Z < 1:64)

(b) P (Z  1:96)

(c) P ( 1:35  Z  1:35)

(d) P (1:22  Z  2:47)

(e) El valor de z tal que 5% del rea est debajo de ste.

12. Encuentra los percentiles 0.05, 0.01, 0.10, 0.025, 0.90, 0.95 y 0.68 en una distribucin
normal estndar.
96 6. Distribuciones de probabilidad continua
Captulo 7

Galera de distribuciones*

(*) Opcional

7.1 Ideas Generales: distribucin de probabilidad


Cuando no se pueden conocer los valores de medidas repetidas en una cantidad de inters, es
prctico caracterizar esa cantidad como una variable aleatoria y se denota por X. Esta variable se
reere a la poblacin. La coleccin de todos los valores posibles en la poblacin se llama espacio
muestra S. Los valores X de los resultados de los ensayos realizados, esto es, las mediciones en
X son denotados por x. Un conjunto de estos ensayos, es la muestra. As una muestra es un
subconjunto de valores del espacio muestra S:
As muchas cantidades medibles en diferentes reas del conocimiento, incluyen un rango
continuo de puntos en el espacio muestra S:
La condicin de incertidumbre de la variable aleatoria X se modela por una distribucin de
probabilidad F (x; ): Donde F es una funcin matemtica de los valores x que la variable X
puede tomar en el espacio muestra S; y  son parmetros que caracterizan a la distribucin.
A continuacin se describen varias distribuciones de probabilidad que son importantes, debido
a su utilidad para modelar diferentes situaciones y su aplicacin en ingeniera.

7.1.1 Distribucin Weibull


La funcin densidad para una distribucin Weibull, Wei (; ) de una variable aleatoria X est
dada por:
  x  1 
( ) e (x=)
 
x0
f (x : ; ) =
0 x<0

 > 0 es el parmetro de escala,  > 0 es el parmetro de forma

W e(; )

97
98 7. Galera de distribuciones*

Figura 7.1: Distribucin Weibull W ei(2; 1) y clculo de probabilidad ilustrada por la grca y
la tabla.

Observaciones: Esta funcin de densidad puede tener gran variedad de formas con una o dos
colas.

 Si  = 1, se tiene como caso particular la distribucin exponencial exp(): Notacin


exp() = e :

 Si  = 2, da lugar a la distribucin de Rayleigh.

La funcin de distribucin es la distribucin acumulada y se expresa por.


  
F (x; ; ) = 1 exp(

La media y la varianza de distribucin son:

      2
1 1 2 1 2 1
= 1+  = 2 1+ 1+
    
 p
donde es la distribucin gama, (1) = 1; 1
2
= ; (n) = (n 1) (n 1) y si n es entero
(n) = (n 1)1 :
En la Figura 7.1 se observa la distribucin Weibull W ei(2; 1); a la derecha de la grca se ha
puesto la tabla para el clculo de probabilidades de esta distribucin. En sta se ilustra, en la
grca, el clculo de la probabilidad para X mayor a 1.731 es decir P (X  1:731) = 0:0499: Con
7.1. Ideas Generales: distribucin de probabilidad 99

Figura 7.2: Clculos de la probabilidad para ms de 1000 horas -izquierda, y del valor de X para
una probabilidad de 0.1 -derecha.

la tabla se obtiene la probabilidad entre los valores de 0.85 y 1.74, P (0:85  X  1:74) = 0:437:
Usando esta distribucin, observe para los siguientes valores del parmetro de forma  = 0:5; 1;
1:5; 3; 4 con  = 1: Esto indica la variedad de formas de la funcin densidad Weibull y con ello
la exibilidad del modelo para caracterizar datos de algn proceso.

Ejemplo 1

La falla de un calentador se debe a la reduccin o prdida total de la potencia de empuje en un


grupo de empaques. Se midieron estos durante un periodo de dos aos y los valores se ajustan
bien con un modelo de la distribucin Weibull, W ei(0:8941; 1609:8) use la tabla para calcular la
probabilidad para 1000 horas o ms de operacin.

Solucin

En la Figura 7.2 se presenta el clculo de la probabilidad cuyo resultado es P (X  1000) =


0:5203:
Esta probabilidad se le conoce como la conabilidad del calentador. Dada la probabilidad de
P (X  x) = 0:1 con los parmetros k = 0:8941 y  = 1609:8, cul es el valor de x? x = 129:9375
100 7. Galera de distribuciones*

7.1.2 Distribucin Gama


La funcin densidad de la distribucin gama se expresa por

  1
x e x
()


1 e x
g(x : ; ) = x para x > 0:
( )

 > 0 es el parmetro de forma > 0 es el parmetro de escala. Del clculo diferencial e


integral se tiene que la funcin
Z 1
() = x 1 e x dx:
0

Nota 2
Si  = n=2; n es un entero positivo y = 1=2 es la funcin densidad de la gama, entonces se
tiene una distribucin Ji (Chi) cuadrada, distribucin que se ilustra en el siguiente captulo.
La media y la varianza se expresan respectivamente por

Ejemplo 2
 
= y 2 = 2

Encontrar P (3:28 < X  25:2) si X tiene una distribucin gama con  = 3 y = 0:25: Ver
en la Figura 7.3 la solucin.

7.1.3 Distribucin exponencial


La importancia de esta distribucin sigue de su relacin a procesos Poisson, el tiempo X : T entre
las posibles ocurrencias de eventos, tiene una distribucin exponencial con la siguiente funcin
densidad:

e x
, si x  0
f (x; ) =
0, si x < 0

 > 0 es el parmetro de taza.


La funcin de distribucin est dada por:

F (x; ) = 1 exp( x)


7.1. Ideas Generales: distribucin de probabilidad 101

Figura 7.3: Clculo de la probabilidad para una distribucin gama

La media y la varianza son dados, respectivamente por:

1 1
= y 2 = 2
 
Vea el grupo de distribuciones en CalEst y seleccione la exponencial, observe las diferentes
formas para distintos valores de ; por ejemplo  = 0:5;  = 1;  = 1:5;  = 2:

Ejemplo 3

La razn de falla de un gracador electrnico es  = 0:00055 fallas/hora. Determine la proba-


bilidad de qu gracador dure en operacin unas 450 horas, P (X  450): Como se observa en la
Figura 7.4. La conabilidad de este equipo es 0:78075:

Solucin

P (X  450) = 1 F (x; ) = exp( x) = exp( 0:0005  450) = 0:78075:

7.1.4 Distribucin beta


Distintos valores de y para la distribucin beta e( ; ) proporcionan diferentes formas de
la funcin densidad, la cual se expresa por:
102 7. Galera de distribuciones*

Figura 7.4: Aplicacin de la distribucin exponencial en problemas de conabilidad.

( + ) 1
f (x; ; ) = x (1 x) 1
( ) ( )

> 0 es el parmetro de forma. > 0 es el parmetro de forma.


La media y la varianza para la distribucin, se expresan por:


= , 2 = 2
+ ( + ) ( + + 1)

Nota
Cuando = se tiene una distribucin simtrica. Un caso particular se presenta cuando
= = 1; en este caso se obtiene una distribucin uniforme U(0; 1):

Ejemplo 4

Usando la distribucin Beta del grupo de distribuciones en CalEst. Haga las grcas para la
funcin densidad de esta distribucin para observar los siguientes casos:

1. Distribucin unimodal y simtrica = = 1; 2; 3; 4; 6


7.1. Ideas Generales: distribucin de probabilidad 103

Figura 7.5: Distribucin beta con = = 2:

2. Distribucin unimodal y sesgada ( = 1:5; = 2); ( = 1:5; = 3); ( = 3; = 5) y


( = 2; = 5):

3. Distribucin en forma U y simtrica = = 0:15; = = 0:3; = = 0:5; = = 0:8:

4. Distribucin en forma U y sesgada ( = 0:2; = 0:8); ( +0:3; = 0:6); ( = 0:4; = 0:8);


( = 0:5; = 0:9):

5. Distribucin en forma J ( = 1; = 2); ( = 0:8; = 2); ( = 0:6; = 2); ( = 0:4;


= 2); ( = 0:2; = 2):

En la Figura 7.5 se ilustra un caso en 1, .

7.1.5 Distribucin uniforme


La funcin densidad uniforme U(a; b) de una variable aleatoria  se describe por:

 1

para  x  ;
f (x) =
0 para x < o x > ;

Parmetros y : lmites. ; 2 ( 1; 1): La media y la varianza para la distribucin son:


104 7. Galera de distribuciones*

Figura 7.6: Descripcin del clculo para el inciso b.

b+a (b a)2
= , 2 =
2 12

la probabilidad de que X est en cualquier subintervalo de [ ; ] es igual a la longitud del


intervalo dividido entre la longitud del intervalo [ ; ]:
Esto es:

b a
P (a < X < b) =

Ejemplo 5

Si X se distribuye de manera uniforme en el intervalo [0; 10]; calcule la probabilidad de que:


a) P (2 < X < 9); b) P (1 < X < 4) c) P (X < 5) d) P (X > 6)

Solucin

Observe la Figura 7.6, las soluciones son: a) 0:7; b) 0:3; c) 0:5; d) 0:4:
7.1. Ideas Generales: distribucin de probabilidad 105

7.1.6 Distribucin Lognormal


Una variable aleatoria X tiene una distribucin lognormal si Y = loge (X) tiene una distribucin
de probabilidad normal, donde loge es el logaritmo natural de base e. La funcin densidad de la
distribucin lognormal est dada por:
 
1 (log(x) 
f (x; ; ) = p exp
x 2 2 2

 = media,  2 = desviacin estndar

Ejercicio

Observe la distribucin lognormal para  = 1: Observe los casos para  = 0:2;  = 0:3 y  = 0:5

7.1.7 Distribucin Logstica


Una variable aleatoria continua X tiene una distribucin logstica, si su funcin densidad tiene
la forma:

e (x )=
f (x; ; ) = (x )= )2
(1 + e

 = posicin,  = escala.

Ejercicio

En la Figura 7.8 se describe la funcin de esta distribucin para  = 3 y  = 2:

7.1.8 Distribucin Gumbel


Una variable aleatoria X tiene una distribucin Gumbel si su funcin densidad tiene la forma:
  
1 x  x 
f (x; ; ) = exp exp ;  > 0; 1 < x;  < 1:
  

 = posicin,  = escala. La distribucin de probabilidad se expresa por:


  
x 
F (x; ; ) = 1 exp exp

106 7. Galera de distribuciones*
Captulo 8

Distribuciones 2, t, F +

Estas distribuciones desempean un papel importante en la inferencia estadstica. Son distribu-


ciones derivadas de la Normal.

8.1 Distribucin 2
Si Z1 ; Z2 ; :::Zn son variables normales estndar independientes, entonces se dice que la variable
 denida por
 = Z 2 + Z22 + ::: + Zn2

tiene una distribucin Ji (Chi) cuadrada con n grados de libertad. Se denota  s 2n para indicar
que  tiene una distribucin Ji cuadrada con n grados de libertad.
Por ejemplo, una compaa produce bolsas de cacahuate, el proceso genera miles de bolsas
cada una debe tener el mismo peso. Sin embargo existe una variacin en el peso de cada bolsa, la
cual debe ser baja. Si la poblacin de pesos tiene una distribucin normal, en este caso se desea
hacer inferencia estadstica sobre la varianza o desviacin estndar, como se ver mas adelante.
Para llevar a cabo esta inferencia, es necesario determinar los valores crticos en la distribucin
 con n
2
1 grados de libertad.
En esta direccin se especica un valor tal que (0 < < 1) y se calcula alguna de las
siguientes tres probabilidades: P (2 > 2 ( ; n 1)) = ; P (2 (1 ; n 1) < 2 ) = o
P (2 (1 =2; n 1) < 2 ) = =2; P (2 ( =2; n 1) > 2 ) = =2: Estos se calculan usando el
CalEst.

Gua para encontrar los valores crticos de la 2

1. Especique el nivel de signicancia (probabilidad ).

2. Determine los grados de libertad gl = n:

107
108 8. Distribuciones 2 , t, F +

Figura 8.1: Descripcin del ejemplo 1.

3. Los valores de la distribucin 2 se encuentran en la grca de la distribucin Chi cuadrada


en CalEst o con la opcin de la tabla que muestra el ambiente de la pantalla.

(a) Use el umbral para moverse a la derecha o izquierda segn el valor de :

(b) Use dos umbrales que correspondan a 12 y 1- 2 :

La distribucin 2 se utiliza para hacer inferencia sobre la varianza (prueba de hiptesis e


intervalos de conanza). Ver Captulo de Prueba de Hiptesis para una poblacin. La 2 tambin
se aplica en las pruebas de bondad de ajuste, ver ese Captulo.

Ejemplo 1

Encontrar el valor crtico 2D a la derecha cuando n = 24 y = 0:10

Solucin

Los grados de libertad son n 1 = 24 1 = 23: La grca de la Figura 8.1, CalEst, muestra
una 2 con 23 grados de libertad y un rea sombreada (probabilidad) de = 0:10 en la parte
derecha. 2 = 32
8.1. Distribucin 2 109

Figura 8.2: Clculo de la probabilidad de Ji cuadrada a la izquierda

Ejemplo 2

Encontrar el valor crtico 2L a la izquierda cuando n = 12 y = 0:05:

Solucin

Los grados de libertad son n = 12 1 = 11:La grca de la Figura 8.2, CalEst, muestra una 2
con 11 grados de libertad y el rea sombreada a la izquierda de = 0:05: As el rea a la derecha
es 1 =1 0:05 = 0:95: 2 = 4:571

Ejemplo 3

Encontrar los valores crticos 2 a la derecha e izquierda de la distribucin cuando n = 13 y


= 0:05

Solucin

Los grados de libertad de la distribucin son gl = n 1 = 13 1 = 12: La grca de la Figura


8.3, describe la distribucin de 2 con 12 grados de libertad y el rea sombreada (probabilidad)
de 12 = 0:025 en cada cola de la distribucin. El rea central es 1 = 0:95: As 2I = 4:403
2D = 23:336
110 8. Distribuciones 2 , t, F +

Figura 8.3: Valores crticos de la distribucin Ji cuadrada con un rea del 95%.

Ejercicios

1. En cada uno de los siguientes casos 2 (0:01; n 1); 2 (0:025; n 1); 2 (0:95; n 1) y
2 (0:99; n 1):Encontrar estos valores de 2 con los siguientes grados de libertad (gl): a.-
gl = 9; b.- gl = 15; c:- gl = 25:

2. Si los grados de libertad de la distribucin son gl = 2, encuentre los valores de x en los


siguientes casos: a: P (2  x) = 0:01; b: P (2  x) = 0:05; c: P (2  x) = 0:99; d:
P (2  x) = 0:01; e: P (2  x) = 0:9; f: P (2  x) = 0:5

3. Considerando gl = 18; calcule las siguientes probabilidades: a: P (2 > 25:989) b: P (2 
7:015) c: P (7:015 < 2 < 9:390) d: P (10:865 < 2 < 28:869)

4. Encuentre el valor crtico de 2 para la cola izquierda cuando n = 18 y = 0:01

5. Encuentre el valor crtico de 2 para la cola derecha cuando n = 30 y = 0:05

6. Encuentre el valor crtico de 2 para dos colas cuando n = 19 y = 0:05: Es decir encuentre
el valor 2D con 12 y el valor 2I con 1
2
:

7. Si X tiene una distribucin 2 con gl = 10; encuentre la probabilidad P (3:25  X  20:5)


8.2. La distribucin t 111

Figura 8.4: Descripcin de la distribucin t, 6 grados de libertad y con su valor critico a la


izquierda.

8. Si X tiene una distribucin 2 con gl = 5; determine las constantes c y d tal que P (c <
X < d) = 0:95 y P (X < c) = 0:025:

8.2 La distribucin t
En la vida real para realizar estudios usando la distribucin normal, se requieren muestras su-
cientemente grandes (n  30): Esta situacin no es prctica, una alternativa para hacer inferencia
sobre la media  es usar la distribucin t: Si Z y 2n 1 son variables aleatoria independientes,
donde Z tiene una distribucin normal estndar y 2 sigue una distribucin Ji cuadrada con
n 1 grados de libertad entonces se dice que la variable aleatoria denida por:

Z
Tn 1 =p 2
n 1 =(n 1)

tiene una distribucin t con n 1 grados de libertad. La representacin de esta distribucin


aparece en el grupo de distribuciones presentadas por el CalEst.

Ejemplo 4

La forma de la distribucin con 6 grados de libertad se muestra en la Figura 8.5, en esta se


muestra el clculo de un valor crtico a la izquierda: esto es P (Tn 1  2:467) = 0:024: Se
muestra la probabilidad complementaria P (Tn 1 > 2:467) = 1 0:0243 ' 0:976. Nota: se usa
el smbolo ' por errores de redondeo al considerar el umbral en milsimas.
112 8. Distribuciones 2 , t, F +

En muchas situaciones prcticas la desviacin estndar  de la poblacin es desconocida. Si


la distribucin de una variable aleatoria X es aproximadamente normal, entonces

X 
t= p
S= n

tiene una distribucin t de Student.


Los valores crticos de t se denotan por tc ; y se tiene P (Tn 1 > tc ) = ; donde est entre 0
y 1: La distribucin t tiene las siguientes propiedades.

1. La distribucin t es de forma acampanada y simtrica alrededor de la media.

2. La distribucin t es una familia de curva cada una es determinada por un parmetro llamado
grados de libertad. Los grados de libertad son igual al tamao de la muestra menos uno,
gl = n 1:

3. El rea total bajo la curva es 1 o 100%:

4. La media, la mediana y la moda de la distribucin son igual a cero.

5. Conforme el nmero de grados de libertad, crece la distribucin se aproxima a una normal.


(Aunque es un resultado asinttico), despus de los 30 gl, la distribucin t es muy cercana
a la normal estndar. En CalEst la distribucin t se tiene hasta un valor de n = 300.

Nota: Observe que debido a la simetra:

= P ( Tn 1  tc ) = P (Tn 1  tc ) = 1 P (Tn 1  tc )

Por lo que
P (Tn 1  tc ) = 1

Se llega a la conclusin de que

tc ( 1; n 1) = t( 1; n 1)

Ver Figura 8.6.

Ejemplo 5

Encontrar el valor crtico tc en la cola derecha de la distribucin t Student con = 0:01 y


n = 17:
8.2. La distribucin t 113

Figura 8.5: Descripcin de la distribucin t para = 0:01 y gl = 16.

Solucin

Los grados de libertad son gl = n 1 = 17 1 = 16: Usando el bloque de distribucin en el


CalEst: la distribucin t de Student en la Figura 8.5. El rea sombreada corresponde al valor
de = 0:01 y t0 = 2:583 es el valor crtico. En smbolos:

P (Tn 1 > 2:583) = 0:01

en la tabla de la derecha, es la alternativa para encontrar los valores t de la distribucin para un


valor de dado. En este caso usar la inversa. Tambin se pueden encontrar probabilidades para
diferentes valores de t.

Ejemplo 6

Usar la tabla de probabilidades de la distribucin t con 13 gl, para encontrar la probabilidad:


a: P (T  0:45); b: P (T  2:56); c:P ( 1:9  T  1:9)

Solucin

a: P (T  0:45) = 0:330; b: P (T  2:56) = 0:0118; c:P ( 1:9  T  1:9) = 0:920


114 8. Distribuciones 2 , t, F +

Figura 8.6: Clculo de los valores crticos de la distribucin t para = :05 y gl = 25

Ejemplo 7

Encontrar los valores crticos t0 y t0 para las colas derecha e izquierda respectivamente de la
distribucin t, con = 0:05 y n = 26:

Solucin

Los grados de libertad son n 1 = 26 1 = 25: En este caso se toma 1


2
para indicar la
probabilidad de cada cola, es decir 12 = 0:025: {Los valores de t0 = 2:059 y t0 = 2:059; ver
Figura 8.6.

Ejercicios

1. Encontrar los valores crticos para la cola izquierda en cada inciso.

(a) t(0:0 5; 7); t(0:0 1; 7); t(0:005; 7); t(0:10; 7)

(b) t(0:05; 12); t(0:01; 12); t(0:005; 12); t(0:10; 12)

(c) t(0:05; 25); t(0:01; 25); t(0:005; 25); t(0:10; 25)


8.3. La distribucin F 115

2. Encontrar las siguientes probabilidades

(a) P (T  2:7); P (T  1:56) P ( 2  T  2) con n = 18

(b) P (T  3:5); P (T  0:58); P ( 2:5  T  2:5) con n = 35

(c) P (T  1:35); P (T  3:5); P ( 3  T  3) con n = 6

8.3 La distribucin F
Si 2(n) y 2(m) son variables aleatorias Ji cuadrados con n y m grados de libertad respectivamente,
entonces se dice que la variable aleatoria F (n; m) se dene por:

2(n) =n
F (n; m) =
2(m) =m

Como una distribucin F con n y m grados de libertad. La notacin grados libertad en el


numerador glN = n; y en el denominador glD = m:

Ejemplo 8

En la Figura 8.7 se presenta la distribucin F con 4 y 7 grados de libertad, con un valor de


= 0:05, es decir: F (0:05; 4; 7) = 4:121: Tambin se ilustra el uso de la tabla que funciona
como calculadora de sta distribucin. Es conveniente realizar varios ejercicios con base en
esta distribucin para obtener un mayor dominio sobre el clculo de los valores de F dada una
probabilidad, o calcular probabilidades a partir de un valor de F .
El valor de se le conoce como nivel de signicancia y es la probabilidad de que F (n; m) sea
mayor que FD ; a este valor de FD se le conoce como punto crtico a la derecha de la distribucin
F: Es decir:

P (F (n; m) > FD ( ; 4; 7)) =

El valor de est entre 0 y 1 (0 < < 1); la distribucin F cumple con la propiedad

1
F (1 ; n; m) =
F ( ; m; n)

Otra propiedad de la distribucin F en su relacin con la distribucin t-student, sta es:


F ( ; 1; m) = t2 ( =2; m):
116 8. Distribuciones 2 , t, F +

Figura 8.7: Probabilidad a la derecha de 4.12 en una distribucin F .

Gua para encontrar los valores crticos para la distribucin F

1. Especicar el nivel de signicancia :

2. Determinar los grados de libertad para el numerador glN:

3. Determinar los grados de libertad para el denominador glD :

4. Use la distribucin F en CalEst

(a) Valor de cola derecha, describe la probabilidad a la derecha del punto FD (n; m), es
decir: P (F (n; m) > FD (n; m)) =

(b) Valor de cola izquierda; se obtiene la probabilidad a la izquierda del punto FI (n; m)

1
FI (n; m) =
FD (m; n)

Ejemplo 9

Ilustracin de propiedad FI (n; m) = 1


FD (m;n)
8.3. La distribucin F 117

Figura 8.8: Valores de F para una probabilidad 1 :

Caso 1 glN = 3 y glD = 6; FD ( = 0:05; 3; 6) = 4:757; P (F > 4:757) = 0:05:


Clculos

1  1 
FI (1 0:05 = 0:95; 6; 3) = = = 0:210
F ( = 0:05; 3; 6) 4:757

Nota. Dada esta propiedad en los libros de estadstica, generalmente aparecen los valores de
la distribucin F a la derecha.
Una ventaja usando el CalEst es que usando los cursores, puede obtener rpidamente los
valores crticos de F a la izquierda de y a la derecha de :
Caso 2. glN = 6 glD = 3 FD ( = 0:05; 6; 3) = 8:940

1 1 
FI (1 0:05 = 0:95; 3; 6) = = = 0:11183
F ( = 0:05; 6; 3) 8:940

En la Figura 8.8 se ilustra el caso bilateral de la distribucin F .

Ejercicios

1. Calcular los valores de F en la distribucin F para los siguientes casos:


118 8. Distribuciones 2 , t, F +

F (0:025; 7; 5); F (0:1; 3; 8); F (0:05; 5; 7); F (0:9; 5; 7); F (0:01; 10; 12): Use las
grcas y tablas de la distribucin F del CalEst.

2. Calcular el valor de F en la distribucin F con glN = glD = 24 y = 0:001: Dadas estas


condiciones encontrar la probabilidad a la derecha si F = 3:83.

3. Encontrar el valor crtico derecho de FD cuando los valores de son: = 0:05; = 0:025;
= 0:01 y = 0:005 respectivamente, donde los grados de libertad son: glN = 6 y
glD = 29: Para estas condiciones encontrar el valor crtico a la siguiente FI :

4. Encontrar las probabilidades a la derecha de F = 5:40 para los tres siguientes pares de
grados de libertad i. glN = 4 y glD = 40; ii. glN = 6 y glD = 29; iii. glN = 10 y glD = 12:

5. Si F0 = 4:83 con glN = 4 glD = 8 encontrar las probabilidades P (F (4; 8) > 4:83);
1
P ( F (8;4) < 0:97):
Captulo 9

Estimacin estadstica

9.1 Parmetro y estimacin


Objetivo: Comprender la importancia de la inferencia estadstica

La inferencia estadstica es una herramienta muy til para resolver una gran cantidad de cues-
tiones que se presentan en la vida cotidiana, en el desarrollo tecnolgico y en la investigacin
cientca. Los problemas citados en la entrada de esta unidad son ejemplos tpicos de inferencia
estadstica.
En el primer caso, las personas forman un conjunto grande de individuos. A ste se le
denomina poblacin. Para tomar decisiones adecuadas en la dieta alimenticia, es necesario
conocer si un producto alimenticio ayuda en promedio a reducir el IMC -ndice de masa corporal-.
Se toma una muestra de personas obesas con la idea de que el promedio de la reduccin del IMC
en esa muestra sea una buena estimacin del promedio de reduccin en toda la poblacin. De
esta manera, se podra decir que el tratamiento para adelgazar fue en promedio efectivo.
En la Figura 9.1, se ilustra una poblacin de personas y en el crculo se describe la muestra.
La esencia de la inferencia estadstica es adquirir conocimiento sobre una poblacin a travs de
la informacin proporcionada por la muestra, y as extraer conclusiones generales sobre el objeto
de estudio.
Para hacer inferencia estadstica acerca de la media  de la poblacin, debemos comprender
el comportamiento de la media muestral X. El enfoque de esta unidad es comprender cmo
funciona la X para obtener un conocimiento aproximado de la media poblacional.
En la Figura 9.2, el crculo grande representa la poblacin objeto de estudio y el pequeo
se reere a la muestra que se toma de la poblacin. En realidad, el crculo de la muestra debe
estar dentro de la poblacin como se indica en la Figura 9.1, pero mediante esta grca puede
visualizarse la relacin entre probabilidad e inferencia estadstica.
En resumen, necesitamos aprender a calcular la verosimilitud de una muestra particular
seleccionada de una poblacin. En ese sentido, lo que estamos haciendo es recorrer el camino de

119
120 9. Estimacin estadstica

la poblacin a la muestra, como la echa de arriba en la Figura 9.2. Sin embargo, nuestra meta
nal es ir de la muestra a la poblacin, esto es, hacer lo que representa la echa de abajo de la
Figura 9.2. Con ello, decimos que se usa la informacin de la muestra para elaborar armaciones
en trminos de probabilidad sobre el comportamiento de la poblacin. Esta temtica es un fuerte
componente con temas relacionados con la investigacin, se hace un breve resumen de elementos
relacionados con esta rea.

Investigacin

Tanto las ciencias sociales como las ciencias naturales inician la investigacin de una forma
controlada, sistematizada, crtica, con el n primordial de aprobar o desechar hiptesis como
explicativas de los fenmenos del comportamiento del ser humano. Su punto de partida est
tambin en la observacin de los hechos, en la formulacin del problema, en la estructuracin de
la hiptesis y en la bsqueda de pruebas para confrontar esas hiptesis, con el n de establecer
una ley o norma explicativa de la conducta social de los individuos (Tamayo, 2002).

Tipos de investigacin cuantitativa

Investigacin descriptiva. Se reere a la etapa preparatoria del trabajo cientco que permita
ordenar el resultado de las observaciones de las conductas, las caractersticas, los factores, los
procedimientos y otras variables de fenmenos y hechos. Este tipo de investigacin no tiene
hiptesis explicada.
Investigacin analtica. Es un procedimiento ms complejo con respecto a la investigacin
descriptiva, que consiste fundamentalmente en establecer la comparacin de variables entre gru-
pos de estudio y de control sin aplicar o manipular las variables, estudiando stas segn se dan
naturalmente en los grupos. Adems, se reere a la proposicin de hiptesis que el investigador
trata de probar o negar.
Investigacin experimental. Es un procedimiento metodolgico en el cual un grupo de
individuos o conglomerado, son divididos en forma aleatoria en grupos de estudio y control y
son analizados con respecto a un factor o medida que el investigador introduce para estudiar y
evaluar.

Problema 1 Salario profesional

Una cuestin de suma importancia para los profesionistas que acaban de egresar de la universidad
y estn en busca de empleo es el salario.
Una universidad le encarg a una empresa que realiza estudios de mercado una encuesta para
saber, entre otros factores, el salario percibido por las personas que terminaron hace tres aos o
menos la carrera de ingeniero industrial en diferentes universidades. En este caso la poblacin de
9.1. Parmetro y estimacin 121

Figura 9.1: Idea general entre poblacin y una muestra de ella.

Figura 9.2: Descripcin del procedimiento de inferencia estadstica


122 9. Estimacin estadstica

Figura 9.3: Tabla de salarios

inters la forman todos los ingenieros industriales que egresaron de las universidades en Mxico
y tienen tres aos o menos de haber egresado y estn trabajando.

Preguntas sobre la naturaleza del problema

El salario establece el centro de las relaciones de intercambio entre las personas y las organiza-
ciones. Todas las personas dentro de las organizaciones ofrecen su tiempo y su fuerza de trabajo
a cambio de dinero. Esto representa el intercambio de una equivalencia entre derechos y obliga-
ciones recprocas entre el empleado y el empleador. Varias preguntas surgen para conocer los
niveles de salarios: Qu tan competitivo es el salario de un ingeniero industrial recin egresado?
Cmo es este salario con respecto a otras profesiones? Existen empresas que pagan mejor que
otras?

Recopilacin de datos

Con el n de plantear la idea establecida entre los datos de una poblacin y el procedimiento
para obtener una muestra y a partir de ella, realizar la inferencia estadstica sobre la poblacin.
Consideremos una poblacin de 50 ingenieros industriales y su salario. En la Figura 9.3 se
identica con ID a los 50 ingenieros para facilitar el procedimiento de extraccin de la muestra.
Recordemos que a partir de la informacin de la muestra pueden conocerse las caractersticas
de la poblacin. En este caso, se considera una poblacin pequea donde se puede calcular su
media y desviacin estndar (puedes ejecutar este clculo en el paquete estadstico que viene en
el CD). La media y la desviacin estndar para esta poblacin pequea N = 50 son:

 = 6170 y  
= 972

(En este caso se expresa la desviacin estndar de manera aproximada: 


=)
9.1. Parmetro y estimacin 123

El objetivo es observar que cuando se toma una muestra, sta nos aproxima al valor real de
la media poblacional; en la pr
actica este valor es desconocido:
La media y la desviacin estndar para la muestra son X y S , respectivamente. As,
para estimar la media de la poblacin con la media de la muestra se realiza lo siguiente:

=X un error o  = X + un error

Las preguntas centrales en este caso son: Qu tan pequeo es el error? Con qu con-
anza obtenemos el resultado? Con el propsito de motivar estas ideas se plantea una estrategia
para seleccionar la muestra.

Procedimiento
Metemos en un caja 50 papeles numerados del 1 al 50 y seleccionamos varias muestras de tamao
n = 5. Los cinco papeles que salieron para la muestra son: 18, 41, 40, 45, 22 y los salarios
correspondientes son: 4940, 6040, 6350, 5760, 5490. Por lo tanto, la media muestral es:

4940 + 6040 + 6350 + 5760 + 5490


X= = 5696
5
Este valor es una estimacin puntual del valor de la media poblacional  . Como se puede
observar existe una discrepancia con el valor real de la media de 474 (valor del error).

 = X + error = 5696 + 474

9.1.1 Estimacin puntual


La estimacion es el proceso que permite inferir sobre los posibles valores de los parmetros que
describen la poblacin.
Proceso: Como es muy probable que se desconozcan los valores de los parmetros que
representan a una poblacin, se recurre a la informacin proporcionada en la muestra para
contar con una idea de los valores de los parmetros. Lo que puede resultar lgico es identicar
un descriptor numrico para la muestra. Este estadstico, llamado estimaci
on puntual , se puede
usar para estimar la medida correspondiente a la poblacin.
Recordemos que un estadstico es la medida numrica que se calcula a partir de los datos
observados en una muestra

Una estimacin puntual es un nmero calculado a partir de la muestra.


ste se usa para estimar un parmetro de la poblacin.
124 9. Estimacin estadstica

Un estimador puntual es una frmula que se emplea para


calcular la estimacin puntual en un conjunto de datos.

Recuerda que un parmetro es una medida numrica de la poblacin. Los parmetros en


realidad son desconocidos.

9.1.2 Muestreo con reemplazo y sin reemplazo


Como se habr observado, al extraer el papel que identique a una persona para conocer su
salario, ste puede regresarse a la caja (con reemplazo) o no regresarlo (sin reemplazo). Reem-
plazar el papel en un milln de casos realmente no importa. De hecho, al reemplazar el primer
papel antes de sacar el segundo, las observaciones en la primera y la segunda extracciones son
totalmente independientes. No obstante, si no se reemplaza el papel, el segundo resultado de la
extraccin afectar ligeramente la segunda extraccin. En poblaciones pequeas el efecto s es
importante.

Muestreo aleatorio simple

El desarrollo matemtico es ms sencillo si las observaciones son independientes. En esta unidad


se va a suponer el muestreo aleatorio con reemplazo, al cual tambin suele llamarse muestreo
aleatorio simple.

Ejemplo 1

Siguiendo los datos de salario del Problema 1.


a) Obtener 4 muestras aleatorias simples adicionales de tamao n = 5, estimar la media en
cada caso y la discrepancia con respecto a la media poblacional  .
b) Seleccionar de manera aleatoria 5 muestras de tamao n = 10, siguiendo el mismo pro-
cedimiento del inciso anterior, y calcular X y X .
c) Qu diferencias observas en X  para cada uno de los incisos anteriores?
d) Seleccionar la muestra usando el paquete estadstico (mdulo Extras, opcin Generador
de nmeros) o la tabla de nmeros aleatorios.

Solucin
a) En la columna 1 de la Tabla 9.1 se ha reproducido la muestra que se obtuvo en el problema. Las
siguientes muestras fueron seleccionadas mediante el muestreo aleatorio simple. En los ltimos
dos renglones se han calculado X y X .
9.2. Distribucin muestral de la media muestral 125

b) Ahora extraemos de la caja con reemplazo 10 papeles y anotamos el nmero que corres-
ponde al salario. Las muestras y los valores seleccionados de 5 muestras de tamao n = 10 y el
clculo de X y X  , se presentan en la Tabla 9.1.
c) Observemos que la discrepancia entre la media muestral X y la media poblacional  es
menor cuando la muestra es de mayor tama~
no: Qu piensas que ocurrira si se aumentara el
tamao de la muestra? Por qu?
d) Usa el generador de nmeros aleatorios que se presenta en el CalEst.

Tabla 9.1 Seleccin de 5 muestras de tamao n = 5 y el clculo de X y X :

9.2 Distribucin muestral de la media muestral


Objetivo: Conocer cmo se construye la distribucin de la media muestral.

Problema 2 Evaluacin continua del aprendizaje

La direccin de una escuela desea dar seguimiento durante el ao al aprendizaje global de sus
alumnos. Para ello, cada semana aplica una evaluacin a una muestra de 10 estudiantes. Dicha
evaluacin consiste en un examen de conocimientos generales y se evala en una escala de 0 a
100. Por experiencia, se sabe que la media es  = 60:5 y la desviacin estndar es  = 10:5 .
Preguntas sobre la naturaleza del problema
Cmo puede haber un conocimiento contino del desempeo de los alumnos sin la necesidad
de aplicar una evaluacin a todos los estudiantes? Cul es la precisin de la informacin si
aumenta el nmero de estudiantes evaluados? Qu informacin proporciona la media en cada
muestra para contar con una idea clara del aprovechamiento de los alumnos?

Recopilacin de datos

Se sigui el siguiente procedimiento.


126 9. Estimacin estadstica

Figura 9.4: Grca que describe la muestra de calicaciones para 10 alumnos durante 12 semanas.

1. Para la primera semana seleccionar una muestra de 10 alumnos y calcular la media de las
calicaciones.

2. Seleccionar una muestra de tamao n = 10 durante 12 semanas y calcular la media de las


calicaciones para cada una de las semanas.

3. Bosquejar un diagrama de puntos para las 12 medias del inciso anterior.

Anlisis de la informacin
1. La muestra de n = 10 fue: 71, 62, 66, 51, 65, 67, 47, 60, 50 y 58. La media muestral para
este conjunto de datos es:

71 + 62 + 66 + 51 + 65 + 67 + 47 + 60 + 50 + 58
X= = 59:7
10

Este valor es una estimacin puntual de la media  para la poblacin.

2. En la Figura 9.4 se describe la muestra para cada una de las 12 semanas. Los signos +
indican el valor de la media muestral en cada semana. En la Figura 9.4 se puede observar
que en la semana 1 las calicaciones fueron bajas y el promedio, en este caso, lo reeja.
En la semana 2, por el contrario, las calicaciones fueron altas. Con el n de observar la
discrepancia de la estimacin con respecto al parmetro, se traza la media  como se ve
en la Figura 9.5. Ah se puede observar que, salvo en las muestras 1 y 2, las medias de las
muestras estn muy prximas a .

3. En la Tabla 9.2 se presentaron los valores de las medias en cada muestra. En la Figura 9.6
se describe el diagrama de puntos para estas medias.
9.2. Distribucin muestral de la media muestral 127

Figura 9.5: Grca que ilustra las medias de las muestras de calicaciones para 10 alumnos y su
referencia con la media poblacional.

Tabla 9.2 Medias de cada muesta

Ejemplo 2

Con referencia al Problema 2 describamos la distribucin de X para muestras de tamao n =


6; n = 24 y n = 100.

Solucin

Para examinar la distribucin de X con diferentes tamaos de muestra se usa la informacin del
ejemplo anterior. En el primer caso, se obtienen 120 muestras de tamao n = 6 y se calculan las
medias. La distribucin de esas 120 medias se ilustra en el primer histograma de la Figura 9.7,
donde se puede observar la variacin de esta distribucin.
En el segundo histograma se describe la distribucin de X para 120 muestras de tamao
n = 24. Como se advierte en esta situacin, existe menor variacin con respecto a la distribucin
anterior. Finalmente, se aument el tamao de la muestra a 100, y la distribucin de X se
presenta en el tercer histograma. Ah se observa que los valores de la media muestral estn ms
prximos al valor de la media  .
128 9. Estimacin estadstica

Figura 9.6: Diagrama de puntos que ilustra la distribucin de las medias muestrales.

Figura 9.7: Histogramas de medias muestrales para una poblacin de estudiantes.

Es claro que la direccin de la escuela adquiere mayor conocimiento de lo que ocurre con sus
alumnos en la medida en que el tamao de la muestra crezca, pero desde luego tendra que gastar
ms recursos y tiempo para obtener esa informacin.

Resultado terico

El valor de la media muestral X vara de una muestra a otra. Llamamos a X un estimador


puntual, pero ste tambin es una variable aleatoria. En unidades anteriores aprendimos que una
variable aleatoria tiene una media, una desviacin estndar y una distribucin de probabilidad.
De modo que la variable aleatoria X cuenta con una media, una desviacin estndar y una
distribucin de probabilidad.
Notemos que la media es ahora la media de todos los posibles valores de X y se denota por:

x

sta corresponde al parmetro de la distribucin de X . La desviacin estndar es la


9.2. Distribucin muestral de la media muestral 129

desviacin estndar de los valores de X y se indica por:

x

De manera anloga, sta es el parmetro para la desviacin estndar de la distribucin X .


Mediante mtodos matemticos se puede demostrar que dichos parmetros se relacionaban con
los parmetros de la variable aleatoria X . Esta asociacin se establece mediante las expresiones:

x = 
y


x = p
n

En esta ltima expresin revela que la desviacin estndar disminuye en la medida que el
tamao de la muestra crece.

Ejemplo 3

Si hemos seleccionado una muestra de tamao n = 10 con  x = 9 , cuntas observaciones ms


necesitamos tomar para reducir  x a 4.5, a 3 o a 1?

Solucin

La expresin  x = p
n
relaciona la desviacin estndar de la media muestral X , la desviacin
estndar de la variable X y el tamao de muestra n. Con la informacin proporcionada por
los datos se necesita conocer el valor de  . As, la expresin  x = pn se puede escribir como
p
 = n x ; o  2 = n 2x . Sustituyendo los valores se tiene que  2 = 10  92 = 810 .
Para encontrar un valor del tamao de muestra se requiere tener los valores de las desviaciones
2
estndar y  x , esto es, n = 2.
x
Entonces, el tamao de muestra si se desea reducir  x a 4.5,
es:

2 810
n= 2
= = 40
x (4:5)2

Con las 10 observaciones que se tienen, entonces se necesitarn 30 observaciones ms.


Observa que habr un mejor conocimiento sobre los parmetros de la poblacin si hay ms
observaciones en la muestra. Esta situacin se ve reejada si la desviacin estndar  x disminuye;
en tal caso, se dice que aumenta la precisin de la estimacin.
130 9. Estimacin estadstica

Figura 9.8: Descripcin de la relacin entre la distribucin de las variables aleatorias X y X.

Prctica
La nalidad es ilustrar cmo emplear la distribucin normal en el CalEst para mostrar la relacin
entre la varianza  2 de la distribucin de la variable X y la varianza  2X distribucin de la variable
X: Informacin: se tiene que  2 = 729 ( = 27); n = 9, por lo tanto  2X = 81 ( x = 9): La
Figura 9.8 extiende la idea de la Figura 9.7. La grca de la derecha en la Figura 9.8 muestra
la normal con ( = 60;  = 27) y la de la izquierda es una normal con (x = 60;  x = 9)
distribucin muestral. A partir de esta descripcin se pueden realizar varios ejercicios para
estudiar y comprender esta relacin. Esta prctica ser de mucha utilidad para comprender los
conceptos que exponen diferentes libros sobre inferencia estadstica, y reproducir la descripcin
grca que presentan sobre la distribucin normal, la normal estndar y la t-Student.

Resultado tcnico
Si las mediciones de X vienen de una distribucin normal, se sigue que la distribucin muestral
de X tambin es normal, Figura 9.8.
En el proceso de estandarizar, sta se puede escribir como una normal estndar. Como se
indica por la siguiente expresin:

X x X 
z= =
x p
n
9.3. Teorema de lmite central 131

Ejemplo 4

El pH mide la alcalinidad o acidez de una sustancia qumica. En un proceso de elaboracin de


harinas, X es la variable aleatoria que mide el pH y se considera que sta tiene una distribucin
normal con parmetros  = 5:30 y  = 0:4 . Se toman 25 mediciones aleatorias en un nuevo
proceso con una media de pH de 5.10. Una media ms pequea a este valor resulta crtica para el
proceso. Cul es la probabilidad de obtener una media por abajo de 5.10? Ilustrar este ejemplo
usando la distribucin normal en el CalEst.

Solucin

Como la distribucin normal de X con parmetros  = 5:30 y  = 0:4 , entonces X, tendr


una distribucin normal con media  = 5:30 y desviacin estndar  x = p
n
= 0:4
p
25
= 0:08 . La
probabilidad es:

!
X x X  5:10 5:30
P (X  5:10) = P = = = P (z  2:5)
x p 0:08
n

Puesto que z es una variable normal estndar, su probabilidad la podemos obtener usando
el paquete estadstico o las tablas de probabilidad. En este caso se encuentra que un valor
P (z  2:5) = 0:006 , lo que indica que hay pocas posibilidades de obtener una media muestral
por debajo de 5.10; por lo tanto, el nuevo proceso no afecta el pH.

9.3 Teorema de lmite central


Objetivo: Comprender lo que se conoce como teorema de lmite central y la importancia del
resultado en la inferencia estadstica.
En funcin de los resultados observados en el Ejemplo 3, se ve que cuando se aumenta el
tamao de muestra la distribucin de X se aproxima a una distribucin normal. Esta situacin
es importante y se enuncia en lo que se conoce como teorema de l{mite central.

Teorema de lmite central


Si se seleccionan muestras aleatorias de tamao n de una poblacin,
sin importar la forma de su distribucin, con media  y desviacin
estndar ; cuando n es sucientemente grande, la distribucin de
la variable X se aproxima a la distribucin normal con

 Media X ; tal que X = ; y


 Desviacin estndar  X igual a p
n
132 9. Estimacin estadstica

Figura 9.9: Ilustracin de la distribucin muestral para diferentes tamaos de muestra cuando
la poblacin original no tiene una distribucin normal.

Este resultado es muy apropiado, dado que especica la distribucin X para muestras grandes.
Por lo general, desde un punto de vista prctico es suciente con que el tamao de n sea de 20 o 30
para considerar la distribucin de X como normal. Recurriendo a la simulacin por computadora,
en la Figura 9.9 se muestran algunos casos.
En referencia a la Figura 9.9, se observa la forma de la distribucin de la poblacin examinando
un histograma de las observaciones en la muestra. En el primer caso se presenta una distribucin
triangular. Si se selecciona una muestra de tamao n = 1, la forma de la distribucin muestral
dada por el histograma es similar a la de la poblacin. Si el tamao de muestra n crece, la
distribucin de X se aproxima a una normal.
Una situacin similar ocurre cuando la distribucin de la poblacin es uniforme. Si la muestra
es de tamao n = 1, el histograma reproduce la distribucin original. Si n crece, la distribucin
de X se aproxima a una normal.

Ejemplo 5

Una empresa que manufactura aparatos elctricos efecta pruebas de habilidad y destreza durante
el proceso de contratacin de personal. La calicacin de esas pruebas conforman una poblacin
con una media  = 100 y desviacin estndar  = 32 . Cul es la media x y la desviacin
9.3. Teorema de lmite central 133

estndar  x de una distribucin muestral X cuya muestra es de tamao n =  x ? Cul es la


probabildad de la calicacin de la media muestral este entre 90 y 120?

Solucin

En este caso se desea conocer los parmetros x y  x de la distribucin muestral X ; entonces,


se recurre a los resultados del teorema del lmite central. Para ello se utilizan las expresiones:


x =  y  x = p
n

Se tiene que x =  = 100 y  x = p


n
= p32
16
=8.
Utilizando la distribucin normal del CalEst con parmetros ( = 100;  x = 8) se tiene que
P (90  X  120) = 0:888: El resultado mediante la normal estndar es: P ( 1:25  Z  2:5) =
0:888

Ejercicio 1

Una poblacin normal tiene media 200 y desviacin estndar 100. Suponga que la distribucin
de la media muestral es generada por muestras de tamao n = 100. a. Encuentre el valor de x .
b. Encuentre  x . c. Encontrar P (195  X  205): d. Encontrar P (X > 210): e. Si un valor de
X es seleccionado, encontrar P (195  X  205): Compare con el inciso c. f. Si un valor de X
es seleccionado, encontrar P (X > 210): Compare con el inciso d.

Ejercicio 2

Repita el ejercicio si n = 400: Qu observa con respecto a las probabilidades en los incisos c y
d en los ejercicios 1 y 2?

Ejercicio 3

Una poblacin normal tiene media 200 y varianza 144. Suponga que la distribucin de la media
muestral es generada por muestras de tamao n = 36. a. Encuentre los valores de x . y  x . b.
Obtener P (320  X  322): c. Obtener P (X > 323): d. Obtener P (321 < X < 327):

Resumen del teorema del lmite central


Se pueden combinar los tres puntos del teorema del lmite central, y se obtiene la Figura 9.10,
en la cual se describe la distribucin muestral X cuando n es sucientemente grande. De la pre-
sentacin de la distribucin normal se sabe que 68% de los valores caen dentro de una desviacin
134 9. Estimacin estadstica

Figura 9.10: P (42  X  78) ' 0:95, el caso de dos desviaciones alrededor de la media, esta
varia para diferentes valores de n:

estndar de la media. Mientras que 95% cae dentro de dos desviaciones estndar de la media y
99.7% cae dentro de tres desviaciones estndar de la media.
Con respecto a la variable aleatoria X, se puede advertir que 68% de las veces observaremos
una media muestral que cae dentro de una desviacin estndar de una media poblacional 
desconocida. De manera similar, 95% de las veces observaremos una media muestral que cae
dentro de dos desviaciones estndar de  , y 99.7% de las veces observaremos una media muestral
que cae dentro de tres desviaciones estndar de  . Esta idea da lugar al concepto conocido como
intervalo de conanza o una estimacin por intervalo, que se ver ms adelante.

Relacin con la Binomial

Una de las aplicaciones ms importantes del teorema del lmite control, es su relacin con las
variables aleatorias normales. Considere la variable aleatoria binomial X con parmetros (n; p);
donde X representa el nmero de xitos que n ensayos independientes con probabilidad de xito
p cada uno de ellos. La variable X se expresa como:

X = X1 + X2 + ::: + Xn
9.3. Teorema de lmite central 135

Figura 9.11: Distribucin binomial para p = 0:3, para diferentes valores crecientes de n:

donde

1 si el ensayo i-simo es un xito
Xi =
0 si el ensayo i-simo es un fracaso

Puesto que la media de Xi  = E(Xi ) = p y la varianza de Xi es V ar(Xi ) = p(1 p) entonces


por el teorema de lmite central, la variable

X np
p ;
np(1 p)

para n grande, ser aproximadamente una variable normal estndar. Esta situacin se puede
ilustrar de manera visual, utilizando el CalEst.

Ejemplo 6

Ilustre en la opcin de distribuciones en CalEst, la distribucin binomial con (n; p) = (10; 0:3);
vare esta distribucin haciendo crecer n; por ejemplo (20; 0:3); (30; 0:3); (60; 0:3):Esta situacin
se ilustra en la Figura 9.11.
Nota. Se pueden ilustrar varios casos combinados p y poniendo diferentes valores n; tal que
n vaya creciendo.
136 9. Estimacin estadstica

Figura 9.12: Ilustra el teorema de lmite central, distribucin uniforme n = 1, luego con n = 9:

Ejercicio 4

En una escuela el 60% de los estudiantes no recibe atencin mdica, se selecciona una muestra
de 150 estudiantes. Si la variable aleatoria X -no recibe atencin mdica- tiene una distribucin
binomial. Estime la probabilidad de que a. X est entre 82 y 101. b. X mayor que 97.

Ejercicio 5

Una encuesta realizada en una ciudad, a gran escala, revela que el 30% de la poblacin adulta
consume regularmente bebidas alcohlicas durante la comida. Considerando esta proporcin,
cul es la probabilidad de que de 1000 entrevistados el nmero de consumidores de bebidas
alcohlicas sea a. menor a 280, b. 316 o ms?

Ejemplo 7 (Teorema de lmite central lanzando dados)

Se muestra el teorema con el lanzamiento de dados. As se lanza un dado n = 1, el modelo


para este experimento es una distribucin uniforme. Vea esta situacin visualmente usando la
opcin TLC en el programa, lance 1000 veces el dado de 100 en 100 Qu observa? El nmero
de lanzamientos del dado puede seguir creciendo. Ahora lance 5000 veces el dado de 100 en 100
vaya observando los cambios en la distribucin.
Repita el mismo procedimiento lanzando los dados 1000, 2000, 3000, 4000 y 5000, variando
el nmeros de dados lanzados, por ejemplo para n = 2; n = 3; n = 4; n = 5 y n = 10: Realice
esta actividad varias veces. En cada caso la distribucin tiende a hacerse simtrica.
En la Figura 9.12 se ilustra el caso con un dado, distribucin aproximadamente uniforme,
nueve dados distribucin cercana a una normal.
9.3. Teorema de lmite central 137

Prctica
1. Lanzar un dado 10 veces, registrar el nmero x que muestra el dado al caer. Calcule la
media.

Lanzamiento Tamao de muestra n = 10 x

1 6 3 2 2 5 1 4 4 1 3 3.1

2. Repita este procedimiento 24 veces. Haga el histograma para las 25 medias. Calcule la
media y la varianza de estos 25, medias, datos.

2
3
4
5
6
7
8
9
10
11
12
13
14
15

16
17
18
19
20
21
22
23
24
25

Nota. El modelo probabilstico al lanzar un dado, tiene una distribucin uniforme P (X) = 16 ;
X = 1; 2; 3; 4; 5; 6 con media

6
X            
1 1 1 1 1 1
= Xi P (Xi ) = 1 +2 +3 +4 +5 +6 = 3:5
i=1
6 6 6 6 6 6
138 9. Estimacin estadstica

6
X 6
X
2 = (Xi )2 P (Xi ) = Xi2 P (Xi ) 2 =
i=1 i=1

           
1 1 1 1 1 1
1 +4 +9 + 16 + 25 + 36 (3:5)2 = 2:92
6 6 6 6 6 6

as

p
= 2:92 = 1:71

Por el teorema de lmite central

 1:71
x =  = 3:5;  x = p = p  = 0:54
n 10

Qu tan aproximados son estos valores con los estimados en la prctica?

Ejemplo 8

Suponga que el peso X de un adulto hombre se distribuye como una normal con media  = 77
kg., y  = 9 kg. Es decir X  N (77; 92 ): Si tomamos una muestra de 16 adultos. Cul es la
probabilidad de que la media caiga entre 73 y 82 kgs? Observe esta situacin y haga los clculos
usando el CalEst.
Usando el programa con la distribucin normal con media 77 y desviacin estndar p916 = 2:25
se obtiene que P (73  X  82) ' 0:949; para normal estndar: P ( 1:778  Z  2:222) ' 0:949:
Si se calcula la probabilidad que un adulto seleccionado al azar tenga un peso entre 73 y 82
kg.

P (73  X  82) ' 0:382

9.4 Intervalos de conanza para la media


9.4.1 Muestras grandes
Objetivo: Conocer el procedimiento para obtener la estimacin por intervalo de conanza de la
media poblacional  .
9.4. Intervalos de conanza para la media 139

9.4.2 Ideas preliminares


Para saber cunto gana en el mercado laboral un ingeniero industrial recin egresado, se toma
una muestra de tamao n = 30 (se les pregunta su salario). Con la informacin proporcionada
por la encuesta se obtiene una media de X = 6200 del salario. La media muestral X es una
estimacin puntual conable de  , pero probablemente no est exactamente sobre la  . En
lugar de esta idea, se puede especicar con una alta probabilidad digamos de 0.90 o 0.95 que un
rango en particular cubre la verdadera media. Por ejemplo, a partir de los datos de la muestra,
se puede decir que el intervalo de 6100 a 6300 cubre la media  con una probabilidad de 0.95.
Esto es un ejemplo de un intervalo de conf ianza. Veamos ahora cules son los componentes
de un intervalo de conanza. Dicho intervalo comprende dos lmites: uno inferior IN y otro
superior SU . En el ejemplo citado IN = 6100 y SU = 6300. Por otro lado, el intervalo de
conanza tiene un valor de probabilidad, el cual suele conocerse como nivel de conf ianza y se
denota por 1 . Para el ejemplo ser: = 0:05 y 1 = 0:95 . Expresado en trminos de
porcentaje se dice que hay un intervalo de 95% de conanza.
En general, un intervalo de conanza para la media poblacional presenta la forma:

P (IN    SU ) = 1

9.4.3 Intervalo de conanza para cuando la poblacin es normalmente


distribuida y la desviacin estndar es conocida
Con el n de ilustrar el procedimiento para la estimacin por intervalo de media  , se propone
que la muestra sea seleccionada de una poblacin cuya distribucin es normal y en el supuesto
de conocer la desviacin estndar. No obstante, en la prctica el valor de  no se conoce, aunque
ms adelante veremos cmo obtener un intervalo de conanza sin estos supuestos.

Detalles tcnicos

Para hallar el intervalo de conanza necesitamos calcular los valores de los lmites inferior IN
y superior SU . Como sabemos, la X calculada de la muestra no ser exactamente igual a la
media; por tanto, lo primero que debe hacerse es establecer el tamao de un cierto margen de
error (e), conocido como error muestral, as:

=X e

De esta manera, los lmites inferior y superior del intervalo de conanza son:
140 9. Estimacin estadstica

IN = X e
SU = X + e

Recordemos que para cubrir 95% de los valores de una distribucin normal se tiene que:

P ( 1:96  z  1:96) = 0:95

Considerando la distribucin muestral de X se tiene que sta en forma de una normal estndar
se escribe como:

X 
z= p
= n

Se sustituye sta en la expresin anterior y se simplica; entonces:

 
P (X 1:96 p    X + 1:96 p ) = 0:95
n n

Reuniendo esta informacin tenemos que el error (e) es:


e = 1:96 p
n
Por consiguiente, los lmites inferior y superior son:

 
IN = X 1:96 p SU = X + 1:96 p
n n

Resumen de los intervalos de conanza para 

Desviacin Tamao de Intervalo de


Poblacin
estndar muestra conanza para 
IN =X z =2 pn
Normal Conocida n1
SU =X + z =2 pn
IN =X z =2 pSn
Normal Desconocida n > 30
SU =X + z =2 pSn
IN =X t =2 pSn
Normal Desconocida n  30
SU =X + t =2 pSn
IN =X z =2 pn
No normal Conocida n > 30
SU =X + z =2 pn

Tabla 7.4 Intervalos de conanza para .


9.4. Intervalos de conanza para la media 141

Figura 9.13: Intervalo de conanza para la media.

Una expresin general para el error (e), tambin conocido como precisin, ste se expresa
por:
 
e = z =2 p o e = t =2 p (9.1)
n n

Ejemplo 9

En el estudio del tiempo de respuesta para resolver un rompecabezas sobre la Repblica Mexi-
cana, aparece en la columna tiempo del archivo: est.tab contenido en la opcin de herramientas
del programa. Se desea estimar un intervalo del 95% conanza, en este caso como el tamao
de muestra es mayor que 30, se puede usar la distribucin normal estndar z. En el grupo de
inferencia aparece la alternativa de intervalos de conanza, al seleccionarla aparece una tabla
como la que se muestra a la izquierda en la Figura 9.13 se completan los cuadros en blanco, se
da aceptar a continuacin se proporciona el resultado.
Note que las elecciones Mltiple niveles permite observar el tamao del intervalo segn los
niveles de conanza que se utilicen y Mltiple desviaciones permite considerar otros intervalos
en trminos a la desviacin estndar. Estas observaciones estn relacionadas con la expresin
(9.1). Compruebe que la longitud de los intervalos tambin dependen del tamao de muestra
n, a medida que n crece, se cuenta con mayor informacin la precisin de los intervalos es
mejor.Verique estas diferentes situaciones usando el programa.
142 9. Estimacin estadstica
Captulo 10

Inferencia estadstica

10.1 Presentacin
La inferencia estadstica es un procedimiento cuyo objetivo es generar una conclusin sobre
una poblacin, mediante la informacin que proporciona una muestra seleccionada de datos. Una
rama importante de la inferencia es la prueba de hiptesis. ste consiste en un procedimiento
para seleccionar entre dos hiptesis, conocidas como hiptesis nula e hiptesis alternativa. Una
hiptesis es una armacin que expresa el valor del parmetro de una poblacin, por ejemplo
la media poblacional : En la prueba de hiptesis, la idea es dar el benecio de la duda a la
hiptesis nula, si el valor del parmetro es razonable. La hiptesis nula se rechaza solo si los
datos de la muestra indican que el valor del parmetro es no razonable, esto se ver con mas
detalle en el anlisis de datos. Formalmente:
Hiptesis nula, es una proposicin que indica que no hay diferencia (no hay efecto, no hay
cambio). sta se plantea usualmente en trminos del parmetro (medida de la poblacin) y
contiene el signo igual, sta se denota por H0 .
Hiptesis Alternativa, es una armacin que indica la verdad del parmetro en lugar de
la hiptesis nula. Usualmente se expresa con los smbolos <; > o 6=. ste se denota por H1 :

10.2 Prueba de hiptesis: utilizando el CalEst


En esta parte, se considera una serie de ejemplos para ilustrar cmo funciona CalEst para realizar
pruebas de hiptesis.
Considere la siguiente situacin: Un neurlogo y un siclogo quieren tener estrategias para
estudiar el desarrollo del cerebro en diferentes personas. Evaluar esta estrategia y conocer el
desarrollo del cerebro, utilizan una fotografa de granos de caf y en la que hay que identicar la
cara de un hombre escondida entre los granos. El tiempo de respuesta de los individuos sometidos
al estudio les indicar que tan desarrollado tienen el cerebro. Ellos contemplan que por lo general

143
144 10. Inferencia estadstica

las persona reaccionan de manera lenta ante este tipo de situaciones, en este caso suponen que
el tiempo de respuesta es menor a 130 segundos. En este estudio las hiptesis son:

H0 :  = 130
H1 :  < 130

Los investigadores aplicaron la foto a 120 personas los resultados obtenidos: X = 124:8 y
una desviacin estndar S = 38:6, lo que genera un error estndar pS
n
= 3:52: La idea del
procedimiento para realizar la prueba de hiptesis se describe en la Figura 10.1. A la derecha
se ha descrito la normal con media 130 y desviacin estndar 3.52 que caracteriza a la hiptesis
nula. A la izquierda, con el n de jar ideas, se ha considerado una normal con media 120
y desviacin estndar 3.52 que representa a una de las alternativas posibles. Se determin un
umbral, X = 124:21; punto de referencia, en lo sucesivo se llamar punto crtico, que permitir
establecer una estructura probabilstica para no rechazar o rechazar la hiptesis nula y, en lo
sucesivo, tomar una decisin. Por ejemplo, decir que el valor de x est tan lejos de 130 que
es improbable, se dice que ese valor tiene una probabilidad baja. Esta probabilidad se conoce
como nivel de signicancia de la prueba. Este se denota por ; probabilidad de rechazar una
hiptesis nula verdadera: observe el rea a la izquierda de la distribucin normal derecha (color
rojo), y cambia de una prueba de hiptesis a otra. Note que:

 = P (X  xc ) = P (X  124:21) = 0:0499 ' 0:05:

 = P (X > xc ) = P (X  124:21) = 0:116; probabilidad considerando la distribucin


normal izquierda (curva verde).

La informacin recabada por los datos permiten calcular la media xm , informacin de la


muestra, si esta cae a la izquierda del punto crtico se dice que los datos no apoyan a la hiptesis
nula y por lo tanto se rechaza. En el otro caso, si cae a la derecha no se rechaza la hiptesis
nula. Una alternativa para la prueba de hiptesis es usar el nivel de signicancia descriptivo
o valor p. En este caso la probabilidad es:

 p = P (X  xm ) = P (X  124:8) = 0:0698; en esta situacin se compara ste valor con


el nivel de signicancia : As como p = 0:0698 > 0:05 = , se concluye no rechazar la
hiptesis nula.

Observe cmo las grcas de la Figura 6.1 describen las situaciones posibles y las decisiones
potenciales relacionadas en la prueba de hiptesis. La grca sugiere dos tipos de errores al
realizar la prueba, el rea a la izquierda del punto crtico bajo la hiptesis nula indica que se
10.2. Prueba de hiptesis: utilizando el CalEst 145

Figura 10.1: Grcas de la funcin normal para la hiptesis nula y una alternativa jada con
anterioridad.

rechaza H0 cuando en realidad H0 es verdadera. El otro, el rea a la derecha del punto crtico
considerando la hiptesis alternativa indica que no se rechaza H0 ; en realidad, H0 es falsa. En
resumen:

Hiptesis nula
Decisin H0 es verdadera H0 es falsa
No rechazar H0 Decisin correcta : Error tipo II
Rechazar H0 : Error tipo I Decisin correcta

10.2.1 Utilidad de la opcin didctica H0


Las ideas mostradas en la Figura 10.1 se pueden extender para ilustrar otras pruebas de hiptesis
bajo la distribucin normal. Para ello primero tiene que identicar el estadstico x, ste es la
variable aleatoria que va en el eje horizontal. A continuacin debe calcular el error estndar
de x; que aqu se ha escrito simplemente por la letra griega : Varios de estos valores x y
su respectivo  se explicarn ms adelante. Estos comprenden pruebas tales como la de una
proporcin, diferencia de proporciones, diferencia de medias, pendiente de una recta. Estas ideas
son similares cuando se realiza la prueba de hiptesis usando la distribucin t-Student.
Primero se recordar el procedimiento para realizar una prueba de hiptesis, ste es el que
146 10. Inferencia estadstica

plantean la mayora de libros de estadstica, y se resume en siete pasos:

1. Plantear una hiptesis nula, H0 .

2. Establecer la hiptesis alternativa, H1 .

3. Proponer un nivel de signicancia.

4. Encontrar un valor de referencia (punto crtico) a partir de una distribucin de probabilidad


(por ejemplo t-student, ji-cuadrada, normal,...)

5. Calcular el estadstico de prueba correspondiente utilizando los datos de la muestra.

6. Comparar el valor del estadstico calculado con el punto crtico.

7. Dar una conclusin.

El planteamiento general de las hiptesis es:


La hiptesis nula
H 0 :  = 0

La hiptesis alternativa es alguna de las siguientes opciones:

1. H1 :  < 0
2. H1 :  > 0
3. H1 :  6= 0

Las dos primeras se les conoce como pruebas de un lado y la tercera como prueba bilateral.
En un apndice al nal de este apartado se muestra un ejemplo de la lgica de la prueba de
hiptesis.

10.2.2 Observaciones que surgen de las bondades de utilizar el CalEst:


1. Todos estos conceptos e ideas se plantean en la Figura 10.1.

2. Para realizar una prueba de hiptesis en el caso de la distribucin normal, aplique esta
distribucin en el CalEst:

(a) Primero escriba el valor de la media  y de enter -teclado de la computadora-, luego


escriba el valor del error estndar . Con el valor del nivel de signicancia encuentre
el valor crtico xc ste servir de referencia para evaluar si los datos apoyan a la
hiptesis nula, una vez calculado el valor del estadstico x, x si se reere a la media
10.3. Prueba de hiptesis para una media 147

muestral. Este punto resume todos los siete pasos del procedimiento de la prueba de
hiptesis. Ver ejemplo 1 para captar la idea y luego se puede aplicar a otros ejemplos
y ejercicios.

(b) El procedimiento que trae la mayora de libros comprende a la distribucin normal


estndar. En ese caso habr que calcular el valor zc en un normal estndar y ste
corresponde al valor de signicancia :

(c) Una alternativa para realizar una prueba de hiptesis es calcular la probabilidad, nivel
de signicancia descriptivo, p = P (X < x) o p = P (X > x): El procedimiento consiste
en comparar ste valor con el nivel de signicancia ; si p < se rechaza la hiptesis
nula, no se rechaza en caso contrario, es decir, p > :

3. Use la distribucin normal y elabore dos grcas de la normal con los parmetros (; )
correspondientes al problema. En la primera use el umbral para referirse al punto crtico,
en la otra ponga el umbral en el valor del estadstico de prueba, analice esta informacin
grca. Compare los niveles de signicancia y p -descriptivo. Nota. Reduzca el tamao
de las grcas para que pueda realizar el estudio.

4. Estas ideas se aplican a pruebas de hiptesis para estadsticos que siguen una distribucin
t-Student, F , o 2 .

Ejercicio 1

Del bloque didctica en CalEst use la opcin hiptesis para ilustrar las situaciones : H1 :  < 0 ;
y H1 :  > 0 para diferentes valores del nivel de signicancia y de :

10.3 Prueba de hiptesis para una media


10.3.1 Caso muestras grandes
Ejemplo 1. Caso prueba bilateral o de dos colas

En un proceso de llenado, el peso de bolsas de uvas pasas no debe pesar ni ms ni menos de 336
gramos. Para vericar que el proceso cumple con esta especicacin el responsable del proceso
toma una muestra de 40 bolsas de un lote de produccin. La media del peso de estas bolsas
fue de xm = 329:91 -valor en la muestra-, con una desviacin estndar de s = 11 Nota: No se
proporciona el valor de , pero dado que el valor de la muestra es grande, se usar el valor de s
como un estimado, as  = 11:
148 10. Inferencia estadstica

Figura 10.2: Prueba de hiptesis aplicando la opcin de la distribucin normal en CalEst.

Solucin.
Las hiptesis que se plantean para describir esta situacin son:

H0 :  = 336
H1 :  6= 336

Para vericar si los datos apoyan la hiptesis nula con un nivel de signicancia de =
0:05(5%):
En la Figura 10.2 se resume el procedimiento de los siete pasos para realizar una prueba
de hiptesis. En sta, se describen los dos umbrales tanto en la grca cmo en la calculadora
-tabla-, stos corresponden a una prueba bilateral -dos colas-. En la grca por cuestiones de
compilacin se han redondeado los valores. El procedimiento indica que se debe comparar el valor
del estadstico xm = 329:91 con el valor crtico xc = 332:6: En este caso resulta que xm < xc , por
lo que se rechaza la hiptesis nula.
Observacin. En la mayora de los libros de estadstica realizan la prueba de hiptesis usando
la distribucin normal estndar Z, as construyen el valor del estadstico Zm en funcin de la
informacin generada por la muestra y este se compara con el valor de Z considerando el nivel
10.3. Prueba de hiptesis para una media 149

de signicancia . Se comparan estos dos valores para evaluar si los datos apoyan la hiptesis
nula. Siguiendo esa lnea a continuacin se describe el procedimiento.

Prueba aplicando la distribucin normal estndar.

Bajo el supuesto de que la hiptesis nula es verdadera, se realiza el clculo del estadstico de
prueba.

Xm  329:91 336
Zm = p = p = 3:5
= n 11= 40

El valor de Z en la distribucin normal correspondiente al valor de = 0:05 es zc = 1:96:


Recuerde que en la distribucin normal en el CalEst se reportan los valores estandarizados de
Z; vea la grca en la Figura 10.2. A partir de esos valores se puede obtener la conclusin de la
prueba de hiptesis.
El detalle del procedimiento de la prueba de hiptesis con la normal estndar sigue a con-
tinuacin. Observe la grca en la Figura 10.3 generada por CalEst, entre los valores de los
umbrales (puntos crticos) se tiene la regin de no rechazo, a la izquierda del umbral 1 y a la
derecha del umbral 2 se tiene la regin de rechazo. El rea sombreada corresponde al nivel de
signicancia, =2 = 0:025 a la izquierda y =2 = 0:025 a la derecha. Una alternativa es usar las
tablas de la distribucin normal, el equivalente en CalEst es usar la calculadora de la normal
tal y como se ilustra a la derecha de la grca en la Figura 10.3.
Dado que zm < zc , se rechaza H0 : Conclusin: esta situacin indica que las bolsas de uvas
pasas dan menos del peso que se espera. Por lo tanto habr que estudiar el proceso para lograr
que las bolsas den el peso.

Prueba usando la informacin de la muestra


Alternativamente se complementa la informacin calculando el intervalo de conanza de (1 )%:
En este ejemplo se establece el del 95%

(X Z =2 pn ; X + Z =2 pn )
(329:91 1:96(1:74); 329:91 + 1:96(1:74))

Reporte: Intervalo de conanza del 95% es:

(326:4996; 333:3204)

Nota: Este intervalo no contiene a  = 336, lo que conrma lo dicho por la prueba de
hiptesis.
150 10. Inferencia estadstica

Figura 10.3: Descripcin de los valores crticos en una prueba de hiptesis bilateral

El proceso operativo de la prueba de hiptesis se puede realizar utilizando CalEst, para ello
hay que ir a la opcin: Inferencia, Prueba de hiptesis 1 una media y aparece el cuadro como se
muestra en la Figura 10.4, este se completa con la informacin generada por los datos muestrales,
enseguida se oprime el botn Aceptar y se despliega la informacin desarrollada en el ejemplo 1.
La salida de los resultados mediante el CalEst se muestran en la Figura 10.5, en este reporte
se obtiene el estadstico calculado y los valores crticos; de esta manera obtiene la informacin
para poder concluir si rechazar o no rechazar la hiptesis nula. En esta Figura se destaca la parte
visual del software, a la derecha se ilustra la grca de la distribucin normal, sin necesidad de
pasar por el proceso de estandarizar la normal, se ven los valores crticos. As se tiene que la
media X m = 329:91 es menor que el valor crtico X c = 332:6 y sigue la conclusin ya anotada.
Esta situacin esta descrita con ms detalle en la Figura 10.2

Prueba mediante la comparacin de probabilidades

Se puede observar que en el cuarto rengln de resultados aparece un valor de p, Figura 10.5, ste
corresponde a la probabilidad que deja a la izquierda el estadstico calculado, tambin denomi-
nado nivel de signicancia descriptivo. En smbolos P (Z  3:5) = 0:00046, esta probabilidad
se compara con el nivel de signicancia ; esta es otra alternativa para decidir sobre la hiptesis
nula. Por lo tanto si p < , se rechaza H0 , haga las grcas en el software para ilustrar los valores
10.3. Prueba de hiptesis para una media 151

Figura 10.4: Descripcin del procedimiento para realizar la prueba de hiptesis para una media
usando el CalEst.

de y p use tambin las tablas para estimar los valores. Note que en el caso de las pruebas
bilaterales se tiene 2 ; en ese sentido se tiene el valor correspondiente de p para los dos lados.
Comentario: as la presentacin visual y operativa del procedimiento de la prueba de hipte-
sis le generar benecios en la comprensin de los conceptos y desarrollo de esta metodologa
estadstica. Este mismo mecanismo se aplica en otras pruebas de hiptesis aplicando estads-
ticos con base en otras distribuciones de probabilidad; lo que le permitir evaluar los ejemplos
planteados por otros libros y resolver los ejercicios que stos proponen.

Ejemplo 2.

Un ingeniero de un proceso de curtidura plantea que el ndice de elongacin de una piel, debe
estar arriba de 64 unidades. En una muestra de n = 45 pieles, la media del ndice de elongacin
es de x = 65:5 y desviacin estndar de  = 3:5, sta se escribe en funcin del parmetro dado
que la muestra es sucientemente grande.

Solucin.
Las hiptesis correspondientes en este ejemplo son:

H0 :  = 64
H1 :  > 64

El nivel de signicancia es = 0:05 ver Figura 10.6, de esta manera la regin de rechazo se
establece por:
= P (Z  1:644) = 0:05
152 10. Inferencia estadstica

Figura 10.5: Resultados que se obtiene al efectuar una prueba de hiptesis utilizando el CalEst

Por lo tanto el valor crtico es zc = 1:644: El valor estadstico de prueba se obtiene por:

65:6 64 1:6
zm = p = = 3:07
3:5= 45 0:5217

Al comparar zm con zc se observa que zm > zc ; por lo tanto se rechaza la hiptesis nula y
efectivamente el ndice de elongacin est por arriba de 64 unidades.
Considerando el nivel de signicancia descriptivo p se tiene que:

p = P (Z  3:07) = 0:00107

Lo que conrma la decisin planteada, se rechaza H0 porque p < = 0:05. La informacin


proporcionada por esta muestra permite concluir que las pieles tienen una elongacin mayor a
64:
Intervalo de conanza del 95%: Alternativamente se puede estimar el intervalo de conanza
(1 )%, la expresin es:
 

x  Z =2 p :
n

Si = 0:05; entonces el intervalo de conanza del 95% de conanza es:


10.3. Prueba de hiptesis para una media 153

Figura 10.6: Descripcin del punto crtico

(65:6 1:96(:5217); 65:6 + 1:96(:527))


(64:577; 66:623)

Realice este procedimiento empleando CalEst.

Ejemplo 3.

Una escuela aplica una prueba de 100 preguntas para conocer el conocimiento general de sus
estudiantes. Para ello se tom una muestra de 45 estudiantes al nalizar el ciclo escolar de
primaria. El director de la escuela considera que se tiene un nivel bajo si la prueba arroja una
media menor a 70 puntos.

Solucin.
Los valores alcanzados en la prueba se resumen por la siguiente informacin:

La media X = 68:14; la desviacin estndar  = 10:34 y el tamao de muestra n = 42:

Las hiptesis planteada por el director se establecen por:

H0 :  = 70
H1 :  < 71

El director quiere ser conservador ante la posibilidad de cometer el error tipo I y propone
el nivel de conanza = 0:02. Previo al anlisis, construya la distribucin normal en CalEst
empleando la informacin proporcionada, con ayuda de la grca y los datos obtenga sus con-
clusiones. Luego compare stas con los resultados que se dan a continuacin.
154 10. Inferencia estadstica

Figura 10.7: Resultados de la prueba de hiptesis utilizando CalEst.

El reporte proporcionado utilizando CalEst se muestra en la Figura 10.7


El desarrollo ms detallado se describe a continuacin, estadstico de prueba:

68:14 70
zm = p = 1:17
10:34= 42

El valor del punto crtico: = P (Z  2:05) = 0:02: Puesto zm > zc = 2:05; no se rechaza
la hiptesis nula y por lo tanto la escuela no tiene un nivel bajo considerando el criterio del
director. Alternativamente con el nivel de signicancia descriptivo:

p = P (Z  1:17) 
= 0:12

Se conrma que no se rechaza H0 puesto que p >


Finalmente el intervalo de conanza del 98% es:

   
10:34 10:34
(68:14 2:05 p ; (68:14 + 2:05
42
p
42
(64:429; 71:852)
10.4. Prueba de hiptesis para una proporcin 155

10.4 Prueba de hiptesis para una proporcin


Las pruebas de hiptesis sobre proporciones se emplean en muchas actividades de investigacin.
Por ejemplo conocer la proporcin de personas que estn a favor de una propuesta despus de
una campaa publicitaria, los elementos que intervienen en un ejemplo como estos son:

Prueba: consiste en seleccionar de manera aleatoria una persona



Exito = E, la persona seleccionada est a favor de la propuesta
F alla = F , la persona seleccionada no est a favor de la propuesta
P (E) = p, la proporcin de los participantes a favor de la propuesta
P (F ) = q = 1 p, la proporcin de los participantes en contra de la propuesta
n, nmero de pruebas, es decir, nmero de participantes en la muestra
x, nmero de xitos,
p es estimado por pb = x
n

Si np  5 y n(1 p)  5 para una distribucin binomial, entonces la distribucin muestral


para pb es normal con
p
p) = p y  pb = (b
pb = (b p) = p(1 p)=n

Use la distribucin binomial en CalEst para observar esta situacin, para ello je un valor de
p e incremente el valor de n. El estadstico de prueba es la proporcin muestral pb y el estadstico
de prueba estandarizado es z:

pb pb pb p
z= =p
 pb p(1 p)=n

Los intervalos de conanza (1 )% se calculan de acuerdo al valor de z:

 p p 
pb z =2 ( pb(1 pb)=n); pb + z =2 ( pb(1 pb=n)

Ejemplo 4.

En un estudio se indica que al menos el 20% de los adultos en una poblacin son alrgicos a un
medicamento. En una muestra aleatoria de 100 adultos de esa poblacin, el 15% indicaron que
son alrgicos. Con = 0:01, hay evidencia para apoyar lo que seal el estudio.
156 10. Inferencia estadstica

Figura 10.8: Ambiente en CalEst para realizar una prueba de hiptesis sobre una proporcin.

Solucin
La informacin generada por la muestra es: pb = 0:15; n = 100. Las hiptesis se plantean como
sigue:

H0 : p = 0:2
H1 : p < 0:2

Se cumplen las restricciones 100(0:2) = 20  5 y 100(0:8) = 80  5: Antes de realizar


la prueba de hiptesis haga la grca de la distribucin normal con media pb = (b
p) = p
p
y desviacin estndar  pb = (bp) = p(1 p)=n: A partir de la informacin dada en el
planteamiento del ejemplo, use esta grca y obtenga sus conclusiones.
En la Figura 10.8 se describe el procedimiento que se debe generar en CalEst para realizar
la prueba de hiptesis de una proporcin. En este caso se muestra la informacin sealada en el
ejemplo.
El nivel de signicancia se estableci por = 0:01, el valor de z para el alfa establecido es
zc = 2:33: Ahora se calcula el estadstico

pb p 0:15 0:20
zm = p =p = 1:25
p(1 p)=n (0:2)(0:8)=100
dado que zm = 1:25 < zc = 2:33; se concluye que no se rechaza la hiptesis nula.
10.4. Prueba de hiptesis para una proporcin 157

Figura 10.9: Resumen de resultados para la prueba de hiptesis de una proporcin.

Se complementa la informacin calculando el valor de signicancia descriptivo, es decir la


probabilidad de que z sea menor que 1:25; este es p = 0:1056; y representa el rea que deja a
la izquierda el valor del estadstico, es decir p = P (z < 1:25):
Finalmente el intervalo de conanza del (1 )% para una proporcin p se calcula de acuerdo
al valor de z: La expresin para el intervalos es:
 p p 
pb z =2 ( pb(1 pb)=n); pb + z =2 ( pb(1 pb)=n)

(0:058; 0:242)

Lo que indica que con un 99% de conanza la poblacin que es alrgicos a los medicamentos est
entre el 6% y 24%. A continuacin, en la Figura 10.9, los resultados generados por CalEst

Ejemplo 5.

Con el n de conocer la memoria a corto plazo un siclogo realiza una prueba con 200 personas,
para ello le ayudan varios de sus asistentes. La prueba consiste en mostrar una tarjeta con 16
palabras a cada una de las personas por 30 segundos, a continuacin se les distrae por un minuto
platicando con los entrevistados. Finalmente se le pide a la persona que diga las palabras que
158 10. Inferencia estadstica

Figura 10.10: Descripcin de la regin rechazo y no rechazo identicando los puntos crticos

recuerda, para ello se da un minuto. El investigador plantea que el 23% de las personas recuerdan
8 o ms palabras. La informacin que recogieron de las n = 200 entrevistas es que pb = 0:27
recuerdan 8 o ms palabras.

Solucin

Las hiptesis para este estudio se plantean por:

H0 : p = 0:23
H1 = p 6= 0:23

El nivel de signicancia que se propone para realizar sta prueba es de = 0:05; para este
valor de alfa se puede vericar en CalEst los valores de z; ver Figura 10.10, estos son: z = 1:96
y z = 1:96:
En la Figura 10.10 se observa la regin de no rechazo establecida por los puntos crticos
(umbrales), adems de manera clsica se obtienen estos mediante una tabla de la distribucin
normal estndar  = 0 y  = 1. El equivalente aqu es usar la calculadora sealada por un aro
en la Figura, al aplicar sta se generan los valores de los puntos crticos para este caso.
10.4. Prueba de hiptesis para una proporcin 159

La parte operativa inicia vericando las condiciones que garanticen usar una distribucin
normal, es decir: 200(0:23) = 46  5 y 200(0:77) = 154  5: Nuevamente puede recurrir a la
grca de la distribucin normal para llevar a cabo el procedimiento de prueba de hiptesis.
El clculo del estadstico de prueba mediante la normal estndar es como sigue:

pb p 0:27 0:23
zm = p =p = 1:34
p(1 p)=n (0:23)(0:77)=200

Como este valor est entre 1:96 y 1:96 no se rechaza la hiptesis nula. Tambin se concluye
as porque el valor de la probabilidad correspondiente al zm calculado es (p = P (Z  zm ) =
0:177), as p > :
El intervalo de conanza del 95% para este ejemplo se calculan de acuerdo al valor de Z:

 p p 
pb z =2 ( pb(1 pb=n); pb + z =2 ( pb(1 pb)=n)

 p p 
0:27 1:96( 0:27(0:73)=200); 0:27 + 1:96( 0:27(0:73=200)

(0:208; 0:332)

Lo que indica que entre el 21% y 33% recuerdan 8 o ms palabras.

Ejemplo 6.

Un mdico supone que ms del 55% de las personas que viven en una zona cercana a una renera
tienen algn problema de salud relacionado con en el aparato respiratorio. Para conrmar su
supuesto realiza con un equipo de mdicos y varios laboratorios 425 pruebas en una localidad y
encontr que 255 padecan un mal respiratorio.

Solucin
El mdico se plantea las siguientes hiptesis:

H0 : p = 0:55
H1 : p > 0:55

Se desea probar esa hiptesis con un nivel de signicancia del 0:05. Se desea calcular el valor
de zc que cumpla P (Z > zc ) = 0:05: Como se ilustra en la siguiente Figura 10.11
160 10. Inferencia estadstica

Figura 10.11: Clculo del punto crtico, dato el nivel de signicancia.

Los datos son pb = 0:60 y n = 425: Se verica que se cumplan las restricciones para satisfacer
la condiciones de normalidad: 425(0:55)  = 234  5 y 425(0:45) = 191  5: Nuevamente se
recomienda usar la grca de la distribucin normal.
El valor del estadstico es:

pb p 0:6 0:55 
zm = p =p = 2:07;
p(1 p)=n (0:55)(0:45)=425

puesto que este valor es mayor que el valor de Z correspondiente a = 0:05; es decir zm =
2:07 > zc = 1:645: Por lo tanto se rechaza la hiptesis nula.
Los intervalos de conanza (1 )% se calculan de acuerdo al valor de z =2 :

 p p 
pb z =2 ( pb(1 pb=n); pb + z =2 ( pb(1 pb)=n)

(0:553; 0:647)

Con el 95% conanza se observa que entre el 55% y el 65% de la poblacin tienen algn problema
en el aparato respiratorio.
10.5. Prueba de hiptesis para una media: 161

10.5 Prueba de hiptesis para una media:


10.5.1 Caso muestras pequeas.
Cuando el tamao de muestra no es muy grande es necesario recurrir a la distribucin conocida
como t de Student, estudiada por W.R. Gosset quin la public bajo el seudnimo Student.

10.5.2 Valores crticos en una distribucin t-student


En esta parte, se presenta un resumen del procedimiento para realizar la prueba de hiptesis de
la media de una poblacin, cuando el tamao muestra es al menos de 30. En este caso se utiliza
la distribucin t de Student.
Gua para encontrar los valores crticos en una distribucin t Student: En la opcin dis-
tribuciones del CalEst seleccione la distribucin t Student a continuacin se indica cmo usar
esta distribucin para encontrar el valor crtico y calcular probabilidades. Se recomienda repasar
la seccin 8.2.

1. Identicar el nivel de signicancia

2. Identicar los grados de libertad, gl : n 1

3. Usar la opcin del umbral con una barra o dos barras de abajo segn sea el caso, para
identicar el valor correspondiente a la distribucin t de Student. Si la prueba de hiptesis
es:

 Al lado izquierdo
 Al lado derecho
 Bilateral (en este caso se ve sealado el lado derecho o izquierdo, use =2).

10.5.3 Prueba de hiptesis de un lado


En este apartado se estudiar la prueba de hiptesis para un lado, tambin conocida como la
prueba de una cola. Primero se considera el caso de la izquierda H1 :  < 0 . Planteamiento
general:

H 0 :  = 0
H1 :  < 0

La t que equivale a la que tradicionalmente se dice t de tablas, tc = t( = 0:05; gl = 9) =


1:83426, ver Figura 10.12. Si en el procedimiento que se sigue para realizar la prueba de
162 10. Inferencia estadstica

Figura 10.12: Prueba de hiptesis t cuando la alternativa es menor.

hiptesis, resulta que tm < tc entonces se rechaza la hiptesis H0 donde

x 0
tm =
pS
n

De manera equivalente se puede realizar la prueba empleando el nivel de signicancia descriptivo


p: Si p < = 0:05 se rechaza la hiptesis H0 : Donde p probabilidad: valor del rea que deja tm
a la izquierda, p = P (t  tm ):
Por ejemplo tm = 2:28 este valor es menor que tc , por lo tanto se rechaza la hiptesis H0 .
En este caso p = 0:024 menos que .

10.5.4 Prueba de hiptesis de un lado


Similar al caso anterior, ahora la prueba es a la derecha H1 :  > 0 : El planteamiento general
es:

H 0 :  = 0
H1 :  > 0

La t de tablas, tc = t(1 ; gl = 9) = t(1 0:05; gl = 9) = t(0:95; gl = 9) = 1:83426, Figura


10.5. Prueba de hiptesis para una media: 163

Figura 10.13: Prueba de hiptesis t para el lado derecho

10.13: Se calcula el valor de t a partir de la informacin de la muestra.

x 0
tm =
pS
n

Si tm > tc se rechaza la hiptesis H0 .


De manera equivalente Si p probabilidad: valor del rea que deja tm a la derecha. Por ejemplo
tm = 1:68 este valor es menor que tc por lo tanto no se rechaza la hiptesis H0 . En este caso
p = 0:0656 mayor que

10.5.5 Prueba de hiptesis de dos lados


En este caso se estudiar la prueba de dos colas H1 :  6= 0 , donde H1 :  > 0 o H1 :  < 0 :
Planteamiento general

H 0 :  = 0
H1 :  6= 0

Considere que = 0:10: La t de tablas, tc = t( =2 = 0:05; gl = 9) = 1:83426 o tc =


t(1 =2 = 0:95; gl = 9) = 1:83426; Figura 10.14
164 10. Inferencia estadstica

Figura 10.14: Prueba de hiptesis t cuando la alternativa es diferente

Si tm < tc o tm > tc se rechaza la hiptesis H0 , donde

x 0
tm =
pS
n

De manera equivalente, si p < = 0:10 se rechaza la hiptesis H0 . Donde p probabilidad:


valor del rea que deja tm a la izquierda o derecha.
Por redondeo el valor de es 0.10

Regla de decisin

La idea principal de la prueba de hiptesis es comparar dos nmeros, el valor del estadstico de
prueba con el valor de una distribucin de probabilidad (ste se obtiene a partir de un valor de
signicancia -probabilidad- establecido por ).
Por ejemplo en una distribucin t de Student el valor del estadstico de prueba:

x 
tm =
pS
n

Se compara con un valor de la distribucin tc de Student t( ; n 1), donde es una proba-


bilidad y n 1 son los grados de libertad.
10.5. Prueba de hiptesis para una media: 165

 Si la hiptesis alternativa es H1 :  < o se rechaza la hiptesis si tm es menor que


tc = t( ; n 1).

 Si la hiptesis alternativa es H1 :  > o se rechaza la hiptesis si tm es mayor que


tc = t(1 ; n 1).

 Si la hiptesis alternativa es H1 :  6= o , se rechaza la hiptesis si tm es menor que


tc = t( =2; n 1) o mayor que tc = t(1 =2; n 1).

Una alternativa es comparar la probabilidad p que deja el estadstico de prueba (a la derecha


o izquierda) con el valor de signicancia -probabilidad- . Anlogamente:

 Si la hiptesis alternativa es H1 :  < o se rechaza la hiptesis si p es menor que .

 Si la hiptesis alternativa es H1 :  > o se rechaza la hiptesis si (1 p) es menor que


(1 ).

 Si la hiptesis alternativa es H1 :  6= o se rechaza la hiptesis si p=2 es menor que =2 o


(1 p=2) es menor que (1 =2).

Este procedimiento de prueba de hiptesis se puede realizar con CalEst. Se debe tener en
cuenta que el planteamiento de la hiptesis alternativa surge del contexto del problema que se
desea estudiar. Una vez abierto un archivo o creado un nuevo archivo, vaya a la opcin inferencia,
enseguida a prueba de hiptesis y seleccione la opcin: una media en seguida la t, ver Figura
10.15.
A continuacin, en tres ejemplos se ilustra cada caso, para ello se debe crear un archivo por
el lector con los datos que se muestran en los ejemplos. Un archivo se crea en el CalEst en la
opcin: Archivo, al abrir sta aparece una hoja de clculo en la que puede capturar los datos. A
partir de ah se pueden realizar las pruebas planeadas.

Ejemplo 7.

La Secretara de Salud, recomienda que el nivel de colesterol de una persona debe estar por abajo
de 200 miligramos por 100 mililitros. Los datos que se dan a continuacin representan la lectura
del nivel de colesterol en una muestra tomada a 16 personas con edad menor a 40 aos:

197 192 179 174 217 186 221 188


209 196 167 238 179 196 191 233
166 10. Inferencia estadstica

Figura 10.15: Esquema para realizar una prueba de hiptesis t de Student con CalEst

Solucin
El planteamiento de las hiptesis son:

H0 :  = 200
H1 :  < 200

El nivel de signicancia propuesto para realizar esta prueba es = 0:05; en la Figura 10.16
se ilustra el valor del estadstico de prueba que corresponde al rea sombreada en la grca de
la t de Student con 15 grados de libertad, t( ; n 1) = t(0:05; 15) = 1:752; As tc = 1:753:
Cuanticando los datos se tiene que el valor del estadstico de prueba es:.

xm  197:687 200
tm = = 20:706 = 0:447:
pS p
n 16

Se comparan los valores de tc y tm ; tm = 0:447 > tc ; los datos no dan evidencia para rechazar
la hiptesis nula.
Alternativamente, como el valor de p = P (tm  0:44671) = 0:3307; es mayor que = 0:05
(nivel de signicancia) no se rechaza H0 : Lo que indica que esa poblacin de personas no tiene
un colesterol por debajo de 200.
10.5. Prueba de hiptesis para una media: 167

Figura 10.16: Valor de la distribucin t-Student para el nivel de signicancia = 0:05

Intervalo de conanza
Con el n de completar la inferencia de los datos se construye un intervalo del (1 )% de
conanza para una media con respecto al caso de muestras pequeas.
 
S S
x t(1 =2; n 1) p ; x + t(1 =2; n 1) p
n n

Para construir un intervalo del 95% de conanza 95%, se recurre al calculador de la distribu-
cin en CalEst y se tiene que el valor de t(1 =2; n 1) = t(0:975; 15) = 2:1335:

(197:687 2:1335(5:1775); 197:687 + 2:1335(5:1775))

(186:654; 208:721)

Una vez descrito el procedimiento de la prueba de hiptesis, en la Figura 10.17 se muestran los
resultados que genera el CalEst:

Ejemplo 8.

Un siclogo elabor una prueba de memoria en el que, el tiempo de respuesta en minutos es de


3 minutos. Se aplica esta prueba a 10 pacientes y el tiempo adicional de respuesta a los 3, los
resultados: 1.9, 0.8, 1.1, 0.1, -0.1, 4.4, 5.5, 1.6, 4.6, 3.4.
168 10. Inferencia estadstica

Figura 10.17: Reporte de una prueba de hiptesis para una media con la t de Student.

Solucin
El planteamiento de las hiptesis es:

H0 :  = 0
H1 :  > 0

Se propuso un nivel de signicancia = 0:05(5%), el valor correspondiente tc = t(1 ; n


1) = t(0:95; 9) = 1:833, este valor se verica en el calculador, Figura 10.18. Nota. En los libros de
estadstica aparece la tabla de la distribucin t-Student para algunos valores de ; y el clculo de
probabilidades es limitado. En las opciones mostradas en la Figura 10.18 se tienen las opciones
para que usted pueda estimar cualquier probabilidad de esta distribucin.
A partir de los datos se calcula el estadstico de prueba y su valor es:

xm  2:33 0
tm = = = 3:679:
pS 0:633
n

Puesto que tm = 3:681 es mayor que tc = t( ; n 1) = t(0:95; 9) = 1:833, se rechaza la


hiptesis nula.
Alternativamente se realiza la prueba de hiptesis comparando las probabilidades correspon-
dientes al nivel de signicancia. Con el valor de signicancia descriptivo tambin se conrma la
10.5. Prueba de hiptesis para una media: 169

Figura 10.18: Valor crtico de la t de Student para el ejemplo.

conclusin, se sigue que p = P (t > 3:681) = 0:0025, este valor es menor que = 0:05 por lo
tanto se rechaza H0 : Efectivamente el tiempo de reaccin es mayor como lo establecido por el
siclogo, esto indica que los pacientes rebasaron el tiempo de respuesta esperado y se les someter
a nuevos ejercicios de memoria.

Ejemplo 9.

Una empresa que genera un producto qumico requiere que la media del nivel de pH en el agua
debe estar en 6:8: El tcnico responsable de este proceso toma 19 muestras de agua y mide el
pH de cada una de ellas. Los datos son:

6.7, 7.1, 6.8, 6.9, 6.5, 6.7, 6.6, 6.5, 6.5, 6.2
6.3, 6.6, 7.0, 6.7, 6.9, 6.5, 6.6, 6.9, 6.9

Solucin
El planteamiento hipottico para el pH es:

H0 :  = 6:8

H1 :  6= 6:8
170 10. Inferencia estadstica

El nivel de signicancia propuesto es el valor clsico = 0:05: En el caso de la prueba hiptesis


para la diferencia, el valor de se divide entre 2 y los puntos crticos correspondientes a la
distribucin tiene los siguientes valores tc = t(0:025; 18) = 2:1004 o tc = t(0:975; 18) = 2:1004:
Se recomienda ver estos valores en la distribucin t.
El valor del estadstico:

x  6:679 6:8 0:121


tm = = p = = 2:2258
pS 0:237 19 0:054
n

Como t = 2:2258 es menor a 2:1004, se rechaza la hiptesis nula. De manera anloga se


obtiene el mismo resultado usando el valor de signicancia descriptivo. El valor de p = 0:0195
comparado con el valor de alfa 0:025, se rechaza la hiptesis nula. Este resultado indica que el
nivel del pH est por abajo de lo deseado.

Intervalo de conanza: Se completa el anlisis estadstico estimando el intervalo del 95% de


conanza para la media.
 
S S
x t(1 =2; n 1) p ; x + t(1 =2; n 1) p
n n

(6:679 2:1004(0:0544); 6:679 + 2:1004(0:0544)

(6:564; 6:793)

En este caso el intervalo de conanza no contiene al 6.8, que como alternativa tambin prueba
la hiptesis. Ya que al no estar 6.8 en el intervalo, se rechaza la hiptesis nula.

10.6 Inferencia sobre la varianza  2 y 


La varianza desempea un papel importante para explicar el desempeo de los procesos o fen-
menos, ya que una dispersin grande de los datos entorno a la media genera una gran variabilidad
de las caractersticas de estudio. Por ejemplo una excesiva variacin en las dimensiones de un
producto contribuye a tener una calidad pobre. La expectativa del cliente es tener un producto
uniforme, por ello es importante minimizar la variabilidad. Un aspecto relevante en muchas
situaciones es conocer la varianza o la desviacin estndar de un proceso, con la nalidad de
poder reducir sta. Un resultado importante de la teora estadstica es el siguiente:

El estimador puntual para  2 es S 2 y el estimador puntual para  es S,


adems S 2 es un estimador insesgado para  2 :
10.6. Inferencia sobre la varianza  2 y  171

10.6.1 Intervalos de conanza y prueba de hiptesis para  2


Es necesario usar la distribucin conocida como Ji Cuadrada (Chi cuadrada) 2 en la construc-
cin de intervalos de conanza para la varianza y la desviacin estndar. Anlogamente sta
distribucin se utiliza para hacer pruebas de hiptesis sobre estos parmetros. As:

Si una variable aleatoria X tiene una distribucin normal, entonces la distribucin


2
2 = (n 1)S
2

es una distribucin Ji cuadrada para muestras de tamao n > 1. Esta distribucin


tiene cuatro propiedades:

1. Todo los valores 2 son mayores o iguales a cero.

2. La distribucin Ji cuadrada es una familia de curvas, cada una determinada por los grados
de libertad.
3. El rea bajo la curva de una distribucin Ji cuadrada es igual a 1.

4. La distribucin Ji cuadrada es sesgada positivamente.

Nota. En el ambiente de CalEst, en la opcin Distribuciones aparece la Ji cuadrada, vea


estas propiedades para diferentes grados de libertad.

El intervalo de conanza de (1 )% para  2

Un intervalo de conanza del (1 )% para  2 :


 
(n 1)S 2 (n 1)S 2
;
2 (1 ; n 1) 2 ( ; n 1

y un intervalo de conanza del (1 )% para :


s s !
(n 1)S 2 (n 1)S 2
;
2 (1 ; n 1) 2 ( ; n 1

Formulacin de la prueba de hiptesis para  2

Para investigar la posible diferencia signicativa que existe entre la varianza de una poblacin  2
(o desviacin estndar ) y un valor de una varianza  20 preseleccionada ( 0 ), el procedimiento
se plantea como sigue:

No existe diferencia signicativa entre la varianza de una poblacin  2 y un valor


preseleccionado para la varianza  20 :
172 10. Inferencia estadstica

Figura 10.19: En inferencia: Pruebas de hiptesis: Una media 2 : Luego llene la hoja.

En smbolos:
H0 :  2 =  20

Las hiptesis alternativas:

H1 :  2 <  20 H1 :  2 >  20 H1 :  2 6=  20

Ejemplo 10

En los proyectos de mejora, una empresa que opera cines decidi aplicar un programa de capa-
citacin para reducir la desviacin estndar del tiempo de servicio en sus dulceras a 2.9 minutos.
Una muestra aleatoria de 23 atenciones a clientes, tiene una desviacin estndar 2.1 minutos.
Con = 0:01 (10%). Existe evidencia para sostener que el programa de mejora es exitoso?
Resumen de la informacin muestral: n = 23 y s = 2:1 minutos. Las hiptesis son:

H0 :  2 = (2:9)2 y H1 :  2 < (2:9)2

= 0:1 es el nivel de signicancia propuesto. El estadstico de prueba:

(n 1)S 2
2 =
2
El procedimiento que realiza el programa para llevar a cabo la inferencia estadstica sobre la
varianza, Figura 10.19.
10.6. Inferencia sobre la varianza  2 y  173

Clculo del estadstico -el reporte generado por el software se describe en la Figura 10.20-

(23 1)(2:1)2
2m = = 11:54
(2:9)2

Determinacin del valor crtico 2c (gl; ) = 2tablas (41 1; 0:10) = 14:042, vea este resultado
usando la distribucin  en CalEst. Comparando el valor calculado con el valor crtico se tiene:
2

11:54 = 2m < 2c = 14:042

Por lo tanto se rechaza H0 . En efecto el programa de capacitacin logra reducir la variabilidad


en la atencin a clientes. La prueba alternativa usando el valor de p = P (2m < 11:54) = 0:0338,
observe que p < por lo tanto se rechaza H0 :

Intervalo del (1- )% conanza para  2


!
(n 1)S 2 (n 1)S 2
;
2(22;1 =2) 2(22; =2)

El resultado al sustituir los valores en la expresin anterior proporcional al intervalo del 90% de
conanza para  2
97:02 97:02
( ; ) = (2:8599; 7:8635)
33:924 12:338
Intervalo del 90% conanza para  : es (1:6927; 2:804): La desviacin estndar en la atencin
a clientes estar, con un 90% de conanza, entre 1.7 minutos y 2.8 minutos.

Ejemplo 11

Un sistema de riego, no da uniformidad a la distribucin del agua si la varianza es mayor 0.25


unidades (cm/hr)2 . Para probar la uniformidad de la aplicacin del agua para un nuevo sistema,
se midi la cantidad de agua despus de 1 hora, en 41 lugares seleccionados aleatoriamente. La
media y varianza registrados fueron, 0.85 y 0.27 respectivamente.

H0 : la distribucin del agua no es mayor a 0:25:

Resumen de la informacin muestral: n = 41 y S 2 = 0:27. Las hiptesis

H0 :  2 = 0:25 H1 :  2 > 0:25

Realice la prueba considerando un nivel de signicancia = 0:05: Estadstico de prueba 2


174 10. Inferencia estadstica

Figura 10.20: Reporte estadstico sobre la inferencia de la varianza  2

(n 1)S 2
2 =
2
Sigue una distribucin 2 con gl = n 1 grados de libertad. Clculo del estadstico

(41 1)(0:27)
2m = = 43:2
0:25
El valor crtico usando la distribucin Ji-cuadrada es: 2 = 2tablas (gl; ) = 2tablas (41 1; 0:05) =
55:758: Observe que:

43:2 = 2m < 2c = 55:758

as que no hay suciente evidencia para rechaza H0 : En efecto, este sistema de riego es uniforme
en la distribucin de agua. La prueba mediante la comparacin de los niveles de signicancia
sigue: el valor de p = P (2m > 43:2) = 0:336, as p > = 0:05 no se rechaza H0

Intervalo del (1- )% conanza para  2


!
(n 1)S 2 (n 1)S 2
2 ;
2(40;1 =2) 2(40; =2)
10.6. Inferencia sobre la varianza  2 y  175

Sustituyendo los valores de la informacin proporcionada por la muestra en la expresin anterior,


se tiene el intervalo del 95% de conanza para  2 :
 
(40)0:27 (40)0:27
; = (0:182; 0:442)
59:342 24:433

Intervalo de conanza para 


s s !
(n 1)S 2 (n 1)S 2
2
; 2
X(40;1 =2) X(40; =2)

El intervalo de conanza del 95% de conanza para  es (0:427; 0:665), entre estos valores
est la desviacin estndar del sistema de riego.

Ejemplo 12

La varianza del peso de engorda en una poblacin de borregos se supone  20 = 225 unidades.
Con el n de conocer si este supuesto es adecuado, se toma una muestra de 16 borregos, a estos
se les pesa y la varianza muestral es S 2 = 428:74.

Solucin
Resumen de los datos y de los valores de la distribucin Ji cuadrada.para construir el intervalo
del 95% conanza para la varianza: n 1 = 16 1 = 15; S = 20:706

(0:95; 15)  = 27:48; 2 (0:025; 15) 


= 6:26
 2 2

15(20:706) 15(20:706)
25
; 7:26

Finalmente, el intervalo de 95% de conanza para la varianza  2 es:

(233:957; 1027:045)

el intervalo de 95% de conanza para la desviacin estndar

(15:29; 32:05)

Planteamiento de la prueba de hiptesis:

H0 :  2 =  20
H1 :  2 6=  20
176 10. Inferencia estadstica

Figura 10.21: Resultados de la estimacin sobre la varianza

En la Figura 10.21 se presentan los resultados generados por CalEst incluyendo los intervalos
de conanza para la varianza y desviacin estndar:
Dado que 2m > 2c ; se rechaza la hiptesis nula, equivalentemente lo conrma el valor de
p > : Por lo tanto la varianza del peso de los borregos es diferente a lo establecido. Esta
varianza da lugar a que exista una variabilidad en el peso de los borregos y por lo tanto no
deseada.

Ejemplo 13

Un fabricante de hilo industrial seala que la tensin de su producto al nal de la lnea de


produccin tiene una varianza diferente a 15.9 unidades. Un auditor selecciona una muestra
aleatoria de 15 carretes al nal de la lnea, estos muestran una varianza de 21.8 unidades. Bajo
el supuesto de que la poblacin tiene una muestra normal, verique que estos datos muestran
suciente evidencia para rechazar la hiptesis nula, considere un = 0:05 para el nivel de
signicancia.
Informacin de la muestra: n = 15 y S 2 = 21:8: Las hiptesis son:

H0 :  2 = 15:9
H1 :  21 6= 15:9
10.6. Inferencia sobre la varianza  2 y  177

Figura 10.22: Valores crticos con un nivel de signicancia de = 0:05 en la distribucin Ji-
cuadrada con gl = 14:

El estadstico de prueba es

(n 1)S 2
2 =
2
Clculo del estadstico de prueba,

(15 1)(21:8)
2 = = 19:19
15:9

Vea en la Figura 10.22 cmo se obtienen los valores de 2 en =2 y en 1 =2 son respectivamente:

2c = 2tablas (15 1; =2) = 5:629 y 2c = 2tablas (15 1; 1 =2) = 26:119

Observacin. La notacin anterior es la que regularmente emplean los libros de estadstica


para calcular los puntos crticos en la distribucin 2 , en el calculador del CalEst es suciente
que seale izquierda o derecha para obtener el valor del punto crtico. No se rechaza H0 ya que
2m < 26:13: Por lo tanto no hay evidencia suciente para decir que la varianza de la tensin del
hilo es diferente a 15.9. La prueba alternativa usando el valor de p; 2p = P (2 (n 1)  19:19) =
2(0:1578) = 0:315: No se rechaza H0 puesto que p >
178 10. Inferencia estadstica

Intervalo del (1- )% de conanza para  2


 
(n 1)S 2 (n 1)S 2
;
X 2 (gl; 1 =2) X 2 (gl; =2)
Sustituyendo los valores de la muestra:
 
14(21:8) 14(21:8)
; = (11:680; 54:210)
26:13 5:63

El intervalo del 95% conanza para  es (3:418; 7:363):

10.7 Aplicacin en CalEst:


10.7.1 Lgica de la prueba de hiptesis
Con la nalidad de que un usuario tenga una mayor claridad en las ideas de cmo opera una
prueba de hiptesis se ha descrito en el CalEst, un sistema de seguridad. Este se relaciona con
el tema del reconocimiento del iris. El sistema de seguridad consiste en identicar a una persona
mediante la lectura del iris. Si el beneciario pertenece al lugar, el sistema lo identica como
autntico leyendo el iris. De otra manera es un impostor si el individuo no pertenece al lugar.
Existen otras dos situaciones, la persona es un autntico pero se rechaza; tal como se ilustra en
la Figura 10.23. La otra situacin consiste en que el individuo es un impostor pero la accin
tomada es no rechazar, el sistema se equivoca. Los valores de las probabilidades de rechazar un
autntico o de aceptar un impostor signica que si se lee el iris 100 veces, aproximadamente el
5% se rechaza un autntico y 6.7% se acepta un impostor. Como actividad se puede simular
varias veces esta opcin para visualizar el procedimiento de prueba de hiptesis, que se explica
ms adelante. Tambin se puede simular otros escenarios cambiando la media y la desviacin
estndar y de esa manera generar otros sistemas de seguridad.

Planteamiento general del procedimiento de una prueba de hiptesis

Se plantean las hiptesis:

H0 : El sistema identica un autntico


H1 : El sistema identica un impostor

La Figura 10.23 es un auxiliar para ilustrar la esencia del procedimiento de prueba de hiptesis.
Se tienen cuatro opciones:

1. El sistema acierte en su decisin e identique al usuario como un autntico cuando ste es


un autntico.
10.7. Aplicacin en CalEst: 179

Figura 10.23: Procedimiento de la prueba de hiptesis ilustrado mediante la lectura del iris.

2. El sistema acierte en su decisin rechazando al individuo cuando ste es un impostor.

3. El sistema se equivoque cuando el individuo es un autntico y la accin tomada es rechazar,


esto equivale a cometer el error tipo I.

4. Cometer el error tipo II, es decir, el individuo es impostor y la accin tomada es aceptar
en este caso el sistema se equivoc.
180 10. Inferencia estadstica
Captulo 11

Inferencia para dos poblaciones

En el trabajo observacional o experimental es frecuente que surja la necesidad de comparar dos


poblaciones. Se pueden citar muchos ejemplos en torno a la comparacin, por ejemplo comparar
mtodos de enseanza, de rendimiento, de habilidades, impacto de dos estrategias publicitarias.
Sin embargo, la ejecucin de la estrategia experimental juega un papel relevante para generar
la informacin. Se da el caso de muestras independientes y muestras pareadas, alrededor de
estas estrategias se plantea la necesidad de hacer inferencia estadstica. Nuevamente mediante
prueba de hiptesis o la construccin de intervalos de conanza se hace la comparacin de dos
poblaciones. En este Captulo se expondrn diferentes estrategias metodolgicas para realizar
prueba de hiptesis y obtener intervalos de conanza, estos se ilustrarn con ejemplos con objeto
de comprender los conceptos y madurar las ideas. Una vez comprendidos los conceptos se puede
usar el CalEst para abreviar el trabajo de clculo, se inicia la presentacin de los temas que se
abordarn en este Captulo con la opcin del calculador estadstico.
Se realizarn pruebas de hiptesis para muestras independientes, Figura 11.1, sta puede
ocurrir cuando las muestras seleccionadas de dos poblaciones son grandes y en este caso se usa la
distribucin normal z o pequeas y en tal caso se usa la distribucin t Student: Para realizar
las prueba de hiptesis sobre dos poblaciones se parte del supuesto de que las varianzas de la
poblacin son iguales, para vericarlo se realiza una prueba de hiptesis sobre las varianzas y en

Figura 11.1: Opcin para realizar los clculos para hacer inferencias sobre dos poblaciones

181
182 11. Inferencia para dos poblaciones

ese caso se usa la prueba F .


Para realizar una hiptesis de muestras independientes:

 Las muestras deben ser seleccionadas de manera aleatoria.


 Las muestras deben ser independientes. Dos muestras son independientes si la muestra
seleccionada de una poblacin no est relacionada con la muestra de la otra poblacin.

 Cada poblacin debe tener una distribucin normal.

11.1 Inferencia para dos medias: muestras dependientes


Para probar una hiptesis de dos poblaciones:

1. La hiptesis nula H0 es la hiptesis estadstica que usualmente indica que no hay diferencia
entre los parmetros de dos poblaciones.

2. La hiptesis alternativa, es la hiptesis estadstica que indica la relacin entre las dos
poblaciones y se plantea como menor, mayor o diferente.

Los tres casos son:

H 0 : 1 = 2 H 0 :  1 = 2 H 0 : 1 = 2
(11.1)
H1 : 1 6= 2 H 1 : 1 >  2 H 1 : 1 <  2

11.1.1 La prueba z para la diferencia de medias: Muestras grandes


Con el n de vericar las pruebas planteadas en (11.1), se debe tener en cuenta las siguientes
condiciones:
 Las muestras deben ser seleccionadas de manera aleatoria.
 Las muestras deben ser independientes. Dos muestras son independientes si la muestra
seleccionada de una poblacin no est relacionada con la muestra de la otra poblacin.

 El tamao de muestra obtenida de cada poblacin debe ser mayor de 30, o si no, cada
poblacin debe tener una distribucin normal con varianzas conocidas.

Si se cumplen stas condiciones entonces la distribucin muestral de la diferencia de medias


x1 x2 es una distribucin normal con:

media  = media(x1 x 2 ) =  x 1 x 2 =  1  2
q q 2
 2
y error estndar  = (x1 2 2
x2 ) =  x1 +  x2 = n11 + n22
11.1. Inferencia para dos medias: muestras dependientes 183

Aplicacin del CalEst en la prueba de hiptesis para diferencia de medias

 Para motivar el concepto de esta prueba use la opcin didctica H0 cuya descripcin grca
aparece en la Figura 10.1. En este caso el estadstico x es la diferencia de medias x1 x2
y el error estndar  = (x1 x2 ):

 Use la distribucin normal con los parmetros  = media(x1 x2 ) y  = (x1 x2 ) para


construir el valor crtico, as como el nivel de signicancia descriptivo p:

 En otras pruebas de hiptesis, puede usar las distribuciones como la t de Student, la F


y la Ji-cuadrada entre otras para hacer pruebas de hiptesis en la comparacin de dos
poblaciones.

Pruebas de hiptesis utilizando la normal estndar

Este es el procedimiento que usan la mayora de los libros de estadstica, use la distribucin
normal estndar en CalEst para realizar estas pruebas.
Dada estas caractersticas de la distribucin muestral x1 x2 ; el estadstico de prueba es-
tandarizado toma la forma:

(dif erencia observada) (dif erencia hip


otesis)
z=
Error est
andar

La expresin del estadstico de prueba para comparar dos medias es: x1 x2 y en forma es-
tandarizado se indica por:

(x1 x ) (1 2 )
zm = q2 2 (11.2)
1 2
n1
+ n22

En resumen el patrn que se sigue para realizar la prueba de hiptesis en la comparacin de dos
medias usando la distribucin Z (muestras grandes).
184 11. Inferencia para dos poblaciones

Gua para la diferencia de medias usando el estadstico de prueba z


En palabras En smbolos
1. Identicar las hiptesis nula y alternativa Plantear H0 y H1
2. Especicar el nivel de signicancia Dar el valor de
3. Identicar la distribucin muestral
4. Determinar el punto crtico Usar el calculador estadstico: zc
5. Determinar la regin de rechazo
6. Calcular el estadstico de prueba Aplicar la expresin 11.2: zm
7. Tomar la decisin estadstica: rechazar o no rechazar Comparar zc con zm
8. Interpretar los resultados

Intervalo (1 )% de conanza para 1 2

Con la informacin generada por los datos se puede construir el intervalo (1 )% de conanza
para la diferencia de medias 1 2 , cuya interpretacin indicar explicaciones importantes del
objeto de estudio. ste se escribe como:
s s
 21  22  21  22
(x1 x2 ) zc + < (1 2 ) < (x1 x2 ) + zc +
n1 n2 n1 n2

donde zc = z(1 =2):

Ejemplo 1

Se desea comparar el rendimiento de los estudiantes de preparatoria abierta y el sistema escolar


en los exmenes de matemticas. En el primer sistema se usa para preparar a los estudiantes un
tipo de material que se denominar A. En el escolar usan un material tipo B. Si 1 es la media
de la calicacin que obtendrn los estudiantes en el sistema abierto, y 2 la media para los
estudiantes del sistema escolar. Sern las medias diferentes?. En la tabla siguiente se reportan
los resultados que se obtuvieron al evaluar a una muestra aleatoria de cada sistema.

Nmero de Media Desviacin estndar


Material estudiantes muestral muestral
A n1 = 35 x1 = 78 S1 = 8
B n2 = 40 x2 = 75 S2 = 6

Resultados al evaluar los dos sistemas


11.1. Inferencia para dos medias: muestras dependientes 185

Figura 11.2: Resultados del procedimiento para probar la diferencia de dos medias.

Solucin

Para vericar esta prueba se siguen los pasos sealados en la Tabla 1 de esta seccin, las varianzas
son desconocidas. Por otro lado, dado que los tamaos de muestra son sucientemente grandes
se utilizan las varianzas de la muestra. Considerando la experiencia acumulada en las pruebas de
hiptesis aqu se recurre al calculador estadstico para realizar la prueba. Se toma la informacin
proporcionada en la Figura 11.2, en sta se presenta tambin, el resumen de resultados y los
valores relacionados con el intervalo de conanza para la diferencia de medias.
Conclusin: No se puede reportar una diferencia en los dos sistemas.

11.1.2 La prueba t Student para la diferencia de medias: Muestras


pequeas

Se usa la prueba t para probar la diferencia de las medias 1 y 2 entre dos poblaciones cuando
una muestra es seleccionada aleatoriamente de cada poblacin. La aplicacin de esta prueba
requiere que cada poblacin se distribuya normalmente, y que las muestras sean independientes.
En este caso use la distribucin t de Student en el CalEst para identicar los valores crticos y
186 11. Inferencia para dos poblaciones

los niveles de signicancia. El estadstico de prueba estandarizado es:

s
(x1 x2 ) (1 2 ) (n1 1)S12 + (n2 1)S22
tm = q , donde Sp = (11.3)
Sp 1
+ 1 n1 + n2 2
n1 n2

La desviacin estndar Sp se le conoce como ponderada y se obtiene bajo el supuesto de que


 21 =  22 : Este ltimo supuesto se verica mediante una prueba de hiptesis que se ver ms
adelante.

Prueba de hiptesis estadstica para comparar dos poblaciones usando la prueba t:


Cuando la alternativa es:
1. Diferente Menor Mayor
H 0 : 1 =  2 H 0 : 1 = 2 H 0 : 1 =  2
H1 : 1 6= 2 H 1 : 1 <  2 H 1 : 1 >  2
2. Seleccionar el nivel de signicancia
3. Usar la distribucin t de Student con gl = n1 + n2 2 grados de libertad,
4. Determinar el punto crtico calculando tc = t( =2; gl); tc = t(1 =2; gl) para
la diferencia; tc = t( ; gl) para el caso menor y; tc = t(1 ; gl) para el caso mayor.
5. Determinar la regin de rechazo
6. Hacer los clculos para construir el estadstico de prueba, expresin 11.3
7. Tomar la decisin comparando tc con tm
8. Interpretar la decisin en el contexto del problema

Intervalo (1 )% de conanza para 1 2

Con la informacin generada por los datos se puede construir el intervalo (1 )% de conanza
para la diferencia de medias 1 2 , cuya interpretacin indicar interpretaciones importantes
del estudio. ste se escribe como:

r r
1 1 1 1
(x1 x2 ) tc Sp + < (1 2 ) < (x1 x2 ) + tc Sp +
n1 n2 n1 n2

donde tc = t(1 =2; n1 + n2 2):


11.1. Inferencia para dos medias: muestras dependientes 187

Figura 11.3: Captura de datos y la opcin para realizar la prueba de hiptesis.

Ejemplo 2

En una investigacin se desea comparar el rendimiento atltico de dos grupos de jvenes. El


primero es grupo control y el otro es un grupo entrenado. La evaluacin fsica despus de
completar un programa para ambos grupos se muestra en la tabla:

Control 83, 91, 97, 97, 108, 111, 111, 117, 117, 125, 125, 140
Entrenado 64, 83, 83, 85, 91, 97, 97, 97, 103, 108, 111, 111, 117, 117, 125, 125

Se capturan estos datos en CalEst, en la opcin archivo y aparece una hoja de clculo y se
capturan los datos. El nombre de las columnas se escribe sobre la columna o usando el ratn al
marcar el extremo izquierdo del rectngulo. La descripcin de este procedimiento se muestra en
la Figura 11.3.
Se realiza la prueba t los resultados se muestran en la Figura 11.4. Use la distribucin t de
Student, en el paquete estadstico., para conrmar la informacin que se indica en el reporte.
Sugerencia: puede hacer unas grcas de la t para los niveles de signicancia p y .
La conclusin es que no hay diferencia en el rendimiento fsico en ambos grupos.
188 11. Inferencia para dos poblaciones

Figura 11.4: Resultados al realizar la prueba de hiptesis.

11.2 Inferencia para dos medias: muestras pareadas


Ejemplo 3: Situacin real

En la resolucin del rompecabezas de la Repblica Mexicana se llevaron a cabo la comparacin de


dos poblaciones, la caracterstica es la siguiente se seleccion de una universidad 12 personas y se
les pidi que resolvieran el rompecabezas y se anot el tiempo en segundos en que lo completaron.
Se les recomend que repasaran el mapa y estas mismas doce personas se les pidi que volvieran
a resolver el rompecabezas. Los resultados de antes y despus se anotan en la siguiente tabla:

Antes 185 194 213 198 244 162 211 273 178 192 181 209
Despus 168 177 196 180 229 144 197 252 161 178 161 193

Mejoraron el tiempo en la resolucin del rompecabezas estos alumnos?

Planteamiento del problema muestras pareadas

La forma en la que se realiz este experimento da lugar a muestras dependientes, generalmente


denominadas muestras pareadas. La estrategia consiste en experimentar sobre la misma unidad
experimental un tiempo despus. En caso de que las unidades no puedan ser las mismas se
buscar que los pares sean lo ms homogneo posible. De esta manera la estrategia es encontrar
11.2. Inferencia para dos medias: muestras pareadas 189

la diferencia d para cada par mediante:

di = x1 x2

En este caso el estadstico de prueba para vericar la hiptesis nula H0 : 1 = 2 contra alguna
de las alternativas ser la media d de estas diferencias di ;

P
n
di
i=1
d= (11.4)
n

Para realizar un experimento para comparar dos poblaciones mediante muestras pareadas es:

1. Seleccionar las muestras de manera aleatoria.

2. Las muestras son pareadas (dependientes), la unidad en la primera muestra debe ser la
misma en la segunda muestra (par) o lo ms homogneo posible.

3. Ambas poblaciones tiene una distribucin normal.

Dadas estas condiciones se sigue que la distribucin de la diferencia de medias d, tiene una
distribucin t de Student con n 1 grados de libertad. As el estadstico estandarizado es:

d d
tm = Sd
gl = n 1 (11.5)
p
n

Solucin al ejemplo 3

Se har la solucin de este problema mediante CalEst, se abre un archivo para capturar los
datos del problema, como se indica en la Figura 11.5, luego en la opcin inferencia en prueba de
hiptesis para dos medias y pareadas se genera la solucin.
190 11. Inferencia para dos poblaciones

Figura 11.5: Procedimiento para realizar una prueba hiptesis, en muestras pareadas en CalEst

Prueba de hiptesis estadstica para comparar dos poblaciones en muestras pareadas


usando la prueba t:
Cuando la alternativa es:
1. Diferente Menor Mayor
H 0 : d = 0 H 0 : d = 0 H 0 : d = 0
H1 : d 6= 0 H 1 : d < 0 H 1 : d > 0
2. Seleccionar el nivel de signicancia
3. Usar la distribucin t de Student con gl = n 1 grados de libertad,
4. Determinar el punto crtico calculando tc = t( =2; gl); tc = t(1 =2; gl) para
la diferencia; tc = t( ; gl) para el caso menor y; tc = t(1 ; gl) para el caso mayor.
5. Determinar la regin de rechazo
6. Hacer los clculos para construir el estadstico de prueba, expresin 11.5
7. Tomar la decisin comparando tc con tm
8. Interpretar la decisin en el contexto del problema

La Figura 11.6 muestra los resultados.


11.3. Inferencia para dos proporciones 191

Figura 11.6: Resultados de la prueba de comparaciones pareadas

Se observa de manera clara que los estudiantes mejoraron de manera signicativa la resolucin
del rompecabezas.

11.3 Inferencia para dos proporciones


Ejemplo 4: Situacin real

Se realiz una prueba para conocer la memoria a corto plazo a una muestra aleatoria de personas
entre 30 y 40 aos. Esta consista en mostrar una tarjeta con 16 palabras por un espacio de 30
segundos, despus se dejaba pasar un minuto platicando con el entrevistado. A continuacin se le
peda que dijera las palabras que recordaba, para esta accin se dejaba un minuto. Se consider
la proporcin, p1 , de personas que recordaban 8 o ms palabras. El investigador supone que si
ensea la tarjeta por un espacio de 60 segundos en lugar de 30, la proporcin, p2 , de personas
que recuerden 8 o ms palabras aumentar. Para vericar esta situacin se realiza una prueba
de diferencia entre dos proporciones.
Prueba de hiptesis para dos proporciones
Las condiciones que se deben seguir para realizar la comparacin entre proporciones es:

1. Seleccionar las muestras de manera aleatoria.


192 11. Inferencia para dos poblaciones

2. Las muestras deben ser independientes.

3. Las muestras deben ser sucientemente grandes para usar la distribucin normal, as se
debe cumplir:

n1 p1  5; n1 (1 p1 )  5; n2 p2  5 y n2 (1 p2 )  5:

Dadas estas condiciones, se tiene que la distribucin muestral de pb1 pb2 ; diferencia entre
proporciones, es una normal con media

(b
p1 pb2 ) = p1 p2

y un error estndar:
s  
1 1
(b
p1 pb2 ) = p(1 p) + ;
n1 n2

x1 +x2
donde p = n1 +n2
; x1 = n1 pb1 ; x2 = n2 pb2 :
Entonces para probar la hiptesis de diferencia entre dos proporciones p1 y p2 cuando las
muestras se extraen de manera aleatoria de dos poblaciones el estadstico de prueba es:

pb1 pb2 (11.6)

y en forma estandarizado

p1 pb2 ) (p1 p2 )
(b
zm = r   (11.7)
1 1
p(1 p) n1 + n2

Nota. Recuerde que puede usar la opcin didctica Ho para estudiar esta prueba de hiptesis,
donde ahora el estadstico es (11.6). Asimismo puede recurrir a la distribucin normal para
determinar los valores correspondientes a los estadsticos y niveles de signicancia.
Con el estadstico (11.6) o (11.7) se prueba una de las siguientes hiptesis alternativas:

H0 : p 1 = p 2
H1 : p1 6= p2 , H1 : p1 > p2 , o H1 : p1 < p2
11.3. Inferencia para dos proporciones 193

Gua para la diferencia de medias usando el estadstico de prueba z


En palabras En smbolos
1. Identicar las hiptesis nula y alternativa Plantear H0 y H1
2. Especicar el nivel de signicancia Dar el valor de
3. Identicar la distribucin muestral
4. Determinar el punto crtico Usar el calculador estadstico: zc
5. Determinar la regin de rechazo
6. Calcular el estadstico de prueba Aplicar la expresin 11.7: zm
7. Tomar la decisin estadstica: rechazar o no rechazar Comparar zc con zm
8. Interpretar los resultados

Solucin al ejemplo 4

Los datos generados en este estudio son:

Muestra Proporciones Tamao


1 pb1 = 0:20 n1 = 100 x1 = 20
2 pb2 = 0:42 n2 = 100 x2 = 42

Se cumplen las condiciones:

n1 p1 = 100(0:2)  5; n1 (1 p1 ) = 100(0:8)  5;
n2 p2 = 100(0:42)  5 y n2 (1 p2 ) = 100(0:42)  5:

El reporte estadstico de este ejemplo generado por el software se muestra en la Figura 11.7.
Al rechazar la hiptesis nula se verica el supuesto del investigador, es decir si hay un efecto en
la memoria de corto plazo al mostrar la tarjeta un mayor tiempo.

11.3.1 Prueba F, comparacin de Varianzas


La comparacin de varianzas mediante una prueba de hiptesis es un procedimiento importante
en estadstica para vericar la homogeneidad entre dos poblaciones o tratamientos.

Ejemplo 5

En dos tiendas de autoconsumo el precio de la canasta bsica vara da con da y una persona
tiene que decidir en cul de las dos tiendas comprar para no desequilibrar su presupuesto. El
precio en el riesgo de compra, est asociado con la desviacin estndar del precio diario de la
canasta. Se tienen seleccionados muestras aleatorias de ambas tiendas; la tienda A; 31 das con
194 11. Inferencia para dos poblaciones

Figura 11.7: Descripcin del procedimiento para hacer la comparacin de proporciones

Figura 11.8: Opcin en CalEst para realizar la comparacin entre varianzas.


11.3. Inferencia para dos proporciones 195

Figura 11.9: Opcin en CalEst para realizar la comparacin entre varianzas.

una desviacin estndar de 5.7; la tienda B; 30 das con una desviacin estndar de 3.5. Con
un nivel de signicancia = 0:05 Se puede concluir que en alguna tienda hay mayor riesgo de
comprar y desequilibrar el presupuesto?
Resumen de la informacin que proporciona la muestra:

Muestra 1 n1 = 31 S12 = (5:7)2 = 32:49


Muestra 2 n2 = 30 S22 = (3:5)2 = 12:25

Planteamiento de las hiptesis:

H0 :  21 =  22 H1 :  21 6=  22

En la Figura 11.8 se describe la opcin del programa estadstico para llevar a cabo la prueba de
hiptesis entre la razn de varianzas. Estadstico de prueba

S12
F =
S22

Clculo del estadstico en CalEst


La descripcin operativa que genera el CalEst sobre la prueba de hiptesis sobre la razn de
varianzas se describe en la Figura 11.9.
196 11. Inferencia para dos poblaciones

Figura 11.10: Pantalla que muestra la parte operativa de la prueba de hiptesis sobre la razn
de varianzas.

32:49
Fm = = 2:652
12:25
Clculo del valor crtico en funcin del nivel de signicancia Fc = Ftablas ; Fc = F ( =2; 31 1; 30
1) = 2:1, puesto que 2:652 = Fcalculada > Fc = 2:1 se rechaza H0 :
Alternativamente se prueba la hiptesis utilizando el nivel de signicancia descriptivo p,
2p = P (Fm > 2:652) = 2(0:00514) = 0:01028; puede observar que p < = 0:025; por lo tanto se
concluye rechazar H0 :

 21
Intervalo del (1- )% conanza para la razn de varianzas :  22

 
S12 S2
F1 (1 =2; glN ; glD ); 12 F0 ( =2; glN ; glD )
S2 S2

Determinacin de los valores para la distribucin F : FI = F (1 =2; 31 1; 30 1) = 0:48,


FD = F ( =2; 31 1; 30 1) = 2:1; donde glN ; glD son los grados de libertad para el nmerador
y denominador respectivamente. As el intervalo del 95% de conanza para la razn de varianza
es:

((2:652)(0:48); (2:652)(2:1)) = (1:232; 5:523)


11.3. Inferencia para dos proporciones 197

Figura 11.11: Valores de la distribucin F para construir el intervalo de 95% de conanza.

La descripcin grca de los resultados de la prueba se muestra en la Figura 11.10, la facilidad


grca de la distribucin de probabilidad F es relevante para comprender con mayor claridad
de un intervalo de conanza. Anlogamente puede usar la descripcin de esta distribucin para
explicar la prueba de hiptesis, para ello conviene que haga dos grcas una de ellas que seale
el nivel de signicancia y as ver el valor del punto crtico. Luego la otra que indique el valor del
estadstico calculado.
Note que la distribucin del estadstico que genera la distribucin F es la razn de varianzas.

Ejemplo 6: Situacin real

Un profesor ha diseado una estrategia para mejorar la velocidad de lectura, en esa direccin
l intenta reducir la varianza en el tiempo de lectura. Primero hace una prueba para conocer
la varianza del tiempo de lectura que actualmente tienen sus alumnos. Selecciona una muestra
aleatoria de 10 alumnos, la prueba de velocidad de lectura arroj una varianza de 144 minutos2 .
Bajo su planteamiento consider una muestra de 21 alumnos, la varianza del tiempo de lectura
fue de 100 minutos2 . Proponiendo un nivel de signicancia = 0:10. Existe suciente evidencia
para respaldar la estrategia del profesor?
Resumen de la informacin que proporciona la muestra:

Muestra 1 n1 = 10 S12 = 144


Muestra 2 n2 = 21 S22 = 100
198 11. Inferencia para dos poblaciones

La hiptesis de trabajo se expresa por

Ht : La varianza del tiempo de lectura actual es mayor a la varianza del tiempo bajo su esquema.

Las hiptesis estadsticas son:

H0 :  21 =  22 H1 :  21 >  22

Estadstico de Prueba

S12
F =
S22

Clculo del estadstico:

144
Fm = = 1:44
100
El valor de referencia Fc = Ftablas ( = 0:10; 10 1; 21 1) = 1:96, verique este valor usando
la distribucin F . Puesto que Fm < Fc se concluye que no se rechaza H0 :
Alternativamente usando el nivel de signicancia descriptivo p; el valor de p = P (F (10
1; 21 1) > 1:44) = 0:237: Observe que 0:237 = p > = 0:1, vea este valor en la distribucin F .
Se conrma que no se rechaza H0 :
Captulo 12

Anlisis de Varianza

12.1 Ideas generales

En captulos anteriores se plantearon pruebas de hiptesis para una poblacin y dos poblaciones.
En esta parte se desarrolla un procedimiento para comparar dos o ms poblaciones a la vez. Este
se conoce como anlisis de varianza, abreviada ANDEVA.
La estrategia experimental, desempea un papel relevante para hacer la comparacin entre
ms de dos poblaciones y se llama diseo completamente al azar. Con el n de jar ideas considere
el siguiente ejemplo, un ingeniero que trabaja en biotecnologa de alimentos, quiere conocer la
preferencia que tienen las personas por cuatro tipos de helados elaborados bajo condiciones
diferentes. En este caso las hiptesis son:
Hiptesis nula:
H0 : Las personas preeren por igual los cuatro helados.
Hiptesis alternativas:
H1 : Existe preferencia por alguno de los helados.
La estrategia experimental para este caso es como sigue; suponga que hay 12 personas y que
cada una de tres personas prueban cada helado. Las doce personas se seleccionan aleatoriamente
y se les da a probar el helado correspondiente, es decir:

h1 h1 h1 h2 h2 h2 h3 h3 h3 h4 h4 h4
8 3 10 12 5 6 11 9 4 7 2 1

La medicin se realiza en una escala hednica con valores que van de 1 a 10, donde 1 es el
disgusto de las personas por el helado y 10 es la aceptacin total.
La estructura de esta estrategia experimental se presenta en la Tabla 12.1, con los resultados
reportados por las personas.

199
200 12. Anlisis de Varianza

Helados
1 2 3 4
74 46 80 85
78 56 70 82
73 49 77 89
nj 4 4 4 4
xj 75 50.33 75.67 85.33
Sj2 7 26.33 26.33 12.33

Tabla 12.1 Resultados experimentales

La idea principal en este caso, es probar si la variacin entre grupos (entre helados) es similar
a la variacin dentro de grupos (cada helado).
En resumen, el planteamiento general de este esquema es:

Supngase que hay k poblaciones de inters, el procedimiento del anlisis de varianza


se plantea probar la hiptesis:
H0 : 1 = 2 = ::: = k
H1 : No todas las medias son iguales.

Este esquema se conoce como diseo completamente al azar. La meta de este procedimiento
es construir el estadstico de prueba para vericar esta hiptesis.

Trminos bsicos en el diseo.


Primero se describe lo que se entiende por factor.

Un factor, es una variable que se usa para diferenciar un grupo de una poblacin a otra.
Esta es una variable que puede estar relacionada con la variable de inters. Un nivel es
uno de los posibles valores que el factor puede tomar.

En el ejemplo, el factor es el tipo de helado y el nivel es cada uno de los helados. A continuacin
se formaliza lo que se llama variable de respuesta, en este caso la evaluacin de la preferencia del
helado.

La variable de respuesta es una variable cuantitativa, que son las mediciones u


observaciones del experimento.

La descripcin del experimento:

Un diseo completamente al azar es un experimento si se estudian diferentes niveles


de un factor, y los objetos que se observan o miden son asignados aleatoriamente
a uno de los niveles del factor.
12.1. Ideas generales 201

El procedimiento para analizar los datos del experimento, se llama anlisis de la varianza
(ANDEVA).

Anlisis de la Varianza es una tcnica que se utiliza para analizar la varianza en los
datos para determinar cuando mas de dos poblaciones tienen medios iguales.

En la terminologa de experimentos, se dene lo que se conoce como tratamiento. En el


ejemplo, el tratamiento es el tipo de helado que probarn las personas.

Un tratamiento es una caracterstica particular o una combinacin


de caractersticas del factor o factores que se estudian.

En el ejemplo, en cada uno de los tratamientos hay tres observaciones, es decir n1 = n2 =


n3 = n4 = 3 en este caso el diseo es balanceado, porque el tamao de muestra es igual en cada
caso.

Estadstico en el ANDEVA
La media de todos los datos se conoce como la gran media.

La gran media es el promedio de todas las observaciones en el experimento y se denota por x

As se puede escribir la variacin total o suma de cuadros total, es decir:

La varianza total o la suma de cuadrados total (SCT), es la medida de la variacin


en el conjunto de datos del experimento.

Este se escribe por:


ni
t X
X
SCT = (xij x )2
i=1 j=1

donde t es el nmero de tratamientos y ni el tamao de muestra en cada tratamiento.

12.1.1 Componentes de la variacin total


En este diseo se tienen dos componentes de variacin, el que se reere a la variabilidad que
se atribuye entre los promedios de las k poblaciones que se estn comparando y la variabili-
dad interna dentro de cada una de las k poblaciones, a esta ltima se le conoce como error
experimental.
202 12. Anlisis de Varianza

La nalidad de la prueba de hiptesis, es comparar estos dos componentes de variabilidad, si


estos resultan ser iguales, se concluye que la variabilidad entre promedios de la poblacin no se
considera signicativa, es decir no se rechaza la hiptesis nula; H0 : 1 = 2 = ::: = k

La variacin entre poblaciones mide qu tan diferente son los tratamientos de la gran media.
Esta se llama el cuadrado medio de tratamientos y se denota por CMtrat

El cuadrado medio de tratamientos CMtrat se obtiene dividiendo la suma de cuadrados


entre tratamientos, entre el nmero de tratamientos menos 1, esto es:
SCtrat
CMtrat = k 1

La frmula para la suma de cuadrados entre tratamientos es:

k
X
SCtrat = nj (xj x )2 ;
j=1

donde xj es el promedio de los k tratamientos.


La variacin dentro de tratamientos toma en cuenta la varianza y el tamao de muestra en
cada tratamiento, a este se le conoce como el cuadrado medio dentro de tratamientos y se denota
por:

(n1 1)S12 + (n2 1)S22 + ::: + (nk 1)Sk2


CMdentro = (12.1)
(n1 1) + (n2 1) + ::: + (nk 1)

Observacin
El numerador de la expresin (12.1) se le conoce como la suma de cuadrados dentro de tratamien-
tos. El denominador son los grados de libertad asociados a esta fuente de variacin son:
(n1 1) + (n2 1) + (nk 1) = n1 + n2 + ::: + nk k=N k:
La variable que resulta de dividir el cuadrado medio entre y el cuadrado medio dentro de
tratamientos tiene una distribucin F con k 1 grados de libertad en el numerador y N k
grados de libertad en el denominador; esto es F (k 1; N k):
Los resultados de este procedimiento se recogen en una Tabla que se conoce como anlisis de
varianza. En la Tabla 12.2 se describen las expresiones para realizar los clculos realizados.

Procedimiento de la prueba de hiptesis

1. Plantear las hiptesis H0 : 1 = 2 = ::: = k , H1 : al menos una media de una poblacin


es diferente de otra.
12.1. Ideas generales 203

2. Seleccionar el nivel de signicancia, se calculan los grados de libertad para el numerador


gln y denominador gld se calcula el valor crtico referencia Fc = F (gln ; gld )

3. Calcular el valor Fm = CMtrat


CMdentro
:

4. Comparar Fm con Fc si Fm > Fc se rechaza H0 y se concluye a favor de la hiptesis alterna.

5. Interpretar en el contexto del problema.

Fuente de Grados de Suma de Cuadrado Fm


Variacin libertad cuadrados medio
Entre tratamientos k 1 SCtrat CMtrat = SC trat
k 1
CMtrat
CMdentro
SCdentro
Dentro tratamientos N k SCdentro CMdentro = N k

Total N 1 SCtotal

Tabla 12.2 Anlisis de la Varianza

Ejemplo 1

Un nutrilogo est probando cuatro tratamientos (A,B,C y D) para reducir el peso. l cuenta con
18 personas para realizar el experimento, aplica de manera aleatoria uno de los tratamientos a
cada persona. Despus de un periodo de prueba anota el nmero de kilogramos que redujeron las
personas, en la Tabla 12.3 se anota el registro, (6.5 indica que una persona redujo 6 kilogramos
con 500 gramos) Cul es la hiptesis que se plantea vericar el nutrilogo? Cules son los
resultados principales para construir el estadstico de prueba F?
204 12. Anlisis de Varianza

Resultados

Tratamiento
A B C D
6.5 6.0 5.5 4.6
6.5 5.8 5.2 4.5
5.8 5.8 4.9 4.5
5.7 5.5 4.8 4.8
5.6 5.1
nj 5 5 4 4
xj 6.02 5.64 5.10 4.60
S2 0.197 0.123 0.100 0.020

Tabla 12.3 Resumen estadstico de los


datos del estudio.

Hiptesis

El planteamiento de las hiptesis es:


H1 : A = B = C = D (Los cuatro tratamientos producen en promedio, la misma
reduccin de peso).
H2 : Al menos un par de tratamientos es diferente.
En la Figura 12.1 se muestra el anlisis de varianza que se obtiene del paquete estadstico. A
continuacin se resume el procedimiento para realizar sta prueba de hiptesis.
Considere un nivel de signicancia = 0:05; los grados de libertad correspondientes para
el numerador y denominador son en este caso gln = 4 1 = 3; gld = 18 4 = 14: As Fc =
F (0:05; 3; 14) = 3:344:

Procedimiento operativo para calcular el estadstico Fm

Con la informacin reportada en la Tabla 13.3 se pueden construir los cuadrados medios entre y
dentro de tratamientos, es decir:

5(6:02 5:394)2 + 5(5:64 5:394)2 + 4(5:10 5:394)2 + 4(4:60 5:394)2


CMtrat = = 1:709
4 1

(5 1)(0:197) + (5 1)(0:123) + (4 1)(0:100) + (4 1)(0:020)


CMdentro = = 0:117
(5 1) + (5 1) + (4 1) + (4 1)
12.1. Ideas generales 205

Figura 12.1: Archivo de datos que registra los valores experimentales y el anlisis estadstico.

Figura 12.2: Valor crtico de la distribucin F para el ejemplo.


206 12. Anlisis de Varianza

As Fm = 1:709
0:117
= 14:596: Puesto que Fm = 14:596 > Fc = 3:344 se rechaza la hiptesis nula,
lo que indica que alguno de los tratamientos es efectiva para reducir de peso.
Captulo 13

Modelo de regresin lineal simple

13.1 Planteamiento del problema de regresin


Muchos de los fenmenos sociales y naturales requieren de una explicacin, los modelos de re-
gresin son una herramienta til para tal n. En este apartado se presentarn y desarrollarn
los conceptos estadsticos que comprenden los temas de regresin lineal simple.
Objetivos: Proporcionar una gua para conocer y comprender los elementos estadsticos ms
importantes en la elaboracin de un modelo de regresin. Generalmente este tipo de mode-
los permiten explicar y estudiar diferentes situaciones que se presentan en distintas reas del
conocimiento. La idea principal es seleccionar una muestra de individuos u objetos a los cuales
se les medirn dos o ms caractersticas. De esta manera el inters que se tiene es evaluar:

 Cuando las variables se relacionan.

 Qu tan estrecha es esa relacin.

 Cuando una variable de respuesta se puede predecir de la otra.

La nalidad del anlisis de regresin consiste en estudiar la relacin que existe entre las
variables, describir modelos grcos para explicar esta relacin, y construir modelos sobre un
fenmeno para predecir otros valores de la respuesta dado un valor jo de la covariable y hacer
inferencia sobre los parmetros del modelo, sobre la media estimada y la prediccin. La forma
general del modelo es:

Y = Componente determinista + una variable aleatoria.

Donde la variable del componente determinista se denota por X, X = variable independiente


o variable predictora, o variable de entrada. Y se conoce como variable dependiente o respuesta.

207
208 13. Modelo de regresin lineal simple

Figura 13.1: Hoja de trabajo y la forma para la regresin simple

Ejemplo 1

En los reportes de quin es quin en los precios que proporciona la Secretara del Consumidor,
seleccionamos el precio de dos medicinas en 10 farmacias, el precio est dado en pesos y el precio
real se debe multiplicar por 50. Los resultados se muestran en la siguiente tabla. Es de inters
saber si existe alguna relacin entre los precios de las distintas medicinas: es decir si las farmacias
conservan la misma relacin en sus precios con respecto a las dos medicinas:

Farmacia 1 2 3 4 5 6 7 8 9 10
Xi 3 3 4 5 6 6 7 8 8 9
Yi 9 5 12 9 14 16 22 18 24 22

En forma general, se usa la letra n para denotar el tamao de la muestra, para cada uno de
los n individuos se observa la pareja de valores (X; Y ). Es decir

variable independiente X X1 X2 ::: Xn


variable de respuesta Y Y1 Y2 ::: Yn

En la investigacin de la relacin entre dos variables, el diagrama de dispersin es una tcnica


de grca para entender un anlisis estadstico formal. Este anlisis se realiza en CalEst en
mdulo de regresin, en ste aparecen tres opciones la regresin simple, la regresin mltiple y
13.2. Modelo de regresin lineal simple 209

Figura 13.2: Diagrama de dispersin y modelo de regresin para el precio de las farmacias.

la regresin avanzada. En este Captulo se abordar la primera, como paso inicial se anotan los
datos en una hoja de trabajo, creando o abriendo un archivo en CalEst o en otra hoja electrnica.
Una vez capturado los datos y se llama la opcin regresin simple como aparece en la Figura
13.1.
Una vez llenados los cuadros para la variable dependiente, far2 en este caso, y la variable
independiente far1, se aprieta el botn aceptar. Enseguida aparece una serie de grcas que
forman parte del anlisis, atrs aparece una hoja que completa el anlisis estadstico. En la
Figura 13.2 se muestra una lnea y los puntos que representan el precio de las 10 farmacias.
El objetivo principal es estimar los parmetros que caracterizan al modelo, lnea recta, descrito
en la Figura 13.2. En la Figura 13.3 se muestra el reporte que contiene los valores estimados y
los resultados estadsticos generados por el mtodo de mnimos cuadrado. Este se explicar en
este Captulo. La informacin que se presenta en esta gura se obtiene del paquete estadstico.

13.2 Modelo de regresin lineal simple


Suponemos que la respuesta (Y ) es una variable aleatoria que se relaciona con la variable (X)
por

Yi = 0 + 1 Xi + "i ; i = 1; :::; n donde (13.1)

1. Y denota la i-sima respuesta correspondiente a un valor de X.

2. " (epsilon) "1;:::; "n son variables aleatorias no observables y suponemos que se distribuyen
como una distribucin de probabilidad normal con media cero y varianza  2 .
210 13. Modelo de regresin lineal simple

Figura 13.3: Resultados estadsticos del anlisis que genera el mtodo de mnimos cuadrados

3. Los parmetros 0 (Beta cero), es el punto en el cual la recta (13.1) intercepta a Y . 1 (Beta
uno), pendiente de la recta (13.1), indica la cantidad que crece (decrece) Y por cada unidad
que aumenta X:

Ejemplos:

1. Identique los valores de los parmetros 0 ; 1 ;  2 ; en el siguiente modelo estadstico

Y =8 6X + "

" es una variable normal con media cero y desviacin estndar 4.

2. Del modelo de regresin lineal, determine la media y la desviacin estndar de Y , para


X = 1, cuando 0 =2, 1 =4 y =3

3. Haga la grca de la lnea de regresin para la media de la lnea de regresin lineal

Y = 0 + 1 X + "; con 0 = 7 y 1 = 2:
13.2. Modelo de regresin lineal simple 211

13.2.1 El mtodo de mnimos cuadrados


Supngase, tentativamente que el modelo (13.1) es correcto. El problema de la estimacin de los
parmetros 0 y 1 se ve como la lnea recta que mejor se ajuste al diagrama de dispersin. El
procedimiento estadstico que nos permite determinar la recta que mejor se ajuste se conoce por
el mtodo de mnimos cuadrados. Los estimadores de los parmetros 0 ; 1 ; se denotan por la
letra latina b0 ; bi respectivamente
Supngase que una lnea arbitraria Yb =b0 + b1 X es dibujada en un diagrama de dispersin.
En el valor Xi de la variable independiente, vemos el valor observado Yi y el correspondiente a
la recta Ybi = b0 + b1 Xi .(este valor Ybi : se le denomina valor predicho) la discrepancia entre los
valores observados y predichos es:

Yi Ybi = Yi (b0 + b1 Xi ) = ei

y representa la distancia vertical del punto Yi a la lnea. La discrepancia de todos los puntos est
representada por la siguiente expresin.

n
X n
X
D= e2i = (Yi (b0 + b1 Xi ))2 ; (13.2)
i=1 i=1

As, D es una medida de la discrepancia de los puntos observados Yi de la lnea Ybi = b0 +b1 Xi .
La magnitud de D depende de la lnea que se dibuje, es decir dependen de b0 y b1 . Un buen ajuste
hace la D tan pequea como sea posible. El mtodo de mnimos cuadrados permite estimar los
valores estimados de los parmetros, y su objetivo es minimizar la siguiente discrepancia:
n
X n
X
D= (respuesta observada-modelo)2 = (Yi ( 0 + 1 Xi ))2 :
i=1 i=1

Los valores que se obtienen de optimizar la expresin anterior se denominan estimadores de m-


nimos cuadrados de los parmetros del modelo, estos se representan por las cantidades b0 y b1
Mediante este procedimiento obtenemos el modelo que mejor se ajusta a los datos, este se re-
presenta por Ybi = b0 + b1 Xi .

Notacin.
Con la nalidad de facilitar los clculos en la estimacin de los parmetros, en el anlisis y
evaluacin del modelo, se plantean las siguientes expresiones.

P
n P
n

_ _ _ _
( X )( Y )
1P n 1P n Pn Pn
i=1 i=1
X= Xi ; Y = Yi ; Sxy = (X i X)(Y i Y ) = Xi Yi i i
(13.3)
n i=1 n i=1 i=1 i=1 n
212 13. Modelo de regresin lineal simple

P
n P
n
_
( Xi2 )2 _
( Yi ) 2
P
n
2 P
n
i=1 P
n
2 P
n
i=1
Sxx = (Xi X) = Xi2 ; Syy = (Yi Y ) = Yi2 (13.4)
i=1 i=1 n i=1 i=1 n

Estas frmulas son de utilidad porque permiten calcular los estimadores de mnimos cuadrados,
y a continuacin se mostrarn las expresiones :

_
El estimador de mnimos cuadrados de 0 es b0 : b0 = Y b1X

Sxy
El estimador de mnimos cuadrados de 1 es b1 : b1 =
Sxx

La recta de regresin (estimada) o ajustada es : Ybi = b0 + b1 Xi

Las desviaciones individuales entre las observaciones Yi y los valores ajustados Ybi = b0 + b1 Xi
se llaman residuales, y los denotamos por ei .

13.2.2 Residuales
Los residuales se expresan por
ei = Ybi (b0 + b1 Xi ):

Los residuales permiten vericar los supuestos estadsticos en los que se basa el mtodo de
mnimos cuadrados, ellos son de utilidad para evaluar otras caractersticas del modelo, estos
Pn
aspectos se vern posteriormente. Una propiedad de los residuales es i=1 ei = 0: La suma de
cuadrados de los residuales es:

n
X 2
Sxy
SCerror = e2i = Syy (13.5)
i=1
Sxx

Esta expresin es til para estimar la varianza, as la varianza  2 se estima por

SCerror
b2 =

n 2

Ejemplo 2

Considerando los datos de los precios de las medicinas en las diez farmacias, descritos anterior-
mente, a continuacin se efectan los clculos para obtener la lnea de mnimos cuadrados, los
residuales, la estimacin de la varianza, los resultados previos se describen en la siguiente tabla.
13.2. Modelo de regresin lineal simple 213

Xi Yi Xi2 Yi2 Xi Yi Yb ei
3 9 9 81 27 7.15 1.85
3 5 9 25 15 7.15 -2.15
4 12 16 144 48 9.89 2.11
5 9 25 81 45 12.63 -3.63
6 14 36 196 84 15.37 -1.37
6 16 36 256 96 15.37 .63
7 22 49 484 154 18.11 3.89
8 18 64 324 144 20.85 -2.85
8 24 64 576 192 20.85 3.15
9 22 81 484 198 23.59 -1.59
59 151 389 2651 1003 0

El ltimo rengln de la tabla anterior representa la suma de los renglones, estos valores se
sustituyen en las frmulas descritas anteriormente para obtener la estimacin del modelo. Los
clculos son:
_ 59  151
X = 5:9; Y = 15:1; Sxy = 1003 = 112:1;
10
(59)2 (151)2
Sxx = 389 = 40:9; Syy = 2651 = 370:9:
10 10
Los estimadores de mnimos cuadrados para el modelo son:

112:1
b0 = 15:1 2:74  5:9 = 1:07; b1 = = 2:74:
40:9
As la recta que mejor se ajusta a los datos de precios es:

Yi = 1:07 + 2:74Xi
La varianza se estima por:

SCerror 63:6528
b2 =
 = = 7:96;
n 2 8
(112:1)2
donde SCerror = 370:9 40:9
= 63:6528. En la Figura 13.3 se muestra el reporte de los clculos
que genera el CalEst, compare esta con el procedimiento ilustrado. La construccin de la segunda
tabla que aparece en reporte se presenta en el apartado 13.3.4 y en la Tabla 13.1.
Interpretacion: Un vez que se han obtenido los estimadores de los parmetros, es impor-
tante su interpretacin. En el modelo lineal que se esta estudiando el coeciente de la variable
independiente X es en particular el ms importante. As el valor de b1 = 2:74 indica que cuando
una farmacia vende la medicina X en un peso ms cara, en esa misma farmacia la medicina Y
cuesta casi tres pesos ms cara (por la consideracin inicial 27 pesos ms).
214 13. Modelo de regresin lineal simple

13.3 Estimadores de mnimos cuadrados.


 Recuerde que se tiene una muestra, si se selecciona otra muestra puede plantearse la pre-
gunta, cul es el valor de b1 ; si este proceso se repite varias veces?

 Si una farmacia vende la medicina X en 3.5 pesos, cunto costar la medicina Y en esa
farmacia?

Para responder a estas preguntas se necesita indicar que los estimadores de mnimos cuadra-
dos, se distribuyen como una distribucin de probabilidad normal con media  = ; y varianza
 2 (bi ):

1. El estimador de la varianza de los estimadores de mnimos cuadrados se representan por


las siguientes expresiones:

b2
 1 X2
b2 (b1 ) =
 y b2 (b0 ) = 
 b2 ( + )
Sxx n Sxx

b2 =
donde el estimador de la varianza  2 es  SCE
n 2
o el estimador de la desviacin estndar
b es la raz cuadrada de
 SCerror
n 2
:

b2 , por ello la
2. En la prctica la varianza  2 no se conoce, as que se usa el estimador 
inferencia en los parmetros del modelo se basan en la distribucin de probabilidad t,
entonces para la pendiente 1 ;
(b1 1 )
t=

b(b1 )

se distribuye como una t Student con n 2 gl. Anlogamente la inferencia del intercepto
0 se basan en la distribucin t.
(b0 0 )
t=

b(b0 )

se distribuye como una t Student, con n 2 gl.

3. Cuando se propone un valor especco de la variable independiente X, es de inters estimar


el valor de la respuesta para ese valor, suponga que el valor propuesto es X = X  ; con ello
la respuesta esperada es Y = 0 + 1 X  , y se estima por Yb = b0 + b1 X  con el objeto de
hacer inferencia sobre esta respuesta esperada es importante obtener la varianza de Yb y la
varianza estimada de sta es:
13.3. Estimadores de mnimos cuadrados. 215

 
1 (X  X)2
b (Yb ) = 
 2
b 2
+ (13.6)
n Sxx

La inferencia sobre 0 + 1 X  se basa en la distribucin t Student, esta es:

(b0 b1 X  0 + 1X )
t= con gl = n 2
b(Yb )


13.3.1 Inferencia con respecto a la pendiente.


En un problema de anlisis de regresin es de inters determinar cuando la respuesta vara o no
con la magnitud de la variable de entrada X. Considere el modelo de regresin lineal. Respuesta
esperada
E(Y ) = 0 + 1 X

En esta no hay cambio en X si y solo si 1 = 0. Con objeto de vericar si los datos apoyan
o no este hecho, en trminos estadsticos se plantea la siguiente hiptesis:

H0 : 1 = 0 y H1 : 1 > 0;
(b1 1 )
con base en el estadstico de prueba, tc = 
b( 1 )
, gl = n 2. Permitir rechazar o no la hiptesis
nula.
En particular, la hiptesis alternativa H1 como est planteada permite preguntarse, existe
evidencia de que la medicina Y es ms cara cuando la medicina X es cara? La respuesta ser
armativa si al realizar la prueba se rechaza la hiptesis nula, para ello primero se tiene que
obtener el valor del estadstico t.
De los clculos se tiene que b1 = 2:74;

SCE 63:65
b2 =
 = = 7:956
n 2 8

de aqu se obtiene 
b = 2:8207, nalmente:
s r

b 2:8207

b(b1 ) = = = 0:441
Sxx 40:9

estadstico de prueba es tc = 2:74


0:441
= 6:213. Este valor de t se compara con el valor de t obtenido
de las tablas de la distribucin de probabilidad de la t de Student con 8 grados de libertad y
= 0:05, este valor es t = 1:860. Se puede observar que t es mayor que t : Esto permite
concluir que se rechaza la hiptesis nula.
216 13. Modelo de regresin lineal simple

Figura 13.4: Anlisis grco de residuales.

Nota. Use la distribucin y el calculador de probabilidad de la t de Student del paquete


estadstico para vericar estos resultados estadsticos y conclusiones.

En la Figura 13.4 se describe el anlisis grco del modelo proporcionado por el CalEst. En la
grca superior izquierda aparece el modelo con su lmite de conanza del 95%. El cuadro que se
indica con las letras ab, brinda la posibilidad de cambiar el nivel de conanza, adems se puede
ver el lmite de conanza para la prediccin. La grca de la derecha superior muestra la relacin
entre los valores reales y los predichos e indica qu tanto explica el modelo. Las siguientes dos
grcas completan el anlisis del modelo mediante la evaluacin de los residuales, en ellas se
puede interpretar: si existe homogeneidad en la varianza, dispersin de los residuales y puntos
aberrantes. Abajo hay una quinta grca sobre los residuales que interpreta la dependencia con
respecto al tiempo.
13.3. Estimadores de mnimos cuadrados. 217

13.3.2 Intervalo de conanza para los parmetros del modelo.


Intervalo de conanza para 1 :

Se puede encontrar un intervalo de conanza para el parmetro 1 usando la distribucin t. Un


intervalo de conanza para 1 , con un nivel de 100(1 )% se obtiene mediante la expresin
r
1
b1  t =2 
b(b1 ) = b1  t =2 
b
Sxx

donde t =2 es el punto correspondiente a la distribucin t para gl = n 2 y /2.


Con esta expresin se construye un intervalo del 95% de conanza para la pendiente de la
lnea de regresin. De los clculos realizados se tiene que b1 = 2:74 y 
b(b1 ) = 0:441 El intervalo
requerido es:
2:74  2:306(0:441) = 2:74  1:02 es decir (1:72; 3:76)

Intervalo de conanza para 0

Con un nivel de signicancia del 100(1 )% :


s
2
1 X
b0  t =2 
b + (13.7)
n Sxx
De los resultados descritos del ejemplo 2, se tiene que b0 = 1:07, X = 5:9 y Sxx = 40:9. Se
b = 2:8207, por lo tanto el intervalo de conanza 0 con = 0:05 es:
tiene que 
r
7 (5:9)2
1:07  2:306(2:8207) + = ( 7:41; 5:27):
10 40:9

13.3.3 Prediccin de la respuesta media para un valor dado de X


En esta situacin, se realiza inferencia sobre la estimacin de la prediccin de la respuesta para
un valor dado de la variable independiente, primero se plantea la estimacin por intervalo de
conanza y luego se describe la prueba de hiptesis.
Intervalo de conanza para la respuesta esperada 0 + 1 X con un nivel de 100(1- ) %
conanza es :
s
1 (X  X)2
b0 + b1 X   t =2 
b + (13.8)
n Sxx

Las hiptesis estadsticas para la prediccin se muestran por:


218 13. Modelo de regresin lineal simple

H 0 : 0 + 1 X  = 0 ; H1 : 0 + 1 X  6= 0 ;

el estadstico de prueba que permite contrastar esta hiptesis es:

b 0 + b 1 X  0
tc = q ; gl = n 2;
1 (X  X)2

b n + Sxx

con la nalidad de ilustrar la inferencia sobre la prediccin de la respuesta, se utilizarn los datos
del ejemplo 1.

13.3.4 Reporte estadstico del modelo de regresin en CalEst


Las Figuras de la 13.1 a la 13.5 muestran cmo entran los datos en una hoja de trabajo para
la regresin hasta el reporte global. El procedimiento se ha ilustrado utilizando los datos del
Ejemplo 1 de este captulo.
La lnea de regresin que se ajust a los datos descritos en el ejemplo 1 es Yb = 1:07+2:74X,
el precio de la medicina correspondiente a la farmacia cuyo precio en la medicina es X  = 6:5 se
estima por b0 + b1 X  = 1:07 + (2:74)  6:5 = 16:745. La desviacin estndar se estima mediante
la siguiente expresin:
r
1 (6:5 5:9)2
2:8207 + = 0:893
10 40:9
El intervalo de conanza del 95% para la media de la medicina Y con el precio de la medicina
X  = 6:5 es

16:745 + t0:25 (0:893) = 16:745  2:306  (0:893) = (14:600; 16:889):

Interpretacin, con un 95% de conanza la medicina Y se vende entre (13.31 y 17.43) con-
siderando que X  = 6:5, para un valor no observado de X, se desea proponer un valor de X
no observado, pero an, entre el rango de valores de X, el error estndar estimado cuando se
predice una respuesta es:
r
1 (X  X)2

b 1+ +
n Sxx
Nuevamente se recurre a los datos de los precios de las farmacias, ahora X  = 6:5. El valor
predicho es: b0 + b1 X  = 1:07 + 2:74(6:5) = 16:74. La Figura 13.5 complementa el anlisis
estadstico de este ejemplo. Para reproducirlo oprima el botn tercero en la segunda franja. La
prediccin se obtiene usando el botn yb. Un intervalo de conanza del 95% de conanza es
13.3. Estimadores de mnimos cuadrados. 219

Figura 13.5: Informacin complementaria para el anlisis estadstico del modelo de regresin.

r
1 (6:5 5:9)2
16:74  2:306(2:8207) 1+ + = 16:74  6:85 = (9:89; 23:59):
10 40:9

13.3.5 Evaluacin de la relacin lineal


Como una medida de la adecuacin del modelo lineal se examina que tanto de la variacin en la
respuesta es explicada por el modelo ajustado

Yi = (b0 + b1 Xi ) + (Yi b0 b1 Xi )

donde Yi es el valor observado, ( b0 + b1 Xi ) explica la relacin lineal (Yi b0 b1 Xi ) explica el


residual
En una situacin ideal donde todos los puntos estn en la lnea los residuales son cero, de
sta manera los valores de Y son explicados por la dependencia lineal en X. Se puede considerar
la suma de cuadrados de los residuales:

X 2
Sxy
2
SCerror = (Yi b0 b1 Xi ) = Syy (13.9)
Sxx
220 13. Modelo de regresin lineal simple

para medir la discrepancia de la linealidad. La variabilidad total de los Yi se expresa por

X
Syy = (Yi Y )2 (13.10)

se denomina la suma de cuadrados total y se denota por SCtotal , la SCerror es parte de la


variabilidad de esta ltima expresin, la diferencia :

 2  2
Sxy Sxy
Syy SCerror = Syy Syy = : (13.11)
Sxx Sxx

representa la variabilidad de los datos al modelo y se denomina suma de cuadrados se denota


por SCregresion .As la variacin total o SCtotal queda expresada por dos componentes: SCregresion
(explicada por el modelo) y SCerror (residual). A continuacin se describe la variabilidad de las
diferentes componentes del modelo.

SCtotal = Syy (total de Y )

explicada por la relacin lineal


2
Sxy
SCregresion =
Sxx

no explicada por el modelo residual

SCerror = SCtotal SCregresion

Para evaluar qu tanto los datos se ajustan al modelo debemos considerar la SCregresion ,
de tal manera que si existe un buen ajuste, la SCregresion contribuye fuertemente a la SCtotal .
Nuevamente la situacin ideal: todos los puntos sobre la lnea recta nos indica que SCerror es
cero, as SCtotal queda totalmente explicada por los valores de X. Para resumir esta situacin
generalmente se presenta una tabla que se llama anlisis de la varianza (ANDEVA).

Fuentes de Suma de GL Cuadrado Medio Razn de varianza


Variacin Cuadrados
SCregresi SCR=1
Modelo (R) SCregresion 1 1
on
F = SCE=(n 2)

Residual (E) SCerror n 2 SCerror


n 2

Total (T) SCtotal n 1

Tabla 13.1. Anlisis de la Varianza


13.3. Estimadores de mnimos cuadrados. 221

La Tabla 13.1 resume el procedimiento para probar la hiptesis :

H0 : No existe relacin lineal entre X y Y : 1 = 0

H1 : S existe relacin lineal entre X y Y : 1 6= 0

F  es una variable aleatoria que tiene una distribucin F con 1 y n 2 grados de libertad
respectivamente, para decidir si los datos conrman la hiptesis nula se compara F  con el valor
F ; donde es el nivel de signicancia.
Nota. Use la distribucin de probabilidad F y el calculador de sta en el paquete estadstico
para vericar estos resultados estadsticos y conclusiones. Observe que en el caso del anlisis de
la regresin simple la prueba de hiptesis mediante las pruebas t y F son equivalentes. Vea la
propiedad de la distribucin F con respecto a la t, que se mostr en el captulo 8.
Un ndice para evaluar el porcentaje de los datos que son explicados por el modelo, se llama
el coeciente de determinacin y se denota por R2 ; este se construye considerando la proporcin
de la variabilidad total y la explicada por el modelo, es decir :

2 2
SCregresion Sxy =Sxx Sxy
= = (13.12)
SCtotal Syy Sxx Syy

Realizando un poco de lgebra el coeciente de determinacin se escribe como

SCtotal SCerror SCerror


R2 = =1
SCtotal SCtotal

La raz cuadrada de esa cantidad, se le conoce como coeciente de correlacin y se denota


por r:
s
2
Sxy Sxy
r= =p (13.13)
Sxy Syy Sxx Syy

Considerando nuevamente los datos sobre el precio de las farmacias, y por los clculos que
se han realizado en los precios para las medicinas X y Y , se tiene: Sxx = 40:9, Syy = 370:9,
Sxy = 112:1 la recta que se ajust : Yb = 1:07 + 2:74X. Qu tanto de la variabilidad es
explicada por el modelo de regresin? La respuesta a esta pregunta calculando el coeciente de
determinacin :

2
Sxy (112:1)2
R2 = = = 0:83
Sxx Syy (40:9)(370:9)
222 13. Modelo de regresin lineal simple

Este valor se interpreta diciendo que el 83% de la variabilidad en Y es explicada por la


regresin lineal, y se concluye que el modelo es satisfactorio. Qu se puede concluir si R2 es
pequeo? Qu procedimientos se deben conrmar para tal caso?

13.3.6 Regresin lineal simple: notacin matricial


La nalidad de este apartado es mostrar mediante un ejemplo, el procedimiento de mnimos
cuadrados empleando la notacin matricial. Esta es importante por la facilidad de generalizar la
estimacin de los parmetros en un modelo de regresin con ms de una variable independiente
X.

Ejemplo 3

Se ha probado que el tiempo de vida de un acumulador se puede predecir (por ejemplo) midiendo
la carga que se le proporciona a la batera (en voltios). Se realiza un prueba de vida acelerada, en
este caso los acumuladores se sometieron a ciertas condiciones ambientales de calor (entre otras
posibles pruebas). Los datos para seis acumuladores son:

corriente X tiempo de vida y


17.9 245
23.6 220
30.9 215
56.1 211
61 161
77 135

El objetivo es encontrar la mejor relacin lineal entre las variables X y Y: El estimador de


mnimos cuadrados es:

b0 = (X 0 X) 1 X 0 Y

donde
 
0 1 1 1 1 1 1
X =
17:9 23:6 30:9 56:1 61 77

Aplicando el procedimiento de mnimos cuadrados se obtienen los siguientes resultados:


   
0 6 266:5 0 1187
XX= Xy=
266:5 14629:39 48274:1

la inversa
 
0 1 0:873 0:016
(X X) =
0:016 0:00036
13.3. Estimadores de mnimos cuadrados. 223

nalmente se tiene
b = (268:593; 1:593)

el modelo estimado es
Yb = 268:593 1:593x

Anlisis estadstico:
Hiptesis
Ho : 1 = 0
H1 : 1 6= 0
El estadstico
b
1
1
tc =  t(n p; )
b1 )
ES(
Clculos
b ) = (S 2 (X 0 X) 1 )1=2 = 0:3543
ES( 1

donde S 2 es un estimador de la varianza  2

(Y Yb )0 (Y Yb )
S2 = = 350:4384
n p

1:593 0
tc = = 4:5
0:3543
el valor de t(n p; ) = t(4; 0:025) = 2:78:
El coeciente de determinacin:

(Y Yb )0 (Y Yb ) 1401:9653
R2 = 1 =1 = 83:5
(Y Y )0 (Y Y) 8488:83
El coeciente de correlacin
 
(X X)0 (Y Y)
r= = 0:913
(X X) (X
0 X)(Y Y )0 (Y Y)
Resumen
parmetro estimacin error estd. tc p
o 268.593 17.494 15.353 0.0001
1 -1.593 0.354 -4.496 0.0108

Tabla 13.2. Resumen estadstico


224 13. Modelo de regresin lineal simple

tabla del anlisis de la varianza: ANDEVA


fuente de suma de cuadrado medio razn p
variacin cuadrados gl
modelo 7086.868 1 7086.868 20.220 0.0108
residual 1401.965 4 350.497
total 8488.833 5

Tabla 13.3. Resumen del anlisis

fuente de suma de cuadrado


variacin cuadrados gl medio razn p
(Yb Y )0 (Yb Y) CMregresion
modelo (Yb Y )0 (Yb Y) p 1
p 1 CMresidual
(Y Yb )0 (Y Yb )
residual (Y Yb )0 (Y Yb ) N p
N p
total (Y 0
Y ) (Y Y) N 1

Tabla 13.4 Anlisis de la varianza en general

Inferencia por intervalo de conanza:

Intervalo de conanza para la pendiente 1


s
b1 =  t(N 1
p; )S
(X X)0 (X X)

Intervalo de conanza para una media de la variable de respuesta 


s
1 (X  X)2
yb  t(N p; )S +
N (X X)0 (X X)

donde
b +
Yb  = b X
o 1

Intervalo de conanza para predecir un valor de la variable de respuesta


s
1 (X  X)2
Yb   t(N p; )S 1+ +
N (X X)0 (X X)

Ejercicio

Reproduzca este ejercicio en el programa, complete la evaluacin estadstica e interprete.


Captulo 14

Regresin Mltiple

14.1 Modelo
Si con la nalidad de explicar un fenmeno o proceso se incorporan nuevas variables al modelo
lineal simple, entonces se tiene el modelo de regresin mltiple, el cual se representa mediante la
siguiente expresin :

yi = 0 + 1 X1i + 2 X2i + ::: + k Xki + " (14.1)

donde 0 es una contante, los, i ; i = 1; 2; :::; k, son los parmetros del modelo, las Xji j =
1; 2; :::n; i = 1; :::; k son las variables independientes que describen las k caractersticas de los n
individuos u objetos, Yi es la variable de respuesta, se tienen n observaciones sobre los individuos,
" es una variable aleatoria.
La ecuacin (14.1) es un modelo hipottico con el cual se tratar de explicar los resultados de
una situacin real, en general, la idea es bosquejar o construir un modelo que nos va a describir
e interpretar un fenmeno, para ello planteamos el siguiente procedimiento :
1.- Proponer un modelo esto incluye la seleccin de las variables que aparecen en el modelo.
2.- Estimar los parmetros 0 ; 1 ; 2 ;..., k del modelo.
3.- Especicar la distribucin de probabilidad de la variable aleatoria ", estimar la varianza
 2 de la distribucin.
4.- Vericar la utilidad del modelo
5.- Usar el modelo para predecir valores particular de Y , dentro del rango de valores de la
variable independiente.
NOTA.- El modelo (14.1) es lineal en los parmetros y en las variables independientes, en este
caso el modelo recibe el nombre de modelo lineal de primer orden. Ms adelante se estudiarn
otros modelos.

225
226 14. Regresin Mltiple

14.2 Ajuste del modelo.


14.2.1 Supuestos estadsticos sobre el modelo.
Con el objeto de estimar los parmetros del modelo es necesario hacer algunas suposiciones sobre
la variable aleatoria ".
1.- Para cualquier conjunto de valores de X1 ; X2 ; X3 ; :::; Xk , la variable " se distribuye como
una distribucin de probabilidad normal con media cero y varianza  2 . En smbolos "  N (0;  2 ),
 2 es constante.
2.- Los errores aleatorios son independientes en el sentido probabilstico.

14.2.2 Proceso de estimacin


El objetivo es nuevamente estimar los parmetros del modelo con k variables independientes que
inuirn en la respuesta Y . Con la idea de jar ideas sobre el procedimiento de estimacin por
mnimos cuadrados, se considerarn la situacin de que nicamente existen dos variables que
explican la respuesta. Este modelo es de la forma siguiente

Yi = 0 + 1 X1i + 2 X2i + "i ; (14.2)

el procedimiento es anlogo al presentado para una variable, puesto que la nalidad es optimizar
la siguiente expresin:
n
X n
X
"i "i = (Yi ( 0 + 1 X1i + 2 X2i ))2 (14.3)
i=1 i=1

As, los estimadores de mnimos cuadrados obtenidos por este planteamiento es la solucin que
se obtiene al resolver simultneamente las ecuaciones que resultan de la optimizacin, para el
caso de dos variables la solucin se tiene a partir de las expresiones indicadas a continuacin, que
son una extensin a las anotadas cuando solo hay una variable independiente. A continuacin
se muestran los resultados y la notacin matemtica de los estimadores.

14.2.3 Estimacin por mnimos cuadrados


Si el nmero de variables independientes aumentan, las ecuaciones simultneas que se obtienen al
optimizar la expresin ( 14.1 ) tambin aumentan, as la solucin para estimar los parmetros se va
complicando algebricamente. Una alternativa matemtica que facilita el proceso de estimacin
por mnimos cuadrados es la utilizacin de la representacin matricial, esto da lugar a realizar
operaciones con matrices, como el producto, inversin y la transposicin. A continuacin se
presenta este planteamiento.
14.2. Ajuste del modelo. 227

Planteamiento empleando la notacin matricial

Es de mayor utilidad operativa y de comprensin la representacin del modelo de regresin en


trminos de matrices, as las respuestas se expresan mediante un vector Y de dimensin nx1, n
es el nmero de observaciones que se realizan a un sujeto u objeto. Las variables independientes
se representan por la matriz X de dimensin nxk donde el nmero de columnas k describe al
trmino constante y las k variables ( las k caractersticas de inters para explicar un fenmeno).
El vector de parmetros se indica por de dimensin kx1. Por " el vector aleatorio nx1.
2 3 2 3 2 3 2 3
Y1 1 X11 X12 : : : X1k 0 "1
6 Y2 7 6 1 X21 X22 : : : X2k 7 6 1 7 6 "2 7
6 7 6 7 6 7 6 7
6 : 7 6 : : : : : : : 7 6 : 7 6 : 7
Y =6
6
7X = 6
7 6
7 = 6
7 6
7" = 6
7 6
7
7
6 : 7 6 : : : : : : : 7 6 : 7 6 : 7
4 : 5 4 : : : : : : : 5 4 : 5 4 : 5
Yn 1 Xn1 Xn2 : : : Xnk k "n

de esta manera el modelo se puede escribir en forma matricial como

y = 0 + 1 X1i + 2 X2i + ::: + k Xki + " = X + " (14.4)

14.2.4 Estimacin de los parmetros del modelo.


En la parte inicial describimos que el mtodo de mnimos cuadrados nos permite estimar los
parmetros del modelo. Por medio del procedimiento de mnimos cuadrados estimamos los
parmetros del modelo, el planteamiento estadstico es como sigue

0
minimizar "0 " = (y X ) (y X ) (14.5)

La solucin de esta minimizacin queda representada por la siguiente expresin :

b = (X 0 X) 1 0
XY (14.6)

b contiene los estimadores de los parmetros del vector , y con


Los elementos del vector
ello se puede construir el modelo de regresin estimado.

14.2.5 CalEst en el anlisis estadstico del modelo


Ejemplo 1

Un economista agrcola tiene inters en evaluar el rendimiento (Y ) de un grano en unas parcelas,


debido al promedio de precipitacin anual de lluvia X1 y a la temperatura promedio anual X2
para ello considera ocho aos. Estime el modelo de regresin, evale la importancia estadstica
228 14. Regresin Mltiple

de cada variable para explicar la respuesta. Se puede notar que el modelo que se propone es un
plano, as se busca el plano de regresin que mejor se ajuste a los datos descritos por el estudio.
Los datos observados se presentan en la siguiente Tabla 14.1

X1 : nivel X2 : temperatura y
a~
no de lluvia promedio prod:
1981 39 20 55
1982 37 26 65
1983 47 19 80
1984 37 27 75
1985 39 24 70
1986 38 21 50
1987 40 23 60
1988 41 22 65

Tabla 14.1. Reporte de la informacin

Solucin

La nalidad es presentar la solucin usando el mdulo de regresin mltiple en el software. La


descripcin del anlisis estadstico y la justicacin del procedimiento de estimacin se plantea
en el siguiente apartado.
En la Figura 14.1 se muestra la estimacin de los parmetros y la inferencia estadstica
de estos, para realizar esta ltima se estima el error estndar de los estimadores y se calcula
el estadstico de prueba t de Student y nalmente se indica el valor del nivel de signicancia
descriptivo p: El valor de p es la probabilidad de la distribucin t con los grados de libertad
correspondientes, a la izquierda si el estadstico es negativo o a la derecha si el estadstico es
positivo. Si p < se rechaza la hiptesis correspondiente al parmetro i ; i = 1; 2, en caso
contrario no se rechaza la hiptesis.

Estimacin de los parmetros del modelo

El valor de los parmetros estimados aparece en la columna 1 y son

b = (
b ; b1 ;
b2 ) = ( 177:439; 3:863; 3:908)
0

por lo tanto el modelo es:

y= 177:439 + 3:863X1 + 3:908X2


14.2. Ajuste del modelo. 229

Figura 14.1: Cuadro de la izquierda reporta la estimacin de los parmetros y el anlisis de la


varianza. A la derecha se presenta informacin descriptiva e intervalos de conanza.
230 14. Regresin Mltiple

14.2.6 Prueba de hiptesis: parmetros del modelo


Con esta informacin se puede hacer inferencia sobre los parmetros, de esa manera averiguar si
tanto el nivel de lluvia como la temperatura de manera individual tienen efecto estadsticamente
signicativo sobre el rendimiento por hectrea. Para ello se plantean las siguientes hiptesis:

H0 : 1 = 0 contra H1 : 1 6= 0 y

H0 : 2 = 0 contra H1 : 2 6= 0

Ver los resultados reportados en la Figura 14.1. Cada una de estas hiptesis se prueban con
el estadstico t de Student, el planteamiento y el clculo de estas es como sigue:

b
1 3:863 0
1
t1 = = = 5:331
 b )
b ( 0:725
1

y
b2
2 3:908 0
t2 = = = 4:687
 b )
b ( 0:834
2

Como ambos estadsticos son mayores que el valor t( =2; gl = 5) = 2:571 y con un = 0:05;
se tiene que ambas variables contribuyen de manera signicativa en el efecto de rendimiento de
produccin del grano. La Figura 14.2 indica el valor del estimador su error estndar y el intervalo
de conanza del 95%, en este caso, para los parmetros. Finalmente se indica el coeciente de
correlacin entre la respuesta y cada una de las variables de entrada. Se indica los coecientes
de determinacin y el error estndar.

Anlisis de residuales
Las grcas de la Figura 14.3 describe el anlisis de residuales.

14.2.7 Anlisis e Interpretacin del Modelo.


Se ha construido el modelo de regresin del ejemplo, una inferencia importante en el anlisis de
regresin es evaluar la signicancia del modelo, tal situacin se plantea mediante la hiptesis:

H0 : 1 = 2 = ::: = p = 0

H1 : i 6= 0 para alguna i ; i =1; :::; k


14.2. Ajuste del modelo. 231

Figura 14.2: Completa el anlisis de regresin mltiple, las correlaciones son entre ( y y X1 ) y
( y y X2 )

Figura 14.3: Anlisis grco de los residuales


232 14. Regresin Mltiple

Si se rechaza la hiptesis H0 , se concluye que el modelo es estadsticamente signicativo, as el


modelo es de utilidad para predecir valores de y dentro del rango de las variables independientes.
El procedimiento para probar sta hiptesis se resume en una tabla conocida como anlisis de
la varianza y se abrevia ANDEVA. sta consiste en dividir la suma de cuadrados total en dos
componentes una debida al modelo y la otra la que no explica el modelo. sta ltima corresponde
a la suma de cuadrados de la discrepancia que existe en el valor observado y el ajustado por el
modelo. En general a la discrepancia se le reconoce como residual. Finalmente se tiene que:
Suma de cuadrados total = Suma de cuadrados del modelo + Suma de cuadrados de residuales;
en smbolos:

n
X n 
X 2 n 
X 2
2
Yi Y = Ybi Y + Yi Yb (14.7)
i=1 i=1 i=1

Notacin: Los trminos de la ecuacin (14.7 ), se conocen como la suma de cuadrados, el


P
n 2
trmino del primer miembro se denomina el total y se denota por SCT, ste es: Yi Y ,
i=1

el primer trmino del segundo miembro se conoce como la suma de cuadrados debida al modelo
Pn  2
y se denota por SCM y es: Ybi Y , nalmente el otro trmino del segundo miembro se
i=1

denomina como la suma de cuadrados no explicada por el modelo o suma de cuadrados del error,
n 
P 2
sta se denota por SCE, es decir Yi Yb . Con esta informacin y los grados de libertad
i=1

se construye la Tabla 14.2:

Fuente de Suma de gl Cuadrados Razn Prob.


variacin cuadrados medios
Pn  2 Pn  2
Modelo Ybi Y k 1 Ybi Y =(n k) F = CMmodelo
CMerror
p
i=1 i=1
Pn  2 Pn  2
Error Yi Yb n k Yi Yb =(n k)
i=1 i=1
P
n 2
Total Yi Y n 1
i=1

Tabla 14.2. Descripcin general de la tabla del ANDEVA

Los cuadrados medios que aparecen en la cuarta columna de la Tabla 14.2 se obtienen divi-
diendo la suma de cuadrados por los grados de libertad. Luego se divide el cuadrado medio del
14.2. Ajuste del modelo. 233

modelo entre el cuadrado medio del error, el valor resultante viene de una distribucin de pro-
babilidad F con  1 y  2 grados de libertad. ste permite probar la hiptesis nula sobre igualdad
de parmetros, es decir:

CMmodelo
Fc =
CMerror

Si Fc es mayor que un valor de la distribucin F para un = 0:05 con los grados de libertad
apropiados, entonces se dice que los datos no apoyan la hiptesis nula H0 y se rechaza. Tambin
se compara el valor de con el valor de la probabilidad p; es decir si > p se rechaza H0 .

Anlisis de la Varianza con respecto a la representacin matricial

En forma esquemtica, el procedimiento para contrastar la hiptesis global se muestra en la


Tabla 14.3. En la columna 5 se presenta el valor calculado del estadstico.

Fuente de Grados de Suma de Cuadrados Fc valor p


variacin libertad cuadrados medios

Regresin g 1 b
SCreg = (y0 X y 2 =n) SCreg CMreg
g 1 CMerror

Error n g SCerror = y0 y b
y 0 X SCerror
n g

Total n 1 SCtotal = (y0 y y 2 =n)

Tabla 14.3 Descripcin del anlisis de la varianza

ANDEVA para el ejemplo 1

La hiptesis que se probar para este ejemplo es :

H0 : 1 = 2 = 0 contra la alternativa H1 : i 6= 0; para alguna i = 1; 2.

En el segundo cuadro de la izquierda en la Figura 14.1 muestra el anlisis de la varianza, de ah


se puede concluir que se rechaza la hiptesis nula ya que el valor de p es menor que = 0:05:

Estimacin de la varianza

La varianza  2 se estima por


P 2
SCE Yi Yb
b2 =
 =
n k n k
234 14. Regresin Mltiple

b2 es
La varianza  2 se estima as 

P
2 SCE (Y Yb )2 99:268

b = = = = 19:854
n k n k 7 2
p 2 p
y el error estndar es 
b=  b = 19:854 = 4:4578

Coeciente de determinacin
Otros resultados estadsticos para evaluar el modelo de regresin se siguen a partir del coeciente
de determinacin, el cual se obtiene por:

SCM SCE 99:268


R2 = =1 =1 = 0:858;
SCT SCT 700:0
P b 2
donde la SCT = Yi Y = 700:0; entonces este coeciente indica que aproximadamente el
86% de los datos son explicados por el modelo. Por otro lado el de determinacin ajustado por
los grados de libertad es:

2 (n 1)SCE (7 1)99:268
Rajs =1 =1 = 0:802
(n k)SCT (7 2)700:0

Considerando esta informacin proporcionada por los datos, se tiene que el modelo explica el
80%. Se puede notar que estos coecientes son aproximadamente iguales, si el nmero de datos
observados aumenta de manera considerable.

Coeciente de determinacin R2 : notacin matricial


El reporte sobre la bondad del modelo se completa mediante el clculo del coeciente de deter-
minacin, el cual indica qu porcentaje de los datos son explicados por el modelo, ste se estima
por la siguiente expresin:

SCreg SCerror y0 y y 0 X b
R2 = =1 =1
SCtotal SCtotal y0 y y 2 =n

con la informacin presentada en la tabla del ANDEVA, se obtiene el valor estimado de R2 .

Evaluacin del modelo.


La construccin del modelo y la estimacin de los parmetros se basan en el supuesto de que la
variable aleatoria " tiene una distribucin de probabilidad normal, entonces es importante veri-
car este supuesto, tambin se debe observar si se cumple la homogeneidad de la varianza. Estos
14.2. Ajuste del modelo. 235

aspectos relevantes se analizan descriptivamente mediante tcnicas grcas como se muestran a


continuacin.

Intervalos de conanza para el modelo y la prediccin

En el anlisis del modelo de regresin es importante estimar mediante intervalos de conanza


a los parmetros del modelo y a la respuesta media en un valor especco de x, y mediante un
intervalo de prediccin para la respuesta individual para un valor especco de la variable x.
Intervalo de conanza para 1

b1  t(n b1 )  t(n p
g; =2)ES( g; =2)S m11

donde m11 es el segundo elemento de la diagonal en la matriz (X0 X) 1 :


Intervalo de conanza para la media de la variable de respuesta  en x0
q
Yb   t(n g; =2)S (1; x0 ) (X0 X) 1 (1; x0 )0

=
b el vector de parmetros
donde Yb  = x0 ; b0 ;
b = ( b1 ) y el vector (1; x0 ); donde x0 representa
a los niveles de los factores donde se requiere estimar la media de Y .
Intervalo de conanza para un valor de la variable de respuesta (predicho)
p
Yb   t(n g; =2)S 1 + (1; x0 )(X0 X) 1 (1; x0 )0

Del ejemplo tratado se puede estimar el intervalo de conanza correspondiente al modelo y al


de la prediccin para un valor da las variables de entrada, por ejemplo si X1 = 48 y X2 = 20; se
tienen los resultados que muestra la Figura 14.4. Estos intervalos se obtiene usando el software.

Ejercicio 1

Existe inters en conocer si hay alguna relacin en el rendimiento de los estudiantes en el examen
de seleccin para ingresar a la preparatoria, con el promedio en la materia de matemticas X1 y
la de espaol X2 que obtuvieron en los tres aos de secundaria, el rendimiento se evalu por el
nmero de respuestas correctas en el examen. Los resultados de nueve estudiantes seleccionados
al azar son los mostrados en la siguientes tabla, aciertos en el examen de seleccin X1 y el
promedio en secundaria X2 .

Y = aciertos 89 78 66 62 52 49 47 44 38
X1 = mat:promedio 78 89 70 74 72 68 70 65 62
X2 = esp:promedio 89 81 80 72 70 67 68 69 68
236 14. Regresin Mltiple

Figura 14.4: Intervalos de conanza para el modelo y la prediccin

Ejercicio 2

En un proceso se quiere conocer la relacin que existe entre el tiempo de mezclado y la velocidad
del equipo con la densidad. Un ingeniero realiza varias pruebas sus resultados se muestran en la
siguiente tabla
prueba tm vel den prueba tm vel den
1 5 100 3.1 11 8 200 3.2
2 5 100 3.3 12 8 200 3.5
3 5 200 2.6 13 9 100 2.8
4 5 200 2.4 14 9 100 2.6
5 7 100 2.5 15 9 200 3.1
6 7 100 2.6 16 9 200 3.0
7 7 200 3.0 17 10 100 3.2
8 7 200 3.3 18 10 100 3.4
9 8 100 2.4 19 10 200 2.5
10 8 100 2.3 20 10 200 2.4

Proponga un modelo de regresin mltiple y realice un anlisis estadstico completo para


evaluar el modelo.

Ejecicio 3

Un investigador estudia el efecto de la razn de carga (X1 ) y temperatura (X2 ) en la vida de un


nuevo tipo de celda de poder. Un experimento se realiza donde tres niveles de X1 (6, 1.0 y 1.4
ampers) y de X2 (10, 20, 30 o C). Los factores que se reeren a la descarga de la celda Y, se midi
en trminos del nmero de ciclos de carga-descarga en que la celda se mantiene antes de fallar.
Los datos se muestran en la siguiente tabla:
14.2. Ajuste del modelo. 237

razn de tem nmero


carga de ciclos
X1 X2 x1 x2 Y
0.6 10 -1 -1 150
1.0 10 0 -1 86
1.4 10 1 -1 49
0.6 20 -1 0 288
1.0 20 0 0 157
1.0 20 0 0 131
1.0 20 0 0 184
1.4 20 1 0 109
0.6 30 -1 1 279
1.0 30 0 1 235
1.4 30 1 1 224
X1 = 1 X 2 = 20

Se propone el modelo: Y = 0 + 1 x1 + 2 x2 + 11 x21 + 22 x22 + 12 x1 x2 : Obtenga:

1. La tabla de coecientes.

2. La tabla del ANDEVA, la tabla de suma de cuadrados condicionales.

3. Obtenga el valor de la varianza y de los coecientes de determinacin.

Ejercicio 4

Se somete un material a cierta temperatura, se desea conocer las impurezas generadas en un


proceso qumico. A continuacin se muestran los datos.

X Temeperatura (oC) y Impurezas (%)


90 18.4, 17.6, 18
100 11.7, 10.3
110 7.7, 8.3
120 6.5, 6.7
130 6.6, 7.2, 6.7

Preguntas:

1. Escriba el modelo lineal.

2. Haga la prueba de hiptesis sobre los parmetros del modelo.

3. Plantee y pruebe la hiptesis sobre el modelo, qu puede concluir?


238 14. Regresin Mltiple

4. Interprete el coeciente de determinacin.

5. Interprete el valor de la estimacin del parmetro de la temperatura.

6. Estime el error estndar del parmetro de la variable temperatura.

7. Observe la grca de residuales, qu puede concluir?

8. Agregando al modelo el trmino cuadrtico: Use el mdulo de regresin avanzada, modelo


polinomial de orden 2. qu puede concluir?

Parmetro Coeciente error std estadstico t p


coeciente 176.834 11.850 14.923 0.000
X -2.802 0.219 -12.811 0.000
X2 0.012 0.0009 11.588 0.000
Captulo 15

Pruebas de bondad de ajuste

15.1 Anlisis de datos categricos


Los datos categricos surgen cuando se observa una caracterstica de una muestra de individuos
y sta se registra en diferentes categoras cualitativas. As, se toma una muestra de personas que
asisten al cine y se les pregunta su preferencia por el gnero de las pelculas. El tipo de pelcula
se clasica por: Terror, Comedia, Ficcin y Drama. Los datos relevantes en este estudio son el
nmero de asistentes que escogen cada categora. La frecuencia de este tipo de datos se llaman:
datos categricos. En este caso existe inters en estudiar la proporcin que existe en cada una
de las categoras seleccionadas por los cinlos. La tcnica que permite estudiar estas cuestiones
se conoce como pruebas Ji (Chi) Cuadrada de Bondad de ajuste.

Ejemplo 1.

Un vendedor en una tienda, considera que las ventas de un determinado juguete se debe al color,
hay tres tipos de colores A: azul, R: rojo, V: verde. La relacin planteada por el vendedor entre
A, R y V se da en razn 1:2:1 .
Para vericar sta situacin se observa una muestra aleatoria de 150 juguetes de las ventas
realizadas el ltimo trimestre. Los datos reportados se describen en la Tabla 15.1a:

Color juguete A:azul R:rojo V:verde N


Frecuencia Observada 27 82 41 150
Proporcin 0.25 0.50 0.25

Tabla 15.1a Datos del ejemplo 1

Solucin: Prueba de hiptesis 1. Las hiptesis que se plantea para este estudio:

H0 : p1 = 0:25: p2 = 0:50: p3 = 0:25

239
240 15. Pruebas de bondad de ajuste

H1 : El esquema de colores no satisface esta proporcin.

Nota. La prueba se verica bajo el supuesto de que la hiptesis nula es verdadera. El valor
que se espera ante este supuesto, es multiplicar el tamao de la muestra , N por la proporcin
pi , es decir: N pi y se denota por Ei : Entonces la frecuencia esperada se escribe por:

Ei = N pi

La idea de la prueba es comparar las frecuencias esperadas Ei con los observados Oi . mediante
el estadstico de prueba:

n
X (0i Ei )2
2 = (15.1)
i=1
Ei

Tal como se muestra en la Tabla 15.1b

(0i Ei )2
Oi pi Ei Ei

Categora Observado Proporcin Esperado Contribucin a la Ji


1 18 0.25 25 1.96
2 55 0.50 50 0.50
3 27 0.25 25 0.16
100 1 2.62

Tabla 15.1b Clculo del estadstico

2. Se especica un valor de ; suponga = 0:05: Se identican los grados de libertad, en


este caso gl = n 1 = 2; donde n es el nmero de celdas. Se obtiene el valor de referencia 2c
usando las caractersticas de la distribucin 2 : Ver Tabla 15.1c. Es decir 2c = 5:991
3. Se calcula el valor del estadstico que se genera para esta muestra, ver la ltima columna
de la Tabla 15.1b, as 2m = 2:62
4. Puesto que 2m = 2:62 < 2c = 5:991 no se rechaza H0
5. Se concluye que el vendedor conrma su armacin sobre la proporcin de venta de juguetes
con respecto al color.
15.1. Anlisis de datos categricos 241

Gua: Para realizar la prueba


En palabras En smbolos
1. Establecer las hiptesis Nula y Alternativa Indicar H0 y H1
2.a. Especicar el nivel de signicancia
2.b. Identicar los grados de libertad gl = (r 1)(c 1)
2.c. Usar la distribucin 2 CalEst 2 ( ; gl) = 2c
para determinar la regin de rechazo
P (0 E)2
3. Calcular el estadstico de prueba 2m = E

4. Decidir si se rechaza o no se rechaza H0 Si 2m > 2c se rechaza H0 No, en caso contrario
5. Interpretar la decisin en el contexto de H.

Tabla 15.1c

Prueba de hiptesis: Para ver este valor ir a CalEst tabla.


Resumen: A continuacin se describe el procedimiento operativo, para construir el estadstico
de prueba 2 ; clculo que realiza el CalEst.

 n = nmero de celdas. (El nmero celdas en el ejemplo es 3, este debe ser variable)

P
n
 Sumar el nmero de observaciones N = 0i
i=1

 Obtener el valor esperado Ei = N  pi donde p es la proporcin i-esima.

(0i Ei )2
 Calcular los i sumandos 2i = Ei
(Contribucin a la Ji).

P
n
(0i Ei )2
 Sumar los 2i ; 2 = Ei
i=1

 Grados de libertad (gl) = nmero de celdas - 1.

Observaciones

1. La frmula para calcular 2 es vlida si todos los valores E son mayores o iguales a 5. Si
el valor de E es mayor que 5, el valor de 2 es sensible, al combinar las otras categoras de
E mayores a 5:

2. Si alguna de las categoras son combinadas para evitar valores bajos de E; el nmero de
categoras despus de la combinacin se usan en el clculo de los grados de libertad.
242 15. Pruebas de bondad de ajuste

15.1.1 Pruebas de independencia y homogeneidad en tabla de con-


tingencia

En este apartado, se discutir el anlisis de dos variables. Estas variables tendrn la caracterstica
de ser categricas, porque nos permiten clasicar los valores de las variables por categoras. Las
variables se reportan en tablas, llamadas de contingencia, las columnas consisten de los valores
en categoras de una variable, en los renglones se tienen los valores de la otra variable.
Suponga que se tienen varias poblaciones y de cada una de ella se extrae una muestra de
tamao jo y cada respuesta se clasica en categoras. Estos datos se resumen como conteos en
una tabla de doble entrada, Tabla 15.2. Las columnas se reeren a las categoras y los renglones
a las diferentes poblaciones. El objetivo es probar cuando las poblaciones son semejantes u ho-
mogneas con respecto a las probabilidades de las categoras. Es decir, se requiere determinar
cuando la proporcin para cada categora es aproximadamente la misma para todas las propor-
ciones. La prueba se conoce como prueba de homogeneidad y se aplica a tablas de contingencia
que tienen un marginal jado, el total del rengln corresponde al tamao de muestras jado para
cada poblacin.

Grupos de Edad
Tamao de la compaa 1 2 3 4 5
Pequea pa1 pa2 pa3 pa4 pa5 1
Grande pb1 pb2 pb3 pb4 pb5 1
Tabla 15.2 Caracterizacin de una poblacin

La hiptesis nula de no diferencia u homogeneidad, especica que las probabilidades para una
categora es la misma para todos los renglones o poblaciones.

H0 : pa1 = pb1 ; pa2 = pb2 ; pa3 = pb3 ; pa4 = pb4 ; pa5 = pb5 :

Bajo la hiptesis nula, se denotan estas probabilidades por p1 ; p2 ; p3 respectivamente.

El estadstico para vericar esta hiptesis se compara con el valor de una distribucin 2 con
gl un nmero de grados de libertad y un nivel de signicancia : El procedimiento para construir
el estadstico de prueba se describe en el siguiente algoritmo.
15.1. Anlisis de datos categricos 243

Resumen de la Prueba de Homogeneidad en una Tabla de Contingencia.

Prueba 2
Hiptesis Nula:
En cada categora, las probabilidades son iguales para todas las poblaciones.
Estadstico de Prueba

2
P (O E)2 O = frecuencia observada
 = ;  total columnas
Celdas
E E = total renglonestotal
gl = (No. de renglones-1)(No. de columnas -1)
Regin de rechazo 2  2

Ejemplo 2

Se llev a cabo un estudio para determinar la caracterstica de la edad en dos tipos de compaas
(pequeas y grandes). Se toma una muestra de 550 empleados, 300 de la pequea y 250 de la
grande. La frecuencia esperada se muestra en la siguiente Tabla 15.3.

Grupos de Edad
Tamao de la compaia 1 2 3 4 5 N
Pequea 42 69 108 60 21 300
Grande 5 18 85 120 22 250
Total 47 87 193 180 43 500

Tabla 15.3 Descripcin de los datos del ejemplo.


Columnas grupos de Edad en aos, las categoras son: 1:mayores de 39, 2: 40-49, 3: 50-59, 4:
60-69, 5: ms de 70.

Resultado del ejemplo:

Referencia Observado Esperado Contribucin 2


1 42 25.636 10.445
2 69 47.455 9.782
3 108 105.273 0.071
4 60 98.182 14.848
5 21 23.455 0.257
6 5 21.364 12.534
7 18 39.545 11.739
8 85 87.727 0.085
9 120 81.818 17.818
10 22 19.545 0.308
Total 550 77.887
244 15. Pruebas de bondad de ajuste

V de Cramer : 0.37631379. Para ver el valor de p ir a CalEst tabla de la Chi cuadrada.

Solucin de Ejemplo: Hiptesis:


H0 : Las dos poblaciones (pequea y grande) son homogneas con respecto a la proporcin
de los grupos de edad. H0 : p1 = p2
H1 : Las dos poblaciones no son homogneas con respecto a la proporcin de los grupos de
edad.
2. El nivel de signicacin: = 0:05; ver en el CalEst la distribucin 2 (0:05; 4) = 2c = 9:487
3. Estadstico de prueba:
P (O E)2
2m = E
= 77:886
Cell

4. Decisin: Se rechaza H0 ya que 2m > 2c


5. Conclusin: No existe homogeneidad en las poblaciones con respecto a las proporciones
del grupo de edad. Solucin usando CalEst.

Procedimiento de clculo del estadstico 2 :

 Tener en cuenta las frecuencias observadas

 Considerar las categoras para renglones y columnas (puede ser 1,2,3,... o las que el usuario
escoja)

 Determinar el valor n = nmero de celdas. (El nmero de celdas por rengln y por columna)

P
r P
c
 Sumar el nmero de observaciones total N = Oij , determinar el total rengln i-simo
i=1 j=1

P
c P
c
tri = Oij , y total columna j-simo tcj = Oij
j=1 i=1

tri tcj
 Obtener el valor esperado Eij = N
.

(0i Ei )2
 Calcular los i sumandos 2i = Ei
(Contribucin a la Ji)

P
n P
n
(0i Ei )2
 Sumar los 2i , 2 = 2i = Ei
i=1 i=1

 Grados de libertad (gl) = (n


umero de renglones 1)(n
umero de columnas 1)
q
X2
 Obtener Valor de Cramer V = N (k 1)
donde k = min(I; J), I renglones J
15.2. Pruebas de Bondad de Ajuste sobre distribuciones de probabilidad 245

15.2 Pruebas de Bondad de Ajuste sobre distribuciones


de probabilidad
Estas pruebas permiten decidir cuando una muestra de datos proviene de una distribucin par-
ticular de probabilidad. Aqu solo se plantean tres distribuciones de probabilidad: Binomial,
Poisson y Normal, discretas las dos primeras y continua la segunda.
Para la binomial y Poisson se aplicar una prueba 2 , para ver que tan aproximadas son las
frecuencias observadas de la muestra obtenida con las frecuencias que se esperan bajo la hiptesis
nula, tal que sta supone alguna de las distribuciones.
Para la distribucin, se usar la prueba de Kondgorov-Smirnov.

15.2.1 Prueba de bondad de ajuste para una Distribucin Binomial


Supngase que se realizan n ensayos Bernoulli, y en cada ensayo hay dos resultados posibles,
denominados como xito y falla. Los ensayos son independientes y la probabilidad p de xito,
es constante. Considere que se repite ese conjunto de n ensayos varias veces y se observa la
frecuencia del nmero de xitos. En este caso se puede plantear una prueba de hiptesis, para
vericar si es razonable concluir si el nmero de xitos en los n ensayos tienen una distribucin
binomial, en este caso se utiliza el estadstico de prueba 2 :
Nota: Para calcular la frecuencia esperada E, el valor p se estima de las frecuencias observadas
o se especica de manera hipottica.

Ejemplo 3

Se realiza un experimento en una prueba de concurso, donde el participante, "se supone ",
adivina la respuesta. Se plantean cinco preguntas con cuatro opciones. Esta prueba se aplic a
una muestra de 60 individuos. El registro de los datos se reportan en la Tabla 15.4.
Hay evidencia de que los individuos respondieron simplemente adivinando?

Solucin
Si los individuos adivinan cada respuesta, entonces la probabilidad de una respuesta correcta es
0.25. As que la pregunta planteada, es equivalente a vericar si los datos de la muestra descritos
en la Tabla 15.4, siguen una distribucin binomial con n = 5 y p = 0:25: La frecuencia esperada,
E; para los diferentes casos, se obtiene bajo el supuesto de que la distribucin es una binomial
B(5; 0:25): Para ello se calcula la probabilidad en cada uno de los casos, sta se multiplica por
el tamao de la muestra. Con los valores de las frecuencias observadas y esperadas, se calcula el
estadstico 2 :
246 15. Pruebas de bondad de ajuste

Observaciones

1. La frmula para calcular 2 es vlida si todos los valores E son mayores o iguales a 5. Si
el valor de E es mayor que 5, el valor de 2 es sensible, al combinar las otras categoras de
E mayores a 5:

2. Si alguna de las categoras son combinadas para evitar valores bajos de E; el nmero de
categoras, despus de la combinacin, se usan en el clculo de los grados de libertad.

Casos Respuestas correctas P (x) E = P (x)  60 0 2m


1 0 0.2373 14:238 18 0:994
2 1 0.3955 23:730 22 0:126
3 2 0.2637 15:822 10 2:142
4 3 0.0879 5:274 6:21 6 10
5 4 0.0146 0:876 6:21 3 10
6 5 0.0010 0:060 6:21 1 10 2:313
Total 1.0000 60 60 5:575

Tabla 15.4 Resultados para el clculo de la prueba 2

* Estos valores se obtienen del CalEst en el grupo de distribuciones en la opcin Binomial,


en propiedades se escribe p = 0:25; n = 5 y se mueve el umbral.

Procedimiento de la prueba de hiptesis.

1. Plantear las hiptesis:

H0 : La muestra de los datos viene de una distribucin binomial B(5; 0:25); suponiendo que
los individuos responden adivinando.
H1 : La muestra de los datos no tiene una distribucin binomial B(5; 0:25); los individuos
muestran algunos conocimientos sobre las preguntas.

2. El nivel de signicancia = 0:05, los grados de libertad gl = nmero de categoras 1=3


(En este caso se redujeron) 2c 2
=  (0:05; 3) = 7:82

3. En la ltima columna de la Tabla 15.4 se muestra el clculo de 2 ; es decir 2m = 5:576:

4. Puesto que 2m = 5:576 < 2c = 7:82; no se rechaza H0 :

5. Es razonable concluir que los individuos contestaron adivinando la respuesta.


15.2. Pruebas de Bondad de Ajuste sobre distribuciones de probabilidad 247

15.2.2 Prueba de bondad de ajuste para una Distribucin Poisson.

En muchas ocasiones existe el inters por determinar sin un modelo probabilsticos es adecuado
para expresar un fenmeno aleatorio. En esa direccin, lo que se requiere es probar si la muestra
aleatoria seleccionada proviene de una distribucin de probabilidad especca. En este apartado
se ilustrar si la muestra de los datos sigue una distribucin Poisson. Recuerde que una variable
aleatoria Y de esta distribucin, consiste en contar el nmero y de veces que ocurre un evento
en particular, durante una unidad de tiempo dado, un rea o volumen.

Ejemplo 4

Una empresa revisa una muestra aleatoria que contiene 100 artculos de la produccin generada
en un da y cuenta el nmero de defectos en cada artculo. Los datos se resumen en la Tabla 15.5

Nmero de defectos 0 1 2 3 4
Nmero de artculos 61 29 6 3 1

Tabla 15.5 Nmero de defectos en 100 artculos.

Se puede concluir que esta muestra de datos viene de una distribucin Poisson?
Para responder a esta pregunta se debe realizar la prueba de hiptesis:

H0 : La muestra de datos proviene de una distribucin Poisson.


(15.2)
H1 : La muestra de datos no vienen de una distribucin Poisson.

El estadstico de prueba en este caso es 2 indicada en la expresin (15.1).


El procedimiento operativo para vericar esta hiptesis consiste en calcular el estadstico 2 .
Con el n de obtener los valores esperados, primero se estima el parmetro de la distribucin.

Nmero total de artculos defectuosos 61  0 + 29  1 + 6  2 + 3  3 + 1  4


= = = 0:54
Nmero total de artculos 100

x e 
Recuerde que la funcin de probabilidad de Poisson se expresa por P (X) = x!
para
x = 0; 1; 2; ::: En la Tabla 15.6 en la columna 2 se muestra el clculo de probabilidades.
248 15. Pruebas de bondad de ajuste

(0i Ei )2
Defectos P (x) E = P (x)  100 0i Ei
0 0.583 58:3 61 0:125
1 0.315 31:5 29 0:194
2 0.085 8:5 10:2 6 10 0:004
3 0.015 1:5 10:2 3 10
4 o mas 0.002 0:2 10:2 1 10

Tabla 15.6 Clculo de la 2 para la distribucin Poisson.

En resumen

 La hiptesis se plantea en (15.2)

 Con un nivel de signicancia = 0:05 el valor de 2 con gl = nmero de categoras


1 1=3 1 1
P (10 E1 05)2
 En este caso se usa la correccin de Yates E

 Puesto que 2m = 0:323 < 2c no se rechaza H0

Conclusin: La muestra de datos que caracteriza el nmero de defectos de la produccin de


artculos por da sigue una distribucin Poisson.

Ejercicio 1

El nmero de defectos menores detectado por un inspector en 90 carros de la produccin de una


lnea de ensamble es como sigue:

Nmero de defectos 0 1 2 3 4 5 6
Nmero de carros 35 13 6 5 18 10 3

1. Encuentre la media y varianza. Estos valores son aproximadamente iguales? Esto justi-
ca que los datos tengan una distribucin Poisson?

2. Use la prueba 2 para conocer si el nmero de defectos sigue una distribucin Poisson.

Ejercicio 2

El nmero de accidentes semanales en una ciudad durante un periodo de 30 semanas se resume


en la tabla:
15.3. Prueba de bondad de ajuste cuando la variable aleatoria es continua 249

Nmero de accidentes 0 1 2 3 4 5 6 7 8 9 10 11 12
Semanas 6 5 4 4 4 2 0 1 2 1 0 0 1

Cul es el nmero de accidentes?


Organizando estos datos por sectores de la siguiente manera, en el sector 1 si hay 0 accidentes
X6 = 6, en el sector 2 si hay 1 accidente X1 = 5; en el sector 3, si hay 2 o 3 accidentes X2 = 8;
en el sector 4, si hay 4 o 5 accidentes X3 = 6; y en el sector 5, si hay mas de 5 accidentes X4 = 5;
en resumen:

Nmero de accidentes 0 1 2 3 4
Semanas 6 5 8 6 5

Verique que el nmero de accidentes semanales tiene una distribucin de Poisson.

15.3 Prueba de bondad de ajuste cuando la variable aleato-


ria es continua
Si X1 ; :::; Xn es una muestra de datos en una distribucin continua F especca, se tiene inters
en probar la hiptesis nula H0 :

H0 : Se arma que F es la distribucin poblacional.

Usando la prueba 2 cuadrada.

Se prueba esta hiptesis H0 considerando un conjunto de valores que pueden tomar las Xj ; estas
se organizan en k intervalos distintos, es decir:

(x0 ; x1 ); (x1 ; x2 ); :::; (xn 1 ; xn ) donde x0 = 1; xn = +1

A continuacin la variable aleatoria Xj se plantea como una variable numrica discreta mediante
Yj ; j = 1; :::; n donde Yj se dene como sigue:

Yj = i si Xj se encuentra en el intervalo (Xi 1 ; Xi )

Para esta hiptesis se tiene que:

P (Yj = i) = F (Xi ) F (Xi 1 ); i = 1; :::; k

Esta se puede realizar mediante la prueba de 2 cuadrada.


250 15. Pruebas de bondad de ajuste

Figura 15.1: Histograma con 7 clases, se anota la frecuencia en cada una de ellas. Se ajusta una
distribucin normal.

Ejemplo 4

El tiempo en que una muestra de 120 estudiantes seleccionados al azar, tarda en responder el
rompecabezas sobre la Repblica Mexicana se describen en el histograma de Figura 15.1-mdulo
Grcas-. La hiptesis que se quiere probar, es que los tiempos de respuesta X siguen una
distribucin de probabilidad normal con media  = 500 y desviacin estndar  = 12. Es decir:

H0 : La variable X tiene una distribucin normal (15.3)


H1 : La variable X no tiene una distribucin normal

En la Figura 15.2, se muestran estrategias alternativas para evaluar si unos datos siguen una
distribucin normal. En la grca de la derecha se han aproximado la distribucin emprica de
los datos, el polgono de frecuencias relativas acumulado, y el diagrama que representa la funcin
de distribucin acumulada de una normal. Como se observa se ven muy aproximados. En la
grca de la derecha se ha descrito el papel de probabilidad de una normal. En ambos casos se
observa de manera descriptiva que los datos se aproximan a una distribucin normal.
En la Tabla 15.7 se presenta el resumen del clculo del estadstico de prueba 2 :
15.3. Prueba de bondad de ajuste cuando la variable aleatoria es continua 251

Figura 15.2: Anlisis grco para evaluar si los datos se aproximan a una distribucin normal.

(0i Ei )2
Tiempo de respuesta P (Y = i) Ei = P (Y = i)  120 0i Ei
1 [ 1; 471] 0:008 0:96 0 0:96
2 [471; 479] 0:032 3:84 5 0:350
3 [479; 487] 0:099 11:88 15 0:819
4 [487; 495] 0:199 23:88 24 0:001
5 [495; 503] 0:260 31:2 31 0:001
6 [503; 511] 0:222 26:64 22 0:808
7 [511; 519] 0:123 14:76 17 0:340
8 [519; 527] 0:044 5:28 6 0:136
9 [527; +1] 0:012 1:44 0 1:440
4:756

Tabla 15.7. Clculo de 2 para una distribucin normal.

El clculo de las probabilidades las puede realizar usando la distribucin normal o la calcu-
ladora normal en CalEst. Por ejemplo:

P (Y = 3) = P (479 < X  487) = 0:099 y P (Y = 9) = P (X  527) = 0:012

La suma de los valores en la ltima columna de la Tabla 15.7, genera el valor estadstico 2 ,
es decir 2m = 4:756: El rea que deja a la derecha esta valor en la Calculadora Chi-Cuadrada es
igual a p = 0:783, con gl = 8: Si se compara p con el nivel de signicancia = 0:05 (5%) resulta
252 15. Pruebas de bondad de ajuste

Figura 15.3: Resultado de la prueba de bondad de ajuste para una normal, usando la prueba 2 :

que p es mayor y por lo tanto no se rechaza H0 . Se concluye que los valores de la variable, X;
tiempo de solucin del rompecabezas, sigue una distribucin normal. La reproduccin de este
anlisis usando la prueba de 2 cuadrada en el programa se describe en la Figura 15.3:

15.4 La prueba Kolmogorov-Smirnov


La prueba de Kolmogorov-Smirnov (KS) es apropiada para decidir cuando una muestra viene de
una distribucin de probabilidad normal con parmetros conocidos  y  2 . Esta prueba es mas
eciente que el procedimiento elaborado para usar la prueba 2 :
En esencia la prueba KS compara la funcin distribucin acumulada, F (x) de una poblacin
con una funcin distribucin acumulada emprica S(x); con base en los valores de la muestra.
Para una muestra X1 ; :::; Xn de n observaciones.

Nmero de valores de la muestra menores o iguales a x


S(x) =
n
La comparacin se hace para todos los valores de x desde 1 hasta +1. La cantidad D
que obtiene el mximo absoluto de la diferencia, comparacin, entre F (x) y S(x) se le llama
estadstico de prueba Kolmogorov-Smirnov, es decir:
15.4. La prueba Kolmogorov-Smirnov 253

   
i i 1
D = Mximo jF (x) S(x)j = Mximo Mximo F (Xi ; (F (Xi ) ;
x 1in n n
(in)

D = Mximo (D+ ; D ); (15.4)



i = 1; :::; n; y D+ =Mximo ( n1 F (Xi )); D =Mximo F (Xi ) i 1
n
:
El valor D se compara con los valores crticos del estadstico D ; donde es el nivel de
signicancia.
Nota. En el procedimiento operativo se ordenan los datos Xi ; es decir X(1)  X(2)  :::  X(n)
y F (Xi ) se estima bajo el supuesto de la hiptesis nula.
Se toma una muestra de 13 valores que miden un parmetro de calidad del agua en ppm :

48; 54; 47; 53; 49; 63; 57; 60; 51; 52; 58; 61; 56
Considere un nivel de signicancia de 5%, Se puede concluir que estos datos vienen de una
distribucin normal con media ( = 55  = 5)? Los valores estimados de estos parmetros
son 
b = 54:54 y 
b = 5:13:

Tabla 15.8. Descripcin de los resultados de la prueba de Kolmogorov-Smirnov.

Los valores mximos para D+ y D son 0:091 y 0:087 respectivamente, as el mximo


(D ; D ) = (0:091; 0:087) = 0:091, ver Tabla 15.8. El valor p > 0:15, en referencia al nivel
+

de signicancia se tiene que p > ; de esa manera la muestra no da evidencias para rechazar
H0 : Por lo tanto una distribucin normal con media 54:54 y desviacin estndar 5:13 se puede
utilizar como modelo para medir el parmetro de calidad del agua.
254 15. Pruebas de bondad de ajuste

Ejercicio 3

En relacin a estudios mdicos con el objeto de conocer qu tan desarrollado tienen el cerebro,
los mdicos experimentan mostrando diferentes tipos de diseos y miden el tiempo de respuesta.
En particular en el caso del diseo, o la cara de un hombre entre semillas de caf. Se toma el
tiempo en segundos a una muestra aleatoria de 30 personas.

11 13 14 22 29 30 41 41 51 55 56 59 65 65 66
74 74 75 77 81 82 82 82 82 83 85 85 87 87 88

Es razonable suponer que los tiempos de respuesta se distribuyen como una normal?

Ejercicio 4

Se realiza un experimento donde se tiene un grupo control y un tratamiento, las respuestas son
indicadas en:

Control 0.22, -0.87, -2.39, -1.79, 0.37, -1.54, 1.28, -0.31, -0.74, 0.38
-0.17, 0.62, -1.10, 0.30, 0.15, 2.30, 0.19, 0.50, -0.09.

Tratamiento -5.15, -2.19, -2.43, -3.83, 0.50, -3.25, 4.32, 1.63, 5.18, -0.43
7.11, 4.87, -3.10, -5.81, 3.76, 6.31, 2.58, 0.07, 5.76, 3.5

El responsable de este estudio quiere vericar si existe diferencia entre el control y el tratamiento.
Verique si esto es as realizando:

 Una prueba de hiptesis para diferencia de medios, usando una t student:

 Realice esta comparacin, empleando el estadstico KS.

En ambos casos use el programa. Segn los resultados qu puede concluir.

Ejercicio 5

El profesor Sprent tiene en un librero de su biblioteca 114 libros de estadstica, de esos tom una
muestra aleatoria de 12 libros y anot el nmero de pginas que tienen cada uno, estas son:

126 142 156 228 245 246 370 419 433 454 478 503

En otro librero dice que tiene sus libros favoritos de ccin y no ccin, (libros en general)
son un total de 143. Anot el nmero de pginas de una muestra de 16 libros, ellos tienen:

29 39 60 78 82 112 125 170 192 224 263 275 276 286 369 756
15.4. La prueba Kolmogorov-Smirnov 255

Use la prueba de Kolmogorov-Smirnov para determinar si es adecuado suponer que las dos
muestras vienen de distribuciones poblacionales idnticas.

D = Mximo jF (x) F (y)j ; donde x es la variable nmero de hojas de los libros


en general y la variable y nmero de hojas de los libros en estadstica.
256 15. Pruebas de bondad de ajuste
Captulo 16

Pruebas no paramtricas

16.1 Introduccin
Las pruebas estadsticas no paramtricas se reeren a los procedimientos de inferencia que no
requieren que la distribucin de la poblacin sea normal o alguna otra distribucin especca en
trminos de parmetros. Estas pruebas utilizan aspectos simples de una muestra aleatoria de
datos, tales como el signo de las medidas, el orden de la relacin o frecuencias de categoras.
Por el momento, en el paquete estadstico slo se a desarrollado la prueba del signo. En futuras
versiones y en funcin de la necesidad de los usuarios se ampliar la elaboracin de estas pruebas.

16.2 Prueba del signo.


En una poblacin la mediana de lo que gasta un estudiante a la semana es menor a 75 pesos. Para
vericar este hecho se realiza la prueba de la Mediana. La hiptesis nula plantea que la Mediana
es 75. Se entrevista a n estudiantes para vericar esta hiptesis, el procedimiento consiste en
contar los datos que estn por arriba o abajo de la mediana. Segn la hiptesis alternativa si
quedan por abajo o arriba se considera un xito o un fracaso.
Por ejemplo si:

H0 : m0 = 75
H1 : m0 < 75

Si m0 < 75 son casos de xito x = x0 es la referencia para evaluar si los datos apoyan a la
hiptesis nula. Se usa la distribucin binomial para estimar el nivel de signicancia descriptiva
p: As:

0
X
p= b(n; x0 ) si p < se rechaza H0
i=0

257
258 16. Pruebas no paramtricas

De manera anloga se tiene que si:

H1 : m0 > 75;
0
X
p = 1 b(n; i)
i 0

para el caso en que la alternativa sea:

H1 ; m0 6= 75
El nivel de signicancia descriptivo es 2p:
Cuando n > 25 se considera un tamao de muestra grande y el valor de p se calcula por
p = P (Z  z0 ):
Si H1 : m0 < 75: La referencia del procedimiento completo se da en la tabla. Donde Z es una
distribucin Normal:

x + 0:5
Z= p
0:5 n

Procedimiento general para realizar la prueba del signo.

Planteamiento

H0 : mediana = 0,

H1 : mediana 6= k; H1 : mediana < k, H1 : mediana >k

Procedimiento:

Si el tamao de muestra es menor o igual a 25.

1. Determinar el nmero del tamao de muestra asignando signos positivos y negativos a los
datos de muestra.n = i + j, donde i el nmero de signos negativos y j nmero de signos
positivos.

2. Determinar el valor crtico mediante la distribucin binomial. El valor de p (para rechazar


no rechazar la hiptesis) es en el caso de la alternativa H1 : mediana < k : p = P (X 
Px
x) = binomial(n; i), donde la probabilidad de xito es 0.5
i=0

Si el tamao de muestra es mayor a 25 usar el siguiente estadstico:


16.2. Prueba del signo. 259

1. z= (x+0:5)
p
n
0:5n
, este se distribuye como una normal y el caso es igual al caso de la z para
2

(x+0:5) 0:5n
una poblacin. Es decir si zm es mayor o igual al valor crtico zc donde zm = p
n
2

correspondiente a la informacin muestral.

Ejemplo 1

Se cree que las mujeres de las zonas rurales que trabajan en una empresa tienen un salario a la
semana, superior a la mediana de 750. Se entrevista a una muestra aleatoria de 16 mujeres. Los
datos reportados son:

775 754 745 756


765 753 750 760
801 739 777 782
742 751 769 789

Hiptesis:

H0 : mediana = 750;
H1 : mediana > 750

El mecanismo para vericar esta hipteis se basa en comparar los 16 datos con 750. Hay
i = 3 con signo negativo, y j = 12 con signo positivo, entonces n = 15. Hay un empate. Se
calcula la binomial para determinar el valor de p.

15
X
p = P (X  12) = binomial(15; i) = 0:0176
i=12

Salida:
Prueba de Signo para la mediana = 750.0 contra > 750.0

N Abajo Igual Arriba valor de p Mediana


Dem 16 3 1 12 0.0176 758.0

Abajo son los negativos, arriba son los positivos. Puesto que p < = 0:05, se rechaza la
hiptesis nula.
Este procedimiento se puede aplicar a la comparacin no paramtrica de dos poblaciones, es
decir la prueba del signo extendida para comparar dos poblaciones.
260 16. Pruebas no paramtricas
Captulo 17

Diseo de Experimentos

17.1 Presentacin
La nalidad principal de este mdulo en el software es generar de manera visual diseos facto-
riales 2k y sus fracciones, una vez seleccionado el diseo, el siguiente paso es realizar el anlisis
estadstico bsico capturando la informacin de los resultados experimentales.
Tambin se tiene desarrollada la hoja para generar el diseo de Plackett-Burman. Se com-
plementa con la estructura para obtener la forma y anlisis de los diseos factoriales completos.
Finalmente se completa el mdulo con diseos bsicos de la metodologa de supercie de
respuesta, como son el diseo central compuesto y el Box-Behnken.
Una parte relevante en el paquete, es llevar a cabo prcticas en diseo experimental, con
ese n se han agregado dos ayudas didcticas denominadas el can y el helicptero. Estos
describen dos artefactos que mediante la simulacin se pueden plantear diferentes estrategias
experimentales y aplicar los diseos elaborados en el mdulo de diseo de experimentos.
La metodologa y el fundamento tcnico del diseo y anlisis estadstico de un experimento
que forma parte de este mdulo, se puede consultar en el libro de Experimentos: Estrategia y
Anlisis en Ciencia y Tecnologa.
Referencia: Castao, T. E. y Domnguez, D. J. (2003). Experimentos: Estrategia y Anlisis en
Ciencia y Tecnologa. CIMAT, Mxico. Por aparecer una nueva edicin. Diseo de Experimentos
Estrategias y Anlisis Estadsticos en Ciencia y Tecnologa.

17.2 Material experimental


En esta parte se presentan dos prototipos que permiten realizar experimentos de manera simu-
lada. stos se han denominado can y helicptero, en el software se tienen en el conjunto de
herramientas didcticas. En la Figura 17.1 se describen estos dos artefactos. En ambos casos se
plantea una serie de factores de control y de ruido con un rango de valores para cada factor. En
el helicptero se tiene una variable de respuesta que es el tiempo de caida, en este caso se espera

261
262 17. Diseo de Experimentos

Figura 17.1: Prototipos para realizar experimentos considerando diferentes diseos.

maximizar la respuesta. El can tiene tres variables de respuesta estas son altura, distancia y
tiempo. El uso de estos simuladores se plantear como ejercicios ms adelante.

17.2.1 Diseos de experimentos en CalEst


Los diseos que se pueden emplear aparecen en una hoja de trabajo generada por el software,
para obterner sta hay que ir a la opcin estadstica y de ah a mtodos avanzados. Luego
seleccionar diseo de experimentos y aparece una hoja como la que se muestra en la Figura 17.2.
Esta hoja es dinmica porque a partir de esa se pueden generar diferentes diseos y al nal de
las selecciones que considere el usuario se tendr una hoja para capturar la respuesta. Al nal se
presenta un apartado que corresponde al glosario de trminos bsicos en diseo de experimentos

La primera opcin en la Figura 17.2 son los diseos 2k y sus fracciones, el ejemplo 1 ilustra el
caso de un diseo completo 23 . La hoja de trabajo de diseo, en esa gura, tiene la posibilidad
de varias selecciones el procedimiento es como sigue:

1. Completar el nmero de rplicas, bloques y puntos centrados y se oprime continuar.

2. En la siguiente hoja aparece un resumen de lo seleccionado en el paso 1, luego tiene la


opcin de regresar o continuar.

3. La tercer hoja le permite denir el nombre de los factores, los valores y el orden del diseo,
en este caso se ha limitado a dos. Nuevamente tiene las opciones de regresar o continuar.
17.2. Material experimental 263

Figura 17.2: Esquema para plantear un diseo experimental.


264 17. Diseo de Experimentos

4. Finalmente aparece la tabla para capturar la informacin, ver Figura 17.3, en esa existe la
posibilidad de aleatorizar el experimento, seleccionar factores para el anlisis estadstico,
pasar la informacin a una hoja de clculo.

5. A continuacin aprieta la tecla calcular y se despliega el anlisis estadstico con una serie
de opciones grcas.

Ejemplo 1

En un proceso industrial se tiene inters en extraer aceite de cacahuate, la tcnica usada es


mediante el dixido de carbono a presin muy alta, se consideraron los siguientes factores, A:
temperatura, B: mezcla de cacahuate y C: razn de ujo. La nalidad del proyecto consiste en
mejorar la produccin total de aceite (y). Los dos niveles de cada factor se describen en la Tabla
17.1a.
FactoresnNiveles 1 1
o
A:temperatura 50 C 90o C
B:mezcla 10g 20g
C:ujo 35g=min 50g=min

Tabla 17.1a Produccin de aceite de cacahuate del Ejemplo 1


Los datos que se obtuvieron al realizar este experimento se muestran en la Tabla 17.1b (en el
orden estndar ahora para tres factores). Las estimaciones de los promedios se muestran en las
siguientes tablas. En la Figura 17.3 se reproduce la captura de datos.

Factores Respuesta
A B C
1 1 1 y111 = 65
1 1 1 y211 = 62
1 1 1 y121 = 58
1 1 1 y221 = 68
1 1 1 y112 = 64
1 1 1 y212 = 79
1 1 1 y122 = 62
1 1 1 y222 = 94
y 1 = 62:25 y 1 = 67:50 y 1 = 63:25 y = 69
y 2 = 75:75 y 2 = 70:50 y 2 = 74:75
^ A = 13:50 ^ B = 3:00 ^ C = 11:5

Tabla 17.1b. Datos de produccin de aceite de cacahuate

Observe que se han asignando los nmeros -1 y 1 a los dos niveles de los tres factores con el
mismo criterio establecido en el ejemplo anterior, es decir los niveles en el factor A se alternan
17.2. Material experimental 265

Figura 17.3: Captura de datos en un diseo factorial 23 .

uno a uno, en el factor B dos a dos y en el factor C cuatro a cuatro. Se realiza el experimento
llevando a cabo los tratamientos, stos se obtienen de hacer todas las combinaciones posibles de
los tres niveles de los factores, en este caso resultan 8 tratamientos; por supuesto en la prctica
estos se corren en un orden aleatorio.

^ A = (
y2 y1 ) (17.1)
^ B = (
y2 y1 )
^ C = (
y2 y3 )

^ AB = [(
y22 y12 ) (
y21 y11 )]=2
^ AC = [(
y22 y12 ) (
y21 y11 )]=2
^ BC = [(
y22 y12 ) (
y21 y11 )]=2 (17.2)

Los efectos correspondientes al experimento se obtienen mediante el mtodo de mnimos


cuadrados, las expresiones correspondientes se plantean en las expresiones (17.1) y (17.2), con-
sultar el Captulo 4 del libro Castao-Domnguez.

Solucin
En resumen, los efectos de los factores e interacciones se muestran en las Figuras 17.4, primera
parte, y 17.5 segunda parte, stas se obtiene a partir del reporte que genera el CalEst
266 17. Diseo de Experimentos

Figura 17.4: Parte 1 del reporte generado por el CalEst para un diseo factorial 2k .

La Figura 17.4 muestra la estimacin de los efectos, as como los coecientes del modelo de
regresin y el correspondiente error estndar de cada factor; a continuacin el valor del estadstico.
ste ltimo se obtiene mediante la siguiente expresin:

b =  2 (X0 X) 1 :
V ar( )

El error estndar ES de cada parmetro del modelo se obtiene por:

b ) =  pmii ;
ES( (17.3)
i

donde mii es i esimo elemento de la diagonal en la matriz (X0 X) 1


y  2 es la varianza del
error. La estimacin de este valor corresponde al cuadrado medio del error, reportado en la tabla
del anlisis de la varianza Figura 17.3, su valor para el ejemplo es CMerror = 2:00 y su error
estndar S = 1:4142, Figura 17.4 segunda parte del reporte.
Nota. La matriz (X0 X) 1
se ha descrito en el Captulo 14, en el diseo 23 la matriz X es la
matriz diseo mostrada en la Tabla 17.1b y en la Figura 17.3, con una columna de unos. Luego
sigue la columna que corresponde al estadstico cuyo valor es:
17.2. Material experimental 267

bij
E( bij )
tc =
bij )
ES(

donde tc ; suponiendo que se cumple la hiptesis nula respectiva, tiene una distribucin de pro-
babilidad t de Student, con n g grados de libertad t(n g). Donde la hiptesis nula se plantea
para la parte lineal por:

Hlo : i = 0; i = 0; :::; p
Hl1 : i 6= 0

y en el caso de interacciones, segundo orden, mediante:

Hco : ij = 0; i; j = 1; :::; p; i 6= j:
Hc1 : ij 6= 0

Finalmente, el valor arrojado por tc es el valor de la probabilidad a la derecha o izquierda de la


distribucin t si la hiptesis alternativa es mayor o menor a cero. Ese valor de p corresponde
al nivel de signicancia descriptivo y se compara con el nivel de signicancia : Si p > no se
rechaza la hiptesis nula, se rechaza en caso contrario.
A continuacin, Figura 17.3, se decribe el modelo de regresin y la tabla del anlisis de la
varianza para el modelo.
La Figura 17.4 indica, la parte complementaria del reporte. Nuevamente se presenta el valor
estimado del parmetro de regresin, el error estndar como se escribi en la expresin (17.3).
El intervalo del 95% de conanza para estos parmetros. El ltimo bloque seala el coeciente
de correlacin de la respuesta con respecto a cada variable de entrada -factor-. Los coecientes
de determinacin, ver su denicin Captulo 14, y el valor del error estndar.
La Figura 17.6 describe el anlisis estadstico, mediante grcas, del diseo experimental.
Estas grcas son el soporte e interpretacin visual del reporte estadstico generado en las Figuras
17.4 y 17.5. Las primeras cinco grcas tienen que ver con la signicancia de los factores e
interacciones. Las siguientes tres evalan las caractersticas del modelo. La ltima tiene que ver
con las curvas de nivel del modelo de regresin, esta se describe en la Figura 17.6 para el ejemplo
2 en un diseo central compuesto. Estas curvas tienen que ver con el proceso de optimizacin
descriptivo del modelo de regresin.

Ejemplo 2

La nalidad en este ejemplo es ilustrar el uso de las curvas de nivel, en las opciones grcas
en el diseo de experimentos aparece en el ltimo rengln de nivel. sta es apropiada para los
268 17. Diseo de Experimentos

Figura 17.5: Segunda parte del reporte generado por el CalEst.

Figura 17.6: Anlisis grco del diseo de experimentos y modelo.


17.2. Material experimental 269

primeros cuatro tipos de diseo experimental descritos en la hoja de trabajo. A continuacin se


describe el esquema de un diseo central compuesto.
En el proceso de nixtamalizacin, se consideran los factores tiempo, temperatura y la con-
centracin de cal en 0.8% este factor qued jo, se desea encontrar una regin de operacin de
tal manera que el ndice de absorcin de agua (iia) se incremente. Despus de una investigacin
inicial se propusieron los niveles de dos factores de tal manera que diera lugar a un diseo central
compuesto, as para el tiempo y la temperatura se tiene que:

FactornNiveles 1:41 1 0 1 1:41


t: tiempo min 25 27 32 37 39
T : temperatura o C 88 95 100 105 112

El diseo y los resultados se muestran en la Tabla 17.2, estos datos se captura en la hoja del
diseo central compuesto, se realiza el anlisis estadstico y se construye el modelo de regresin.
ste modelo permite llevar a cabo el proceso de optimizacin de manera descriptiva tal y como
se muestra en la Figura 17.8. Para generar estas curvas se debe ir a la ltima opcin de grcas
en diseo de experimentos y seguir el siguiente procedimiento:

x1 x2 tpo temp iia


1 1 27 95 6:3
1 1 37 95 5:4
1 1 27 105 5:8
1 1 37 105 6:5
1:41 0 25 100 4:9
1:41 0 39 100 5:6
0 1:41 32 88 5:9
0 1:41 32 112 6:8
0 0 32 100 7:5
0 0 32 100 7:3
0 0 32 100 7:8

Tabla 17.2. Resultados experimentales del Ejemplo 2

1. Aparece un plano de coordenadas, ste contendr a la curva o las curvas de nivel, para
trazar sta (s) oprima la opcin factores en la parte central superior, ver Figura 17.7

2. En la hoja aparecen indicados los factores que van en el eje horizontal y eje vertical.
Tambin aparecen los factores que han sido parte del experimento, as para que en el caso
de ms de dos factores se pueda jar el tercer factor en los valores que ms le convenga al
usuario. Del lado derecho aparecen los valores mnimo y mximo segn los niveles de los
factores en el cuadro de la derecha, estos se sustituyeron en el modelo.
270 17. Diseo de Experimentos

Figura 17.7: Procedimiento para generar curvas de nivel.


17.2. Material experimental 271

Figura 17.8: Curvas de nivel para el diseo central compuesto del ejemplo 2.

3. Luego se selecciona el valor o los valores de las curvas de nivel que desea que aparezcan en
el plano, para cada valor hay que oprimir la echa verde.

4. Se oprime la tecla aceptar y aparece un plano con las curvas de nivel, estas se pueden
mover con el ratn. No aparecern las que no estn en la regin descrita por el plano de
coordenadas.

17.2.2 Glosario de trminos bsicos


Bloque: Un grupo de puebas con base en un factor comn, tales que son efectuadas a la vez. El
bloque homogeniza las unidades experimentales. No es de inters estudiar su efecto. El bloque
reduce el ruido experimental y mejora la sensitividad de los efectos.
Curvas de nivel: Es una descripcin grca del modelo de regresin, se usa en los diseos
experimentales de supercie de respuesta.
Diseo Box-Behnken: Es un diseo experimental con tres niveles usado en los mtodos de
supercie de respuesta.
Diseo Central Compuesto: Es un diseo de mltiples niveles usado en mtodos de supercie
272 17. Diseo de Experimentos

de respuesta, ste est conformado por el diseo factorial 2k , puntos centrales y aumentado con
puntos axiales.
Diseo factorial: Una serie de pruebas que consiste en la combinacin de los niveles de los
factores incluidos en el experimento.
Diseo factorial completo: Es un diseo completo, todas las posibles combinaciones de los
niveles de los factores, que involucra a factores categricos con dos o ms niveles.
Diseo factorial fraccionado: Es un diseo que corresponde a un subconjunto del diseo fac-
torial, estos se generan a partir de las interacciones de los factores que se confunden, usualmente
conocido como generador.
Diseo Plackett-Burman: Es una clase de diseo factorial ortogonal saturado con dos niveles
por cada factor, el nmero de pruebas o corridas es mltiplo de 4, pueden coincidir con algn
diseo factorial fraccionado 2k-p. Estos diseos son de resolucin III.
Efecto: Cambio en el promedio de una respuesta cuando el factor cambia de su nivel bajo
al nivel alto.
Efectos confundidos: Los efectos no se pueden estimar de manera independiente uno de otro,
estos estn completamente o parcialmente confundidos.
El trmino error: Representa la parte aleatoria en el modelo torico. Los residuales se
usan para estimar su naturaleza. Usualmente se supone que estos tienen una distribucin de
probabilidad normal con media cero y varianza constante.
Error experimental: La variacin en la respuesta debida a variables extraas, tambin con-
siderada por los factores, bloques aunada a la incertidumbre de medicin en la respuesta.
Estructura Alias: Es una lista de los factores principales o interacciones que estn confundidos
con otras interacciones. Esto es bsico en diseo factorial fraccionado, y seala cuando los efectos
principales o interacciones se pueden estimar.
Experimento: Una serie de pruebas que se realizan con el objeto de descubrir el resultado en
un proceso.
Factor: Variable independiente que se manipula en el experimento.
Nivel: Valor de un factor.
Papel de probabilidad semi normal: Es el papel de probabilidad normal considerado a la
derecha del punto cero, corresponde al valor absoluto del efecto de los factores.
Puntos Axiales: Son puntos del diseo que estn en los ejes de coordenadas de los factores
equidistantes del punto central, se usan frecuentemente en el diseo central compuesto y se
conocen como puntos estrella.
Puntos centrales: Son pruebas experimentales en las que los factores cuantitativos estn en
el punto intermedio de su valor alto y bajo.
Trminos aliados: Cuando existen pocos puntos en el diseo experimental, entonces algunos
parmetros del modelo no pueden ser estimados independientemente.
17.2. Material experimental 273

Valores codicados: Es una manera de simplicar los clculos, en los diseos factoriales de
dos niveles se convierten los niveles alto y bajo en 1 y 1 respectivamente. La codicacin
permite realizar los clculos independientemente de las unidades de cada factor.

Ejercicio 1

Considere el prototipo del helicptero descrito en el mdulo de opciones en didctica en el CalEst.


La Tabla 17.3 muestra los factores y los valores de sus niveles mnimo y mximo.

Niveles
Factores Mnimo Mximo
A: Long. ala 5 15
B: Ancho ala 3 7
C: Altura 1 6
D: Peso 0 20
E: ngulo 0 90
F: Tipo papel 1 2 3
Tabla 17.3 Factores de control en el helicptero

Realice el experimento con un diseo 26 3 con los valores que se indican en la Tabla 17.4, use
la hoja de captura en el software para aleatorizar los tratamientos, lleve a cabo los siguientes dos
casos:
1. Haga una sola vez el experimento, anote la respuesta y realice el anlisis estadstico.

2. Haga dos rplicas del experimento anterior.


Con la nalidad de tener tres respuestas, calcule la media desviacin estndar de cada
tratamiento, como respuesta haga los anlisis estadsticos respectivos para ambas respuestas.

Valores reales Valores codicados


Factores A B C D E F A B C D E F
7 4 3 15 90 2 -1 -1 -1 1 1 1
12 4 3 5 0 2 1 -1 -1 -1 -1 1
7 6 3 5 90 1 -1 1 -1 -1 1 -1
12 6 3 15 0 1 1 1 -1 1 -1 -1
7 4 5 15 0 1 -1 -1 1 1 -1 -1
12 4 5 5 90 1 1 -1 1 -1 1 -1
7 6 5 5 0 2 -1 1 1 -1 -1 1
12 6 5 15 90 2 1 1 1 1 1 1
Tabla 17.4 Diseo Factorial Fraccionado: 26 3
En qu valores de los factores tiene la mayor respuesta?
Qu estrategia planteara para mejorar el valor de la respuesta, tener un mayor valor del
tiempo de caida?
274 17. Diseo de Experimentos

Ejercicio 2

En el caso del helicptero existen dos factores de ruido, como se muestra en la Tabla 17.5, donde
( 1) y (1) son los valores codicados.

Niveles
Factores Mnimo Mximo
P: Temperatura 15( 1) 25(1)
Q: Humedad 30( 1) 50(1)
Tabla 17.5 Factores de ruido

Desarrolle un diseo factorial 22 para estos factores de ruido. Junto con el diseo experimental
presentado en la Tabla 17.4, se plantea un diseo en un doble arreglo ortogonal como se muestra
en la Tabla 17.6.

P: -1 1 -1 1
TratnFactores A B C D E F Q: -1 -1 1 1 y s
1 1 1 1 1 1 1
2 1 1 1 1 1 1
3 1 1 1 1 1 1
4 1 1 1 1 1 1
5 1 1 1 1 1 1
6 1 1 1 1 1 1
7 1 1 1 1 1 1
8 1 1 1 1 1 1
Tabla 17.6 Doble arreglo ortogonal respuestas media y y desviacin estndar

1. Haga el experimento soltando los 32 helicpteros.

2. Con los resultados en 1, calcule la media y desviacin estndar.

3. Realice el anlisis de varianza completo para ambas respuestas, la media y desviacin


estndar.

Ejercicio 3

Use los resultados del experimento en un arreglo factorial 28 3 , 32 tratamientos donde los 8
factores son: los 6 de control y los 2 de ruido. Haga el anlisis estadstico de este diseo.
Resultan signicativos los factores de ruido? Existe alguna interaccin entre los factores de
ruido y control?
Ejercicio 4
Plantee otros diseos experimentales con otros factores.
17.2. Material experimental 275

Ejercicio 5

En la Tabla 17.7, se plantea los niveles de tres factores para el helicptero con la nalidad de
realizar un diseo central compuesto.

1. Plantee el esquema de este experimento.

2. Realice el experimento.

3. Haga el anlisis estadstico e interprete los resultados.

4. Use las curvas de nivel para encontrar la solucin con mayor respuesta.

Niveles
Factores ( 2) 1 0 1 (2)
A: rea 15 30 50 75.6 105
B: Razn 1.63 1.875 2 2.08 2.14
C: ngulo 15 30 45 60 75
Tabla 17.7 Valores de los niveles en un diseo central compuesto:

Donde los valores de la longitud y ancho del ala para determinar el rea y la razn entre esos
valores son:

Longitud ala 5 7:5 10 12:5 15


Ancho ala 3 4 5 6 7

Ejercicio 6

Tomando como base el can, plantee esquemas experimentales similares a los ejercicios ante-
riores con el n de que al disparar el can, ste de en el blanco. Tome como variable de respuesta
la diferencia entre la distancia del blanco y la distancia alcanzada al disparar el can.
276 17. Diseo de Experimentos
Captulo 18

Proyectos de estudios estadsticos

En el mundo real existe una gran variedad de problemas y necesidades de conocimiento, la solu-
cin a diferentes cuestiones y demandas a estas necesidades se dan en base a la informacin
generada por los datos. La estadstica desempea un papel relevante en la captura e inter-
pretacin de esa informacin. Su nalidad es generar modelos o esquemas signicativos de la
variacin que est en todas partes.

La nalidad de la estadstica est en el proceso de encontrar un mayor conocimiento


sobre el mundo real mediante la coleccin e interpretacin adecuada de los datos.

Los estadsticos que hace la teora han desarrollado mtodos para solucionar los problemas
relacionados al proceso. Para ello existe un esquema de investigacin que se describe en seis
etapas y en resumen se describen a continuacin.

1. El problema, curiosidades. En diferentes profesiones y actividades acadmicas y no acadmi-


cas las personas tratan de resolver una enorme variedad de problemas usando el pen-
samiento estadstico.

2. Las preguntas sobre el tema a estudiar. Los procesos de investigacin, o procesos para
generar conocimiento inician hacindose preguntas.

3. Diseo del mtodo para la coleccin de datos. La coleccin de los datos usualmente se
obtienen mediante la realizacin de un experimento, una encuesta o estudios de observacin.
Todos estos requieren de una metodologa estadstica para obtener la informacin.

4. Coleccin de los datos. Este involucra la fase de diseo tanto experimental como en en-
cuestas.

5. Resumen y anlisis. Uno de los objetivos de este libro est en los mtodos para resumir y
analizar los datos, stos ltimos en el marco de estructuras simples.

277
278 18. Proyectos de estudios estadsticos

6. Respuestas. Una vez realizados los anlisis se llega a la etapa de interpretar los datos, as
responder a las preguntas planteadas.

A continuacin se planean una serie de problemas con el objetivo de generar sus datos propios.
Estos se pueden realizar con los alumnos en diferentes cursos, conviene tomar estos ejemplos como
referencias, planear estrategias y objetivos en funcin de la clase. Adems que estos les permitan
proporcionar ideas para complementar la problemtica planteada y elaborar otros proyectos
relacionados a sus intereses.

18.0.3 Ejemplo 1: Consumo de energa


El consumo de energa es un servicio por el cual se debe pagar cada bimestre. A partir de este
se crean una serie de cuestiones que resultan de inters para las familias porque representa un
gasto. Por otro lado, es importante para el gobierno ya que se requiere de una estrategia para
generar energa. Considerando los recibos de facturacin se pueden generar datos que permiten
contestar varias preguntas, la primera de ellas que es la ms relevante es el consumo de energa
en cada uno de los hogares. Indagar si en los seis pagos bimestrales existe un consumo regular de
energa o existen grandes cambios. Precisar si el consumo de energa en el periodo de verano es
mayor que en el otro. En este problema se puede plantear una encuesta para saber si hay mayor
consumo de energa en las casas que tienen horno de microondas de las que no, en esa misma
direccin se puede preguntar sobre la calefaccin, el nmero de personas que habitan la casa, el
rea construida, zonas residenciales entre otras preguntas.
El ahorro de energa elctrica, es una nalidad importante para mejorar el bienestar del ser
humano. Tambin en los hogares, empresas e industria en general, existe inters en disminuir
el consumo de energa elctrica con nes econmicos. Para llevar a cabo las actividades que se
citan abajo y realizar un estudio para conocer el consumo, medido en kWh, utilice los recibos
que genera la Comisin Federal de Electricidad.

Actividades
 Que una persona -alumno/estudiante- seleccione a 10 personas y pregunte sobre el consumo
de energa del ltimo recibo, haga un diagrama de caja e interprete el resultado. Estime
las medidas de tendencia central, dispersin y posicin e interprtalas.

 Junte este resultado con 10 personas y realice un histograma, tabla de frecuencias, un


diagrama de puntos, un diagrama de tallo y hoja, y un diagrama de caja e interprete
sus resultados. El polgono de frecuencia acumulado, Se aproxima a una distribucin
acumulada?. De este ltimo diagrama indique Cul es el consumo del 10%, 20%, 40%,
60% y 80%, de las personas entrevistadas?
279

Aplique la siguiente encuesta

Pregunte a una persona por:

1. Nmero de personas que vive en su casa.

2. rea de construccin de la casa en la que habita.

3. Si tienen y usan horno de microondas.

Responda a:

 Existe una relacin entre X1 y el consumo de energa.

 Existe una relacin entre X2 y el rea de construccin.

 Son diferentes los diagramas de caja entre las personas que tienen horno de microondas y
las que no lo tienen?

 Construya un intervalo de conanza del 95% para el promedio y varianza del consumo de
energa.

 Pruebe la hiptesis; el promedio de consumo de energa entre los que tienen horno de
microondas es diferente de los que no lo tienen?

18.0.4 Ejemplo 2 : Rompecabezas del mapa de Mxico


Se desea conocer qu tanto conocen los estudiantes o mexicanos la Repblica Mexicana, para ello
se plantea la solucin de un rompecabezas sobre el mapa de la divisin geopoltica de Mxico.
ste se presenta de un modo animado por computadora. El objetivo es arrastrar con el ratn
el estado que aparece de manera aleatoria a la izquierda y colocarlo en el lugar que corresponde.
Las respuestas que se generan al completar el mapa son el tiempo de solucin y el porcentaje de
fallas. El mapa se encuentra en el siguiente sitio http://www.calest.org/mx/desc.html

Actividades
1. Seleccione de manera aleatoria a 50 estudiantes y propngale que resuelva el rompecabezas.
Alternativas: pueden juntarse por equipos de cinco, cada persona del equipo entreviste a
10 compaeros. Junte los datos con otros equipos.

2. Con estos datos realice un estudio descriptivo tal que contenga los siguientes puntos.
280 18. Proyectos de estudios estadsticos

(a) Hacer los clculos estadsticos en el tiempo de solucin y porcentaje de fallas. Realizar
las interpretaciones correspondientes.
(b) Elaborar la tabla de frecuencia e histograma para la respuesta tiempo de solucin e
interpretar la grca.
(c) Completar el estudio con el polgono de frecuencias, diagrama de caja, el diagrama
de tallo y hoja. Relacionarla con la informacin de los incisos previos y hacer inter-
pretaciones.
(d) Realizar la comparacin del polgono de frecuencias, distribucin emprica con la dis-
tribucin normal.
(e) Hacer un estudio similar para el porcentaje de fallas.

3. Nuevas preguntas sobre la naturaleza del problema, por ejemplo proponga que los partici-
pantes vean ahora el mapa de la Repblica y que vuelvan a resolver el rompecabezas.

(a) Hacer una anlisis similar al anterior.

(b) Es interesante en este caso comparar los diagramas de tallo y hoja, as como los
diagramas de caja, con referencia al antes y despus.
(c) Se pueden plantear pruebas de hiptesis sobre el antes y despus adems interpretar
los intervalos de conanza.

4. Ser de inters conocer la relacin entre el promedio de calicaciones en un ao escolar


anterior y el tiempo de respuesta.

5. Abordar otros estudios: presentar un mapa de la Repblica sealada con los meridianos y
paralelos. Enseguida volver a tomar el tiempo de solucin del rompecabezas.

(a) Ahora se tienen tres situaciones diferentes se pueden plantear diferentes preguntas. En
primera instancia se pueden comparar diagramas de tallo y hoja, as como diagramas
de caja.
(b) Se pueden hacer pruebas de hiptesis sobre las tres poblaciones, as plantear el esquema
de un diseo completamente al azar.
(c) Se pueden hacer comparaciones entre grupos de edad, conocimientos, gnero entre
otros. As realizar pruebas de hiptesis de homogeneidad e independencia. Pruebas
no paramtricas.

6. Tambin se pueden plantear preguntas sobre la distribucin de la variable de respuesta.


281

18.0.5 Problema: Hombre en granos de caf*


En la transparencia que se describe en la gura de este ejercicio, muestra granos de caf, en ellos
aparece la cara de un hombre. El problema que se plantea a partir de esta foto, es conocer el
desarrollo cerebral de las personas. Los neurlogos y siclogos utilizan este tipo de representacin
para realizar diversos estudios, sobre la habilidad de percepcin en diferentes individuos. Algunas
de estas preguntas se plantean los ejercicios de este problema. La actividad consiste en mostrar
a una persona de manera individual la transparencia, a partir de ese momento tomar el tiempo
que se lleva en encontrar al hombre en los granos de caf. Variable de respuesta: tiempo en que
se tarda una persona en responder. Tome el tiempo usando un cronmetro.
*Esta la puede bajar o encontrar en el siguiente sitio de Internet:
http://www.calest.org/mx/desc.html.

Actividades:

1. Una persona alumno/estudiante- seleccione 15 personas, le muestra la transparencia y


registe el tiempo de respuesta. (En este caso sin considerar la edad).
1.1 Hacer un diagrama de caja e interpretar. Calcule los estadsticos bsicos e interprete.
1.2 Juntar la informacin con 10 personas y elaborar un histograma, tabla de frecuencias,
un polgono de frecuencias, un diagrama de tallo y hoja, una grca de puntos, un diagrama de
caja. En cada caso interprete sus resultados.
282 18. Proyectos de estudios estadsticos

1.3 Calcule los estadsticos: medidas de tendencia central, dispersin y posicin e interprete.
1.4 Compare la distribucin de frecuencias acumulada con la normal e interprete.
2. Muestre la transparencia a 10 mujeres y 10 hombres y registe el tiempo de respuesta. (En
este caso no considere la edad).
2.1 Haga un diagrama de caja para describir el tiempo empleado por las mujeres y otra para
el tiempo realizado por los hombres, interprete sus resultados.
2.2 Calcule medidas de tendencia central, dispersin y posicin e interprete.
2.3 Junte esta informacin con 10 personas y realice las actividades similares a los indicados
en 1.2 y 1.3, tanto para mujeres como para los hombres e interprete.
3. Muestre la transparencia a 10 personas de los siguientes dos grupos de edad; grupo 1,
menores de 30 aos y grupo 2, mayores de 30 aos. En cada caso registe el tiempo.
3.1 Realice actividades similares a la de los puntos 2.1 y 2.2.
4. Plantee otras estrategias considerando el gnero (mujer, hombre) y grupos de edad. Pro-
ponga algunos criterios para denir grupos de edad. Muestre la transparencia a los grupos
denidos y plantee el anlisis de estadstica descriptiva similar a las actividades anteriores.
5. Considere que el tiempo promedio de respuesta es de 110 segundos. Plantee la siguiente
prueba de hiptesis:

H0 :  = 110
H1 :  < 110

Tome una muestra de 30 personas para vericar esta armacin. Por el momento suponga
que sta variable se distribuye como una distribucin normal.
5.1 Calcule la media, la desviacin estndar y la desviacin estndar de la muestra.
5.2 En el grupo de opciones didcticas del paquete, use el de prueba de hiptesis H0 , plantee
varios escenarios para realizar esta prueba; por ejemplo diferentes valores en cada caso identique
el valor del umbral: estadstico de prueba. Diferentes valores para la hiptesis alternativa.
5.3 En cada escenario en el punto 5.2 ubique el valor de la media x calculado en 5.1. Obtenga
sus conclusiones.
5.4 Realice la prueba de hiptesis usando la opcin que corresponde en mdulo de inferencia
en el paquete. Compare con lo visto en las actividades 5.2 y 5.3. Interprete sus resultados. Use
la distribucin normal para visualizar su informacin.
6. Tome una muestra de 15 personas para vericar la hiptesis:
6.1 Abra un archivo en el paquete para capturar la informacin.
6.2 Graque la distribucin t-Student con gl = 14 y = 0:05; seale el rea a la izquierda
que deja el valor de y compare el valor del umbral con el valor de la media de la muestra. Qu
observa? Interprete.
283

6.3 Use la opcin correspondiente en el mdulo de inferencia y realice la prueba de hiptesis.


Obtenga sus conclusiones.
6.4 Haga una nueva grca de la distribucin t Student con gl = 14 y seale el rea a la
izquierda que deja el valor de p, este valor aparece en el reporte de los resultados de la prueba
de hiptesis. Compare las reas de y p Qu observa?
7. Use los resultados de la actividad 2 para justicar si existe diferencia en el tiempo promedio
de respuesta entre mujeres y hombres.
Con el n de vericar esta situacin se plantea la hiptesis:

H 0 : 1 2 = 0
H 1 : 1 2 6= 0

1 = promedio mujeres, 2 = promedio hombres.


7.1 En un archivo de datos capture la informacin, en una columna ponga los tiempos de
respuesta para una mujer y en otra los correspondientes a un hombre.
7.2 Usando el mdulo referente a inferencia lleve a cabo la prueba de hiptesis. Obtenga sus
conclusiones.

18.0.6 Problema: memoria a corto plazo


Un problema que es de inters para muchos mdicos consiste en conocer la capacidad de memoria
a corto plazo. Con ese n tienen desarrolladas varias actividades que les aplican a los participantes
y as detectar esa capacidad.

Ejemplo 3

Realice la siguiente prctica ponga en una tarjeta blanca las 16 palabras que se indican en la
Tabla de abajo. Luego muestre en un lapso de 20 segundos esa tarjeta a una persona. Deje pasar
un minuto y pdale que le diga las palabras que recuerda; pero no puede tardarse ms de un
minutos. Anota el nmero de palabras que recuerda, repite la actividad con otras 25 personas.

Roca Tapete Llave Ventana


Botella Lpiz Cuchillo Pulsera
Mesa Frasco Manzana Perro
Cuaderno Rojo Avin Flor

Con los 25 datos obtenidos de la prctica

1. Elabore un diagrama de puntos.


284 18. Proyectos de estudios estadsticos

2. Qu porcentaje de personas recuerda ms de 12 palabras?

3. Qu porcentaje de personas recuerda menos de 8 palabras?

4. Pruebe la hiptesis de que la proporcin de personas que recuerdan ms de ocho palabras


es de 0.20, es decir:

H0 : p = 0:20
H1 : p < 0:20

5. Si se deja la tarjeta por un lapso de 40 segundos Las personas recordarn ms palabras?


Cmo vericara su respuesta?

6. Plantee otras actividades relacionadas con esta prctica, por ejemplo considerar factores
cpmo la edad, el gnero, el color de la tarjeta, el tamao de la letra.

18.0.7 Simulacin
Existen algunas estrategias para generar datos, el anlisis e interpretacin de estos permiten sim-
ular situaciones aproximadas a la realidad. Por ejemplo, en la actividad industrial se desarrollan
procesos con la nalidad de manufacturar un producto. Tanto la calidad del producto como
la eciencia del proceso son evaluados por una o varias respuestas. Es comn en cada proceso
que existan diversos factores que afecten esa salida. En el captulo anterior se han mostrado los
prototipos tales como el helicptero y el can para generar informacin, ah se usaron como
una estrategia experimental. Aqu se ilustrarn con dos ejemplos algunas ideas para realizar
actividades y de esa manera generar datos con el n de realizar anlisis estadsticos. Con estos
usted puede planear muchas prcticas para realizar anlisis estadsticos.

Ejemplo 4

Considere el prototipo del helicptero realice las siguientes actividades.

1. Suelte el helicptero 15 veces en la opcin anlisis con una humedad de 30 y registre el


tiempo de cada. Con esos valores obtenga los valores de los estadsticos y haga el diagrama
de caja.

2. Junte esta informacin con 10 personas para obtener 150 datos, realice un estudio descrip-
tivo de esta informacin.
3. Suelte el helicptero 15 veces en la opcin mejora con una humedad de 50 y registre el
tiempo de cada. Con esos valores obtenga los valores de los estadsticos y haga el diagrama
de caja. Compare el anlisis estadstico de este punto con el del 1.
285

4. Realice la prueba de hiptesis de que los helicpteros tienen un tiempo de caida en promedio
diferente. Es decir:

H0 : 1 2 = 0
H1 : 1 2 6= 0

5. Realice otras prcticas, por ejemplo puede ir variando la longitud del ala, nicamente del
helicptero, desde 5 hasta 15 de uno en uno registre en cada caso dos veces el tiempo de
cada. Haga un anlisis de regresin de la longitud del ala con el tiempo de cada.

Ejemplo 5

Tome como referencia el prototipo del can realice las siguientes actividades.

1. Ponga el blanco a una distancia de 7 metros, realice 18 disparos registre el valor de la


distancia, altura y tiempo en cada caso calcule los estadsticos y haga un diagrama de caja.
Interprete los resultados. Cuntas veces acert el disparo en el blanco?

2. Ponga el blanco a una distancia de 5 metros, realice 10 disparos. Cuntas veces di en


el blanco? Qu estrategia puede seguir para dar en el blanco? Realice un planteamiento
estadstico para alcanzar tal n.

3. Elabore una serie de prcticas para llevar a cabo diferentes mtodos estadsticos.
Referencias
1. Breyfogle I I I, F.W. (2003). Implementing Six Sigma. 2nd Ed. Wiley, United States of
America

2. Domnguez Domnguez J. y Domnguez Lpez J. A. (2006). Estadstica y Probabilidad: El


mundo de los datos y el azar. Oxford, Mxico.

3. Escalante, V.E. (2004). Seis Sigma Metodologa y Tcnicas. Limusa Noriega Editores,
Mxico.

4. Mendenhall. W. y Sincich T. (1997). Probabilidad y Estadstica para Ingeniera y Ciencias,


4a. Ed. Printice-Hall. Hispanoamericana, Mxico.

5. Press, W., Teukolsky, S., Vetterling, W., Flannery B. (2002) Numerical Recipes in C++
2nd Ed. Cambridge University Press. New York.

6. Tamato, T. M. El Proceso de la Investigacin Cientca. Limusa, Mxico 2002.

7. Triola M. (2008). Essentials of Statistics, 3rd ed. Pearson Education, Inc. Boston, MA

8. Triola M. F. (2004). Probabilidad y Estadstica 10ma ed. Pearson, Mxico

9. Wall, K. (2000). Programacin en Linux: con ejemplos. Pearson Education, Inc. Buenoss
Aires, Arg.

10. Yamane T. (1999). Estadstica. Oxford University Press-Harla, Mxico.


ndice
ambiente CalEst, 6 distribucin Poisson y CalEst, 76
anlisis de la varianza, 232
espacio muestral, 37, 38
anlisis de residuales, 230
estimacin, 123
clculo de probabilidades usando el CalEst puntual, 123
distribucin binomial, 73 Eventos independientes, 47
distribucin normal, 84 experimento, 37
distribucin Poisson , 76 aleatorio, 37
calculador estadstico, 70
frecuencia relativa, 12
capacidad del proceso, 90
coeciente histograma, 12
correlacin, 221
determinacin, 234 inferencia
varianza, 170
coeciente
determinacin, 221 inferencia parmetros
combinaciones, 64 regresin simple, 217
Instalacin, 1
densidad emprica, 14
La desviacin estndar, 30
Desviacin, 28
La media, 23
Diagrama de caja, 32
La media armnica, 26
diagrama de tallo y hoja, 17
La media geomtrica, 27
diseo completamente al azar
La mediana, 25
anlisis de la varianza, 201
La moda, 26
diseo de experimentos
la probabilidad condicional, 47
completamente al azar, 200
Distribucin Bernoulli, 71 mnimos cuadrados, 226, 227
Distribucin de probabilidad discreta, 71 mtodo de mnimos cuadrados, 211
distribucin emprica, 16 mtrica
distribucin normal seis sigma, 89
muestral, 130 modelo de regresin
papel de probabilidad, 89 lineal simple, 209
distribucin normal y el CalEst, 82 razn de varianzas, 220

287
288 NDICE

modelo de regresin mltiple, 225


muestreo
aleatorio simple, 124
con reemplazo, 124
sin reemplazo, 124
mutuamente excluyentes, 46

nivel de signicancia, 144


descriptivo, 144

ojiva, 16

permutacin, 63
Probabilidad Clsica o Terica, 43
probabilidad con ruletas, 52
Probabilidad Emprica, 42
Probabilidades mediante extraccin de canicas,
56
Probabilidades usando ramicaciones, 56
prueba de hiptesis, 143
error tipo I, 145, 179
error tipo II, 145, 179
modelo de regresin, 215
modelo regresin mltiple, 230
muestras independientes, 182
procedimiento, 145
razn de varianzas, 195

rango muestral, 27
Regla aditiva, 44
regla emprica, 85
residuales, 212

tabla de frecuencias, 9
teorema de lmite central
ilustracin, 136

variable aleatoria, 70
variable discreta, 71
varianza muestral, 29

Vous aimerez peut-être aussi