Académique Documents
Professionnel Documents
Culture Documents
2009
ii
Contenido
Prefacio vii
1 Instalacin de CalEst 1
1.1 Instalacin del programa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 El ambiente de CalEst . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3 Estadsticas 23
3.0.7 Medidas de tendencia central . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.0.8 Medidas de dispersin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.0.9 Medidas de posicin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.0.10 Diagrama de caja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4 Probabilidad 37
4.1 Espacio muestral y eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2 Probabilidad de un evento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.2.1 Eventos compuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.2.2 Independencia y probabilidad condicional . . . . . . . . . . . . . . . . . . . 46
4.2.3 Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.3 Principios bsicos de conteo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
iii
iv CONTENIDO
7 Galera de distribuciones* 97
7.1 Ideas Generales: distribucin de probabilidad . . . . . . . . . . . . . . . . . . . . 97
7.1.1 Distribucin Weibull . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
7.1.2 Distribucin Gama . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
7.1.3 Distribucin exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
7.1.4 Distribucin beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
7.1.5 Distribucin uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
7.1.6 Distribucin Lognormal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
7.1.7 Distribucin Logstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
7.1.8 Distribucin Gumbel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
8 Distribuciones 2 , t, F +
107
8.1 Distribucin 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
8.2 La distribucin t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
8.3 La distribucin F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
Referencias 286
Prefacio
De la experiencia se conoce que existen varias dicultades para transmitir diferentes conceptos
en estadstica y probabilidad, as como asimilarlos por parte del educando. Con el n de contribuir
en la solucin de esta problemtica se ha realizado un proyecto de desarrollo tecnolgico que
denominaremos CalEst. La investigacin en este trabajo se plantea en dos direcciones, la primera
se da en la elaboracin de este proyecto en el cual se han desarrollado ideas y propuestas didcticas
con el propsito de facilitar la comprensin de conceptos en las dos reas citadas. La segunda
tiene la nalidad de evaluar el impacto en la comprensin de nociones estadsticas usando el
material de este proyecto.
El CalEst se aboca a cubrir dos reas principales, una de ellas tiene por objeto presentar un
conjunto de herramientas con un enfoque didctico para cubrir el proceso enseanza apren-
dizaje. La otra consiste en abarcar de manera sencilla la descripcin y el anlisis de datos
generados en un estudio. Esto permitir al usuario trabajar con los diferentes temas propuestos
en los planes y programas de estadstica y probabilidad para los cursos a nivel bachillerato y
superior. La aplicacin en estas dos lneas del CalEst permite estudiar los ejemplos y encontrar
las soluciones de los ejercicios planteados en diferentes textos de estadstica.
Finalmente se ha desarrollado el material temtico tal que la metodologa del tratamiento de
la informacin surja de problemas reales o que los estudiantes generen su propia informacin.
La integracin de ste desarrollo tecnolgico asistido de manera visual y las estrategias para
producir la informacin crean una dinmica que proporcionan una mayor facilidad para la com-
prensin de conceptos y motivan el aprendizaje de estas dos disciplinas.
Una parte fundamental del desarrollo de este trabajo se da en el conocimiento y habilidad de
cmputo aplicada para explicar y desarrollar conceptos y resultados en la enseanza de la estads-
tica y probabilidad. Este proyecto se ha elaborado con alto desarrollo en programacin avanzada
y cmputo especializado dedicado como apoyo integral a la educacin con la presentacin de im-
genes animadas y visuales para comprender los conceptos bsicos en estadstica y probabilidad.
CalEst corre en los sistemas operativos Windows XP y Vista.
Esta propuesta usa como recurso tecnolgico la animacin asistida por computadora y se
presenta como un paquete. As este desarrollo resulta novedoso, visualmente atractivo y es
una herramienta complementaria que benecia en el aprendizaje, enseanza y aplicacin de los
conceptos de estadstica y probabilidad. Por un lado, da elementos a los profesores para explicar
diferentes temticas de una manera mas amena y fcil de entender. Asimismo, le da al profesor
la opcin de profundizar ampliamente en los temas. Su entorno visual y animaciones no solo
permite, sino adems alienta, que el estudiante explore y aprenda por si mismo utilizando el
material de prcticas auxiliar al paquete. El material contribuye a que los estudiantes entiendan
claramente los conceptos, se motiven a conocer ms y a explorar por si mismos.
viii Prefacio
CalEst sirve como material de apoyo para comprender mejor algunos conceptos en estadstica
y probabilidad, as como resolver problemas de diferentes libros de estadstica cuya temtica
se enfoca a los planes de estudio en los bachilleratos, tecnolgicos regionales, licenciaturas e
ingenieras. Inclusive, por sus animaciones y grcas, tambin puede ser utilizado en primaria o
secundaria para adentrar a los estudiantes en el tratamiento de la informacin.
Presentacin. Partimos del hecho de que la disciplina de estadstica es el proceso de descubrir
ms sobre el mundo real mediante la coleccin, anlisis e interpretacin de datos. En esa direccin
los estudios en estadstica se plantean como un procedimiento de bsqueda, en el que se plantea
un problema y a partir de ah se derivan una serie de cuestiones, las cuales se respondern y
explicarn con una apropiada recoleccin y anlisis de datos. Sin embargo en la prctica es comn
dar datos para que los estudiantes hagan clculos, por lo general no se hacen interpretaciones
de los resultados. Por otro lado, el estudio de la estadstica se fundamenta en conceptos de la
teora de probabilidad, por lo general, en la prctica existe una cierta dicultad para ensear
y aprender nociones sobre estos temas. Por ejemplo, en un estudio sobre el cerebro, se desea
conocer el tiempo de respuesta de una persona ante un estmulo visual. En este caso se desea
conocer el porcentaje de personas que tardan menos de 30 segundos en responder, o estimar el
porcentaje de individuos en responder entre 70 y 180 segundos. Ambas situaciones se plantean
en trminos de probabilidad. A partir de este planteamiento se generan una serie de cuestiones
tales como la de comprender, el concepto de probabilidad, el de variable aleatoria, funcin de
densidad, distribucin de probabilidad. Para abordar este tipo de problemas en cursos bsicos
de estadstica y probabilidad se supone la distribucin normal. Lo primero que se le explica al
estudiante, antes de hacer el clculo de estas probabilidades dados los parmetros para la media
y desviacin estndar de esta distribucin, es el proceso de estandarizacin. Situacin que distrae
de la nalidad principal, toma tiempo y de alguna manera complica al estudiante. Adems de
las dicultades que genera al estudiante comprender estas funciones de probabilidad y distinguir
la diferencia entre ellas.
El desarrollo tecnolgico propuesto mediante el CalEst, ayuda de manera animada a calcular
directamente esas probabilidades, adems de ilustrar los conceptos de funcin densidad y dis-
tribucin de probabilidad. Esta tcnica se extiende a una gama de distribuciones tales como:
Bernulli, Binomial, Poisson, t-Student, Ji cuadrada, la F, Weibull, Gama Exponencial, Uniforme
para variables continuas-, Beta, Lognormal, Logstica y Valores Extremos.
En el ejemplo descrito, tambin se tiene el inters en vericar la hiptesis de que las personas
no reaccionan de manera lenta, en trminos estadsticos la media debe ser menor a 130 segundos.
El planteamiento estadstico formal es:
H0 = = 130
H1 = 6= 130
Prefacio ix
Instalacin de CalEst
CalEst es un paquete estadstico que le permitir al usuario, realizar los clculos y anlisis
estadsticos de un conjunto de datos en la solucin de problemas.
CalEst cuenta adems con una serie de animaciones visuales que facilitar al usuario la
comprensin de diferentes conceptos estadsticos.
1.b Apriete sobre la opcin instalar. El instalador se ejecutar y una ventana como la
mostrada por la Figura 1.2 aparecer.
1.c Si no se ejecuta automticamente el programa es posible que no est habilitada la ca-
racterstica de autoejecucin. Si la autoejecucin est deshabilitada. Desde Mi PC, seleccione la
unidad del CD, ejecuta el programa Instalame.exe y una ventana como la ilustrada en la Figura
1.2 aparecer.
2 Seleccione el idioma de la instalacin y aprieta el botn Aceptar. Una pantalla como la
mostrada en la parte inferior de la Figura 1.2 aparecer.
3 A continuacin apriete el botn Siguiente. Se mostrar la licencia del software.
4 Lea dicha licencia y si est de acuerdo con los puntos all expuesto seleccione Acepto el
acuerdo y aprieta Siguiente.
1.1. Instalacin del programa 3
6 En este paso puede escoger la carpeta del men de inicio Figura 1.5. Por defecto la carpeta
es CalEst Studio. Puede escoger otra carpeta. Cuando est de acuerdo con el nombre de la
carpeta apriete el botn Siguiente.
7 En este paso se le pregunta si quiere crear un icono de acceso directo en su escritorio Figura
1.6. Si as lo desea, seleccione la casilla. Para continuar apriete Siguiente.
9 El programa se instala Figura 1.8. El proceso puede tomar unos cuantos minutos. Al
terminar la instalacin puede ejecutar el programa. No es necesario reiniciar la computadora.
Apriete el botn Finalizar para concluir el proceso.
relevantes sobre stos. Dos elecciones ms a esta opcin conciernen al anlisis de la varianza y
pruebas de bondad de ajuste.
Las Grcas que tiene CalEst son las tpicas en estadstica descriptivas tales como el his-
tograma y su correspondiente tabla de frecuencia, polgono de frecuencia, polgono de frecuencia
acumulada, diagrama de pastel, diagrama de puntos, diagrama de tallo y hoja, diagrama de caja
y diagrama de dispersin y la grca de la distribucin emprica que permite visualizar que tan
cercana es la distribucin de los datos a una distribucin normal.
El anlisis de Regresin simple y mltiple es una parte que complementa la parte clculos
estadsticos para estimar los parmetros de un modelo y su anlisis, as como las representaciones
grcas de los conceptos relacionados.
La parte correspondiente a las Distribuciones tiene una conguracin relevante para que
el usuario tenga la posibilidad de realizar clculos de probabilidad. En cada caso aparece la
distribucin caracterizada por sus parmetros, as aparece la funcin densidad con uno o dos
umbrales, moviendo stos generan valores de la probabilidad a la derecha, izquierda de un valor
de referencia o entre dos valores dados. Esta opcin tiene la versatilidad de trabajar de manera
animada con la funcin distribucin de probabilidad para hacer clculos, y comprender la relacin
matemtica con la funcin densidad. Se ha anexado un calculador de probabilidad en cada
distribucin lo que equivale al manejo de las tablas, esta permite tener el valor de la variable
aleatoria que dena a la distribucin o el valor de una distribucin probabilidad acumulada.
Opciones didcticas:
2. Para explicar el Teorema de lmite central, los conceptos de prueba de hiptesis, prueba de
hiptesis de un sistema de seguridad.
2.1 Presentacin
Una vez que se han aplicado las encuestas o algn procedimiento formal para obtener la informa-
cin, es necesario contar con una estrategia para hacer ms comprensible la informacin generada
por los datos. La estadstica descriptiva es el procedimiento que permite organizar y describir los
datos. Esto se alcanza mediante la representacin de los datos de manera grca. Es importante
tener presente y caracterizada la poblacin objeto de estudio para poder hacer inferencia sobre
ella a travs de una muestra representativa.
Objetivo:
Presentar diferentes procedimientos grcos para
describir y analizar los datos de una muestra
Ejemplo 1.
Un siclogo tiene inters en estudiar la memoria a corto plazo, su experimento consiste en mostrar
una tarjeta que contiene 16 palabras a un grupo de 100 personas seleccionadas al azar entre 15
y 25 aos. El procedimiento consiste en mostrar la tarjeta a cada persona por un espacio de
20 segundos, luego platica con la persona por espacio de un minuto, a continuacin, les da
otro minuto para que le digan las palabras que recuerdan. Los datos aparecen en el bloque
Herramientas del archivo DataEjemplo1.Tab en la columna palabras.
El procedimiento para organizar y describir los datos es construir una tabla, conocida como
Tabla de frecuencias .
9
10 2. Organizacin y descripcin de datos
Tabla de frecuencias:
Una tabla de frecuencias o distribucin de frecuencia es una tabla que
registra categoras, valores o clases de valores que una variable debe
tener y el nmero de veces que cada una ocurre.
Figura 2.2: Un ejemplo de la Tabla de frecuencias para los datos del ejemplo 1.
1. Se divide la distancia entre el nmero k de clases que se deseen, todas de igual ancho.
distancia
ancho (aproximado del intervalo de clase) =
k
El ancho del intervalo de clase se determina en funcin del nmero de clases que desee.
Aunque esto resulta arbitrario, casi siempre se propone entre 5 y 15 intervalos, pero
ello depende del nmero de datos. Las observaciones agrupadas sacrican informacin
dependiendo de cmo las observaciones se distribuyan dentro de cada clase. Por un lado,
un nmero limitado de intervalos (menos de 5) nos dara muy poca informacin
2. Se establecen los intervalos de clase, para lo cual se requiere obtener el primero de ellos.
Se elige el menor de los datos y se suma el valor del ancho. Al valor resultante se le vuelve
a sumar el ancho, y as sucesivamente hasta obtener el nmero de clases establecidos.
Cada intervalo de clase, como podemos observar, presenta dos valores que se pueden su-
perponer. Para evitar que ello ocurra, deben contarse las observaciones iguales o mayores
al valor de la izquierda del intervalo y las menores al valor de la derecha. Se denota con X
el valor de la observacin, por lo que la representacin formal en trminos matemticos de
un intervalo de clase es:
valor izquierdo X < valor derecho
3. Se cuenta el nmero de observaciones que caen dentro del intervalo de clase. A este nmero
se le conoce como frecuencia.
12 2. Organizacin y descripcin de datos
La tabla frecuencias es una clasicacin de datos y permite tener una mejor idea acerca
de los datos iniciales. Adems, los valores de las frecuencias individuales se ven inuidos por el
tamao de la muestra, pues cuando las muestras son grandes, las frecuencias individuales sern
mayores que cuando son pequeas. La comparacin entre diferentes muestras se vuelve compli-
cada; tambin se convierte en difcil de interpretar y comprender la problemtica planteada, por
ello, se recurre al concepto de frecuencia relativa.
La frecuencia relativa de una clasicacin de datos es el nmero de veces que una ob-
servacin cae sobre una clase, y representa una proporcin del nmero total de datos. Por esta
razn, la frecuencia relativa se expresa en fracciones, decimales o porcentajes.
El clculo de la frecuencia relativa se obtiene empleando la expresin:
f recuencia
f recuencia relativa =
total
2.1.2 El Histograma
Una vez capturados los datos en la hoja de datos, se pulsa la opcin Grcas y aparece el
histograma Figura 2.3. Aparece una hoja que contiene la o las variables que se desean estudiar,
en este caso el nmero de palabras recordadas por 100 personas. Se completan los espacios, en
datos se escribe el nombre de la variable, los nombres de las clases es opcional y deben estar en
una columna. Se escoge el nmero de intervalos que se deseen obtener.
El histograma es una grca de barras que consiste bsicamente de un conjunto de rectngulos.
Su forma est determinada por tres elementos: el nmero de rectngulos, el ancho y la altura
de stos. En esencia, el histograma es una representacin visual de la tabla de frecuencias. En
ese sentido, el nmero de barras (rectngulos) corresponde al nmero de clases. El ancho del
rectngulo corresponde al intervalo de clase y la altura es la frecuencia. El histograma y la tabla
de frecuencias del conjunto de datos son una estrategia conjunta para organizar y describir los
datos de una muestra.
bajo la distribucin queda sobre cierto intervalo, entonces 25% (0.25) de las observaciones caen
en ese intervalo. En ese sentido, el rea total de las barras es igual al 100% (1).
Interpretacin: aproximadamente el 10% de personas recuerda entre 9 y 10 palabras, lo que
resulta una cantidad pequea de la poblacin. El 21% de los entrevistados recuerda muy pocas
palabras 5 o menos. Qu cantidad de palabras recuerda el 50% de personas? El histograma de
frecuencias relativas reeja esta situacin en la Figura 2.4 se presentan de manera conjunta los
dos histogramas:
Figura 2.7: Grcas que ilustran los polgonos de frecuencia, tambin conocidos como ojivas.
plantearse algunas preguntas que resultan interesantes para realizar una interpretacin de una
muestra de datos. Por ejemplo, podramos preguntarnos a qu valor de los datos le corresponde
75%?
Con la informacin que se proporciona en la Figura 2.2 se facilita la construccin del his-
tograma de frecuencias acumulado y del polgono de frecuencias relativas en forma acumulada.
Vase la ltima columna de esa gura, donde se observa cmo se han utilizado estos datos para
elaborar la grca poligonal de la izquierda en la Figura 2.7, ah se muestra el polgono que des-
cribe las frecuencias relativas acumuladas; ste es el ms utilizado en la prctica. En esa grca
se han trazado los porcentajes correspondientes a las personas que recordaron 5 o 7 palabras.
El polgono de frecuencias relativas acumuladas tambin recibe el nombre de ojiva . As cuando
se requiera construir la ojiva de un conjunto de datos, lo que se desea es trazar el polgono de
frecuencias relativas acumuladas. En la grca a la derecha de la Figura 2.7 se compara ese pol-
gono de frecuencias relativas con la distribucin acumulada de la normal estndar: distribucin
terica. Nota: El polgono de frecuencias relativas que proceden de los datos de una muestra se
llama tambin distribucin emprica.
2.1. Presentacin 17
Varias de estas opciones se ilustrarn utilizando 125 datos que corresponden al tiempo en que
una muestra de estudiantes completaron un rompecabezas electrnico de la Repblica Mexicana
. Los datos estn en el cuadro de abajo, en CalEst se abre un archivo y en una columna se
capturan estos.
El objetivo es ilustrar la elaboracin de la grca de tallo y hoja. Esta es una grca que
permite complementar el estudio descriptivo de los datos. Es una grca alternativa al his-
tograma. Con estos datos a continuacin se elabora un diagrama de tallo y hoja, la nalidad de
este diagrama es describir a la vez una tabla de frecuencias y un histograma, ste se presenta en
la Figura 2.8.
Se ilustrar la construccin del diagrama de tallo y hoja considerando los nueve datos corre-
spondientes a la muestra de la produccin de maz en un rea de 100m2 . El peso del maz para
cada muestra es: 312, 324, 310, 314, 322, 328, 316, 314, 324 toneladas. Antes de elaborar este
diagrama, se dar una idea general de cmo se forman el tallo y la hoja.
La idea principal es partir cada nmero para formar primero el tallo y luego la hoja. En
general, donde se hace la particin depende del rango de los datos. Para jar ideas considere el
nmero 310, el cual se parte en dos cifras, 31 y 0. 31 representar al tallo y el 0 a la hoja. En la
representacin se escribe el 31 a la derecha separndolo con un espacio, que aqu se resalta con
una lnea vertical, y el 0 del lado izquierdo. Esto es:
31 j 0
Paso 2. Se consideran todos los datos de manera integral. Los nmeros candidatos para el
tallo en estos datos son el 31 (para los nmeros 310, 312, 314, 316) y 32 (para los nmeros 322,
324, 328); as:
Paso 3. Se incorpora la otra parte del nmero partido; as, se anexan 0, 2, 4, 4 y 6, que son
la parte correspondiente del 31, o sea:
Paso 4. Se agrega la parte dividida correspondiente al nmero 32; as la grca queda como
sigue:
2.1. Presentacin 19
Cabe observar que en este ejemplo, el ancho de los intervalos de clase es de 10 unidades
(de 310 a 320). Adems se puede resaltar que la realizacin del paso 1 facilita la construccin
del diagrama.
Supongase que el ancho de intervalos sea de tan slo 5 unidades (310 a 315, 315 a 320, y
as sucesivamente). Para construir el diagrama de tallo y hoja con 5 unidades, se pone el 31 dos
veces en el tallo. As, en la hoja del primer 31 del tallo, se consideran los nmeros menores que
5, que en este caso sern 310, 312, 314 y 314. En el segundo tallo los nmeros mayores o iguales
que 5 y menores o iguales que 9, esto es, el 316 del ejemplo. De manera anloga se procede para
el otro nmero del tallo. En este caso el diagrama es:
Con el auxilio de esta grca se tendr una idea general de la distribucin de los datos.
Establecer una unidad ayuda en la construccin de un diagrama de tallo y hoja. Por lo general,
sta debe aparecer en la parte superior del diagrama. Por ejemplo:
En este caso la unidad que se lee indica que la particin se da entre diez de miles y los miles.
De este modo si el nmero con tallo fuera 9 y el de la hoja 6 se leera como 96000.
En contraste si dice:
Esto signica que el nmero con tallo 9 y hoja 6 se leera como 0.096.
Distribucin emprica
En la Figura 2.8 se muestra una aparente simetra en la distribucin de los datos. Con el propsito
de ilustrar la utilidad del polgono de frecuencias acumulado en la descripcin de los datos se
describe este en la grca izquierda de la Figura 2.9. La grca a la derecha muestra el mismo
polgono comparado con distribucin de probabilidad normal. Esta situacin permite evaluar de
manera descriptiva si los datos se ajustan a una distribucin de probabilidad normal.
20 2. Organizacin y descripcin de datos
Figura 2.9: Polgono de frecuencias acumulado izquierda, este mismo comparado con la normal.
2.1.6 Ejercicios.
1. Para el conjuntos de datos del ejemplo 2:
(c) Verique que tan simtrica es la distribucin comparndola con una distribucin nor-
mal
(d) Elabore un diagrama de tallo y hojas.
(e) En qu conjunto de datos hay mayor variabilidad en los del ejercicio 1 o los del ejercicio
2.
(f) Si se aplica este mismo rompecabezas a 1000 personas con las mismas caractersticas
de esta muestra, cuntas tardarn en resolverlo en menos de 500 segundos?
(e) Si se muestra este mismo cuadro a 1500 personas con las mismas caractersticas de
esta muestra, cuntas tardarn en encontrar la cara en menos de 30 segundos?
En este caso, hay que construir el diagrama de tallo y hoja para este conjunto de datos e
interpretarlo.
22 2. Organizacin y descripcin de datos
Captulo 3
Estadsticas
Ejemplo 1
Un socilogo ha realizado un estudio para conocer la edad en la cual contraen matrimonio las
mujeres que radican en una ciudad determinada. Del registro civil obtuvo una muestra aleatoria
de 120 parejas. Es de inters conocer Cul es la media o la mediana en la que una mujer se
casa? Qu porcentaje de mujeres se casa cuando tiene 20 aos o menos? Qu tanta variacin
de edad existe entre las mujeres que se casan? Qu diferencia existe entre la edad mxima y
mnima para casarse? A qu edad se casan al menos el 25% de las mujeres?
Datos: Los datos relacionados con esta investigacin aparecen en el archivo DatosEjem-
plo1.TAB en la columna edad. Para poder responder a estas preguntas aplicamos la opcin
Estadstica y luego Numrica en CalEst, a continuacin aparecen las tres clases de mediciones
como se ilustra en la Figura 3.1.
A continuacin se explica el procedimiento para obtener esta informacin y sobre todo es
relevante interpretar estos resultados.
Denicin. Dado una coleccin de n valores de una variable, la media aritmtica es una medida
de tendencia central que se obtiene sumando cada uno de estos valores y el total de esta suma
se divide por n. En general a esta medida se le conoce como la media. La frmula para calcular
la media de la poblacin y de la muestra son:
23
24 3. Estadsticas
P
N P
n
xi xi
i=1 i=1
poblacin = ; muestra x =
N n
Ejemplo 2
Se tom una muestra de siete farmacias para conocer el precio en pesos de una medicina, los
datos son: 510, 850, 480, 420, 445, 495 y 500.
Solucin
La suma del precio de las siete farmacias es:
n
X
xi = 510 + 850 + 480 + 420 + 445 + 495 + 500 = 3700
i=1
P
n
xi
i=1 3700
x= = = 528:6
n 7
25
La mediana
Denicin. Dado una coleccin de n valores de una variable, la mediana es una medida de
tendencia central cuyo valor est en la mitad de los n datos ordenados de menor a mayor.
Si el nmero de datos es impar, la mediana es el dato que est situado a la mitad. Si el
nmero de datos es par, la mediana es la media de los dos datos que estn situados a la mitad.
Ejemplo 3
Encontrar la mediana del precio en pesos de una medicina de las farmacias en el ejemplo 1.
Solucin
Para encontrar la mediana se ordenan los datos 510, 850, 480, 420, 445, 495 y 500 de menor a
mayor.
Sitio 1 2 3 4 5 6 7
Orden 420 445 480 495 500 510 850:
Son siete datos, por lo que se tiene un nmero impar, la mediana es el dato situado a la mitad,
esto es: m
e = 495. Con el smbolo m
e se representa la mediana. En la mitad de las farmacias la
medicina cuesta menos de 495 pesos.
Ejemplo 4
Una compaa que manufactura un pesticida estudia el nmero de insectos que aniquila una dosis
especca del insecticida. Se realizan 10 pruebas. En cada una de ellas, el nmero de insectos
muertos de 40 son:
19; 22; 34; 28; 18; 16; 25; 27; 31; 30
Solucin
A partir de la denicin se ordenan los datos de menor a mayor y se identica el lugar que
ocupan.
Sitio 1 2 3 4 5 6 7 8 9 10
Orden 16 18 19 22 25 27 28 30 31 34
Puesto que el nmero de datos es par la mediana es la media de los datos situados en los
lugares 5 y 6, es decir 25+27
2
= 26:
26 3. Estadsticas
La moda
Denicin. Dado una coleccin de n valores de una variable, la moda es una medida de
tendencia central, y es el valor que ocurre con mayor frecuencia.
Cuando dos valores aparecen con la misma frecuencia, cada uno es una moda y el conjunto
de datos es bimodal.
Cuando ms de dos valores se tienen con la misma frecuencia, cada unos es una moda y el
conjunto de datos es multimodal.
Cuando no hay valores repetidos, se dice que los datos no tienen moda.
1
El recproco de un nmero X es
X
1 1 1
El recproco de n nmeros X1 ; X2 ; :::; Xn es ; ; :::;
X1 X2 Xn
n
1X 1
La media de estos recprocos es
n i=1 Xi
1
El recproco de la media es P
n
1 1
n Xi
i=1
La media armnica
La media armnica (denotada por la letra H) de un conjunto de datos X1 ,X2 ,...,Xn es el recproco
de la media aritmtica del recproco de esos datos.
1 n
H Pn = P
n
1 1 1
n Xi Xi
i=1 i=1
27
La media geomtrica
Si algunos valores son muy grandes en magnitud y otros son pequeos, entonces la media geo-
mtrica es una medida que representa los datos mejor que la media.
Si hay n observaciones X1 ; X2 ; :::; Xn la media geomtrica G de un conjunto de datos es la
raz ensima del producto de esos datos.
p
n
G= X1 X2 :::Xn
Por lo general, la media geomtrica se utiliza cuando los valores de la variable siguen una
progresin geomtrica, o cuando se necesitan promediar porcentajes, tasas, ndices, etc., siempre
que vengan dados en porcentajes.
Rango
El rango es una de las medidas ms sencillas para expresar la dispersin de los datos. Tan slo
se requiere considerar los valores mximo y mnimo de las observaciones.
Ejemplo 5
Consumo 416 378 390 454 472 413 440 441 379 421
Solucin
Se ordenan de menor a mayor ese conjunto de datos:
Consumo 378 379 390 413 416 421 440 441 454 472
28 3. Estadsticas
Como se ha visto el rango slo requiere de dos datos para obtener su valor. La varianza y
la desviacin estndar son dos medidas para la variacin que utilizan todos los datos de la
informacin. Primero se necesita comprender la desviacin de cada una de las entradas de los
datos.
Desviacin
La desviacin de la entrada x en una muestra aleatoria de un conjunto de datos es la
diferencia entre cada entrada y la media X del conjunto de datos.
P
n 2
Xi X
i=1
S2 =
n 1
Ejemplo 6
Calcular la varianza para los datos del ejemplo 5. En la Tabla 1 se han calculado los cuadrados
de las desviaciones y luego se sumaron, as la varianza es:
P
n 2
Xi X
i=1 9110:40
S2 = = = 1012:267
n 1 10 1
P
n 2 P
n 2
Xi X Xi2 X
i=1 i=1
S2 = =
n 1 n 1
Observaciones
Para encontrar el promedio de la suma de cuadrados, se ha dividido entre n 1 y no exactamente
entre n. Esto se debe a dos razones. La primera es que, como se ve en la segunda columna de
la Tabla 1, la suma de las desviaciones es cero. Esto quiere decir que cualquier desviacin se
puede encontrar a partir de las nueve desviaciones restantes. De modo que el valor de la suma
de cuadrados depende slo de nueve desviaciones que son la libertad de variar de una muestra
a la siguiente. En general, se dice que la suma de cuadrados tiene n 1 grados de libertad.
La segunda razn es tema de la inferencia estadstica, y se puede decir que dividir la suma
de cuadrados entre n 1 hace que la varianza muestral (estadstico) sea un mejor estimador
de la varianza poblacional (parmetro). sta ltima se expresa mediante la letra griega sigma
minscula elevada al cuadrado, 2 .
La varianza 2 de la poblacin se dene por:
P
N
(Xi )2
i=1
2 =
N
Donde es la media de la poblacin y N es el tamao de la poblacin.
v v
uP 2 uP
u n u n 2 2
u Xi X u Xi X
t t
S = i=1 ; o S = i=1
n 1 n 1
Para los datos del ejemplo 6 se saca la raz cuadrada y se obtiene el valor de S; as:
v
uP 2
u n r
u Xi X
t i=1 9110:40 p
S= = = 1012:267 = 31:816
n 1 10 1
La desviacin estndar:
La desviacin estndar muestral (S) es la raz cuadrada positiva de la varianza.
La desviacin estndar de la poblacin se denota por :
v
uN
uP
u (Xi
t i=1 )2
=
N
La desviacin media
Una medida que se menciona y aparece en muchos estudios es la desviacin media (DM ), la cual
consiste en sumar el valor absoluto de la desviacin. Por el momento slo se dir aqu que, debido
a propiedades matemticas se usan la varianza y desviacin estndar con mayor frecuencia.
n
P
Xi X
i=1
DM =
n
n
P
Xi X
i=1 252
DM = = = 25:2
n 10
31
Una medida que permite comparar la variacin en diferentes poblaciones se conoce como el
coeciente de variacin. Esta medida no tiene unidades.
Coeciente de variacin
El coeciente de variacin muestral (CV) describe la desviacin estndar S
relativa a la media X y se expresa en porcentaje (%).
muestra poblacin
S
CV = X
100% CV = 100%
S 31:816
CV = 100% = = 7:57%
X 420:4
Primer cuartil C1
El primer cuartil es el valor de los datos ordenados que representa al 25%, es decir:
al menos el 25% de los valores de datos ordenados son menores o igual a C1 y al
menos 75% de los valores son mayores o iguales a C1 :
Segundo cuartil C2
El segundo cuartil es el valor de los datos ordenados que corresponde a la mediana.
Tercer cuartil C3
El tercer cuartil es el valor de los datos ordenados que representa al 75%, es decir:
al menos el 75% de los valores de datos ordenados son menores o igual a C3 y al
menos 25% de los valores son mayores o iguales a C3 :
Ejemplo 7
Un profesor de historia aplica un cuestionario a sus alumnos sobre temas de historia universal y
nacional, el cuestionario es 20 preguntas de opcin mltiple. Los resultados de una muestra de
esos 15 alumnos son: 16, 9, 13, 15, 16, 19, 8, 11, 12, 6, 20, 17, 10, 18, 5.
Posicin 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Orden 5 6 8 9 10 12 12 13 15 16 16 17 18 19 20
C1 C2 C3
As, menos un cuarto de alumnos tiene 9 o menos aciertos. La mitad tiene 13 aciertos y 75%
tiene 17 o ms aciertos.
Ejemplo 8
Variable M in M ax C1 C2 C3
Tiempo 474 524 491 499 509
Ejercicios
1. El gasto (pesos) de transporte que realizan en una semana una muestra de 40 familias se
muestra a continuacin:
43; 52; 63; 55; 66; 78; 79; 87; 42; 43; 44; 49; 52; 53; 53; 53; 64; 58; 76; 78
70; 78; 86; 87; 90; 81; 84; 85; 97; 79; 88; 96; 91; 92; 89; 94; 60; 85; 85; 97:
(b) Cul de las dos medidas dan mejor indicacin de la prdida de calcio?
3. Para estimar el nmero de rboles de caf en una granja, el agrnomo divide la granja en
1000 pequeas parcelas. l selecciona de manera aleatoria 20 de estas parcelas y cuenta el
nmero de rboles. Los resultados son: Calcula el rango y el rango intercuartil para este
conjunto de datos. Qu informacin adicional le proporciona este nuevo clculo, unido al
de la media, la mediana y al primer y tercer cuartil?
41 56 47 59 24 37 23 53 44 43
62 28 54 41 30 44 52 69 34 46
4. Al inicio del semestre un profesor realiza una prueba para evaluar la lectura de comprensin
a una muestra de 20 alumnos. Se calica sobre 100, y los resultados de la prueba se
describen a continuacin:
24 31 54 62 36 28 37 55 18 27
58 32 37 41 55 39 56 42 29 35
64 71 81 43 69 75 86 58 63 66 82 62 79
91 83 55 68 74 48 66 84 77 73 59 55
(a) El tiempo que emplearon los 22 estudiantes del primer grupo en contestar las preguntas
se muestra a continuacin:
95; 85; 87; 82; 98; 92; 92; 97; 103; 92; 94; 94; 94; 75; 98; 90; 100; 92
91; 92; 100; 87:
122; 116; 120; 121; 120; 115; 118; 115; 113; 112; 117; 115; 122; 119
119; 126; 117; 118; 120; 123; 120; 125; 112:
(d) Trace los diagramas de caja para cada caso y haga un anlisis comparativo.
6. Una empresa que elabora alimentos procesados realiza pruebas para determinar la vida de
anaquel de un nuevo producto. En el estudio se consideran 21 productos. El nmero de
das que duraron los productos sin descomponerse se presenta en el siguiente cuadro.
152; 152; 115; 109; 137; 88; 94; 77; 160; 165; 125; 40; 128; 136; 101;
62; 153; 83; 69; 132; 120:
7. Los mdicos de una clnica probaron dos tratamientos para reducir los niveles de colesterol.
El tratamiento 1 se aplic a 13 pacientes. El nivel de colesterol se midi antes de la
aplicacin y despus de ella. Los datos que indican la reduccin son:
54; 39; 44; 53; 56; 66; 34; 61; 36; 67; 32; 22; 40:
40; 31; 50; 40; 52; 44; 74; 38; 81; 64; 66:
(a) Calcule desviacin media, la varianza y la desviacin estndar para el primer tratamiento.
(b) Calcule desviacin media, la varianza y la desviacin estndar para el segundo tratamiento.
Probabilidad
En esta parte se presentarn los conceptos bsicos de probabilidad para conocer sus deniciones
y las propiedades. En la parte de herramientas en el CalEst en la opcin didctica se describen
una serie de elementos para motivar el aprendizaje y comprensin de la probabilidad. En la
Figura 4.1 se describen estas alternativas.
Con la nalidad de comprender cmo funciona esta opcin didctica, a continuacin se des-
cribirn, denirn e ilustrarn algunos de los conceptos bsicos en probabilidad.
Objetivo:
37
38 4. Probabilidad
Ejemplo 1
Una experiencia aleatoria consiste en preguntar a una persona, elegida al azar de un grupo de
10 clientes, si es partidaria o no de consumir un determinado producto. Los sucesos aleatorios
en este caso son dos: es partidaria, no es partidaria.
Denicin
A la coleccin, o al conjunto de todos los resultados posibles distintos que pueden ocurrir
cuando un experimento es efectuado se le llama espacio muestral para el experimento.
Esta coleccin de resultados tiene la propiedad de que cuando el experimento es
efectuado, uno y solo uno de estos resultados puede ocurrir.
4.1. Espacio muestral y eventos 39
Ejemplo 2
Considere el experimento de lanzar una moneda. Existen dos resultados posibles: cara, sello.
Identicar los sucesos elementales y escribir el espacio muestral. Usar la opcin de volados en
CalEst.
Solucin
Los sucesos elementales son: e1 = cara; e2 = sello:
M = fe1 ; e2 g
Ejemplo 3
Solucin
Los sucesos elementales son 5 resultados posibles: e1 = A; e2 = B; e3 = C; e4 = D; e5 = E: Todos
los resultados posibles para los 50 estudiantes se representan en el conjunto:
M = fe1 ; e2 ; e3 ; e4 ; e5 g
Un suceso compuesto es fe4 ; e5 g , que consta de dos sucesos elementales. En el contexto del
ejemplo se puede referir a que los alumnos que obtengan una calicacin en las categoras D y
E tienen que entregar un trabajo extra para aprobar el curso. Como analoga a este ejemplo se
pueden usar las ruletas (F), luego seleccionar una ruleta con 5 opciones. En este caso cada una
de las categoras tiene la misma probabilidad de ocurrir. En otro caso usar una de las ruletas
aleatorias (A).
En resumen:
Se dice que un experimento es aleatorio si se cumplen los siguientes puntos:
Ejemplo 4
Se describen varios casos de experimentos aleatorios, sealando todos sus posibles resultados.
Ejemplo 5
En un estudio sobre el hbito de lectura de jvenes entre los 15 y 20 aos se estim que 50% no
lee un libro (ciencia ccin, divulgacin, novela, literario, otros gneros atractivos) durante las
vacaciones de verano. Al regreso a clases se seleccion de manera aleatoria a tres estudiantes y
se les pregunt si haban ledo en las vacaciones. En la raya responde S o No a la siguiente
pregunta: Leste un libro en estas vacaciones?
Solucin
La segunda parte del ejemplo consiste en obtener los diferentes eventos. stos se obtienen
a partir del espacio muestral . De los resultados se construye cada uno de los eventos. As:
A = f(ssn); (sns); (nss)g
B = f(snn); (nsn); (nns)g
C = f(sss)g
D = f(sss); (ssn); (sns); (snn); (nss); (nsn); (nns)g
Nota 1: En la construccin del espacio muestra de este ejemplo, se puede tener como analoga
el lanzamiento de monedas, ir a la opcin de volados para generar el espacio muestra: tres
monedas en este caso. Si cambia el valor de p = 0:5 ir a la opcin volados (binomial) y en el caso
de n > 20 ir a la distribucin binomial.
Nota 2: Para ver otras ramicaciones ver la opcin de rboles.
42 4. Probabilidad
Denicin
Un evento es una coleccin, o el conjunto de alguno de los resultados posibles
de un espacio muestral. Dicho de otra manera, un evento es un subconjunto del
espacio muestra. Se dice que un evento ocurre si, al realizar un experimento, uno
y solo uno de los resultados que lo componen ocurre.
Probabilidad Emprica
Se realiza un experimento, y se cuenta el nmero de veces que el evento A ocurre.
La probabilidad emprica del evento A es la frecuencia relativa de A, as P(A) es:
Lanzamiento dado De la Figura 4.3, considere, por ejemplo, el evento A = fel dado muestre
el nmero uno}. Se observa que la probabilidad emprica de A es P (A) = 50
250
= 0:2: Si el
experimento de lanzar el dado es repetido una y otra vez, la probabilidad emprica de un evento
se aproxima a la probabilidad terica del evento.
Lanzamiento moneda Al lanzar una moneda muchas veces, n es grande, se puede observar
una estabilizacin de la frecuencia relativa, eso da lugar a lo que se conoce como frecuencia
relativa, o la ley de los grandes nmeros. A nivel de prctica puede realizar el lanzamiento de la
moneda en el bloque didctica del CalEst. Observe que el espacio muestral es M = f
aguila; solg,
se pueden lanzar un nmero de monedas que va desde una hasta cien, repetir el procedimiento las
veces que se desee. En la Figura 4.4 se ilustra el lanzamiento de 200 monedas. La probabilidad
de obtener un guila P (
aguila) se aproxima a 0.5.
Nmero de resultados de A s
P (A) = =
Nmero de resultados en el espacio muestral n
El espacio muestra en lanzamiento del dado es M = f1; 2; 3; 4; 5; 6g el evento A de que la cara
del dado caiga en el nmero 1: A = f1g; se sigue que P (A) = 1
6
= 0:1666:
En resumen:
La probabilidad satisface las siguientes propiedades:
Regla aditiva
Regla aditiva
Consideremos dos eventos A y B. Entonces
P (A [ B) = P (A) + P (B) P (A \ B)
donde P (A \ B) denota la probabilidad que A y B ocurren a la vez como un resultado
en la prueba experimental
4.2. Probabilidad de un evento 45
Ejemplo 6
3 2 1 4
P (A [ B) = P (A) + P (B) P (A \ B) = + = :
6 6 6 6
Denicin:
Dos eventos A y B son ajenos o mutuamente excluyentes
si entre ellos no hay un resultado comn y
P (A \ B) = 0
El complemento del evento A se denota por Ac , consiste de todos los resultados en los que el
evento A no ocurre. As P (A) + P (Ac ) es la suma de las probabilidades, los sucesos elementales
que estn en A ms la suma de las probabilidades de los sucesos elementales que no est
an en
A. Juntando estos dos eventos se forma el espacio muestral M y P (M ) = 1. En consecuencia,
P (A) + P (Ac ) = 1 .
Los diagramas de Venn son un auxiliar grco para representar un evento. En la Figura 4.5 se
utilizan los diagramas de Venn para representar la relacin de eventos.
En el bloque didctica en CalEst est la opcin de lanzar dos dados, en la Figura 4.6
aparece la descripcin del espacio muestral, la estimacin de probabilidad emprica, el clculo
de probabilidad clsica para los eventos simples y el casino donde se puede generar varios cl-
culos de probabilidades aplicando las reglas. Por ejemplo, cul es la probabilidad de que al
lanzar dos dados ambos sean iguales o que la suma sea 7? El evento A ambos dados mar-
que el mismo nmero, A = f(1; 1); (2; 2); (3; 3); (4; 4); (5; 5); (6; 6)g -observe el espacio muestra
46 4. Probabilidad
Figura 4.5: Representacin grca de las relaciones bsicas entre dos eventos.
Figura 4.6. El evento B los datos suman 7: B = f(1; 6); (2; 5); (3; 4); (4; 3); (5; 2); (6; 1): As
P (A [ B) = P (A) + P (B) = 6
36
+ 6
36
= 13 : Los eventos A y B son mutuamente excluyentes.
Se formula la regla para la suma de eventos excluyentes:
Eventos independientes
La probabilidad de que ocurra el evento A no afecta la probabilidad de que
suceda B. En este caso, se dice que los eventos A y B son independientes:
Si los eventos A y B son independientes, entonces P (A \ B) = P (A)P (B):
Ntese que
4.2. Probabilidad de un evento 47
P (A \ B) P (B \ A)
P (AjB) = ; o P (BjA) = :
P (B) P (A)
48 4. Probabilidad
Figura 4.7: Espacio muestra y clculo de probabilidades para una moneda y un dado
Una moneda (cara, sello) y un dado de seis caras son lanzados, Figura 4.7. Encontrar la
probabilidad de obtener una cara al lanzar la moneda y que el dado caiga en seis. El espacio
muestra es:
M = fc1; c2; c3; c4; c5; c6; s1; s2; s3; s4; s5; s6)
1 1 1
P (A y B) = P (A)P (B) = = ' 0:083
2 6 12
As la probabilidad de que al lanzar la moneda salga cara y al tirar el dado marque 6 es aproxi-
madamente 0.083.
En la Figura 4.8 se muestra una opcin para el clculo de probabilidades, en esta se tienen tres
dados. Con el signo ms se considera los dados que se lanzan, as por ejemplo en esa gura se
describe el lanzamiento de dos dados, uno de cuatro lados y otro de 12, existen 48 posibilidades
4.2. Probabilidad de un evento 49
1 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 7 8 9 10 11 12 13
2 3 4 5 6 7 8 9 10 11 12 13 14
3 4 5 6 7 8 9 10 11 12 13 14 15
4 5 6 7 8 9 10 11 12 13 14 15 16
En la hoja se presenta el espacio muestra que indica la suma de los nmeros que marcan los
dados. En este caso se puede preguntar por la probabilidad de que la suma de los dados sea un
nmero primo, es decir P (la suma sea un nmero primo) = 19
48
:
Usando estos dados se pueden organizar varias prcticas para el clculo de probabilidades.
Nota. Apretando el signo ms con el botn del ratn, se activa un dado, con el signo menos
se quita el dado.
Ejemplo 7.
Se lanza de manera independiente dos dados, el primero de 4 caras y el segundo de doce caras,
en ambos casos se observa el nmero que cay.
50 4. Probabilidad
Ejercicio 1
a.- Se lanza un dado de seis caras. encuentre la probabilidad en cada uno de los siguientes
eventos
b.- Evento A: Caiga un 3,
f.- Use el simulador de lanzamientos de dados en CalEst, slo se pueden lanzar de 100 en 100.
Si se lanza un dado, cien veces, mil veces, cinco mil veces escriba las frecuencias registradas
y complete la tabla, qu puede concluir?
X 1 2 3 4 5 6
F recuencia(100)
F recuencia(1000)
F recuencia(5000)
Ejercicio 2
Considere el experimento de lanzar un par de dados, suponga que X es la suma de los valores que
marcan al caer. En la siguiente tabla se resumen los resultados y las probabilidades relacionadas.
X 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 5 4 3 2 1
P (X = x) 36 36 36 36 36 36 36 36 36 36 36
a.- Use la opcin de grcas en el programa y trace el diagrama de barras para estos valores.
Estime las probabilidades P (X 11) y P (X 2):
b.- Considere los eventos E obtener una suma que sea un nmero par y F obtener una suma que
sea un nmero primo. Hallar la probabilidad P (E [ F ) y P (E [ F ):
4.2. Probabilidad de un evento 51
c.- Use el simulador de lanzamientos de dados en CalEst, slo se pueden lanzar de 100 en 100.
Si se lanza el par de dado, cien veces, mil veces, cinco mil veces escriba las frecuencias
registradas y complete la tabla, qu puede concluir?
X 2 3 4 5 6 7 8 9 10 11 12
F recuencia(100)
F recuencia(1000)
F recuencia(5000)
Ejercicio 3
El juego craps consiste en lanzar dos dados, referencia ejercicio anterior, este considera las reglas
que a continuacin se describen.
e.- Cul es la probabilidad de obtener una suma menor que 13 en cualquier tirada?
f.- Si los dados se tiran 60 veces, estime cuntas veces se obtendr una suma de 7?
Ejercicio 4.
Se lanzan dos dados y se calcula la diferencia entre los valores de mayor a menor situacin que
se describe en la siguiente tabla:
X 0 1 2 3 4 5
6 10 8 6 4 2
P (X = x) 36 36 36 36 36 36
a.- Use la opcin de grcas en el programa y trace el diagrama de barras para estos valores.
Estime las probabilidades P (X 5) y P (X 1):
b.- Pedro y Pablo juegan a los dados y calculan la diferencia tal como se ha descrito. Pedro gana
si la diferencia es 0, 1, o 2. Pablo gana si la diferencia es 3, 4 o 5. Cul es la probabilidad
de que Pedro gane? Cul es la probabilidad de que Pablo gane?
52 4. Probabilidad
Ejercicio 5.
X 2 3 4 5 6 7 8 9 10
P (X = x)
Ejercicio 6.
X 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
P (X = x)
Sea E el evento que el primer dado sea mayor que 3, calcule P (E).
Figura 4.9: El caso de dos ruletas con cuatro colores, tambin se puede considerar el caso de la
combinacin de nmeros y letras.
Ejemplo 8
Cul es la probabilidad de que ambas ruletas tengan el mismo color? Se tienen que se
repiten 4 colores de 16 resultados posibles entonces P (E : mismo color) = 4
16
= 0:25
Cul es la probabilidad de que al menos una de las ruletas sea azul? En el espacio muestra
se cuenta en el nmero renglones que tienen al menos un azul, de estos hay 7, as P (F : al
menos una es azul) = 7
16
= 0:4375
Considere los nmeros y las letras en la primer y segunda ruleta respectivamente, ahora
se denen los evento E como los nmeros: E = f1; 2; 3; 4g; y el F como las letras: F =
fA; B; C; Dg. Cul es la probabilidad de que al girar ambas ruletas la echa marque un
nmero par y una consonante? R: rojo y A: amarillo corresponden a los nmeros pares
y R: rojo, V: verde y A: amarillo se asocian a las consonantes, de esa manera se tiene
H = f(R; V ); (A; A); (R; A); (A; R); (R; R); (A; V )g de manera equivalente el evento H se
escribe por H = f(2; C); (4; D); (2; D); (4; B); (2; B); (4; C)g. Entonces la probabilidad es
0.375, o sea P (H) = 0:375
54 4. Probabilidad
Ejercicio 7
Use la opcin de ruletas, considere slo una de ellas y divdela en nueve partes iguales. Tome
en cuenta los nmeros en cada color y sean los eventos E: obtener un nmero par y G: obtener
un nmero divisible entre 3, es decir: E = f2; 4; 6; 8g; G = f3; 6; 9g: Calcule las siguientes
probabilidades: a.- P (E [ G); b.- P (E); c.- P (E \ G); d.- P (Factor de 35); e.- P (6 o 2):
Ejercicio 8
Utilizar las ruletas de la opcin 1, con cuatro grupos cada una de ellas. Supngase que se asignan
los valores 3 al azul, 4 al rojo, 5 al verde, 6 al amarillo. Se plantea construir una fraccin, para
ello realice el siguiente experimento, el valor que marque la echa en la ruleta superior pngalo
en numerador y el valor que marque la otra ruleta pngalo en el denominador. Cul es la
probabilidad de que la fraccin sea mayor que 32 ?
Ejercicio 9
Con las ruletas: Un experimento consiste en girar la ruleta superior dividida en cuatro considere
los nmeros 1, 2, 3 y 4, despus gire la ruleta de abajo donde el azul o letra A vale 1 y el rojo o
letra B vale 2. Cul es la probabilidad de que a.- el nmero en la ruleta superior sea mayor que
en la ruleta inferior, b.- en ambas ruletas sea un nmero par, c.- el resultado sean dos enteros
consecutivos en cualquier orden?
Ejercicio 10
En referencia a las dos ruletas se divide cada una de ellas en 3 grupos, a los colores se les asignan
valores como se indica a continuacin: en la ruleta de arriba los colores azul, verde y rojo valen
4, 8 y 6 respectivamente, de manera equivalente en la ruleta de abajo los colores azul, verde y
rojo valen 10, 3 y 5. Se plantea realizar un juego, este consiste en que la ruleta que tenga el
nmero mayor gana, si se desea ganar Qu ruleta escogera? Por qu?
Ruleta 2
Ejercicio 11
Relacionada con la Figura 4.10 a.- Cul es la probabilidad que al girar ambas ruletas la echa
marque el color negro en la primera y color verde en la segunda? b.-Cul es la probabilidad de
que la primer ruleta no se detenga en el negro? c.- Cul es la probabilidad de que en la segunda
ruleta no pare en el verde? d.- Cul es la probabilidad de que ambas ruletas la echa marque
4.2. Probabilidad de un evento 55
azul? e.- Cul es la probabilidad de que en la primera ruleta se pare en amarillo o la segunda
se detenga en verde?
Ejercicio 12
Use esta segunda opcin de ruletas en el programa, seleccione en la primera ruleta 2 grupos y en
la segunda 3 grupos en ambos casos idnticos.
2. Calcule las siguientes probabilidades de que a.- La primera sea roja y la segunda amarilla.
b.- La segunda no sea amarilla. c.- La primera sea azul y la segunda no sea amarilla. d.-
Ambas rojas.
3. 2.- Luego en el nmero de tiradas vaya haciendo de cien en cien hasta completar quinientos,
en cada caso observe la tabla de frecuencias utilice la ltima para estimar las probabilidades.
Estime la probabilidad, frecuencia de que a.- La primera sea roja y la segunda amarilla.
b.- La segunda no sea amarilla. c.- La primera sea azul y la segunda no sea amarilla. d.-
Ambas rojas.
Ejercicio 13
Con la segunda opcin de ruletas, dibuje las siguientes ruletas la superior con tres grupos el azul
con 59 ; el rojo con 2
9
y el verde con 29 : La segunda ruleta con dos grupos el azul con 6
11
y el rojo
con 5
11
:
3. Gire varias veces la ruleta, digamos unas 600 veces y vea la tabla de frecuencia, qu ruleta
tiene mayor posibilidad de ganar con el azul?
Ejercicio 14
Utilizando la segunda opcin de las ruletas simule la situacin de lanzar dos dados, es decir,
divida las ruletas en 6 partes iguales cada una. Luego gire varias veces de cien en cien y vea
las frecuencias generadas compare estos resultados con el lanzamiento de los datos. En este
caso se pueden buscar varias situaciones para generar clculo de probabilidades, por ejemplo la
probabilidad de que una de las ruletas sea roja y la otra azul, o una azul y la otra roja, equivale
a la probabilidad de que la suma de los dados sea tres.
Ejercicio 15
1. Simule salidas por las 5 rboles diferentes y estime el porcentaje de salidas al lanzar la
canica, 300, 1000, 2500, 5000 veces. Qu observa?
Ejemplo 9
Javier invit a tres amigos a jugar Wii, cada uno de ellos llevaba una gorra al entrar se la quitaron
y la pusieron en una silla. Cuando terminaron de jugar, Javier les di una gorra, al azar, a cada
uno de sus amigos. Cul es la probabilidad de que los tres recibieron su gorra? Para resolver
este ejemplo se usar la bolsa de canicas que viene en el grupo Didctica del programa. Ah
escogemos tres como se muestra en la Figura 4.12 a la izquierda para representar cada una de
las gorras.
Sugerencia para usar esta opcin, aparecen el nmero de canicas a extraer sin reemplazo o con
reemplazo. Por ejemplo, si selecciona extraer 3 canicas, aparecern tres signos de interrogacin,
este le permite seleccionar una de las posibles alternativas. Aparece la eleccin para que usted d
su respuesta o para ver la probabilidad que se describe en el cuadro del resultado. La opcin de
espacio muestra, en este caso, indica todas las posibilidades de seleccionar el nmero de canicas
que se pueden sacar. Para el ejemplo de las 3 canicas ste se describe a la derecha de la Figura
4.12, la extraccin se hizo sin remplazo. Primero usted puede dar su respuesta de probabilidad
y luego compararla al aplicar la opcin ver probabilidades, estas se presentan en el cuadro de
resultados.
La probabilidad de que los tres amigos recibieron su gorra es 1
6
= 0:167: Razonamiento:
suponga que A: canica azul (gorra amigo 1), R: canica roja (gorra amigo 2) y V: canica verde
(gorra amigo 3). En la primera extraccin cada una de las tres canicas tienen la misma posibilidad
de salir, una vez seleccionada una de estas en la segunda slo hay dos canicas, nalmente en la
4.2. Probabilidad de un evento 59
Figura 4.13: ARV todos reciben su gorra ( 16 ), al menos uno tiene su gorra ( 36 ), o nadie tiene la
gorra que traa ( 26 ).
tercera slo una se puede escoger, situacin que se describe en la Figura 4.13
Ejercicio 16
Se tiene una bolsa con tres canicas de color A: azul. R: rojo, V: verde, considere un experimento
en dos etapas como sigue: se extrae una canica de la bolsa y se registra el color. Despus se
repone la canica en la bolsa, se hace una segunda extraccin y se registra su color. Haga un
diagrama de rbol para representar esta situacin, verique sus resultados con los presentados
en el espacio muestra descrito en CalEst.
Determinar la probabilidad de que a.- ambas canicas sean rojas, b.- ninguna canica sea roja,
c.- al menos una canica sea roja, d.- a lo sumo una canica sea roja, e.- ambas canicas sean del
mismo color.
Ejercicio 17
Una bolsa contiene 5 canicas amarillas, 10 canicas rojas. Se extraen dos canicas al azar, una
despus de otra sin reemplazo. Cules son los posibles resultados de este experimento? Cul
es la probabilidad de que se extraigan dos canicas amarillas? Puesto que las canicas se extraen
al azar, todas las canicas de la bolsa tienen la misma probabilidad de que salgan en cualquier
extraccin. Hay 15 canicas P (1er: canica amarilla) = 5
15
; P (2da: canica amarillaj 1era: canica
amarilla) = 4
14
60 4. Probabilidad
Solucin
Usando la opcin canicas en el programa, se tiene:
Cules son las probabilidades P (A; R); P (R; A); P (R; A) y P (R; R)?
Cules son las probabilidades P (A; A); P (A; R); P (R; A) y P (R; R)?
Si la extraccin es con remplazo.
Cules son las probabilidades P (A; R); P (R; A); P (R; A) y P (R; R)?
Cules son las probabilidades P (A; A); P (A; R); P (R; A) y P (R; R)?
Ejercicio 18
Suponga que tiene dos bolsas, la primera contiene 3 canicas azules, 2 canicas rojas y 1 canica
verde. La segunda bolsa contiene 4 canicas rojas, 2 canicas verdes y ninguna azul. Adems se
tiene un dado de seis caras.
Haga el siguiente experimento, lance el dado, si este cae 1 o 6 saque una canica de la bolsa
1. En caso contrario saque una canica de la bolsa 2.
Complete las probabilidades en la siguiente Tabla:
Color canica
Azul Roja Verde Suma
Bolsa 1 ? ? 1
18
1
3
Bolsa 2 0 4
9
? ?
Suma 1
6
? ? 1
Ejercicio 19
(b) Cul es la probabilidad de sacar al azar una canica que no sea roja?
(c) Cul es la probabilidad de que la canica sacada al azar sea azul o verde?
Ejercicio 20
1. Considere el problema de extraer dos canicas al azar, sin reemplazo, de una bolsa que
contiene dos canicas rojas y tres amarillas. Liste el espacio muestra y los resultados de los
siguientes tres eventos: A = fAmbas canicas son rojasg, B = fla primer canica es roja y la
segunda canica es amarillag y C = funa de la canicas es rojag: Encuentre las probabilidad
de cada uno de los eventos A; B y C:
2. Suponga, una bolsa contiene 3 canicas rojas y 2 verdes. Se toman 3 canicas sacando una
a una sin reemplazo. Cul es la probabilidad de que las 3 sean rojas? Idea: Dena los
eventos A1 : la primer canica es roja. A2 : la segunda canica es roja y A3 : la tercer canica
es roja. Entonces calcule: P (A1 \ A2 \ A3 ):
Ejercicio 21
De una urna que contiene 6 pelotas blancas y 5 negras, se toman dos pelotas de forma aleatoria.
Cul es la probabilidad de que una de las pelotas tomadas sea blanca y la otra negra?
65
110
+ 56
110
= 0:2727 + 0:2727 = 0:5454 o 65
11:10
= 30+30
110
= 6
11
Solucin
Hay 11 pelotas, si se saca una quedan 10; as el nmero de posibilidades diferentes de extraer
una, dos bolas es 11 10 = 110
Se puede generar una serie de problemas previos para que los estudiantes puedan deducir
estos resultados.
Ejemplo 10.
2. Las placas para que un automvil pueda circular en un estado, est compuesta por tres
letras y cuatro nmeros, estas estn ordenadas de la siguiente forma, la primera letra es ja,
la segunda posicin se tienen seis letras y veintids en la tercer letra, si el primer nmero
4.3. Principios bsicos de conteo 63
1 6 22 9 10 10 10 = 1188000
Nota: Esta es la presentacin que aparece en CalEst para aplicar las tcnicas de conteo.
Cuando se llenan las casillas calcula todas las tcnicas, se selecciona slo la que se tiene in-
ters.
la Figura 4.14 se describe el clculo, usando principio bsico de conteo (principio de multi-
plicacin). En la Figura 4.15 se ilustra el caso de las placas, a la vez aparece el clculo del
factorial en este caso el de 7!
3. De cuntas maneras distintas se pueden ordenar las letras A,B,C? se puede aplicar el
principio bsico de conteo para determinar el nmero de las diferentes maneras en las que
n objetos se pueden acomodar en orden. As:
En este caso se dice que hay 6 posibles permutaciones para un conjunto de 3 objetos,
aplicando el principio bsico: El primer objeto de la permutacin puede ser cualquiera de
los 3, despus el segundo objeto puede ser cualquiera de los 2 restantes y el tercer objeto
es el que falta. De esa manera existen 3 2 1 = permutaciones posibles. En general para
n objetos se tiene:
n (n 1) (n 2) ::: 2 1
Permutacin
Una importante aplicacin del principio de conteo es la determinacin del nmero de maneras
diferentes en que m objetos se pueden arreglar en orden o en permutaciones.
Ejemplo 11
Solucin
Para formar un cdigo de tres dgitos sin que ninguno de ellos se repita, se necesita seleccionar
3 dgitos de un grupo de 10, as r = 10 y k = 3:
10! 10!
n Pr =10 P3 = = = 720
(10 3)! 7!
2. De los 20 coches que compiten en una carrera de Frmula 1. De cuntas maneras distintas
pueden los carros nalizar primero, segundo y tercero?
Solucin
En este caso n = 20 y r = 3; ilustrado en la parte superior de la Figura 4.16.
20!
20 P3 = = 6840
(20 3)!
4.3. Principios bsicos de conteo 65
Combinaciones.
A continuacin se presenta otra tcnica en el conteo, la caracterstica de sta, es que no considera
el orden de seleccin.
Ejemplo 12
1. Se desean comprar 3 CDs de una seleccin de 5 CDs. Para jar ideas denote los CDs, por
A, B, C, D, y E.
Solucin.
ABC, ABD, ABE
ACD, ACE
ADE
66 4. Probabilidad
BCD, BCE
BDE
CDE
Observe que es lo mismo seleccionar ABC que BAC, as en los dems casos. El clculo se
muestra en la parte de la Figura 4.16.
5!
5 C3 = = 10
(5 3)!3!
Ejemplo 13
13 C5 1285
P (diamante) = =
52 C5 2 598 960
Ejemplo 14
Un subdirector de una escuela ha recibido una lista de 12 alumnos distinguidos por su buen rendi-
miento escolar, tiene que seleccionar 4 estudiantes para formar un comit de representacin. La
lista est compuesta por 5 mujeres y 7 hombres.
Solucin
1. El nmero de maneras en los que 4 estudiantes se pueden seleccionar de 12 es:
12 12!
= = 495
4 4!8!
7
5
2. Un hombre se puede escoger en 1
= 7 maneras y 3 mujeres se pueden escoger en 3
= 10:
Cada uno de los 7 hombres puede acompaar a cada una de las 10 seleccionadas de 3
mujeres. Razonando por la regla de conteo m n; se concluye que el nmero posible de
muestras es:
7 5
= 7 10 = 70
1 3
3. Suponga que las 495 posibles son igualmente probables. De estos 70 son casos favorables
para el evento A = f1 estudiante es hombre y 3 son mujeresg; as:
5
70 2 10
P (A) = = 5 = = 0:3125
495 2 32
68 4. Probabilidad
Captulo 5
Galera de distribuciones
En general, resulta poco prctico estudiar un proceso o investigar sobre un tema especco
en toda una poblacin sobre todo cuando los componentes de sta son muy numerosos. Por
ejemplo, supongamos que se desea saber en una ciudad el estado civil (soltero, casado, divorciado,
unin libre) de las personas que trabajan de meseros en restaurantes de una ciudad, por lo que
recurrimos a examinar una muestra e inferir de la poblacin entera a partir de la muestra.
Debido a que las predicciones o decisiones que formulamos sobre una poblacin, con apoyo de
la informacin muestral, genera un grado de incertidumbre, sta se expresa en probabilidades.
Para el caso de los meseros puede ser de inters estudiar si la probabilidad de divorcio es alta.
Una poblacin consiste en una coleccin de individuos u objetos a lo que se les observa una
caracterstica particular que ser objeto de estudio.
El principio de la distribucin de probabilidad resulta al considerar un experimento aleatorio,
y al preguntarnos acerca de los eventos posibles y sus respectivas probabilidades. Hay dos tipos
de distribucin de probabilidad y son de importancia en muchas reas del conocimiento; stas
son las distribuciones discretas y continuas. Las primeras se derivan de las variables aleatorias
discretas, tales como el nmero de llamadas telefnicas que se reciben por quejas, el nmero de
respuestas contestadas de manera correcta en un examen, el nmero de artculos defectuosos,
etctera. Las distribuciones continuas se generan a partir de variables aleatorias continuas;
ejemplos de este tipo de variables son el periodo de vida de una batera, el promedio de las
calicaciones al nalizar un ciclo escolar o el coeciente intelectual de una persona.
Se ha presentado el concepto de espacio muestral en el captulo anterior, y tanto los problemas
como ejemplos que se explican en esta unidad toman en cuenta esa idea para indicar cmo surgen
la variable aleatoria y su distribucin de probabilidad.
Con el n de conocer y estudiar las distribuciones CalEst muestra varias distribuciones que
son muy importantes en el estudio cuantitativo de las investigaciones. En la Figura 5.1 se
describen esta serie de distribuciones. En todas se cuenta con un calculador estadstico que
69
70 5. Distribuciones de probabilidad discretas
resulta relevante puesto que le permite el clculo de probabilidades y de modo inverso dada una
probabilidad se establece el valor de la variable..
Variable aleatoria.
Una variable aleatoria x representa un valor numrico asociado con cada resultado
de un experimento de probabilidad
Existen dos tipos de variable aleatoria: discreta y continua en este apartado se vern las dis-
tribuciones relacionadas con la variable discreta.
5.1. Distribuciones de probabilidad Discretas 71
Variable discreta.
Una variable aleatoria x es discreta si este tiene un nmero nito o contable de posibles
resultados, los que presentan en una tabla.
Nmero de xitos 0 1
Probabilidades 1 p p
La distribucin de Bernoulli se expresa como una funcin de probabilidad, P (x) como sigue:
P (x) = px (1 p)1 x
para x = 0; 1 (5.1a)
La expresin (5.1a), P (x) es la probabilidad de tener x xitos en una prueba Bernoulli. Clara-
mente x puede ser 0 o 1, as:
p para x = 1
P (x) =
1 p para x = 0
Una distribucin de probabilidad discreta se presenta una tabla con cada valor que
la variable aleatoria puede tomar, conjuntamente con su probabilidad.
Cada ensayo produce uno de dos posibles resultados, referidos como xito y falla.
n x
f (x) = P (X = x) = p (1 p)n x
para x = 0; 1; 2; :::; n (5.2a)
x
1. Conocer la distribucin binomial considerando como caso inicial el valor de p = 0:5, ese
valor se puede mover para tener otros valores de p y as ver cmo cambia la distribucin.
Adems proponiendo diferentes valores de n hasta el valor de n = 20.
En la Figura 5.2 se muestra el caso en el que se lanzaron 9 monedas con 100 repeticiones en
el rengln donde aparecen las monedas corresponden a la ltima repeticin. El valor de los
parmetros de la distribucin son p = 0:5 y n = 9; los puntos en la grca corresponden a la
probabilidad de la binomial para cada valor de la variable x, es de 0 hasta 9, por ejemplo: la
probabilidad de tener cuatro caras a lanzar las nueve monedas es: 0.2461, es decir: P (x = 4) =
0:2461: La frecuencia relativa tiene un valor de 0.2300, si se van incrementando las repeticiones
este valor se aproximar ms al de la probabilidad.
Otras situaciones que se pueden considerar son:
Solucin
Con los dos primeros renglones de la tabla que aparece en la grca se tiene la distribucin de
probabilidad.
En la primera situacin se calcula P (X 3) corresponde a sumar los primeros cuatro valores
del rengln Px, Figura 5.2, as
P (X 3) ' 0:2440
Para el inciso 2, se calcula la P (X 5) en este caso se deben sumar los ltimos cinco valores
del rengln Px, esto es:
P (X 5) ' 0:5001
Nota el smbolo ' indica que por redondeo pueden existir diferencias en milsimas con el valor
real.
Ejemplo 2
Solucin
Usando CalEst, en el apartado de distribuciones se elige la distribucin de probabilidad binomial
Figura 5.3.
Se muestra la distribucin de probabilidad en la tabla de abajo, esta se ha construido aplicando
la calculadora binomial para cada valor de x:
Ejemplo 3
Un mdico asegura que tiene un tratamiento que cura un malestar muscular con una probabilidad
p = 0:45: En la atencin de 12 pacientes Cul es la probabilidad de que se curen entre 7 y 10
pacientes, es decir P (7 X 10). Cul es la media y la varianza en este ejemplo? Usando la
grca y los umbrales o la tabla se calculan las probabilidades P (X < 8) y P (X < 11); as:
exp( )x
P (x) = para x = 0; 1; 2; :::; > 0; (5.3a)
x!
Donde P (x) es la probabilidad de que x eventos aleatorios ocurrirn por unidad de tiempo o
espacio; es la razn de ocurrencias (la media del nmero de eventos aleatorios) por unidad de
tiempo o espacio.
La media y la varianza para la distribucin Poisson son:
media = varianza 2 =
La probabilidad de que un artculo, producido por una mquina durante cada periodo de revisin,
sea defectuoso es: 0.1. Determine la probabilidad de que en una muestra de 30 artculos no haya
ms de dos defectuosos.
5.1. Distribuciones de probabilidad Discretas 77
Solucin
Ejercicios
(a) Ponga el valor de p = 0:5 y el nmero n = 10 monedas, use el rengln Px para calcular
las probabilidades para x = 4; 6 y 9.
(b) Ponga el valor de p = 0:5 y el nmero n = 10 monedas, use el rengln Px para calcular
las probabilidades: i.-P (X = 5); ii.- P (X 2); iii.- P (X 8); iv.- P (2 X 8):
(c) Haga repeticiones de 50 hasta completar 1500 volados, en cada una de ellas observe
los renglones Px y el de Frec. rel. Qu observa? Qu se podra esperar si el nmero
de volados al nal fuera 5000?
2. Repita el ejercicio anterior para un valor de p = 0:25: Qu diferencias puede observar con
respecto a los resultados del ejercicio 1? Puede realizar este ejercicio para diferentes valores
de p. Esto le ayudar a familiarizarse con la distribucin binomial.
Nmero de familias x 0 1 2 3 4 5 6 7
Probabilidad P (x)
Probabilidad acumulada P (X x)
4. Para resolver los siguientes ejemplos use la distribucin binomial en el apartado de dis-
tribuciones en CalEst:
(a) El nmero de nacimientos en un hospital sigue una distribucin binomial B(6; 0:5):
Cul es la probabilidad de que nazcan 0, 1, 2, 3, 4, 6 bebs que sean del sexo
femenino? Complete la siguiente tabla.
(b) Para una distribucin B(10; 0:3) Cul es la probabilidad de 5 o ms xitos? Cul es
la probabilidad de exactamente 7 xitos? Cul es la probabilidad entre 4 y 8 xitos?
5.1. Distribuciones de probabilidad Discretas 79
(c) En una examen de opcin mltiple, hay 5 posibles respuestas en cada una de las 20
preguntas. Si un candidato contesta adivinando la respuesta a cada pregunta :
i. Cul es la probabilidad de que el candidato pase el examen obteniendo 8 o ms
respuestas correctas?
ii. Cul es la probabilidad de que el candidato tenga al menos una respuesta co-
rrecta?
iii. Cual es la media de respuesta correctas a las que el aspirante puede acceder?
(e) Una encuesta reporta que el 75% de las mujeres adultas van a consulta con su mdico
para un anlisis fsico al menos una vez cada dos aos. Si 17 mujeres se seleccionan
de manera aleatoria, encontrar la probabilidad de que:
i. Menos de 12 de ellas asistieron a consulta en esos dos aos?
ii. Al menos 15 de ellas asistieron a consulta en esos dos aos?
(f) Un profesor de letras plantea una estrategia de enseanza que considera exitoso en la
lectura de comprensin en el 60% de los casos. Esta la verica con 15 estudiantes de
nuevo ingreso, encontrar la probabilidad de que:
i. Al menos 6 comprendan la lectura?
ii. El nmero de estudiantes que comprenden la lectura no sea menor que 6 y no
mayor a 10?
iii. Doce o ms comprenden la lectura?
(g) Un estudio revela que 43% de las mujeres en una regin urbana la lectura es uno se su
pasatiempo favorito. Se toma una muestra aleatoria de 12 mujeres y se les pregunta
si la lectura es una de su pasatiempo favorito. Cul es la probabilidad de que?
i. 7 mujeres respondan si?
ii. Al menos 7 respondan si?
iii. Menos de 3 respondan si?
(h) La produccin de un proceso genera artculos defectuosos a razn del 6%. Cul es la
probabilidad de que en el embarque de 150 artculos no haya ms de 8 defectuosos?
80 5. Distribuciones de probabilidad discretas
(a) Una empresa recibe llamadas por telfono de manera aleatoria a su conmutador en
un promedio de una llamada por minuto. Cul es la probabilidad de que 0, 1, 2,...,5
llamadas sean recibidas en un periodo de 2 minutos? Complete la siguiente tabla:
La temperatura de un horno.
81
82 6. Distribuciones de probabilidad continua
Aprender a calcular probabilidades con este modelo usando las diferentes opciones del
CalEst.
La distribucin normal
La densidad de probabilidad de esta distribucin se caracteriza por los parmetros ( y 2 ),
es decir, su media ( ) y su varianza ( 2 ); y es la desviacin estndar.
En el bloque de distribuciones en CalEst aparece las opciones para la normal entre ellas la funcin
densidad y la acumulada. Con estas se pueden calcular probabilidades o los valores de la variable
X correspondientes a diferentes percentiles. Con el n de conocer su aplicacin en la estimacin
de probabilidades se ha jado una media = 12; (para ver la grca de el valor a de 12 y
apriete la tecla enter) y una desviacin estndar = 2, la variable X describe el tiempo de un
servicio bancario: Nota aqu se pueden obtener los valores de las probabilidades para cualquier
pareja de (; ):
1. Sin umbrales, en el cuadro sin la paloma, aparece la funcin densidad, para conocer el valor
de la funcin para diferentes valores de la variable use el signo ms en azul, ste aparece
en la parte superior izquierda.
6.1. Variables aleatorias continuas 83
2. Con umbrales, stos se emplean para calcular probabilidades. Un umbral permite estimar
el rea a la derecha o a la izquierda, su valor aparece en un recuadro superior a la derecha.
Ah tambin se indica la diferencia de 1 el a rea, abajo aparece el valor de la variable Z
que corresponde a la normal estndar que se indica ms adelante.
3. Dos umbrales, colocados abajo, arriba o uno arriba y otro abajo, permite estimar la pro-
babilidad entre dos valores da la variable. Muestra el valor de la diferencia de 1 el a
rea;
y los valores de la normal estndar respectivos a los valores de la variable X:
4. Para obtener percentiles, se mueven los umbrales considerando el valor de las reas.
6. Siempre que de el valor de oprima enter para cambiar la media en la distribucin, luego
el valor de , y nuevamente, oprima enter.
84 6. Distribuciones de probabilidad continua
8. Con las lupas, le permiten agrandar (+), empequeecer (-) y actualizar (A) la gura.
El tiempo que dura un embarazo tiene una distribucin normal con media = 266 das y una
desviacin estndar de 16 das. Esta situacin se describe en la Figura 6.2 generada por CalEst
en el bloque de distribuciones con la opcin normal.
1. Usando esta grca encuentre la proporcin de embarazos entre 285 y 305 das.
2. Una compaia de seguros tiene un plan familiar de salud, en una de sus clusulas indica que
no se cubre los costos de hospitalizacin si el nacimiento es en menos de 217 das despus
de la fecha de casamiento. Encuentre la probabilidad de que el nacimiento se da en menos
de 217 das.
3. Encontrar el 90 percentil.
4. Encontrar el 30 percentil.
Solucin
En la Figura 6.2 en la grca se muestra la primera solucin, la segunda se muestra en la tabla.
sta muestra las alternativas del calculador para obtener los valores de probabilidad en una
distribucin normal.
2. En el segundo P (X 217) = 0:0011; es una probabilidad muy baja de que esto ocurra.
3. En el tercer caso se desea encontrar el nmero que satisface P (266 X ?) = 0:40; se
puede notar que P (X 266) = 0:5, verique esta situacin usando el cursor. En la Figura
6.3 se describe esta situacin.
6.1. Variables aleatorias continuas 85
4. De manera anloga se resuelve el caso cuarto, ver Figura 6.3 en la grca derecha. P (?
X) = 0:3
5. En este caso P (X 275) = 0:713; solucin se tiene colocando un solo cursor en 275. En
los resultados del calculador mostrados en la Figura 6.4
P ( X + ) = 0:6826
P ( 2 X + 2) = 0:9544
P ( 3 X + 3) = 0:9974
Verique estos resultados en el CalEst usando los datos del ejemplo 1. En la Figura 6.5 se
presenta la funcin acumulada, distribucin de probabilidad normal, con sta se obtiene el rea
bajo la curva de la funcin densidad para valores especcos de la variable aleatoria X. En
particular el caso que se ilustra es el rea desde menos innito hasta el valor de X = 275, para
(; ) = (266; 16):
Figura 6.6: Funcin densidad y la acumulada de la distribucin normal. El uso del smbolo +,
el efecto se quita con la echa.
88 6. Distribuciones de probabilidad continua
Por ello en los libros de estadstica se trabaja con la variable normal estndar y en cada uno
de ellos viene una tabla de esta distribucin para el clculo de probabilidades. En el desarrollo
de este paquete sta queda como un caso particular, aqu se describe con la nalidad de que los
usuarios tengan una visin completa de la normal estndar y la aprovechen en la solucin de sus
problemas y en otras aplicaciones.
Denicin
La expresin que relaciona la variable aleatoria X de una normal con (; ) y la normal
estndar Z es:
X
Z= , o X = + Z
X
As para los datos de la Figura 6.1: Z =
= 9 12
2
= 1:5: El clculo de la probabilidad
del primer inciso del ejemplo 1,
La mtrica seis sigma evala un proceso, sta se basa en el nivel de : Existen varios libros
donde se puede profundizar en el concepto. Entre ellos puede consultar el de Escalante (2004)
pgina 239, y el de Breyfogle I I I (2003) Captulo 9 pgina 188. La distribucin normal como se
ha desarrollado aqu ser de mucha utilidad para resolver los ejemplos y problemas planteados
en esos libros. En esos mismos libros se puede encontrar los conceptos de capacidad del proceso,
la eciencia del clculo de este ndice depende de la distribucin normal.
En la opcin estadstica, mtodos avanzados, control de calidad en CalEst aparece el clculo
del valor de X y Z para estimar la mtrica
Este mtodo grco es de mucha utilidad para evaluar si unos datos siguen una distribucin
normal. El principio es tener un conjunto de datos, ordenarlos de menor a mayor. La idea es
construir en un plano de coordenadas (x; y), donde x es el eje horizontal: los datos ordenados,
y es el eje vertical y representa los porcentajes correspondientes a la distribucin normal, por lo
general y es:
i 0:5
yi = %, donde i = 1; :::; n:
n
El valor de i representa la isima observacin de los n datos estudiados.
90 6. Distribuciones de probabilidad continua
Con objeto de medir la capacidad de un proceso, se establece un sistema de 5 ndices que son de
utilidad para cuanticar la capacidad de un proceso estable, stos permitirn evaluar un proceso
con respecto a los lmites de especicacin. Los ndices son:
Conceptos generales
Con objeto de estimar los ndices indicados anteriormente, primero se determina la caracters-
tica de calidad que se desea medir, se toma una muestra aleatoria del proceso, se obtiene el
histograma tal que contenga los lmites de especicacin inferior (LEI) y superior (LES). A
simple vista del histograma se puede analizar la forma de la distribucin, si sta tiene una forma
acampanada puede representar a un proceso capaz si este est cerca del centro. Tambin, se
puede emplear el papel de probabilidad de una distribucin normal para observar la tendencia
de los datos. La mayor amplitud es 6 b; es decir la longitud comprendida entre los lmites de
tolerancia del proceso. Se puede establecer que un proceso no es capaz si:
1. El proceso no es estable.
Las cartas de control permiten conocer la estabilidad de un proceso. Por otro lado, es ms
fcil obtener un proceso capaz, si la variabilidad del proceso no es tan grande.Por qu?
Este ndice depende slo de la variabilidad en condiciones denidas del proceso a corto plazo y
que ste se encuentre bajo control estadstico. Un mtodo simple para estimar el Cp , es relacionar
la amplitud del proceso, con la amplitud permitida, esta ltima se establece de antemano.
se dice que el ndice Cp estima la habilidad del proceso. Otra manera de evaluar al proceso
en trminos de porcentaje, es mediante el ndice de razn de capacidad, este se obtiene por el
recproco del ndice Cp multiplicado por 100, es decir:
1
CR = 100%
Cp
92 6. Distribuciones de probabilidad continua
Cuando un proceso est bajo control estadstico, se espera que la caracterstica de calidad que
se le mide a los artculos tenga una distribucin con promedio y varianza 2 . Generalmente
un industrial requiere que la caracterstica de calidad de su proceso tenga un compotamiento
en promedio a un cierto valor establecido, este frecuentemente se identica como valor nominal
del proceso denotado por T . Si el promedio y el valor nominal coinciden, es decir, que = T:
Entonces dice que el proceso est centrado. Cuando esto no es as, se requiere de un ndice
que indique qu tan lejos est el proceso del valor objetivo. Un objetivo es plantear cmo el
desempeo del proceso se puede relacionar con el potencial del proceso Cp y con la medida de
_
localizacin X:
Considere la situacin en la que el proceso nicamente se relaciona con el lmite de especi-
_
cacin superior, en esta situacin intervienen tanto la media X; como la desviacin estandar
b
para denir el ndice CPS denominado ndice de capacidad superior, es decir:
_
LES X
CP S(CP U ) =
3b
Anlogamente, se puede considerar de un proceso el lmite de especicacin inferior, esto da
lugar a denir el ndice de capacidad inferior como sigue:
_
X LES
CP I = (CP L ) =
3b
El ndice Cpk mide el desempeo del proceso y su clculo es
Cpk = min( CP I; CP S )
Ejercicios
1. El tiempo de respuesta para un estimulo tiene una distribucin normal con media = 46,
= 4. Qu porcentaje de valores estn?
6.1. Variables aleatorias continuas 93
(a) i. P (80 X 92), ii. P (71 X 80), iii. P (X 92), iv. P (X 56), iv.
1 P (65 X 98),
(b) i. 1 P (66 X), ii. 1 P (X 104), iii. P (53 X 59), iv. P (X = 80).
4. Supongamos que X es una variable aleatoria con una distribucin normal con media y
desviacin estndar . Calcula:
(b) P (X 64)
5. El tiempo en que el cajero bancario tarda en atender a los clientes tiene una distribucin
normal con media = 10 minutos y desviacin estndar = 2 minutos.
94 6. Distribuciones de probabilidad continua
6. En estudios realizados por una rma para medir el coeciente intelectual de las personas
que solicitan un empleo, hay una distribucin normal con media y desviacin estndar .
7. El nmero de caloras de una sopa en un men se distribuye como una normal con media
200 y desviacin estndar de 5. Encuentra la probabilidad de que la sopa contenga:
8. En un restaurante sirven manzanas como postre. El peso de ellas muestra una distribucin
normal con media 60 gramos y una desviacin estndar de 0.8 gramos. Cul es la pro-
babilidad de que a la siguiente persona que se le sirva una manzana, el peso de sta sea de
50 gramos?
9. Las calicaciones de admisin presentan una distribucin normal con media 500 y desviacin
estndar de 100. Encuentra la probabilidad de que un estudiante:
(d) Si la escuela admite a los que slo tienen una calicacin mayor a 670, cul es la
proporcin de los estudiantes que pueden ser admitidos?
(e) En qu lmite se debe jar la calicacin si el 50% de los estudiantes deben ser
admitidos?
(f) Cul debe ser la calicacin lmite si el tope de admisin es del 15% de estudiantes?
6.1. Variables aleatorias continuas 95
(b) P (Z 1:96)
12. Encuentra los percentiles 0.05, 0.01, 0.10, 0.025, 0.90, 0.95 y 0.68 en una distribucin
normal estndar.
96 6. Distribuciones de probabilidad continua
Captulo 7
Galera de distribuciones*
(*) Opcional
W e(; )
97
98 7. Galera de distribuciones*
Figura 7.1: Distribucin Weibull W ei(2; 1) y clculo de probabilidad ilustrada por la grca y
la tabla.
Observaciones: Esta funcin de densidad puede tener gran variedad de formas con una o dos
colas.
2
1 1 2 1 2 1
= 1+
= 2 1+ 1+
p
donde es la distribucin gama, (1) = 1; 1
2
= ; (n) = (n 1) (n 1) y si n es entero
(n) = (n 1)1 :
En la Figura 7.1 se observa la distribucin Weibull W ei(2; 1); a la derecha de la grca se ha
puesto la tabla para el clculo de probabilidades de esta distribucin. En sta se ilustra, en la
grca, el clculo de la probabilidad para X mayor a 1.731 es decir P (X 1:731) = 0:0499: Con
7.1. Ideas Generales: distribucin de probabilidad 99
Figura 7.2: Clculos de la probabilidad para ms de 1000 horas -izquierda, y del valor de X para
una probabilidad de 0.1 -derecha.
la tabla se obtiene la probabilidad entre los valores de 0.85 y 1.74, P (0:85 X 1:74) = 0:437:
Usando esta distribucin, observe para los siguientes valores del parmetro de forma = 0:5; 1;
1:5; 3; 4 con = 1: Esto indica la variedad de formas de la funcin densidad Weibull y con ello
la exibilidad del modelo para caracterizar datos de algn proceso.
Ejemplo 1
Solucin
1
x e x
()
1 e x
g(x : ; ) = x para x > 0:
()
Nota 2
Si = n=2; n es un entero positivo y = 1=2 es la funcin densidad de la gama, entonces se
tiene una distribucin Ji (Chi) cuadrada, distribucin que se ilustra en el siguiente captulo.
La media y la varianza se expresan respectivamente por
Ejemplo 2
= y 2 = 2
Encontrar P (3:28 < X 25:2) si X tiene una distribucin gama con = 3 y = 0:25: Ver
en la Figura 7.3 la solucin.
1 1
= y 2 = 2
Vea el grupo de distribuciones en CalEst y seleccione la exponencial, observe las diferentes
formas para distintos valores de ; por ejemplo = 0:5; = 1; = 1:5; = 2:
Ejemplo 3
Solucin
( + ) 1
f (x; ; ) = x (1 x) 1
() ()
= , 2 = 2
+ ( + ) ( + + 1)
Nota
Cuando = se tiene una distribucin simtrica. Un caso particular se presenta cuando
= = 1; en este caso se obtiene una distribucin uniforme U(0; 1):
Ejemplo 4
Usando la distribucin Beta del grupo de distribuciones en CalEst. Haga las grcas para la
funcin densidad de esta distribucin para observar los siguientes casos:
1
para x ;
f (x) =
0 para x < o x > ;
b+a (b a)2
= , 2 =
2 12
b a
P (a < X < b) =
Ejemplo 5
Solucin
Observe la Figura 7.6, las soluciones son: a) 0:7; b) 0:3; c) 0:5; d) 0:4:
7.1. Ideas Generales: distribucin de probabilidad 105
Ejercicio
Observe la distribucin lognormal para = 1: Observe los casos para = 0:2; = 0:3 y = 0:5
e (x )=
f (x; ; ) = (x )= )2
(1 + e
= posicin, = escala.
Ejercicio
Distribuciones 2, t, F +
8.1 Distribucin 2
Si Z1 ; Z2 ; :::Zn son variables normales estndar independientes, entonces se dice que la variable
denida por
= Z 2 + Z22 + ::: + Zn2
tiene una distribucin Ji (Chi) cuadrada con n grados de libertad. Se denota s 2n para indicar
que tiene una distribucin Ji cuadrada con n grados de libertad.
Por ejemplo, una compaa produce bolsas de cacahuate, el proceso genera miles de bolsas
cada una debe tener el mismo peso. Sin embargo existe una variacin en el peso de cada bolsa, la
cual debe ser baja. Si la poblacin de pesos tiene una distribucin normal, en este caso se desea
hacer inferencia estadstica sobre la varianza o desviacin estndar, como se ver mas adelante.
Para llevar a cabo esta inferencia, es necesario determinar los valores crticos en la distribucin
con n
2
1 grados de libertad.
En esta direccin se especica un valor tal que (0 < < 1) y se calcula alguna de las
siguientes tres probabilidades: P (2 > 2 (; n 1)) = ; P (2 (1 ; n 1) < 2 ) = o
P (2 (1 =2; n 1) < 2 ) = =2; P (2 (=2; n 1) > 2 ) = =2: Estos se calculan usando el
CalEst.
107
108 8. Distribuciones 2 , t, F +
Ejemplo 1
Solucin
Los grados de libertad son n 1 = 24 1 = 23: La grca de la Figura 8.1, CalEst, muestra
una 2 con 23 grados de libertad y un rea sombreada (probabilidad) de = 0:10 en la parte
derecha. 2 = 32
8.1. Distribucin 2 109
Ejemplo 2
Solucin
Los grados de libertad son n = 12 1 = 11:La grca de la Figura 8.2, CalEst, muestra una 2
con 11 grados de libertad y el rea sombreada a la izquierda de = 0:05: As el rea a la derecha
es 1 =1 0:05 = 0:95: 2 = 4:571
Ejemplo 3
Solucin
Figura 8.3: Valores crticos de la distribucin Ji cuadrada con un rea del 95%.
Ejercicios
1. En cada uno de los siguientes casos 2 (0:01; n 1); 2 (0:025; n 1); 2 (0:95; n 1) y
2 (0:99; n 1):Encontrar estos valores de 2 con los siguientes grados de libertad (gl): a.-
gl = 9; b.- gl = 15; c:- gl = 25:
3. Considerando gl = 18; calcule las siguientes probabilidades: a: P (2 > 25:989) b: P (2
7:015) c: P (7:015 < 2 < 9:390) d: P (10:865 < 2 < 28:869)
6. Encuentre el valor crtico de 2 para dos colas cuando n = 19 y = 0:05: Es decir encuentre
el valor 2D con 12 y el valor 2I con 1
2
:
8. Si X tiene una distribucin 2 con gl = 5; determine las constantes c y d tal que P (c <
X < d) = 0:95 y P (X < c) = 0:025:
8.2 La distribucin t
En la vida real para realizar estudios usando la distribucin normal, se requieren muestras su-
cientemente grandes (n 30): Esta situacin no es prctica, una alternativa para hacer inferencia
sobre la media es usar la distribucin t: Si Z y 2n 1 son variables aleatoria independientes,
donde Z tiene una distribucin normal estndar y 2 sigue una distribucin Ji cuadrada con
n 1 grados de libertad entonces se dice que la variable aleatoria denida por:
Z
Tn 1 =p 2
n 1 =(n 1)
Ejemplo 4
X
t= p
S= n
2. La distribucin t es una familia de curva cada una es determinada por un parmetro llamado
grados de libertad. Los grados de libertad son igual al tamao de la muestra menos uno,
gl = n 1:
= P ( Tn 1 tc ) = P (Tn 1 tc ) = 1 P (Tn 1 tc )
Por lo que
P (Tn 1 tc ) = 1
tc ( 1; n 1) = t( 1; n 1)
Ejemplo 5
Solucin
Ejemplo 6
Solucin
Ejemplo 7
Encontrar los valores crticos t0 y t0 para las colas derecha e izquierda respectivamente de la
distribucin t, con = 0:05 y n = 26:
Solucin
Ejercicios
8.3 La distribucin F
Si 2(n) y 2(m) son variables aleatorias Ji cuadrados con n y m grados de libertad respectivamente,
entonces se dice que la variable aleatoria F (n; m) se dene por:
2(n) =n
F (n; m) =
2(m) =m
Ejemplo 8
El valor de est entre 0 y 1 (0 < < 1); la distribucin F cumple con la propiedad
1
F (1 ; n; m) =
F (; m; n)
(a) Valor de cola derecha, describe la probabilidad a la derecha del punto FD (n; m), es
decir: P (F (n; m) > FD (n; m)) =
(b) Valor de cola izquierda; se obtiene la probabilidad a la izquierda del punto FI (n; m)
1
FI (n; m) =
FD (m; n)
Ejemplo 9
1 1
FI (1 0:05 = 0:95; 6; 3) = = = 0:210
F ( = 0:05; 3; 6) 4:757
Nota. Dada esta propiedad en los libros de estadstica, generalmente aparecen los valores de
la distribucin F a la derecha.
Una ventaja usando el CalEst es que usando los cursores, puede obtener rpidamente los
valores crticos de F a la izquierda de y a la derecha de :
Caso 2. glN = 6 glD = 3 FD ( = 0:05; 6; 3) = 8:940
1 1
FI (1 0:05 = 0:95; 3; 6) = = = 0:11183
F ( = 0:05; 6; 3) 8:940
Ejercicios
F (0:025; 7; 5); F (0:1; 3; 8); F (0:05; 5; 7); F (0:9; 5; 7); F (0:01; 10; 12): Use las
grcas y tablas de la distribucin F del CalEst.
3. Encontrar el valor crtico derecho de FD cuando los valores de son: = 0:05; = 0:025;
= 0:01 y = 0:005 respectivamente, donde los grados de libertad son: glN = 6 y
glD = 29: Para estas condiciones encontrar el valor crtico a la siguiente FI :
4. Encontrar las probabilidades a la derecha de F = 5:40 para los tres siguientes pares de
grados de libertad i. glN = 4 y glD = 40; ii. glN = 6 y glD = 29; iii. glN = 10 y glD = 12:
5. Si F0 = 4:83 con glN = 4 glD = 8 encontrar las probabilidades P (F (4; 8) > 4:83);
1
P ( F (8;4) < 0:97):
Captulo 9
Estimacin estadstica
La inferencia estadstica es una herramienta muy til para resolver una gran cantidad de cues-
tiones que se presentan en la vida cotidiana, en el desarrollo tecnolgico y en la investigacin
cientca. Los problemas citados en la entrada de esta unidad son ejemplos tpicos de inferencia
estadstica.
En el primer caso, las personas forman un conjunto grande de individuos. A ste se le
denomina poblacin. Para tomar decisiones adecuadas en la dieta alimenticia, es necesario
conocer si un producto alimenticio ayuda en promedio a reducir el IMC -ndice de masa corporal-.
Se toma una muestra de personas obesas con la idea de que el promedio de la reduccin del IMC
en esa muestra sea una buena estimacin del promedio de reduccin en toda la poblacin. De
esta manera, se podra decir que el tratamiento para adelgazar fue en promedio efectivo.
En la Figura 9.1, se ilustra una poblacin de personas y en el crculo se describe la muestra.
La esencia de la inferencia estadstica es adquirir conocimiento sobre una poblacin a travs de
la informacin proporcionada por la muestra, y as extraer conclusiones generales sobre el objeto
de estudio.
Para hacer inferencia estadstica acerca de la media de la poblacin, debemos comprender
el comportamiento de la media muestral X. El enfoque de esta unidad es comprender cmo
funciona la X para obtener un conocimiento aproximado de la media poblacional.
En la Figura 9.2, el crculo grande representa la poblacin objeto de estudio y el pequeo
se reere a la muestra que se toma de la poblacin. En realidad, el crculo de la muestra debe
estar dentro de la poblacin como se indica en la Figura 9.1, pero mediante esta grca puede
visualizarse la relacin entre probabilidad e inferencia estadstica.
En resumen, necesitamos aprender a calcular la verosimilitud de una muestra particular
seleccionada de una poblacin. En ese sentido, lo que estamos haciendo es recorrer el camino de
119
120 9. Estimacin estadstica
la poblacin a la muestra, como la echa de arriba en la Figura 9.2. Sin embargo, nuestra meta
nal es ir de la muestra a la poblacin, esto es, hacer lo que representa la echa de abajo de la
Figura 9.2. Con ello, decimos que se usa la informacin de la muestra para elaborar armaciones
en trminos de probabilidad sobre el comportamiento de la poblacin. Esta temtica es un fuerte
componente con temas relacionados con la investigacin, se hace un breve resumen de elementos
relacionados con esta rea.
Investigacin
Tanto las ciencias sociales como las ciencias naturales inician la investigacin de una forma
controlada, sistematizada, crtica, con el n primordial de aprobar o desechar hiptesis como
explicativas de los fenmenos del comportamiento del ser humano. Su punto de partida est
tambin en la observacin de los hechos, en la formulacin del problema, en la estructuracin de
la hiptesis y en la bsqueda de pruebas para confrontar esas hiptesis, con el n de establecer
una ley o norma explicativa de la conducta social de los individuos (Tamayo, 2002).
Investigacin descriptiva. Se reere a la etapa preparatoria del trabajo cientco que permita
ordenar el resultado de las observaciones de las conductas, las caractersticas, los factores, los
procedimientos y otras variables de fenmenos y hechos. Este tipo de investigacin no tiene
hiptesis explicada.
Investigacin analtica. Es un procedimiento ms complejo con respecto a la investigacin
descriptiva, que consiste fundamentalmente en establecer la comparacin de variables entre gru-
pos de estudio y de control sin aplicar o manipular las variables, estudiando stas segn se dan
naturalmente en los grupos. Adems, se reere a la proposicin de hiptesis que el investigador
trata de probar o negar.
Investigacin experimental. Es un procedimiento metodolgico en el cual un grupo de
individuos o conglomerado, son divididos en forma aleatoria en grupos de estudio y control y
son analizados con respecto a un factor o medida que el investigador introduce para estudiar y
evaluar.
Una cuestin de suma importancia para los profesionistas que acaban de egresar de la universidad
y estn en busca de empleo es el salario.
Una universidad le encarg a una empresa que realiza estudios de mercado una encuesta para
saber, entre otros factores, el salario percibido por las personas que terminaron hace tres aos o
menos la carrera de ingeniero industrial en diferentes universidades. En este caso la poblacin de
9.1. Parmetro y estimacin 121
inters la forman todos los ingenieros industriales que egresaron de las universidades en Mxico
y tienen tres aos o menos de haber egresado y estn trabajando.
El salario establece el centro de las relaciones de intercambio entre las personas y las organiza-
ciones. Todas las personas dentro de las organizaciones ofrecen su tiempo y su fuerza de trabajo
a cambio de dinero. Esto representa el intercambio de una equivalencia entre derechos y obliga-
ciones recprocas entre el empleado y el empleador. Varias preguntas surgen para conocer los
niveles de salarios: Qu tan competitivo es el salario de un ingeniero industrial recin egresado?
Cmo es este salario con respecto a otras profesiones? Existen empresas que pagan mejor que
otras?
Recopilacin de datos
Con el n de plantear la idea establecida entre los datos de una poblacin y el procedimiento
para obtener una muestra y a partir de ella, realizar la inferencia estadstica sobre la poblacin.
Consideremos una poblacin de 50 ingenieros industriales y su salario. En la Figura 9.3 se
identica con ID a los 50 ingenieros para facilitar el procedimiento de extraccin de la muestra.
Recordemos que a partir de la informacin de la muestra pueden conocerse las caractersticas
de la poblacin. En este caso, se considera una poblacin pequea donde se puede calcular su
media y desviacin estndar (puedes ejecutar este clculo en el paquete estadstico que viene en
el CD). La media y la desviacin estndar para esta poblacin pequea N = 50 son:
= 6170 y
= 972
El objetivo es observar que cuando se toma una muestra, sta nos aproxima al valor real de
la media poblacional; en la pr
actica este valor es desconocido:
La media y la desviacin estndar para la muestra son X y S , respectivamente. As,
para estimar la media de la poblacin con la media de la muestra se realiza lo siguiente:
Las preguntas centrales en este caso son: Qu tan pequeo es el error? Con qu con-
anza obtenemos el resultado? Con el propsito de motivar estas ideas se plantea una estrategia
para seleccionar la muestra.
Procedimiento
Metemos en un caja 50 papeles numerados del 1 al 50 y seleccionamos varias muestras de tamao
n = 5. Los cinco papeles que salieron para la muestra son: 18, 41, 40, 45, 22 y los salarios
correspondientes son: 4940, 6040, 6350, 5760, 5490. Por lo tanto, la media muestral es:
Ejemplo 1
Solucin
a) En la columna 1 de la Tabla 9.1 se ha reproducido la muestra que se obtuvo en el problema. Las
siguientes muestras fueron seleccionadas mediante el muestreo aleatorio simple. En los ltimos
dos renglones se han calculado X y X .
9.2. Distribucin muestral de la media muestral 125
b) Ahora extraemos de la caja con reemplazo 10 papeles y anotamos el nmero que corres-
ponde al salario. Las muestras y los valores seleccionados de 5 muestras de tamao n = 10 y el
clculo de X y X , se presentan en la Tabla 9.1.
c) Observemos que la discrepancia entre la media muestral X y la media poblacional es
menor cuando la muestra es de mayor tama~
no: Qu piensas que ocurrira si se aumentara el
tamao de la muestra? Por qu?
d) Usa el generador de nmeros aleatorios que se presenta en el CalEst.
La direccin de una escuela desea dar seguimiento durante el ao al aprendizaje global de sus
alumnos. Para ello, cada semana aplica una evaluacin a una muestra de 10 estudiantes. Dicha
evaluacin consiste en un examen de conocimientos generales y se evala en una escala de 0 a
100. Por experiencia, se sabe que la media es = 60:5 y la desviacin estndar es = 10:5 .
Preguntas sobre la naturaleza del problema
Cmo puede haber un conocimiento contino del desempeo de los alumnos sin la necesidad
de aplicar una evaluacin a todos los estudiantes? Cul es la precisin de la informacin si
aumenta el nmero de estudiantes evaluados? Qu informacin proporciona la media en cada
muestra para contar con una idea clara del aprovechamiento de los alumnos?
Recopilacin de datos
Figura 9.4: Grca que describe la muestra de calicaciones para 10 alumnos durante 12 semanas.
1. Para la primera semana seleccionar una muestra de 10 alumnos y calcular la media de las
calicaciones.
Anlisis de la informacin
1. La muestra de n = 10 fue: 71, 62, 66, 51, 65, 67, 47, 60, 50 y 58. La media muestral para
este conjunto de datos es:
71 + 62 + 66 + 51 + 65 + 67 + 47 + 60 + 50 + 58
X= = 59:7
10
2. En la Figura 9.4 se describe la muestra para cada una de las 12 semanas. Los signos +
indican el valor de la media muestral en cada semana. En la Figura 9.4 se puede observar
que en la semana 1 las calicaciones fueron bajas y el promedio, en este caso, lo reeja.
En la semana 2, por el contrario, las calicaciones fueron altas. Con el n de observar la
discrepancia de la estimacin con respecto al parmetro, se traza la media como se ve
en la Figura 9.5. Ah se puede observar que, salvo en las muestras 1 y 2, las medias de las
muestras estn muy prximas a .
3. En la Tabla 9.2 se presentaron los valores de las medias en cada muestra. En la Figura 9.6
se describe el diagrama de puntos para estas medias.
9.2. Distribucin muestral de la media muestral 127
Figura 9.5: Grca que ilustra las medias de las muestras de calicaciones para 10 alumnos y su
referencia con la media poblacional.
Ejemplo 2
Solucin
Para examinar la distribucin de X con diferentes tamaos de muestra se usa la informacin del
ejemplo anterior. En el primer caso, se obtienen 120 muestras de tamao n = 6 y se calculan las
medias. La distribucin de esas 120 medias se ilustra en el primer histograma de la Figura 9.7,
donde se puede observar la variacin de esta distribucin.
En el segundo histograma se describe la distribucin de X para 120 muestras de tamao
n = 24. Como se advierte en esta situacin, existe menor variacin con respecto a la distribucin
anterior. Finalmente, se aument el tamao de la muestra a 100, y la distribucin de X se
presenta en el tercer histograma. Ah se observa que los valores de la media muestral estn ms
prximos al valor de la media .
128 9. Estimacin estadstica
Figura 9.6: Diagrama de puntos que ilustra la distribucin de las medias muestrales.
Es claro que la direccin de la escuela adquiere mayor conocimiento de lo que ocurre con sus
alumnos en la medida en que el tamao de la muestra crezca, pero desde luego tendra que gastar
ms recursos y tiempo para obtener esa informacin.
Resultado terico
x
x
x =
y
x = p
n
En esta ltima expresin revela que la desviacin estndar disminuye en la medida que el
tamao de la muestra crece.
Ejemplo 3
Solucin
La expresin x = p
n
relaciona la desviacin estndar de la media muestral X , la desviacin
estndar de la variable X y el tamao de muestra n. Con la informacin proporcionada por
los datos se necesita conocer el valor de . As, la expresin x = pn se puede escribir como
p
= n x ; o 2 = n 2x . Sustituyendo los valores se tiene que 2 = 10 92 = 810 .
Para encontrar un valor del tamao de muestra se requiere tener los valores de las desviaciones
2
estndar y x , esto es, n = 2.
x
Entonces, el tamao de muestra si se desea reducir x a 4.5,
es:
2 810
n= 2
= = 40
x (4:5)2
Prctica
La nalidad es ilustrar cmo emplear la distribucin normal en el CalEst para mostrar la relacin
entre la varianza 2 de la distribucin de la variable X y la varianza 2X distribucin de la variable
X: Informacin: se tiene que 2 = 729 ( = 27); n = 9, por lo tanto 2X = 81 ( x = 9): La
Figura 9.8 extiende la idea de la Figura 9.7. La grca de la derecha en la Figura 9.8 muestra
la normal con ( = 60; = 27) y la de la izquierda es una normal con (x = 60; x = 9)
distribucin muestral. A partir de esta descripcin se pueden realizar varios ejercicios para
estudiar y comprender esta relacin. Esta prctica ser de mucha utilidad para comprender los
conceptos que exponen diferentes libros sobre inferencia estadstica, y reproducir la descripcin
grca que presentan sobre la distribucin normal, la normal estndar y la t-Student.
Resultado tcnico
Si las mediciones de X vienen de una distribucin normal, se sigue que la distribucin muestral
de X tambin es normal, Figura 9.8.
En el proceso de estandarizar, sta se puede escribir como una normal estndar. Como se
indica por la siguiente expresin:
X x X
z= =
x p
n
9.3. Teorema de lmite central 131
Ejemplo 4
Solucin
!
X x X 5:10 5:30
P (X 5:10) = P = = = P (z 2:5)
x p 0:08
n
Puesto que z es una variable normal estndar, su probabilidad la podemos obtener usando
el paquete estadstico o las tablas de probabilidad. En este caso se encuentra que un valor
P (z 2:5) = 0:006 , lo que indica que hay pocas posibilidades de obtener una media muestral
por debajo de 5.10; por lo tanto, el nuevo proceso no afecta el pH.
Figura 9.9: Ilustracin de la distribucin muestral para diferentes tamaos de muestra cuando
la poblacin original no tiene una distribucin normal.
Este resultado es muy apropiado, dado que especica la distribucin X para muestras grandes.
Por lo general, desde un punto de vista prctico es suciente con que el tamao de n sea de 20 o 30
para considerar la distribucin de X como normal. Recurriendo a la simulacin por computadora,
en la Figura 9.9 se muestran algunos casos.
En referencia a la Figura 9.9, se observa la forma de la distribucin de la poblacin examinando
un histograma de las observaciones en la muestra. En el primer caso se presenta una distribucin
triangular. Si se selecciona una muestra de tamao n = 1, la forma de la distribucin muestral
dada por el histograma es similar a la de la poblacin. Si el tamao de muestra n crece, la
distribucin de X se aproxima a una normal.
Una situacin similar ocurre cuando la distribucin de la poblacin es uniforme. Si la muestra
es de tamao n = 1, el histograma reproduce la distribucin original. Si n crece, la distribucin
de X se aproxima a una normal.
Ejemplo 5
Una empresa que manufactura aparatos elctricos efecta pruebas de habilidad y destreza durante
el proceso de contratacin de personal. La calicacin de esas pruebas conforman una poblacin
con una media = 100 y desviacin estndar = 32 . Cul es la media x y la desviacin
9.3. Teorema de lmite central 133
Solucin
x = y x = p
n
Ejercicio 1
Una poblacin normal tiene media 200 y desviacin estndar 100. Suponga que la distribucin
de la media muestral es generada por muestras de tamao n = 100. a. Encuentre el valor de x .
b. Encuentre x . c. Encontrar P (195 X 205): d. Encontrar P (X > 210): e. Si un valor de
X es seleccionado, encontrar P (195 X 205): Compare con el inciso c. f. Si un valor de X
es seleccionado, encontrar P (X > 210): Compare con el inciso d.
Ejercicio 2
Repita el ejercicio si n = 400: Qu observa con respecto a las probabilidades en los incisos c y
d en los ejercicios 1 y 2?
Ejercicio 3
Una poblacin normal tiene media 200 y varianza 144. Suponga que la distribucin de la media
muestral es generada por muestras de tamao n = 36. a. Encuentre los valores de x . y x . b.
Obtener P (320 X 322): c. Obtener P (X > 323): d. Obtener P (321 < X < 327):
Figura 9.10: P (42 X 78) ' 0:95, el caso de dos desviaciones alrededor de la media, esta
varia para diferentes valores de n:
estndar de la media. Mientras que 95% cae dentro de dos desviaciones estndar de la media y
99.7% cae dentro de tres desviaciones estndar de la media.
Con respecto a la variable aleatoria X, se puede advertir que 68% de las veces observaremos
una media muestral que cae dentro de una desviacin estndar de una media poblacional
desconocida. De manera similar, 95% de las veces observaremos una media muestral que cae
dentro de dos desviaciones estndar de , y 99.7% de las veces observaremos una media muestral
que cae dentro de tres desviaciones estndar de . Esta idea da lugar al concepto conocido como
intervalo de conanza o una estimacin por intervalo, que se ver ms adelante.
Una de las aplicaciones ms importantes del teorema del lmite control, es su relacin con las
variables aleatorias normales. Considere la variable aleatoria binomial X con parmetros (n; p);
donde X representa el nmero de xitos que n ensayos independientes con probabilidad de xito
p cada uno de ellos. La variable X se expresa como:
X = X1 + X2 + ::: + Xn
9.3. Teorema de lmite central 135
Figura 9.11: Distribucin binomial para p = 0:3, para diferentes valores crecientes de n:
donde
1 si el ensayo i-simo es un xito
Xi =
0 si el ensayo i-simo es un fracaso
X np
p ;
np(1 p)
para n grande, ser aproximadamente una variable normal estndar. Esta situacin se puede
ilustrar de manera visual, utilizando el CalEst.
Ejemplo 6
Ilustre en la opcin de distribuciones en CalEst, la distribucin binomial con (n; p) = (10; 0:3);
vare esta distribucin haciendo crecer n; por ejemplo (20; 0:3); (30; 0:3); (60; 0:3):Esta situacin
se ilustra en la Figura 9.11.
Nota. Se pueden ilustrar varios casos combinados p y poniendo diferentes valores n; tal que
n vaya creciendo.
136 9. Estimacin estadstica
Figura 9.12: Ilustra el teorema de lmite central, distribucin uniforme n = 1, luego con n = 9:
Ejercicio 4
En una escuela el 60% de los estudiantes no recibe atencin mdica, se selecciona una muestra
de 150 estudiantes. Si la variable aleatoria X -no recibe atencin mdica- tiene una distribucin
binomial. Estime la probabilidad de que a. X est entre 82 y 101. b. X mayor que 97.
Ejercicio 5
Una encuesta realizada en una ciudad, a gran escala, revela que el 30% de la poblacin adulta
consume regularmente bebidas alcohlicas durante la comida. Considerando esta proporcin,
cul es la probabilidad de que de 1000 entrevistados el nmero de consumidores de bebidas
alcohlicas sea a. menor a 280, b. 316 o ms?
Prctica
1. Lanzar un dado 10 veces, registrar el nmero x que muestra el dado al caer. Calcule la
media.
1 6 3 2 2 5 1 4 4 1 3 3.1
2. Repita este procedimiento 24 veces. Haga el histograma para las 25 medias. Calcule la
media y la varianza de estos 25, medias, datos.
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
Nota. El modelo probabilstico al lanzar un dado, tiene una distribucin uniforme P (X) = 16 ;
X = 1; 2; 3; 4; 5; 6 con media
6
X
1 1 1 1 1 1
= Xi P (Xi ) = 1 +2 +3 +4 +5 +6 = 3:5
i=1
6 6 6 6 6 6
138 9. Estimacin estadstica
6
X 6
X
2 = (Xi )2 P (Xi ) = Xi2 P (Xi ) 2 =
i=1 i=1
1 1 1 1 1 1
1 +4 +9 + 16 + 25 + 36 (3:5)2 = 2:92
6 6 6 6 6 6
as
p
= 2:92 = 1:71
1:71
x = = 3:5; x = p = p = 0:54
n 10
Ejemplo 8
Suponga que el peso X de un adulto hombre se distribuye como una normal con media = 77
kg., y = 9 kg. Es decir X N (77; 92 ): Si tomamos una muestra de 16 adultos. Cul es la
probabilidad de que la media caiga entre 73 y 82 kgs? Observe esta situacin y haga los clculos
usando el CalEst.
Usando el programa con la distribucin normal con media 77 y desviacin estndar p916 = 2:25
se obtiene que P (73 X 82) ' 0:949; para normal estndar: P ( 1:778 Z 2:222) ' 0:949:
Si se calcula la probabilidad que un adulto seleccionado al azar tenga un peso entre 73 y 82
kg.
P (IN SU ) = 1
Detalles tcnicos
Para hallar el intervalo de conanza necesitamos calcular los valores de los lmites inferior IN
y superior SU . Como sabemos, la X calculada de la muestra no ser exactamente igual a la
media; por tanto, lo primero que debe hacerse es establecer el tamao de un cierto margen de
error (e), conocido como error muestral, as:
=X e
De esta manera, los lmites inferior y superior del intervalo de conanza son:
140 9. Estimacin estadstica
IN = X e
SU = X + e
Recordemos que para cubrir 95% de los valores de una distribucin normal se tiene que:
Considerando la distribucin muestral de X se tiene que sta en forma de una normal estndar
se escribe como:
X
z= p
= n
P (X 1:96 p X + 1:96 p ) = 0:95
n n
e = 1:96 p
n
Por consiguiente, los lmites inferior y superior son:
IN = X 1:96 p SU = X + 1:96 p
n n
Una expresin general para el error (e), tambin conocido como precisin, ste se expresa
por:
e = z=2 p o e = t=2 p (9.1)
n n
Ejemplo 9
En el estudio del tiempo de respuesta para resolver un rompecabezas sobre la Repblica Mexi-
cana, aparece en la columna tiempo del archivo: est.tab contenido en la opcin de herramientas
del programa. Se desea estimar un intervalo del 95% conanza, en este caso como el tamao
de muestra es mayor que 30, se puede usar la distribucin normal estndar z. En el grupo de
inferencia aparece la alternativa de intervalos de conanza, al seleccionarla aparece una tabla
como la que se muestra a la izquierda en la Figura 9.13 se completan los cuadros en blanco, se
da aceptar a continuacin se proporciona el resultado.
Note que las elecciones Mltiple niveles permite observar el tamao del intervalo segn los
niveles de conanza que se utilicen y Mltiple desviaciones permite considerar otros intervalos
en trminos a la desviacin estndar. Estas observaciones estn relacionadas con la expresin
(9.1). Compruebe que la longitud de los intervalos tambin dependen del tamao de muestra
n, a medida que n crece, se cuenta con mayor informacin la precisin de los intervalos es
mejor.Verique estas diferentes situaciones usando el programa.
142 9. Estimacin estadstica
Captulo 10
Inferencia estadstica
10.1 Presentacin
La inferencia estadstica es un procedimiento cuyo objetivo es generar una conclusin sobre
una poblacin, mediante la informacin que proporciona una muestra seleccionada de datos. Una
rama importante de la inferencia es la prueba de hiptesis. ste consiste en un procedimiento
para seleccionar entre dos hiptesis, conocidas como hiptesis nula e hiptesis alternativa. Una
hiptesis es una armacin que expresa el valor del parmetro de una poblacin, por ejemplo
la media poblacional : En la prueba de hiptesis, la idea es dar el benecio de la duda a la
hiptesis nula, si el valor del parmetro es razonable. La hiptesis nula se rechaza solo si los
datos de la muestra indican que el valor del parmetro es no razonable, esto se ver con mas
detalle en el anlisis de datos. Formalmente:
Hiptesis nula, es una proposicin que indica que no hay diferencia (no hay efecto, no hay
cambio). sta se plantea usualmente en trminos del parmetro (medida de la poblacin) y
contiene el signo igual, sta se denota por H0 .
Hiptesis Alternativa, es una armacin que indica la verdad del parmetro en lugar de
la hiptesis nula. Usualmente se expresa con los smbolos <; > o 6=. ste se denota por H1 :
143
144 10. Inferencia estadstica
las persona reaccionan de manera lenta ante este tipo de situaciones, en este caso suponen que
el tiempo de respuesta es menor a 130 segundos. En este estudio las hiptesis son:
H0 : = 130
H1 : < 130
Los investigadores aplicaron la foto a 120 personas los resultados obtenidos: X = 124:8 y
una desviacin estndar S = 38:6, lo que genera un error estndar pS
n
= 3:52: La idea del
procedimiento para realizar la prueba de hiptesis se describe en la Figura 10.1. A la derecha
se ha descrito la normal con media 130 y desviacin estndar 3.52 que caracteriza a la hiptesis
nula. A la izquierda, con el n de jar ideas, se ha considerado una normal con media 120
y desviacin estndar 3.52 que representa a una de las alternativas posibles. Se determin un
umbral, X = 124:21; punto de referencia, en lo sucesivo se llamar punto crtico, que permitir
establecer una estructura probabilstica para no rechazar o rechazar la hiptesis nula y, en lo
sucesivo, tomar una decisin. Por ejemplo, decir que el valor de x est tan lejos de 130 que
es improbable, se dice que ese valor tiene una probabilidad baja. Esta probabilidad se conoce
como nivel de signicancia de la prueba. Este se denota por ; probabilidad de rechazar una
hiptesis nula verdadera: observe el rea a la izquierda de la distribucin normal derecha (color
rojo), y cambia de una prueba de hiptesis a otra. Note que:
Observe cmo las grcas de la Figura 6.1 describen las situaciones posibles y las decisiones
potenciales relacionadas en la prueba de hiptesis. La grca sugiere dos tipos de errores al
realizar la prueba, el rea a la izquierda del punto crtico bajo la hiptesis nula indica que se
10.2. Prueba de hiptesis: utilizando el CalEst 145
Figura 10.1: Grcas de la funcin normal para la hiptesis nula y una alternativa jada con
anterioridad.
rechaza H0 cuando en realidad H0 es verdadera. El otro, el rea a la derecha del punto crtico
considerando la hiptesis alternativa indica que no se rechaza H0 ; en realidad, H0 es falsa. En
resumen:
Hiptesis nula
Decisin H0 es verdadera H0 es falsa
No rechazar H0 Decisin correcta : Error tipo II
Rechazar H0 : Error tipo I Decisin correcta
1. H1 : < 0
2. H1 : > 0
3. H1 : 6= 0
Las dos primeras se les conoce como pruebas de un lado y la tercera como prueba bilateral.
En un apndice al nal de este apartado se muestra un ejemplo de la lgica de la prueba de
hiptesis.
2. Para realizar una prueba de hiptesis en el caso de la distribucin normal, aplique esta
distribucin en el CalEst:
muestral. Este punto resume todos los siete pasos del procedimiento de la prueba de
hiptesis. Ver ejemplo 1 para captar la idea y luego se puede aplicar a otros ejemplos
y ejercicios.
(c) Una alternativa para realizar una prueba de hiptesis es calcular la probabilidad, nivel
de signicancia descriptivo, p = P (X < x) o p = P (X > x): El procedimiento consiste
en comparar ste valor con el nivel de signicancia ; si p < se rechaza la hiptesis
nula, no se rechaza en caso contrario, es decir, p > :
3. Use la distribucin normal y elabore dos grcas de la normal con los parmetros (; )
correspondientes al problema. En la primera use el umbral para referirse al punto crtico,
en la otra ponga el umbral en el valor del estadstico de prueba, analice esta informacin
grca. Compare los niveles de signicancia y p -descriptivo. Nota. Reduzca el tamao
de las grcas para que pueda realizar el estudio.
4. Estas ideas se aplican a pruebas de hiptesis para estadsticos que siguen una distribucin
t-Student, F , o 2 .
Ejercicio 1
Del bloque didctica en CalEst use la opcin hiptesis para ilustrar las situaciones : H1 : < 0 ;
y H1 : > 0 para diferentes valores del nivel de signicancia y de :
En un proceso de llenado, el peso de bolsas de uvas pasas no debe pesar ni ms ni menos de 336
gramos. Para vericar que el proceso cumple con esta especicacin el responsable del proceso
toma una muestra de 40 bolsas de un lote de produccin. La media del peso de estas bolsas
fue de xm = 329:91 -valor en la muestra-, con una desviacin estndar de s = 11 Nota: No se
proporciona el valor de , pero dado que el valor de la muestra es grande, se usar el valor de s
como un estimado, as = 11:
148 10. Inferencia estadstica
Solucin.
Las hiptesis que se plantean para describir esta situacin son:
H0 : = 336
H1 : 6= 336
Para vericar si los datos apoyan la hiptesis nula con un nivel de signicancia de =
0:05(5%):
En la Figura 10.2 se resume el procedimiento de los siete pasos para realizar una prueba
de hiptesis. En sta, se describen los dos umbrales tanto en la grca cmo en la calculadora
-tabla-, stos corresponden a una prueba bilateral -dos colas-. En la grca por cuestiones de
compilacin se han redondeado los valores. El procedimiento indica que se debe comparar el valor
del estadstico xm = 329:91 con el valor crtico xc = 332:6: En este caso resulta que xm < xc , por
lo que se rechaza la hiptesis nula.
Observacin. En la mayora de los libros de estadstica realizan la prueba de hiptesis usando
la distribucin normal estndar Z, as construyen el valor del estadstico Zm en funcin de la
informacin generada por la muestra y este se compara con el valor de Z considerando el nivel
10.3. Prueba de hiptesis para una media 149
de signicancia . Se comparan estos dos valores para evaluar si los datos apoyan la hiptesis
nula. Siguiendo esa lnea a continuacin se describe el procedimiento.
Bajo el supuesto de que la hiptesis nula es verdadera, se realiza el clculo del estadstico de
prueba.
Xm 329:91 336
Zm = p = p = 3:5
= n 11= 40
(X Z=2 pn ; X + Z=2 pn )
(329:91 1:96(1:74); 329:91 + 1:96(1:74))
(326:4996; 333:3204)
Nota: Este intervalo no contiene a = 336, lo que conrma lo dicho por la prueba de
hiptesis.
150 10. Inferencia estadstica
Figura 10.3: Descripcin de los valores crticos en una prueba de hiptesis bilateral
El proceso operativo de la prueba de hiptesis se puede realizar utilizando CalEst, para ello
hay que ir a la opcin: Inferencia, Prueba de hiptesis 1 una media y aparece el cuadro como se
muestra en la Figura 10.4, este se completa con la informacin generada por los datos muestrales,
enseguida se oprime el botn Aceptar y se despliega la informacin desarrollada en el ejemplo 1.
La salida de los resultados mediante el CalEst se muestran en la Figura 10.5, en este reporte
se obtiene el estadstico calculado y los valores crticos; de esta manera obtiene la informacin
para poder concluir si rechazar o no rechazar la hiptesis nula. En esta Figura se destaca la parte
visual del software, a la derecha se ilustra la grca de la distribucin normal, sin necesidad de
pasar por el proceso de estandarizar la normal, se ven los valores crticos. As se tiene que la
media X m = 329:91 es menor que el valor crtico X c = 332:6 y sigue la conclusin ya anotada.
Esta situacin esta descrita con ms detalle en la Figura 10.2
Se puede observar que en el cuarto rengln de resultados aparece un valor de p, Figura 10.5, ste
corresponde a la probabilidad que deja a la izquierda el estadstico calculado, tambin denomi-
nado nivel de signicancia descriptivo. En smbolos P (Z 3:5) = 0:00046, esta probabilidad
se compara con el nivel de signicancia ; esta es otra alternativa para decidir sobre la hiptesis
nula. Por lo tanto si p < , se rechaza H0 , haga las grcas en el software para ilustrar los valores
10.3. Prueba de hiptesis para una media 151
Figura 10.4: Descripcin del procedimiento para realizar la prueba de hiptesis para una media
usando el CalEst.
de y p use tambin las tablas para estimar los valores. Note que en el caso de las pruebas
bilaterales se tiene 2 ; en ese sentido se tiene el valor correspondiente de p para los dos lados.
Comentario: as la presentacin visual y operativa del procedimiento de la prueba de hipte-
sis le generar benecios en la comprensin de los conceptos y desarrollo de esta metodologa
estadstica. Este mismo mecanismo se aplica en otras pruebas de hiptesis aplicando estads-
ticos con base en otras distribuciones de probabilidad; lo que le permitir evaluar los ejemplos
planteados por otros libros y resolver los ejercicios que stos proponen.
Ejemplo 2.
Un ingeniero de un proceso de curtidura plantea que el ndice de elongacin de una piel, debe
estar arriba de 64 unidades. En una muestra de n = 45 pieles, la media del ndice de elongacin
es de x = 65:5 y desviacin estndar de = 3:5, sta se escribe en funcin del parmetro dado
que la muestra es sucientemente grande.
Solucin.
Las hiptesis correspondientes en este ejemplo son:
H0 : = 64
H1 : > 64
El nivel de signicancia es = 0:05 ver Figura 10.6, de esta manera la regin de rechazo se
establece por:
= P (Z 1:644) = 0:05
152 10. Inferencia estadstica
Figura 10.5: Resultados que se obtiene al efectuar una prueba de hiptesis utilizando el CalEst
Por lo tanto el valor crtico es zc = 1:644: El valor estadstico de prueba se obtiene por:
65:6 64 1:6
zm = p = = 3:07
3:5= 45 0:5217
Al comparar zm con zc se observa que zm > zc ; por lo tanto se rechaza la hiptesis nula y
efectivamente el ndice de elongacin est por arriba de 64 unidades.
Considerando el nivel de signicancia descriptivo p se tiene que:
p = P (Z 3:07) = 0:00107
Ejemplo 3.
Una escuela aplica una prueba de 100 preguntas para conocer el conocimiento general de sus
estudiantes. Para ello se tom una muestra de 45 estudiantes al nalizar el ciclo escolar de
primaria. El director de la escuela considera que se tiene un nivel bajo si la prueba arroja una
media menor a 70 puntos.
Solucin.
Los valores alcanzados en la prueba se resumen por la siguiente informacin:
H0 : = 70
H1 : < 71
El director quiere ser conservador ante la posibilidad de cometer el error tipo I y propone
el nivel de conanza = 0:02. Previo al anlisis, construya la distribucin normal en CalEst
empleando la informacin proporcionada, con ayuda de la grca y los datos obtenga sus con-
clusiones. Luego compare stas con los resultados que se dan a continuacin.
154 10. Inferencia estadstica
68:14 70
zm = p = 1:17
10:34= 42
El valor del punto crtico: = P (Z 2:05) = 0:02: Puesto zm > zc = 2:05; no se rechaza
la hiptesis nula y por lo tanto la escuela no tiene un nivel bajo considerando el criterio del
director. Alternativamente con el nivel de signicancia descriptivo:
p = P (Z 1:17)
= 0:12
10:34 10:34
(68:14 2:05 p ; (68:14 + 2:05
42
p
42
(64:429; 71:852)
10.4. Prueba de hiptesis para una proporcin 155
Use la distribucin binomial en CalEst para observar esta situacin, para ello je un valor de
p e incremente el valor de n. El estadstico de prueba es la proporcin muestral pb y el estadstico
de prueba estandarizado es z:
pb pb pb p
z= =p
pb p(1 p)=n
p p
pb z=2 ( pb(1 pb)=n); pb + z=2 ( pb(1 pb=n)
Ejemplo 4.
En un estudio se indica que al menos el 20% de los adultos en una poblacin son alrgicos a un
medicamento. En una muestra aleatoria de 100 adultos de esa poblacin, el 15% indicaron que
son alrgicos. Con = 0:01, hay evidencia para apoyar lo que seal el estudio.
156 10. Inferencia estadstica
Figura 10.8: Ambiente en CalEst para realizar una prueba de hiptesis sobre una proporcin.
Solucin
La informacin generada por la muestra es: pb = 0:15; n = 100. Las hiptesis se plantean como
sigue:
H0 : p = 0:2
H1 : p < 0:2
pb p 0:15 0:20
zm = p =p = 1:25
p(1 p)=n (0:2)(0:8)=100
dado que zm = 1:25 < zc = 2:33; se concluye que no se rechaza la hiptesis nula.
10.4. Prueba de hiptesis para una proporcin 157
(0:058; 0:242)
Lo que indica que con un 99% de conanza la poblacin que es alrgicos a los medicamentos est
entre el 6% y 24%. A continuacin, en la Figura 10.9, los resultados generados por CalEst
Ejemplo 5.
Con el n de conocer la memoria a corto plazo un siclogo realiza una prueba con 200 personas,
para ello le ayudan varios de sus asistentes. La prueba consiste en mostrar una tarjeta con 16
palabras a cada una de las personas por 30 segundos, a continuacin se les distrae por un minuto
platicando con los entrevistados. Finalmente se le pide a la persona que diga las palabras que
158 10. Inferencia estadstica
Figura 10.10: Descripcin de la regin rechazo y no rechazo identicando los puntos crticos
recuerda, para ello se da un minuto. El investigador plantea que el 23% de las personas recuerdan
8 o ms palabras. La informacin que recogieron de las n = 200 entrevistas es que pb = 0:27
recuerdan 8 o ms palabras.
Solucin
H0 : p = 0:23
H1 = p 6= 0:23
El nivel de signicancia que se propone para realizar sta prueba es de = 0:05; para este
valor de alfa se puede vericar en CalEst los valores de z; ver Figura 10.10, estos son: z = 1:96
y z = 1:96:
En la Figura 10.10 se observa la regin de no rechazo establecida por los puntos crticos
(umbrales), adems de manera clsica se obtienen estos mediante una tabla de la distribucin
normal estndar = 0 y = 1. El equivalente aqu es usar la calculadora sealada por un aro
en la Figura, al aplicar sta se generan los valores de los puntos crticos para este caso.
10.4. Prueba de hiptesis para una proporcin 159
La parte operativa inicia vericando las condiciones que garanticen usar una distribucin
normal, es decir: 200(0:23) = 46 5 y 200(0:77) = 154 5: Nuevamente puede recurrir a la
grca de la distribucin normal para llevar a cabo el procedimiento de prueba de hiptesis.
El clculo del estadstico de prueba mediante la normal estndar es como sigue:
pb p 0:27 0:23
zm = p =p = 1:34
p(1 p)=n (0:23)(0:77)=200
Como este valor est entre 1:96 y 1:96 no se rechaza la hiptesis nula. Tambin se concluye
as porque el valor de la probabilidad correspondiente al zm calculado es (p = P (Z zm ) =
0:177), as p > :
El intervalo de conanza del 95% para este ejemplo se calculan de acuerdo al valor de Z:
p p
pb z=2 ( pb(1 pb=n); pb + z=2 ( pb(1 pb)=n)
p p
0:27 1:96( 0:27(0:73)=200); 0:27 + 1:96( 0:27(0:73=200)
(0:208; 0:332)
Ejemplo 6.
Un mdico supone que ms del 55% de las personas que viven en una zona cercana a una renera
tienen algn problema de salud relacionado con en el aparato respiratorio. Para conrmar su
supuesto realiza con un equipo de mdicos y varios laboratorios 425 pruebas en una localidad y
encontr que 255 padecan un mal respiratorio.
Solucin
El mdico se plantea las siguientes hiptesis:
H0 : p = 0:55
H1 : p > 0:55
Se desea probar esa hiptesis con un nivel de signicancia del 0:05. Se desea calcular el valor
de zc que cumpla P (Z > zc ) = 0:05: Como se ilustra en la siguiente Figura 10.11
160 10. Inferencia estadstica
Los datos son pb = 0:60 y n = 425: Se verica que se cumplan las restricciones para satisfacer
la condiciones de normalidad: 425(0:55) = 234 5 y 425(0:45) = 191 5: Nuevamente se
recomienda usar la grca de la distribucin normal.
El valor del estadstico es:
pb p 0:6 0:55
zm = p =p = 2:07;
p(1 p)=n (0:55)(0:45)=425
puesto que este valor es mayor que el valor de Z correspondiente a = 0:05; es decir zm =
2:07 > zc = 1:645: Por lo tanto se rechaza la hiptesis nula.
Los intervalos de conanza (1 )% se calculan de acuerdo al valor de z=2 :
p p
pb z=2 ( pb(1 pb=n); pb + z=2 ( pb(1 pb)=n)
(0:553; 0:647)
Con el 95% conanza se observa que entre el 55% y el 65% de la poblacin tienen algn problema
en el aparato respiratorio.
10.5. Prueba de hiptesis para una media: 161
3. Usar la opcin del umbral con una barra o dos barras de abajo segn sea el caso, para
identicar el valor correspondiente a la distribucin t de Student. Si la prueba de hiptesis
es:
Al lado izquierdo
Al lado derecho
Bilateral (en este caso se ve sealado el lado derecho o izquierdo, use =2).
H 0 : = 0
H1 : < 0
x 0
tm =
pS
n
H 0 : = 0
H1 : > 0
x 0
tm =
pS
n
H 0 : = 0
H1 : 6= 0
x 0
tm =
pS
n
Regla de decisin
La idea principal de la prueba de hiptesis es comparar dos nmeros, el valor del estadstico de
prueba con el valor de una distribucin de probabilidad (ste se obtiene a partir de un valor de
signicancia -probabilidad- establecido por ).
Por ejemplo en una distribucin t de Student el valor del estadstico de prueba:
x
tm =
pS
n
Este procedimiento de prueba de hiptesis se puede realizar con CalEst. Se debe tener en
cuenta que el planteamiento de la hiptesis alternativa surge del contexto del problema que se
desea estudiar. Una vez abierto un archivo o creado un nuevo archivo, vaya a la opcin inferencia,
enseguida a prueba de hiptesis y seleccione la opcin: una media en seguida la t, ver Figura
10.15.
A continuacin, en tres ejemplos se ilustra cada caso, para ello se debe crear un archivo por
el lector con los datos que se muestran en los ejemplos. Un archivo se crea en el CalEst en la
opcin: Archivo, al abrir sta aparece una hoja de clculo en la que puede capturar los datos. A
partir de ah se pueden realizar las pruebas planeadas.
Ejemplo 7.
La Secretara de Salud, recomienda que el nivel de colesterol de una persona debe estar por abajo
de 200 miligramos por 100 mililitros. Los datos que se dan a continuacin representan la lectura
del nivel de colesterol en una muestra tomada a 16 personas con edad menor a 40 aos:
Figura 10.15: Esquema para realizar una prueba de hiptesis t de Student con CalEst
Solucin
El planteamiento de las hiptesis son:
H0 : = 200
H1 : < 200
El nivel de signicancia propuesto para realizar esta prueba es = 0:05; en la Figura 10.16
se ilustra el valor del estadstico de prueba que corresponde al rea sombreada en la grca de
la t de Student con 15 grados de libertad, t(; n 1) = t(0:05; 15) = 1:752; As tc = 1:753:
Cuanticando los datos se tiene que el valor del estadstico de prueba es:.
xm 197:687 200
tm = = 20:706 = 0:447:
pS p
n 16
Se comparan los valores de tc y tm ; tm = 0:447 > tc ; los datos no dan evidencia para rechazar
la hiptesis nula.
Alternativamente, como el valor de p = P (tm 0:44671) = 0:3307; es mayor que = 0:05
(nivel de signicancia) no se rechaza H0 : Lo que indica que esa poblacin de personas no tiene
un colesterol por debajo de 200.
10.5. Prueba de hiptesis para una media: 167
Intervalo de conanza
Con el n de completar la inferencia de los datos se construye un intervalo del (1 )% de
conanza para una media con respecto al caso de muestras pequeas.
S S
x t(1 =2; n 1) p ; x + t(1 =2; n 1) p
n n
Para construir un intervalo del 95% de conanza 95%, se recurre al calculador de la distribu-
cin en CalEst y se tiene que el valor de t(1 =2; n 1) = t(0:975; 15) = 2:1335:
(186:654; 208:721)
Una vez descrito el procedimiento de la prueba de hiptesis, en la Figura 10.17 se muestran los
resultados que genera el CalEst:
Ejemplo 8.
Figura 10.17: Reporte de una prueba de hiptesis para una media con la t de Student.
Solucin
El planteamiento de las hiptesis es:
H0 : = 0
H1 : > 0
xm 2:33 0
tm = = = 3:679:
pS 0:633
n
conclusin, se sigue que p = P (t > 3:681) = 0:0025, este valor es menor que = 0:05 por lo
tanto se rechaza H0 : Efectivamente el tiempo de reaccin es mayor como lo establecido por el
siclogo, esto indica que los pacientes rebasaron el tiempo de respuesta esperado y se les someter
a nuevos ejercicios de memoria.
Ejemplo 9.
Una empresa que genera un producto qumico requiere que la media del nivel de pH en el agua
debe estar en 6:8: El tcnico responsable de este proceso toma 19 muestras de agua y mide el
pH de cada una de ellas. Los datos son:
6.7, 7.1, 6.8, 6.9, 6.5, 6.7, 6.6, 6.5, 6.5, 6.2
6.3, 6.6, 7.0, 6.7, 6.9, 6.5, 6.6, 6.9, 6.9
Solucin
El planteamiento hipottico para el pH es:
H0 : = 6:8
H1 : 6= 6:8
170 10. Inferencia estadstica
(6:564; 6:793)
En este caso el intervalo de conanza no contiene al 6.8, que como alternativa tambin prueba
la hiptesis. Ya que al no estar 6.8 en el intervalo, se rechaza la hiptesis nula.
2. La distribucin Ji cuadrada es una familia de curvas, cada una determinada por los grados
de libertad.
3. El rea bajo la curva de una distribucin Ji cuadrada es igual a 1.
Para investigar la posible diferencia signicativa que existe entre la varianza de una poblacin 2
(o desviacin estndar ) y un valor de una varianza 20 preseleccionada ( 0 ), el procedimiento
se plantea como sigue:
Figura 10.19: En inferencia: Pruebas de hiptesis: Una media 2 : Luego llene la hoja.
En smbolos:
H0 : 2 = 20
H1 : 2 < 20 H1 : 2 > 20 H1 : 2 6= 20
Ejemplo 10
En los proyectos de mejora, una empresa que opera cines decidi aplicar un programa de capa-
citacin para reducir la desviacin estndar del tiempo de servicio en sus dulceras a 2.9 minutos.
Una muestra aleatoria de 23 atenciones a clientes, tiene una desviacin estndar 2.1 minutos.
Con = 0:01 (10%). Existe evidencia para sostener que el programa de mejora es exitoso?
Resumen de la informacin muestral: n = 23 y s = 2:1 minutos. Las hiptesis son:
(n 1)S 2
2 =
2
El procedimiento que realiza el programa para llevar a cabo la inferencia estadstica sobre la
varianza, Figura 10.19.
10.6. Inferencia sobre la varianza 2 y 173
Clculo del estadstico -el reporte generado por el software se describe en la Figura 10.20-
(23 1)(2:1)2
2m = = 11:54
(2:9)2
Determinacin del valor crtico 2c (gl; ) = 2tablas (41 1; 0:10) = 14:042, vea este resultado
usando la distribucin en CalEst. Comparando el valor calculado con el valor crtico se tiene:
2
El resultado al sustituir los valores en la expresin anterior proporcional al intervalo del 90% de
conanza para 2
97:02 97:02
( ; ) = (2:8599; 7:8635)
33:924 12:338
Intervalo del 90% conanza para : es (1:6927; 2:804): La desviacin estndar en la atencin
a clientes estar, con un 90% de conanza, entre 1.7 minutos y 2.8 minutos.
Ejemplo 11
(n 1)S 2
2 =
2
Sigue una distribucin 2 con gl = n 1 grados de libertad. Clculo del estadstico
(41 1)(0:27)
2m = = 43:2
0:25
El valor crtico usando la distribucin Ji-cuadrada es: 2 = 2tablas (gl; ) = 2tablas (41 1; 0:05) =
55:758: Observe que:
as que no hay suciente evidencia para rechaza H0 : En efecto, este sistema de riego es uniforme
en la distribucin de agua. La prueba mediante la comparacin de los niveles de signicancia
sigue: el valor de p = P (2m > 43:2) = 0:336, as p > = 0:05 no se rechaza H0
El intervalo de conanza del 95% de conanza para es (0:427; 0:665), entre estos valores
est la desviacin estndar del sistema de riego.
Ejemplo 12
La varianza del peso de engorda en una poblacin de borregos se supone 20 = 225 unidades.
Con el n de conocer si este supuesto es adecuado, se toma una muestra de 16 borregos, a estos
se les pesa y la varianza muestral es S 2 = 428:74.
Solucin
Resumen de los datos y de los valores de la distribucin Ji cuadrada.para construir el intervalo
del 95% conanza para la varianza: n 1 = 16 1 = 15; S = 20:706
(233:957; 1027:045)
(15:29; 32:05)
H0 : 2 = 20
H1 : 2 6= 20
176 10. Inferencia estadstica
En la Figura 10.21 se presentan los resultados generados por CalEst incluyendo los intervalos
de conanza para la varianza y desviacin estndar:
Dado que 2m > 2c ; se rechaza la hiptesis nula, equivalentemente lo conrma el valor de
p > : Por lo tanto la varianza del peso de los borregos es diferente a lo establecido. Esta
varianza da lugar a que exista una variabilidad en el peso de los borregos y por lo tanto no
deseada.
Ejemplo 13
H0 : 2 = 15:9
H1 : 21 6= 15:9
10.6. Inferencia sobre la varianza 2 y 177
Figura 10.22: Valores crticos con un nivel de signicancia de = 0:05 en la distribucin Ji-
cuadrada con gl = 14:
El estadstico de prueba es
(n 1)S 2
2 =
2
Clculo del estadstico de prueba,
(15 1)(21:8)
2 = = 19:19
15:9
2c = 2tablas (15 1; =2) = 5:629 y 2c = 2tablas (15 1; 1 =2) = 26:119
La Figura 10.23 es un auxiliar para ilustrar la esencia del procedimiento de prueba de hiptesis.
Se tienen cuatro opciones:
Figura 10.23: Procedimiento de la prueba de hiptesis ilustrado mediante la lectura del iris.
4. Cometer el error tipo II, es decir, el individuo es impostor y la accin tomada es aceptar
en este caso el sistema se equivoc.
180 10. Inferencia estadstica
Captulo 11
Figura 11.1: Opcin para realizar los clculos para hacer inferencias sobre dos poblaciones
181
182 11. Inferencia para dos poblaciones
1. La hiptesis nula H0 es la hiptesis estadstica que usualmente indica que no hay diferencia
entre los parmetros de dos poblaciones.
2. La hiptesis alternativa, es la hiptesis estadstica que indica la relacin entre las dos
poblaciones y se plantea como menor, mayor o diferente.
H 0 : 1 = 2 H 0 : 1 = 2 H 0 : 1 = 2
(11.1)
H1 : 1 6= 2 H 1 : 1 > 2 H 1 : 1 < 2
El tamao de muestra obtenida de cada poblacin debe ser mayor de 30, o si no, cada
poblacin debe tener una distribucin normal con varianzas conocidas.
media = media(x1 x 2 ) = x 1 x 2 = 1 2
q q 2
2
y error estndar = (x1 2 2
x2 ) = x1 + x2 = n11 + n22
11.1. Inferencia para dos medias: muestras dependientes 183
Para motivar el concepto de esta prueba use la opcin didctica H0 cuya descripcin grca
aparece en la Figura 10.1. En este caso el estadstico x es la diferencia de medias x1 x2
y el error estndar = (x1 x2 ):
Este es el procedimiento que usan la mayora de los libros de estadstica, use la distribucin
normal estndar en CalEst para realizar estas pruebas.
Dada estas caractersticas de la distribucin muestral x1 x2 ; el estadstico de prueba es-
tandarizado toma la forma:
La expresin del estadstico de prueba para comparar dos medias es: x1 x2 y en forma es-
tandarizado se indica por:
(x1 x ) (1 2 )
zm = q2 2 (11.2)
1 2
n1
+ n22
En resumen el patrn que se sigue para realizar la prueba de hiptesis en la comparacin de dos
medias usando la distribucin Z (muestras grandes).
184 11. Inferencia para dos poblaciones
Con la informacin generada por los datos se puede construir el intervalo (1 )% de conanza
para la diferencia de medias 1 2 , cuya interpretacin indicar explicaciones importantes del
objeto de estudio. ste se escribe como:
s s
21 22 21 22
(x1 x2 ) zc + < (1 2 ) < (x1 x2 ) + zc +
n1 n2 n1 n2
Ejemplo 1
Figura 11.2: Resultados del procedimiento para probar la diferencia de dos medias.
Solucin
Para vericar esta prueba se siguen los pasos sealados en la Tabla 1 de esta seccin, las varianzas
son desconocidas. Por otro lado, dado que los tamaos de muestra son sucientemente grandes
se utilizan las varianzas de la muestra. Considerando la experiencia acumulada en las pruebas de
hiptesis aqu se recurre al calculador estadstico para realizar la prueba. Se toma la informacin
proporcionada en la Figura 11.2, en sta se presenta tambin, el resumen de resultados y los
valores relacionados con el intervalo de conanza para la diferencia de medias.
Conclusin: No se puede reportar una diferencia en los dos sistemas.
Se usa la prueba t para probar la diferencia de las medias 1 y 2 entre dos poblaciones cuando
una muestra es seleccionada aleatoriamente de cada poblacin. La aplicacin de esta prueba
requiere que cada poblacin se distribuya normalmente, y que las muestras sean independientes.
En este caso use la distribucin t de Student en el CalEst para identicar los valores crticos y
186 11. Inferencia para dos poblaciones
s
(x1 x2 ) (1 2 ) (n1 1)S12 + (n2 1)S22
tm = q , donde Sp = (11.3)
Sp 1
+ 1 n1 + n2 2
n1 n2
Con la informacin generada por los datos se puede construir el intervalo (1 )% de conanza
para la diferencia de medias 1 2 , cuya interpretacin indicar interpretaciones importantes
del estudio. ste se escribe como:
r r
1 1 1 1
(x1 x2 ) tc Sp + < (1 2 ) < (x1 x2 ) + tc Sp +
n1 n2 n1 n2
Ejemplo 2
Control 83, 91, 97, 97, 108, 111, 111, 117, 117, 125, 125, 140
Entrenado 64, 83, 83, 85, 91, 97, 97, 97, 103, 108, 111, 111, 117, 117, 125, 125
Se capturan estos datos en CalEst, en la opcin archivo y aparece una hoja de clculo y se
capturan los datos. El nombre de las columnas se escribe sobre la columna o usando el ratn al
marcar el extremo izquierdo del rectngulo. La descripcin de este procedimiento se muestra en
la Figura 11.3.
Se realiza la prueba t los resultados se muestran en la Figura 11.4. Use la distribucin t de
Student, en el paquete estadstico., para conrmar la informacin que se indica en el reporte.
Sugerencia: puede hacer unas grcas de la t para los niveles de signicancia p y .
La conclusin es que no hay diferencia en el rendimiento fsico en ambos grupos.
188 11. Inferencia para dos poblaciones
Antes 185 194 213 198 244 162 211 273 178 192 181 209
Despus 168 177 196 180 229 144 197 252 161 178 161 193
di = x1 x2
En este caso el estadstico de prueba para vericar la hiptesis nula H0 : 1 = 2 contra alguna
de las alternativas ser la media d de estas diferencias di ;
P
n
di
i=1
d= (11.4)
n
Para realizar un experimento para comparar dos poblaciones mediante muestras pareadas es:
2. Las muestras son pareadas (dependientes), la unidad en la primera muestra debe ser la
misma en la segunda muestra (par) o lo ms homogneo posible.
Dadas estas condiciones se sigue que la distribucin de la diferencia de medias d, tiene una
distribucin t de Student con n 1 grados de libertad. As el estadstico estandarizado es:
d d
tm = Sd
gl = n 1 (11.5)
p
n
Solucin al ejemplo 3
Se har la solucin de este problema mediante CalEst, se abre un archivo para capturar los
datos del problema, como se indica en la Figura 11.5, luego en la opcin inferencia en prueba de
hiptesis para dos medias y pareadas se genera la solucin.
190 11. Inferencia para dos poblaciones
Figura 11.5: Procedimiento para realizar una prueba hiptesis, en muestras pareadas en CalEst
Se observa de manera clara que los estudiantes mejoraron de manera signicativa la resolucin
del rompecabezas.
Se realiz una prueba para conocer la memoria a corto plazo a una muestra aleatoria de personas
entre 30 y 40 aos. Esta consista en mostrar una tarjeta con 16 palabras por un espacio de 30
segundos, despus se dejaba pasar un minuto platicando con el entrevistado. A continuacin se le
peda que dijera las palabras que recordaba, para esta accin se dejaba un minuto. Se consider
la proporcin, p1 , de personas que recordaban 8 o ms palabras. El investigador supone que si
ensea la tarjeta por un espacio de 60 segundos en lugar de 30, la proporcin, p2 , de personas
que recuerden 8 o ms palabras aumentar. Para vericar esta situacin se realiza una prueba
de diferencia entre dos proporciones.
Prueba de hiptesis para dos proporciones
Las condiciones que se deben seguir para realizar la comparacin entre proporciones es:
3. Las muestras deben ser sucientemente grandes para usar la distribucin normal, as se
debe cumplir:
n1 p1 5; n1 (1 p1 ) 5; n2 p2 5 y n2 (1 p2 ) 5:
Dadas estas condiciones, se tiene que la distribucin muestral de pb1 pb2 ; diferencia entre
proporciones, es una normal con media
(b
p1 pb2 ) = p1 p2
y un error estndar:
s
1 1
(b
p1 pb2 ) = p(1 p) + ;
n1 n2
x1 +x2
donde p = n1 +n2
; x1 = n1 pb1 ; x2 = n2 pb2 :
Entonces para probar la hiptesis de diferencia entre dos proporciones p1 y p2 cuando las
muestras se extraen de manera aleatoria de dos poblaciones el estadstico de prueba es:
y en forma estandarizado
p1 pb2 ) (p1 p2 )
(b
zm = r (11.7)
1 1
p(1 p) n1 + n2
Nota. Recuerde que puede usar la opcin didctica Ho para estudiar esta prueba de hiptesis,
donde ahora el estadstico es (11.6). Asimismo puede recurrir a la distribucin normal para
determinar los valores correspondientes a los estadsticos y niveles de signicancia.
Con el estadstico (11.6) o (11.7) se prueba una de las siguientes hiptesis alternativas:
H0 : p 1 = p 2
H1 : p1 6= p2 , H1 : p1 > p2 , o H1 : p1 < p2
11.3. Inferencia para dos proporciones 193
Solucin al ejemplo 4
n1 p1 = 100(0:2) 5; n1 (1 p1 ) = 100(0:8) 5;
n2 p2 = 100(0:42) 5 y n2 (1 p2 ) = 100(0:42) 5:
El reporte estadstico de este ejemplo generado por el software se muestra en la Figura 11.7.
Al rechazar la hiptesis nula se verica el supuesto del investigador, es decir si hay un efecto en
la memoria de corto plazo al mostrar la tarjeta un mayor tiempo.
Ejemplo 5
En dos tiendas de autoconsumo el precio de la canasta bsica vara da con da y una persona
tiene que decidir en cul de las dos tiendas comprar para no desequilibrar su presupuesto. El
precio en el riesgo de compra, est asociado con la desviacin estndar del precio diario de la
canasta. Se tienen seleccionados muestras aleatorias de ambas tiendas; la tienda A; 31 das con
194 11. Inferencia para dos poblaciones
una desviacin estndar de 5.7; la tienda B; 30 das con una desviacin estndar de 3.5. Con
un nivel de signicancia = 0:05 Se puede concluir que en alguna tienda hay mayor riesgo de
comprar y desequilibrar el presupuesto?
Resumen de la informacin que proporciona la muestra:
H0 : 21 = 22 H1 : 21 6= 22
En la Figura 11.8 se describe la opcin del programa estadstico para llevar a cabo la prueba de
hiptesis entre la razn de varianzas. Estadstico de prueba
S12
F =
S22
Figura 11.10: Pantalla que muestra la parte operativa de la prueba de hiptesis sobre la razn
de varianzas.
32:49
Fm = = 2:652
12:25
Clculo del valor crtico en funcin del nivel de signicancia Fc = Ftablas ; Fc = F (=2; 31 1; 30
1) = 2:1, puesto que 2:652 = Fcalculada > Fc = 2:1 se rechaza H0 :
Alternativamente se prueba la hiptesis utilizando el nivel de signicancia descriptivo p,
2p = P (Fm > 2:652) = 2(0:00514) = 0:01028; puede observar que p < = 0:025; por lo tanto se
concluye rechazar H0 :
21
Intervalo del (1-)% conanza para la razn de varianzas : 22
S12 S2
F1 (1 =2; glN ; glD ); 12 F0 (=2; glN ; glD )
S2 S2
Un profesor ha diseado una estrategia para mejorar la velocidad de lectura, en esa direccin
l intenta reducir la varianza en el tiempo de lectura. Primero hace una prueba para conocer
la varianza del tiempo de lectura que actualmente tienen sus alumnos. Selecciona una muestra
aleatoria de 10 alumnos, la prueba de velocidad de lectura arroj una varianza de 144 minutos2 .
Bajo su planteamiento consider una muestra de 21 alumnos, la varianza del tiempo de lectura
fue de 100 minutos2 . Proponiendo un nivel de signicancia = 0:10. Existe suciente evidencia
para respaldar la estrategia del profesor?
Resumen de la informacin que proporciona la muestra:
Ht : La varianza del tiempo de lectura actual es mayor a la varianza del tiempo bajo su esquema.
H0 : 21 = 22 H1 : 21 > 22
Estadstico de Prueba
S12
F =
S22
144
Fm = = 1:44
100
El valor de referencia Fc = Ftablas ( = 0:10; 10 1; 21 1) = 1:96, verique este valor usando
la distribucin F . Puesto que Fm < Fc se concluye que no se rechaza H0 :
Alternativamente usando el nivel de signicancia descriptivo p; el valor de p = P (F (10
1; 21 1) > 1:44) = 0:237: Observe que 0:237 = p > = 0:1, vea este valor en la distribucin F .
Se conrma que no se rechaza H0 :
Captulo 12
Anlisis de Varianza
En captulos anteriores se plantearon pruebas de hiptesis para una poblacin y dos poblaciones.
En esta parte se desarrolla un procedimiento para comparar dos o ms poblaciones a la vez. Este
se conoce como anlisis de varianza, abreviada ANDEVA.
La estrategia experimental, desempea un papel relevante para hacer la comparacin entre
ms de dos poblaciones y se llama diseo completamente al azar. Con el n de jar ideas considere
el siguiente ejemplo, un ingeniero que trabaja en biotecnologa de alimentos, quiere conocer la
preferencia que tienen las personas por cuatro tipos de helados elaborados bajo condiciones
diferentes. En este caso las hiptesis son:
Hiptesis nula:
H0 : Las personas preeren por igual los cuatro helados.
Hiptesis alternativas:
H1 : Existe preferencia por alguno de los helados.
La estrategia experimental para este caso es como sigue; suponga que hay 12 personas y que
cada una de tres personas prueban cada helado. Las doce personas se seleccionan aleatoriamente
y se les da a probar el helado correspondiente, es decir:
h1 h1 h1 h2 h2 h2 h3 h3 h3 h4 h4 h4
8 3 10 12 5 6 11 9 4 7 2 1
La medicin se realiza en una escala hednica con valores que van de 1 a 10, donde 1 es el
disgusto de las personas por el helado y 10 es la aceptacin total.
La estructura de esta estrategia experimental se presenta en la Tabla 12.1, con los resultados
reportados por las personas.
199
200 12. Anlisis de Varianza
Helados
1 2 3 4
74 46 80 85
78 56 70 82
73 49 77 89
nj 4 4 4 4
xj 75 50.33 75.67 85.33
Sj2 7 26.33 26.33 12.33
La idea principal en este caso, es probar si la variacin entre grupos (entre helados) es similar
a la variacin dentro de grupos (cada helado).
En resumen, el planteamiento general de este esquema es:
Este esquema se conoce como diseo completamente al azar. La meta de este procedimiento
es construir el estadstico de prueba para vericar esta hiptesis.
Un factor, es una variable que se usa para diferenciar un grupo de una poblacin a otra.
Esta es una variable que puede estar relacionada con la variable de inters. Un nivel es
uno de los posibles valores que el factor puede tomar.
En el ejemplo, el factor es el tipo de helado y el nivel es cada uno de los helados. A continuacin
se formaliza lo que se llama variable de respuesta, en este caso la evaluacin de la preferencia del
helado.
El procedimiento para analizar los datos del experimento, se llama anlisis de la varianza
(ANDEVA).
Anlisis de la Varianza es una tcnica que se utiliza para analizar la varianza en los
datos para determinar cuando mas de dos poblaciones tienen medios iguales.
Estadstico en el ANDEVA
La media de todos los datos se conoce como la gran media.
La gran media es el promedio de todas las observaciones en el experimento y se denota por x
La variacin entre poblaciones mide qu tan diferente son los tratamientos de la gran media.
Esta se llama el cuadrado medio de tratamientos y se denota por CMtrat
k
X
SCtrat = nj (xj x )2 ;
j=1
Observacin
El numerador de la expresin (12.1) se le conoce como la suma de cuadrados dentro de tratamien-
tos. El denominador son los grados de libertad asociados a esta fuente de variacin son:
(n1 1) + (n2 1) + (nk 1) = n1 + n2 + ::: + nk k=N k:
La variable que resulta de dividir el cuadrado medio entre y el cuadrado medio dentro de
tratamientos tiene una distribucin F con k 1 grados de libertad en el numerador y N k
grados de libertad en el denominador; esto es F (k 1; N k):
Los resultados de este procedimiento se recogen en una Tabla que se conoce como anlisis de
varianza. En la Tabla 12.2 se describen las expresiones para realizar los clculos realizados.
Total N 1 SCtotal
Ejemplo 1
Un nutrilogo est probando cuatro tratamientos (A,B,C y D) para reducir el peso. l cuenta con
18 personas para realizar el experimento, aplica de manera aleatoria uno de los tratamientos a
cada persona. Despus de un periodo de prueba anota el nmero de kilogramos que redujeron las
personas, en la Tabla 12.3 se anota el registro, (6.5 indica que una persona redujo 6 kilogramos
con 500 gramos) Cul es la hiptesis que se plantea vericar el nutrilogo? Cules son los
resultados principales para construir el estadstico de prueba F?
204 12. Anlisis de Varianza
Resultados
Tratamiento
A B C D
6.5 6.0 5.5 4.6
6.5 5.8 5.2 4.5
5.8 5.8 4.9 4.5
5.7 5.5 4.8 4.8
5.6 5.1
nj 5 5 4 4
xj 6.02 5.64 5.10 4.60
S2 0.197 0.123 0.100 0.020
Hiptesis
Con la informacin reportada en la Tabla 13.3 se pueden construir los cuadrados medios entre y
dentro de tratamientos, es decir:
Figura 12.1: Archivo de datos que registra los valores experimentales y el anlisis estadstico.
As Fm = 1:709
0:117
= 14:596: Puesto que Fm = 14:596 > Fc = 3:344 se rechaza la hiptesis nula,
lo que indica que alguno de los tratamientos es efectiva para reducir de peso.
Captulo 13
La nalidad del anlisis de regresin consiste en estudiar la relacin que existe entre las
variables, describir modelos grcos para explicar esta relacin, y construir modelos sobre un
fenmeno para predecir otros valores de la respuesta dado un valor jo de la covariable y hacer
inferencia sobre los parmetros del modelo, sobre la media estimada y la prediccin. La forma
general del modelo es:
207
208 13. Modelo de regresin lineal simple
Ejemplo 1
En los reportes de quin es quin en los precios que proporciona la Secretara del Consumidor,
seleccionamos el precio de dos medicinas en 10 farmacias, el precio est dado en pesos y el precio
real se debe multiplicar por 50. Los resultados se muestran en la siguiente tabla. Es de inters
saber si existe alguna relacin entre los precios de las distintas medicinas: es decir si las farmacias
conservan la misma relacin en sus precios con respecto a las dos medicinas:
Farmacia 1 2 3 4 5 6 7 8 9 10
Xi 3 3 4 5 6 6 7 8 8 9
Yi 9 5 12 9 14 16 22 18 24 22
En forma general, se usa la letra n para denotar el tamao de la muestra, para cada uno de
los n individuos se observa la pareja de valores (X; Y ). Es decir
Figura 13.2: Diagrama de dispersin y modelo de regresin para el precio de las farmacias.
la regresin avanzada. En este Captulo se abordar la primera, como paso inicial se anotan los
datos en una hoja de trabajo, creando o abriendo un archivo en CalEst o en otra hoja electrnica.
Una vez capturado los datos y se llama la opcin regresin simple como aparece en la Figura
13.1.
Una vez llenados los cuadros para la variable dependiente, far2 en este caso, y la variable
independiente far1, se aprieta el botn aceptar. Enseguida aparece una serie de grcas que
forman parte del anlisis, atrs aparece una hoja que completa el anlisis estadstico. En la
Figura 13.2 se muestra una lnea y los puntos que representan el precio de las 10 farmacias.
El objetivo principal es estimar los parmetros que caracterizan al modelo, lnea recta, descrito
en la Figura 13.2. En la Figura 13.3 se muestra el reporte que contiene los valores estimados y
los resultados estadsticos generados por el mtodo de mnimos cuadrado. Este se explicar en
este Captulo. La informacin que se presenta en esta gura se obtiene del paquete estadstico.
2. " (epsilon) "1;:::; "n son variables aleatorias no observables y suponemos que se distribuyen
como una distribucin de probabilidad normal con media cero y varianza 2 .
210 13. Modelo de regresin lineal simple
Figura 13.3: Resultados estadsticos del anlisis que genera el mtodo de mnimos cuadrados
3. Los parmetros 0 (Beta cero), es el punto en el cual la recta (13.1) intercepta a Y . 1 (Beta
uno), pendiente de la recta (13.1), indica la cantidad que crece (decrece) Y por cada unidad
que aumenta X:
Ejemplos:
Y =8 6X + "
Y = 0 + 1 X + "; con 0 = 7 y 1 = 2:
13.2. Modelo de regresin lineal simple 211
Yi Ybi = Yi (b0 + b1 Xi ) = ei
y representa la distancia vertical del punto Yi a la lnea. La discrepancia de todos los puntos est
representada por la siguiente expresin.
n
X n
X
D= e2i = (Yi (b0 + b1 Xi ))2 ; (13.2)
i=1 i=1
As, D es una medida de la discrepancia de los puntos observados Yi de la lnea Ybi = b0 +b1 Xi .
La magnitud de D depende de la lnea que se dibuje, es decir dependen de b0 y b1 . Un buen ajuste
hace la D tan pequea como sea posible. El mtodo de mnimos cuadrados permite estimar los
valores estimados de los parmetros, y su objetivo es minimizar la siguiente discrepancia:
n
X n
X
D= (respuesta observada-modelo)2 = (Yi ( 0 + 1 Xi ))2 :
i=1 i=1
Notacin.
Con la nalidad de facilitar los clculos en la estimacin de los parmetros, en el anlisis y
evaluacin del modelo, se plantean las siguientes expresiones.
P
n P
n
_ _ _ _
( X )( Y )
1P n 1P n Pn Pn
i=1 i=1
X= Xi ; Y = Yi ; Sxy = (X i X)(Y i Y ) = Xi Yi i i
(13.3)
n i=1 n i=1 i=1 i=1 n
212 13. Modelo de regresin lineal simple
P
n P
n
_
( Xi2 )2 _
( Yi ) 2
P
n
2 P
n
i=1 P
n
2 P
n
i=1
Sxx = (Xi X) = Xi2 ; Syy = (Yi Y ) = Yi2 (13.4)
i=1 i=1 n i=1 i=1 n
Estas frmulas son de utilidad porque permiten calcular los estimadores de mnimos cuadrados,
y a continuacin se mostrarn las expresiones :
_
El estimador de mnimos cuadrados de 0 es b0 : b0 = Y b1X
Sxy
El estimador de mnimos cuadrados de 1 es b1 : b1 =
Sxx
Las desviaciones individuales entre las observaciones Yi y los valores ajustados Ybi = b0 + b1 Xi
se llaman residuales, y los denotamos por ei .
13.2.2 Residuales
Los residuales se expresan por
ei = Ybi (b0 + b1 Xi ):
Los residuales permiten vericar los supuestos estadsticos en los que se basa el mtodo de
mnimos cuadrados, ellos son de utilidad para evaluar otras caractersticas del modelo, estos
Pn
aspectos se vern posteriormente. Una propiedad de los residuales es i=1 ei = 0: La suma de
cuadrados de los residuales es:
n
X 2
Sxy
SCerror = e2i = Syy (13.5)
i=1
Sxx
SCerror
b2 =
n 2
Ejemplo 2
Considerando los datos de los precios de las medicinas en las diez farmacias, descritos anterior-
mente, a continuacin se efectan los clculos para obtener la lnea de mnimos cuadrados, los
residuales, la estimacin de la varianza, los resultados previos se describen en la siguiente tabla.
13.2. Modelo de regresin lineal simple 213
Xi Yi Xi2 Yi2 Xi Yi Yb ei
3 9 9 81 27 7.15 1.85
3 5 9 25 15 7.15 -2.15
4 12 16 144 48 9.89 2.11
5 9 25 81 45 12.63 -3.63
6 14 36 196 84 15.37 -1.37
6 16 36 256 96 15.37 .63
7 22 49 484 154 18.11 3.89
8 18 64 324 144 20.85 -2.85
8 24 64 576 192 20.85 3.15
9 22 81 484 198 23.59 -1.59
59 151 389 2651 1003 0
El ltimo rengln de la tabla anterior representa la suma de los renglones, estos valores se
sustituyen en las frmulas descritas anteriormente para obtener la estimacin del modelo. Los
clculos son:
_ 59 151
X = 5:9; Y = 15:1; Sxy = 1003 = 112:1;
10
(59)2 (151)2
Sxx = 389 = 40:9; Syy = 2651 = 370:9:
10 10
Los estimadores de mnimos cuadrados para el modelo son:
112:1
b0 = 15:1 2:74 5:9 = 1:07; b1 = = 2:74:
40:9
As la recta que mejor se ajusta a los datos de precios es:
Yi = 1:07 + 2:74Xi
La varianza se estima por:
SCerror 63:6528
b2 =
= = 7:96;
n 2 8
(112:1)2
donde SCerror = 370:9 40:9
= 63:6528. En la Figura 13.3 se muestra el reporte de los clculos
que genera el CalEst, compare esta con el procedimiento ilustrado. La construccin de la segunda
tabla que aparece en reporte se presenta en el apartado 13.3.4 y en la Tabla 13.1.
Interpretacion: Un vez que se han obtenido los estimadores de los parmetros, es impor-
tante su interpretacin. En el modelo lineal que se esta estudiando el coeciente de la variable
independiente X es en particular el ms importante. As el valor de b1 = 2:74 indica que cuando
una farmacia vende la medicina X en un peso ms cara, en esa misma farmacia la medicina Y
cuesta casi tres pesos ms cara (por la consideracin inicial 27 pesos ms).
214 13. Modelo de regresin lineal simple
Si una farmacia vende la medicina X en 3.5 pesos, cunto costar la medicina Y en esa
farmacia?
Para responder a estas preguntas se necesita indicar que los estimadores de mnimos cuadra-
dos, se distribuyen como una distribucin de probabilidad normal con media = ; y varianza
2 (bi ):
b2
1 X2
b2 (b1 ) =
y b2 (b0 ) =
b2 ( + )
Sxx n Sxx
b2 =
donde el estimador de la varianza 2 es SCE
n 2
o el estimador de la desviacin estndar
b es la raz cuadrada de
SCerror
n 2
:
b2 , por ello la
2. En la prctica la varianza 2 no se conoce, as que se usa el estimador
inferencia en los parmetros del modelo se basan en la distribucin de probabilidad t,
entonces para la pendiente 1 ;
(b1 1 )
t=
b(b1 )
se distribuye como una t Student con n 2 gl. Anlogamente la inferencia del intercepto
0 se basan en la distribucin t.
(b0 0 )
t=
b(b0 )
1 (X X)2
b (Yb ) =
2
b 2
+ (13.6)
n Sxx
(b0 b1 X 0 + 1X )
t= con gl = n 2
b(Yb )
En esta no hay cambio en X si y solo si 1 = 0. Con objeto de vericar si los datos apoyan
o no este hecho, en trminos estadsticos se plantea la siguiente hiptesis:
H0 : 1 = 0 y H1 : 1 > 0;
(b1 1 )
con base en el estadstico de prueba, tc =
b( 1 )
, gl = n 2. Permitir rechazar o no la hiptesis
nula.
En particular, la hiptesis alternativa H1 como est planteada permite preguntarse, existe
evidencia de que la medicina Y es ms cara cuando la medicina X es cara? La respuesta ser
armativa si al realizar la prueba se rechaza la hiptesis nula, para ello primero se tiene que
obtener el valor del estadstico t.
De los clculos se tiene que b1 = 2:74;
SCE 63:65
b2 =
= = 7:956
n 2 8
de aqu se obtiene
b = 2:8207, nalmente:
s r
b 2:8207
b(b1 ) = = = 0:441
Sxx 40:9
En la Figura 13.4 se describe el anlisis grco del modelo proporcionado por el CalEst. En la
grca superior izquierda aparece el modelo con su lmite de conanza del 95%. El cuadro que se
indica con las letras ab, brinda la posibilidad de cambiar el nivel de conanza, adems se puede
ver el lmite de conanza para la prediccin. La grca de la derecha superior muestra la relacin
entre los valores reales y los predichos e indica qu tanto explica el modelo. Las siguientes dos
grcas completan el anlisis del modelo mediante la evaluacin de los residuales, en ellas se
puede interpretar: si existe homogeneidad en la varianza, dispersin de los residuales y puntos
aberrantes. Abajo hay una quinta grca sobre los residuales que interpreta la dependencia con
respecto al tiempo.
13.3. Estimadores de mnimos cuadrados. 217
H 0 : 0 + 1 X = 0 ; H1 : 0 + 1 X 6= 0 ;
b 0 + b 1 X 0
tc = q ; gl = n 2;
1 (X X)2
b n + Sxx
con la nalidad de ilustrar la inferencia sobre la prediccin de la respuesta, se utilizarn los datos
del ejemplo 1.
Interpretacin, con un 95% de conanza la medicina Y se vende entre (13.31 y 17.43) con-
siderando que X = 6:5, para un valor no observado de X, se desea proponer un valor de X
no observado, pero an, entre el rango de valores de X, el error estndar estimado cuando se
predice una respuesta es:
r
1 (X X)2
b 1+ +
n Sxx
Nuevamente se recurre a los datos de los precios de las farmacias, ahora X = 6:5. El valor
predicho es: b0 + b1 X = 1:07 + 2:74(6:5) = 16:74. La Figura 13.5 complementa el anlisis
estadstico de este ejemplo. Para reproducirlo oprima el botn tercero en la segunda franja. La
prediccin se obtiene usando el botn yb. Un intervalo de conanza del 95% de conanza es
13.3. Estimadores de mnimos cuadrados. 219
Figura 13.5: Informacin complementaria para el anlisis estadstico del modelo de regresin.
r
1 (6:5 5:9)2
16:74 2:306(2:8207) 1+ + = 16:74 6:85 = (9:89; 23:59):
10 40:9
Yi = (b0 + b1 Xi ) + (Yi b0 b1 Xi )
X 2
Sxy
2
SCerror = (Yi b0 b1 Xi ) = Syy (13.9)
Sxx
220 13. Modelo de regresin lineal simple
X
Syy = (Yi Y )2 (13.10)
2 2
Sxy Sxy
Syy SCerror = Syy Syy = : (13.11)
Sxx Sxx
Para evaluar qu tanto los datos se ajustan al modelo debemos considerar la SCregresion ,
de tal manera que si existe un buen ajuste, la SCregresion contribuye fuertemente a la SCtotal .
Nuevamente la situacin ideal: todos los puntos sobre la lnea recta nos indica que SCerror es
cero, as SCtotal queda totalmente explicada por los valores de X. Para resumir esta situacin
generalmente se presenta una tabla que se llama anlisis de la varianza (ANDEVA).
F es una variable aleatoria que tiene una distribucin F con 1 y n 2 grados de libertad
respectivamente, para decidir si los datos conrman la hiptesis nula se compara F con el valor
F ; donde es el nivel de signicancia.
Nota. Use la distribucin de probabilidad F y el calculador de sta en el paquete estadstico
para vericar estos resultados estadsticos y conclusiones. Observe que en el caso del anlisis de
la regresin simple la prueba de hiptesis mediante las pruebas t y F son equivalentes. Vea la
propiedad de la distribucin F con respecto a la t, que se mostr en el captulo 8.
Un ndice para evaluar el porcentaje de los datos que son explicados por el modelo, se llama
el coeciente de determinacin y se denota por R2 ; este se construye considerando la proporcin
de la variabilidad total y la explicada por el modelo, es decir :
2 2
SCregresion Sxy =Sxx Sxy
= = (13.12)
SCtotal Syy Sxx Syy
Considerando nuevamente los datos sobre el precio de las farmacias, y por los clculos que
se han realizado en los precios para las medicinas X y Y , se tiene: Sxx = 40:9, Syy = 370:9,
Sxy = 112:1 la recta que se ajust : Yb = 1:07 + 2:74X. Qu tanto de la variabilidad es
explicada por el modelo de regresin? La respuesta a esta pregunta calculando el coeciente de
determinacin :
2
Sxy (112:1)2
R2 = = = 0:83
Sxx Syy (40:9)(370:9)
222 13. Modelo de regresin lineal simple
Ejemplo 3
Se ha probado que el tiempo de vida de un acumulador se puede predecir (por ejemplo) midiendo
la carga que se le proporciona a la batera (en voltios). Se realiza un prueba de vida acelerada, en
este caso los acumuladores se sometieron a ciertas condiciones ambientales de calor (entre otras
posibles pruebas). Los datos para seis acumuladores son:
b0 = (X 0 X) 1 X 0 Y
donde
0 1 1 1 1 1 1
X =
17:9 23:6 30:9 56:1 61 77
la inversa
0 1 0:873 0:016
(X X) =
0:016 0:00036
13.3. Estimadores de mnimos cuadrados. 223
nalmente se tiene
b = (268:593; 1:593)
el modelo estimado es
Yb = 268:593 1:593x
Anlisis estadstico:
Hiptesis
Ho : 1 = 0
H1 : 1 6= 0
El estadstico
b
1
1
tc = t(n p; )
b1 )
ES(
Clculos
b ) = (S 2 (X 0 X) 1 )1=2 = 0:3543
ES( 1
(Y Yb )0 (Y Yb )
S2 = = 350:4384
n p
1:593 0
tc = = 4:5
0:3543
el valor de t(n p; ) = t(4; 0:025) = 2:78:
El coeciente de determinacin:
(Y Yb )0 (Y Yb ) 1401:9653
R2 = 1 =1 = 83:5
(Y Y )0 (Y Y) 8488:83
El coeciente de correlacin
(X X)0 (Y Y)
r= = 0:913
(X X) (X
0 X)(Y Y )0 (Y Y)
Resumen
parmetro estimacin error estd. tc p
o 268.593 17.494 15.353 0.0001
1 -1.593 0.354 -4.496 0.0108
donde
b +
Yb = b X
o 1
Ejercicio
Regresin Mltiple
14.1 Modelo
Si con la nalidad de explicar un fenmeno o proceso se incorporan nuevas variables al modelo
lineal simple, entonces se tiene el modelo de regresin mltiple, el cual se representa mediante la
siguiente expresin :
donde 0 es una contante, los, i ; i = 1; 2; :::; k, son los parmetros del modelo, las Xji j =
1; 2; :::n; i = 1; :::; k son las variables independientes que describen las k caractersticas de los n
individuos u objetos, Yi es la variable de respuesta, se tienen n observaciones sobre los individuos,
" es una variable aleatoria.
La ecuacin (14.1) es un modelo hipottico con el cual se tratar de explicar los resultados de
una situacin real, en general, la idea es bosquejar o construir un modelo que nos va a describir
e interpretar un fenmeno, para ello planteamos el siguiente procedimiento :
1.- Proponer un modelo esto incluye la seleccin de las variables que aparecen en el modelo.
2.- Estimar los parmetros 0 ; 1 ; 2 ;..., k del modelo.
3.- Especicar la distribucin de probabilidad de la variable aleatoria ", estimar la varianza
2 de la distribucin.
4.- Vericar la utilidad del modelo
5.- Usar el modelo para predecir valores particular de Y , dentro del rango de valores de la
variable independiente.
NOTA.- El modelo (14.1) es lineal en los parmetros y en las variables independientes, en este
caso el modelo recibe el nombre de modelo lineal de primer orden. Ms adelante se estudiarn
otros modelos.
225
226 14. Regresin Mltiple
el procedimiento es anlogo al presentado para una variable, puesto que la nalidad es optimizar
la siguiente expresin:
n
X n
X
"i "i = (Yi ( 0 + 1 X1i + 2 X2i ))2 (14.3)
i=1 i=1
As, los estimadores de mnimos cuadrados obtenidos por este planteamiento es la solucin que
se obtiene al resolver simultneamente las ecuaciones que resultan de la optimizacin, para el
caso de dos variables la solucin se tiene a partir de las expresiones indicadas a continuacin, que
son una extensin a las anotadas cuando solo hay una variable independiente. A continuacin
se muestran los resultados y la notacin matemtica de los estimadores.
0
minimizar "0 " = (y X) (y X) (14.5)
b = (X 0 X) 1 0
XY (14.6)
de cada variable para explicar la respuesta. Se puede notar que el modelo que se propone es un
plano, as se busca el plano de regresin que mejor se ajuste a los datos descritos por el estudio.
Los datos observados se presentan en la siguiente Tabla 14.1
X1 : nivel X2 : temperatura y
a~
no de lluvia promedio prod:
1981 39 20 55
1982 37 26 65
1983 47 19 80
1984 37 27 75
1985 39 24 70
1986 38 21 50
1987 40 23 60
1988 41 22 65
Solucin
b = (
b ;b1 ;
b2 ) = ( 177:439; 3:863; 3:908)
0
H0 : 1 = 0 contra H1 : 1 6= 0 y
H0 : 2 = 0 contra H1 : 2 6= 0
Ver los resultados reportados en la Figura 14.1. Cada una de estas hiptesis se prueban con
el estadstico t de Student, el planteamiento y el clculo de estas es como sigue:
b
1 3:863 0
1
t1 = = = 5:331
b )
b ( 0:725
1
y
b2
2 3:908 0
t2 = = = 4:687
b )
b ( 0:834
2
Como ambos estadsticos son mayores que el valor t(=2; gl = 5) = 2:571 y con un = 0:05;
se tiene que ambas variables contribuyen de manera signicativa en el efecto de rendimiento de
produccin del grano. La Figura 14.2 indica el valor del estimador su error estndar y el intervalo
de conanza del 95%, en este caso, para los parmetros. Finalmente se indica el coeciente de
correlacin entre la respuesta y cada una de las variables de entrada. Se indica los coecientes
de determinacin y el error estndar.
Anlisis de residuales
Las grcas de la Figura 14.3 describe el anlisis de residuales.
H0 : 1 = 2 = ::: = p = 0
Figura 14.2: Completa el anlisis de regresin mltiple, las correlaciones son entre ( y y X1 ) y
( y y X2 )
n
X n
X 2 n
X 2
2
Yi Y = Ybi Y + Yi Yb (14.7)
i=1 i=1 i=1
el primer trmino del segundo miembro se conoce como la suma de cuadrados debida al modelo
Pn 2
y se denota por SCM y es: Ybi Y , nalmente el otro trmino del segundo miembro se
i=1
denomina como la suma de cuadrados no explicada por el modelo o suma de cuadrados del error,
n
P 2
sta se denota por SCE, es decir Yi Yb . Con esta informacin y los grados de libertad
i=1
Los cuadrados medios que aparecen en la cuarta columna de la Tabla 14.2 se obtienen divi-
diendo la suma de cuadrados por los grados de libertad. Luego se divide el cuadrado medio del
14.2. Ajuste del modelo. 233
modelo entre el cuadrado medio del error, el valor resultante viene de una distribucin de pro-
babilidad F con 1 y 2 grados de libertad. ste permite probar la hiptesis nula sobre igualdad
de parmetros, es decir:
CMmodelo
Fc =
CMerror
Si Fc es mayor que un valor de la distribucin F para un = 0:05 con los grados de libertad
apropiados, entonces se dice que los datos no apoyan la hiptesis nula H0 y se rechaza. Tambin
se compara el valor de con el valor de la probabilidad p; es decir si > p se rechaza H0 .
Regresin g 1 b
SCreg = (y0 X y 2 =n) SCreg CMreg
g 1 CMerror
Error n g SCerror = y0 y b
y 0 X SCerror
n g
Estimacin de la varianza
b2 es
La varianza 2 se estima as
P
2 SCE (Y Yb )2 99:268
b = = = = 19:854
n k n k 7 2
p 2 p
y el error estndar es
b= b = 19:854 = 4:4578
Coeciente de determinacin
Otros resultados estadsticos para evaluar el modelo de regresin se siguen a partir del coeciente
de determinacin, el cual se obtiene por:
2 (n 1)SCE (7 1)99:268
Rajs =1 =1 = 0:802
(n k)SCT (7 2)700:0
Considerando esta informacin proporcionada por los datos, se tiene que el modelo explica el
80%. Se puede notar que estos coecientes son aproximadamente iguales, si el nmero de datos
observados aumenta de manera considerable.
SCreg SCerror y0 y y 0 Xb
R2 = =1 =1
SCtotal SCtotal y0 y y 2 =n
b1 t(n b1 ) t(n p
g; =2)ES( g; =2)S m11
=
b el vector de parmetros
donde Yb = x0 ; b0 ;
b = ( b1 ) y el vector (1; x0 ); donde x0 representa
a los niveles de los factores donde se requiere estimar la media de Y .
Intervalo de conanza para un valor de la variable de respuesta (predicho)
p
Yb t(n g; =2)S 1 + (1; x0 )(X0 X) 1 (1; x0 )0
Ejercicio 1
Existe inters en conocer si hay alguna relacin en el rendimiento de los estudiantes en el examen
de seleccin para ingresar a la preparatoria, con el promedio en la materia de matemticas X1 y
la de espaol X2 que obtuvieron en los tres aos de secundaria, el rendimiento se evalu por el
nmero de respuestas correctas en el examen. Los resultados de nueve estudiantes seleccionados
al azar son los mostrados en la siguientes tabla, aciertos en el examen de seleccin X1 y el
promedio en secundaria X2 .
Y = aciertos 89 78 66 62 52 49 47 44 38
X1 = mat:promedio 78 89 70 74 72 68 70 65 62
X2 = esp:promedio 89 81 80 72 70 67 68 69 68
236 14. Regresin Mltiple
Ejercicio 2
En un proceso se quiere conocer la relacin que existe entre el tiempo de mezclado y la velocidad
del equipo con la densidad. Un ingeniero realiza varias pruebas sus resultados se muestran en la
siguiente tabla
prueba tm vel den prueba tm vel den
1 5 100 3.1 11 8 200 3.2
2 5 100 3.3 12 8 200 3.5
3 5 200 2.6 13 9 100 2.8
4 5 200 2.4 14 9 100 2.6
5 7 100 2.5 15 9 200 3.1
6 7 100 2.6 16 9 200 3.0
7 7 200 3.0 17 10 100 3.2
8 7 200 3.3 18 10 100 3.4
9 8 100 2.4 19 10 200 2.5
10 8 100 2.3 20 10 200 2.4
Ejecicio 3
1. La tabla de coecientes.
Ejercicio 4
Preguntas:
Ejemplo 1.
Un vendedor en una tienda, considera que las ventas de un determinado juguete se debe al color,
hay tres tipos de colores A: azul, R: rojo, V: verde. La relacin planteada por el vendedor entre
A, R y V se da en razn 1:2:1 .
Para vericar sta situacin se observa una muestra aleatoria de 150 juguetes de las ventas
realizadas el ltimo trimestre. Los datos reportados se describen en la Tabla 15.1a:
Solucin: Prueba de hiptesis 1. Las hiptesis que se plantea para este estudio:
239
240 15. Pruebas de bondad de ajuste
Nota. La prueba se verica bajo el supuesto de que la hiptesis nula es verdadera. El valor
que se espera ante este supuesto, es multiplicar el tamao de la muestra , N por la proporcin
pi , es decir: N pi y se denota por Ei : Entonces la frecuencia esperada se escribe por:
Ei = N pi
La idea de la prueba es comparar las frecuencias esperadas Ei con los observados Oi . mediante
el estadstico de prueba:
n
X (0i Ei )2
2 = (15.1)
i=1
Ei
(0i Ei )2
Oi pi Ei Ei
4. Decidir si se rechaza o no se rechaza H0 Si 2m > 2c se rechaza H0 No, en caso contrario
5. Interpretar la decisin en el contexto de H.
Tabla 15.1c
n = nmero de celdas. (El nmero celdas en el ejemplo es 3, este debe ser variable)
P
n
Sumar el nmero de observaciones N = 0i
i=1
(0i Ei )2
Calcular los i sumandos 2i = Ei
(Contribucin a la Ji).
P
n
(0i Ei )2
Sumar los 2i ; 2 = Ei
i=1
Observaciones
1. La frmula para calcular 2 es vlida si todos los valores E son mayores o iguales a 5. Si
el valor de E es mayor que 5, el valor de 2 es sensible, al combinar las otras categoras de
E mayores a 5:
2. Si alguna de las categoras son combinadas para evitar valores bajos de E; el nmero de
categoras despus de la combinacin se usan en el clculo de los grados de libertad.
242 15. Pruebas de bondad de ajuste
En este apartado, se discutir el anlisis de dos variables. Estas variables tendrn la caracterstica
de ser categricas, porque nos permiten clasicar los valores de las variables por categoras. Las
variables se reportan en tablas, llamadas de contingencia, las columnas consisten de los valores
en categoras de una variable, en los renglones se tienen los valores de la otra variable.
Suponga que se tienen varias poblaciones y de cada una de ella se extrae una muestra de
tamao jo y cada respuesta se clasica en categoras. Estos datos se resumen como conteos en
una tabla de doble entrada, Tabla 15.2. Las columnas se reeren a las categoras y los renglones
a las diferentes poblaciones. El objetivo es probar cuando las poblaciones son semejantes u ho-
mogneas con respecto a las probabilidades de las categoras. Es decir, se requiere determinar
cuando la proporcin para cada categora es aproximadamente la misma para todas las propor-
ciones. La prueba se conoce como prueba de homogeneidad y se aplica a tablas de contingencia
que tienen un marginal jado, el total del rengln corresponde al tamao de muestras jado para
cada poblacin.
Grupos de Edad
Tamao de la compaa 1 2 3 4 5
Pequea pa1 pa2 pa3 pa4 pa5 1
Grande pb1 pb2 pb3 pb4 pb5 1
Tabla 15.2 Caracterizacin de una poblacin
La hiptesis nula de no diferencia u homogeneidad, especica que las probabilidades para una
categora es la misma para todos los renglones o poblaciones.
H0 : pa1 = pb1 ; pa2 = pb2 ; pa3 = pb3 ; pa4 = pb4 ; pa5 = pb5 :
El estadstico para vericar esta hiptesis se compara con el valor de una distribucin 2 con
gl un nmero de grados de libertad y un nivel de signicancia : El procedimiento para construir
el estadstico de prueba se describe en el siguiente algoritmo.
15.1. Anlisis de datos categricos 243
Prueba 2
Hiptesis Nula:
En cada categora, las probabilidades son iguales para todas las poblaciones.
Estadstico de Prueba
2
P (O E)2 O = frecuencia observada
= ; total columnas
Celdas
E E = total renglonestotal
gl = (No. de renglones-1)(No. de columnas -1)
Regin de rechazo 2 2
Ejemplo 2
Se llev a cabo un estudio para determinar la caracterstica de la edad en dos tipos de compaas
(pequeas y grandes). Se toma una muestra de 550 empleados, 300 de la pequea y 250 de la
grande. La frecuencia esperada se muestra en la siguiente Tabla 15.3.
Grupos de Edad
Tamao de la compaia 1 2 3 4 5 N
Pequea 42 69 108 60 21 300
Grande 5 18 85 120 22 250
Total 47 87 193 180 43 500
Considerar las categoras para renglones y columnas (puede ser 1,2,3,... o las que el usuario
escoja)
Determinar el valor n = nmero de celdas. (El nmero de celdas por rengln y por columna)
P
r P
c
Sumar el nmero de observaciones total N = Oij , determinar el total rengln i-simo
i=1 j=1
P
c P
c
tri = Oij , y total columna j-simo tcj = Oij
j=1 i=1
tri tcj
Obtener el valor esperado Eij = N
.
(0i Ei )2
Calcular los i sumandos 2i = Ei
(Contribucin a la Ji)
P
n P
n
(0i Ei )2
Sumar los 2i , 2 = 2i = Ei
i=1 i=1
Ejemplo 3
Se realiza un experimento en una prueba de concurso, donde el participante, "se supone ",
adivina la respuesta. Se plantean cinco preguntas con cuatro opciones. Esta prueba se aplic a
una muestra de 60 individuos. El registro de los datos se reportan en la Tabla 15.4.
Hay evidencia de que los individuos respondieron simplemente adivinando?
Solucin
Si los individuos adivinan cada respuesta, entonces la probabilidad de una respuesta correcta es
0.25. As que la pregunta planteada, es equivalente a vericar si los datos de la muestra descritos
en la Tabla 15.4, siguen una distribucin binomial con n = 5 y p = 0:25: La frecuencia esperada,
E; para los diferentes casos, se obtiene bajo el supuesto de que la distribucin es una binomial
B(5; 0:25): Para ello se calcula la probabilidad en cada uno de los casos, sta se multiplica por
el tamao de la muestra. Con los valores de las frecuencias observadas y esperadas, se calcula el
estadstico 2 :
246 15. Pruebas de bondad de ajuste
Observaciones
1. La frmula para calcular 2 es vlida si todos los valores E son mayores o iguales a 5. Si
el valor de E es mayor que 5, el valor de 2 es sensible, al combinar las otras categoras de
E mayores a 5:
2. Si alguna de las categoras son combinadas para evitar valores bajos de E; el nmero de
categoras, despus de la combinacin, se usan en el clculo de los grados de libertad.
H0 : La muestra de los datos viene de una distribucin binomial B(5; 0:25); suponiendo que
los individuos responden adivinando.
H1 : La muestra de los datos no tiene una distribucin binomial B(5; 0:25); los individuos
muestran algunos conocimientos sobre las preguntas.
En muchas ocasiones existe el inters por determinar sin un modelo probabilsticos es adecuado
para expresar un fenmeno aleatorio. En esa direccin, lo que se requiere es probar si la muestra
aleatoria seleccionada proviene de una distribucin de probabilidad especca. En este apartado
se ilustrar si la muestra de los datos sigue una distribucin Poisson. Recuerde que una variable
aleatoria Y de esta distribucin, consiste en contar el nmero y de veces que ocurre un evento
en particular, durante una unidad de tiempo dado, un rea o volumen.
Ejemplo 4
Una empresa revisa una muestra aleatoria que contiene 100 artculos de la produccin generada
en un da y cuenta el nmero de defectos en cada artculo. Los datos se resumen en la Tabla 15.5
Nmero de defectos 0 1 2 3 4
Nmero de artculos 61 29 6 3 1
Se puede concluir que esta muestra de datos viene de una distribucin Poisson?
Para responder a esta pregunta se debe realizar la prueba de hiptesis:
x e
Recuerde que la funcin de probabilidad de Poisson se expresa por P (X) = x!
para
x = 0; 1; 2; ::: En la Tabla 15.6 en la columna 2 se muestra el clculo de probabilidades.
248 15. Pruebas de bondad de ajuste
(0i Ei )2
Defectos P (x) E = P (x) 100 0i Ei
0 0.583 58:3 61 0:125
1 0.315 31:5 29 0:194
2 0.085 8:5 10:2 6 10 0:004
3 0.015 1:5 10:2 3 10
4 o mas 0.002 0:2 10:2 1 10
En resumen
Ejercicio 1
Nmero de defectos 0 1 2 3 4 5 6
Nmero de carros 35 13 6 5 18 10 3
1. Encuentre la media y varianza. Estos valores son aproximadamente iguales? Esto justi-
ca que los datos tengan una distribucin Poisson?
2. Use la prueba 2 para conocer si el nmero de defectos sigue una distribucin Poisson.
Ejercicio 2
Nmero de accidentes 0 1 2 3 4 5 6 7 8 9 10 11 12
Semanas 6 5 4 4 4 2 0 1 2 1 0 0 1
Nmero de accidentes 0 1 2 3 4
Semanas 6 5 8 6 5
Se prueba esta hiptesis H0 considerando un conjunto de valores que pueden tomar las Xj ; estas
se organizan en k intervalos distintos, es decir:
A continuacin la variable aleatoria Xj se plantea como una variable numrica discreta mediante
Yj ; j = 1; :::; n donde Yj se dene como sigue:
Figura 15.1: Histograma con 7 clases, se anota la frecuencia en cada una de ellas. Se ajusta una
distribucin normal.
Ejemplo 4
El tiempo en que una muestra de 120 estudiantes seleccionados al azar, tarda en responder el
rompecabezas sobre la Repblica Mexicana se describen en el histograma de Figura 15.1-mdulo
Grcas-. La hiptesis que se quiere probar, es que los tiempos de respuesta X siguen una
distribucin de probabilidad normal con media = 500 y desviacin estndar = 12. Es decir:
En la Figura 15.2, se muestran estrategias alternativas para evaluar si unos datos siguen una
distribucin normal. En la grca de la derecha se han aproximado la distribucin emprica de
los datos, el polgono de frecuencias relativas acumulado, y el diagrama que representa la funcin
de distribucin acumulada de una normal. Como se observa se ven muy aproximados. En la
grca de la derecha se ha descrito el papel de probabilidad de una normal. En ambos casos se
observa de manera descriptiva que los datos se aproximan a una distribucin normal.
En la Tabla 15.7 se presenta el resumen del clculo del estadstico de prueba 2 :
15.3. Prueba de bondad de ajuste cuando la variable aleatoria es continua 251
Figura 15.2: Anlisis grco para evaluar si los datos se aproximan a una distribucin normal.
(0i Ei )2
Tiempo de respuesta P (Y = i) Ei = P (Y = i) 120 0i Ei
1 [ 1; 471] 0:008 0:96 0 0:96
2 [471; 479] 0:032 3:84 5 0:350
3 [479; 487] 0:099 11:88 15 0:819
4 [487; 495] 0:199 23:88 24 0:001
5 [495; 503] 0:260 31:2 31 0:001
6 [503; 511] 0:222 26:64 22 0:808
7 [511; 519] 0:123 14:76 17 0:340
8 [519; 527] 0:044 5:28 6 0:136
9 [527; +1] 0:012 1:44 0 1:440
4:756
El clculo de las probabilidades las puede realizar usando la distribucin normal o la calcu-
ladora normal en CalEst. Por ejemplo:
La suma de los valores en la ltima columna de la Tabla 15.7, genera el valor estadstico 2 ,
es decir 2m = 4:756: El rea que deja a la derecha esta valor en la Calculadora Chi-Cuadrada es
igual a p = 0:783, con gl = 8: Si se compara p con el nivel de signicancia = 0:05 (5%) resulta
252 15. Pruebas de bondad de ajuste
Figura 15.3: Resultado de la prueba de bondad de ajuste para una normal, usando la prueba 2 :
que p es mayor y por lo tanto no se rechaza H0 . Se concluye que los valores de la variable, X;
tiempo de solucin del rompecabezas, sigue una distribucin normal. La reproduccin de este
anlisis usando la prueba de 2 cuadrada en el programa se describe en la Figura 15.3:
i i 1
D = Mximo jF (x) S(x)j = Mximo Mximo F (Xi ; (F (Xi ) ;
x 1in n n
(in)
48; 54; 47; 53; 49; 63; 57; 60; 51; 52; 58; 61; 56
Considere un nivel de signicancia de 5%, Se puede concluir que estos datos vienen de una
distribucin normal con media ( = 55 = 5)? Los valores estimados de estos parmetros
son
b = 54:54 y
b = 5:13:
de signicancia se tiene que p > ; de esa manera la muestra no da evidencias para rechazar
H0 : Por lo tanto una distribucin normal con media 54:54 y desviacin estndar 5:13 se puede
utilizar como modelo para medir el parmetro de calidad del agua.
254 15. Pruebas de bondad de ajuste
Ejercicio 3
En relacin a estudios mdicos con el objeto de conocer qu tan desarrollado tienen el cerebro,
los mdicos experimentan mostrando diferentes tipos de diseos y miden el tiempo de respuesta.
En particular en el caso del diseo, o la cara de un hombre entre semillas de caf. Se toma el
tiempo en segundos a una muestra aleatoria de 30 personas.
11 13 14 22 29 30 41 41 51 55 56 59 65 65 66
74 74 75 77 81 82 82 82 82 83 85 85 87 87 88
Es razonable suponer que los tiempos de respuesta se distribuyen como una normal?
Ejercicio 4
Se realiza un experimento donde se tiene un grupo control y un tratamiento, las respuestas son
indicadas en:
Control 0.22, -0.87, -2.39, -1.79, 0.37, -1.54, 1.28, -0.31, -0.74, 0.38
-0.17, 0.62, -1.10, 0.30, 0.15, 2.30, 0.19, 0.50, -0.09.
Tratamiento -5.15, -2.19, -2.43, -3.83, 0.50, -3.25, 4.32, 1.63, 5.18, -0.43
7.11, 4.87, -3.10, -5.81, 3.76, 6.31, 2.58, 0.07, 5.76, 3.5
El responsable de este estudio quiere vericar si existe diferencia entre el control y el tratamiento.
Verique si esto es as realizando:
Ejercicio 5
El profesor Sprent tiene en un librero de su biblioteca 114 libros de estadstica, de esos tom una
muestra aleatoria de 12 libros y anot el nmero de pginas que tienen cada uno, estas son:
126 142 156 228 245 246 370 419 433 454 478 503
En otro librero dice que tiene sus libros favoritos de ccin y no ccin, (libros en general)
son un total de 143. Anot el nmero de pginas de una muestra de 16 libros, ellos tienen:
29 39 60 78 82 112 125 170 192 224 263 275 276 286 369 756
15.4. La prueba Kolmogorov-Smirnov 255
Use la prueba de Kolmogorov-Smirnov para determinar si es adecuado suponer que las dos
muestras vienen de distribuciones poblacionales idnticas.
Pruebas no paramtricas
16.1 Introduccin
Las pruebas estadsticas no paramtricas se reeren a los procedimientos de inferencia que no
requieren que la distribucin de la poblacin sea normal o alguna otra distribucin especca en
trminos de parmetros. Estas pruebas utilizan aspectos simples de una muestra aleatoria de
datos, tales como el signo de las medidas, el orden de la relacin o frecuencias de categoras.
Por el momento, en el paquete estadstico slo se a desarrollado la prueba del signo. En futuras
versiones y en funcin de la necesidad de los usuarios se ampliar la elaboracin de estas pruebas.
H0 : m0 = 75
H1 : m0 < 75
Si m0 < 75 son casos de xito x = x0 es la referencia para evaluar si los datos apoyan a la
hiptesis nula. Se usa la distribucin binomial para estimar el nivel de signicancia descriptiva
p: As:
0
X
p= b(n; x0 ) si p < se rechaza H0
i=0
257
258 16. Pruebas no paramtricas
H1 : m0 > 75;
0
X
p = 1 b(n; i)
i 0
H1 ; m0 6= 75
El nivel de signicancia descriptivo es 2p:
Cuando n > 25 se considera un tamao de muestra grande y el valor de p se calcula por
p = P (Z z0 ):
Si H1 : m0 < 75: La referencia del procedimiento completo se da en la tabla. Donde Z es una
distribucin Normal:
x + 0:5
Z= p
0:5 n
Planteamiento
H0 : mediana = 0,
Procedimiento:
1. Determinar el nmero del tamao de muestra asignando signos positivos y negativos a los
datos de muestra.n = i + j, donde i el nmero de signos negativos y j nmero de signos
positivos.
1. z= (x+0:5)
p
n
0:5n
, este se distribuye como una normal y el caso es igual al caso de la z para
2
(x+0:5) 0:5n
una poblacin. Es decir si zm es mayor o igual al valor crtico zc donde zm = p
n
2
Ejemplo 1
Se cree que las mujeres de las zonas rurales que trabajan en una empresa tienen un salario a la
semana, superior a la mediana de 750. Se entrevista a una muestra aleatoria de 16 mujeres. Los
datos reportados son:
Hiptesis:
H0 : mediana = 750;
H1 : mediana > 750
El mecanismo para vericar esta hipteis se basa en comparar los 16 datos con 750. Hay
i = 3 con signo negativo, y j = 12 con signo positivo, entonces n = 15. Hay un empate. Se
calcula la binomial para determinar el valor de p.
15
X
p = P (X 12) = binomial(15; i) = 0:0176
i=12
Salida:
Prueba de Signo para la mediana = 750.0 contra > 750.0
Abajo son los negativos, arriba son los positivos. Puesto que p < = 0:05, se rechaza la
hiptesis nula.
Este procedimiento se puede aplicar a la comparacin no paramtrica de dos poblaciones, es
decir la prueba del signo extendida para comparar dos poblaciones.
260 16. Pruebas no paramtricas
Captulo 17
Diseo de Experimentos
17.1 Presentacin
La nalidad principal de este mdulo en el software es generar de manera visual diseos facto-
riales 2k y sus fracciones, una vez seleccionado el diseo, el siguiente paso es realizar el anlisis
estadstico bsico capturando la informacin de los resultados experimentales.
Tambin se tiene desarrollada la hoja para generar el diseo de Plackett-Burman. Se com-
plementa con la estructura para obtener la forma y anlisis de los diseos factoriales completos.
Finalmente se completa el mdulo con diseos bsicos de la metodologa de supercie de
respuesta, como son el diseo central compuesto y el Box-Behnken.
Una parte relevante en el paquete, es llevar a cabo prcticas en diseo experimental, con
ese n se han agregado dos ayudas didcticas denominadas el can y el helicptero. Estos
describen dos artefactos que mediante la simulacin se pueden plantear diferentes estrategias
experimentales y aplicar los diseos elaborados en el mdulo de diseo de experimentos.
La metodologa y el fundamento tcnico del diseo y anlisis estadstico de un experimento
que forma parte de este mdulo, se puede consultar en el libro de Experimentos: Estrategia y
Anlisis en Ciencia y Tecnologa.
Referencia: Castao, T. E. y Domnguez, D. J. (2003). Experimentos: Estrategia y Anlisis en
Ciencia y Tecnologa. CIMAT, Mxico. Por aparecer una nueva edicin. Diseo de Experimentos
Estrategias y Anlisis Estadsticos en Ciencia y Tecnologa.
261
262 17. Diseo de Experimentos
maximizar la respuesta. El can tiene tres variables de respuesta estas son altura, distancia y
tiempo. El uso de estos simuladores se plantear como ejercicios ms adelante.
La primera opcin en la Figura 17.2 son los diseos 2k y sus fracciones, el ejemplo 1 ilustra el
caso de un diseo completo 23 . La hoja de trabajo de diseo, en esa gura, tiene la posibilidad
de varias selecciones el procedimiento es como sigue:
3. La tercer hoja le permite denir el nombre de los factores, los valores y el orden del diseo,
en este caso se ha limitado a dos. Nuevamente tiene las opciones de regresar o continuar.
17.2. Material experimental 263
4. Finalmente aparece la tabla para capturar la informacin, ver Figura 17.3, en esa existe la
posibilidad de aleatorizar el experimento, seleccionar factores para el anlisis estadstico,
pasar la informacin a una hoja de clculo.
5. A continuacin aprieta la tecla calcular y se despliega el anlisis estadstico con una serie
de opciones grcas.
Ejemplo 1
Factores Respuesta
A B C
1 1 1 y111 = 65
1 1 1 y211 = 62
1 1 1 y121 = 58
1 1 1 y221 = 68
1 1 1 y112 = 64
1 1 1 y212 = 79
1 1 1 y122 = 62
1 1 1 y222 = 94
y 1 = 62:25 y 1 = 67:50 y 1 = 63:25 y = 69
y 2 = 75:75 y 2 = 70:50 y 2 = 74:75
^ A = 13:50 ^ B = 3:00 ^ C = 11:5
Observe que se han asignando los nmeros -1 y 1 a los dos niveles de los tres factores con el
mismo criterio establecido en el ejemplo anterior, es decir los niveles en el factor A se alternan
17.2. Material experimental 265
uno a uno, en el factor B dos a dos y en el factor C cuatro a cuatro. Se realiza el experimento
llevando a cabo los tratamientos, stos se obtienen de hacer todas las combinaciones posibles de
los tres niveles de los factores, en este caso resultan 8 tratamientos; por supuesto en la prctica
estos se corren en un orden aleatorio.
^ A = (
y2 y1 ) (17.1)
^ B = (
y2 y1 )
^ C = (
y2 y3 )
^ AB = [(
y22 y12 ) (
y21 y11 )]=2
^ AC = [(
y22 y12 ) (
y21 y11 )]=2
^ BC = [(
y22 y12 ) (
y21 y11 )]=2 (17.2)
Solucin
En resumen, los efectos de los factores e interacciones se muestran en las Figuras 17.4, primera
parte, y 17.5 segunda parte, stas se obtiene a partir del reporte que genera el CalEst
266 17. Diseo de Experimentos
Figura 17.4: Parte 1 del reporte generado por el CalEst para un diseo factorial 2k .
La Figura 17.4 muestra la estimacin de los efectos, as como los coecientes del modelo de
regresin y el correspondiente error estndar de cada factor; a continuacin el valor del estadstico.
ste ltimo se obtiene mediante la siguiente expresin:
b = 2 (X0 X) 1 :
V ar()
b ) = pmii ;
ES( (17.3)
i
bij
E(bij )
tc =
bij )
ES(
donde tc ; suponiendo que se cumple la hiptesis nula respectiva, tiene una distribucin de pro-
babilidad t de Student, con n g grados de libertad t(n g). Donde la hiptesis nula se plantea
para la parte lineal por:
Hlo : i = 0; i = 0; :::; p
Hl1 : i 6= 0
Hco : ij = 0; i; j = 1; :::; p; i 6= j:
Hc1 : ij 6= 0
Ejemplo 2
La nalidad en este ejemplo es ilustrar el uso de las curvas de nivel, en las opciones grcas
en el diseo de experimentos aparece en el ltimo rengln de nivel. sta es apropiada para los
268 17. Diseo de Experimentos
El diseo y los resultados se muestran en la Tabla 17.2, estos datos se captura en la hoja del
diseo central compuesto, se realiza el anlisis estadstico y se construye el modelo de regresin.
ste modelo permite llevar a cabo el proceso de optimizacin de manera descriptiva tal y como
se muestra en la Figura 17.8. Para generar estas curvas se debe ir a la ltima opcin de grcas
en diseo de experimentos y seguir el siguiente procedimiento:
1. Aparece un plano de coordenadas, ste contendr a la curva o las curvas de nivel, para
trazar sta (s) oprima la opcin factores en la parte central superior, ver Figura 17.7
2. En la hoja aparecen indicados los factores que van en el eje horizontal y eje vertical.
Tambin aparecen los factores que han sido parte del experimento, as para que en el caso
de ms de dos factores se pueda jar el tercer factor en los valores que ms le convenga al
usuario. Del lado derecho aparecen los valores mnimo y mximo segn los niveles de los
factores en el cuadro de la derecha, estos se sustituyeron en el modelo.
270 17. Diseo de Experimentos
Figura 17.8: Curvas de nivel para el diseo central compuesto del ejemplo 2.
3. Luego se selecciona el valor o los valores de las curvas de nivel que desea que aparezcan en
el plano, para cada valor hay que oprimir la echa verde.
4. Se oprime la tecla aceptar y aparece un plano con las curvas de nivel, estas se pueden
mover con el ratn. No aparecern las que no estn en la regin descrita por el plano de
coordenadas.
de respuesta, ste est conformado por el diseo factorial 2k , puntos centrales y aumentado con
puntos axiales.
Diseo factorial: Una serie de pruebas que consiste en la combinacin de los niveles de los
factores incluidos en el experimento.
Diseo factorial completo: Es un diseo completo, todas las posibles combinaciones de los
niveles de los factores, que involucra a factores categricos con dos o ms niveles.
Diseo factorial fraccionado: Es un diseo que corresponde a un subconjunto del diseo fac-
torial, estos se generan a partir de las interacciones de los factores que se confunden, usualmente
conocido como generador.
Diseo Plackett-Burman: Es una clase de diseo factorial ortogonal saturado con dos niveles
por cada factor, el nmero de pruebas o corridas es mltiplo de 4, pueden coincidir con algn
diseo factorial fraccionado 2k-p. Estos diseos son de resolucin III.
Efecto: Cambio en el promedio de una respuesta cuando el factor cambia de su nivel bajo
al nivel alto.
Efectos confundidos: Los efectos no se pueden estimar de manera independiente uno de otro,
estos estn completamente o parcialmente confundidos.
El trmino error: Representa la parte aleatoria en el modelo torico. Los residuales se
usan para estimar su naturaleza. Usualmente se supone que estos tienen una distribucin de
probabilidad normal con media cero y varianza constante.
Error experimental: La variacin en la respuesta debida a variables extraas, tambin con-
siderada por los factores, bloques aunada a la incertidumbre de medicin en la respuesta.
Estructura Alias: Es una lista de los factores principales o interacciones que estn confundidos
con otras interacciones. Esto es bsico en diseo factorial fraccionado, y seala cuando los efectos
principales o interacciones se pueden estimar.
Experimento: Una serie de pruebas que se realizan con el objeto de descubrir el resultado en
un proceso.
Factor: Variable independiente que se manipula en el experimento.
Nivel: Valor de un factor.
Papel de probabilidad semi normal: Es el papel de probabilidad normal considerado a la
derecha del punto cero, corresponde al valor absoluto del efecto de los factores.
Puntos Axiales: Son puntos del diseo que estn en los ejes de coordenadas de los factores
equidistantes del punto central, se usan frecuentemente en el diseo central compuesto y se
conocen como puntos estrella.
Puntos centrales: Son pruebas experimentales en las que los factores cuantitativos estn en
el punto intermedio de su valor alto y bajo.
Trminos aliados: Cuando existen pocos puntos en el diseo experimental, entonces algunos
parmetros del modelo no pueden ser estimados independientemente.
17.2. Material experimental 273
Valores codicados: Es una manera de simplicar los clculos, en los diseos factoriales de
dos niveles se convierten los niveles alto y bajo en 1 y 1 respectivamente. La codicacin
permite realizar los clculos independientemente de las unidades de cada factor.
Ejercicio 1
Niveles
Factores Mnimo Mximo
A: Long. ala 5 15
B: Ancho ala 3 7
C: Altura 1 6
D: Peso 0 20
E: ngulo 0 90
F: Tipo papel 1 2 3
Tabla 17.3 Factores de control en el helicptero
Realice el experimento con un diseo 26 3 con los valores que se indican en la Tabla 17.4, use
la hoja de captura en el software para aleatorizar los tratamientos, lleve a cabo los siguientes dos
casos:
1. Haga una sola vez el experimento, anote la respuesta y realice el anlisis estadstico.
Ejercicio 2
En el caso del helicptero existen dos factores de ruido, como se muestra en la Tabla 17.5, donde
( 1) y (1) son los valores codicados.
Niveles
Factores Mnimo Mximo
P: Temperatura 15( 1) 25(1)
Q: Humedad 30( 1) 50(1)
Tabla 17.5 Factores de ruido
Desarrolle un diseo factorial 22 para estos factores de ruido. Junto con el diseo experimental
presentado en la Tabla 17.4, se plantea un diseo en un doble arreglo ortogonal como se muestra
en la Tabla 17.6.
P: -1 1 -1 1
TratnFactores A B C D E F Q: -1 -1 1 1 y s
1 1 1 1 1 1 1
2 1 1 1 1 1 1
3 1 1 1 1 1 1
4 1 1 1 1 1 1
5 1 1 1 1 1 1
6 1 1 1 1 1 1
7 1 1 1 1 1 1
8 1 1 1 1 1 1
Tabla 17.6 Doble arreglo ortogonal respuestas media y y desviacin estndar
Ejercicio 3
Use los resultados del experimento en un arreglo factorial 28 3 , 32 tratamientos donde los 8
factores son: los 6 de control y los 2 de ruido. Haga el anlisis estadstico de este diseo.
Resultan signicativos los factores de ruido? Existe alguna interaccin entre los factores de
ruido y control?
Ejercicio 4
Plantee otros diseos experimentales con otros factores.
17.2. Material experimental 275
Ejercicio 5
En la Tabla 17.7, se plantea los niveles de tres factores para el helicptero con la nalidad de
realizar un diseo central compuesto.
2. Realice el experimento.
4. Use las curvas de nivel para encontrar la solucin con mayor respuesta.
Niveles
Factores ( 2) 1 0 1 (2)
A: rea 15 30 50 75.6 105
B: Razn 1.63 1.875 2 2.08 2.14
C: ngulo 15 30 45 60 75
Tabla 17.7 Valores de los niveles en un diseo central compuesto:
Donde los valores de la longitud y ancho del ala para determinar el rea y la razn entre esos
valores son:
Ejercicio 6
Tomando como base el can, plantee esquemas experimentales similares a los ejercicios ante-
riores con el n de que al disparar el can, ste de en el blanco. Tome como variable de respuesta
la diferencia entre la distancia del blanco y la distancia alcanzada al disparar el can.
276 17. Diseo de Experimentos
Captulo 18
En el mundo real existe una gran variedad de problemas y necesidades de conocimiento, la solu-
cin a diferentes cuestiones y demandas a estas necesidades se dan en base a la informacin
generada por los datos. La estadstica desempea un papel relevante en la captura e inter-
pretacin de esa informacin. Su nalidad es generar modelos o esquemas signicativos de la
variacin que est en todas partes.
Los estadsticos que hace la teora han desarrollado mtodos para solucionar los problemas
relacionados al proceso. Para ello existe un esquema de investigacin que se describe en seis
etapas y en resumen se describen a continuacin.
2. Las preguntas sobre el tema a estudiar. Los procesos de investigacin, o procesos para
generar conocimiento inician hacindose preguntas.
3. Diseo del mtodo para la coleccin de datos. La coleccin de los datos usualmente se
obtienen mediante la realizacin de un experimento, una encuesta o estudios de observacin.
Todos estos requieren de una metodologa estadstica para obtener la informacin.
4. Coleccin de los datos. Este involucra la fase de diseo tanto experimental como en en-
cuestas.
5. Resumen y anlisis. Uno de los objetivos de este libro est en los mtodos para resumir y
analizar los datos, stos ltimos en el marco de estructuras simples.
277
278 18. Proyectos de estudios estadsticos
6. Respuestas. Una vez realizados los anlisis se llega a la etapa de interpretar los datos, as
responder a las preguntas planteadas.
A continuacin se planean una serie de problemas con el objetivo de generar sus datos propios.
Estos se pueden realizar con los alumnos en diferentes cursos, conviene tomar estos ejemplos como
referencias, planear estrategias y objetivos en funcin de la clase. Adems que estos les permitan
proporcionar ideas para complementar la problemtica planteada y elaborar otros proyectos
relacionados a sus intereses.
Actividades
Que una persona -alumno/estudiante- seleccione a 10 personas y pregunte sobre el consumo
de energa del ltimo recibo, haga un diagrama de caja e interprete el resultado. Estime
las medidas de tendencia central, dispersin y posicin e interprtalas.
Responda a:
Son diferentes los diagramas de caja entre las personas que tienen horno de microondas y
las que no lo tienen?
Construya un intervalo de conanza del 95% para el promedio y varianza del consumo de
energa.
Pruebe la hiptesis; el promedio de consumo de energa entre los que tienen horno de
microondas es diferente de los que no lo tienen?
Actividades
1. Seleccione de manera aleatoria a 50 estudiantes y propngale que resuelva el rompecabezas.
Alternativas: pueden juntarse por equipos de cinco, cada persona del equipo entreviste a
10 compaeros. Junte los datos con otros equipos.
2. Con estos datos realice un estudio descriptivo tal que contenga los siguientes puntos.
280 18. Proyectos de estudios estadsticos
(a) Hacer los clculos estadsticos en el tiempo de solucin y porcentaje de fallas. Realizar
las interpretaciones correspondientes.
(b) Elaborar la tabla de frecuencia e histograma para la respuesta tiempo de solucin e
interpretar la grca.
(c) Completar el estudio con el polgono de frecuencias, diagrama de caja, el diagrama
de tallo y hoja. Relacionarla con la informacin de los incisos previos y hacer inter-
pretaciones.
(d) Realizar la comparacin del polgono de frecuencias, distribucin emprica con la dis-
tribucin normal.
(e) Hacer un estudio similar para el porcentaje de fallas.
3. Nuevas preguntas sobre la naturaleza del problema, por ejemplo proponga que los partici-
pantes vean ahora el mapa de la Repblica y que vuelvan a resolver el rompecabezas.
(b) Es interesante en este caso comparar los diagramas de tallo y hoja, as como los
diagramas de caja, con referencia al antes y despus.
(c) Se pueden plantear pruebas de hiptesis sobre el antes y despus adems interpretar
los intervalos de conanza.
5. Abordar otros estudios: presentar un mapa de la Repblica sealada con los meridianos y
paralelos. Enseguida volver a tomar el tiempo de solucin del rompecabezas.
(a) Ahora se tienen tres situaciones diferentes se pueden plantear diferentes preguntas. En
primera instancia se pueden comparar diagramas de tallo y hoja, as como diagramas
de caja.
(b) Se pueden hacer pruebas de hiptesis sobre las tres poblaciones, as plantear el esquema
de un diseo completamente al azar.
(c) Se pueden hacer comparaciones entre grupos de edad, conocimientos, gnero entre
otros. As realizar pruebas de hiptesis de homogeneidad e independencia. Pruebas
no paramtricas.
Actividades:
1.3 Calcule los estadsticos: medidas de tendencia central, dispersin y posicin e interprete.
1.4 Compare la distribucin de frecuencias acumulada con la normal e interprete.
2. Muestre la transparencia a 10 mujeres y 10 hombres y registe el tiempo de respuesta. (En
este caso no considere la edad).
2.1 Haga un diagrama de caja para describir el tiempo empleado por las mujeres y otra para
el tiempo realizado por los hombres, interprete sus resultados.
2.2 Calcule medidas de tendencia central, dispersin y posicin e interprete.
2.3 Junte esta informacin con 10 personas y realice las actividades similares a los indicados
en 1.2 y 1.3, tanto para mujeres como para los hombres e interprete.
3. Muestre la transparencia a 10 personas de los siguientes dos grupos de edad; grupo 1,
menores de 30 aos y grupo 2, mayores de 30 aos. En cada caso registe el tiempo.
3.1 Realice actividades similares a la de los puntos 2.1 y 2.2.
4. Plantee otras estrategias considerando el gnero (mujer, hombre) y grupos de edad. Pro-
ponga algunos criterios para denir grupos de edad. Muestre la transparencia a los grupos
denidos y plantee el anlisis de estadstica descriptiva similar a las actividades anteriores.
5. Considere que el tiempo promedio de respuesta es de 110 segundos. Plantee la siguiente
prueba de hiptesis:
H0 : = 110
H1 : < 110
Tome una muestra de 30 personas para vericar esta armacin. Por el momento suponga
que sta variable se distribuye como una distribucin normal.
5.1 Calcule la media, la desviacin estndar y la desviacin estndar de la muestra.
5.2 En el grupo de opciones didcticas del paquete, use el de prueba de hiptesis H0 , plantee
varios escenarios para realizar esta prueba; por ejemplo diferentes valores en cada caso identique
el valor del umbral: estadstico de prueba. Diferentes valores para la hiptesis alternativa.
5.3 En cada escenario en el punto 5.2 ubique el valor de la media x calculado en 5.1. Obtenga
sus conclusiones.
5.4 Realice la prueba de hiptesis usando la opcin que corresponde en mdulo de inferencia
en el paquete. Compare con lo visto en las actividades 5.2 y 5.3. Interprete sus resultados. Use
la distribucin normal para visualizar su informacin.
6. Tome una muestra de 15 personas para vericar la hiptesis:
6.1 Abra un archivo en el paquete para capturar la informacin.
6.2 Graque la distribucin t-Student con gl = 14 y = 0:05; seale el rea a la izquierda
que deja el valor de y compare el valor del umbral con el valor de la media de la muestra. Qu
observa? Interprete.
283
H 0 : 1 2 = 0
H 1 : 1 2 6= 0
Ejemplo 3
Realice la siguiente prctica ponga en una tarjeta blanca las 16 palabras que se indican en la
Tabla de abajo. Luego muestre en un lapso de 20 segundos esa tarjeta a una persona. Deje pasar
un minuto y pdale que le diga las palabras que recuerda; pero no puede tardarse ms de un
minutos. Anota el nmero de palabras que recuerda, repite la actividad con otras 25 personas.
H0 : p = 0:20
H1 : p < 0:20
6. Plantee otras actividades relacionadas con esta prctica, por ejemplo considerar factores
cpmo la edad, el gnero, el color de la tarjeta, el tamao de la letra.
18.0.7 Simulacin
Existen algunas estrategias para generar datos, el anlisis e interpretacin de estos permiten sim-
ular situaciones aproximadas a la realidad. Por ejemplo, en la actividad industrial se desarrollan
procesos con la nalidad de manufacturar un producto. Tanto la calidad del producto como
la eciencia del proceso son evaluados por una o varias respuestas. Es comn en cada proceso
que existan diversos factores que afecten esa salida. En el captulo anterior se han mostrado los
prototipos tales como el helicptero y el can para generar informacin, ah se usaron como
una estrategia experimental. Aqu se ilustrarn con dos ejemplos algunas ideas para realizar
actividades y de esa manera generar datos con el n de realizar anlisis estadsticos. Con estos
usted puede planear muchas prcticas para realizar anlisis estadsticos.
Ejemplo 4
2. Junte esta informacin con 10 personas para obtener 150 datos, realice un estudio descrip-
tivo de esta informacin.
3. Suelte el helicptero 15 veces en la opcin mejora con una humedad de 50 y registre el
tiempo de cada. Con esos valores obtenga los valores de los estadsticos y haga el diagrama
de caja. Compare el anlisis estadstico de este punto con el del 1.
285
4. Realice la prueba de hiptesis de que los helicpteros tienen un tiempo de caida en promedio
diferente. Es decir:
H0 : 1 2 = 0
H1 : 1 2 6= 0
5. Realice otras prcticas, por ejemplo puede ir variando la longitud del ala, nicamente del
helicptero, desde 5 hasta 15 de uno en uno registre en cada caso dos veces el tiempo de
cada. Haga un anlisis de regresin de la longitud del ala con el tiempo de cada.
Ejemplo 5
Tome como referencia el prototipo del can realice las siguientes actividades.
3. Elabore una serie de prcticas para llevar a cabo diferentes mtodos estadsticos.
Referencias
1. Breyfogle I I I, F.W. (2003). Implementing Six Sigma. 2nd Ed. Wiley, United States of
America
3. Escalante, V.E. (2004). Seis Sigma Metodologa y Tcnicas. Limusa Noriega Editores,
Mxico.
5. Press, W., Teukolsky, S., Vetterling, W., Flannery B. (2002) Numerical Recipes in C++
2nd Ed. Cambridge University Press. New York.
7. Triola M. (2008). Essentials of Statistics, 3rd ed. Pearson Education, Inc. Boston, MA
9. Wall, K. (2000). Programacin en Linux: con ejemplos. Pearson Education, Inc. Buenoss
Aires, Arg.
287
288 NDICE
ojiva, 16
permutacin, 63
Probabilidad Clsica o Terica, 43
probabilidad con ruletas, 52
Probabilidad Emprica, 42
Probabilidades mediante extraccin de canicas,
56
Probabilidades usando ramicaciones, 56
prueba de hiptesis, 143
error tipo I, 145, 179
error tipo II, 145, 179
modelo de regresin, 215
modelo regresin mltiple, 230
muestras independientes, 182
procedimiento, 145
razn de varianzas, 195
rango muestral, 27
Regla aditiva, 44
regla emprica, 85
residuales, 212
tabla de frecuencias, 9
teorema de lmite central
ilustracin, 136
variable aleatoria, 70
variable discreta, 71
varianza muestral, 29