Vous êtes sur la page 1sur 286

INSTITUTO TECNOLÓGICO SUPERIOR

de Acayucan

Asignatura: Probabilidad y estadística

Clave de la asignatura: SCC - 0424

Carrera: Ingeniería en Sistemas Computacionales

ANTOLOGIA

Presenta:
ING. ULISES GIRON JIMENEZ

ACAYUCAN, VER. JUNIO 2008


Probabilidad y Estadística

Ing. Ulises Girón Jiménez


INDICE
OBJETIVO GENERAL............................................................................... 10

JUSTIFICACION........................................................................................ 11

UNIDAD 1 ESTADISTICA DESCRIPTIVA…………………….....…………………….... 12

1.1 Conceptos básicos de estadística…………………....……................... 13

1.1.1 Definición de estadística............................................................. 13

1.1.2 Inferencia estadística.................................................................. 16

1.1.3 Teoría de decisión...................................................................... 16

1.1.4 Población.................................................................................... 16

1.1.5 Muestra aleatoria........................................................................ 20

1.1.6 Parámetros aleatorios................................................................. 20

1.1.7 Enfoque clásico........................................................................... 20

1.1.8 Enfoque Bayesiano..................................................................... 21

1.2 Descripción de datos………….....……………………………………… 22

1.2.1 Datos agrupados y no agrupados............................................... 22

1.2.2 Frecuencia de clase.................................................................... 22

1.2.3 Frecuencia relativa...................................................................... 22

1.2.4 Punto medio................................................................................ 23

1.2.5 Límites........................................................................................ 23

1.2.6 Histograma.................................................................................. 23

1.2.7 Histograma de frecuencia relativa.............................................. 24

1.3 Medidas de tendencia central…………………………………………… 25

1.3.1 Media aritmética, geométrica y ponderada................................. 25

1.3.2 Mediana...................................................................................... 29

IV
1.3.3 Moda........................................................................................... 31

1.4 Medidas de dispersión……………………………………………………. 35

1.4.1 Varianza...................................................................................... 35

1.4.2 Desviación estándar................................................................... 36

1.4.3 Desviación media........................................................................ 38

1.4.4 Desviación mediana.................................................................... 38

1.4.5 Rango......................................................................................... 38

1.5 Parámetros para datos agrupados……………………………………… 39

1.5.1 La media..................................................................................... 39

1.5.2 La desviación típica.................................................................... 39

1.6 Distribución de frecuencias………………………………...……………. 41

1.6.1 Distribuciones numéricas............................................................ 42

1.6.2 Distribuciones categóricas.......................................................... 43

1.6.3 Distribuciones acumuladas......................................................... 44

1.6.4 Distribuciones porcentuales........................................................ 44

1.6.5 Distribuciones porcentuales acumuladas................................... 45

1.7 Técnicas de agrupación de datos………………………...…………… 46

1.7.1 Límites de clase.......................................................................... 46

1.7.2 Rango de clase........................................................................... 46

1.7.3 Fronteras de clase...................................................................... 46

1.7.4 Marca de clase............................................................................ 47

1.7.5 Intervalo de clase………............................................................ 47

1.7.6 Diagrama de tallos y hojas ………………………………………... 50

1.7.7. Diagrama de Pareto.................................................................. 52

1.7.8 Diagrama de puntos................................................................... 59

1.8 Histograma……………......………………………………………………. 59

1.8.1 Diagrama de barras.................................................................... 59

1.8.2 Polígono de frecuencias............................................................. 59

V
1.8.3 Ojivas......................................................................................... 60

1.8.4 Gráficas circulares...................................................................... 61

1.9 Distribuciones muéstrales………………………...……………………… 62

UNIDAD 2 PROBABILIDAD……….……………………………………………………… 65

2.1 Teoría elemental de probabilidad………………………...……....…… 66

2.1.1 Concepto clásico y como frecuencia relativa.............................. 66

2.1.2 Interpretación subjetiva de la probabilidad................................. 69

2.2 Probabilidad de eventos……………………………......……………… 69

2.2.1 Definición de espacio muestral................................................... 69

2.2.2 Discreto y continuo..................................................................... 71

2.2.3 Definición de evento................................................................... 71

2.2.4 Simbología, uniones e intersecciones........................................ 71

2.2.5 Diagramas de Venn.................................................................... 71

2.3 Técnicas de conteo………………….…………………………………… 72

2.3.1 Diagrama de árbol...................................................................... 76

2.3.2 Notación factorial........................................................................ 80

2.3.3 Permutación................................................................................ 81

2.3.4 Combinaciones........................................................................... 91

2.4 Probabilidad con técnicas de conteo…………………………………… 100

2.4.1 Axiomas...................................................................................... 100

2.4.2 Teoremas.................................................................................... 100

2.5 Probabilidad condicional………...……………………………………… 101

2.5.1 Dependiente................................................................................ 101

2.5.2 Independiente............................................................................. 110

2.6 Eventos Independientes……...………………………………………… 113

2.6.1 Regla de Bayes........................................................................... 113

VI
UNIDAD 3 FUNCIONES Y DISTRIBUCIONES MUESTRALES………………......…. 121

3.1 Función de probabilidad………..………………………………………… 121

3.1.1 Variables aleatorias discretas..................................................... 121

3.1.2 Variables aleatorias continúas.................................................... 122

3.2 Distribución Binomial…………………….…………....…………………. 123

3.2.1 Conceptos de ensayos de Bernoulli........................................... 123

129

3.3 Distribución Hipergeométrica……………………………………………

3.4 Distribución de Poisson…………………………..……………………… 132

3.5 Esperanza matemática…………………….…………………………… 139

3.6 Distribución normal…………………………….………………………… 146

3.6.1 Distribución de la probabilidad continúa..................................... 146

3.7 Aproximación de la Binomial a la normal…………………………… 156

3.8 Otras distribuciones muéstrales…………………….…………………… 161

3.8.1 Distribución T- Student............................................................... 161

3.8.2 Distribución X cuadrada.............................................................. 162

UNIDAD 4 ESTADÍSTICA APLICADA………………...………………………………… 170

4.1 Inferencia estadística………………….....……………………………… 171

4.1.1 Concepto..................................................................................... 171

4.1.2 Estimación.................................................................................. 171

4.1.3 Prueba de hipótesis.................................................................... 171

4.1.4 Método clásico de estimación (puntual)...................................... 172

4.1.5 Estimador Insesgado.................................................................. 172

VII
4.2 Intervalos de confianza…………………………………………………… 172

4.2.1 Estimación por intervalo.............................................................. 172

4.2.2 Límites de confianza................................................................... 173

4.2.3 Intervalo de confianza para una media....................................... 174

4.2.4 Intervalo de confianza para una diferencia de medida............... 183

4.2.5 Intervalo de confianza para proporciones................................... 186

4.2.6. Intervalo de confianza para diferencia de proporciones………. 189

4.3 Pruebas de hipótesis………………………….....……………………… 196

4.3.1 Prueba de hipótesis para la media poblacional.......................... 203

4.3.2 Prueba de hipótesis para diferencias de medias........................ 214

4.3.3 Prueba de hipótesis para proporciones...................................... 220

4.3.4 Prueba de hipótesis para diferencia de proporciones................. 223

5.1.1 Gráficas de los datos. .................................................................................................... 217

5.1.2 Variables de regresión independientes. ....................................................................... 217

5.1.3 Regresión lineal simple. ................................................................................................ 218

5.2. Diagrama de dispersión .................................................................................................. 221

5.2.1. Tabla de datos.............................................................................................................. 221

5.2.2. Construcción de diagramas. ........................................................................................ 222

5.3. Estimación mediante la línea de regresión..................................................................... 222

5.3.1. Ecuación de la recta como ajuste de datos ................................................................. 222

5.3.2. Modelos ....................................................................................................................... 223

5.4. Métodos de mínimos cuadrados. ................................................................................... 224

5.4.1. Estimación de los coeficientes de regresión ............................................................... 224

5.5 Error estándar de estimación .......................................................................................... 232

VIII
5.6 Coeficiente de determinación y correlación.................................................................... 234

5.6.1 Coeficiente de determinación de la muestra ............................................................... 235

5.6.2 Coeficiente de correlación de la muestra ..................................................................... 239

5.7. Problemas prácticos de ajustes de curvas ...................................................................... 248

ANEXOS .................................................................................................................................. 259

..

Bibliografía………….………………………………………………………… 262

IX
OBJETIVO GENERAL

El estudiante seleccionará modelos probabilísticas, aplicará cálculos de inferencia estadística


sobre datos y desarrollará modelos para la toma de decisiones en sistemas con componentes
aleatorios.

10

JUSTIFICACION

Uno de los objetivos del Instituto Tecnológico Superior de Acayucan, es el de promover, apoyar
e impulsar el trabajo creativo del docente, principalmente en la elaboración de antología que
apoya al proceso enseñanza – aprendizaje, el cual debe ser estimulado con los comentarios
y sugerencias del profesorado y conviene que sea imitado por otros maestros, quienes con
capacidad de trabajo y tiempo disponible, pueden y deben gestar literatura de este género,
dando los pasos adecuados para pulirla y poder formar así textos que faciliten la enseñanza y
el aprendizaje del curso.
El presente material de consulta y apoyo didáctico se pone en manos de nuestros maestros y,
particularmente, de los alumnos que se forman en nuestro instituto. Considero los contenidos
de esta antología como el propósito más firme de mi convencimiento para facilitar el estudio
de la probabilidad y estadística en las nuevas generaciones que me honran al confiarme su
preparación y garantizar modestamente el fijarles una enseñanza para toda la vida.

11
UNIDAD 1

ESTADISTICA

DESCRIPTIVA

Objetivo:
El estudiante conocerá fundamentos
y técnicas básicas de estadística,
para organizar, representar y analizar

datos obtenidos de una situación simulada o real.

1.1 Conceptos básicos de estadística.


1.1.1 Definición de estadística.
La palabra estadística procede del vocablo "estado" pues era función principal de los gobiernos
de los estados establecer registros de población, nacimientos, defunciones, etc. Hoy en día la
mayoría de las personas entienden por estadística al conjunto de datos, tablas, gráficos, que se
suelen publicar en los periódicos.

Definición:
Estadística, rama de las matemáticas que se ocupa de reunir, organizar y analizar datos
numéricos y que ayuda a resolver problemas como el diseño de experimentos y la toma de
decisiones.
UNIDAD I / ESTADISTICA DESCRIPTIVA.

Estadística es un conjunto de métodos científicos para la recopilación, representación


condensación y análisis de los datos extraídos de un sistema en estudio. Con el objeto de poder
hacer estimaciones y sacar conclusiones, necesarias para tomar decisiones.

El análisis se hace con las herramientas estadísticas, empleando la información obtenida de los
datos, para realizar estimaciones o inferencias, testear hipótesis de trabajo y así, poder tomar
las decisiones más adecuadas en cada caso particular, basadas en la evidencia científica
suministrada por estos análisis.

El trabajo del experto estadístico no consiste ya sólo en reunir y tabular los datos, sino sobre
todo en el proceso de interpretación de esa información. El desarrollo de la teoría de la
probabilidad ha aumentado el alcance de las aplicaciones de la estadística. La probabilidad es
útil para comprobar la fiabilidad de las inferencias estadísticas y para predecir el tipo y la cantidad
de datos necesarios en un determinado estudio estadístico. Cuando a través de una muestra
pretendemos obtener información de una población entera los datos obtenidos puede ser
diferente a los reales. Son valores aproximados del parámetro desconocido. A estos valores se
les llama Estimaciones.

Al dar una estimación estoy cometiendo un error llamado error de muestreo debido a que no se
esta considerando a toda la población, sino a una parte de ella. Existen procedimientos que
pueden determinar de antemano el error que puedo cometer.

Aparte de estos, existen otros errores que se presentan tanto en encuestas por muestreo como en
las encuestas por censo. Este tipo de errores son mayores y de difícil corrección.
Son errores ajenos al muestreo.

¿Qué es un experimento comparativo?


Es una investigación cuya finalidad es comparar los efectos de dos o más estímulos
(tratamientos A y B) aplicados a ciertos entes (unidades de experimentación , , ,). Para ello se
efectúan mediciones sobre los efectos de ambos tratamientos obteniéndose los resultados ( , ,
).

13
UNIDAD I / ESTADISTICA DESCRIPTIVA.

¿Qué es una encuesta por muestreo?


Es una investigación que tiene por objetivo la descripción de ciertas características ( , , , … , de
una población, mediante el examen de una parte de ella (muestra , ). La medición de una
característica en los elementos de la muestra produce resultados

Y Y
( 1 y 4 ) . Si el muestreo es probabilístico, todos los elementos de la población tiene una

probabilidad no nula de formar parte de la muestra.

¿Qué es un estudio observacional?


Es una investigación comparativa sin la asignación aleatoria que se hace en los experimentos
(o investigación de muestreo no probabilístico), cuya finalidad es también comparar los efectos
que dos o mas condiciones ( A y B) tienen sobre los entes observados , , ,). Esto se lleva a cabo
con extremado cuidado y control.

14
UNIDAD I / ESTADISTICA DESCRIPTIVA.

División de la estadística Se
divide en dos partes:

⎧ ⎧ ⎧Recopilar
⎪ ⎪ ⎪
⎪ Descriptiva Deductiva( ) ⎨Re presentar
⎪ ⎪
⎪ ⎩
⎪ Condensar
⎪⎪ ⎪
División Estadistica⎨ ⎨
⎪ ⎪
⎪ ⎪
⎪ ⎪ ⎧Caracteristicas
⎪ ⎪Inferencial Inferencia( )⎨
⎪⎩ ⎩ ⎩muestras

a) Estadística descriptiva o deductiva: Es la parte de la estadística que se ocupa de


recopilar, representar y condensar los datos obtenidos del sistema en estudio, utilizando
representaciones gráficas de los datos tabulados.

b) Estadística inferencial o inferencia estadística: Utiliza datos de muestra para hacer


inferencias (característica) acerca de un conjunto de datos grandes – una población –
de cual se selecciono la muestra.
1.1.2 Inferencia estadística.
Es la parte de la Estadística dedicada a la formulación de supuestos y estimaciones, para hacer
predicciones y poder sacar conclusiones de los datos obtenidos con el estudio de las muestras.
Y así, poder tomar decisiones con base científica. La Estadística se emplea en el estudio de los
fenómenos naturales, tanto los generados en los laboratorios por los científicos como aquellos
más allá del control humano.

15
UNIDAD I / ESTADISTICA DESCRIPTIVA.

Es una herramienta de uso tan amplio y general que hoy día es difícil imaginar un lugar donde
no pueda emplearse. Más aún, en algunas disciplinas es la herramienta básica de medición,
como por ejemplo en parapsicología para la determinación de PES (percepciones extra-
sensoriales).

1.1.3 Teoría de decisión.


Es una herramienta básica para la toma de decisiones, basadas en evidencia científica. La
manera de hacerlo es plantear las hipótesis posibles y luego efectuarle una prueba o test
estadístico.

Llamada en algunas obras: la docimasia estadística. Cuando una conclusión se valida con un
test estadístico se la llama de tipo cuantitativo, en caso contrario la decisión adoptada es de tipo
cualitativo, o sea, una decisión tomada en forma subjetiva. El método consiste en definir una
probabilidad de aceptación del orden del 95% (o rechazo) de una hipótesis de trabajo planteada,
que permite calcular los valores críticos (o límites de aceptación) de un estadígrafo calculado a
partir de los valores medidos. La importancia de este tema es muy grande. Basta decir que el
objeto final de la Estadística es la toma de decisiones.

1.1.4 Población.
La población, es el conjunto de todas las muestras posibles, que pueden obtenerse del sistema en
estudio de acuerdo al método de selección empleado.

La población, entonces, es el total hipotético de los datos que se estudian o recopilan. El tamaño
de la población se saca contando el número de elementos componentes. A veces es un conteo
simple, pero otras veces se trata de conteos ordenados.

A continuación muestra las formas de observar una población.

Etapas de la recopilación de datos


Etapa 1 - Objetivos de la Recopilación: esta primera etapa consiste en determinar con claridad
qué es lo que se quiere lograr con la recopilación. No siempre es fácil saber lo que se quiere y
menos determinarlo en detalle. Por eso, se deben definir primero los objetivos generales del trabajo
estadístico. Y a partir de ellos se conocerán las variables a medir y así saber cuáles elementos se
necesitarán. Con esto se tiene una primera idea de los alcances y limitaciones de la tarea a realizar,
según sea el tipo de información a obtener de la población en estudio. Los objetivos deben

redactarse concisos, breves y claros. Normalmente, la persona a cargo de la investigación es la

16
UNIDAD I / ESTADISTICA DESCRIPTIVA.

responsable de esta etapa pues tiene una visión más completa y actualizada del tema en estudio.
Por ejemplo, si se necesita la distribución de la población por edades y sexo, no es lo mismo
disponer de la información del último censo realizado que hacerlo uno mismo.

17
UNIDAD I / ESTADISTICA DESCRIPTIVA.

Etapa 2 - Relevamientos: esta etapa consiste en determinar lo que se tiene para alcanzar los
objetivos definidos en la etapa anterior. Se trata de listar los bienes necesarios para poder hacer el
trabajo, y el listado de los disponibles. Conviene tener en cuenta la siguiente clasificación de los
bienes: Tangibles e Intangibles.

Por su parte, los bienes tangibles son dos:


• Los materiales incluyen los de vidrio, de limpieza, drogas, reactivos, etc.
• Por equipamiento se entiende no sólo los aparatos de medición, sino los accesorios como
muebles y útiles de laboratorio y para oficina.
• El dinero o los recursos monetarios deben ser determinados con mucho detalle para
afrontar gastos e inversiones durante la investigación. Además, hay que determinar los
fondos disponibles y las posibles fuentes financieras adonde poder recurrir.

• La infraestructura incluye a los edificios, laboratorios, electricidad, agua, etc.


• El personal es todo el necesario en sus diferentes niveles, como ser: profesionales,
técnicos, ayudantes, consultores externos, de servicio, etc. Este relevamiento de los bienes
tangibles disponibles y de los necesarios para la recopilación condiciona de alguna manera
los objetivos. Puede ser que se disponga de bienes sobrados para alcanzar los objetivos,
por lo que se pueden plantear metas más ambiciosas. Por otra parte, puede ocurrir que los
bienes disponibles estén lejos de cubrir los necesarios, y por lo tanto se deberán resignar
los objetivos planteados por otros más modestos.

Por su parte, los bienes intangibles son dos:


• la organización de los bienes tangibles, de manera tal de alcanzar los objetivos, y
• los conocimientos para saber cómo usarlos. Esto es el “know how” de cada profesión. Y
también lo es la búsqueda bibliográfica de trabajos similares en revistas especializadas,
textos y otras fuentes de información. Una vez terminada esta etapa, que seguramente
habrá ayudado a depurar la anterior, se debe comenzar a pensar en las diferentes maneras
de hacerlo.

Etapa 3 - Creación de alternativas: esta etapa consiste en saber cómo hacerlo. O sea, generar
distintas alternativas de sistemas de recopilación de datos, de acuerdo con los objetivos adoptados
y los bienes disponibles. Se debe hacer un listado con todas las formas posibles de efectuar la

18
UNIDAD I / ESTADISTICA DESCRIPTIVA.

recopilación a fin de tener un panorama completo. En síntesis, se habla de fuente propia cuando
se decide extraer los datos mediante mediciones. Fuente Primaria es cuando se toman los datos
de otros investigadores que publican los resultados de sus propias mediciones. Fuente Secundaria
es cuando los datos se extraen de publicaciones que usan como referencia a fuentes primarias.

Etapa 4 - Selección de alternativas: consiste en determinar cuál es la mejor entre las n alternativas
planteadas en la etapa anterior. Se necesita de un método para la adopción de un criterio de
selección.

Etapa 5 - Prueba piloto: existe una diferencia entre el diseño en los papeles y la realidad. Es por
eso que siempre es aconsejable hacer una prueba piloto antes de la puesta en marcha para poder
juzgar cómo trabaja el sistema de recopilación de datos. Se sacan unos pocos datos y se analizan
las dificultades no previstas, junto con los resultados. Comparando los valores obtenidos con los
que se esperaba tener, se hace una especie de control previo del sistema.

Etapa 6 - Ajustes: Lo normal es tener que hacer pequeños ajustes que permitan optimizar al
sistema. De las diferencias detectadas en el control de la etapa anterior se sacan indicios. Estos
muestran qué tópicos retocar y surgen nuevas ideas de cómo hacer mejor las cosas. Básicamente,
usando el sentido común se corrigen los principales defectos, como ser: mejorar el entrenamiento
y conocimientos del personal, rediseñar formularios, calibrar equipos de medición, estimación de la
magnitud del error de medición, etc. Pero también hay técnicas de optimización especiales como
son los distintos modelos de la Investigación Operativa. Esta es una disciplina muy emparentada
con estadística y sus modelos más conocidos son: Teoría de Líneas de Espera, Programación por
Camino Crítico (PERT), Programación Dinámica y Lineal, Reemplazos, Simulaciones, etc. Una vez
hechos los ajustes, se vuelve a la etapa anterior y se efectúa una nueva prueba piloto. Este ensayo
permite decidir si se continúa adelante, o si son necesarios más ajustes. Hay que continuar hasta
que todo sea satisfactorio y recién entonces pasar a la etapa siguiente.

Etapa 7 - Puesta en marcha: una vez optimizado y ajustado el método de obtención de datos solo
resta ponerlo en marcha. De esa manera, se logra la cantidad de datos necesarios para alcanzar
los objetivos previstos. El resultado final es la obtención de un volumen grande de información que
debe ser presentada en forma más resumida y comprensible usando tablas, gráficos y otras formas,
como se verá más adelante.
1.1.5 Muestra aleatoria.

19
UNIDAD I / ESTADISTICA DESCRIPTIVA.

La muestra es un conjunto de datos obtenidos de una población cualquiera, con el método de


recopilación elegido. Se la puede imaginar como un subconjunto del conjunto población. Se toman
muestras, cuando no se puede o no conviene, tomar la población entera. Si se tiene una población
de tamaño infinito, no se podrá nunca tomar todas las muestras posibles, como por ejemplo, las
mediciones repetidas de una misma magnitud, que se pueden repetir indefinidamente mientras el
ensayo no sea destructivo (repetidas pesadas en una balanza, medir la temperatura de un cuerpo,
etc.). Hay ocasiones, donde si bien la población es finita, es tan grande que no resulta práctico
tomar todos los casos como por ejemplo, cuando la población es la especie humana.

Lógicamente, la confiabilidad de las conclusiones extraídas concernientes a una población


dependen de si la muestra se ha escogido apropiadamente de tal modo que represente la población
suficiente. Una forma de hacer esto para poblaciones finitas es asegurarse de que cada miembro
de la población tenga igual oportunidad de encontrarse en la muestra, lo que se conoce como
muestra aleatoria.

1.1.6 Parámetros aleatorios.


Parámetro, es toda magnitud que tiene el mismo valor dentro de una población. O sea, no permite
diferenciar entre sí a sus elementos componentes. Existen medidas para realizar descripciones
cuantitativas de los conjuntos de datos, o poblaciones, y de sus muestras, diferenciándose entre
ellas las que se refieren a las mismas poblaciones y a las muestras. Para el caso de las poblaciones,
las medidas que las describen se denominan parámetros, y suelen estar representadas con letras
griegas (por ejemplo y ). Por otro lado, para el caso de aquellas medidas que describen a una
muestra se les llama estadísticos o estimadores, y son representados por letras de nuestro
alfabeto (por ejemplo, x o s). Tales medidas cuantitativas que describen a las poblaciones y a las
muestras se comentarán enseguida. Se considera que se conoce una población cuando conocemos
la distribución de probabilidad f(x) de la variable aleatoria asociada X.

1.1.7 Enfoque clásico.


La utilización de esta metodología implica una cierta filosofía o visión de la Probabilidad y la
Estadística muy particular y poco frecuente. Lo particular de este enfoque es que es razonablemente
más sencillo que el enfoque clásico de la estimación y el ensayo de hipótesis, a los que reemplaza
y mejora por cuanto no implica aproximaciones ni requiere de la introducción de nuevos conceptos.

1.1.8 Enfoque Bayesiano.

20
UNIDAD I / ESTADISTICA DESCRIPTIVA.

En el enfoque Bayesiano de la Estadística, la incertidumbre presente en un modelo dado, p(x⏐θ),


es representada a través de una distribución de probabilidad p (θ ) sobre los posibles valores del
parámetro desconocido θ (típicamente multidimensional) que define al modelo. El Teorema de
Bayes,

p(θ)p(xθ)
p(θx) =
p(x)

Permite entonces incorporar la información contenida en un conjunto de datos x = (x1,..., xn ),


produciendo una descripción conjunta de la incertidumbre sobre los valores de los parámetros del
modelo a través de la distribución final p (x⏐θ ).

Desafortunadamente, la implementación de las técnicas Bayesianas usualmente requiere de un


esfuerzo computacional muy alto. La mayor parte de este esfuerzo se concentra en el cálculo de
ciertas características de la distribución final del parámetro de interés (que llamaremos resúmenes
inferenciales). Así, por ejemplo, para pasar de una distribución conjunta a una colección de
distribuciones y momentos marginales que sean útiles para hacer inferencias sobre subconjuntos
de parámetros, se requiere integrar. En la mayoría de los casos los resúmenes inferenciales básicos
se reducen a integrales de la forma:

S{g(θ)}= ∫g(θ)p(θ)p(zθ)dθ

El análisis Bayesiano, en otra diferencia con la estadística clásica, permite incorporar en un estudio
información de distintas fuentes, incluso subjetivas.

De esta manera concibe, en un plano muy general, las técnicas estadísticas como mecanismos para
la actualización del conocimiento particular o general, individual o colectivo sobre el estado que
guarda la naturaleza."

1.2 Descripción de datos.

21
UNIDAD I / ESTADISTICA DESCRIPTIVA.

1.2.1 Datos agrupados y no agrupados.


La principal diferencia entre ambas es que en datos agrupados se ordenan los datos de la tabla y
se almacenan en el orden del índice. Los datos agrupados mejoran el rendimiento al almacenar los
datos de la tabla junto con datos de nivel de hoja del índice. Una ordenación es un conjunto de datos
numéricos en orden creciente o decreciente. Este método de presentación de la información
consiste en presentar los datos por medio de una tabla o cuadro.

Los datos no agrupado no apunta directamente a la fila de la tabla, sino que utiliza los valores del
índice agrupado como punteros a las filas de la tabla.

Una fila de datos consiste en datos recogidos que no han sido organizados numéricamente.

1.2.2 Frecuencia de clase.


La frecuencia de clase o frecuencia de categoría, es el número de observaciones que caen dentro
de una categoría
Altura ( in) Número de
estudiantes f

60 – 62 63 7
– 65 20
66 – 68 69 44 29
– 71 72 – 10
74

Total 110

1.2.3 Frecuencia relativa.


La frecuencia relativa (proporción); de una clase es su frecuencia dividida por la frecuencia total de
todas las clases.

numero de estudiante
frecuencia relativa =
total

Altura ( in) Número de Frecuencia


estudiantes (f) relativa

60 – 62 7 0.0636

22
UNIDAD I / ESTADISTICA DESCRIPTIVA.

63 – 65 20 0.1818

66 – 68 44 0.4
69 – 71 29 0.2636

72 – 74 10 0.0909

total 110 1.0000

1.2.4 Punto medio.


El punto medio del intervalo de clase, que puede tomarse como representativo de la clase, se llama
marca de clase, que se refiere al punto medio del intervalo de clase y se obtiene promediando los
limites inferior y superior de clase. Así que las marcas de clase del intervalo
60 – 62 es:

= 61

1.2.5 Límites.
Tomando encuenta la clase 60 - 62 se dice que se llaman límites de clases, el 60 se llama límite
inferior de clase y el 62 se llama límite superior de clase.

1.2.6 Histograma.
Es una representación grafica para la distribución de frecuencia. Un histograma o histograma de
frecuencias, consiste en un conjunto de rectángulos con:

a) base en el eje x horizontal, centros en las marcas de clases y longitudes iguales a los
tamaños de los intervalos de clase y

b) áreas proporcionales a las frecuencias de clase.

Altura ( in) Número de Marca de


estudiantes (f) clases (X)

60 – 62 7 61
63 – 65 20 64

23
UNIDAD I / ESTADISTICA DESCRIPTIVA.

66 – 68 44 67

69 – 71 29 70
72 – 74 10 73

total 110

frecuencia

50
40
30
20
10
0
58 61 64 67 70 73 76

1.2.7 Histograma de frecuencia relativa.


Altura ( in) Numero de Frecuencia
estudiantes (f) relativa

60 – 62 7 0.0636
63 – 65 20 0.1818
66 – 68 44 0.4

69 – 71 29 0.2636
72 – 74 10 0.0909

total 110 1.0000

Histograma de frecuencia relativa


0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
1 2 3 4 5

24
UNIDAD I / ESTADISTICA DESCRIPTIVA.

Problemas propuestos:
Problema: El rascón terrestre o guión de las codornices es una ave europea en peligro de extinción
mundial. En fechas recientes se llevó a cabo un censo de rascones cantores en terrenos agrícolas
de Gran Bretaña e Irlanda (Journal of applied ecology) . La tabla indica el numero total de rascones
terrestres que habitan en cada de 10 áreas geográficas.

Área Numero de rascones


terrestres

1. Tierra bajas de Escocia 12 15


2. Tierras altas de escocia 34
3. Orkney y Shetland 76 82
4. Lewis y Harris 155
5. N. Uist y Benbecula 76
6. S. Uist y Barra 121 128
7. Hebridas interiores 789
8. Coll y Tirce
9. Irlanda del norte
10. Republica de Irlanda

Total 1488

a) Resuma los datos con un histograma

1.3. Medidas de tendencia central.

1.3.1 Media aritmética, geométrica y ponderada.


Media aritmética
Sean, x1 ,x2 ,....,xn , n observaciones muéstrales, definiremos promedio de estas observaciones al
valor dado por:

o bien

25
UNIDAD I / ESTADISTICA DESCRIPTIVA.

x x2 + x3 + ... + xn ∑j=1 x j ∑x x = 1 + =

=
N N N

Ejemplo: La media aritmética de los números 8, 3. 5, 12 y 10

x= = = 7.6

En esta expresión, puede verse que el promedio de un conjunto de números se calcula sumándolos
y luego dividiendo la suma por el número de sumandos. La estadística promedio representa muy
bien el 'centro' de la distribución de los datos cuando se trata de casos 'normales'. Entendemos aquí
por casos 'normales' aquellos conjuntos de datos que no contienen valores muy extremos, valores
muy alejados de los demás. Debido a que en muchas situaciones experimentales, el comportamiento
de los datos es relativamente 'normal', el promedio es muy usado, convirtiéndose en la primera
estadística calculada para representar el 'centro' de la población en estudio.

si los números X1 , X2 , ... , Xk , ocurren f1 , f2 , ... , fk , veces respectivamente, su media aritmética N

∑f j xj

x = f1x1f1++f2fx22++......++fkfk xk = j=∑1k f j

j=1

∑ fx x=
N

Ejemplo: si 5, 8, 6, y 2 ocurren con frecuencias 3, 2, 4 y 1 , respectivamente, su media aritmética es

x= = = 5.7

Ejemplo:En la tabla siguiente se tiene los puntajes obtenidos en la Prueba de Aptitud Académica
por 30 jóvenes, provenientes de un mismo establecimiento educacional:

26
UNIDAD I / ESTADISTICA DESCRIPTIVA.

P. Ap. Verbal P. Ap. Matemática P. Ap. Verbal P. Ap. Matemática

685 664 730 642

490 548 618 533

580 567 690 654

705 665 680 542

470 452 690 678

620 506 710 732

650 618 742 749

702 718 685 570

643 621 595 574

540 555 674 657

575 502 722 747

600 531 585 620

500 478 505 482

680 558 600 643

587 600 543 500

Con los datos de la tabla, se puede caracterizar el establecimiento educacional usando el promedio
de cada una de las pruebas. Lo primeros que se necesita es calcular la suma de los puntajes de los
treinta alumnos.

27
Dichas sumas son las siguientes:
Prueba de Aptitud Verbal 18796
Prueba de Aptitud Matemática 17906
Promedio Prueba de Aptitud Verbal 626.533
Promedio Prueba de Aptitud Matemática 596.867
UNIDAD I / ESTADISTICA DESCRIPTIVA.

La Media geométrica G
La media geométrica se el resultado de multiplicar todos los elementos y extraer la raíz n -ésima del
producto:

media geometrica = n x1.x2...xn

Ejemplo: la media geométrica g de 2, 4 y 8

G= 3 ( )2 ( )(8)4 = 4 mathcad gmean 2 4( , ,8) = 4

Promedio Ponderado.
En muchas ocasiones, las observaciones recolectadas no tienen la misma importancia relativa. Para
hacer presente este hecho en la búsqueda de un 'centro' que represente a los datos, es necesario
asignar a cada uno de éstos, una ponderación (peso o coeficiente) que represente su importancia
dentro de la muestra.

Definición.
A veces asociada con los números X1, X2, . . . XK , ciertos factores pesos ( o pesos ) W 1, W 2 ,..., W K
dependientes de la relevancia asignada a cada número.

Ejemplo: si el examen final de un curso cuanta tres veces mas que una evaluación parcial y un
estudiante tiene calificación 85 en el examen final y 70 y 90 en los dos parciales , las calificaciones
media es :

x=( )(1 70) ( )(+ 1 90)+( )( )3 85 = 415 = 83


1+1+ 3 5
Ejercicios:

28
UNIDAD I / ESTADISTICA DESCRIPTIVA.

a) hallar la media aritmética de los números 5, 3, 6, 5, 4, 5, 2, 8, 6, 5, 4, 8, 3, 4, 5, 4, 8, 2, 5, y

4
Solución: 4.8

b) De entre 100 números. 20 son cuatros, 40 son cinco, 30 son seis y los restantes siete.
Hallar su media aritmética.
Solución: 5.30

c) las calificaciones finales de un estudiante en cuatro asignatura fueron 82, 86, 90 y 70. si los
respectivos créditos otorgados a esos cursos son 3, 5, 3 y 1 , determinar una calificación
media a apropiada.
Solución: 85

d) De los 80 empleados de una empresa 6 cobra $ 7,00 a la hora y el resto $4,00 a la hora.
Hallar cuanto cobran de media por hora
Solución: $6.25

e) Cuatro grupos de estudiantes, consistentes en 15, 20, 10 y 18 individuos, dieron pesos


medios de 162, 148, 153 y 140 lb., respectivamente . hallar el peso medio de todos esos
estudiantes.
Solución: 150 lb.

1.3.2 Mediana.
La mediana de un conjunto de números ordenados en magnitud es el valor central o la media de los
dos valores centrales.
Datos sin agrupar:
Ejemplo: el conjunto de números 3, 4, 4, 5, 6, 8, 8, 8, 10 tiene mediana 6 mathcad

median(3 4, , 4, 5, 6, 8, 8, 8, 10) = 6

Ejemplo: el conjunto de números 5, 5, 7, 9, 11, 12, 15, 18 tiene mediana ½ ( 9 + 11 ) = 10

29
Ejemplo: las notas de un estudiante en seis exámenes han sido 84, 91, 72, 68, 87 y 78. hallar la
mediana de esas notas.
Solución : las notas ordenadas son 68, 72, 78, 84, 87 , 91,
1 / 2 ( 78 + 84 ) = 81

30
UNIDAD I / ESTADISTICA DESCRIPTIVA.

Ejemplo: cinco oficinistas cobran $ 4.52, $ 5.96, $ 5.28, $ 11.20 y $ 5.75 a la hora. Hallar la mediana
Solución = la ordenación es: $ 4.52, $ 5.28, $ 5.75 , $ 5.96, $ 11.20
La mediana es $ 5.75

Datos Agrupados:
Las gráficas siguientes, correspondientes a polígonos de frecuencias absolutas acumuladas, nos
plantea de nuevo dos situaciones diferentes a considerar:

⎛N ( )⎞
− ∑ f 1 ⎟⎟C
2


mediana = L1 +
⎜ fmediana ⎟
⎜ ⎟
⎝ ⎠
donde:
L1 = frontera inferior de la clase mediana.
N = numero de datos (frecuencia total)
(Σ f ) 1 = suma de la frecuencia de las clases inferiores a la de la mediana. f

mediana = frecuencia de la clase mediana.


C = anchura del intervalo de clase de la mediana.

Ejemplo:
Altura ( in) Numero de estudiantes (f)

60 – 62 7
63 – 65 20

66 – 68 44

69 – 71 29
72 – 74 10

total 110

31
UNIDAD I / ESTADISTICA DESCRIPTIVA.

Para indicar la posición : = 55 ; entonces se procede a realizar una suma con las
frecuencias (f) hasta llegar al valor 55 o mas de 55 pero no menos, para suponer que ahí cae la
mediana solo que se tiene que hacer es verificar su valor.

7 + 20+ 44 = 71 por lo tanto cae en el intervalo 66 – 68


Datos:

( )
L1 = 65.5; N =110; ∑ f = 27; f
1 mediana = 44; C = 68.5−65.5 = 3

⎛110 ⎞

− 27⎟
2
mediana = 65.5+⎜⎟( )3 = 67.41
⎜ 44 ⎟
⎜ ⎟
⎝ ⎠

1.3.3 Moda.
La moda de un conjunto de números es el valor que ocurre con mayor frecuencia; es decir, el valor
mas frecuente. La moda puede no existir e incluso no ser única. Esta estadística debe usarse con
cuidado. Su objetivo es identificar zonas donde se producen aglomeraciones de datos, sin embargo,
podría ser que por el solo hecho de haber una observación extra en un punto aislado, éste pudiese
aparecer como una moda.

Este inconveniente es especialmente delicado cuando hay pocas observaciones en la muestra, tal
como es el caso que se observa en el gráfico siguiente.

Datos sin agrupar:


Ejemplo: el conjunto 2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 12, 18 tiene como moda 9

mathcad mode(2 2, , 5, 7, 9, 9, 9, 10, 10, 11, 12, 18) = 9

Ejemplo: el conjunto 3, 5, 8, 10, 12, 15, 16 n o tiene moda

Ejemplo: el conjunto 2, 3, 4, 4, 4, 5, 5, 7 , 7, 7, 9 tiene dos modas 4 y 7 y se llama bimodal

32
UNIDAD I / ESTADISTICA DESCRIPTIVA.

Una distribución única se llama unimodal.

Datos agrupados :

⎛ Δ1 ⎞⎟⎟C
moda = L1 +⎜⎜⎝Δ1 +Δ2 ⎠

donde:
L 1 = frontera inferior de la clase modal ( clase que contiene a la moda)
Δ1 = exceso de la frecuencia modal sobre la clase inferior inmediata Δ2
= exceso de la frecuencia modal sobre la clase superior inmediata c =
anchura del intervalo de clase modal.

Ejemplo :
Altura ( in) Numero de estudiantes (f)

60 – 62 7
63 – 65 20

66 – 68 44
69 – 71 29
72 – 74 10

total 110

De acuerdo a la definición la moda será quien tenga mayor frecuencia por lo tanto cae en el intervalo
66 – 68

L1 = 65.5; Δ1 = 44 − 20 = 22 ; Δ2 = 44 − 29 = 15 ; C = 68.5−65.5 = 3

⎛ 22 ⎞
moda = 65.5 + ⎜ ⎟( )3 = 67.28
⎝ 22 +15⎠

33
UNIDAD I / ESTADISTICA DESCRIPTIVA.

Medidas de posición relativa (Cuartiles, deciles y percentiles).


Las calificaciones de exámenes y ciertos tipos de datos sociológicos y de salud con frecuencia se
presentan en una forma que describe la posición de una observación relativa a las demás
observaciones de la distribución.

Si un conjunto de datos están ordenados por magnitud, el valor central ( o la media de los dos
centrales) que divide al conjunto en dos mitades iguales es la mediana. Extendiendo esa idea,
podemos pensar en aquellos valores que dividen al conjunto en cuatro partes iguales.

Estos valores, denotados por Q 1, Q 2, Q3 , se llaman primer, segundo y tercer cuartil. Q 2 coincide
con la mediana.
Análogamente los valores que dividen a los datos en 10 partes iguales se llaman deciles y se
denotan D1 , D2 , . . . , D9 , mientras los valores que se dividen en 100 partes iguales se llaman
percentiles denotados P1 , P2 , . . . , P 99 .

Colectivamente cuartiles, deciles y percentiles se denominan cuantiles.

Altura ( in) Numero de estudiantes (f)

60 – 62 7
63 – 65 20
66 – 68 44
69 – 71 29

72 – 74 10

total 110

Hallar Cuartiles:

N / 4 = 100 / 4 = 25
5 + 18 = 23 63 – 65 → 62.5 – 65.5

Q 65.5 +( )3 = 65.64
1

34
UNIDAD I / ESTADISTICA DESCRIPTIVA.

2N / 4 = 2(100) / 4 = 50

5 + 18 = 23 63 – 65 → 62.5 – 65.5
5 + 18 + 42 = 65

Q 65.5 +( )3 = 67.43
2

3N / 4 = 3(100) / 4 = 75
5 + 18 +42 = 65 66 – 68 → 65.5 – 68.5

Q 68.5 +( )3 = 69.61
3

Hallar los deciles


= 10 D 62.5 +
1 5+ 18 = 23

=
60 D 65.5+
= 20 D 62.5 + 6
2

5+ 18 + 42 = 65
5+ 18 = 23
7(100)
= 30 D 65.5 + =
3 70 D 68.
5+
7
10
5+ 18 = 23

5+ 18 + 42 = 65
= 40 D 65.5+
4 8(100)
=
5+ 18 = 23
80 D 68.
5+
= 50 D 65.5+ 8
10
5

35
UNIDAD I / ESTADISTICA DESCRIPTIVA.

5+ 18 + 42 = 65
( )3 = 63.33
( )3 = 67.43

( )3 = 65
( )3 = 68.14

( )3 = 66
( )3 = 69.06

( )3 = 66.71
( )3 = 70.17
9(100) D (90 − 65)
= 90 9 68.5 + ( )3 = 71.28
10 27
Hallar percentiles P 35 yP 50 35
(100) / 100 = 35

P (35 − 23)
35 65.5 + ( )3 = 66.36
42

50 (100) / 100 = 50

P 65.5 +( )3 = 67.43
50

1.4. Medidas de dispersión.

Medidas de Posición.
La descripción de un conjunto de datos, incluye como un elemento de importancia la ubicación de
éstos dentro de un contexto de valores posibles. Por ejemplo, puede resultar de interés conocer
qué porcentaje de automóviles equipados con convertidor catalítico sobrepasa el estándar de
emisiones de gases que es aceptable según la legislación vigente. Ya no se trata en este ejemplo
de describir el centro de un conjunto de datos de esta naturaleza. Es necesario ser más específico.

Es probable que la emisión promedio de un conjunto de automóviles esté dentro de la norma.

36
UNIDAD I / ESTADISTICA DESCRIPTIVA.

Pero,¿es aceptable que el 25% de ellos no la cumpla?. Se ve, entonces, que la descripción debe
entregar más información de los datos para cubrir las necesidades informativas referentes a un
problema en particular.

1.4.1 Varianza.
Cuadrada para poder compararla con la media y otras medidas análogas. Esta es la idea del desvío
estándar o desviación típica. También es la fórmula planteada por Gauss en su teoría de errores
casuales. Como se verá más adelante, la curva de Gauss tiene dos puntos de inflexión simétricos
ubicados a una distancia del centro igual al desvío estándar.

La varianza
La varianza es el promedio de los cuadrados de las desviaciones de cada elemento, x i, respecto a
la media,

La varianza de un conjunto de datos se define como el cuadrado de la desviación típica y viene


dada en consecuencia por S2 . varianza poblacional (s 2)
N

S ;N
para una población finita con n determinaciones.

Y la varianza muestral (σ 2)

n 2 ⎛
⎞ n n ⎜∑ y i ⎟
⎝ i=1 ⎠

σ2 = i=1 = i=1 n n −1n −1

1.4.2 Desviación estándar.


A su vez, el desvío estándar poblacional (σ) y el muestral (s) se obtienen con la raíz cuadrada
de las respectivas varianzas y Representa el alejamiento de una serie de números de su valor
medio. Se calcula a partir de todas las desviaciones individuales con respecto a la media.

37
UNIDAD I / ESTADISTICA DESCRIPTIVA.

Para poder conocer o calcular tanto la media como la varianza poblacionales, se necesita conocer
la población completa. Esto es imposible en el caso de mediciones repetidas porque estas son
infinitas desde el punto de vista teórico. Análogamente, la cantidad total de muestras que se le
puede extraer a un paciente, para hacerle una determinación en el laboratorio, es tan grande que
puede ser considerada infinita. Por lo tanto, para todos
N

∑( )
2
xj −x
j =1
S=
N
El uso de esta estadística es recomendado en aquellos conjuntos de datos que ofrecen cierto grado
de simetría respecto de su centro. En estos casos, habitualmente tiene sentido medir discrepancias
de un valor con el centro de los datos usando múltiplos de la desviación estándar.
A modo de ejemplo, se puede decir que un valor está bastante alejado del centro de los datos si su
distancia de él supera dos desviaciones estándar. Apoyándose en la idea anterior, la desviación
estándar puede ser usada para determinar valores que se encuentran 'cerca' del centro. Este uso
va más allá de la simple descripción, en otros ámbitos de Estadística es usada para tomar
decisiones respecto de la población de la que fue extraída la muestra.

Ejercicio: Calcular la desviación estándar de los siguientes datos:


68.2, 69.3, 70.4, 71.5, 72.6, 73.7, 74.8, prom:=

prom= 71.5

2 2 2 2 2 2 2
( 68.2 − 71.5 ) + ( 69.3 − 71.5 ) + ( 70.4 − 71.5 ) + ( 71.5 − 71.5 ) + ( 72.6 − 71.5 ) + ( 73.7 − 71.5 ) + ( 74.8 − 71.5 )
desv := 7

desv = 2.2

Problema: Investigadores del Massachussets Institute of Technology (MIT) estudiaron las


propiedades espectroscopicas de asteroides de la franja principal con un diámetro menor a los 10
kilometros. Los asteroides se observaron con el telescopio hiltener del observatorio del MIT; se
registro el numero N de exposiciones de imagen espectral independientes para cada observación.
Aquí se presentan los datos de 40 observaciones de asteroides obtenidas de Science.

38
UNIDAD I / ESTADISTICA DESCRIPTIVA.

Numero de exposiciones de imagen espectral independientes para 40 observaciones de


asteroides.
3 4 3 3 1 4 1 3 2 3
1 1 4 2 3 3 2 6 1 1
3 3 2 2 2 2 1 3 2 1
6 3 1 2 2 3 2 2 4 2

a) Localice y y s en el listado
b) Construya los intervalos

y ± s, y ± 2s, y ± 3s

39
UNIDAD I / ESTADISTICA DESCRIPTIVA.

1.4.3 Desviación media.

La desviación media o desviación promedio de un conjunto de N números x 1, x 2, . . . , x N es


abreviada por MD y se define como: N

∑x j −x
M.D. = j=1
N

Ejemplo: hallar la desviación media del conjunto 2, 3, 6, 8, 11

media aritmetica = =6
con mathcad mean 2 3( , ,6,8,11) = 6

desviacion media

2 − 6 + 3 − 6 + 6 − 6 + 8 − 6 + 11 − 6
MD = = 2.8
5

1.4.4 Desviación mediana.


Es la media aritmética de los valores absolutos de las desviaciones de los valores de la variable
con respecto a la mediana.

∑x j − Men j
D Me =
n

1.4.5 Rango.
La más simple de todas es el rango, definido como la diferencia entre el valor máximo y mínimo
del grupo de datos. De fácil cálculo y comprensión, tiene la desventaja de ser la medida más
grosera de la dispersión.

Dos grupos de datos, con muy distinta dispersión pueden llegar a tener rangos similares. Uno de
ellos puede tener el 99% de los valores junto al mínimo y el otro el 99% junto al máximo, pero al
tener extremos iguales, sus rangos resultarían iguales a pesar de ser tan disímiles
intrínsecamente.

RANGO = Máx. datos - Mín. datos

UNIDAD I / ESTADISTICA DESCRIPTIVA.

40
1.5 Parámetros para datos agrupados.

1.5.1 La media.
Sean, x1 ,x2 ,....,xn , n observaciones muéstrales, definiremos promedio de estas observaciones al
valor dado por:

o bien
N

x = x1 + x2 + x3 +...+ xn =∑j=1 x j

N N

x =∑x
N

Ejemplo: La media aritmética de los números 8, 3. 5, 12 y 10

x = 8+ 3+ 5+12 +10 = 38 = 7.6


5 5

1.5.2 La desviación típica.


A su vez, el desvío estándar poblacional ( σ ) y el muestral ( s) se obtienen con la raíz
cuadrada de las respectivas varianzas y Representa el alejamiento de una serie de números de
su valor medio. Se calcula a partir de todas las desviaciones individuales con respecto a la media.
k

( )
2


f j xj −x
j =1
S= k


fj
j =1

41
UNIDAD I / ESTADISTICA DESCRIPTIVA.

x x j− x
2 2 (
f j x j−
(x j −x)
fj
)
j
x

68.2 5 -2.6358 6.9477 34.7385


69.3 11 -1.5358 2.3588 25.9472
70.4 14 -0.4358 0.1900 2.6595
71.5 11 0.6642 0.4411 4.8521
72.6 7 1.7642 3.1122 21.7856
73.7 32 2.8642 8.2034 24.6101
74.8 3.9642 15.7145 31.4290

Total 53 146.0219

x=
70.8358

Desv.
Est. =
1.6599

Y la desviación media para datos agrupados:


k

∑f j x j− x

DM = j=1 k

∑f j
j=1

xj fj f j xj − x
x j− x

42
68.2 5 2.6358 13.1792
69.3 11 14 1.5358 16.8943
70.4 11 0.4358 6.1019
71.5 73 0.6642 1.7642 7.3057
72.6 2 2.8642 12.3491
73.7 3.9642 8.5925
74.8 7.9283

Total 53 72.3509

x=
70.8358
Desv. Med. = 1.3651

43
UNIDAD I / ESTADISTICA DESCRIPTIVA.

1.6 Distribución de frecuencias.

Reglas generales para formar distribuciones de frecuencias


Paso 1: Calcular el intervalo de los datos :

Intervalo = Observación Grande – Observación Pequeña.

Paso 2: Dividir el intervalo entre 5 y 20 clases de igual anchura. El número de clases es arbitrario,
pero se obtiene una mejor descripción grafica si se utiliza pocas clases cuando el número de
datos es pequeño y un mayor número de clases cuando el conjunto de datos es grande. La
frontera de la clases más baja ( o primera) deberá estar situada por debajo de la medición más
pequeña, y el ancho de la clase debe ser tal que ninguna observación pueda quedar exactamente
en la frontera de una clases. Se pueden calcular de la siguiente manera:

Intervalo
= anchura de clase #clases

O bien,

Intervalo
=#clase
anchura declases

Si la precisión es:
 una unidad entera (1) entonces es 1/2 = 0.5, la primera clases comenzará restándole 0.5 a
la observación mas pequeño
 una unidad decimal (0.1) entonces es 0.1/2 = 0.05, la primera clases empieza restándole
0.05 a la observación mas pequeña.

Paso 3: para cada clase, contar el numero de observaciones que caen en esa clase. Este número
es la frecuencia de clases.

Datos obtenidos.
Por ejemplo: en la tabla que sigue se recogen los pesos de 40 estudiantes varones de una
universidad, con precisión de 1 libra. Construir una distribución de frecuencias.

138 164 150 132 144 125 149 157 146 158
140 147 136 148 152 144 168 126 138 176

44
UNIDAD I / ESTADISTICA DESCRIPTIVA.

163 119 154 165 146 173 142 147 135 153
140 135
161 145 135 142 150 156 145 128

El método textual tiene una ventaja importante con respecto a los otros: se puede influenciar al
lector. El autor puede resaltar ciertas cifras de su interés, puede remarcar conceptos apropiados
para sus fines y hacer pasar desapercibidos a los otros. Se puede focalizar la atención del lector,
de tal manera que pase por alto ciertos datos evitando que saque sus propias conclusiones.

1.6.1 Distribuciones numéricas.


Método de presentación de datos tabular.
Una ordenación es un conjunto de datos numéricos en orden creciente o decreciente. Este
método de presentación de la información consiste en presentar los datos por medio de una tabla
o cuadro.

Ejercicio: Los tiempos de CPU que se indican en la tabla representan el tiempo ( en segundos)
que 25 trabajos estuvieron en control de la unidad central de proceso (CPU) de una computadora
mainframe grande. Estos 25 valores representan una muestra seleccionada de los 1000 tiempos
de CPU .
Tabla de muestra de n = 25 tiempos de
CPU de trabajos (en segundos ).

1.17 1.61 1.16 1.38 3.53


1.23 3.76 1.94 0.96 4.75
0.15 2.41 0.71 0.02 1.59
0.19 0.82 0.47 2.16 2.01
0.92 0.75 2.59 3.07 1.40

1.6.2 Distribuciones categóricas.


Al resumir grandes colecciones de datos, es útil distribuirlos en clases o categorías, y determinar
el número de individuos que pertenecen a cada clase, llamado frecuencia de clase. Una
disposición tabular de los datos por clase junto con las correspondientes frecuencias de clase, se
llama distribución de frecuencia ( o tabla de frecuencia).

Ejemplos:

45
UNIDAD I / ESTADISTICA DESCRIPTIVA.

Intervalo = 4.75 – 0.02 = 4.73

Anchura aproximada de la clase es:

intervalo 4.73
= = 0.676 ≅ 0.7
7 7

Nota: si deseo saber la anchura de la clases entonces selecciono de manera arbitraria el numero
de clases en este caso el numero 7 indica el numero de clases ( filas) y el resultado es la anchura
de cada clases.

Como la tabla contiene datos con valores de centésimas entonces el grado de precisión es de 0.01
por lo tanto se deberá de utilizar 0.01/2 = 0.005. por lo cual al intervalo menor que es de
0.02 se le restara 0.05. Ahora el primer valor en la tabla iniciara en 0.015.

clase Intervalo Tabulación Frec.


de clase

12 0.015 – 0.715 ///// 59


3 0.715 – 1.415 ///////// 4
45 1.415 – 2.115 //// 31
67 2.115 – 2.815 /// 21

2.815 – 3.515 /
3.515 – 4.215 //
4.215 – 4.915 /

1.6.3 Distribuciones acumuladas.

Intervalo de Frecuencia Distribución


de clase acumulada
clase

46
UNIDAD I / ESTADISTICA DESCRIPTIVA.

0.015 – 0.715 59 5
0.715 – 1.415 43
14 18
12
1.415 – 2.115 21 22
1
24 25
2.115 – 2.815
2.815 – 3.515
3.515 – 4.215
4.215 – 4.915

Total 25

Distribucion acumulada

30
25
20
15
10
5
0
1 2 3 4 5 6 7

1.6.4 Distribuciones porcentuales.


En esta distribución tenemos a la distribución de frecuencia relativa y ojivas porcentuales que se
encuentra multiplicando la frecuencia relativa por cien para que los resultados estén en
porcentajes . Y la suma de todas estas frecuencias resulte al 100 %.

Frecuencia
Frecuencia relativa =
N
Frecuencia relativa y ojivas = Frec. Rel *100

Intervalo de clase Frec. Frec. relativa frecuencia relativa y ojivas porcentual (%)

47
UNIDAD I / ESTADISTICA DESCRIPTIVA.

0.015 – 0.715 59 0.20 20 36


0.715 – 1.415 43 0.36 16
12
1.415 – 2.115 1 0.16 12
2.115 – 2.815 0.12 48
2.815 – 3.515 0.04 4
3.515 – 4.215 0.08
4.215 – 4.915 0.04

Total 25 1.00

Frecuencia relativa porcentual

40
35
30
25
20
15
10
5
0
1 2 3 4 5 6 7

1.6.5 Distribuciones porcentuales acumuladas.


Las distribuciones porcentuales acumuladas resulta dividiendo la distribución acumulada entre la
frecuencia total y multiplicada por 100 para que los resultados resulten en porcentajes y al
terminar el ultimo calculo debe ser al cien por ciento.

Intervalo de clase Frec. Distribución acumulada Dist. porcentuales acumulada (%)

0.015 – 0.715 5 5 20
0.715 – 1.415 9 14 18 56
1.415 – 2.115 43 21 72
2.115 – 2.815 1 22 84 88
2.815 – 3.515 21 24 25 96
3.515 – 4.215 100
4.215 –4.915

Total 25

D.A
DPA = *100

48
UNIDAD I / ESTADISTICA DESCRIPTIVA.

Distribucion Porcentual Acumulada

120

100

80

60

40

20

0
1 2 3 4 5 6 7

1.7 Técnicas de agrupación de datos.

1.7.1 Límites de clase.


118 y 122 se llaman limite de clase
118 se llama limite inferior y 122 limite superior de clase

1.7.2 Rango de clase.


El tamaño o anchura de un intervalo de clase es la diferencia entre las fronteras de clase superior
e inferior.
C = 122.5 – 117.5 = 5

1.7.3 Fronteras de clase.


Si se dan valores con precisión de 1 unidad, el intervalo de clase 118 – 122 incluye teóricamente
todas las medias desde 117.5 a 122.5 y se llaman frontera de clase o verdaderos limites de
clase; el menor 117.5 es la frontera inferior y el mayor 122.5 la frontera superior.

1.7.4 Marca de clase.


La marca de clase es el punto medio del intervalo de clase y se obtiene promediando los limites
inferior y superior de clase . Así que las marcas de clase del intervalo 118 – 122 es (118 + 122 )
/ 2 = 120

49
UNIDAD I / ESTADISTICA DESCRIPTIVA.

1.7.5 Intervalo de clase.


Los valores de 118 – 122 se les llaman intervalo de clases

Ejercicio: en la tabla siguiente se recogen los pesos de 40 estudiantes varones de una universidad,
con precisión de 1 libra. Construir:
a) una distribución de frecuencia.
b) Distribución de frecuencia acumulada
c) Grafica de la distribución de frecuencia acumulada
d) Frecuencia relativa
e) Frecuencia relativa y ojivas porcentuales
f) Grafica de la frecuencia relativa y ojivas porcentuales
g) Distribución porcentuales acumuladas
h) Grafica de la distribución porcentuales acumuladas

119 138 146 156 125


140 147 157
126 140 147 158 128
142 148 161
132 142 149 163 135
144 150 164
135 144 150 165 135
145 152
168
136 145 153 173
138 146 154 176

Los pesos son 176 y 119 lb.; El intervalo es 176 – 119 = 57 lb.
Si se usan 5 u 20 intervalos de clase su anchura será:

=11.4 =11 o = 2.85 = 3


Una colección razonable es 5 lb.
Se inicia desde un valor de precisión antes para que se considere que los valores deben de caer
dentro del intervalo.

50
UNIDAD I / ESTADISTICA DESCRIPTIVA.

Peso (lb.) Frecuencia Distribución frecuencia frecuencia Distribución


acumulada relativa relativa y ojivas porcentuales
porcentual (%) acumulada (%)

118 – 122 1 1 0.025 2.5 2.5


123 – 127 2 3 0.05 5 7.5

128 – 132 2 5 0.05 5 12.5

133 – 137 4 9 0.1 10 22.5

138 – 142 6 15 0.15 15 37.5

143 – 147 8 23 0.2 20 57.5

148 – 152 5 28 0.125 12.5 70

153 – 157 4 32 0.1 10 80

158 – 162 2 34 0.05 5 85

163 – 167 3 37 0.075 7.5 92.5

168 – 172 1 38 0.025 2.5 95

173 - 177 2 40 0.05 5 100

Total 40 1.00 100

Gráficos

a) Distribución acumulada b) Distribución relativa y ojivas c) Frecuencia


porcentual
acumulada

51
UNIDAD I / ESTADISTICA DESCRIPTIVA.

Histogram

14

12

10

2
Mean = 146.8
Std. Dev. = 13.051
0 N = 40
110 120 130 140 150 160 170 180

PESO

Ejercicio. Tabla de una distribución de frecuencia de puntuaciones de un examen final de álgebra

Grado Numero de estudiante Marca de clases (x) fx

30 – 39 40 13 34.5 34.5
– 49 50 – 11 21 44.5 133.5 599.5
59 60 – 69 43 54.5 1354.5
70 – 79 80 32 64.5 3203.5
– 89 9 74.5 2704
90 - 100 84.5 855
95.0

N = Σ f = 120 Σfx = 8884.5

a) marca de clases
x 1 = 34.5; x2 =44.5; x3 = 54.5 ; x4 = 64.5 ; x5 = 74.5; x6 = 84.5 ; x7 = 95.0

b) media aritmética

∑ fx 8884.5
x = = = 74.04
N 120

c) mediana
120/2 = 60
1 + 3 + 11 + 21 = 36
1 + 3 + 11 + 21 + 43 = 79

52
UNIDAD I / ESTADISTICA DESCRIPTIVA.

70 – 79 43 clase mediana

⎛⎜120 −36⎞⎟
2
mediana = 69.5+⎜⎟( )10 = 75.08
⎜ 43 ⎟
⎜ ⎟
⎝ ⎠
d) moda
70 – 79 43

⎛ 22 ⎞
moda = 69.5 + ⎜ ⎟( )10 = 76.17
⎝ 22 +11⎠

Problema: En la tabla siguiente se recogen los pesos de 40 estudiantes varones de una universidad
con precisión de una libra.
Peso (lb.) Frecuencia (f)

118 – 126 127 35


– 135 136 –
9
144 145 – 153
154 – 162 163 12
– 171 172 – 54
180 2

N = Σf = 40

Hallar:
a) Marca de clases
b) Media aritmética
c) Mediana y moda
d) trazar un histograma y polígono de frecuencia

53
UNIDAD I / ESTADISTICA DESCRIPTIVA.

1.7.6 Diagrama de tallos y hojas.


Un método para iniciar el análisis exploratorio de los datos, previo al uso de los métodos estadísticos
tradicionales, y que además proporciona información rápida, visual y es relativamente nueva, es la
representación gráfica de tallos y hoja. Esta representación se basa en la ordenación de los
datos a manera de gráfico, pero sin llegar a ello, utilizando las decenas y las unidades.

78 93 61 100 70 83 88 74 97 72

66 73 76 81 83 64 91 70 77 86

Ahora pensaremos en cada uno de los datos separando las decenas de las unidades, es decir, el
número 51 se verá como 5 | 1.

6 1 6 4
7 80 423607
8 3 8 1 3 6
9 3 7 1
10 0

Para entenderle un poco más, hemos de decir que el primer renglón que dice 6 | 1 6 4 quiere decir
que entre la lista de datos se encuentran los valores 61, 66 y 64. Esta es la representación gráfica
tallos y hoja, donde cada renglón es una posición de tallos y cada dígito de la derecha es una
hoja.

El procedimiento para realizarla es primero empezar con los tallo, es decir la columna de la
izquierda, y después dato por dato ir llenando las hojas a la derecha de la línea vertical, en el tronco
correspondiente. Además, si se desean tener los datos ordenados, y hay gente que lo prefiere así,
se pueden ordenar las hojas en cada renglón para que la representación quede como sigue:

6 1 4 6
7 0 0 2 3 4 6 7
8
8 1 3 3 6 8
9 1 3 7
10 0

54
UNIDAD I / ESTADISTICA DESCRIPTIVA.

En realidad una representación de tallos y hojas presenta la misma información que la lista original
de datos, pero de una manera mucho más compacta (especialmente si la lista de datos es más
grande) y manejable.

Ejemplo: Los tiempos de CPU que se indican en la tabla representan el tiempo (en segundos) que
25 trabajos estuvieron en control de la unidad central de proceso (CPU) de una computadora
mainframe grande. Estos 25 valores representan una muestra seleccionada de los 1000 tiempos
de CPU:

1.17 1.61 1.16 1.38 3.53


1.23 3.76 1.94 0.96 4.75
0.15 2.41 0.71 0.02 1.59
0.19 0.82 0.47 2.16 2.01
0.92 0.75 2.59 3.07 1.40

Ramas hojas Frecuencia

0 02 15 19 47 71 75 82 92 9
12 96 84
34 31
16 17 23 38 40 59 61 94
01 16 41 59
07 53 76
75

25

1.7.7 Diagrama de Pareto.


El Diagrama de Pareto constituye un sencillo y gráfico método de análisis que permite discriminar
entre las causas más importantes de un problema (los pocos y vitales) y las que lo son menos (los
muchos y triviales). El Diagrama de Pareto es una gráfica en donde se organizan diversas
clasificaciones de datos por orden descendente, de izquierda a derecha por medio de barras
sencillas después de haber reunido los datos para calificar las causas. De modo que se pueda
asignar un orden de prioridades.

Ventajas:
• Ayuda a concentrarse en las causas que tendrán mayor impacto en caso de ser resueltas.

55
UNIDAD I / ESTADISTICA DESCRIPTIVA.

• Proporciona una visión simple y rápida de la importancia relativa de los problemas.


• Ayuda a evitar que se empeoren alguna causas al tratar de solucionar otras y puede ser
resueltas.
• Su formato altamente visible proporciona un incentivo para seguir luchando por más
mejoras.

¿Cuándo se utiliza?
• Al identificar un producto o servicio para el análisis para mejorar la calidad.
• Cuando existe la necesidad de llamar la atención a los problema o causas de una forma
sistemática.
• Al identificar oportunidades para mejorar
• Al analizar las diferentes agrupaciones de datos (ej: por producto, por segmento, del
mercado, área geográfica, etc.)
• Al buscar las causas principales de los problemas y establecer la prioridad de las
soluciones
• Al evaluar los resultados de los cambios efectuados a un proceso (antes y después)
• Cuando los datos puedan clasificarse en categorías
• Cuando el rango de cada categoría es importante

Pareto es una herramienta de análisis de datos ampliamente utilizada y es por lo tanto útil en la
determinación de la causa principal durante un esfuerzo de resolución de problemas. Este permite
ver cuáles son los problemas más grandes, permitiéndoles a los grupos establecer prioridades.

En casos típicos, los pocos (pasos, servicios, ítems, problemas, causas) son responsables por la
mayor parte el impacto negativo sobre la calidad. Si enfocamos nuestra atención en estos pocos
vitales, podemos obtener la mayor ganancia potencial de nuestros esfuerzos por mejorar la calidad.

Un equipo puede utilizar la Gráfica de Pareto para varios propósitos durante un proyecto
para lograr mejoras:
• Para analizar las causas
• Para estudiar los resultados
• Para planear una mejora continua
• Las Gráficas de Pareto son especialmente valiosas como fotos de “antes y después” para
demostrar qué progreso se ha logrado. Como tal, la Gráfica de Pareto es una herramienta
sencilla pero poderosa.

56
UNIDAD I / ESTADISTICA DESCRIPTIVA.

¿Cómo se utiliza?
• Seleccionar categorías lógicas para el tópico de análisis identificado (incluir el periodo de
tiempo).
• Reunir datos. La utilización de un check List puede ser de mucha ayuda en este paso.
• Ordenar los datos de la mayor categoría a la menor
• Totalizar los datos para todas las categorías
• calcular el porcentaje del total que cada categoría representa
• trazar los ejes horizontales (x) y verticales (y primario - y secundario)
• trazar la escala del eje vertical izquierdo para frecuencia (de 0 al total, según se calculó
anteriormente)
• de izquierda a derecha trazar las barras para cada categoría en orden descendente. Si
existe una categoría “otros”, debe ser colocada al final, sin importar su valor. Es decir, que
no debe tenerse en cuenta al momento de ordenar de mayor a menor la frecuencia de las
categorías.
• trazar la escala del eje vertical derecho para el porcentaje acumulativo, comenzando por
el 0 y hasta el 100%
• trazar el gráfico lineal para el porcentaje acumulado, comenzando en la parte superior de
la barra de la primera categoría (la mas alta)
• dar un título al gráfico, agregar las fechas de cuando los datos fueron reunidos y citar la
fuente de los datos.
• analizar la gráfica para determinar los “pocos vitales”

Consejos para la construcción / interpretación


Como hemos visto, un Diagrama de Pareto es un gráfico de barras que enumera las categorías en
orden descendente de izquierda a derecha, el cual puede ser utilizado por un equipo para analizar
causas, estudiar resultados y planear una mejora continúa.

Dentro de las dificultades que se pueden presentar al tratar de interpretar el Diagrama de Pareto es
que algunas veces los datos no indican una clara distinción entre las categorías. Esto puede verse
en el gráfico cuando todas las barras son más o menos de la misma altura.

Otra dificultad es que se necesita más de la mitad de las categorías para sumar más del 60% del
efecto de calidad, por lo que un buen análisis e interpretación depende en su gran mayoría de un
buen análisis previo de las causas y posterior recogida de datos.

57
UNIDAD I / ESTADISTICA DESCRIPTIVA.

En cualquiera de los casos, parece que el principio de Pareto no aplica. Debido a que el mismo se
ha demostrado como válido en literalmente miles de situaciones, es muy poco probable que se haya
encontrado una excepción.

Es mucho más probable que simplemente no se haya seleccionado un desglose apropiado de las
categorías.

Esto nos lleva a la conclusión que para llevar a cabo un proceso de Resolución de Problemas /Toma
de Decisiones (RP/TD) es necesario manejar cada una de las herramientas básicas de la calidad,
tanto desde el punto de vista teórico como desde su aplicación.

La interpretación de un Diagrama de Pareto se puede definir completando las siguientes oraciones


de ejemplo:

“Existen (número de categorías) contribuyentes relacionados con (efecto).

Pero estos (número de pocos vitales) corresponden al (número) % del total (efecto). Debemos
procurar estas (número) categorías pocos vitales, ya que representan la mayor ganancia potencial
para nuestros esfuerzos.”

Relación con otras herramientas


Un Diagrama de Pareto generalmente se relaciona con:
• diagrama de Causa y Efecto (Ishikawa)
• Check List de Revisión
• Check List de reunión de datos
• Matriz para la Planeación de Acciones

Ejemplo: Un fabricante de heladeras desea analizar cuáles son los defectos más frecuentes que
aparecen en las unidades al salir de la línea de producción.

Para esto, empezó por clasificar todos los defectos posibles en sus diversos tipos:

Tipo de Defecto Detalle del Problema

58
UNIDAD I / ESTADISTICA DESCRIPTIVA.

Motor no detiene No para el motor cuando alcanza Temperatura

No enfría El motor arranca pero la heladera no enfría

Burlete Def. Burlete roto o deforme que no ajusta

Pintura Def. Defectos de pintura en superficies externas

Rayas Rayas en las superficies externas

No funciona Al enchufar no arranca el motor

Puerta no cierra La puerta no cierra correctamente

Gavetas Def. Gavetas interiores con rajaduras

Motor no arranca El motor no arranca después de ciclo de parada

Mala Nivelación La heladera se balancea y no se puede nivelar

Puerta Def. Puerta de refrigerador no cierra herméticamente

Otros Otros Defectos no incluidos en los anteriores

Posteriormente, un inspector revisa cada heladera a medida que sale de producción registrando
sus defectos de acuerdo con dichos tipos.

Después de inspeccionar 88 heladeras, se obtuvo una tabla como esta:

Tipo de Defecto Detalle del Problema Frec.

Burlete Def. Burlete roto o deforme que no ajusta 9

Pintura Def. Defectos de pintura en superficies externas 5

Gavetas Def. Gavetas interiores con rajaduras 1

Mala Nivelación La heladera se balancea y no se puede nivelar 1

Motor no arranca El motor no arranca después de ciclo de parada 1

Motor no detiene No para el motor cuando alcanza Temperatura 36

No enfría El motor arranca pero la heladera no enfría 27

No funciona Al enchufar no arranca el motor 2

59
UNIDAD I / ESTADISTICA DESCRIPTIVA.

Otros Otros Defectos no incluidos en los anteriores 0

Puerta Def. Puerta de refrigerador no cierra herméticamente 0

Puerta no cierra La puerta no cierra correctamente 2

Rayas Rayas en las superficies externas 4

Total: 88

Pero ¿Cuáles son los defectos que aparecen con mayor frecuencia? Para hacerlo más evidente,
antes de graficar podemos ordenar los datos de la tabla en orden decreciente de frecuencia:

Tipo de Defecto Detalle del Problema Frec. Frec. Rel. Prop. acum.

Motor no No para el motor cuando alcanza 36 0.4091


detiene Temperatura
0.4091

No enfría El motor arranca pero la heladera no enfría 27 0.3068 0.7159

Burlete Def. Burlete roto o deforme que no ajusta 9 0.1023 0.8182

Pintura Def. Defectos de pintura en superficies externas 5 0.0568 0.8750

Rayas Rayas en las superficies externas 4 0.0455 0.9205

No funciona Al enchufar no arranca el motor 2 0.0227 0.9432

Puerta no cierra La puerta no cierra correctamente 2 0.0227 0.9659

Gavetas Def. Gavetas interiores con rajaduras 1 0.0114 0.9773

60
UNIDAD I / ESTADISTICA DESCRIPTIVA.

Mala Nivelación La heladera se balancea y no se puede nivelar 1 0.0114

0.9886

Motor no El motor no arranca después de ciclo de 1 0.0114


parada
arranca
1.0000

Puerta Def. Puerta de refrigerador no 0 0.0000


cierra herméticamente
1.0000

Otros Otros Defectos no incluidos en los anteriores 0 0.0000 1.0000

Total: 88 1.0000

Vemos que la categoría “otros” siempre debe ir al final, sin importar su valor. De esta manera, si
hubiese tenido un valor más alto, igual debería haberse ubicado en la última fila.
Ahora resulta evidente cuales son los tipos de defectos más frecuentes. Podemos observar que
los 3 primeros tipos de defectos se presentan en el 82 % de las heladeras, aproximadamente. Por
el Principio de Pareto, concluimos que: La mayor parte de los defectos encontrados en el lote
pertenece sólo a 3 tipos de defectos, de manera que si se eliminan las causas que los provocan
desaparecería la mayor parte de los defectos.
1.5000
1.0000
0.5000
0.0000
1 3 5 7 9 11

Ejemplo: Considere un problema de interés para la División de Economía Comercial ( BED ,


Business Economics División) del Departamento del trabajo de Estados Unidos. Cada año, la BED
monitorea las empresas que fracasan y clasifican cada fracaso en categorías. Estas clasificaciones
se basan en opiniones de acreedores informados y los informes la BED. Estas frecuencias se
muestran en el diagrama de Pareto.

Causas subyacentes Frec. Frec. Rel. Proporción acum.

61
UNIDAD I / ESTADISTICA DESCRIPTIVA.

Incompetencias 698 0.477 0.477


Experiencia desequilibrada 314 0.215 0.692
Falta de experiencia gerencial 236 0.161 0.853
Falta de experiencia de línea 111 0.076 0.929
Causas desconocidas 83 0.057 0.986
Otras causas 2 0.014 1.000

Totales 1463 1.000

1.5

0.5

0
1 2 3 4 5 6

1.7.8 Diagrama de puntos.


78 93 61 100 70 83 88 74 97 72 66 73 76 81

83 64 91 70 77 86

120

100

80

60

40

20

0
0 5 10 15 20 25

1.8 Histograma.

1.8.1 Diagrama de barras.


En este tipo de gráfica, sobre los valores de las variables se levantan barras estrechas de longitudes
proporcionales a las frecuencias correspondientes. Se utilizan para representar variables
cuantitativas discretas. Consiste en representar las cantidades con rectángulos de igual base, y de

62
UNIDAD I / ESTADISTICA DESCRIPTIVA.

altura proporcional a los valores respectivos. Los intervalos libres entre barras también deben ser
del mismo tamaño, aunque a veces algunos autores las muestran pegadas.

1.8.2 Polígono de frecuencias.


Otra forma de representación de un uso menos común, y muy parecida a las gráficas de líneas, es
el polígono de frecuencias. La diferencia fundamental entre ambas es que en el polígono de
frecuencias se añaden dos clases con frecuencias cero: una antes de la primera clase con datos y
otra después de la última. El resultado es que se "sujeta" la línea por ambos extremos al eje
horizontal y lo que podría ser una línea separada del eje se convierte, junto con éste, en un polígono.

El siguiente ejemplo corresponde al porcentaje del PIB gastado en docencia e investigación durante
el año de 1990 en cinco países (fuente: Revista "Ciencia y Desarrollo", 1994, XIX(114):12):

Un polígono de frecuencia es un grafico de trozos de las frecuencias de clase con relación a la


marca de clase. Puede obtenerse conectando los puntos medios de las partes superiores de los
rectángulos de los histogramas. Se suelen añadirse longitudes PQ y RS a las marcas de clase
extremas como asociadas a una frecuencia de clase cero.

63
UNIDAD I / ESTADISTICA DESCRIPTIVA.

1.8.3 Ojivas.
Una gráfica similar al polígono de frecuencias es la ojiva, pero ésta se obtiene de aplicar
parcialmente la misma técnica a una distribución acumulativa y de igual manera que éstas, existen
las ojivas mayor que y las ojivas menor que.
Existen dos diferencias fundamentales entre las ojivas y los polígonos de frecuencias (y por ésto la
aplicación de la técnica es parcial):

Un extremo de la ojiva no se "amarra" al eje horizontal, para la ojiva mayor que sucede con el
extremo izquierdo; para la ojiva menor que, con el derecho.

En el eje horizontal en lugar de colocar las marcas de clase se colocan las fronteras de clase.
Para el caso de la ojiva mayor que es la frontera menor; para la ojiva menor que, la mayor.

Las siguientes son ejemplos de ojivas, a la izquierda la mayor que, a la derecha la menor que,
utilizando los datos que se usaron para ejemplificar el histograma:

64
UNIDAD I / ESTADISTICA DESCRIPTIVA.

La ojiva mayor que (izquierda) se le denomina de esta manera porque viendo el punto que está
sobre la frontera de clase "4:00" se ven las visitas que se realizaron en una hora mayor que las 4:00
horas (en cuestiones temporales se diría: después de las 4:00 horas). De forma análoga, en la ojiva
menor que la frecuencia que se representa en cada frontera de clase son el número de
observaciones menores que la frontera señalada (en caso de tiempos sería el número de
observaciones antes de la hora que señala la frontera).

1.8.4 Gráficas circulares.


En un diagrama de este tipo, los 360º de un círculo se reparten proporcionalmente a las frecuencias
de los distintos valores de la variable. Resultan muy adecuados cuando hay pocos valores, o bien
cuando el carácter que se estudia es cualitativo. El diagrama de sectores siguiente refleja el
resultado de una encuesta (realizada a 300 personas) sobre los tipos de película preferidos por el
público en general:

65
UNIDAD I / ESTADISTICA DESCRIPTIVA.

1.9 Distribuciones muéstrales.

Como una estadística es una variable aleatoria que depende solo de la muestra observada, debe
tener una distribución de probabilidad. Esta distribución de probabilidad de una estadística se llama
distribución muestral. La distribución muestral de la estadística depende del tamaño de la población,
el tamaño de las muestras y el método de elección de las muestras

Si se selecciona n elementos de una población de modo tal que cada conjunto de n elementos de
la población tenga la misma probabilidad de ser seleccionado, se dice que los n elementos
constituyen una muestra aleatoria.

El resultado de un experimento estadístico se puede registrar como un valor numérico o como una
representación descriptiva. Cuando se lanza un par de dados y el total es un resultado de interés,
registramos un valor numérico. El estadístico se interesa en primer lugar en el análisis de los datos
numéricos. En cualquier estudio, el número de observaciones posibles puede ser pequeño, grande
pero finito o infinito. Por ejemplo si a los alumnos estudiantes de cierta escuela se les hacen una
pruebas de sangre y el tipo sanguíneo se puede clasificar en ocho maneras. Puede ser AB, A, B u
O, con un signo mas o uno menos, que dependen de la presencia o ausencia del antígeno R h. la
clasificación de tipos sanguíneos solo podemos tener tantas observaciones como estudiantes haya
en la escuela. El proyecto por tanto tiene como resultados un numero finito de observaciones.

66
UNIDAD I / ESTADISTICA DESCRIPTIVA.

Sea x 1 , x 2, ..., x n variable aleatorias independientes, cada una con la misma distribución de
probabilidad f (x). Definimos entonces a x 1 , x 2, ..., x n como una muestra aleatoria de tamaño n de

la población f(x) y escribimos su distribución de probabilidad conjunta como: F x x( 1, 2,...,xn ) = f


x f x( 1) ( 2 ),..., f x( n )

La distribución de probabilidad de una estadística se llama distribución muestral. La distribución de


probabilidad de ⎯x se llama distribución la media.

La distribución muestral de una estadística depende del tamaño de la población, el tamaño de las
muestras y el método de elección de las muestras.

Se debe ver las distribuciones muéstrales de x y S2 como el mecanismo a partir del cual haremos
finalmente inferencias de los parámetros µ y σ 2.

Cuando las muestras son lo suficientemente grandes, se pueden hacer inferencias analíticas
bastante extensas, con pocos y simples recursos, en comparación con técnicas más refinadas de
la Estadística. Esto es conveniente desde un punto de vista didáctico.
La Teoría del muestreo es el estudio de las relaciones entre una población y las muestras que se
extraen de ella. Del análisis de las muestras se pueden estimar o inferir datos de la población como

su media (μ), varianza (σ2 ), etc., llamados parámetros poblacionales. Cuando la población sea

finita y de un tamaño manejable en tiempo y costo, los valores poblacionales se calculan


directamente, sin necesidad del muestreo.

67
UNIDAD I / ESTADISTICA DESCRIPTIVA.

Uno de los propósitos de la estadística inferencial es estimar las características poblacionales


desconocidas, examinando la información obtenida de una muestra, de una población. El punto
de interés es la muestra, la cual debe ser representativa de la población objeto de estudio. Se
seguirán ciertos procedimientos de selección para asegurar de que las muestras reflejen
observaciones a la población de la que proceden, ya que solo se pueden hacer observaciones
probabilísticas sobre una población cuando se usan muestras representativas de la misma.

Muestras Aleatorias
Cuando nos interesa estudiar las características de poblaciones grandes, se utilizan muestras por
muchas razones; una enumeración completa de la población, llamada censo, puede ser
económicamente imposible, o no se cuenta con el tiempo suficiente.

A continuación se verá algunos usos del muestreo en diversos campos:


1. Política. Las muestras de las opiniones de los votantes se usan para que los candidatos midan
la opinión pública y el apoyo en las elecciones.
2. Educación. Las muestras de las calificaciones de los exámenes de estudiantes se usan para
determinar la eficiencia de una técnica o programa de enseñanza.
3. Industria. Muestras de los productos de una línea de ensamble sirve para controlar la calidad.
4. Medicina. Muestras de medidas de azúcar en la sangre de pacientes diabéticos prueban la
eficacia de una técnica o de un fármaco nuevo.
5. Agricultura. Las muestras del maíz cosechado en una parcela proyectan en la producción los
efectos de un fertilizante nuevo.
6. Gobierno. Una muestra de opiniones de los votantes se usaría para determinar los criterios del
público sobre cuestiones relacionadas con el bienestar y la seguridad nacional.

Tipos de distribuciones muéstrales:


• Distribución muestral de la media con varianza conocida.
• Distribución muestral de diferencia de medias.
• Distribución muestral de proporción.
• Distribución muestral de diferencia de proporciones.
• Distribución muestral de varianza.
• Distribución muestral de razón de varianza.

64
UNIDAD 2

PROBABILIDAD

Objetivo:

Conocerá los conceptos básicos

de probabilidad para aplicarlos

en la solución de Problemas.
UNIDAD II / PROBABILIDAD.

2.1 Teoría elemental de probabilidad.

La Teoría de la Probabilidad constituye la base o fundamento de la Estadística, ya que las


inferencias que hagamos sobre la población o poblaciones en estudio se moverán dentro de
unos márgenes de error controlado, el cual será medido en términos de probabilidad.

Así pues, es común y corriente hablar de la probabilidad de un suceso, entendiendo como tal un
número entre 0 y 1, de forma que si éste es cercano a 0 (a l), el suceso tiene poca (mucha)
probabilidad de ocurrir o haber ocurrido.

Vemos, pues, que conviene precisar en cada caso de qué se está hablando, tratando de evitar
afirmaciones tan comunes en los medios de comunicación como la de "... mañana es posible
que llueva pero no es probable...".

2.1.1 Concepto clásico y como frecuencia relativa.


⎧Enfoqueclasicoo


⎪⎪ a p r i o r i
Concepto⎨

Enfoquecomofrecuenciarelativao

⎪⎩ a p o s t e r i o r i

Concepto clásico
Está basado en el concepto de resultados igualmente verosímiles y motivado por el denominado
Principio de la Razón Insuficiente, el cual postula que si no existe un fundamento para preferir
una entre varias posibilidades, todas deben ser consideradas equiprobables.

Así, en el lanzamiento de una moneda perfecta la probabilidad de cara debe ser igual que la de
cruz y, por tanto, ambas iguales a 1/2. De la misma manera, la probabilidad de cada uno de los
seis sucesos elementales asociados al lanzamiento de un dado debe ser 1/6. Laplace recogió
esta idea y formuló la regla clásica del cociente entre casos favorables y casos posibles,
supuestos éstos igualmente verosímiles.

70
El problema aquí surge porque en definitiva igualmente verosímil es lo mismo que igualmente
probable, es decir, se justifica la premisa con el resultado. Además ¿qué ocurre
UNIDAD II / PROBABILIDAD.

cuando estamos considerando un experimento donde no se da esa simetría?, o, ¿ qué hacer


cuando el número de resultados posibles es infinito?.

Si un suceso E puede ocurrir en h maneras diferentes de un número total de n maneras posibles,


todos igualmente factibles. Entonces la probabilidad de que ocurra E (o sea un éxito) se denota
por

p = Pr { E }= h / n

La probabilidad de que no ocurra E (o sea un fracaso) se denota por

q = Pr { no E }
q=(n–h)/n
q = 1 – h /n q
=1-p

q = 1 - Pr { E }
Así pues, p + q = 1 , es decir,

Pr { E } + Pr {no E } = 1.

El suceso “ no E “ se denotara por E.

Ejemplo: sea e el suceso de que al tirar un dado una vez salga un 3 o un 4. Hay seis formas de
caer el dado, dando 1, 2, 3, 4, 5, o 6, como E puede ocurrir de dos formas tenemos:

p = Pr { E }= 2/6 = 1/3

La probabilidad de que no salga ni 3 ni 4 es:

q = Pr { no E }= 1 – 1/3 = 2/3

Concepto frecuentista
Es un hecho, empíricamente comprobado, que la frecuencia relativa de un suceso tiende a
estabilizarse cuando la frecuencia total aumenta. Surge así el concepto frecuentista de la
probabilidad de un suceso como un número ideal al que converge su frecuencia relativa cuando
la frecuencia total tiende a infinito.

72
UNIDAD II / PROBABILIDAD.

Así, solemos afirmar que la probabilidad de que salga un seis al tirar un dado es 1/6 porque al
hacer un gran número de tiradas su frecuencia relativa es aproximadamente esa. El problema
radica en que al no poder repetir la experiencia infinitas veces, la probabilidad de un suceso ha
de ser aproximada por su frecuencia relativa para un n suficientemente grande, y ¿cuán grande
es un n grande? 0, ¿qué hacer con aquellas experiencias que solo se pueden repetir una vez?

Si después de n repeticiones de un experimento, donde n es muy grande, un suceso ocurre h


veces entonces la probabilidad del suceso es h / n. Esto también se llama la probabilidad
estimada o empírica, de un suceso se toma como la frecuencia relativa de ocurrencia del suceso
cuando el número de observaciones es muy grande.

Ejemplo: Si en 1000 tiradas de una moneda salen 529 caras, la frecuencia relativa de caras es:
529/1000 = 0.529

Definición formal de Probabilidad


Los anteriores conceptos de lo que debería ser la probabilidad de un suceso, llevaron a
Kolmogorov a dar una definición axiomática de probabilidad. Es decir, a introducir rigor
matemático en el concepto de probabilidad, de forma que se pudiera desarrollar una teoría sólida
sobre el concepto definido.

Así, llamaremos probabilidad a una aplicación

P : A [0,1]

Tal que:

Axioma 1: Para todo suceso A de A sea P (A)≥ 0


Axioma 2: Sea P(Ω) = 1

Axioma 3: Para toda colección de sucesos incompatibles, {A } con A ∩A =φ


i i j i ≠ j , debe ser

⎛∞ ⎞ ∞

P⎜⎜Ai ⎟⎟=∑P( )Ai


⎝ i=1 ⎠ i=1

73
UNIDAD II / PROBABILIDAD.

Obsérvese que esta definición no dice cómo asignar las probabilidades ni siquiera a los sucesos
elementales. Solo dice que cualquier asignación que hagamos debe verificar estos tres axiomas
para que pueda llamarse Probabilidad.

2.1.2 Interpretación subjetiva de la probabilidad.


Concepto subjetivo
Se basa en la idea de que la probabilidad que una persona da a un suceso debe depender de
su juicio y experiencia personal, pudiendo dar dos personas distintas probabilidades diferentes
a un mismo suceso. Estas ideas pueden formalizarse, y si las opiniones de una persona
satisfacen ciertas relaciones de consistencia, puede llegarse a definir una probabilidad para los
sucesos. El principal problema a que da lugar esta definición es, como antes dijimos, que dos
personas diferentes pueden dar probabilidades diferentes a un mismo suceso.

La probabilidad subjetiva de un evento se la asigna la persona que hace el estudio, y depende


del conocimiento que esta persona tenga sobre el tema. Precisamente por su carácter de
subjetividad no se considera con validez científica, aunque en la vida diaria es de las más
comunes que se utilizan al no apoyarse más que en el sentido común y los conocimientos
previos, y no en resultados estadísticos.

2.2 Probabilidad de eventos.

2.2.1 Definición de espacio muestral.


La Estadística, y por tanto el Cálculo de Probabilidades, se ocupan de los denominados
fenómenos o experimentos aleatorios. El conjunto de todos los resultados posibles diferentes de
un determinado experimento aleatorio se denomina Espacio Muestral asociado a dicho
experimento y se suele representar por Ω. A los elementos de Ω se les denomina sucesos
elementales.

Así por ejemplo, el espacio muestral asociado al experimento aleatorio consistente en el


lanzamiento de una moneda es Ω = {Cara, Cruz}; el espacio muestral asociado al lanzamiento
de un dado es Ω={1, 2, 3, 4, 5, 6}, siendo Cara y Cruz los sucesos elementales asociados al
primer experimento aleatorio y 1, 2, 3, 4, 5 y 6 los seis sucesos elementales del segundo
experimento aleatorio.

74
UNIDAD II / PROBABILIDAD.

A pesar de la interpretación que tiene el espacio muestral, no es más que un conjunto abstracto
de puntos (los sucesos elementales), por lo que el lenguaje, los conceptos y propiedades de la
teoría de conjuntos constituyen un contexto natural en el que desarrollar el Cálculo de
Probabilidades.

Sea A el conjunto de las partes de, es decir, el conjunto de todos los subconjuntos de Ω. En
principio, cualquier elemento de A, es decir, cualquier subconjunto del espacio muestral
contendrá una cierta incertidumbre, por lo que trataremos de asignarle un número entre 0 y 1
como medida de su incertidumbre.

En Cálculo de Probabilidades dichos subconjuntos reciben en el nombre de sucesos, siendo la


medida de la incertidumbre su probabilidad. La tripleta (Ω,A,P) recibe el nombre de espacio
probabilístico.

Por tanto, asociado a todo experimento aleatorio existen tres conjuntos: El espacio muestral , la
clase de los sucesos, es decir, el conjunto de los elementos con incertidumbre asociados a
nuestro experimento aleatorio A, y una función real,

P : A[0,1]

La cual asignará a cada suceso (elemento de A) un número entre cero y uno como medida de
su incertidumbre.

Advertimos no obstante, que la elección del espacio muestral asociado a un experimento


aleatorio no tiene por qué ser única, sino que dependerá de que sucesos elementales queramos
considerar como distintos y del problema de la asignación de la probabilidad sobre esos sucesos
elementales.

Problema: Liste los elementos de cada uno de los espacios muéstrales siguientes:
a) El conjunto de enteros entre 1 y 50 divisibles entre 8

b) El conjunto S = {x | x 2 + 4x – 5 = 0}
c) Describir un espacio muestral para una tirada de un par de dados Solución:

a) S = {8, 16, 24, 32, 40, 48 };


b) S = {-5, 1}

75
UNIDAD II / PROBABILIDAD.

c)
(1,6) (2,6) (3,6) (4,6) (5,6) (6,6)
(4,5) (5,5) (6,5)
(1,5) (2,5) (3,5)
(4,4) (5,4) (6,4)
(1,4) (2,4)
(3,4) (4,3) (5,3) (6,3)
(1,3) (2,3)
(1,2) (2,2) (3,3) (4,2) (5,2) (6,2)
(1,1) (2,1) (3,2) (4,1) (5,1) (6,1)
(3,1)

2.2.2 Discreto y continuo.


Modelos discretos: Obedecen a la generación de variables aleatorias discretas generalmente
asociadas a la frecuencia de eventos.

Modelos continuos que generalmente se usan en la modelación individual de los montos o


pérdidas que de alguna u otra manera puedan afectar la caja de la empresa.

2.2.3 Definición de evento.


Un evento es un subconjunto de un espacio muestral. La probabilidad de un evento A es igual a
la suma de las probabilidades de los sucesos simples del evento A.

2.2.4 Diagramas de Venn.


La relación entre eventos y el correspondiente espacio muestral se puede ilustras de forma
grafica mediante diagramas de Venn. En un diagrama de Venn representamos el espacio
muestral como un rectángulo y los eventos con círculos trazados dentro del rectángulo. Un
universo U puede representarse geométricamente por el conjunto de puntos dentro de un
rectángulo. Tales diagramas denominados diagramas de Venn, sirven para darnos una intuición
geométrica respecto a las posibles relaciones entre conjuntos.

2.2.5 Simbología, uniones e intersecciones.


La unión de dos eventos A y B es el evento que ocurre si A o B, o ambos, ocurren en una sola
realización del experimento. Denotaremos la unión de los eventos A y B mediante el símbolo

A∪ B.

76
UNIDAD II / PROBABILIDAD.

Intersección: Dados dos conjuntos cualesquiera A y B llamamos "Intersección" de A y B al


conjunto formado por todos los elementos que pertenecen a A y pertenecen a B.

Simbólicamente: A∩ B

Diferencia: Dados dos conjuntos cualesquiera A y B llamamos "Diferencia" de A "menos" B al


conjunto formado por los elementos que pertenecen a A y no pertenecen a B. Simbólicamente:
A-B

Complemento: Dados dos conjuntos cualesquiera A y B con B⊂ A (B Subconjunto de A)


llamamos "Complemento de B respecto a A" al conjunto de elementos que pertenecen a A y no
a B, esto es lo que le falta a B para ser igual a A.
Simbólicamente: (A∪ B ) ‘

77
UNIDAD II / PROBABILIDAD.

2.3 Técnicas de conteo.

¿Qué son las técnicas de conteo?. Las técnicas de conteo son aquellas que son usadas
para enumerar eventos difíciles de cuantificar.

Se les denomina técnicas de conteo a las combinaciones, permutaciones y diagrama de árbol,


hay que destacar que éstas nos proporcionan la información de todas las maneras posibles en
que ocurre un evento determinado.

Las bases para entender el uso de las técnicas de conteo son el principio multiplicativo y el
aditivo, los que a continuación se definen y se hace uso de ellos.

Análisis combinatorio.
En muchos casos el número de puntos muéstrales en un espacio muestral no es muy grande y
así la enumeración o cuenta directa de los puntos del muestreo necesario para obtener las
probabilidades no es difícil. Sin embargo, surgen problemas cuando la cuenta directa se
convierte en una imposibilidad práctica. En tales casos se emplea el análisis combinatorio, que
podría llamarse una forma sofisticada de contar.

Principio aditivo.
A menudo es más fácil calcular la probabilidad de algún evento a partir del conocimiento de las
probabilidades de otros eventos. Esto puede ser cierto si el evento en cuestión se puede
representar como la unión de otros dos eventos o como el complemento de algún evento. A
continuación se presenta varias leyes importantes que con frecuencia simplifica el cálculo de
probabilidades. La primera regla aditiva se aplica a uniones de eventos.

Si se desea llevar a efecto una actividad, la cuál tiene formas alternativas para ser realizada,
donde la primera de esas alternativas puede ser realizada de M maneras o formas, la segunda
alternativa puede realizarse de N maneras o formas ..... y la última de las alternativas puede ser
realizada de W maneras o formas, entonces esa actividad puede ser llevada a cabo de,

M + N + .........+ W maneras o formas

Problema: Una persona desea comprar una lavadora de ropa, para lo cual ha pensado que
puede seleccionar de entre las marcas Whirpool, Easy y General Electric, cuando acude a hacer
la compra se encuentra que la lavadora de la marca W se presenta en dos tipos de carga ( 8 u

78
UNIDAD II / PROBABILIDAD.

11 kilogramos), en cuatro colores diferentes y puede ser automática o semiautomática, mientras


que la lavadora de la marca E, se presenta en tres tipos de carga (8, 11 o 15 kilogramos), en dos
colores diferentes y puede ser automática o semiautomática y la lavadora de la marca GE, se
presenta en solo un tipo de carga, que es de 11 kilogramos, dos colores diferentes y solo hay
semiautomática. ¿Cuántas maneras tiene esta persona de comprar una lavadora?

Solución:
M = Número de maneras de seleccionar una lavadora Whirpool
N = Número de maneras de seleccionar una lavadora de la marca Easy
W = Número de maneras de seleccionar una lavadora de la marca General Electric

M = 2 x 4 x 2 = 16 maneras
N = 3 x 2 x 2 = 12 maneras
W = 1 x 2 x 1 = 2 maneras

M + N + W = 16 + 12 + 2 = 30 maneras de seleccionar una lavadora

Problema: Rafael Luna desea ir a las Vegas o a Disneylandia en las próximas vacaciones de
verano, para ir a las Vegas él tiene tres medios de transporte para ir de Chihuahua al Paso Texas
y dos medios de transporte para ir del Paso a las Vegas, mientras que para ir del paso a
Disneylandia él tiene cuatro diferentes medios de transporte,
a) ¿Cuántas maneras diferentes tiene Rafael de ir a las Vegas o a Disneylandia?,
b) ¿Cuántas maneras tiene Rafael de ir a las Vegas o a Disneylandia en un viaje redondo,
si no se regresa en el mismo medio de transporte en que se fue?.

Solución:
a) V = maneras de ir a las Vegas
D = maneras de ir a Disneylandia

V = 3 x 2 = 6 maneras
D = 3 x 4 = 12 maneras
V + D = 6 + 12 = 18 maneras de ir a las Vegas o a Disneylandia
b) V = maneras de ir y regresar a las Vegas D = maneras de ir y regresar a Disneylandia

V = 3 x 2 x 1 x 2 = 12 maneras
D = 3 x 4 x 3 x 2 = 72 maneras

79
UNIDAD II / PROBABILIDAD.

V + D = 12 + 72 = 84 maneras de ir a las Vegas o a Disneylandia en un viaje redondo

¿Cómo podemos distinguir cuando hacer uso del principio multiplicativo y cuando del aditivo?

Es muy simple, cuando se trata de una sola actividad, la cual requiere para ser llevada a efecto
de una serie de pasos, entonces haremos uso del principio multiplicativo y si la actividad a
desarrollar o a ser efectuada tiene alternativas para ser llevada a cabo, haremos uso del principio
aditivo.

Principio multiplicativo.
Si se desea realizar una actividad que consta de r pasos, en donde el primer paso de la actividad
a realizar puede ser llevado a cabo de N1 maneras o formas, el segundo paso de N2 maneras o
formas y el r-ésimo paso de Nr maneras o formas, entonces esta actividad puede ser llevada a
efecto de;

N1 x N2 x ..........x Nr maneras o formas

El principio multiplicativo implica que cada uno de los pasos de la actividad debe ser llevado a
efecto, uno tras otro.

Problema: ¿Cuántas placas para automóvil pueden ser diseñadas si deben constar de tres letras
seguidas de cuatro números, si las letras deben ser tomadas del abecedario y los números de
entre los dígitos del 0 al 9?,
a) Si es posible repetir letras y números,
b) No es posible repetir letras y números,
c) Cuántas de las placas diseñadas en el inciso b empiezan por la letra D y empiezan por
el cero,
d) Cuantas de las placas diseñadas en el inciso b empiezan por la letra D seguida de la G.
Solución:
Considerando 26 letras del abecedario y los dígitos del 0 al 9
a) 26 x 26 x 26 x 10 x 10 x 10 x 10 = 175,760,000 placas para automóvil.
b) 26 x 25 x 24 x 10 x 9 x 8 x 7 = 78,624,000 placas para automóvil
c) 1 x 25 x 24 x 1 x 9 x 8 x 7 = 302,400 placas para automóvil
d) 1 x 1 x 24 x 10 x 9 x 8 x 7 = 120,960 placas para automóvil

80
UNIDAD II / PROBABILIDAD.

Problema: ¿Cuántos números telefónicos es posible diseñar, los que deben constar de seis
dígitos tomados del 0 al 9?,
a) Considere que el cero no puede ir al inicio de los números y es posible repetir dígitos,
b) El cero no debe ir en la primera posición y no es posible repetir dígitos,
c) ¿Cuántos de los números telefónicos del inciso b empiezan por el número siete?,
d) ¿Cuántos de los números telefónicos del inciso b forman un número impar?.

Solución:
a) 9 x 10 x 10 x 10 x 10 x 10 = 900,000 números telefónicos
b) 9 x 9 x 8 x 7 x 6 x 5 = 136,080 números telefónicos
c) 1 x 9 x 8 x 7 x 6 x 5 = 15,120 números telefónicos
d) 8 x 8 x 7 x 6 x 5 x 5 = 67,200 números telefónicos

Problema: En una ciudad los números de teléfono constan de 5 dígitos, cada uno de los cuales
se llama con alguno de los 10 dígitos (0 al 9). ¿Cuántos números diferentes pueden formularse?

Solución: 10 x 10 x 10 x 10 x 10 = 100,000 números diferentes

2.3.1 Diagrama de árbol.


Problema: Suponga que una persona tiene 2 formas de ir de una ciudad A a otra ciudad B; y
una vez llegada a B, tiene 3 maneras de llegar a otra ciudad C, ¿De cuántas maneras podrá
realizar el viaje de A a C pasando por B?

Solución: Si empezó a pie, podrá tomar luego avión, carro o trasatlántico, y si empezó en
bicicleta, también podrá tomar avión, carro o trasatlántico. La persona tuvo 6 formas
diferentes de realizar el viaje que son: (iniciales) pa, pc, pt, ba, bc, bt. (2 x 3 = 6)

Problema: Se va a conformar un comité de 3 miembros compuesto por un representante de los


trabajadores, uno de la administración y uno del gobierno. Si hay 3 candidatos de los

81
UNIDAD II / PROBABILIDAD.

trabajadores, 2 de la administración y 4 del gobierno, determinar cuántos comités diferentes


pueden conformarse, empleando un diagrama de árbol

Problema: Un experimento consiste en lanzar una moneda y después lanzarla una segunda vez
si sale cara. Si sale cruz en el primer lanzamiento, entonces se lanza un dado una vez.
Para listar los elementos del espacio muestral que proporciones mayor información.

Problema: Suponga que se selecciona tres artículos de forma aleatoria de un proceso de


fabricación. Cada articulo se inspecciona y clasifica como defectuoso, D, o sin defectos N.

82
UNIDAD II / PROBABILIDAD.

Problema: Un médico general clasifica a sus pacientes de acuerdo a: su sexo (masculino o


femenino), tipo de sangre (A, B, AB u O) y en cuanto a la presión sanguínea (Normal, Alta o
Baja). Mediante un diagrama de árbol diga en cuantas clasificaciones pueden estar los pacientes
de este médico?

Si contamos todas las ramas terminales, nos damos cuenta que el número de clasificaciones
son 2 x 4 x 3 = 24 mismas que podemos enumerar; MAN, MAA, MAB, MBN, MBA, MBB, etc,
etc.

Problema: Un producto (por ejemplo, hardware para un sistema de computadoras) se puede


embarcar a través de cuatro aerolíneas diferentes, y cada aerolínea puede transportar los
embarques por tres rutas distintas. ¿Cuántas formas distintas de embarcar el producto existen?

83
UNIDAD II / PROBABILIDAD.

Problema: Dos equipos denominados A y B se disputan la final de un partido de baloncesto,


aquel equipo que gane dos juegos seguidos o complete un total de tres juegos ganados será el
que gane el torneo. Mediante un diagrama de árbol diga de cuantas maneras puede ser ganado
este torneo,

Solución:
A = gana el equipo A; B = gana el equipo B

En este diagrama se muestran que hay solo diez maneras de que se gane el torneo, que se
obtienen contando las ramas terminales de este diagrama de árbol, las que es posible enumerar;

AA, ABB, ABAA, ABABA, ABABB, etc, etc.

2.3.2 Notación factorial.


En algunos problemas de matemáticas se nos presentan multiplicaciones de números naturales
sucesivos tal como:

84
UNIDAD II / PROBABILIDAD.

4 x 3 x 2 x 1 = 24; 3 x 2 x 1 = 6; 2 x 1 = 2.

Para abreviar estas expresiones, se usa una notación especial llamada notación factorial y nos
denota las multiplicaciones sucesivas de n hasta l y se define como:

4 x 3 x 2 x 1 = 4! Se lee“cuatro factorial”

3 x 2 x 1 = 3! Se lee “tres factorial”

En términos generales:

n(n-1)(n-2)...x 2 x 1 = n! Se lee “n factorial”

Propiedades:

a) para n natural n! = n(n-1)!

Ejemplo:
7! = 7 x 6! = 7 x 6 x 5 x 4!
0! = 1
5! = 5 x 4 x 3 x 2 x 1 = 120
4! 3! = (24)(6) = 144

8! 8 7 6 5!x x x
= = 336 5!
5!

10!8! 10 9! 8 7 6!x x x x
= = 560
9!6! 9! 6!x

Cuando n es demasiado grande se suele utilizar la fórmula de Stirling:

85
UNIDAD II / PROBABILIDAD.

n!≅ 2πn n e* n. −n

2.3.3 Permutación.
Una permutación es un arreglo de todo o parte de un conjunto de objetos, el cual tiene una
disposición de elementos en un orden especifico. Es todo arreglo de elementos en donde nos
interesa el lugar o posición que ocupa cada uno de los elementos que constituyen dicho arreglo.

Teorema :
Dado un conjunto de n elementos claramente distintos, se desea seleccionar r elementos de los
n y acomodarlos dentro de r posiciones.

El número de permutaciones diferentes de los n elementos tomados r a la vez se denota por

: n P r y es igual n Pr = n ( n – 1 ) (n – 2 ) . . . ( n – r + 1 ) n!
n Pr = (n−r)!
para este caso particular r = n se convierte en:
n P n = n ( n – 1 ) (n – 2 ) . . . 1 = n !

donde n ! = n (n – 1 ) (n – 2 ) . . . (3)(2)(1) y se llama n factorial.

Esta fórmula nos permitirá obtener todos aquellos arreglos en donde el orden es importante y
solo se usen parte (r) de los n objetos con que se cuenta, además hay que hacer notar que no
se pueden repetir objetos dentro del arreglo, esto es, los n objetos son todos diferentes.

La demostración del teorema anterior es : hay n formas de ocupar la primera posición. Una vez
que se ocupa, hay n – 1 formas de ocupar la segunda, n – 2 formas de ocupar la tercera, . . . ,
y (n – r + 1 ) formas de ocupar la n-ésima posición. Aplicaremos la regla de multiplicativa para
obtener

n!
P
nr =( )(n n −1)(n − 2) (... n − r +1)=
(n − r)

86
UNIDAD II / PROBABILIDAD.

Problema: Hallar:
a) 8 P 3 b) 6 P 4 c) 15 P 1 d) 3 P 3

Solución
a) 336
b) 360
c) 15
d) 6

Problema: El numero de ordenaciones o permutaciones diferentes que consisten de 3 letras cada


una y que puede formarse de las 7 letras A, B , C, D, E, F, G, es n = 7 & r = 3
7P3 = 210

Problema: Se quieren sentar 5 hombres y 4 mujeres en una fila de modo que las mujeres ocupen
los sitios pares ¿de cuantas formas pueden sentarse?
Solución:
( 5 P 5 ) ( 4 P 4 ) = 2880 formas

Problema: ¿Cuantas representaciones diferentes serán posibles formar, si se desea que consten
de Presidente, Secretario, Tesorero, Primer Vocal y Segundo Vocal?, sí esta representación
puede ser formada de entre 25 miembros del sindicato de una pequeña empresa.

Solución:
Por principio multiplicativo:
25 x 24 x 23 x 22 x 21 = 6,375,600 maneras

Por Fórmula:
n = 25, r=5
25P5 = 25!/ (25 –5)! = 25! / 20! = (25 x 24 x 23 x 22 x 21 x....x 1) / (20 x 19 x 18 x ... x 1) =
6,375,600 maneras de formar la representación

Problema:
a) ¿Cuántas maneras diferentes hay de asignar las posiciones de salida de 8 autos que
participan en una carrera de fórmula uno? (Considere que las posiciones de salida de
los autos participantes en la carrera son dadas totalmente al azar)

87
UNIDAD II / PROBABILIDAD.

b) ¿Cuántas maneras diferentes hay de asignar los primeros tres premios de esta carrera
de fórmula uno?

Solución:
Por principio multiplicativo:
8 x 7 x 6 x 5 x 4 x 3 x 2 x 1= 40,320 maneras de asignar las posiciones de salida de los autos
participantes en la carrera

Por Fórmula: n
= 8, r = 8

8P8= 8! = 8 x 7 x 6 x 5 x 4 x......x 1= 40,320 maneras de asignar las posiciones de salida


......etc., etc.

a) Por principio multiplicativo:


8 x 7 x 6 = 336 maneras de asignar los tres primeros lugares de la carrera

Por fórmula: n
=8, r = 3

8P3 = 8! / (8 – 3)! = 8! / 5! = (8 x 7 x 6 x 5 x ........x1)/ (5 x 4 x 3 x......x1) = 336 maneras de asignar


los tres primeros lugares de la carrera

Problema: ¿Cuántos puntos de tres coordenadas ( x, y, z ), será posible generar con los dígitos
0, 1, 2, 4, 6 y 9?, Si,
a) No es posible repetir dígitos,
b) Es posible repetir dígitos.

88
UNIDAD II / PROBABILIDAD.

Solución:
a) Por fórmula n
= 6, r=3
6P 3 = 6! / (6 – 3)! = 6! / 3! = 6 x 5 x 4 x 3! / 3! = 6 x 5 x 4 = 120 puntos posibles Nota:
este inciso también puede ser resuelto por el principio multiplicativo

b) Por el
principio
multiplicativo
6 x 6 x 6 = 216 puntos posibles

Problema: De cuántas maneras 3 fresadoras, 4 tornos, 4 taladros y 2 cepillos pueden ordenarse


en fila en un taller, de modo que el mismo tipo de máquina quede juntas.

3F 4T 4T 2C

P3 = 3! P4 = 4! P4 = 4! P2 = 2!

P4 = 4!
3! (4!) (4!) (2!) (4!) = 165888

Problema: Cuatro libros distintos de matemáticas, seis diferentes de física y dos diferentes de
química se colocan en un estante. ¿De cuantas formas distintas es posible ordenarlos si
a) los libros de cada asignatura deben estar todos juntos,
b) solamente los libros de matemáticas deben estar juntos?
Solución
a) (4 P 4 ) (6 P 6 ) ( 2 P 2 ) ( 3 P 3 ) = 207360
b) (9 P 9 ) (4 P 4 ) = 8709120

Problema: Se sacan dos billetes de lotería de 20 para un primer y un segundo premios.


Encuentre el número de puntos muéstrales en el espacio S Solución:
20 P 2 = 380

89
UNIDAD II / PROBABILIDAD.

Problema: ¿De cuantas formas puede una organización local de la sociedad americana de

química programar a tres conferencistas para tres reuniones diferentes si todos están disponibles
en cualquiera de cinco fechas posibles?
Solución:
5 P 3 = 60

Problema: El testigo de un accidente, en el que el causante se dio a la fuga, le dijo a la policía


que el numero de placas tenias las letras RLH seguidas de tres dígitos, el primero de los cuales
era un 5. si el testigo no puede recordar los dos últimos dígitos, pero está seguro que todos los
dígitos eran diferentes , encuentre el número máximo de registros de automóviles que la policía
tendrá que revisar.
Solución:
9 P 2 = 72

Problema: En una carrera de coches (50 coches) queremos saber el número de formas distintas
en que se pueden repartir los premios (primero, segundo y tercer lugar)
Solución: 50 P 3 = 117600

Problema: Alguien desea colocar 6 cuadros en línea recta sobre la pared de una biblioteca.
¿De cuantas maneras diferentes lo pueden hacer?
Solución: 6P6 = 720

Problema: ¿De cuantas maneras pueden 10 personas sentarse en una banca si solo hay 4
puestos disponibles?
Solución: 10P4 = 5040

Problemas propuestos:
P1.- Un sistema de alarma de seguridad se activa y desactiva introduciendo el código numérico
de tres dígitos apropiados en el orden correcto en un tablero digital.
a) Calcule el número total de posibles combinaciones del código si ningún digito se puede
utilizar dos veces.
b) Calcule el numero total de posibles combinaciones del código si los dígitos se puede
utilizar mas de una vez.
Solución:
a) 10 P 3 = 720 b) (10)(10)(10) = 1000
P2.- Se contrata un servicio de calificación de computadoras para encontrar las tres mejore
marcas de monitores EGA. Se incluirá un total de 10 marcas en el estudio. ¿De cuantas formas
distintas puede el servicio de calificación llegar al ordenamiento final?

90
UNIDAD II / PROBABILIDAD.

Solución:

10 P 3 = 720

P3.- en una carrera de coches (50 coches) queremos saber el número de formas distintas en
que se pueden repartir los premios (primero, segundo y tercer lugar) Solución: 50 P 3 =
117600

P4.- Alguien desea colocar 6 cuadros en línea recta sobre la pared de una biblioteca. ¿De cuantas
maneras diferentes lo pueden hacer?
Solución: 6P6 = 720

P5.- ¿De cuantas maneras pueden 10 personas sentarse en una banca si solo hay 4 puestos
disponibles?
Solución: 10P4 = 5040

Permutaciones con repeticiones.


Las permutaciones que ocurren al arreglar objetos en un círculo se llaman permutaciones
circulares. Dos permutaciones circulares no se consideran diferentes a menos que los objetos
correspondientes en los dos arreglos estén precedidos o seguidos por un objeto diferente
conforme recorramos en la dirección de las manecillas del reloj.

Teorema: El numero de permutaciones distintas de n cosas de las que n 1 son de una clase, n

2 de una segunda clase , ... , n k de una k – esima n!


P
n n1,n2,...,nk = n1!,n2!,...,nk!

Problemas: Obtenga todas las señales posibles que se pueden diseñar con seis banderines, dos
de los cuales son rojos, tres son verdes y uno morado.

Solución: n = 6 banderines; x1 = 2 banderines rojos; x2 = 3 banderines verdes; x3 = 1 banderín


morado
6 P 2 ,3 ,1 = 6! / 2!3!1! = 60 señales diferentes

Problema:
a) ¿Cuántas claves de acceso a una computadora será posible diseñar con los números
1,1,1,2,3,3,3,3?,
b) ¿cuántas de las claves anteriores empiezan por un número uno seguido de un dos?,

91
UNIDAD II / PROBABILIDAD.

c) ¿cuántas de las claves del inciso a empiezan por el número dos y terminan por el número

tres?

Solución:
a) n = 8 números; x1 = 3 números uno; x2 = 1 número dos; x3 = 4 números cuatro
8 P 3 ,1 ,4 = 8! / 3!1!4! = 280 claves de acceso

b) n = 6 (se excluye un número uno y un dos); x1 = 2 números uno; x2 = 4 números


tres 1 x 1 x 6P2,4 = 1 x 1 x 6! / 2!4! = 15 claves de acceso

El primer número uno nos indica el número de maneras cómo es posible colocar en la primera
posición de la clave de acceso un número uno, debido a que todos los números uno son iguales,
entonces tenemos una sola manera de seleccionar un número uno para la primera posición, el
siguiente número uno nos indica el número de maneras como se colocaría en la segunda posición
el número dos y la expresión siguiente nos indica todos los arreglos posibles que es posible
diseñar con los números restantes.

c) n = 6 (se excluye un número dos y un tres); x1 = 3 números uno; x2 = 3 números


tres 1 x 6P3,3 x1 = 1 x 6! / 3!3! = 20 claves de acceso

El número uno inicial nos indica que existe una sola manera de seleccionar el número dos que
va en la primera posición del arreglo, mientras que el número uno final nos indica que hay una
sola manera de seleccionar el número tres que va al final del arreglo aún y cuando haya cuatro
números tres, como estos son iguales al diseñar una permutación es indistinto cuál número tres
se ponga, ya que siempre se tendrá el mismo arreglo y la expresión intermedia nos indica todos
los arreglos posibles a realizar con los números restantes.

Problema: ¿De cuántas maneras es posible plantar en una línea divisoria de un terreno dos
nogales, cuatro manzanos y tres ciruelos?

Solución:
n = 9 árboles; x1 = 2 nogales; x2 = 4 manzanos; x3 = 3 ciruelos
9 P 2 ,4 ,3 = 9! / 2!4!3! = 1260 maneras de plantar los árboles

Problema: Si un equipo de fútbol soccer femenil participa en 12 juegos en una temporada,


¿cuántas maneras hay de que entre esos doce juegos en que participa, obtenga 7 victorias, 3
empates y 2 juegos perdidos?

92
UNIDAD II / PROBABILIDAD.

Solución:

n = 12 juegos; x1 = 7 victorias; x2 = 3 empates; x3 = 2 juegos perdidos


12P7,3,2 = 12! / 7!3!2! = 7,920 maneras de que en la temporada este equipo logre siete
victorias, tres empates y dos juegos perdidos.

Problema: De cuantas formas diferentes se pueden arreglar 3 focos rojos, 4 amarillos, y 2 azules
en una serie de luces navideñas con 9 portalámparas?
Solución:

=1260

Problema: Usted cuanta con 12 analista de sistemas y desea asignar tres al trabajo 1, cuatro al
trabajo 2 y cinco al trabajo 3. ¿De cuantas formas distintas puede efectuar esta asignación?
Solución: n1 = 3, n2 =
4, n3 = 5

= 27720

Problema: ¿Cuantas muestras de 4 juntas unidades por soldadura blanda de estaño-plomo se


pueden seleccionar de un lote de 25 juntas de este tipo que están disponibles para pruebas de
resistencia?

=12650

Pruebas ordenadas
Se le llama prueba ordenada al hecho de seleccionar r objetos de entre n objetos contenidos en
una urna uno tras otro. Una prueba ordenada puede ser llevada a efecto de dos maneras:
a) Con sustitución (con reemplazo).- En este caso se procede a seleccionar el primer
objeto de entre los n que hay, se observa de qué tipo es y se procede a regresarlo a la
urna, luego se selecciona el siguiente objeto, lo anterior se repite hasta que se han
extraído los r objetos de la prueba, por tanto el número de pruebas ordenadas de con
sustitución se obtiene:

Número total de pruebas ordenadas con sustitución = n x n x n x .........x n = nr

93
UNIDAD II / PROBABILIDAD.

Hay n maneras de seleccionar el primer objeto, luego al seleccionar el segundo objeto, dado que

se ha regresado a la urna el primer objeto, también se tendrán n objetos y así sucesivamente.


b) Sin sustitución (sin reemplazo).- En este caso se procede a seleccionar el primer
objeto, el cual no es regresado a la urna, luego se selecciona el segundo objeto, lo
anterior se repite hasta completar los r objetos de la prueba, por lo que el número total
de pruebas ordenadas sin sustitución se obtiene:

Número total de pruebas ordenadas sin sustitución = n(n-1)(n-2).........(n-r +1) = nPr

Hay n maneras de seleccionar el primer objeto, luego al seleccionar el segundo objeto, hay n –1
maneras, dado que el primer objeto no se regresa a la urna, luego cuando se extrae el r-ésimo
objeto, hay (n –r +1) de que sea seleccionado.

Problema: ¿Cuántas maneras hay de que se asignen tres premios de un sorteo en donde el
primer premio es una departamento, el segundo premio es un auto y el tercer premio es un centro
de cómputo, si los participantes en este sorteo son 120 personas,
a) sí la asignación se puede hacer con sustitución,
b) sí la asignación se puede hacer sin sustitución.
Solución:
a) Por principio multiplicativo:
120 x 120 x 120 = 1,728,000 maneras de asignar los premios
Por fórmula: n =120, r = 120

nr = 1203 = 1,728,000 maneras de asignar los tres premios


b) Por principio multiplicativo:
120 x 119 x 118 = 1,685,040 maneras de asignar los premios

Por fórmula:
n = 120, r=3

120P3 = 120! / (120 – 3)! = 120! / 117! = 120 x 119 x 118 = 1,685,040 maneras de asignar los
premios

Hay que hacer notar que en este caso, como los boletos que son seleccionados ya no regresan
a la urna de donde fueron extraídos, los participantes solo pueden recibir un premio en caso de
que fueran de los afortunados. Esta es la forma en que generalmente se efectúa un sorteo.

94
UNIDAD II / PROBABILIDAD.

Problema: ¿Cuántas formas hay de asignar las primeras cinco posiciones de una carrera de autos

de fórmula K, si participan 26 autos en esta carrera?. Considere que la asignación es totalmente


al azar.

Solución:
Esta asignación debe ser sin sustitución, esto es, se trata de una prueba ordenada sin sustitución,
por lo que la solución es la que se muestra.

n = 26, r=5

26P5 = 26! / (26 – 5)! = 26! / 21! = 26 x 25 x 24 x 23 x 22 = 7,893,600 maneras de asignar las cinco
primeras posiciones de salida

Problema: ¿Cuántas formas hay de asignar el orden de participación de las primeras 5


concursantes de 11 finalistas de un concurso de Miss Mundo?

Solución:
Esta asignación debe realizarse sin sustitución, por lo que se trata de una prueba ordenada sin
sustitución.
n = 11, r = 5

11P5 = 11! / (11 – 5)! = 11! / 6! = 11 x 10 x 9 x 8 x 7 = 55,440 maneras de asignar la participación

2.3.4 Combinaciones.
Como ya se mencionó anteriormente, una combinación, es un arreglo de elementos en donde no
nos interesa el lugar o posición que ocupan los mismos dentro del arreglo. En una combinación
nos interesa formar grupos y el contenido de los mismos.

95
UNIDAD II / PROBABILIDAD.

Teorema
Se desea escoger una muestra de r elementos de un conjunto de n elementos. Entonces, el numero de
muestras distintas de r elementos que se pueden escoger de n se denota por

( )
nr

y es igual n!

⎛⎜⎜nr ⎞⎟⎟⎠ = nCr =r!(n−r)! ⎝


Observe que el orden en que se extraen los r elementos no es importante.

Demostración del teorema:


La selección de una muestra de r elementos de un conjunto de n elementos equivale a dividir los
n elementos entre k = 2 grupos: los r que se escogen para la muestra y los ( n – r ) restantes que
no se seleccionan. Por tanto, al aplicar el teorema obtenemos:

n!
⎛n⎞ n Cr =
⎜⎜⎝r ⎟⎟⎠ = r!(n−r)!

Problema: Hallar
el valor de
a) 7 C4 b) 6 C 5 c) 4 C 4
Solución:
a)
7!
7 C4 = = 35
4!(7 − 4)!

b) 6!
C
5!(6 − 5)!
65 = =6

c)

4!
C

96
UNIDAD II / PROBABILIDAD.

4 4 = =1
4!(4 − 4)!
Problema: E l número de maneras en las cuales 3 cartas pueden escogerse o seleccionarse de
un total de 8 cartas diferentes es:
Solución:

8!
C
n r = = 56
3!(8−3)!

Problema: De cuatro químicos y tres físicos encuentre el número de comités que se pueden
formar que consistan en dos químicos y un físico.
Solución:
Químico 4 C 2; Físico 3 C 1

⎛ 4! ⎞⎛ 3! ⎞

(4 2C )(3 1C )=⎜⎝ 2!(4−2)!⎟⎜⎠⎝1!(3 1)!−⎟⎠=


( )( )63 =18

Problema: Se contrataran cinco ingenieros de ventas de entre un grupo de 100 solicitantes. ¿De
cuantas formas (combinaciones) podemos seleccionar grupos de cinco ingenieros de ventas?
Solución:
100 C 5 = 75, 287,520

Problema: a) Si se cuenta con 14 alumnos que desean colaborar en una campaña pro limpieza
del Tec, cuantos grupos de limpieza podrán formarse si se desea que consten de 5 alumnos cada
uno de ellos, b) si entre los 14 alumnos hay 8 mujeres, ¿cuantos de los grupos de limpieza tendrán
a 3 mujeres?, c) ¿cuántos de los grupos de limpieza contarán con 4 hombres por lo menos?

Solución:
a) n = 14, r = 5
14C5 = 2002 grupos

b) n = 14 (8 mujeres y 6 hombres), r=5


8C3*6C2 = 840

97
UNIDAD II / PROBABILIDAD.

c) En este caso nos interesan grupos en donde haya 4 hombres o más

6C4* 8C1 + 6C5* 8C0 = 15 x 8 + 6 x 1 = 120 + 6 = 126

Problema: Para contestar un examen un alumno debe contestar 9 de 12 preguntas,


a) ¿Cuántas maneras tiene el alumno de seleccionar las 9 preguntas?,
b) ¿Cuántas maneras tiene si forzosamente debe contestar las 2 primeras preguntas?,
c) ¿Cuántas maneras tiene si debe contestar una de las 3 primeras preguntas?,
d) ¿Cuántas maneras tiene si debe contestar como máximo una de las 3 primeras
preguntas?

Solución:
a) n = 12, r=9
12C9 = 220 maneras de seleccionar las nueve preguntas o dicho de otra manera,
el alumno puede seleccionar cualquiera de 220 grupos de 9 preguntas para contestar el
examen

b) 2C2* 10C7 = 1 x 120 = 120 maneras de seleccionar las 9 preguntas entre las que están
las dos primeras preguntas

c) 3C1* 9C8 = 3 x 9 = 27 maneras de seleccionar la 9 preguntas entre las que está una de
las tres primeras preguntas

d) En este caso debe seleccionar 0 o 1 de las tres primeras preguntas


3C0* 9C9 + 3C1* 9C8 = (1 x 1) + (3 x 9)
= 1 + 27 = 28 maneras de seleccionar las preguntas a contestar
Problema. Una señora desea invitar a cenar a 5 de 11 amigos que tiene
a) ¿Cuántas maneras tiene de invitarlos?,
b) ¿cuántas maneras tiene si entre ellos está una pareja de recién casados y no asisten el
uno sin el otro,
c) ¿Cuántas maneras tiene de invitarlos si Rafael y Arturo no se llevan bien y no van juntos?

Solución:
a) n = 11, r=5
11C5 = 462 maneras de invitarlos
Es decir que se pueden formar 462 grupos de cinco personas para ser invitadas a cenar.

b) Esta señora tiene dos alternativas para hacer la invitación, la primera es no


invitar a la pareja y la segunda es invitar a la pareja.

98
UNIDAD II / PROBABILIDAD.

2C0* 9C5 + 2C2* 9C3 = (1 x 126) + (1 x 84) = 210 maneras de invitarlos


En este caso separamos a la pareja de los demás invitados para que efectivamente se cumpla el
que no asistan o que asistan a la cena.

c) La señora tiene dos alternativas para hacer la invitación, una de ellas es que no
invitar a Rafael y a Arturo o que asista solo uno de ellos.
2C0* 9C5 + 2C1* 9C4

= (1 x 126) + (2 x 126)
= 126 + 252 = 378 maneras de hacer la invitación

Problema: En un plano hay 10 puntos denominados A, B, C, ....,etc. etc., en una misma línea no
hay más de dos puntos,
a) ¿Cuántas líneas pueden ser trazadas a partir de los puntos?,
b) ¿Cuántas de las líneas no pasan por los puntos A o B?,
c) ¿Cuántos triángulos pueden ser trazados a partir de los puntos?,
d) ¿Cuántos de los triángulos contienen el punto A?,
e) ¿Cuántos de los triángulos tienen el lado AB?.

Solución:
a) Una línea puede ser trazada a partir de cómo mínimo dos puntos por lo tanto,
10C2 = 10! / (10 – 2)!2! = 10! / 8!2! = 45 líneas que se pueden trazar

b) En este caso excluiremos los puntos A y B y a partir de los ocho puntos restantes se
obtendrán las líneas.
2C0* 8C2 = 1 x 28 = 28 líneas que no pasan por los puntos A o B

c) Un triángulo puede ser trazado a partir de tres puntos, luego; 10C3 = 10! / (10 – 3)!3! =
10! / 7!3! = 120 triángulos posibles de trazar

d) En este caso se separa el punto A de los demás, se selecciona y posteriormente también


se seleccionan dos puntos más.
1C1* 9C2 = 1 x 36 = 36 triángulos que contienen el punto A

e) Los puntos A y B forman parte de los triángulos a trazar por lo que;


2C2*8C1 = 1 X 8 = 8 triángulos que contienen el lado AB

Problema: De un total de 5 matemáticos y 7 físicos, se forma un comité de 2 matemáticos y

99
UNIDAD II / PROBABILIDAD.

3 físicos. ¿De cuantas formas puede formarse, si

a) puede pertenecerá el cualquier matemático y físico,


b) un físico determinado debe permanecer al comité,
c) dos matemáticos determinados no pueden estar en el comité?

a) 2 Mat. de un total de 5 5 C 2
3 Fis. de un total de 7 7 C 3 = (5 C 2) ( 7 C 3) = 350

b ) 2 Mat. de un total de 5 5 C 2
2 Fis. de un total de 6 6 C 2 = (5 C 2) (6 C 2) = 150

c) 2 Mat. de un total de 3 3 C 2
3 Fis. de un total de 7 7 C 3 = (3 C 2) (7 C 3) = 105

Problema: De cuantas formas pueden 10 objetos dividirse en dos grupos de 4 y 6 objetos


respectivamente.
Solución:
(10 C 4) = 210
Problema: Cuantas manos diferentes de 5 naipes pueden darse con un mazo normal de 52
naipes, no importa el orden en que se reciban las cartas, lo que nos indica que se trata de una
combinación.
Solución:
52 C 5 = 2598960

Problema: Si 10 alumnos desean jugar baloncesto, ¿cuántos equipos diferentes pueden formarse
con estos jugadores ? , uno de los muchachos se llama José. Solo se desea contar los equipos
que incluyen a Jose Solución:
10 C 5 = 252 equipos diferentes
El número de equipos que incluyen a José son: 9
C 4 = 126

Problema: ¿cuántas parejas distintas pueden formarse con cinco individuos?


Solución:
5 C 2 = 10

Particiones ordenadas.
Se le llama partición ordenada al hecho de repartir n objetos en células de una cantidad de x1
objetos, x2 objetos,......y xk objetos.

100
UNIDAD II / PROBABILIDAD.

Problema: ¿Cuántas maneras hay de repartir 10 libros diferentes entre tres alumnos, si al primero
le daremos 2, al segundo 3 y el resto al tercer alumno? , esta partición serían las siguientes si se
numeran los libros del 1 al 10; Solución:
Lo primero que debemos hacer es seleccionar 2 libros de los 10 que se tienen para el primer
alumno, esto es;

10C2 = 10! / (10 – 2)!2! = 10! / 8!2! = 45 maneras de seleccionar los libros
Luego se seleccionan 3 libros de los 8 que quedan para el segundo alumno; 8C3 =
8! / (8 – 3)!3! = 8! / 5!3! = 56 maneras

Y por último se procederá a seleccionar cinco libros de los cinco que quedan para el tercer
alumno, lo que se muestra a continuación;
5C5 = 5! / (5 –5)!5! = 5! / 0!5! = 1 manera

Por tanto el número total de particiones ordenadas en células de 2, 3 y 5 elementos se determina:


10C2* 8C3* 5C5 = 2520

La expresión anterior nos recuerda a la fórmula utilizada para encontrar las permutaciones de n
objetos, entre los cuales hay algunos objetos que son iguales, por lo que usaremos la misma
fórmula para encontrar las particiones ordenadas.

Por tanto la fórmula para las particiones ordenadas sería:

n!
nPx1,x2..........,xk =
x1!x2!.......xk!
Esta fórmula sólo puede ser utilizada cuando se reparten todos los objetos, no parte de ellos, en
ese caso se usarán combinaciones.

Donde:
nPx1,x2,.....,xk = Total de particiones ordenadas o reparticiones que es posible hacer cuando los
n objetos son repartidos en grupos de x1 objetos, x2 objetos ...... y xk objetos.
n = x1 + x2 + ......+ xk

Problema: ¿Cuántas maneras hay de repartir 9 juguetes entre tres niños, si se desea que al
primer niño le toquen 4 juguetes, al segundo 2 y al tercero 3 juguetes?

101
UNIDAD II / PROBABILIDAD.

Solución:

Por combinaciones,
9C4* 5C2* 3C3 = 126*10*1= 1260 maneras de repartir los juguetes

Por fórmula,
n = 9; x1 = 4; x2 = 2; x3 =3
9P4,2,3 = 9! / 4!2!3! = 1,260 maneras de repartir los juguetes

Problema: ¿Cuántas maneras hay de repartir los mismos 9 juguetes entre tres niños, si se desea
darle 3 al primer niño, 2 al segundo niño y 2 al tercer niño?

Solución:
En este caso únicamente se puede dar solución por combinaciones, ya que no es posible usar la
fórmula debido a que se reparten solo parte de los juguetes.

9C3* 6C2* 4C2 = 84*15*6 = 7,560 maneras de repartir los juguetes (solo se reparten 7 y quedan
dos juguetes)

Problema:
a) ¿Cuántas maneras hay de que se repartan 14 libros diferentes entre 3 alumnos, si se
pretende que al primer alumno y al segundo les toquen 5 libros a cada uno y al tercero
le toque el resto?,
b) ¿Cuántas maneras hay de que se repartan los libros si se desea dar 5 libros al primer
alumno, 3 al segundo y 2 libros al tercer alumno?

Solución:
a) Por fórmula:
n = 14 ; x1 = 5; x2 = 5; x3 = 4
14P5,5,4 = 14! / 5!5!4! = 21,021 maneras de repartir los libros en grupos de 5, 5 y 4 libros

b) Por combinaciones:
14C5* 9C3* 6C2 = 2,002*84*15 = 2,522,520 maneras de repartir 10 de los 14 libros en grupos de 5,
3 y 2 libros

Problema:
a) ¿Cuántas maneras hay de repartir a 12 alumnos en 4 equipos de 3 personas cada uno
de ellos para que realicen prácticas de laboratorio diferentes?,

102
UNIDAD II / PROBABILIDAD.

b) ¿Cuantas maneras hay de que se repartan los 12 alumnos en 4 equipos de 3 personas

si se va a realizar una misma práctica?

Solución:
a) En este caso al ser prácticas de laboratorio diferentes, es posible resolver el problema por
combinaciones o por la fórmula, dado que se reparten todos los alumnos Por fórmula:
n = 12; x1 = 3 práctica 1; x2 = 3 práctica 2; x3 = 3 práctica 3; x4 = 3 práctica 4
12P3,3,3,3 = 12! / 3!3!3!3! = 369,600 maneras de repartir a los estudiantes en cuatro equipos de 3

personas para realizar prácticas diferentes

b) 12P3,3,3,3 * 1 /4! = 12! / 3!3!3!3! * 1 / 4! = 369,600 / 4! = 15,400 maneras de repartir a los


alumnos en equipos de 3 personas para realizar una misma práctica

Al multiplicar la solución que se da al inciso a, por 1/4! se está quitando el orden de los grupos,
que en este caso no nos interesa.

Ejercicios propuestos:
P1.- Se contrata un servicio de calificación de computadoras para encontrar las tres mejore
marcas de monitores EGA. Se incluirá un total de 10 marcas en el estudio. ¿De cuantas formas
distintas puede el servicio de calificación pero no debe poner los tres en ningún orden?
Solución:
10 C 3 = 120
P2.- ¿cuántas parejas distintas pueden formarse con cinco individuos?
Solución.
5 C 2 = 10

P3.- Con 5 estadistas y 6 economistas quiere formarse un comité de 3 estadistas y 2 economistas.


¿Cuántos comités diferentes pueden formarse si:
a)no se impone ninguna restricción ,
b)dos estadistas determinados deben estar en el comité
c)un economista determinado no debe estar en el comité?
Solución:
a) 150 b) 45 c) 100

P4.- Suponga que necesita reemplazar 5 empaques en un dispositivo que funciona con energía
nuclear. Si tiene una caja con 20 empaques de entre los cuales escoger, ¿cuantas elecciones
diferentes son posibles? Es decir, ¿cuantas muestras distintas de 5 empaques se pueden
seleccionar de los 20 ?

103
UNIDAD II / PROBABILIDAD.

Solución:

20C5 = 15,504

P5.- Se realizo un estudio para examinar la reacción entre la estructura de costos y la propiedades
mecánicas de granos equieje en lingotes solidificados unidireccionalmente ( Metallurgical
Transactions, mayo de 1986 ). Lingotes de aleaciones de cobre se vertieron en uno de tres tipos
de moldes (columnares, mixtos o equieje) con una orientación ya sea transversal o longitudinal.
De cada lingote se tomaron cinco especimenes para pruebas de tensión a distintas distancias
(10, 35, 60, 85 y 100 milímetros ) de la cara de enfriamiento del lingote, y se determino la
resistencia al vencimiento. ¿ Cuantas mediciones de resistencia se obtendrán si el experimento
incluye un lingote para cada combinación de tipo de molde y orientación?
Solución: (3C2)(5C2) = 30

2.4 Probabilidad con técnicas de conteo.

2.4.1 Axiomas.
Axioma 1: para cada suceso a en la clase C P(A) ≥0
Axioma 2: para el suceso cierto o seguro S en la clase C P ( S ) = 1 Axioma 3:
para cualquier numero mutuamente excluyente A 1, B2, ... en la clase C
P ( A1∪ A2∪ ) = p( A1) + p( A2) + ...

En particular , para solo dos sucesos mutuamente excluyentes A 1, A2

P (A1∪A2) = p(A1) + p(A2)

2.4.2 Teoremas.
Teorema 1 . si A1⊂ A2 entonces P (A1) ≤ P( A2) y P( A2 - A1) = P( A2 ) – P (A1)
Teorema 2. para cada suceso A 0 ≤ P ( A) ≤ 1 es decir la probabilidad de un suceso entre 0 y
1.
Teorema 3. P (∅ ) = 0 es decir el suceso imposible tiene probabilidad cero.
Teorema 4. si A ‘ es el complemento de A entonces P(A‘)=1–p(A)
Teorema 5. p(A) = p(A1) + p(A2) + ... + p (A n ); En particular si A = S, el espacio muestral, entonces
p(A1) + p(A2) + ... + p (A n ) = 1
Teorema 6. si A y B son dos sucesos cualesquiera , entonces
P ( A∪ B ) = P(A) + P(B) - P ( A∩B )
Teorema 7. para dos sucesos A y B
P ( A) = P ( A∩B ) + P ( A∩B ‘ )

104
UNIDAD II / PROBABILIDAD.

Teorema 8. si un suceso A debe resultar en uno de los sucesos mutuamente excluyentes A 1 , A2,

...,An entonces P ( A) = P( A∩ A1 ) + P ( A∩ A2)+ …+ P ( A ∩ An )

2.5 Probabilidad condicional.

2.5.1 Dependiente.
Hay ocasiones en que nos interesa alterar nuestra estimación de la probabilidad de un evento
cuando poseemos información adicional que podría afectar el resultado. Esta probabilidad
modificada se denomina probabilidad condicional del evento.

La probabilidad de que un evento B ocurra cuando se sabe que ya ocurrió algún evento A se
llama probabilidad condicional y se denota por P(B ⏐ A ). El símbolo P(B ⏐ A ) por lo general se
lee “ la probabilidad de que ocurra B dado que ocurrió A “ o simplemente “ la probabilidad de B,
dado A”.

Fórmula para la probabilidad condicional

Para determinar la probabilidad condicional de que el evento A ocurra, Dado que ocurra el
evento B, divida la probabilidad de que ocurra tanto A como B entre la probabilidad de que
ocurra B; esto es,

P(AB)= P(A∩ B) P(
)B
donde suponemos que P ( B ) ≠ 0

Sea δ un espacio muestral en donde se ha definido un evento E, donde p(E)>0, si deseamos


determinar la probabilidad de que ocurra un evento A (el que también es definido en el mismo
espacio muestral), dado que E ya ocurrió, entonces deseamos determinar una probabilidad de
tipo condicional, la que se determina como se muestra;

p( A| E ) = p(
A∩ E ) p(
E)
Donde:
p(A⏐E) = probabilidad de que ocurra A dado que E ya ocurrió; p(A∩E) = probabilidad de que
ocurra A y E a un mismo tiempo; p(E) = probabilidad de que ocurra E
Luego;

105
UNIDAD II / PROBABILIDAD.

P
Por tanto:

P( A| E )

Donde:

P( E ) =
⏐A∩E⏐= número de elementos comunes a los eventos A y E
⏐E⏐= número de elementos del evento E
Luego entonces podemos usar cualquiera de las dos fórmulas para calcular la probabilidad
condicional de A dado que E ya ocurrió.

Si la ocurrencia o no de E1 no afecta para nada la probabilidad de ocurrencia de E2 , entonces :


Pr { E2⏐ E1 } = P { E2 }, y diremos que E1 y E2 son sucesos independientes; en caso contrario,
se dirá que son casos dependientes.

Si denotamos por E1 E2 el suceso de que ambos E1 y E2 ocurran, llamado un suceso compuesto,


entonces

Pr {E1 E2 } = Pr {E1 } Pr { E2 ⏐ E1 }

En particular,

Pr {E1 E2 } = Pr {E1 } Pr { E2 }

Problema: La probabilidad de que un vuelo programado normalmente salga a tiempo es P(D) =


0.83; la probabilidad de que llegue a tiempo es P ( A ) 0 0.82; y la probabilidad de que salga y
llegue a tiempo es P ( D ∩ A ) = 0.78. Encuentre la probabilidad de que un avión
a) llegue a tiempo, dado que salió a tiempo y
b) salió a tiempo, dado que llego a tiempo.

Solución:
a) La probabilidad de que un avión llegue a tiempo, dado que salió a tiempo es

P A D( | ) = P D( ∩ A) = 0.78 = 0.94
P D() 0.83
La probabilidad de que un avión saliera a tiempo, dado que llego a tiempo es

106
UNIDAD II / PROBABILIDAD.

P D A( | ) = P D( ∩ A) = 0.78 = 0.95
P A( ) 0.82

Problema: Sean E1 y E2 los sucesos cara en el quinto lanzamiento y cara en el sexto lanzamiento
de una moneda, respectivamente. Entonces E1 y E2 son sucesos
independientes y por lo tanto, la probabilidad de que salga cara en ambos intentos es

Pr {E1 E2 } = Pr {E1 } Pr { E2 } = ½ ( ½) = ¼
Problema: Si las probabilidades de A y B de estar vivos dentro de 20 años son 0.7 y 0.5,
respectivamente, entonces la probabilidad de que ambos lo estén es
(0.7) (0.5) = 0.35

Problema: Una caja contiene 3 bolas blancas y 2 bolas negras. Sea E 1 el suceso “ la primera
bola extraída es negra ” y E2 el suceso “ la segunda bola extraída es negra ”. las bolas extraídas
no se devuelven a la caja E1 y E2 son sucesos dependientes .
Solución:

Pr {E1 E2 } = Pr {E1 } P { E2 } = ( 2/5 )(1 / 4 ) = 1 /10

Sucesos mutuamente excluyentes


Dos o más sucesos se llaman sucesos mutuamente excluyentes si la ocurrencia de cualquiera
de ellos excluye la de los otros. De modo que si E1 y E2 son sucesos mutuamente excluyentes ,
entonces

Pr {E1 E2 } = 0

Si E1 + E2 denota el suceso de que ocurra E1 o bien E2 o ambos a la vez, entonces

Pr (E1 + E2 ) = Pr (E1 ) + Pr ( E2 ) - Pr (E1 E2 )

En particular
Pr (E1 + E2 ) = Pr (E1 ) + Pr ( E2 ) para suceso
Mutuamente excluyentes

Problema: Sea E1 el suceso “ sacar un as de una baraja” y E2 “sacar un rey”. Cual es la


probabilidad de sacar o un as o un rey en un solo ensayo es
Solución:

107
UNIDAD II / PROBABILIDAD.

Pr (E1 ) = 4 / 52 = 1/13
Pr (E2 ) = 4/52 = 1/13
Pr (E1 + E2 ) = 1 / 13 + 1/13 = 2 / 13

Problema: Una bola se extrae aleatoriamente de una caja que contiene 6 bolas rojas, 4 bolas
blancas y 5 bolas azules. Determinar la probabilidad de que sea a) roja, b) blanca, c) azul, d) no
roja, e) roja o azul.
Solución:
a) pr ( roja ) = 6 / ( 6 + 4 + 5 ) = 6 / 15 = 2/5
b) Pr ( blanca = 4 / 15
c) Pr ( azul ) = 5 /15 = 1/3
d) Pr(no roja ) = 1 – Pr(roja) = 1 – 2/5 = 3/5

O bien
Pr ( no roja ) = 4 / 15 + 5 / 15 = 9/15 = 3/5
e) Pr ( roja o azul ) = pr (roja) + Pr ( blanca) = 2/5 + 4 /15 = 2/3

Problema: Sea E1 el suceso “sacar un as ” de una baraja y E 2 “ sacar una espada”. Entonces
E1 y E2 no son sucesos mutuamente excluyentes, porque pueden sacarse el as de espadas.
Luego la probabilidad de sacar un as o una espada o ambos es
Pr (E1 + E2 ) = Pr (E1 ) + Pr ( E2 ) - Pr (E1 E2 ) = 4 /52 + 13/52 – 1 /52 = 16 / 52 = 4 /13

Problema: Un dado honesto se lanza dos veces. Hallar la probabilidad de obtener 4, 5 o 6 en el


primer lanzamiento y 1, 2, 3 o 4 en el segundo lanzamiento.
Solución: E1 = 4, 5 o 6 E2 = 1, 2, 3 o 4

Pr (E1 ∩ E2 ) = Pr (E1 )
Pr ( E2 ⏐ E1 ) = Pr (E1 ) P (E2 ) = (3/6)(4/6) = 1/3

Problema: Se extraen tres bolas sucesivamente de la caja que contiene 6 bolas rojas, 4 bolas
blancas y 5 bolas azules. Hallar la probabilidad de que se extraigan en el orden roja, blanca y
azul si las bolas , a) se remplazan, b) no se remplazan.
Solución:

a) pr ( se remplazan ) = [6 / ( 6 + 4 + 5 ) ] [4 / ( 6 + 4 + 5 )] [5 / ( 6 + 4 + 5 ) ] = 8/225
b) Pr ( no se remplazan) = [6 / ( 6 + 4 + 5 ) ] [4 / ( 5 + 4 + 5 )] [5 / ( 5 + 3 + 5 ) ] = 4/91

108
UNIDAD II / PROBABILIDAD.

Problema: Hallar la probabilidad de obtener al menos un 4 en dos lanzamientos de un dado


honrado.

Pr ( al menos un 4 en dos lanzamientos) = Pr (E1 ) + Pr ( E2 ) - Pr (E1 ∩ E2 ) = Pr


(E1 ) + Pr ( E2 ) - Pr (E1) Pr(E2 ) = 1/6+1/6 - (1/6)(1/6) = 11/36

Problema: Se lanza al aire dos dados normales, si la suma de los números que aparecen es de
por lo menos siete,
a) determine la probabilidad de que en el segundo dado aparezca el número cuatro,
b) Determine la probabilidad de que ambos números sean pares,
c) Determine la probabilidad de que en el primer dado aparezca el número dos.

Solución:
El espacio muestral es el mismo que cuando se lanza un dado dos veces y se muestra a
continuación;
(1,1) (2,1) (3,1) (4,1) (5,1) (6,1)
(1,2) (2,2) (3,2) (4,2) (5,2) (6,2) δ =
(1,3) (2,3) (3,3) (4,3) (5,3) (6,3)
(1,4) (2,4) (3,4) (4,4) (5,4) (6,4)
(1,5) (2,5) (3,5) (4,5) (5,5) (6,5) (1,6)
(2,6) (3,6) (4,6) (5,6) (6,6)

a) Para calcular una probabilidad condicional es necesario definir los eventos A y E, siendo
estos,
A = evento de que en el segundo dado aparezca el número cuatro,
E = evento de que la suma de los números que aparecen sea de por lo menos siete, (que es que
es el evento que está condicionando)

E = {21 elementos, los que suman siete o más}

⎧(6,1) (5,2) (6,2)(4,3) (5,3) (6,3) (3,4) (4,4) (5,4) (6,4) ⎫


E =⎨ ⎬

⎩(2,5) (3,5) (4,5) (5,5) (6,5) (1,6) (2,6) (3,6) (4,6) (5,6) (6,6)⎭

A = {6 elementos, los que en el segundo dado aparece el cuatro}


A = {(1,4) (2,4) (3,4) (4,4) (5,4) (6,4)}

109
UNIDAD II / PROBABILIDAD.

Luego,
A∩E = {(3,4) (4,4) (5,4) (6,4)}, ⏐A∩E⏐= 4 elementos

Por tanto;
p(A⏐E) = ⏐A∩E⏐/ ⏐E⏐= 4/21 = 0.19048

b) E = evento de que la suma de los números que aparecen sea de por lo menos siete ⎧(6,1)

(5,2) (6,2)(4,3) (5,3) (6,3)(3,4) (4,4) (5,4) (6,4) ⎫


E =⎨ ⎬

⎩(2,5) (3,5) (4,5) (5,5) (6,5)(1,6) (2,6) (3,6) (4,6) (5,6) (6,6)⎭

A = evento de que ambos números sean pares


A = (2,2) (4,2) (6,2) (2,4) (4,4) (6,4) (2,6) (4,6) (6,6)

A∩E = (6,2) (4,4) (6,4) (2,6) (4,6) (6,6) ⏐A∩E⏐=6 elementos p(A⏐E)
= ⏐A∩E⏐/ ⏐E⏐ = 6/ 21 = 0.28571

c) E = evento de que la suma de los números que aparecen sea de por lo menos siete ⎧(6,1)

(5,2) (6,2)(4,3) (5,3) (6,3) (3,4) (4,4) (5,4) (6,4) ⎫


E =⎨ ⎬

⎩(2,5) (3,5) (4,5) (5,5) (6,5) (1,6) (2,6) (3,6) (4,6) (5,6) (6,6)⎭

A = evento de que en el primer dado aparezca el número dos


A = (2,1) (2,2) (2,3) (2,4) (2,5) (2,6)

A∩E = {(2,5)}, ⏐A∩E⏐= 1 elemento


P(A⏐E) = ⏐A∩E⏐/⏐E⏐ = 1/21 = 0.04762

Problema: Se seleccionan al azar dos números de entre los números del 1 al 9, si la suma de
los números que aparecen es par,
a) Determine la probabilidad de que ambos números sean pares,
b) Determine la probabilidad de que ambos números sean impares.

110
UNIDAD II / PROBABILIDAD.

Solución:
δ = {9C2 = 36 maneras de seleccionar dos números de entre nueve que se tienen}
(1,2)
(1,3) (2,3) (1,4)
(2,4) (3,4) δ = (1,5) (2,5)
(3,5) (4,5)
(1,6) (2,6) (3,6) (4,6) (5,6)
(1,7) (2,7) (3,7) (4,7) (5,7) (6,7)
(1,8) (2,8) (3,8) (4,8) (5,8) (6,8) (7,8)
(1,9) (2,9) (3,9) (4,9) (5,9) (6,9) (7,9) (8,9)
a) E = evento de que la suma de los números que se seleccionan sea par
E = (1,3) (2,4) (1,5) (3,5) (2,6) (4,6) (1,3) (3,7) (5,7) (2,8) (4,8) (6,8) (1,9) (3,9) (5,9) (7,9) E =
{16 elementos }

A = evento de que ambos números Sean pares


A = (2,4) (2,6) (4,6)(2,8) (4,8) (6,8)

A = {6 elementos}
A∩E = (2,4) (2,6) (4,6) (2,8) (4,8) (6,8)

⏐A∩E⏐ = 6 elementos ,
p(A⏐E) = ⏐A∩E⏐/ ⏐E⏐= 6/16 = 0.375

b) E = evento de que la suma de los números seleccionados es par


E = (1,3) (2,4) (1,5) (3,5) (2,6) (4,6) (1,3) (3,7) (5,7) (2,8) (4,8) (6,8) (1,9) (3,9) (5,9) (7,9)

A = evento de que ambos números sean impares


A = (1,3) (1,5) (3,5) (1,7) (3,7) (5,7) (1,9) (3,9) (5,9) (7,9)
A = {10 elementos},
A∩E = (1,3) (1,5) (3,5) (1,7) (3,7) (5,7) (1,9) (3,9) (5,9) (7,9)
⏐A∩E⏐= 10 elementos; p(A⏐E)= ⏐A∩E⏐/ ⏐E⏐= 10/16 = 0.625

Problema: Dada la siguiente tabla referente a la producción de flechas para camión de carga
pesada; se inspeccionan 200 flechas del tipo A y B, 300 del tipo C y 400 del tipo D, a continuación
se presentan los resultados obtenidos en la inspección;

111
UNIDAD II / PROBABILIDAD.

Tipo flecha
DEFECTO A B C D TOTAL

I 54 23 40 15 132

II 28 12 14 5 59

S - DEF 118 165 246 380 909

TOTAL 200 200 300 400 1100

a) Si se selecciona una flecha al azar y resulta que es una flecha del tipo B, ¿cuál es la
probabilidad de que no tenga defectos,
b) Si la flecha seleccionada es del tipo C, ¿cuál es la probabilidad de que tenga defectos
del tipo II?,
c) Si la flecha seleccionada tiene defectos del tipo I, ¿cuál es la probabilidad de que sea
del tipo A,
d) ¿cuál es la probabilidad de que una flecha no tenga defectos?,
e) ¿cuál es la probabilidad de que una flecha tenga defectos?
Solución:
a) Definiremos los eventos;
E = evento de que la flecha seleccionada sea del tipo B = {200 elementos o flechas}
A = evento de que la flecha seleccionada no tenga defectos = {909 flechas o elementos}
A∩E = {165 elementos del tipo B y que no tienen defectos} p(A⏐E) = ⏐A∩E⏐/⏐E⏐= 165/200
= 0.825

b) E = evento de que la flecha sea del tipo C = {300 flechas}


A = evento de que la flecha tenga defectos del tipo II ={59 flechas} A∩E =
{14 flechas del tipo C y que tienen defectos del II } ;
p(A⏐E) =⏐A∩E⏐/⏐E⏐= 14/300 = 0.04667

c) E = evento de que la flecha tenga defectos del tipo I = {132 flechas}


A = evento de que la flecha sea del tipo A = {200 flechas} A∩E
= {54 flechas con defectos del tipo I y del tipo A} p(A⏐E) =
⏐A∩E⏐/⏐E⏐= 54 / 132 = 0.40901

d) En este caso se trata de una probabilidad simple, ya que no hay un evento que esté
condicionando al evento del cual se desea determinar su probabilidad

112
UNIDAD II / PROBABILIDAD.

D = evento de que una flecha no tenga defectos = {909 flechas} δ


= {1100 flechas} p(D) = 909/1100 = 0.82636

e) F = evento de que una flecha tenga defectos = {132 + 59 = 191 flechas} δ =


{1100 flechas} p(F) = 191 / 1100 = 0.17364

Problema: Según las estadísticas, la probabilidad de que un auto que llega a cierta gasolinera
cargue gasolina es de 0.79, mientras que la probabilidad de que ponga aceite al motor es de
0.11 y la probabilidad de que ponga gasolina y aceite al motor es de 0.06,
a) Sí un auto carga gasolina, ¿cuál es la probabilidad de que ponga aceite?,
b) Sí un auto pone aceite al motor, ¿cuál es la probabilidad de que ponga gasolina?
Solución:

a) E = evento de que un auto cargue gasolina p(E) = 0.79


A = evento de que un auto ponga aceite al motor P(A) = 0.11 A∩E =
evento de que un auto ponga gasolina y aceite p(A∩E) = 0.07 p(A⏐E) =
p(A∩E)/p(E) = 0.07/ 0.79 = 0.0881

b) E = evento de que un auto ponga aceite al motor P(E) = 0.11


A = evento de que un auto ponga gasolina P(A) = 0.79
A∩E = evento de que un auto ponga aceite al motor y ponga gasolina P(A∩E) = 0.07 P(A⏐E) =
p(A∩E)/ p(E) = 0.07/0.11 = 0.63636

Problema: La probabilidad de que un auto de carreras cargue gasolina en cierto circuito en la


primera media hora de recorrido es de 0.58, la probabilidad de que cambie de neumáticos en
esa primera media hora de recorrido es de 0.16, la probabilidad de que cargue gasolina y cambie
de neumáticos en la primera media hora de recorrido es de 0.05,
a) ¿Cuál es la probabilidad de que cargue gasolina o cambie de neumáticos en la primera
media hora de recorrido?,
b) ¿cuál es la probabilidad de que no cargue combustible y de neumáticos en la primera
media hora de recorrido,
c) Si el auto cambia de neumáticos en la primera media hora de recorrido, ¿cuál es la
probabilidad de que cargue combustible también?,
d) Si el auto carga combustible en la primera media hora de recorrido, ¿cuál es la
probabilidad de que cambie de neumáticos también?

113
UNIDAD II / PROBABILIDAD.

Solución:
a) A = evento de que cargue gasolina en la primera media hora de recorrido P(A) = 0.58 B =
evento de que cambie de neumáticos en la primera hora de recorrido P(B) = 0.16 A∩B =
evento de que cargue combustible y cambie de neumáticos en la primera hora de recorrido
P(A∩B) = 0.05
P(cargue gasolina o cambie de neumáticos) = p(A∪B) = p(A) + p(B) – p(A∩B)
P(cargue gasolina o cambie de neumáticos) = 0.58 + 0.16 – 0.05 = 0.69

b) p( no cargue combustible y no cambie de neumáticos) = 1 – p(A∪B) = 1 – 0.69 = 0.31

c) E = evento de que el auto cambie de neumáticos en la primera media hora de recorrido A =


evento de que el auto cargue combustible en la primera media hora de recorrido p(A⏐E) =
p(A∩E)/ p(E) = 0.05/0.16 = 0.3125

d) E = evento de que el auto cargue combustible en la primera media hora de recorrido A = es


el evento de que el auto cambie de neumáticos en la primera media hora de recorrido
p(A⏐E) = p(A∩E)/p(E) = 0.05/0.58 = 0.08621

2.5.2 independientes.
Se dice que un evento B es independiente de un evento A, si p(B⏐A) = p(B), esto quiere decir
que la probabilidad de que ocurra B no es afectada por la ocurrencia del evento A, la expresión
anterior se puede sustituir en el teorema de la multiplicación para probabilidad condicional,
p(A∩B) = p(A)p(B⏐A) = p(A)p(B) Luego,

p(A∩B) = p(A)p(B)
Concepto de independencia
Si la expresión anterior se cumple, podemos decir que los eventos A y B son independientes.

Problema: Pruebas repetidas e independientes.


Sea δ el espacio muestral del lanzamiento de una moneda tres veces, δ =
{AAA, AAS, ASA, ASS, SAS, SAA, SSA, SSS}

p(AAA) = p(A1∩A2∩A3) = p(A1)p(A2⏐A1)p(A3⏐A1∩A2) = p(A)p(A)p(A) =1/2*1/2*1/2 = 1/8


p(AAS) = p(A)p(A)p(S) =1/2*1/2*1/2 =1/8 p(ASA) = p(A)p(S)p(A) = 1/2*1/2*1/2 = 1/8 etc,
etc.

114
UNIDAD II / PROBABILIDAD.

Con lo anterior se comprueba que efectivamente la probabilidad de cada uno de los elementos
del espacio muestral descrito anteriormente es de 1/8 como se consideraba cuando se
calculaban probabilidades para un espacio finito equiprobables.

Problema: Un equipo de fútbol soccer tiene una probabilidad de ganar de 0.6, una probabilidad
de empatar de 0.3 y una probabilidad de perder de 0.1, si este equipo participa en dos juegos la
semana próxima, determine la probabilidad de que; a. Gane el segundo juego, b. Gane ambos
juegos, c. Gane uno de los juegos, d. Gane el primer juego y empate el segundo.
El espacio muestral sería:

δ = {GG, GE, GP, EG, EE, EP, PG, PE, PP}

a) p(gane el segundo juego) = p(GG, EG, PG) = (0.6)(0.6) + (0.3)(0.6) + (0.1)(0.6)


= 0.36 + 0.18 + 0.06 = 0.6

b) p(gane ambos juegos) = p(GG) = (0.6)(0.6) = 0.36

c) p(gane uno de los juegos) = p(GE, GP, EG, PG)


= (0.6)(0.3) + (0.6)(0.1) + (0.3)(0.6) + (0.1)(0.6) = 0.18 + 0.06 + 0.18 + 0.06 = 0.48

d) p(gane el primero y empate el segundo) = p(GE) = (0.6)(0.3) = 0.18

Problema: Un boxeador gana 8 de cada 10 peleas en las que compite, si este boxeador
participará en tres peleas en los próximos seis meses, determine la probabilidad de que;
a) Gane dos de las peleas
b) Si gana dos de las peleas, ¿cuál es la probabilidad de que sean la primera y tercera
peleas?,
c) Gane la segunda pelea.

Solución: δ={GGG. GGP, GPG, GPP, PGG, PGP, PPG, PPP}


a) p(gane dos de las peleas) = p(GGP, GPG, PGG)
= (0.8)(0.8)(0.2) + (0.8)(0.2)(0.8) + (0.2)(0.8)(0.8) = 0.128 + 0.128 + 0.128 = 0.384

b) E = evento de que gane dos peleas.

115
UNIDAD II / PROBABILIDAD.

E ={ GGP, GPG, PGG }, p(E) = 0.348


A = evento de que gane la primera y la tercer pelea
A={GGG, GPG} A∩B = {GPG}, p(A∩B) = (0.8)(0.2)(0.8) =0.128
P(A⏐E) = p(A∩E) / p(E) = 0.348/0.128= 0.3333

c) p(gane la segunda pelea) = p(GGG, GGP, PGG, PGP)


= (0.8)(0.8)(0.8) + (0.8)(0.8)(0.2) + (0.2)(0.8)(0.8) + (0.2)(0.8)(0.2)
= 0.512 + 0.128 + 0.128 + 0.032 = 0.8

Problema: Tres hombres tiran a un blanco, A tiene 1/3 de posibilidades de acertar al blanco, B
tiene 1/2 de posibilidades de acertar y C tiene 1/4 de posibilidades de pegar al blanco, si cada
uno de ellos hace un solo disparo, determine la probabilidad de que;
a) Solo uno de ellos acierte al blanco,
b) Si solo uno de ellos acierta al blanco, ¿cuál es la probabilidad de que acierte A?,
c) Determine la probabilidad de que ninguno acierte al blanco.

Solución:
Haciendo uso de un diagrama de árbol se obtiene el siguiente espacio muestral; δ
= {ABC, ABC`, AB`C, AB`C`, A`BC, A`BC`, A`B`C, A`B`C`}

donde:
A = acierta A, A`= no acierta A, B = acierta B, B`= no acierta B, etc., etc.
a) p(solo uno de ellos acierte al blanco)
= p(AB`C`, A`BC`, A`B`C) = 1/3*1/2*3/4 + 2/3*1/2*3/4 + 2/3*1/2*1/4
= 3/24 + 6/24 + 2/24 = 11/24 = 0.45833

b) E = evento de que solo uno de ellos acierte al blanco


E = {AB`C`, A`BC`, A`B`C}; p(E) =11/24
A = evento de que A acierte al blanco
A = { ABC, ABC`, AB`C, AB`C`} A∩E =
{ AB`C`} = 1/3*1/2*3/4 = 3/24 p(A⏐E)=
p(A∩E)/p(E) = (3/24)/(11/24)
= 3/11 = 0.27273

c) p(ninguno acierte al blanco) = p(A´B´C´) = 2/3*1/2*3/4 = 6/24 = 0.25

116
UNIDAD II / PROBABILIDAD.

2.6. Eventos Independientes

2.6.1 Regla de Bayes.


Teorema de la Probabilidad Total

Sea un espacio probabilístico (Ω, A, P) y {A }⊂A una partición de sucesos de Ω.


n

Es decir,

An =Ω y Ai Aj =φ para toda i ≠ j

Entonces, para todo suceso B ⊂A es P B( ) =∑P B A(| n )*P A( n ).


n

Resultado que se puede parafrasear diciendo que la probabilidad de un suceso que se puede
dar de varias formas es igual a la suma de los productos de las probabilidades de éste en cada
una de esas formas, P(B / A n), por las probabilidades de que se den estas formas, P(A n).

Problema: Una población está formada por tres grupos étnicos: A (un 30%), B (un 10%) y C (un
6O%). Además se sabe que el porcentaje de personas con ojos claros en cada una de estas
poblaciones es, respectivamente, del 20%, 40% y 5%. Por el teorema de la probabilidad total,
la probabilidad de que un individuo elegido al azar de esta población tenga ojos claros es:

P(ojos claros) = P(A) ·P(ojos claros/A) + P(B) · P(ojos claros/B) + P(C) · P(0jos claros/C )
= 0'3 · 0'2 + 0'1 · 0'4 + 0'6 · 0'05 = 0'13.
Teorema de Bayes
El siguiente teorema es un resultado con una gran carga filosófica detrás, el cual mide el cambio
que se va produciendo en las probabilidades de los sucesos a medida que vamos haciendo
observaciones. Paradójicamente a su importancia, su demostración no es más que la aplicación
de la definición de probabilidad condicionada seguida de la aplicación del teorema de la
probabilidad total.

Teorema:

117
UNIDAD II / PROBABILIDAD.

Sea un espacio probabilístico (Ω, A, P) y {A }⊂A


n una partición de sucesos de Ω y B∈A un

suceso con probabilidad positiva. Entonces, para todo suceso Ai es

P A P B A( i ) ( | i
)
P A B( i |) =

∑P A P B A( n ) (| n )
n

Este teorema tiene una interpretación intuitiva muy interesante. Si las cosas que pueden ocurrir
las tenemos clasificadas en los sucesos Ai de los cuales conocemos sus probabilidaes P(Ai),
denominadas a priori, y se observa un suceso B, la fórmula de Bayes nos da las probabilidades
a posteriori de los sucesos A<SUB<I< sub>, ajustadas o modificadas por B.

Problema: Supongamos que tenemos una urna delante de nosotros de la cual solo conocemos
que o es la urna A1 con 3 bolas blancas y 1 negra, o es la urna A2 con 3 bolas negras y 1 blanca.
Con objeto de obtener más información acerca de cual urna tenemos delante, realizamos un
experimento consistente en extraer una bola de la urna desconocida. Si suponemos que la bola
extraida resultó blanca 1B y a priori ninguna de las dos urnas es más verosímil que la otra, P(A1)
= P(A2) = 1/2, entonces la fórmula de Bayes nos dice que las probabilidades a posteriori de cada
urna son

P(A1/1B) =3/4 y P(A2/1B) =1/4

Habiendo alterado de esta forma nuestra creencia sobre la urna que tenemos delante: Antes
creíamos que eran equiprobables y ahora creemos que es tres veces más probable que la urna
desconocida sea la A1.

Pero, ¿qué ocurrirá si extraemos otra bola?. Lógicamente, en la fórmula de Bayes deberemos
tomar ahora como probabilidades a priori las calculadas, 3/4 y 1/4, pues éstas son nuestras
creencias sobre la composición de la urna, antes de volver a realizar el experimento.

Si suponemos que la bola no fue reemplazada (se deja para el lector el caso de
reemplazamiento), y sale una bola negra 2N, la fórmula de Bayes nos devolvería a la
incertidumbre inicial, ya que sería

118
UNIDAD II / PROBABILIDAD.

P(A1/2N) =1/2 y P(A2/2N) =1/2

Si hubiera salido blanca, la fórmula de Bayes, al igual que la lógica, también sería concluyente,

P(A1/2B) =1 y P(A2/2B) =0

La utilización de la fórmula de Bayes, es decir, la utilización de distribuciones de probabilidad a


posteriori como modelos en la estimación de parámetros, al recoger ésta tanto la información
muestral, P(B/Ai), como la información a priori sobre ellos, P(Ai), constituye una filosofía
inferencial en gran desarrollo en los últimos años, la cual, no obstante, tiene el inconveniente (o
según ellos la ventaja) de depender de la información a priori, la cual en muchas ocasiones es
subjetiva y por tanto, pudiendo ser diferente de un investigador a otro.

Uno de los primeros intentos por utilizar la probabilidad para hacer inferencias es la base de una
rama de la metodología estadística llamada métodos estadísticos bayesianos.

Con referencia a la figura siguiente podemos escribir A como la unión de los dos eventos
mutuamente excluyentes E ∩ A y E’ ∩ A.

De aquí :
A = ( E ∩ A ) ∪ ( E’ ∩ A. ),

Y por el corolario i del teorema y además podemos escribir

P ( A ) = P [ (E ∩ A ) ∪ P ( E’ ∩ A ) ] = P (E ∩ A ) + P ( E’ ∩ A ) = P
(E ) P (A ⏐ E) + P ( E’ ) P ( A⏐E’ ) .

Problema:
P ( E) = 600/900 = 2/3 ; P (A ⏐ E) = 36/600 = 3/50
P ( E ‘ ) = 1/3 P ( A⏐E’ ) = 12/300 = 1/25
P ( A ) = (2/3)(3/50) + (1/3)(1/25) = 4/75

Una generalización de la ilustración precedente al caso donde el espacio muestral se parte en k


subconjuntos la cubre el siguiente teorema, que algunas veces se denomina teorema de
probabilidad total o regla de eliminación

119
UNIDAD II / PROBABILIDAD.

Teorema 2.6.1.
Si los eventos B 1 , B 2 , ..., B k constituyen una partición del espacio muestral S tal que P(B i ) ≠
0
para i = 1, 2, ..., k, , entonces para cualquier evento A de S,
k k

P(A) =∑P(Bi ∩ A) =∑P(Bi )(A | Bi )


i=1 i=1

Problema: En cierta planta de montaje, tres maquinas, B 1, B2 y B3 , montan 30% , 45 % y 25 %


de los productos, respectivamente. Se sabe de la experiencia pasada que 2% , 3% y 2% de los
productos ensamblados por cada maquina, respectivamente, tiene defectos. Ahora , suponga
que se selecciona de forma aleatoria un producto terminado. ¿ cual es la probabilidad de que
este defectuoso?

Solución:
A = el producto esta defectuoso
B 1: el producto esta ensamblado por la maquina B 1 B2:
el producto esta ensamblado por la maquina B2 B3: el
producto esta ensamblado por la maquina B3

Al aplicar la regla de eliminación, podemos escribir

P ( A ) = P (B 1 ) P (A ⏐ B 1) + P (B 2 ) P (A ⏐ B 2) + P (B 3 ) P (A ⏐ B 3)

P (B 1 ) P (A ⏐ B 1) = (0.3) (0.02) = 0.006; P (B 2 ) P (A ⏐ B 2) = (0.45)(0.03) = 0.0135 P


(B 3 ) P (A ⏐ B 3) = (0.25)(0.02) = 0.005; P ( A ) = 0.006 + 0.0135 + 0.005 = 0.0245 ¿Cuál
es la probabilidad de que este producto fuera hecho por la maquina B i ?
Preguntas de este tipo se puede contestar mediante la regla de bayes

120
UNIDAD II / PROBABILIDAD.

Problema: con referencia al ejemplo anterior, si se elige al azar un producto y se encuentra que
es defectuoso, ¿ cual es la probabilidad de que este ensamblado por la maquina B 3 ?

Solución:

P B P A B( 3) ( | 3)
P B( 3 | A) =
P(B P A B1) ( | 1)+ P B P A B( 2) ( | 2)+ P B P A B( 3) (
| 3)
y después sustituir las probabilidades calculadas en el ejemplo anterior , tenemos:

0.005 0.005 10
P B( 3 | A) = = =
0.006 + 0.0135+ 0.005 0.0245 49

En vista del hecho de que se selecciono un producto defectuoso, este resultado sugiere que
probablemente no fue hecho con la maquina B 3.

Problema: Tres máquinas denominadas A, B y C, producen un 43%, 26% y 31% de la


producción total de una empresa respectivamente, se ha detectado que un 8%, 2% y 1.6% del
producto manufacturado por estas máquinas es defectuoso,
a) Se selecciona un producto al azar y se encuentra que es defectuoso, ¿cuál es la
probabilidad de que el producto haya sido fabricado en la máquina B?,
b) Si el producto seleccionado resulta que no es defectuoso, ¿cuál es la probabilidad de
que haya sido fabricado en la máquina C?

Solución:

a) Definiremos los eventos;

121
UNIDAD II / PROBABILIDAD.

D = evento de que el producto seleccionado sea defectuoso (evento que condiciona); A = evento
de que el producto sea fabricado en la máquina A; B = evento de que el producto sea fabricado
por la máquina B; C = evento de que el producto sea fabricado por la máquina C

P B P D B( ) ( | )
P B D( | )=
P A P D A( ) ( |)+ P B P D B( ) ( |)+ P C P D C( ) ( | )

0.26(0.02) 0.0052
P B D( | ) = = = 0.116697 0.43(0.08)+0.26(0.02)+0.31(0.016) 0.04456

b) ND = evento de que el producto seleccionado no sea defectuoso (evento que condiciona) A


= evento de que el producto sea fabricado en la máquina A; B = evento de que el producto sea
fabricado por la máquina B; C = evento de que el producto sea fabricado por la máquina C.

P C P ND C( ) ( | )
P C ND( | )=

P A P ND A( ) ( |)+ P B P ND B( ) ( |)+ P C P ND C( ) ( |
)

0.31(0.984) 0.30504
P B D( | )= = = 0.31927
0.43(0.92)+0.26(0.98)+0.31(0.984) 0.95544

Problema: Una empresa recibe visitantes en sus instalaciones y los hospeda en cualquiera de
tres hoteles de la ciudad; Palacio del Sol, Sicomoros o Fiesta Inn, en una proporción de
18.5%, 32% y 49.5% respectivamente, de los cuales se ha tenido información de que se les ha
dado un mal servicio en un 2.8%, 1% y 4% respectivamente,
a) Si se selecciona a un visitante al azar ¿cuál es la probabilidad de que no se le haya
dado un mal servicio?
b) Si se selecciona a un visitante al azar y se encuentra que el no se quejó del servicio
prestado, ¿cuál es la probabilidad de que se haya hospedado en el
Palacio del Sol?,

122
UNIDAD II / PROBABILIDAD.

c) Si el visitante seleccionado se quejó del servicio prestado, ¿cuál es la probabilidad de


que se haya hospedado en e hotel Fiesta Inn?

Solución: Haciendo uso de un diagrama de árbol;

a) NQ = evento de que un visitante no se queje del servicio; PS = evento de que un visitante


haya sido hospedado en el hotel Palacio del Sol; S = evento de que un visitante haya sido
hospedado en el hotel Sicómoro; FI = evento de que un visitante haya sido hospedado en
el hotel Fiesta Inn

P(NQ) = P PS P NQ PS( )( | )+ P S P NQ S( ) ( | ) + P FI P NQ
FI( )( | )

P NQ( ) = 0.185(0.972)+0.32(0.99)+0.495(0.96) = 0.97182

b) NQ = evento de que un visitante no se queje del servicio; PS = evento de que un visitante


haya sido hospedado en el hotel Palacio del Sol; S = evento de que un visitante haya sido
hospedado en el hotel Sicomoro; FI = evento de que un visitante haya sido hospedado en el
hotel Fiesta Inn

0.185(0.972) 0.17982
P PS NQ( | )= = =
0.1850342
0.185(0.972)+0.32(0.99) +0.495(0.96) 0.97182

c) Q = evento de que un visitante se queje del servicio; FI = evento de que un visitante haya sido
hospedado en el hotel Fiesta Inn

123
UNIDAD II / PROBABILIDAD.

0.495(0.04) 0.0198
P FI Q( | )= = = 0.7026
0.185(0.028)+0.32(0.01)+0.495(0.04) 0.0.02818

124
UNIDAD 3

FUNCIONES Y
DISTRIBUCIONES MUESTRALES.

Objetivo:

Establecerá las distribuciones de


probabilidad, basándose en datos

de situaciones reales o simuladas


que impliquen eventos aleatorios.

Centrará su estudio en las


distribuciones Binomial,

Hipergeométrica, Poisson,

Normal, TStudent, chi-cuadrada y


f de Fisher para su aplicación.
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

3.1 Función de probabilidad.

3.1.1 Variables aleatorias discretas.


La estadística se ocupa de realizar inferencias acerca de poblaciones y sus características. Se
lleva a cabo experimentos cuyos resultados se encuentran sujetos al azar. Por ejemplo, el
espacio muestral que da una descripción detallada de cada posible resultado cuando se prueban
tres componentes electrónicos se puede escribir como:
S = {NNN, NND, NDN, DNN, NDD, DND, DDN, DDD}

Donde N denota “no defectuoso” y D denota “defectuoso”. Naturalmente, estamos interesados


en el número de defectuosos que ocurren. De esta forma a cada punto muestral se le asignara
un valor numérico de 0, 1, 2, o 3. Estos resultados son, por supuesto, cantidades aleatorias
determinadas por el resultado del experimento. Se puede ver como valores que toma la variable
aleatoria X, el número de artículos defectuosos cuando se prueban tres componentes
electrónicos.

Definición
Una variable aleatoria es una función que asocia un numero real con cada elemento del espacio
muestral.

Ejemplo: supóngase que se lanza una moneda dos veces de tal forma que el espacio muestral es
S = {SS, SA, AS, AA }.

Represéntese por X el número de sol que puede resultar.


Punto muestral SS SA AS AA

X 2 1 1 0

Ejemplo: se sacan dos bolas de manera sucesiva sin reemplazo de una urna que contiene cuatro
bolas rojas y tres negras. Los posibles resultados y los valores x de la variable aleatoria. x el
numero de bolas rojas, son

Punto muestral RR RB BR BB

126
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

X 2 1 1 0

Definición
Si un espacio muestral contiene un numero finito de posibilidades o una serie interminable con
tantos elementos como números enteros existen, se llama espacio muestral discreto.

3.1.2 Variables aleatorias continuas.


Una variable aleatoria continua tiene una probabilidad cero de tomar exactamente cualquiera de
sus valores. En consecuencia, su distribución de probabilidad no se puede dar en forma tabular.
Consideremos una variable aleatoria cuyos valores son las alturas de toda la gente mayor de 21
años de edad. Entre cualesquiera dos valores, digamos 163.5 y 164.5 centímetros, o incluso
163.99 y 164.01 centímetros, hay un número infinito de alturas unas de las cuales es 164
centímetros. Tratamos ahora como un intervalo en lugar de un valor puntual de nuestra variable
aleatoria. Trataremos el cálculo de probabilidades para varios intervalos de variables aleatorias
continuas como:

P a x b( < < ) , P W c( > ),


Nótese que cuando x es continua,

P(a<x≤b)=P(a<X <b)+P(X =b)=P(a<x<b)


Es decir no importa si incluimos o no un extremo del intervalo. Esto no es cierto, sin embargo,
cuando X es discreta. Aunque la distribución de probabilidad de variable continua no se puede
representar en forma tabular, se puede establecer como una formula. Dicha fórmula
necesariamente será función de los valores numéricos de la variable continua f(x) por lo general
se llama función de densidad de probabilidad o simplemente función de densidad de X.
Definición
Si un espacio muestral contiene un número infinito de posibilidades igual al número de puntos en
un segmento de línea, se llama espacio muestral continuo.

3.2 Distribución Binomial.

3.2.1 Conceptos de ensayos de Bernoulli.


Binomial. Es la que maneja la distribución de la probabilidad de obtener cierta cantidad de éxitos
al realizar una cantidad de experimentos con probabilidad de éxito constante y con ensayos
independientes

127
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

Las características de esta distribución son:


a) En los experimentos que tienen este tipo de distribución, siempre se esperan dos tipos de
resultados, ejem. Defectuoso, no defectuoso, pasa, no pasa, etc, etc., denominados
arbitrariamente “éxito” (que es lo que se espera que ocurra) o
“fracaso” (lo contrario del éxito).
b) Las probabilidades asociadas a cada uno de estos resultados son constantes, es decir no
cambian.
c) Cada uno de los ensayos o repeticiones del experimento son independientes entre sí.
d) El número de ensayos o repeticiones del experimento (n) es constante.

La distribución Binomial o de Bernoulli


Consideremos los llamados ensayos Bernoulli, éstos son aquellos experimentos cuyo
resultado es uno de dos posibles y mutuamente excluyentes, a los que se denominarán éxito y
fracaso.

Entonces se tiene lo que se denomina experimento Binomial, donde el número de ensayos se


denota con n, la probabilidad de éxito con p y la de fracaso con q. Hay que notar que las
probabilidades de éxito y de fracaso están relacionadas de la siguiente manera: p + q =1.

La distribución de probabilidad Binomial


La distribución de probabilidad para una variable aleatoria Binomial esta dada por

⎛n⎞
P(X = x) = p =
⎜⎜ ⎟⎟ xq n−x n! p xqn−x x = 0,1,2,...,n

⎜ x⎟ ⎠ x!(n − x)!

Donde:
p = probabilidad de éxito en una sola prueba; q = 1 – p (probabilidad de fracaso)
n = número de pruebas; x = numero de éxitos en n pruebas. La media y la varianza de la variable
Binomial son, respectivamente, μ= np σ2 =npq

Problema: Hallar la probabilidad de que al lanzar una moneda tres veces resulten (a) tres sol; (b)
dos águilas y un sol; (c) al menos un sol ; ( d) no más de una águila.
Solución:

128
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

Puede ocurrir 2 posibilidades (sol o águila ) por cada lanzamiento hay un total de ( 2)
( 2) (2) = 8 resultados posibles.
S = { SSS, SSA, SAS, ASS, SAA, ASA, AAS, AAA}

P(caiga un sol en una sola tirada) = p = ½


P(no caiga sol en una sola tirada) = q = 1 – p = ½

(a) p( tres sol ) n=3yx=3 n


–x=3–3=0

⎛ 1⎞
dbinom 3 3 ⎜,, ⎟ = 0.125
⎝ 2⎠

(b) p ( dos águilas y un sol ) n


=3;x=2;n–x=3–2=1

⎛ 1⎞
dbinom 2 3 ⎜,, ⎟ = 0.375
⎝ 2⎠

( c ) p (al menos un sol ) = p ( 1 , 2 , ó 3 sol )


o bien = 1 – p (ningún sol ) n=3;
x = 0; n – x = 3 – 0 = 3

⎛ 1⎞
1 − dbinom 0 3 ⎜,, ⎟ = 0.875
⎝ 2⎠

(e) p(no más de una águila ) = p( 0 águila ó 1 águila) = p( 0 águila) +p(1 águila )
para 0 águila : n = 3 ; x = 0 ; n – x = 3 – 0 = 3 para 1 águila : n=3;x=1;n–
x=3–1=2

⎛ 1⎞ ⎛ 1⎞
dbinom 0 3 ⎜,, ⎟ + dbinom 1 3 ⎜ , , ⎟ = 0.5
⎝ 2⎠ ⎝ 2⎠

129
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

Problema: La probabilidad de que cierta clase de componente sobreviva a una prueba de choque
dada es ¾. Encuentre la probabilidad de que sobrevivan exactamente dos de los siguientes
cuatro componentes que se prueben.
Solución:
p = ¾; n = 4 ; x = 2;
b ( 2; 4, ¾ ) = 4 C2 ( ¾) 2 (1/4) 2 = 27/128 = 0.2109

Problema: La probabilidad de que un paciente se recuperé de una delicada operación de corazón


es 0.9 ¿cuál es la probabilidad de que exactamente cinco de los siguientes siete pacientes
intervenidos sobrevivan?

Solución:
n = 7; p = 0.9, q = 0.1,, x = 5 b ( 5; 7,
5 2
0.9) = 7C5 (0.9) (0.1) = 0.1240

Problema: Hallar la probabilidad de que en cinco lanzamientos de un dado honrado aparezca 3


a) dos veces
b) máximo una vez
c) al menos dos veces

Solución: p = 1/6; q =
1 – p = 5/6

a) n=5;x=2
b( 2; 5, 1/6) = 5C2 (1/6) 2 ( 5/6) 3 = 625/3888 = 0.16075

b) n=5, x= 0 , 1
b( 0; 5, 1/6) + b( 1; 5, 1/6) = 3125/3888= 0.80386

c) n = 5 ; x = 2, 3, 4, 5
b( 2; 5, 1/6) +b( 3; 5, 1/6) +b( 4; 5, 1/6) +b( 5; 5, 1/6) = 763/3888 = 0.19624

Problema: Si el 20 % de los tornillos producidos por una máquina son defectuosos, determinar
la probabilidad de que de 4 tornillos escogidos aleatoriamente (a)1,
(b) 0,
(c) menos de 2, sean defectuosos.

130
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

Solución:
(a) n = 4 x =1 p = 0.2 q = 0.8 b(1
; 4, 0.2) = 0.4096

(b) n = 4 x = 0 p = 0.2 q = 0.8 b(0


; 4, 0.2) = 0.4096

(c ) n = 4 x = 0, 1 p = 0.2 q = 0.8 p(x<2)


= P(x = 0) + P(x = 1) = 0.8192

Problema: Hallar la probabilidad de obtener un total de 7 al menos una vez en tres lanzamiento de
un par de dados honrados.

Solución:
n=7 p =1/6 X=0 q = 5/6
P(al menos un 7 en tres lanzamiento) = 1 – P( ningún 7 en 3 lanzamiento)
n=3 x=0 p = 1/6 q = 5/6 b ( 0; 3, 1/6) = 125/216 = 0.57870

P(al menos un 7 en tres lanzamiento) = 1 – 125/216


= 91/216 = 0.42130

Problema: Calcula la probabilidad de que una familia que tiene 4 hijos, 3 de ellos sean varones.
Solución: n = 4 y p =1/2 ; x = 3 p(obtener
3 varones) = b(3;4,½) = 0.25

Problema: Se tiene una moneda trucada de modo que la probabilidad de sacar cara es cuatro
veces la de sacar cruz. Se lanza 6 veces la moneda. Calcula las siguientes probabilidades:
a) Obtener dos veces cruz.
b) Obtener a lo sumo dos veces cruz.

Solución: Calculamos en primer lugar la probabilidad de cara y de cruz:

p(cara) + p(cruz) =1. Si llamamos x a la probabilidad de sacar cruz, podemos escribir:


4 x + x = 1; 5x=1; x =1/5 =0,2
Así resulta: p(cruz)=0,2 y p(cara)=0,8 n = 6 y p = 0,2

131
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

a) Probabilidad de obtener dos veces cruz: x = 2 b(2;


6,0.2) = 0.24

b) Probabilidad de obtener a lo sumo dos veces cruz:


x ≤ 2 o bien x = 0, 1, 2 b(0; 6,0.2) + b(1; 6,0.2)+ b(2;
6,0.2) = 0.90

Problema: La probabilidad de que un alumno de 1º de Bachillerato repita curso es de 0,3.


Elegimos 20 alumnos al azar. ¿Cuál es la probabilidad de que haya exactamente 4 alumnos
repetidores?

Solución:
X = 4 n = 20; p = 0.3 ; q = 0.7 b(
4; 20, 0.3) = 0.13

Problema: Los ingenieros eléctricos saben que una corriente neutral elevada en los sistemas
de alimentación de computadoras son un problema potencial. Un estudio reciente de las
corrientes de carga en sistemas de alimentación de computadoras en instalaciones
estadounidenses revelo que el 10 % de las instalaciones tenían razones de corriente neutral a
corriente de carga total altas ( IEEE transactions on Industry Applications, Julio / agosto de 2004).
Si se escoge una muestra aleatoria de cinco sistemas de alimentación de computadora del gran
número de instalaciones del país, ¿Que probabilidad hay de que
a) Exactamente tres tengan una relación de corriente neutral a corriente de carga total alta?
b) Por lo menos tres tengan una relación alta?
c) Menos de tres tengan una relación alta?

Solución:
a) x = 3; p = 0.1; n = 5 b(3,5,0.1) =
0.0081

b) x ≥ 3; p = 0.1; n = 5 b(x = 3,4,5, n


= 5, p = 0.1) = 0.0086

c) x < 3; p = 0.1; n = 5 b(x = 0,1,2, n


= 5, p = 0.1) = 0.9914

132
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

3.3 Distribución Hipergeométrica.

Los tipos de aplicaciones de la distribución Hipergeométrica son muy similares a los de la Binomial.
Pero en caso de la Binomial se requiere la independencia entre las pruebas.

El muestreo se debe efectuar con reemplazo de cada artículo después de que se observe. Por
otro lado, la distribución Hipergeométrica no requiere independencia y se basa en el muestreo
que se realiza sin reemplazo.

El experimentó Hipergeométrica posee las siguientes propiedades:


1. Se selecciona sin reemplazo una muestra aleatoria de tamaño n de N artículos.
2. K de los N artículos se pueden clasificar como éxitos y N – K se clasifican como fracaso.

El número x de éxitos de un experimento Hipergeométrica se denomina variable aleatoria


Hipergeométrica. En consecuencia, la distribución de probabilidad de la variable
Hipergeométrica se llama distribución Hipergeométrica, y sus valores se denotan como h(x, N,
n, k), debido a que dependen del numero de éxitos k en el conjunto N del que seleccionamos n
artículos.

⎛k⎞⎛N−k⎞
⎜⎜ ⎟

h(x,N,n,k)= ⎝x⎟⎠⎜⎝⎜nN−⎞x ⎟⎠⎟ = (kCx)(NNC−nkCn−x) x = 0,1,2,...,n



⎜⎜⎝n ⎟⎟⎠

Problema: Se selecciona al azar un comité de cinco personas entre tres químicos y cinco físicos.
Encuentre la distribución de probabilidad para el número de químicos en el comité.

Solución:

( 3C0 )( 5C5 ) 0.0179


P x( = 0) =h(0,8,5,3) = =
C
8 5

133
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

( 3C1)( 5C4 ) 0.2679


P x( = =1)h(1,8,5,3) = =
C
8 5

( 3C2 )( 5C3) 0.5357


P x( = 2) = h(2,8,5,3) = =
C
8 5

( 3C3)( 5C2 ) 0.1786


P x( = 3) = h(3,8,5,3) = =
C
8 5

En forma tabular la distribución Hipergeométrica de x es como sigue:

x 0 1 2 3

h (x, N, n k) 0.0179 0.2679 0.5357 0.1786

Problema: Lotes de 40 componentes cada uno se denomina aceptables sino contienen mas de
tres defectuosos. El procedimiento para muestrear el lote es la selección de cinco componentes
al azar y rechazar el lote si se encuentra un componente defectuoso. ¿cual es la probabilidad
de que se encuentre exactamente un defectuoso en la muestra si hay tres defectuosos en todo
el lote ?
Solución:
N = 40, n = 5; k = 3; x = 1

( 3C1)( 37C4 ) 0.3011


h(1,40,5,3) = =
C
40

Problema: Una caja contiene 6 bolas blancas y 4 rojas. Se realiza un experimento en el cual se
selecciona una bola aleatoriamente y se observa su color, pero no se reemplaza la bola. Hallar
la probabilidad de que después de 5 pruebas del experimento se haya escogido 3 bolas blancas.

134
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

N = 10; n = 5; x = 3; k = 6

( 6C3)( 4C2 ) 0.4762


h(3,10,5,6) = =
C
10 5

Problema: Un lote de 40 artículos se seleccionan al azar 4 para probarlos y si fallan la prueba


mas de 2 se rechaza el lote completo. ¿Cuál es la probabilidad de rechazar un lote que tenga 8
defectuosos? Dado que el muestreo se hace sin reemplazo y la fracción de muestreo es grande
(10%) tenemos una variable aleatoria Hipergeométrica. Los parámetros son: N = 40, k = 8, n =
4, x es el numero de defectuosos en la muestra y queremos la probabilidad p ( x > 2)

Solución:
P ( x > 2 ) = p (x = 3) + p(x = 4) = h ( 3; 40, 4, 8) + h ( 4 ; 40, 4, 8) = 0.0204

Problema: Esta es la probabilidad de rechazar un lote con 25 % de defectuosos y es muy baja.


Para mejorar el proceso de selección, los ingenieros deciden rechazar el lote cuando haya 2 o
mas defectuosos. ¿Cuál es la probabilidad de rechazar un lote que tenga 8 defectuosos? Los
parámetros permanecen iguales lo que cambia es la probabilidad ahora es: p ( x ≥ 2 ) = p (x =
2) + p ( x > 2)

Solución:
N = 40 ; n = 4, k = 8 ; x ≥ 2 p ( x ≥ 2 ) = p (x
= 2) + p (x = 3) + p(x = 4)]
= h ( 2; 40, 4, 8) + h ( 3; 40, 4, 8) + h ( 4 ; 40, 4, 8) = 0.1723

Problema: Con esta nueva política de rechazar el lote cuando sean 2 o más ¿cuál es la
probabilidad de rechazar un lote con 6 defectuosos? los parámetros son, ahora N = 40, k = 6; n
= 4 y queremos la probabilidad: p (x > 10 ) = 1 - [ p (x = 0) + p ( x = 1)] = 1 – [ h (0 , 40, 4, 6) + h
( 1,40, 4,6)]= = 1 – ( 0.5075 + 0.3929 ) = 0.0996

Problema: En el salón de tercer año de una escuela hay 35 alumnos, de los cuales 10 son niñas
y 25 niños. Se nombra un comité de 7 alumnos que represente al salón. La selección se hace al
azar. ¿ que probabilidad hay de que en el comité haya mayoría de niñas? En situaciones se
cumple las hipótesis de una Hipergeométrica. Los parámetros son : N = 35, k = 10, n = 7, x es

135
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

el numero de niñas en el comité. La probabilidad pedida es: P (x > 3 ) = p (x = 4) + p (x = 5) + p


(x = 6) + p (x = 7)

Solución:
=h(4,35,7,10)+h(5,35,7,10)+ (6,35,7,10)+h(7,35,7,10)
= 0.0718 + 0.0112 + 7.8072 x 10 – 4 + 1.7845 x 10 – 5 = 0.0838

3.4 Distribución de Poisson.

Los experimentos que dan valores numéricos de una variable aleatoria x, el número de
resultados que ocurren durante un intervalo dado o en una región especifica, se llaman
experimentos de Poisson. El intervalo puede ser de cualquier longitud, como un minuto, un días
, una semana, un mes, o incluso un año. Por ello un experimento de Poisson puede generar
observaciones para la variable aleatoria x que representa el número de llamadas telefónicas por
hora que recibe una oficina, el número de días que la escuela permanece cerrada debido a la
nieve durante invierno o el número de juegos suspendidos debido a la lluvia durante la
temporada de béisbol. La región específica podría ser un segmento de línea, un área o quizás
una pieza de material. En tales casos X puede representarse el numero de ratas de campo por
acre, el numero de bacterias en un cultivo dado o el numero de errores mecanográficos por
pagina.

Un experimento de Poisson se deriva del proceso de Poisson y posee las siguientes


propiedades:
1. el numero de resultados que ocurren en un intervalo o región especifica es
independiente del numero que ocurre en cualquier otro intervalo o región del espacio
disjunto. De esta forma vemos que el proceso de Poisson no tiene memoria.

2. la probabilidad de que ocurra un solo resultado durante un intervalo muy corto o una
región pequeña es proporcional a la longitud del intervalo o al tamaño de la región y no
depende del número de resultados que ocurren fuera de este intervalo o región.

3. la probabilidad de que ocurra mas de un resultado en tal intervalo corto o que caiga en
tal región pequeña insignificante.

4. El numero X de resultados que ocurren durante un experimento de Poisson se llama


variable aleatoria de Poisson y su distribución de probabilidad se llama distribución de

136
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

Poisson. El número medio de resultados en cada unidad se denota por la letra griega
lambda, λ.

La distribución de probabilidad de Poisson


La distribución de probabilidad para una variable aleatoria de Poisson esta dada por :

λe−λ
p(x,λ) = ; x = 0, 1, 2, ...
x!
donde : λ= Numero medio de eventos en una unidad dada de tiempo, área o
volumen.
e=2.71828...
La media y la varianza de una variable aleatoria de Poisson son , respectivamente, μ=λ
y σ =λ 2

Problema: Supongamos que el numero de grietas por espécimen de concreto con cierto tipo de
mezcla de cemento tiene una distribución de probabilidad de Poisson aproximada. Además,
suponga que el número medio de grietas por espécimen es de 2.5.
a) Calcule la media y la desviación estándar de x, el numero de grietas por espécimen de
concreto.
b) Calcule la probabilidad de que un espécimen de concreto escogido al azar tenga
exactamente cinco grietas.
c) Calcule la probabilidad de que un espécimen de concreto escogido al azar tenga dos o mas
grietas.

Solución:

a) Tanto la media como la varianza de una variable aleatoria de Poisson son iguales a λ.

Por tanto, μ=λ= 2.5 σ2 =λ= 2.5


Entonces la desviación estándar es σ= 2.5 =1.58

b) Queremos conocer la probabilidad de que un espécimen de concreto tenga exactamente

cinco grietas. La distribución de probabilidad de x λ= 2.5 ; x = 5;

2.55 e−2.5
p(5) = = 0.067
5!

137
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

c) Para determinar la probabilidad de que un espécimen de concreto tenga o mas grietas


necesitamos calcular

p
x=2

Si queremos calcular la probabilidad de este evento, es preciso considerar el evento


complementario. Así,

p(x ≥ 2)=1− p(x < 2)


=1−[p( )0 + p( )1 ]
=1− 0.287 = 0.713

Problema: Si un banco recibe en promedio 6 cheques sin fondo por día, ¿cuáles son las
probabilidades de que reciba,
a) cuatro cheques sin fondo en un día dado,
b) 10 cheques sin fondos en cualquiera de dos días consecutivos?

Solución:
a) x = variable que nos define el número de cheques sin fondo que llegan al banco en un día
cualquiera = 0, 1, 2, 3, ....., etc
λ = 6 cheques sin fondo por día e
= 2.718

p(4, 6 ) = 0.1339

b) x = variable que nos define el número de cheques sin fondo que llegan al banco en dos días
consecutivos = 0, 1, 2, 3, ......, etc., etc.
λ = 6 x 2 = 12 cheques sin fondo en promedio que llegan al banco en dos días consecutivos

P(10, 12 ) = 0.1049

Problema: En la inspección de hojalata producida por un proceso electrolítico continuo, se


identifican 0.2 imperfecciones en promedio por minuto. Determine las probabilidades de
identificar
a) una imperfección en 3 minutos,
b) al menos dos imperfecciones en 5 minutos,

138
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

c) cuando más una imperfección en 15 minutos.

Solución:
a) x = variable que nos define el número de imperfecciones en la hojalata por cada 3 minutos
= 0, 1, 2, 3, ...., etc., etc.
λ = 0.2 x 3 =0.6 imperfecciones en promedio por cada 3 minutos en la hojalata

P( 1, 0.6) = 0.3293

b) x = variable que nos define el número de imperfecciones en la hojalata por cada 5 minutos
= 0, 1, 2, 3, ...., etc., etc.
λ = 0.2 x 5 =1 imperfección en promedio por cada 5 minutos en la hojalata

p(x = 2,3,4,etc...λ=1) =1− p(x = 0,1,λ=1)= 1- (0.367918+0.367918) = 0.26416

c) x = variable que nos define el número de imperfecciones en la hojalata por cada 15 minutos
= 0, 1, 2, 3, ....., etc., etc.
λ = 0.2 x 15 = 3 imperfecciones en promedio por cada 15 minutos en la hojalata

p x( = 0,1,λ= 3) = p x( = 0,λ= 3)+ p x( =1,λ= 3)

= 0.0498+0.1494 = 0.1992

Problema: Durante un experimento de laboratorio el número promedio de partículas radiactivas


que pasan a través de un contador en un milisegundo es cuatro ¿cuál es la probabilidad de que
seis partículas entren al contador en un milisegundo dado? λt = 4; x = 6

(4)6e−4
f (x) = = 0.1042
6!

Aproximación de la binomial por la poisson


En este caso se determinarán probabilidades de experimentos Binomiales, pero que dadas sus
características, es posible aproximarlas con la distribución de Poisson, estas características son,
n → ∞ ( n es muy grande) y p → 0 (p es muy pequeña), por lo que:

139
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

x
−λp(
x,n,p )=nCx pxqn−x ≅ λ ε
x!

La expresión anterior solo se cumple cuando n → ∞ y p → 0, solo en este caso, si esto no se


cumple, la aproximación no se puede llevar a efecto, por lo que la fórmula a utilizar en este caso
sería:

x −λ

p( x,λ) = λ ε
x!
Donde: λ = μ = n p = número esperado de éxitos = tasa promedio de éxitos; n = número de
repeticiones del experimento; p = probabilidad de éxito = p(éxito)

Una regla general aceptable es emplear esta aproximación si n ≥ 20 y p ≤ 0.05: sí n ≥ 100, la


aproximación es generalmente excelente siempre y cuando n p ≤10.

Problema: Se sabe que el 5% de los libros encuadernados en cierto taller tienen


encuadernaciones defectuosas. Determine la probabilidad de que 2 de 100 libros
encuadernados en ese taller, tengan encuadernaciones defectuosas, usando,
a) la fórmula de la distribución Binomial,
b) la aproximación de Poisson a la distribución Binomial.

Solución:
a) n = 100
p = 0.05 = p(encuadernación defectuosa) = p(éxito) q =
0.95 = p(encuadernación no defectuosa) = p(fracaso)
x = variable que nos define el número de encuadernaciones defectuosas en la muestra = 0,
1, 2, 3,....,100 encuadernaciones defectuosas

p(x = 2, n = 100, p = 0.05 ) = 0.0812

b) n = 100 encuadernaciones
p = 0.05
λ = n p = (100)(0.05)= 5 x = variable que nos define el número de encuadernaciones
defectuosas en la muestra = = 0, 1, 2, 3,....,100 encuadernaciones defectuosas

140
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

p(2, 5) = 0.0843
Al comparar los resultados de las probabilidades con una y otra distribución, nos damos cuenta
de que la diferencia entre un cálculo y otro es de tan solo 0.0031, por lo que la aproximación de
Poisson es una buena opción para calcular probabilidades Binomiales.

Problema: Un fabricante de maquinaria pesada tiene instalados en el campo 3840 generadores


de gran tamaño con garantía. Sí la probabilidad de que cualquiera de ellos falle durante el año
dado es de 1/1200 determine la probabilidad de que
a) 4 generadores fallen durante el año en cuestión,
b) que más 1 de un generador falle durante el año en cuestión.

Solución:
a) n = 3840 generadores
p = 1/1200 = probabilidad de que un generador falle durante el año de garantía λ = n p =
(3840)(1/1200) = 3.2 motores en promedio pueden fallar en el año de garantía x = variable
que nos define el número de motores que pueden fallar en el año de garantía = 0, 1, 2,
3,....,3840 motores que pueden fallar en el año de garantía

dpois 4 3.2( ,) = 0.1781

b) P(x >1) =1− p(x ≤1)


1 − (dpois 0 3.2( ,) + dpois 1 3.2( ,)) = 0.8288

Problema: En un proceso de manufactura, en el cual se producen piezas de vidrio, ocurren


defectos o burbujas, ocasionando que la pieza sea indeseable para la venta. Se sabe que en
promedio 1 de cada 1000 piezas tiene una o más burbujas. ¿Cuál es la probabilidad de que en
una muestra aleatoria de 8000 piezas, menos de 3 de ellas tengan burbujas?

Solución:
n = 8000 piezas
p = 1/1000= 0.001 probabilidad de que una pieza tenga 1 o más burbujas λ = np
= (8000)(1/1000) = 8 piezas en promedio con 1 o más burbujas x = variable que
nos define el número de piezas que tienen 1 o más burbujas =
= 0,1, 2, 3,....,8000 piezas con una o más burbujas
dpois 0 8( , ) + dpois 1 8( , ) + dpois 2 8( , ) = 0.0138 Problema:
Diez por ciento de las herramientas producidas en un proceso

141
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

de fabricación determinado resultan defectuosas. Hallar la


probabilidad de que en una muestra de 10 herramientas
seleccionadas aleatoriamente, exactamente 2 estén
defectuosas, empleando la aproximación de Poisson a la
distribución Binomial p = 0.1; n = 10 λ = n p = 0.1 (10)
=1 ;x=2

dpois 2 1( , ) = 0.1839

Problema: Si la probabilidad de que un individuo sufra una reacción negativa ante una inyección
de cierto suero es 0.001, hallar la probabilidad de que entre 2000 individuos:
(a) exactamente 3 ;
(b) mas de 2 de ellos reaccionen negativamente.

Solución:
λ = N p = (2000) ( 0.001) = 2
(a) P r{3 individuos reaccionen negativamente} = dpois
3 2( , ) = 0.1804

(b) P r{más de 2 de ellos reaccionen negativamente}


= 1 – P r(0 ó 1 ó 2 lo sufran)

1 − (dpois 0 2( , ) + dpois 1 2( , ) + dpois 2 2( , )) = 0.3233

Problema: Diez por ciento de las herramientas producidas en un proceso de fabricación


determinado resultan defectuosas. Hallar la probabilidad de que en una muestra de 10
herramientas seleccionadas aleatoriamente, exactamente 2 estén defectuosas, empleando a)
La distribución Binomial
b) la aproximación de Poisson a la distribución Binomial.

Solución.
a) x = 2; n = 10 ; p = 10 % = 0.1 ; q
= 0.9 dbinom 2 10( , ,0.1) = 0.1937

b) λ = n p = 10 (0.1) = 1; x = 2 dpois
2 1( , ) = 0.1839

En general la aproximación es buena si P ≤ 0.1

142
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

3.5 Esperanza matemática.

Media de una variable aleatoria.


Si se lanzan 16 veces dos monedas y X es el número de caras que ocurre por lanzamiento,
entonces los valores de X pueden ser 0,1 y 2. Suponga que en el experimento salen cero caras,
una cara y dos caras un total de cuatro, siete y cinco veces, respectivamente. El numero
promedio de caras por lanzamiento de las dos monedas es entonces:

=1.06

Este es un valor promedio y no es necesariamente un posible resultado del experimento.


O bien :

( )0 ⎛⎜ 4 ⎞⎟+( )1 ⎛⎜ 7 ⎞⎟+ ( )2 ⎛⎜ 5
⎞⎟=1.06
⎝16⎠ ⎝16⎠ ⎝16⎠

Los números 4/16, 7/16, y 5/16 son las fracciones de los lanzamientos totales que tienen como
resultado cero, una y dos caras, respectivamente. Estas fracciones también son la frecuencia
relativa de los diferentes valores de X en nuestro experimento. En efecto, entonces, podemos
calcular la media o promedio de un conjunto de datos mediante el conocimiento de los distintos
valores que ocurren y sus frecuencias relativas, sin un conocimiento del número total de
observaciones en nuestro conjunto de datos.

Por tanto, si 4/16 o 1/4 de los lanzamientos tiene como resultado cero caras, 7/16 de los
lanzamientos tienen como resultado una cara y 5/16 de estos tiene dos caras, el numero medio
de caras por lanzamiento será 1.06 sin importar si el número total de lanzamiento fue 16,000 o
incluso 10,000.

Utilicemos frecuencias relativas para calcular el número promedio de caras por lanzamiento que
podríamos esperar en el largo plazo. Nos referimos a este valor promedio como la media de la

μ
variable x o la media de la distribución de probabilidad de X y la denotamos por x o

simplemente como μ cuando este claro a que variable nos referimos. También es común entre

143
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

los estadísticos referirse a esta media como la esperanza matemática o el valor esperado de la
variable aleatoria X y denotarla como E(X).

Supongamos que se lanza monedas legales, encontramos un espacio muestral para nuestro
experimento es

S = {HH, HT,TH,TT}.
Como los 4 puntos muéstrales son iguales probables, se sigue que

P(X = 0)= P(TT)=⎛⎜ 1 ⎟⎞⎛⎜ 1 ⎞⎟= 1


⎝ 2⎠⎝ 2⎠ 4

P(X =1)= P(HT)+ P(TH)= + =

P(X = 2)= P(TT)=


Este resultado significa que una persona que lance dos monedas una y otra vez, en promedio,
obtendrá una cara por lanzamiento.

Definición
Sea X una variable aleatoria con distribución de probabilidad f(x). La media o valor esperado

de X es μ= E( )X =∑xf (x); si X es discreta,


x

Problema: Un inspector de calidad muestrea un lote que contiene siete componentes; el lote
contiene cuatro componentes buenos y tres defectuosos. El inspector toma una muestra de tres
componentes. Encuentre el valor esperado del número de componentes buenos en esta
muestra.

Solución: sea X el número de componentes buenos en la muestra. La distribución de probabilidad


de x es

F (x) = () 37 x = 0, 1, 2, 3

Unos simples cálculos dan f(0)


= 1/35 = 0.028571428, f(1) =
12/35= 0.342857142; f(2) =

144
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

18/35= 0.514285714; f(3) =


4/35= 0.114285714. Por tanto.

μ=E(X)=( )0 ⎛⎜ 1 ⎞⎟+( )1⎛⎜12⎞⎟+( )2 ⎛⎜18⎞⎟+( )3⎛⎜ 4 ⎞⎟=12=1.71


⎝35⎠ ⎝35⎠ ⎝35⎠ ⎝35⎠ 7

De esta forma si se selecciona al azar una muestra de tamaño tres una y otra vez de un lote
de cuatro componentes buenos y tres defectuosos, contendría, en promedio 1.7 componentes
buenos.

Problema: En un juego de azar se pagaran $5 a una persona si solo salen caras(H) o cruces
(T) cuando se lanzan tres monedas, y ella pagara $ 3 si salen una o dos caras. ¿ cual es su
ganancia esperada?

Solución: el espacio muestral para los posibles resultados cuando se lanzan de manera simultánea
tres monedas, o de manera equivalente si se lanzan tres veces una moneda, es

S ={HHH , HHT , HTH ,THH , HTT ,THT ,TTH ,TTT }

Se podría argumentar que cada una de estas posibilidades es igualmente probable y que ocurre
con la probabilidad de 1/8. un método alternativo seria aplicar la regla de la multiplicación de
probabilidad para eventos independientes a cada elemento de S. Por ejemplo,

P ( HHT) = P(H) P(H) P(T) = (1/2)(1/2)(1/2) = 1/8

La variable aleatoria de interés es Y, el monto que el jugador puede ganar; y los valores posibles
de Y son $5 si ocurre el evento

E1 = {HHH,TTT}

Y - $ 3 si ocurre el evento

E2 = {HHT, HTH,THH, HTT,THT,TTH}

Evento. Como E1 y E2 ocurren con probabilidades ¼ y ¾, respectivamente, se sigue que

145
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

μ= E( ) ( )Y = 5 ⎛⎜ 1 ⎞⎟+(−3)⎛⎜ 3⎞⎟= −1
⎝ 4⎠ ⎝ 4⎠

En este juego la persona perderá, en promedio, $1 por lanzamiento de las tres monedas. Un
juego se considera equitativo si el jugador, en promedio, queda empatado. Por tanto, una
ganancia esperada de cero define un juego equitativo.

Consideremos una nueva variable aleatoria g(X), que depende de X; es decir, cada valor de
g(X) esta determinado al conocer los valores de X. Por ejemplo, g(X) podría ser X2 o 3X – 1 , de
modo que siempre que x tome el valor 2, g(X) toma el valor g(2). En particular, si X es una
variable aleatoria discreta con distribución de probabilidad

f (x), x =−1,0,1,2 y g(X) = X 2 entonces

P[g(X ) = 0]= P(X = 0) = f (0)


P[g( )X =1]= P(X = −1)+ P(X
=1)

= f (−1)+ f ( )1 ,

P[g( )X = 4]= P(X = 2) = f (2)

De modo que la distribución de probabilidad de g(X) se puede escribir como

g(x) 0 1 4

P[g(X ) = g(x)]
f (0) f (−1) + f (1) f (2)

Por definición del valor esperado de una variable aleatoria, obtenemos

μg(X ) = E[g(x)]

= 0 f ( )0 +1[f (−1)+ f ( )1 ]+ 4 f ( )2

= (−1)2 f (−1)+(0)2 f (0)+(1)2 f (1)+(2)2 f (2)

146
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

=∑g(x) f (x)
x

este resultado se generaliza en el siguiente teorema para variables discretas y continuas.


Teorema
Sea x una variable aleatoria con distribución de probabilidad f(x). La media o valor esperado de la
variable aleatoria g(X) es

μg(X ) = E[g(X)]=∑g(x) f (x); si X es discreta

Problema: Suponga que el numero de autos x que pasa por un lavado de autos entre 4:00 pm y
5:00 pm en cualquier viernes soleado tienen la siguiente distribución de probabilidad :

x 4 5 6 7 8 9

P(X = x) 1 / 12 1 / 12 1/4 1/4 1/6 1/6

Sea g(x) = 2X – 1 la cantidad de dinero en dólares, que el administrador paga al dependiente.


Encuentre las ganancias esperadas de dependiente en este periodo particular.

Solución:

E[g( )X ]=E(2X−1)
9

=∑(2x−1) ( )f X
x=4

=( )7⎛⎜ 1⎞⎟+( )9⎛⎜ 1⎞⎟+( )11⎛⎜1⎞⎟+( )13⎛⎜1⎟⎞+( )15⎛⎜1⎞⎟+( )17⎛⎜1⎞⎟=$12.67


⎝12⎠ ⎝12⎠ ⎝4⎠ ⎝4⎠ ⎝6⎠ ⎝6⎠

Debemos extender ahora nuestro concepto de esperanza matemática al caso de dos variables
aleatorias X y Y con distribución de probabilidad conjunta f (x, y) .

147
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

Definición
Sean X y Y variables aleatorias con distribución de probabilidad conjunta f(x , y ). La media o

valor esperado de la variable aleatoria g(X, Y ) es μg(X ,Y ) = E[g(X,Y)]=∑∑g(x, y) f (x, y) ;


si X y Y son discretas
x y

Problema: Sean X y Y variables aleatorias con distribución de probabilidad conjunta que se indica
en la tabla siguiente:

f ( x, y ) X Totales por
renglón
0 1 2
0 3/28 9/28 3/28 15/28
Y 1 3/14 3/14 3/7

2 1/28 1/28

Totales por 5/14 15/28 3/28 1


columna

Encuentre el valor esperado de g ( X, Y ) = XY

Solución:

E
x= =0 y 0

E(XY) ( )( ) (= 0 0 f 0,0) ( )( ) (+ 0 1 f 0,1) ( )( ) (+ 0 2 f 0,2) ( )( ) (+ 1 0 f 1,0)


( )( ) ( ) ( )( ) (+ 1 1 f 1,1 + 2 0 f 2,0)
E

Definición
Sea X una variable aleatoria con distribución de probabilidad f(x). La media o valor esperado
de X es

dx ; si X es continua

148
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

Un ingeniero se interesa en la vida media de cierto tipo de dispositivo electrónico. Esta es una
ilustración de problema de tiempo de falla que a menudo se presenta en la práctica. El valor
esperado de la vida del dispositivo es un parámetro importante para su evaluación.

Problema: Sea X la variable que denota la vida en horas de cierto dispositivo electrónico. La función
de densidad de probabilidad es:

⎧20,000

⎪ x3 x >100

f (x) =⎨

0 en cualquier otro caso

Encuentre la vida esperada de este tipo de dispositivo.


Solución:

dx= 200
⎝x ⎠ x
Teorema
Sea x una variable aleatoria con distribución de probabilidad f(x). La media o valor esperado de
la variable aleatoria g(X) es

dx ; si X es continua

Problema: Sea X una variable aleatoria con función de densidad

⎧x2 −1< x < 2


⎪ ,
f (x) =⎨ 3

⎩0 en cualquier otro caso

Encuentre el valor esperado de g(X) = 4X + 3 .

149
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

Solución:

E
Debemos extender ahora nuestro concepto de esperanza matemática al caso de dos variables
aleatorias X y Y con distribución de probabilidad conjunta f (x, y) .
Definición
Sean X y Y variables aleatorias con distribución de probabilidad conjunta f(x,y). La media o valor
esperado de la variable aleatoria g(X, Y ) es

dxdy ; si X y Y son continuas.

150
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

E⎛ ⎞
Problema: Encuentre ⎜ Y ⎟ para la función de densidad ⎝
X⎠

( )
⎧x 1+ 3y2 0 < x < 2, f (x,
⎪ 0 < y <1
y )= ⎨ 4


⎩0 en cualquier otro caso
Solución:
Tenemos

E⎛⎜ Y ⎞⎟= ∫ ∫ 01 02 ⎛⎜⎝ xy⎠⎞⎟ x(1+43y2) dxdy = ∫01 y +2y3 dy = 85

⎝X⎠

3.6 Distribución normal.

3.6.1 Distribución de la probabilidad continúa.


La distribución continua de probabilidad más importante en todo el campo de la estadística es la
distribución normal. Su grafica, que se denomina curva normal, es la curva en forma de
campana, la cual describe muchos fenómenos que ocurren en la naturaleza, la industria y la
investigación.

Además , los errores en las mediciones científicas se aproximan extremadamente bien mediante
una distribución normal. La distribución normal a menudo se denomina distribución gaussiana,
en honor de Karl Friedrich Gauss (1777 – 1855), quien también derivo su ecuación a partir de un
estudio de errores en mediciones repetidas de la misma cantidad.

151
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

Se dice que estas variables tienen una distribución normal y la función de densidad recibe el
nombre de curva normal o campana de Gauss. Para expresar que una variable aleatoria

UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

continua X, tiene una distribución normal de media μ y desviación típica σ, escribimos N(μ,σ).
Distribución normal

σ2
La función de densidad de la variable aleatoria normal X, con media μy varianza , es
e −( 2
1 1

n(x;μ,σ)= 2πσ )[(x−μ)/σ]2 −∞< x <∞


donde π= 3.14159... ye = 2.71828...

Existen unas tablas que permiten calcular probabilidades en distribuciones normales reducidas.
Por ello es aconsejable transformar cualquier variable aleatoria X que sigue que sigue una

distribución N(μ,σ) en otra variable Z que siga una distribución N(0,1).


El cambio de variable que es necesario hacer es el siguiente:

X −μ
Z=
σ
Características:
a) Es generada por una variable de tipo continuo, denominada x; -∞< x < ∞
1
b) La función que nos define esta distribución es: f ( x,μ,σ ) = σ 2π ε−(
2 x−μ)2 / 2σ2

-∞< x < ∞
Al dar a la función los valores de μ , σ2 y valores a x, obtendremos la distribución en
cuestión, la que tiene forma de campana, por lo que también se le conoce como campana
de Gauss. Hay un número infinito de funciones de densidad Normal, una para cada
combinación de μ y σ. La media μ mide la ubicación de la distribución y la desviación estándar
σ mide su dispersión.
c) Es simétrica con respecto a su eje vertical.
d) Es asintótica con respecto a su eje horizontal; esto quiere decir que jamás va a tocar el
eje de las equis.
e) El área total bajo la curva es 1.

152
f) Sí sumamos a μ ± σ, se observará que aproximadamente el 68.26% de los datos
se encuentran bajo la curva, si sumamos a μ ± 2σ, el 95.44% de los datos estará entre
esos límites y si sumamos a μ ± 3σ, entonces el 99.74% de los datos caerá dentro de
esos límites. Esta característica es a la vez una forma empírica y

rápida de demostrar si los datos que se analizan tienen una distribución Normal; ya que
para trabajar los datos con esta distribución, debe verificarse que efectivamente así se
distribuyen, ya que de no hacerlo, las decisiones que en un momento dado se tomarán
de un análisis de los datos con la distribución Normal, serían erróneas.

Definición
La distribución de una variable aleatoria normal con media cero y varianza 1 se llama
distribución normal estándar.

Problema: Encuentre la probabilidad para cada ejercicio, a)


p(Z ≤1,23)
La probabilidad pedida se encuentra directamente en las tablas . Basta buscar 1,2 en la columna
y 0,03 en la fila. Su intersección nos da la probabilidad.

P(z ≤1.23) = 0.8907


Para calcularlo a través de la fórmula original se le suma 0.5 que es de la parte de la región
negativa mas lo que se va a calcular.

153
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

⎛⌠ ⎞
1.23
2
⎜⎮ −u ⎟
1 ⎜⎮
du ⎟ = 0.8907
2
0.5 + ⋅ ⎮ e
2 ⎜ ⌡0
π

b) p ( Z ≥1, 24 )

⎝ ⎠
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

P(Z≥1.24) =1−P(Z<1.24) =1−0.8925= 0.1075


Dos formas de calcular:
1) usando el teorema P + q = 1

⎡ ⎛⌠1.24 ⎞⎤
− ⎟⎥
⎢ ⎜⎮ u2
⎢ 1 ⎜⎮ ⎟⎥ du⎟⎥ =
2 0.1075
1 − ⎢0.5 +⋅⎜⎮⌡
e ⎠⎦

2⋅π ⎝ 0
2) Restando 0.5 que es la parte completa de la región sombreada de la sección positiva

⎛⌠1.24 ⎞

⎜⎮ u2 ⎟
1 ⎜⎮
⎟ du⎟ =
0.5 −⋅⎜⎮⌡
2
e 0.1075
2⋅π ⎝ 0 ⎠
c) P ( z ≤ - 0.72 )

154
P(z ≤−0.72)= 0.2358
⎛⌠ 0 2 ⎜⎮ ⎞
−u

⎜⎮ ⎟ du⎟ =
1 0.2358
2
d) p(0,5 ≤Z ≤1,76) − ⋅ ⎠
0.5⎜⎮⌡ e
2π ⎝ − 0.72

Observando la figura se deduce que

p(0.5 ≤ ≤z 1.76) = p z( ≤1.76)− p z( ≤ 0.5)

= 0.9608−0.6915 = 0.2693

⌠1.76 2 ⎛⌠0.5 2 ⎞
⎮ −u ⎜⎮ −u ⎟
2 1 1 ⎮ ⎜⎮ 2 ⎟
⋅⎮ du −
2π ⌡ 2π
e⋅⎜⎮⌡ e du⎟ = 0.2693
0⎝ 0 ⎠

Problema: El peso de los individuos de una población se distribuye normalmente con media de
70 Kg. y desviación típica 6 Kg. De una población de 2000 personas, calcula cuántas tendrán un
peso comprendido entre 64 y 76 Kg.
Solución:
Se trata de una distribución N (70,6)

−μ
X
Z= μ = 70 Kg. , σ = 6 Kg. ; X = 64 y 76 Kg. σ

Z= 64−70 =−1 Z= 76−70 =1


6 6

Z = -1 Z = 1 p(64 ≤ X ≤ 769 = p(−1≤ z ≤1)

155
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

= p(z ≤1)− p(z ≤ −1)

Por tanto,
p(64 ≤ X ≤ 76 ) = 0.8413 – 0.1587 = 0.6826

Esto significa que el 68,25 % de las personas pesan entre 64 y 76 Kg.


Como hay 2000 personas, calculamos el 68,25% de 2000 y obtenemos 1365 personas.

Problema: El acero que se utiliza para tuberías de agua a menudo se recubre internamente con
un mortero de cemento para evitar la corrosión. En un estudio de los recubrimientos de mortero
de una tubería empleada en un proyecto de transmisión de agua en California (Transportation
Engineering Journal, Noviembre de 1979) se especificó un espesor de 7/16 pulgadas para el
mortero. Un gran número de mediciones de espesor dieron una media de 0.635 pulgadas y una
desviación estándar de 0.082 pulgadas. Sí las mediciones de espesor, tenían una distribución
Normal, ¿qué porcentaje aproximado fue inferior a 7/16 de pulgada?

156
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

Solución:
x = variable que nos define el espesor del mortero en pulgadas; μ = 0.635 pulgadas; σ =
0.082 pulgadas

P(Z ≤−2.41) = 0.0080

Por tanto, 0.008 x 100% = 0.8% de los recubrimientos de mortero tienen un espesor menor de
7/16 pulgadas

Problema: Un tubo fluorescente estándar tiene una duración distribuida Normalmente, con una
media de 7,000 horas y una desviación estándar de 1,000 horas. Un competidor ha inventado
un sistema de iluminación fluorescente compacto que se puede insertar en los receptáculos de
lámparas incandescentes. El competidor asegura que el nuevo tubo compacto tiene una
duración distribuida Normalmente con una media de 7,500 horas y una desviación estándar de
1,200 horas.
a) ¿Cuál tubo fluorescente tiene mayor probabilidad de tener una duración mayor de
9,000 horas?
b) ¿Cuál tubo tiene mayor probabilidad de tener una duración de menos de 5,000 horas?

Solución:
a) Tubo 1
X1 = variable que nos define la duración en horas de un tubo fluorescente μ =
7,000 horas; σ = 1,000 horas

Tubo 2
X2 = variable que nos define la duración del tubo fluorescente del competidor μ =
7,500 horas; σ = 1,200 horas

z1 = = 2.00

p(x1 > 9,000 horas) = p (z1 > 2.00 )


= 1 – 0.9772 = 0.0228

157
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

z2 = = 1.25
p(x2 > 9,000 horas) = p(z2 > 1.25) = 1 – 0.8944 = 0.1056

Por tanto el tubo fluorescente del competidor tiene una probabilidad mayor de durar más de
9,000 horas.

b)

z1 = =−2.00
p(x1 < 5,000 horas) = p(z1 < -2.00) = 0.0228

z2 = =−2.08
p(x2 < 5,000 horas) = p(z2 < - 2.08) = 0 0.0188

Por tanto, el tubo fluorescente que tiene una mayor probabilidad de durar menos de 5,000 horas
es el del primer fabricante.

Problema: La distribución de la demanda (en número de unidades por unidad de tiempo) de un


producto a menudo puede aproximarse con una distribución de probabilidad Normal. Por
ejemplo, una compañía de comunicación por cable ha determinado que el número de
interruptores terminales de botón solicitados diariamente tiene una distribución Normal, con una
media de 200 y una desviación estándar de 50.
a) ¿En qué porcentaje de los días la demanda será de menos de 90 interruptores?
b) ¿En qué porcentaje de los días la demanda estará entre 225 y 275 interruptores?
c) Con base en consideraciones de costos, la compañía ha determinado que su mejor
estrategia consiste en producir una cantidad de interruptores suficiente para atender
plenamente la demanda en 94% de todos los días. ¿Cuántos interruptores terminales
deberá producir la compañía cada día?

Solución:
a) X = variable que nos indica el número de interruptores demandados por día a una compañía
de cable

μ = 200 interruptores por día; σ = 50 interruptores por día

158
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

z= =−2.20 p(z = - 2.20) = 0.4861

p(x < 90) = p(z < -2.20) = 0.0139

Por tanto, 0.0139 x 100% = 1.39% de los días se tendrá una demanda menor de 90 interruptores.

b) z1 = = 0.50 z2 = =1.50

p(225≤ x ≥ 275) = p(z2) – p(z1) = 0.4332 – 0.1915 = 0.2417

Por tanto, 0.2417 x 100% = 24.17% de los días se tendrá una demanda entre 225 y 275
interruptores.

c) En este caso se trata de determinar que valor toma x cuando se pretende cumplir con el
94% de la demanda de todos los días.

Por tanto despejaremos de la fórmula de z;

x −μ
Z ;

x = μ + zσ x = μ + z(p = 0.44)σ = 200 + z(p = 0.44)(50) =


= 200 + (1.55)(50) = 277.5 ≅ 278 interruptores terminales por día

¿Cómo se obtiene el valor de z?


En la tabla buscamos la z que corresponde a una probabilidad de 0.44 y nos damos cuenta de
que no existe un valor exacto de 0.44 por lo que tomamos los valores de área más cercanos;
luego,
z(p = 0.4394) = 1.50; z(p = 0.4406) = 1.60
Por tanto si interpolamos, encontramos que el valor de z para una probabilidad de 0.44 es de
1.55, y es el valor que se sustituye en la ecuación.

159
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

¿Cuál es la razón de usar un área de 0.44 en lugar de una de 0.94 para buscar en la tabla el
valor de z?

Es muy simple, la tabla que estamos usando es una tabla que solo trabaja con áreas que son
definidas de la media hasta el valor de x y x puede estar tanto del lado derecho de la media,
como del lado izquierdo de la media, es por esto que el área a utilizar es de 0.44 que se
encuentra al lado derecho de la media.

Problema: La nota media de las pruebas de acceso correspondientes a los estudiantes que
querían ingresar en una facultad era 5,8 y la desviación típica 1,75. Fueron admitidos los de nota
superior a 6.
a) ¿Cuál fue el porcentaje de admitidos si la distribución es normal?
b) ¿Con qué probabilidad exactamente cuatro de diez estudiantes son admitidos por
distribución binomial?

Solución:
a)μ = 5.8 ; σ = 1.75 ; x = 6
Z = ( 6 – 5.8 ) / 1.75 = 0.11

P ( X > 6 ) = p ( Z > 0.11 ) = 1 – P ( Z < 0.11 ) = 1 – 0.5438 = 0.4562 = 45.62 %

b) Es una distribución Binomial de parámetros n = 10 y p = 0,4562

p(obtener r éxitos ) = p (X = r) =

=⎛⎝⎜n⎞⎟pr .(1− p)n−r = p(X = 4) =⎜⎜⎛10 4 ⎞⎟⎟⎠(0,4562)4 (1− 0,4562)6 =

⎜r ⎟⎠ ⎝

= (0,4562)4(0,5438)6 = 0,235

Problema: Dada una distribución normal con μ = 50 y σ = 10, encuentre la probabilidad de que
x tome un valor en 45 y y 62.
Z 1 = ( 45 – 50 ) / 10 = - 0.5 Z 2 = ( 62 – 50 ) / 10 = 1.2

160
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

p ( 45 < X < 62 ) = p ( -0.5 < Z < 1.2 ) = P ( Z < 1.2 ) – P ( Z < - 0.5 )
= 0.8849 – 0.3085 = 0.5764

Problema: Dada una distribución normal con μ = 300 y σ = 50, encuentre la probabilidad de que
X tome un valor mayor que 362.

Z = ( 362 – 300 ) / 50 = 1.24


P ( X > 362 ) = P ( Z > 1.24 ) = 1 – p ( Z < 1.24 ) = 1 – 0.8925 = 0.1075

Problema: Una empresa eléctrica fabrica focos que tienen una duración , antes de fundirse, que
se distribuye normalmente con media igual a 800 horas y una desviación estándar de 40 horas.
Encuentre la probabilidad de que un foco se funda entre 778 y 834 horas.

Solución:
Z 1 = ( 778 – 800 ) / 40 = - 0.55 ; Z 2 = ( 834 – 800 ) / 40 = 0.85
P (778 < X < 834 ) = p ( - 0.55 < Z < 0.85 ) = P ( Z < 0.85 ) – P ( -0.55)
= 0.8023 – 0.2912 = 0.5111

Problema: En un proceso industrial el diámetro de un cojinete es una parte importante del


componente. El comprador establece que las especificaciones en el diámetro sean 3.0 ± 0.01
cm. La implicación es que ninguna parte que caiga fuera de estas especificaciones se aceptará.
Se sabe que en el proceso el diámetro de un cojinete tiene una distribución normal con media
3.0 y una desviación estándar de 0.005. En promedio, ¿cuántos cojinetes se descartaran?

Solución:
X 1 = 3.0 – 0.01 cm = 2.99 cm; X 2 = 3.0 + 0.01 cm = 3.01 μ =
3.0 ; σ = 0.005
Z 1 = ( 2.99 – 3.0 ) / 0.005 = - 2.0

161
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

Z 2 = ( 3.01 – 3.0 ) / 0.005 = 2.0


P ( 2.99 < x < 3.01 ) = P (-2.0 < Z < 2.0 ) = p ( Z < 2.0 ) – P ( Z < - 2.0 )
= 0.9772 – 0.0228 = 0.9544

Ejemplo: Cierta maquina fabrica resistores eléctricos que tienen una resistencia media de 40
ohmios y una desviación estándar de 2 ohmios. Suponga que la resistencia sigue una
distribución normal y se puede medir con cualquier grado de precisión, ¿qué porcentaje de
resistores tendrán una resistencia que exceda 43 ohmios?

Solución:
X = 43 ; μ = 40; σ = 2
Z = (43 – 40 ) / 2 = 1.5
P ( X > 43 ) = P ( Z > 1.5 ) = 1 – P( Z < 1.5 ) = 1 – 0.9332 = 0.0668 = 6.68 %

3.7 Aproximación de la Binomial a la normal.

Cuando n es grande y p está próximo a 0,5 el comportamiento de una distribución binomial


B(n, p) es aproximadamente igual a una distribución normal,

N(np, npq)

Esto permite sustituir el estudio de una B(n, p) por el de una N(np, npq) .

Suele considerarse que la aproximación es buena cuando n p>5 y n q>5

Dado que por mucho que se parezca nunca es igual una binomial que una normal, es necesario
aplicar en el cálculo de probabilidades un ajuste que recibe el nombre de corrección de Yates.
Si X es la binomial y X’ la normal, la corrección consiste en lo siguiente:

⎛ 1 1⎞
p(X = r) = p ⎜r − ≤ X′≤ r + ⎟
⎝ 2 2⎠
(Se asocia un intervalo unidad centrado en el punto)

162
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

⎛ 1 1⎞
p(a ≤ X ≤b) = p ⎜a − ≤ X′≤b + ⎟
⎝ 2 2⎠

(se alarga el intervalo ½ por la izquierda y ½ por la derecha.)


Para valores de n mayores de 1.000 se puede suprimir la corrección.

Problema: Se lanza una moneda correcta al aire 400 veces. Calcula la probabilidad de obtener
un número de caras comprendido entre 180 y 210, ambos inclusive.
Solución:

Calculamos la media y la desviación típica de la distribución binomial:

1 1
npq = 400. . =10
; 2 2 . Por tanto,

p(180 ≤ X ≤ 210) = p(179.5 ≤ x′ ≤ 210.5)

p⎛179.5−200 z ≤ 210.5−200 ⎞⎟

⎜⎝ 10 ≤ 10 ⎠
=p(−2,05≤Z≤1,05) =p(Z≤1,05) −p(Z≤−2,05)

pero p(Z ≤1,05) = 0,8531

p z( ≤−2.05) = p z( ≥ 2.05) = −1p z( ≤ 2.05) = −10.9798 = 0.0202


luego p(180 ≤ X ≤ 210) = 0,8531 − 0,0202 = 0,8329

Problema: Un tirador acierta en el blanco en el 70% de los tiros. Si el tirador participa en una
competición y tira 25 veces, ¿cuál es la probabilidad de que acierte más de 10 tiros?

Solución:

Es una distribución B(25; 0,7) que podemos aproximar a través de la normal: μ=


n.p = 25.0,7 =17,5 >5

n.q = 25.0,3= 7,5 >5

163
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

La aproximación será buena.

σ= npq= 25.0,7.0,3 = 2,29

⎛ 10.5
p x( >10) = p x( ≥11) = p x( ′ ≥10.5) p z⎜ ≥

−17.5 ⎞
2.29 ⎟⎠ = p z( ≥ −3.06) = −1 p z( ≤ 3.06) = −1

0.0010 = 0.999

= p(Z ≤ 3,06) = 0,9998

Problema: Hallar la probabilidad de obtener entre 3 y 6 caras inclusive en 10 lanzamientos de


una moneda honrada utilizando
(a) La distribución binomial,
(b) la aproximación normal a la distribución binomial.

Solución
a) sea X la variable aleatoria que da el numero de caras en 10 lanzamientos. Entonces :
P ( X = 3 ) = (10C 3) (1/2) 3 (1/2) 7 = 15 /128 = 0.1172
P ( X = 4 ) = (10C4 ) (1/2) 4 (1/2) 6 = 105/512 = 0.2051
P ( X = 5 ) = (10C 5) (1/2) 5 (1/2) 5 = 63/256 = 0.2461

P ( X = 6 ) = (10C 6) (1/2) 6 (1/2) 4 = 105/512 = 0.2051

Entonces la probabilidad pedida es


P ( 3 ≤ x ≤ 6 ) = 15/128 + 105/512 + 63/256 + 105/512
= 99/128 = 0.7734

164
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

numero de caras

0,3

0,25
0,2

0,15

0,1
0,05

0
0 5 10 15

Figura 1:

numero des
cara
0,3

0,25

0,2

0,15

0,1

0,05

0
0 2 4 6 8 10 12

Figura 2:

b) La distribución de probabilidad para el numero de caras en 10 lanzamientos de la moneda se


presentan gráficamente en las figuras 1 y 2 . en la figura 2 trata los datos como si fueran
continuos. La probabilidad pedida es la suma de las áreas de los rectángulos sombreados en la
figura 2 y puede aproximarse por el área bajo la correspondiente curva normal, mostrada a
trazos. Considerando los datos como continuos, se deduce que 3 a 6 caras pueden considerarse
como 2.5 a 6.5 caras. También la media y la varianza para la distribución Binomial están dadas
por:

165
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

μ= =np 10(0.5) = 5
σ= npq = 10(0.5)(0.5) =1.58

z1 = 2.5−5 =−1.58 z1 = 6.5−5 = 0.95


1.58 1.58

p( 1.58− < <z0.95) = p z( < 0.95)− p z( <−1.58)


= 0.8289−0.0571= 0.7718

Se compara muy bien con el valor verdadero de 0.7734 obtenido en el inciso a) . La precisión es
aun mejor para valores superiores de n.

Problema: La probabilidad de que un paciente se recupere de una rara enfermedad de la sangre


es 0.4. si se sabe que 100 personas contraen esta enfermedad, ¿cual es la probabilidad de que
menos de 30 sobrevivan ?

Solución:

μ= =np 100(0.4) = 40 σ= npq =


100(0.4)(0.4) = 4.899

z1 ==−2.14

p x( < 30) = p z( <−2.14) = 0.0162

Problema: Una prueba de opción múltiple tiene 200 preguntas cada una con cuatro respuestas
posibles de las que solo una es la correcta. ¿Cual es la probabilidad De que con puras conjeturas
se obtengan de 25 a 30 respuestas correctas para 80 de los 200 problemas acerca de los que
el estudiante no tiene conocimiento?

Solución : La probabilidad de un respuesta correcta para cada una de las 80 preguntas es p =


¼. Si X representa el número de respuesta correcta debidas a conjeturas entonces:

∑ ⎛
p(25 ≤ ≤x30) = xx b x ⎜⎝ ,80, 14 ⎞⎟⎠
==3025

166
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

⎛⎞ 1
μ= np = 80 ⎜ ⎟⎝ ⎠ 4 = 20

σ= 180⎛ ⎞⎛ ⎞⎜ ⎟⎜ ⎟⎝ ⎠⎝ ⎠1443 = 3.873

necesitamos el área entre X 1 = 24.5 y X 2 = 30.5. Los valores Z correspondientes son

Z1 = (24.5 – 20 ) / 3.875 = 1.16 y Z 2 = (30.5 – 20 ) / 3.873 = 2.71

La probabilidad de adivinar correctamente de 25 a 30 preguntas está dada por la región


sombreada de la figura.

P ( 25 ≤ X ≤ 30 ) =p ( 1.16 < Z < 2.71 ) = p ( X < 2.71) – P ( X < 1.16)


= 0.9966 – 0.8770 = 0.1196

3.8 Otras distribuciones muéstrales.

3.8.1 Distribución T - Student.

167
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

Propiedades de las distribuciones t


1. Cada curva t tiene forma de campana con centro en cero.
2. Cada curva t esta mas dispersa que la curva normal estándar z.
3. A medida que v aumenta, la dispersión de la curva t correspondiente disminuye.

X X X
Sean 1, 2,..., n variables aleatorias independientes que son todas normales con μ y

μ
x−
desviación estándar. Entonces la variable aleatoria t = tiene una distribución t con v =
s
n
n – 1 grados de libertad.
Problema: El valor t con v = 14 grados de libertad que deja un área de 0.025 a la izquierda y por
tanto un área de 0.975 a la derecha es

t0.975 =−t0.025 =−2.145

t t
Problema: Encuentre la probabilidad de − 0.025 < <t 0.05

Solución:

t t
Como
0.05 deja un área de 0.05 a la derecha y − 0.025 deja un área de 0.025 a la izquierda

encontramos un área total de 1- 0.05 – 0.025 = 0.925 P(−t0.025 < <t t0.05 ) = 0.925

Problema: Un ingeniero químico afirma que el rendimiento medio de la población de cierto proceso
en lo lotes es 500 gramos por milímetro de materia prima. Para verificar esta afirmación toma una
t
muestra de 25 lotes cada mes. Si el valor de t calculado cae entre t0.05 y 0.05 , queda satisfecho

con su afirmación. ¿Qué conclusión extraería de una muestra que tiene una media de 518 gramos
por milímetro y una desviación estándar de 40 gramos?
Suponga que la distribución de rendimiento es aproximadamente normal.

Solución:

168
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

518 −500
40
t= 25 = 2.25
Este es un valor por arriba de 1.711. Si se desea obtener la probabilidad de obtener un valor de t
con 24 grados de libertad igual o mayor a 2.25 se busca en la tabla y es aproximadamente de
0.02. De aquí es probable que el fabricante concluya que el proceso produce un mejor producto
del que piensa.

3.8.2 Distribución X cuadrada.


Propiedades de las distribuciones ji – cuadrada.
1. Los valores de ܺଶ son mayores o iguales que cero.
2. La forma de una distribución ܺଶ depende del gl = n – l . En consecuencia , hay un
número infinito de distribuciones de ܺଶ.
3. El área bajo una curva ji – cuadrada y sobre el eje horizontal es 1.

Problema: Los siguientes son los pesos en decagramos de 10 paquetes de semillas de pasto
distribuida por cierta compañía: 46.4, 46.1, 45.8, 47.0, 46.1,45.9,45.8, 46.9, 45.2, 46.
Encuentre un intervalo de confianza de 95 % para la varianza de todos los paquetes de semillas
de pasto que distribuye esta compañía suponga una población normal.

Solución:

s = ∑(xi − x)2 = 0.5347 n−1


Al elevar este resultado al cuadrado se obtiene la varianza de la muestra
Varianza = 0.286

Para obtener un intervalo de confianza de 95% se elige un α= 0.05 con 9 grados de


libertad se obtiene los valores de ܺଶ.

169
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

Se puede observar en la gráfica anterior que el valor ܺଶ. Corre en forma normal, esto es de
izquierda a derecha.

Se observa que la varianza corre en sentido contrario, pero esto es solo en la grafica. Con un nivel
de confianza del 95% se sabe que la varianza de la población de los pesos de los paquetes de
semillas de pasto está entre 0.135 y 0.935 decagramos al cuadrado.

Problemas propuestos
P1. En una cierta área de la ciudad se da como una razón del 75% de los robos la necesidad de
dinero para comprar estupefacientes. Encuentre la probabilidad que dentro de los 5 próximos
asaltos reportados en esa área
a) exactamente 2 se debieran a la necesidad de dinero para comprar drogas;
b) cuando mucho 3 se debieran a la misma razón arriba indicada.

170
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

P2. Un agricultor que siembra fruta afirma que 2/3 de su cosecha de duraznos han sido
contaminada por la mosca del mediterráneo. Encuentre la probabilidad de que al inspeccionar
4 duraznos
a) los 4 estén contaminados por la mosca del mediterráneo
b) cualquier cantidad entre 1 y 3 esté contaminada.

P3. De acuerdo con una investigación llevada a cabo por la Administrative Management Society,
1/3 de las compañías en Estados Unidos le dan a sus empleados cuatro semanas de vacaciones
después de 15 años de servicio. Encuentre la probabilidad de que 6 de las compañías
investigadas al azar, el número que les dan a sus empleados cuatro semanas de vacaciones
después de 15 años de servicio es
a) cualquier cantidad entre 2 y 5;

b) menos de 3.
P4. De acuerdo con un estudio publicado por un grupo de sociólogos de la Universidad de
Massachussets, aproximadamente 60% de los adictos al Valium en el estado de Massachussets,
lo tomaron por primera vez debido a problemas psicológicos. Encuentre la probabilidad de que
los siguientes 8 adictos entrevistados
a) exactamente 3 hayan comenzado a usarlo debido a problemas psicológicos.
b) al menos 5 de ellos comenzaran a tomarlo por problemas que no fueron psicológicos.

P5. Al probar una cierta clase de neumático para camión en un terreno escabroso se encontró
que 25% de los camiones terminaban la prueba con los neumáticos dañados. De los siguientes
15 camiones probados encuentre la probabilidad de que
a) De 3 a 6 tengan ponchaduras;
b) Menos de 4 tengan ponchaduras;
c) Mas de 5 tengan ponchaduras

P6. De acuerdo con un reporte publicado en la revista Parade, septiembre 14 de 1980, una
investigación a nivel nacional llevada a cabo por la Universidad de Michigan reveló que casi el
70% de los estudiantes del último año desaprueban las medidas para controlar el hábito de
fumar mariguana todos los días. Si 12 de estos estudiantes se seleccionan al azar y se les
pregunta su opinión, encuentre la probabilidad de que el número que desaprueba dicha medida
sea
a. cualquier cantidad entre 7 y 9

171
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

b. cuando mucho 5;
c. no menos de 8

P7. La probabilidad de que un paciente se recupere de una delicada operación de corazón es


de 0.9. ¿Cuál es la probabilidad de que exactamente 5 de los próximos 7 pacientes que se
sometan a esta intervención sobrevivan?

P8. Un ingeniero de control de tráfico reporta que el 75% de los vehículos que pasan por un
punto de verificación tienen matrículas del estado. ¿Cuál es la probabilidad de que más de 7 de
los siguientes 9 vehículos no sean del estado?

P9. Una investigación de los residentes de una ciudad de Estados Unidos mostró que 20%
preferían un teléfono blanco que de cualquier otro color disponible. ¿Cuál es la probabilidad de
que más de la mitad de los siguientes 20 teléfonos que se instalen en esta ciudad sean de color
blanco?

P10. Se sabe que el 40% de los ratones inyectados con un suero quedan protegidos contra una
cierta enfermedad. Si 5 ratones son inyectados, encuentre la probabilidad de que
a. Ninguno contraiga la enfermedad;
b. Menos de 2 la contraigan;
c. Más de 3 la contraigan

P11. Suponga que los motores de un aeroplano operan en forma independiente y de que fallan
con una probabilidad de 0.4. Suponiendo que uno de estos artefactos realiza un vuelo seguro
en tanto se mantenga funcionando cuando menos la mitad de sus motores, determine qué
aeroplano, uno de los 4 motores o uno de 2, tiene mayor probabilidad de terminar su vuelo
exitosamente.

P12. Las probabilidades son de 0.4, 0.2, 0.3 y 0.1, respectivamente, de que un delegado llegue
por aire a cierta convención, llegue en autobús, 3en automóvil o en tren. ¿Cuál es la probabilidad
de que entre 9 delegados seleccionados aleatoriamente en esta convención, 3 hayan llegado
por aire, 3 en autobús, 1 en automóvil y 2 en tren.

172
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

P13. El dueño de una casa planta 6 tallos que selecciona al azar de una caja que contiene 5
tallos de tulipán y 4 de narciso. ¿Cuál es la probabilidad de que plante 2 tallos de narciso y 4
de tulipán?

P14. Un comité de tres integrantes se forma aleatoriamente seleccionando de entre 4 doctores


y 2 enfermeras. Escriba una fórmula para la distribución de probabilidad de la variable aleatoria
X que representa el número de doctores en el comité. Encuentre P(2 ≤ X ≤ 3).

P15. Una compañía está interesada en evaluar sus actuales procedimientos de inspección en el
embarque de 50 artículos idénticos. El procedimiento es tomar una muestra de 5 piezas y
autorizar el embarque si se encuentra que no más de 2 están defectuosas. ¿qué proporción del
20% de embarques defectuosos serán autorizados?

P16. La probabilidad de que una persona que vive en cierta ciudad posea un perro se estima en
0.3. Encuentre la probabilidad de que la décima persona entrevistada aleatoriamente en esta
ciudad sea la quinta persona que posee un perro.

P17. Un científico inocula varios ratones, uno a la vez, con un germen de una enfermedad hasta
que obtiene 2 que la han contraído. Si la probabilidad de contraer la enfermedad es 1/6. ¿cuál
es la probabilidad de que se requieran 8 ratones?
P18. Suponga que la probabilidad de que una persona determinada crea una historia acerca de
los atentados a una famosa actriz es de 0.8. ¿Cuál es la probabilidad de que
a) la sexta persona que escucha tal historia sea la cuarta que la crea?
b) La tercera persona que escucha tal historia sea la primera en creerla?

P19. Tres personas lanzan una moneda y la que salga dispareja paga los cafés. Si todas las
monedas caen iguales, se lanzan nuevamente. Encuentre la probabilidad de que se necesiten
menos de 4 lanzamientos.

P20. La probabilidad de que un estudiante para piloto apruebe el examen escrito para obtener
su licencia de piloto privado es de 0.7. Encuentre la probabilidad de que una persona apruebe
el examen
a. en el tercer intento
b. antes del cuarto intento

173
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

P21. El número promedio de ratas de campo por acre en un campo de trigo de 5 acres se estima
que es de 12. Encuentre la probabilidad de que menos de 7 ratas de campo se encuentren
a. en una acre de terreno determinado;
b. en 2 de los siguientes 3 acres inspeccionados.

P22. Un restaurante prepara una ensalada que contiene en promedio 5 verduras diferentes.
Encuentre la probabilidad de que la ensalada contenga más de 5 verduras
a. en un determinado día;
b. en 3 de los siguientes 4 días;
c. por primera vez el 5 de abril.

P23. La probabilidad de que una persona muera debido a cierta infección respiratoria es 0.002.
Encuentre la probabilidad de que mueran menos de 5 de las próximas 2000 personas infectadas.

P24. Suponga que en promedio 1 persona de cada 1000 comete un error numérico al preparar
su declaración de impuestos. Si se seleccionan al azar 10 000 formas y se examinan, encuentre
la probabilidad de que 6, 7 u 8 formas tengan error.

P25. La probabilidad de que un estudiante presente problemas de escoliosis (desviación lateral


sufrida por la columna vertebral) en una escuela de la localidad es de 0.004. De los siguientes
1875 estudiantes revisados encuentre la probabilidad de que
a) menos de 5 presenten este problema
b) 8, 9 o 10 presenten este problema

P26. Se está considerando la producción de una máquina automática de soldar. Se considerará


exitosa si tiene una efectividad del 99% en sus soldaduras. De otra manera, no se considerará
eficiente. Se lleva a cabo la prueba de un prototipo y se realizan 100 soldaduras. La máquina
se aceptará para su fabricación si no son defectuosas más de tres soldaduras.
a. ¿Cuál es la probabilidad de que una máquina eficiente sea rechazada?
b. ¿Cuál es la probabilidad de que una máquina ineficiente con 95% de soldaduras
correctas sea aceptada?

P27. Una agencia que renta automóviles en un aeropuerto local tiene disponibles 5 Ford, 7
Chevrolet, 4 Dodge, 3 Datsun y 4 Toyota. Si la agencia selecciona aleatoriamente 9 de estos
vehículos para transportar delegados desde el aeropuerto hasta el centro de convenciones en

174
UNIDAD III / FUNCIONES Y DISTRIBUCIONES MUESTRALES.

el centro de la ciudad, encuentre la probabilidad de que se utilicen 2 Ford, 3 Chevrolet, 1 Dodge,


1 Datsun y 2 Toyota.

P28. Un investigador de la UCLA reporta que las ratas viven un promedio de 40 meses cuando
sus dietas son muy restringidas y luego enriquecidas con vitaminas y proteínas. Suponiendo
que las vidas de tales ratas están normalmente distribuidas con una desviación estándar de 6.3
meses, encuentre la probabilidad de que una rata determinada viva
a) más de 32 meses;
b) menos de 28 meses;
c) entre 37 y 49 meses.

P29. Las piezas de pan de centeno distribuidas a las tiendas locales por una cierta pastelería
tienen una longitud de 30cm y una desviación estándar de 2cm. Suponiendo que las longitudes
están normalmente distribuidas, ¿qué porcentaje de las piezas son
a) de más de 31.7cm de longitud?
b) entre 29.3 y 33.5 cm de longitud?
c) de una longitud menor que 25.5 cm?
P38. Una máquina despachadora de refrescos está ajustada para servir un promedio de 200 ml
por vaso. Si la cantidad de refresco es normalmente distribuida con una desviación estándar
igual a 15 ml.
a) ¿Qué fracción de los vasos contendrá más de 224 ml?
b) ¿Cuál es la probabilidad de que un vaso contenga entre 191 y 209 ml?
c) ¿Cuántos vasos probablemente se derramarán si se utilizan vasos de 230 ml en los
siguientes 1000 refrescos?

175
UNIDAD 4

ESTADISTICA APLICADA.

Objetivo:
Conocerá los aspectos fundamentales de la inferencia

estadística. Definirá su aplicación


en situaciones reales o simuladas.
UNIDAD IV / ESTADISTICA APLICADA.

4.1 Inferencia estadística.

4.1.1 Concepto.
La teoría de la inferencia estadística consiste en aquellos métodos por los que se realizan
inferencias o generalizaciones acerca de una población. La tendencia actual es la distribución
entre el método clásico de estimación de un parámetro de la población, por medio del cual las
inferencias se basan de manera estricta en información que se obtiene de una muestra aleatoria
seleccionada de la población, y el método Bayesiano, que utiliza el conocimiento subjetivo
previo sobre la distribución de probabilidad de los parámetros desconocidos junto con la
información que proporcionan los datos de la muestra. En esta unidad utilizaremos los métodos
clásicos para estimar los parámetros de la población desconocidos como la media, la proporción
y la varianza mediante el cálculo de estadística de muestras aleatorias y la aplicación de la teoría
de las distribuciones muéstrales.

4.1.2 Estimación.
El objetivo principal de la estadística inferencial es la estimación, esto es que mediante el estudio
de una muestra de una población se quiere generalizar las conclusiones al total de la misma.
Como vimos en la sección anterior, los estadísticos varían mucho dentro de sus distribuciones
muéstrales, y mientras menor sea el error estándar de un estadístico, más cercanos serán unos
de otros sus valores.

Existen dos tipos de estimaciones para parámetros; puntuales y por intervalo. Una estimación
puntual es un único valor estadístico y se usa para estimar un parámetro, que se calcula a partir
de una muestra dada y sirve como una aproximación del valor exacto desconocido del parámetro.

El estadístico usado se denomina estimador. Una estimación por intervalo, es la estima de


un parámetro poblacional dada por dos números entre los cuales se considera que se encuentra
dicho parámetro generalmente de ancho finito

4.1.3 Prueba de hipótesis.


Las secciones anteriores han mostrado cómo puede estimarse un parámetro a partir de los datos
contenidos en una muestra. Puede encontrarse ya sea un sólo número (estimador puntual) o un
intervalo de valores posibles (intervalo de confianza). Sin embargo, muchos problemas de
ingeniería, ciencia, y administración, requieren que se tome una decisión entre aceptar o rechazar
una proposición sobre algún parámetro. Esta proposición recibe el nombre de hipótesis. Este es

uno de los aspectos más útiles de la inferencia estadística, puesto que muchos tipos de

177
UNIDAD IV / ESTADISTICA APLICADA.

problemas de toma de decisiones, pruebas o experimentos en el mundo de la ingeniería, pueden


formularse como problemas de prueba de hipótesis.

4.1.4 Método clásico de estimación (puntual).

Una estimación puntual de un parámetro θ es un solo numero que se puede considerar como el

valor mas razonable de θ. La estimación puntual se obtiene al seleccionar una estadística


apropiada y calcular su valor a partir de datos de la muestra dada. La estadística seleccionada

se llama estimador puntual de θ.

4.1.5 Estimador Insesgado.

Entre todos los estimadores de θ que son insesgados, seleccione al que tenga varianza mínima.

ˆ
El θ resultante recibe el nombre de estimador insesgado con varianza mínima
(MVUE, minimum variance unbiased estimator) de . En otras palabras, la eficiencia se refiere al
tamaño de error estándar de la estadística. Si comparamos dos estadísticas de una muestra del
mismo tamaño y tratamos de decidir cuál de ellas es un estimador más eficiente, escogeríamos
la estadística que tuviera el menor error estándar, o la menor desviación estándar de la
distribución de muestreo. Tiene sentido pensar que un estimador con un error estándar menor
tendrá una mayor oportunidad de producir una estimación más cercana al parámetro de
población que se está considerando.

4.2 Intervalos de confianza.

4.2.1 Estimación por intervalo.


Las estimaciones por intervalo de un parámetro poblacional desconocido dan idea de la
precisión y exactitud de la inferencia efectuada, junto con la probabilidad de que tal estimación
sea cierta. Se calculan a través de los llamados: intervalos de confianza. Estos se construyen
con la función probabilística del modelo estadístico adoptado para realizar la estimación

4.2.2 Límites de confianza.

Estimas por intervalo de confianza, de parámetros poblacionales.

178
UNIDAD IV / ESTADISTICA APLICADA.

Un intervalo de confianza con un nivel de confianza de 95% de la resistencia real promedio a la


ruptura podría tener un límite inferior de 9162.5 y uno superior de 9482.9. Entonces, en un nivel

de confianza de 95%, es posible tener cualquier valor de μ entre 9162.5 y 9482.9. Un nivel de
confianza de 95% implica que 95% de todas las muestras daría lugar a un intervalo que incluye

μ o cualquier otro parámetro que se esté estimando, y sólo 5% de las muestras producirá un
intervalo erróneo. Cuanto mayor sea el nivel de confianza podremos creer que el valor del
parámetro que se estima está dentro del intervalo.

Intervalos (S ± σ s , S ± 2σ s , S ± 3σ s ) son llamados lo limites de confianza del 68.27 %,


95.45 % y 99.73 % o como otras veces se conocen limites fiduciales.

Análogamente, S ± 1.96σ s y S ± 2.58 σ s son los limites de confianza del 95 % y 99 % ( ó


0.95 y 0.99 ) para μs.

El porcentaje de confianza se llama también nivel de confianza. Los números 1.96, 2.58, etc., de
los limites de confianza se llaman coeficientes de confianza o valores críticos y se denotan por
Zc . De los niveles de confianza se pueden obtener los coeficientes de confianza y
recíprocamente.

En la tabla siguiente se dan los valores de Z c que corresponden a distintos niveles de confianza
utilizados en la práctica. Para niveles de confianza que no se encuentra en la tabla , los valores
de Z c pueden sacarse de las tablas de la curva normal en el Apéndice A.

Nivel de confianza (%) ܺܺ

179
UNIDAD IV / ESTADISTICA APLICADA.

99.73 3.00

99 2.58

98 2.33

96 2.05

95.45 2.00

95 1.96

90 1.645

80 1.28

68.27 1.00

50 0.6745

Estos intervalos abiertos por izquierda o por derecha se denominan de una cola, mientras que
los comunes para la estimación de parámetros poblacionales son de dos colas.

Niveles de significancia Niveles de confianza Coeficiente de confianza

α NC = (1−α)*100 Zα
0.0005 99.95 % 3.29
0.0010 99.90 % 3.09
0.0013 99.87 % 3.00
0.0050 99.50 % 2.58
0.0100 99.00 % 2.33
0.0227 97.72 % 2.00
0.0250 97.50 % 1.96
0.0500 95.00 % 1.645
0.1587 84.13 % 1.00

99.90% 99.00% 95.00%

1 cola 3.09 2.33 1.645

2 cola 3.29 2.58 1.96

4.2.3 Intervalo de confianza para media con varianza conocida.


1. Grandes muestras ( n ≥ 30 ).

La fórmula para el cálculo de probabilidad es la siguiente:

180
UNIDAD IV / ESTADISTICA APLICADA.

x −μ Z
σ n
=
Como en este caso no conocemos el parámetro y lo queremos estimar por medio de la media de
la muestra, sólo se despejará μ de la formula anterior, quedando lo siguiente:

σ
μ= x±Zc n
De esta fórmula se puede observar que tanto el tamaño de la muestra como el valor de z se
conocerán. Z se puede obtener de la tabla de la distribución normal a partir del nivel de confianza
establecido.

Pero en ocasiones se desconoce σpor lo que en esos casos lo correcto es utilizar otra distribución

llamada “t” de Student si la población de donde provienen los datos es normal. Para el caso de
tamaños de muestra grande se puede utilizar una estimación puntual de la desviación estándar,
es decir igualar la desviación estándar de la muestra a la de la población (s = σ).

En el caso de muestreo en una población infinita o si el muestreo es con remplazamiento en una


población finita y por

σ −
μ= x±Zc N n n N
−1
Si el muestreo es sin remplazamiento en una población finita de tamaño N.

En general, la desviación típica poblacional σ es desconocida, de modo que para obtener los
límites de confianza anteriores se utiliza la estima muestra S.

Muestras grandes.
Problema: Supóngase que las estaturas de 100 estudiantes de la universidad XYZ. Hallar los
intervalos de confianza del:
a) 95 % y
b) 99 % .

Para estimar la estatura media de ⎯X = 67.45 y σ= 2.73pulgadas de los estudiantes de la

universidad XYZ.

181
UNIDAD IV / ESTADISTICA APLICADA.

x ± ZC σ
n
a) Los límites de confianza del 95% son
Zc = 1.96
2.93 2.93
67.45 + 1.96⋅ = 68.02 67.45 − 1.96 ⋅ = 66.88
100 100

Así, pues, el intervalo de confianza del 95 % para la media poblacional μ es 66.88 a 68.02
pulgadas, que puede denotarse por 66.88 < μ < 68.02

b) Los límites de confianza del 99 % son


2.93 2.93
67.45 + 2.58 ⋅ = 68.21 67.45 − 2.58 ⋅ = 66.69
100 100

Así, pues, el intervalo de confianza del 99 % para la media poblacional μ es 66.69 a 68.21
pulgadas, que puede denotarse por 66.69 < μ < 68.21

Problema: Las medidas de los diámetros de una muestra de 200 cojinetes de bolas hechos
por una determinada maquina durante una semana dieron una media de 0.824 pulgadas y una
desviación típica de 0.042 pulgadas. Hallar los limites de confianza del a) 95 %
b) 99 %
Para el diámetro medio de todos los cojinetes.

Solución:
a) los limites de confianza del 95% son
Zc = 1.96

0.042 0.042
+ ⋅ = 0.83 0.824 − 1.96⋅ = 0.818
0.824 200 200 1.96

b) los limites de confianza del 99% son


Zc = 2.58
0.042 0.042
+ ⋅ = 0.832 0.824 − 2.58⋅ = 0.816
0.824 200 200 2.58

Problema: Hallar los limites de confianza del


a) 98 %
b) 90 %
c) 99.73 %

182
UNIDAD IV / ESTADISTICA APLICADA.

Para el diámetro medio de los cojinetes del problema anterior.

Solución:
a) Los limites de confianza del 98 %
Zc = 2.33

0.042 0.042
+ ⋅ = 0.831 0.824 − 2.33⋅ = 0.817
0.824 200 200 2.33

b) Los limites de confianza del 90 %


Zc = 1.645
0.042 0.042
+ ⋅ = 0.829 0.824 − 1.645⋅ = 0.819
0.824 200 200 1.645

c) Los limites de confianza del 99.73 %


Zc = 3.00
0.042 0.042
+ ⋅ = 0.833 0.824 − 3.00 ⋅ = 0.815
0.824 200 200 3.00

Problema: Al medir el tiempo de reacción, un psicólogo estima que la desviación típica del mismo
es de 0.05 segundos.
¿Cuál es el numero de medidas que deberá hacer para que sea del
a) 95 %
b) 99 % la confianza de que error de su estima no exceda de 0.01
segundo ?

Solución:
a) Los límites de confianza del 95 % son.
Tomando σ = s = 0.05 segundos, se tiene que el error será igual a 0.01 si:
(1.96 ) ( 0.05 ) / √ n = 0.01, es decir,
√ n = (1.96)(0.05) / 0.01
√ n = 9.8 n
= 96.04.

Así, pues, se puede estar en la confianza del 95 % de que el error de la estima será menor
de 0.01 si n es 96 o mayor.
b) Los límites de confianza del 99 % son.

Tomando σ = s = 0.05 segundos, se tiene que el error será igual a 0.01 si:

183
UNIDAD IV / ESTADISTICA APLICADA.

(2.58) ( 0.05 ) / √ n = 0.01, es decir,


√ n = (2.58)(0.05) / 0.01 n
= 166.41.
Así, pues, se puede estar en la confianza del 99 % de que el error de la estima será menor de
0.01 si n es 166 o mayor.

Problema: Se encuentra que la concentración promedio de zinc que se saca del agua a partir de
una muestra de mediciones de zinc en 36 sitios diferentes es de 2.6 gramos por mililitro.
Encuentre los intervalos de confianza de 95% y 99% para la concentración media de zinc en el
río. Suponga que la desviación estándar de la población es 0.3.

Solución:
Para el 95 % , Z c = 1.96

2.6 + 1.96⎛⎜ 0.3 ⎟⎞ = 2.7 2.6 − 1.96⎛⎜ 0.3 ⎟⎞ = 2.5


⎝ 36 ⎠ ⎝ 36 ⎠

2.5 <μ< 2.7


para el 99 % ; Z c = 2.58

0.3 0.3
2.6 + 2.58 ⎛ ⎞ = 2.73 2.6 − 2.58 ⎛ ⎞ = 2.47 2.47 <μ< 2.73
⎜ 36 ⎟ ⎜ 36 ⎟
⎝ ⎠ ⎝ ⎠

Problema: Una
empresa eléctrica
fabrica focos que
tienen una duración
aproximadamente
distribuida de forma normal con una desviación estándar de 40 horas. Si una muestra de 30 focos
tiene una duración promedio de 780 horas, encuentre un intervalo de confianza de 96% para la
media de la población de todos los focos que produce esta empresa.

Solución:

⎛ 40 ⎞ ⎛ 40 ⎞
780 − 2.05 ⎜ ⎟ = 765.03 780 + 2.05⋅ ⎜ ⎟ = 794.97
184
UNIDAD IV / ESTADISTICA APLICADA.

⎝ 30 ⎠ ⎝ 30 ⎠ 765 <μ< 794


Con un nivel de confianza del 96% se sabe que la duración media de los focos que produce la
empresa está entre 765 y 765 horas.
Problema: La prueba de corte sesgado es el procedimiento más aceptado para evaluar la calidad
de una unión entre un material de reparación y su sustrato de concreto. El artículo “Testing the
Bond Between Repair Materials and Concrete Substrate” informa que, en cierta investigación, se
obtuvo una resistencia promedio muestral de 17.17 N/mm2, con una muestra de 48
observaciones de resistencia al corte, y la desviación estándar muestral fue 3.28 N/mm2. Utilice
un nivel de confianza inferior del 95% para estimar la media real de la resistencia al corte.

Solución:
Para el intervalo de confianza unilateral, se cargará el área bajo la curva hacia un solo lado como
sigue:

Inferior a 95 % de la tabla es el 90 % que tiene


Z c = 1.645

17.17 −1.645⎛⎜ 3.28 ⎞⎟ = 16.39


⎝ 48 ⎠

Problema: Suponga que un centro de computo regional desea evaluar el desempeño de su


sistema de memoria en disco. Una medida del desempeño es el tiempo medio entre fallas de su
unidad de disco. A fin de estimar este valor, el centro registro el tiempo entre fallas para una
muestra aleatoria de 45 fallas de la unidad de disco. Se calcularon las siguientes estadísticas: x
=1762horas; s = 215 horas , estime el verdadero tiempo medio entre fallas con un intervalo de
confianza de 90%

Solución:
1762 − 1.645 ⋅⎛⎜ 215 ⎟⎞ = 1709.3 1762 + 1.645 ⋅⎛⎜ 215 ⎟⎞ = 1814.7
⎝ 45 ⎠ ⎝ 45 ⎠

1709.3 <μ< 1814.7

Problema: Una muestra aleatoria de 50 calificaciones de matemáticas de un total de 200, arrojo


una media de 75 y una desviación típica de 10
a) ¿Cuales son los limites de confianza del 95 % para la estima de la media de las 200

calificaciones?

185
UNIDAD IV / ESTADISTICA APLICADA.

b) ¿Con que grado de confianza podrá decirse que la media de las 200 calificaciones es 75
± 1?

Solución:
a) Se debe emplearse la formula para poblaciones finitas con muestreo sin
remplazamiento. Entonces los limites de confianza del 95 % son :
10 200 − 50 10 200 − 50
75 + 1.96⋅ ⋅ = 77.41 75 − 1.96⋅ ⋅ = 72.59
50 200 − 1 50 200 − 1

b) Los límites de confianza pueden representarse por:

75 + Z 10 20050−
⋅ ⋅
c 50 200 1−

75 ± 1.23 Z c

Puesto que esto debe ser igual a 75 ± 1 , se tiene que 1.23 Z c = 1 ó Z c = 0.81. El área bajo la
curva desde

p( 0.81−
Por simetría es : z = - 0.81 y z = 0.81 es : ≤ ≤z 0.81)
= p z( ≤ 0.81)− p z( ≤−0.81)

= 0.7910−0.2090 = 0.5820 = 50.2%


De aquí el grado de confianza pedido es de 58.20%

Cálculo del Tamaño de la Muestra para Estimar una Media


¿Qué tan grande debe ser una muestra si la media muestral se va a usar para estimar la media
poblacional? . La respuesta depende del error estándar de la media, si este fuera cero, entonces
se necesitaría una sola media que será igual necesariamente a la media poblacional
desconocida μ, porque σ = 0. Este caso extremo no se encuentra en la práctica, pero refuerza
el hecho de que mientras menor sea el error estándar de la media, menor es el tamaño de
muestra necesario para lograr un cierto grado de precisión.

Se estableció antes que una forma de disminuir el error de estimación es aumentar el tamaño de

la muestra, si éste incluye el total de la población, entonces x −μ sería igual a cero. Con esto en
mente, parece razonable que para un nivel de confianza fijo, sea posible determinar un tamaño
de la muestra tal que el error de estimación sea tan pequeño como queramos, para ser mas

preciso, dado un nivel de confianza y un error fijo de estimación ε,

se puede escoger un tamaño de muestra n tal que P (x −μ <ε) = Nivel de confianza.


186
UNIDAD IV / ESTADISTICA APLICADA.

Con el propósito de determinar n. El error máximo de estimación esta dado por:

Zσ ε=
n
Si se eleva al cuadrado ambos lados de esta ecuación y se despeja n de la ecuación resultante,
obtenemos:
2

n =⎛⎜ Zσ⎞⎟
⎝ε⎠
Como n debe de ser un número entero, redondeamos hacia arriba todos los resultados
fraccionarios.

En el caso de que se tenga una población finita y un muestreo sin reemplazo, el error de
estimación se convierte en:

⎛ Zσ⎞ N − n ε=⎜ ⎟
⎝ n ⎠ N −1
De nuevo se eleva al cuadrado ambos lados y se despeja la n, obteniendo:

Z 2σ2N

n =ε2 (N −1) + Z 2σ2

Problema: Un biólogo quiere estimar el peso promedio de los ciervos cazados en el estado de
Maryland. Un estudio anterior de diez ciervos cazados mostró que la desviación estándar de sus
pesos es de 12.2 libras. ¿Qué tan grande debe ser una muestra para que el biólogo tenga el 95%
de confianza de que el error de estimación es a lo más de 4 libras?

Solución:
⎛ Zσ⎞2 n =
⎜ ⎟=
⎝ε⎠

⎡(1.96 )(12.2)⎤2

⎢⎣ 4 ⎥⎦ = 35.736
En consecuencia, si el tamaño de la muestra es 36, se puede tener un 95% de confianza en que
m difiere en menos de 4 libras de x .

187
UNIDAD IV / ESTADISTICA APLICADA.

Problema: Una empresa eléctrica fabrica focos que tienen una duración aproximadamente
normal con una desviación estándar de 40 horas. ¿De qué tamaño se necesita una muestra si
se desea tener 96% de confianza que la media real esté dentro de 10 horas de la media real?

Solución.

⎛ Zσ⎞2 ⎡(2.053 )(40 )⎤ 2

n = ⎜⎝ ε ⎟⎠ = ⎢⎣ 10⎥⎦ = 67.45

Se necesita una muestra de 68 focos para estimar la media de la población y tener un error
máximo de 10 horas. ¿Qué pasaría si en lugar de tener un error de estimación de 10 horas sólo
se requiere un error de 5 horas?

⎛ Zσ⎞2 ⎡(2.053 )(40 )⎤ 2

n = ⎜⎝ ε ⎟⎠ = ⎢ 5⎥⎦ = 269 .74

Se puede observar como el tamaño de la muestra aumenta, pero esto tiene como beneficio una
estimación más exacta.

Problema: Suponga que en el ejercicio anterior se tiene una población de 300 focos, y se desea
saber de que tamaño debe de ser la muestra. El muestreo se realizará sin reemplazo.

Solución:

z2 2σ N (2.053) (2 40) (2 300)


= =
n ε2(N − +1) z2 2σ (10) (2 300− +1) (2.0532)(40)2 = 55.21
Si se tiene una población finita de 300 focos sólo se tiene que extraer de la población una
muestra sin reemplazo de 55 focos para poder estimar la duración media de los focos restantes
con un error máximo de 10 horas.

188
UNIDAD IV / ESTADISTICA APLICADA.

4.2.4. Intervalo de confianza para una diferencia de medias.

Si se tienen dos poblaciones con medias μ1 y μ2 varianzas σ12 y σ22 , respectivamente, un

estimador puntual de la diferencia entre μ1 y μ2 está dado por la estadística x1 −x2 . Por tanto.

μ μ
Para obtener una estimación puntual de 1 - 2 se seleccionan dos muestras aleatorias

x
independientes, una de cada población, de tamaño n1 y n2, se calcula la diferencia x1 − 2 , de

las medias muéstrales. Recordando a la distribución muestral de diferencia de medias:

Z = (x1 − x 2 ) − (μ1 − μ2 )
2 2
σ 1 σ 2
n1 + n 2

Al despejar de esta ecuación μ1 - μ2 se tiene:


2 2

μ1 −μ2 = ( x1 − x2 ) ±Z σ1 +σ2
n1 n2
En el caso en que se desconozcan las varianzas de la población y los tamaños de muestra sean
mayores a 30 se podrá utilizar la varianza de la muestra como una estimación puntual.

Problema: Se lleva a cabo un experimento en que se comparan dos tipos de motores, A y B. Se


mide el rendimiento en millas por galón de gasolina. Se realizan 50 experimentos con el motor
tipo A y 75 con el motor tipo B. La gasolina que se utiliza y las demás condiciones se mantienen
constantes. El rendimiento promedio de gasolina para el motor A es de 36 millas por galón y el
promedio para el motor B es 42 millas por galón. Encuentre un intervalo de confianza de 96%
sobre la diferencia promedio real para los motores A y B. Suponga que las desviaciones estándar
poblacionales son 6 y 8 para los motores A y B respectivamente.

Solución:
Es deseable que la diferencia de medias sea positiva por lo que se recomienda restar la media
mayor menos la media menor. En este caso será la media del motor B menos la media del motor
A. El valor de z para un nivel de confianza del 96% es de 2.05.

189
UNIDAD IV / ESTADISTICA APLICADA.

σ12 σ22
(42 − 36) ± 2.05 36 + 64 μ1 −μ2 =
( x1 −x2 ) ±Z + =
n1 n2 50 75

3.43 <μA −μB < 8.57

La interpretación de este ejemplo sería que con un nivel de confianza del 96% la diferencia del
rendimiento promedio esta entre 3.43 y 8.57 millas por galón a favor del motor B. Esto quiere
decir que el motor B da más rendimiento promedio que el motor A, ya que los dos valores del
intervalo son positivos.

Problema: Una compañía de taxis trata de decidir si comprar neumáticos de la marca A o de la


B para su flotilla de taxis. Para estimar la diferencia de las dos marcas, se lleva a cabo un
experimento utilizando 12 de cada marca. Los neumáticos se utilizan hasta que se desgastan,
dando como resultado promedio para la marca A 36,300 kilómetros y para la marca B 38,100
Kilómetros. Calcule un intervalo de confianza de 95% para la diferencia promedio de las dos
marcas, si se sabe que las poblaciones se distribuyen de forma aproximadamente normal con
desviación estándar de 5000 kilómetros para la marca A y 6100 kilómetros para la marca B.

Solución:

μ1 −μ2 = ( x1 −x2 ) ±Z σ12 +σ22 =(38100−36300)±1.96 50002 +61002 n1


n2 12 12

− 2662.68 <μB −μA < 6262.67

Como el intervalo contiene el valor “cero”, no hay razón para creer que el promedio de duración
del neumático de la marca B es mayor al de la marca A, pues el cero nos está indicando que
pueden tener la misma duración promedio.

Cálculo del Tamaño de la Muestra para Estimar la Diferencia de Medias


Si se recuerda a la distribución muestral de diferencia de medias se tiene que error esta dado
por:

σ12 σ22
ε= Z + n1 n2

190
UNIDAD IV / ESTADISTICA APLICADA.

En esta ecuación se nos pueden presentar dos casos:


• Los tamaños de muestra son iguales.
• Los tamaño de muestra son diferentes

Para el primer caso no se tiene ningún problema, se eleva al cuadrado la ecuación y se despeja
n ya que n1 es igual a n2.

n = Z2(σ122+σ22)

Para el segundo caso se pondrá una n en función de la otra. Este caso se utiliza cuando las
poblaciones son de diferente tamaño y se sabe que una es K veces mayor que la otra.

Problema: Un director de personal quiere comparar la efectividad de dos métodos de


entrenamiento para trabajadores industriales a fin de efectuar cierta operación de montaje. Se
divide un número de operarios en dos grupos iguales: el primero recibe el método de
entrenamiento 1, y el segundo, el método 2. Cada uno realizará la operación de montaje y se
registrará el tiempo de trabajo. Se espera que las mediciones para ambos grupos tengan una
desviación estándar aproximadamente de 2 minutos. Si se desea que la estimación de la
diferencia en tiempo medio de montaje sea correcta hasta por un minuto, con una probabilidad
igual a 0.95,

¿Cuántos trabajadores se tienen que incluir en cada grupo de entrenamiento?

Solución:

n = Z2(σε122+σ22) = (1.969)21(222 + 22) = 31

Cada grupo debe contener aproximadamente 31 empleados.

191
UNIDAD IV / ESTADISTICA APLICADA.

4.2.5 Intervalo de confianza para proporciones.


Un estimador puntual de la proporción P en un experimento Binomial está dado por la estadística
P = X / N, donde x representa el número de éxitos en n pruebas.

Por tanto, la proporción de la muestra p = x /n se utilizará como estimador puntual del parámetro
P. Si no se espera que la proporción P desconocida esté demasiado cerca de 0 ó de 1, se puede
establecer un intervalo de confianza para P al considerar la distribución muestral de
proporciones.

Z = p−P
Pq
n
Al despejar P de esta ecuación nos queda:

Pq
P= p±Z c
n
En este despeje podemos observar que se necesita el valor del parámetro P y es precisamente
lo que queremos estimar, por lo que lo sustituiremos por la proporción de la muestra p siempre
y cuando el tamaño de muestra no sea pequeño.

Pq
P= p±Zc n
Cuando n es pequeña y la proporción desconocida P se considera cercana a 0 ó a 1, el
procedimiento del intervalo de confianza que se establece aquí no es confiable, por tanto, no se
debe utilizar. Para estar seguro, se debe requerir que np ó nq sea mayor o igual a 5. El error de
estimación será la diferencia absoluta entre p y P, y podemos tener el nivel de confianza de que
esta diferencia no excederá

Pq
P= p±Zc n

El error de estimación será la diferencia absoluta entre p y P, y podemos tener el nivel de


confianza de que esta diferencia no excederá

Pq

192
UNIDAD IV / ESTADISTICA APLICADA.

Zn
Problema: Un fabricante de reproductores de discos compactos utiliza un conjunto de pruebas
amplias para evaluar la función eléctrica de su producto. Todos los reproductores de discos
compactos deben pasar todas las pruebas antes de venderse. Una muestra aleatoria de 500
reproductores tiene como resultado 15 que fallan en una o más pruebas. Encuentre un intervalo
de confianza de 90% para la proporción de los reproductores de discos compactos de la
población que no pasan todas las pruebas.

Solución:

n = 500; p =15/500 = 0.03; z =1.645 pq


P = ±p z
n
0.0175 < <P 0.0425

Problema: En una muestra de 400 pilas tipo B fabricadas por la Everlast Company, se
encontraron 20 defectuosas. Si la proporción p de pilas defectuosas en esa muestra se usa para
estimar P, que vendrá a ser la proporción verdadera de todas las pilas defectuosas tipo B
fabricadas por la Everlast Company, encuentre el máximo error de estimación e tal que se pueda

tener un 95% de confianza en que P dista menos de ε de p.

Solución:
P = x / n = 20 / 400 = 0.05 Z
c = 1.96

pq (0.05)(0.95)
ε= Z=1.96= 0.021 n 400

Si p = 0.05 se usa para estimar P, podemos tener un 95% de confianza en que P dista menos
de 0.021 de p. En otras palabras, si p = 0.05 se usa para estimar P, el error máximo de estimación

será aproximadamente 0.021 con un nivel de confianza del 95%. Para calcular el intervalo de

confianza se tendría: P ±ε= 0.05±0.021

Esto da por resultado dos valores, (0.029, 0.071). Con un nivel de confianza del 95% se sabe
que la proporción de pulas defectuosas de esta compañía está entre 0.029 y 0.071. Si se

193
UNIDAD IV / ESTADISTICA APLICADA.

requiere un menor error con un mismo nivel de confianza sólo se necesita aumentar el tamaño
de la muestra.
Problema: En un estudio de 300 accidentes de automóvil en una ciudad específica, 60 tuvieron
consecuencias fatales. Con base en esta muestra, construya un intervalo del 90% de confianza
para aproximar la proporción de todos los accidentes automovilísticos que en esa ciudad tienen
consecuencias fatales.

Solución:
P = 60/300 = 0.20 ; Zc = 1.645

(0.20)(0.8)
P = 0.20±1.645 300
0.162 < P < 0.238

Problema: Es común utilizar aceros inoxidables en las plantas químicas para manejar fluidos
corrosivos. Sin embargo, estos aceros tienen especial susceptibilidad al agrietamiento por
corrosión causada por esfuerzos en ciertos entornos. En una muestra de 295 fallas de
aleaciones de acero que ocurrieron en refinerías de petróleo y plantas petroquímicas en Japón
durante los últimos 10 años, 118 se debieron a agrietamiento por corrosión causada por
esfuerzos y a fatiga de corrosión ( Materials Performance, junio de 1981). Establezca un intervalo
de confianza de 95 % para verdadera proporción de fallas de aleaciones causadas por
agrietamiento por corrosión debida a esfuerzos.
Solución: P = 118 /
295 = 0.4

pq (0.4)(0.6)
P= p±Z= 0.4±(1.96)= 0.4±0.056 n295
0.344<P< 0.456

Problemas propuestos:
P1. Una encuesta sobre vivienda estadounidense realizada por el Departamento de Comercio
de Estados Unidos revelo que 750 de 1500 propietarios de casa muestreados siguen la filosofía
de “ hágalo usted mismo” , es decir, realizaron ellos mismos la mayor parte del trabajo en por lo
menos una de las mejoras o reparaciones de su hogar ( Bureau of the Census, Statistical Brief,
mayo de 1992). Estime, con un intervalo de confianza de 95 %, la verdadera proporción de

194
UNIDAD IV / ESTADISTICA APLICADA.

propietarios de casas estadounidenses que realizan ellos mismos la mayor parte del trabajo de
mejoramiento o reparación de sus hogares.

P2. La encuesta del “ Agujero Negro”, patrocinada por el Consejo de Investigación sobre Empleo
Profesional, informa cuales son los puestos mas difíciles de llenar en las listas de los
reclutadores. En la encuesta mas recientes, 95 de 285 reclutadores consideraron los puestos de
ingeniería como los mas difíciles de llenar. ( Industrial Engineering, agosto de 1990). Estime el
verdadero porcentaje de reclutadores que consideran que los puestos mas difíciles de llenar son
los de ingeniería. Utilice un intervalo de confianza de 99 % .

P3. Como parte de un convenio de cooperación en investigación entre Estados Unidos y Japón,
se diseño un edificio de concreto armado a escala completa y se aprobó en condiciones
simuladas de carga de un terremoto en Japón (Journal of Structural Enginnering, enero de 1986).
En una parte del estudio se pidió a varios ingenieros de diseño estadounidense que evaluaron
el nuevo diseño. De los 48 ingenieros encuestados, 36 opinaron que la pared de cizallamiento
de la estructura tenía un refuerzo demasiado ligero. Establezca un intervalo de confianza de 95
% para la verdadera proporción de ingenieros de diseño estadounidenses que consideran que
la pared de cizallamiento del edificio tiene un refuerzo demasiado ligero.

4.2.6. Intervalo de confianza para diferencia de proporciones.


Para este caso en particular se utilizará la distribución muestral de diferencia de proporciones
para la estimación de la misma. Recordando la formula:

Z = ( p 1 − p 2 ) − ( P1 − P2 )
P1 q 1 P2 q 2
n1 + n2

P P
Despejando 1 − 2 de esta ecuación:

P1 q 1 P2 q 2
+
P1 − P2 = ( p1 − p2 ) ± Z n1 n2

Aquí se tiene el mismo caso que en la estimación de una proporción, ya que al hacer el despeje
nos queda las dos proporciones poblacionales y es precisamente lo que queremos estimar, por
lo que se utilizarán las proporciones de la muestra como estimadores puntuales:

195
UNIDAD IV / ESTADISTICA APLICADA.

P1 q 1 P2 q 2
+
P1 − P2 = ( p 1 − p 2 ) ± Z n1 n2
Problema: Se considera cierto cambio en un proceso de fabricación de partes componentes. Se
toman muestras del procedimiento existente y del nuevo para determinar si éste tiene como
resultado una mejoría. Si se encuentra que 75 de 1500 artículos del procedimiento actual son
defectuosos y 80 de 2000 artículos del procedimiento nuevo también lo son, encuentre un
intervalo de confianza de 90% para la diferencia real en la fracción de defectuosos entre el
proceso actual y el nuevo.

Solución:

P1 q 1 P2 q 2
P1 − P2 = ( p 1 − p 2 ) ± Z n1 + n 2

−0.0017 < P1 − P2 < 0.0217

Como el intervalo contiene el valor de cero, no hay razón para creer que el nuevo procedimiento
producirá una disminución significativa en la proporción de artículos defectuosos comparada con
el método existente.

Problema: Un artículo relacionado con la salud, reporta los siguientes datos sobre la incidencia
de disfunciones importantes entre recién nacidos con madres fumadoras de marihuana y de
madres que no la fumaban:

Usuario No usuario

Tamaño muestral 1246 11178

Numero de disfunciones 42 294

Proporción muestral 0.0337 0.0263

Encuentre el intervalo de confianza del 99% para la diferencia de proporciones.

Solución:
Representemos P1 la proporción de nacimientos donde aparecen disfunciones entre todas las
madres que fuman marihuana y definamos P2, de manera similar, para las no fumadoras.
El valor de z para un 99% de confianza es de 2.58.

196
UNIDAD IV / ESTADISTICA APLICADA.

P1q1 P2q2
P1 − P2 = (p1 − p2) ± Z +
n1 n2
− 0.0064 < P1 − P2 < 0.0212

Este intervalo es bastante angosto, lo cual sugiere que P 1-P2 ha sido estimado de manera
precisa.

Problema: Un ingeniero de tráfico realizo un estudio de velocidades vehiculares en un segmento


de calle en la cual se cambio varias veces el límite de velocidad señalizado. Cuando el límite era
de 30 millas por hora, el ingeniero vigilo las velocidades de 100 vehículos elegidos al azar que
transitaron por la calle y observo 49 violaciones del límite de velocidad. Después de que el limite
se elevo a 35 millas por hora, el ingeniero volvió a vigilar las velocidades de 100 vehículos
elegidos aleatoriamente y observo 19 que violaron el limite. Establezca un intervalo de confianza
p p
de 99% para ( 1 − 2), donde p1 es la verdadera proporción de vehículos que excedieron el

límite de velocidad menor ( 30 millas por hora) y p2 es la verdadera proporción de vehículos que
( en condiciones de circulación similares) excedieron el límite de velocidad mayor ( 35 millas por
hora).

Solución:
p1 = 49/100 = 0.49 p2
= 19/100 = 0.19

P1q1 P2q2
P1 − P2 = (p1 − p2) ± Z + n1
n2

(0.49)(0.51)(0.19)(0.81)
P1−P2 =(0.49−0.19)±2.58 + =0.30±0.164
100 100
0.136<P1−P2 <0.464

Determinación de Tamaños de Muestra para Estimaciones


Al iniciar cualquier investigación, la primer pregunta que surge es: ¿de qué tamaño debe ser la
o las muestras?. La respuesta a esta pregunta la veremos en esta sección, con conceptos que
ya se han visto a través de este material.

197
UNIDAD IV / ESTADISTICA APLICADA.

Se desea saber que tan grande se requiere que sea una muestra para asegurar que el error al
estimar P sea menor que una cantidad específica ε.

pq
ε=Z n
Elevando al cuadrado la ecuación anterior se despeja n y nos queda:

Z 2 pq
n= 2

ε
Esta fórmula está algo engañosa, pues debemos utilizar p para determinar el tamaño de la
muestra, pero p se calcula a partir de la muestra.

Existen ocasiones en las cuales se tiene una idea del comportamiento de la proporción de la
población y ese valor se puede sustituir en la fórmula, pero si no se sabe nada referente a esa
proporción entonces se tienen dos opciones:

• Tomar una muestra preliminar mayor o igual a 30 para proporcionar una estimación de
P. Después con el uso de la fórmula se podría determinar de forma aproximada cuántas
observaciones se necesitan para proporcionar el grado de precisión que se desea.

• Tomar el valor de p como 0.5 ya que sustituyendo este en la fórmula se obtiene el


tamaño de muestra mayor posible.

En el caso de que se tenga una población finita y un muestreo sin reemplazo, el error de
estimación se convierte en:

ε= Z pq N
−nn N
−1
De nuevo se eleva al cuadrado ambos lados y se despeja la n, obteniendo:

Z 2 pqN

n =ε2(N −1) +Z 2 pq
Problema: En una muestra aleatoria de 500 familias que tienen televisores en la ciudad de
Hamilton, Canadá, se encuentra que 340 están suscritas a HBO. ¿Qué tan grande se requiere

198
UNIDAD IV / ESTADISTICA APLICADA.

que sea una muestra si se quiere tener 95% de confianza de que la estimación de P esté dentro
de 0.02?

Solución:
p = 340/500=0.68.

Z 2 pq (1.96)2(0.68)(0.32)
n = ε2 = (0.02)2 = 2089.83
Por lo tanto si basamos nuestra estimación de P sobre una muestra aleatoria de tamaño 2090,
se puede tener una confianza de 95% de que nuestra proporción muestral no diferirá de la
proporción real por más de 0.02.

Problema: Una legisladora estatal desea encuestar a los residentes de su distrito para conocer
qué proporción del electorado conoce la opinión de ella, respecto al uso de fondos estatales para
pagar abortos. ¿Qué tamaño de muestra se necesita si se requiere un confianza del 95% y un
error máximo de estimación de 0.10?

Solución:
En este problema, se desconoce totalmente la proporción de residentes que conoce la opinión
de la legisladora, por lo que se utilizará un valor de 0.5 para p.

Z 2 pq (1.96)2 (0.50)(0.50)
n= 2 = (0.10)2 = 96.04 ε
Se requiere un tamaño de muestra de 97 residentes para que con una confianza del 95% la
estimación tenga un error máximo de 0.10.

Cálculo del Tamaño de la Muestra para Estimar la Diferencia de Proporciones


Si se recuerda a la distribución muestral de diferencia de medias se tiene que error esta dado
por:

p1q1 p2q2
ε= Z + n1
n2

En esta ecuación se nos pueden presentar dos casos:

199
UNIDAD IV / ESTADISTICA APLICADA.

• Los tamaños de muestra son iguales. •


Los tamaños de muestra son diferentes.

n = z2(p1q1 2+ p2q2)

ε
Problema: Una compañía de productos alimenticios contrató a una empresa de investigación de
mercadotecnia, para muestrear dos mercados, I y II, a fin de comparar las proporciones de
consumidores que prefieren la comida congelada de la compañía con los productos de sus
competidores. No hay información previa acerca de la magnitud de las proporciones P1 y P2. Si
la empresa de productos alimenticios quiere estimar la diferencia dentro de 0.04, con una
probabilidad de 0.95, ¿Cuántos consumidores habrá que muestrear en cada mercado?
Solución:

) ]
n = Z 2( p1q1 + p2q2) = (1.96)2[(0.5)(0.5 + (0.5)(0.5) = 1200 .5

22 ε (0.04)

Se tendrá que realizar encuestas a 1201 consumidores de cada mercado para tener una
estimación con una confianza del 95% y un error máximo de 0.04.

Problemas propuestos
P1. Se probó una muestra aleatoria de 400 cinescopios de televisor y se encontraron 40
defectuosos. Estime el intervalo que contiene, con un coeficiente de confianza de 0.90, a la
verdadera fracción de elementos defectuosos.

P2. Se planea realizar un estudio de tiempos para estimar el tiempo medio de un trabajo, exacto
dentro de 4 segundos y con una probabilidad de 0.90, para terminar un trabajo de montaje. Si la
experiencia previa sugiere que = 16 seg. mide la variación en el tiempo de montaje entre un
trabajador y otro al realizar una sola operación de montaje, ¿cuántos operarios habrá que incluir
en la muestra?

P3. El decano registró debidamente el porcentaje de calificaciones D y F otorgadas a los


estudiantes por dos profesores universitarios de matemáticas. El profesor I alcanzó un 32%,

200
UNIDAD IV / ESTADISTICA APLICADA.

contra un 21% para el profesor II, con 200 y 180 estudiantes, respectivamente. Estime la
diferencia entre los porcentajes de calificaciones D y F otorgadas por los dos profesores.
Utilice un nivel de confianza del 95% e interprete los resultados.

P4. Suponga que se quiere estimar la producción media por hora, en un proceso que produce
antibiótico. Se observa el proceso durante 100 períodos de una hora, seleccionados al azar y se
obtiene una media de 34 onzas por hora con una desviación estándar de 3 onzas por hora.
Estime la producción media por hora para el proceso, utilizando un nivel de confianza del 95%.

P5. Un ingeniero de control de calidad quiere estimar la fracción de elementos defectuosos en


un gran lote de lámparas. Por la experiencia, cree que la fracción real de defectuosos tendría
que andar alrededor de 0.2. ¿Qué tan grande tendría que seleccionar la muestra si se quiere
estimar la fracción real, exacta dentro de 0.01, utilizando un nivel de confianza fe 95%?

P6. Se seleccionaron dos muestras de 400 tubos electrónicos, de cada una de dos líneas de
producción, A y B. De la línea A se obtuvieron 40 tubos defectuosos y de la B 80. Estime la
diferencia real en las fracciones de defectuosos para las dos líneas, con un coeficiente de
confianza de 0.90 e intérprete los resultados.

P7. Se tienen que seleccionar muestras aleatorias independientes de n1 = n2 = n observaciones


de cada una de dos poblaciones binomiales, 1 y 2. Si se desea estimar la diferencia entre los
dos parámetros binomiales, exacta dentro de 0.05, con una probabilidad de 0.98. ¿qué tan
grande tendría que ser n?. No se tiene información anterior acerca de los valores P1 y P2, pero
se quiere estar seguro de tener un número adecuado de observaciones en la muestra.

P8. Se llevan a cabo pruebas de resistencia a la tensión sobre dos diferentes clases de largueros
de aluminio utilizados en la fabricación de alas de aeroplanos comerciales. De la experiencia
pasada con el proceso de fabricación se supone que las desviaciones estándar de las
resistencias a la tensión son conocidas. La desviación estándar del larguero 1 es de 1.0 Kg/mm2
y la del larguero 2 es de 1.5 Kg/mm2. Se sabe que el comportamiento de las resistencias a la
tensión de las dos clases de largueros son aproximadamente normal. Se toma una muestra de
10 largueros del tipo 1 obteniéndose una media de 87.6 Kg/mm2, y otra de tamaño 12 para el
larguero 2 obteniéndose una media de 74.5 Kg/mm2. Estime un intervalo de confianza del 90%
para la diferencia en la resistencia a la tensión promedio. 50

201
UNIDAD IV / ESTADISTICA APLICADA.

P9. Se quiere estudiar la tasa de combustión de dos propelentes sólidos utilizados en los
sistemas de escape de emergencia de aeroplanos. Se sabe que la tasa de combustión de los
dos propelentes tiene aproximadamente la misma desviación estándar; esto es σ1 = σ2 = 3 cm/s.
¿Qué tamaño de muestra debe utilizarse en cada población si se desea que el error en la
estimación de la diferencia entre las medias de las tasas de combustión sea menor que 4 cm/s
con una confianza del 99%?.

4.3 Pruebas de hipótesis.

La Teoría de la Decisión Estadística como herramienta básica para la toma de decisiones,


basadas en evidencia científica. La manera de hacerlo es plantear las hipótesis posibles y luego
efectuarle una prueba o test estadístico. Llamada en algunas obras: la docimasia estadística.
Cuando una conclusión se valida con un test estadístico se la llama de tipo cuantitativo, en caso
contrario la decisión adoptada es de tipo cualitativo, o sea, una decisión tomada en forma
subjetiva. El método consiste en definir una probabilidad de aceptación del orden del 95% (o
rechazo) de una hipótesis de trabajo planteada, que permite calcular los valores críticos (o límites
de aceptación) de un estadígrafo calculado a partir de los valores medidos. La importancia de
este tema es muy grande. Basta decir que el objeto final de la Estadística es la toma de
decisiones

Hipótesis estadística es una suposición hecha con respecto a la función de


distribución de una variable aleatoria.

Las pruebas que se realizan para plantear las hipótesis se conocen con el nombre de ensayos
de validación estadística. El problema básico es determinar si las diferencias observadas entre
el valor obtenido y el valor esperado se deben al azar, o si realmente son diferentes.

Suponga que se tiene interés en la rapidez de combustión de un agente propulsor sólido


utilizado en los sistemas de salida de emergencia para la tripulación de aeronaves. El interés se
centra sobre la rapidez de combustión promedio. De manera específica, el interés recae en decir
si la rapidez de combustión promedio es o no 50 cm/s. Esto puede expresarse de manera formal
como

202
UNIDAD IV / ESTADISTICA APLICADA.

H 0 ;μ = 50 cm / s

H 1;μ ≠ 50 cm / s

La proposición Ho; μ = 50 cm/s, se conoce como hipótesis nula, mientras que la proposición
H1; μ ≠ 50 cm/s, recibe el nombre de hipótesis alternativa. Puesto que la hipótesis alternativa
especifica valores de μ que pueden ser mayores o menores que 50 cm/s, también se conoce
como hipótesis alternativa bilateral. En algunas situaciones, lo que se desea es formular una
hipótesis alternativa unilateral, como en

Ho; μ = 50 cm/s Ho; μ = 50 cm/s H1; μ


< 50 cm/s H1; μ > 50 cm/s

Es importante recordar que las hipótesis siempre son proposiciones sobre la población o
distribución bajo estudio, no proposiciones sobre la muestra. Por lo general, el valor del
parámetro de la población especificado en la hipótesis nula se determina en una de tres maneras
diferentes:

1. Puede ser resultado de la experiencia pasada o del conocimiento del proceso, entonces
el objetivo de la prueba de hipótesis usualmente es determinar si ha cambiado el valor
del parámetro.

2. Puede obtenerse a partir de alguna teoría o modelo que se relaciona con el proceso
bajo estudio. En este caso, el objetivo de la prueba de hipótesis es verificar la teoría o
modelo.

3. Cuando el valor del parámetro proviene de consideraciones externas, tales como las
especificaciones de diseño o ingeniería, o de obligaciones contractuales. En esta
situación, el objetivo usual de la prueba de hipótesis es probar el cumplimiento de las
especificaciones.

Un procedimiento que conduce a una decisión sobre una hipótesis en particular recibe el nombre
de prueba de hipótesis. Los procedimientos de prueba de hipótesis dependen del empleo de
la información contenida en la muestra aleatoria de la población de interés. Si esta información
es consistente con la hipótesis, se concluye que ésta es verdadera; sin embargo si esta

203
UNIDAD IV / ESTADISTICA APLICADA.

información es inconsistente con la hipótesis, se concluye que esta es falsa. Debe hacerse
hincapié en que la verdad o falsedad de una hipótesis en particular nunca puede conocerse con
certidumbre, a menos que pueda examinarse a toda la población. Usualmente esto es imposible
en muchas situaciones prácticas. Por tanto, es necesario desarrollar un procedimiento de prueba
de hipótesis teniendo en cuenta la probabilidad de llegar a una conclusión equivocada. La
hipótesis nula, representada por Ho, es la afirmación sobre una o más características de
poblaciones que al inicio se supone cierta (es decir, la “creencia a priori”). La hipótesis
alternativa, representada por H1, es la afirmación contradictoria a Ho, y ésta es la hipótesis del
investigador.

La hipótesis nula se rechaza en favor de la hipótesis alternativa, sólo si la evidencia muestral


sugiere que es falsa. Si la muestra no contradice decididamente a Ho, se continúa creyendo en
la validez de la hipótesis nula. Entonces, las dos conclusiones posibles de un análisis por prueba
de hipótesis son rechazar Ho o no rechazar Ho.

Para establecer la verdad o falsedad de una hipótesis estadística con certeza total, será
necesario examinar toda la población. En la mayoría de las situaciones reales no es posible o
practico efectuar este examen, y el camino más aconsejable es tomar una muestra aleatoria de
la población y con base a ella decidir si la hipótesis es verdadera o falsa.

En la prueba de una hipótesis estadística, es costumbre declarar la hipótesis como verdadera si


la probabilidad calculada excede el valor tabular llamado el nivel de significación y se declara
falsa si la probabilidad calculada es menor que el valor tabular. La prueba a realizar dependerá
del tamaño de las muestras de la homogeneidad de las varianzas y de la dependencia o no de
las variables.

Prueba de una Hipótesis Estadística


Para ilustrar los conceptos generales, considere el problema de la rapidez de combustión del
agente propulsor presentado con anterioridad. La hipótesis nula es que la rapidez promedio de
combustión es 50 cm/s, mientras que la hipótesis alternativa es que ésta no es igual a 50 cm/s.
Esto es, se desea probar:

H 0 ;μ = 50 cm / s

H 1;μ ≠ 50 cm / s

204
UNIDAD IV / ESTADISTICA APLICADA.

Supóngase que se realiza una prueba sobre una muestra de 10 especímenes, y que se observa
cual es la rapidez de combustión promedio muestral. La media muestral es un estimador de la
media verdadera de la población. Un valor de la media muestral x que este próximo al valor

hipotético μ = 50 cm/s es una evidencia de que el verdadero valor de la media m es realmente


50 cm/s; esto es, tal evidencia apoya la hipótesis nula Ho. Por otra parte, una media muestral
muy diferente de 50 cm/s constituye una evidencia que apoya la hipótesis alternativa H1. Por
tanto, en este caso, la media muestral es el estadístico de prueba.

La media muestral puede tomar muchos valores diferentes. Supóngase que si

48.5 ≤ x ≤ 51.5, entonces no se rechaza la hipótesis nula Ho; μ = 50 cm/s, y que si x


<48.5 ó x > 51.5, entonces se acepta la hipótesis alternativa H1; μ ≠ 50 cm/s. Los valores de x

que son menores que 48.5 o mayores que 51.5 constituyen la región crítica de la prueba,

mientras que todos los valores que están en el intervalo 48.5 ≤ x ≤ 51.5 forman la región de
aceptación. Las fronteras entre las regiones críticas y de aceptación reciben el nombre de
valores críticos. La costumbre es establecer conclusiones con respecto a la hipótesis nula Ho.
Por tanto, se rechaza Ho en favor de H1 si el estadístico de prueba cae en la región crítica, de lo
contrario, no se rechaza Ho.

Contrastes de hipótesis y significación o reglas de decisiones:


Si suponemos que una hipótesis particular es cierta pero vemos que los resultados hallados en
una muestra aleatoria difieren notablemente de los esperados bajo tal hipótesis entonces
diremos que las diferencias observadas son significativas y nos veríamos inclinados a rechazar
la hipótesis.

Los procedimientos que nos capacitan para determinar si las muestras observadas difieren
significativamente de los resultados esperados y por tanto nos ayuda a decidir si aceptamos o
rechazamos hipótesis, se llama contraste (o tests) de hipótesis o de significación o reglas de
decisión.

Nivel de significación.
Al contrastar una cierta hipótesis, la máxima probabilidad con la que estamos dispuestos a correr
el riesgo de cometer un error tipo I se llama nivel de significación del contraste. Esta probabilidad
se denota a menudo por α, se suele especificar antes de tomar una muestra, de manera que los
resultados obtenidos no influyan a nuestra elección.

205
UNIDAD IV / ESTADISTICA APLICADA.

Es frecuente un nivel de significación de 0.05 o 0.01, si bien se usan otros valores si por ejemplo,
se escoge el nivel de significación 0.05 (o 5 %) al diseñar una regla de decisiones entonces hay
5 oportunidades entre 100 de rechazar la hipótesis cuando debiera haberse aceptado; es decir,
tenemos un 95 % de confianza de que hemos adoptado la decisión correcta y por lo tanto tiene
una probabilidad de 0.05 de ser falsa.

Tipos de Ensayo (Contrastes de una y de dos colas).


Se pueden presentar tres tipos de ensayo de hipótesis que son:
• Bilateral
• Unilateral Derecho
• Unilateral Izquierdo

En el test precedente estábamos interesados en los valores extremos del estadístico S o en su


correspondiente valor de Z a ambos lados de la media (o sea en las dos colas de la distribución)
tales test se llaman contraste de dos colas o bilaterales.

Con frecuencia, no obstante, estaremos interesados tan solo en valores extremos aun lado de
la media (o sea, en una de las colas de la distribución), tal como sucede cuando se contrasta la
hipótesis de que un proceso es mejor que el otro (lo cual no es lo mismo que contrastar si un
proceso es mejor o peor que el otro). Tales contrastes se llaman unilaterales o de una cola. En
tales situaciones, la región crítica es una región situada a un lado de la distribución, con área
igual al nivel de significación. Tabla de valores críticos de z para contrastes de una o de dos
colas en varios niveles de significación.

Nivel de significancia , Valores criticos z, Valores criticos z, para


para tests unilateral tests bilateral
α

0.10 -1.28 o 1.28 -1.645 y 1.645

0.05 -1.645 0 1.645 -1.96 y 1.96

0.01 -2.33 o 2.33 -2.58 y 2.58

0.005 -2.58 0 2.58 -2.81 y 2.81

0.002 -2.88 o 2.88 -3.08 y 3.08

Bilateral Unilateral Derecho

206
UNIDAD IV / ESTADISTICA APLICADA.

Unilateral Izquierdo

Uso de valores P para la toma de decisiones


Al probar hipótesis en las que la estadística de prueba es discreta, la región crítica se puede

elegir de forma arbitraria y determinar su tamaño. Si α es demasiado grande, se puede reducir


al hacer un ajuste en el valor crítico. Puede ser necesario aumentar el tamaño de la muestra
para compensar la disminución que ocurre de manera automática en la potencia de la prueba
(probabilidad de rechazar Ho dado que una alternativa específica es verdadera). Por
generaciones enteras de análisis estadístico, se ha hecho costumbre elegir un nivel de
significancia de 0.05 ó 0.01 y seleccionar la región crítica en consecuencia. Entonces, por
supuesto, el rechazo o no rechazo estricto de Ho dependerá de esa región crítica. En la
estadística aplicada los usuarios han adoptado de forma extensa la aproximación del valor P.
La aproximación se diseña para dar al usuario una alternativa a la simple conclusión de “rechazo”
o “no rechazo”.

La aproximación del valor P como ayuda en la toma de decisiones es bastante natural pues casi
todos los paquetes de computadora que proporcionan el cálculo de prueba de hipótesis entregan
valores de P junto con valores de la estadística de la prueba apropiada.

• Un valor P es el nivel (de significancia) más bajo en el que el valor observado de la


estadística de prueba es significativo.

207
UNIDAD IV / ESTADISTICA APLICADA.

• El valor P es el nivel de significancia más pequeño que conduce al rechazo de la


hipótesis nula Ho.

• El valor P es el mínimo nivel de significancia en el cual Ho sería rechazada cuando se


utiliza un procedimiento de prueba especificado con un conjunto dado de información.
Una vez que el valor de P se haya determinado, la conclusión en
cualquier nivel α particular resulta de comparar el valor P con α:
1. Valor P ≤ α ⇒ rechazar Ho al nivel α.
2. Valor P > α ⇒ No rechazar Ho al nivel α.

Errores de tipo I y de tipo II


Si rechazamos una hipótesis cuando debiera ser aceptada diremos que se ha cometido un error

de tipo I, la probabilidad de cometer un error tipo I se denota por el símbolo α. Por otra parte, si
aceptamos una hipótesis que debiera ser rechazada, diremos que se ha cometido un error de

208
UNIDAD IV / ESTADISTICA APLICADA.

tipo II, la probabilidad de cometer un error tipo II se denota por el símbolo β. En ambos casos
se ha producido un juicio erróneo.

Decisión Ho es verdadera Ho es falsa

Aceptar Ho No hay error Error tipo II

Rechazar Ho Error tipo I No hay error

1. Los errores tipo I y tipo II están relacionados. Una disminución en la probabilidad de uno
por lo general tiene como resultado un aumento en la probabilidad del otro.

2. El tamaño de la región crítica, y por tanto la probabilidad de cometer un error tipo I,


siempre se puede reducir al ajustar el o los valores críticos.

3. Un aumento en el tamaño muestral n reducirá α y β de forma simultánea.

4. Si la hipótesis nula es falsa, β es un máximo cuando el valor real del parámetro se


aproxima al hipotético. Entre más grande sea la distancia entre el valor real y el valor
hipotético, será menor β.

Pasos para establecer un ensayo de hipótesis independientemente de la distribución que se esté


tratando:
1. Interpretar correctamente hacia que distribución muestral se ajustan los datos del
enunciado.
2. Interpretar correctamente los datos del enunciado diferenciando los parámetros de los
estadísticos. Así mismo se debe determinar en este punto información implícita como el
tipo de muestreo y si la población es finita o infinita.
3. Establecer simultáneamente el ensayo de hipótesis y el planteamiento gráfico del
problema. El ensayo de hipótesis está en función de parámetros ya que se quiere evaluar
el universo de donde proviene la muestra. En este punto se determina el tipo de ensayo
(unilateral o bilateral).
4. Establecer la regla de decisión. Esta se puede establecer en función del valor crítico, el

cual se obtiene dependiendo del valor de α (Error tipo I o nivel de significancia) o en función

del estadístico límite de la distribución muestral. Cada una de las hipótesis deberá ser
argumentada correctamente para tomar la decisión, la cual estará en función de la
hipótesis nula o Ho.

209
UNIDAD IV / ESTADISTICA APLICADA.

5. Calcular el estadístico real, y situarlo para tomar la decisión.


6. Justificar la toma de decisión y concluir.

4.3.1 Prueba de hipótesis para la media poblacional.

x −μ
σ
Z= n
Problema: Una muestra aleatoria de 100 muertes registradas en Estados Unidos el año pasado
muestra una vida promedio de 71.8 años. Suponga una desviación estándar poblacional de 8.9
años, ¿esto parece indicar que la vida media de hoy en día es mayor que 70 años? Utilice un
nivel de significancia de 0.05

Solución:
1. Se trata de una distribución muestral de medias con desviación estándar conocida.

2. Datos: μ= 70
σ= 8.9 x
= 71.8 n
=100
α= 0.05

3. Ho : μ = 70 años
H1 : μ > 70 años

4. Región critica o regla de decisión Si Z R ≤ 1.645 no se rechaza Ho.


Si Z R > 1.645 se rechaza Ho y se acepta H 1.
5. Cálculos:

=
σ 89
Z= n 100 x −μ0 71.8 − 70 = 2.02

210
UNIDAD IV / ESTADISTICA APLICADA.

6. Justificación y decisión:
Como 2.02 > 1.645 se rechaza Ho y se concluye con un nivel de significancia del 0.05 que la
vida media hoy en día es mayor que 70 años.

Problema: Una empresa eléctrica fabrica focos que tienen una duración que se distribuye de
forma aproximadamente normal con una media de 800 horas y una desviación estándar de 40
horas. Si una muestra aleatoria de 30 focos tiene una duración promedio de 788 horas,
¿muestran los datos suficiente evidencia para decir que la duración media ha cambiado?
Utilice un nivel de significancia del 0.04.

Solución:
1. Se
trata de una
distribución
muestral de
medias con
desviación
estándar
conocida.

2. Dat

os: μ= 800

horas σ=
40 horas x
= 788 horas
n = 30

α = 0.04

3. Ensayo de hipótesis

Ho; μ = 800 horas

H1; μ1 ≠ 800 horas

211
UNIDAD IV / ESTADISTICA APLICADA.

4. Regla de Decisión:
Si –2.052 ≤ ZR ≤ 2.052 No se rechaza Ho
Si ZR < -2.052 ó si ZR > 2.052 Se rechaza Ho

5. Cálculos:

x
= −μ0788 − 800 1.643
Z σ 40
==−
n 30 6.Justificación y decisión:

−2.052 ≤ -1.643 ≤ 2.052 por lo tanto, no se rechaza Ho y se concluye con un nivel de


significancia del 0.04 que la duración media de los focos no ha cambiado.

Problema: Un fabricante de equipo deportivo desarrolla un nuevo sedal sintético que afirma tiene
una resistencia media a la tensión de ocho kilogramos con una desviación estándar de 0.5 Kg.
Pruebe la hipótesis μ = 8 Kg. Contra la alternativa μ ≠ 8 Kg. si se prueba una muestra aleatoria
de 50 sedales y se encuentra que tiene una resistencia media a la tensión de 7.78 Kg. –utilice
un nivel de significancia de 0.01

Solución:
1. Se trata de una distribución muestral de medias con desviación estándar
conocida.

2. Datos: μ= 8 Kg. σ= 0.5 Kg. x = 7.8 Kg. n = 50

α = 0.01

3. Ho : μ = 8 Kg.

H1 : μ ≠ 8 Kg.

212
UNIDAD IV / ESTADISTICA APLICADA.

4. Regla de Decisión:
Si –2.58 ≤ ZR ≤ 2. 58 No se rechaza Ho
Si ZR < -2.58 ó si ZR > 2.58 Se rechaza Ho

5. Cálculos:

x −μ0 7.8 − 8.0 2.83


=
Z σ 0 .5
== −
n 50

6. Justificación y decisión:
Como Si –2.83 < -2.58 por lo tanto, se rechaza Ho y se concluye que la resistencia promedio
a la tensión no es igual a 8 Kg. sino que, de hecho, es menor que 8 Kg. con un nivel de
significancia del 0.01 .

Problema: Una muestra aleatoria de 64 bolsas de palomitas de maíz pesan, en promedio 5.23
onzas con una desviación estándar de 0.24 onzas. Pruebe la hipótesis de que μ = 5.5 onzas
contra al hipótesis alternativa, μ < 5.5 onzas en el nivel de significancia de 0.05.

Solución:
1. Se trata de una distribución muestral de medias con desviación estándar desconocida,
pero como el tamaño de muestra es mayor a 30 se puede tomar la desviación muestral
como un estimador puntual para la poblacional.

2. Datos: μ = 5.5 onzas σ = 0.24 onzas x = 5.23 onzas n = 64 a = 0.05


3. Ensayo de hipótesis

Ho; μ= 5.5 onzas

H1; μ < 5.5 onzas

4. Regla de decisión:
Si ZR -1.645 No se rechaza Ho

213
UNIDAD IV / ESTADISTICA APLICADA.

Si ZR < -1.645 Se rechaza Ho

5. Cálculos:
x −μ 0 5.25 − 5.5 9
=
σ 0 .24
Z= n 64 =−

6. Justificación y decisión:
Como –9 < -1.645 por lo tanto se rechaza Ho y se concluye con un nivel de significancia del
0.05 que las bolsas de palomitas pesan en promedio menos de 5.5 onzas.

Problema: La duración media de una muestra de 100 tubos fluorescentes producidos por una
compañía resulta ser 1570 hrs. Con una desviación típica de 120 hrs. Si μ es la duración media
de todos los tubos producidos por la compañía, comprobar la hipótesis μ = 1600 hrs. Contra la
hipótesis alternativa μ ≠ 1600 hrs. Con un nivel de significancia de (a) 0.05 y (b) 0.01

Solución:
a)
1. Se trata de una distribución muestral de medias con desviación estándar conocida.

2. Datos: ∝ = 0.05 n = 100 x = 1570 σ = 120 hrs.

3. Ensayo de hipotesis

H0 : μ = 1600 hrs.
H1 : μ ≠ 1600 hrs.

4. Regla de decisión

Si –1.96 ≤ ZR ≤ 1.96 No se rechaza Ho Si

ZR < -1.96 ó si ZR > 1.96 Se rechaza Ho

5. Cálculos
Z = 1570 −1600 =−2.50
120
100

214
UNIDAD IV / ESTADISTICA APLICADA.

6. Justificación y decisión
Como Si –2.50 < -1.96 por lo tanto, se rechaza Ho y se concluye que La duración media de
una muestra de 100 tubos fluorescentes producidos por una compañía no resulta ser 1570
hrs., sino que, de hecho , es menor que 1570 hrs. con nivel de significancia del 0.05 que la
duración media de todos los tubos producidos por la compañía no ha cambiado.

b)
1. Se trata de una distribución muestral de medias con desviación estándar conocida.

2. Datos: ∝ = 0.01 n = 100 x = 1570 σ = 120 hrs.

3. Ensayo de hipotesis

H0 : μ = 1600 hrs.
H1 : μ ≠ 1600 hrs.

4. Regla de decisión

Si –2.58 ≤ ZR ≤ 2.58 No se rechaza Ho


Si ZR < -2.58 ó si ZR > 2.58 Se rechaza Ho

5. Cálculos

Z = 1570 −1600 =−2.50


120
100
6. Justificación y decisión
Como Si –2.58 ≤ -2.50 ≤ 2.58 como se encuentra dentro de este rango, se acepta Ho (o no
se toma ninguna decisión) al nivel de significación del 0.01
Problema: La resistencia a la rotura de los cables producidos por un fabricante tiene una media
de 1800 libras y una desviación típica de 100 libras. Mediante una nueva técnica en el proceso
de fabricación se aspira a una resistencia pueda ser incrementada. Para ensayar esta
aspiración, se ensaya una muestra de 50 cables y se encuentra que su resistencia media es de
1850 libras.¿ Puede mantenerse que, en efecto, hay un aumento de resistencia al nivel de
significación del 0.01?

215
UNIDAD IV / ESTADISTICA APLICADA.

Solución:
1. Se trata de una distribución muestral de medias con desviación estándar conocida.

2. Datos:
∝ = 0.01 n = 50
x = 1850 lbs
σ = 100 lbs

3. Ensayo de hipotesis
H0 : μ = 1800 lbs
H1 : μ > 1800 lbs.

4. Regla de decisión

Si ZR ≤ − 2..33 No se rechaza Ho
Si ZR > 2.33 Se rechaza Ho

5. Cálculos
1850 − 1800
Z == 3 .54
100
50

6. Justificación y decisión
Como Si 3.54 > 2.33 por lo tanto, se rechaza Ho y se acepta H 1, por lo tanto se concluye
que su resistencia media no es de 1850 libras si no que mayor.

Problema: Se ha estudiado la tasa de quemado de un propulsor a chorro. Las especificaciones


requieren que la tasa media de quemado sea 40 cm/s. Además, supóngase que sabemos que
la desviación estándar de la tasa de quemado es aproximadamente de 2 cm/ s. El

experimentador decide especificar una probabilidad de error tipo I α= 0.05, y el basara la

prueba en una muestra aleatoria de tamaño n = 25. Pruebe la hipótesis de μ= 40cm/ s y μ≠


40com/s . Si se prueban veinticinco especímenes, y la tasa de

quemado media de muestra que se obtiene es x = 41.25cm/s

216
UNIDAD IV / ESTADISTICA APLICADA.

1. Se trata de una distribución muéstrales de medias con desviación estándar conocida.


2. datos:

x = 41.25cm/s
μ= 40cm/s

σ= 2cm/s n =
25
α= 0.05
3. Ensayo de hipótesis

H0 :μ= 40cm/s

H1 :μ≠ 40cm/s
4. regla de decisión

-1.96 ≤ Z ≤ 1.96 se acepta H0


Z<-1.96 ó Z>1.96 se acepta H1
5. cálculos

Z = x −μ0 41.25 − 40 = 3.13


=
σ 2
n 25
6. justificación y decisión
3.13 >1.96 se acepta H1 y se concluye que la tasa de quemado media no es igual a 40 cm/s,
sino que mas de 40 cm/s.

Varianza desconocida.
Las variables aleatorias X1, X2, ... X n representan una muestra aleatoria de una distribución n(x

−μ)
normal con μ y σ² desconocidas. Entonces la variable aleatoria tiene una s
distribución t de student con n – 1 grados de libertad.

La estructura de la prueba es idéntica a la del caso con σ conocida, con la excepción de que el
valor σ en la estadística de prueba se reemplaza por la estimación de S calculada y la distribución
normal estándar se reemplaza con una distribución ţ. Como resultado; para la hipótesis bilateral

217
UNIDAD IV / ESTADISTICA APLICADA.

Ho : μ = μ o
Hi : μ ≠ μo

El rechazo de Ho en un nivel de significancia α resulta cuando una estadística ţ calculada.

x −μ0 t
s
= n

Problema: Los científicos han citado al benceno, un disolvente químico de uso común en la
síntesis de plásticos, como un posible agente causante de cáncer. Ciertos estudios han
demostrado que las personas que trabajan con benceno durante mas de cinco años tienen una
incidencia de leucemia 20 veces mayor que la población en general. En consecuencia, el
gobierno federal estadounidense ha bajado el nivel máximo permisible de benceno en lugar de
trabajo de 10 partes por millón (ppm) a 1 ppm ( información en el Florida Times – Union, 2 de
abril de 1984). Suponga que una fabrica de artículos de acero, que expone a sus trabajadores
diariamente a benceno, esta siendo investigada por la Administración de Seguridad y Salud
Ocupacional (OSHA) de Estados Unidos. Se examinan 20 muestras de aire, tomada durante un
periodo de un mes, parar determinar el contenido de benceno. Los análisis produjeron las

siguientes estadísticas resumidas: x = 2.1ppm s = 1.7ppm


¿La fabrica de artículos de acero esta violando las nuevas normas del gobierno? Pruebe la

hipótesis de que el nivel medio de benceno en la planta es mayor que 1 ppm ., utilizando α=
0.05

Solución:

1. se trata de una distribución muestral de medias con varianza desconocida.

2. datos:
x = 2.1ppm
s =1.7ppm n
= 20 μ=1ppm
α= 0.05

3. Ensayo de hipótesis

218
UNIDAD IV / ESTADISTICA APLICADA.

H0: μ= 1

H1: μ> 1

4. Regla de decisión : t > 1.729 se acepta H1 y se rechaza H0


t ≤ -1.729 se acepta H0 y se rechaza H1

5. cálculos :

x − μ0 t
s
= n
Supuesto: La distribución de frecuencia relativa de la población de niveles de benceno para
todas las muestras de aire tomadas en la planta de fabricación de artículos de acero es
aproximadamente normal.

Región de rechazo: para α= 0.05y gl = (n – l) = 19, se rechazara H0 si t > t 0.05 = 1.729 x


−μ0 2.1−1 2.89 t ==
s = 1.7
n 20
6. justificación y decisión.
2.89 > 1.729 se acepta H1 y se rechaza H0 . se llega a la conclusión de que la planta esta
violando las nuevas normas gubernamentales .

Problema: La resistencia al rompimiento de una fibra textil es una variable aleatoria distribuida
normalmente. Las especificaciones requieren que la resistencia media al rompimiento deba
igualar el valor de 15 psi. Al fabricante le gustaría detectar cualquier desviación significativa

respecto a este valor. En consecuencia se desea probar μ=150psi y μ≠ 150psi . Con un nivel

de significancia de α= 0.05. Si una muestra aleatoria de 15 especimenes de prueba se

selecciona y se determinan sus resistencias al rompimiento. La media y la varianza de la muestra

se calculan a partir de los datos de la misma como x =152.18 y s2 = 16.63 .

1. se trata de una distribución muestral de medias con varianza desconocida.

2. datos:

219
UNIDAD IV / ESTADISTICA APLICADA.

x =152.18 s2
=16.63
n =15 μ=150
α= 0.05

3. Ensayo de hipótesis

H0 :μ=150

H1 :μ≠ 150
por ser bilateral

0.
α= 0.05 == 0.025

t0.025,(15−1) = 2.145 −t0.025,(15−1) =−2.145

4. regla de decisión

− 2.145 ≤ t ≤ 2.145 se acepta H0 t

<−2.145 ó t > 2.145 se acepta H1

5. Cálculos

t = x −μ 152.18−150 = 2.07
=
s 16.63
n 15

6. justificación y decisión

− 2.145 ≤ 2.07 ≤ 2.145 se acepta H0 y concluiríamos que no hay evidencia suficiente

para rechazar la hipótesis de que μ=150psi

4.3.2 Prueba de hipótesis para diferencias de medias.


Problema: Un diseñador de productos está interesado en reducir el tiempo de secado de una
pintura tapaporos. Se prueban dos fórmulas de pintura; la fórmula 1 tiene el contenido químico
estándar, y la fórmula 2 tiene un nuevo ingrediente secante que debe reducir el tiempo de

220
UNIDAD IV / ESTADISTICA APLICADA.

secado. De la experiencia se sabe que la desviación estándar del tiempo de secado es ocho
minutos, y esta variabilidad inherente no debe verse afectada por la adición del nuevo
ingrediente. Se pintan diez especímenes con la fórmula 1, y otros diez con la fórmula 2. Los dos
tiempos promedio de secado muéstrales son 121 min. y 112 min. Respectivamente. ¿A qué
conclusiones puede llegar el diseñador del producto sobre la eficacia del nuevo ingrediente,
utilizando α = 0.05?

Solución:
1. Se trata de una distribución muestral de diferencias de medias

2. Datos:

σ1 = = σ2 8
x1 =121min
x2 =112min
n1 = =n2 10
α= 0.05

3. Ensayo de hipótesis

H0 :μ1 −μ2 = 0

H1 :μ μ1 − 2 > 0

4. Regla de decisión Z ≤1.645 se acepta H0

Z >1.645 se acepta H1

5. Cálculos

(121112) −0
Z == 2.522 2
8 8

221
UNIDAD IV / ESTADISTICA APLICADA.

+
10 10

6. Justificación y decisión
Puesto que 2.52 > 1.645, se acepta H1, y se concluye con un nivel de significancia de 0.05 que
la adición del nuevo ingrediente a la pintura si disminuye de manera significativa el tiempo
promedio se secado.

Problema: Se utiliza dos máquinas para llenar botellas de plástico con un volumen neto de 16.0
onzas. Las distribuciones de los volúmenes de llenado pueden suponerse normales, con
desviaciones estándar de 0.020 y 0.025 onzas. Un miembro del grupo de ingeniería de calidad
sospecha que el volumen neto de llenado de ambas máquinas es el mismo, sin importar si este
es o no de 16 onzas. De cada máquina se toma una muestra aleatoria de 10 botellas.

¿Se encuentra el ingeniero en lo correcto?


Utilice un nivel de significancia de 0.05.

MAQUINA 1 MAQUINA 2

16.03 16.01 16.02 16.03


16.04 15.96 15.97 16.04
16.05 15.98 15.96 16.02
16.05 16.02 16.01 16.01
16.02 15.99 15.99 16.00

Solución:

1. Se trata de una distribución muestral de diferencias de medias

2. Datos: σ1 = 0.020;σ2 = 0.025 x1 =16.015;x2 =16.005


n1 = =n2 10;α= 0.05
3. Ensayo de hipótesis
H0 :μ1 −μ2 = 0

H1 :μ μ1 − 2 ≠ 0

222
UNIDAD IV / ESTADISTICA APLICADA.

4. Regla de decisión −1.96 ≤ ≤Z 1.96 se acepta H0

Z <−1.96 o Z >1.96 se acepta H1

5. Cálculos

Z = (16.015 16.005)− −0 = 0.987


(0.020)2 (0.025)2
+
10 10

6. Justificación y decisión

Puesto que −1.96 ≤ ≤Z 1.96, se acepta H0, y se concluye con un nivel de significancia de
0.05 que las dos máquinas tienen el mismo promedio de llenado.

Problema: Existen dos tipos de plasticos apropiados para su uso por un fabricante de componentes
electrónicos. La tensión de ruptura de es plástico es un parámetro importante. Se sabe que la
desviación estandar es de 1.0 Psi. De una muestra aleatoria de tamaño 10 y 12 para cada plástico
respectivamente. Se tiene ua media de 162.5 para el plastico 1 y de 155 para el plastico 2. La
compañía no adoptara el plastico 1 a menos que la tensión de ruptura de este exceda a la del
plastico 2 al menos por 10 Psi. Con base a la información contenidad en la muestra. ¿La compañía
debera utilizar el plastico 1?. Utilice un nivel de significancia de 0.05 para llegar a una decisión.

Solución:
1. Se trata de una distribución muestral de diferencias de medias

2. Datos: σ1 = = σ2 1.0psi
x1 =162.5psi

223
UNIDAD IV / ESTADISTICA APLICADA.

x2 =155psi

n1 =10
n2 =12
α= 0.05

3. Ensayo de hipótesis

H0 :μ1 −μ2 =10

H1 :μ μ1 − 2 >10

4. Regla de decisión Z ≤1.645 se acepta H0

Z >1.645 se acepta H1

5. Cálculos

Z = (162.5 155)− −10 =−5.83


(1)2 (1)2
10 + 12
.
6. Justificación y decisión

No existe evidencia suficiente para apoyar el uso del plástico 1 ya que −5.83≤1.645, se acepta
H0.

Problema: La gerente de planta de una fábrica enlatadora de jugo de naranja está interesada en
comprar el rendimiento de dos diferentes líneas de producción. Como la línea número 1 es
relativamente nueva, sospecha que el número de cajas que se producen al día es mayor que el

224
UNIDAD IV / ESTADISTICA APLICADA.

correspondiente a la vieja línea 2. se toman datos al azar durante diez días para cada línea,

encontrándose que x1 = 824.9cajas por día y x2 = 818.6 cajas por día. De la experiencia con

la operación de este tipo de equipo se sabe qué σ12 = 40 y σ22 = 50.con un nivele de

significancia de 0.05

Solución:
1. se trata de una distribución muestral de diferencias de medias.

2. datos:

x1 = 824.9cajas; x2 = 818.6

σ12 = 40; σ22 = 50. n1 = n2 =

10 ; α= 0.05

3. ensayo de hipótesis

H0 :μ1 =μ2

H1 :μ1 >μ2

4. regla de decisión
Z > 1.645 se acepta H1

Z ≤ -1.645 se acepta H0

5. Cálculos (824.9
−818.6) − 0
40 50
Z= 10 + 10 = 2.10

6. justificación y decisión

225
UNIDAD IV / ESTADISTICA APLICADA.

2.10 > 1.645 se acepta H1. se concluye que el numero medio de cajas producidas
diariamente por la nueva línea de producción es mayor que el numero medio de caja
producidas por la vieja línea.

4.3.3 Prueba de hipótesis para proporciones.


Problema: Un constructor afirma que se instalan bombas de calor en 70% de todas las casas
que se construyen hoy en día en la ciudad de Richmond. ¿Estaría de acuerdo con esta
afirmación si una investigación de casas nuevas en esta ciudad muestra que 8 de 15 tienen
instaladas bombas de calor? Utilice un nivel de significancia de 0.10.

Solución:
1. Se trata de una distribución muestral de proporciones.

2. Datos:

P = 0.70 p =
8/15 = 0.5333
n
=15
α= 0.10

3. Ensayo de hipótesis
Ho; P = 0.70

H1; P ≠ 0.70

4. Regla de Decisión:
Si –1.645 ≤ Z ≤ 1.645 No se rechaza Ho
Si ZR < -1.645 ó si ZR > 1.645 Se rechaza Ho

5. Cálculos:

226
UNIDAD IV / ESTADISTICA APLICADA.

Z = p − P = 0.533− 0.70 =−1.41


Pq (0.70)(0.30)

n 15

6. Justificación y decisión :

Como –1.645 ≤ -1.41 ≤ 1.645 No se rechaza Ho y se concluye con un nivel de significancia de


0.10 que la afirmación del constructor es cierta.

Problema: El fabricante de una patente médica sostiene que la misma tiene un 90 % de


efectividad en el alivio de una alergia, por un periodo de 8 hrs. En una muestra de 200 individuos
que tenían la alergia, la medicina suministrada alivio a 160 personas. Determinar si la
aseveración del fabricante es cierta. El nivel de significancia es 0.01

Solución:
1. Se trata de una distribución muestral de proporciones.

2. Datos:

P = 0.90 p
=160/200 = 0.8
n
= 200
α= 0.01

3. Ensayo de hipótesis
H0 : p = 0.9
H1 : p < 0.9

4. Regla de decisión
Z < -2.33 se acepta H1 y se rechaza H0

Z ≥ -2.33 se acepta H0

5. Cálculos

Z = p − P = 0.8− 0.90 =−4.71

227
UNIDAD IV / ESTADISTICA APLICADA.

Pq (0.90)(0.10)

n 200

6. justificación y decisión
- 4.71 < - 2.33 se acepta H1 y se rechaza H0 . se concluye que es menor al 90 % de efectividad

Problema: Un fabricante de semiconductores produce controladores que se emplean en


aplicaciones de motores automovilísticos. El cliente requiere que la fracción de controladores
defectuosos en uno de los pasos de manufactura críticos no sea mayor que 0.05, y que el
fabricante demuestre esta característica del proceso de fabricación con este nivel de calidad,
utilizando α = 0.05. El fabricante de semiconductores toma una muestra aleatoria de 200
dispositivos y encuentra que cuatro de ellos son defectuosos. ¿El fabricante puede demostrar al
cliente la calidad del proceso?

Solución:
1. Se trata de una distribución muestral de proporciones.

2. Datos: P = 0.05 p = 4/200 = 0.02 n = 200 α = 0.05

3. ensayo de hipótesis

H0 : P = 0.05

H1 : P < 0.05

4. Regla de decisión:
Si ZR ≥ -1.645 No se rechaza Ho
Si ZR < -1.645 Se rechaza Ho

5. Cálculos:

228
UNIDAD IV / ESTADISTICA APLICADA.

Z = p − P = 0.02 −0.05 =−1.946


Pq (0.05)(0.95)

n 200

6. Justificación y decisión:
Puesto que –1.946<-1.645, se rechaza Ho y se concluye con un nivel de significancia del
0.05 que la fracción de artículos defectuosos es menor que 0.05.

4.3.4. Prueba de hipótesis para diferencia de proporciones.


Problema: Se evalúan dos tipos diferentes de soluciones para pulir, para su posible uso en una
operación de pulido en la fabricación de lentes intraoculares utilizados en el ojo humano después
de una cirugía de cataratas. Se pulen 300 lentes con la primera solución y, de éstos, 253 no
presentaron defectos inducidos por el pulido. Después se pulen otros 300 lentes con la segunda
solución, de los cuales 196 resultan satisfactorios. ¿Existe alguna razón para creer que las dos
soluciones para pulir son diferentes? Utilice α = 0.01

Solución:
1. Se trata de una distribución muestral de diferencia de proporciones.

2. Datos:
p1= 253/300= 0.8433 p2
= 196/300= 0.6533 n1 =
n2 = 300

3. Ensayo de hipótesis:
Ho; P1 = P2

H1; P1 ≠ P2

229
UNIDAD IV / ESTADISTICA APLICADA.

4. Regla de decision.

Si −2.575 ≤ ≤z 2.575 se acepta Ho

Si Z <−2.575 o Z > 2.575 Se acepta H1

5. Cálculos

P = x1 + x2 = 253 196+

= 0.7483 n1 +n2
300+300

P = = =P1 P2 0.7483 q = − =1 P
0.2517

Z = (p1 − p2 )−(P P1 − 2 )

Pq ⎛ + ⎞
1 1
⎜ n1 n2 ⎟
⎝ ⎠

Z= (0.8433−0.6533)−0 = 5.36

⎛ 1 1⎞
(0.7483)(0.2517) ⎜⎝ 300 + 300 ⎟⎠

6. Justificación y decisión :
Puesto que 5.36 > 2.575 se rechaza la hipótesis nula y se concluye con un nivel de
significancia de 0.01 que los dos fluidos para pulir son diferentes.

Problema: Se tomará el voto entre los residentes de una ciudad y el condado circundante
para determinar si se debe construir una planta química propuesta. El lugar de construcción
está dentro de los límites de la ciudad y por esta razón muchos votantes del condado
consideran que la propuesta pasará debido a la gran proporción de votantes que favorecen

230
UNIDAD IV / ESTADISTICA APLICADA.

la construcción. Para determinar si hay una diferencia significativa en la proporción de


votantes de la ciudad y votantes del condado que favorecen la propuesta, se realiza una
encuesta. Si 120 de 200 votantes de la ciudad favorecen la propuesta y 240 de 500
residentes del condado también lo hacen.

¿Estaría de acuerdo en que la proporción de votantes de la ciudad que favorecen la


propuesta es más alto que la proporción?. Utilice un nivel de significancia de 0.025.
Solución:
1. Se trata de una distribución muestral de diferencia de proporciones.

2. Datos: p1= 120/200 = 0.60; p2 = 240 / 500 = 0.48 n1 = 200; n2 = 500

3. Ensayo de hipótesis:
Ho; P1 = P2
H1; P1 > P2

4. Regla de decision. Si Z ≤1.96 se acepta Ho

Si Z >1.96 Se acepta H1

5. Cálculos

P = x1 + x2 = 120 + 240 = 0.48


n1 + n2 200+500

Z = (p1 − p2)−(P1 − P2) = (0.60−0.48)−0 = 2.9


⎛1 1⎞ (0.51)(0.49)⎜ 2001 + 5001 ⎟⎠⎞

Pq⎜ n1 + n2 ⎟⎠ ⎝⎝

6. Justificación y decisión :

231
UNIDAD IV / ESTADISTICA APLICADA.

Puesto que 2.9 > 1.96 se acepta H1 y se concluye estar de acuerdo en que la proporción de
votantes de la ciudad a favor de la propuesta es más alta que la proporción de votantes del
condado..

232
UNIDAD 5

REGRESION Y CORRELACION.

Objetivo:
Comprenderá el concepto de
correlación y regresión, los

expresará matemáticamente y los


usará para tomar decisiones.
UNIDAD V / REGRESIÓN Y CORRELACIÓN.

5.1 Introducción.

A menudo, en la práctica, se requiere resolver problemas que incluyen conjuntos de variables


cuando se sabe que existen algunas relaciones inherentes entre ellas. Por ejemplo, en una
situación industrial se puede saber que el contenido de alquitrán en el flujo saliente de un proceso
químico se relaciona con la temperatura de entrada. Ya que una de las aplicaciones más
importantes de la estadística implica la estimación del valor medio de una variable de respuesta
y o la predicción de algún valor futuro y con base en el conocimiento de un conjunto de variables

independientes relacionadas, x1,x2,...,xk.

5.1.1 Gráficas de los datos.


En la grafica de los datos es la interpretación de la información que se ha recopilado a través de
un experimento en la cual consiste en la comparación por pares de datos y solo marca cada dato
a través de puntos.

Problema: El calor especifico Cp(cal / kgmol) del Mn3O4varía con la temperatura de


acuerdo a la siguiente tabla:
Punto T ( K) Cp
1 280 32.7
2 650 45.4
3 1000 52.15
4 1200 53.7
5 1500 52.9
6 1700 50.3

Elabore la grafica de los datos que muestra la tabla.


Grafica de datos
60
40
20
0
0 500 1000
Temperatura 1500 2000

5.1.2 Variables de regresión independientes.


Una de las aplicaciones más importantes de la estadística implica la estimación del valor medio

de una variable de respuesta y o la predicción de algún valor futuro de y con base en el


conocimiento de un conjunto de variables independientes relacionadas x1,x2,...,xk .

217
UNIDAD V / REGRESIÓN Y CORRELACIÓN.

Por ejemplo, el gerente de un centro de procesamiento de datos podría querer relacionar el

tiempo de espera y (la variable dependiente) entre el momento en que se presenta un trabajo
a una computadora y el momento en que se completa, con variables tales como el numero y el
tamaño de los trabajos que ya están esperando para ejecutarse y el tamaño de los trabajos que
se están presentando ( las variables independientes). El objetivo sería crear una ecuación de
predicción (o un modelo) que exprese y como una función de las variables independientes. Esto

permitiría la gerente predecir y para valores específicos de las variables independientes y, en


última instancia, utilizar los conocimientos derivados de un estudio de la ecuación de predicción
para instaurar políticas de control del tiempo de espera.

Los modelos que se emplean para relacionar una variable dependiente y con las variables

independientes x1,x2,...,xk se denominan modelos de regresión o modelos estadísticos

lineales porque expresan el valor medio de y para valores dados de x1,x2,...,xk como una función

lineal de un conjunto de parámetros desconocidos.

Definición

La variable por predecir (o por modelar), y , es la variable dependiente (o de respuesta)

Definición

Las variables que se utilizan para predecir (o modelar) y se denominan variables

independiente y se denotan con los símbolos x1,x2,x3, , etcétera.

5.1.3 Regresión lineal simple.


En el caso de la regresión lineal simple donde hay una sola variable de regresión independiente
x y una sola variable Y, los datos se pueden representar mediante los pares de observaciones

{(xi,yi );i =1,2,...,n}.


El ejemplo más simple de una aproximación por mínimos cuadrados es el ajuste de una línea
,. . .
recta a un conjunto de parejas de datos observadas: (x1, y1) , (x2 , y2 ) (xn, yn ).

218
UNIDAD V / REGRESIÓN Y CORRELACIÓN.

La expresión matemática de una línea recta es:

y a ax= 0 + +1 ε

En donde a0 y a1 son coeficientes que representan la intersección con el eje de las abscisas y la

pendiente, respectivamente y E es el error o residuo entre el modelo y las observaciones, que se

pueden representar reordenando la ecuación como:

E = y−a0 −a1x
Por lo tanto, el error o residuo es la diferencia entre el valor real de y y el valor aproximado a0

+a1x, predicho por la ecuación lineal.

y =a0 +a1x Ecuación de la línea recta

Entonces, podríamos escoger un modelo que relacione a y con x trazando una línea resta a través
de los puntos de la figura. Semejante modelo deterministico – uno que no contempla errores
de predicción – podría ser adecuado si todos los puntos de la figura, quedaran sobre la línea
ajustada. Sin embargo, es evidente que esta situación ideal no ocurre para los datos de la tabla.
Sin importar como tracemos una línea recta desviaran significativamente de la línea ajustada.

La solución al problema anterior es construir un modelo probabilístico que relacione y con x; uno
que contemple la variación aleatoria de los puntos de datos a los lados de una línea recta. Un
tipo de modelo probabilístico, el modelo de regresión lineal simple, supone que el valor medio
de y para un valor dado de x se grafica como una línea recta y que los puntos se desvían de esta

línea de medias en una cantidad aleatoria (positiva o negativa) igual a ε , es decir,

y a ax= 0 + +1 ε
Donde a0 y a1 son parámetros desconocidos de la porción deterministico (no aleatoria) del

modelo. Si suponemos que los puntos se desvían por encima y por debajo de la línea de medias,

siendo algunas desviaciones positivas, otras negativas, y con E(ε) = 0 entonces el valor medio

de y es

E y E a ax( ) = ( 0 + +1 ε)
= + +a ax E0 1 ( )ε
= +a ax0 1

Por tanto, el valor medio de y para un valor dado de x, representado por el símbolo E (y), * se
a a
grafica como una línea recta con ordenada al origen igual a 0y pendiente igual a 1.

219
UNIDAD V / REGRESIÓN Y CORRELACIÓN.

a a
La validez de las inferencias acerca de 0 y 1dependerá de las distribuciones de muestreo de

los estimadores, que a su vez dependen de la distribución de probabilidad del error aleatorio, ε;

por tanto, primero debemos hacer supuestos específicos respecto a ε. Tales supuestos, que se

resumirán a continuación, son básicos para todo análisis de regresión estadístico.

Líneas de regresión ajustada.

Supuesto I: La media de la distribución de probabilidad de ε es 0. Es decir, la media de los errores

a lo largo de una serie infinitamente larga de experimentos es 0 para cada valor de la variable

independiente x. Este supuesto implica que el valor medio de y,E(y) , para un valor dado de x es

E y( )= +a0a x1

Supuesto II: La varianza de la distribución de probabilidad de ε es constante para todos los


valores de la variable independiente x. En el caso de nuestro modelo de línea recta, este supuesto

significa que la varianza de ε es igual a una constante, digamosσ2 , para todos los valores de x.

Supuesto III: La distribución de probabilidad de ε es normal.


Supuesto IV: Los errores asociados a cualesquier dos observaciones distintas son

independientes. Es decir, el error asociado a un valor de y en particular no tiene efecto alguno


sobre los errores asociados a otros valores de y .

Las implicaciones de los tres primeros supuestos pueden apreciarse en la figura siguiente, que

muestra las distribuciones de errores para tres valores específicos de x, a saber, x1, x2 y x3 .

Observe que las distribuciones de frecuencia relativa de los errores son normales, con una media

de 0 y una varianza constante deσ2. La línea recta de la figura es el valor medio y para un valor

dado de x,

220
UNIDAD V / REGRESIÓN Y CORRELACIÓN.

En la práctica, los supuestos no tienen que cumplirse al pie de la letra para que los estimadores
de mínimos cuadrados y las estadísticas de prueba (que se describirán más adelante) tengan el
grado de con fiabilidad que esperamos de un análisis de regresión.

5.2. Diagrama de dispersión

5.2.1. Tabla de datos


Ejemplo: Supongamos que el inventor de un material aislante quiere determinar la magnitud de
la compresión que se producirá en un espécimen de 2 pulgadas de espesor cuando se someta a
diferentes cantidades de presión. Se prueban cinco trozos experimentales del material bajo
diferentes presiones.

Los valores de x (en unidades de 10 libras por pulgada cuadrada) y las magnitudes de compresión
resultantes y (en unidades de 0.1 pulgada) se presentan en la tabla.

221
UNIDAD V / REGRESIÓN Y CORRELACIÓN.

Tabla Compresión vs. presión para un


material aislante
Espécimen Presión Compresión

X y

1 1 1
2 2 1
3 3 2
4 4 2
5 5 4

5.2.2. Construcción de diagramas.


En la figura se muestra una grafica de los datos llamada diagrama de dispersión.
5
4
3
2
1
0
0 2 4 6

Presión

Supongamos que creemos que el valor de y tiende a aumentar de forma lineal conforme x
aumenta.

5.3. Estimación mediante la línea de regresión

5.3.1. Ecuación de la recta como ajuste de datos


El método más simple de ajustar una curva a un conjunto de datos es el de trazar los puntos y
unirlos con una línea recta. Aunque es una alternativa validad y se utiliza cuando se requiere

222
UNIDAD V / REGRESIÓN Y CORRELACIÓN.

hacer estimaciones rápidas, los resultados son independientes, desde un punto de vista
subjetivo, de la persona que traza la recta.
Para quitar esta dependencia se usa la regresión lineal o mínimos cuadrados.

Ecuación de la línea recta y


=a0 +a1x
Polinomio de segundo grado o cuadrático: y=a0
+a1x+a2x2 +e

Una extensión útil en la regresión lineal es el caso en que y es una función lineal de dos o más

variables. Por ejemplo, y pudiera ser una función lineal de x1 y x2 , de la forma:

y=a0 +a1x1 +a2x2

5.3.2. Modelos
Algoritmo de la solución

1. Inicio
2. Solicitud de los datos discretos ( tabla de datos encontrados experimentalmente) a los
cuales se le va a encontrar la recta que de aproxima mas a ellos.
3. Calcular con base a los datos dados el valor de n.

4. encontrar la sumatoria ∑y
5. Encontrar la sumatoria ∑x

6. encontrar la sumatoria del producto ∑xy


7. Encontrar la sumatoria de la potencia ∑x 2

8. Sustituir los valores encontrados en los pasos 3, 4, 5, 6, 7, en las ecuaciones del método
de mínimos cuadrados.
9. Resolver el sistema de ecuaciones para encontrar a las constantes A y B
10. sustituir los valores de A y B en la ecuación de la recta. 11. impresión de los resultados
12. Fin.

223
UNIDAD V / REGRESIÓN Y CORRELACIÓN.

5.4. Métodos de mínimos cuadrados.

El significado de mínimos cuadrados consiste en obtener la recta que ajuste a una serie de datos
numéricos, con la condición que la suma de los cuadrados de los residuos sea mínima posible.

a) Muestra de datos con un error significativo.


b) Ajuste polinomial con oscilaciones que violan el rango de datos.
c) Se obtienen resultados más satisfactorios usando el ajuste de mínimos cuadrados.

Si queremos escoger la línea recta "de mejor ajuste" para un conjunto de datos, debemos estimar
a a
los parámetros desconocidos 0 y 1 del modelo de regresión lineal simple. Estos estimadores

podrían obtenerse empleando el método de máxima verosimilitud pero el método más fácil y el
más atractivo desde un punto de vista intuitivo es el método de mínimos cuadrados. Cuando
se satisfacen los supuestos de la sección anterior, los estimadores de máxima verosimilitud y de
a a
mínimos cuadrados de 0 y 1 son idénticos.

5.4.1. Estimación de los coeficientes de regresión


Ecuación de la línea recta (regresión lineal)

y=a0 +a1x

a1 = n∑ ∑ ∑x y −
i i
xi yi

224
UNIDAD V / REGRESIÓN Y CORRELACIÓN.

a0 =y−a1x

225
UNIDAD V / REGRESIÓN Y CORRELACIÓN.

UNIDAD V / REGRESIÓN Y CORRELACIÓN.

Problema: Ajústese una línea recta a los valores x y y de la tabla siguiente:

i X y
1 1 0.5
2 2 2.5
3 3 2.0
4 4 4.0
5 5 3.5
6 6 6.0
7 7 5.5

Solución:

Problema: Las bodegas modernas utilizan vehículos guiados computarizados y automatizados


para el manejo de materiales. En consecuencia, la disposición física de la bodega debe diseñarse
con cuidado a modo de evitar el congestionamiento de los vehículos y optimizar el tiempo de
respuesta. En The Joumal of Engineering for industry (agosto de 1993) se estudió el diseño
óptimo de una bodega automatizada.

La disposición empleada supone que los vehículos no se bloquean entre sí cuando viajan dentro
de la bodega, es decir, que no hay congestionamiento. La validez de este supuesto se verificó
simulando (en una computadora) las operaciones de la bodega. En cada simulación se varió el
número de vehículos y se registró el tiempo de congestionamiento (el tiempo total que un vehículo
bloqueó a otro). Los datos se muestran en la siguiente tabla. Algo que interesa a los
investigadores es la relación entre el tiempo de congestionamiento (y) y el número de vehículos
(x).

226
Número de Tiempo de congestionamiento Número de Tiempo de congestionamiento
vehículos en minutos vehículos en minutos

1 0 9 0.02
2 0 10 0.04
3 0.02 11 0.04
4 0.01 12 0.04
5 0.01 13 0.03
6 0.01 14 0.04
7 0.03 15 0.05
8 0.03

a) Construya un diagrama de dispersión para los datos.


b) Encuentre la línea de mínimos cuadrados que relaciona el número de vehículos (x) con
el tiempo de congestionamiento (y).
c) Trace la línea de mínimos cuadrados en la gráfica del inciso a.

Solución:
Tiempo de congestionamiento

0.06
0.05 y = 0.00319118x -0.00400000
0.04
0.03
0.02
0.01
0
-0.01 0 5 10 15 20

Problema: En la tabla siguiente se presentan los alargamientos de un resorte correspondientes a


fuerzas de diferente magnitud que lo deforman.

Puntos 1 2 3 4 5
Fuerza (kgf) : x 0 2 3 6 7

Longitud del resorte 0.120 0.153 0.170 0.225 0.260


(m) : y

UNIDAD V / REGRESIÓN Y CORRELACIÓN.

227
UNIDAD V / REGRESIÓN Y CORRELACIÓN.

Aproxime esta información por el método de mínimos cuadrados, usando regresión lineal.

Solución:
0.300
y = 0.0194x + 0. 1156
0.250
R2 = 0.987 5
0.200

0.150

0.100

0.050

0.000
0 2 4 6 8

Problema: El calor especifico Cp(cal /kgmol) del Mn3O4varía con la temperatura de

acuerdo a la siguiente tabla:

Punto 1 2 3 4 5 6
T ( K) 280 650 1000 1200 1500 1700
Cp 32.7 45.4 52.15 53.7 52.9 50.3

Aproxime esta información por el método de mínimos cuadrados. Usando regresión lineal.

Polinomio de segundo grado o cuadrático (regresión polinomial)

228
y a ax a x= + +0 1 2
2

a yi
a xi yi a
xi2yi

Problema: Ajuste un polinomio de segundo orden a los datos de las dos columnas del cuadro:
xi yi
0 2.1
1 7.7
2 13.6
3 27.2
4 40.9
5 61.1

152.6

m= 2 ∑ xi =15
n= 6∑∑ yi2 =15552.6 ∑ x y = 585.6
i i

xi =

6a0 +15a1 +55a2 =152.6 15a0 +55a1 + 225a2 = 585.6 55a0 + 225a1
+979a2 = 2488.8

229
UNIDAD V / REGRESIÓN Y CORRELACIÓN.

70
60 y = 1.853x2 + 2.397x + 2.464
50 R² = 0.998
40
30
20
10
0
0 1 2 3 4 5 6

Regresión lineal múltiple y

=a0 +a1x1 +a2x2

Ahora tenemos el conjunto de ecuaciones normales:

a n0 +a1∑ ∑ ∑x 1,i +a2 x2,i = yi a0

∑ ∑ ∑x 1,i +a1 x12,i +a2 x x1,i 2,i

=∑x y 1,i i a0 ∑ ∑x 2,i +a1 x x1,i

2,i +a2 ∑ ∑x 22,i = x y2,i i

Problema: Veinte tipos de hojas de aceros procesadas en frío tienen diferentes composiciones
de cobre y temperaturas de templado. Al medir su dureza resultante se obtuvieron los siguientes
valores:

230
UNIDAD V / REGRESIÓN Y CORRELACIÓN.

Se sabe que la dureza depende en forma lineal del contenido de u de cobre en % y de la

temperatura del templado v y =a0 +a1u+a2v

Determine los parámetros a0,a1 y a2 , siguiendo el criterio de los mínimos cuadrados.


Solución:

⎛ 12 1.2 13800
795.7

⎜ ⎟
A := 1.2 0.1712 1380 81.258

⎜ ⎟
⎝ 13800 1380 16020000 902230⎠

⎛ 1 0 0 161.336⎞
⎜ ⎟
rref A() = 0 1 0 32.969

⎜ ⎟
⎝ 0 0 1 −0.086 ⎠

y := 161.336+ 32.969u − 0.086v

231
UNIDAD V / REGRESIÓN Y CORRELACIÓN.

5.5 Error estándar de estimación

Los segmentos de línea verticales representan desviaciones de los puntos respecto a la línea
en la siguiente figura. Se puede constatar, desplazando una regla dentro de la gráfica que es
posible encontrar muchas líneas para las cuales la suma de las desviaciones (o errores) es igual
a 0, pero puede demostrarse que hay una y sólo una línea para la cual la suma de los
cuadrados de las desviaciones es mínima. La suma de los cuadrados de las desviaciones se
denomina suma de cuadrados del error y se denota con el símbolo SSE. La línea recibe el
nombre de línea de mínimos cuadrados, línea de regresión o ecuación de predicción de
mínimos cuadrados.

Grafica que muestra las desviaciones de los puntos respectos a una línea recta.

Si queremos encontrar la línea de mínimos cuadrados para un conjunto de datos, suponemos


que tenemos una muestra de n puntos de datos que se pueden identificar mediante los
correspondientes valores de x y y , digamos, (x1, y1) , (x2, y2), . . . , (xn , Yn ). El modelo de línea

recta para la respuesta y en términos de x es y= + +a0 a x1 ε

La línea de medias esE y( )= +a0 a x1 y la línea ajustada, que esperamos encontrar, se

ˆˆ
representa como y a axˆ = + 0 1 .

232
UNIDAD V / REGRESIÓN Y CORRELACIÓN.

Entonces, la suma de los cuadrados de las desviaciones de los valores de y respecto a sus
valores estimados para toda las n puntos de datos es
n 2

SSE=∑[yi −(a 0 +ax 1 i )] Para una regresión lineal.


ˆ ˆ
i=1

n 2

SSE ⎡⎣y a ax a x ⎤⎦ Para una regresión


polinomial.
i=1

En la mayor parte de las situaciones prácticas, la varianza σ2 del error aleatorio εes desconocida

y se debe estimar a partir de los datos de muestra. Puesto que σ2 mide la variación de los valores
de y respecto de la línea E y a ax( )= 0 + 1 parece intuitivamente

razonable estimar σ2 dividiendo SSE entre un número apropiado.

Teorema

Sea s2 = SSE /(n− 2). entonces , si se satisfacen los supuestos, la estadística

2 SSE (n − 2)s2
χ= 2 =
2 σ σ
Tiene una distribución ji cuadrada con v = (n – 2 ) grados de libertad.

s2 =χ2σ2

n−2
Entonces,

E(s2) = σ2 E(χ2 )
n−2

Donde E( χ2 ) = v = (n - 2).

233
UNIDAD V / REGRESIÓN Y CORRELACIÓN.

Por tanto,

E(s2) = σ2 (n − 2) =σ2
n−2

Y negamos a la conclusión de que s2 es un estimador insesgado de σ2 .

El procedimiento empleado para calcular SSE puede dar pie a errores de redondeo
considerables. En el siguiente recuadro se presentan la fórmula para s2 y un método para
calcular SSE.

Estimación de σ2
SSE SSE s2 =

=
Grados de libertad para error n−2
donde

SSE = ∑(yi − y
ˆ
i )2 = SSyy −βˆSSxy

SSyy
n

Donde β=a1

Advertencia: al realizar estos cálculos tal vez se sienta tentado a redondear los valores

ˆ
calculados de SSyy,β y SSxy. Asegúrese de conservar por lo menos seis cifras
significativas para cada una de estas cantidades a fin de evitar un error importante en el cálculo
de SSE.

5.6 Coeficiente de determinación y correlación

234
UNIDAD V / REGRESIÓN Y CORRELACIÓN.

5.6.1 Coeficiente de determinación de la muestra


Otra forma de medir la contribución de x a la predicción de y es considerar hasta dónde pueden
reducirse los errores de la predicción de y aprovechando la información proporcionada por x.

a) Diagrama de dispersión de los datos

b) Supuesto: x no contribuye con información a la predicción de y ; yˆ = y

c) Supuesto: x contribuye con información a la predicción de y ; y a ax= +0 1

Como ilustración, supongamos que una muestra de datos tiene el diagrama de dispersión que
se muestra en la figura anterior del inciso a. Si suponemos que x no contribuye con información
a la predicción de y, la mejor predicción de y será la media de la muestra, y, que se grafica como
una línea horizontal en la figura inciso b.

Los segmentos de línea verticales trazados en esa figura son las desviaciones de los puntos
respecto de la media y. Observe que la suma de los cuadrados de las desviaciones para el
modelo:

yˆ = y es SSyy =∑(yi −y)2 .

Supongamos ahora que ajustamos una línea de mínimos cuadrados al mismo conjunto de datos
y marcamos las desviaciones de los puntos respecto de la línea como se hace en la figura del
inciso c.

Compare las desviaciones respecto de las líneas de predicción en los incisos b y c de la figura
anterior.

Es evidente que:

235
UNIDAD V / REGRESIÓN Y CORRELACIÓN.

1. Si x contribuye con poca o ninguna información a la predicción de y , las sumas de los


cuadrados de las desviaciones para las dos líneas,

SSyy =∑(yi −y)2

SSE=∑(yi −yˆi )2
2. Si x contribuye con información a la predicción de y , entonces SSE será menor que

SSyy. De hecho, si todos los puntos caen en la línea de mínimos cuadrados, entonces SSE
= 0.

Una forma cómoda de medir qué tan bien se desempeña la ecuación de mínimos cuadrados

yˆ = +a0 a x1 como predictora de y es calcular la reducción en la suma de los cuadrados de


las desviaciones que se puede atribuir a x, expresada como una proporción de SSyy. Esta
cantidad, llamada coeficiente de determinación, es

SSyy − SSE

SSyy

En la regresión lineal simple se puede demostrar que esta cantidad es igual al cuadrado del
coeficiente de correlación lineal simple r.

Definición:

El coeficiente de determinación es

SS
r2 = yy −SSE =1− SSE
SSyy SSyy
Este coeficiente representa la proporción de la suma de los cuadrados de las desviaciones de
los valores de y respecto de sus valores estimados (yˆ)que se puede atribuir a una relación
lineal y y x . (En una regresión lineal simple, este coeficiente también puede calcularse elevando
al cuadrado el coeficiente de correlación r )

236
UNIDAD V / REGRESIÓN Y CORRELACIÓN.

Observe que r2 siempre está entre 1 y 1, porque r está entre -1 y +1. Por tanto, r2 = 0.60 significa
que la suma de los cuadrados de las desviaciones de los valores de y respecto de sus valores

estimados se redujo en 60% al utilizar yˆ , en lugar de y , para predecir y. O bien, en términos


más prácticos, r2 = 0.60 implica que el modelo de línea recta que relaciona a y con x puede
explicar (o dar cuenta de) 60% de la variación presente en la muestra de valores de y.

Problema: Calcule el coeficiente de determinación para el ejemplo de compresión de aislante.


Los datos se repiten en la tabla siguiente:

Presión Compresión
X, 10 libras Y, 0.1 de por pulg2
pulgada

1 1
2 1
3 2
4 2
5 4

SSyy yi

SSE=∑(y y

i − ˆi )2 =1.10

r2 =SSyy −SSE= 6.0 1.1− =0.82=82%


SSyy 6.0

237
UNIDAD V / REGRESIÓN Y CORRELACIÓN.

(Observe que este valor también podría haberse obtenido elevando al cuadrado el coeficiente
de correlación r = 0.904.)

Ahora sabemos que al usar la presión x para predecir la compresión y con la línea de mínimos

cuadrados yˆ = -0.1 + 0.7x, la suma total de los cuadrados de las desviaciones de los cinco
valores de y respecto de sus valores estimados se redujo en 82% gracias al empleo del predictor

lineal yˆ . Es decir, 82% de la variación de los valores de compresión de la muestra se puede


explicar mediante la línea de mínimos cuadrados.

Interpretación práctica del coeficiente de determinación, r2


Aproximadamente 100(r2) % de la suma total de los cuadrados de las desviaciones de los

valores y de la muestra respecto de su media y se puede explicar por ( o atribuirse a) el empleo

de x para predecir y con el modelo de línea recta.

En situaciones en las que un modelo de regresión de línea recta resulta ser un predictor
estadísticamente satisfactorio de y, el valor de r2 puede servir al analista de regresión como guía
en la búsqueda de mejores y más útiles modelos. Por ejemplo, Crandall y Cedercreutz (1976)
emplean un modelo lineal simple para relacionar el costo del trabajo mecánico (calefacción,
ventilación y plomería) en la construcción con el área de piso.

Con base en los datos asociados a la construcción de 26 fábricas y bodegas, se obtuvo la


ecuación de predicción de mínimos cuadrados que se indica en la figura siguiente. Se llegó a la
conclusión de que el área de piso y el costo mecánico tienen una relación lineal, ya que la

estadística t (para probar Ho: a1 =0) produjo un valor de 3.61, el cual es significativo con un a0
tan pequeño como 0.002.

Por tanto, el área de piso debe servirnos para predecir el costo mecánico de una fábrica o
bodega. Sin embargo, el valor del coeficiente de determinación r2 fue de 0.35. Esto nos dice que

238
UNIDAD V / REGRESIÓN Y CORRELACIÓN.

sólo 35% de la variación en los costos mecánicos se puede atribuir a las diferencias en el área
de piso.

Este valor relativamente pequeño de r2 impulsó a Crandall y Cedercreutz a incluir en el modelo


otras variables independientes (por ejemplo, volumen, cantidad de vidrio) en un intento por dar
cuenta de una porción significativa del 65% restante de la variación en el costo mecánico que
no puede explicarse con el área de piso.

Modelo lineal simple que relaciona el costo con el área de piso.

5.6.2 Coeficiente de correlación de la muestra

a
La pendiente de mínimos cuadrados, 1 proporciona información útil sobre la relación o
"asociación" lineal entre dos variables y y x. Otra forma de medir la asociación es calcular el
coeficiente de correlación r del momento de producto de Pearson. El coeficiente de correlación,
que se define en el recuadro, ofrece una medida cuantitativa de la fortaleza de la relación lineal

entre x y y en la muestra, como lo hace la pendiente de mínimos cuadrados a1. Sin embargo, a

239
UNIDAD V / REGRESIÓN Y CORRELACIÓN.

diferencia de la pendiente, el coeficiente de correlación r es adimensional. El valor de r siempre


está entre -1 y + 1, sin importar en qué unidades se exprese x y y..

Definición :
El coeficiente de correlación r del momento de producto de Pearson es una medida de la
fortaleza de la relación lineal entre dos variables x y y en la muestra. El coeficiente se calcula (

para una muestra de n mediciones de x y y ) como sigue

SS
r= xy

SSxxSSyy

a
Puesto que tanto r como 1 proporcionan información acerca de la utilidad del modelo, no debe

sorprendemos que las fórmulas mediante las cuales se calculan sean similares. En particular,
observe que SSxy aparece en los numeradores de ambas expresiones y que, dado que ambos
a
denominadores siempre son positivos, r y 1 siempre tienen el mismo signo

(ambos positivos o bien ambos negativos). Un valor de r cercano o igual a 0 implica poca o
ninguna relación lineal entre y y x.

En contraste, cuanto más se acerque r a 1 o -1, más fuerte será la relación lineal entre x y y. Y,
si r = 1 o r = -1, todos los puntos caerán exactamente en la línea de mínimos cuadrados. Un
valor positivo de r implica que y aumenta cuando x aumenta; un valor negativo implica que y
disminuye cuando x aumenta.

Problema: En la tabla siguiente .Calcule el coeficiente de correlación r entre la presión x y la


compresión y.
Presión Compresión
2
X, 10 libras por pulg Y, 0.1 de pulgada

1 1

240
UNIDAD V / REGRESIÓN Y CORRELACIÓN.

2 1
3 2
4 2
5 4

Solución:

SSxy = 7, SSxx = 10, : y .

Entonces,

SSyy yi

y el coeficiente de correlación es

7 7
SSxy
r= = = = 0.904
SSxxSSyy ( )( )10 6 7.746

Por tanto, la presión y la magnitud de la compresión tienen una correlación elevada, al menos
para esta muestra de cinco trozos de material aislante. La implicación es que existe una relación
lineal positiva fuerte entre estas variables. No obstante, debemos tener cuidado de no
precipitamos a conclusiones injustificadas. Por ejemplo, el inventor de un nuevo material aislante
podría sentirse tentado a concluir que un aumento en la presión siempre producirá una mayor
compresión. La implicación de semejante conclusión es que existe una relación causal entre las
dos variables. Sin embargo, una correlación elevada no implica causalidad. Muchos otros
factores, como la temperatura y la humedad, podrían contribuir al aumento en el grado de
compresión que se produce en los especímenes.

Advertencia
Una correlación elevada no implica causalidad. Si se observa un valor positivo o negativo grande
del coeficiente de correlación r de la muestra, no es correcto llegar a la conclusión de que un

241
UNIDAD V / REGRESIÓN Y CORRELACIÓN.

cambio en x causa un cambio en y. La única conclusión puede existir una tendencia lineal entre
xyy.

Tenga presente que el coeficiente de correlación r mide la correlación entre los valores x y los
valores y de la muestra, y que existe un coeficiente de correlación lineal similar para la población
de la cual se seleccionaron los puntos de datos.

El coeficiente de correlación de población se denota con el símbolo ρ (rho). Como era de


esperar, ρ se estima con la estadística de muestra correspondiente, r . Por otro lado, en lugar
de estimar ρ, podríamos querer probar la hipótesis :

H0: ρ = 0 contra

Ha: ρ ≠ 0,

es decir, probar la hipótesis de que x no contribuye con información a la predicción de y


empleando el modelo de línea recta contra la alternativa de que las dos variables tienen por 10
menos una relación lineal.

ˆ
La única diferencia real entre la pendiente de mínimos cuadrados a 1 y el coeficiente de

correlación r es la escala de medición. Por tanto, la información que proporcionan acerca de la

utilidad del modelo de mínimos cuadrados es en cierta medida redundante. Además, la

a
pendiente 1 proporciona información adicional sobre la magnitud del incremento (o decremento)

de y con cada incremento unitario de x.

Por esta razón, recomendamos utilizar la pendiente para hacer inferencias acerca de la
existencia de una relación lineal positiva o negativa entre dos variables.

Para quienes prefieren probar si hay o no una relación lineal entre dos variables empleando el
coeficiente de correlación r, bosquejamos el procedimiento en el recuadro.

242
UNIDAD V / REGRESIÓN Y CORRELACIÓN.

243
UNIDAD V / REGRESIÓN Y CORRELACIÓN.

Prueba de hipótesis para la correlación lineal


Prueba de un cola Prueba de dos colas

Ho :ρ=0 Ho :ρ= 0 H1:ρ>0 H1 :ρ≠ 0

(ρ<0)
rn

Estadística de prueba: t = 2
1−r2

Región de rechazo: Región de rechazo:

t t
t> α t > α/2

(t <−tα)
Donde la distribución de t depende de (n – 2) gl .

Problema: Es importante que los investigadores científicos en el área de los productos forestales
sean capaces de estudiar la correlación entre la anatomía y las propiedades mecánicas de los
árboles. De acuerdo con el estudio Quantitative Anatomical Characteristics of Plantation Grown
Loblolly Pine (pinus Taeda L.) and Cottonwood (populus deltoides Bart. Ex Marsh.) and Their
Relationship to Mechanical Properties que llevó a cabo el Departamento de Silvicultura y
Productos Forestales del Instituto Politécnico y Universidad Estatal de Virginia, un experimento
en el que se seleccionaron aleatoriamente 29 pinos loblolly para investigación que produjeron
los datos de la tabla siguiente sobre la gravedad específica en gramos /cm3 y el módulo de
ruptura en kilo pascales (kPa). Calcule e interprete el coeficiente de correlación muestra!.

Gravedad Modulo de Gravedad Modulo de


especifica, x ruptura, y especifica, x ruptura, y

(g /cm3) (kPa) (g /cm3) (kPa)

0.414 29186 0.581 85156


0.383 29266 0.557 69571
0.399 26215 0.550 84160
0.402 30162 0.531 73466
0.442 38867 0.550 78610
0.422 37831 0.556 67657

244
UNIDAD V / REGRESIÓN Y CORRELACIÓN.

0.466 44576 0.523 74017


0.500 46097 0.602 87291
0.514 59698 0.569 86836
0.530 67705 0.544 82540
0.569 66088 0.557 81699
0.558 78486 0.530 82096
0.577 89869 0.547 75657
0.572 77369 0.585 80490
0.548 67095

Solución

Sxx =0.11273; Syy =11807324786


Sxy =34422.75972
34422.75972
=0.9435
r= (0.11273)(11807324786)

Un coeficiente de correlación de 0.9435 indica una buena relación lineal entre X y Y. Como r2 =
0.8902, podemos decir que aproximadamente 89% de la variación en los valores de Y se explica
por una relación lineal con X.

Una prueba de la hipótesis especial ρ= 0 contra una alternativa apropiada es equivalente a

probar β= 0 para el modelo de regresión lineal simple que utilizan la distribución t con n – 2

grados de libertad o la distribución F con 1 y n - 2 grados de libertad. Sin embargo, si se desea


evitar el procedimiento del análisis de varianza y calcular sólo el coeficiente de correlación
muestral, se puede verificar que el valor t dado por

b SSR
s = s
t = S xx

245
UNIDAD V / REGRESIÓN Y CORRELACIÓN.


También se puede escribir como t =rn 2 que, como antes, es un valor de la 1− r2
estadística T que tiene una distribución t con n - 2 grados de libertad.
Problema: Para los datos del ejemplo anterior pruebe la hipótesis de que no hay una asociación
lineal entre las variables.

Solución:

1. Ho : ρ= 0 2.
H1 : ρ≠ 0

3. α=0.05
4. Región critica: t <−2.052 y t >
2.052 5. Calculos
0.9435(27)
2
t = 1 −(0.9435 ) =14.79, P < 0.001

6. Decisión
Rechazar la hipótesis de no asociación lineal.

Una prueba de la hipótesis más general ρ = ρo contra una alternativa adecuada se lleva a cabo

fácilmente a partir de la información muestral. Si X y Y siguen la distribución normal bivariada,


la cantidad

1 ⎛1+ r ⎞ ln⎜

2 ⎝1− r ⎠

Es un valor de una variable aleatoria que sigue de manera aproximada la distribución normal con

media (1/2) In [(1 + ρ) / (1- ρ)] y varianza 1/ (n - 3). De esta forma el procedimiento de prueba
es calcular

246
UNIDAD V / REGRESIÓN Y CORRELACIÓN.

z = n2−3 ⎢⎢⎣⎡ln⎛⎜⎝11+− rr ⎞⎟⎠− ln⎜⎝⎛⎜11 +−ρρ00 ⎞⎟⎟⎠⎤⎥⎥⎦

n −3 ⎡(1+ r)(1−ρ0 )⎤

= 2 ln⎢⎣(1− r)(1+ρ0 )⎥⎦

y comparar con los puntos críticos de la distribución normal estándar.

Problema: Para los datos del ejemplo antes de que acabamos de resolver pruebe la hipótesis

nula ρ= 0.9 contra la alternativa de que ρ> 0.9 . Utilice un nivel de significancia de 0.05

Solución:

1. .H0 :ρ= 0.9

2. H1 :ρ> 0.9

3. α= 0.05
4. Región critica : z >1.645
5. Cálculos

z = 226 ln⎢⎣⎡((11+− 00..94359435))10..91⎤⎥⎦ =1.51

P = 0.0655
6. Decisión : Hay en realidad alguna evidencia de que el coeficiente de
correlación excede 0.9

Relación no lineal.

247
UNIDAD V / REGRESIÓN Y CORRELACIÓN.

Diagrama de dispersión que muestra correlación cero

5.7. Problemas prácticos de ajustes de curvas

Problema: Partir de un estudio experimental acerca de la estabilidad de arcilla muy platica, se


observo que el contenido de agua para moldeo con densidad optima dependía linealmente de
los porcentajes de cal y puzolana mezclado con la arcilla. Se tuvieron así los resultados que dan

abajo. Ajuste una ecuación de la forma: y=a0 +a1u+a2v

Solución:

248
UNIDAD V / REGRESIÓN Y CORRELACIÓN.

⎛7 45 62.5 206.4 ⎞

⎜ ⎟
A := 45 407.5 291.25 1367.85

⎜ ⎟
⎝ 62.5 291.25 816.25 1789.65⎠

⎛ 1 0 0 28.692⎞
⎜ ⎟
rref A() = 0 1 0 0.257

⎜ ⎟
⎝ 0 0 1 −0.096⎠
y := 28.692+ 0.257u − 0.096v

Problema: Al medir la velocidad (con un tubo de Pitot) en una tubería circular de diámetro interior
de 20 cm, se encontró la siguiente información:

V ( cm / s ) 600 550 450 312 240


R ( cm) 0 3 5 7 8

Donde R es la distancia en cm. medida a partir del centro del tubo.


a) Obtenga la curva v = f(R) que aproxima estos datos experimentales

249
UNIDAD V / REGRESIÓN Y CORRELACIÓN.

700

600

500

400

300
y = -5.3472x 2 - 3.0667x + 601.71
200

100

0
0 2 4 6 8 10

b) Calcule la velocidad en el punto R = 4 cm.

Problema: Si aproxima la función dada abajo por un polinomio de segundo grado

250
UNIDAD V / REGRESIÓN Y CORRELACIÓN.

4500
0
4000
0
3500
0
3000
0
2500
0
2000
0
1500
0
1000 2
y = -8.8218x- 1412.1x + 39694
0500
0 0
0 5 1 1 20
0 5

Problema: En la siguiente tabla, r es la resistencia de una bobina en ohms y T la temperatura de


la bobina en ºC. Por mínimos cuadrados determine el mejor polinomio lineal que represente la
función dada:

100
90 y = 35.744x - 361.8
80
70
60
50
40
30
20
10
0
0 5 10 15

Problema: En una reacción gaseosa de expansión a volumen constante, se observa que la


presión del reactor (batch) aumenta con el tiempo de reacción según se muestra en la tabla de
abajo.

¿Que grado de polinomio aproxima mejor la función P = f(t) ?

251
UNIDAD V / REGRESIÓN Y CORRELACIÓN.

3.5
3.5
3 y = 0.5234x 2
+ 0.479x + 1.0089
3
y = 1.2386x + 0.8702
2.5 2.5

2 2

1.5 1.5

1 1

0.5 0.5

0 0
0 0.5 1 1.5 2 0 0.5 1 1.5 2

Problema: ajústese una línea recta a los valores x y y de la tabla siguiente:


xi yi
1 0.5
2 2.5
3 2.0
4 4.0
5 3.5
6 6.0
7 5.5

Solución:
8
6
4
2
0
0 2 4 6 8

252
UNIDAD V / REGRESIÓN Y CORRELACIÓN.

Ejercicios propuestos

P1. En cada caso, grafique la línea que pasa por los puntos.
a. (0, 2) Y (2, 6)
b. (0, 4) Y (2, 6)
c. (0,-2) y (-1,-6)
d. (0, -4) Y (3, -7)

P2. Grafique las siguientes líneas:

a. y = 3 + 2x

b. y=l+x

c. y = - 2 + 3x

d. y = 5x

e. y = 4 - 2x

P3. Dos procesos para el taladrado hidráulico de roca son el taladrado en seco y el taladrado
húmedo. En un agujero seco se introduce aire comprimido por las varillas de taladrar para
expulsar las partículas e impulsar el martillo; en un agujero húmedo se introduce agua a presión.
Se realizó un experimento para determinar si el tiempo y que se requiere para taladrar una
distancia de cinco pies en roca aumenta con la profundidad x (The American Statistician, febrero
de 1991). Los resultados para una porción del experimento se muestran en la siguiente tabla.

Profundidad a la que se inicia el taladro x, pies Tiempo para taladrar 5 pies y , minutos

0 4.90
25 7.41
50 6.19
75 5.57
100 5.17
125 6.89
150 7.05
175 7.11

253
UNIDAD V / REGRESIÓN Y CORRELACIÓN.

200 6.19
225 8.28
250 4.84
275 8.29
300 8.91
325 8.54
350 11.79
375 12.12
395 11.02

a) Elabore un diagrama de dispersión para datos.


b) Encuentre la ecuación de predicción de mínimos cuadrados.
c) Grafique la línea de mínimos cuadrados en el diagrama de dispersión

d) Interprete los valores de a0 y a1

P4. Se realizó un estudio para modelar el desempeño térmico de los tubos con aletas integrales
empleados en las industrias de refrigeración y de proceso (Journal of Heat Transfer, agosto de
1990). En el experimento se utilizaron 24 tubos con aletas integrales de fabricación especial, con
aletas rectangulares hechas de cobre. Se liberó vapor hacia abajo en cada tubo y se midió el
coeficiente de transferencia de calor del lado del vapor (con base en el área superficial exterior
del tubo). La variable dependiente en este estudio es la tasa de promoción de la transferencia
de calor y, definida como el cociente entre el coeficiente del lado del vapor del tubo con aletas y
el coeficiente del lado del vapor de un tubo liso, evaluados a la misma temperatura. En teoría, la
transferencia de calor está relacionada con el área de la parte superior del tubo que no está
"inundada" por la condensación del vapor. Los datos de la tabla son los valores de proporción
de área no inundada (x) y promoción de la transferencia de calor (y) registrados para los 24 tubos
con aletas integrales.

Proporción de área no Promoción de la transferencia de


inundada, x calor, y

1.93 4.4
1.95 5.3
1.78 4.5
1.64 4.5

254
UNIDAD V / REGRESIÓN Y CORRELACIÓN.

1.54 3.7
1.32 2.8
2.12 6.1
1.88 4.9
1.70 4.9
1.58 4.1
2.47 7.0
2.37 6.7
2.00 5.2
1.77 4.7
1.62 4.2
2.77 6.0
2.47 5.8
2.24 5.2
1.32 3.5
1.26 3.2
1.21 2.9
2.26 5.3
2.04 5.1
1.88 4.6

a) Determine la línea de mínimos cuadrados que relaciona la promoción de la transferencia


de calor y con la proporción de área no inundada x.
b) Grafique los puntos de datos y trace la línea de mínimos cuadrados como verificación de
sus cálculos.

c) Interprete los valores de a0 y a1


.
P5. La Comisión Federal de Comunicaciones (FCC) de Estados Unidos especifica que las
emisiones electromagnéticas radiadas por dispositivos digitales se deben medir en un sitio de
prueba de campo abierto. A fin de verificar la aceptabilidad de un sitio de prueba es preciso
evaluar la atenuación del sitio (es decir, la pérdida de transmisión desde la entrada de un dipolo
de media onda hasta la salida de otro cuando ambos dipolos se colocan sobre el plano de tierra).

255
UNIDAD V / REGRESIÓN Y CORRELACIÓN.

Un estudio realizado en un sitio de prueba en Fort Collins, Colorado, produjo los siguientes datos
de atenuación del sitio (en decibeles) y frecuencia de transmisión (en megahertz) para dipolos a
una distancia de 3 metros.
Frecuencia de Atenuación del sitio y ,dBL
Transmisión X, MHZ

50 11.5
100 15.8
200 18.2
300 22.6
400 26.2
500 27.1
600 29.5
700 30.7
800 31.3
900 32.6
1000 34.9

P6. Como parte de un estudio sobre la rapidez de combustión de grafito artificial en un flujo de
aire húmedo, se llevo a cabo un experimento con miras a investigar la difusividad del oxígeno a
través de una mezcla de vapor de agua (Combustion and Flame, vol. 50, 1983). Se prepararon
muestras de mezclas de nitrógeno y oxígeno con una fracción molar de agua de 0.017 a nueve
temperaturas distintas, y se midió la difusividad del oxígeno en cada una.
Los datos se reproducen en la siguiente tabla.
Temperatura Difusividad de oxigeno
x Y
1,000 1.69
1,100 1.99
1,200 2.31
1,300 2.65
1,400 3.01
1,500 3.39
1,600 3.79
1,700 4.21
1,800 4.64

256
UNIDAD V / REGRESIÓN Y CORRELACIÓN.

a) Grafique los puntos de datos en un diagrama de dispersión.

b) Ajuste un modelo lineal simple que relacione la difusividad media del oxígeno, E(y)
, con la temperatura, x. Interprete las estimaciones de los parámetros del modelo. c)
Calcule SSE y S2

P7. El equilibrio termogravimétrico (TG ) es una nueva técnica que se desarrolló para evaluar el
comportamiento térmico de los compuestos químicos. Abou El Naga y Salem (1986) compararon
la técnica TG con el método estándar de evaluar la estabilidad respecto a la termooxidación de
aceite, base y sus mezclas aditivas (por ejemplo, aceites de transformador, de turbina y de
transmisión). En cada espécimen de una muestra de 10 aceites base se determinó la cantidad y
de compuestos oxidativos formados en el punto de oxidación empleando la técnica TG, así como
el porcentaje total de productos de oxidación x empleando el método estándar. Los resultados
del experimento se muestran en la siguiente tabla.

Aceite
base Técnica TG: cantidad de compuestos Método estándar:
oxidativos y , % en Total de productos de oxidación
peso X, %

1 25.4 2.3

2 27.11 2.5

3 28.0 2.65

4 17.9 1.3

5 18.9 1.45

6 22.9 1.9

7 30.8 3.3

8 18.6 1.4

9 24.4 2.1

10 29.8 2.9

a) Ajuste un modelo lineal simple que relacione la cantidad y de compuestos oxidativas


determinados por la técnica TG con el porcentaje total de productos de oxidación x
determinados por el método estándar.

257
UNIDAD V / REGRESIÓN Y CORRELACIÓN.

b) Grafique los puntos de datos y la línea de mínimos cuadrados en un diagrama de


dispersión.

d) Interprete los valores de a0 y a1

c) Calcule SSE, S2 y s.

d) Interprete el valor de s.

258
ANEXOS

TABLAS

ANEXOS / TABLAS

APÉNDICE A
Tabla de la distribución normal (área bajo la curva normal)
z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879

0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7703 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8364 0,8389

1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9278 0,9292 0,9306 0,9319

1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767

2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,9830 0,9934 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936

2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986

3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
3,1 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993
3,2 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995
3,3 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997
3,4 0,9997 0.9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998

3,5 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999

z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

260
ANEXOS / TABLAS

-3.4 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0002
-3.3 0.0005 0.0005 0.0005 0.0004 0.0004 0.0004 0.0004 0.0004 0.0004 0.0003
-3.2 0.007 0.0007 0.0006 0.0006 0.0006 0.0006 0.0006 0.0005 0.0005 0.0005
-3.1 0.0010 0.0009 0.0009 0.0009 0.0008 0.0008 0.0008 0.0008 0.0007 0.0007
-3.0 0.0013 0.0013 0.0013 0.0012 0.0012 0.0011 0.0011 0.0011 0.0010 0.0010

-2.9 0.0019 0.0018 0.0017 0.0017 0.0016 0.0016 0.0015 0.0015 0.0014 0.0014
-2.8 0.0026 0.0025 0.0024 0.0023 0.0023 0.0022 0.0021 0.0021 0.0020 0.0019
-2.7 0.0035 0.0034 0.0033 0.0032 0.0031 0.0030 0.0029 0.0028 0.0027 0.0026
-2.6 0.0047 0.0045 0.0044 0.0043 0.0041 0.0040 0.0039 0.0038 0.0037 0.0036
-2.5 0.0062 0.0060 0.0059 0.0057 0.0055 0.0054 0.0052 0.0051 0.0049 0.0048

-2.4 0.0082 0.0080 0.0078 0.0075 0.0073 0.0071 0.0069 0.0068 0.0066 0.0064
-2.3 0.0107 0.0140 0.0102 0.0099 0.0096 0.0094 0.0091 0.0089 0.0087 0.0084
-2.2 0.0139 0.0136 0.0132 0.0129 0.0125 0.0122 0.0119 0.0116 0.0113 0.110
-2.1 0.0179 0.0174 0.0170 0.0166 0.0162 0.0158 0.0154 0.0150 0.0146 0.0143
-2.0 0.0228 0.0222 0.0217 0.0212 0.0207 0.0202 0.0197 0.0192 0.0188 0.0183

-1.9 0.0287 0.0281 0.0274 0.0268 0.0262 0.0256 0.0250 0.0244 0.0239 0.0233
-1.8 0.0359 0.0352 0.0344 0.0336 0.0329 0.0322 0.0314 0.0307 0.0301 0.0294
-1.7 0.0446 0.0436 0.0427 0.0418 0.0409 0.0401 0.0392 0.0384 0.0375 0.0367
-1.6 0.0548 0.0537 0.0526 0.0516 0.0505 0.0495 0.0485 0.0475 0.0465 0.0455
-1.5 0.0668 0.0655 0.0643 0.0630 0.0618 0.0606 0.0594 0.0582 0.0571 0.0559

-1.4 0.0808 0.0793 0.0778 0.0764 0.0749 0.0735 0.0722 0.0708 0.0694 0.0681
-1.3 0.0968 0.0951 0.0934 0.0918 0.0901 0.0885 0.0869 0.0853 0.0838 0.0823
-1.2 0.1151 0.1131 0.1112 0.1093 0.1075 0.1056 0.1038 0.1020 0.1003 0.0985
-1.1 0.1357 0.1335 0.1314 0.1292 0.1271 0.1251 0.1230 0.1210 0.1190 0.1170
-1.0 0.1587 0.1562 0.1539 0.1515 0.1492 0.1469 0.1446 0.1423 0.1401 0.1379

-0.9 0.1841 0.1814 0.1788 0.1762 0.1736 0.1711 0.1685 0.1660 0.1635 0.1611
-0.8 0.2119 0.2090 0.2061 0.2033 0.2005 0.1977 0.1949 0.1922 0.1894 0.1867
-0.7 0.2420 0.2389 0.2358 0.2327 0.2296 0.2266 0.2236 0.2206 0.2177 0.2148
-0.6 0.2743 0.2709 0.2676 0.2643 0.2611 0.2566 0.2546 0.2514 0.2483 0.2451
-0.5 0.3085 0.3050 0.3015 0.2981 0.2946 0.2578 0.2877 0.2843 0.2810 0.2776

-0.4 0.3446 0.3409 0.3372 0.3336 0.3300 0.3264 0.3228 0.3192 0.3156 0.3121
-0.3 0.3821 0.3783 0.3745 0.3707 0.3669 0.3632 0.3594 0.3557 0.3520 0.3483
-0.2 0.4207 0.4168 0.4129 0.4090 0.4052 0.4013 0.3974 0.3936 0.3897 0.3859
-0.1 0.4602 0.4562 0.4522 0.4483 0.4443 0.4404 0.4364 0.4325 0.4286 0.4247
-0.0 0.5000 04960 0.4920 0.4880 0.4840 0.4801 0.4761 0.4721 0.4681 0.4641

261
ANEXOS / TABLAS

APÉNDICE B

Valores críticos de la distribución t

α
V
0.40 0.30 0.20 0.15 0.10 0.05 0.025
1 0.325 0.727 1.376 1.963 3.078 6.314 12.706
2 0.289 0.617 1.061 1.386 1.886 2.920 4.303
3 0.277 0.584 0.978 1.250 1.638 2.353 3.182
4 0.271 0.569 0.941 1.190 1.533 2.132 2.776
5 0.267 0.559 0.920 1.156 1.476 2.015 2.571
6 0.265 0.553 0.906 1.134 1.440 1.943 2.447
7 0.263 0.549 0.896 1.119 1.415 1.895 2.365
8 0.262 0.546 0.889 1.108 1.397 1.860 2.306
9 0.261 0.543 0.883 1.100 1.383 1.833 2.262
10 0.260 0.542 0.879 1.093 1.372 1.812 2.228
11 0.260 0.540 0.876 1.088 1.363 1.796 2.201
12 0.259 0.539 0.873 1.083 1.356 1.782 2.179
13 0.259 0.537 0.870 1.079 1.350 1.771 2.160
14 0.258 0.537 0.868 1.076 1.345 1.761 2.145
15 0.258 0.536 0.866 1.074 1.341 1.753 2.131
16 0.258 0.535 0.865 1.071 1.337 1.746 2.120
17 0.257 0.534 0.863 1.069 1.333 1.740 2.110
18 0.257 0.534 0.862 1.067 1.330 1.734 2.101
19 0.257 0.533 0.861 1.066 1.328 1.729 2.093
20 0.257 0.533 0.860 1.064 1.325 1.725 2.086
21 0.257 0.532 0.859 1.063 1.323 1.721 2.080
22 0.256 0.532 0.858 1.061 1.321 1.717 2.074
23 0.256 0.532 0.858 1.060 1.319 1.714 2.069
24 0.256 0.531 0.857 1.059 1.318 1.711 2.064
25 0.256 0.531 0.856 1.058 1.316 1.708 2.060
26 0.256 0.531 0.856 1.058 1.315 1.706 2.056
27 0.256 0.531 0.855 1.057 1.314 1.703 2.052
28 0.256 0.530 0.855 1.056 1.313 1.701 2.048
29 0.256 0.530 0.854 1.055 1.311 1.699 2.045
30 0.256 0.530 0.854 1.055 1.310 1.697 2.042
40 0.255 0.529 0.851 1.050 1.303 1.684 2.021
60 0.254 0.527 0.848 1.045 1.296 1.671 2.000
120 0.254 0.526 0.845 1.041 1.289 1.658 1.980
∞ 0.253 0.524 0.842 1.036 1.282 1.645 1.960

262
ANEXOS / TABLAS

Continuación de valores críticos de la distribución t

V
0.02 0.015 0.0075 0.005 0.0025 0.0005
1 15.895 21.205 63.657 127.322 636.590
2 4.849 5.643 9.925 14.089 31.598
3 3.482 3.896 5.841 7.453 12.924
4 2.999 3.298 4.604 5.598 8.610
5 2.757 3.003 4.032 4.773 6.869
6 2.612 2.829 3.707 4.317 5.959
7 2.517 2.715 3.499 4.029 5.408
8 2.449 2.634 3.355 3.833 5.041
9 2.398 2.574 3.250 3.690 4.781
10 2.359 2.527 3.169 3.581 4.587
11 2.328 2.491 3.106 3.497 4.437
12 2.303 2.461 3.055 3.428 4.318
13 2.282 2.436 3.012 3.372 4.221
14 2.264 2.415 2.977 3.326 4.140
15 2.249 2.397 2.947 3.286 4.073

263
ANEXOS / TABLAS

16 2.235 2.382 2.921 3.252 4.015


17 2.224 2.368 2.898 3.222 3.965
18 2.214 2.356 2.878 3.197 3.922
19 2.205 2.346 2.861 3.174 3.883
20 2.197 2.336 2.845 3.153 3.849

21 2.189 2.328 2.831 3.135 3.819


22 2.183 2.320 2.819 3.119 3.792
23 2.177 2.313 2.807 3.104 3.768
24 2.172 2.307 2.797 3.091 3.745
25 2.167 2.301 2.787 3.078 3.725
26 2.162 2.296 2.779 3.067 3.707
27 2.158 2.291 2.771 3.057 3.690
28 2.154 2.286 2.763 3.047 3.674
29 2.150 2.282 2.756 3.038 3.659
30 2.147 2.278 2.750 3.030 3.646
40 2.125 2.250 2.704 2.971 3.551
60 2.099 2.223 2.660 2.915 3.460
120 2.076 2.196 2.617 2.860 3.373
∞ 2.054 2.170 2.576 2.807 3.291

264
ANEXOS / TABLAS

APÉNDICE C

Tabla de valores críticos de la distribución ji cuadrada

265
ANEXOS / TABLAS

266
BIBLIOGRAFIA.

Chapra, S. y Canales R.; Métodos numéricos para ingenieros. Mc Graw Hill

Irwin R. Miller, John E. Freud, Richard Jhonston; Probabilidad y Estadistica para ingenieros; Ed.
Prentice Hall;

Mendenhall, Sincich; Probabilidad y estadística para ingeniería y ciencias ; Ed. Prentice Hall.

Meyer.: Probabilidad y aplicaciones Estadísticas. Ed. Addison-Wesley.

Murray Spiegel.; Probabilidad y estadística .;Ed. McGraw Hill.

Nieves – Dominguez; Numéricos para ingenieros; Mc Graw Hill

Paul L. Meyer; Probabilidad y aplicaciones Estadisticas. Ed. Fondo Educativo Interamericana.

Richard I. Levin, David S. Rubin; Estadistica para administradores; Prentice Hall. Walpole

, Myers.; Probabilidad y estadística para ingenieros Prentice Hall


262