Académique Documents
Professionnel Documents
Culture Documents
ASIGNATURA ESTADÍSTICA
Recopilado por
Clara Pastora Téllez
Septiembre, 2013
Índice de contenido
Objetivos ….………………………………………………………………………………………………………………………… 4 2
Introducción ………………………………………………………………………………………………………………………….. 4
1. Unidad I: Estadística Descriptiva ……………….………………………………………………….. 4
Ramas de la estadística………………………………………………………………….. 6
Conceptos …………………………………………………………………………………. 7
Escalas de medición …………………………………………………………………… 9
Actividad de Autoaprendizaje N° 1 ………………………………………. 11
Organización de datos …………………………………………………………………… 14
Gráficas estadísticas ………………………………………………………………….. 17
Actividad de Autoaprendizaje N° 2 ……………………………………… 19
Medidas de tendencia central …………………………………………………….. 21
Media ………………………………………………………………………………… 21
Mediana……………………………………………………………………………….. 24
Moda …………………………………………………………………………………. 25
Medidas de tendencia no central…………………………………………………. 25
Cuartiles y Percentiles …………………………………………………….. 26
Medidas de variación ………………………………………………………………….. 27
Varianza, Desviación estándar …………………………………….. 27
Coeficiente de variación………………………………………………….. 26
Actividad de Autoaprendizaje N° 3 ……………………………………… 29
2. Unidad II: Probabilidades ……………………………………………………………………………….. 30
Enfoques de probabilidad y Conceptos ………………………………………. 30
Reglas de Probabilidad …………………………………………………….. 32
Actividad de Autoaprendizaje N° 4 ………………………………………. 36
Teorema de Bayes …………………………………………………………………… 42
Actividad de Auto aprendizaje N° 5 ……………………………………… 43
3. Unidad III: Distribuciones de Probabilidad y Pruebas Estadísticas …………… 45
Distribución de probabilidad ……………………………………………………. 45
Actividad de Autoaprendizaje N° 6 …………………………………….. 48
Distribución Binomial ………………………………………………………………….. 49
Actividad de Autoaprendizaje N° 7 ……………………………………… 51
Distribución de Poisson…………………………………………………………………. 51
Actividad de Autoaprendizaje N° 8 ……………………………………… 54
Distribución Normal ………………………………………………………………….. 55
Actividad de Autoaprendizaje N° 9 ……………………………………… 59
Distribución muestral para la media ……………………………………… 61
Teorema de Limite Central …………………………………………………… 64
Actividad de Autoaprendizaje N° 10 …………………………………….. 65
Estimación por intervalo y tamaño de muestra …………… …………. 70
Actividad de Autoaprendizaje N° 11 …………………………………….. 73
Prueba de Hipótesis …………………………………………………………………. 75
Actividad de Autoaprendizaje N° 12 …………………………………….. 85
Prueba de independencia…..……………………………………………. 86
Actividad de Autoaprendizaje N° 13 ……….……………………………. 88
4. Unidad IV: Regresión y Correlación Lineal Simple………………………………………………… 90
Diagrama de Dispersión……………………………………………………………………. 90
3
Regresión Lineal …………………………………………………………………………. 91
Estimación de la ecuación………. ……………........................................... 92
Error estándar de estimación ……………………………………………………. 93
Coeficiente de Correlación y Determinación …………… ………………..……… 93
Intervalo de Confianza de la media …………………………………………………… 94
Inferencia acerca de los parámetros …………………………………………………… 95
Actividad de Autoaprendizaje N° 14 …………………………………………………… 96
Referencias ……………………………………………………………………………………………………………. 98
Objetivos
1. Apropiarse de la terminología usada en el área estadística, con el fin de impulsar la
4
adquisición de cultura estadística por parte de los estudiantes.
2. Identificar maneras adecuadas para la presentación de información y adquirir las
destrezas para construir tablas y gráficos estadísticos.
3. Se pretende lograr un aprendizaje significativo con la construcción de objetos de
aprendizaje en cada una de las unidades, además, del apoyo de herramientas de software
estadístico.
4. Se espera que el curso sea ameno y provechoso para todos (as), logrando potenciar al
estudiante en la aplicación de la estadística y fortaleciendo además, otros valores como: la
honestidad, solidaridad y trabajo en grupo.
Introducción
El presente material de estudio no pretende sustituir a ningún texto de Estadística, por el
contrario es un esfuerzo que trata de resumir los temas que se requieren para cursar la
asignatura; los estudiante que deseen profundizar en el contenido del programa, deben realizar
las consultas necesarias para completar el conocimiento de esta disciplina.
El material cuenta con cuatro unidades donde se presenta una introducción, el desarrollo
teórico, ejercicios resueltos paso a paso, ejercicios propuestos y un formulario creado para
cada unidad. La temática se resume en: Estadística descriptiva, Probabilidades, Distribuciones
de Probabilidad y Prueba estadísticas y Regresión y Correlación Lineal Simple.
1. Definición
1.1 Estadística es una disciplina que apoya el proceso de toma de decisiones en diversas
áreas del conocimiento, además, de entregar pautas para la presentación adecuada de
información.
1.2 Estadística es la ciencia que utilizando las matemáticas y de modo particular el c á lc ul o
pa ra estud i a r l a s l eye s d e c om po rta m iento d e a quel l os fenóm e nos qu e no
esta nd o sometidos a leyes rígidas dependen del azar y basándose en ella, se predicen resultados.
1.3 El famoso diccionario Inglés Word Reference define la estadística como un área de la
matemática aplicada orientada a la recolección e interpretación de datos cuantitativos
y al uso de la teoría de la probabilidad para calcular los parámetros de una población.
2. Estudio de la Estadística
Existen dos razones por las cuales el campo de acción de la estadística y la necesidad de un
estudio han crecido enormemente en las últimas décadas. Una razón es que el enfoque cada
vez más cuantitativo que se emplea en todas las ciencias, así como en las empresas y en
otras actividades que afectan nuestras vidas. Esto incluye el uso de técnicas matemáticas
para la evaluación de controles contra la contaminación, la planeación de inventarios, el
estudio de la nutrición, la longevidad, la evaluación de técnicas de enseñanza, etc.
La otra razón es que la cantidad de información estadística que se recolecta, procesa y
disemina al público, por un motivo o por otro ha crecido casi más allá de nuestro
entendimiento, y algo que todo mundo se pregunta es qué parte de ella es estadística
“pura” y qué parte es “impura”.
3. Aplicaciones
3.1 Una compañía que fabrica equipos electrónicos complejos produce algunos equipos que
funcionan adecuadamente, pero también algunos que, por razones desconocidas, no
funcionan adecuadamente. ¿a que se debe que algunos sean buenos y otros no?
3.2 El departamento de control de calidad de una compañía se encarga de vigilar la
producción en forma continua, aplicando muestreo y otras técnicas estadísticas
comunes.
3.3 El contralor y el departamento de contabilidad de una empresa se encargan de la
exactitud en los cálculos financieros. Ya que resulta físicamente imposible verificar cada
documento y determinar su exactitud, se realiza un muestreo de las facturas y se toman
decisiones en base a los resultados de la muestra.
3.4 El departamento de mercadotecnia de una empresa realizará pruebas con los
consumidores y proyectan las ganancias con base en los resultados de la muestra.
3.5 Los analistas de investigación evalúan muchos aspectos de una acción o valor antes de
hacer una recomendación de compra o venta. Recopilan los datos de ventas anteriores de
la empresa y estiman las ganancias futuras.
3.6 El gobierno realiza un gran número de encuestas para determinar la condición actual de
la economía y la predicción de las tendencias económicas futuras. Se elaboran índices,
como el índice de precios al consumidor con el objeto de evaluar la tendencia
inflacionaria.
6
3.7 Los consumidores utilizan los precios unitarios para decidir la cantidad o calidad del
producto a comprar.
3.8 Los resultados de sondeos de opinión pública se presentan en los medios de comunicación.
Estos abarcan muchos temas, como evaluación del desempeño de las alcaldías, ministerios,
asamblea nacional, incluso al presidente, el impacto de las medidas económicas, etc.
3.9 Dificultades que encuentran los estudiantes al momento de realizar lectura de textos, su
nivel de comprensión, etc.
4. Ramas de la estadística
Una de las ramas de la Estadística más accesible a la mayoría de la población es la
Descriptiva. Esta parte se dedica única y exclusivamente al ordenamiento y tratamiento de
la información para su presentación por medio de tablas y de representaciones gráficas,
así como de la obtención de algunos parámetros útiles para la explicación de la información
(la media y la desviación estándar). Es un primer acercamiento a la información.
Estadística Descriptiva
La estadística descriptiva es una ciencia que analiza series de datos (por
ejemplo, edad de una población, altura de los estudiantes de una escuela,
4.1 temperatura en los meses de verano, etc.) y trata de extraer conclusiones
sobre el comportamiento de estas variables.
Estadística Inferencial
Basándose en los resultados obtenidos de una muestra induce o estima las
4.2
leyes reales del comportamiento de la población de la que proviene dicha
muestra.
5. Conceptos básicos.
7
Población
Son todos y cada uno de los elementos que se quieren analizar. Puede ser finita o infinita
(en realidad las poblaciones infinitas no existen, pero cuando se trata de un número
grande se supone como si lo fuera).
Muestra
Es un subconjunto de la población o parte de la población que se observa.
(Característica de una población es la propiedad que se estudia.)
Las razones para estudiar muestras en lugar de poblaciones son diversas y entre ellas podemos
señalar:
1. Ahorrar tiempo. Estudiar a menos individuos es evidente que lleva menos tiempo.
2. Como consecuencia del punto anterior ahorraremos costos.
3. Estudiar la totalidad de las personas con una característica determinada en muchas
ocasiones puede ser una tarea inaccesible o imposible de realizar.
4. Aumentar la calidad del estudio. Al disponer de más tiempo y recursos, las observaciones y
mediciones realizadas a un reducido número de individuos pueden ser más exactas y
plurales que si las tuviésemos que realizar a una población.
5. La selección de muestras específicas nos permitirá reducir la heterogeneidad de una
población al indicar los criterios de inclusión y/o exclusión.
Parámetro
Característica numérica de una población.
Estadístico
Característica numérica de una muestra.
Variable
8
Es una forma de expresar una característica de un grupo de elementos de
estudio, como el peso de una persona, su estatura, el color de sus ojos,…una
población o de una muestra
Categórica
Variable
Continua
Numérica
Discreta
Ej. 4 Clasifique cada una de las siguientes variables en categórica o numéricas (discreta o
continua).
Variable Tipo de variable
1 Nacionalidad.
2 Resistencia a la tensión.
3 Salario mensual (C$).
4 N° de artículos defectuosos.
5 Temperatura (°F).
Individuo
Cualquier elemento que porte información sobre el fenómeno que se estudia. Así, si
estudiamos la altura de los niños de una clase, cada alumno es un individuo; si estudiamos
el precio de la vivienda, cada vivienda es un individuo.
3. Ilustración.
Un estudiante de estadística desea tener una idea acerca del valor (en unidades
monetarias) del automóvil típico que poseen los profesores de su universidad. Para esto se
aplica cada uno de los términos básicos que se han definido.
3.1 La población es el conjunto de todos los vehículos de los profesores de la
universidad.
3.2 Una muestra es una porción o parte de una población. Por ejemplo el número de
automóviles cuyos propietarios son los profesores del departamento de matemáticas,
es una muestra.
3.3 La variable es el valor real de cada automóvil.
3.4 Un dato es el valor de un vehículo en particular. Por ejemplo, el auto del profesor
Miranda esta valuado en 12 mil dólares.
3.5 Los datos son el conjunto de valores que corresponden a la muestra obtenida (8, 10,
12,…miles de $)
3.6 El parámetro acerca del cual se busca información es el valor “promedio” en la
población.
3.7 El estadístico que se encontrará es el valor “promedio de la muestra”
a. ¿Se consideran las 112 acciones una muestra o una población? Explique.
b. ¿Cuál es el nivel de medición? Explique.
c. ¿Son las categorías mutuamente excluyentes? Explique.
10. El gerente de una compañía ha formulado una serie de preguntas al responsable del
Departamento de Informática acerca de los trabajadores. Identifique el tipo de
dato que se pide en cada pregunta.
a. ¿Cuántos trabajadores tiene el Departamento de Informática?
b. Nivel académico (secundaria, universitaria, técnico, otros).
c. ¿Cuántas veces al mes ha habido reclamo en el salario de los empleados?
d. Número de trabajadores ausentes al mes.
e. Salario de los trabajadores.
11. Suponga que el gerente de la división de servicios al cliente de Xenith está interesado
principalmente en determinar si los clientes que han comprado una computadora durante
los últimos 12 meses quedaron satisfechos con el producto. Usando las tarjetas de garantía
entregadas después de la compra, el gerente planea encuestar a 1425 de estos clientes.
a. Describa tanto la población como la muestra de interés para el gerente.
b. Describa el tipo de dato que el gerente desea recolectar principalmente.
c. Desarrolle un primer borrador del cuestionario escribiendo una serie de siete
d. preguntas categóricas y cinco numéricas que piensa serian apropiadas para esta
14
encuesta.
8. Organización de datos.
Muchas veces uno se pregunta, ¿para qué sirven las encuestas que a veces se hacen en la
calle?, ¿Cómo saber si una estación de radio se escucha más que otra? , ¿Cuál candidato
puede ganar? La respuesta se comienza con la recaudación de datos. Los datos son
información que se recoge, esto puede ser opinión de las personas sobre un tema, edad o
sexo de encuestados, dónde viven, cuántas personas viven en una casa, qué tipo de sangre
tiene un grupo de personas, etc. Hay datos que pueden ser de mucha utilidad a diferentes
profesionales en la toma de decisiones, para resolver problemas o para mostrar resultados
de investigaciones. Una vez que se haya recogido toda la información, se procede a crear
una base de datos, donde se registran todos los datos obtenidos. Algunas veces, si los
datos son muy complicados, se codifican, esto quiere decir que se le coloca una palabra
clave que identifica un título muy largo. Cuando ya está elaborada la base de datos se
parece a una tabla. Es importante recordar que nunca se colocan las tablas y las gráficas
juntos, porque en realidad dicen lo mismo, corrientemente se utiliza o una tabla y su
análisis, o una gráfica y su análisis. Por ejemplo, supóngase que se ha preguntado a un
conjunto de n personas: ¿qué opinión tienen acerca de la instalación de playas en la Ciudad
de Rivas o que ha hecho el Gobierno a partir del 2010? Las n respuestas se encuentran en
una escala que va de 1 a 5, donde 1 representa un total desacuerdo con la medida mientras
que 5 quiere significar un acuerdo total.
Una manera de obtener datos es a través de la observación directa. Un experimento
estadístico es una forma de observación directa en la que se controlan algunos o todos los
factores que pueden influir en la variable que se estudia.
Distribución de frecuencia
Es la representación estructurada, en forma de tabla, de toda la información
que se ha recogido sobre la variable que se estudia.
…
Tabla de frecuencias
Una distribución de frecuencias es una tabla en la que se organizan los datos en
clases, es decir, en grupos de valores que describen una característica de los datos
y muestra el número de observaciones del conjunto de datos que caen en cada una
de las clases.
En todos los casos debe comprobarse que la diferencia entre el límite superior e
inferior de cada clase sea igual al ancho de la clase menos una unidad de variación.
Clasificación ordenada.
70 72 73 76 76 77 78 78 79 79
79 81 83 84 85 86 86 87 87 88
88 91 92 93 94 96 97 97 98 98
(98 70)
c 4,70014138 5
1 3,322 log 30
Distribución de frecuencias.
Calificación N° de % de solicitantes Marca Limites reales
solicitantes (f) (fa) (fr) (fra) de clase
70 - 74 3 3 0,1000 0,1000 72 69,5 - 74,5
75 - 79 8 11 0,2666 0,3666 75 74,5 - 79,5
80 - 84 3 14 0,1000 0,4666 80 79,5 - 84,5
85 - 89 7 21 0,2333 0,7000 85 84,5 - 89,5
90 - 94 4 25 0,1333 0,8333 90 89,5 - 94,5
95 - 99 5 30 0,1666 1,0000 95 94,5 - 99,5
Con los resultados obtenidos en la tabla, responda las siguientes preguntas:
a. ¿Cuántos solicitantes obtuvieron calificación entre 84,5 y 89,5? 17
Ej: 8
Planes de estudio superior. N° de estudiantes del último año de
secundaria
Planea ir a la universidad. 240
Quizá vaya a la universidad. 146
Planea ir o quizá vaya a una escuela técnica. 57
No irá a ninguna universidad. 105
Total 548
9. Representación gráfica.
Una gráfica es la representación de datos, generalmente numéricos, mediante líneas,
superficies o símbolos, para ver la relación que esos datos guardan entre sí. Sirven para
analizar el comportamiento de un proceso, o un conjunto de elementos o signos que
permiten la interpretación de un fenómeno.
9.1 Histograma.
Los histogramas no muestran frecuencias acumuladas, son preferibles para el tratamiento
18
de datos cuantitativos y la barra con mayor altura representa la mayor frecuencia. La
sumatoria de las alturas de las columnas equivale al 100% de los datos.
9.3 Ojiva.
La diferencia fundamental entre las ojivas y los polígonos de frecuencias es que en el eje
horizontal (x) en lugar de colocar las marcas de clase se colocan las fronteras de clase.
Para el caso de la ojiva mayor que es la frontera menor y para la ojiva menor que, la
mayor.
ACTIVIDAD DE AUTOAPRENDIZAJE N° 2
1. Los siguientes datos representan el tiempo (en horas) que dedican 50 estudiantes de una
universidad a actividades de horas libres, durante una semana común de asistencia a clase.
23 17 22 16 22 20 18 12 24 21
16 21 28 18 15 28 20 29 14 25
29 38 17 19 23 18 20 25 32 19
16 24 12 07 18 22 17 27 24 29
30 15 20 19 14 24 34 23 18 13
a. Clasifique la variable involucrada.
b. Desarrolle la clasificación ordenada.
c. Organice los datos en una tabla de distribución de frecuencia.
d. Presente estos datos mediante: Un Histograma.
Un Polígono de frecuencia.
Una Ojiva y una Ojiva porcentual.
Puntaje de la N° de
prueba KSW estudiantes
1 - 4 4
5 - 8 8
9 - 12 10
13 - 16 20
17 - 20 8
Total
a. Complete la tabla. ¿Cuál es el ancho de cada clase?
b. ¿Cuántos estudiantes obtuvieron entre 11.5 y 15.5 puntos en la prueba KSW?
c. ¿Que % de estudiantes obtuvieron entre 3.5 y 7.5 puntos en la prueba?
d. ¿Cuál es la puntuación máxima del 84% de los estudiantes?
e. ¿Que % de estudiantes obtuvo cuando mucho 11.5 puntos?
4. Los siguientes datos representan las acciones de mercado (en porcentaje) propiedad de un
fabricante de software de aplicaciones de negocios de Windows durante el año 2012.
Fuente %
Papel 20
Basura de jardín 10
Desechos 26
Vidrio 6
Metales 9
Plástico 10
Madera 5
Otros 14
6. Los siguientes datos representan las acciones de mercado (en porcentaje) propiedad de
fabricantes de teléfonos celulares portátiles, transportables y móviles vendidos en el año
2010. Presente los datos mediante una gráfica de barras.
Fabricante Acciones del mercado (%)
Motorola 16
Sony Ericsson 20
Nokia 18
Samsung 25
Otros 21
Su fórmula es: x
x i
n
Ej: 9 La gerente de una tienda de equipos electrónicos, desea estudiar el “tránsito” en su
tienda, descubre que 295, 300, 520, 350, 400, 520, 495, 680, 520, 700 personas
22
entraron a la tienda durante los pasados diez días. Determine el número medio de
personas que entraron a la tienda durante esos días.
x
x i
295 300 ... 520 700
478
n 10
En conjunto, el número de personas que entraron al almacén durante los
pasados 10 días es 478, éste es el número medio (o promedio) de personas que
visitaron la tienda por día.
Con su calculadora científica verifique esta respuesta.
(Entre a MODE , SD , digite los datos 295 M+ , 300 M+, … 700
M+ , luego SHIFT 2 , 1 , = y obtendrá el resultado)
MG n x1 x 2 ...x n
Ej: 10 Una fábrica de telas ha elevado el costo del algodón en un periodo que abarca los
últimos 5 años en los siguientes porcentajes. ¿Cuál es el aumento porcentual
promedio del costo del algodón en ese periodo?
Es decir el incremento porcentual promedio del costo del algodón fue de 9,59%
aproximadamente, durante ese periodo.
Según el tipo de datos que se analice será más apropiado utilizar la media aritmética o la media
geométrica. Esta se suele utilizar en series de datos como tipos de interés anuales, inflación,
etc., donde el valor de cada año tiene un efecto multiplicativo sobre el de los años anteriores.
En todo caso, la media aritmética es la medida de posición central más utilizada. Lo más
positivo de la media es que en su cálculo se utilizan todos los valores de la serie, por lo que no
se pierde ninguna información. Sin embargo, presenta el problema de que su valor (tanto en el
caso de la media aritmética como geométrica) se puede ver muy influido por valores extremos,
que se aparten en exceso del resto de la serie. Estos valores anómalos podrían condicionar en
gran medida el valor de la media, perdiendo ésta representatividad.
xw
w xi i
w i
Ej: 12 En una agencia de viajes se han vendido 200 pasajes a los precios siguientes:
xw
w x
i i
60(12) 100(14) 40(16) 2760
13,8 cientos de $
w i 60 100 40 200
El precio promedio de venta de los 200 pasajes es de $1380
Media armónica: De una serie de n números x1, x2 , … xn es la reciproca de la
media aritmética de los datos, donde ninguno toma el valor “cero”. Este promedio se
utiliza para que los valores “extremos” no afecten al valor del promedio. Los valores
extremos sí afectan cuando se usa el promedio aritmético o el promedio geométrico.
n
H
1
x
i
Ej: 13 Calcular el rendimiento promedio para el caso de tres automóviles que recorrieron
500 kilómetros y cada auto tuvo el rendimiento siguiente:
24
Auto A B C
Rendimiento (Km/galón) 50 62,4 77,6
n 3 3
H 61,33434215
1 1 1 1
x
50 62,4 77,6
0,048912238
i
Posición: M e X n 1
2
Posición: M X
e 101 X 5, 5
2
495 520
Se ubica entre la posición 5 y 6. M e X 5,5 507,5 508
2
En este ejemplo, la mediana se sitúa exactamente entre el quinto y sexto dato de este grupo,
ya que entre estos dos valores se encuentra la división entre el 50% inferior y el 50% superior.
Ej: 15 Los tiempos en minutos que necesitan varias empresas de seguro para revisar
solicitudes de servicios de cobertura médica son: 230 50 180 63 120
25
Determine el tiempo mediano de servicio de cobertura de las empresas de seguro.
Ordenar datos:
X1 X2 X3 X4 X5
50 63 120 180 230
n = 5 (impar)
M e X 51 X 3
Posición: 2
Q1 : X n 1 Q2 : M e Q3 : X 3( n 1)
4 4
Deciles: son 9 valores que distribuyen la serie de datos, ordenada de forma creciente o
decreciente, en diez tramos iguales, en los que cada uno de ellos concentra el 10% de los
resultados. Los deciles y percentiles se calculan de igual manera,
Percentiles: son 99 valores que distribuyen la serie de datos, ordenada de forma
creciente o decreciente, en cien tramos iguales, en los que cada uno de ellos concentra
26
el 1% de los resultados. La posición para determinar los percentiles es:
Pp : X p
( n 1)
100
Ej: 17 Los siguientes datos se refieren a las ganancias por acción de 10 compañías de la
industria de las comunicaciones.
4,62 1,34 1,62 2,11 1,29 6,04 9,56 4,90 0,84 7,25
n = 10
Posición: Q1 : X n 1 Q1 : X 101 X 2,75
4 4
Q1 1,29 0,75(1,34 1.29) 1,3275
Q1 1,33
Es decir el 25% de las compañías tienen como ganancia máxima 1,33 por acción.
17.1 ¿Cuál es la ganancia máxima por acción del 60% de las compañías?
Ordenar los datos:
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
0,84 1,29 1,34 1,62 2,11 4,62 4,90 6,04 7,25 9,56
Posición: Pp : X p P60 : X X 6, 6
( n 1) 60
100 (101)
100
P60 4,62 0,6(4,90 4,62) 4,788
P60 4,79
Lo que nos muestra es, el 60% de las compañías tienen como ganancia máxima
4,79 por acción.
17.2 ¿Cuál es la ganancia máxima por acción del 75% de las compañías?
17.3 ¿Cuál es la ganancia máxima por acción del 90% de las compañías?
12. Medidas de variación o dispersión.
Estudia la distribución de los valores de la serie, analizando si estos se encuentran más
27
o menos concentrados, o más o menos dispersos.
Existen diversas medidas de dispersión, entre las más utilizadas podemos destacar las
siguientes:
Rango: Mide la amplitud de los valores de la muestra y se calcula por diferencia entre
el valor más elevado y el valor más bajo.
s 2
(x i x) 2
n 1
s
(x i x) 2
n 1
s
CV (100%)
x
Coeficiente de asimetría: Karl Pearson desarrollo una medida para calcular el sesgo de
una distribución, llamado Coeficiente de Asimetría. El concepto de asimetría se
refiere, si la curva que forman los valores de la serie presenta la misma forma a
izquierda y derecha de un valor central (media aritmética).
Para medir el nivel de asimetría se utiliza la fórmula que viene definida por:
3( x M e ) 28
CA
s
Características.
Varía de – 3.0 a + 3.0
Un valor cero indica una distribución simétrica.
Si el extremo largo de la distribución esta a la derecha, se dice que tiene sesgo
positivo.
Si el extremo largo de la distribución esta a la izquierda, el sesgo es negativo.
Sustituimos en la fórmula:
s
( x x ) 183310
i
2
ACTIVIDAD DE AUTOAPRENDIZAJE N° 3
el nuevo conjunto de datos. ¿Qué relación existe entre esta s y la de los datos
2
originales? Explique.
Muestra 2: 10 6 10 6 8 10 8 6
a. Calcule el rango de ambas muestras. ¿Es posible concluir que las dos muestras exhiben la
misma variabilidad?
b. Calcule la desviación estándar de cada una de las muestras. ¿Estas cantidades indican que
las dos muestras tienen la misma variabilidad?
c. Calcule el coeficiente de variación de cada una de las muestra y diga cuál de las muestras
presenta menor variabilidad relativa.
Introducción.
Para la mayoría de las personas, “probabilidad” es un término vago utilizado en el lenguaje
cotidiano para indicar la posibilidad de la ocurrencia de un evento futuro. Esta interpretación
práctica del término puede considerarse aceptable, pero se pretende lograr una comprensión
más precisa del contexto de su aplicación, como se mide y de que manera se utiliza la
probabilidad para hacer inferencias. El concepto de probabilidad es necesario cuando se opera
con procesos físicos, biológicos y sociales que generan observaciones que no es factible
predecir con exactitud. Además, la probabilidad y la estadística se relacionan en una forma
muy curiosa. En esencia la probabilidad es el vehículo que le permite al estadístico usar la
información contenida en una muestra para hacer inferencias o para describir la población de
la cual se ha obtenido la muestra.
1. Enfoques de Probabilidad.
Probabilidad clásica a priori.
En este caso la probabilidad de éxito se basa en el conocimiento anterior al
involucrado.
N de resultados favorables
Pr obabilidad de éxito
N total de resultados
Ej: 1. La probabilidad de sacar una carta con figura negra de una baraja.
2. La probabilidad que la suma de las caras de dos dados sea siete.
31
Probabilidad subjetiva.
Se refiere a la probabilidad de ocurrencia asignada a un evento por un individuo
particular.
Ej: 1. La probabilidad que tenga éxito un nuevo producto en el mercado.
2. La probabilidad que un conservador gane la próxima elección presidencial.
Ej: 2.2 Con referencia a E1 : Suponga que la capacidad productiva del obrero se
encuentra entre 50 y 60 unidades diarias inclusive. Entonces S 50, 51, ....,0
Evento (o Suceso).
Un evento simple es el que se puede describir con una característica.
Se simboliza por A, B, C...
Ej: 2.3 Para E 2 existen 3 eventos simples.
A : Votante simpatizante AC. B : Votante simpatizante PLC. 32
C : Votante simpatizante FSLN. C: Votante simpatizante PLI.
El complemento de un evento A , incluye todos los eventos que no son parte del
evento A . Su símbolo es A .
3. Axiomas de Probabilidad.
Suponga que un espacio muestral S , esta asociado a un experimento. A cada evento A
definido en S A S , se le asigna un número P(A) , llamado probabilidad de A , de tal
manera que cumpla lo siguiente.
1. P( A) 0 4. P( S ) 1
2. 0 P( A) 1 5. P( ) 0
3. P( A) 1 P( A)
Ej: 3.1 La probabilidad que un estudiante obtenga una puntuación alta en la asignatura de
Estadística.
3.2 La probabilidad que un votante sea simpatizante liberal.
3.3 Suponga que una encuesta a 200 trabajadores de una industria, se desarrolla usando
un paquete de computación para hacer una clasificación cruzada de los eventos de
interés: la satisfacción en el trabajo y el progreso en la organización, los resultados
son.
Satisfacción Avance en la organización
en el trabajo Si No Total
Si 96 70 166
No 20 14 34
Total 116 84 200
B
96
A 70
20
A B 14 A B 186
Definimos los sucesos involucrados.
A: Estar satisfecho en el trabajo. 33
A : No estar satisfecho en el trabajo.
B: Haber avanzado en la organización.
B : No haber avanzado en la organización.
4 Probabilidad Conjunta.
Se refiere a fenómenos que contienen dos o más eventos.
4.1.2 Calcule la probabilidad que un empleado escogido al azar no este satisfecho con su
trabajo, ni haya progresado en la organización.
N de empleados no satifechos y no han avanzado en la organización
P( A y B )
N total deempleado s
14
P( A y B) 0,07
200
…
5. Regla de la Adición.
Ya se ha desarrollado una forma para encontrar la probabilidad del evento “A” y la
34
probabilidad del evento “A y B” ( A B) . Ahora examinaremos una regla para encontrar
la probabilidad del evento “A o B” (A B) . Esta regla se llama unión, se refiere a la
ocurrencia, ya sea, del evento A, del evento B o de A y B. Se expresa,
P( A B) P( A o B) P( A) P( B) P( A B)
34 84 14 104
P( A B) 0,52
200 200 200 200
…
P( A B) P( A o B) P( A) P( B)
Ej: 5.2 Un estudio de 200 tiendas de abarrotes reveló los siguientes ingresos, después
del pago de impuestos.
Ingresos después de los impuestos Sucesos N° de empresas
Menos de 10 millones de C$ A 102
C$10 millones - C$20 millones B 61
Mas de C$20 millones C 37
Total
P( A / B)
P( A B) , P( B) 0
P( B)
…
6.1.2 Si un empleado está satisfecho con su trabajo. ¿Cuál es la probabilidad que haya
avanzado en la organización?
96
P( B A) 200 96 0,5783
P( B / A)
P( A) 166 166
200
…
7. Independencia estadística.
El conocimiento previo de un evento no afecta la probabilidad de otro evento. Esta
característica se llama independencia estadística.
P( A / B) P( A)
166
P( A) 0,83
200
Puesto que 0,8276 0,83, indica que estar satisfecho en el trabajo y haber
progresado en la organización no son estadísticamente independiente.
8. Regla de la Multiplicación.
La fórmula para la probabilidad condicional se puede manejar algebraicamente, con lo que
36
la probabilidad conjunta (A y B) se puede determinar la probabilidad condicional de un
evento.
P( A B) P( A) P( B / A)
Se le llama regla general de la Multiplicación.
P( A B) P( A) P( B)
P( A / B) P( A)
Los evento A y B son estadísticamente independientes si y sólo si,
P( A B) P( A) P( B)
ACTIVIDAD DE AUTOAPRENDIZAJE N° 4
1. Presente una descripción del espacio muestral para cada uno de los experimentos aleatorios.
a. Cada una de tres piezas maquinadas se clasifica como arriba o abajo de las
especificaciones.
b. Cada uno de cuatro bits transmitidos se clasifica como error o sin error.
c. En la inspección final de fuentes de poder electrónicas podrían ocurrir tres tipos de
disconformidades: funcionales, secundarias y de acabado. Las fuentes de poder
defectuosas se clasifican además según sea el tipo de disconformidad.
d. En la fabricación de cinta para grabación digital, cada una de 24 pistas se clasifica de
acuerdo a si contiene o no uno o más bits con error.
e. En un proceso de fabricación pueden producirse algunas piezas que no son aceptables.
Cada una de tres partes se clasifica como aceptable o no aceptable.
f. En el pedido de una computadora puede especificarse memoria de 4, 8 ó 12 megabytes y
capacidad de almacenamiento de disco duro de 200, 300 ó 400 megabytes.
2. El director general de una empresa expresará mañana a los accionistas su consideración
de que la compañía debe fusionarse con otra empresa. Ha recibido diez cartas acerca d
37
esa cuestión, y está interesado en el número de personas que estén de acuerdo con él.
a. ¿Cuál es el experimento?
b. ¿Cuáles son algunos de los eventos posibles? Exprese dos posibles resultados.
4. Antes de efectuar una encuesta a nivel nacional se seleccionaron 50 personas para probar
el cuestionario. Una pregunta acerca de si debe o no legalizarse el aborto terapéutico,
requiere una encuesta de sí o no.
a. ¿Cuál es el experimento?
b. ¿Cuáles son algunos de los eventos posibles? Exprese dos posibles resultados.
5. Una empresa adquiere una nueva máquina que debe instalarse y probarse antes de que
esté lista para su uso. La empresa está segura de que no tardara más de 7 días en
instalarla y probarla. Sea A el suceso “se necesitaran más de 4 días para que la máquina
esté lista” y B el suceso “se necesitarían menos de 6 días para que la máquina esté lista”.
Describa lo siguiente:
a. El suceso que es el complemento del suceso A.
b. El suceso que es la intersección de los sucesos A y B.
c. El suceso que es la unión de los sucesos A y B.
d. ¿Son los sucesos A y B mutuamente excluyentes?
a. A d. ( B C )
b. A B e. ( A B) C
C f. ( A B)
c. ( A B) C
7. Muestras de una pieza de aluminio forjado se clasifica con base en el acabado de la superficie
(en micro-pulgadas) y en las mediciones de la longitud. Los resultados de 100 piezas se
38
resumen a continuación.
Acabado de la Longitud
superficie Excelente Bueno Total
Excelente 75 7
Bueno 10 8
Total
Sea A denote el evento que una muestra tiene un acabado de la superficie excelente y
sea B el evento que una muestra tiene una longitud excelente. Determine el
número de muestras en A B, B y A B .
8. El análisis de las flechas para un compresor se resumen por su cumplimiento con las
especificaciones.
El acabado de la La redondez cumple
superficie cumple Si No Total
Si 345 57
No 12 8
Total
a. Si se sabe que una flecha cumple con los requerimientos de redondez. ¿Cuál es la
probabilidad que cumpla con los requerimientos del acabado de la superficie?
b. Si se sabe que una flecha no cumple con los requerimientos de redondez. ¿Cuál es la
probabilidad que cumpla con los requerimientos del acabado de la superficie?
Sea que A denote el evento de una muestra del proveedor 1 y sea que B denote el
evento de una muestra cumpla con las especificaciones. Si se selecciona una muestra de
hule espuma al azar, determine las siguientes probabilidades.
a. P(A) d. P(B)
b. P(A) e. P ( A B)
c. P ( A B) f. P( A B)
10. Un lote de 100 chips semiconductores contiene 20 que están defectuosos. Se seleccionan dos
chips del lote, al azar, sin reemplazo.
a. ¿Cuál es la probabilidad de que el primero que se seleccione este defectuoso?
b. ¿Cuál es la probabilidad de que el segundo que se seleccione este defectuoso, dado que el
primero estuvo defectuoso?
39
c. ¿Cómo cambia la respuesta del inciso (b) si los chips seleccionados se reemplazaron antes
de la siguiente selección?
11. Durante un período determinado, aumentó el valor de mercado de las acciones comunes en
circulación en una industria, que incluye solamente 12 acciones. Si un inversionista escoge dos
de esas acciones al azar. ¿Cuál es la probabilidad de que ambos hayan experimentado un
aumento en su valor de mercado durante ese período, si se sabe que 8 aumentaron su valor?
12. Se selecciona una muestra de tres calculadoras de una lista de fabricación y cada una de ellas
se clasifica como defectuosa o aceptable. Sean A, B y C los eventos de la primera, la segunda
y la tercera calculadora esta defectuosa, respectivamente.
a. Describa el espacio muestral para este experimento
b. Describa cada uno de los eventos siguientes: A, B , A B , B C
14. De 100 personas que solicitan empleo de operador de computadoras en una firma, 40 tenían
Experiencia profesional, 30 maestría y 20 tenían experiencia y maestria.
a. Describa cada uno de los sucesos involucrados.
b. Presente estos datos en una tabla de contingencia.
c. ¿Cuál es la probabilidad que un solicitante escogido aleatoriamente tenga experiencia o
maestría?
d. Tenga maestría dado que tiene alguna experiencia profesional.
e. Determine si la experiencia y poseer maestría son sucesos independientes.
15. A los 500 clientes de crédito de Credicom. S.A. están categorizados según el número de años
que han tenido cuenta de crédito y por su promedio de saldo. De estos clientes 210 han tenido
saldos menores a $100, otros 260 han tenido cuenta de crédito cuando menos 5 años, 80 han
tenido saldos mayores de $100 y cuentas de crédito por menos de 5 años. Presente estos
datos en una tabla de contingencia.
Si se selecciona al azar un cliente.
a. ¿Cuál es la probabilidad que tenga un saldo de crédito mayor de $100?
b. ¿Cuál es la probabilidad que tenga un saldo de crédito menor de $100 o ha tenido cuenta
40
de crédito cuando menos 5 años?
c. ¿Cuál es la probabilidad que tenga un saldo de crédito menor de $100 y ha tenido cuentas
de crédito por menos de 5 años?
d. Suponga que un cliente ha tenido cuentas de crédito cuando menos 5 años. ¿Cuál es la
probabilidad de que tenga un saldo inferior a $100?
e. Muestre si tener un saldo de crédito superior a $100 y poseer cuenta de crédito
cuando menos 5 años, son estadísticamente independiente.
16. Un lote contiene 15 piezas fundidas de un proveedor local y 25 piezas fundidas de un
proveedor del estado contiguo. Se seleccionan dos piezas fundidas al azar, sin reemplazo del
lote de 40. Sea A: el evento de que la primera pieza fundida seleccionada es del proveedor
local y sea B: el evento de que la segunda pieza fundida seleccionada es del proveedor del
estado contiguo. Determine:
a. P(A) c. P( A / B)
b. P ( A B) d. P ( A B)
17. Durante una semana determinada se estima que la probabilidad de que el precio de una acción
específica aumente (A), permanezca sin cambio (C) o se reduzca (R) es de 0,35, 0,20 y 0,45
respectivamente.
a. ¿Cómo son los sucesos A, C y R?
b. ¿Cuál es la probabilidad de que el precio de la acción aumente o permanezca sin cambio?
c. ¿Cuál es la probabilidad de que el precio de la acción cambie durante la semana?
22. La probabilidad de que haya escasez de cemento es 0,28 y la probabilidad de que no habrá
escasez y que una obra de construcción se termine a tiempo es 0,64. ¿Cuál es la probabilidad
de que la obra se termine a tiempo dado que no habrá escasez de cemento?
23. Un estudiante está tomando dos cursos, historia y matemáticas. La probabilidad de que
apruebe el curso de historia es 0,60 y matemáticas es 0,70. La probabilidad que apruebe
ambas es 0,50. ¿Cuál es la probabilidad que pase por lo menos una? ¿Qué regla de
probabilidad aplicó?
24. Las probabilidades de dos eventos A y B son 0,20 y 0,30, respectivamente. Los sucesos no
son mutuamente excluyentes. La probabilidad de que ambos A y B ocurran es 0,15 ¿Cuál es
la probabilidad de que sucedan A o bien B?
25. Cada vendedor de una empresa se califica como por debajo del promedio. Promedio o
Arriba del promedio, con respecto a su habilidad para las ventas. Además, cada vendedor
también se califica con respecto a su posibilidad de promoción en: regular, buena o
excelente. En la tabla que sigue se presentan las clasificaciones de estos rasgos para 500
vendedores.
Posibilidades de promoción
Habilidades en ventas Regular Buena Excelente Total
Por debajo del promedio 16 12 22
Promedio 45 60 45
Arriba del promedio 93 72 135
Total
a. ¿Cómo se llama esta tabla?
b. ¿Cuál es la probabilidad que un vendedor seleccionado al azar tenga habilidad de ventas
por encima del promedio y excelente posibilidad de promoción?
26. Suponga que P(A) = 0,40, P(B/A) = 0,30 ¿Cuál es la probabilidad conjunta de A y B?
27. Un estudio de las opiniones de los diseñadores en lo referente al color primario más
conveniente para aplicar en oficinas ejecutivas indicó:
42
Color primario N° de opiniones
Blanco 92
Amarillo 86
Violeta 70
Verde 14
Total
a. ¿Cuál es el experimento?
b. ¿Cuál es un posible evento?
c. ¿Cuál es la probabilidad de seleccionar una respuesta especifica y descubrir que el
diseñador prefiere blanco o verde?
d. ¿Cuál es la probabilidad de que un diseñador no prefiera amarillo?
28. Una encuesta a ejecutivos de alto nivel reveló que 45% leen con regularidad el diario La
Prensa, 35% El Nuevo Diario y 25% ambos diarios.
a. ¿Qué porcentaje de ejecutivos no lee ninguno de los diarios?
b. ¿Cómo se le llama a la probabilidad 0,25?
c. ¿Los eventos son mutuamente excluyentes? Explique su respuesta.
9. Teorema de Bayes.
La probabilidad condicional toma en cuenta la información en cuanto a la ocurrencia de un
evento para predecir la probabilidad de otro evento. Este concepto se puede ampliar para
la “revisión” de las probabilidades basadas en nueva información y para determinar la
probabilidad de que un evento particular se debió a una causa específica. El procedimiento
para la revisión de estas probabilidades se conoce como Teorema de Bayes y la
composición de los eventos para resolver los problemas de la probabilidad se facilita
algunas veces al considerar el espacio muestral S como una unión de subconjuntos que son
mutuamente excluyentes.
Es decir,
S B1 B2 .... Bk con Bi B j , i j luego cualquier subconjunto A de S se
puede escribir como,
A A ( B1 B2 .... Bk ) Usando ley distributiva entre conjuntos,
A ( A B1 ) ( A B2 ) .... ( A Bk ) Observemos que,
P( A) P( A B1 ) P( A B2 ) ... P( A Bk )
P( A) P( B1 ) P( A / B1 ) P( B2 ) P( A / B2 ) ... P( Bk ) P( A / Bk )
k
P( A) P( Bi ) P( A / Bi ) Se le llama probabilidad total.
i 1
P ( Bi ) P ( A / Bi )
P( Bi / A) k
P( B ) P( A / B )
i 1
i i
9.1 Árbol de decisión, diagrama de árbol o arborigrama.
Una forma alternativa de ver la descomposición de las probabilidades es, a través del
43
de un arborigrama.
Ej: 9.11 El gerente de marketing de una firma fabricante de juguetes planea evaluar la
introducción de un nuevo juguete al mercado. En el pasado 40% de los juguetes
introducidos por esta firma han tenido éxito y 60% no lo han tenido. Antes de
lanzar el juguete al mercado, se lleva a cabo una investigación y se elabora un
informe, favorable o desfavorable. En el pasado 80% de los juguetes con éxito
recibieron informes favorables y 30% de los juguetes sin éxito también recibieron
informes favorables. El gerente de marketing desea conocer la probabilidad de que el
nuevo juguete tenga éxito si recibe un informe favorable. Sean,
S : Producción de juguetes de esa firma.
B1 : Juguete con éxito en el mercado. B2 : Juguete sin éxito en el mercado.
A : Informe favorable. A : Informa desfavorable.
P( B1 ) P( A / B1 )
P( B1 / A)
P( B1 ) P( A / B1 ) P( B2 ) P( A / B2 )
ACTIVIDAD DE AUTOAPRENDIZAJE N° 5
1. El software para detectar fraudes con tarjetas telefónicas personales rastrea el número de
áreas donde se originan las llamadas cada día. Se ha encontrado que 1% de los usuarios
legítimos hacen llamadas de dos o más áreas en un solo días. Sin embargo, 30% de los
usuarios fraudulentos hacen llamadas de dos o más áreas en un solo día. La proporción de
usuarios fraudulentos es 0,01%.
a. Describa cada uno de los sucesos involucrados.
b. Presente esta información en un diagrama de árbol.
c. Si el mismo usuario hace llamadas de dos o más áreas en un solo día. ¿Cuál es la
probabilidad de que el usuario sea fraudulento?
44
2. En una fábrica de zapatos, se sabe por experiencia que la probabilidad es 0.82 de que un
trabajador que ha asistido a un programa de capacitación de la fábrica cumplirá con la cuota
de producción y que la probabilidad correspondiente es 0.53 para un trabajador que no
asistió al programa de capacitación. Si el 60% de los trabajadores asisten al programa de
capacitación de la fábrica.
a. Describa cada uno de los sucesos involucrados.
b. Presente esta información en un diagrama de árbol.
c. Suponga que el trabajador cumplió con la cuota de producción. ¿Cuál es la probabilidad de
que haya asistido al curso?
3. Suponga que 2% de los rollos de tela de algodón y 3% de los rollos de tela de nylon
contienen defectos. De los rollos usados por un fabricante, 70% son de algodón y 30% son de
nylon.
a. Describa cada uno de los sucesos involucrados.
b. Presente estos datos en un diagrama de árbol.
c. ¿Cuál es la probabilidad que uno de los rollos de tela de nylon usados por el fabricante
seleccionado al azar contenga defectos?
5. El dueño de una tienda de discos divide a los clientes que entran a su tienda en clientes
en edad escolar, clientes en edad universitaria y clientes mayores y observa que el 30,
50 y 20 por ciento de todos los clientes, respectivamente, pertenecen a estas
categorías. También observa que compran discos el 20 por ciento de los clientes en
edad escolar, el 60 por ciento de los clientes en edad universitaria y el 80 por ciento
de los clientes mayores.
a. Describa cada uno de los sucesos involucrados.
b. Presente esta información en un diagrama de árbol.
c. Si un cliente seleccionado aleatoriamente compra un disco. ¿Cuál es la probabilidad
que esté en edad escolar?
6. El departamento de crédito de una casa comercial, informó que 30% de sus ventas son en
efectivo, 30% se pagan con cheque en el momento de la adquisición y 40% se pagan con
45
tarjetas de crédito. Se tiene que 29% de las compras en efectivo, 90% en cheques y 60% de
las compras con tarjeta de crédito son por más de $100.
a. Describa cada uno de los sucesos involucrados.
b. Presente esta información en un diagrama de árbol.
c. Alba Marín acaba de comprar un vestido nuevo que cuesta $150. ¿Cuál es la
probabilidad de que haya pagado en efectivo?
7. Tres máquinas M1, M2, M3 producen respectivamente 50%, 30%, 20% del total de artículos
De una fábrica. Las máquinas producen artículos defectuosos en un porcentaje de 7%, 6%,
4% respectivamente. Al colocar la producción de las tres máquinas en fila y escoger un
artículo.
a. Describa cada uno de los sucesos involucrados.
b. Presente esta información en un diagrama de árbol.
c. Si el artículo escogido es defectuoso. ¿Cuál es la probabilidad que haya sido
producido en cualesquiera de las tres máquinas? Tome como decisión el elemento mayor
probabilidad de producir artículos defectuosos.
Introducción.
La preparación de un proyecto de investigación es una tarea compleja, ya que se han de tener
en cuenta multitud de aspectos para que el documento final contemple todos los apartados que
cualquier estructura estándar considera y para que todos los investigadores sepan con qué y
cómo deben proceder en todas las etapas de ejecución del estudio planteado. Uno de los
dilemas que se presenta cuando se inicia la elaboración del proyecto es decidir sobre los
individuos o elementos que se incluirán en el estudio: qué características tendrán «criterios de
inclusión y exclusión», a cuántos individuos se estudiará «tamaño de la muestra» y cómo se
46
elegirán para que entren a formar parte del estudio «técnica de muestreo». Estudiar a toda la
población, que sería la manera más exacta de conocer lo que se pretende estudiar, es casi
imposible en la práctica. Entre los motivos que lo impiden se encuentran la falta de tiempo, la
escasez de recursos humanos y económicos, la dificultad para acceder a todos los sujetos, etc.,
por lo que se estudia sólo a una parte de ellos, para, posteriormente, generalizar o inferir
los resultados obtenidos a toda la población. Por tanto, cuando se habla de sujetos de estudio,
se ha de diferenciar claramente entre población, muestra e individuo.
1. Distribución de probabilidad.
Una distribución de probabilidad indica toda la gama de valores que pueden representarse
como resultado de un experimento. Es decir, describe la probabilidad de que un evento
se realice en el futuro y constituye una herramienta fundamental para la prospectiva,
puesto que se puede diseñar un escenario de acontecimientos futuros considerando las
tendencias actuales de diversos fenómenos naturales. Recordemos inicialmente que
existen las variables aleatorias, siendo aquellas que se asocian a la ocurrencia de un
fenómeno aleatorio. Cuando una de estas variables aleatorias toma diversos valores, la
probabilidad asociada a cada uno de tales valores puede ser organizada como una
distribución de probabilidad. Las distribuciones de probabilidad pueden representarse a
través de una tabla, una gráfica o una fórmula, en cuyo caso tal regla de correspondencia
se le denomina función de probabilidad. Toda distribución de probabilidad es generada por
una variable aleatoria x, y puede ser de dos tipos:
Ej: 2.1 x→Variable que nos define el número de alumnos aprobados en la asignatura
de Estadística en un grupo de 40 estudiantes (1, 2 ,3…ó los 40). Consideraremos
primero las distribuciones de probabilidad para variables discretas. Las propiedades de
las distribuciones de variables discretas son dos, y que posteriormente, al hablar de las
distribuciones de variables continuas, se repetirán de manera muy similar:
0 ≤ P(X = x) ≤ 1.
∑P(X = x) = 1, o que es lo mismo: la suma de todas las probabilidades de los
eventos posibles de una variable aleatoria es igual a la unidad.
Hay que hacer notar que estas propiedades se enuncian suponiendo que conocemos el
valor de la probabilidad, pero en la realidad esto no ocurre, es decir que no sabemos la
probabilidad y lo que se hace es trabajar con estimaciones. Precisamente esto nos lleva
a modelos teóricos que estiman los resultados, los principales son los que a continuación
se presentan.
3. Valor esperado de una variable aleatoria (v.a.)
Para tener una medida del punto central de una distribución de probabilidad, introducimos
47
el concepto de esperanza de una variable aleatoria, el valor esperado es la medida
correspondiente del punto central de una variable aleatoria.
Su fórmula es:
E ( x) xP( x)
Ej: 4.1 Un contratista está interesado en saber cuál es el costo total de un proyecto
para el que pretende presentar una oferta. Estima que los materiales costarán
$25000 y su trabajo $900 al día. Si el proyecto tarda en realizarse X días, el costo
laboral total será 900X $ y el costo total del proyecto (en $) será
C ( x) 25000 900 x El contratista estima unas probabilidades subjetivas de la
duración probable del proyecto.
Duración X (días) 10 11 12 13 14
Probabilidad 0,1 0,3 0,3 0,2 0,1
V ( x ) 2 ( x ) 2 P( x )
2 (10 11,9) 2 (0,1) (11 11,9) 2 (0,3) (12 11,9) 2 (0,3) (13 11,9) 2 (0,2)
(14 11,9) 2 (0,1) 1,29
1,29 1,135781669 1,1 día.
…
ACTIVIDAD DE AUTOAPRENDIZAJE N° 6
48
1. El número de computadoras vendidas al día en una tienda viene definida por la
siguiente distribución de probabilidad:
X 0 1 2 3 4 5 6
P(X) 0,05 0,10 0,20 0,20 0,20 0,15 0,10
3. Una pastelería ofrece bocadillos con decoración especial para cumpleaños, bodas y otras
ocasiones. En la tabla que sigue se proporciona el número total de bocadillos vendidos al día y
las probabilidades correspondientes. Calcule la media, la varianza y la desviación estándar para
el número de bocadillos vendidos por día.
N° de bocadillos vendidos 12 13 14 15
Probabilidad 0,25 0,40 0,25 0,10
4. Una compañía inmobiliaria tiene un gran número de apartamentos disponibles cada mes para
rentar. Un interés de la administración es el # de apartamentos vacantes mensualmente. Un
estudio reciente reveló el porcentaje del tiempo que está vacante un número dado de
apartamentos. Calcule la media y la desviación estándar del número de unidades desocupadas.
N° de vacantes 0 1 2 3 4
Probabilidad 0,40 0,30 0,20 0,08 0,02
Ej: 5.2 Consideremos un examen con tres preguntas de opción múltiple, con cuatro pciones,
y que será contestado al azar.
Al examinar los registros de facturación mensual de una editora con ventas por internet, el
auditor tomó una muestra de 8 de las facturas no pagadas. La cantidad adeudada a la compañía
es: $ 260 340 300 320 300 280 240 220
La mediana es:
a. 280 b. 290 c. 320 d. 240
La varianza es:
a. 1650 b. 1560 c. 1565 d. 1625
P( X x ) n C x p x q n x para x = 0, 1,2,…, n.
E( x) np , npq
Nota:
La elección de éxito o fracaso es subjetiva y queda a opción de la persona que resuelve el
problema, pero teniendo cuidado de plantear correctamente lo que se pide.
Ej: 5.3 Suponga que Susana Fermín es agente de seguros y contacta a 5 personas y cree
que la probabilidad de vender un seguro a cada una es de 0,4.
Lo que indica que hay una probabilidad de 0,337 ≈ de que venda cuando mucho un
seguro.
5.3.3 Halle la probabilidad de que venda entre dos y cuatro seguros (inclusive).
…
51
1. Un director de producción sabe que el 5% de los componentes producidos en un
determinado proceso de producción tiene algún defecto. Se examinan seis de estos
componentes, cuyas características pueden suponerse que son independientes entre sí.
a. ¿Cuál es la probabilidad que ningún componente tenga este defecto?
b. ¿Cuál es la probabilidad que uno de estos componentes tenga un defecto?
c. ¿Cuál es la probabilidad que al menos dos de estos componentes tenga un defecto?
2. Una máquina de cierta marca está produciendo 10% de piezas defectuosas. El ingeniero de
control de calidad ha estado verificando la producción por medio de muestreo casi continuo
desde que empezó la condición anormal. ¿Cuál es la probabilidad que en una muestra de 10
piezas:
a. Exactamente 5 estén defectuosas?
b. 5 o más estén defectuosas?
c. A lo sumo una esta defectuosa?
3. Un inspector encargado del control de calidad de los camiones de juguete producidos por una
fábrica, ha observado que cierto defecto en las llantas se presenta en el 5% de los vehículos.
En cada uno se colocan seis llantas. ¿Cuál es la probabilidad de que en un conjunto de seis
llantas seleccionadas aleatoriamente no se presente el defecto?
6. Las observaciones durante un largo período muestran que un vendedor determinado puede
concluir una venta en una sola entrevista con una probabilidad de 0,30 Suponga que el
vendedor entrevista a 6 prospectos (o compradores prospectivos).
a. ¿Cuál es la probabilidad que exactamente dos prospectos compren el producto?
b. ¿Cuál es la probabilidad de que todos los prospectos compren el producto?
c. ¿Cuál es la probabilidad que al menos dos prospectos compren el producto?
6. Distribución de Poisson.
La distribución de Poisson es también un caso particular de probabilidad de variable
aleatoria discreta, el nombre se debe a Simeón Denis Poisson (1781-1840), un francés que
la desarrolló a partir de los estudios que realizó durante la última etapa de su vida, como
una forma límite de la distribución binomial que surge cuando se observa un evento raro
después de un número grande de repeticiones. En general, la distribución de Poisson se
52
puede utilizar como una aproximación de la binomial, si el número de pruebas n es grande,
pero la probabilidad de éxito p es pequeña; una regla es que la aproximación Poisson-
Binomial es “buena” si n ≥ 20 y p ≤ 0,05 y “muy buena” si n ≥ 100 y p ≤ 0,01. La distribución
de Poisson también surge cuando un evento o suceso “raro” ocurre aleatoriamente en el
espacio o el tiempo. La variable asociada es el número de ocurrencias del evento en un
intervalo o espacio continuo, por tanto, es una variable aleatoria discreta que toma valores
enteros de 0 en adelante (0, 1, 2, ...). Así, el número de llamadas que recibe un servicio de
atención a urgencias durante 1 hora, el número de células anormales en una superficie
histológica o el número de glóbulos blancos en un milímetro cúbico de sangre son ejemplos
de variables que siguen una distribución de Poisson.
Características:
En este tipo de experimentos los éxitos buscados son expresados por unidad de área o
tiempo.
Ej: 6.1 # de clientes que llegan a una caja de un supermercado en la hora pico.
# de defectos de una tela por m2.
# de aviones que aterrizan en un aeropuerto por día, hora, minuto, etc.
# de bacterias por cm2 de cultivo.
# de llamadas telefónicas a un conmutador por hora, minuto, etc.
# de llegadas de embarcaciones a un puerto por día, mes, etc.
Para determinar la probabilidad de que ocurran x éxitos por unidad de tiempo o área, la
fórmula a utilizar sería:
e t ( t ) x
P( X x) x 0, 1, ... E ( X ) t 2 t
x!
Donde,
P( X x) Es la probabilidad de que ocurran x éxitos, cuando el número promedio
de ocurrencia de ellos es t
t : Media o promedio de éxitos por unidad de tiempo o área.
e = 2,718… (Base de logaritmo neperiano o natural)
X : Variable que nos denota el número de éxitos que se desea que ocurran.
Hay que hacer notar que en esta distribución el número de éxitos que ocurren por unidad de
tiempo o área es totalmente al azar y que cada intervalo de tiempo es independiente de otro,
así como cada área es independiente de otra área. Para que una variable siga una distribución
de Poisson deben cumplirse varias condiciones:
En un intervalo muy pequeño (por ej. un milisegundo) la probabilidad de que ocurra un
evento es proporcional al tamaño del intervalo.
La probabilidad de que ocurran dos o más eventos en un intervalo muy pequeño es tan
reducida que, a efectos prácticos, se puede considerar nula.
El número de ocurrencias en un intervalo pequeño no depende de lo que ocurra en cualquier
otro intervalo pequeño que no se solape con aquél.
El parámetro de la distribución, es, t (lambda), representa el número promedio de
eventos esperados por unidad de tiempo o de espacio, por lo que también se suele hablar de
53
lambda como “la tasa de ocurrencia” del fenómeno que se observa.
La distribución de Poisson tiene iguales la media y la varianza. Si la variación de los casos
observados en una población excede a la variación esperada por la Poisson, se está ante la
presencia de un problema conocido como sobredispersión y, en tal caso, la distribución
binomial negativa es más adecuada.
e 0, 48 (0,48) 0
P( X 1) 1 1 0,618783391 0,381216608 0,3812
0!
Por consiguiente la probabilidad que se presente al menos una falla en un periodo de
24 horas es de 0,3812 ≈.
ACTIVIDAD DE AUTOAPRENDIZAJE N° 8
1. Una persona pasa todas las mañanas a la misma hora por un crucero donde el semáforo
está en verde el 20% de las veces. Suponga que cada mañana representa un ensayo
independiente.
a. En cinco mañanas consecutivas, ¿Cuál es la probabilidad que el semáforo este en verde
exactamente un día?
b. En 20 mañanas, ¿Cuál es la probabilidad que el semáforo este en verde exactamente cuatro
días?
c. En 20 mañanas, ¿Cuál es la probabilidad que el semáforo este en verde más de cuatro días?
2. Se supone que el número de defectos en los rollos de tela de cierta industria textil es una v.a.
de Poisson con una media de 0.10 defectos por metro cuadrado.
a. ¿Cuál es la probabilidad de tener dos defectos en un metro cuadrado de tela?
b. ¿Cuál es la probabilidad de tener un defecto en 10 metros cuadrados de tela?
c. ¿Cuál es la probabilidad de que no haya defectos en 20 metros cuadrados de tela?
d. ¿Cuál es la probabilidad que existan al menos dos defectos en 10 metros cuadrados de
tela?
3. El número de mensajes que se envían por computadora a un boletín electrónico tiene una
media de cinco mensajes por hora.
a. ¿Cuál es la probabilidad que el boletín reciba cinco mensajes en una hora?
b. ¿Cuál es la probabilidad que el boletín reciba 10 mensajes en una hora y media?
c. ¿Cuál es la probabilidad que el boletín reciba menos de dos mensajes en media hora?
d. ¿Cuál es la probabilidad que el boletín reciba por lo menos tres mensajes en una hora?
4. Un profesor recibe, por término medio, 4,2 llamadas telefónicas de los estudiantes el día
antes de realizarse alguna prueba sistemática. Sí las llamadas siguen una distribución de
Poisson. ¿Cuál es la probabilidad que:
a. Reciba al menos tres llamadas ese día?
b. El profesor no reciba llamadas ese día?
c. Reciba a lo sumo tres llamadas ese día?
5. Un estudio de las filas en las cajas registradoras de salida en un supermercado reveló que
durante un cierto periodo en la hora más concurrida, el número de clientes en espera era en
promedio cuatro. ¿Cuál es la probabilidad que durante ese periodo:
a. No haya cliente esperando?
b. Cuatro o menos clientes estén en espera?
c. A lo sumo un cliente este en espera?
d. Por lo menos un cliente este en espera?
55
6. Un banco en promedio recibe 6 cheques sin fondos por día. ¿Cuál es la probabilidad de que
reciba cuatro cheques sin fondo en un día dado?
8. Distribución Normal.
Es el modelo de distribución más utilizado en la práctica, ya que multitud de fenómenos se
comportan según una distribución normal.
La distribución normal es, sin duda, la distribución de probabilidad más importante del
Cálculo de probabilidades y de la Estadística. Fue descubierta por De Moivre (1773), como
aproximación de la distribución binomial. Esta distribución se caracteriza porque los
valores se distribuyen formando una campana de Gauss, en torno a un valor central que
coincide con el valor medio de la distribución. La curva de la distribución normal puede ser
modelada utilizando la función de densidad,
Un 50% de los valores están a la derecha de este valor central y otro 50% a la izquierda.
Esta distribución viene definida por dos parámetros:
: es el valor medio de la distribución y es precisamente donde se sitúa el centro
de la curva (de la campana de Gauss).
: 2
es la varianza e indica si los valores están más o menos alejados del valor central:
si la varianza es baja los valores están próximos a la media; si es alta, entonces
los valores están muy dispersos.
Manejo de la tabla
La t a b l a nos da la p r o b a b il i d a d P (Z ≤ z ) s iendo z la variable tipificada.
1 . P ( a ≤ Z ≤ b ) = Z ( b ) - Z (a )
3. P ( Z ≤ a ) = Z ( a )
Ej. 8.1 Un cliente tiene una cartera de inversión cuyo valor medio es de 78 mil dólares y
desviación estándar de 36 mil dólares. Se le ha pedido que calcule:
57
8.1.1 La probabilidad que el valor de la cartera sea inferior a 132000 $.
X: Valor de la cartera de inversión (en miles de $)
78 mil $ y 36 mil $
x
Fórmula para estandarizar: Z
132 78
P( X 132) P Z PZ 1,50 Z (1,50) 0,9332
36
8.1.2 La probabilidad que el valor de la cartera de inversión sea por lo menos de 96000 $.
X: Valor de la cartera de inversión (en miles de $)
78 mil $ y 36 mil $
x
Fórmula para estandarizar: Z
96 78
P(X 96) P Z PZ 0,50
36
1 P( Z 0,50) 1 Z (0,50) 0,3085
Este resultado muestra que el 30,85% del valor de la cartera de inversión es por
lo menos de $ 96000.
8.1.3 La probabilidad que el valor de la cartera de inversión sea cuando mucho 25000
dólares.
X: Valor de la cartera de inversión (en miles de $)
78 mil $ y 36 mil $
x
Fórmula para estandarizar: Z
25 78
P(X 25) P Z PZ -1,47
36
Z (1,47) 0,0708
Lo que indica que el 7,08% del valor de la cartera de inversión es cuanto mucho
de 25 mil dólares.
8.1.4 La probabilidad que el valor de la cartera sea superior a $72000.
X: Valor de la cartera de inversión (en miles de $)
58
78 mil $ y 36 mil $
x
Fórmula para estandarizar: Z
72 78
P( X 72) P Z PZ 0,17 1 P( Z 0,17)
36
1 Z (0,17) 1 0,4335 0,5675
El 56,75% del valor de la cartera de inversión es superior a $72000.
8.1.5 La probabilidad que el valor de la cartera de inversión este entre 80 y 90 mil dólares.
X: Valor de la cartera de inversión (en miles de $)
78 mil $ y 36 mil $
x
Fórmula para estandarizar: Z
80 78 90 78
P(80 X 92) P Z P0,06 Z 0,33
36 36
Z (0,33) Z (0,06) 0,6293 0,5239 0,1054
Lo que indica que esta probabilidad de ocurrencia es apenas de un 0,1054, que la cartera de
inversión se ubique entre esos valores.
8.1.6 La probabilidad que el valor de la cartera de inversión este entre 20 mil y 29 mil
dólares.
X: Valor de la cartera de inversión (en miles de $)
78 mil $ y 36 mil $
x
Fórmula para estandarizar: Z
20 78 29 78
P(20 X 29) P Z
36 36
P 1,61 Z - 1,36
Z (1,36) Z (1,61) 0,0537 0,0869 0,0332
El resultado muestra que la probabilidad de ocurrencia es de un 3,32% de que la cartera
de inversión se encuentre entre esos valores.
8.1.7 La probabilidad que el valor de la cartera se encuentre entre 65 mil y 172 mil dolares.
X: Valor de la cartera de inversión (en miles de $)
78 mil $ y 36 mil $
x
Fórmula para estandarizar: Z 59
65 78 172 78
P(65 X 172) P Z P 0,36 Z 2,61
36 36
Z (2,61) Z (0,36) 0,9955 0,3594 0,6361
Este resultado nos muestra que 0,6361 es la probabilidad que la cartera de inversión
se encuentre entre 65 y 172 mil dólares.
Nos encontramos con el caso inverso a los anteriores, conocemos el valor de la probabilidad y
se trata de hallar el valor de la abscisa. Ahora tenemos que buscar en la tabla el valor que más
se aproxime a éste.
Ej: 8.2 Suponga que la cantidad de tiempo que lleva a la superintendencia de contribuciones enviar
reembolsos se distribuye normal con una media de 12 semanas y una varianza de 9.
8.2.1 ¿Cuántas semanas tendrá que esperar el 95% de los contribuyentes distribuidos
simétricamente para obtener el reembolso?
μ = 12 , σ2 = 9 σ = 3
P( z1 Z z 2 ) Por la simetría 95% divida en dos partes iguales.
P(Z z2 ) 0,975 z2 1,96 z1 1,96
Sustituyendo en x z
x1 12 (1,96)(3) 7,12 semanas x1 7 semanas.
Ej. 8.3 Se aplica un test de cultura general y se observa que las puntuaciones obtenidas
siguen una distribución normal con media 65 y desviación estándar 18. Se desea
clasificar a los examinados en tres grupos (de baja cultura general, de cultura general
aceptable y de excelente cultura general) de modo que hay en el primero un 20% de la
población, un 65% en el segundo y un 15% en el tercero. ¿Cuál ha de ser la puntuación
que marca el paso de un grupo a otro?
60
ACTIVIDAD DE AUTOAPRENDIZAJE N° 9
5. El tiempo de espera en cierto banco está distribuido en forma normal, aproximadamente, con
media y desviación estándar iguales a 3,7 y 1,4 minutos, respectivamente. Encuentre la
probabilidad de que un cliente seleccionado aleatoriamente tenga que esperar:
a. Menos de 2 minutos.
b. Entre 3 y 3,5 minutos.
c. Por lo menos 2,3 minutos?
d. ¿Cuánto tiempo tiene que esperar el 90 % de los clientes?
e. ¿Cuánto tiempo tiene que esperar el 10 % de los clientes?
6. Se sabe que la cantidad de dinero que gastan los estudiantes en libros de texto en un año
en una universidad sigue una distribución normal que tiene una media de $380 y una
desviación estándar de $50. ¿Cuál es la probabilidad que un estudiante elegido al azar:
a. gaste menos de $360 en libros de texto en un año?
b. gaste más de $400 en libros de texto en un año?
c. gaste entre $300 y $400 en libros de texto en un año?
d. gaste entre $250 y $280 en libros de texto en un año?
e. Quiero hallar un intervalo de gastos en libros de texto que incluya el 80% de todos los
estudiantes de esa universidad.
Ej: 9 Dado los elementos de la población {1, 3, 5}, encuentre todas las medias
muestrales posibles de tamaño 2, con reemplazo. Las medias aritméticas reflejadas,
serían: Medias muestrales de todas las muestras posibles de tamaño 2, con reemplazo.
0.22
0.11
1 2 3 4 5
E ( x) x E ( x )
Siendo la media aritmética de la población, la media aritmética de cada muestra i , la x
media aritmética de todas las medias x , E (x) la esperanza matemática de la variable
63
aleatoria X (para la población) y E (x ) la esperanza matemática de la variable aleatoria (para
la distribución muestral de las medias).
Por su parte, los valores de la varianza y la desviación típica de esta distribución muestral de
tamaño 2 son:
V ( x) 2 , V (x) x , x
2
donde es la desviación típica de la población, x la desviación típica de la distribución
muestral, V (x) la varianza de la variable x (población) y V (x ) la varianza de la variable x
(distribución muestral de las medias)
Basado en el ejemplo 9, obtenemos:
Media muestral Media Poblacional
1 2 3 2 ... 5 27 1 3 5 9
x E( x ) 3 3
9 9 3 3
1,632993162
ó x
n 2
x 1,154700538
Ej: 10 Auxiliándonos del ejemplo 9. Dado los elementos de la población {1, 3, 5}, encuentre
todas las medias muestrales posibles de tamaño 2, sin reemplazo.
N = 3 ; n = 2, entonces, 3C2 = 3, se refiere al número total de muestras posibles y
sería;
Medias muestrales de todas las muestras de tamaño 2 sin reemplazo.
N n
x
n N 1
ACTIVIDAD DE AUTOAPRENDIZAJE N° 10
Representante Autos
de ventas vendidos
Ileana 6
Luis 4
Ramiro 10
César 8
a. ¿Cuántas muestras diferentes de tamaño dos son posibles, con reemplazo?
b. Enliste todas las muestras posibles de tamaño dos y calcule la media de cada muestra.
66
c. Compare la media de las medias muestrales con la de la población.
d. Calcule y x .
11. Estimaciones.
11.1 Estimación puntual.
Estimar un parámetro es proponer un valor para el mismo a partir de la muestra; un
estimador del porcentaje poblacional sería la proporción de dispositivos electrónicos
que presentan falla a este tipo de estimación se le llama «estimación puntual». Es
bastante probable que el valor que se obtiene no sea realmente el valor del parámetro
en la población.
Parámetro Estimador
Media (μ) x
Desviación Estándar (σ) S
Proporción (P) p
x
n
En una distribución Z ~ N (0, 1) puede calcularse fácilmente un intervalo dentro del cual caiga
un determinado porcentaje de las observaciones, esto es sencillo hallar z1 y z2 tales que P[z1 ≤
z ≤ z2] = 1 - α, donde (1 - α)·100% es el porcentaje deseado.
N n n
x si 0.05 se omite e l FCF .
N
n
1 N
FCF
NOTA: Para un nivel de confianza del 90%, el valor se ubica en el cuerpo de la tabla y se
encuentra un valor aproximado o exacto del percentil de la distribución Normal. Luego,
Z = 1.645.
2
Ej: 12 Se encuentra que la concentración promedio de zinc que se extrae del agua a
partir de una muestra aleatoria en 36 sitios diferentes es de 2,6 gr por mililitro.
Encuentre e interprete un intervalo de confianza de 95% para la concentración
media de zinc. Suponga que la desviación estándar es 0,3.
x 2,6 gr 0,3
Uso de la 1 95% 0,05 0,025
2
~ Normal z 2 1,96
Obtenemos: 0,3
2,6 1,96 2,6 0,098
36
2,502 μ 2,698 gr
Es decir si se extraen muestras repetidas de tamaño 36 del agua, se esperara que
aproximadamente el 95% de las veces la media estaría contenida entre
2,502 μ 2,698 gr y el 5% restante estará fuera de dicho intervalo.
Si no se conoce σ y n es pequeña (habitualmente se toma n < 30)
69
s N n
( x t sx ) donde sx con n 1 gl
2
, n 1
n N 1
Ej: 13 El contenido de 7 envases similares de ácido sulfúrico son: 10,8 11,2 11,4
10,8 11,0 11,2 10,6 litros. Encuentre e interprete un intervalo de confianza
del 95% para la media de todos los envases, si se supone una distribución
aproximadamente normal.
x 11 litros
Usar calculadora s 0,282842712
Buscar en la ~ t de Student.
1 95% 0,05 0,025
2
gl n 1 7 1 6
t 0, 025, 6 2,45
Sustituimos en la fórmula:
( x t s )
, n 1 x
2
n
e
z
2
1. n0 2
e
0.05 n n0
n0
2. Si Nn0
N 0.05 n N n
0
Ej: 14 ¿Qué tan grande se requiere una muestra del Ejemplo 7.2, si queremos tener 95%
de confianza que nuestra estimación de μ difiere por más o menos 0.05.
70
Uso de la 1 95% 0,05 0,025
2
~ Normal
z 2 1,96
e 0,05 0,3
Como no se conoce N, sustituimos en la fórmula,
z 1,960,3
2 2
n 2 138,2976 n = 139
e 0,05
= 139
pˆ (1 pˆ ) x
P ( pˆ z pˆ ) donde p̂ y pˆ
2 n n
En la demostración de estas fórmulas está involucrado el Teorema Central de Límite como una
aproximación de una binomial por una normal.l
pˆ (1 pˆ ) x
Sustituyendo en la fórmula: P ( pˆ z pˆ ) donde p̂ y pˆ
2 n n
0,97(0,03) P 0,97 1,645(0,007628892)
P 0,97 1,645
500
P 0,97 0,012549528 P (0,957450471 ; 0,982549528)
Si se extraen muestras repetidas de tamaño 500 de los reproductores iPod, se espera 71
que aproximadamente el 90% de las veces la proporción de reproductores de la
población que pasan todas las pruebas está contenida entre el 95,75% y el 98,25% y el
10% restante se ubica fuera de ese intervalo.
p(1 p)
elegir n de modo que: z e . Al resolver esta ecuación para n, obtenemos:
2
n
z22 p(1 p)
n0
e2
Procedimiento para calcular n.
z2 p (1 p)
1. n0 2
e2
0.05 n n0
n0
2. Si Nn0
N 0.05 n N (n 1)
0
e 0,01
p 0,5
z 22 p(1 p) (1,96) 2 (0,5)(0,5)
No se conoce N, sustituimos en la fórmula n0 e2
(0,01) 2
9604
n 9604
La muestra debe ser de 9604 ciudadanos para llevar a cabo el estudio.
ACTIVIDAD DE AUTOAPRENDIZAJE N° 11
72
1. La asociación de exalumnos de una universidad quiere estimar los salarios mensuales
promedios de los graduados en 2010. Una muestra aleatoria de 100 personas reveló un
salario promedio de $850 con una desviación estándar de $145. Establezca e
interprete una estimación por intervalo con una confiabilidad del 90%, del salario
promedio mensual de los graduados en 2010.
2. Un fabricante produce anillos para los pistones de un motor de automóvil. Se sabe que el
diámetro del anillo está distribuido aproximadamente normal, y que tiene una desviación
estándar de 0.1 mm. Una muestra aleatoria de 45 anillos tiene un diámetro promedio de
74.6 mm. Construya e interprete un intervalo de confianza del 95% para el diámetro
promedio del anillo.
4. En el ejercicio # 3, Suponga que se desea una confianza del 95% en que el error en la
estimación de la duración sea de 5 horas. ¿Qué tamaño de muestra se necesita?
7. En los resultados del censo de población y vivienda 2005, acerca de la cantidad total de
viviendas que conforman el distrito IV en Managua es de 29, 920 y haciendo un supuesto
de que el 60% de las familias de ese distrito tiene casa propia con un margen de error del
4% y nivel de confianza del 90%. ¿Cuál es el tamaño de muestra para la proporción de
personas que tienen casa propia?
9. Se va a vender un nuevo cereal para desayuno y se pone a prueba de mercado durante un mes
en las tiendas de una cadena de autoservicio, se desea estimar la suma promedio de venta
con aproximación de ± $100 con un 95% de confianza y se supone que la desviación estándar
es de $200. ¿Qué tamaño de muestra se necesita?
73
10. Un grupo de estudio quería estimar la facturación mensual promedio por luz eléctrica en el
mes de julio en casas unifamiliares en una ciudad. Con base en estudios efectuados en otras
ciudades, se supone que la desviación estándar es de $20. El grupo quiere estimar la
facturación promedio de julio con aproximación de ± $5 del promedio real con un 95% de
confianza. ¿Qué tamaño de muestra se necesita?
11. El gerente de una sucursal bancaria en una ciudad quiere determinar la proporción de su
cuenta habiente a los cuales se les paga el sueldo por semana, por experiencia previa en otras
áreas se sabe que sólo el 30% prefieren este sistema, si el gerente quiere tener 95% de
confianza de que esta en lo correcto con aproximación de ± 0.05 de la proporción de sus
clientes a quienes se les paga por semana. ¿Qué tamaño de muestra se necesita?
12. Se desea hacer una encuesta para determinar la proporción de familias que carecen de
medios económicos para atender los problemas de salud. Existe la impresión de que esta
proporción está próxima a 0,35. Se requiere de una confianza del 95% con un error de
estimación de 0,05. ¿De qué tamaño debe tomarse la muestra?
13. Determine el tamaño de muestra que se requiere para estimar la proporción verdadera de
los estudiantes de una universidad que tienen ojos azules, si se desea que la estimación
tenga un error máximo de 0,02 y una confianza del 95%. Suponga que la población
estudiantil es de 4350.
14. Se desea realizar una encuesta entre la población juvenil de una determinada localidad
para determinar la proporción de jóvenes que estarían a favor de una nueva zona de ocio. El
número de jóvenes de dicha población es N = 2000. Determinar el tamaño de muestra
necesario para estimar la proporción de estudiantes que están a favor con un error de
estimación de 0,05 y un nivel de confianza del 95%.
16. Una máquina produce las varillas de metal usadas en el sistema de suspensión de un
automóvil. Se toma una muestra aleatoria de 12 varillas y se mide el diámetro (mm). Los
datos obtenidos aparecen abajo. Suponga que el diámetro de la varilla tiene una
distribución normal. Construya e interprete un intervalo de confianza del 95% para el
diámetro promedio de la varilla.
8.24 8.23 8.20 8.21 8.20 8.28
8.23 8.25 8.19 8.25 8.26 8.23
17. Una línea de autobuses piensa establecer una ruta desde un suburbio hasta el centro de la
ciudad. Se selecciona una muestra aleatoria de 50 posibles usuarios y 18 indicaron que
74
utilizarían esa ruta de autobuses. Establezca e interprete una estimación del intervalo con
95% de confianza de la proporción real de usuarios para esta nueva ruta de autobuses.
18. Un ingeniero hace pruebas con resistencia a la compresión del concreto. Para ello examina
12 especímenes y obtiene los siguientes datos.
2212 2237 2249 2204 2225 2301
2281 2263 2318 2255 2275 2295
Construya e interprete un intervalo de confianza del 99% para la resistencia promedio.
20. Los ingresos del impuesto sobre ventas en una comunidad particular se recaudan cada
trimestre. Los siguientes datos representan los ingresos (en miles de dólares) cobrados
durante el primer trimestre de una muestra de nueve establecimientos de menudeo de la
comunidad: 16, 18, 11, 17, 13, 10, 22, 15, 16
a. Establezca e interprete una estimación por intervalo con un 99% de confianza, de los
ingresos trimestrales del impuesto sobre ventas en los establecimientos de menudeo.
b. Si hay un total de 300 establecimientos de menudeo en esa comunidad, estime e
interprete un intervalo con un 95% de confianza de los ingresos trimestrales del
impuesto sobre ventas en los establecimientos de menudeo.
22. Se realizó una investigación de mercadotecnia para estimar la proporción de amas de casa que
pueden reconocer la marca de un producto de limpieza con base en la forma y color del
recipiente. De las 1400 amas de casa consultadas, 420 fueron capaces de identificar la marca
del producto. Use un grado de confianza del 95% para determinar e interpretar en que
intervalo se encuentra la proporción poblacional.
23. Un estudio muestral de 256 compañías industriales, determinó que el 23% habían señalado a
sus empleados como la decaída económica a principios de 2008 afectaría la organización.
Determine un intervalo de confianza de 95% para la proporción de todas las compañías que
explicarían a sus empleados los efectos de la decaída. Suponiendo que hay un total de 2000
compañías.
75
24. El número de autos vendidos en “Casa Pellas” durante el primer semestre del 2012 fue de
800 automóviles de diversas marcas, en una muestra de 400 automóviles se observó que de
estos 47 eran de color Rojo.
a. Estime la proporción de compradores que prefirieron automóvil color Rojo.
b. Establezca el intervalo de confianza del 90% para la proporción de compradores que
prefirieron el color Rojo e interprete los resultados.
H1 se llama hipótesis alternativa y es lo que sospechamos que va a ser cierto (suele llevar
los signos distinto, mayor o menor)
Tipos de errores.
Cualquiera sea la decisión tomada a partir de una prueba de hipótesis, ya sea de No rechazo de
Ho, puede incurrirse en error.
Un error tipo I se presenta si la hipótesis nula Ho es rechazada cuando es verdadera y
debía No rechazarse. La probabilidad de cometer un error tipo I se denomina con la letra
alfa (α).
Un error tipo II, se denota con la letra griega β se presenta si la hipótesis nula No se
rechaza cuando de hecho es falsa y debía ser rechazada.
En cualquiera de los dos casos se comete un error al tomar una decisión equivocada. En la
siguiente tabla se muestran las decisiones que pueden tomar el investigador y las
consecuencias posibles.
Para que cualquier ensayo de hipótesis sea bueno, debe diseñarse de forma que minimice los
errores de decisión. En la práctica un tipo de error puede tener más importancia que el otro, y
se tiene que poner una limitación al error de mayor importancia. La única forma de reducir
ambos tipos de errores es incrementar el tamaño de la muestra, lo cual puede ser o no posible.
La probabilidad de cometer un error de tipo II denotada con la letra griega beta β, depende
de la diferencia entre los valores supuesto y real del parámetro de la población. Como es más
fácil encontrar diferencias grandes, si la diferencia entre la estadística de muestra y el
correspondiente parámetro de población es grande, la probabilidad de cometer un error de
tipo II, probablemente sea pequeña.
De los dos, el más importante es alfa que llamaremos nivel de significación y nos informa de la
probabilidad que tenemos de estar equivocados si aceptamos la hipótesis alternativa.
78
Debido a que los dos errores anteriores a la vez son imposibles de controlar, vamos a fijarnos
solamente en el nivel de significación, este es el que nos interesa ya que la hipótesis alternativa
que estamos interesados en probar y no queremos aceptarla si en realidad no es cierta, es
decir, si aceptamos la hipótesis alternativa queremos equivocarnos con un margen de error muy
pequeño. El nivel de significación lo marcamos nosotros. Si es grande es más fácil No rechazar
la hipótesis alternativa cuando en realidad es falsa. El valor del nivel de significación suele ser
un 5%, lo que significa que 5 de cada 100 veces No rechazamos la hipótesis alternativa cuando
la verdadera es la nula. El estudio y las conclusiones que obtengamos para una población
cualquiera, se habrán apoyado exclusivamente en el análisis de una parte de ésta. De la
probabilidad con la que estemos dispuestos a asumir estos errores, dependerá, por ejemplo, el
tamaño de la muestra requerida. Las contrastaciones se apoyan en que los datos de partida
siguen una distribución normal, existe una relación inversa entre la magnitud de los errores α
y β: conforme α aumenta, β disminuye. Esto obliga a establecer con cuidado el valor de α para
las pruebas estadísticas. Lo ideal sería establecer α y β. En la práctica se establece el nivel α y
para disminuir el error β se incrementa el número de observaciones en la muestra, pues así se
acortan los limites de confianza respecto a la hipótesis planteada. La meta de las pruebas
estadísticas es rechazar la hipótesis planteada. En otras palabras, es deseable aumentar
cuando ésta es verdadera, o sea, incrementar lo que se llama poder de la prueba (1- β). La
aceptación de la hipótesis planteada debe interpretarse como que la información aleatoria de
la muestra disponible no permite detectar la falsedad de esta hipótesis.
x
z
n
El valor del estadístico z, para muestra grande y desviación estándar poblacional desconocida
se determina por la ecuación:
x
z
s
n
En la prueba para una media poblacional con muestra pequeña y desviación estándar poblacional
desconocida se utiliza el valor del estadístico t.
x
t con n 1 grados de libertad
s
n
Las pruebas de hipótesis a partir de proporciones se realizan casi en la misma forma utilizada
cuando nos referimos a las medias, cuando se cumplen las suposiciones necesarias para cada
79
caso. Pueden utilizarse pruebas unilaterales o bilaterales dependiendo de la situación
particular. En tal caso el estadístico de prueba es.
x npo
z
npo (1 po )
Valor critico: Es el punto de división entre la región en la que se rechaza la hipótesis nula y la
región en la que No se rechaza.
Dado que ya se tiene la distribución normal, los valores críticos se pueden expresar en
unidades de desviación. Una región de rechazo de 0.025 en cada cola de la distribución
normal, da por resultado un área de .475 entre la media hipotética y el valor crítico. Si se
busca está área en la distribución normal, se encuentra que los valores críticos que dividen
las regiones de rechazo y no rechazo son + 1,96 y – 1,96
Valor p:
Es un planteamiento alternativo para la toma de una decisión de prueba de hipótesis.
Es la probabilidad de obtener una estadística de prueba igual o más exacta que el resultado
obtenido a partir de los datos de la muestra dado que la hipótesis nula, Ho, es realmente
verdadera.
A menudo el Valor p se conoce como nivel de significación observado, que es el mínimo nivel al
cual Ho puede ser rechazado para un conjunto de datos.
El procedimiento compara el Valor p con el nivel de significación α.
Si el Valor p ≤ α Ho se Rechaza
Si el Valor p > α Ho no se
Rechaza
Ej 19 Establezca las hipótesis nula y alterna.
19.1 En promedio, los estudiantes de una universidad viven a no más de 15 Km de la
80
misma.
H 0 : 15 Km.
H 1 : 15 Km.
19.3 Más del 65% de los empleados de un colegio aportan a Fondos Sociales.
H 0 : p 0,65
H 1 : p 0,65
19.4 Al menos un 60% de la población adulta de una comunidad votará en las próximas
elecciones municipales.
…
19.5 Se reclama que al menos el 60% de las compras realizadas en cierta tienda por
departamentos son artículos especiales.
…
19.7 Se observa que el 20% de los graduados de cierto colegio privado solicitan
admisión a escuelas de medicina.
…
z 1,645
20.2 H 0 : 5,8
H 1 : 5,8
…
20.3 H 0 : 110
H 1 : 110
…
20.4 H 0 : p 0,3
H 1 : p 0,3
…
Si = 0,01 z z = 2,33
21.2
/2 /2 Para = 0,05 y n = 16
…
Para = 0,01 y n = 10
21.3
…
21.4
Para = 0,05 y n = 36
/2 /2 82
…
/2 /2
H 1 : 1,5 gr. (El contenido promedio de grasa saturada es superior a 1,5 gr. en la marca de cereal)
2. Nivel de Significación.
α = 0,05 z 1,645
4. Regla de Decisión.
Observe que este valor z Cal 2,11 se ubica en la Región de Rechazo, es decir, z Cal z
Por lo tanto Ho se Rechaza.
5. Toma de Decisión.
Existe suficiente evidencia a un nivel de significación de 0,05 que el contenido
promedio de grasa saturada en la marca de cereal de arroz es superior a 1,5 gramos.
Valor p.
2. Nivel de Significación.
α = 0,01
2 0,005
gl = n - 1 = 10 – 1 = 9 t ( 2 , 9) 3,25
t ( 2 , 9) 3,25 t ( 2 , 9) 3,25
4. Regla de Decisión.
Observe que este valor t Cal 1,34 se ubica en la Región de No Rechazo, es decir,
3,25 t Cal 1,34 3,25 . Por lo tanto Ho No se Rechaza.
5. Toma de Decisión.
No Existe suficiente evidencia a un nivel de significación de 0,01 que el gasto promedio
durante el año pasado en odontología sea diferente a $320.
Valor p.
t Cal 1,34
El valor calculado de la estadística de prueba es t Cal 1,34 . En la tabla de la distribución t
de Student observamos que debido a la simetría, sólo se muestran los valores críticos del
extremo superior. Pero si omitimos el signo con el propósito de usar la tabla, notamos que el
V.C. para un área de extremo superior de 0,25 y 9 gl. es 0,7029 y para un área de extremo
superior de 0,10 es 1,380; comot Cal 1,34 se ubica entre estos dos valores y podemos
establecer que el Valor p para esta prueba está entre 0,25 y 0,10 cada uno de estos valores
son mayores ( > ) que 0,01 el nivel escogido de significación. Por lo tanto, la hipótesis nula,
Ho, No se Rechaza. 84
2. Nivel de Significación.
α = 0,01 z 2,33
4. Regla de Decisión.
Observe que este valor z Cal 1,41 se ubica en la Región de No Rechazo, es decir,
z 2,33 zCal 1,41 Por lo tanto Ho No se Rechaza.
5. Toma de Decisión.
No existe suficiente evidencia a un nivel de significación de 0,01 que la proporción de
oficinistas encargados del procesamiento de datos y que ya no trabajan para la
compañía sea inferior al 25%.
Valor p.
p P( z 1,41) p 0,5 z (1,41)
p 0,5 0,4207 0,0793
Como p 0,0793 0,01 Ho No se Re chaza
zCal 1,41
ACTIVIDAD DE AUTOAPRENDIZAJE N° 12
85
1. Se requiere que la tensión de ruptura de un hilo utilizado en la fabricación de material de
tapicería sea al menos de 100 psi. La experiencia ha indicado que la desviación estándar de
la tensión de ruptura es 6 psi. Se prueba una muestra aleatoria de 36 especímenes, y la
tensión de ruptura promedio observada es de 98 psi. Pruebe la hipótesis a un nivel de
significación de 0.05. Determine el valor p.
2. Se sabe que el diámetro de los agujeros para una montura de cable tiene una desviación
estándar de 0.01 in. Se obtiene una m.a. de 40 monturas, donde el diámetro promedio
resulta ser 1.5045 in. Pruebe la hipótesis que el diámetro promedio verdadero del agujero
es de 1.50 in, usando una significancia de 0.05. ¿Cuál es el valor de p en esta prueba?
3. El Gerente de producción de una Compañía manufacturera estima que la edad media de sus
empleados es 22.8 años. El tesorero de la firma necesita una cifra de la edad media de los
empleados más exacta, a fin de estimar el costo de una prestación por antigüedad que se
considera para los empleados. El tesorero toma una muestra aleatoria de 70 trabajadores y
observa que la edad media de los empleados muestreados es de 26.2 años con una desviación
estándar de 4.6 años. Con un nivel de significación del 1%. ¿Qué puede concluir acerca de la
exactitud de la estimación del Gerente de producción?
4. La producción diaria de una planta industrial química registrada durante 50 días, tiene una
media muestral de 871 toneladas y una desviación estándar de 21 toneladas. Pruebe la
hipótesis de que el promedio de la producción diaria del producto químico es de 880 toneladas
por día, contra la alternativa de que es mayor o menor que 880 toneladas por día, usando una
significación del 5%.
5. Una muestra aleatoria de 6 observaciones de una población normal, generó los siguientes
datos: 3.7 6.4 8.1 8.8 4.9 5.0 Proporcionan los datos suficiente evidencia que señale
que < 7, a un nivel del 5%.
6. Tina Dennis es la jefa de contabilidad de Meck Industries (MI). Ella cree que los
problemas de flujo de efectivo en MI se deben a la cobranza lenta de cuentas pendientes.
Estima que más de 60% de las cuentas están en atraso más de tres meses. Una muestra de
200 cuentas señaló que 140 tenían más de tres meses de antigüedad. Al nivel de
significación de 0.01. ¿se puede concluir que más de 60% de las cuentas están en atraso
por más de tres meses?
7. Experiencias en la Wills Travel Agency indica que 44% de las personas desean que esa
agencia planee unas vacaciones para viajar a Europa. Durante la temporada más reciente,
una muestra de 1000 fue seleccionada al azar de los archivos y se encontró que 480
querían ir a Europa de vacaciones. ¿Ha sido un cambio significativo hacia arriba en el
porcentaje de personas que desean ir a Europa? Pruebe a un nivel del 5%.
8. Se analiza una marca particular de margarina dietética para determinar el nivel de ácido
graso poliinsaturado (en porcentaje). Se toma una muestra de seis paquetes y se obtienen
86
los siguientes datos: 16.8 17.2 17.4 16.9 16.5 17.1
Pruebe la hipótesis H 0 : 17.0 contra H1 : 17.0 Utilice 0.05 ¿Cuáles son
sus conclusiones? ¿Cuál es el valor de p en esta prueba?
10. Se efectúa una prueba de impacto Izod sobre 20 muestras de tubería PVC. El estándar
ASTM para este material requiere que la resistencia al impacto Izod sea mayor que 1.0 ft-
lbs/in. El promedio y la desviación estándar muestrales son x 1.25 y s 0.25
respectivamente. Realice la prueba a un nivel de significación de 0.01. Obtenga
conclusiones. Determine el valor p.
( f0 fe )2
2 i 1
k
2. Nivel de Significación.
0,01
gl (2 1)(3 1) 2
02, 01, 2 9,21
5. Toma de decisión.
Existe suficiente evidencia al nivel de significación de 0,01 que nos muestre que hay
relación entre la presencia o ausencia de hipertensión y los hábitos de fumar.
Valor p.
P( 2 14,59) con 2 gl.
p 0,005 0,01 Ho se Re chaza.
ACTIVIDAD DE AUTOAPRENDIZAJE N° 13
1. Se efectúa un estudio sobre las fallas de un componente electrónico. Existen cuatro tipos
de fallas posibles y dos posiciones de montaje para el dispositivo. Se toman los datos
siguientes:
Posición de Tipo de falla
montaje A B C D Total
1 22 46 18 9
2 4 17 6 12
Total
¿Indican los datos que el tipo de accidentes depende del tamaño del automóvil? α = 0.10
3. Se entrevistó a un grupo de 306 personas para determinar su opinión respecto a un tema
específico de política exterior. Al mismo tiempo, se registró su afiliación política. Los
89
datos son los siguientes:
Presentan los datos suficiente evidencia que indique que hay relación entre la afiliación
política y la opinión expresada. Use un nivel de 0.05.
4. De un grupo de estudiantes se toman al mismo tiempo las calificaciones que estos obtienen
en un curso de Estadística y en otro de Cálculo. Los resultados son los siguientes:
¿Existe alguna relación entre las calificaciones de los cursos de estadística y Cálculo?
0.05 Determine el valor p.
5. La directiva de una compañía está interesada en determinar si existe una asociación entre
el tiempo de cambio de turno de sus empleados y el nivel de estrés relacionado con
problemas observados en el trabajo. En un estudio de 116 trabajadores de línea de
ensamblaje se reveló lo siguiente.
Estrés
Tiempo de cambio Alto Moderado Bajo Total
Menos de 15 min. 9 5 18
15 a 45 min. 17 8 28
Más de 15 min. 18 6 7
Total
A un nivel de significancia de 0,01 ¿Existe evidencia de que haya alguna relación entre el
tiempo de cambio de turno y el estrés?
UNIDAD IV: REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE
Introducción. 90
En la práctica es frecuente que se requiera resolver problemas que implican conjuntos de
variables de las cuales se sabe que tienen alguna relación inherente entre sí. Podría ser de
interés desarrollar un método de pronóstico, es decir, un procedimiento de entrada a partir de
información experimental.
1. Diagrama de dispersión.
Diagrama que refleja la relación entre dos variables.
Si X y Y denotan las dos variables, entonces un diagrama de dispersión muestra la
localización de los puntos (x, y) en un sistema de coordenadas rectangulares.
Ej: 1 Se dispone de una muestra de observaciones formadas por pares de variables: (x 1, y1),
(x2, y2), .., (xn, yn) A través de esta muestra, se desea estudiar la relación existente
entre las variables X e Y. Es posible representar estas observaciones mediante un
gráfico de dispersión, como el siguiente:
Ej: 2 El gerente de una tienda de artículos informáticos está considerando contratar a una
compañía de publicidad para estimular el negocio. Para lo cual investigó el campo de la
publicidad y recolectó los siguientes datos de la Cantidad de ganancia (Y) que logra la
compañía y la Cantidad gastada en publicidad (X). Los datos se muestran a
continuación.
Cantidad en
publicidad 3.6 4.8 9.7 12.6 10.8 18.2 10.0 16.6
(cientos de $)
Ganancia 12.2 14.4 22.6 28.4 27.6 40.2 25.8 34.5
(en cientos de $)
El objetivo de la regresión lineal simple es encontrar la mejor recta de ajuste entre todas
las posibles, dentro de la nube de puntos. La mejor recta de ajuste será aquella que
minimice las distancias verticales entre cada punto y la recta, calculándose normalmente
por el método de “mínimos cuadrados”. De este modo conseguiremos una
ecuación para la recta de regresión de Y (variable dependiente) en función de X (variable
independiente) de la forma Yˆ a bX En nuestro ejemplo, el problema radica en
estimar a (constante de la recta) y b (pendiente de la recta) de modo que podamos
construir la ecuación o recta de regresión que minimice esas distancias.
n X iYi X i Yi y
b a Y bX
n X i2 X i
2
n X X 81112,29 86,3
2 2 2
i i
El coeficiente estimado de regresión b se calculó en 1.83, lo que indica que por cada
incremento de una unidad en la Cantidad de publicidad (es decir por cada cien $), en
promedio la Ganancia del negocio aumenta en 1.83 cientos de dólares es decir en $183
aproximadamente. El valor de a se interpretaría como el valor obtenido, en promedio,
para la Ganancia, cuando la Cantidad en publicidad es cero.
Ej: 4 ¿Cuánto se espera que sea la Ganancia del negocio (en promedio), si se invirtieron
20.5 (cientos de $) en publicidad?
Sustituyendo el valor de interés en la ecuación:
Yˆ 5,99 1,83 X
(cientos de $) Es decir la Ganancia esperada
Yˆ 5,99 1,83(20,5) 43,505
en el negocio es de $4350,5
1. Error estándar de la estimación.
Representa una medida de la variación en torno a la recta ajustada de regresión y se mide
93
en unidades de la variable dependiente.
Fórmula.
SYX
Y i
2
a Yi b X iYi
n2
2. Coeficiente de Correlación.
Es la herramienta estadística que podemos usar para describir el grado en el que una
variable esta linealmente relacionada con otra. Al trabajar con dos variables cuantitativas
podemos estudiar la relación que existe entre ellas mediante la correlación y la regresión.
Aunque los cálculos de ambas técnicas pueden ser similares en algunos aspectos e incluso
dar resultados parecidos, no deben confundirse. En la correlación tan solo medimos la
dirección y la fuerza de la asociación de una variable frente a la otra, pero nunca una
relación de causalidad. Sólo cuando tenemos una variable que es causa o depende de otra,
podremos realizar una regresión. En esta unidad estudiaremos el coeficiente de correlación
más utilizado, como es el Coeficiente de Pearson. Abordamos un ejemplo de regresión lineal
simple y cómo se interpretan sus resultados.
El coeficiente de correlación de Pearson (r) puede tomar valores entre -1 y +1, de modo
que un valor de “r” positivo nos indica que al aumentar el valor de una variable también
aumenta el valor de la otra (Figura 1A), y por el contrario, “r” será negativo si al aumentar
el valor de una variable disminuye la otra (Figura 1B). La correlación será perfecta si r = ±1,
en este caso los puntos formarán todos una recta. Es importante a priori determinar qué
valor de “r” vamos a considerar como relevante, puesto que una correlación tan baja como r
= 0,07 sería significativa con un tamaño muestral de unas 1000 personas. Además es una
medida adimensional por lo que no posee unidades.
A B
Fórmula:
X Y
X Y 94
i i
i i
r n
X 2
X i2 i
Y 2
Yi 2 i
n n
i
2
n
i
n
i
2 i
1112,29
8
8
2550,52 2218,98875 331,53125 331,53125
r 0,990249517
181,32875618,14875 112088,1402 334,7956693
Yˆi t S YX
2
,n2
n X 2
X
2 i
i
n
Ej: 7 Encuentre una estimación de intervalo con 95% de confianza, para la ganancia
promedio si se tuvo una inversión de $800 en publicidad.
Yˆi t S YX
2
,n2
n X 2
X
2 i
i
n
(8 10,7875) 2
20,63 2,45.1.13 20,63 2,451,13
1 1 7,77015625
8
86,32 8 181,32875
1112, 29
8
20,63 1,069430734 20,63 1,07
Por lo tanto se estima que la ganancia promedio estará entre $1956 y $2170
aproximadamente, si se invirtieron $800 en publicidad, con una confianza de 95%.
i
X i2
n
Método 2: Estimación del intervalo de confianza para: b1 t Sb1 96
,n 2
2
Estadístico de prueba t r
1 r2
n2
Ej: 8 Con un nivel de significación de 0,05. ¿Hay relación lineal entre las variables en
estudio? (Aplique los tres métodos)
…
ACTIVIDAD DE AUTOAPRENDIZAJE N° 14
Edad 27 61 37 23 46 29 36 64 40 50
Días ausentes 15 6 10 18 9 14 11 5 8 9
N° de transacciones 1 2 3 4 5 6 5 7 8 9 11 12
Saldo de la cuenta ($) 15 36 40 69 78 84 75 100 175 120 150 198
Referencias.
Walpole, Ronald E., Myers, Raymond H., y Myers, Sharon L. (1998).
Probabilidad y estadística para Ingenieros. (6ª. ed.). México: PrenticeHall.