Vous êtes sur la page 1sur 128

Tabla de Contenido

Captulo 1. Generalidades de la estadstica .......................................................................... 2


Captulo 2. Tablas de Frecuencias .......................................................................................14
Capitulo 3. Grficos estadsticos ..........................................................................................25
Capitulo 4. Medidas Estadsticas ..........................................................................................34
Capitulo 5: Probabilidad .......................................................................................................40
Capitulo 6: Variables Aleatorias............................................................................................49
Capitulo 7: Distribuciones muestrales...................................................................................62
Capitulo 8: Pruebas de hiptesis ..........................................................................................69
Anlisis de la Varianza .........................................................................................................91
Capitulo 9: Regresin y Correlacin ...................................................................................100

Estadstica Aplicada

Captulo 1. Generalidades de la estadstica

Generalidades de la estadstica

1 Objetivos
 Describir la evolucin de la estadstica como ciencia.
 Conocer y entender los conceptos generales de la estadstica.
 Aplicar los conceptos generales de la estadstica a casos reales.
2 Desarrollo histrico de la estadstica
Desde los comienzos de la civilizacin han existido formas sencillas de
estadsticas, pues ya se utilizaban representaciones grficas y otros smbolos en
pieles, rocas, palos de madera y paredes de cuevas para contar el nmero de
personas, animales o ciertas cosas. Hacia el ao 3000 A.C. los babilonios
usaban ya pequeas tablillas de arcilla para recopilar datos en tablas sobre la
produccin agrcola y de los gneros vendidos o cambiados mediante trueque.
Los egipcios analizaban los datos de la poblacin y la renta del pas mucho antes
de construir las pirmides en el siglo XXXI a.C. Los libros bblicos de Nmeros y
Crnicas incluyen, en algunas partes, trabajos de estadstica. El primero contiene
dos censos de la poblacin de Israel y el segundo describe el bienestar material
de las diversas tribus judas. En China existan registros numricos similares con
anterioridad al ao 2000 A.C., se refiere a los censos chinos ordenados por el
emperador Yao (hacia el ao 2238 a.c.). Los griegos clsicos realizaban censos
cuya informacin se utilizaba hacia el ao 594 A.C. para cobrar impuestos.
La Estadstica Descriptiva tiene su origen mil o dos miles
aos antes de Cristo, en Egipto, China y Mesopotamia,
donde se hacan censos para la administracin de los
imperios. Los egipcios tuvieron el barmetro econmico ms
antiguo: un instrumento llamado "Nilometro", que meda el
caudal del Nilo y servia a definir un ndice de fertilidad, a
partir del cual se fijaba el monto de los impuestos. Con la
variabilidad del clima ya conocan el concepto de
incertidumbre.
Paralelamente, el concepto de azar es tan antiguo como los juegos y motiv
desde antao las reflexiones de los filsofos. En las ideas de Aristteles (384322) se encuentran tres tipos de nociones de probabilidad, que definen ms bien
actitudes frente al azar y la fortuna, que siguen vigentes hasta nuestros das: (1)
el azar no existe y refleja nuestra ignorancia; (2) el azar proviene de causas

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 2 de 128

Estadstica Aplicada

mltiples y (3) el azar es divino y sobrenatural. Sin embargo, pas mucho tiempo
antes de que alguien intentara cuantificar el azar y sus efectos.
Los Incas no tenan escritura. No obstante en Cuzco saban por ejemplo
exactamente la cantidad, la edad y el sexo de los habitantes en las diferentes
provincias. Datos estadsticos importantes se registraban con cordones de nudos
que llamaban Quipus. Su secreto hasta ahora no est solucionado
completamente pero muchas preguntas ya estn contestadas. Se sabe que cada
Quipu est hecho por un cordn principal en que
se anudaba ms cordones de diferentes tamaos
y colores. Las informaciones se puede "leer"
segn los nudos y los colores y tamaos de los
cordones. Los Incas conocan el sistema decimal,
la disposicin de los nudos determinaba su valor
en el conjunto de este sistema.
Hay teoras de que los Quipus no solamente
sirvieron para registrar datos estadsticos sino
tambin otras informaciones como por ejemplo
datos histricos. Pero no se ha podido comprobar
o "leer" esta "escritura de nudos" hasta ahora.

cantidad de sus animales.

Los pastores en los Andes al principio del siglo 20


todava utilizaban Quipus para registrar la

Los Incas aparte de los Quipus utilizaron Tocapus para registrar datos histricos.
Se encontraron Tocapus en tejidos, sobre vasos (tambin para ceremonias
rituales) y tallados en madera. No se sabe mucho sobre su significacin, hasta
hoy da no podan estar descifrados. Solamente pocos Tocapus han sido
conservados, sobre todo en tejidos.

El Imperio romano fue el primer gobierno que recopil una gran cantidad de
datos sobre la poblacin, superficie y renta de todos los territorios bajo su control.
Durante la edad media slo se realizaron algunos censos exhaustivos en Europa.
Los reyes carolingios Pipino el Breve y Carlomagno ordenaron hacer estudios
minuciosos de las propiedades de la Iglesia en los aos 758 y 762
respectivamente.
Despus de la conquista normanda de Inglaterra en 1066, el rey Guillermo I de
Inglaterra encarg un censo. La informacin obtenida con este censo, llevado a
cabo en 1086, se recoge en el Domesday Book. El registro de nacimientos y
defunciones comenz en Inglaterra a principios del siglo XVI, y en 1662 apareci
el primer estudio estadstico notable de poblacin, titulado Observations on the
London Bills of Mortality (Comentarios sobre las partidas de defuncin en
Londres).
Docente:
Docente: Ing. Ferly Urday Luna

Pgina 3 de 128

Estadstica Aplicada

Un estudio similar sobre la tasa de mortalidad en la ciudad de Breslau, en


Alemania, realizado en 1691, fue utilizado por el astrnomo ingls Edmund
Halley como base para la primera tabla de mortalidad. En el siglo XIX, con la
generalizacin del mtodo cientfico para estudiar todos los fenmenos de las
ciencias naturales y sociales, los investigadores aceptaron la necesidad de
reducir la informacin a valores numricos para evitar la ambigedad de las
descripciones verbales.
La Estadstica, tal y como se concibe hoy en da, debe su existencia a la
confluencia producida en el siglo XIX entre la Estadstica descriptiva y el Clculo
de probabilidades. Por tanto, aunque su historia se remonta al citado siglo, sus
orgenes coinciden con los unidimensionales de la Estadstica descriptiva y los
del Clculo de probabilidades y, en cierto sentido, su evolucin histrica est
determinada por la evolucin de stos.
En sus orgenes, el concepto de Estadstica (vocablo que parece derivado del
latn Status = Estado) aparece estrechamente ligado en la actividad
gubernamental, y el trmino estadstico, con el de estadista o poltico. Esto se
debe a que las primeras estadsticas de las que se tiene noticia fueron realizadas
por gobernantes interesados en conocer la extensin de sus dominios, la
poblacin residente en ellos, la recaudacin de impuestos, las riquezas, etc. La
cantidad de datos recogidos para tal fin crece progresivamente, lo que obliga a
su presentacin en forma de cuadros o tablas. Es entonces cuando la palabra
estadstica comienza a tener un significado que se refiere al material numrico
obtenido de la observacin del mundo real.
Durante el siglo XVIII y la mayor parte del siglo XIX, la Estadstica evoluciona
como ciencia separada del Clculo de probabilidades y la Teora de errores.
Aunque A. De Moivre y Deparcieux, entre otros, aplican el Clculo de
probabilidades a datos demogrficos, y Condorcet y Laplace a problemas de
aritmtica poltica, existe durante este perodo una escasa comunicacin entre
ambas disciplinas.
Por su parte, el Clculo de probabilidades evoluciona independientemente de la
Estadstica descriptiva. Los orgenes de la teora de la probabilidad estn
relacionados con los juegos de azar. La abundante presencia del hueso astrgalo
de oveja o ciervo (que constituye el antecedente inmediato del dado) en las
excavaciones arqueolgicas ms antiguas, parecen confirmar que los juegos de
azar tienen una antigedad de ms de 40.000 aos, y la utilizacin del astrgalo
en culturas ms recientes -Grecia, Egipto y, posteriormente, Roma- ha sido
ampliamente documentada. En las pirmides de Egipto se han encontrado
pinturas que muestran juegos de azar que provienen de la primera dinasta (3500
a.C.) y Herodoto se refiere a la popularidad y difusin en su poca de los juegos
de azar, especialmente mediante la tirada de astrlagos y dados. Los dados ms
antiguos que se han encontrado se remontan a unos 3000 aos antes de Cristo y
se utilizaron tanto en juegos como en ceremonias religiosas.
La imposibilidad de encontrar una causa o conjunto de causas que permitieran
predecir el resultado, por ejemplo, al tirar un dado, hizo que las culturas antiguas

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 4 de 128

Estadstica Aplicada

atribuyeran los resultados de fenmenos aleatorios a la voluntad divina. No es


hasta el Renacimiento cuando, con un nuevo enfoque, se abandonan las
interpretaciones teolgicas del azar y se produce una reconsideracin de los
fenmenos aleatorios, haciendo que los matemticos italianos de principios del
siglo XVI comenzaran a interpretar los resultados de experimentos aleatorios
simples. Por ejemplo, en 1526 Cardano establece, bajo condiciones de simetra,
la equiprobabilidad de aparicin de las caras de un dado a largo plazo, y Galileo
(1564-1642), respondiendo a un jugador que le pregunt por qu es ms difcil
obtener un 9 tirando 3 dados que obtener un 10, razon que de las 216
combinaciones posibles equiprobables, 25 conducen a 9 y 27 conducen a 10.
El desarrollo de la Teora de la probabilidad est estrechamente ligado a los
juegos de azar, no siendo de tanto inters para los matemticos de la poca la
evolucin de esta teora, como la preocupacin por dar razonamientos
combinatorios que resuelvan los problemas planteados. A mediados del siglo
XVII, aparecen los primeros avances tericos del Clculo de Probabilidades,
cuyos principales impulsores fueron los matemticos franceses Blaise Pascal
(1623-1662) y Pierre de Fermat (1601-1665), junto con el holands Christian
Huygens (1629-1695), quien generaliza la media aritmtica introduciendo el
concepto de esperanza matemtica. Es a partir de entonces cuando aparecen las
primeras aportaciones significativas al Clculo de Probabilidades como disciplina
puramente matemtica; entre ellas cabe destacar la obra de Jacques Bernoulli,
Ars Cojectandi (1713), donde se presenta, por ejemplo, el conocido teorema de
Bernoulli que generaliza la solucin de determinados problemas particulares que
se haban resuelto anteriormente.
A finales del siglo XVIII, Thomas Bayes establece la clebre frmula de Bayes,
donde hace uso de la probabilidad inversa, introduciendo los conceptos de
probabilidad a priori y probabilidad a posteriori. Estas innovaciones,
desarrolladas por P. S. Laplace, desembocaron en la denominada Inferencia
Bayesiana. En este periodo, Pierre Simn, Marqus de Laplace (1749-1827),
establece por primera vez una definicin explcita de probabilidad de un suceso,
como el cociente entre el nmero de casos favorables y el de casos posibles,
siembre que todos los resultados tengan igual probabilidad. Adems, Karl
Friedrich Gauss (1777-1855) estudi, junto con Laplace, las aplicaciones de la
Teora de la probabilidad al anlisis numrico de los errores de medida en las
observaciones fsicas y astronmicas, dando lugar a la Teora de errores.
Posteriormente, se produce un estancamiento en cuanto a nuevas ideas en la
Teora de la probabilidad, amplindose, sin embargo, los campos de aplicacin
del Clculo de probabilidades y la Estadstica descriptiva, que empiezan a usarse
de forma complementaria. Una contribucin importante a dicha sntesis se debi
a A. Quetelet (1846), que sostuvo la importancia del Clculo de probabilidades
para el estudio de datos humanos. Quetelet demostr que la estatura de los
reclutas de un reemplazo segua una distribucin normal, e introdujo el concepto
de hombre medio. Los estudios sobre la evolucin de poblaciones animales
realizados por Darwin llevaron a Francis Galton (1822-1911) a resaltar la
necesidad de acudir a mtodos estadsticos para contrastar tal teora. Galton
estudi exhaustivamente la distribucin normal e introdujo el concepto de lnea
de regresin comparando las estaturas de padres e hijos. La importancia de su

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 5 de 128

Estadstica Aplicada

trabajo radica no solamente en el nuevo enfoque que introduce en el problema


de la dependencia estadstica, sino tambin en su influencia directa sobre
Weldon, K. Pearson, R. A. Fisher y Edgeworth entre otros. El primer
departamento de Estadstica, en el sentido actual de la palabra, fue patrocinado
por l y llev su nombre.
El enfoque estadstico propugnado por Galton para el estudio de la evolucin, es
aceptado con entusiasmo por W. R. F. Weldon (1860-1906), entonces catedrtico
de Zoologa en la universidad de Londres. Weldon abandona el camino de los
estudios embriolgicos y morfolgicos como medio de contrastar las hiptesis de
Darwin y comienza a investigar en la aplicacin de los mtodos estadsticos a la
biologa animal.
La resolucin de nuevos problemas enunciados por Weldon le obliga a buscar la
colaboracin de un filsofo y matemtico: K. Pearson (1857-1936). El laboratorio
de K. Pearson se convierte en un polo de atraccin para las personas
interesadas en el anlisis emprico de datos. W. S. Gosset (1876-1937), que
trabajaba en la firma cervecera Guinness de Dubln, fue una de las personas que
acudieron a Londres a estudiar bajo el patrocinio de Pearson. Los trabajos de
Gosset (publicados bajo el seudnimo de Student, ya que Guinness no permita
divulgar las investigaciones de sus empleados) se centraban en el estudio de
muestras pequeas y dieron lugar a la conocida distribucin t de Student.
Los fundamentos de la Estadstica actual y muchos de los mtodos de inferencia,
son debidos a R. A. Fisher (1890-1962). Fisher se interes inicialmente en la
eugenesia1, lo que le conduce, siguiendo los pasos de Galton, a la investigacin
estadstica. En sus trabajos aparece ya claramente el cuerpo metodolgico
bsico que constituye la estadstica actual: el problema de elegir un modelo a
partir de datos empricos, la deduccin matemtica de las propiedades del
mismo, la estimacin de los parmetros condicionados a la bondad del modelo y
la validacin final del mismo mediante un test de significacin.
La historia ms reciente de la estadstica nos sita entre 1920 y finales de la
segunda guerra mundial, cuando aparecen mltiples tcnicas estadsticas
motivadas por la aplicacin de la estadstica a reas tan diversas como la
biologa, la ingeniera, la fsica, la antropologa, la psicologa o la medicina.
A partir de 1950 comienza la poca moderna de la estadstica, claramente
diferenciada por la aparicin del ordenador, que revoluciona la metodologa
estadstica y abre enormes posibilidades para la construccin de modelos ms
complejos. Estrechamente ligado a lo anterior, hay que destacar la creciente
importancia de los modelos dinmicos y multivariantes.
Resumiendo, histricamente, la estadstica comenz siendo esencialmente
descriptiva. Ha sido necesario acumular informacin, criticarla, analizarla y
sintetizarla. Posteriormente, gracias al clculo de probabilidades, la estadstica
ha pasado a ser explicativa, proporcionando potentes herramientas para la toma
Eugenesia.- es la ciencia que estudia la mejora, desde un punto de vista biolgico, de los
individuos de una especie vegetal o animal.

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 6 de 128

Estadstica Aplicada

de decisiones, cuando stas se adoptan en un ambiente de incertidumbre,


siempre que esta incertidumbre pueda ser medida en trminos de probabilidad.
El desarrollo que ha adquirido hasta nuestra fecha la estadstica nos permite
concluir que, en la actualidad, la aplicabilidad y potencia de esta Ciencia es
enorme hasta el punto no slo de no concebir hoy da un trabajo de carcter
cientfico sin el apoyo de algn mtodo o tcnica estadstica que corrobore las
hiptesis en l planteadas, sino que estamos llegando a no saber vivir sin la
acostumbradas estadsticas pblicas publicadas en la prensa y utilizadas, en
muchos casos incorrectamente, para la defensa de argumentos particulares. Por
ltimo, y con el fin de advertir de las consecuencias que conlleva el uso
incorrecto de la Estadstica, se reproduce un texto de G. U. Yule y M. G. Kendall
sobre la actitud del pblico ante la estadstica:
La actitud del profano con respecto a las estadsticas se resume
admirablemente en la observacin de que la humanidad puede dividirse en dos
grupos: los que dicen que los nmeros pueden probarlo todo y los que aseguran
que no pueden probar nada. Hay que reconocer que esta actitud no est exenta
de razn. [...] A veces, tales nmeros sirven para dar una imagen engaosa de la
realidad que puede ser debida a ignorancia o distraccin, pero tambin a un
deliberado deseo de extraviar o seducir. El profano sabe todo esto, y su actitud
de desconfianza ante los argumentos basados en nmeros es la del hombre que
no est preparado para distinguir por s mismo lo verdadero de lo falso y tiende,
por ello, a sospechar de todo. No sera pertinente defender aqu la estadstica
ante la opinin pblica.
Hemos aludido a esta cuestin para advertir que los mtodos estadsticos son
instrumentos muy peligrosos en manos inexpertas. Pocas disciplinas tienen
aplicacin ms amplia, y ninguna requiere tanto cuidado al aplicarla. La
estadstica es una de esas ciencias cuyos cultivadores deben ejercitarse en la
autolimitacin, como los artistas.
3 Etimologa
Los orgenes del trmino estadstica no estn bien definidos, pero dentro de las
principales aceptaciones se tiene que el trmino estadstica deriva de las
palabras:
Staat que en alemn significa estado o
Status que en latn significa situacin o estado.
4 Definicin de estadstica
Se han planteado muchas definiciones y existe diferentes denominaciones de
estadstica, algunas con un enfoque de ciencia y otras caracterizndola como
una metodologa; atreverse a dar una definicin precisa y concreta en este
momento, podra resultar poco significativa puesto que aun no se ha precisado
su esencia, cobertura y contenido, pero se debe mencionar algunas definiciones,
dentro de ellas tenemos las siguientes:

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 7 de 128

Estadstica Aplicada

Disciplina que se ocupa del manejo de datos empricos para extraer de ellos
informacin comprensible y relevante.
Es la ciencia que tiene por objeto la descripcin y anlisis de conjunto de datos
empricos, relacionados con los fenmenos que se desea estudiar, a fin de
obtener leyes que describan su comportamiento y expliquen las observaciones.
Es la ciencia que abarca la coleccin, organizacin, presentacin y anlisis de
datos tanto para la deduccin de conclusiones como para tomar decisiones
razonables deacuerdo con tales anlisis.
La estadstica es la disciplina que proporciona un conjunto de mtodos y
procedimientos que permite recopilar, clasificar, presentar y analizar los datos
con el fin de describirlos para en forma adecuada poder tomar decisiones frente a
la incertidumbre o predecir o afirmar algo acerca de la poblacin a partir de datos
extrados de la misma.
En la actualidad, con el trmino Estadstica se recogen una gran diversidad de
tcnicas encaminadas a analizar informacin por medio de la observacin y la
experimentacin. Es difcil y arriesgado dar una definicin genrica de
Estadstica, pues podemos olvidar aspectos importantes de la misma. Aun as, se
acepta como definicin ms extendida la siguiente: es la ciencia cuya finalidad es
estudiar los procedimientos destinados a la recogida, resumen, anlisis e
interpretacin de un conjunto de datos, as como los conducentes a la obtencin
de inferencias cientficas a partir de ellos.
5 Objetivos de la estadstica
De un modo general y amplio los objetivos de la estadstica son:
 Describir colecciones de datos empricos.
 Inferir las propiedades de una poblacin.
 Realizar predicciones sobre el comportamiento de los fenmenos.
6 Clasificacin de la estadstica
Estadstica descriptiva
Se denomina estadstica descriptiva, al conjunto de mtodos estadsticos que se
relacionan con el resumen y descripcin de los datos, como tablas, graficas y el
anlisis mediante la obtencin de medidas de resumen.
Inferencia estadstica
Se denomina inferencia estadstica al conjunto de mtodos con los que hacen la
generalizacin o la inferencia sobre una poblacin utilizando una muestra. La
inferencia puede contener conclusiones que pueden no ser ciertas en forma
absoluta, por lo que es necesario que estas sean dadas con una medida de
confiabilidad a la que se denomina probabilidad.
Clculo de probabilidades

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 8 de 128

Estadstica Aplicada

Se trata de una rama a caballo entre la estadstica descriptiva y la inferencia


estadstica. Podra definirse como un conjunto de proposiciones que permiten
medir la aleatoriedad de un fenmeno a travs de la asignacin de un modelo
matemtico que conceptualice, resuma y simplifique la esencia aleatoria de dicho
fenmeno.
7 Conceptos Generales
a) Universo.- En estadstica se define como el conjunto de poblaciones.
b) Poblacin(N).- en Estadstica se define como el conjunto de elementos que
presentan una caracterstica particular en estudio. En funcin al # de
elementos la poblacin puede ser:
Finita.- Cuando se conoce el nmero total de elementos.
Infinita.- cuando no se conoce el nmero total de elementos.
c) Individuo.- Es cada uno de los elementos que componen la poblacin
estadstica en estudio. As, si estudiamos la altura de los nios de una clase,
cada alumno es un individuo; si estudiamos el precio de la vivienda, cada
vivienda es un individuo, si estudiamos el nmero de fallas de un producto,
cada producto es un individuo. Es un ser observable que no tiene por qu ser
una persona, puede ser un objeto, un ser vivo, etc
d) Muestra (n).- Se le define como una parte representativa que se toma de una
poblacin. Al indicar que la muestra sea representativa, en ella se quiere
reproducir todas las caractersticas de la poblacin.
N
n

e) Variable.- se denomina variable estadstica a una caracterstica definida de la


poblacin por la tarea o investigacin estadstica, que puede tomar dos o ms
valores(Cualidades o nmeros). Es la generalizacin o abstraccin de
cualquier cualidad o atributo correspondiente a un individuo, por ejemplo si el
individuo en estudio es un polo producido por una empresa, lo podremos
describir mediante las siguientes caractersticas: tipo de mercado, precio,
material de fabricacin, color, peso, modelo, tiempo de produccin, etc A cada
una de estas caractersticas la llamamos variable estadstica y la
representamos normalmente por las letras maysculas X, Y, Z,

UE
Valor

Docente:
Docente: Ing. Ferly Urday Luna

Cualidad
Cantidad

Pgina 9 de 128

Estadstica Aplicada

Hay caracteres que son medibles, esto es, se pueden cuantificar, como por
ejemplo la edad, el peso y la estatura de las personas, el precio de un
producto, los ingresos anuales, etc Pero hay otros que no se pueden
cuantificar como el color de los ojos, el partido votado en unas elecciones, el
estado civil, el sexo, la nacionalidad, etc A los primeros se les llama
caracteres cuantitativos (y a las variables que los representan variables
cuantitativas) y a los segundos caracteres cualitativos o categricos (y
variables cualitativas a las variables que los representan)
Modalidades o valores de las variables: Es cada uno de los posibles
valores que puede tomar una carcter y se representan con las letras
minsculas x1, x2, , xn. Por ejemplo, el carcter o variable estadstica
cualitativa estado civil puede tomar los valores o modalidades: casado, soltero
o viudo. El carcter o variable estadstica cuantitativa edad puede tomar las
modalidades o valores: 10 aos, 12 aos, 15 aos, etc
Una variable estadstica puede tomar distintos valores y cada uno de ellos
puede aparecer repetido ms de una vez en la muestra que se estudia de la
poblacin.
Las variables estadsticas tambin se pueden clasificar en:
Variables unidimensionales: slo recogen informacin
caracterstica (por ejemplo: edad de los alumnos de una clase).

sobre

una

Variables bidimensionales: recogen, a la vez y sobre el mismo individuo,


informacin sobre dos caractersticas de la poblacin, que pueden o no estar
relacionadas, (por ejemplo: edad y altura de los alumnos de una clase).
Variables pluridimensionales: recogen, a la vez y sobre el mismo individuo,
informacin sobre tres o ms caractersticas de la poblacin, que pueden o no
estar relacionadas (por ejemplo: edad, altura y peso de los alumnos de una
clase).
Por su parte, las variables cuantitativas se pueden clasificar en discretas y
continuas:
Discretas: Toman valores aislados y no pueden tomar ningn valor entre dos
consecutivos fijados, slo pueden tomar valores enteros (1, 2, 8, -4, etc.). Por
ejemplo: nmero de hermanos (puede ser 1, 2, 3....,etc, pero nunca podr ser
3,45); n de monedas que una persona lleva en el bolsillo (0, 1, 2, )
Continuas: Pueden tomar cualquier valor real dentro de un intervalo real.
Siempre pueden tomar valores entre dos consecutivos, por muy prximos que
los fijemos. Por ejemplo, la velocidad de un vehculo puede ser 80,3 km/h,
94,57 km/h; altura de las personas, medida del tiempo,...etc.
f) Dato.- Es el valor que toma una variable en cada unidad de observacin.
g) Unidad elemental.- Un elemento o unidad elemental es un objeto o individuo
en el cual se toman las mediciones.

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 10 de 128

Estadstica Aplicada

h) Observaciones.- son los datos que se recolectan para un estudio.


i) Parmetro.- son las diversas medidas con las cuales se analizan los
elementos de una poblacin. As por ejemplo se tiene:
La media aritmtica

La varianza
2
La desviacin estndar

j) Estadgrafo.- son las diversas medidas con las cuales se analizan los
elementos de una muestra. As por ejemplo se tiene:
La media Aritmtica
X
La varianza
s2
La desviacin estndar
s
8 Ejercicio resueltos
La empresa Plsticos de Arequipa E.I.R.L., se dedica a la fabricacin de todo tipo
de artculos derivados del polietileno, se hizo un estudio acerca de la cantidad de
bolsas de plstico que vendieron en una de sus sucursales, obtenindose los
siguientes datos:
a) Se tomo una muestra de 80 rdenes de pedido del da 13 de marzo del 2006.
b) Se pidieron 5593 paquetes de bolsas.
c) El ingreso promedio por pedido fue de S/. 493.57.
d) El pedido con monto ms alto fue hecho por la asociacin comercial El
Porvenir, con 1908 nuevos soles.
e) Los colores mas solicitados fueron el negro, blanco y rosado.
f) El tamao ms vendido fue el de 15x10 cm.
Identifique poblacin, muestra, variable(s), tipo de variable(s), unidad elemental,
observaciones, parmetro(s) y estadgrafo(s).
Solucin
a) La unidad elemental es el paquete de bolsa. Se debe tener mucho cuidado en
la identificacin de la Unidad Elemental, se debe analizar como son
comercializados los productos.
b) La poblacin es la produccin total de bolsas que ha tenido la empresa desde
que empez a operar.
c) La muestra son los 5593 paquetes que componen los 80 pedidos que se
hicieron el da 13 de marzo del 2006.
d) S/. 493.57, es un estadgrafo.
e) Monto de cada pedido es una variable cuantitativa continua.
f) El valor S/. 1908, es una observacin que corresponde al pedido con mayor
monto.
g) Color del paquete es una variable cualitativa y los colores negro, blanco y
rosado son sus observaciones.
h) Tamao de la bolsa es una variable cuantitativa continua, por que cada bolsa
puede almacenar un determinado volumen o peso de contenido
9 Ejercicios de Aplicacin

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 11 de 128

Estadstica Aplicada

1. Primer Problema
En el siguiente enunciado identifique: poblacin, muestra, variable(s), tipo de
variable(s), unidad elemental, observaciones, parmetro(s) y estadgrafo(s).
"Con la finalidad de conocer en que medida los propietarios de viviendas del
distrito de JLBR pagan el impuesto predial, la Municipalidad correspondiente
realiz un estudio.
De una muestra de 450 propietarios se obtuvo los siguientes resultados
preliminares.
 El ingreso promedio mensual por propietario es de S/. 675,65
 El nmero de pisos promedio por propiedad es de 2
 Solo el 38% opina que puede pagar el impuesto predial.
 El nmero de viviendas promedio por manzana es de 17.5 casas/manzana
 El 29% opina que la atencin en el municipio para pagar el impuesto predial
es regular.
 El nmero de veces por semana que barrieron sus veredas fue en promedio
de 1,8 veces/semana.
2. Segundo Problema
En el siguiente enunciado identifique: poblacin, muestra, variable(s), tipo de
variable(s), unidad elemental, observaciones, parmetro(s) y estadgrafo(s).
El da 23/03/2003 en el aeropuerto Rodrguez Balln se hizo un estudio en el
cual se encuestaron a 232 personas obtenindose los siguientes resultados:
 El 12% de pasajeros es Arequipeo.
 La edad promedio de los pasajeros es de 27,9 aos.
 El 31,5% dijo que el servicio en el aeropuerto era malo.
 En promedio cada pasajero llevaba 1,8 maletas.
 El costo promedio de un pasaje en avin es $68,50.
 El tiempo de espera promedio antes de subir al avin es de 0,73 horas.
3. Identifique en cada caso: unidad elemental, tipo de variable, y proporcione
dos ejemplos de observacin de:
a)
b)
c)
d)

Accidentes de trabajo en Cerro Verde SAC.


Ventas de la empresa Estilos.
Utilizacin de Internet por los hogares Arequipeos.
Opinin acerca de la gestin del alcalde de la Ciudad y del Presidente de
la Regin.
e) Consumo de agua en el Cono Norte de la Ciudad.

4. Desarrollar lo siguiente:
a) Proporcione 5 ejemplos sobre universo.
b) Proporcione 5 ejemplos sobre poblacin.
c) Proporcione 5 ejemplos sobre muestra.
Docente:
Docente: Ing. Ferly Urday Luna

Pgina 12 de 128

Estadstica Aplicada

d)
e)
f)
g)

Proporcione 5 ejemplos sobre variables cualitativas.


Proporcione 5 ejemplos sobre variables cuantitativas discretas.
Proporcione 5 ejemplos sobre variables cuantitativas continuas.
Mencione 5 formas diferentes para obtener informacin estadstica.

5. Investigue sobre lo siguiente:


 Historia de los censos.
 Censos realizados en el Per
 Orgenes de los nmeros.
 Otras clasificaciones de las variables

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 13 de 128

Estadstica Aplicada

Captulo 2. Tablas de Frecuencias

Tablas de Frecuencias

Objetivos
 Conocer el proceso de la investigacin estadstica.
 Presentar los datos de manera tabular.
Introduccin
Qu es investigar?
Investigar es buscar conocimientos, tratar nuevos problemas, para darles
solucin, es una manera de comprender al mundo para poderlo controlar. La
investigacin es el proceso mediante el cual se pretende resolver un
problema; es decir; es el conjunto de acciones que permiten elaborar la
respuesta satisfactoria a la interrogante del problema.
Etapas de una investigacin estadstica.
a) Planteamiento o preparacin del programa de trabajo.
b) Recoleccin de datos.
c) Organizacin y presentacin de los datos.
d) Clculos estadsticos
e) Anlisis e interpretacin de los resultados.
f) Formulacin de conclusiones.
g) Presentacin de un informe final.
El planteamiento del problema, pasa por una etapa de planificacin del
problema y determinacin de lo que se pretende investigar y su finalidad;
una buena formulacin del problema implica siempre la delimitacin del
campo de investigacin, es decir, establece claramente los lmites de tiempo
y espacio dentro de los cuales se realizar la investigacin. Para la
preparacin del programa de trabajo se debe considerar lo siguiente:
 Formulacin del problema.
 Justificacin el estudio.
 Determinacin de objetivos.
 Determinacin de variables.
 Identificacin de fuentes de informacin.
 Anlisis exploratorio de estudios similares.
 Determinacin de la cobertura del estudio: poblacin, mbito geogrfico
y periodo que abarca el estudio.
 Determinacin de muestras.
 Determinacin de los mtodos, tcnicas e instrumentos para la
recoleccin y anlisis de datos.
 Elaboracin de instrumentos para la recoleccin de datos.

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 14 de 128

Estadstica Aplicada

 Formulacin del presupuesto y fuentes de financiamiento.


 Capacitacin del equipo de trabajo.
En la recoleccin de datos, se realiza el contacto con las unidades
estadsticas de investigacin, con el propsito de obtener los datos
relacionados con las variables que sern estudiadas o analizadas.
Luego que los datos han sido recopilados, estos deben ser procesados para
transformarse en informacin estadstica, la misma que servir de base para
realizar el anlisis que permitir describir y explicar el fenmeno en estudio,
la organizacin y presentacin de los datos se hace de dos maneras:
Presentacin tabular.
Presentacin grfica.
Luego de presentar lo datos, se realizan una serie de clculos, los que
servirn para mostrar el resumen de los datos en forma de indicadores o
medidas estadsticas, los mismos que son interpretados para poder sacar
conclusiones del estudio.
Finalmente se debe presentar un informe final del estudio. A continuacin se
mostrara las diferentes formas de presentar la informacin.
Presentacin tabular de datos
Lo realizamos mediante una tabla de frecuencia, la cual se define como el
resumen que se realiza en funcin de la totalidad de elementos de una muestra,
o de una poblacin con respecto a una caracterstica bastante particular que est
estudiando alguna variable.
Elementos de una tabla de frecuencias
a) Frecuencia absoluta(fi).- es el # de veces que se repiten los elementos
de una variable, por lo tanto se debe de cumplir:
n

=N

i =1

b) Frecuencia relativa (hi).- es el cociente de cada frecuencia absoluta


entre el # total de elementos. Se calcula de la siguiente manera:

hi =

fi
N

c) Frecuencia acumulada (Fi, Hi).- es la suma de una frecuencia dada y


todas las anteriores a ella.
d) Tabla de distribucin de frecuencia.- es el arreglo ordenado en filas y
columnas de datos estadsticos segn las diversas categoras de la
variable, mostrando la frecuencia o repeticin en cada categora. Este
tipo de tabla se utiliza para organizar los datos con el objeto de calcular
algunas medidas de resumen.

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 15 de 128

Estadstica Aplicada

Tipos de datos a analizarse.


a) Datos de tipo I.- Aqu por ser la informacin bastante pequea no
existen tablas de frecuencia y nicamente los datos presentados, ya sea
en filas o en columnas. Esto debido a que el dato solo presenta una
observacin.
Ejemplo 1 Variable cuantitativa discreta
La sgte. informacin representa la edad en aos de 6 postulantes para el
cargo de asistente de programacin de software en la empresa
MACROTEC.
Edad

17

20

16

23

21

28

23

28

Solucin:
Los datos se ordenan ascendentemente.
En una fila:
Edad

16

17

20

21

En una columna:
Tabla N 1.- Edad de los postulantes para el cargo de asistente de programacin
Dpto. de personal de MACROTEC Abril del 2006
Nombre

Edad

N1
N2
N3
N4
N5
N6

16
17
20
21
23
28

FUENTE: Elaboracin propia

Interpretacin: Como se puede apreciar en la tabla Nro 1, el postulante


de menor edad tiene 16 aos y el de mayor edad tiene 28 aos.
b) Datos de tipo II.- Se realiza lo siguiente:
 Identificar la variable que se est estudiando;
 Asignarle una letra cuales quiera a la variable en estudio;
 Ordenar los datos ya sea en forma ascendente o descendente;
 Efectuar la respectiva tabulacin de los datos;
 Calcular los elementos de la tabla de frecuencia; e
 Interpretar los resultados del cuadro.
Las tablas de distribucin de frecuencias de tipo II, sirven para presentar
las variables cualitativas y las variables cuantitativas discretas.
Ejemplo 2.- Variable cuantitativa discreta
Docente:
Docente: Ing. Ferly Urday Luna

Pgina 16 de 128

Estadstica Aplicada

Se encuesto a una muestra de 42 clientes de la tienda ESTILOS, acerca


del nmero de veces que compraron en la tienda durante el mes de
octubre del 2006, tenindose los siguientes resultados:
Nro de veces que compraron los clientes de la
2
3
2
4
6
6
1
5
4
3
2
2
2
6
4
5
2
2
3
2
3
7
4
3
2
3
2
1
3
3
2
4
1
4
2
1
1
4
5
5
1
3
Solucin:

Coloque
estos
datos en el
rango

Tabulacin de datos
Tabulacin de datos
Nro de veces que
Clsica En Excel
realiz una compra
1
6
2
12
9
3
4
5
6
7

Abra Excel
y escriba
los datos
en A1:G7

Utilizar la frmula:
=CONTAR.SI($A$2:$G$7;A

7
4
3
1

Esta tabla esta en el rango:


A10:H18

Tabla N 2
Tienda Estilos - AREQUIPA
Cantidad de veces que un cliente realiz una compra en octubre del 2006
Nro.
Veces
1
2
3
4
5
6
7

fi

hi
6
12
9
7
4
3
1
42

hi (%)

0,1429 14,29%
0,2857 28,57%
0,2143 21,43%
0,1667 16,67%
0,0952
9,52%
0,0714
7,14%
0,0238
2,38%
1,0000 100,00%

Fi

Hi
6
18
27
34
38
41
42

0,1429
0,4286
0,6429
0,8095
0,9048
0,9762
1,0000

Hi (%)
14,29%
42,86%
64,29%
80,95%
90,48%
97,62%
100,00%

Grados

51.43
102.86
77.14
60
34.29
25.71
8.57
360.00

FUENTE.- Elaborado en base a la encuesta realizada.

Interpretacin: En la presente tabla estadstica que se refiere a la cantidad de


compras que efectu un cliente de la tienda Estilos Arequipa en el mes de octubre

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 17 de 128

Estadstica Aplicada

del 2006, observamos claramente que el 28.57% de los clientes hizo 2 compras y el
21.43% hizo 3 compras, siendo los dems porcentajes de menor incidencia. Esto
significa que el 50% de los clientes hizo de 2 a 3 compras en el mes de octubre del
2006. Adems de lo anterior, se puede apreciar tambin que el 80.95% de los
clientes realizo entre 1 y 4 compras.
Resumen de frmulas en Excel para el ejemplo 2
En B11
En B18
En C11
En C18
En D11
En E11
En E12
En F11
En F12
En G11
En H11
En H18














=CONTAR.SI($A$2:$G$7,A11)
=SUMA(B11:B17)
=B11/$B$18
=SUMA(C11:C17)
=C11, rellenar hasta D18 y aplicar el formato de porcentaje
=B11
=B12+E11 y rellenar hasta E17
=C11
=F11+C12 y rellenar hasta F17
=F11, rellenar hasta G17 y aplicar el formato de porcentaje
=REDONDEAR(C11*360,2) y rellenar hasta H17
=SUMA(H11:H17)

Ejemplo 3.- Variable cualitativa


Se ha tomado una muestra de 68 trabajadores de los registros del departamento de
personal acerca del distrito donde viven dichos trabajadores, con el fin de analizar la
ruta probable que debe tomar el nuevo mnibus que se ha adquirido. Se tienen los
siguientes resultados
Cerro Colorado Characato
J.L.B.y R.
Paucarpata Cerro Colorado
J.L.B.y R.
Paucarpata
J.L.B.y R.
Selva Alegre Selva Alegre
Paucarpata
Cayma
Cayma
Cerro Colorado
J.L.B.y R.
Selva Alegre
J.L.B.y R.
J.L.B.y R.
Paucarpata Cerro Colorado Cerro Colorado
Cayma
Miraflores
Miraflores
Selva Alegre
Paucarpata
Miraflores
Cerro Colorado
Paucarpata Cerro Colorado Cerro Colorado Miraflores
J.L.B.y R.
Miraflores
Selva Alegre
Selva Alegre
J.L.B.y R.
Cayma
Paucarpata Cerro Colorado Paucarpata
Miraflores
Miraflores
J.L.B.y R.
J.L.B.y R.
Cerro Colorado
J.L.B.y R.
Cerro Colorado Paucarpata
J.L.B.y R.
J.L.B.y R.
Cerro Colorado
J.L.B.y R.
J.L.B.y R.
Paucarpata
J.L.B.y R.
Miraflores Cerro Colorado Paucarpata
Miraflores
J.L.B.y R.
Paucarpata
Selva Alegre
Miraflores
J.L.B.y R.
Paucarpata Cerro Colorado Characato

Tabla N 3.- Distrito de procedencia de los trabajadores de la empresa DITESSUR


SRL
Octubre del 2006
Distrito
Cayma
J.L.B.y R.
Miraflores
Paucarpata
Selva Alegre
Cerro Colorado
Characato

fi
4
18
10
13
7
14
2
68

Fi

hi
4
22
32
45
52
66
68

0,0590
0,2650
0,1470
0,1910
0,1030
0,2060
0,0290
1,0000

hi (%)
5,90%
26,50%
14,70%
19,10%
10,30%
20,60%
2,90%
100,00%

Grados
21,24
95,40
52,92
68,76
37,08
74,16
10,44
360,00

FUENTE.- Archivos del registro del Dpto. de personal.

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 18 de 128

Estadstica Aplicada

Interpretacin.- La mayor parte de los trabajadores viven en Cerro Colorado,


Paucarpata y en J. L.B.y R.
Nota.- Para trabajar este ejercicio en Excel se procede de la misma manera que en
el ejemplo 2.
c) Datos de tipo III.- Se siguen los siguientes pasos:
Identificar la variable que se est estudiando;
Asignarle una letra cualesquiera a la variable en estudio;
Ordenar los datos ya sea en forma ascendente o descendente;
Calcular el rango de los datos, mediante.
Rango = Dato mayor- Dato menor
 Determinar el nmero de clases o intervalos
Regla de STURGES k = 1+3,322 log (N)





Regla de Joule k = N
Regla o mtodo del experto se considera un nmero arbitrario de
clases, teniendo en cuenta: 5 k 20
El nmero de clases o intervalos siempre debe ser un valor entero,
por lo tanto se puede redondear al nmero superior o inferior entero
ms prximo.
 Calcular la amplitud de los intervalos, mediante:

A = i = c = Ci =

R
n

Se redondea al nmero superior,


considerando el cambio mnimo.

 Se determina el cambio mnimo, el cual se define como la mnima


variacin que puede llegar a existir para los valores de la variable,
para determinar el cambio mnimo se observa los datos y se sigue
procede as:
Si los datos son enteros el cambio mnimo es 1.
Si los datos tienen un decimal el cambio mnimo es 0.1
Si los datos tienen dos decimales el cambio mnimo es 0.01
Si los datos tienen tres decimales el cambio mnimo es 0.001
 Constituir los intervalos;
 Efectuar el proceso de tabulacin;
 Calcular cada uno de los elementos de la tabla de frecuencias; e
 Interpretar los resultados.

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 19 de 128

Estadstica Aplicada

Ejemplo 4.- Variable cuantitativa discreta


A continuacin se presenta los sueldos (en dlares) de 60 empleados de la empresa
DITESSUR S.A. del mes de abril del 2006.
440
453
570
440
450
574
400
560
600
607
470
480

560
650
430
340
530
500
424
321
550
382
364
625

335
407
618
558
501
462
466
500
432
667
634
507

587
376
537
460
471
380
565
528
591
512
580
645

613
470
409
560
660
518
383
526
428
482
450
382

Rango:
B2:F13

Solucin
FORMULA EN EXCEL
Valor menor :
321 En D16 =MIN(B2:F13)
Valor mayor :
667 En D17 =MAX(B2:F13)
Rango :
346 En D18 =D17-D16
Total Datos :
60 En D19 =CONTAR(B2:F13)
Nm Clases :
7 En D20 =REDONDEAR.MAS(1+3.322*LOG(D19);0)
Amplitud de clase :
50 En D21 =REDONDEAR.MAS(D18/D20;0)
Cambio mnimo:
1
Como son datos discretos, se debera de crear intervalos cerrados, para ello se
procede as:
Clases
1
2
3
4
5
6
7

LimInf
321
371
421
471
521
571
621

Docente:
Docente: Ing. Ferly Urday Luna

LimSup
370
420
470
520
570
620
670

Para el primer intervalo, el lmite inferior es


el valor mnimo de todos los datos y el lmite
superior se obtiene sumado al lmite inferior
la amplitud y restando un cambio mnimo.
Para el segundo intervalo, el lmite inferior
es el lmite superior de la clase 1 ms un
cambio mnimo y el lmite superior se
obtiene igual que el lmite superior de la
clase 1. Se repite el mismo procedimiento

Pgina 20 de 128

Estadstica Aplicada

Tabla N 4.- Sueldos($) de los empleados de la Empresa DITESSUR SA


Abril - 2006
hi
hi (%)
Fi
Hi
Xi
Clase
Intervalo
fi
1
2
3
4
5
6
7

[321 370]
[371 420]
[421 470]
[471 520]
[521 570]
[571 620]
[621 670]

4
8
14
9
11
8
6
60

0,067
0,133
0,233
0,150
0,183
0,133
0,100
1.000

6,67%
13,33%
23,33%
15,00%
18,33%
13,33%
10,00%

4
12
26
35
46
54
60

0,067
0,200
0,433
0,583
0,767
0,900
1,000

345,50
395,50
445,50
495,50
545,50
595,50
645,50

FUENTE: Departamento de contabilidad - Empresa DITESSUR S.A.

Nota: Xi es la marca de clase y se define como el valor central de cada intervalo, se


halla sumado el lmite inferior ms el lmite superior de cada intervalo y el resultado
se divide entre dos.
Interpretacin.- En la tabla estadstica N 4, que se refiere al sueldo en dlares de
60 trabajadores de la empresa DITESSUR, observamos que el 23,33% ganan entre
421 y 470 dlares, el 18,33% ganan entre 521 y 570 dlares y el 15% ganan entre
471 y 520 dlares, siendo los dems porcentajes de menor incidencia, esto significa
que se trata de trabajadores que ganan por encima del sueldo mnimo vital.
Resumen de formulas en Excel para el ejemplo 4

En C27
=D16

En D27
=C27+$D$21-$D$22 y rellenar hasta D33

En C28
=D27+$D$22 y rellenar hasta C33

En E27
=C27-$D$22/2 y rellenar hasta E33

=D27+$D$22/2 y rellenar hasta F33
En F27

En G27
="["&C27&" - "&D27&"]" y rellenar hasta G33
Para encontrar la frecuencia absoluta simple, primero se debe seleccionar el rango
H27:H33 y luego escribir la funcin: =FRECUENCIA($B$2:$F$13;$D$27:$D$33) y
presionar la combinacin de teclas Ctrl + Shift + Enter . Se ha creado una frmula
matricial. Se debe tener en cuenta que la funcin FRECUENCIA solo va a devolver un
resultado satisfactorio cuando se trabaje con los limites superiores de intervalo cerrado
o con los lmites reales.

En M27
=PROMEDIO(C27:D27) y rellenar hasta M33
El resto de frmulas son anlogas al ejemplo 2

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 21 de 128

Estadstica Aplicada

Visualizacin en Excel

Ejemplo 5.- Variable cuantitativa continua


A continuacin se presenta la talla de los trabajadores de la empresa de vigilancia
privada Resguardo Total S.A., se pide elaborar una tabla de distribucin de
frecuencias de dato continuo.
1.90
1.85
1.70
1.75
1.59
1.67
1.75
1.77

1.73
1.75
1.77
1.79
1.93
1.90
1.79
1.82

1.65
1.73
1.75
1.77
1.98
1.85
1.79
1.80

1.65
1.68
1.73
1.69
1.73
1.77
1.87
1.83

1.95
1.83
1.77
1.74
1.70
1.75
1.79
1.80

Rango B3:F10,
definido con el
nombre TALLAS

FORMULA EN EXCEL
Valor menor :
Valor mayor :
Rango :
Total Datos :
Nm Clases :
Amplitud de clase
:
Cambio mnimo :

1.58
1.98
0.4
40
7

En D16
En D17
En D18
En D19
En D20

=MIN(TALLAS)
=MAX(TALLAS)
=D17-D16
=CONTAR(TALLAS)
=REDONDEAR.MAS(1+3.322*LOG(D19);0)

0.06 En D21 =REDONDEAR.MAS(D18/D20;2)


0.01

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 22 de 128

Estadstica Aplicada

Como son datos continuos, se debera de crear intervalos semiabiertos, para ello se
procede as:
REALES
TEORICOS
Para el primer intervalo terico, el lmite
Clases LimInf LimSup LimInf LimSup
inferior es el valor mnimo de todos los
datos y el lmite superior se obtiene sumado
1
1.58
1.64
1.575 1.635
al lmite inferior la amplitud, para el segundo
2
1.64
1.70
1.635 1.695
intervalo, el lmite inferior es el lmite
3
1.70
1.76
1.695 1.755
superior de la clase 1 y el lmite superior se
4
1.76
1.82
1.755 1.815
obtiene como en el caso anterior. Se repite
5
1.82
1.88
1.815 1.875
el mismo procedimiento para todas las
6
1.88
1.94
1.875 1.935
clases. Para crear lo limites reales se restan
7
1.94
2.00
1.935 1.995
la mitad del cambio mnimo a todos los
Tabla N 5.- Talla de los trabajadores de la empresa Resguardo Total S.A.
Abril - 2006
TEORICOS
i

LimInf

1
2
3
4
5
6
7

1.58
1.64
1.70
1.76
1.82
1.88
1.94

REALES

LimSup LimInf LimSup


1.64
1.70
1.76
1.82
1.88
1.94
2.00

Marca de clase
Real
Terico

1.575
1.635
1.695
1.755
1.815
1.875
1.935

1.635
1.695
1.755
1.815
1.875
1.935
1.995

Intervalo
[ 1.58 - 1.64 >
[ 1.64 - 1.70 >
[ 1.70 - 1.76 >
[ 1.76 - 1.82 >
[ 1.82 - 1.88 >
[ 1.88 - 1.94 >
[ 1.94 - 2.00 >

fi
1
5
12
11
6
3
2
40

hi

hi (%)

0.025
2.50%
0.125 12.50%
0.300 30.00%
0.275 27.50%
0.150 15.00%
0.075
7.50%
0.050
5.00%
1.000 100.00%

Fi
1
6
18
29
35
38
40

Hi

Xi

Xi

0.025
0.150
0.450
0.725
0.875
0.950
1.000

1.61
1.67
1.73
1.79
1.85
1.91
1.97

1.605
1.665
1.725
1.785
1.845
1.905
1.965

FUENTE: Dpto de personal.

Notas de la tabla anterior


a) Los limites reales siempre resultan el mismo valor as se calcule los lmites tericos como
datos discretos o continuos
b) La marca de clase sufre una variacin se calcula con limites tericos y reales, cuando se
trabaja con intervalos cerrados no existe dicha variacin. Por cuestiones prcticas, la marca
de clase se trabaja generalmente con los lmites tericos.
c) El resto de frmulas de la tabla anterior son idnticas al ejemplo Nro. 3

Visualizacin en Excel

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 23 de 128

Estadstica Aplicada

Frecuencias MAYORES QUE Y MENORES QUE.


Las frecuencias menores que corresponden a las frecuencias acumulas y
para encontrar las frecuencias mayores que, se debe tomar el total de los
datos para la primera frecuencia mayor que restando las frecuencias
absolutas acumuladas y luego ir haciendo el mismo procedimiento para
todas las clases
Tabla N 6.- Cantidad de inspecciones de un grupo de 80 productos
Agosto del 2006
i

LimInf
1
2
3
4
5
6
7

LimSup
4
7
10
13
16
19
22

fi
6
9
12
15
18
21
24

F < Que
10
14
24
16
9
5
2
80

10
24
48
64
73
78
80

F > Que
70
56
32
16
7
2
0

FUENTE: Dpto de Produccin de la Empresa Hilados y Tejidos S.A.

Resumen de formulas en Excel para la tabla N 6


En F5
En F6
En G6





=E5
=F5+E6 y rellenar hasta F11
=$E$12-F5 y rellenar hasta G11

Responda las siguientes preguntas


a) A cuntos productos se les hizo 16 o mas inspecciones?
La respuesta se puede leer en la columna F > Que, siendo la
respuesta 7.
b) A cuntos productos se les hizo 11 o menos inspecciones?
Se busca la columna F < Que, y encuentra que la clase 10-12 tiene
por frecuencia absoluta simple el valor 24, entonces dividimos este
valor entre 3, obtenindose 8, luego este valor se lo restamos a 48,
resultando que la respuesta final es 40.

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 24 de 128

Estadstica Aplicada

Capitulo 3. Grficos estadsticos

Grficos estadsticos

Objetivo
 Crear los principales grficos estadsticos en Excel.
Presentacin grafica de datos
A pesar de la gran ayuda que prestan las tablas y cuadros con informacin
organizada, no todos los pblicos alcanzan a comprenderla o no disponen del
tiempo suficiente para analizarla. Es por ello que la mayora de los investigadores
acostumbran a reforzar la descripcin a travs de dibujos, generalmente con
formas geomtricas, que ayudan a visualizar el comportamiento de las variables
tratadas.
Los grficos son una de la maneras de presentar un resumen de datos, por
ejemplo cuando un gerente desea analizar la informacin de la ventas de un
determinado producto en varias zonas y comparar el posicionamiento que tiene,
es probable que el primer vistazo que se de a los datos sea el de un grafico para
hacerse una idea inicial de cmo esta su participacin en el mercado y de all
recin se harn algunos anlisis posteriores, demostrndose de esta manera la
importancia de los grficos.
En esta seccin se proceder a trabajar directamente en la creacin de grficos
estadsticos haciendo uso de Microsoft Excel.
Grafico circular
Se creara un grafico circular con los datos de la tabla Nro 3

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 25 de 128

Estadstica Aplicada

Tabla N 3.- Distrito de procedencia de los trabajadores de la empresa DITESSUR


SRL
Octubre del 2006
Distrito

fi

Cayma
J.L.B.y R.
Miraflores
Paucarpata
Selva Alegre
Cerro Colorado
Characato

4
18
10
13
7
14
2
68

Fi

hi
4
22
32
45
52
66
68

0,0590
0,2650
0,1470
0,1910
0,1030
0,2060
0,0290
1,0000

hi (%)
5,90%
26,50%
14,70%
19,10%
10,30%
20,60%
2,90%
100,00%

Grados
21,24
95,40
52,92
68,76
37,08
74,16
10,44
360,00

FUENTE.- Archivos del registro del Dpto. de personal.

Para crear este grafico, se proceder primero a realizar lo siguiente:


1. Crear una copia de la hoja Frecuencias_Cualitativo, haciendo clic
derecho en la hoja Frecuencias_Cualitativo, y escoger mover o
copiar.

1
Escoger la
opcin
nuevo
libro.
2
Activar esta
casilla de
verificacin.

Presionar Aceptar

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 26 de 128

Estadstica Aplicada

2. Grabar el archivo creado con el nombre Grafico Circular.


3. Seleccionar B14:C20.

4. Iniciar el asistente para grficos y seleccionar las opciones mostradas


y presionar el boton Finalizar.

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 27 de 128

Estadstica Aplicada

5. Finalmente dar el formato al grafico, segn se desee.


Grafico Nro 1: Distrito de Procedencia de los trabajadores de la empresa
DITESSUR

Miraflores
14.71%

Paucarpata
19.12%
Selva Alegre
10.29%

J.L.B.y R.
26.47%
Cayma
5.88%

Cerro Colorado
20.59%
Characato
2.94%

Histograma con su polgono de frecuencias


Un histograma se construye dibujando barras contiguas que tienen como
base la amplitud de cada intervalo y como alturas las frecuencias
respectivas, sin ninguna separacin entre las respectivas clases.
Un polgono de frecuencias, es un grafico de lneas que une las marcas de
clase de cada intervalo a la altura de la frecuencia simple, ya sea absoluta o
acumulada.
Se crear, un grafico con los datos de la hoja F>Que y F<Que, para ello
cree una copia a dicha hoja en un libro nuevo de la misma manera como se
procedi con el grafico circular y realice lo siguiente.
1. Seleccionar D4:E12

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 28 de 128

Estadstica Aplicada

2. Iniciar el asistente para grficos, y presionar el botn finalizar.


30
25
20
15

Serie1

10

A partir de este
grafico se
personalizar, hasta
que tenga la
apariencia correcta.

5
0
[ 01 - [ 04 - [ 07 - [ 10 - [ 13 - [ 16 - [ 19 - [ 22 - [ 25 03 ] 06 ]
09 ] 12 ]
15 ] 18 ] 21 ]
24 ] 27 ]

3. Hacer clic derecho sobre cualquiera de las barras y escoger la opcin


sealada.

4. Luego en la ficha opciones, en ancho de rango colocar 0 (cero) y


aceptar.

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 29 de 128

Estadstica Aplicada

5. Hacer clic derecho sobre cualquiera de las barras y escoger la opcin


datos de origen.

6. En la ficha serie, presionar el botn agregar.

7. De la opcin valores, presionar el botn seleccionar celdas.

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 30 de 128

Estadstica Aplicada

8. Seleccionar el rango E4:E12 y presionar el botn

9. Aceptar el cuadro de dialogo.


10. Clic derecho sobre cualquiera de las nuevas barras creadas y
escoger la opcin tipo de grafico.
11. Seleccionar el tipo de grafico lneas y aceptar.
30
25
20
15
10
5

[ 25 - 27 ]

[ 22 - 24 ]

[ 19 - 21 ]

[ 16 - 18 ]

[ 13 - 15 ]

[ 10 - 12 ]

[ 07 - 09 ]

[ 04 - 06 ]

[ 01 - 03 ]

Ojiva
Una ojiva en un grafico de lneas que se crea con las frecuencias
acumuladas.
Como ejercicio, se deja crear la ojiva de porcentajes de la tabla Nro 5

120.00%
100.00%
80.00%
60.00%
40.00%
20.00%
0.00%
1

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 31 de 128

Estadstica Aplicada

Pictogramas
Un pictograma es un grafico en el que se representan imgenes de la
variable en estudio es el eje cartesiano, como ejemplo aplicativo, se tiene
una pregunta de una encuesta realizada en la ciudad de Arequipa acerca
del consumo de carne de pollo en 5 distritos, tenindose como resultados lo
siguientes:
Tabla Nro 7.- Consumo de Carne de pollo (en Kg por familia en un mes)
Ao

Cantidad

Cayma
JLByR
Yanahuara
Selva Alegre
Yura

29
18
21
32
14

Para elaborar el pictograma, se procede de la siguiente manera:


1. Se copian los datos en Excel.
2. Se crea un grafico de tipo columnas simples.
35
30
25
20

Serie1

15
10
5
0
Cayma

JLByR

Yanahuara

Selva
Alegre

Yura

3. Hacer doble clic izquierdo en cualquiera de las columnas y en la ficha


tramas presionar el botn efectos de relleno.
4. En la ficha imagen presionar el botn seleccionar imagen y buscar la
imagen apropiada a la variable en estudio

Antes de crear este


grafico, se debe tener
imgenes
guardadas
en el ordenador.
Buscar la imagen:
Gallina.wmf la que se
encuentra
en
su
carpeta de trabajo.

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 32 de 128

Estadstica Aplicada

5. Una vez escogida la imagen, presionar el botn aceptar.


35
30
25
20

Serie1

15
10
5
0
Cayma

Docente:
Docente: Ing. Ferly Urday Luna

JLByR

Yanahuara

Selva
Alegre

Yura

Pgina 33 de 128

Estadstica Aplicada

Capitulo 4. Medidas Estadsticas

Medidas Estadsticas

Objetivo
 Calcular las principales medidas estadsticas en Excel, haciendo uso de la
diversas funciones y complementos que posee este programa, para datos no
agrupados.
 Encontrar las medidas estadsticas en Excel para datos agrupados.
Medidas Estadsticas para datos no agrupados.
Consideremos los siguientes datos que se refieren movimiento mensual en
dlares de 250 clientes del Banco de Crdito del Per para sus clientes que
pertenecen al estrato alto de la ciudad de Arequipa en el mes de octubre del
2006
5263
6904
9355
5370
5096
5857
7907
5211
7291
4348
7258
6779
5457
6427
6703
6640
8138
4195
6353
5182
4230
7072
7887
6172
6383

7803
4479
5500
7647
5669
7304
6000
6133
4774
6606
6071
4937
4662
6463
2479
5757
4757
4068
5927
6797
8186
5158
6490
8554
6108

4631
5274
7273
4708
7221
4798
6233
4393
5943
7155
5380
7451
5751
5007
6554
6753
6845
3703
7803
5924
6085
7028
6103
6309
5578

5688
7379
5728
4350
3673
7724
3640
7884
6411
7856
5161
5683
5760
5712
6233
3854
5688
7959
3857
4419
5639
8949
6881
4332
4352

5393
5508
4609
4545
6227
5091
6370
6693
3762
4462
5652
4305
6919
6281
7699
6265
5674
7824
8582
5652
6586
7253
6682
7251
4140

6969
5130
5416
8043
4153
6551
5415
4301
4398
4192
5607
5059
5463
5369
5535
5685
7645
9268
6224
5160
5763
6708
8515
8528
8248

7848
9354
2559
4818
5717
7814
4847
6266
6215
6897
3411
5675
7722
7912
4925
7690
6920
6632
7849
9133
5133
3569
6825
8942
6269

7024
5551
7056
5743
6989
6286
2948
5875
5487
5357
6496
7205
6830
6415
5488
6736
7306
4208
7192
4600
5355
4879
4985
5767
4159

2692
5811
6012
6095
4162
6262
2179
3671
3341
5201
6594
6997
7059
7012
6439
5881
6065
8519
7638
5311
8880
3781
4685
5407
7518

2702
5667
6587
6509
6300
4002
5411
7144
5061
3886
4883
6663
6930
4115
3960
5112
5149
6809
4987
6199
6138
8461
7920
3633
5834

Para encontrar las diversas medidas estadsticas en Excel, se debe introducir los
datos en una hoja de clculo, considerando que estos deben estar en una sola

Docente: Ing. Ferly Urday Luna

Pgina 34 de 128

Estadstica Aplicada

columna. Vamos a suponer que hemos introducido los datos tal como estn en la
tabla anterior, la pregunta es: Cmo hara para pasar los datos de una tabla de
25 filas por 10 columnas, a una tabla de 250 filas por una columna?
Los datos han sido introducidos en el rango A7:J31, entonces se procede de la
siguiente manera:
Se selecciona la opcin complementos del men herramientas, y se activa la
opcin Herramientas para Anlisis.

Seleccionar del men Herramientas el comando Anlisis de Datos, seleccionar


la opcin muestra y aceptar.
Escoger las opciones que a continuacin se muestran y presionar aceptar.
Seleccionar los
datos.

Activar la opcin
peridico y como
periodo colocar
1.
Colocar el nombre
para la hoja nueva
donde aparecern
los datos.

Docente: Ing. Ferly Urday Luna

Pgina 35 de 128

Estadstica Aplicada

Una vez que los datos estn en una hoja nueva, activar el comando Anlisis de
Datos del men herramientas, seleccionar la opcin Estadstica Descriptiva y
aceptar.
Escoger las opciones que a continuacin se muestran y presionar aceptar.
1
Seleccionar los
datos.

2
3

Colocar un rango
de salida, para
que el resultado
salga en esta

Activar las
opciones
mostradas.

Finalmente los resultados hallados son:


Columna1
Media
Error tpico
Mediana
Moda
Desviacin estndar
Varianza de la muestra
Curtosis
Coeficiente de asimetra
Rango
Mnimo
Mximo
Suma
Cuenta
Nivel de confianza(95.0%)

5973.78
89.8641721
5935
7803
1420.877319
2018892.357
-0.221722878
-0.022460424
7176
2179
9355
1493445
250
176.990795

Comentarios acerca de los resultados obtenidos:


a) La Media, es la media aritmtica de los datos de la muestra y se halla con la
frmula:
X =

Docente: Ing. Ferly Urday Luna

X i
N

Pgina 36 de 128

Estadstica Aplicada

La interpretacin seria que el movimiento promedio mensual en dlares de 250


clientes del Banco de Crdito del Per para sus clientes que pertenecen al
estrato alto de la ciudad de Arequipa en el mes de octubre del 2006 es de $
5973.78
b) El error tpico, se calcula con la formula:

X =

El error tpico es la desviacin estndar de la distribucin muestral de medias.


c) Recordemos que la mediana es el valor que divide a la muestra en dos
subconjuntos con el mismo numero de elementos cada uno. Para nuestra
muestra podemos decir que el 50% de los clientes realiz movimientos entre
$2179 y $5935, 50% de los clientes realizo movimientos entre $5935 y $9355.
d) La moda es el valor que mas se repite, en nuestro datos existen 4 valores que
se repiten dos veces, el Excel lo que ha hecho es ordenar los datos en forma
descendente y el primer valor que se repeta mas veces (2, en nuestro caso),
lo ha tomado como si fuera la moda, siendo el valor 7803. Si es que no
hubiese ningn valor que se repita dos o mas veces, Excel devolvera el valor
#!N/A, a la altura de la moda. Los otros dos valores son 6233, 5688 y 5652.
Para encontrar dichos valores se debe hacer lo siguiente:

a) Ordenar los datos en forma


descendente.
b) En la Celda B1, escribir esta
funcin y rellenar hasta la celda
B250.
e) Para la desviacin estndar se puede utilizar cualquiera de estas formulas
n

( Xi X )
=

i =1

Docente: Ing. Ferly Urday Luna

( X

s=

X)

i =1

n 1

Pgina 37 de 128

Estadstica Aplicada

El movimiento mensual en dlares de los clientes del Banco de Crdito del Per
que pertenecen al estrato alto de la ciudad de Arequipa en el mes de octubre del
2006 se dispersa en promedio $1420.88 con respecto al valor central.
f) Recordemos que la varianza es la desviacin estndar elevada al cuadrado.
Se pueden usar estas formulas alternativas para su calculo.

2 =

nx 2 ( x )2
n2

s2 =

nx 2 ( x )2
n( n 1 )

g) La curtosis es el estadgrafo de asimetra que mide el grado de apuntamiento


o elevacin de una curva estadstica comparada con la curva normal. Una
curtosis positiva indica una distribucin relativamente elevada, mientras que
una curtosis negativa indica una distribucin relativamente plana. La formula
para calcularla es:
4

X i X
n( n + 1 )
3( n 1 )2
Curtosis =

( n 1 )( n 2 )( n 3 ) s ( n 2 )( n 3 )

En nuestro una curtosis de -0.223, nos indica que la distribucin de datos es


platicurtica, es decir, es mas achatada que la curva normal.
h) El coeficiente de asimetra o grado de asimetra de una distribucin, es la
inclinacin que adopta una curva estadstica respecto de la media aritmtica.
Esta inclinacin se llama cola, que puede ser ms prolongada a la izquierda
o derecha de sus media aritmtica. La formula para calcularla es:
Xi X
n
Sesgo =

( n 1 )( n 2 ) s

En nuestra muestra el coeficiente de -0.022 nos indica que la cola de los datos se
presenta ligeramente a la izquierda de la media aritmtica.
i) El rango es la diferencia entre el mayor y menor de todos los valores, para
nuestro caso el rango ha sido calculado 7176 = 9355 - 2179.
j) El nivel de confianza, sirve para calcular un intervalo de confianza para la
media poblacional, dicho intervalo, de manera manual se calcula con la
formula:

= x z / 2

s
n

Entonces el intervalo de confianza seria:


I = [5796.79 ; 6150.77]

Docente: Ing. Ferly Urday Luna

Pgina 38 de 128

Estadstica Aplicada

Medidas estadsticas para datos agrupados.


Los datos agrupados que analizaremos, sern aquellos que se vieron en las
tablas de distribucin de frecuencias para datos tipo 3. Se presentara un ejemplo
a manera de realizar un anlisis de sensibilidad con los datos presentados,
recordemos que un anlisis de sensibilidad responde a la pregunta: Qu
pasara si?. Para ello se presentar un modelo creado en Excel.
Considere el siguiente modelo:
Los siguientes datos se refieren a una muestra del nmero de ventas realizadas
por los trabajadores de la tienda Estilos durante la primera quincena del mes de
mayo del 2006.
56
60
73
55
37
66
88

12
66
54
19
65
52
66

62
29
62
23
17
56
60

68
60
42
57
36
80
47

56
73
62
78
15
17
92

75
39
33
68
79
28
65

52
59
40
82
33
63
AB

73
72
65
76
66
83
XY

AB y XY, pueden tomar cualquier valor de dos dgitos, para un caso practico
puede considerar lo siguiente, AB representa los dos ltimos dgitos de su cdigo
de ingreso y XY representa los dos ltimos dgitos de su DNI (Si fuese menor de
edad colocar el da de su cumpleaos). Si se tratase de un examen que se le
toma a un grupo de alumnos.
Los valores AB y XY, harn que se cree intervalos de diferentes frecuencias
absolutas simples. Se proceder a crear una tabla de distribucin de frecuencias
de cinco clases.
Para trabajar este ejemplo abrir el archivo

Ejercicio de Aplicacin
Realizar un anlisis estadstico completo con los datos del archivo Ventas de
Celulares

Docente: Ing. Ferly Urday Luna

Pgina 39 de 128

Estadstica Aplicada

Capitulo 5: Probabilidad

Probabilidad

Experimento aleatorio
En nuestra vida cotidiana encontramos algunos fenmenos, situaciones o
experimentos cuyo resultado esta dentro de un conjunto de posibilidades. Por
ejemplo
Al lanzar una moneda que lado de la moneda saldr.
Al lanzar un dado que nmero se mostrar.
Cuntos de los alumnos del saln de clase aprobaran?
Cul ser la jugada ganadora de la TINKA de este domingo?
A estos fenmenos se les llama fenmenos aleatorios, ya que no es posible conocer
el resultado antes de realizar el experimento.
Un experimento es proceso que genera un conjunto de datos cualitativos o
cuantitativos. Muchas veces el resultado de estos experimentos depende del azar,
es decir que no se puede pronosticar el resultado con exactitud.
De todas las ideas anteriores podemos dar una definicin: Un experimento aleatorio
es todo proceso que consiste de la ejecucin de un acto o prueba una o mas veces,
cuyo resultado en cada prueba depende del azar y en consecuencia no se puede
predecir con certeza.
Espacio muestral
Es el conjunto que consiste de todos los resultados posibles de un experimento
aleatorio. Se denota por (). Cada resultado posible del experimento aleatorio es un
elemento del espacio muestral o punto muestral. Se representa por:
= {/ es un punto muestral}
Ejemplos de experimentos aleatorios con sus respectivos espacios muestrales
a) El experimento aleatorio de lanzar un dado y observar el resultado obtenido,
es de una sola prueba.
a = {1,2,3,4,5,6}
b) El experimento aleatorio de lanzar una moneda tres veces, consiste de 3
pruebas.
b = {CCC, CCS, CSC, SCC, SSC, SCS, CSS, SSS}

Docente: Ing. Ferly Urday Luna

Pgina 40 de 128

Estadstica Aplicada

Los espacios muestrales que consisten de de dos o mas pruebas sucesivas se


obtienen tambin de un diagrama de tipo arbol.
c) Si el experimento aleatorio es lanzar una moneda y un dado a la vez, y
observar los resultados, el espacio muestral es:
c = {1C, 2C, 3C, 4C, 5C, 6C, 1S, 2S, 3S, 4S, 5S, 6S}
d) si el experimento aleatorio es lanzar una moneda tantas veces como sea
necesario hasta que aparezca la primera cara, su espacio muestral es:
d = {C, SC, SSC, SSSC, SSSSC,}
e) Si el experimento aleatorio consiste en medir la vida til (en horas de uso) de
un quemador de DVD, su espacio muestral es:
e = {t / t 0}
representa al conjunto de nmeros reales.
f) Si el experimento aleatorio consiste en determinar la posicin de cada de
dardo que es tirado hacia un blanco circular de radio 5 cm., su espacio
muestral es:
f = {(x,y) / x2 + y2 25}
Clasificacin de los espacios muestrales
Por el nmero de elementos o puntos muestrales, los espacios muestrales se
clasifican en:
Discretos finitos, son los que tienen un nmero finito de elementos, por ejemplo,
los espacios a, b y c
Discretos infinitos, consisten de un nmero infinito numerable de elementos, por
ejemplo el espacio d
Continuos, consiste de un nmero infinito no numerable de elementos, por ejemplo
los espacios e y f
Eventos o sucesos
Son cualquier subconjunto de un espacio muestral.
Los diversos eventos son:
a) El evento imposible, , es el que no tiene puntos muestrales, en
consecuencia no ocurre nunca.
b) Los eventos unitarios o elementales, {wi}, son los que contienen un solo punto
muestral.
c) Los eventos compuestos, son los que contienen de dos a mas eventos.
d) El evento seguro o cierto, , es el mismo espacio muestral.
Definiciones
 Se dice que un evento A ocurre, si contiene por lo menos un punto muestral
de algn experimento aleatorio.
 Un evento A no ocurre si y solo si w A.
 El evento A es un subevento o esta contenido en el evento B, simbolizado,
A B, si toda vez que ocurre A ocurre tambin B.
 Los eventos A y B son iguales, A = B, si y solo si A B y B A.

Docente: Ing. Ferly Urday Luna

Pgina 41 de 128

Estadstica Aplicada

 Se denomina complemento del evento A, al evento que se denota por AC o A


o A , que consiste de todos los puntos muestrales que no estn en el evento
A, esto es:
AC = { w / w A }
AC
A

Probabilidad de un evento
Sea el espacio muestral asociado a un experimento aleatorio. La probabilidad de
cualquier evento A de W, es el nmero real P(A) que satisface los siguientes
axiomas:
a) 0 P(A) 1
b) P() = 1
c) P(A B) = P(A) + P(B)
Para calcular la probabilidad de un evento se usara la formula:
P(A)=

n(A)
n()

Probabilidad de dos o mas eventos


Eventos Mutuamente Excluyentes
Dos o mas eventos son mutuamente excluyentes o disjuntos si no pueden ocurrir
simultneamente. Es decir, la ocurrencia de un evento impide la ocurrencia del otro
evento ( o eventos ).
La probabilidad del evento A o B es:
P(A B) = P(A) + P(B)
Ejemplo:
Se extrae una carta de una baraja. Hallar la probabilidad de que sta sea un as o un
rey

4
1
4
1
= ; P [ B] =
= ;
52 13
52 13
1 1
P [ A B ] = + = 15.38%
13 13
P [ A] =

Docente: Ing. Ferly Urday Luna

Pgina 42 de 128

Estadstica Aplicada

Eventos no Excluyentes
Dos o ms eventos son no excluyentes o conjuntos, cuando es posible que ocurran
ambos.
En forma simblica se tiene:
P(A B) = P(A) + P(B) - P(A B)

A
AB

B
C

AB

ACB
ACBC

Para tres eventos cualesquiera A, B y C, se cumple que:


P(A B C) = P(A) + P(B) + P(C) P(AB) P(AC) P(BC) + P(ABC)
Ejemplo:
Sea A el evento de sacar un rey y B el evento de sacar un trbol en una sola carta
sacada de la baraja. Cul es la probabilidad de sacar un rey o un trebol o ambas en
una sola oportunidad?

4
1
13 1
1
= ; P [ B] =
= ; P [ A B] =
52 13
52 4
52
1 13 1
P [ A B ] = + = 30.77%
13 52 52
P [ A] =

Eventos Independientes
Dos o ms eventos son considerados independientes si los eventos en ningn modo
se afectan uno al otro.
La probabilidad de que ambos eventos independientes A y B ocurran, tienen como
frmula:
P[AyB]=p[A]*p[B]
Ejemplo
Una caja contiene 5 bolas vender y 2 bolas negras. Se extrae una bola de la caja y
despus se reemplaza; otra bola es extrada despus del reemplazamiento.
Encontrar la probabilidad de que ambas extracciones sean bolas verdes.
Solucin
5 bolas verdes
Caja
2 bolas negras
7
5 5
25
P(A yB)= =
= 51.02%
7 7
49

Docente: Ing. Ferly Urday Luna

Pgina 43 de 128

Estadstica Aplicada

Eventos dependientes
Si A y B estn relacionadas de tal manera que la ocurrencia de B depende de la
ocurrencia de A; entonces A y B son llamados eventos dependientes y la
probabilidad del evento B es llamado Probabilidad condicional, en forma
simblicamente:
P[AyB]=p[A]*p[B/A]
Ejemplo:
Con relacin al ejemplo anterior, supongamos que la bola no es regresada a la caja
antes de sacar la segunda bola. Encuentre la probabilidad de que ambas bolas sean
verdes.
Solucin:
5
4
P(A)= ;P(B)=
7
6
5 4 20
P(AyB)= = =47.62%
7 6 42

PROBABILIDAD CONDICIONADA
Ejemplo de aplicacin
Se tiene un grupo de 112 alumnos en los que se ha anotado si estn aprobados o
desaprobados y si provienen de colegio nacional o particular.

Aprobado (A)
Desaprobado (D)

Particular (P)
20
22
42

Nacional (N)
30
40
70

Total
50
62
112

Los sucesos A, D, P y N, representan los sucesos que se verifican cuando al


escoger una persona esta resulta ser un alumno aprobado o desaprobado, provenir
de colegio particular o nacional.
Si la eleccin se hace sin condiciones, la probabilidad de elegir una persona que sea
de colegio particular es:
42 3
P(P) =
=
112 8
La de elegir una persona que sea de colegio nacional es:
70 5
=
112 8
Sin embargo si la eleccin se hace solamente entre los aprobados, las
probabilidades de que sea de colegio particular o nacional son:
30 3
20 2
P(N) =
=
P(P) =
=
50 5
50 5
P(N) =

Para que no existan confusiones y se anote claramente de que son probabilidades


calculadas sobre el conjunto solo de los aprobados, se escribe P(P A) , la que se
lee: Probabilidad de P condicionada a A o bien Probabilidad de P supuesto que es
A. Las probabilidades de P y N, condicionadas a A son:

Docente: Ing. Ferly Urday Luna

Pgina 44 de 128

Estadstica Aplicada

( A ) = 52

( A ) = 35

PP

PN

Calculamos ahora las otras probabilidades condicionadas que se dan:

11
=
( D)= 22
62 31

P P

40 20
=
( D)= 62
31

P A

11
=
( P )= 22
42 21

P D

3
=
( N)= 30
70 7

P D

40 4
=
( N)= 70
7

P A

Segn lo anterior, tenemos:


2
P P =
A 5

( )

y hallamos:

10
=
( P )= 20
42 21

P N

P(P A)=

P(A)=

50 25
=
112 56

20
5
=
112 28

Como se puede observar la relacin existente entre las 3 probabilidades es:

5 25 2
=
28 56 5
De la anterior relacin se deduce que:

( A ) P (P A ) = P (PP(A A) )

P (P A )=P ( A )P P

Por todo lo anterior demostrado, definimos:


Sea A un suceso cuya probabilidad es distinta de cero y sea B cualquier suceso. Se
llama probabilidad de B condicionado a A, al cociente:

( A ) = P (PA( A)B)

P B

La relacin anterior mide la proporcin de veces que ocurre B de entre las que ha
ocurrido A.

Ejemplo Nro 1
Se lanzan dos dados; Cul es la probabilidad de que la suma de los resultados sea
menor que seis si sabemos que dicha suma ha sido mltiplo de cuatro?
La probabilidad pedida es:
Utilizando la ley de Laplace p =

P suma < 6

suma multiplo de 4

casos favorables
tenemos:
casos posibles

Conteo de los casos posibles, se sacaran los pares de dados cuyas sumas sean
mltiplo de 4,
(1,3), (2,2), (2,6), (3,1), (3,5), (4,4), (5,3), (6,2) y (6,6)

Docente: Ing. Ferly Urday Luna

Pgina 45 de 128

Estadstica Aplicada

Conteo de los casos favorables


(1,3), (2,2) y (3,1)
Por lo tanto:

P suma < 6

suma multiplo de 4

) = 93 = 13

Haciendo uso de la tabla de probabilidad condicional, hallamos .

2
3
4
5
6
7

3
4
5
6
7
8

Tabla de Probabilidad Condicional


Es < 6 (C)
Es mltiplo de 4 (A)
3
No es mltiplo de 4 (B)
7
10

P suma < 6

suma multiplo de 4

4
5
6
7
8
9

5
6
7
8
9
10

6
7
8
9
10
11

7
8
9
10
11
12

Es 6(D)
6
20
26

Total
9
27
36

) = P (C A) = 93 = 13

3
P
C
A

(
)
1
P C =
= 36 =
A
9 3
P ( A)
36
PROBABILIDAD TOTAL

( )

Tenemos n sucesos A1, A2, , An incompatibles dos a dos (Ai Aj = ) y tales que
A1 A2 An = . Si S es un suceso cualquiera se tiene que:
A1

A2

A3

An

P(S)=P(A1 )P S +P(A2 )P S +...+P(An )P S


A1
A2
An
TEOREMA DE BAYES.
Si los n sucesos A1, A2, , An, constituyen una particin del espacio muestral ,
entonces, para cualquier evento S de tal que P(B)>0.
P

Donde:

Ai

= P(Ai )P(S Ai )

S
P(S)

P(S)=P(A1 )P S +P(A2 )P S +...+P(An )P S


A1
A2
An

Docente: Ing. Ferly Urday Luna

Pgina 46 de 128

Estadstica Aplicada

La regla de Bayes nos permite comparar la probabilidad previa (o a priori) P(Ai) con
la probabilidad posterior (o aposteriori) P(Ai/S), la regla de Bayes da el porcentaje de
la contribucin de P(Ai S) con respecto a P(S).

Ejemplo de aplicacin
Se tiene dos urnas, en la primera hay dos bolas blancas y tres bolas negras,
mientras que en la segunda tiene cuatro bolas blancas y una negra. Se elige una
urna al azar y se extrae una bola.
Calcular:
a) La probabilidad de que la bola extrada sea blanca.
b) La probabilidad de haber elegido la primera urna, supuesto que la bola
extrada ha sido blanca.
Solucin
Sea A1 el suceso de elegir la primera urna y sea A2 el suceso de elegir la segunda
urna y S el suceso de extraer la bola blanca.
El punto (a), pide calcular:
Como las urnas son elegidas al azar, entonces P(A1)=P(A2) = 1/2
P(S)=P(A1 )P S +P(A2 )P S
A1
A2
1 2 1 4 3
P(S)= + =
2 5 2 5 5
El punto (b), pide calcular:
1 2

P(A
)P(S
A
)
1
A
2 5
1
1
P 1 =
=
=
S P(A )P S +P(A )P S 1 2 + 1 4 3
A

1
2

1
A2 2 5 2 5
Ejercicios de aplicacin
1. Tres mquinas denominadas A, B y C, producen un 43%, 26% y 31% de la
produccin total de una empresa respectivamente, se ha detectado que un 8%,
2% y 1.6% del producto manufacturado por estas mquinas es defectuoso, a. Se
selecciona un producto al azar y se encuentra que es defectuoso, cul es la
probabilidad de que el producto haya sido fabricado en la mquina B?, b. Si el
producto seleccionado resulta que no es defectuoso, cul es la probabilidad de
que haya sido fabricado en la mquina C?
2. Tres mquinas, A, B y C, producen el 45%, 30% y 25%, respectivamente, del
total de las piezas producidas en una fbrica. Los porcentajes de produccin
defectuosa de estas mquinas son del 3%, 4% y 5%. Seleccionamos una pieza al
azar; calcular la probabilidad de que sea defectuosa. Tomamos, al azar, una
pieza y resulta ser defectuosa; calcula la probabilidad de haber sido producida
por la mquina B. Qu mquina tiene la mayor probabilidad de haber producido
la citada pieza defectuosa?
3. La fbrica de enlatados PORTOLA SA produce 5000 envases diarios. La
mquina A produce 3000 de estos envases, de los que el 2% son defectuosos y
la mquina B produce los 2000 restantes de los que se sabe que el 4% son
defectuosos. Determinar la probabilidad de que un envase elegido al azar sea
defectuoso. Si se escoge un envase y este es bueno, Cul es la probabilidad
que haya sido hecho en la maquina B?
4. El volumen de produccin en tres plantas diferentes de una fabrica es de 500
unidades en la primera, 1000 unidades en la segunda y 2000 en la tercera.

Docente: Ing. Ferly Urday Luna

Pgina 47 de 128

Estadstica Aplicada

Sabiendo que el porcentaje de unidades defectuosas producidas en cada planta


es el 1%, 0.8% y 2% respectivamente. Calcula la probabilidad de que al
seleccionar una unidad al azar sea defectuosa.
5. En un da cualquiera cuatro maquinas M1, M2, M3 y M4 producen un bien de
consumo en las siguientes proporciones: M1 produce el doble de M4, M3 produce
el triple de M4, mientras que M1 produce la mitad de M2. Las producciones no
defectuosas son respectivamente 95%, 95%, 90% para M1, M2 y M3. Si se elige al
azar un articulo de la produccin de un da y se encuentra que la probabilidad de
que resulte no defectuoso es 0.93%.
a) Cul es el porcentaje de produccin no defectuosa de M4?
b) De que maquina es ms probable que provenga un articulo defectuoso?

Docente: Ing. Ferly Urday Luna

Pgina 48 de 128

Estadstica Aplicada

Capitulo 6: Variables Aleatorias

Variables Aleatorias
Distribucin de variables aleatorias
Variable aleatoria
Fenmeno aleatorio: es todo fenmeno sobre el cual no se tiene la certeza
absoluta de poder explicarlo, en por lo menos algn mbito o sistema de referencia.
Definido as, se deduce que todo fenmeno conocido es o fue aleatorio alguna vez.
Por ejemplo, la determinacin del sexo de un recin nacido fue aleatoria hasta antes
del alumbramiento, momento en que se alcanza la certeza. No hay ciencia sin
experimentos y tampoco hay experimentos sin ciencia.
Experimento aleatorio: es todo experimento sobre cuyo resultado no se tiene a
priori la certeza de su resultado.
Por ejemplo, si el experimento es lanzar un dado, se tiene la certeza que hay seis
resultados posibles pero nunca se sabe cul cara saldr si se trata de un dado
normal. Existe un cierto grado de incertidumbre asociado a cada cara posible.
Una variable estadstica es una caracterstica(Cualitativa o cuantitativa) que se mide
u observa en una poblacin. Si la poblacin es aleatoria y la caracterstica es
cuantitativa la variable es denominada variable aleatoria.
Variable aleatoria: son todas aquellas magnitudes donde cada uno de los valores
que pueda tomar, en un sistema de referencia o poblacin, tiene asociada una cierta
probabilidad de ocurrencia.
Definicin: Se denomina variable aleatoria, a una variable estadstica definida en un
espacio muestral .
Una variable aleatoria X
es una funcin definida en
W tal que a cada elemento
i le asocia el nmero
real x = X(i), ver en la
figura de la izquierda.

El dominio de la variable aleatoria X es el espacio muestral W y el rango es un


subconjunto de los nmeros reales que se denotar por RX, siendo,
RX = {x / x = X(), }

VARIABLE ALEATORIA DISCRETA


La funcin X es una variable aleatoria discreta, si el rango de X es contable (finito o
infinito numerable). Una V.A. discreta asume cada uno de sus valores con cierta
probabilidad que denotaremos por PX(Probabilidad inducida por X). En efecto si e

Docente: Ing. Ferly Urday Luna

Pgina 49 de 128

Estadstica Aplicada

rango de la variable aleatoria X es el conjunto finito de nmeros, RX = {1;2;...;Xn} y si


B = {xi} es un evento en RX, entonces:
P(xi) = P[X = xi] = P[ / X() = xi]; i = 1;2;3;..

Ejemplo 1
Sea el espacio muestral de lanzar al aire una moneda tres veces consecutivas,
esto es,

= {SSS, SSC, SCS, CSS, SCC, CSC, CCS, CCC}.


Si X se define en como el nmero de caras obtenidas, entonces, X es una
variable aleatoria cuyo rango es el conjunto: RX = {0;1;2;3;4}. En efecto,
X = 0; corresponde al elemento elemental {SSS}.
X = 1; corresponde a los elementos elementales {SSC}, {SCS}, {CSS}.
X = 2; corresponde a los elementos elementales {SCC}, {CSC}, {CSS}.
X = 3; corresponde al elemento elemental {CCC}.
P[X = 0] = P({SSS}) = 1/8
P[X = 1] = P({SSC o SCS o CSS}) = 3/8
P[X = 2] = P({SCC o CSC o CSS}) = 3/8
P[X = 3] = P({CCC}) = 1/8
En general, sea P una probabilidad definida en un espacio muestral , y X una
variable aleatoria definida en cuyo rango es el conjunto de nmeros RX, la
probabilidad PX del evento B en RX se define por:
PX (B) = P(A)

RX

B
P
PX

P(A) = PX(B)

Docente: Ing. Ferly Urday Luna

Pgina 50 de 128

Estadstica Aplicada

NOTAS:
a) El conjunto de pares (xi; P[X = xi]) es la distribucin de probabilidades de la
variable aleatoria X.
Esta distribucin es similar a una distribucin de frecuencias relativas, por lo
tanto, se pueden calcular las medidas de tendencia central y de dispersin
por un proceso similar al que se hizo con la distribucin de frecuencias
relativas.
b) Las probabilidades pi = P[X = xi], xi RX satisfacen las propiedades:
 pi 0, para cada xi RX
 pi = 1
c) Por extensin para todo nmero real x xi, siendo xi RX, se define :
P[X = x] = P() = 0

Funcin de probabilidad de una variable aleatoria discreta


Sea X una variable aleatoria discreta. Se denomina funcin (ley o modelo de
distribucin) de probabilidad de X a la funcin f (x) definida por f (x) = P[X = x] para
todo x nmero real y que satisface las siguientes condiciones:
i) f (x) 0 x
ii) f (xi) = 1
xiRX

Ejemplo 2
Consideremos el experimento de lanzar dos dados y observar los nmeros que
aparecen en las caras superiores. Encuentre la funcin de distribucin de
probabilidad de la variable aleatoria y grafique para:
a) X: suma de los nmeros que aparecen en las caras superiores de los dos
dados.
b) X: diferencia de los nmeros que aparecen en las caras superiores de los dos
dados.
c) X: mximo de los dos nmeros que aparecen en las caras superiores de los
dos dados.
d) Calcular para cada caso P[2 < X 5].
Solucin: El espacio muestral asociado al experimento es:
(1-1) (1-2) (1-3) (1-4) (1-5) (1-6)
(2-1) (2-2) (2-3) (2-4) (2-5) (2-6)
= (3-1) (3-2) (3-3) (3-4) (3-5) (3-6)
={(i;j) / i = 1; 2; 3; 4;5;6}
(4-1) (4-2) (4-3) (4-4) (4-5) (4-6)
j = 1; 2; 3; 4;5;6
(5-1) (5-2) (5-3) (5-4) (5-5) (5-6)
(6-1) (6-2) (6-3) (6-4) (6-5) (6-6)
a) En este experimento los posibles valores de x() = i + j, donde = {i;j} son 2;
3; 4;...;12.
Tenemos que x = 2 corresponde al evento (1-1) con probabilidad 1/36, esto
es, P[x = 2] = P[(1-1)] = 1/36. Resolviendo por analoga para los dems casos,
llegamos a la siguiente distribucin de probabilidad.

xi
2
3
4
5
6
7
8
9
10 11 12
pi f (xi) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36

Docente: Ing. Ferly Urday Luna

Pgina 51 de 128

Estadstica Aplicada

Grfica de la Distribucin
x
2
3
4
5
6
7
8
9
10
11
12

P(x)
1/36
2/36
3/36
4/36
5/36
6/36
5/36
4/36
3/36
2/36
1/36

Distribucin de probabilidad

7/36
6/36
5/36
4/36
3/36
2/36
1/36

P(X)

1 2 3 4 5 6 7 8 9 10 11 12

La grafica de una distribucin de probabilidades discreta se


denomina grfica de bastones, que consiste en segmentos
verticales continuos o punteados de longitud proporcional a
la probabilidad respectiva en cada valor xi de la variable
(Observar el grafico de arriba)
Clculo de P[2 < X 5]
Para encontrar esta probabilidad se debe hallar:
5

f (x ) = f (3) + f (4) + f (5) = 36 + 36 + 36 = 36 = 4


i

x i =3

Realice Ud. los puntos (b); (c) y (d) del ejemplo 2.

Funcin de distribucin acumulada de la variable aleatoria discreta.


F(x) = P[X x]
Ejemplo 3.- Hallar la funcin de distribucin acumulada del punto (a) del ejemplo 2

f (x)

0
x<2
1 6/36
1/36
2x<3
1
3/36
3x<4
30/36
6/36
4x<5
24/36
10/36 5 x < 6
18/36
15/36 6 x < 7
12/36
21/36 7 x < 8
26/36 8 x < 9
6/36
30/36 9 x < 10
0
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14
33/36 10 x < 11
35/36 11 x < 12
36/36 x 12
Ejercicio.- Encontrar la funcin de distribucin de probabilidad acumulada para los
puntos (b) y (c) del ejemplo 2.

Docente: Ing. Ferly Urday Luna

Pgina 52 de 128

Estadstica Aplicada

Esperanza matemtica de una variable aleatoria discreta


La media de una v.a. X o media de la distribucin de probabilidad de X es un nmero
real que se denota por X o por . La media es denominada tambin, esperanza
matemtica o valor esperado de X, se denota tambin por E(X)
La media de una variable aleatoria discreta X con funcin de probabilidad f (x) es la
expresin:
= E (X) = x i f (x i )
x i R X

Si el rango de X es un conjunto finito


RX = {x1; x2; ...; xn}, entonces:

Si el rango de X es un conjunto infinito


numerable RX = {x1; x2; ...}, entonces

E(X) = x i f ( x i )

E(X) = x i f ( x i )

i =1

i =1

Varianza de una variable aleatoria discreta


Se denota por cualquiera de estas formas:

2 ; X2 ; Var(X); v(X)
Sea X una v.a. con distribucin de probabilidad f(x) y con media igual a m. La
varianza de X es la expresin:

X2 = E[( X ) 2 ] = ( x ) 2 f ( x i )
i

La desviacin estndar es la raiz cuadrada de la varianza.

Ejemplo 4.- Hallar la media y la varianza del punto (a) del ejemplo 2.
Clculo de la media o de la esperanza matemtica.

= E(X) =

x f (x )
i

x i R X

xi
2
3
4
5
6
7
8
9
10 11 12
pi f (xi) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36
Procedemos a multiplicar cada xi por f(xi) y luego sumamos. obteniendo que = 7.
Conclusin: La esperanza matemtica de la suma de dos dados que son lanzados
es 7.
Clculo de la varianza
Se procede a elevar al cuadrado cada suma de par de dados, multiplicar ese valor
por su probabilidad y hallar dicha suma, obtenindose: 54,83. Luego
Var(X) = E(X2)-2 = 54,83 (7)2 = 54,83 49 = 5,83
Var (X) = 5,83
Ejercicios Propuestos
Ejercicio 1
Considere el experimento de lanzar una moneda al aire 3 veces consecutivas y
anotar el resultado obtenido. Sea X una VA discreta que se define como el nmero
de caras obtenidas, hallar:
a) La funcin de distribucin de probabilidad acumulada.
b) La Esperanza matemtica.
c) La varianza
d) La desviacin estndar.
e) P[0 < X 2]

Docente: Ing. Ferly Urday Luna

Pgina 53 de 128

Estadstica Aplicada

Ejercicio 2
Considere el experimento de lanzar cuatro monedas de 50 cntimos al aire juntas y
anotar el resultado obtenido. Sea X una VA discreta que se define como el nmero
de sellos obtenidos, hallar:
a) La funcin de distribucin de probabilidad acumulada.
b) La Esperanza matemtica.
c) La varianza
d) La desviacin estndar.
e) P[0 < X 2]
Ejercicio 3
Realice nuevamente el ejercicio 1, pero considerando que la moneda se lanza al aire
5, 6 y 7 veces.
Ejercicio 4
Una urna contiene 3 fichas de color rojo y una de color azul. Un experimento
aleatorio consiste en extraer fichas al azar de la urna uno a uno sucesivamente.
a) Determinar la distribucin de probabilidades del nmero de intentos que se
realizan hasta que aparezca la primera ficha azul. Sin reposicin y con
reposicin.
b) Si dos personas A y B juegan sacando alternativamente una ficha cn
reposicin de la urna y si gana el que obtiene la primera ficha azul, Cul es
la probabilidad e que A gane el juego si juega primero?.
Ejercicio 5
Un lote de 10 impresoras contiene 4 defectuosas. Si se obtiene una muestra al azar
de cinco artculos, determine la distribucin de probabilidades del nmero de
artculos defectuosos en la muestra, si se escogen:
a) Los cinco a la vez.
b) Uno por uno con reposicin.
Ejercicio 6
Un embarque de 7 televisores contiene 2 aparatos defectuosos. Un hotel realiza una
compra aleatoria de 3 de ellos. Si X es el n de unidades defectuosas que se
compran:
a) Encuentre la distribucin de probabilidad de X.
b) Representarla grficamente.
c) Encuentre la distribucin acumulada de X.
d) Representarla grficamente.
e) Utilizando F(x) encuentre P(X = 1) y P(0 < X 2).
f) Calcule la Varianza y la Media de X.
DISTRIBUCIONES DISCRETAS
DISTRIBUCION BINOMIAL
a) Las n pruebas son estadsticamente independientes
b) Los resultados de cada prueba son dos mutuamente excluyentes, xito (E) y
fracaso(F).
c) La probabilidad de xito en invariante en cada una de las pruebas.

n
f ( x ) = P[ X = k ] = p k q n k , con k = 0,1,2,3..., n
k
Docente: Ing. Ferly Urday Luna

Pgina 54 de 128

Estadstica Aplicada

si x < 0
0,
n n k n k
F ( x ) = P[ X = x ] = p q , si x = 0,1,2,..., n 1
k =0 k
1,
si x n
Si X ~ B (n, p ) , entonces:

= E ( X ) = np

2 = Var ( X ) = npq

DISTRIBUCIN DE POISON
Se aplica a problemas donde la variable aleatoria es el nmero de eventos
independientes que ocurren en un intervalo de tiempo, o en una regin plana(con un
promedio dado), por ejemplo, entre otros:
a) Nmero de llamadas que recibe una central telefnica en el periodo de un
minuto.
b) Nmero de accidentes de trabajo que ocurren en una fabrica durante una
semana.
c) Nmero de fallas en la superficie de una cermica rectangular.
d) Nmero de bacterias en un volumen de un m3 de agua.

e x
f ( x ) = P[ X = x ] =
, Con x = 0,1,2....
x!
Si X ~ P ( ) , entonces:
= E( X ) =

e = 2,718282

2 = Var ( X ) =

Extensin o reduccin del intervalo unitario


La probabilidad de que ocurran k eventos de Poisson en un intervalo de tiempo o en
una regin de tamao t es:
Donde es el nmero promedio de

e .t k
P[ X = k ] =
, Con k = 0,1,2...., etc
k!

ocurrencias por unidad de periodo o


regin (t es el nmero promedio de
ocurrencias de eventos en el periodo
o regin de tamao t)

Aproximacin de la distribucin binomial a la de poisson.


Sea X ~ B( n , p ). Si cuando n  , p  0 y = np permanece constante, entonces
la distribucin binomial se aproxima a la distribucin de Poisson con parmetro .
Entonces esta aproximacin nos permite resolver el problema de distribucin
binomial aplicando la distribucin de Poisson, bsicamente cuando:

n 30 y

Docente: Ing. Ferly Urday Luna

p 0,05

Pgina 55 de 128

Estadstica Aplicada

DISTRIBUCIONES CONTINUAS
La distribucin normal
Se dice que una variable aleatoria continua, X, que toma los valores reales, - < <
, se distribuye normalmente ( o ms brevemente es normal) con parmetros y y
se describe por X ~ N( , 2), si su funcin de densidad es:

f ( x) =

1
e
2

1 x

Su grfica de funcin de densidad es:


f(x)

Estandarizacin
Si la variable aleatoria X tiene una distribucin normal, entonces, la variable aleatoria
estndar N( , 2) Z, tiene una distribucin normal N( 0 ; 1 ).

z=

EJERCIOS PROPUESTOS
1. En una empresa metal mecnica, la probabilidad de que una silla pase con xito
la prueba de control de calidad es de 5/6. Se prueban 10 sillas. Si X es la variable
aleatoria que se define como el nmero de sillas que no pasan la prueba,
determine:
a) La funcin de probabilidades de X.
b) La media y la desviacin est{andar de X.
c) La funcin de distribucin de probabilidad acumulada F(X) de X.
d) Usando F(X), calcular P[7<X9].
2. Una tienda de alquiler de autos, cada vez que un cliente alquile un automvil
debe pagar como mnimo $4. Si alquila una auto de tipo A debe pagar $15 ms.
Se sabe que la probabilidad de que un cliente alquile un auto tipo A es de 0,7. De
5 clientes que alquilan autos en esta tienda:
a) Determine la distribucin de probabilidades de los clientes que alquilan autos
tipo A.
b) Determine la utilidad y la utilidad esperada que producen a la tienda los 5
clientes que alquilan automviles.

Docente: Ing. Ferly Urday Luna

Pgina 56 de 128

Estadstica Aplicada

3. Si X ~ B(n,p) tal que E(X) = 3 y Var(X) = 2,4, calcular: P[X 3]. (considere p > 0)
4. Un estudiante contesta al azar un examen de 9 preguntas tipo IBM con 4
alternativas cada pregunta. Solo una de las alternativas es la correcta. Determine
la distribucin de probabilidades del nmero de preguntas contestadas
correctamente. Si para aprobar el examen debe contestar al menos 6 preguntas,
Cul es la probabilidad de aprobar el examen?.
5. En una produccin, la probabilidad de que un objeto sea defectuoso es de 0,2.
Si en una muestra de 5 de tales objetos escogidos al azar uno por uno, Cul
ser la probabilidad que exista un defectuoso?. Determinar F(X). Hallar P[0X<3].
6. Suponga que llegan en forma aleatoria una serie de llamadas a una central
telefnica con un promedio de tres llamadas por minuto. Calcular la probabilidad
de que en el periodo de un minuto:
a) No ocurra llamada alguna.
b) Ocurran al menos cuatro llamadas.
c) Si cada llamada cuesta S/. 0,50, Cunto es el costo esperado por llamada?.
7. Una empresa textil produce un tipo de tela en rollos de 100m. El nmero de
defectos que se encuentran al desenrollar la tela es una variable aleatoria de
Poisson que tiene en promedio 4 defectos por cada 20 metros de tela.
a) Qu probabilidad hay que al desenrollar la tela se encentre menos de tres
defectos en los primeros 50 metros?.
b) Hallar la probabilidad de que al desenrollar la tela no se encuentre defectos
en el primer segmento de 5 metros de tela.
c) Si se desenrollan 5 rollos de tela escogidos al azar, Cul es la probabilidad
de que no se encuentren defectos de tela en elprimer segmento de 5 metros
de tela en al menos dos de ellos?.
8. Un lquido contiene cierta bacteria con un promedio de 3 bacterias por cm3,
calcular la probabilidad de que una muestra de 2 cm3 contenga por lo menos 1
bacteria.
9. Un estudio realizado en las tierras de cultivo de Socabaya concluye afirmando de
que la probabilidad de que cada hectrea de siembra fumigada contenga por lo
menos un nido de hormiga es de 0,005. De 600 hectreas sembradas y
escogidas al azar. Qu probabilidad hay de que al menos 5 de ellas contengan
por lo menos un nido de hormiga?.
10. Suponga de que la probabilidad de que se haga una soldadura defectuosa en
una conexin dada es 0,001. Calcular la probabilidad de que se presenten a lo
ms 2 defectos en un sistema que tiene 5000 conexiones soldadas
independientemente.
11. Utilizando la tabla de probabilidades normal, hallar:
a) P[z 1,2]
b) P[0,81 Z 1,94]
c) P[Z -1,28]
d) P[-0,46 Z 2,21]

Docente: Ing. Ferly Urday Luna

Pgina 57 de 128

Estadstica Aplicada

e) P[Z -0,68]
f) P[-2.04 Z -1,98]
g) P[Z 1,676]
12. Una poblacin normal tiene una media de 50.0 y una desviacin estancar de 4.0.
Calcule la probabilidad de un valor entre 44.0 y 55.0.
a) Evale la probabilidad de uno mayor que 55.0.
b) Obtenga la probabilidad de uno entre 52.0 y 55.0.
c) Determine el valor de X abajo del cual ocurriera el 95% de los valores
13. Una maquina expendedora de refrescos se ajusta para servir 7.00 oz (onzas) de
liquido por vaso. La desviacin estndar es de 0.10 oz. Cul es la probabilidad
de que la maquina sirva?
a) Entre 7.10 y 7.25 onzas de refresco?
b) 7.25 oz o ms?
c) Entre 6.8 y 7.25 onzas?
d) Cunto refresco se sirve en el mximo 1% de las bebidas?
14. Las cantidades de dinero en solicitudes de prstamo para casa que recibe la
cooperativa La Chamchita SAC es de $70.000(dlares) y una desviacin
estndar de $20.00. Una solicitud de prstamo se recibi esta maana. cul es
la probabilidad de que:
a) La cantidad solicitada sea de $80.000 mas?
b) El monto solicitado est entre $65.000y $80.000?
c) El importe solicitado sea de $65.000 ms?
d) 20% de los prstamos sean mayores que cul cantidad?
15. Suponga que el ingreso familiar mensual en una comunidad tiene una
distribucin normal con media de S/. 600,00 desviacin estndar de S/. 100,00.
a) Calcular la probabilidad de el ingreso de una familia escogida al azar sea
menor que S/. 400,00.
b) Si el 5% de las familias con mayores ingresos deben pagar un impuesto, a
partir de que ingreso familiar se debe pagar dicho impuesto?.
16. La empresa Cervesur SA utiliza el camin N-1310 en forma exclusiva, y efectu
un estudio de costos de mantenimiento utilizando una muestra. Tal anlisis revel
que la media aritmtica del nmero de kilmetros recorridos por camin durante
el ao,' fue 60 000, Las distancias recorridas se distribuyeron en forma normal y
la desviacin estndar de la muestra fue 2 000 km.
a) Qu porcentaje de los camiones recorri 65 200 km o ms?
b) Si la empresa posee 3 500 camiones N-1310. Con base en lo obtenido de la
muestra, cuntos recorrieron 55 000 km o menos?
c) Cuntos recorrieron 62 000 km o menos durante el ao?
17. La gerencia de la empresa Gordon Electronics est considerando adoptar un
sistema de bonos o primas para incrementar la produccin. Una opcin consiste
en pagar un bono sobre el 5% ms alto de la produccin con base en la
experiencia. Los registros indican que, en promedio, durante una semana se
elaboran 4 000 unidades de un pequeo ensamble. La distribucin dla
produccin semanal es, aproximadamente, normal con desviacin estndar de 60

Docente: Ing. Ferly Urday Luna

Pgina 58 de 128

Estadstica Aplicada

unidades. Si la prima se paga sobre el 5% superior de la produccin, este bono


se pagar con respecto a cuntas unidades o ms?
18. Suponga que la duracin X de los focos que produce una compaa se distribuye
normalmente. Si el 18,41% de estos focos duran menos de 8,2 meses y el 6,68%
duran al menos 13 meses.
a) Calcular la media y la varianza de la duracin de los focos.
b) Hallar el cuartil Q1 de la distribucin.

Estudio de Caso: Inmobiliaria La casa del rbol EIRL


La siguiente informacin se refiere a las casas vendidas en una ciudad el ao
pasado por una inmobiliaria.
X1
263,1
182,4
242,1
213,6
139,9
245,4
327,2
271,8
221,1
266,6
292,4
209
270,8
246,1
194,4
281,3
172,7
207,5
198,9
209,3
252,3
192,9
209,3
345,3
326,3
173,1
187
257,2
233
180,4
234
207,1
247,7
166,2

X2 X3
X4
4 2300 0
4 2100 1
3 2300 1
2 2200 1
2 2100 1
2 2100 0
6 2500 1
2 2100 1
3 2300 0
4 2400 1
4 2100 1
2 1700 1
6 2500 1
4 2100 1
2 2300 1
3 2100 1
4 2200 0
5 2300 0
3 2200 0
6 1900 0
4 2600 1
4 1900 0
5 2100 1
8 2600 1
6 2100 1
2 2200 0
2 1900 1
2 2100 1
3 2200 1
2 2000 1
2 1700 1
2 2000 1
5 2400 1
3 2000 0

X5
17
19
12
16
28
12
15
9
18
13
14
8
7
18
11
16
16
21
10
15
8
14
20
9
11
21
26
9
14
11
19
11
16
16

Docente: Ing. Ferly Urday Luna

X6
5
4
3
2
1
1
3
2
1
4
3
4
4
3
3
2
3
4
4
4
4
2
5
4
5
5
4
4
3
5
3
5
2
2

X7
1
0
0
0
0
1
1
1
0
1
1
1
1
1
0
1
0
0
1
1
1
1
0
1
1
1
0
1
1
0
1
1
1
1

X8
2
2
2
2,5
1,5
2
2
2,5
1,5
2
2
1,5
2
2
2
2
2
2,5
2
2
2
2,5
1,5
2
3
1,5
2
2
1,5
2
2
2
2
2

X1
177,1
182,7
216
312,1
199,8
273,2
206
232,2
198,3
205,1
175,6
307,8
269,2
224,8
171,6
216,8
192,6
236,4
172,4
251,4
246
147,4
176
228,4
166,5
189,4
312,1
289,8
269,9
154,3
222,1
209,7
190,9
254,3

X2 X3
X4
2 1900 1
4 2000 0
4 2300 1
6 2600 1
3 2100 1
5 2200 1
3 2100 0
3 1900 0
4 2100 0
3 2000 0
4 2300 0
3 2400 0
5 2200 1
3 2200 1
3 2000 0
3 2200 1
6 2200 0
5 2200 1
3 2200 1
3 1900 1
6 2300 1
6 1700 0
4 2200 1
3 2300 1
3 1600 0
4 2200 1
7 2400 1
6 2000 1
5 2200 0
2 2000 1
2 2100 1
5 2200 0
3 2200 0
4 2500 0

X5
10
14
19
7
19
16
9
16
19
20
24
21
8
17
16
15
14
20
23
12
7
12
15
17
19
24
13
21
11
13
9
13
18
15

X6
5
4
2
5
3
2
3
1
1
4
4
2
5
1
4
1
1
3
3
2
3
1
1
5
3
1
3
3
4
2
5
2
3
3

X7
1
0
0
1
1
1
0
1
1
0
1
1
1
1
0
1
0
1
0
1
1
0
1
1
0
1
1
1
1
0
1
1
1
1

Pgina 59 de 128

X8
2
2,5
2
2,5
2
3
1,5
1,5
1,5
2
2
3
3
2,5
2
2
2
2
2
2
3
2
2
1,5
2,5
2
3
3
2,5
2
2
2
2
2

Estadstica Aplicada

X1
207,5
209,7
294
176,3
294,3
224
125
236,8
164,1
217,8
192,2
125,9
220,9
294,5
244,6
199
240
263,2
188,1
243,7
221,5
175
253,2
155,4
186,7
179
188,3
227,1
173,6
188,3
310,8
293,7
179
188,3
227,1
173,6
188,3

X2 X3
X4
3 2100 0
4 2200 0
2 2100 1
2 2000 0
7 2400 1
3 1900 0
2 1900 1
4 2600 0
4 2300 1
3 2500 1
2 2400 1
2 2400 1
2 2300 0
6 2700 1
2 2300 1
3 2500 0
4 2600 1
4 2300 1
2 1900 1
6 2700 1
4 2300 1
2 2500 1
3 2300 1
4 2400 0
5 2500 0
3 2400 0
6 2100 0
4 2900 1
4 2100 0
5 2300 1
8 2900 1
6 2400 1
3 2400 1
6 2100 0
4 2900 1
4 2100 1
5 2300 1

X5
10
19
13
17
8
6
18
17
19
12
16
28
12
15
9
18
13
14
8
7
18
11
16
16
21
10
15
8
14
20
9
11
8
14
20
9
11

Docente: Ing. Ferly Urday Luna

X6
2
2
2
3
4
1
4
5
4
3
2
1
1
3
2
1
4
3
4
4
3
3
2
3
4
4
4
4
2
5
4
5
4
2
5
4
5

X7
0
1
1
0
1
1
0
1
0
0
0
0
1
1
1
0
1
1
1
1
1
0
1
0
0
1
1
1
1
0
1
1
1
1
0
1
1

X8
2
2
2,5
2
2
2
1,5
2
2
2
2,5
1,5
2
2
2,5
1,5
2
2
1,5
2
2
2
2
2
2,5
2
2
2
2,5
1,5
2
3
2
2,5
1,5
2
3

Pgina 60 de 128

Estadstica Aplicada

Donde:

Variable
X1
X2
X3
X4
X5
X6
X7
X8

Descripcin
Precio de venta (Miles de dlares)
Nmero de dormitorios
Superficie en pies cuadrados
Piscina (1=Si; 2=No)
Distancia desde el centro de la
ciudad
Distrito
Garaje(1=Si; 0=No)
Nmero de baos

Realizar lo siguiente:
a. Hallar la media y la desviacin estndar del precio de venta.
b. Utilizar la distribucin normal para calcular el porcentaje de casas que se
venden por ms de 280000 dlares. Comparar este resultado con el
porcentaje real. Da la distribucin normal una buena aproximacin de los
resultados reales?
c. Hallar la media y la desviacin estndar de la distancia al centro de la
ciudad.
d. Utilizar la distribucin normal para calcular el numero de casas que estn
dentro de las distancias de mas de 18000 pero menos de 22000 del
centro de la ciudad.. Comparar este resultado con el conteo real. Da la
distribucin normal una buena aproximacin de los resultados reales?

Docente: Ing. Ferly Urday Luna

Pgina 61 de 128

Estadstica Aplicada

Capitulo 7: Distribuciones muestrales

Distribuciones Muestrales

Teorema del limite central

Si X1, X2, ..., Xn son variables aleatorias (discretas o continuas) independientes ,con
idntico modelo de probabilidad, de valor medio y varianza 2 , entonces la distribucin
de la variable

se aproxima a la de una variable normal tipificada N(0,1), mejorndose la calidad de la


aproximacin a medida que n aumenta.
Este resultado prueba que el estadstico o estimador media muestral

Con carcter general, o al menos en los modelos de probabilidad clsicos, se admite una
aproximacin aceptable al modelo normal siempre que n sea mayor o igual que 30, a
pesar de que esta cifra es insuficiente en determinados casos y excesiva en otros; por lo
que debemos ser cautelosos en su aplicacin.

Medias muestrales con reemplazamiento


a) La cantidad total de muestras que se pueden extraer esta dada por la relacin:

#Muestras=Nn
Donde:

N = Tamao de la poblacin

Docente: Ing. Ferly Urday Luna

Pgina 62 de 128

Estadstica Aplicada

n = Tamao de la muestra

b) La media de todas la medias muestrales es igual a la media de la poblacin.

X = E X =
c) La varianza de la medias mustrales es igual a la varianza poblacional dividido por el
tamao de la muestra.

X2 = Var X =

2
n

d) El valor de z es:

Z=

N( 0;1 )

n
Medias muestrales sin reemplazamiento

a) La cantidad total de muestras que se pueden extraer esta dada por la relacin:

#Muestras=CNn=
Donde:

N!
n!(N-n)!

N = Tamao de la poblacin
n = Tamao de la muestra

b) La media de todas la medias muestrales es igual a la media de la poblacin.

X = E X =
c) La varianza de la medias muestrales es igual a la varianza poblacional dividido por el
tamao de la muestra, todo por el factor de correccin de poblacin finita.

= Var X =
2
X

2 N n

n N 1

d) El valor de z es:

Z=

X
N( 0;1 )
N n
n N 1

Como consecuencia de la distribucin muestral de medias se analizara para la diferencia de


medias, para la distribucin muestral de proporciones y para la diferencia de proporciones
cuando 2 = conocida y n >30.

Distribucin muestral de medias

Z=

N( 0;1 )

n
Docente: Ing. Ferly Urday Luna

Z=

X
N( 0;1 )
N n
n N 1
Pgina 63 de 128

Estadstica Aplicada

Distribucin muestral de la diferencia de medias

Z=

( x A xB ) ( A B )

2
A

2
B

N( 0;1 )

Distribucin muestral de proporciones

p p
N( 0;1 )
pq
n

Z=

Z=

p p
N( 0;1 )
pq N n

n N 1

Se debe usar el factor de correccin de variable discreta, que es ( n), para que las
aproximaciones de la probabilidad sean mas precisas.

Distribucin muestral de la diferencia de proporciones.

Z=

( p A pB ) ( p A pB )
N( 0;1 )
p A q A pB qB

nA
nB

Tamao de Muestra

zs
n=

z
n = p( 1 p )
E

Intervalos de confianza
Estimacin para la media con varianza poblacional conocida
Cuando n 5% de
N

Nn
= x z /2

= x z /2
n
n N 1
Estimacin para la media con varianza poblacional desconocida
a) Muestras de tamao inferior o igual a 30 (n 30)

= x t / 2 ;( n 1 )

S
n

b) Muestras de tamao superior a 30 (n > 30)

S
n
Intervalo de confianza para la varianza de una poblacin normal
= x z / 2

I=

( n 1)S2 ( n 1)S2
, 2
2 / 2
1 / 2

Docente: Ing. Ferly Urday Luna

Pgina 64 de 128

Estadstica Aplicada

Intervalo de confianza para la razn de dos varianzas poblacionales normales

I=

S 22
1
S 22

,
F / 2 ( n 1 1, n 2 1)
S12 F / 2 ( n 2 1, n 1 1) S12

Intervalo de confianza para la diferencia entre dos medias


a) Cuando las varianzas son conocidas

I = ( X1 X 2 ) Z / 2

12 22
+
n1 n 2

b) Cuando las varianzas son desconocidas


Caso I: (n1 + n2 30) y varianzas poblacionales desconocidas pero iguales.

1
1
I = ( X1 X 2 ) T / 2 S 2p +
n1 n 2

S 2p =

( n 1 1)S12 + ( n 2 1)S 22
n1 + n 2 2

Caso II: (n1 + n2 30) y varianzas poblacionales desconocidas y distintas.


2

I = ( X1 X 2 ) T / 2 (g )

S12 S22
n + n
2
g = 12
2
2
2
S1
S22
n

1 + n2
n1 + 1 n 2 + 1

12 22
+
n1 n 2

Caso III: (n1 + n2 > 30) y varianzas poblacionales desconocidas.

I = ( X1 X 2 ) Z / 2

S12 S 22
+
n1 n 2

Intervalo de confianza para una proporcin

p = p z / 2

pq
n

p = p z / 2

pq
n

Nn
N 1

Intervalo de confianza para la diferencia entre dos proporciones poblacionales.


I = ( p1 p 2 ) z / 2

Docente: Ing. Ferly Urday Luna

p1q 1 p 2 q 2
+
n1
n2

Pgina 65 de 128

Estadstica Aplicada

Ejercicios Propuestos
1. Consideremos una poblacin constituida por 5 proyectos desembolsados por un
banco cuyos montos son 500; 600; 700; 700 y 800 (miles de nuevos soles)
respectivamente. Seleccionando con y sin reemplazamiento todas las muestras
posibles de tamao 2, determine la media y la varianza de la distribucin
muestral de la estadstica X .
2. Sea P = {300; 305; 308; 310; 310; 312; 312; 315; 318; 320}
a. Si se extrae una m.a. de tamao 4 sin reemplazamiento. Hallar la media y la
varianza de la estadstica X .
b. Si se selecciona una m.a. de tamao 4 con reemplazamiento. Calcular
P(310 X 313).
3. Las alturas de 5000 estudiantes son normalmente distribuidas con media 172
cm. y desviacin estndar de 7,5 cm. Si fueron obtenidas 100 muestras con 36
estudiantes cada una, en cuantas muestras se puede esperar que la media
muestral se encuentre (Con y sin reemplazamiento y compare los resultados)
a) Entre 169 y 174.
b) Superior a 170.
4. Los pesos de 1500 cojinetes de bolas se distribuyen normalmente con media de
22,40 onzas y desviacin estndar de 0.048 onzas. Si se extraen 300 muestras
de tamao 36 de esta poblacin, determinar la media esperada y la desviacin
estndar de la distribucin muestral de medias si el muestreo se hace:
a) Con remplazamiento
b) Sin remplazamiento
5. Unos focos para can multimedia tienen una vida media de 800 horas y una
desviacin estndar de 60. Calcule la probabilidad de que la vida media de una
muestra aleatoria de 49 focos, tomada del grupo sea de:
a) Entre 790 y 810 h.
b) Menor que 785 h.
c) Mayor que 820 h.
6. Una empresa elctrica fabrica focos que tienen una duracin que se distribuye
aproximadamente en forma normal, con media de 800 horas y desviacin
estndar de 40 horas. Encuentre la probabilidad de que una muestra aleatoria de
16 focos tenga una vida promedio de menos de 775 horas.

Distribucin Muestral de Proporciones

7. Un encuestador poltico efecta un anlisis de los resultados de la muestra para


hacer un pronstico para la eleccin. Supngase que se trata de una eleccin
con dos candidatos. Si un candidato especfico recibe cuando menos 52% de los
votos en la muestra, entonces se pronosticara que ese candidato ser el ganador
de la eleccin. Si se selecciona una muestra aleatoria de 600 votantes. Cual ser
la probabilidad de que se pronostique como ganador a ese candidato cuando,

Docente: Ing. Ferly Urday Luna

Pgina 66 de 128

Estadstica Aplicada

a) El % real de sus votos es de 50.3%


b) El % real de sus votos es de 55%
8. Un proveedor de fuentes de 500W para case, determina a travs de pruebas que el 4%
de fuentes son defectuosas. El proveedor vende lotes de 150 fuentes c/u con la garanta
de que el lote contiene 92% de fuentes no defectuosas. Cul es la probabilidad de que
un lote no satisfaga la garanta?
9. Se sabe que la verdadera proporcin de los componentes defectuosos fabricadas por
una firma es de 4%, y encuentre la probabilidad de que una muestra aleatoria de tamao
60 tenga:
a) Menos del 3% de los componentes defectuosos.
b) Ms del 1% pero menos del 5% de partes defectuosas.
Distribucin Muestral de Diferencia de Medias
10. Una muestra aleatoria de 50 casas en alquiler del distrito de JLByR, produjo una renta
mensual promedio de $ 360. Se calcul una renta mensual promedio de $ 370 en base a
una m.a. de 45 casas del distrito de Yananhuara. Supongamos que no hay ninguna
diferencia entre los dos distritos respecto a las rentas mensuales promedio de las casas.
Cul es la probabilidad de observar una diferencia entre medias muestrales tan grande
o mas grande que la que se acaba de anotar si se supone que = 25 para ambos
distritos?
11. Las quemadoras de DVD del fabricante A tienen una vida media de 1400 horas de
quemado con una = 200h mientras que la vida promedio de las quemadoras del
fabricante B es de 1200h con una = 100h. Si se prueban m.a. de 125 quemadoras de
cada marca. Cual es la probabilidad de que las quemadoras de la marca A tengan una
vida media de por lo menos:
a) 160 horas mas que las quemadoras de la marca B
b) 240 horas mas que las quemadoras de la marca B
12. Se estima que una poblacin tiene una desviacin estndar de 10. Ha de evaluarse la
media de la poblacin dentro de 2, con un nivel de confianza de 95%. Qu tamao se
requiere para la muestra?
13. Se quiere estimar la media poblacional dentro de 5, con un nivel de confianza de 99%.
La desviacin estndar de la poblacin se determina que es 15. Qu tamao debe
tener la muestra?
14. El valor de la proporcin de poblacin ha de estar entre 0.05, con un nivel de confianza
de 95%. El mejor clculo de la proporcin de la poblacin es 0.15. Qu tamao se
requiere para la muestra?
15. Extrada una muestra de 30 piezas, dio los siguientes pesos:
250

265

267

269

271

275

277

281

283

284.

287

289

291

293

293

298

301

303

306

307.

307

309

311

315

319

322

324

328

335

339.

Docente: Ing. Ferly Urday Luna

Pgina 67 de 128

Estadstica Aplicada

Por medio de la construccin de intervalo de confianza, responder si sta


muestra satisface la especificacin por la cual el peso medio debe ser 300kgr,
Use =5%. Calcular l intervalo de confianza para la varianza.

Docente: Ing. Ferly Urday Luna

Pgina 68 de 128

Estadstica Aplicada

Capitulo 8: Pruebas de hiptesis

Pruebas de Hiptesis

Hiptesis estadstica

Una hiptesis estadstica es una proposicin o supuesto sobre los parmetros de una
o ms poblaciones.
Hiptesis nula: La hiptesis nula, representada por H0, es la afirmacin sobre una o
ms caractersticas de la poblacin que al inicio se supone cierta (es decir, la creencia
a priori). Es la hiptesis aceptada provisionalmente como verdadera y cuya validez ser
sometida a comprobacin experimental. La hiptesis nula siempre debe contener el
signo igual.
Hiptesis alternativa: La hiptesis alternativa, representada por H1 HA, es la
afirmacin contradictoria a H0, y sta es la hiptesis del investigador. La hiptesis
alternativa se acepta en caso que la hiptesis nula sea rechazada.
Las hiptesis se enuncian segn:
1)
2)
3)

H0: = 0
H0: 0
H0: 0

H1: 0
H1: > 0
H1: < 0

Tipos de pruebas de hiptesis o de ensayo y regin de aceptacin

Los diferentes tipos que se analizaran, sern:


Bilateral o prueba de dos colas: El investigador desea comprobar la hiptesis de
un cambio en el parmetro. El nivel de significancia se divide en dos y existen dos
regiones de rechazo.
Ensayo de hiptesis:
H0: = 0
H1: 0

= 0

Docente: Ing. Ferly Urday Luna

Pgina 69 de 128

Estadstica Aplicada

Unilateral de cola a la derecha: El investigador desea comprobar la hiptesis


de un aumento en el parmetro, en este caso el nivel de significancia se carga
todo hacia el lado derecho, para definir las regiones de aceptacin y de
rechazo.
H0: = 0
H1: > 0

H0: = 0

Unilateral de cola a la izquierda: El investigador desea comprobar la


hiptesis de una disminucin en el parmetro, en este caso el nivel de
significancia se carga todo hacia el lado izquierdo, para definir las regiones de
aceptacin y de rechazo.
H0: = 0
H1: < 0

H0: = 0

Errores Tipo I y Tipo II


Decisin
Rechazar H0
Aceptar H0

H0 Verdadera

H0 Falsa

Error Tipo I
Probabilidad (a)
Decisin Correcta
Probabilidad (1-)

Decisin Correcta
Probabilidad (1-)
Error Tipo II
Probabilidad ()

Nivel de significancia
Se denomina nivel de significancia de una prueba de hiptesis a la probabilidad de
cometer un error tipo I (). Tambin se le conoce como nivel de riesgo.

Potencia de una prueba


La potencia de una prueba es la probabilidad de tomar la decisin acertada de
rechazar H0, cuando esta es falsa o de aceptar H1 cuando esta es verdadera. Esta
representada por: 1-.

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 70 de 128

Estadstica Aplicada

Procedimiento para la elaboracin de una prueba de hiptesis.


a) Formular la hiptesis nula H0: = 0 y la hiptesis alternativa adecuada.
H1: > 0
H1: < 0
H1: 0
b) Especificar el tamao a del nivel de significacin.
c) Seleccionar la estadstica apropiada a usar en la prueba.
d) Establecer la regla de decisin, determinando la regin crtica de la prueba.
e) Calcular el valor del estadstico de la prueba a partir de los datos de la muestra.
f) Tomar la decisin de rechazar la hiptesis H0 si el valor de la estadstica de la
prueba est en la regin crtica o de rechazo. En caso contrario, no rechazar H0.

Muestras pequeas
Distribucin Chi cuadrado

( n 1) S 2

~ n21

v = n -1 Grados de libertad.

Distribucin t de student

Esta dada en honor a W.S. Gosset, y se utiliza cuando no se conoce la


varianza poblacional.

T=

X
~ t ( n 1)
S
n

Distribucin F de Fisher Snedecor

La variable aleatoria F se define como el cociente de dos variables aleatorias


ji-cuadradas independientes, cada una dividida entre sus respectivos grados
de libertad. Esto es,

S12
F=

S 22

12

~ F ( n1 1, n2 1)

S 2 2 S
F = 12 22 = 1
S2 1 S2

~ F ( n1 1, n2 1)

22

Para la prueba de hiptesis, se da por cierta la H0, de manera inicial,


entonces al ser las varianzas poblacionales iguales, su divisin da 1, por lo
tanto la formula queda as:

S12
F = 2 ~ F( r1 ;r2 )
S2
Resolver los siguientes problemas sobre Pruebas de Hiptesis
Una media
1. Un abastecedor de pollos a una cadena de polleras, afirma que sus pollos tienen un
peso promedio de 1,655 kg (peso ideal para el negocio). El dueo de una de estas

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 71 de 128

Estadstica Aplicada

polleras toma una muestra aleatoria de 50 pollos con la finalidad de comprobar la


afirmacin del proveedor. La muestra arrojo una media de 1,698 kg con una
desviacin tpica de 0,185 kg. A un nivel de significacin de 0,01. Podemos aceptar
la afirmacin del proveedor?
2. Una muestra aleatoria de 100 muertes registradas en un pas americano el ao
pasado muestra una vida promedio de 71.8 aos. Suponga una desviacin estndar
poblacional de 8.9 aos, esto parece indicar que la vida media hoy en da es mayor
que 70 aos? Utilice un nivel de significancia de 0.05.
3. Una empresa elctrica fabrica focos que tienen una duracin que se distribuye de
forma aproximadamente normal con una media de 800 horas y una desviacin
estndar de 40 horas. Si una muestra aleatoria de 30 focos tiene una duracin
promedio de 788 horas, muestran los datos suficiente evidencia para decir que la
duracin media ha cambiado? Utilice un nivel de significancia del 0.04.
4. Una muestra aleatoria de 64 bolsas de palomitas de maz pesan, en promedio 5.23
onzas con una desviacin estndar de 0.24 onzas. Pruebe la hiptesis de que = 5.5
onzas contra al hiptesis alternativa, < 5.5 onzas en el nivel de significancia de
0.05.
5. La asociacin de los propietarios de industrias metalrgicas estn muy preocupadas
por el tiempo perdido en accidentes de trabajo, cuya media, en los ltimos tiempos, a
sido del orden de 60 horas/hombre por ao y desviacin estndar de 20
horas/hombre . Se probo un programa de prevencin de accidentes y, despus del
mismo, se tom una m.a. de 9 industrias y se determino el numero de horas
/hombres perdida por accidentes , que fue de 50 horas usted dira , al nivel de 5%,
que hay evidencia de mejora ?
6. El salario promedio de los empleados de las industrias siderrgicas es de 2.5 salarios
mnimos, con una desviacin estndar de 0.5 salarios mnimos. Si una firma
particular tiene 49 empleados con un salario medio de 2.3 salarios mnimos,
podemos afirmar que esta industria paga salarios inferiores?
Diferencia de medias
7. Una muestra de 65 observaciones se selecciono de una poblacin. La media de la
muestra es 2.67 y la desviacin estndar 0.75. Una muestra de 50 observaciones se
toma de una segunda poblacin. La media de la muestra es 2.59 y la desviacin
estndar 0.66. Efectu la siguiente prueba de hiptesis utilizando el nivel de
significancia de 0.08.
H1: 1 > 2
H0: 1 2
a) Es esta una prueba de una o de dos colas?
b) Enuncie la regla de decisin
c) Calcule el valor estadstico de prueba
d) Cul es su decisin respecto H0?
e) Cul es el valor p?
8. Una muestra de 100 focos de un fabricante A dio una duracin media de 1190 horas
con una desviacin tpica de 90 horas. Otra muestra de 75 focos de un fabricante B
dio una duracin media de 1230 horas con una desviacin tpica de 120 horas. Hay

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 72 de 128

Estadstica Aplicada

diferencias entre las duraciones medias de los focos de los dos fabricantes a un nivel
de 0,05?
9. Un diseador de productos est interesado en reducir el tiempo de secado de una
pintura tapaporos. Se prueban dos frmulas de pintura; la frmula 1 tiene el contenido
qumico estndar, y la frmula 2 tiene un nuevo ingrediente secante que debe reducir
el tiempo de secado. De la experiencia se sabe que la desviacin estndar del tiempo
de secado es ocho minutos, y esta variabilidad inherente no debe verse afectada por
la adicin del nuevo ingrediente. Se pintan diez especmenes con la frmula 1, y otros
diez con la frmula 2. Los dos tiempos promedio de secado muestrales son 121 min y
112 min respectivamente. A qu conclusiones puede llegar el diseador del
producto sobre la eficacia del nuevo ingrediente, utilizando = 0.05?
10. Se utilizan dos mquinas para llenar botellas de plstico con un volumen neto de 16.0
onzas. Las distribuciones de los volmenes de llenado pueden suponerse normales,
con desviaciones estndar 1= 0.020 y 2 = 0.025 onzas. Un miembro del grupo de
ingeniera de calidad sospecha que el volumen neto de llenado de ambas mquinas
es el mismo, sin importar si ste es o no de 16 onzas. De cada mquina se toma una
muestra aleatoria de 10 botellas. Se encuentra el ingeniero en lo correcto? Utilice
= 0.05

16.03
16.04
16.05
16.05
16.02

MAQUINA 1
16.01
15.96
15.98
16.02
15.99

16.02
15.97
15.96
16.01
15.99

MAQUINA 2
16.03
16.04
16.02
16.01
16.00

11. Existen dos tipos de plstico apropiados para su uso por un fabricante de
componentes electrnicos. La tensin de ruptura de ese plstico es un parmetro
importante . Se sabe que 1=2= 1.0 psi. De una muestra aleatoria de tamao 10 y 12
para cada plstico respectivamente, se tiene una media de 162.5 para el plstico 1 y
de 155 para el plstico 2. La compaa no adoptar el plstico 1 a menos que la
tensin de ruptura de ste exceda a la del plstico 2 al menos por 10 psi. Con base a
la informacin contenida en la muestra, la compaa deber utilizar el plstico 1?
Utilice = 0.05 para llegar a una decisin.
Una proporcin
12. Un fabricante afirma que al menos el 95% de los equipos que produce est de
acuerdo con las especificaciones solicitadas. El anlisis de una muestra de 200
equipos revela que 18 eran defectuosos. Contrastar la afirmacin del fabricante a un
nivel de significacin de 5%.
13. Un artculo reciente en la publicacin USA Today report que slo hay un empleo
disponible para uno de cada tres egresados de universidad. Las principales razones
aportadas fueron que existe una sobrepoblacin de estos ltimos, y una economa
dbil. Suponga que una encuesta entre 200 egresados recientes de la institucin a la
que usted asiste, revel que 80 tenan empleo. Al nivel de significancia de 0.02, se

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 73 de 128

Estadstica Aplicada

puede concluir que tienen trabajo una proporcin mayor de egresados de tal
institucin?
14. Un fabricante garantiza que 90% de los equipos que da a una fabrica estn de
acuerdo con las especificaciones exigidas. Examinando una muestra de 200
unidades de ese equipo se encontr 25 defectuosos. Esta evidencia apoya o no la
afirmacin del fabricante?
15. Una investigacin en la Universidad de Toledo indica que 50% de los estudiantes
cambian su rea principal de especializacin despus del primer ao en el programa
de estudios. Una muestra aleatoria de 100 alumnos en la Escuela de Administracin
revel que 43 de ellos cambi dicha rea despus del lapso mencionado. Ha habido
un decrecimiento significativo en la proporcin de estudiantes que cambian su rea
de especializacin despus del primer ao en el programa? Realice la prueba al nivel
de significancia de 0.05.
16. Un constructor afirma que se instalan bombas de calor en 70% de todas las casas
que se construyen hoy en da en la ciudad de Richmond. Estara de acuerdo con
esta afirmacin si una investigacin de casas nuevas en esta ciudad muestra que 8
de 15 tienen instaladas bombas de calor? Utilice un nivel de significancia de 0.10.
17. Un fabricante de semiconductores produce controladores que se emplean en
aplicaciones de motores automovilsticos. El cliente requiere que la fraccin de
controladores defectuosos en uno de los pasos de manufactura crticos no sea mayor
que 0.05, y que el fabricante demuestre esta caracterstica del proceso de fabricacin
con este nivel de calidad, utilizando = 0.05. El fabricante de semiconductores toma
una muestra aleatoria de 200 dispositivos y encuentra que cuatro de ellos son
defectuosos. El fabricante puede demostrar al cliente la calidad del proceso?
18. Una estacin de televisin afirma que 60% de los televisores estaban sintonizado su
programa especial del ultimo domingo. Una red competidores desea contestar esa
afirmacin del ultimo domingo. Una red m.a. de 200 familias.Cual debe ser el
procedimiento adoptado para juzgar la veracidad de las afirmacin de la estacin?
Diferencia de proporciones
19. Dos grupos A y B, de 100 personas cada uno, padecen la misma enfermedad. Se
suministra un medicamento al grupo A pero no al B, por lo dems todas las
condiciones han sido las mismas. Despus de un tiempo se observa que 75 personas
del grupo A y 65 personas del grupo B se recuperan de la enfermedad. Contrastar la
hiptesis, al nivel de significacin del 5%, de que el medicamento cura dicha
enfermedad.
20. Se evalan dos tipos diferentes de soluciones para pulir, para su posible uso en una
operacin de pulido en la fabricacin de lentes intraoculares utilizados en el ojo
humano despus de una ciruga de cataratas. Se pulen 300 lentes con la primera
solucin y, de stos, 253 no presentaron defectos inducidos por el pulido. Despus se
pulen otros 300 lentes con la segunda solucin, de los cuales 196 resultan
satisfactorios. Existe alguna razn para creer que las dos soluciones para pulir son
diferentes? Utilice = 0.01

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 74 de 128

Estadstica Aplicada

21. Se tomar el voto entre los residentes de una ciudad y el condado circundante para
determinar si se debe construir una planta qumica propuesta. El lugar de
construccin est dentro de los lmites de la ciudad y por esta razn muchos votantes
del condado consideran que la propuesta pasar debido a la gran proporcin de
votantes que favorecen la construccin. Para determinar si hay una diferencia
significativa en la proporcin de votantes de la ciudad y votantes del condado que
favorecen la propuesta, se realiza una encuesta. Si 120 de 200 votantes de la ciudad
favorecen la propuesta y 240 de 500 residentes del condado tambin lo hacen,
estara de acuerdo en que la proporcin de votantes de la ciudad que favorecen la
propuesta es ms alto que la proporcin de votantes del condado? Utilice un nivel de
significancia de 0.025.
22. Los administradores de los hospitales en muchos casos encargan de obtener y
calcular algunas estadsticas que son de suma importancia para los mdicos y para
los encargados de decidir en el hospital. En los registros del hospital Honorio Delgado
se tiene que 80 hombres de una muestra de 900 hombres y 51 mujeres de una
muestra de 800 mujeres ingresaron al hospital por causa de alguna enfermedad
Venrea. Puede o no considerarse que estos datos presentan evidencia suficiente
en el sentido de que existe una mayor tasa de afecciones venreas en los hombres
que ingresan al hospital Honorio Delgado?.
23. La organizacin Roper realiz encuestas idnticas en 1977 y 1997, Una pregunta
formulada a mujeres fue: "La mayora de los hombres son bsicamente amables,
corteses y considerados?" El estudio de 1977 revel que de 3 000 mujeres,
interrogadas, 2010 contestaron afirmativamente. En 1997 el resultado fue que 1 530
de las 3000 mujeres en la encuesta consideraron que los varones eran amables,
corteses y considerados. Al nivel de significancia de 0.05, puede concluirse que las
fminas creen que los hombres son menos amables, corteses y considerados en
1997, comparados con los de 1977?
Los siguientes problemas corresponden a muestras pequeas
Problemas introductorios
24. Si X ~ (223) , encontrar:
a)
b)
c)
d)

P(X35.172)
P(X19.021)
P(13.091X38.968)
P(X30)

25. Si

X ~ (213) ,

hallar Xo tal que P(XXo) = 0.80

26. Si

X ~ (28) ,

hallar Xo tal que P(XXo) = 0.15

27. Si

X ~ (210 ) ,

hallar a y b tal que P(a<X<b) = 0.94 y P(X>b) = 0.04

28. Encuentre la probabilidad de que en una m.a. de 25 observaciones tomada de una


poblacin normal con varianza 2=9 tenga una varianza muestral de S2 entre 4.071 y
15.10125

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 75 de 128

Estadstica Aplicada

29. Encuentre la probabilidad de que en una m.a. de 19 observaciones tomada de una


poblacin normal con varianza 2=16 tenga una varianza muestral de S2 entre 11 y
19.
30. Suponga que los tiempos requeridos por un cierto autobs para alcanzar uno de sus
destinos en una ciudad grande forman una distribucin normal con =1 minuto. Si se
elige al azar una m.a. de 17 tiempos, encuentre la probabilidad de que la varianza
muestral sea mayor que 2.
31. Si X~t(18). Hallar
a)
b)
c)
d)
e)

P(X2.101)
P(X-2.878)
P(0.688X2.214)
P(-0.534X3.610)
P(X2)

32. Si X~t(10). Hallar la abscisa c, tal que:


a) P(Xc)=0.15
b) P(Xc)=0.98
c) P(|X|c)=0.95
d) P(Xc)=0.92
33. Si la v.a. X~F(9;20), hallar:
a) P(X1.96)
b) P(X2.39)
c) P(2.84X3.96)
d) P(X2)
34. Si X~F(5;4), hallar b tal que p(Xb)=0.08
35. Si X~F(22,12), hallar b tal que p(Xb)=0.05
Problemas de pruebas de hiptesis
Distribucin t de Student
36. El Instituto Elctrico Edison publica cifras del nmero anual de Kilowatt-hora que
gastan varios aparatos elctrodomsticos. Se afirma que una aspiradora gasta un
promedio de 46 kilowatt-hora al ao. Si una muestra aleatoria de 12 hogares que se
incluye en un estudio planeado indica que las aspiradoras gastan un promedio de 42
kilowatt-hora al ao con una desviacin estndar de11.9 kilowatt-hora, esto sugiere
con un nivel de significancia de 0.05 que las aspiradoras gastan, en promedio, menos
de 46 kilowatt-hora anualmente? Suponga que la poblacin de kilowatt-hora es
normal.
37. Los pesos en libras de una muestra aleatoria de bebs de seis meses son: 14.6,
12.5, 15.3, 16.1, 14.4, 12.9, 13.7 y 14.9. Haga una prueba con nivel de 5% de
significancia para determinar si el peso promedio de todos los bebs de seis meses
es distinto a 14 libras, suponga que sus pesos se distribuyen normalmente
38. Pruebe la hiptesis de que el contenido promedio de los envases de un lubricante en
particular es de 10 litros si los contenidos de una muestra aleatoria de 10 envases
son: 10.2, 9.7, 10.1, 10.3, 10.1, 9.8, 9.9, 10.4, 10.3 y 9.8 litros. Utilice un nivel de
significancia de 0.01 y suponga que la distribucin del contenido es normal.

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 76 de 128

Estadstica Aplicada

39. De acuerdo con un estudio diettico una ingesta alta de sodio se puede relacionar
con lceras, cncer de estmago y migraa. El requerimiento humano de sal es de
slo 220 miligramos por da, el cual se rebasa en la mayora de las porciones
individuales de cereales listos para comerse. Si una muestra aleatoria de 20
porciones similares de Special K tiene un contenido medio de 244 miligramos de
sodio y una desviacin estndar de 24.5 miligramos esto sugiere, en el nivel de
significancia del 0.05, que el contenido promedio de sodio para porciones individuales
de Special K es mayor que 220 miligramos? Suponga que la distribucin de
contenidos de sodio es normal.
Distribucin ji cuadrada.
40. Una compaa que produce una parte maquinada para un motor, afirma que tiene
una varianza de dimetro no mayor a 0.0002 pulgadas. Una muestra aleatoria de 10
de dichas partes dio una varianza de muestra S2 = 0.0003. Si se supone que las
medidas del dimetro se distribuyen en forma normal, hay evidencia para refutar lo
que afirma el proveedor? Use = 0.05.
41. El contenido de azcar del almbar de los duraznos enlatados tiene una distribucin
normal, donde se cree que la varianza es 2 = 18 mg2. Se toma una muestra de 10
latas dieron una desviacin estndar de 4.8 mg. Muestran estos datos suficiente
evidencia para decir que la varianza ha cambiado?. Use un = 0.05
42. Un fabricante de cierto tipo de acero especial afirma que su producto tiene un severo
servicio de calidad, que es traducido en la desviacin estndar de la resistencia a la
tensin , el cual no es mayor que 5 kgs por cm2. Un comprador, deseando verificar la
veracidad de la afirmacin, tomo una muestra de 11 varillas y los someti a una
2
prueba de tensin. Los resultados fueron los siguientes: X = 263 y S = 48 . Estos
resultados traen alguna evidencia contra la afirmacin del fabricante.

43. Una mquina automtica empacadora de azcar se usa para llenar bolsas de 5
libras. Una muestra aleatoria de 15 bolsas indic una media de 4.94 libras y una
desviacin estndar de 0.02; si se supone que la distribucin de los pesos es normal,
y de la experiencia pasada se sabe que la desviacin estndar de los pesos es de
0.015 libras, muestran los datos suficiente evidencia para decir que hubo un
aumento en la variabilidad?. Haga la prueba con un nivel de significancia del 0.05 y
calcule el valor de P.
44. La Metro Bus Company en una ciudad grande afirma tener una varianza en los
tiempos de llegada de sus carros, medidos en minutos, a las distintas paradas, de no
ms de 5; un ejecutivo de la compaa orden tomar los tiempos de llegada en varias
paradas para determinar si los conductores estn cumpliendo con sus horarios. Si
una muestra de 12 llegadas a una parada particular produjo una varianza de 5.7 y se
supone que los tiempos de llegada se distribuyen normalmente, muestran estos
datos suficiente evidencia para contradecir a la compaa? Use un nivel de
significancia de 0.10 y calcule el valor de P.
45. Un aserradero, produce mangos para lampas, asegurando que su longitud siguen
una distribucin normal con una desviacin estndar de 1 cm. Una muestra de 12 de
estos mangos ha dado las siguientes medidas:
61.50
62.10

62.40
60.96

Docente:
Docente: Ing. Ferly Urday Luna

63.78
62.88

62.16
63.76

62.07
59.83

61.11
64.05

Pgina 77 de 128

Estadstica Aplicada

Es correcta la afirmacin del aserradero?


46. Los dimetros en cm. de las piezas que produce un torno, tienen una distribucin
normal con desviacin estndar de 0.25. En un reciente control a una muestra
aleatoria de 20 piezas dio una desviacin estndar de 0.32. Es el aparente
incremento de variabilidad significativo?
47. Los salarios de los trabajadores nombrados de la empresa El alamo SAC, tienen una
distribucin normal y el gerente de personal afirma que tienen una desviacin
estndar de 150 nuevos soles. El directorio de dicha empresa ha ordenado una
auditoria para corroborar dicha afirmacin, para lo cual se ha tomado una muestra de
sueldos, arrojando los siguientes resultados:
1250
1230
990

1380
1470
1350

1650
1100
1275

1050
1270
1400

1450
1480
1360

1500
1075
1430

A un nivel de significacin del 5%, se puede afirmar que la variacin


sueldos es mayor de la que se piensa?

de los

Distribucin F Fisher
48. En su incansable bsqueda de un sistema de llenado adecuado, cierta empresa
prueba dos mquinas. Robo-fill se usa para llenar 16 tarros y da una desviacin
estndar de 1.9 onzas en el llenado. Con Automat-fill se llenan 21 frascos que dan
una desviacin estndar de 2.1 onzas. Si la empresa tiene que elegir uno de estos
sistemas en funcin de la uniformidad de llenado. Cul deber seleccionar? Use un
= 0.10.
49. Una industria lechera desea adquirir una maquina embotelladora y tomo a
consideracin dos modelos distintos, el modelo A y el modelo B. Suponga que las
maquinas resultan bastantes parecidas de aproximadamente con el mismo costo con
el que el valor decisivo ser la variabilidad de la cantidad embotellada. (Se preferira
aquel modelo con menor variabilidad en la cantidad embotellada). Para demostrar
que la variabilidad de la maquina A es menor que la del modelo B un vendedor de la
compaa Consigue una muestra de 30 registros de embotellado del modelo A y una
muestra de 10 registros de la maquina B. Las varianzas mustrales fueron
S A2 = 0.027 y S B2 = 0.065 .proporcionan estos datos apoyo estadstico para la
suposicin del vendedor?
50. Una empresa empacadora de azcar est considerando una mquina nueva para
reemplazar su mquina actual. Los pesos de una muestra de 21 paquetes de 5 libras
empacados por la mquina vieja producen una varianza de 0.16, mientras que los
pesos de 20 paquetes de 5 libras empacados por la mquina nueva dan una varianza
de 0.09. En base a estos datos, aconsejara usted al gerente a comprar la mquina
nueva? Use un a = 0.05.
51. Un corredor de valores de la bolsa de lima estudia los porcentajes de rendimiento de
las empresas del sector minero y del sector financiero. Se sabe que las tasas de los
rendimientos tienen una distribucin normal. Dos muestras aleatorias de las tasas de

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 78 de 128

Estadstica Aplicada

8 empresas del sector minero (M) y de 6 empresas del sector financiero (F) han dado
los siguientes valores de rendimiento en porcentajes:
Sector M

17

23

25

18

24

20

Sector F

13

16

14

12

15

14

21

16

Con un nivel de significacin del 5%. Se puede concluir que hay ms variacin en
los valores del sector minero?
52. Los salarios en dlares del personal de las compaas A y B se distribuyen segn el
modelo de probabilidad con igual media. Para determinar cual de ellas tiene salarios
ms homogneos, se escogi una muestra aleatoria de 10 salarios de A y 9 de B,
resultando las varianzas 100 y 225 respectivamente.
En el nivel de 0.01, hay razn suficiente para decidir que en la compaa A los
salarios son mas homogneos?
53. El jefe de logstica de la empresa El Cardumen SRL tiene que escoger entre dos
marcas A y B de mquinas para su planta de produccin. El sabe que cada marca
tiene un tiempo de produccin por pieza cuya distribucin es normal. Se le permiti
probar ambas mquinas durante un periodo de prueba para luego escoger 10
tiempos al azar para cada una de ellas, resultando los siguientes tiempos en
segundos.
Mquina A

40

49

47

42

48

38

44

49

50

37

Mquina B

40

41

39

40

38

42

43

37

38

41

a) En el nivel de significacin del 0.05 y en una prueba bilateral, se podra concluir


que las varianzas poblacionales son iguales? Qu marca de mquina debera
adquirir?
b) Determine la probabilidad P de significacin unilateral.

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 79 de 128

Estadstica Aplicada

Practica dirigida de prueba de hiptesis para la diferencia de dos medias

Ejemplo Aplicativo Nro 1


Un corredor de valores de la bolsa de lima estudia los porcentajes de rendimiento de las
empresas del sector minero y del sector financiero. Se sabe que las tasas de los
rendimientos tienen una distribucin normal. Dos muestras aleatorias de las tasas de 8
empresas del sector minero (M) y de 6 empresas del sector financiero (F) han dado los
siguientes valores de rendimiento en porcentajes:
Sector M

17

23

25

18

24

20

Sector F

13

16

14

12

15

14

21

16

Qu sector empresarial presenta mayor rendimiento?


Solucin
Para resolver este problema se debe cumplir las siguientes condiciones:
a) Los datos provengan de poblaciones normales.
b) Los datos sean independientes.
c) Probar la igualdad de varianzas.
d) Probar la igualdad de medias.
En este ejemplo vamos a suponer que se cumplen las dos primeras condiciones, y
vamos a docimar las dos ltimas.
Primer paso
Prueba de hiptesis para la igualdad de varianzas.
Cuando se trata de una prueba de hiptesis para la igualdad de varianzas, se utiliza la
distribucin F de Fisher-Snedecor.
1) H0: M2 = F2
H1: M2 F2
2) Nivel de significancia: = 5%
3) Estadstica

S12
F = 2 ~ F( r1 ;r2 )
S2
4) Regla de decisin

2.5%
2.5%

0.19

6.85

6.85, se obtiene leyendo la tabla Fisher del 2.5% con 7 grados de libertad en el
numerador y 5 grados de libertad en el denominador.
0.19; se obtiene hallando la inversa del valor de la tabla Fisher de 2.5% con 5
grados de libertad en el numerador y 7 grados de libertad en el denominador.

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 80 de 128

Estadstica Aplicada

5) Clculos
Datos del Problema

0.19 =

1
5.29

M2 = 11.1428
F2 = 2
11.1428
2
= 5.57

FCal =
FCal

6) Decisin
Dado que el FCal = 5.57 RA, aceptamos H0 y rechazamos H1, por lo tanto
podemos concluir que las varianzas poblacionales del sector minero y
financiero son iguales.
Clculos con Statgraphics
a) Una vez introducidos los valores de las variables, se procede a ejecutar men
comparacin Dos muestras Comparacin de dos muestras, luego se
seleccionan las respectivas muestras en el cuadro de dialogo y se acepta, ver
los pasos para este procedimiento:

Se introducen los
valores de las
variables

Se configura el
cuadro de la
siguiente manera y
se presiona aceptar

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 81 de 128

Estadstica Aplicada

b) Luego se presiona el botn

, y se activa la siguiente opcin:

c) Finalmente se analiza el resultado:


Comparacin de Desviaciones Tpicas
----------------------------------Sector M
Sector F
-----------------------------------------------------------Desviacin Tpica
3.33809
1.41421
Varianza
11.1429
2.0
GL
7
5
Cociente de varianzas = 5.57143
95.0% Intervalos de Confianza
Desviacin Tpica deSector M: [2.20706;6.79393]
Desviacin Tpica deSector F: [0.882763;3.46852]
Cociente de varianzas: [0.812978;29.4463]
Contrastes F para comparar varianzas
Hiptesis nula: sigma1 = sigma2
(1) Hiptesis alt.: sigma1 <> sigma2
F = 5.57143
P-Valor = 0.0766501
El StatAdvisor
-------------Esta opcin ejecuta un F-test para comparar las varianzas de las
dos muestras. Tambin establece los intervalos de confianza o los
lmites para cada desviacin tpica y para el ratio de varianzas. De
particular inters est el intervalo de confianza para el ratio de las
varianzas, el cual se extiende desde 0.812978 hasta 29.4463. Dado que
el intervalo contiene el valor 1.0, no existe diferencia
estadsticamente significativa entre las desviaciones tpicas de las
dos muestras para un nivel de confianza del 95.0%.
Tambin puede utilizarse un F-test para probar una hiptesis
especfica sobre las desviaciones tpicas de las poblaciones de las
que proceden las dos muestras. En este caso, el test se ha realizado
para determinar si el ratio de las desviaciones tpicas son iguales
1.0 frente a la hiptesis alternativa en la que el ratio no es igual
1.0. Puesto que el p-valor calculado no es inferior a 0.05, no
podemos rechazar la hiptesis nula.
NOTA IMPORTANTE: los F-test y los intervalos de confianza mostrados
dependen de que las muestras procedan de distribuciones normales.
Para comprobar esta asuncin, seleccione Resumen Estadstico de la
lista de Opciones Tabulares y observe los valores de asimetra
estandarizada y curtosis estandarizada.

Lo mas importante aqu, es observar el valor de p = 7.67% > = 5%, lo que indica que
se acepta la hiptesis nula.

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 82 de 128

Estadstica Aplicada

Clculos con Excel


a) Primero se deben colocar los datos en una hoja de clculo.
b) Activar men herramientas Anlisis de datos Prueba F para varianzas de
dos muestras

c) Se configura el cuadro de dialogo de la siguiente manera:

Obsrvese que el valor de a ha sido colocado dividido entre 2, esto por que en el
Excel, para esta prueba, siempre se considera solo uno de los lados, ya sea el
izquierdo o el derecho, esto segn cual de las dos muestras tenga mayor o menor
varianza
d) Obtenindose los siguientes resultados:
Prueba F para varianzas de dos muestras

Media
Varianza
Observaciones
Grados de libertad
F
P(F<=f) una cola
Valor crtico para F (una cola)

Sector M
20.5
11.14285714
8
7
5.571428571
0.038324609
6.853075629

Sector F
14
2
6
5

e) Finalmente se analizan los resultados.


Observen que el valor F es menor que el Valor critico para F (una cola), y
que para hallar el valor de p, hay que multiplicar por 2 el valor P(F<=f) una cola
Por todo lo anterior, aceptamos H0 y rechamos H1.

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 83 de 128

Estadstica Aplicada

Si se tratase de una prueba con una sola cola, entonces los valores se leeran
directamente, sin hacer ningn cambio
Segundo Paso
Con la Prueba anterior se ha demostrado que las varianzas poblacionales son iguales,
pero desconocidas, entonces ahora se procede a elaborar una prueba de hiptesis
para la diferencia de medias.
Prueba de hiptesis para la diferencia de medias, con varianzas iguales
1) H0: M = F
H1: M F
2) = 5%
3) Estadstica.
Dado que las varianzas poblacionales resultaron ser iguales, se utiliza:

T=

X1 X 2
2
2
S C S C
+
n1 n2

t( n1 + n2 2 )

2
( n 1 )S1 + ( n2 1 )S 2
S C = 1
n1 + n2 2

4) Regla de decisin

2.5%

2.5%
-2.179

2.179

5) Clculos
Media Aritmtica
Varianza Muestral
Tamao de muestra

Sector Minero
Sector Financiero
20.5
14
11.14285714
2
8
6

 2C = (8-1)11.14285+(6-1)2
S
8+6-2
2
 C =7.33
S

TCal=

20.5-14
7.33 7.33
+
8
6

TCal=4.44
6) Decisin
Dado que TCal = 4.44 R.A., aceptamos H1 y rechazamos H0, por lo tanto los
rendimientos medios en las empresas del sector minero no son iguales a los de
las empresas del sector financiero.
Hasta este momento solo podemos decir que los rendimientos medios son diferentes
pero no sabemos en que sectores son mayores, para ello hacemos un
replanteamiento de las hiptesis. Para este replanteamiento se observa el signo del

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 84 de 128

Estadstica Aplicada

estadstico TCal dado que este es positivo, hay un fuerte indicio que el rendimiento en
las empresas del sector minero sea mayor al de las empresas del sector financiero.
Replanteando
1) H0: M F
H1: M > F
2) = 5%
3) Estadstica.
Dado que las varianzas poblacionales resultaron ser iguales, se utiliza:

T=

X1 X 2
2
C

2
C

S
S
+
n1 n2

2
( n 1 )S12 + ( n2 1 )S 22
S C = 1
n1 + n2 2

t( n1 + n2 2 )

4) Regla de decisin

5%

1.782

5) Clculos
Media Aritmtica
Varianza Muestral
Tamao de muestra

Sector Minero
Sector Financiero
20.5
14
11.14285714
2
8
6

 2C = (8-1)11.14285+(6-1)2
S
8+6-2
2
 C =7.33
S

TCal=

20.5-14
7.33 7.33
+
8
6

TCal=4.44
6) Decisin
Dado que TCal = 4.44 R.A., aceptamos H1 y rechazamos H0, por lo tanto el
rendimiento promedio de las empresas del sector minero son mayores al
rendimiento medio de las empresas del sector financiero.
Clculos con Statgraphics
Con el Statgraphics, se sigue el mismo procedimiento que para la prueba de hiptesis
para las varianzas, con la unica salvedad que al presionar el botn
escoger la siguiente opcin:

Docente:
Docente: Ing. Ferly Urday Luna

, se deb

Pgina 85 de 128

Estadstica Aplicada

Obtenindose as el siguiente resultado:


Comparacin de Medias
--------------------95.0% intervalo de confianza para la media de Sector M:
[17.7093,23.2907]
95.0% intervalo de confianza para la media de Sector F:
[12.5159,15.4841]
95.0% intervalos de confianza para la diferencia de medias:
suponiendo varianzas iguales: 6.5 +/- 3.18651
[3.31349,9.68651]

20.5

+/-

2.79072

14.0

+/-

1.48413

contrastes t de comparacin de medias


Hiptesis nula: media1 = media2
Hiptesis alt.: media1 <> media2
suponiendo varianzas iguales: t = 4.44446

P-Valor = 0.00080058

El StatAdvisor
-------------Esta opcin ejecuta el t-test para comparar las medias de las dos
muestras. Tambin establece los intervalos de confianza o los lmites
para cada media y para la diferencia entre las medias. De particular
inters est el intervalo de confianza para la diferencia entre las
medias, el cual se extiende desde 3.31349 hasta 9.68651. Dado que el
intervalo no contiene el valor 0.0, existe diferencia estadsticamente
significativa entre las medias de las dos muestras para un nivel de
confianza del 95.0%.
Tambin puede aplicarse un t-test para probar una hiptesis
especfica sobre la diferencia entre las medias de las poblaciones de
las que proceden las dos muestras. En este caso, el test se ha
realizado para determinar si la diferencia entre las dos medias es
igual a 0.0 frente a la hiptesis alternativa en la que la diferencia
no es igual 0.0. Puesto que el p-valor calculado es inferior a 0.05,
podemos rechazar la hiptesis nula en favor de la alternativa.
NOTA: estos resultados asumen la igualdad de varianzas en las dos
muestras. En este caso, esa asuncin parece ser razonable teniendo en
cuenta los resultados del F-test para comparar las desviaciones
tpicas. Puede ver los resultados de este test seleccionando
Comparacin de Desviaciones Tpicas del men Opciones Tabulares.

Se puede observar que el estadstico calculado tCal = 4.44 y que el valor de


p = 0.00080058; el que es mucho menor que a, por lo tanto se acepta la hiptesis
alternativa.

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 86 de 128

Estadstica Aplicada

Clculos con Excel


a) Primero se deben colocar los datos en una hoja de clculo.
b) Activar men herramientas Anlisis de datos Prueba t para dos muestras
suponiendo varianzas iguales.

c) Se configura el cuadro de dialogo de la siguiente manera:

d) Obtenindose los resultados siguientes:


Prueba t para dos muestras suponiendo varianzas iguales

Media
Varianza
Observaciones
Varianza agrupada
Diferencia hipottica de las medias
Grados de libertad
Estadstico t
P(T<=t) una cola
Valor crtico de t (una cola)
P(T<=t) dos colas
Valor crtico de t (dos colas)

Docente:
Docente: Ing. Ferly Urday Luna

Sector M
20.5
11.14285714
8
7.333333333
0
12
4.444462482
0.00040029
1.782287548
0.000800581
2.178812827

Sector F
14
2
6

Pgina 87 de 128

Estadstica Aplicada

Ejemplo Aplicativo Nro 2


Un corredor de valores de la bolsa de lima estudia los porcentajes de rendimiento de las
empresas del sector minero y del sector financiero. Se sabe que las tasas de los
rendimientos tienen una distribucin normal. Dos muestras aleatorias de las tasas de 8
empresas del sector minero (M) y de 6 empresas del sector financiero (F) han dado los
siguientes valores de rendimiento en porcentajes:
Sector M

17

23

25

18

24

20

Sector F

13

15

14

12

15

14

21

16

Qu sector empresarial presenta mayor rendimiento?


En este segundo ejemplo, lo nico que se ha hecho es cambiar la segunda
observacin del sector financiero de 16 por 15 y con este pequesimo cambio, la
prueba de igualdad de varianzas da como resultado:
1) H0: M2 = F2
H1: M2 F2
2) Nivel de significancia: = 5%
3) Estadstica

S12
F = 2 ~ F( r1 ;r2 )
S2
4) Regla de decisin

2.5%
2.5%

0.19

6.85

6.85, se obtiene leyendo la tabla Fisher del 2.5% con 7 grados de libertad en el
numerador y 5 grados de libertad en el denominador.
0.19; se obtiene hallando la inversa del valor de la tabla Fisher de 2.5% con 5
grados de libertad en el numerador y 7 grados de libertad en el denominador.

0.19 =

1
5.29

5) Clculos
Datos del Problema
M2 = 11.1428
F2 = 1.3667

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 88 de 128

Estadstica Aplicada

11.1428
1.3667
FCal = 8.1533
6) Decisin
Dado que el FCal = 8.15 RA, aceptamos H1 y rechazamos H0, por lo tanto
podemos concluir que las varianzas poblacionales del sector minero y
financiero son diferentes.
FCal =

Se deja al alumno el desarrollo de este ejercicio con el software respectivo.


Prueba de hiptesis para la diferencia de medias, con varianzas desiguales
1) H0: M = F
H1: M F
2) = 5%
3) Estadstica.
Dado que las varianzas poblacionales resultaron ser desiguales, se utiliza:

T=

X1 X 2
2
2
S 1 S 2
+
n1 n2

r, representa
el nmero
de grados
de libertad

S 12 S 22
+
n1 n2

r=
2
2
2
S 1 S 22
n n
1
2

+
n1 1
n2 1

t( r )

4) Regla de decisin

2.5%

2.5%
-2.262

5) Clculos
Media Aritmtica
Varianza Muestral
Tamao de muestra

2.262

Sector Minero
Sector Financiero
20.5
13.8333
11.14285714
1.3667
8
6

11.1429 1.3667
+

8
6

=9.1347
r=
2
2
1.36
11.14
8 +
6
8-1
6-1
r9

) (

TCal=

20.5-13.83
11.1429 1.3667
+
8
6

TCal=5.24

6) Decisin
Dado que TCal = 5.24 R.A., aceptamos H1 y rechazamos H0, por lo tanto los
rendimientos medios en las empresas del sector minero no son iguales a los de
las empresas del sector financiero.

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 89 de 128

Estadstica Aplicada

Calculo con Excel


a) Primero se deben colocar los datos en una hoja de clculo.
b) Activar men herramientas Anlisis de datos Prueba t para dos muestras
suponiendo varianzas desiguales.

c) Configurar el cuadro de dialogo

d) Finalmente los resultados son:


Prueba t para dos muestras suponiendo varianzas desiguales

Media
Varianza
Observaciones
Diferencia hipottica de las medias
Grados de libertad
Estadstico t
P(T<=t) una cola
Valor crtico de t (una cola)
P(T<=t) dos colas
Valor crtico de t (dos colas)

Sector F
Sector M
20.5 13.83333333
11.14285714 1.366666667
8
6
0
9
5.236801889
0.000268521
1.833112923
0.000537042
2.262157158

En esta tabla se
resume todo el
procedimiento
y
resultado de la
prueba
de
hiptesis.

Se deja al lector el replanteamiento de la prueba de hiptesis.

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 90 de 128

Estadstica Aplicada

Anlisis de la Varianza
Anlisis de la Varianza
Tcnica estadstica utilizada para comprobar si son iguales las medias de ms
de dos poblaciones mediante el anlisis y comparacin de diversos tipos de
varianzas muestrales insesgadas. En adelante, se emplearn el nombre que le
puso J.W. Tukey al tema: ANOVA, una manera resumida y practica de referirse
a la materia en cuestin y de uso muy difundido en la literatura actual. Esta
tcnica fue creada por Ronald Aymer Fisher,
Los modelos de ANOVA son el captulo fundamental de la Estadstica porque
son algo ms que unas tcnicas aplicadas. Son la herramienta fundamental
para adentrarse en la naturaleza de la variacin de los acontecimientos;
permiten discernir mejor las causas de los fenmenos y los efectos de los
factores involucrados. No solo sirve para introducirnos en la misma Naturaleza
de las cosas, sino que es la herramienta bsica para el diseo de
experimentos. Toda vez que necesite buscar las causas que hayan
descontrolado sus tcnicas de laboratorio o de produccin, podr usar la
filosofa de estos modelos para realizar cualquier tipo de investigacin.
Para una mejor comprensin de la tcnica del anlisis de la varianza, se ver el
presente ejemplo:
Supongamos una poblacin de notas Xij de un universo de 9 alumnos para tres
grupos distintos:

Notas normales

Notas despus de aplicar el


mtodo
Grupo 1
Grupo 2
Grupo 3
Grupo 1
Grupo 2
Grupo 3
10
10
10
10 + 1 = 11 10 + 2 = 12
10
10
10
10
10 + 1 = 11 10 + 2 = 12
10
10
10
10
10 + 1 = 11 10 + 2 = 12
10
Como se puede apreciar en la tabla anterior la media global es 10, y la de cada
grupo tambin Xij = ; cada valor es igual a la media general. NO HAY
DIFEENCIAS ENTRE GRUPOS, NI DENTRO DE LOS GRUPOS.
Supongamos que aplicamos un mtodo de enseanza (factor) que afecta,
subiendo las notas del grupo 1 en 1 punto, del grupo 2 en 2 puntos y no
modificando las notas del grupo 3. As las notas de cada alumno sera: Xij = +
i en que los i 1; 2 y 0 los efectos que producen el factor (mtodo) en cada
nivel. Parece claro que el factor influye en establecer diferencias entre los
grupos; pero no dentro.
Lo ms habitual es que haya alumnos que rindan ms que otros(por diversas
razones aleatorias o que en principio no dependan de un factor), son por tanto
comportamientos aleatorios individuales que denominamos ij; implantando
algunos en el ejemplo sera:

Grupo 1
10 + 1 1 = 10
10 + 1 2 = 09
10 + 1 0 = 11

Docente:
Docente: Ing. Ferly Urday Luna

Grupo 2
10 + 2 + 5 = 17
10 + 2 + 0 = 12
10 + 2 + 1 = 13

Grupo 3
10 + 0 + 3 = 13
10 + 0 + 0 = 10
10 + 0 + 2 = 12

Pgina 91 de 128

Estadstica Aplicada

De lo anterior se puede apreciar que los efectos aleatorios ij seran 1; -2; 0; 5;


0; 1; 3; 0 y 2; que fomentan la variabilidad dentro de los grupos
INTRAGRUPOS.
Entonces para cada valor tenemos el modelo:
Xij = + i + ij
Tenemos dos tipos de variabilidad: la que se presenta entre los grupos(debida
al factor) y la intragrupos (debida a la aleatoriedad). Para poder afirmar que el
factor produce efectos la variabilidad entre los grupos ha de ser
significativamente grande respecto a la intragrupos.
Mediante el anlisis de la varianza, explicaremos y hallaremos si las medias
son distintas o no, todo ello utilizando las pruebas de hiptesis.
Anlisis de varianza de un factor: Diseo Completo al Azar (D.C.A.)
Sea X una caracterstica que se mide en k poblaciones (o tratamientos)
diferentes, con medias respectivas 1, 2,...,k y varianzas respectivas
12 , 22 ,..., k2 .
Las suposiciones del ANOVA son:
1. Las k poblaciones son independientes (o las k muestras
independientes).
2. Cada una de las poblaciones tiene distribucin Normal, N i , i2 .
3. Las k varianzas son iguales a la varianza comn.

son

Las k poblaciones juntas constituye una poblacin mayor cuya media (media
total o gran media) se define por:
k

i =1

Para cada i = 1; 2; ...;k. Sea Xi1, Xi2,...,Xin, una


muestra aleatoria simple de tamao ni escogida en
la i-esima poblacin.

Estas k constituyen los subgrupos que se supone pues son independientes. En


el modelo de clasificacin de un factor completamente aleatorizado los valores
xij de las k muestras (j-sima observacin de la i-sima muestra j =1; 2;...;ni; i =
1; 2;...;k) se registran en un arreglo tabular. Para comenzar a aplicar el modelo
del ANOVA, consideraremos el siguiente ejemplo:
El gerente de compras de la empresa La Tijera Brava S.A.C. desea comparar
la velocidad de 4 mquinas de marcas diferentes con el fin de adquirir la ms
veloz para su uso en la apertura de una nueva planta de confecciones en la
Ciudad de Matarani. Para esto, observ los tiempos que cada mquina utiliza
para producir 6 unidades de la confeccin en forma aleatoria. Los tiempos
registrados en segundos se presentan a continuacin:

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 92 de 128

Estadstica Aplicada

Mquina
1
55
46
45
73
50
63
332
6

2
60
58
68
58
63
52
359
6

3
64
62
51
57
65
68
367
6

4
42
45
52
44
42
56
281
6

Totales Ti
T =1339
ni = r
n = 24
Medias X i
X = 55,79
55,33
59,83
61,17
46,83
En la tabla anterior, se debe considerar lo siguiente:
Ti es la suma de datos de la muestra i.
T es el total de datos de las k muestras.
n es el total observado de las k muestras, n = n1 + n2 + ... + nk.
X i es la media de la muestra i, (estimacin insesgada de la media ).
X media total muestral (estimacin insesgada de la media ).

El modelo del anova


Recuerde que cada observacin Xij (i = 1; 2;...;k ; j =1; 2;...;ni) de la muestra se
expresa en la forma:
Xij = + i + ij
En donde, i = 1; 2;...;k ; j =1; 2;...;ni
Las variables aleatorias Xij son independientes y normales N i , 2 .

(
)
Las variables aleatorias ij son independientes y normales N ( , ).
2

es la media total, y i = i es el efecto del tratamiento i.

La hiptesis del anova


La hiptesis nula consiste en afirmar que las medias de las k poblaciones (o
tratamientos) son iguales, ( o las k muestras provienen de la misma poblacin).
Esto, es:
HO: 1 = 2 = ... = k
Dado que i = i es equivalente a i = 0, para i = 1; 2;...;k, la hiptesis nula
consiste en afirmar que no hay efecto en todos los tratamientos, esto es:
HO: 1 = 2 = ... =k = 0
La hiptesis alternativa es:
Para la primera forma, H1: No todas las medias son iguales.
Para la segunda forma, H1: Al menos una de las i no es igual cero.

El anlisis
La prueba de la hiptesis H0 contra H1 se basa en dos estimaciones
independientes de la varianza poblacional comn 2. Estas estimaciones se
obtienen particionando la suma de cuadrados total (SCT) en dos componentes:
Docente:
Docente: Ing. Ferly Urday Luna

Pgina 93 de 128

Estadstica Aplicada

SCT = SCE + SCC

Donde:
SCE es la suma de cuadrados del error ( o dentro de los tratamientos).
SCC es la suma de cuadrados de las columnas ( o entre los tratamientos).
De lo anterior se encuentra las estimaciones insesgadas para la varianza 2

CME =

SCE
nk

CMC =

SCC
k 1

Donde:
CME es el cuadrado medio del error.
CMC es el cuadrado medio de las columnas.
Es de esperar entonces que el cociente CMC/CME sea cercano a uno si la
hiptesis nula es verdadera. Pero, si la hiptesis nula no es verdadera CME no
cambia, mientras que CMC ser mayor. Esto implica que el cociente ser
mayor que la unidad. Si invertimos el razonamiento, se concluye que si
CMC/CME es significativamente grande se puede concluir que las medias de
las poblaciones son distintas.
La regin crtica
La regin de rechazo de H0 de la prueba es el intervalo ] c; + [

A partir de los datos observados de la muestra se calcula:

Fcal =

CMC
CME

La regla de decisin es: Rechazar la hiptesis nula H0 si Fcal > c. En caso


contrario no rechazar H0.
Para desarrollar los clculos se utilizan las siguientes frmulas:
k

ni

SCT = xij2 C
i =1 j =1

C=

T2
n

Ti2
C
i =1 ni
k

SCC =

SCT = SCE + SCC


Para una mayor facilidad del uso del ANOVA, se debe elaborar la siguiente
tabla:

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 94 de 128

Estadstica Aplicada

Fuente de
Variacin

Suma de Grados de Cuadrados Razn F


Cuadrados Libertad
Medios calculada

Tratamientos
( Columnas )

SCC

k-1

CMC =

SCC
k 1

Error

SCE

n-k

CME =

SCE
nk

Total

SCT

n-1

Fcal =

CMC
CME

Solucin del ejemplo de la empresa La Tijera Brava S.A.C.


Sea i la velocidad media de la mquina i, donde i = 1; 2; 3; 4
1. Hiptesis: HO: 1 = 2 = 3 = 4
H1: No todas las medias son iguales.
2. Nivel de significancia: = 0,05
3. Estadstica Fcal =
= 24.

CMC
que se distribuye segn F(k-1,n-k) donde k = 4 y n
CME

4. Regin crtica: Para = 0,05; en la tabla F se encuentra el valor crtico


de la prueba, Fteo = c = 3,10. Se rechazar H0, si Fcal > 3,10.

5. Clculos
De los datos, se obtiene:
C=

T2 (1339) 2
=
= 74705,04
n
24

SCT = X ij2 C = (55) 2 + (46) 2 + ... + (56) 2 74705,04 = 1851,95833


Ti2
(332) 2 + (359) 2 + (367) 2 + (281) 2
SCC =
C =
74705,04 = 754,125
r
6
SCE = SCT SCC = 1851,95833 74,125 = 1097,83333
Las suma de cuadrados, los grados de libertad, los cuadrados medios y
la F calculada se dan a continuacin:

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 95 de 128

Estadstica Aplicada

Fuente de
Variacin

Suma de Grados de Cuadrados Razn F


Cuadrados Libertad
Medios calculada

Tratamientos
754,125
Columnas
Error
1097,833
Total
1851,958

3
20
23

251,375 F = 4,579
54,892

6. Decisin: Dado que F = 4,579 > 3,10; se rechaza H0.

Comparacin Mltiple a Posterior


Como H0 ha sido rechazada, es decir que no todas las medias son iguales, es
deseable determinar cuales son las medias que no son iguales entre s.
La comparacin de pares de medias se resuelve utilizando intervalos de
confianza de pares de medias o ejecutando pruebas de hiptesis de pares de
medias, a este procedimiento se le conoce como comparacin mltiple a
posterior.
Existen mltiple mtodos para comparar los pares de medias, utilizaremos la
prueba DMS (Diferencia Mnima Significativa)

X i X j >

ni n j
ni n j

CME F ,1, n k

Cuando las muestras son iguales, se utiliza la siguiente frmula:

X i X j >

2
CME F ,1, n k donde r es el tamao de cada muestra.
r

Solucin
El valor crtico para las comparaciones de todos los pares de medias de los
grupos del mtodo DMS es:

2
(CME )F0,05;1;20 = 2 (54,892)(4,35) = 8,92
r
6
Se tienen entonces:
55,33 - 59,83

= 4,50 < 8,92 No significativa

55,33 - 61,17

= 5,84 < 8,92 No significativa

55,33 - 46,83

= 8,50 < 8,92 No significativa

59,83 - 61,17

= 1,34 < 8,92 No significativa

59,83 - 46,83

= 13,00 > 8,92 Significativa

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 96 de 128

Estadstica Aplicada

61,17 - 46,83

= 14,34 > 8,92 Significativa

Resumen de las DMS entre los grupos


Grupos
1
2
3
4

Medias
55,33
59,83
61,17
46,83

1
55,33
4,50
5,84
8,50

2
59,83

3
61,17

4
46,83

1,34
13,00

14,34

Se ha sombreado las diferencias significativas al 5%. En este caso se tiene que


2 de los 6 pares de medias poblacionales son significativamente diferentes:
2 4 y 3 4 . Es evidente que se debe elegir la mquina 4 por ser la ms
veloz, es decir en promedio utiliza menos tiempo.

Ejercicios Propuestos
1. Una compaa desea comparar cuatro tipos de neumaticos. Se asigno
aleatoriamente los neumaticos a seis automviles semejantes. La duracin
de los neumticos en miles de Km. se da en la tabla siguiente:
N1
55
53
50
60
55
65

TIPOS DE NEUMATICOS
N2
N3
N4
63
48
59
67
50
68
55
59
57
62
50
66
70
47
71
75
61
73

Al nivel de = 0.05
a) se puede concluir que existe alguna diferencia en los rendimientos
medios de los tipos de neumticos?
b) Si se rechaza la hiptesis nula, utilice la prueba t para probar si la
duracin media de los neumticos tipo 1 es distinta a la duracin
media de los neumticos tipo 4?
2. Un promotor inmobiliario esta considerado invertir en un centro comercial a
construirse en una capital del interior del pas. Se evalan 4 ciudades:
Arequipa, Iquitos, Piura, Trujillo, en donde es muy importante el nivel de
ingresos mensuales de las familias. Para resolver este problema se diseo
una prueba hiptesis de varias medias seleccionando una muestra aleatoria
de ingresos familiares en cada una de las ciudades, obteniendo los
siguientes ingresos en cientos de dlares:
Ingresos mensuales en decenas de $
Arequipa
Iquitos
Piura
Trujillo

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 97 de 128

Estadstica Aplicada

61
56
49
55

71
73
66
61
46

58

56
61
47
51
62
65

50
40
50
50
50
40

a) cuales son los supuestos para realizar la prueba ANOVA?


b) Con un nivel = 0.05 puede el promotor concluir que hay
diferencias en el ingreso medio?
c) Qu pares de medias mustrales son significativamente diferentes?
en que ciudad debera construir el centro comercial?
d) Utilice una prueba t, para probar que el ingreso medio en arequipa es
diferente al ingreso medio en Trujillo
3. Pruebe la hiptesis de que las medias de las poblaciones 1, 2,3 y 4 son
iguales con un nivel de
= 0.05, con base en las siguientes muestras
aleatorias escogidas de las poblaciones respectivas.
Muestras
Muestra1 Muestra2 Muestra3 Muestra4
15
10
20
10
20
12
08
08
20
16
08
20
14
13
15
15
18
18
10
14
20
11
13
12
12
17
14
Indique las hiptesis nulas y alternativa, la regla de decisin, el cuadro de
ANOVA y su decisin respecto a la hiptesis nula.
4. Se ha aplicado tres mtodos diferentes de enseanza a tres grupos de
alumnos de estadstica, el primero compuesto por 8 estudiantes, el segundo
de 6 y el tercero de 12. Se quiere saber si estos mtodos tienen algn
efecto sobre las notas. Las calificaciones sobre un mximo de 20 obtenidas
por dichos alumnos en una proba final se dan en la tabla siguiente:
A
13
14
12
13
12
15
11
14

Docente:
Docente: Ing. Ferly Urday Luna

Metodos
B
17
16
16
17
17
13

C
10
11
15
10
14
13
10
13
11

Pgina 98 de 128

Estadstica Aplicada

14
13
10
a) Con un = 0.05 hay diferencia en las calificaciones
promedio entre los tres mtodos?
b) Si se rechaza la hiptesis nula, realice pruebas adicionales por
el mtodo de intervalo de confianza para determinar que pares
de calificaciones promedio son diferentes.
5.

Se realiza un estudio de movimientos para determinar el mejor de tres


mtodos de montar un mecanismo. Para esto se diseo un experimento
de un factor por bloques aleatorios seleccionando cinco operarios con
igual velocidad. El nmero de montajes terminados diarios por cada
operario y con cada mtodo se da en la tabla que sigue.
OPERARIO

MTODOS
2
9
8
7
9
6

1
3
4
3
5
4

1
2
3
4
5

3
5
6
7
8
9

Al nivel de significancia del 5 %


a) Se puede concluir que los tres mtodos de montaje son
significativamente diferentes?
b) Si se rechaza la hiptesis nula. Qu pares de nmeros son
significativamente diferentes a ese nivel?
6.

Una empresa tiene 4 plantas en Sudamrica: Argentina, Brasil, Chile y


Per. Cada planta produce con 3 tipos diferentes de maquinas. Una
muestra aleatoria del numero de unidades producidas por planta y por
maquinas se da en la siguiente tabla:
Maquina
1
Maquina
2
Maquina
3

Argentina Brasil
230
250

Chile
180

Per
120

160

180

120

80

120

100

70

50

Aplicando un anlisis de varianza de dos factores y el nivel de = 0.05


determinar si existe alguna diferencia en la produccin media.
a) debido a las maquinas
b) debido a los pases

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 99 de 128

Estadstica Aplicada

Capitulo 9: Regresin y Correlacin

Regresin y Correlacin

Definiciones
La correlacin es el mtodo es el mtodo empleado para determinar el
grado de relacionamiento entre las variables que se estudian, para as
determinar en que medida una relacin funcional describe o explica de una
forma adecuada la relacin entre estas dos variables Se usa el trmino
correlacin cuando se habla de relaciones entre variables de experimentos
bivariantes.
Los diversos tipos de correlacin que existen pueden ser:

Coeficiente de correlacin lineal de Pearson


Es una medida del grado de asociacin lineal entre las variables X e Y. Es
un nmero abstracto y se representa por r:
r=

((X-X)(Y-Y))
(n-1) SXSY

r=

nXY ( X )( Y )
( nX 2 ( X )2 )( nY 2 ( Y )2 )

Propiedades
r est siempre comprendido entre -1 y 1.
Si r = 1 r = -1 entonces los puntos de la muestra estn situados
en lnea recta (correlacin lineal perfecta).
Si r est prximo a 1 a -1, habr una asociacin lineal fuerte entre
ambas variables.
Si r es cercano a 0, habr una asociacin lineal muy dbil.
r no vara cuando en las variables se realiza un cambio de escala o
de origen. Esto demuestra que r no tiene dimensin

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 100 de 128

Estadstica Aplicada

Dos consideraciones sobre el coeficiente de correlacin.


a) Se trata de una medida matemtica que luego hay que interpretar.
Aunque un alto grado de correlacin indique buena aproximacin a
un modelo matemtico lineal, su interpretacin puede no tener
ningn sentido. Por ejemplo puede haber un alto grado de
correlacin entre las ventas de celulares y el consumo de alcohol
en Arequipa, pero ambas variables estn claramente disociadas.
b) Aunque el grado de correlacin sea cercano a cero (pobre
aproximacin al modelo lineal) eso no significa que no haya
relacin entre las dos variables. Puede ser que dicha relacin sea
no lineal.

Coeficiente de determinacin
El coeficiente de determinacin se calcula elevando al cuadrado el
coeficiente de correlacin y representa el porcentaje de la variacin
explicada por la recta de regresin. El coeficiente de determinacin r2, es
una medida de la proximidad del ajuste de la recta de regresin; cuanto
mayor sea el valor de r2, mejor ser el ajuste y mas til la recta de regresin
como instrumento de prediccin. (r2 = 0.92 indica que de 100 pares de
puntos 92 estn en la recta de regresin y 8 fueran de la recta de regresin)
Mtodo de mnimos cuadrados para encontrar la ecuacin de regresin
Recordemos que el anlisis de regresin lo que persigue es determinar la
relacin funcional de la variable dependiente Y con respecto a la variable
independiente X con el fin de predecir valores de Y.
A continuacin desarrollaremos un modelo matemtico (ecuacin de la
lnea) para expresar la relacin entre dos variables y para estimar el valor
de la variable dependiente Y basndonos en el valor de la variable
independiente X. La tcnica que se utiliza para desarrollar la ecuacin de la
lnea y hacer estas predicciones, se le llama anlisis de regresin.
El principio matemtico con base con el cual se traza la ecuacin de la lnea
y se predicen los valores de Y, se conoce con el nombre de mnimos
cuadrados. Este principio consiste en trazar una lnea sobre la grfica de
dispersin de los valores de modo que la suma de los cuadrados de la
distancia vertical entre el valor real de Y y su valor predictorio, sea la
cantidad ms pequea posible.
Entonces la ecuacin lineal que se tiene que encontrar es:

Y* = a + bX
Donde:

Y*=

Se lee Y asterisco, es el valor predictorio de la variable Y para un


valor seleccionado de X.

a=

Es la interseccin con el eje Y. Es el valor estimado de Y cuando X


= 0.
Es la pendiente de la lnea, o el cambio promedio en Y* por cada
cambio en una unidad de la variable independiente X.
Es el valor que se escoge para la variable independiente.

b=
X=

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 101 de 128

Estadstica Aplicada

A los valores a y b se les conoce como coeficientes de regresin y


se calculan con las siguientes frmulas:

y bx
a=
n

b=

nxy xy
nx 2 ( x )2

Varianza de la regresin poblacional 2.


Una vez que se ha determinado la recta de regresin Y = a + bX es de suma
prioridad saber su utilidad, siendo esta la de predecir valores de Y para
valores determinados de X. Si se hace una prediccin seria razonable
conocer la respuesta de la interrogante: Qu tan confiable es la prediccin
que se acaba de determinar?
La respuesta a la pregunta anterior depende de la variabilidad de los
valores de Y con respecto a la recta de regresin.
Una medida que indica el grado de variabilidad o dispersin o concentracin
en torno a la lnea de regresin es la varianza de la regresin poblacional,
que se denota por 2 o por Y2 y se define por:
X

= E Y Y

)=

( y
i

i =1

Donde N es el tamao
de la poblacin

N
La raz cuadrada de esta varianza es la regresin estndar de la regresin
en la poblacin. Una estimacin insesgada de 2 es la varianza de la
regresin muestral que se denota por s2 y se define por:
X

s2 =

SCE
=
n2

yi y i

i =1

n2

i =1

i =1

i =1

yi2 a yi b xi yi
=

n2

Donde, el numerador es la suma de los cuadrados de los errores alrededor


de la lnea de regresin y el denominador, n-2, representa los grados de
libertad (se le quitan 2 valores a n porque corresponden al numero de
coeficientes de regresin).
La raz cuadrada de la varianza de la regresin muestral, es la desviacin
estndar muestral de la regresin, denotada por s. Este valor es conocido
tambin como error estndar de estimacin.

Anlisis de la varianza para


El anlisis de la varianza es un mtodo que utiliza la estadstica F para
probar la significacin de la ecuacin de regresin muestral o existencia de
regresin en la poblacin.
Las hiptesis nula y alternativa para esta prueba son:
H0: = 0 contra H1: 0

Se siguen todos los pasos para el anlisis de la varianza de ms de dos


medias poblacionales, resumindose los clculos en la siguiente tabla:

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 102 de 128

Estadstica Aplicada

Cuadrados Razn F
Medios
calculada

Fuente de
Variacin

Suma de
Cuadrados

Grados de
Libertad

Regresin

SCR

CMR =

SCR
1

Error

SCE

n-2

CME =

SCE
n2

Total

SCT

n-1

Fcal =

CMR
CME

Donde:

SCT=y2 -n(y)2

SCR=b ( xy-n(x)(y))

SCE=SCT-SCR

Intervalo de confianza para la media de Y


y0 t 0s
Donde: t0

1 (x0 -x)2
+
n (xi -x)2

=tn-2; es un valor t de student con n - 2 grados de libertad.

Intervalo de prediccin para y0.


2
0 t0s 1+ 1 + (x0 -x) 2
y
n (xi -x)

Aplicaciones

Problema Nro 1

Lori Franz, supervisora de mantenimiento de Baltimore Transit Authority,


quisiera determinar si existe una relacin positiva entre los costos anuales de
mantenimiento de un autobs y su edad. Si existe tal relacin, Lori cree que
puede hacer un mejor trabajo si pronostica el presupuesto anual para el
autobs. Ella recopil los datos d la tabla P.1
a) Grafique un diagrama de dispersin.
b) Qu clase de relacin existe entre estas dos variables?
c) Calcule el coeficiente de correlacin.
d) Determine la recta de mnimos cuadrados.
e) Pruebe la significancia de la pendiente de la regresin en el nivel de
significancia 0.05. Esta regresin es significativa? Explique.
f) Pronostique el costo anual del mantenimiento de un autobs de 5 aos.

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 103 de 128

Estadstica Aplicada

Autobus
1
2
3
4
5
6
7
8
9

Tabla Nro 1
Costo de mantenimiento ($)
Y
859
682
471
708
1094
224
320
651
1049

Edad (aos)
X
8
5
3
9
11
2
1
8
12

Fuente: Dpto Mnto de Baltimore Transit Authority

Solucin
Punto (a), primero solucionaremos con el Excel.
Paso 1.- Se introducen los datos en una hoja de clculo, y se seleccionan los
valores a graficar, para nuestro caso es el rango C3:D11.

Paso 2.- Se inicia el asistente para grficos, (

) y se escoge el tipo de grafico.

Se escoge el tipo
de grafico.
Luego se puede
cambiar el subtipo

Finalmente se
presiona siguiente

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 104 de 128

Estadstica Aplicada

Se configuran las
opciones apropiadamente.

Paso 3.- Finalmente el grafico queda terminado.


Diagrama de dispersin

Costo de Mantenimiento

1200

En el presente
diagrama se puede
notar que parece
existir
cierta
relacin
lineal,
directamente
proporcional, entre
las
variables
tiempo de vida y

1000
800
600
400
200
0
0

12

15

Tiem po de vida

(b) Qu clase de relacin existe entre estas dos variables?


La relacin que existe entre estas variables es positiva, ello debido a que segn se
puede apreciar en el diagrama de dispersin, la relacin es directamente
proporcional, es decir que si aumenta el tiempo de vida tambin aumenta el costo de
mantenimiento.
(c) Calculo del coeficiente de correlacin.
Introducimos los datos en una hoja de clculo, segn se aprecia en la figura siguiente:

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 105 de 128

Estadstica Aplicada

Luego utilizamos las siguientes formulas:

nXY ( X )( Y )

r=

r=

( nX ( X ) )( nY ( Y ) )
r=

948665-596058

(9513-(59) )(94799724-(6058) )
2

=0.9377

r=

((X-X)(Y-Y))
(n-1) SXSY

8951.44
=0.9377
(9-1)3.9721300.42

Tambin se pueden usar funciones de Excel, como:


FUNCIN: PEARSON
Devuelve el coeficiente de correlacin producto o momento r de Pearson, r, un ndice
adimensional acotado entre -1,0 y 1,0 que refleja el grado de dependencia lineal entre
dos conjuntos de datos.
Sintaxis
=PEARSON(matriz1;matriz2)
Matriz1 es un conjunto de valores independientes.
Matriz2 es un conjunto de valores dependientes.
FUNCIN: COEF.DE.CORREL
Devuelve el coeficiente de correlacin entre dos rangos de celdas definidos por los
argumentos matriz1 y matriz2. Use el coeficiente de correlacin para determinar la
relacin entre dos propiedades. Por ejemplo, para examinar la relacin entre la
temperatura promedio de una localidad y el uso de aire acondicionado.
Sintaxis
COEF.DE.CORREL(matriz1;matriz2)
Matriz1 es un rango de celdas de valores.
Matriz2 es un segundo rango de celdas de valores.
Entonces los clculos de r, quedaran de la siguiente manera:

d) Determinacin de la recta de mnimos cuadrados


Para determinar los coeficientes de la recta de regresin, se puede utilizar estas
ecuaciones:

a=

y bx
n

b=

nxy xy
nx 2 ( x )2

En Excel se hace uso de las funciones:


FUNCIN: INTERSECCION.EJE
Calcula el punto en el que una lnea intersecar el eje y utilizando los valores X e Y
existentes. El punto de interseccin se basa en el mejor ajuste de la lnea de regresin
trazado con los valores X y los valores Y. Utilice la funcin INTERSECCION.EJE para
determinar el valor de la variable dependiente cuando la variable independiente es

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 106 de 128

Estadstica Aplicada

igual a 0 (cero). Por ejemplo, puede emplear la funcin INTERSECCION.EJE para


predecir la resistencia elctrica de un metal a 0 C si los puntos de datos se han
tomado a temperatura ambiente o superior.
Sintaxis
INTERSECCION.EJE(conocido_y;conocido_x)
Conocido_y es el conjunto de observaciones o datos dependientes.
Conocido_x es el conjunto de observaciones o datos independientes.
PENDIENTE
Devuelve la pendiente de una lnea de regresin lineal creada con los datos de los
argumentos conocido_x y conocido_y. La pendiente es la distancia vertical dividida por
la distancia horizontal entre dos puntos cualquiera de la recta, lo que corresponde a la
tasa de cambio a lo largo de la lnea de regresin.
Sintaxis
PENDIENTE(conocido_y;conocido_x)
Conocido_y es una matriz o rango de celdas de puntos de datos numricos
dependientes.
Conocido_x es el conjunto de puntos de datos independientes.

Entonces la recta de mnimos cuadrados es: Y = 208.203 + 70.92X


Otra forma de encontrar dicha recta es por el mtodo grafico en el Excel, para ello se
hace clic derecho en cualquier punto del diagrama de dispersin y se escoge agregar
lnea de tendencia.
y = 70.918x + 208.2
2
R = 0.8792

Diagrama de dispersin

Costo de Mantenimiento

1200
1000
800
600
400
200
0
0

12

15

Tiem po de vida

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 107 de 128

Estadstica Aplicada

Donde R2, representa el coeficiente de determinacin, el cual se interpreta diciendo


que el 87.92% de los valores de y quedan explicados o dependen directamente de X,
existiendo un 22.08% de valores de Y que no quedan representados por la ecuacin
de regresin calculada.
R2, se obtiene en la prctica elevando el valor de r al cuadrado.
e) Prueba ANOVA para el anlisis de regresin
Para realizar este anlisis en Excel, se activa men herramientas Anlisis de datos y
se escoge regresin:

Luego de aceptar, se obtiene el siguiente resultado:


Resumen

Estadsticas de la regresin
Coeficiente de
correlacin mltiple
0.93767326
Coeficiente de
determinacin R^2
0.87923114
R^2 ajustado
0.86197845
Error tpico
111.60975
Observaciones

ANLISIS DE
VARIANZA

Grados de
libertad

Suma de
cuadrados

Regresin
Residuos

1
7

Total

Intercepcin

Coeficientes
208.203

Docente:
Docente: Ing. Ferly Urday Luna

634819.73
87197.15
722016.888
9

Promedio de
cuadrados
634819.73
12456.73

F
50.96196

Error tpico Estadstico t


Prob
75.0017941 2.77597819 0.02745673

Valor crt
de F
0.0001871

Inf 95%
Sup 95%
30.852283 385.554406

Pgina 108 de 128

Estadstica Aplicada

Variable X 1

70.918

9.93423031

7.13876481 0.00018719

47.427411 94.4088557

Analizando los resultados, tenemos:


 La tabla ANOVA para anlisis de regresin tiene el siguiente formato:
Cuadrados Razn F
Medios
calculada

Fuente de
Variacin

Suma de
Cuadrados

Grados de
Libertad

Regresin

SCR

CMR =

SCR
1

Error

SCE

n-2

CME =

SCE
n2

Total

SCT

n-1

Fcal =

CMR
CME

Donde:

SCR=b ( xy-n(x)(y))

SCT=y2 -n(y)2
XY=48665

Y 2=4799724

Y=673.111

SCE=SCT-SCR
b=70.9181

X=6.555

Entonces la Tabla ANOVA calculada es:


Fuente
Regresin
Error
Total

SC
634819.73
87197.15
722016.89

GL
1
7
8

CM
634819.73
12456.74
90252.11

Fcal
Prob
50.96 0.00018719

Fcrit
5.59

Las hiptesis de trabajo quedan expresadas como:


H0: = 0 contra H1: 0
Entonces dado que FCal = 50.96 RC, o p = 0.000187 < , aceptamos H1 y
rechazamos H0, por lo tanto se puede validar la ecuacin de regresin al 5% de error
o podemos afirmar que la pendiente de la recta de regresin es diferente de cero.


El error tpico es la desviacin estndar de la regresin y se calcula con la formula:


n

s2 =
n

SCE
=
n2

yi y i

i =1

n2

) y

2
i

i =1

i =1

a yi b xi yi

i =1

n2
Yi

1
2
3
4
5
6
7
8
9

8
5
3
9
11
2
1
8
12

859
682
471
708
1094
224
320
651
1049

59

6058

Docente:
Docente: Ing. Ferly Urday Luna

775.5484155
562.7940141
420.9577465
846.4665493
988.3028169
350.0396127
279.1214789
775.5484155
1059.220951

(Y-Yi)

6964.166957
14210.06708
2504.227137
19172.98527
11171.89451
15885.98396
1671.05349
15512.3078
104.4678333
87197.15405

Pgina 109 de 128

n=9

Estadstica Aplicada

87197.15
= 111.61
92
El coeficiente de determinacin se puede calcular con la relacin:
s=

R 2=
R 2=


SCR
SCT

634819.73
=0.8792
722016.89

El coeficiente de determinacin corregido se calcula


CME
R 2=R 2=1CMT
2

R =1

12456.74
=0.861978
90252.11

Los coeficientes de la recta de regresin son:

Intercepcin

Coeficientes
208.203

Variable X 1

70.918


Y*=Y=Y=209.203+70.918X
i

La recta de regresin tambin es representada por: Y = b0 + b1X


 Las pruebas de hiptesis para cada uno de los coeficientes de la recta de
regresin, estn expresadas en a la derecha de dichos coeficientes y en ambos
casos se utiliza la distribucin t de student.


Desviacin estndar estimada de b1

s b1 =
X

2
i

( X i )

X =
2
X =
n=
sx =

59
513
9
9.934230312

Para la Prueba de Hiptesis individual, el estadstico t se calcula por:


t=

p=

0.000187190

t=

b1
sb1

70.918
= 7.139
9.934

f) Pronstico para un costo anual de mantenimiento de 5 aos



Y*=Y=Y=209.203+70.918X
i

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 110 de 128

Estadstica Aplicada

Y* = 209.203 + 70.918(5)
Y* = 562.794
Problema Nro 2
Ejercicio aplicativo de series de tiempo
Con los datos que se presentan en la tabla Nro 2, realizar un pronostico para los
prximos 5 aos, haciendo uso del mtodo de los mnimos cuadrados con tendencia
lineal.
Tabla Nro 2.- Gastos en capacitacin
de la empresa INSUR
Ao

Gasto

1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007

14.8
20.6
22.1
19.3
20.6
25.6
26.5
28.5
26.8
28.7
35.1
37.0
30.5

FUENTE.- Dpto de RRHH - enero del 2008

Para trabajar este ejercicio en Excel, se puede proceder de la siguiente manera:

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 111 de 128

Estadstica Aplicada

Problema Nro 3
Encontrar la ecuacin de tendencia para los siguientes datos: (Utilizar un modelo lineal
o uno que se pueda linealizar)

1.5
2
3
3.5
4
5

2.6
2.4
1.2
1.8
1.6
1.4

Se utiliza la opcin agregar lnea de tendencia de Excel para un diagrama de


dispersin
y = -0.34x + 2.91
R2 = 0.6202

2.5

2.5

1.5

1.5

0.5
0

y = 3.1251x-0.532
R2 = 0.6247

0.5
0

y = -1.0456Ln(x) + 2.9566
R2 = 0.71

y = 3.0498e-0.1728x
R2 = 0.5443

3
2.5

2.5

1.5

1.5

1
0.5

0
0

0.5

0
0

De lo 4 modelos anteriores, se selecciona el Nro 3, por presentar un mayor coeficiente


de determinacin.
Problema Nro 4
Realizar un pronostico cuando el valor de X = 6, para el siguiente conjunto de datos.

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 112 de 128

Estadstica Aplicada

1.2
1.8
3.1
4.9
5.7
7.1
8.6
9.8

4.5
5.9
7
7.8
7.2
6.8
4.5
2.7

Solucin
Se utiliza la opcin agregar lnea de tendencia de Excel, con un modelo polinomial de
grado 2 (Parbola de mnimos cuadrados)
2

y = -0.211x + 2.0649x + 2.5878


2
R = 0.9823

10
8
6
4
2
0
0

10

12

Ahora como X tiene el valor 6 entonces para hallar Y se tiene:


Y = 2.5878 + 2.0649(6) 0.211(6)2
Y=
Problema Nro 5
Aplicacin de series de tiempo con varios valores por ao, uso del ndice estacional
ajustado para pronosticar
Mtodo de la razn de promedio mvil.
Caso: Empresa de Acido Sulfurico
Una planta productora de acido sulfrico, ha venido posicionndose en el mercado,
para ello se presenta la evolucin de sus ventas trimestrales, en miles de barriles
aprox. La capacidad mxima de la planta es de 550000 barriles por ao. Si una
ampliacin de la misma, desde que se hacen los pedidos de las maquinarias, hasta
que estas se instalan y prueban, demora 6 meses. Ayude al gerente de produccin a
decidir cual es el tiempo mximo en el que debe proponer a gerencia general el inicio
de la expansin de la fbrica, si se desea cumplir al 100% con los pedidos de los
clientes en todo momento.

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 113 de 128

Estadstica Aplicada

Tabla: Ventas en miles de barriles


Trimestre
I
II
III
IV

2002
197
408
307
184

2003
283
449
372
169

Ao
2004
278
491
288
213

2005
268
465
332
225

2006
339
505
345
244

Realice un pronstico para los trimestres de los prximos 2 aos y responda la


interrogante anterior.
Solucin
Para dar solucin a este problema se deben seguir los siguientes pasos:
a)
b)
c)
d)

Colocar los datos, segn el formato de la tabla Nro 3


En el paso Nro 1 (Columna 4), se calcula el total mvil de los cuatro trimestres.
En el paso Nro 2 (Columna 5), se calcula el promedio mvil de cuatro trimestres.
En el paso Nro 3 (Columna 6), se calcula el promedio mvil centrado,
considerando dos trimestres para dicho clculo.
e) En el paso Nro 4 (Columna 7), se calcula el porcentaje del valor real con respecto
al valor promedio mvil centrado. Para ello se usa la siguiente formula:

%Valor Re al =

Re al
100
Pr omedio Movil

Tabla: Calculo del promedio mvil centrado de cuatro trimestres.


Ao
(1)
2002

2003

2004

2005

2006

Trimestre Produccin Total Movil Prom. Movil Pro_Mo_Cen %_Valor_Real


(2)
(3)
(4)
(5)
(6)
(7) = (3)/(6)
I
197
-II
408
1096
274
-III
307
1182
295.5
284.75
107.81%
IV
184
1223
305.75
300.625
61.21%
I
283
1288
322
313.875
90.16%
II
449
1273
318.25
320.125
140.26%
III
372
1268
317
317.625
117.12%
IV
169
1310
327.5
322.25
52.44%
I
278
1226
306.5
317
87.70%
II
491
1270
317.5
312
157.37%
III
288
1260
315
316.25
91.07%
IV
213
1234
308.5
311.75
68.32%
I
268
1278
319.5
314
85.35%
II
465
1290
322.5
321
144.86%
III
332
1361
340.25
331.375
100.19%
IV
225
1401
350.25
345.25
65.17%
I
339
1414
353.5
351.875
96.34%
II
505
1433
358.25
355.875
141.90%
III
345
-IV
244
--

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 114 de 128

Estadstica Aplicada

Grafico: Serie temporal, promedio mvil centrado y lnea de tendencia.


600
500
400
300
200
100
0
0

f)

10

15

20

25

En el paso Nro 5, reunir todos los porcentajes reales con respecto a los valores
promedio mvil que se encuentran en la columna 7 de la tabla Nro 3 y organizarlos
por trimestres, ver tabla Nro 4

Tabla: Porcentajes de valores reales


Trimestre Trimestre
Trimestre
Ao
I
II
III
Trimestre IV
2002 --107.81%
61.21%
2003
90.16%
140.26%
117.12%
52.44%
2004
87.70%
157.37%
91.07%
68.32%
2005
85.35%
144.86%
100.19%
65.17%
2006
96.34%
141.90% --Una vez reunidos los porcentajes de valores reales se proceder a calcular la media
modificada. Los valores estacionales que se han recuperado para los trimestres,
todava contienen las componentes cclica e irregular de la variacin de la serie
temporal. Al eliminar los valores mas alto y mas bajo de cada trimestre, se reducen
estas variaciones cclicas e irregulares extremas.
Trimestre
Media Modificada

I
II
III
IV
88.93%143.38%104.00% 63.19%

Por ejemplo, el valor 88.93, es el resultado de promediar 90.16 con 87.70, los valores
85.35 y 96.34 han sido eliminados para el primer trimestre. Repetir este proceso para
los dems trimestres.
g) En el paso Nro 6, se proceder a calcular los ndices temporales ajustados.
Trim

Indice
Desajustado

I
II
III
IV

Docente:
Docente: Ing. Ferly Urday Luna

88.93%
143.38%
104.00%
63.19%
399.50%

Constante
ajuste
1.001251564
1.001251564
1.001251564
1.001251564

ndice Temporal
Ajustado
89.04%
143.56%
104.13%
63.27%
400.00%

Pgina 115 de 128

Estadstica Aplicada

Calculo de la constante de estacionalidad


Suma deseada
400%
Suma de ndices
399.50%
Constante de
estacionalidad 1.001251564
Nota.- Para calcular la constante de estacionalidad, se usa la siguiente formula:

Cons tan te Estacionalidad =

Suma Deseada
Suma Indices

h) En el paso Nro 7, se proceder a realizar la desestacionalizacin de los datos,


para ello se debe dividir cada valor entre el ndice estacin ajustado
correspondiente a su respectivo trimestre, y con los datos se proceder a
encontrar la ecuacin de tendencia, haciendo uso del mtodo de los mnimos
cuadrados para la tendencia desestacionalizada.
Tabla: Datos Desestacionalizados
X
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

Ao

2002

2003

2004

2005

2006

a=
b=
i)

Trimestre

Produccin
Produccin
Produccion
Real
Desestacionalizada Pronosticada

I
II
III
IV
I
II
III
IV
I
II
III
IV
I
II
III
IV
I
II
III
IV
267.8917644
4.783245626

197
408
307
184
283
449
372
169
278
491
288
213
268
465
332
225
339
505
345
244

221.25
284.20
294.82
290.82
317.83
312.76
357.25
267.11
312.22
342.02
276.58
336.65
300.99
323.91
318.83
355.62
380.73
351.77
331.32
385.65

272.68
277.46
282.24
287.02
291.81
296.59
301.37
306.16
310.94
315.72
320.51
325.29
330.07
334.86
339.64
344.42
349.21
353.99
358.77
363.56

Y = 267.89 + 4.78X

Finalmente se calcula el pronstico haciendo uso de la ecuacin de pronstico y se


estacionalizan los valores hallados multiplicndolos por el ndice estacional
ajustado segn corresponda a cada trimestre.

Tabla: Pronstico Estacionalizado

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 116 de 128

Estadstica Aplicada

Ao

21
22
23
24
25
26
27
28
29
30
31
32

Trimestre

Pronostico
Desestacionalizado

Pronostico
Estacionalizado

368.34
373.12
377.91
382.69
387.47
392.26
397.04
401.82
406.61
411.39
416.17
420.96

327.97
535.66
393.51
242.13
345.01
563.12
413.44
254.23
362.04
590.59
433.36
266.34

I
II
III
IV
I
II
III
IV
I
II
III
IV

2007

2008

2009

Grafico: Serie temporal, serie desestacionalizada y lnea de tendencia


600
500
400
300
200
100
0
0

10

15

20

25

Conclusin: Como se puede ver en la tabla Nro 6, se exceder la capacidad mxima


de produccin en el II trimestre del ao 2008, por lo tanto se debera comenzar la
ampliacin de las instalaciones a mas tardar al finalizar el tercer trimestre del 2007.
Ejercicios Planteados
1.

Cul de las siguientes situaciones es inconsistente?


g) Y = 499 + 0.21X y r = 0.75
h) Y = 100 + 0.9X y r = -0.70
i) Y = -20 + 1X y r = 0.40
j) Y = -7 - 4X y r = -0.90

2. Las ganancias de AT&T (American Telephone and Telegraph) en miles de millones


de dlares se estiman mediante el GNP (gross national product, Producto Nacional
Bruto). La ecuacin de regresin es Y = 0.078 + 0.06X donde el GNP se mide en
miles de millones de dlares.
a) Interprete la pendiente.
b) Interprete la interseccin con el eje Y.

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 117 de 128

Estadstica Aplicada

3. Considere los datos en la tabla P.3, donde X = gastos semanales de publicidad e Y


= Ventas semanales en cientos de dlares.
a) Existe una relacin significativa entre los gastos de publicidad y las ventas?
b) Determine la ecuacin de prediccin.
c) Pronostique las ventas para un gasto de publicidad de 50 dlares.
d) Qu porcentaje de la variacin en ventas se puede explicar con la ecuacin
de prediccin?
e) Mencione la cantidad de la variacin no explicada.
f) Obtenga la cantidad de la variacin total.
Tabla P.3
Y
1250
1380
1425
1425
1450

X
41
54
63
54
48

Y
1300
1400
1510
1575
1650

X
46
62
61
64
71

4. El tiempo requerido para que los clientes paguen en el supermercado y los valores
correspondientes de las compras se muestran en la tabla P.4. Conteste los incisos
a), b), e) y f) del problema 3 utilizando estos datos. Proporcione un estimado
puntual y un intervalo estimado de 99% para Y s X = 3.0.
Tabla P.4
Tiempo
requerido para
pagar en caja
(minutos)

Valor de la
compra (dlares)

Tiempo
requerido para
pagar en caja
(minutos)

Valor de la
compra (dlares)

3.6
4.1
0.8
5.7
3.4

30.6
30.5
2.4
42.2
21.8

1.8
4.3
0.2
2.6
1.3

6.2
40.1
2.0
15.5
6.5

5. Lori Franz, supervisora de mantenimiento de Baltimore Transit Authority, quisiera


determinar si existe una relacin positiva entre los costos anuales de
mantenimiento de un autobs y su edad. Si existe tal relacin, Lori cree que puede
hacer un mejor trabajo si pronostica el presupuesto anual para el autobs. Ella
recopil los datos d la tabla P.5.
a) Grafique un diagrama de dispersin.
b) Qu clase de relacin existe entre estas dos variables?
c) Calcule el coeficiente de correlacin.
d) Determine la recta de mnimos cuadrados.
e) Pruebe la significancia de la pendiente de la regresin en el nivel de
significancia
f) 0.05. Esta regresin es significativa? Explique.
g) Pronostique el costo anual del mantenimiento de un autobs de 5 aos.
Autobus
1
2
3
4

Tabla P.5
Costo de mantenimiento ($)
Y
859
682
471
708

Docente:
Docente: Ing. Ferly Urday Luna

Edad (aos)
X
8
5
3
9

Pgina 118 de 128

Estadstica Aplicada

5
6
7
8
9

1094
224
320
651
1049

11
2
1
8
12

6. Andrew Vazsonyi es el gerente de la cadena de supermercados Spendwise, a


quien le gustara poder pronosticar las ventas de libros (ejemplares por semana)
basndose en la cantidad de espacio de exhibicin (en pies) de los anaqueles.
Andrew rene los datos para una muestra de 11 semanas, como se mostr en la
tabla P.6.
a) Grafique un diagrama de dispersin.
b) Qu clase de relacin existe entre estas dos variables?
c) Calcule el coeficiente de correlacin.
d) Determine la lnea de mnimos cuadrados.
e) Pruebe la significancia de la pendiente de correlacin en el nivel de
significancia de 0.10. Esta correlacin es significativa? Explique.
f) Grafique los residuales contra los valores ajustados. Basndose en esta
grfica, es apropiado el modelo de regresin lineal simple para estos datos?
g) Pronostique las ventas de libros para una semana durante la cual se proveen
4 pies de espacio en anaqueles.

Tabla P.6
Semana

Nro de libros vendidos


Y

Espacio en pies en los anaqueles


X

275
142
168
197
215
188
241
295
125
266
200

6.8
3.3
4.1
4.2
4.8
3.9
4.9
7.7
3.1
5.9
5.0

1
2
3
4
5
6
7
8
9
10
11

7. En la tabla P.7 se muestra la informacin proporcionada por un negocio de


rdenes por correo para 12 ciudades.
a) Determine si existe una relacin lineal significativa entre estas dos variables.
(Prubelo con un nivel de 0.05 de significancia.)
b) Determine la lnea de regresin ajustada.
c) Calcule el error estn dar de la estimacin.
d) Elabore una tabla ANOVA.
e) Qu porcentaje de la variacin en las rdenes por correo se explica por el
nmero de catlogos repartidos?
f) Realice la prueba de hiptesis para determinar si la pendiente o coeficiente de
regresin es significativamente diferente de cero. (Utilice el nivel 0.01 de
significancia.)

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 119 de 128

Estadstica Aplicada

g) Pruebe la significancia de la regresin usando la estadstica F de la tabla


ANOVA. (Use el nivel de significancia de 0.01) Es el resultado consistente en
el punto f? Debe serIo?
h) Pronostique el nmero de rdenes por correo recibidas cuando se han
repartido 10 mil catlogos con un intervalo para la prediccin de 90% de
confianza.
Tabla P.7
Nmero de
Nmero de
Nmero de
Nmero de
rdenes postales
Catlogos
rdenes postales
Catlogos
Ciudad
Ciudad
recibidas (Miles) recibidos (Miles)
recibidas (Miles) recibidos (Miles)
Y
X
Y
X
A
24
6G
18
15
B
16
2H
18
3
C
23
5I
35
11
D
15
1J
34
13
E
32
10 K
15
2
F
25
7L
32
12

8. Industrias Peruanas S.A., (INPESA), es una empresa que se dedica a la


produccin y comercializacin de artculos para limpieza en todo el territorio
peruano, cuenta con agencias en 10 ciudades del pas, a continuacin se presenta
la cantidad de vendedores por agencia que posee esta empresa.
Nro Vendedores
Ventas Mensuales
Miles de $
a)
b)
c)
d)
e)
f)

12

16

20

20

58

105

88

118

117

137

157

169

Elaborar el diagrama de dispersin.


Hallar el coeficiente de correlacin y determinacin e interpretar los resultados.
Encontrar la ecuacin de regresin por el mtodo de mnimos cuadrados.
Halle el intervalo de confianza y de prediccin cuando los vendedores sean 10
Elabore el ANOVA para .
Halle el coeficiente de determinacin corregido.

9. El gerente de personal de la empresa DITESSUR quiere estudiar la relacin entre


ausentismo y la edad de sus trabajadores. Se tienen los siguientes datos.
Edad
25
46
58
37
55
32
41
50
Ausentismo
18
12
8
15
10
13
7
9
Nota.- La edad esta expresada en aos y el ausentismo en das por ao.
a)
b)
c)
d)
e)
f)

23
16

60
6

Elaborar el diagrama de dispersin.


Hallar el coeficiente de correlacin y determinacin e interpretar los resultados.
Encontrar la ecuacin de regresin por el mtodo de mnimos cuadrados.
Halle el intervalo de confianza y de prediccin cuando la edad sea 30 aos.
Elabore el ANOVA para .
Halle el coeficiente de determinacin corregido.

10. Se presenta la siguiente informacin del ingreso de una personas con el su ahorro.
Ingreso
Ahorro

350
100

400
110

Docente:
Docente: Ing. Ferly Urday Luna

450
130

500
160

950
350

850
350

700
250

900
320

600
130

Pgina 120 de 128

Estadstica Aplicada

a)
b)
c)
d)
e)
f)

Elaborar el diagrama de dispersin.


Hallar el coeficiente de correlacin y determinacin e interpretar los resultados.
Encontrar la ecuacin de regresin por el mtodo de mnimos cuadrados.
Halle el intervalo de confianza y de prediccin cuando el ingreso sea de 1200.
Elabore el ANOVA para .
Halle el coeficiente de determinacin corregido.

11. Jennifer Snchez, supervisora de la cadena de tiendas Estilos, quiere pronosticar


el tiempo que le toma a un cliente pagar en la caja. Decide usar las siguientes
variables independientes: nmero de artculos comprados y la cantidad total de la
compra. Entonces, recolecta los datos de muestra de 18 clientes, como se ve en la
tabla P.8.
a) Determine la mejor ecuacin de regresin.
b) Cuando se compra un artculo adicional, cul es el aumento promedio en el
tiempo que tardan en pagar en la caja?
c) Calcule el residual del cliente 18.
d) Calcule el error estndar de la estimacin.
e) Interprete el inciso d en los trminos de las variables utilizadas en este
problema.
f) Calcule un pronstico del tiempo para pagar si un cliente compra 14 artculos y
paga una cantidad de 70 dlares.
g) Calcule el intervalo estimado de 95% para su prediccin del inciso f.
h) A qu conclusin debe llegar Jennifer?

Cliente
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

Tabla P.8
Tiempo para
Cantidad Nmero de
pagar (Minutos) (Dolares)
artculos
Y
X1
X2
3
36
9
1.3
13
5
0.5
3
2
7.4
81
14
5.9
78
13
8.4
103
16
5
64
12
8.1
67
11
1.9
25
7
6.2
55
11
0.7
13
3
1.4
21
8
9.1
121
21
0.9
10
6
5.4
60
13
3.3
32
11
4.5
51
15
2.4
28
10

12. La tabla P.9 contiene datos de gastos en alimentos, ingreso anual y el tamao de
la familia para un ejemplo de 10 familias.
Familia

Tabla P.9
Gastos Anuales en
Ingreso

Docente:
Docente: Ing. Ferly Urday Luna

Tamao de la

Pgina 121 de 128

Estadstica Aplicada

A
B
C
D
E
F
G
H
I
J

alimentos ($-100s)
Y
24
8
16
18
24
23
11
15
21
20

anual ($ -1000s)
Xg
11
3
4
7
9
8
5
7
8
7

6
2
1
3
5
4
2
2
3
2

familia
X2

a) Construya la matriz de correlacin para las tres variables de la tabla P.9.


Interprete las correlaciones en la matriz.
b) Ajuste un modelo de regresin mltiple al relacionar los gastos en alimentos con el
ingreso y el tamao de la familia. Interprete los coeficientes de regresiones
parciales del ingreso y tamao de la familia. Parecen razonables?
c) Calcule los factores de expansin de la varianza (VIF) para las variables
independientes. Con estos datos, existe un problema de multicolinealidad?, si es
as, cmo modificara el modelo de regresin?
13. Estamos intentando predecir la demanda anual de un cierto producto (DEMAND),
utilizando las siguientes variables independientes:
PRECIO = precio de producto (en $)
INGRESO= ingreso del consumidor (en$)
SUB= precio de un bien sustituto (en $)
(Nota: Un bien sustituto es aquel que puede suplir a otro bien. Por ejemplo, la
margarina es un bien sustituto de la mantequilla.)
Se han registrado datos correspondientes al periodo 1978-1992:
Ao Demanda Precio ($) Ingreso ($) Sub ($)
1978
40
9
400
10
1979
45
8
500
14
1980
50
9
600
12
1981
55
8
700
13
1982
60
7
800
11
1983
70
6
900
15
1984
65
6
1000
16
1985
65
8
1100
17
1986
75
5
1200
22
1987
75
5
1300
19
1988
80
5
1400
20
1989
100
3
1500
23
1990
90
4
1600
18
1991
95
3
1700
24
1992
85
4
1800
21
a) Encontrar la ecuacin de regresin de mejor ajuste para estos datos.
b) Son los signos (+ o -) de los coeficientes de regresin de las variables
independientes como cabe esperar? Explique brevemente la respuesta (Nota:

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 122 de 128

Estadstica Aplicada

sta no es una pregunta estadstica; solamente necesita pensar acerca de lo que


significan los coeficientes de regresin)
c) Establezca e interprete el coeficiente de determinacin mltiple del problema.
d) Establezca e interprete el error estndar de la estimacin para el problema.
e) Utilizando la ecuacin de regresin obtenida, qu valor de DEMAND predecira si
el precio de los productos fue de $6, el ingreso del consumidor de $1200 y el
precio del bien sustituto fue de $17?
14. Una lnea area cuya base est en Nueva Inglaterra ha efectuado una
investigacin sobre sus 15 terminales y ha obtenido los siguientes datos
correspondientes al mes de febrero, en los que:
VENTAS = recuperacin total basada en el nmero de boletos vendidos (en
miles de dlares)
PROMOC = cantidad gastada en promover la lnea area en la zona (en miles
de dlares)
COMPET = nmero de aerolneas competidoras en ese aeropuerto
GRATIS = porcentaje de pasajeros que vuelan gratis (por alguna razn)
Ventas ($) Promoc ($) Compet Gratis
2.5
10
3
79.3
6
5.5
8
200.1
12
9
163.2
6.0
16
7.9
7
200.1
8
15
146.0
5.2
9
7.6
12
177.7
8
30.9
2.0
12
10
5
291.9
9.0
8
4
4.0
160.0
9.6
5
16
339.4
7
159.6
5.5
11
6
12
86.3
3.0
6
10
6.0
237.5
5.0
10
4
107.2
155.0
3.5
10
4
a) Determinar la ecuacin de regresin de mejor ajuste para la aerolnea.
b) Los pasajeros que vuelan gratis ocasionan que las ventas bajen
significativamente? Establezca y pruebe las hiptesis apropiadas. Use = 0.05.
c) Un aumento en las promociones de $1000 cambia las ventas en $28000, o es
el cambio significativamente diferente a $28000? Establezca y pruebe las
hiptesis apropiadas. Use = 0.10.
d) D un intervalo de confianza de 90% para el coeficiente de la pendiente de
COMPET.
15. Rick Blackburn est pensando en vender su casa. Con el fin de decidir qu precio
pedir por ella, ha recogido datos de doce ventas recientes. Registr el precio de las
ventas (en miles de dlares), el nmero de pies cuadrados de construccin (en
cientos de pies), el nmero de pisos, el nmero de baos y la antigedad de la
casa(en aos).
Precio de venta Pies cuad. Pisos Baos Antigedad
49.65
8.9
1
1.0
2
67.95
9.5
1
1.0
6
81.15
12.6
2
1.5
11

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 123 de 128

Estadstica Aplicada

81.60
12.9
2
1.5
8
91.50
19.0
2
1.0
22
95.25
17.6
1
1.0
17
100.35
20.0
2
1.5
12
104.25
20.6
2
1.5
11
112.65
20.5
1
2.0
9
149.70
25.1
2
2.0
8
160.65
22.7
2
2.0
18
232.50
40.8
3
4.0
12
a) Utilizando cualquier paquete de computadora que tenga disponible, determine
la ecuacin de regresin de mejor ajuste para los datos.
b) Cul es el valor de R para esta ecuacin?
c) Si la casa de Rick tiene 1800 pies cuadrados, un piso, 1.5 baos y seis aos de
antigedad, qu precio de venta podra esperar Rick?
16. Suponga que el siguiente conjunto especfico de ndices estacionales
corresponden a marzo, est dado como porcentajes y se obtuvo por el mtodo de
la proporcin del modelo mvil:
102.2 105.9 114.3 122.4 109.8 98.9
Cul es el ndice estacional para marzo al usar la mediana?
17. Los siguientes porcentajes especficos para los ndices estacionales corresponden
a diciembre:
75.4 86.8 96.9 72.6 80.0 85.4
Suponga un modelo de descomposicin multiplicativa. Si la tendencia esperada
para diciembre es de $900 y se usa el ajuste estacional de la mediana, Cul es el
pronstico para diciembre?
18. Al preparar un informe para June Bancock, gerente de Kula Department Store,
usted incluye las estadsticas de las ventas del ltimo ao (tabla P.12). Despus de
verlas, la seora Bancock dice: Este informe confirma lo que le he estado
diciendo: el negocio est mejorando cada vez ms. Es correcta esta afirmacin?
Por qu s o por qu no?
TABLA P.12
Mes

Ventas
(miles de
dlares)

ndice
estacional
ajustado (%)

Enero
125
51
Febrero
113
50
Marzo
189
87
Abril
201
93
Mayo
206
95
Junio
241
99
Julio
230
96
Agosto
245
89
Septiembre
271
103
Octubre
291
120
Noviembre
320
131
Diciembre
419
189
Fuente: registros de Kula Department
Store.

19. Los niveles de ventas trimestrales cuantificados en millones de dlares para


Goodyear Tire se muestran en la tabla P.13. Parece que hay algn efecto

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 124 de 128

Estadstica Aplicada

estacional significativo en estos niveles de ventas? Analice esta serie de tiempo


para obtener los cuatro ndices estacionales, y determine la magnitud del
componente estacional en las ventas de Goodyear.
a) Utilizara los componentes de tendencia o estacional, o ambos para realizar el
pronstico?
b) Pronostique los trimestres tercero y cuarto de 1996.
c) Compare sus pronsticos con los realizados por Value Line.
TABLA P.13
Trimestre
1
2
3
4
1985
2292
2450
2363
2477
1986
2063
2358
2316
2366
1987
2268
2533
2479
2625
1988
2616
2793
2656
2746
1989
2643
2811
2679
2736
1990
2692
2871
2900
2811
1991
2497
2792
2838
2780
1992
2778
3066
3213
2928
1993
2874
3000
2913
2916
1994
2910
3052
3116
3210
1995
3243
3351
3305
3267
a
a
1996
3246
3330
3340
3300
a
Estimados de Value Line para 1996.
Fuente: The Value Line Investment Survey (Nueva York, Value Line,
1988, 1989, 1993, 1994, 1996), p.126.
Ao

20. Las ventas mensuales para la Cavanaugh Company, listadas en la tabla P.14, se
presentan a continuacin:
a) Graficar la serie de datos.
b) Realice una descomposicin multiplicativa de las series de tiempo de ventas de
la Cavanaugh Company suponiendo los componentes de tendencia, estacional e
irregular.
c) Utilizara los componentes de tendencia, estacionales, o ambos para realizar el
pronstico?
d) Proporcione los pronsticos por el resto de 2002.
TABLA P.14
Mes
Enero
Febrero
Marzo
Abril
Mayo
Junio
Julio
Agosto
Septiembre
Octubre
Noviembre
Diciembre

1996
154
96
73
49
36
59
95
169
210
278
298
245

Docente:
Docente: Ing. Ferly Urday Luna

1997
200
118
90
79
78
91
167
169
289
347
375
203

1998
223
104
107
85
75
99
135
211
335
460
488
326

1999
346
261
224
141
148
145
223
272
445
560
612
467

2000
518
404
300
210
196
186
247
343
464
680
711
610

2001
613
392
273
322
189
257
324
404
677
858
895
664

2002
628
308
324
248
272

Pgina 125 de 128

Estadstica Aplicada

21. La demanda mensual de gasolina (miles de barriles por da) para la Yukong Oil
Company de Corea del Sur, correspondiente al periodo de enero de 1986 a
septiembre de 1996, est contenida en la tabla P.17.
a) Grafique la serie de tiempo para la demanda de gasolina. Cree que sera
adecuada una descomposicin aditiva o una multiplicativa para esta serie de
tiempo? Explique su respuesta.
b) Desarrolle un anlisis de descomposicin para la demanda de gasolina.
c) Interprete los ndices estacionales.
d) Pronostique la demanda de gasolina para los ltimos tres meses de 1996.
TABLA P.17
Mes
Enero
Febrero
Marzo
Abril
Mayo
Junio
Julio
Agosto
Septiembre
Octubre
Noviembre
Diciembre

1986
15.5
17.8
18.1
20.5
21.3
19.8
20.5
22.3
22.9
21.1
22.0
22.8

1987
20.4
20.8
22.2
24.1
25.5
25.9
26.1
27.5
25.8
29.8
27.4
29.7

1988
26.9
29.4
29.9
32.4
33.3
34.5
34.8
39.1
39.0
36.5
37.5
39.7

1989
36.0
39.0
42.2
44.3
46.6
46.1
48.5
52.6
52.2
50.8
51.9
55.1

1990
52.1
53.1
56.5
58.4
61.7
61.0
65.5
71.0
68.1
67.5
68.8
68.1

1991
64.4
68.1
68.5
72.3
74.1
77.6
79.9
86.7
84.4
81.4
85.1
81.7

1992
82.3
83.6
85.5
91.0
92.1
95.8
98.3
102.2
101.5
98.5
101.1
102.5

1993
102.7
102.2
104.7
108.9
112.2
109.7
113.5
120.4
124.6
116.7
120.6
124.9

1994
122.2
121.4
125.6
129.7
133.6
137.5
143.0
149.0
149.9
139.5
147.7
154.7

1995
145.8
144.4
145.2
148.6
153.7
157.9
169.7
184.2
163.2
155.4
168.9
178.3

1996
170.0
176.3
174.2
176.1
185.3
182.7
197.0
216.1
192.2

22. La tabla P.18 contiene los datos que representan las ventas mensuales de todas
las tiendas minoristas de Estados Unidos, en miles de millones de dlares. Utilice
estos datos a lo largo de 1994 y desarrolle un anlisis de descomposicin para
esta serie. Haga comentarios sobre los tres componentes de la serie. Pronostique
las ventas al menudeo para 1995 y compare sus resultados con los valores reales
que proporciona la tabla.
TABLA P.18
Mes
1988
1989
1990
1991
1992
Enero
113.6 122.5 132.6 130.9 142.1
Febrero
115.0 118.9 127.3 128.6 143.1
Marzo
131.6 141.3 148.3 149.3 154.7
Abril
130.9 139.8 145.0 148.5 159.1
Mayo
136.0 150.3 154.1 159.8 165.8
Junio
137.5 149.0 153.5 153.9 164.6
Julio
134.1 144.6 148.9 154.6 166.0
Agosto
138.7 153.0 157.4 159.9 166.3
Septiembre
131.9 144.1 145.6 146.7 160.6
Octubre
133.8 142.3 151.5 152.1 168.7
Noviembre
140.2 148.8 156.1 155.6 167.2
Diciembre
171.0 176.5 179.7 181.0 204.1
Fuente: Survey of Current Business, 1989, 1993, 1996.

1993
148.4
145.0
164.6
170.3
176.1
175.7
177.7
177.1
171.1
176.4
180.9
218.3

1994
154.6
155.8
184.2
181.8
187.2
190.1
185.8
193.8
185.9
189.7
194.7
233.3

1995
167.0
164.0
192.1
187.5
201.4
202.6
194.9
204.2
192.8
194.0
202.4
238.0

23. La empresa INSUR, se dedica a la produccin de soportes de goma para disminuir


la vibracin de los motores de camiones. La demanda mensual de los aos 1999 2005 se presenta a continuacin:
Mes

2000

Docente:
Docente: Ing. Ferly Urday Luna

2001

2002

AO
2003

2004

2005

2006

Pgina 126 de 128

Estadstica Aplicada

Enero
Febrero
Marzo
Abril
Mayo
Junio
Julio
Agosto
Septiembre
Octubre
Noviembre
Diciembre

781
790
927
936
912
923
949
926
1105
973
828
849

913
822
848
906
918
1012
934
894
1149
948
719
902

800
671
829
895
830
963
899
903
955
819
718
901

774
810
919
852
874
981
883
901
937
807
764
896

733
722
833
843
885
950
830
880
956
800
666
694

619
657
773
751
819
858
779
777
825
787
683
683

599
590
669
675
744
792
755
675
737
692
610
628

Se le pide encontrar un pronstico para todos los meses de los aos 2007-2008,
haciendo uso del ndice estacional ajustado con los promedios mviles, considere
el promedio mvil de 12 meses.
24. La siguiente semana. Stan se dirigi a Laurel para pedirle algunos datos para su
prxima reunin sobre ventas.
Si recuerdas las primeras plticas que tuvimos sobre la historia de la compaa le
dio, recordars que te dije como os sellos y el equipo para sellar, nuestra lnea de
produccin ms extensa, son la piedra angular de nuestras ventas. De hecho es la
lnea de productos con la que, bsicamente empez el negocio el Seor Douglas.
Como estn las cosas, tambin es la lnea de productos que genera mayor nuestro
mayor porcentaje de cobertura Hay algo que puedas hacer, como diagramas o
grficas, que pudiera ilustrar el comportamiento de las ventas de sellos durante los
ltimos diez aos o algo as? Tengo datos de las ventas por da o por mes con los
que puedes trabajar.
Qu tal si desestacionalizo los datos para mostrar una tasa de crecimiento ms
precisa? Sugiri Laurel. Puedo utilizar las cifras sobre ventas mensuales y generar
algunas grficas que muestren las tendencias. Calculando una estimulacin de
mnimos cuadrados, tambin podr darte una herramienta aproximado para que
puedas predecir la venta de sellos, sin tomar en cuenta las diferentes temporadas
de ventas, quiero decir, para los aos venideros Qu te parece?
Me perd en la parte de los mnimos cuadrados admiti Stan - , pero suena
exactamente como la clase de cosa que estoy buscando. Ser interesante ver
como se ven las ve tas sin el efecto de las temporadas. podrs tener una primera
informacin de las cifras para el inicio de la siguiente semana?
Claro que si, respondi Laurel. Te traer todo a tu oficina el lunes o el martes.
a) Haga un anlisis de serie temporal de las ventas de sellos durante los ltimos
diez aos. Desestacionalice las ventas por mes, utilizando el mtodo de razn
de promedio mvil (use un promedio mvil centrado de doce meses). Luego
encuentre la ecuacin lineal de mnimos cuadrados que mejor describa los
datos desestacionalizados.
b) Utilice los resultados que obtuvo para predecir las ventas de cada mes del
2007
c) Observe los residuos asociados con la ecuacin de regresin lineal Existe
algn patrn que pueda hacerle sospechar que una lnea recta no es el mejor
ajuste?

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 127 de 128

Estadstica Aplicada

1997
1998
1999
2000
2001
2002
2003
2004
2005
2006

Ene
1421
1535
1381
1561
1734
2232
1867
2365
2662
3328

Feb
1434
1549
1395
1576
1751
1704
1873
2060
2590
3237

Ventas mensuales de sellos (1997 2006)


Mar Abr May Jun
Jul
Ago Sep
1952 1533 1853 1516 1663 1969 1304
2108 1656 2001 1637 1796 2127 1408
1897 1490 1801 1473 1619 1914 1347
2144 1684 2035 1665 1829 2163 1522
2382 1871 2261 1850 2029 2403 1591
1733 2017 2258 1914 1895 2429 2028
2053 1906 2465 2094 2691 2331 2233
2242 2820 2409 2191 2871 2414 2890
2799 2605 2907 2513 3230 3171 3126
3500 3256 3630 3141 4037 3910 3910

Oct
1465
1582
1424
1609
1788
2371
2828
2380
3676
4595

Nov
1369
1478
1330
1503
1670
1557
2008
2730
2610
3263

Dic
979
1057
1360
1511
1194
1381
1901
2157
2804
3505

25. Los ndices estacionales ajustados que se presentan en la tabla P.19 reflejan el
volumen cambiante del negocio del Mt. Spokane Resort Hotel, el cual recibe a
familias que vacacionan durante el verano y a esquiadores entusiastas durante los
meses de invierno. No se esperan variaciones cclicas repentinas durante 2003.
a) Si 600 turistas estuvieran en el centro vacacional en enero de 2003, cul sera
un estimado razonable para febrero?
b) La ecuacin de tendencia mensual es = 140 +5t donde t = 0 representa el 15
de enero de 1997. Cul es el pronstico para cada mes de 2003?
c) Cul es el nmero promedio de turistas nuevos por mes?
TABLA P.19

Mes
Enero
Febrero

ndice
estacional
ajustado
120
137

Mes
Julio
Agosto

ndice
estacional
ajustado
153
151

Marzo
100 Septiembre
Abril
33 Octubre
Mayo
47 Noviembre
Junio
125 Diciembre
Fuente: registros del Mt. Spokane Resort Hotel.

95
60
82
97

BIBLIOGRAFIA
Estadstica para Administracin y Economa por Anderson.

Docente:
Docente: Ing. Ferly Urday Luna

Pgina 128 de 128

Vous aimerez peut-être aussi