Vous êtes sur la page 1sur 70

3B-3

MÓDULO DE APRENDIZAJE

UNIDAD ACADÉMICA DE ESTUDIOS GENERALES

ESTADÍSTICA

Autores:

Mg. Agustina Ramírez Torres

Mg. Gonzalo Juan Fernández Romero


Mg. Dina Ñuflo Valdivia

Lima – Perú

2018

1
F-CV3-3B-3
Módulo de Aprendizaje

Estadística

Director

Mg. Jorge Antonio Gonzáles Miranda

Coordinadora

Mg. Agustina Ramírez Torres

Autores
Mg. Agustina Ramírez Torres
Mg. Gonzalo Juan Fernández Romero
Mg. Dina Ñuflo Valdivia

Corrector de estilo
Lic. Aram Roosell Simangas Villalobos

2
F-CV3-3B-3
ÍNDICE GENERAL Página

UNIDAD I: CONCEPTOS BÁSICOS DE ESTADISTICA

1. Conceptos Básicos y Variables 05

2. Población, muestra y muestreo 10

3. Instrumento de recolección y elaboración de la matriz de datos 13

UNIDAD II: ESTADISITCA DESCRIPTIVA UNIDIMENSIONAL

4. Tabla de frecuencias y gráficas 17

5. Medidas de tendencia central y posición 26

6. Medidas de dispersión 35

7. Medidas de forma de distribución de datos 39

8. Ejercicios de repaso para el examen 1 40

UNIDAD III: ESTADÍSTICA BIDIMENSIONAL Y REGRESIÓN LINEAL SIMPLE

9. Tablas y gráficas bidimensionales 44

10. Medidas descriptivas bivariadas 50

11. Medidas de correlación 53

12. Regresión Lineal simple 56

UNIDAD IV: TEORÍA DE PROBABILIDADES

13. Probabilidad de eventos simples y condicional 63

14. Probabilidad total y teorema de Bayes 66

15. Exposición del trabajo de investigación formativa 69

BIBLIOGRAFÍA 70

ANEXOS

3
F-CV3-3B-3
Introducción

La estadística contribuye con el análisis estadístico de datos que requieran las instituciones gubernamentales,
educativas, empresarial, ingenierías, investigación científica. En este sentido, el propósito de la Guía de
práctica de Estadística es que el estudiante adquiera la competencia para aplicar las técnicas estadísticas en el
tratamiento y análisis de datos cuantitativos a nivel básico.

El contenido de la guía está dividido en cuatro unidades de aprendizaje de acuerdo a los temas del contenido
del sílabo.

La Primera unidad corresponde a la identificación conceptos básicos. Medición y clasificación de variables.


Población, muestra y muestreo. Métodos de recolección de datos para realizar un estudio.

En la segunda unidad se realiza el análisis descriptivo de datos con una sola variable, cuyos resultados se
presentan en tablas de frecuencias, gráficas y estadísticos de resumen los que describen la frecuencia de
ocurrencia de la característica en estudio.

La tercera unidad corresponde al análisis descriptivo bidimensional, con la finalidad de estudiar la asociación
de variables en tablas de contingencia, gráficos de barras agrupadas y los estadísticos de asociación como el
coeficiente de correlación de Pearson. Formulación del modelo de regresión lineal simple para estimar la
ocurrencia de nuevos valores de la variable dependiente.

La cuarta unidad hace una introducción a las probabilidades para estimar la ocurrencia de ciertos fenómenos
aleatorios, mediante la probabilidad de un evento simple, probabilidad condicional y teorema de Bayes.

Los resultados se obtienen con el complemento de Excel MegaStat, los cuales se redactarán en Word y se
trabajará en equipo como también en forma individual.

Los autores

4
F-CV3-3B-3
Tema 1
Conceptos Básicos y Variables

1.1. Competencia a desarrollar


Identifica conceptos básicos de estadística en los problemas planteados y clasifica las variables.
1.2. Contenido del tema 1

Estadística

Es la ciencia que proporciona un conjunto de métodos, técnicas y procedimientos para recolectar,


procesar, organizar, presentar y analizar datos con el fin de describirlas características de un estudio,
realizar estimaciones o generalizaciones válidas,(Córdova M. 2003).Según el objetivo de análisis
estadístico tenemos: Estadística descriptiva y la Inferencia estadística.

Estadística Descriptiva

Son métodos y técnicas relacionados a la recolección, organización, presentación e interpretación de


resultados, que permiten describir apropiadamente las características de un conjunto de datos.
Comprende el uso de gráficos, tablas, diagramas y criterios para el análisis.

Inferencia Estadística

Son métodos y técnicas que hacen posible la estimación de una o más características de una población
para tomar decisiones, basadas en el resultado de muestras. Estas conclusiones tienen cierto margen de
error y probabilidad de ocurrencia.

Población

Es el conjunto de todas las unidades de estudio que contienen características observables de naturaleza
cualitativa o cuantitativa que se pueden medir relacionado a un tema de estudio.

Muestra
Es un grupo de unidades de debidamente seleccionados de una población con el propósito de investigar
determinadas características de la población.

Unidad de estudio

Es el sujeto de interés que va a ser investigado y es único, posee características medibles determinadas
por los objetivos del estudio.

Dato

Es el valor nominal o numérico que se obtiene al medir la característica de la unidad de estudio.

Variable
Es unacaracterística medible u observable en una unidad de estudio y el valor medido varían en cada
unidad de una población o muestra, por ejemplo: sexo, sector económico, edad, grado de
instrucción,talla, peso,hijos por familia, etc.

Clasificación de las variables


Según la naturalezade recolección de datos se clasifican en:

 Variables cualitativas; Llamadas también categóricas, expresan atributos sin orden cuyos valores se
miden en escala nominal, y atributos con orden que se miden en escala ordinal.

 Variables cuantitativas; Llamadas también numéricas, son valores que expresan cantidades y se
mide en escala de intervalo o razón, se clasifican en continuas y discretas.

5
F-CV3-3B-3
Escala de medición de las variables
La medición de las variables se hace con un instrumento que asigna valores (categorías o números) a una
variable estadística, el cual permite la obtención de datos en las unidades de estudio. Las escalas de
medición son: Nominal, ordinal, intervalo y razón

Escala nominal
Admite dos o más valores a una variable, el cual permite percibir las diferencias y semejanzas entre las
unidades de estudio que se van a medir, como por ejemplo, la variable sexo tiene dos valores: masculino
y femenino.

Escala ordinal
Los valores asignados a la variable expresan orden o grados en forma ascendente o descendente, el cual
nos permite comparar en niveles como “mayor que” o “menor que” a cada categoría medida en la unidad
de estudio, como por ejemplo, la variable grado de instrucción toma los valores ordinales: primaria,
secundaria y superior.

Escala de intervalo
Los valores numéricos asignados a la variable permite comprobar cuantas veces es diferente entre dos
valores medidos. Esta medición puede ser un número positivo, número negativo y el valor cero indica
medición de la variable, que es un “cero relativo” como por ejemplo, la temperatura: 0°C, -8°C, 24°C
Escala de razón
Llamado también escala de proporción, mide valores numéricos a partir de cero y números positivos,
donde el valor cero indica el inicio de medición (cero absoluto) u origen, por ejemplo, el peso de una
persona es 50 kg.

Ejemplo 1
Un importador de juguetes desea hacer una encuesta para conocer la preferencia de compra de los
posibles clientes de estos productos. Las variables a medir son: la edad del niño, sexo, calidad del
producto, cantidad de juguetes que compra, etc. Se pide clasificar las variables según su naturaleza y
escala de medición.

Variables Tipo de variable Escala de medición Valores (datos)


cuantitativo 1 año
Edad del niño Razón
continua 5 años
Masculino
Sexo cualitativo nominal nominal
Femenino
Mala
Calidad del juguete cualitativo ordinal ordinal Regular
Buena
Cantidad de juguetes comprados cuantitativo discreta Razón 0, 1, 2, 12,….

1.3. Preguntas de aplicación

Problema 01:
El gerente de la Administradora de Fondos de Privado de Pensiones de Jubilación SECURITEX S.A (AFP),
sabe que cuentan con una cartera de 985 537 asegurados. Ante la aprobación de nuevas leyes por el
estado, es necesario realizar un estudio sobre algunas características importantes para fidelizar a sus
afiliados y no retiren sus fondos ante nuevas políticas de inversión. Para el estudio, se seleccionó una
muestra representativa de 654 clientes para aplicarles una encuesta, y algunas de las variables
consideradas fueron como el número de miembros por afiliado, el tipo de seguro, costo del seguro, edad,
sexo, satisfacción por la inversión de sus fondos y grado de instrucción. De acuerdo al texto contestar el
siguiente cuestionario:

6
F-CV3-3B-3
1. Se pide identificar los conceptos estadísticos relacionando las frases y colocando la letra que
corresponda

a) Del total de afiliados, el número promedio de miembros por familia por


( ) Variable
afiliado es de 5 miembros.
b) De los 654 afiliados seleccionados para el estudio, el 25% cuenta con un
( ) Parámetro
seguro de vida.
c) Se observó que el Sr. Pérez, uno de los 654 clientes elegidos, tiene grado de
( ) Muestra
instrucción superior.
d) Según los resultados del estudio en los 654afiliados de la AFP, el gerente
( ) Población estimó que la pensión promedio mensual de jubilación de todos los
asegurados que cumplieron los65años fue de 870 soles.
( ) Unidad de
e) La AFP SECURITEX cuenta con 985 537 afiliados
estudio
( ) Inferencia f) El Sr. Pérez es uno de los afiliados de la AFP SECURITEX

( ) Dato g) Se ha seleccionado a 654 afiliados que participen de una encuesta

( ) Estadístico h) El grado de instrucción de los afiliados

2.- Con la información recolectada a través de las características de las unidades


muestralesseleccionadasse elaboró una matriz de datos, como se muestra a continuación:

Edad del Miembros Tipo de Pago Retira su Satisfacción por


N° Sexo Estudios
afiliado por familia seguro mensual (S/) fondo inversión de fondos

1 35 M 3 Salud 60 Superior Si Insatisfecho

2 24 F 1 Vida 54 Superior No Muy satisfecho

3 42 F 1 Salud 55 Secundaria Si Poco satisfecho

: : : : : : : : :

120 40 M 4 Salud 80 Primaria No Poco satisfecho

: : : : : : : : :

654 55 F 2 Salud 65 Superior Si Insatisfecho

Se pide clasificar las variables de la matriz de datos según su naturaleza y escala de medición.

Variable Tipo de variable Escala de medida

7
F-CV3-3B-3
Problema 02:
Clasifique las variables según su naturaleza y escala de medición en las casillas que están en blanco.

Escala de
Nº Variable Tipo de variable Valores (Ej. Datos)
medición
1 Edad de los congresistas
Estatura de los deportistas de un
2
club
Sueldo de los empleados de una
3
empresa
Profesión de los empresarios de
4
Gamarra
Distrito de residencia de los
5
estudiantes
Grado de instrucción de los
6
clientes de un banco
Nivel de satisfacción de los
7
usuarios de ESSALUD
Peso de recién nacidos en un
8
hospital
Tiempo de tratamiento con un
9
antidepresivo
Número de hijos de los
10
trabajadores de una empresa

Problema 03:
La gerente de Recursos Humanos de una empresa ha elaborado una prueba de aptitud (evaluados en una
escala de 1 a 100) para los 5 puestos de trabajo ofertados; los que obtengan las mejores calificaciones
serán los mejores candidatos para cubrir la plaza de dos secretarias, uno para seguridad, un administrador
y un contador. Respondiendo al llamado se presentaron 21 postulantes aptos según el perfil requerido.

a. De acuerdo al texto, identifique lo siguiente:


Población de estudio

Muestra

Unidad de estudio

b. Proponga algunas variables que se debe considerar en el estudio y clasifique según su naturaleza y
escala de medición

Variable Tipo de variable Escala de medida Valores

Problema 04:
Un grupo de investigadores tienen el propósito de conocer cuáles son las condiciones socioeconómicas de
las familias residentes en el distrito de Ventanilla. Para el estudio se ha determinado entrevistar a 300
familias elegidas aleatoriamente. La encuesta se realizó en distintas zonas del distrito y algunas
características estudiadas son:
Tamaño familiar:Número de miembros en la familia
Ingresos:Ingreso familiar mensual
Estudios:Grado de instrucción alcanzado por el jefe de familia
Vivienda: Tipo de material de la vivienda (Prefabricado, material noble, Quincha)

8
F-CV3-3B-3
Complete las casillas en blanco identificando en enunciado del problema lo siguiente:

Población de estudio

Muestra
Unidad de Estudio
Clasificación de la estadística

Determine y clasifique las variables según su naturaleza y escala de medición

Variable Tipo de variable Escala de medida Valores

1.4 Bibliografía

1. Ávila, RB. (2010). Estadística Elemental. Lima: Estudios y ediciones R.A.


2. Córdova, M. (2003). Estadística Descriptiva e Inferencial. Aplicaciones. (5ª ed.). Lima: Moshera.
3. Newbold, P., Carlson, WL.,Tghorne, B. (2008). Estadística para Administración y Economía. (6ª ed.).
España:Edit. Pearson Educación S.A. P: 1-13.
4. Black, K. (2008). Estadística en los negocios. (2ª ed.). México: Grupo Editorial Patria S.A.

9
F-CV3-3B-3
Tema 2
Población, Muestra y Muestreo

2.1 Competencia a desarrollar


Comprende y utiliza los conceptos básicos de estadística para determinar con precisión la población,
muestra y el muestreo que se debe aplicar en investigación formativa.
2.2 Contenido del tema 2
Población de estudio
Población de estudio lo conforman todos los sujetos, elementos o entes con características similares
para un determinado tema de investigación. Esta población puede ser un conjunto finito o infinito de
datos que corresponde a una misma característica (variable) o combinación de características de
individuos, entidades o elementos de interés que se desea estudiar. Por ejemplo estudiantes de una
universidad.
Cuando una población de estudio no se puede estudiar todas las unidades, ya sea por la gran cantidad de
unidades o por el costo que implica la investigación, se debe seleccionar una muestra representativa
utilizando un método de selección llamado muestreo.
Muestreo
Es el proceso de seleccionar los individuos o elementos (unidades de estudio) que conformarán la
muestra representativa de una determinada población de estudio con el propósito de hacer inferencias.
Esta selección se hace utilizando un muestreo probabilístico o no probabilístico según el diseño de la
investigación.
Tipos de muestreo
 Muestreo probabilístico
Son métodos probabilísticos que se basan en el principio que cada unidad de estudio de la población
tenga igual probabilidad de ser seleccionado en la muestra para asegurar la representatividad de la
muestra extraída, de tal modo que sea útil para hacer inferencias sobre dicha población. Estos
métodos de muestreos probabilísticos puede realizarse de forma manual o mediante software y son:
Muestreo aleatorio simple, muestreo sistemático, muestreo estratificado y muestreo por
conglomerados.
 Muestreo no probabilístico
Es útil para estudios exploratorios y cuando el muestreo probabilístico es muy costoso. La muestra
extraída no da certeza de representatividad, debido a que no todos los sujetos de la población tienen
la misma probabilidad de ser elegidos. Por lo general, la selección de las unidades de la muestra se
hace bajo determinados criterios del investigador, procurando en la medida de lo posible que sea
representativa. Entre los métodos de muestreo no probabilísticos más utilizados son: Accidental, por
selección de criterio, por cuotas y bola de nieve.
Ejemplo 2
Un candidato a la alcaldía de cierto distrito, solicita los servicios de una encuestadora para que
realicen un estudio con la finalidad de estimar el gasto promedio mensual en alimentación en las
familias de su comuna. El responsable del estudio ha seleccionado aleatoriamente cada 15 a 200
familias residentes en el distrito; los resultados revelan que las familias en promedio gastan en
alimentación 650 soles mensuales. Determinar la población, muestra, muestreo, unidad de estudio,
variables, estadístico y parámetro:
Solución
Población de estudio: Todas las familias que son residentes del distrito
Unidad de estudio: Cada una de las familias que vive en el distrito
Muestra: 200 familias del distrito
Variable de estudio: Gasto mensual en alimentación
Tipo de variable: Cuantitativa continua
Escala de medición: Razón
Muestreo: Aleatorio sistemático
Estadístico: Gasto promedio en alimentación de las 200 familias es 650 soles.
Parámetro: Gasto promedio estimado en alimentación de las familias del distrito es de 650 soles.

10
F-CV3-3B-3
1.3 Preguntas de aplicación
Problema 01:
El departamento de control de calidad de ANCORP S.A. ante las quejas de sus clientes, decide investigar
si sus productos cumplen con las especificaciones de peso exacto en el etiquetado de bolsas de arroz
superior de 5kg. Para comprobar la sospecha, selecciona al azar 5 bolsas de un lote de producción
durante 3 semanas consecutivas y registra su peso luego de ser pesadas en una balanza calibrada. Si se
comprueba la veracidad de la sospecha la máquina de llenado debe ser regulada. Los resultados revelan
que el peso medio fue de 4999 gr. Se pide determinar:

Variable Tipo de variable Escala de medición Valores

a. Población:______________________________________________________________________________
b. Muestra:________________________________________________________________________________
c. Unidad de estudio:_______________________________________________________________________
d.Tipo de muestreo:________________________________________________________________________
e.El peso medio de las bolsas de arroz superior fue de 4 999 gr, es un___________________________
Problema 02:
En las oficinas administrativas del MINSA, en el área de Logística trabajan 150 personas, se desea saber
sobre el manejo del estrés laboral. El encargado del estudio tiene que seleccionar una muestra
representativa de 30 trabajadores, y luego se debe aplicar el cuestionario para recolectar datos. Se pide
presentar el listado de los números seleccionados utilizando un muestreo aleatorio simple y la tabla de
números aleatorios considerando como arranque fila5 y columna3.
Población de estudio: _______________________________________________________________________
Muestra de estudio: ________________________________________________________________________
Listado de los 30 números seleccionados utilizando muestreo aleatorio simple:
1 11 21
2 12 22
3 13 23
4 14 24
5 15 25
6 16 26
7 17 27
8 18 28
9 19 29
10 20 30
Problema 03:
El alcalde de Lima está interesado en evaluar el nivel de satisfacción sobre el servicio de transporte
urbano “Corredor Azul” de Lima, para sustentar la continuidad del contrato. El encargado del estudio
realizó una encuesta a 375 personas, quienes fueron seleccionados según el grupo de edad, 150 jóvenes,
175 adultos y 50 adultos mayores. Se pide identificar:

Variable(s) Tipo de variable Escala de medición Valores

a. Población:______________________________________________________________________________
b. Muestra:________________________________________________________________________________
c. Unidad de estudio:_______________________________________________________________________
d.Tipo de muestreo:________________________________________________________________________

11
F-CV3-3B-3
Problema 04:
El4 de octubre del 2014, IPSOS Perú realizó una encuesta de opinión sobre la intención de voto, respecto
a las preferencias políticas para ocupar la alcaldía de Lima, la cual reveló que el 46.6% votaría por Luis
Castañeda. Este resultado proviene de una muestra de 2140 electores hábiles, seleccionados por
muestreo bietápicode los 42 distritos de la provincia de Lima. Se pide determinar:

Variable Tipo de variable Escala de medición Valores

a. Población:________________________________________________________________________
b. Muestreo:________________________________________________________________________
c. Variable de interés en el estudio:____________________________________________________
d. Escala de medición de la variable___________________________________________________
e. El dato de 46.6% ¿Es un estadístico o parámetro?_______________________________________

Problema 05:
Bendezú Vilma y Chirinos Claudia realizaron una investigación en 76 adolescentes cuyo objetivo es
determinar las características sociodemográficas, culturales y familiares de las adolescentes
embarazadas atendidas en los consultorios externos de Gineco-Obstetricia del hospital Daniel Alcides
Carrión, Callao, 2015. Entre algunos resultados muestran que el 40.9% tuvo 16 años de edad, el 80.3% no
asistieron a ningún programa de educación sexual y planificación familiar, la edad de inicio de
relaciones sexuales del 60.5% fue a los 15 años de edad, el 68.4% mencionan que sus padres no le
prestan atención y el 81.6% declaran haber sufrido por parte de sus padres. Se pide determinar:

Variables Tipo de variable Escala de medición Valores

a. Población:______________________________________________________________________________
b. Muestra:_______________________________________________________________________________
c. Unidad de estudio:______________________________________________________________________
d. Tipo de muestreo:_______________________________________________________________________
e. El 60.5% de 76 adolescentes embarazadas declaró que la edad de inicio de relaciones sexuales fue a
los 15 años de edad, este es un____________________________________________________________

2.4 Bibliografía

1. Ávila, RB. (2010). Estadística Elemental. Lima: Estudios y ediciones R.A.


2. Córdova, M. (2003). Estadística Descriptiva e Inferencial. Aplicaciones. (5ª ed.). Lima: Moshera.
3. Black, K. (2008). Estadística en los negocios. (2ª ed.). México: Grupo Editorial Patria S.A.
4. Martínez, C. (2005). Estadística y Muestreo. (12ª ed.) Colombia. Editorial Eco Ediciones.

12
F-CV3-3B-3
Tema 3
Instrumento de recolección y elaboración de la base de datos

3.1 Competencia a desarrollar


Elaborala matriz de datos en Excel con las variables consideradas en el instrumento de recolección de
datos.
3.2 Contenido del tema 3
Técnicas de recolección de datos
Requiere la elección de una técnica y de un instrumento que permita medir las características de las
unidades de estudio en una muestra o población. De acuerdo con Hernández, Fernández y Baptista
(2010), “Recolectar datos implica elaborar un plan detallado de procedimientos que nos conduzca a
reunir datos con un propósito específico” (p.198). Entre las técnicas de recolección tenemos:

Encuesta Documentos Entrevista Observación

Información Se obtiene Información El investigador


proporcionada por Información de proporcionada por recopila datos de
los mismos sujetos historias clínicas, los mismos sujetos manera
sobre opiniones, registros físicos o sobre opiniones sistemática
conocimientos de electrónicos para con un moderador observando la
un tema de investigar un tema sobre un tema de ocurrencia de los
interés. de interés. interés. hechos.

Instrumentos
Recurso que usa el investigador para registrar información y son: cuestionarios, guías de observación,
inventario y escalas. Todo instrumento de medición debe comprobarse la confiabilidad y validez, con la
finalidad de garantizar datos útiles y confiables. La elaboración del instrumento se hace en base al
cuadro de operacionalización de variables.
Con los datos obtenidos de los sujetos implicados en el estudio, es necesario organizar la información
recolectada para el procesamiento de datos, la misma que puede hacerse de forma manual o con el uso
de un software como Excel, SPSS, Stata, Statgraphics, Minitab, entre otros.
El uso de software para el procesamiento de datos, nos permite el manejo de muestras o poblaciones
con gran número de unidades y la obtención de los resultados con mayor velocidad.
Elaboración de la base de datos
Es el traslado de la información recogida mediante los instrumentos de recolección de datos a un
software estadístico o Excel, ello le permite al investigador procesar y obtener resultados que describan
la magnitud del problema en estudio. Una base de datos contiene todos los registros de la muestra o
población en estudio lista para ser procesada en cualquier momento.
Para el procesamiento de datos se realizará usando el complemento MegaStat de Excel.
3.3 Preguntas de aplicación

Problema 01:
El Director del Centro Geriátrico RENACER del distrito del Rímac, ha realizado un estudio con el
propósito de describir el estado nutricional y las enfermedades más frecuentes que presentan los
pacientes que fueron atendidos en el primer trimestre del año 2016. Se elaboró una ficha de datos para
recolectar información de las historias clínicas de cada paciente como se muestra a continuación:

13
F-CV3-3B-3
Centro Geriátrico RENACER- Rímac
FICHA DE DATOS
SERVICIO: Enfermería
ACTIVIDAD: Estado nutricional de pacientes hospitalizados
1. Sexo: 1) Masculino 2) Femenino
2. Peso……………………….
3. Talla……………………….
4. Edad……………………….
5. Diagnóstico: 1) Enfermo Mental 2) Físicamente enfermo 3) Retrasado mental
6. Lugar de Destino: 1) Hogar de familiares 2) No ha dejado el Geriátrico
3) Fallecido 4) Hospital 5) Sanatorio particular 6) Otro Geriátrico

Se pide a usted que elabore una base de datos en Excel y debe grabar como Pacientes Geriátricos.

Base de datos de pacientes del Centro geriátrico Renacer


Sexo Peso Talla Edad Diagnóstico Destino

1 Masculino 72 1.68 29 Enfermo mental Hogar de familiares
2 Masculino 67 1.68 35 Enfermo mental No ha dejado el Geriátrico
3 Femenino 52 1.55 34 Físicamente enfermo No ha dejado el Geriátrico
4 Masculino 74 1.72 36 Enfermo mental No ha dejado el Geriátrico
5 Femenino 54 1.57 25 Retrasado mental No ha dejado el Geriátrico
6 Femenino 48 1.55 20 Enfermo mental No ha dejado el Geriátrico
7 Femenino 55 1.60 31 Físicamente enfermo No ha dejado el Geriátrico
8 Femenino 51 1.60 89 Físicamente enfermo Fallecido
9 Masculino 55 1.63 42 Retrasado mental No ha dejado el Geriátrico
10 Masculino 53 1.68 41 Enfermo mental No ha dejado el Geriátrico
11 Femenino 62 1.55 47 Físicamente enfermo No ha dejado el Geriátrico
12 Masculino 60 1.66 41 Físicamente enfermo Hogar de familiares
13 Masculino 51 1.54 87 Enfermo mental No ha dejado el Geriátrico
14 Femenino 55 1.59 56 Retrasado mental Fallecido
15 Femenino 55 1.57 50 Retrasado mental No ha dejado el Geriátrico
16 Femenino 52 1.57 28 Físicamente enfermo Otro Geriátrico
17 Masculino 67 1.69 35 Retrasado mental No ha dejado el Geriátrico
18 Femenino 52 1.59 23 Físicamente enfermo No ha dejado el Geriátrico
19 Femenino 48 1.56 39 Retrasado mental Hospital
20 Masculino 65 1.68 42 Enfermo mental No ha dejado el Geriátrico
21 Femenino 48 1.56 72 Enfermo mental Sanatorio particular
22 Masculino 68 1.69 52 Enfermo mental No ha dejado el Geriátrico
23 Femenino 57 1.62 31 Físicamente enfermo No ha dejado el Geriátrico
24 Masculino 70 1.72 35 Físicamente enfermo Otro Geriátrico
25 Masculino 59 1.67 42 Físicamente enfermo No ha dejado el Geriátrico
26 Femenino 68 1.68 29 Enfermo mental Hogar de familiares
27 Femenino 59 1.60 61 Retrasado mental No ha dejado el Geriátrico
28 Femenino 57 1.53 18 Enfermo mental Hospital
29 Femenino 51 1.61 64 Retrasado mental No ha dejado el Geriátrico
30 Masculino 61 1.68 51 Físicamente enfermo No ha dejado el Geriátrico
31 Femenino 52 1.57 30 Físicamente enfermo Hogar de familiares
32 Femenino 65 1.64 35 Retrasado mental No ha dejado el Geriátrico
33 Masculino 57 1.66 40 Físicamente enfermo Sanatorio particular
34 Masculino 57 1.58 76 Retrasado mental Hospital
35 Masculino 68 1.73 59 Físicamente enfermo No ha dejado el Geriátrico
36 Femenino 46 1.54 71 Enfermo mental Sanatorio particular
37 Femenino 48 1.52 62 Enfermo mental No ha dejado el Geriátrico
38 Femenino 51 1.58 65 Enfermo mental Hospital
39 Masculino 75 1.73 51 Retrasado mental No ha dejado el Geriátrico
40 Femenino 64 1.65 18 Retrasado mental Otro Geriátrico
Fuente: Enfermería, Renacer

Problema 02:
El Director de recursos humanos de la empresa CredisaPhilco S.A. ha diseñado un cuestionario, con el
propósito de conocer como es la relación entre compañeros de trabajo. La aplicación de la encuesta se
hizo enviando al correo de los trabajadores, luego será devuelto con los datos llenos de cada trabajador.
El cuestionario fue el siguiente:

14
F-CV3-3B-3
Cuestionario de opinión referente a la relación entre compañeros

Estimado colaborador, con la finalidad de mejorar la relación entre compañerismo, responda


el siguiente cuestionario con toda sinceridad indicando la opción que usted considere correcta.
1) Edad..…………
2) ¿Cuántos años de educación concluidos tiene?…………..
3) Género
 Masculino  Femenino
4) Ingreso semanal…………...…..……….
5) Tiempo que fue ascendido a ocupar un cargo superior………………..
6) Área de trabajo
 Administración  Ventas Producción
7) Relación de compañerismo
 Muy buena Buena  Regular  Mala

Base de datos de pacientes delos empleados CREDISA PHILCO


Empleado Edad Años_Educ Género Ingresos Promoción Area Compañerismo
1 35 20 Masculino 783 1 Administración Regular
2 64 14 Femenino 257 5 Ventas Mala
3 33 15 Femenino 405 5 Producción Mala
4 23 14 Masculino 202 1 Producción Regular
5 33 12 Femenino 252 1 Ventas Mala
6 60 14 Masculino 357 3 Administración Mala
7 37 14 Femenino 150 2 Ventas Mala
8 25 13 Femenino 180 5 Ventas Regular
9 39 18 Masculino 608 4 Administración Mala
10 35 16 Masculino 384 3 Ventas Regular
11 35 12 Femenino 310 2 Ventas Buena
12 49 13 Masculino 766 5 Administración Mala
13 34 12 Femenino 333 1 Producción Muy buena
14 50 14 Femenino 158 1 Ventas Buena
15 49 4 Masculino 275 4 Producción Mala
16 39 16 Masculino 642 1 Producción Mala
17 61 12 Femenino 320 5 Producción Mala
18 59 16 Femenino 266 2 Producción Mala
19 25 16 Masculino 331 1 Ventas Mala
20 20 11 Masculino 105 1 Ventas Mala
21 37 13 Femenino 357 4 Ventas Buena
22 24 12 Femenino 243 1 Producción Regular
23 33 10 Masculino 333 2 Producción Mala
24 30 16 Femenino 300 2 Ventas Regular
25 43 13 Masculino 252 1 Ventas Mala
26 56 16 Femenino 361 1 Ventas Mala
27 35 15 Masculino 427 2 Producción Mala
28 35 16 Masculino 147 1 Ventas Regular
29 42 16 Femenino 237 5 Ventas Mala
30 34 12 Femenino 313 4 Ventas Regular
31 50 14 Femenino 241 2 Ventas Mala
32 34 12 Femenino 303 2 Producción Regular
33 41 13 Masculino 164 5 Ventas Mala
34 44 16 Femenino 179 5 Producción Regular
35 27 17 Femenino 204 2 Producción Regular
36 40 13 Masculino 263 1 Ventas Regular
37 33 16 Femenino 216 4 Ventas Mala
38 38 19 Masculino 487 1 Producción Mala
39 41 15 Masculino 184 4 Ventas Buena
40 32 12 Femenino 148 2 Ventas Buena
41 58 14 Masculino 537 5 Administración Regular
42 28 16 Femenino 170 1 Ventas Mala
43 18 12 Masculino 115 2 Ventas Muy buena
44 33 16 Femenino 177 5 Ventas Mala
45 34 9 Femenino 118 2 Ventas Regular
46 48 17 Femenino 328 4 Administración Regular
47 21 14 Femenino 163 3 Ventas Mala
48 26 16 Femenino 447 3 Producción Mala
49 39 18 Masculino 756 5 Administración Mala
50 29 17 Femenino 501 1 Producción Buena
Fuente: Recursos Humanos Credisa Philco S.A.

15
F-CV3-3B-3
Se pide elaborar la base de datos en Excel correspondiente a los empleados de CredisaPhilco S.A.

3.4 Bibliografía
1. Ávila, RB. (2010). Estadística Elemental. Lima: Estudios y ediciones R.A.
2. Álvarez, R. (2007). Estadística aplicada a las ciencias de la salud. Madrid: Díaz de Santos.
3. Daniel W. (2009). Bioestadística - Base para el Análisis de las Ciencias de la Salud. (4ª ed.) México:
Editorial Limusa S.A.
4. Balzarini, M., Tablada, M. (2011). Introducción a la Bioestadística. Brujas: Córdova.

16
F-CV3-3B-3
Tema 4
Tablas de frecuencias y gráficas

4.1 Competencia a desarrollar


Elabora e interpreta tablas de frecuencias y gráficas de variables cuantitativas o cualitativas.
4.2 Contenido del tema 4
Organización y presentación de datos

Los métodos para organizar y presentar los resultados son las tablas de frecuencias y las gráficas, las
mismas que sirven para resumir y ver la tendencia de los datos, para que el investigador pueda analizar y
tomar decisiones.

Tablas de distribución de frecuencias

Es una tabla de distribución de los datos agrupados en categorías o clases mutuamente excluyentes de
acuerdo a la escala de medición de los valores.Cada clase o categoría indica el número de observaciones
conocido como frecuencias y son:

Frecuencia absoluta simple (fi).- es la cantidad de datos pertenece a una clase o categoría.

Frecuencia relativa simple (hi).-representa la proporción de datos que pertenecen a una clase y se
obtiene:

𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎 𝑓𝑖
ℎ𝑖 = =
𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠 𝑛

Frecuencia porcentual (hi%).- es la frecuencia relativa simple multiplicada por 100% y se calcula:

hi% = hix100%

Una tabla de distribución de frecuencias de tener las siguientes partes: Número de la tabla, encabezados
de las columnas, cuerpo y fuente. Por ejemplo:

Tabla 1.
Título de la tabla Enumeración y título
Variable Frecuencia Proporción Porcentaje Encabezados
X1 f1 h1=f1/n h1=(f1/n)*100
X2 f2 h2= f2/n h2= (f2/n)*100
Cuerpo
… … … …
Xk fk hk= fk/n hk= (fk/n)*100
Total n 1 100%
Fuente: (persona o entidad que recolecta los datos) Fuente

La suma de las frecuencias absolutas simples es el total de la muestra (n). La suma de las frecuencias
relativas simples es igual a 1y la suma de las frecuencias porcentuales suma 100%.

Gráficas estadísticas

Es la representación de datos en forma visual llamado gráfica, para ello se debe considerar el tipo de la
variable y su escala de medición de los valores, tales como:

Variables cualitativas: gráfico de barras, gráfico de sectores


Variables cuantitativas discretas: gráfico de bastones
Variables cuantitativas continuas: histograma de frecuencias, polígono de frecuencias, ojivas, líneas,
diagrama de cajas y bigotes, gráfico de dispersión, etc.

17
F-CV3-3B-3
Distribución de frecuencias para variables cualitativas

Si los datos fueron medidos en escala nominal la tabla de frecuencias contiene las categorías, las
frecuencias absolutas y las frecuencias relativas.

Ejemplo 3

Una clínica local realizó un estudio a 54 pacientes que salieron de alta durante una semana y cancelaron
con tarjeta de créditoy corresponden a: Visa (V), Mastercard (M), Dinner (D) y Otras (O). Los datos son:

V V M D M M

V V V D V O

V D V O V D

O M M O M V

V M M V O M

D M D V V D

V D V V D M

V V V M O D

M D M O V V

Se pide: a) organizar los datos en una tabla de frecuencias b) Interpretar frecuencias c) elabore un gráfico
de barras.

Solución

a) Tabla de frecuencias

Tabla 2.
Distribución sobre el uso de tarjetas de crédito
Tipo de tarjeta Frecuencias Proporción Porcentajes
MASTERCARD 14 0.26 26%
VISA 22 0.41 41%
DINNER 11 0.20 20%
OTROS 7 0.13 13%
Total 54 1.00 100%
Fuente: Clínica XXXX

b) Interpretación de frecuencias

Interpretación de la segunda frecuencia absoluta

f2= 22; 22 de 54 clientes usaron tarjeta VISA para cancelar los servicios de la clínica.

Interpretación de la tercera frecuencia relativa (proporción)

f3= 0.20; El 0.20 de 54 clientes usaron tarjeta VISA para cancelar los servicios de la clínica.

Interpretación de la primera frecuencia relativa porcentual

h1% = 26%; El 26% de 54 clientes usaron tarjeta VISA para cancelar los servicios de la clínica.

18
F-CV3-3B-3
c) Gráfico de barras

Gráfica 1.
Pago por serviciosde la clínica XXXX según tipo de tarjeta de crédito
50%
41%
40%

30% 26%
20%
20%
13%
10%

0%
MASTERCARD VISA DINNER OTROS

Fuente: Área de Ventas, clínica XXXX

Ejemplo 4

Un estudio ejecutado por el PewResearchCenter's Internet & American Life


Project(http://www.pewinternet.org), Su objetivo fue analizar la actitud de los jóvenes en EEUUante
las redes sociales y su configuración de la privacidad. Para ello se ha llevado a cabo unaencuesta a 586
usuarios de Facebook. A continuación se muestrala gráfica con los resultados de los datos de dicho
estudio.

Gráfico de sectores

Gráfico 2.
Configuración de la privacidad del perfil de Facebook

Fuente: Pew Research Center's Internet & American Life Project

a) Interpreta los resultados de la gráfica


b) ¿Cuántos encuestados tienen una configuración privada en su perfil de Facebook?

Solución

a) Interpretación

En la gráfica 2 se observa que el 60% de usuarios de Facebook tiene configuración pública.

b) De la gráfica, Total de encuestados = n = 586.


nx0.26 = 586x0.26 = 152.36 = 152

19
F-CV3-3B-3
152 encuestados han configurado como privado su perfil de Facebook
Distribución de frecuencias para variables cuantitativas discretas

El resumen de los datos cuantitativos discretos debe presentarse en una tabla de frecuencias y su
representación gráfico es bastones.

Ejemplo 5

Los siguientes datos corresponden a una encuesta realizada a un grupo de padres de familia de una
comunidad, la muestra está conformada por 88 familias. Una pregunta fue ¿cuántos hijos vivos tiene
usted? las respuestas se muestra en la siguiente tabla:

Tabla 3. Cantidad de hijos familia


Hijos Frecuencia
1 7
2 22
3 31
4 15
5 10
6 3
Total 88

Se pide elaborar el gráfico de bastones

Gráfico 3.
Distribución de hijos por familia de la comunidad

Fuente: Elaboraciónpropia

Distribución de frecuencias para variables cuantitativas continuas

El resumen de los datos cuantitativos continuos correspondiente a una sola variable debe presentarse en
una tabla de frecuencias agrupadas en intervalos o llamado también clases y su gráfica se representa
con histograma de frecuencias, polígono de frecuencias, ojivas, diagrama de cajas simple.

Elaboración de una tabla de distribución de frecuencias agrupadas en intervalos

El procedimiento es el siguiente:

1) Calcular el rango (R) o recorrido de los datos, el cual se define:

20
F-CV3-3B-3
R = Valor máximo – valor mínimo

2) Determinar el número de clases o intervalos (K) por el método de Sturges:

K = 1+3.32* log(n)

3) Determinar la Amplitud o anchura (C) de los intervalos, definido como:

𝑹
𝑪=
𝑲

4) Determinar los límites de cada intervalo o clase, se recomienda entre 5 y 20 intervalos.

Ejemplos de intervalos que se puede utilizar:

[10 - 20] Intervalo cerrado


[10 – 20> Intervalo semicerrado
<10 - 20] Intervalo semicerrado

Representación gráfica de variables cuantitativas continuas


Gráfico polígono de frecuencias
Gráfico: Histograma de frecuencias
Gasto por consumo de alimentos Edades de trabajadores de una empresa

Fuente: Elaboración propia


Fuente: Recursos Humanos

Ejemplo 6
La gerencia de la empresa BIGDATA realizó un estudio sobre el ingreso mensual de sus empleados que
estudian maestría, con la finalidad de planificar un aumento de acuerdo al cargo que desempeñan en la
empresa. Con los datos que se muestra a continuación, se pide elaborar una tabla de frecuencias,
histograma y una ojiva.

1400 1800 1900 2100 2400 2000 2500 1900 2000 2150
2300 2600 2800 1700 1600 1650 2000 2400 1400 2300
1900 1750 2200 1800 1900 2100 2400 2000 2500 2250

Solución
Construcción de la tabla de distribución de frecuencias
Muestra = n = 30 datos

•Calcular el rango de datos

Rango = R = Dato máximo – Dato mínimo = 2800-1400 = 1400

•Determinar la cantidad de intervalos o llamado clases por el método de Srurges

K = 1+3.32* log(n) = 1+3.32*log(30) = 5.9 (redondeosimple)

21
F-CV3-3B-3
Por tanto el número de intervalos es: K = 6

• Determinar la amplitud de cada intervalo


R 1400
C= = = 233.33 (Redondear al entero próximo)
K 6

C = 234

• Organizar la tabla de frecuencias

Tabla 4.
Ingresos mensuales de trabajadores con maestría de BIGDATA
Marca de clase
Ingresos fi hi Fi Hi
(Xi)
[ 1,400 - 1,634 > 1,517 3 0.10 3 0.10
[ 1,634 - 2,102 > 1,751 5 0.17 8 0.27
[2,102 - 1,634 > 1,985 10 0.33 18 0.60
[ 1,400 - 2,336 > 2,219 5 0.17 23 0.77
[ 2,336 - 2,570 > 2,453 5 0.17 28 0.93
[ 2,570 - 2,804 > 2,687 2 0.07 30 1.00
Total 30 1.00
Fuente: Recursos Humanos

Marca de clase = Xi= (1,400+1,634)/2

2. Elaboración de tablas de frecuencias y gráficas de variables cualitativas, usando el software


MegaStat.

En Excel encontraremos el símbolo del complemento MegaStat en el menú DATOS


y aparecerá el siguiente cuadro de diálogo, se debe seguir la siguiente secuencia:

Ingresar rango de datos que están en Excel (sin la etiqueta)

22
F-CV3-3B-3
Ingresamos como se clasifica (categorías) la variable cualitativa que está en Excel
2. Elaboración de tablas de frecuencias agrupadas y gráficas de variables cuantitativas, usando el
software MegaStat, se debe seguir la siguiente secuencia:

Ingresar rango de datos que están en Excel (Sin la etiqueta)

4.3 Preguntas de aplicación

Problema 01:
El Higher Education Research Institute de UCLA cuenta con estadísticas sobre las áreas que son más
elegidas por los estudiantes de nuevo ingreso. Las cinco más elegidas son arte y humanidades (A),
administración de negocios (N), ingeniería (I), política (P) y ciencias sociales (S) (The New York Times
Almanac, 2006). Otras áreas (O), como biología, física, ciencias de la computación y educación se
agruparon todas en una sola categoría. Se ha seleccionado una muestra de 64 estudiantes de recién
ingreso y los datos se muestra a continuación:

S P P O N I O I P O O N O O O A
O E E N S O N O A O I O I O N P
N A S O I A N O S S O O I N O N
A I N I A A P O O I O N N O P N

a) Elabore una tabla de frecuencia.


b) Elabore una gráfica de barras.
c) ¿Qué porcentaje de estudiantes de nuevo ingreso elige ingeniería?

23
F-CV3-3B-3
d) ¿Cuál es el área más elegida por los estudiantes de nuevo ingreso? ¿Qué porcentaje de los estudiantes
de nuevo ingreso elige esta área?
Problema 02:
Con los datos del problema 01 de la página 17 [Pacientes Geriátricos]. Sav. procesar y presentar los
resultados entablas y gráficas con su respectiva interpretación en un documento Word, considerando el
siguiente cuestionario:

1. Elabore una gráfica de barras para la variable Diagnóstico médico e interprete los resultados.
2. Elabore una tabla de frecuencias agrupadas en tres intervalos (<Menores de 25], [25 a 59], [Mayores
de 60>) de la variable Edad e interpretar la frecuencia relativa de mayor valor. ¿Qué porcentaje de
pacientes tiene más de 60 años?
3. Elabore una tabla de frecuencias agrupadas en intervalos de igual amplitud utilizando el método de
Sturges de la variable Talla. ¿Cuál es la talla más frecuente?
4. Elabore un histograma de frecuencias y analice la simetría de la distribución de datos de la variable
Talla.
5. Obtener el estado nutricional de cada paciente: primero calcular el índice de masa corporal (IMC)
para cada paciente; segundo categorizar dicho IMC en una nueva variable, considerando los
siguientes intervalos y etiquetas (agrupar: <menos de 19] como bajo peso, [19.01 a 24.99] peso
normal, [25 a 29.99] sobrepeso, de [30 a 39.99] obeso y de [40 a más>muy obeso); esta nueva
variable será el ESTADO NUTRICIONAL.
6. Elaborar un gráfico para la variable estado nutricional. ¿Qué porcentaje de pacientes se encuentran
con sobrepeso? ¿Cuántas personas están con bajo peso?
7. Elabore una gráfica para la variable Lugar de destino. ¿Cuántos pacientes fallecieron en el centro
geriátrico?
8. Elabore un polígono de frecuencias para la variable peso y analice la forma de distribución de datos.
9. Elabore un diagrama de cajas para el IMC de los pacientes y analice la forma de distribución de la
variable.
10. Describa tres conclusiones.

Problema 03:
Con los datos del problema 02 de la página 17 [CredisaPhilco]. Sav. procesar y presentar tablas de
frecuencias y gráficas con su respectiva interpretación de resultados en un documento Word, debe
considerar las siguientes preguntas del cuestionario:

1. ¿Qué porcentaje de empleados son mujeres?


2. Elabore una gráfica de barras para la variable relación de compañerismo. ¿Qué porcentaje de personas
tienen buena relación entre compañeros de trabajo?
3. Elabore una tabla de frecuencias agrupadas en 4 intervalos para la edad. ¿Qué porcentaje de
empleados tiene más de 50 años?
4. Elabore una tabla de frecuencias agrupadas en tres intervalos ([4 a 11], [12 a 16], [17 a 20]) para la
variable años de educación. ¿Cuántas personas tienen más de 17 años de educación? ¿Qué porcentaje
de personas tienen menos de 11 años de estudios?
5. Elabore una tabla de frecuencias agrupadas en intervalos de igual amplitud por el método de Sturges
de la variable ingresos. ¿Qué porcentaje de personas tienen ingresos superiores a 700 soles? ¿Qué
porcentaje de trabajadores tienen entre 300 a 500 soles?
6. ¿Qué tipo de simetría presenta la variable edad? Sustentar con una gráfica.
7. Analizarla simetría de la distribución de datos del tiempo (años) para ser ascendido a un cargo
superior con un histograma de frecuencias.
8. Analizar la simetría de la distribución de datos de la variable ingresos mediante un diagrama de cajas
y polígono de frecuencias.
9. Elabore una gráfica para la variable área de trabajo. ¿Qué porcentaje de trabajadores son vendedores?
¿Cuántos trabajadores son administrativos?
10.Describa tres conclusiones.

Problema 04:
El siguiente histograma corresponde a la distribución de litros de yogurt, elaborado por la planta productora
Dos Patitos SAC. En un periodo de 2 meses (60 días). Considere como valor mínimo y máximo el límite inferior
y límite superior, se pide:

24
F-CV3-3B-3
a) Elaborar la tabla de frecuencias agrupadas en intervalos.
b) ¿Qué porcentaje de días se elaboraron más de 500 mil litros de yogurt?
c) ¿Cuántos días se elaboraron entre 420 a 640 mil litros de yogurt?
d) ¿Qué tipo de distribución presentan los datos?
20
18 17
16 15
14
12 10
Días

10 8
8 7
6
4 3
2
0
200 -310 310 - 420 420 - 530 530 - 640 640 - 750 750 - 860

Litros de yogurt (miles)

Problema 05:
El gerente de logística de una empresa industrial, ha observado que el pago por energía consumida en la
planta de producción de la zona de Lima este se ha incrementado. En tal sentido, se solicitó al jefe de la
planta que realice un informe sobre el consumo diario de energía durante el mes de agosto en el 2016. Se
sabe que el consumo máximo de energía fue de 20 KW/hr (kilowatts por hora), los datos del consumo
diario de energía en KW/hr se detalla en la siguiente tabla:

Tabla 2. Consumo de energía de la planta de producción de Lima este


Consumo de energía Marca de clase Frecuencia Porcentaje
Fi Hi
en KW/hr Xi fi hi%
10 - 14 4
14 - 18 6
18 - 22 12
22 - 25 8
Total 30
Fuente: Elaboraciónpropia

a) Completar la tabla de frecuencias


b) Interpretar las frecuencias: f3, h4%, F2 y H3%
c) ¿Qué porcentaje de días sobrepasó el historial de consumo de energía en la planta?

4.4 Bibliografía
1.Córdova, M. (2003). Estadística Descriptiva e Inferencial. Aplicaciones. (5ª ed.) Lima: Moshera.
2. Samuels, M, Witmer, J. (2012). Fundamentos de Estadística para las ciencias de la vida. (4ª ed.)
California: Pearson.
3.INEI: INSTITUTO NACIONAL DE ESTADÍSTICA E INFORMATICA. “Manual para la presentación de gráficos
estadísticos”. [Internet]. Lima-Perú. Talleres de la Oficina Técnica de Administración (OTA) del
Instituto Nacional de Estadística e Informática;Agosto 2009. [Citado en Marzo del 2016]. Disponible
en: http://www.inei.gob.pe/media/MenuRecursivo/metodologias/libro.pdf
4.INEI: INSTITUTO NACIONAL DE ESTADÍSTICA E INFORMATICA. “Manual para la presentación de cuadros
estadísticos”. [Internet]. Lima-Perú. Talleres de la Oficina Técnica de Administración (OTA) del
Instituto Nacional de Estadística e Informática; Mayo 2006. [Citado en Marzo del 2016]. Disponible
en: http://www.inei.gob.pe/media/MenuRecursivo/publicaciones_digitales/Est/Lib0933/Libro.pdf

25
F-CV3-3B-3
Tema 5
Medidas descriptivas detendencia central y posición

5.1 Competencia a desarrollar


Calcula las medidas descriptivas de tendencia central y de posición demostrando su capacidad de
interpretación y análisis de resultados de los datos.

5.2 Contenido del tema 5


Medidas de descriptivas de resumen
Las medidas de resumen descriptivas de una variable numérica (también se denomina estadísticos
descriptivos), tiene como propósito resumir los datos de una muestra con un solo valor, se obtiene por
procedimientos matemáticos y es útil para aproximar los parámetros. Las medidas de resumen
descriptivas se dividen en cuatro grupos:
Medidas de tendencia central: Media, mediana y moda.
Medidas de Posición: Percentiles o cuantiles.
Medidas de dispersión: Rango, varianza, desviación estándar y coeficiente de variación
Medidas de forma: coeficiente de asimetría y coeficiente de curtosis.
5.2.1Medidas de tendencia central
Las medidas de tendencia central son valores calculados que tienden a ubicarse en la parte central de las
observaciones y describen el centro de la distribución de datos. Las medidas de tendencia central más
usuales son:
a) Media aritmética o promedio.- Es un valor que representa el centro a un conjunto de datos en una
muestra o población, medido en escala de intervalo o razón. Se obtiene mediante la suma de todos los
datos y se divide entre el tamaño de la muestra. Es sensible a la presencia de valores extremos (dato
atípico) porque altera el valor del promedio representativo.

La fórmula de la media para datos no agrupados es:

n
xi
Pr omedio muestral  X  
i 1 n

N
xi
Pr omedio poblaciona l    
i 1 N

La fórmula de la media para datos agrupados es:


k

x f i i
Pr omedio muestral  X  i 1

k
xi . f i
Pr omedio poblaciona l    
i 1 N

Donde:
Xi : Dato (datos no agrupados) o marca de clase (datos agrupados)
fi : Frecuencia absoluta de cada clase
n : Tamaño de muestra
N : Tamaño d la población

En Excel usar la función = PROMEDIO(datos)

26
F-CV3-3B-3
Ejemplo 7
En la caseta de peaje en la autopista a Ramiro Prialé, se ha registrado el número de vehículos por hora
que ingresaron durante las 7 am hasta 12 pm del 19de septiembre del 2015, con la finalidad de conocer
la afluencia de vehículos que recorren esta vía, los datos son: 39, 31, 23, 18, 15

Datos:
39 31 23 18 15
x1 x2 x3 x4 x5

Solución

n
xi x1  x2  x3  x4  x5 39  31  23  18  15 126
X      25.2
i 1 n 5 5 5

Interpretación.-En la autopista Ramiro Prialé, en promedio circulan 25 automóviles por hora entre
las 7 am a 12 pm.

a) Mediana (Me).- Es un valor que indica el centro de un conjunto de datos ordenados, cuyos valores son
medidos en escala ordinal, intervalo o razón. Es una medida robusta porque no se ve afectada por la
presencia de datos atípicos, por eso se utiliza cuando la distribución es asimétrica. El valor de la
mediana representa que el 50% de los datos son menores o iguales a dicho valor y el otro 50% son datos
mayores al valor mediano.

Mediana para datos no agrupados es:


 Primero ordenar el conjunto de datos de menor a mayor
 Ubicar la posición de la mediana mediante: 𝑥(𝑛+1)
2
 Calcular el valor de la mediana con los datos ubicados en la posición central

Mediana para datos agrupados es:

𝑛
− 𝐹𝑖−1
𝑀𝑒 = LI + C( 2 )
𝑓𝑀𝑒
Donde:
LI : Límite inferior de la posición de la clase mediana
C : Amplitud de clase mediana
Fi-1: Frecuencia absoluta acumulada anterior a la clase mediana
fMe: Frecuencia absoluta simple de la posición de la clase mediana
n : Tamaño de la muestra

En Excel usar la función = MEDIANA(datos)

Ejemplo 8

Los datos siguientes corresponden a las estaturas (en metros) de peruanos varones de 18 años de edad.
Calcular la estatura mediana.

1.78 1.55 1.82 1.60 1.65 1.50 1.70

Como n es 7, por tanto “n” es impar

Procedimiento:

1º Ordenar los datos de menor a mayor

27
F-CV3-3B-3
1.50 1.55 1.60 1.65 1.70 1.78 1.82
x2 x4
x1 x3 x5 x6 x7
50% Me 50%
50% Me 50%
2º Ubicar la posición del valor mediano:

La posición de la mediana es el valor de x4

3º Calcular el valor de la mediana: x4= Me = 1.65

Interpretación.- El 50% (mitad) de los 7 peruanos varones con 18 años tienen una estatura menor a
1.65 y el otro 50% tienen una estatura superior a 1.65 metros.

Ejemplo 9
Se ha registrado las edades en años cumplidos a 6 alumnos ingresantes a la escuela de Farmacia en una
universidad, cuyos datos son: 20, 21, 25, 20, 18, 27.
Se pide calcular la mediana de las edades

En este caso “n” es par, dado que n=6

Procedimiento:

1º Ordenar los datos de menor a mayor


18 20 20 21 23 27
x1 x2 x3 x4 x5 X6
50% Me 50%
50% Me 50%
2º Ubicar la posición del valor mediano:

Cuando el tamaño de la muestra es un número par, la mediana se obtiene sumando los datos
ubicados en la posición central:

𝑥(𝑛+1) = 𝑥(6+1) = 𝑥3.5


2 2

3º Calcular el valor de la mediana:X3.5=Me = (20+21)/2 = 20.5

Interpretación.- El 50% (mitad) de los 6 alumnos, tienen menos de 21 años y el otro50% tiene más
de 21 años.

b) Moda (Mo).- La moda en un conjunto de datos observados, es el dato que se presenta con más
frecuencia. Se calcula para variables medidas en escala nominal, ordinal, intervalo o razón.
- Si en el conjunto de datos no se repite ningún valor la moda no existe.
- Cuando se repite un solo valor existe una sola moda y su distribución UNIMODAL.
- Cuando se repiten dos valores, hay dos modas y la distribución es BIMODAL.
- Cuando se repite más de dos valores presenta varias modas, la distribución es MULTIMODAL.

La distribución de la variable presentarán las siguientes gráficas

28
F-CV3-3B-3
Moda para datos no agrupados:
Es el dato que más veces se repite

Moda para datos agrupados en intervalos:

𝑑1
𝑀𝑜 = 𝐿𝐼 + 𝐶 ( )
𝑑1 + 𝑑2
Donde:
LI : Límite inferior de la posición de la clase modal
C : Amplitud de clase modal
d1: Frecuencia clase modal menos frecuencia anterior a la clase modal=fmo-fantfmo
d2: Frecuencia clase modal menos frecuencia posterior a la clase modal=fmo-fpostfmo
n : Tamaño de la muestra

En Excel usar la función = MODA(datos)

Ejemplo 10

Los datos siguientes corresponden a las edades en años cumplidos de 10 alumnos ingresantes a la
universidad en un periodo académico.

18 29 21 22 21 20 21 20 19 21

¿Cuál es la edad más frecuente de los ingresantes a la universidad en ese periodo académico?

El dato que más veces se repite es 21


Entonces la moda es: Mo = 21

Interpretación.- En los 10 alumnos ingresantes a la universidad en el periodo académico, la edad


más frecuente fue de 21 años.

5.2.2 Medidas de posición - Cuantiles

Las medidas de posición o denominados también cuantiles, son valores que indican la posición de un
dato respecto al conjunto de datos ordenados de menor a mayor y se calcula para variables de escala
ordinal, intervalo o razón. El número de divisiones que se realice al histograma es a partir de 2, los
más utilizados son: cuartiles, quintiles, deciles, percentiles, etc. Los cálculos consisten en hallar la
posición del cuantil y luego calcular su valor.

En general nos interesa los percentiles y las fórmulas para calcular son:

Percentiles para datos no agrupados:

En un conjunto de n datos ordenados el valor del centil o percentil se calcula:


𝒏+𝟏
 La posición del centil𝑷𝒌 = 𝒌( )
𝟏𝟎𝟎

 Calcular el valor del centil considerando la posición de ubicación.

Percentiles para datos agrupados:

𝑛
𝑘( ) − 𝐹𝑖−1
𝑃𝑘 = LI + C( 100 )
𝑓𝑝𝑘

Donde:
LI : Límite inferior de la posición de la clase percentil k
C : Amplitud de clase percentil k

29
F-CV3-3B-3
K :posición del percentil k
Fi-1: Frecuencia absoluta acumulada anterior a la clase percentil k
Pk Frecuencia absoluta simple de la posición de la clase percentil k
n : Tamaño de la muestra

a) Cuartiles (Qk).- Son tres valores calculados (Qk = 1, 2, 3) que dividen al conjunto de datos en 4
partes iguales y cada una de ellas representa el 25% de total.

25% 25% 25% 25%


Q1 Q2 Q3

Donde:
Q1 : Es el cuartil 1 cuyo valor calculado representa al 25% de los datos menores o igual al valor
encontrado y el 75% son datos mayores.
Q2 : Es el cuartil 2 cuyo valor calculado representa al 50% de los datos menores o iguales al valor
encontrado y el 50% de datos restante son mayores.
Q3 : Es el cuartil 3 cuyo valor calculado representa al 75% de los datos menores o iguales al valor
encontrado y el 25% de datos son mayores.

En Excel usar la función = PERCENTIL(datos)

Ejemplo 11
Se ha registrado la estatura de 100 personas del sexo masculino que participaron en una maratón de
10k, cuyos datos se muestran en la tabla de frecuencias agrupada.

Estatura fi hi Fi Hi
150 - 155 5 0.5 5 0.5
156 - 162 9 0.9 14 0.14
163 - 169 22 0.22 36 0.36
170 - 176 32 0.32 68 0.68
177 - 183 15 0.15 83 0.83
184 - 190 13 0.13 96 0.96
191 - 196 4 0.4 100 1.0
Total 100 1.0

¿Entre qué estaturas se encuentra el 50% de maratonistas con una estatura estándar?

Solución

 Se debe calcular elquartil1 y cuartil 3 (percentil 25 y percentil 75)


 Primero se calculará el Q1

1.- Calculando la posición del Q1: k(n/4) = 1(100/4)= 25


2.- Ubicar la posición 25 en la columna de frecuencias absolutas acumuladas, Fi = 36
3.- Para reemplazar en la fórmula se necesita: C = 6, LI= 163, fQk = 22

𝑛
𝑘( ) − 𝐹𝑖−1
𝑄𝑘 = LI + C( 4 )
𝑓𝑄𝑘

100
1( ) − 14
4
𝑄1 = 163 + 6 ( ) = 166
22

30
F-CV3-3B-3
Del mismo modo hallamos Q3

100
3( ) − 68
4
𝑄3 = 177 + 6 ( ) = 179
15

En el histograma se observa la posición de Q1 y Q3

20
15 Percentiles 25 y 75
frecuencia

10
5
0

150 160 166 170 179 180 190

Altura (cm) en 100 varones

Interpretación.- El 50% de maratonistas con estatura estándar tienen entre 166 cm a 179 cm.

b) Deciles (Dk).- Dividen al conjunto de datos en 10 partes iguales y son 9 valores calculados (D k= 1,
2, 3,…,9), cada una de ellas representa el 10% de los datos.

10% 10% ..……. 10%


D1 D2 ……….. D9

La interpretación del decil 1 y decil 3 es:

D1 :Es el decil 1 cuyo valor calculado indica que el 10% de los datos son menores al valor encontrado
y el 90% son mayores.
D3: Es el decil 3 cuyo valor indica que el 30% de los datos son menores al valor encontrado y el 70%
son mayores.

c) Percentiles (Pk).- Dividen al conjunto de datos en 100 partes iguales y son 99 valores calculados
(Pk= 1, 2, 3,…, 99), cada una de ellas representa el 1% de un total.

1% 1% ..……. 1%
P1 P2 ……….. P99

Ejemplo 12

Con los datos del ejemplo 9 ¿Cuál es la estatura mínima del 30% de maratonistas con mayor estatura?

 Se debe calcular elpercentil 70

P70: El percentil de orden 70 deja por debajo al 70% de las observaciones y por encima queda el 30%.

31
F-CV3-3B-3
Reemplazando en la fórmula de percentiles tenemos:

𝑛
𝑘( ) − 𝐹𝑖−1
𝑃𝑘 = LI + C( 100 )
𝑓𝑝𝑘

100
70 ( ) − 68
100
𝑃70 = 177 + 6 ( ) = 177.8
15

Interpretación.- El 30% de maratonistas con mayor estatura miden más de 177.8 cm.

5.4 Preguntas de aplicación

Problema 01:
El jefe de recursos humanos de una empresa está interesado en analizar el impacto económico de horas
extras de trabajo pagadas a sus empleados de la gestión anterior. Los datos fueron extraídos del registro
de control de cada trabajador y son:

2 5 4 5 2 1 4 0
1 3 4 1 0 2 2 1
2 0 5 0 1 0 2 2
3 1 0 4 3 2 1 2

a. Elabore una tabla de frecuencias


b. En promedio se ha pagado _______ horas extras a los empleados de la empresa.
c. ¿Cuántas horas extras como máximo se ha pagado al 50% de empleados?
d. Se pagaron con frecuencia ____________horas extras de trabajo.

Problema 02:
Un grupo de investigadores deciden investigar la evolución de los ingresos en las familias de una
comunidad. Para ello, se observó los ahorros que tuvieron las familias en alguna entidad bancaria desde
enero hasta agosto del 2016. Asumiendo que las familias aumentarían sus ahorros a medida que sus
ingresos aumenten. En el estudio fueron consideradas 25 familias que cuentan al menos 400 soles de
ahorro, cuyos datos se muestran en la tabla de distribución de frecuencias.

Tabla 3. Ahorros en soles de las familias de la comunidad


Ahorro en soles Xi fi hi Fi< Fi> Hi< Hi>
400 - 500 0.20
500 - 600 2 20
600 - 700 6 13
700 - 800 0.12 12
800 - 900 0.12
900 - 1000 25
Total 25 1.00

32
F-CV3-3B-3
Se pide calcular e interpretar lo siguiente:

a. Valor de la frecuencia f3=______________________________________________________________

b. Valor de la frecuencia H<4=_____________________________________________________________

c. ¿Cuántas familias tienen ahorros entre 700 a 900 soles?_____________________________________

d. Porcentaje de familias que ahorran menos de 625 soles ____________________________________

e. Porcentaje de familias que ahorran al menos 575 soles _____________________________________

f. ¿Cuál es el promedio de ahorros por familia? ______________________________________________

g. Cantidad de ahorro más frecuente por familia ____________________________________________

h. Cantidad máxima de ahorro del 50% de las familias ________________________________________


i. Cantidad mínima de ahorro del 20% de las familias con mayores ahorros en alguna entidad
bancaria es __________________________________________________________________________

j. ¿Qué forma tiene esta distribución de frecuencias?_________________________________________

12

10

Problema 03:
La compañía AXE S.A. es una distribuidora de diferentes tipos de bebidas peruanas al por mayor. El
gerente de ventas desea conocer el comportamiento de las llamadas telefónicas para hacer pedido de
productos durante los meses de febrero y marzo del año 2016. Para ejecutar la investigación, delega a
su secretaria que registre el número de llamadas por día que hacen sus clientes a la central telefónica.
Los datos son los siguientes:

30 38 35 36 29 28 30 35 36 37
40 48 50 20 25 56 30 27 52 44
29 46 41 31 31 31 39 28 49 52
56 58 40 39 38 40 27 24 30 32
35 38 26 25 24 60 55 48 37 31
30 22 20 24 26 23 22 28 27 48

a. Elabore una tabla de frecuencias agrupada en intervalos por el método de Sturges.


b. Calcular e interpretar promedio, Mediana y moda
c. ¿Cuáles son los valores que contienen al 50% del promedio de llamadas recibidas?
d. El 15% de los 60 días tuvieron un máximo de ________________ llamadas

33
F-CV3-3B-3
Problema 04:
Se ha realizado la evaluación del peso de los recién nacidos en el hospital nacional de la ciudad de
Arequipa con la finalidad de comparar los pesos promedios, cuyas madres de estos recién nacidos viven
tanto en el área rural y área urbana.

2950 3200 3500 3350 3340 3900 3470


Área
urbana 3350 2560 3270 3850 2780 3560 3900
4230 4500 3050 4510 3810 2940 3210
3240 3150 3300 3750 3280 3700 2480
Área rural 4220 3930 4030 3280 3080 3460 2600
2870 3230 3590 3700 3620

1. Calcular e interpretar las medidas de tendencia central de los recién nacidos del hospital de
Arequipa.
2. Comparar el peso medio y mediano de los recién nacidos según el área de residencia.
3. ¿Cuál es el valor del peso que divide al 20% de los recién nacidos con menor peso?
4. ¿Cuánto debe ser el peso de cualquier recién nacido para decir que tiene mejor peso que el 80%
de la población?
5. Si consideramos como niños con peso normal al 70% de la población ¿Cuáles serían los límites de
normalidad del peso?
6. El 10% de recién nacidos alcanzaron un peso máximo de___________________ gramos.

Problema 05:
Un equipo de médicos desea investigar la cantidad de Zinc en cierto tipo de preparados infantiles. Se
ha tomado 100 gramos de este alimento y se ha evaluado la cantidad de zinc en mg de las principales
marcas del mercado, cuyas mediciones se presentan a continuación:

5.1 3.0 3.6 4.2 4.8 5.4 5.7 5.8


5.5 5.8 4.1 3.7 3.5 4.4 4.7 5.0
5.6 5.0 5.5 5.8 3.8 4.6 4.3 5.7

1. ¿Cuál es el promedio de zinc en los preparados infantiles?


2. ¿Cuál es la cantidad frecuente de zinc de los preparados infantiles?
3. La cantidad máxima de zinc del 50% de los preparados infantiles es de____________________
4. El 80% de los preparados infantiles tiene una cantidad máxima de __________ gramos de zinc.
5. Si usted desea adquirir uno de estos preparados que tenga la mayor cantidad de zinc y se
encuentre por encima del 5% superior ¿Cuál sería la cantidad de zinc para que sea considerado en
su compra?
6. ¿Cuánto es el valor máximode zinc del 10% que tienen los preparados infantiles con menor
contenido de zinc?

5.4 Bibliografía
1. Córdova M. (2003). Estadística Descriptiva e Inferencial. Aplicaciones. (5ª ed.) Lima: Moshera.
2. Black, K. (2008). Estadística en los negocios. (2ª ed.). México: Grupo Editorial Patria S.A.
3. Daniel W. (2002). Bioestadística. Base para el Análisis de las Ciencias de la Salud. México: Editorial
Limusa S.A.
4. Samuels, M, Witmer, J. (2012). Fundamentos de Estadística para las ciencias de la vida. (4ª ed.)
California: Pearson

34
F-CV3-3B-3
Tema 6
Medidas descriptivas de Dispersión

6.1 Competencia a desarrollar


Calcula las medidas descriptivas de dispersión demostrando su capacidad de interpretación y análisis de
los datos en un estudio.
6.2 Contenido del tema 6

Medidas de Dispersión
Son valores que nos permiten conocer sobre la variabilidad o concentración de los datos, nos indica que
tan cercano o lejano están los datos respecto a su valor central, se calcula para variables medidas en
escala de intervalo y razón, entre las más importantes tenemos: El rango, Rango intercuartílico,
varianza, desviación estándar y el coeficiente de variación.
a) Rango (R).- Llamado también amplitud, indica entre que valores se encuentra el conjunto de datos.
Es ladiferencia entre el valor mayor y el menorde los datos de la variable, es sensible cuando hay
presencia de valores extremos llamado dato atípico.

R = XDato máximo –XDato mínimo

En Excel usar la función = MAX(datos) – MIN(datos)

b) Rango Intercuartílico (RIC).- Concentra al 50% de datos alrededor del promedio eliminando la
influencia de los valores extremos, es la diferencia entre el tercer cuartil (Q3) y el primer cuartil
(Q1), no es sensible a datos atípicos.

RIC = Q3 – Q1

En Excel usar la función = PERCENTIL(datos,0.75) – PERCENTIL(datos,0.25)

c) Varianza (S2).- Mide la variabilidad u homogeneidad de los datos. Es la media de los cuadrados de las
diferencias entre cada valor de la variable y la media aritmética de la distribución, es sensible a
datos atípicos.

La fórmula de la varianza para datos sin agrupar es:

(X i  X )2
Varianza muestral  S 2
 i 1

n 1

(X i  X )2
Varianza poblaciona l   2  i 1

La fórmula de la varianza para datos agrupados es:

( X i  X )2 fi
Varianza muestral  S  2 i 1

n 1

(X i  X )2 fi
Varianza poblaciona l   2  i 1

35
F-CV3-3B-3
En Excel usar la función = VAR(datos)

d) Desviación Estándar.-Se conoce también como desviación típica, mide la dispersión o


distanciamiento de los datos respecto al valor central. Se obtiene calculando la raíz cuadrada
positiva de la varianza.

Desviación muestral  S 
 (x i  x)2
n 1

Desviación poblaciona l   
(X i  X )2
N

En Excel usar la función = DESVEST(datos)

e) Coeficiente de variación.- Es una medida de dispersión relativa porque carece de unidad de medida,
se utiliza cuando se quiere comparar el grado de dispersión de dos conjuntos de datos que no tienen
las mismas unidades o cuando las medias son diferentes, el coeficiente de variación de Pearsonmide
la proporción de dispersión de los datos respecto a su media y se define como el cociente entre la
desviación típica y el valor absoluto de la media aritmética.

S
Coeficient e de var iación muestral  CV  * 100
X


Coeficient e de var iación poblaciona l  CV  * 100
X

En Excel usar la función = DESVEST(datos)/PROMEDIO(datos)

Ejemplo 13
Un profesor ha registrado el tiempo de tardanza en minutos de 10 estudiantes que llegaron después de
los 10 minutos de tolerancia a la clase, los datos son los siguientes:

2 5 10 8 15 3 20 7 5 13

Calcule e interprete el rango y el rango intercuartílico

Solución
El rango R = XDato máximo –XDato mínimo = 20 - 2 = 18.

Significa que los 10 estudiantes llegaron entre 2 a 20 minutos tarde después de la tolerancia tiene una
amplitud de 18 minutos.
El rango intercuartílico = RIC = 12.25 – 5= 7.25

Significa que la dispersión en el 50% de los datos centrales del tiempo de tardanza es igual a 7.25
minutos.

Ejemplo 14
Un inversionista sabe que la rentabilidad mensual es importante para seguir creciendo. Ante la
oportunidad de abrir un negocio debe tomar una decisión y recoge información de las ganancias
mensuales de dos tipos de negocios, la rentabilidad de 6 meses son los siguientes:

Negocio A 245 280 300 286 270 297


Negocio B 102 86 298 265 144 173

36
F-CV3-3B-3
a) Calcule las medidas de dispersión: varianza, desviación estándar y coeficiente de variación
b) ¿En qué negocio, la rentabilidad presenta mayor dispersión?
c) ¿En qué negocio la rentabilidad presenta menor dispersión en el 50% central?
d) ¿Cuál de los negocios ofrecerá mayor ganancia?

Solución
a) Calculando los estadísticos tenemos:

Estadísticos Negocio A Negocio B


Promedio 279.67 178.00
Varianza 409.87 7478.00
Desviación estándar 20.25 86.48
coeficiente de variación 7.24 48.58

b) El negocio ______ que presenta mayor rentabilidad porque_________________________________

c) Calculando el rango intercuartílico

Estadísticos Negocio A Negocio B


Cuartil 1 272.95 114.39
Cuartil 3 294.25 242
RIC 21.3 127.61

El negocio ______ que presenta menor rentabilidad porque________________________________

d) El negocio ______ presenta mayor ganancia de__________________________________________

6.3 Preguntas de aplicación

Problema 01:
Se está realizando un estudio de mercado, para lo cual se pretende lanzar una nueva marca de
estetoscopio moderno, el cual será vendido por un distribuidor exclusivo desde Lima. Se hizo una
encuesta a 200 personas que trabajan en diferentes hospitales de Lima y se preguntó por el precio que
estaríadispuesto a pagar por el producto. Los resultados de los datos se muestran en siguiente tabla de
frecuencias:

Precio(Soles) Xi Frecuencias Fi Xifi


[140 – 180> 40
[180 – 220> 45
[220 – 260> 44
[260 – 300> 39
[300 – 340> 32
Total 200

a. Calcular el precio promedio esperado que paguen los encuestados por el producto.
b. El precio mínimo que conviene lanzar el producto al mercado es de S/.218 y sólo se importará el
producto, si por lo menos la mitad de los encuestados están dispuestos a pagar por lo menos dicho
precio. ¿Qué decisión debe tomar el importador según los resultados de la información recolectada
por encuesta?
c. Calcular e interpretar el coeficiente de variación. ¿Los datos son homogéneos?
d. Entre que valores se encuentra el precio medio del producto del 50% de los encuestados.

37
F-CV3-3B-3
Problema 02:
Con los datos del problema 04 de la página 36 referente al peso de recién nacidos en el Hospital
Nacional de Arequipa. Se pide:
a. Calcular la desviación estándar por cada grupo de recién nacidos, los que provienen del área rural y
área urbana.
b. En la evaluación de los pesos en recién nacidos cuyas madres residen en el área rural y área urbana
¿Se puede afirmar que el peso de ambosgrupos de recién nacidos son homogéneos?

Problema 03:
En el problema 02 de la página 17, utilice el archivo de datos [CredisaPhilco.xls] para contestar las
siguientes preguntas:
a. Calcular e interpretar el promedio de los sueldos por área de trabajo
b. El ingreso mensual de los trabajadores por área de trabajo presentan diferencias en la variabilidad
de los datos.
b. Elaboreun diagrama de cajasparael ingreso mensual porárea de trabajo¿Se observa la presencia de
datos atípicos?
c. En las edades de los trabajadores de hombres y mujeres ¿En cuál de los grupos existe mayor
variabilidad?
d. En los años de estudios de los trabajadores de empleados ¿Se puede afirmar que son homogéneos?

6.4 Bibliografía
1. Ávila RB. (2010). Estadística Elemental. Lima: Estudios y ediciones R.A.
2. Black, K. (2008). Estadística en los negocios. (2ª ed.). México: Grupo Editorial Patria S.A.
3. Córdova M. (2003). Estadística Descriptiva e Inferencial. Aplicaciones. 5ª ed. Lima: Moshera.
4. Samuels, M, Witmer, J. (2012). Fundamentos de Estadística para las ciencias de la vida. (4ª ed.)
California: Pearson.

38
F-CV3-3B-3
Tema 7
Medidas de asimetría y curtosis

7.1 Competencia a desarrollar


Calcula e interpreta las medidas descriptivas deasimetría, curtosis y el diagrama de cajas, demostrando
su capacidad de análisis en comportamiento de los datos cuantitativos.
7.2 Contenido del tema 7

Medidas descriptivas de forma

Son valores que nos permite observar el comportamiento o distribución de los datos respecto a su
centro. Entre ellos tenemos los índices de asimetría y apuntamiento llamado también curtosis:

a) Asimetría.- Indica la distribución del conjunto de datos en forma horizontal,es decir a través del eje
X. Compara la forma que tiene los datos a través del histograma con la distribución normal.

Una distribución de datos es simétrica cuando la mediana, moda y media aritmética tienen valores
similares. Silos datos tienen distribución asimétrica a la derecha, las frecuencias (absolutas o
relativas) descienden más lentamente por la derecha. Si las frecuencias descienden más lentamente
por la izquierda, la distribución es asimétrica a la izquierda. Entre los índices de asimetría
tenemos:

Coeficiente de Asimetría de Pearson está dado por la fórmula:

3( X  Me) Q3  Q1  2Me
As  AS 
S o también Q3  Q1

Si As = 0, la distribución essimétrica
Si As > 0, la distribución esasimétrica a la derecha
Si As < 0, la distribución esasimétrica a la izquierda.

Los tipos de asimetría se observa en las representaciones gráficas:

b) Curtosis.- Indica la distribución del conjunto de datos en forma vertical, es decir, a través del eje Y.
Mide el grado de elevación de la distribución de datos. Se definen 3 tipos de distribuciones, según su
grado de curtosis:

 Distribución mesocúrtica: presenta un grado de concentración medio, alrededor de los valores


centrales de la variable (el mismo que presenta una distribución normal).
 Distribución leptocúrtica: presenta un elevado grado de concentración alrededor de los valores
centrales de la variable.

39
F-CV3-3B-3
 Distribución platicúrtica: presenta un reducido grado de concentración alrededor de los valores
centrales de la variable.

La fórmula está dado por:

  0.263 la ldistribuc ión es leptocúrti ca


1( P75  P25 ) 
K= =  0.263 la ldistribuc ión es platicúrti ca
2( P90  P10 )  0.263 la ldistribuc ión es mesocúrtic a

Los tipos de curtosis se observa en las representaciones gráficas:

c) Diagrama de cajas.- Es una gráfica que describe la distribución de un conjunto de datos numéricos
tomando como referencia los valores de los cuartiles como medida de posición y el valor del rango
intercuartílico como medida de referencia de dispersión, está compuesto por un rectángulo que
contiene el 50% de datos centrales y dos líneas extendidas en el lado inferior y superior del
rectángulo llamados bigotes. Además, nos permite apreciar visualmente el tipo de distribución de los
datos (simétrica o asimétrica) y la identificación de valores extremos (datos atípicos).

Dato atípico (outliers).- Son aquellos datos que se encuentran fuera del intervalo [Q1 - 1,5(RIC); Q3 +
1,5(RIC)]y generalmente están representados por asteriscos.

Pasos para trazar un diagrama de cajas

1) Calcularlos cuartiles: Q1,Q2,Q3


2) Trazar un rectángulo con los extremosQ1,yQ3, dentro de la caja ubicar Q2 y trazar una recta
vertical que divida en dos el rectángulo.
3) Se ubican los límites mediante el rango intercuartil,
 El límite superior está a 1,5(RIC) arriba (o a la derecha) de Q3
 El límite inferior está a 1,5(RIC) debajo (o ala izquierda) de Q1
4) Se trazan los bigotes desde los extremos de las cajas hasta los valores mínimo y máximo dentro
de los límites inferior y superior.
5) Se marcan con un asterisco (*) las localizaciones de los valores atípicos.
La siguiente figura presenta un diagrama de cajas con datos hipotéticos.

40
F-CV3-3B-3
En Excel en el complemento MegaStat, se debe seguir la siguiente secuencia:

6.3 Preguntas de aplicación


Problema 01:
La facultad de administración de una universidad desea conocer quienes ocupan los primeros puestos
una vez finalizado el año académico. Por tanto, se ha considerado el promedio ponderado de los
estudiantes que culminaron sus estudios en ese periodo académico, cuyas notas se muestran en la
siguiente tabla de frecuencias.

Rendimiento académico Xi fi Xi fi Fi
09 - 11 2
11 – 14 13
14 – 17 11

17 - 19 4
Total 30
a) Calcule la nota mínima para estar considerado en el quinto superior.
b) ¿Qué tipo de asimetría presentan la distribución de las notas?
c) Calcula e interpreta el coeficiente de curtosis.
Problema 02:
Cierta universidad brinda capacitaciones con cursos presenciales y virtuales a sus docentes con el
propósito de mejorar la calidad académica. Para que un docente sea contratado en la próxima
convocatoria, Recursos humanos lleva un control de asistencia a la capacitación docente en ambas
modalidades, los datos son los siguientes:

Virtual 2 3 0 5 2 0 1 1 2 1 3 4 2 2
Presencial 3 5 3 4 1 2 5 5 4 2 1 3 5 4

a) ¿Quétipodeasimetríapresentanlas distribuciones del número de capacitaciones por modalidad?


b) ¿Cuál de las modalidades tiene mayor presencia en el número de capacitaciones?
c) Calcula einterpretaelcoeficientedecurtosis.

41
F-CV3-3B-3
Problema 03:
El administrador de un hospital ordenó un estudio del tiempo que un paciente debe esperar antes de ser
tratado por el personal de la sala de urgencias. Los datos que presentamos a continuación fueron
tomados durante un día normal.

Tiempo de Xi fi
espera (min)
hi Fi Hi

1 -6 3
6-11 12
11-16 15
16-21 8
21-26 2
TOTAL 40

a) Calcule el mínimo de tiempo de espera para estar considerado como tiempo aceptable
b) ¿Qué tipo de asimetría presentan la distribución del tiempo de espera?
c) Calcular e interpretar el coeficiente de curtosis.

Problema 04:
En el siguiente diagrama de cajas, muestra la distribución de los ingresos de los directivos de un grupo
de empresasa.

¿la distribución de los ingresos es homogénea? justifique


__________________________________________________________________________________________

__________________________________________________________________________________________

7.4 Bibliografía
1.Ávila, RB. (2010). Estadística Elemental. Lima: Estudios y ediciones R.A.
2.Córdova, M. (2003). Estadística Descriptiva e Inferencial. Aplicaciones. (5ª ed.) Lima: Moshera.
3. Samuels, M, Witmer, J. (2012). Fundamentos de Estadística para las ciencias de la vida. (4ª ed.)
California: Pearson.
4. Daniel, W. (2002). Bioestadística. Base para el Análisis de las Ciencias de la Salud. México: Editorial
Limusa S.A.

42
F-CV3-3B-3
Tema 9
Tablas de contingencia y gráficas con dos variables

9.1 Competencia a desarrollar


Elabora tablas de contingencias y gráficos de barras agrupadas para describir la relación y/o asociación
de dos variables cualitativas con interpretación de resultados.
9.2 Contenido del tema 9

Estadística bidimensional
Estudia aquellos problemas en los que intervienen de manera simultánea dos variables (X,Y), buscando
algún tipo de relación que puede existir entre ambas y la forma en que la variable independiente (X)
explica el comportamiento de la dependiente (Y). Así, por ejemplo, se puede estudiar la relación que
tiene el hábito de fumar con el cáncer al pulmón, los ingresos de las familias con los gastos, o qué
relación existe entre los pesos y las estaturas de un grupo de personas.

La presentación de resultados para variables cualitativas será con las tablas de frecuencias
bidimensionales o llamado tablas de contingencia, gráfica de barras agrupadas, gráfica de barras
apiladas.

TABLA DE CONTINGENCIA
k

X
Y
y1 y2 ... yj ... yl  fi.  ni.
i1

x1 f11 f12 … f1j … f1l n1.

x2 f21 f22 … f2j … f2l n2.

… … … … … … … …

xi fi1 fi2 … fij … fil ni.

… … … … … … … …

xk fk1 fk2 … fkj … fkl nk.


k 
 fij  n

 f. j  n. j n.1 n.2 … n.j … n.l n.. 
j1 i1 j1

Esta tabla de contingencia contiene:


X: variable independiente o factor, toma los valores x1, x2,...,xn,
Y: Variable dependiente o resultado, toma los valores, y1, y2,...,yn.
Tres totales: total para filas (ni.), total para columnas (n.j) y el total general (n)
fij : Distribución de frecuencias absolutas conjuntas
hij : Distribución de frecuencias relativas (o porcentual Pij) conjuntas
Xi : Categorías o clases de la variable X
Yj : Categorías o clases de la variable Y
n : total de sujetos de la muestra
Distribuciones marginales
A partir de una distribución bidimensional se obtiene las distribuciones marginales:

43
F-CV3-3B-3
- Marginal de X; expresa como se distribuye X en la población total al margen de la variable Y

X ni. pi
X1 n1. p1
… … …
xi ni. pi
… … …
xk nk. pk
n 1

- Marginal de Y; expresa como se distribuye Y en la población total al margen de la variable X

Y n.j pj
y1 n.1 p1
… … …
yj n.i pj
… … …
yl n.l Pl
n 1

Distribución de frecuencias condicionales


A partir de una distribución bidimensional en cada fila (o columna) aparecen las distribuciones de
frecuencias condicionales:
- Distribución de X condicionado a Y

X Yj X/Y =yj
X1 f1j f1j/n.j=f1/j
… … …
xi fij fij/n.j =fi/j
… … …
xk fkj fkj/n.j=fk/j
n.j 1

- Distribución de Y condicionado a X

Y Xi. Y/X =xi


y1 fi1 fi1/n1.=f1/i
… … …
yj fij fij/ni. =fj/i
… … …
yl fl. fkj/ni.=fl/i
ni. 1

Ejemplo 15
Un grupo de estudiantes investigó el consumo de tabaco en personas adultas entre 30 a 65 años y una de
las preguntas fue ¿Usted es fumador de tabaco? y como alternativas son: Fumador, No fumador,
Exfumador. Los datos recolectados se presentan en la tabla a continuación:

44
F-CV3-3B-3
Tabla1. Consumo de tabaco en personas adultas según hábitos y género
Hábito de fumar tabaco (Yj) Total
Sexo (Xi)
Fumador No Fumador Exfumador (ni.)

Varón 30 50 20 100
Mujer 30 10 10 50
Total (n.j) 60 60 30 150

Fuente: Grupo investigador

Preguntas:
a) Interprete las frecuencias: f12 , n.1
b) De los resultados de la tabla 1 complete los espacios en blanco
c) Elabore la tabla de frecuencia relativa conjunta porcentual con respecto al total
d) Elabore la tabla de frecuencia relativa conjunta porcentual con respecto al total de filas
e) Elabore la tabla de frecuencia relativa conjunta porcentual con respecto al total de columnas
f) Construya la gráfica de barras apiladas porcentual
Solución
a) Frecuencias absolutas conjuntas:
f12 = 50 ; De las 150 personas encuestadas hay 50 que son varones y no son fumadores
n.1 = 60 ; De las 150 personas encuestadas 60 son fumadores
b) Completando los espacios en blanco con resultados de la tabla
El número de personas que son fumadores y son del sexo femenino son_________________
Del total de encuestados,____________________ son exfumadores.

c) Elaboración de una tabla de frecuencias relativas conjunta porcentual con respecto al total
general: Pij =(fij*100)/n

Tabla 2. Consumo de tabaco en personas adultas según hábitos y género


Hábito de fumar tabaco (Yj) Total
Sexo (Xi)
Fumador No Fumador Exfumador (pi)

Varón 20% 33% 13% 66%

Mujer 20% 7% 7% 34%

Total (pj) 40% 40% 20% 100%

Interpretación de una frecuencia relativa conjunta porcentual

p11=(30*100)/150 = 20%

De las 150 personas adultas encuestadas, hay un 20% que son varones y son fumadores.

Distribuciones frecuencias condicionales


1. Tabla de frecuencias relativas porcentual respecto al total de filas, es la tabla de frecuencias de Y
condicionada a X: pij= (fij*100)/ni

Tabla 3. Consumo de tabaco en personas adultas según hábitos por género


Hábito de fumar tabaco (Yj) Total
Sexo (Xi)
Fumador No Fumador Exfumador (pi)

Varón 30% 50% 20% 100%


Mujer 60% 20% 20% 100%
Total (pj) 40% 40% 20% 100%

45
F-CV3-3B-3
Interpretación

p11%=30*100/100 = 30% De 100 varones adultos, hay un 30% que son fumadores.

2. Tabla de frecuencias relativas porcentual respecto al total de columnas, es la tabla de frecuencias


de X condicionada a Y: pij= (fij*100)/nj

Tabla 4. Consumo de tabaco en personas adultas según género por hábitos


Hábito de fumar tabaco (Yj) Total
Sexo (Xi)
Fumador No Fumador Exfumador (pi)

Varón 50% 83% 67% 67%


Mujer 50% 17% 33% 0,33
Total (pj) 100% 100% 100% 100%

Interpretación
p11=(30*100)/60 = 50%
De 60 fumadores adultos, el 50% son varones.
Gráfico de barras apiladas porcentual

Gráfico1. Consumo de tabaco por género de personas adultas de 30 a 65 años

100%
Varón Mujer
80%

60%

40%
7%
20%
20%
33% 7%
20% 13%
0%
Fumador No Fumador Exfumador
Fuente: Grupo investigador

Ejemplo 16 de un gráfico de barras agrupadas


En el gráfico 2, muestra el porcentaje de hogares peruanos con los datos del Censo Nacional de
Población y Vivienda del año 1993 y 2007 respectivamente. Los datos fueron obtenidos de los Censos
realizados por el INEI.

Gráfico 2. Perú: Hogares según sexo del jefe de hogar, 1993 y 2007

Fuente: INEI- Censos Nacionales de población y vivienda

46
F-CV3-3B-3
Del total de familias peruanas censadas, tiene como jefe de hogar a un hombre en un 76.7% según el
censo del año 1993 y en el censo del 2007 es de 71.5%.

Elaboración de tablas de contingencia y gráficas con MegaStat


La secuencia es como se muestra

9.3 Preguntas de aplicación


Problema 01:
Se extrae una muestra aleatoria de 200 habitantes de una ciudad para analizar la actitud frente a un
cierto proyecto de alcaldía. El resultado fue el siguiente:

Opiniones de los habitantes según área de residencia respecto al proyecto


Opinión del proyecto Área de Residencia
Urbano Sub-Urbano Rural Total
A favor 30 35
En contra 60 25 15 100
Total 90 60 50 200

a. Construya la tabla de frecuencias conjunta relativa respecto al total


b. Construya la tabla de frecuencias conjunta relativa respecto al total de las columnas.
c. Construya la tabla de distribución porcentual del área de residencia condicionado a la opinión
respecto al proyecto.
d. Interprete la frecuencia conjunta para cada una de las tablas del ítem a,b,c
e. ¿Ud. diría que la opinión es independiente del local de residencia?

Problema 02:
Una compañía de seguros analizó la frecuencia con que 2000 asegurados (1000 hombres y 1000 mujeres)
usaron el hospital. La información se resume en la tabla:

Atención de asegurados según género y uso del hospital


Servicio de Hospital Hombres Mujeres
Usaron el hospital 100 150
No usaron el hospital 900 850

a) Calcule la proporción de hombres entre los individuos que usaron el hospital.


b) De las mujeres ¿Qué porcentaje no usaron el hospital?
c) Construya la distribución porcentual en el uso del hospital condicionado según sexo del asegurado.
d) Elaborar una gráfica de barras agrupadas porcentual con las frecuencias relativas conjuntas.

47
F-CV3-3B-3
Problema 03:
En una investigación se tiene como propósito conocer la tendencia de los alumnos en continuar sus
estudios, según la clase social del encuestado, mostró el siguiente cuadro:

Interés de estudiantes según clase social y continuidad de sus estudios


¿Pretende continuar sus Clase Social Total
estudios? Alta Media Baja
SÍ 200 220 380 800
NO 100 380 720 1200
Total 300 2000

a) ¿Usted diría que la distribución de las respuestas afirmativas es igual a la de las respuestas
negativas? Compare construyendo una tabla de frecuencia relativa porcentual respecto al total de
columnas.
b) Del total de la clase media, ________________________ de estudiantes desean continuar sus
estudios (en porcentaje)
c) ¿Existen dependencia entre los dos factores? De una medida cuantificadora de dependencia.
d) Construya la distribución porcentual de la clase social condicionado a la pretensión de continuidad
de los estudios.

Problema 04:
El gerente de ventas de la firma ARCOR, encarga la realización de un estudio a una investigadora de
mercados con la finalidad de determinar si las ventas de sus cuatro productos Premium dependen al
grupo de clientes clasificados en cuatro grupos. La muestra aleatoria de las ventas de productos se
observa en la siguiente tabla.

Clasificación de consumidores según grupos de clientes y productos Premium


Productos Premium Total
Grupo de Clientes
1 2 3 4 (ni)
Profesionales 30 35 55 40 160
Comerciantes 155 50 125 80 410
Obreros 130 30 105 50 315
Amas de Casa 35 15 20 45 115
Total (nj) 350 130 305 215 1000

a) Construya la tabla de frecuencias conjunta relativa respecto al total


b) Interpreta las casillas sombreadas en porcentajes, respecto al total, total de fila y total de columna
c) Elabora la gráfica de barras agrupadas

Problema 05:
Un grupo de estudiantes de Psicología realizaron un estudio sobre el manejo de la ansiedad cuando
realiza una actividad académica y como estudiar una carrera profesional para su futuro. Con la finalidad
de conocer esta problemática, se desea comparar la ansiedad de los estudiantes del primer y sexto ciclo
de la facultad de medicina de una universidad. Se pide elaborar la gráfica de barras apiladas
porcentual.

Tabla 2. Niveles de ansiedad de los estudiantes según ciclo de estudios


Ciclo de estudios
Niveles de ansiedad
Primer Sexto
Leve 6.4% 30.3%
Moderada 66.2% 59.8%
Severa 27.4% 9.9%
Total 100% 100%

Problema 06:
Una encuestadora seleccionó una muestra de 800 votantes y se les clasificó de acuerdo a su nivel de
ingresos como: Bajo, Medio, alto, y según su opinión con respecto a una reforma en la constitución

48
F-CV3-3B-3
política del país de los que están A favor, En contra, Sin decisión. Las frecuencias observadas se dan en
la siguiente tabla.

Opiniones respecto a la reforma en la constitución política y su nivel de ingresos


OPINION INGRESOS
Bajo Medio Alto
A favor 200 130 70
En contra 60 60 80
Sin decisión 40 60 100

a) ¿Usted diría que la distribución de opinión a favor es igual a la opinión en contra?


b) ¿Existen dependencia entre los dos factores? De una medida cuantificadora de dependencia.
c) Obtenga la tabla de frecuencias relativas porcentuales respecto al total de columnas
d) Elabore la gráfica de barras apiladas porcentual

9.7. Bibliografía
1. Webster, A. (2006). Estadística aplicada a los negocios y la economía. (3° ED.) Colombia:
MCGRAW HILL.
2. Samuels, M, Witmer, J. (2012). Fundamentos de Estadística para las ciencias de la vida. (4ª ed.)
California: Pearson.
3. Levine, D. (2014). Estadística para la Administración. (6ª ed.) México: Pearson.
4. Montesinos, L, Bayonas, Y, Cerna, E, Llanos, K, Pajuelo, S. (2016). Estadística descriptiva y
probabilidad. (1ª ed) Lima: Fondo Editorial USIL

49
F-CV3-3B-3
Tema 10
Tablas de contingencia y gráficas con dos variables

10.1 Competencia a desarrollar


Calcula las medidas descriptivas de la media y asociación de dos variables cuantitativas con interpretación
de resultados.
10.2 Contenido del tema 10

Medidas de resumen descriptivas


Las medidas descriptivas que determinan la asociación entre variables dos variables cuantitativas son la
covarianza y el coeficiente de correlación de Pearson.

Las fórmulas son las siguientes:


k

x i f i.
a) Media o promedio de la variable X : x  i 1
n
l
b) Media o promedio de la variable Y : yj 1
j f. j
y 
n
k

c) Varianza de la variable X :  fi. x i  x 2


i1
x 
S2
n

d) Varianza de la variable Y :  f. j y i  y
2

j1
S2
y 
n

e) Covarianza de la variable X e Y : mide la variabilidad de X e Y

f ij xi  x  y j  y 
k l


Cov  x, y   i 1 j 1

El tipo de relación entre las variables:

a) Si Cov(X,Y) > 0 entonces hay una relación lineal directa entre X e Y


b) Si Cov(X,Y) < 0 entonces hay una relación lineal inversa entre X e Y
c) Si Cov(X,Y) = 0 entonces no hay una relación lineal entre X e Y

Uso del complemento MegaStat para elaborar tablas de cruzadas se debe seguir la siguiente secuencia:

1º DESCRIPTIVE STATISTICS para hallar:


Tamaño del intervalo
Valor mínimo del primer intervalo

2º INSERTARTABLA DINAMICA:
Nueva Hoja de cálculo
(Creará otra hoja para el trabajo)
Tabla o rango

(Ingresar los datos con el nombre de la columna)


Agrupar

50
F-CV3-3B-3
Ejemplo 17
Se ha medido la estatura (X) en cm y su peso (Y) en kg de un grupo de estudiantes universitarios cuyos
resultados se muestran en la tabla.
Tabla 3. Distribución de estudiantes según su peso y talla
Peso en kg
Estatura en cm
[50 - 60> [60 - 70> [70 - 80>
[160 - 165> 12 18 3
[165 - 170> 15 25 8
[170 - 175> 4 10 5
[175 - 180> 1 3 10

a) Interprete f22, h33% , f41, f1. , f.2


b) Calcula e interprete el peso y la talla promedio
c) Calcule e interprete el peso promedio de estudiantes que mide entre 165 a 170 cm
d) Calcule e interpreta la talla promedio de estudiantes que pesa entre 50 a 60 kilos
e) Calcula la covarianza entre peso y estatura
Solución
a) Interpretación de frecuencias bivariadas:
f22 = ___________________________________________________________________________
h33% = _________________________________________________________________________
f41 = ___________________________________________________________________________
f1. = ___________________________________________________________________________
f.2 = ___________________________________________________________________________
b) Calculando la media (promedio) de la variable X

Estatura Xi fi. fi* Xi


[160 - 165>
[165 - 170>
[170 - 175>
[175 - 180>
Total
̅ =
Media de X = M(X) = 𝑿

Calculando la media (promedio) de la variable Y

Peso Yi f.j f.j * Yj


[50 - 60>
[60 - 70>
[70 - 80>
Total
̅=
Media de Y = M(Y) = 𝒀
c) Calculando el peso promedio de Y dado X2 = M(Y/X2)

51
F-CV3-3B-3
d) Calculando la talla promedio de X dado Y1= M(X/Y1)

e) La covarianza del peso y talla es_________________________________________________

10.3 Preguntas de aplicación

Problema 01:
El gerente general de la Compañía distribuidora Éxito S.A., ha solicitado al reciente nombrado gerente
de ventas un informe sobre el desempeño de los 15 vendedores dentro de su línea de productos de
consumo masivo, como: Café y avena. Su mercado objetivo son las cafeterías, restaurantes, panaderías
y bodegas de la ciudad. Para el estudio el gerente de ventas se ha planteado los siguientes objetivos:

 Conocer el promedio de las ventas de café y avena por zona


 Conocer la tendencia de las ventas por zona y forma de pago
 Conocer el promedio de las ventas de Té y cocoa

La información se recolectó en base a 100 puntos de ventas de la empresa midiendo las siguientes
variables: distribuida en diferentes zonas y los datos se muestran en el archivo Distribuidora Éxito.xls.

 Zona de distribución en la ciudad: 1) Norte, 2) Centro, 3) Sur


 Monto de compra en café: Monto del producto comprado por punto de venta en soles
 Monto de compra en avena: Monto del producto comprado al mes por cliente en soles
 Forma de pago: Forma de pago del cliente por el producto comprado 1) Contado, 2) Crédito

Se pide lo siguiente:
a. Construir una tabla bivariada para la variable café (X) agrupado en3 intervalos de igual amplitud
con Zona de la ciudad (Y), e interpretar las siguientes frecuentas conjuntas: f 32, h13%, h43%, f4., f.3
b. Elabore una tabla de frecuencias relativas de la variable venta café (agrupada 3 intervalos)
condicionado a zona de ubicación de la sucursal. En la zona sur ¿Qué porcentaje de puntos de
venta vendieron entre 786 a 1483 soles?
c. Calcule el promedio en la venta de café condicionado a los puntos de venta en el sur de la ciudad.
d. Construir una gráfica de barras agrupadas entre las variables Zona de la ciudad y forma de pago.
Interprete los resultados.
e. ¿Se debe Calcular la media y varianza para cada una de las variables?
f. Calcular los estadísticos de resumen: media, mediana, desviación estándar y coeficiente de
variación por cada zona de la ciudad ¿Cuál de las zonas de la ciudad presenta mayor variabilidad en
la venta de café?
g. Elabore una tabla de contingencia para las ventas de avena agrupado en 3 intervalos con zona de la
ciudad. Interprete una frecuencia relativa conjunta y una frecuencia absoluta.
h. Calcule el promedio en la venta de avena condicionado a los puntos de venta del centro de la
ciudad.
i. Elabore una conclusión para cada objetivo.

10.4 Bibliografía
1. Webster, A. (2006). Estadística aplicada a los negocios y la economía. (3° ed.) Colombia: MCGRAW
HILL.
2. Véliz, C. (2011). Estadística para la administración y los negocios. 1° ed., México; Prentice Hall.
Pearson.
3. Levine, D. (2014). Estadística para la Administración. (6ª ed.) México: Pearson.
4. Estadística descriptiva bidimensional. [Acceso: 15 de diciembre del 2017.]. Disponible en:
http://www.um.es/docencia/plucas/manuales/mat/mat9.pdf.

52
F-CV3-3B-3
Tema 11
Correlación lineal simple

11.1 Competencia a desarrollar


Determina la asociación variables con gráficas y el coeficiente de correlación de Pearson, demostrando
su capacidad de interpretación de resultados en un estudio correlacional.
11.2 Contenido del tema 11

Correlación
Cuando se realiza un estudio de correlación entre dos variables cuantitativas medidas en escala de
intervalo o razón, se tiene interés en determinar en qué medida sus valores se relacionan y cuál es su
tendencia que puede ser directa o inversa. El análisis consiste en observar esta asociación con el gráfico
de dispersión y el coeficiente de correlación de Pearson.

Gráfico de dispersión
Es una gráfica representa la relación de los valores observados (xi,yi), considerando la variable X como
independiente y a la variable Y como dependiente. Los valores de la variable independiente X se grafica
en el eje horizontal, mientras que los valores de la variable dependiente Y en el eje vertical. El tipo de
la relación observada en el diagrama de dispersión puede ser lineal directa o inversa, como se observa
en las siguientes gráficas:

Relación lineal directa Relación lineal inversa

Coeficiente de correlación de Pearson

Mide la fuerza y dirección de la relación entre dos variables cuantitativas en una escala que varía entre
+1 y -1, esto significa una relación directa o inversa. La fórmula es:

cov(X, Y )
R
Sx Sy

La covarianza está dado por:

 f x  x y  y
k l

ij i j

Covx, y   i 1 j 1

n
Interpretación del coeficiente de correlación de Pearson, está dado en el siguiente cuadro.

53
F-CV3-3B-3
Ejemplo 18

Se tiene las calificaciones de 40 alumnos en psicología evolutiva y en estadística con calificación de 1 a


10, los datos son los siguientes:

X Y Número
calif. en Psicol. calif. en Estad. de alumnos.
3 2 4
4 5 6
5 5 12
6 6 4
6 7 5
7 6 4
7 7 2
8 9 1
10 10 2

¿Cuál es la relación entre las notas en estadística con las notas de psicología?

Solución:
Se pide determinar la correlación de X e Y:

Disponemos los datos de la siguiente forma:


xi yi ni nixi niyi nixi2 niyi2 nixiyi
3 2 4 12 8 36 16 24
4 5 6 24 30 96 150 120
5 5 12 60 60 300 300 300
6 6 4 24 24 144 144 144
6 7 5 30 35 180 245 210
7 6 4 28 24 196 144 168
7 7 2 14 14 98 98 98
8 9 1 8 9 64 81 72
10 10 2 20 20 200 200 200
40 220 224 1314 1378 1336

Promedios: x
n x i i

220
 5,5 y
n y i i

224
 5,6
N 40 N 40

Covarianza: s xy 
n x y
i i i
 x. y 
1336
 (5,3).(5,6)  33,4  30,8  2,6
N 40

Varianza de X: s 2

n x i
2
i
x 
2 1314
 (5,6) 2  32,85  30,25  2,6
x
N 40

Desviación estándar de X: s x  s x2  2,6  1,61

Varianza de Y: s 2

n y i
2
i
y 
2 1378
 (5,6) 2  3,09
y
N 40
Desviación estándar de Y: s y  3,09  1,75
s xy 2,6
Calculando el coeficiente de correlación: r y resulta r  0,92
s x .s y (1,61).(1,75)

54
F-CV3-3B-3
La correlación es positiva, es decir, a medida que aumenta la nota de estadística aumenta también la
nota en psicología. Su valor está próximo a 1 lo que indica que se trata de una correlación fuerte, las
estimaciones realizadas están cerca de los valores reales.

11.3 Preguntas de aplicación

Problema 01:
Los siguientes datos corresponden a grupo de estudiantes y se quiere determinar la existencia o no de
asociación entre las calificaciones en las asignaturas de Matemática con el número de horas de estudio
diario fuera de clase y qué tipo de relación presentan los datos siguientes:

Nº horas de estudio 3 2 2 1 1 3 1 0.5 2 1


Calificativos 18 12 16 12 10 14 13 8 14 11

Problema 02:
Un consultor quiere averiguar si el salario de los empleados depende del índice de desempeño en el
trabajo. Una manera de verificar lo anterior, consiste en examinar la relación entre dicho índice y el
salario del empleado. Para ello, se seleccionó una muestra de 8 empleados y se recolectó información
sobre el salario (en cientos de soles) y el índice de desempeño (medido en escala de 1 al 10; donde 1
significa pésimo y 10 significa óptimo).Determine la relación entre las variables de estudio.

Índice de desempeño 9 7 8 4 7 5 5 6
Salario (S/.) 36 25 33 15 28 19 20 22

Problema 03:
Un profesor investiga las notas que obtuvieron 10 alumnos en Matemática y en Estadística con
calificación de 1 a 10, los datos recolectados son:

Alumnos Matemática Estadística


1 6 6,5
2 4 4,5
3 8 7
4 5 5
5 3,5 4
6 7 8
7 5 7
8 10 10
9 5 6
10 4 5

a) Elabore la gráfica de dispersión


b) Interpretar el valor de la covarianza que es 3.075 y el valor del coeficiente de correlación de
Pearson es 0.92.
c) ¿Existe correlación entre las dos variables?

11.4 Bibliografía
1. Webster, A. (2006). Estadística aplicada a los negocios y la economía. (3° ed.) Colombia:
MCGRAW HILL.
2. Análisis de regresión y correlación lineal. [Acceso: 15 diciembre del 2014.]. Disponible en:
http://www.uoc.edu/in3/emath/docs/RegresionLineal.pdf.
3. Daniel, W. (2002). Bioestadística. Base para el Análisis de las Ciencias de la Salud. México:
Editorial Limusa S.A.
4. Veliz, O. (2014). Estadística para administración y los negocios. (2ª ed.). México D.F: Pearson.

55
F-CV3-3B-3
Tema 12
Regresión lineal simple

12.1 Competencia a desarrollar


Determina la relación de variables en una ecuación de regresión lineal simple para explicar el tipo de
relación de la variable dependiente en función de la independiente, demostrando capacidad de
interpretación de resultados.
12.2 Contenido del tema 12

Regresión lineal
Regresión lineal simple, es método estadístico que nos permite formular un modelo matemático,
sustentado en el método de los mínimos cuadrados (uno de los métodos de estimación) para predecir el
valor promedio de la variable dependiente para un nivel dado en función de la variable independiente
(predictora), de modo que ambas variables se expresan en una relación funcional de las variables (X,Y),
esta función es f(x), tal que yi = f(xi). Para cada valor de x se puede conocer el valor de y. Por ejemplo,
el precio de una prenda está en función del costo de la tela por metro.

Gráfico de dispersión
En el gráfico de dispersión se observa el tipo de la relación que presentan las dos variables que puede
ser lineal o no lineal (una curva), como se observa en las siguientes gráficas:

Relación lineal directa Relación lineal inversa Relación no lineal

Modelo de regresión lineal simple, está definido por la ecuación de una recta:

𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝑒𝑖𝑗

Donde:
Yi: Variable dependiente
Xi: Variable independiente
eij: Error aleatorio, variables no observables que se asume normalidad
β1: Parámetro que expresa la pendiente de la recta, indica la variación de Y i cuando la variable Xi
varía en una unidad. La fórmula para estimar β1 es:

∑𝑛𝑖=1 𝑋𝑖 𝑌𝑖 − (∑𝑛𝑖=1 𝑋𝑖 ∑𝑛𝑖=1 𝑌𝑖 )/𝑛


𝛽1 =
∑𝑛𝑖=1 𝑋 2 𝑖 − (∑𝑛𝑖=1 𝑋𝑖 /𝑛)2
β0: Parámetro que es el punto de intersección de la recta con el eje de las ordenadas.
𝛽0 = 𝑌̅ − 𝛽1 𝑋̅
Bondad de ajuste del modelo
Consiste en analizar el grado de asociación lineal entre la variable dependiente y la independiente así
como determinar la proporción de variabilidad de la variable dependiente explicada por la
independiente. Los estadísticos son:

56
F-CV3-3B-3
a) El coeficiente de correlación de Pearson que es R
b) El coeficiente de determinación que es R2
El valor del coeficiente de determinación está en un rango de 0 a 1.

Ejemplo 19
Una empresa comercializadora de productos lácteos desea conocer si existe relación entre el gasto que
se realiza en publicidad en miles de soles y el incremento de las ventas en miles de soles, para lo cual
realiza el análisis de la conducta de estas dos variables en los nueve últimos meses. Los datos
recolectados son los siguientes:

Publicidad 12 14 15 10 19 13 15 19 18
Ventas (S/.) 48 55 52 42 67 43 48 69 55

Solución

1. Gráfico de dispersión, para poder determinar la tendencia de los datos procederemos a realizar
con MegaStat o Excel el gráfico de dispersión.

Gráfico Dispersión de las ventas con publicidad

75
70
65
Ventas

60
55
50
45
40
9 11 13 15 17 19 21
Publicidad en miles de soles

En el gráfico de dispersión se observa una relación positiva con tendencia lineal, a medida que se
aumenta la inversión en publicidad hay incremento las ventas.

2. Correlación de Pearson
Obtenemos la matriz de correlaciones con MegaStat

Publicidad Ventas
Publicidad 1.000
Ventas .885 1.000

Con un coeficiente de correlación de Pearson, R =0.885, significa que las variables ventas la
inversión en publicidad indica una correlación muy fuerte.

3. Regresión Lineal

Regression output

variables coefficients std. error t (df=7) p-value


Intercept 13.0972 8.1518 1.607 .1522
Publicidad 2.6750 0.5330 5.019 .0015

57
F-CV3-3B-3
Con el resultado del CUADRO DE COEFICIENTES, definimos la ecuación de regresión estimada:

𝑽𝒆𝒏𝒕𝒂𝒔 = 𝟏𝟑. 𝟎𝟗𝟕 + 𝟐. 𝟔𝟕𝟓 𝑷𝒖𝒃𝒍𝒊𝒄𝒊𝒅𝒂𝒅


Interpretación de los coeficientes de regresión:

o = 13.097 Es el promedio de ventas cuando no hay inversión en publicidad (X = 0)

1 = 2.675 Por cada sol que se invierte en publicidad las ventas se incrementan en 2.675 soles

4. Bondad de ajuste de la ecuación de regresión lineal

Coeficiente de determinación, R2 = 0.783

Se concluye que la variable gasto en publicidad explica en un 78.3% la variación de las ventas, por
tanto la ecuación de regresión estimada se puede utilizar para realizar predicciones de las ventas.

Ejemplo 20
Una compañía de seguros considera que el número de vehículos (Y) que circulan por una determinada
autopista a más de 120 km/h, puede ponerse en función del número de accidentes (X) que ocurren en
ella. Durante 5 días se recolectó datos y se muestra en la siguiente tabla:

X 5 7 2 1 9
Y 15 18 10 8 20

a) Elabore el gráfico de dispersión y calcula el coeficiente de correlación lineal.


b) Encuentre el modelo de regresión lineal simple
c) Si ayer se produjeron 6 accidentes, ¿cuántos vehículos podemos suponer que circulaban por la
autopista a más de 120 km/h?
d) ¿Es buena la predicción?

Solución:

a) Gráfico de dispersión
25
Vehículos con más de 120 km/h

20

15

10 y = 1.5223x + 6.8929
R² = 0.9907
5

0
0 2 4
Número 6
de accidentes 8 10

En el gráfico de dispersión se observa una relación lineal positiva entre el número de accidentes y la
velocidad que recorren los vehículos, es decir si hay aumento de velocidad aumenta el número de
accidentes.

Completando la pregunta a, se debe realizar los cálculos de la siguiente forma:

58
F-CV3-3B-3
Accidentes Vehículos con
xi más de xi2 yi2 xiyi
120km/h
yi
5 15 25 225 75
7 18 49 324 126
2 10 4 100 20
1 8 1 64 8
9 20 81 400 180
24 71 160 1113 409

x
x i

24
 4,8 ; y 
y i

71
 14,2 s x2 
x 2
i 2
x 
160
 4,8 2  8,96
N 5 N 5 N 5

s 2

y 2
i
y 
2 1113
 14,2 2  20,96 ; s xy 
 xi yi  x. y  409  4,8.14,2 =13,64
y
N 5 N 5
s xy 13,64
a) Por tanto: r   0,996
s x .s y 8,96. 20,96

b) Cálculos para la recta de regresión de y sobre x:


s xy 13,64
yy 2
( x  x) y  14,2  ( x  4,8) ; y  14,2  1,53( x  4,8)
s x 8,96
Por tanto la recta de regresión de y sobre x:
y =6,89 + 1,53x

Para x = 6, y  14,2  1,53(6  4,8) , es decir, y = 16,04. Podemos suponer que ayer circulaban
16 vehículos por la autopista a más de 120 km/h.

d) La predicción hecha es buena ya que el coeficiente de correlación está muy próximo a 1.

12.3 Preguntas de aplicación

Problema 01:
La tabla siguiente muestra las notas que obtuvieron 8 alumnos en un examen, las horas de estudio
dedicadas a su preparación y las horas que vieron la televisión los días previos al examen.

Nota 5 6 7 3 5 8 4 9
Horas de estudio 7 10 9 4 8 10 5 14
Horas de TV 7 6 2 11 9 3 9 5

a) Elabore las gráficas de dispersión correspondientes a: Nota-estudio y Nota-TV.


b) ¿Se observa correlación entre las variables estudiadas? ¿De qué tipo? ¿En qué caso estimas que hay
una correlación más fuerte?
c) Calcular e interpretar el coeficiente de correlación de Pearson: Nota-estudio y nota-TV. ¿Qué puede
deducirse con más precisión respecto a la nota que obtuvo una persona en el examen: el tiempo que
dedicó al estudio o el tiempo que dedicó a ver la televisión?
d) Encuentre las rectas de regresión correspondientes a: Nota-estudio y Nota-TV y estime para un
alumno cualquiera que sacó una nota 2 en el examen:
a) Las horas que estudió.
b) Las horas que vio la TV

59
F-CV3-3B-3
Problema 02:
La tabla adjunta muestra el índice de mortalidad de una muestra de población en función del consumo
diario de cigarrillos:

Número de cigarrillos x 3 5 6 15 20
Índice de mortalidad y 0,2 0,3 0,4 0,5 0,7

a) Determina el coeficiente de correlación e interpreta el resultado.


b) Hallar la recta de regresión de y sobre x e interpretar los coeficientes de regresión.
c) Evaluar la recta de regresión ¿Es buen modelo para pronosticar el índice de mortalidad
d) ¿Cuál será el índice de mortalidad para un consumidor de 40 cigarrillos diarios?

Problema 03
Se llevó a cabo un proyecto de investigación para determinar si existe alguna relación entre los años de
servicio y las puntuaciones de eficiencia de los empleados. El objetivo del estudio es predecir la tasa de
eficiencia (Y) de un empleado con base a su tiempo de servicio (X). Los datos muestrales son:
a.
Empleado x y 2 2 xy
x y
1 1 2 1 4 2
2 17 5
3 6 3
4 8 6
5 2 5
6 1 2
7 15 4
8 8 3
Total

a) Construya el gráfico de dispersión e interprete la tendencia de los datos.


b) Calcule e interprete el coeficiente de correlación de Pearson.
c) Formule el modelo de regresión lineal e interprete el coeficiente de regresión.
d) Calcule e interprete el coeficiente de determinación.
e) Si un trabajador tiene ocho años de servicio, ¿Cuál es la tasa de eficiencia estimada? Comente la
validez de su resultado

Problema 04
Se desea pronosticar el costo de viajar en un avión comercial. Alguna de las variables que contribuyen
son el tipo de avión, distancia recorrida, número de pasajeros, cantidad de equipaje, etc. Se realiza un
estudio solo en el tipo de avión Boeing 737 que vuela 500 millas en rutas comparables durante la
misma estación del año. ¿Puede el número de pasajeros pronosticar el costo de vuelo en esas rutas?
Vuelos 1 2 3 4 5 6 7 8 9 10 11 12
Número de pasajeros 61 63 67 69 70 74 76 81 86 91 95 97
Costo (miles $) 4280 4080 4420 4170 4480 4300 4820 4700 5110 5130 5640 5560

a. La variable independiente es: ______________________________________


b. La variable dependientes es : ______________________________________
c. ¿Existe relación entre las variables número de pasajeros y costo? ¿Qué tipo de relación
es?_________________________________________________________

d. La ecuación de regresión es: ___________________________________________________


e. Interprete los parámetros estimados
__________________________________________________________________
__________________________________________________________________

f. ¿En qué porcentaje el número de pasajeros es explicado por el costo?___________________


g. El modelo estimado sirve para realizar pronósticos futuros?_____________________________
__________________________________________________________________

60
F-CV3-3B-3
Problema 05
La compañía Data Wire S.A aumentó la productividad de 70 mil a 90 mil libras por semana cuando
instituyó un programa básico de capacitación. Este programa fue aplicado durante un periodo de 18
meses. Los datos recolectados son el número total de horas acumuladas en capacitación y la cantidad de
producción por semana de cierto producto que fueron tomadas una vez al mes durante este tiempo.

Con los resultados de los datos se muestra a continuación responder el cuestionario:

Scatterplot of Productividad vs Hora_acum

90000

85000
Productividad

80000

75000

70000

0 1000 2000 3000 4000


Hora_acum

Resumen del modelo

R cuadrado Error típ. de


Modelo R R cuadrado corregi da la estimaci ón
1 .988 a .976 .975 1005.644
a. Variables predi ctoras: (Const ante), Horas acumuladas de
capacit ación

Coef ici entesa

Coeficientes no Coeficientes
estandari zados estandari zados
Model o B Error t íp. Beta t Sig.
1 (Constante) 70880.252 394.546 179.650 .000
Horas acumuladas
5.093 .198 .988 25.735 .000
de capaci tación
a. Variable dependiente: P roductividad (en libras por semana)

Se pide a usted:
a. Analizar la posible relación de las variables con el gráfico de dispersión.
b. Interpretar el coeficiente de correlación de Pearson.
c. Formule el modelo de regresión lineal e interprete el coeficiente de regresión
d. Evaluar la bondad de ajuste del modelo estimado ¿Qué tan bueno es para realizar estimaciones?

Problema 05
Los siguientes datos representan una muestra del consumo de agua por día y la mayor temperatura para
ese día. ¿Puede pronosticarse el consumo de agua de una ciudad por medio de la temperatura?
Las variables son:
Y : Cantidad de agua usada (millones de galones)
X : Temperatura (grados Fahrenheit)

Algunos resultados que se tienen son los siguientes:

y 2
i  152711 y i  1025 x i  608

x 2
i  49584 x i * y i  86006

61
F-CV3-3B-3
Scatterplot of Uso_agua vs Temperatura
225

200

175

Uso_agua
150

125

100

75

50
40 50 60 70 80 90 100 110
Temperatura

Se pide a usted:
b. Analizar la posible relación de las variables en el gráfico de dispersión.
c. Interpretar el coeficiente de correlación de Pearson.
d. Formule el modelo de regresión lineal e interprete el coeficiente de regresión
e. Evaluar la bondad de ajuste del modelo estimado ¿Qué tan bueno es para realizar estimaciones?

12.4 Bibliografía
1. Webster, A. (2006). Estadística aplicada a los negocios y la economía. (3° ed.) Colombia:
MCGRAW HILL.
2. Análisis de regresión y correlación lineal. [Acceso: 15 diciembre del 2014.]. Disponible en:
http://www.uoc.edu/in3/emath/docs/RegresionLineal.pdf.
3. Daniel, W. (2002). Bioestadística. Base para el Análisis de las Ciencias de la Salud. México:
Editorial Limusa S.A.
4. Veliz, O. (2014). Estadística para administración y los negocios. (2ª ed.). México D.F: Pearson.

62
F-CV3-3B-3
Tema 13
Experimentos y probabilidades

13.1 Competencia a desarrollar


Resuelven problemas de probabilidades aplicando los diferentes teoremas y propiedades demostrando su
proceso y capacidad de análisis en el tiempo establecido.
13.2 Contenido del tema 13

Conceptos básicos de probabilidades


La teoría de la probabilidad se ocupa de estudios de experimentos aleatorios del cual la ocurrencia de
resultados no se puede predecir con exactitud. La probabilidad es una medida de la certidumbre
asociada a un suceso (evento) futuro cuyo resultado es un número entre 0 y 1 (o entre 0% y 100%). Un
suceso es improbable que ocurra cuando es cercano a 0 y se tiene la certeza que ocurra cuando la
probabilidad es cercana a 1.

Experimento aleatorio (ε)


Es cualquier experimento u operación cuyo resultado no puede predecirse con exactitud antes de
realizarse el experimento.

Espacio muestral

Es el conjunto formado por todo los resultados posibles del experimento aleatorio. Denotaremos por la
notación  (omega) o con la letra S

Evento
Es un subconjunto del espacio muestral.
Tipos de eventos
Suceso seguro; está formado por todos los posibles resultados, es decir S, el espacio muestral.
Ejemplo1
Tirando un dado se obtiene una puntuación que sea menor que 4, más de 5
Evento imposible; carece de elementos
Ejemplo 2
Al tirar un dado obtener una puntuación de 7
A={}
Operaciones con eventos
Sean los eventos A y B que ocurren en el espacio muestral 
a) Unión de eventos: Sean los eventos de A y B eventos dependientes, entonces AUB se obtiene:
AUB={w ϵ  / w ϵ A ó w ϵ B} = A + B – A  B

63
F-CV3-3B-3
A B

Probabilidad de un evento simple


La probabilidad es una medida de la incertidumbre que toma valores comprendidos entre 0 a 1. Sea el
suceso o evento A del espacio muestral  ; la probabilidad de A denotada por P(A) es la razón entre el
número de resultados favorables al suceso A y el número total de resultados del espacio muestral.

𝑛(𝐴) 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑑𝑒𝑙 𝑒𝑣𝑒𝑛𝑡𝑜 𝐴


𝑃(𝐴) = =
𝑛(𝑠) 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑑𝑒𝑙 𝑒𝑠𝑝𝑎𝑐𝑖𝑜 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙

Donde: 0 ≤ (PA) ≤1

13.3 Preguntas de aplicación

Problema 01
El 60% de la población de una determinada ciudad lee el periódico A, el 35% el B y un 15% ambos.
Elegido un ciudadano al azar, calcular la probabilidad de:
a) Ser lector de algún periódico_______________
b) No leer ninguno ________________
c) Leer solo el periódico A ________________
d) Leer solo uno de los dos periódicos __________

Problema 02
Una pareja al planificar una familia está interesada en tener 3 hijos, de acuerdo a esto determine los
siguientes eventos:
A: Todos los hijos del mismo sexo A = {_______________________________________}
B: Exactamente un varón B = {_______________________________________}
C: Por lo menos dos varones C={ ___________________________________}

Problema 03
Es frecuente que hombres y mujeres no estén de acuerdo en opinar acerca de seleccionar una pareja.
Sin embargo, un grupo de estudiantes realizó una investigación en parejas constituidas y aplicaron una
encuesta a 1000 personas entre 20 a 30 años de edad. Una de las preguntasfue ¿Qué es lo más
importante para su futura pareja ser capaz de comunicar sus sentimientos (S) o el vivir bien con esa
persona (V).La información de las respuestas se resume en lasiguiente tabla:

OPINIÓN
SEXO
Sentimientos (S) Vivir bien (V) Total
Hombres (H) 0.35 0.20 0.55
Mujeres (M) 0.36 0.09 0.45
Total 0.71 0.29 1.00

Si se selecciona al azar una persona del grupo de 1000, calcule las siguientes probabilidades:
a) P(S) b) P (V) c) P(S U V) d) P(S U M)

64
F-CV3-3B-3
Problema 04
La probabilidad de que un hombre viva 10 años más es 1/4, y la probabilidad de que su esposa viva 10
años más es 1/3. Encontrar la probabilidad de que (i) ambos estén vivos dentro de 10 años, se pide
calcular:
a) Por lo menos, uno esté vivo dentro de 10 años
b) Ninguno de los dos esté vivo dentro de 10 años
c) Solamente la esposa este viva dentro de 10 años

Problema 05
Tres mujeres compiten por un puesto de secretaria ejecutiva. Las candidatas A y B tienen la misma
oportunidad de ganar, pero la candidata C tiene el doble de oportunidad que las candidatas A y B. ¿Cuál
es la probabilidad de que gane C? ¿Cuál es la probabilidad de que A no gane?

Problema 06
La probabilidad de que se venda el producto A es 15%, el producto B es el 5% y la probabilidad que se
vendan ambos productos por medio de una promoción es 4% ¿Cuál es la probabilidad que se venda el
producto A o el producto B dicho día?

Problema 07
En una clase de Administración Financiera hay 6 mujeres y 4 hombres según el número de inscritos. Se
han elegido al azar a 7 personas ¿Cuál es la probabilidad de elegir más mujeres que hombres?

Problema 08
En cada uno de los enunciados califique como verdadero (V) o falso (F) y arguméntelo:

a) La probabilidad de la unión de dos eventos independientes es P(AUB) = P(A) + P(B) ( )


_________________________________________________________________
b) La probabilidad de la unión de dos eventos dependientes es P(AUB) = P(A) + P(B) ( )
_________________________________________________________________
c) La probabilidad de la intersección de dos eventos no puede ser mayor que cualquiera de sus
probabilidades individuales. ( )
_________________________________________________________________
d) Un evento y su complementario son mutuamente excluyentes. ( )
_________________________________________________________________
e) Las probabilidades individuales de un par de eventos no pueden sumar más de 1. ( )
_________________________________________________________________
f) Si dos eventos son mutuamente excluyentes, también deben son eventos exhaustivos. ( )
_________________________________________________________________

13.4 Bibliografía
1. Córdova, M. (2003). Estadística Descriptiva e Inferencial. Aplicaciones. (5ª ed.) Lima: Moshera.
2. Webster, A. (2006). Estadística aplicada a los negocios y la economía. (3° ed.) Colombia: MCGRAW
HILL.
3. García, J. (2005). Estadística descriptiva y nociones de probabilidad. España: Thomson Editores.
4. Montesinos, L, Bayonas, Y, Cerna, E, Llanos, K, Pajuelo, S. (2016). Estadística descriptiva y
probabilidad. (1ª ed) 1Lima: Fondo Editorial USIL.

65
F-CV3-3B-3
Tema 14
Probabilidad condicional y teorema de Bayes

14.1 Competencia a desarrollar


Resuelven problemas de probabilidad condicional y aplica el teorema de Bayes demostrando su proceso
y capacidad de análisis en el tiempo establecido.
14.2 Contenido del tema 14

Probabilidad condicional
En un espacio muestral, la probabilidad condicional se define como la probabilidad de un evento A
dado que ha ocurrido el evento B.

𝑛(𝐴 ∩ 𝐵) 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑑𝑒𝑙 𝑒𝑣𝑒𝑛𝑡𝑜 𝐴 ∩ 𝐵


𝑃(𝐴/𝐵) = =
𝑛(𝐵) 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑑𝑒𝑙 𝑒𝑣𝑒𝑛𝑡𝑜 𝐵

Probabilidad total
El espacio muestral se divide en Ai particiones mutuamente excluyentes, y ocurre un evento común B
en todas las particiones. Por tanto la probabilidad total de un evento B está dado por:

Por tanto la probabilidad del evento B es:

P(B) =P(A1) P(B|A1) + … +P(A4) P(B|A4)

𝑃(𝐵) = ∑ 𝐴𝑖 𝑃(𝐵/𝐴𝑖 ) Donde: 0 ≤ (PB) ≤1

Teorema de Bayes

Si ocurre el evento B, podemos calcular la probabilidad (a posteriori) de ocurrencia de cada evento


particular Ai.
𝑃(𝐵/𝐴𝑖)
𝑃(𝐴𝑖/𝐵) =
𝑃(𝐵)
Ejemplo 23
En esta aula el 70% de los Fuma
alumnos son hombres. De ellos el
10% son fumadores. El 20% de las 0,1
mujeres son fumadoras. ¿Cuál es
la probabilidad que al
seleccionar una persona, ésta sea Hombre
fumadora? 0,7
No fuma
Solución
0,9
Estudiante
Sean los eventos:
0,2 Fuma
H: Hombre
0,3
Mujer
66
F-CV3-3B-3
0,8
No fuma
M: Mujer
F: Fuma

P(F) = P(F∩H) + P(F∩M) = P(F|H) P(H) + P(F|M) P(M)


= 0,1 · 0,7 + 0,2 · 0,3 = 0,13

13.3 Preguntas de aplicación

Problema 01
Una empresa tiene tres firmas proveedoras de un mismo artículo. La firma A produce el 2% de fallados y
provee el 25% de las necesidades de la empresa. La firma B produce el 5% de fallados y provee el 30% de
las necesidades de la empresa. La firma C produce un 3% de fallados y provee el 45% de las necesidades
de la empresa.

a. En las operaciones se detecta un artículo fallado, ¿cuál es la probabilidad de que provenga de A?


b. Si se detecta un artículo bueno, ¿cuál es la probabilidad de que no provenga de C?
c. Si se sabe que el artículo no proviene de C, ¿cuál es la probabilidad de que sea bueno?

Problema 02
Un ambulante que vende periódicos y otros artículos encuentra que el 60% de sus clientes le compra
(solo) periódicos y 20% le compra periódicos con otros productos
¿Qué porcentaje de sus clientes le compran solamente otras cosas que no sean periódicos, asumiendo
que todos los clientes le compran algo?

Problema 03
En la ciudad de Arequipa, el canal 5 emite un reporte informativo “Buenos días Perú” en la mañana, y
otro 24 horas”, en la noche. El 10% de las familias de esta ciudad sintonizan el programa por la mañana,
30% ven el programa por la noche y 7% ven ambos programas ¿Cuál es el porcentaje de las familias que
no ven ninguno de estos dos programas informativos?

Problema 04
Análisis S.A., una pequeña firma consultor está negociando dos contratos. La Gerencia piensa que la
probabilidad de ganar el primer contrato es de 60%, y que el ganador tendrá ventaja definitiva en la
negociación del segundo contrato. La Gerencia cree, que si Análisis S.A. gana el primer contrato va a
tener un 70% de probabilidad de ganar el segundo, pero si pierde el primer contrato, la probabilidad de
ganar el segundo disminuirá a 0.10.

a. ¿Cuál es la probabilidad de que Análisis SA. pierda ambos contratos?


b. ¿Cuál es la probabilidad de que el Análisis S.A. gane el segundo contrato?

Problema 05
Consideremos una población en la que cada individuo es clasificado según dos criterios: es o no portador
de HIV y pertenece o no a cierto grupo de riesgo que denominaremos R. La correspondiente tabla de
probabilidades es:
Cliente Portador (A) No portador (A’)
Pertenece al grupo de riesgo (B) 0.003 0.017
No pertenece al grupo de riesgo (B’) 0.003 0.977
Total

a) Calcula la probabilidad de que un individuo sea portador


b) Calcula la probabilidad de que sea portador y pertenezca al grupo de riesgo.
c) Dado que una persona seleccionada al azar pertenece al grupo de riesgo, ¿cuál es la probabilidad
de que sea portador?

Problema 06

67
F-CV3-3B-3
En el Cuzco, el hotel de turistas clasifica sus clientes en tres categorías los clientes que llegaron por
agencia de viaje, por negocios y de forma independiente. La gerencia desea determinar la relación
entre el tipo de cliente y el tipo de pago. Ha seleccionado 230 clientes de los que hospedó durante el
mes de febrero del año pasado y los ha clasificado en la siguiente tabla:

Cliente Tipo de pago


Tarjeta de crédito Efectivo
Agencia de Viaje 65 45
Independiente 30 30
Hombre de Negocios 50 10

¿Cuál es la probabilidad de que si se selecciona un cliente al azar de esta muestra?


a. El cliente sea hombre de negocios
b. El cliente sea hombre de negocios y pague al crédito
e. El cliente sea hombre de negocios o pague en efectivo
d. Supongamos que el cliente es independiente ¿Cuál es la probabilidad de que pague al crédito?
e. Los dos eventos: ser un cliente de agencia de viaje y pagar al crédito ¿son independientes?
Explíquelo.

Problema 07
Una compañía constructora está considerando el construir un centro comercial. Un elemento de decisión
para la construcción es la existencia del proyecto de una autopista. Si el consejo municipal aprueba esta
autopista hay una probabilidad de 0.90 que la compañía construya el centro comercial. Pero si la
autopista no es aprobaba la probabilidad es de sólo 0.20. Basándose en la información disponible el
presidente de la compañía estima que hay una probabilidad de 0.60 que la autopista sea aprobada.
a. ¿Cuál es la probabilidad que la compañía construya el centro comercial?
b. Dado que el centro comercial fue construido, ¿cuál es la probabilidad que la autopista haya sido
aprobada?

Problema 08
La información de la siguiente tabla presenta la clasificación de estudiantes universitarios de acuerdo a
la preferencia de la carrera profesional elegida y el género.

GÉNERO
ESPECIALIDAD TOTAL
Masculino Femenino
Administración 120 90 210
Ingeniería 90 50 140
Contabilidad 47 55 102
TOTAL 257 195 452

Se desea elegir un estudiante en la muestra:


a) ¿Cuál es la probabilidad que pertenezca a la especialidad de Ingeniería?
b) ¿Cuál es la probabilidad que el estudiante sea un estudiante de administración dado que es mujer?
c) ¿Cuál es la probabilidad que el estudiante sea de la carrera de Contabilidad?
d) ¿Cuál es la probabilidad de elegir un estudiante del género femenino y estudie Ingeniería?
e) Si el estudiante elegido es del género masculino ¿Cuál es la probabilidad que estudie Contabilidad?
f) ¿Cuál es la probabilidad de elegir un estudiante de Ingeniería o Contabilidad?

Problema 09
La National Highway Traffic Safety Administration (NHTSA) realizó una investigación para saber si los
conductores de Estados Unidos están usando sus cinturones de seguridad (Associated Press, 25 de agosto
de 2003). Los datos muestrales fueron los siguientes:

Conductores que emplean el cinturón


Región Sí No
Noreste 148 52
Oeste medio 162 54
Sur 296 74
Oeste 252 48

68
F-CV3-3B-3
Total 858 228
a) ¿Cuál es la probabilidad de que en Estados Unidos un conductor lleve puesto el cinturón?
b) Un año antes, la probabilidad en Estados Unidos de que un conductor llevara puesto el cinturón era
0.75. El director de NHTSA, doctor Jeffrey Runge esperaba que en 2003 la probabilidad llegara a
0.78. ¿Estará satisfecho con los resultados del estudio del 2003?
c) ¿Cuál es la probabilidad de que se use el cinturón en las distintas regiones del país?
d) ¿En qué región se usa más el cinturón?

Problema 10
Una empresa que produce pasta de dientes está analizando el diseño de cinco empaques diferentes.
Suponiendo que existe la misma posibilidad de que los clientes elijan cualquiera de los empaques, ¿cuál
es la probabilidad de selección que se le asignaría a cada diseño de empaque? En un estudio, se pidió a
100 consumidores que escogieran el diseño que más les gustara. Los resultados se muestran en la tabla
siguiente. ¿Confirman estos datos la creencia de que existe la misma posibilidad de que los clientes
elijan cualquiera de los empaques? Explique

Número de veces
Diseño que fue elegido
1 5
2 15
3 30
4 40
5 10

Problema 11
Un médico cirujano se especializa en cirugías estéticas. Entre sus pacientes, el 20% se realizan
correcciones faciales, un 35% implantes mamarios y el restante en otras cirugías correctivas. Se sabe
además, que son de género masculino el 25% de los que se realizan correcciones faciales, 15% implantes
mamarios y 40% otras cirugías correctivas. Si se selecciona un paciente al azar, determine:
a. Calcula la probabilidad de que sea de género masculino
b. Si resulta que es de género masculino, ¿Cuál es la probabilidad que se haya realizado una cirugía de
implantes mamarios?

14.4 Bibliografía
1. Córdova, M. (2003). Estadística Descriptiva e Inferencial. Aplicaciones. (5ª ed.) Lima: Moshera.
2. Webster, A. (2006). Estadística aplicada a los Negocios y la Economía.(3ra ed.) Colombia: McGraw
Hill.
3. García, J. (2005). Estadística descriptiva y nociones de probabilidad. España: Thomson Editores.
4. Montesinos, L, Bayonas, Y, Cerna, E, Llanos, K, Pajuelo, S. (2016). Estadística descriptiva y
probabilidad. (1ª ed) 1Lima: Fondo Editorial USIL.

69
F-CV3-3B-3
Bibliografía

1. Córdova, M. (2003). Estadística Descriptiva e Inferencial. Aplicaciones. (5ª ed.) Lima: Moshera.
2. Ávila, RB. (2010). Estadística Elemental. Lima: Estudios y ediciones R.A.
3. Webster, A. (2006). Estadística Aplicada a los Negocios y la Economía. (3RA ED.) Colombia;
MCGRAW HILL.
4. Devore, J. (2008). Probabilidad y Estadística Para Ingeniería y Ciencias. (7ª ed.) México D. F:
CengageLearning.
5. García, J. (2005).Estadística descriptiva y nociones de probabilidad. Madrid: Thomson Editores
Spain.
6. Martínez, C. (2005). Estadística y muestreo.(12a ed.) Bogotá. ECOE Ediciones.
7. Quispe, U. (2005). Fundamentos de Estadística. (2ª ed.) Lima: San Marcos
Ibarra, O. (2006). Estadística para la Administración Turística. (2ª ed.) México D. F:
Trillas.
8. Salvador, S., Fernández M., Cao, A. (2008). Introducción a la Estadística y sus aplicaciones.
Madrid: Ediciones Pirámide
9. Bioestadística. [Acceso: 15 de enero del 2018]. Disponible en: http://
books.google.com.pe/book.

70
F-CV3-3B-3

Vous aimerez peut-être aussi