Estadistica PDF

TECSUP - PFR Estadística y Probabilidades
UNIDAD I
ESTADÍSTICA
1. INTRODUCCIÓN
El uso de los métodos estadísticos para analizar datos se ha convertido en una

práctica común en todas las disciplinas científicas. Este material de ayuda
pretende introducir métodos que utilizan los estudiantes en sus carreras de
formación tecnológica.
La exposición matemática es relativamente modesta. El uso sustancial del

cálculo se hace sólo en el capítulo de probabilidades. No se utiliza álgebra
matricial en absoluto. Por lo tanto, casi toda la exposición deberá ser accesible
para aquellos estudiantes cuyo conocimiento en matemática es básico.
La unidad 1 se inicia con algunos conceptos y terminología básicos (población,

muestra, estadística descriptiva e inferencial, variables y tipos) y continúa con la
elaboración de tablas de frecuencia para variables cualitativas y cuantitativas y
gráficos importantes. La unidad 2 corresponde a las medidas resumen de
posición y de dispersión. La unidad 3 se estudia el análisis de dos variables:
cualitativas vs cualitativas, cualitativas vs cuantitativas y cuantitativas vs
cuantitativas, además de gráficos importantes. En la unidad 4 se ofrece el
desarrollo un tanto tradicional de la probabilidad, la probabilidad condicional, la
probabilidad total y el teorema de Bayes.
1.1 POBLACIÓN Y MUESTRA
A fin de entender cómo se puede aplicar los métodos estadísticos, se debe

distinguir entre población y muestra. Una población o universo es cualquier
colección finita o infinita de individuos o elementos, para cada uno de los
cuales se tiene que contar o medir una o varias características. Los
elementos son los objetos que poseen la información que busca el
investigador y acerca del cual deben hacerse las inferencias. Entre posibles
elementos se tiene: una sustancia, un compuesto, un mineral, etc.
Aunque existe la libertad de llamar población a un grupo cualquiera de

elementos definidos en el tiempo y el espacio, en la práctica depende del
contexto en el cual se observarán los elementos. Suponga, por ejemplo, el
número de total de compuestos que pueden elaborarse con 5 sustancias,
puede considerarse como una población.
Una muestra es un subconjunto de elementos de la población que puede

servir de base para generalizaciones válidas En trabajos químicos, se
toman muestras de un material, se ensayan y se hacen deducciones para
la totalidad de dicho material, a partir de los resultados obtenidos. La
muestra no es exactamente la población, sino que se supone que la
1
Estadística y Probabilidades TECSUP - PFR
representa, y la validez de cualquier conclusión obtenida de ella depende

de la verdadera representatividad que tenga.
La muestra debería ser seleccionada en forma aleatoria, es decir, cada

elemento tiene una probabilidad conocida y no nula de selección. No
siempre es posible obtener una muestra aleatoria. Esto es especialmente
cierto cuando el estadístico puede confiar en su propio “juicio” o
“conveniencia” al seleccionar los elementos de la muestra. Con la
aleatoriedad se per- sigue que la muestra sea “representativa” de la
población, para que concentre todas las características y particularidades
de interés. Sin embargo, la aleatoriedad no garantiza necesariamente la
representatividad.
Los factores que determinan la selección de muestras son: costo, tiempo y

la imposibilidad práctica (o destrucción de la unidad de estudio). En tanto,
el tamaño de la muestra queda determinado por la variabilidad de la
población, el nivel de confianza y el error máximo permisible. Cuando los
elementos de una población tienen cierto grado de heterogeneidad entre
ellos, el tamaño de la muestra tiende a ser grande. Cabe destacar, que es
completamente erróneo asegurar que la muestra depende del tamaño de la
población.
Cuando se hace una investigación con todos los elementos de la población,

se llama censo o enumeración total. En tanto, cuando se elabora con base
en una muestra, se le denomina estudio por muestreo. En la mayoría de los
casos los químicos no están interesados en los datos de enumeración total
(o censo) sino en datos muestrales.
1.2 ESTADÍSTICA
Disciplina que nos proporciona un conjunto de métodos y procedimientos

que nos permitan recopilar, clasificar, presentar y describir datos en forma
adecuada para tomar decisiones frente a la incertidumbre o predecir o
afirmar algo acerca de la población a partir de los datos extraídos de la
misma.
Esta definición nos permite distinguir la Estadística Descriptiva de la

Inferencial.
La estadística descriptiva se puede definir como los métodos

estadísticos que pretenden describir las características más importantes de
un conjunto de datos, sea que provenga de una muestra o de una
población. Utiliza técnicas estadísticas, como la representación gráfica,
cuadros estadísticos, medidas de posición y de variabilidad.
Uno de los propósitos fundamentales de los métodos estadísticos es

utilizar estadísticos muestrales para estimar los parámetros de la
población. A este proceso de utilizar los estadísticos muestrales para llegar
2
a conclusiones acerca de los verdaderos parámetros de la población, se le

llama inferencia estadística.
La estadística inferencial generaliza los resultados observados en una

muestra a toda la población bajo estudio, por medio del planteamiento y
pruebas de hipótesis y cálculo de intervalos de confianza; se aplica a
problemas como estimar, mediante pruebas, el rendimiento promedio de
un proceso químico, verificar las especificaciones de producción a partir de
mediciones efectuadas sobre muestras o predecir los residuos de cloro en
una piscina basándose en una muestra de datos tomados en ciertos
periodos de tiempo.
1.3 CICLO METODOLÓGICO DE UN TRABAJO ESTADÍSTICO
Cuando no sea posible obtener una información completa de la población,

se extraen muestras representativas de dicha población mediante las
técnicas de muestreo, y en base al estudio o información obtenidas de los
datos muestrales se afirma algo acerca de la población total o se toman
decisiones generales confiables con ayuda de la Estadística Inferencial.
Este ciclo se cumple en la mayoría de las veces del quehacer estadístico
Figura 1
Ciclo metodológico de un trabajo estadístico
3
1.4 VARIABLES
Se dice que algo varía si puede tomar por lo menos dos valores, grados o
formas o, incluso, cuando una característica puede estar presente o
ausente en una situación específica.
Dicho esto, podríamos estar de acuerdo en que nociones como sexo,

número de hijos por familia, color de automóvil, número de huelgas
anuales, nivel de estudios, etc., son variables, ya que son características
que admiten por lo menos dos valores, grados o formas dentro de un
universo determinado.
No obstante, al empezar a familiarizarse con este tema, se suele confundir

la característica que admite variaciones con el universo o con los elementos
del mismo. Compárese la lista del párrafo anterior con esta otra: persona,
vivienda, lámpara, automóvil. Estos términos se refieren a objetos y no a
características de objetos; por lo tanto, no son variables. Variables serían
las características que quisiéramos indagar de esos objetos. Por ejemplo,
de un universo formado por personas podríamos conocer su edad, lugar de
nacimiento, nivel de escolaridad, clase social a que pertenecen, etc. Estas
peculiaridades son variables. También son variables, de un universo
formado por automóviles, su marca, modelo, color, potencia, etc., ya que
son características que van cambiando de auto en auto.
Otra confusión frecuente se da con los datos estadísticos. Consideremos

estos ejemplos: "número de huelgas" y "producción de azúcar". Si decimos
que el número de huelgas en una región y en un periodo determinados es
A, estamos aportando información global del fenómeno, que es un dato
estadístico, no una variable. El número de huelgas se convierte en variable
si se estudia, digamos, en un periodo determinado y en diferentes
regiones, o en una sola región y en diferentes periodos (anualmente,
sexenalmente, etc.). Lo mismo pasa si afirmamos que la producción de
azúcar en el ingenio X es B toneladas: se trata de un dato estadístico, no
de una variable. La producción de azúcar se convertirá en variable cuando
se indague en diferentes fábricas y en un mismo momento o en una misma
fábrica y en distintos momentos.
Ahora bien, toda variable tiene dos niveles: uno conceptual o teórico y otro
operacional o de medición. Si nos preguntaran qué se entiende por
alcoholismo, por ejemplo, podríamos decir que se trata de una enfermedad
progresiva y mortal, exclusiva de los seres humanos, que consiste en la
ingestión de bebidas alcohólicas. De ser más o menos correcta esta
definición, estaríamos en el nivel estrictamente conceptual o teórico, que
no permite efectuar ninguna medición. Si, en cambio, a partir de este
concepto definimos al alcoholismo como el grado de dependencia de los
seres humanos respecto a la ingestión de bebidas alcohólicas, habremos
pasado del nivel conceptual a otro donde es posible medir, pues en una
población dada encontraríamos desde el que no ha bebido jamás una gota
de alcohol, el abstemio, hasta el que no puede dejar de beber.
4
La correspondencia entre el nivel teórico y el operacional de una

variable se consigue mediante un procedimiento llamado medición, que
no debe entenderse como un procedimiento arbitrario de asignación de
números u otros símbolos a las observaciones: esta asignación se efectúa
en concordancia con un conjunto de procedimientos admisibles para la
variable conceptual que sé esté manejando.
A nivel operacional o de medición, variable es un conjunto de números u

otros símbolo; asignados a las observaciones, que sirven para clasificarlas
con respecto a una variable conceptual Sin embargo, no ahondaremos en
esta cuestión; será suficiente, por ahora, que sepamos identificar variables,
ya que del tipo a que pertenezcan dependerá el procedimiento estadístico
con que se le trate.
Tipos de variables
Según su naturaleza las variables pueden clasificarse en:
a) Variables cuantitativas, son aquellas que consisten de números que

representan conteos o mediciones. Las variables cuantitativas pueden
ser: Discreta, corresponde al conteo o numeración de sucesos.
Ejemplos: número de computadores en un aula, número de artículos
defectuosos en un embarque, número de hijos por familia, etc.
Continua, corresponde a “mediciones” y por tanto sus valores están

comprendidos en un intervalo ya que entre dos valores existen infinitos
valores intermedios.
Ejemplos: contenido neto en gramos en una lata de café, diámetro de

un tornillo, ingreso familiar, etc.
b) Variables cualitativas se dividen en diferentes categorías que se

distinguen por alguna característica no numérica. Ejemplos: genero,
nivel socio económico, grado de instrucción, etc.
Observación: Los datos pueden estar “codificados” numéricamente,
sin que ello signifique que sea una variable cuantitativa.
Ejemplo. Clasifica las siguientes variables:
 Marca de detergente que una ama de casa usa.

 El grado de instrucción.
 Número de artículos defectuosos producidos por una máquina en
un periodo de dos horas.
 La longitud de 1000 tornillos con arandela y tuerca.
Según la función que cumplen en el estudio:
Una distinción de particular importancia es aquella entre variables

dependientes e independientes. Los términos “dependiente” e
5
independiente” se utilizan para representar una relación de

“causalidad” entre dos variables.
El problema de la determinación de causalidad (¿cuáles variables son

dependientes y cuáles independientes?) es uno de los problemas más
serios que enfrenta la estadística. El análisis empírico o estadístico sólo
puede decirnos si dos variables parecen estar relacionadas, pero no
puede decirnos: (a) si de hecho existe una relación de dependencia y
(b) cuál es la dirección de dicha relación (cuál es la “causa” y cuál el
efecto o la variable “causada”). Necesitamos una “teoría” para dar
plausibilidad a una relación empírica.
Independiente (X):
Una variable independiente es aquella cuyo valor no depende del de
otra variable. La variable independiente se representa en el eje de
abscisas. Son las que el investigador escoge para establecer
agrupaciones en el estudio, clasificando intrínsecamente a los casos del
mismo.
Es aquella característica o propiedad que se supone ser la causa del

fenómeno estudiado. En investigación experimental se llama así a la
variable que el investigador manipula.
Dependiente (Y):
Una variable dependiente es aquella cuyos valores dependen de los
que tomen otra variable. La variable dependiente en una función se
suele representar por y. La variable dependiente se representa en el
eje ordenadas. Son las variables de respuesta que se observan en el
estudio y que podrían estar influidas por los valores de las variables
independientes.
Hayman (1974: 69) la define como propiedad o característica que se

trata de cambiar mediante la manipulación de la variable
independiente.
La variable dependiente es el factor que es observado y medido para

determinar el efecto de la variable independiente.
Considere la siguiente cuestión: ¿Es el aumento del ingreso per cápita

de un país que causa mejoras en el nivel de educación o la mejora en
el nivel de educación que causa mejoras en el ingreso per cápita? ¿O
tal vez un tercer factor es la causa de ambos? ¿Cultura? Este complejo
y viejo debate no se puede resolver sólo sobre la base del análisis
estadístico, aunque la estadística es un importante instrumento en
nuestros continuos esfuerzos por dilucidar estas cuestiones. El debate
mencionado ha persistido por décadas, además, porque muchas de las
teorías que han sido propuestas para explicar la relación entre
educación y desarrollo económico no pueden ser refutadas sólo sobre
la base del análisis empírico.
6
ESCALAS DE MEDICIÓN
La medición de una variable consiste en asignar un “valor” a la característica o
propiedad observada. Por ejemplo, si la característica observada es el género
de las personas, al clasificar a una persona como de sexo “femenino” le
estamos asignando un valor, estamos haciendo una medición de la
característica.
El proceso de medición utiliza diversas escalas: Nominal, Ordinal, Intervalo y

Razón.
Escala Nominal: Sólo permite asignar un nombre, etiqueta o valor al

elemento sometido a medición. Los números que se puedan asignar a las
propiedades observadas en los elementos se utilizan sólo como “etiquetas” con
la finalidad de clasificarlos. Con esta escala no tiene sentido realizar
operaciones aritméticas.
Por ejemplo:
Género (femenino, masculino), nacionalidad (peruano, colombiano, etc.),
marcas de gaseosa preferida (fanta, coca cola, pepsi etc.).
Escala Ordinal: Además de asignar un nombre, etiqueta o valor, esta escala

permite establecer un orden entre los elementos sometidos a medición. Con
esta escala solo se puede establecer una relación de orden. Los números que
se asignen a las propiedades deben respetar el orden de la característica que se
mide.
Cada categoría puede ser comparada con otra en relación de “mayor que” o
“menor que”.
Por ejemplo:
Grado de satisfacción (alto, medio, bajo), estado de salud (bueno, regular,

malo), grado de instrucción (primaria, secundaria, superior).
Escala de Intervalo: Además de asignar un nombre o etiqueta y establecer

un orden entre los elementos, esta escala permite calcular diferencias entre los
números asignados a las mediciones (el intervalo entre observaciones que se
expresa en términos de una unidad fija de medida).
Los datos de intervalo siempre son numéricos.

En esta escala el cero es relativo, es decir, no indica la ausencia de la
característica medida.
Por ejemplo:
Temperatura (se puede medir en grado Celsius o grado Fahrenheit), año
calendario (el año puede referirse al calendario gregoriano o calendario chino),
en el caso de la escala de intervalos podemos asignar el cero a cualquier valor
posible (el cero es arbitrario).
7
Escala de Razón: Una variable está medida en escala de razón si los datos
tienen todas las propiedades de los datos de intervalo y el cociente de los dos
valores es significativa. La escala de medición de razón tiene las propiedades de
la escala de intervalo con la propiedad adicional de tener un punto de partida
natural o cero (cero absoluto), que indica que ausencia de la variable (no existe
nada para una variable).
Para esta escala de medición, es posible establecer una relación de

proporcionalidad entre sus distintos valores, es decir el cociente de los valores
es significativo.
Por ejemplo:
Costo de un automóvil, número de aprobados, número de artículos

defectuosos.
2. ESTADÍSTICA DESCRIPTIVA
La estadística descriptiva se ocupa de la recopilación, clasificación, presentación y

descripción de los datos.
2.1 RECOPILACIÓN
Los datos pueden recopilarse de dos maneras fundamentales:
a) Si se consideran todos los elementos de la población y se registran

sus características se denomina censo.
b) Si se seleccionan algunos elementos de la población, pero no todos,

se denomina muestra y la información obtenida por este
procedimiento se llama por muestreo; si la recopilación de los
elementos muestrales se efectúa al azar se dice que el muestreo es
aleatorio y la muestra se denomina muestra aleatoria.
Un ejemplo de una recopilación completa o censo es el Censo Poblacional

del Perú realizado en el año 1993.
2.2 CLASIFICACIÓN
Los datos obtenidos por observación o medición suelen ser registrados en

el orden en que se recopilan. Para facilitar su interpretación y el análisis
correspondiente deben ser clasificados y esto equivale a que los datos
deben ser organizados de alguna manera sistemática o particionado en
clases bien definidas y una manera sencilla de hacerlo es ordenar los
datos según su magnitud o agruparlos de acuerdo a sus características.
8
2.3 PRESENTACIÓN DE DATOS
Una vez recolectados los datos y optado por su posible clasificación es

necesario presentarlos en forma tal que se facilite su comprensión y su
posterior análisis. Para ello se ordenan en cuadros numéricos llamados
TABLAS (Tablas de frecuencias) y luego se presentan mediante GRÁFICAS
(de barras, sectores circulares, histograma, polígono de frecuencias, ojiva,
pictograma, etc.)
3. ELABORACIÓN DE TABLAS SEGÚN LAS NORMAS APA
Cualquier forma de presentación empleada en el trabajo tendrá que ser

denominada Tabla o Figura. Según las normas APA, “generalmente las tablas
exhiben valores numéricos exactos y los datos están dispuestos de forma
organizada en líneas y columnas, facilitando su comparación" (APA, 2001, p.
133). Ya las figuras son “cualquier tipo de ilustración que no sea tabla. Una
figura puede ser un cuadro, un gráfico, una fotografía, un dibujo u otra forma de
representación” (APA, 2001, p. 149).
Título de la tabla
El título de la tabla debe ser breve, claro y explicativo. Debe ser puesto arriba de
la tabla, en el margen superior izquierdo, debajo de la palabra Tabla (con la
inicial en mayúscula) y acompañado del número con que la designa (las tablas
deben ser enumeradas con números arábigos secuencialmente dentro del texto y
en su totalidad). Ej.: Tabla 1, Tabla 2, Tabla 3, etc.
Citar tablas en el cuerpo del texto

Al citar tablas en el cuerpo del texto, escriba apenas el número correspondiente a
la tabla, por ejemplo: Tabla 1, Tabla 2, Tabla 3, etc. (la palabra Tabla tendrá que
ser presentada con la inicial mayúscula)
Nunca escriba "tabla abajo/arriba o tabla de la página xx, pues la numeración de
las páginas del trabajo puede ser alterada.
Cuerpo de la fuente de la tabla

Times New Roman, tamaño 10.
Fuente de las notas de la tabla

Notas de la tabla
Las tablas presentan tres tipos de notas: notas generales, notas específicas y
notas de probabilidad. “Las notas son útiles para eliminar la repetición en el
cuerpo de una tabla” (APA, 2001, p. 147). Ellas son presentadas en el margen
izquierdo (sin sangría) debajo de la tabla (entre la tabla y la nota hay que inserir
dos espacios). Y deben ser ordenadas en esta secuencia: nota general, nota
específica y nota de probabilidad, y cada tipo de nota debe ser puesta en una
línea nueva.
9
Notas generales: “Una nota general cualifica, explica u ofrece informaciones

relacionadas a la tabla como un todo y finaliza con una explicación de
abreviaturas, símbolos y afines” (APA, 2001, p. 145).
Nota específica se refiere a una columna, línea o ítem específico y debe ser
indicada por letra minúscula sobrescrita (a, b, c).
Nota de probabilidad indica los resultados de pruebas significativos y se

indican con asterisco sobrescrito (*).
Tabla N° 1
Tabla N° 2
4. TABLA DE FRECUENCIAS PARA VARIABLES CUALITITATIVAS
Se deberá representar en la tabla los diferentes valores que asume la variable

cualitativa y en la columna de las frecuencias absolutas simples la cantidad de
veces con las que aparece esta categoría de la variable. Si la variable cualitativa
está medida en escala ordinal, tendrá sentido mostrar las frecuencias
10
acumuladas absolutas o relativas. Si la medición está hecha en escala nominal

sólo deberá mostrarse las frecuencias absolutas simples y/o relativas.
Por ejemplo:
Tabla N° 3
Calidad en el servicio en el servicio de atención al cliente.
Opinión Frecuencia Frecuencia relativa Porcentaje

Deficiente 20 20/160 = 0.1250 0.125*100 = 12.50 %
Bueno 35 35/160 = 0.2188 21.88 %
Excelente 65 0.4063 40.63 %
Otros 40 0.2500 25.00 %
Total 160 1
Fuente: Sabadini, (2013)
5. ELABORACIÓN DE FIGURAS SEGÚN LAS NORMAS APA
Según la APA, “una figura es cualquier tipo de ilustración que no sea tabla. Una
figura puede ser un cuadro, un gráfico, una fotografía, un dibujo u otra forma de
representación” (APA, 2001, p. 149).
Tanto para las figuras como para las tablas el interlineados que se utiliza es
sencillo (1,0) o de uno punto cinco (1,5). Esto en el contenido de las tablas y
figuras como en las notas de las tablas, título de tablas o figuras y leyendas.
Según sea el caso.
Título de la figura
El título explica la figura de forma concisa, pero de forma discursiva. Debe ser
puesto debajo de la figura, con números arábigos secuencialmente dentro del
texto como un todo, precedido por la palabra Figura (con la inicial en
mayúscula). Ej.: Figura 1, Figura 2, Figura 3, etc.
Cualquier otra información necesaria para elucidar la figura (como la unidad de

medida, símbolos, escalas y abreviaturas) que no están incluidas en la leyenda,
tendrán que ser colocadas luego del título.
Cuerpo de la fuente de la figura

Leyenda
Se trata de la explicación de los símbolos empleados en la figura y debe ser
puesto dentro de los límites de la figura.
Citar figuras en el cuerpo del texto

Al citar figuras en el cuerpo del texto, escriba apenas el número correspondiente
a la figura, por ejemplo: Figura 1, Figura 2, Figura 3, etc. (la palabra Figura
tendrá que ser presentada con la inicial mayúscula)
Nunca escriba "figura abajo/arriba o figura de la página xx, pues la numeración
de las páginas del trabajo puede ser alterada.
11
Figuras reproducidas de otra fuente

Las figuras reproducidas de otra fuente deben presentar, debajo de la figura, la
referencia del autor original, aunque se trate de una adaptación.
Ejemplos
Nota Fuente: Sabadini, A. A. Z. P., Sampaio, M. I. C., & Koller, S. H. (2009).
Publicar en psicología: un enfoque para a revista científica (p.175). São Paulo:
Associação Brasileira de Editores Científicos de Psicología/Instituto de Psicología
da Universidade de São Paulo.
Nota Fuente: Adaptado de Sabadini, A. A. Z. P., Sampaio, M. I. C., & Koller, S. H.

(2009). Publicar en psicología: un enfoque para a revista científica (p. 176). São
Paulo: Associação Brasileira de Editores Científicos de Psicología/Instituto de
Psicología da Universidade de São Paulo.
6. REPRESENTACIÓN GRÁFICA DE VARIABLES CUALITATIVAS
6.1 DIAGRAMA DE BARRAS
Un diagrama de barras es una gráfica para representar un conjunto de

datos cualitativos que se han resumido en una distribución de frecuencias
absolutas, relativas o porcentuales. En uno de los ejes de la gráfica, por lo
general el eje horizontal, se colocan las categorías de la variable y en el
otro eje de la gráfica (por lo general el eje vertical) se pueden usar las
frecuencias absolutas, relativas o porcentuales. Luego, se construye una
barra de ancho fijo en cada categoría y cuya altura corresponda a la
frecuencia utilizada en el gráfico. Las barras deben estar separadas para
enfatizar el hecho que las categorías no se superponen.
Ejemplo:
Gráfica 1. Rentabilidad por AFP del Sistema Privado de Pensiones

Fuente: Sabadini, (2013)
6.2 DIAGRAMA CIRCULAR
El diagrama circular, también llamado diagrama de pie, es otra forma de

representar la distribución de frecuencias relativas o porcentuales. Para su
12
construcción primero se traza un círculo y luego se divide en sectores

circulares de forma proporcional a la frecuencia relativa de cada categoría.
Puesto que todo el círculo representa un ángulo de 360º en total cada
sector es el porcentaje correspondiente de dicho total, es decir, el ángulo
del sector que le corresponde a cada categoría se obtiene multiplicando
360º por la respectiva frecuencia relativa.
Ejemplo:
Figura 2. Distribución de la población según lugar de residencia

Fuente: Revista Perú Económico, (2004)
6.3 TABLAS DE FRECUENCIA PARA VARIABLES CUANTITATIVAS
Haremos algunas definiciones en base a un ejemplo: Clasificar los

siguientes datos recopilados del número de cabezas de ganado vacuno que
posee cada una de las 40 familias de las comunidades campesinas de la
Sierra Central del Perú, tomados al azar.
1 2 0 3 5 1 0 8 1 2
4 3 3 5 12 10 4 3 0 10
0 0 4 9 0 1 3 13 1 3
5 4 6 8 11 0 1 3 8 0
 Alcance (A): es el intervalo definido por los datos de mayor y menor

valor.
En el ejemplo: A  0; 13 
 Intervalos de clase ( Ii ) y Límites de clase ( Li ): clasificar los

datos en k grupos equivale a particionar el alcance A en k clases o k
intervalos Ii ,donde: i=1, 2, ...,k y determinar cuántos datos
pertenecen a cada uno.
I i   Li , Li 1 , i=1, 2, ...,k
Los intervalos semi-abiertos por la derecha Ii se denominan intervalos

de clase.
13
Los Li , i=1, 2, ...,k+1 se denominan los límites de clase.
El valor entero de k, fundamentalmente, depende del estadístico y/o

investigador, pero es recomendable utilizar la regla de Sturges para
determinar un valor aproximado de k:
k  1  3,3logn
Donde “n” es el número total de datos disponibles.
La fórmula es un poco conservadora y nos da un número de intervalos

un poco menor del que se utiliza en la práctica. Cuando el número de
datos es menor que 100, el número de intervalos se debe tomar menor
que 10. Para un número de datos bastante grande, el número de
intervalos es mayor que 10, la práctica aconseja los siguientes límites:
5  k  15 .
En el ejemplo:
k = 1 + 3,3 log(40) = 6,286
Luego k podrá tomar valores enteros: 5, 6 o 7
Tomemos: k=7.
 Ancho de Clase ( Wi ): es la longitud de un intervalo de clase.
Wi  l ( I i )  Li 1  Li
Para conseguir anchos de clase iguales (W ), como es deseable; se usa

la siguiente relación:
l ( A)
W  , donde l ( A) es la longitud del alcance.
k
En el ejemplo:
13
W  1,857  tomamos W = 2
7
 Frecuencia Absoluta (ni ): una vez decidido el valor de k y calculado

el ancho de clase. Mediante la tabulación se determina el número de
datos contenidos en cada clase y este número entero se denomina
frecuencia absoluta( ni )
ni : frecuencia absoluta de i – ésima clase .
14
 Distribución de Frecuencias Absolutas:
Tabla Nº 4
Nº de familias por
Cabezas de ganado
Tabulación clases
Intervalos de clase o Frecuencias Absolutas:
clases: Ii ni
[0; 2> 14
[2; 4> 9
[4; 6> 7
[6; 8> 1
[8; 10> 4
[10; 12> 3
[12; 14> 2
TOTAL 40
En el ejemplo: n = 40 ,k=7
Se verifica que:
n 
1 i 14
k
 ni  n1  n2  n3  n4  n5  n6  n7  14  9  7  1  4  3  2  40  n
i 1
n3= 3, se lee: “la frecuencia absoluta de la tercera clase es”
Los intervalos de clase son:
I1  0; 2 , I2   2; 4 , I3   4; 6  , I4   6;8  , I5  8;10  , I6  10;12  , I7  12;14 
Los límites de clase son:
L1  0, L2  2, L3  4, L 4  6, L5  8, L6  10, L7  12, L8  14
15
Tabla Nº 5
Frecuencias
Frecuencias Frecuencias Frecuencias
Cabezas Nº de Marcas Frecuencias relativas
relativas absolutas relativas
de ganado familias de clase relativas acumuladas
acumuladas acumuladas porcentuales
porcentuales
Clases ni xi hi Hi Ni 100hi% 100Hi%
[0; 2> 14 1 0,350 0,35 14 35 35
[2; 4> 9 3 0,225 0,575 23 22,5 57,5
[4; 6> 7 5 0,175 0,750 30 17,5 75
[6; 8> 1 7 0,025 0,775 31 2,5 77,5
[8; 10> 4 9 0,100 0,875 35 10 87,5
[10; 12> 3 11 0,075 0,950 38 7,5 95
[12; 14> 2 13 0,050 1 40 5 100
TOTALES 40 1 100
Sigamos con las definiciones, observando la tabla Nº2:
 Marcas de Clase ( xi ): son los puntos medios de los intervalos de

clase.
Li  Li 1
xi  ; i = 1, 2, ....., k
2
L  L2 0  2
x1  1  1
2 2
L  L3 2  4
x2  2  3 ; ......
2 2
x3 = 5, se lee: “la marca de clase del tercer intervalo de clase es 5 ”

n
 Frecuencias Relativas ( hi ): se define: hi  i ; i = 1, 2, ....., k
n
n 14
h1  1   0,350
n 40
n 9
h2  2   0, 225 ; .....
n 40
Se verifica que:
0  hi  1
k
 hi  h1  h2  h3  h4  h5  h6  h7  0,350  0,225  0,175  0,025  0,100  0,075  0,050  1
i 1
16
h3= 0,175, se lee: “la frecuencia relativa de la tercera clase es 0,175

”
 Frecuencia Relativa Porcentual (100 hi%)
Nos permite contestar preguntas del siguiente tipo: ¿Qué porcentaje

de familias, de las 40 bajo estudio, tienen 4 ó 5 cabezas de ganado?
Respuesta: 17,5 %
 Frecuencia Absoluta Acumulada ( Ni ):
Se define:
Ni = n1 + n2 + .... + ni ; i = 1, 2, ....., k
En el ejemplo:
N1  n1  14
N2  n1  n2  14  9  23
N3  30,.... N7  40
Se verifica:
0  Ni  40
Nk  N7  40
N 4  31, se lee: “la frecuencia absoluta acumulada hasta la cuarta

clase es 31 ”
 Frecuencia Relativa Acumulada ( Hi ):
Se define:
Ni
H i  h1  h2  ...  hi ó Hi  ; i  1, 2, ... , k
n
H1  h1  0,350
H2  h1  h2  0,575
H3  0,750,..... H7  1
Se verifica:
0  Hi  1
17
Hk  H7  1
H 2  0,575, se lee: “la frecuencia relativa acumulada hasta la

2da.clase es 0,575”
 Frecuencia Relativa Acumulada Porcentual (100 Hi%):

Nos permite contestar preguntas del siguiente tipo: ¿Qué porcentaje
de familias, de las 40 bajo estudio tienen menos de 8 cabezas de
ganado?
Respuesta: 77,5 %
Gráficas
Las distribuciones de frecuencias pueden ser representadas gráficamente
mediante:
a) Histogramas
Son gráficas de barras o rectángulos cuyas bases representan los
intervalos de clase y las alturas las frecuencias absolutas o relativas.
Ii vs. ni Ii vs. hi
ó (Fig. 3)
b) Polígonos de frecuencias
Son polígonos construidos uniendo los puntos i x
i i ,n ó
i x ,h
mediante segmentos de recta, o uniendo los puntos medios de los
“techos” de los rectángulos del histograma. (Fig. N° 3)
ni ni
Histograma Polígono de Frecuencias
15 15
Figura 3 Figura 4
10 10
5 5
0 2 4 6 8 10 12 14 Ii 0 2 4 6 8 10 12 14 Ii
18
c) Diagramas escalonados o funciones escalonadas
Son gráficas de barras o rectángulos cuyas bases representan los

intervalos de clase y las alturas las frecuencias absolutas o relativas
acumuladas.
Ii vs. Ni ó Ii vs. H i (Fig. 5)
d) Ojivas
Son poligonales asociadas a distribuciones de frecuencias absolutas o

relativas acumuladas construidas como aparece en la Figura 5.
Ni Ojiva
Ni Función Escalonada
40
40
30
30
20
20
10
10
0 2 4 6 8 10 12 14 Ii 0 2 4 6 8 10 12 14 Ii
Figura 5 Figura 6
19
7. PROBLEMAS PROPUESTOS
1. En un artículo se reportó las siguientes observaciones, listadas en orden

creciente sobre la duración de brocas (número de agujeros que una broca
fresa antes de que se rompa) cuando se fresaron agujeros en una cierta
aleación de latón.
11 14 20 23 31 36 39 44 47 5
59 61 65 67 68 71 74 76 78 7
81 84 85 89 91 93 96 99 101 10
105 105 112 118 123 136 139 141 148 15
161 168 184 206 248 263 289 322 388 51
a. ¿Por qué una distribución de frecuencia no puede estar basada en los

intervalos de clase 0-50, 50-100, 100-150 y así sucesivamente?
b. Construya una distribución de frecuencia e histograma de los datos con los
límites de clase 0, 50, 100, . . . y luego comente sobre las características
interesantes.
c. Construya una distribución de frecuencia e histograma de los logaritmos
naturales de las observaciones de duración y comente sobre
características interesantes.
d. ¿Qué proporción de las observaciones de duración en esta muestra son
menores que 100? ¿Qué proporción de las observaciones son de por lo
menos 200?
2. Un diagrama de Pareto es una variación de un histograma de datos

categóricos producidos por un estudio de control de calidad. Cada categoría
representa un tipo diferente de no conformidad del producto o problema de
producción. Las categorías se ordenaron de modo que la categoría con la
frecuencia más grande aparezca a la extrema izquierda, luego la categoría
con la segunda frecuencia más grande, y así sucesivamente. Suponga que se
obtiene la siguiente información sobre no conformidades en paquetes de
circuito: componentes averiados, 126; componentes incorrectos, 210;
soldadura insuficiente, 67; soldadura excesiva, 54; componente faltante,
131. Construya un diagrama de Pareto.
3. Los accidentes en una planta de papas fritas se clasifican de acuerdo con la

parte del cuerpo lesionada.
Dedos: 17 Ojos: 5
Brazos: 2 Piernas: 1
Trace un diagrama de barras
4. Los siguientes datos constituyen las vidas útiles en horas de una muestra
aleatoria de 60 bombillas de luz de 100 watts:
807 811 620 650 815 725 743 703 844 907
660 753 1050 918 850 876 1027 889 878 890
881 872 869 841 863 842 851 837 822 811
20
766 787 923 792 799 937 816 758 817 753
1056 1076 958 970 765 896 740 891 1075 1074
832 863 852 788 968 817 678 865 759 923
a) Constrúyase una distribución de frecuencias con anchos de clases

iguales
b) Trácese el polígono de frecuencias sobre un Histograma de intervalos de

clases vs. frecuencias relativas.
c) Trácese la ojiva asociada a la función escalonada representando

intervalos de clases vs. frecuencias absolutas acumuladas.
5. La siguiente tabla muestra la distribución de los empleados de una compañía

aseguradora por sueldos mensuales en nuevos soles (año 2001)
Clases Frecuencias
menos de 450 32
450 a menos de 900 47
900 a menos de 1350 75
1350 a menos de 1800 89
1800 a menos de 2500 126
2500 a menos de 4250 38
4250 a más 10
TOTAL 417
a) ¿Qué porcentaje de empleados ganan sueldos mensuales inferiores a 900

nuevos soles?. ¿Qué porcentaje ganan 2500 nuevos soles o más?
b) ¿Qué porcentaje de empleados ganan entre 1350 y 4250 nuevos soles?
c) Determinar los anchos y las marcas de clase.
Nota. Se averiguó que el máximo haber percibido en la compañía es de 5500

nuevos soles. Si no se tiene ninguna información se asume un máximo
valor de acuerdo al problema en cuestión; así como se supondrá cero,
como el haber mínimo.
6. Para un estudio sobre resistencia de un metal, se han realizado cien

experiencias de rotura frente a la carga de un hilo del mismo grosor, y han
sido anotados los pesos límites en cada caso.
21
Cargas de rotura de un hilo en gramos
711 862 851 912 922 791 825 935 895 758
915 873 926 864 800 931 722 774 903 925
853 700 885 857 844 907 917 786 820 930
789 790 753 910 847 784 936 706 758 887
941 909 784 882 859 903 925 704 792 888
890 925 895 768 869 892 895 912 850 920
763 805 796 759 916 853 789 943 712 764
892 893 915 890 888 865 909 931 710 798
914 794 931 701 772 935 887 880 933 905
889 791 782 713 724 868 842 892 905 792
a) Reagrupar estos datos en 7 intervalos de clase de igual longitud.
b) Trácese el histograma y el polígono de frecuencias.
c) Trácese la ojiva correspondiente, y conteste:
¿Qué porcentaje presentan una carga no menor de 770 gramos?

¿Qué porcentaje presentan una carga entre 800 y 900 gramos?
7. Las distribuciones cualitativas o por categorías se suelen presentar en

diagramas de sectores en la que un círculo aparece dividido en sectores
proporcionales en su abertura a las frecuencias de las categorías que
representan:
a) Construir un diagrama de sectores para trasmitir la información de que

(según las cifras más recientes disponibles) en el Perú el número total
de botellas de vino consumidas provienen el 69% de ICA, el 18% de
otras partes del país, el 5% se importan de Francia y el resto de otros
países.
b) Dibujar un diagrama de sectores para mostrar que en un hospital de

una gran ciudad la distribución de su presupuesto es como sigue: 73%
de sueldos, honorarios profesionales médicos y bonificaciones a los
empleados; 13% en suministros y equipo médico y quirúrgico; 8% en
mantenimiento, alimentación y energía y el 6% en gastos
administrativos.
8. En 1972, la población activa de Francia estaba compuesta de:
 11,1% de agricultores,
 10,6% de patronos,
 16,5% de ejecutivos,
 16,7% de empleados,
 38,6% de obreros,
 6,5% de personal de servicios y otras categorías.
22
Representar esta distribución mediante el gráfico que parezca más

adecuado.
9. Las pérdidas en una fábrica de papel (en miles de dólares) debidas a

rasgaduras pueden dividirse según el producto:
Papel higiénico: 132 Toallas desechables: 85

Servilletas: 43 Otros: 12 productos
a) Trace un diagrama en barras.
b) ¿Qué porcentaje de las pérdidas ocurre en la elaboración de papel

higiénico?.
c) ¿Qué porcentaje de las pérdidas ocurre en la elaboración de papel

higiénico o toallas desechables?
10. Los pesos de ciertos especimenes minerales, dados en la décima más

cercana de una onza, se agrupan en una tabla con los intervalos: 10,5 –
11,4; 11,5 – 12,4; 12,5 – 13,4; y 13,5 – 14,4 onzas.
a) Determine las marcas de clase.

b) ¿Es posible determinar a partir de los datos agrupados cuántos
especimenes minerales pesan?:
 Menos de 11, 5 onzas.

 Más de 11,5 onzas.
 Al menos 12,4 onzas.
 Cuando mucho 12,4 onzas.
 De 11,5 a 13,5 onzas?
11. Los siguientes datos son las velocidades (en km/h) de 80 carros que pasaron
por un punto de control de velocidad:
60 30 31 60 45 20 34 29 35 20
40 54 38 35 27 45 40 55 45 60
49 49 85 83 30 40 46 105 29 38
102 60 80 35 28 60 82 72 63 36
70 60 31 65 34 73 68 81 65 80
25 70 108 26 24 27 40 75 43 85
120 45 39 83 65 72 46 62 43 63
60 70 100 55 50 63 64 65 61 69
Clasifique estos datos convenientemente y:
a) Muestre el histograma y el polígono de frecuencias correspondiente.
23
b) Diseñe la función escalonada y la ojiva respectiva.
c) Los carros con velocidades mayores a 80 km/h, son multados por

exceso de velocidad. ¿Qué porcentaje serán multados?
d) Los carros con velocidades entre 45 y 70 km/h, van a ser

considerados en premios organizados por una compañía. ¿Qué
porcentaje serán premiados?
12. El gráfico muestra el impuesto mensual (en soles) que debe pagar una
persona, según su sueldo mensual (en soles):
IMPUESTO
900
360
120
1000 2200 3400 4000 SUELDO
¿Cuánto de impuesto mensual paga una persona que gana s/.1500? ¿Cuánto
gana una persona que paga mensualmente s/.300 de impuesto?
13. La siguiente tabla de frecuencias muestra los haberes mensuales de 200

obreros de cierta fábrica, en nuevos soles (año2000)
Haberes mensuales Número de obreros

Menores a 500 4
 500 , 700 60
 700 , 900 40
 900 , 1100 48
 1100 ,1300 24
 1300 ,1500 14
 1500 ,1700 8
más de 1700 2
TOTAL 200
24
Con referencia a esta tabla, contestar:
a) ¿Qué porcentaje de obreros tienen haberes inferiores a s/.1000

mensuales?
b) ¿Qué porcentaje de obreros tienen haberes superiores a s/.1100

mensuales?
c) ¿Qué porcentaje de obreros tienen haberes entre 1000 a 1500 soles

mensuales?
d) Graficar el histograma, el polígono de frecuencias y la ojiva

correspondientes.
25
ANOTACIONES:
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
26
UNIDAD II
MEDIDAS RESUMEN
En esta etapa nos ocuparemos del cálculo y estudio de los estadígrafos.
Tabla N° 1
Estadígrafos.- Son números que describen alguna característica de la muestra y se

obtienen a partir de los datos muestrales o experimentales. Existen básicamente dos
tipos de estadígrafos:
a) Estadígrafos de Posición: Localizan el “centro” de la distribución de frecuencias.

Se denominan también medidas de tendencia central o de localización. Ejemplos:
media, mediana, moda, cuartiles, deciles, etc.
b) Estadígrafos de Dispersión: Nos indican como están dispersos los datos con
respecto a algún estadígrafo de posición. Miden el grado de variabilidad de los
datos alrededor de alguna medida de tendencia central, por esta razón, se les
denomina también estadígrafos de variabilidad. Ejemplos: rango, la desviación
media, varianza, desviación típica, coeficiente de variación, rango intercuartílico,
etc.
1. MEDIA ( x )
Llamada también media aritmética o promedio aritmético es un estadígrafo que

localiza el “centro” de la distribución en base a su “centro de gravedad” y se
obtiene a partir de las siguientes fórmulas.
27
Estadística y probabilidades TECSUP - PFR
 Para datos no clasificados:
Sean x1 , x2 ,..., xn las variables matemáticas que representan los datos

n
x i
muestrales, entonces: x i 1
 Para datos clasificados:
xn i i k
x i 1
o x   xi hi
n i 1
Donde:
k : número de clases x1 , x2 ,..., xk : marcas de clase
n: número total de datos n1 , n2 ,..., nk : frecuencias absolutas
h1 , h2 ,..., hk : frecuencias relativas.
 Media Ponderada:
x P i i
x i 1
k
P
i 1
i
Siendo P1 , P2 ,..., Pk pesos asociados a las variables x1 , x2 ,..., xk

respectivamente.
 Media global:
Si una muestra de tamaño n se particiona en k submuestras y x1 , x 2 ,..., x k

son las medias de las k submuestras de tamaños n1 , n 2 ,..., n k
respectivamente.
 ni xi
Entonces: x i 1
se denomina la media global de la muestra
n
particionada.
Ejemplos:
28
 Media de datos no clasificados:
x1  9 , x2  5 , x3  3 , x4  10 , x5  8
5
 xi
x  x2  x3  x 4  x5 9  5  3  10  8
x  i 1  1  7
5 5 5
 Media de datos clasificados:
Halle la velocidad media de los 30 carros que pasaron por un punto de

control de velocidad, del problema 2.
Use las fórmulas que incluyen frecuencias absolutas y relativas.
Tabla N° 2
Intervalos ni
de clase
[10, 26 4
[26, 42 12
[42, 58 7
[58, 74 4
[74, 90 2
[90, 106 1
Total 30
 xini
x  1
i 1356 x   xihi  45,15
  45, 2
n 30 o i 1
 Media ponderada:
Tabla N° 3
Notas Pesos
xi Pi xi Pi
Ex. Parcial 05 1 5
Ex. Final 13 3 39
4 44
k
 xiPi
x  i 1
44
  11
k 4
 Pi
i 1
29
 Media Global:
Si una muestra de tamaño 60 se divide en 5 sub-muestras de tamaños 8, 18,

12, 9, 13 con medias 15, 14, 12, 8,11 respectivamente. Entonces, la media
global será:
 xini
8 * 15  18 * 14  12 * 12  9 * 8  13 * 11 731
x  1
i    12,18
n 60 60
2. MEDIANA (Xm)
La mediana es un valor que divide a un conjunto de observaciones ordenadas en

forma ascendente o descendente en dos grupos de igual número de
observaciones.
 Para datos no clasificados:
Sean x1 , x 2 ,..., x n los datos muestrales tales que x1  x 2  ...  x n . Entonces:
 x n 1 ; si n es impar
 2

Xm  
 1
 ( xn  xn 2 ) ; si n es par
 2 2 2
En palabras: una vez ordenados los datos en orden creciente (o decreciente)

de sus magnitudes:
Si n es impar, la mediana es el valor del dato que equidista de los extremos.
Si n es par, la mediana es el promedio aritmético de dos datos consecutivos

equidistantes de los extremos.
Ejemplos:
Hallar la mediana de los siguientes conjuntos de datos:

{ 10, 9, 3, 6, 14 }
Previamente ordenamos los datos:
x1  3 x2  6 x3  9 x 4  10 x5  14
como n es impar ( n = 5 )
X m  x 5 1  x3  9
2
30
{ 5, 10, 29, 43, 21, 17 }
Previamente ordenados los datos:
x1  5 x 2  10 x3  17 x 4  21 x5  29 x 6  43
como n es par ( n = 6 ) Xm  19
 Para datos clasificados:
Está dada por la fórmula:
n 
  N m 1 
X m  Lm  Wm  2 
 nm 
 
 
donde:
Lm : Límite inferior de la clase mediana (*)
n : Número total de datos
N m 1 : Frecuencia absoluta acumulada hasta la clase inmediata

m 1
N m 1   ni
anterior a la clase mediana i 1
nm : Frecuencia absoluta de la clase mediana.
Wm : Ancho de clase de la clase mediana:

Wm  Lm 1  Lm
2.1 CLASE MEDIANA
Es el intervalo de clase que contiene el dato que ocupa la posición media o

central. Se identifica observando las frecuencias acumuladas absolutas o
relativas y es aquella que hasta ese nivel acumuló la mitad del número
n
total de datos ( 2 ó 0,5) o superó por primera vez a la mitad.
Clase mediana=
[ Lm , Lm 1 ; X m  [ Lm , Lm 1 
Ejemplo:
31
Tabla Nº 4
Velocidades en ni Ni Hi
Km/h
[10, 26 4 4 0,133
[26, 42 12 16 0,533
[42, 58 7 23 0,766
[58, 74 4 27 0,899
[74, 90 2 29 0,966
[90, 106 1 30 1
Total 30
n 30
  15
2 2
La frecuencia absoluta acumulada correspondiente a la segunda clase (N2

= 16), supera por primera vez a 15; o la frecuencia relativa acumulada a la
segunda clase (H2 = 0,533), supera por primera vez a 0,5.
Luego la clase mediana es [26;42>.
Lm  26
n = 12
Wm  16
nm  12
N m 1  4
 30 
 2  4
Xm  26  16    40, 67
 12 
 
Ni
30
25
20
15
10
10 26 42 58 74 90 106 Ii
32
2.2 MEDIANA COMO UNA MEDIDA DE TENDENCIA CENTRAL MÁS

REPRESENTATIVA
La media es un estadígrafo bastante sensible a los valores extremos y

como medida del “centro de gravedad” de la distribución tiende a inclinarse
a los datos de mayor valor. Si existen valores extremos que difieren
considerablemente del resto no localiza como se debe el “centro” de la
distribución. En tanto que la mediana por no ser sensible a los valores
extremos y localizar el “centro” de la distribución en base a la posición
central que ocupa resulta siendo mejor que la media o más representativa
en el sentido que localiza mejor el “centro” de la distribución; pero, en
general, la media es más representativa que la mediana, como estadígrafo
de localización:
Ejemplo:
Un empleador dice que el promedio mensual de salario pagado a los

ingenieros de su firma es de 3 500, esto sugiere que esta firma paga bien.
Sin embargo, un examen posterior indica que se trata de una pequeña
compañía que emplea 5 jóvenes ingenieros con 1 000 soles de haber
mensuales c/u y la renta del ingeniero Jefe es de 16 000 soles mensuales.
¿Ud. puede seguir afirmando que la firma paga bien?. No.
Halle la mediana y compare, ¿cuál de los estadígrafos es más

representativo?
X  3500;
x1  1000, x2  1000, x3  1000, x 4  1000, x5  1000, x 6  16 000

X m = 1000
En este caso, la mediana es la más representativa en el sentido que localiza

mejor que la media el “centro” de los datos bajo consideración.
Existe un valor extremo bastante discrepante o exagerado ( x6  16 000).
2.3 USOS DE LA MEDIA ARITMÉTICA
 La media de la muestra se usa cuando se necesita una medida de

tendencia central que no varíe mucho entre una y otra muestra
extraída de la misma población, esta es la razón para preferirla
cuando se desea la máxima confiabilidad en la estimación de la
media poblacional.
 También se usa la media cuando la distribución de frecuencias de los

datos es simétrica o tiene poca asimetría.
 Se calcula la media cuando en un estudio también se debe calcular la

varianza o la desviación estándar.
33
2.4 USOS DE LA MEDIANA
 Se prefiere a la mediana como medida de concentración, cuando en

los datos existen valores extremos muy grandes o muy pequeños, o
sea, valores muy altos o muy bajos que obligan a la media aritmética a
desplazarse a la derecha o izquierda del punto medio de la
distribución. En cambio la Mediana siempre señala al punto que divide
a los datos en dos partes iguales: 50% a un lado y 50% al otro, sin
importar donde se halle ese punto.
 Cuando simplemente necesitamos conocer si los datos que nos

interesan están dentro de la mitad superior o inferior de la distribución
de los datos y no tiene importancia saber particularmente su
alejamiento con respecto al centro de la distribución.
3. MODA ( M o )
La moda es un valor de la variable que tiene la más alta frecuencia, esto es, es el
valor más frecuente de la distribución.
Si la distribución de frecuencias tiene un solo máximo (máximo absoluto), se dice
que la distribución es unimodal; en cambio si tiene más de un máximo (máximos
relativos), se dice que la distribución es multimodal.
Si todas las frecuencias son iguales se dice que la distribución no tiene moda y se
trata de una distribución uniforme.
a) Para datos no clasificados
 Determinar la moda del siguiente conjunto de datos:
2, 2, 3, 4, 5, 5, 6, 7, 7, 7, 9, 9, 12.
La moda es el número 7 porque es el dato más repetido (3 veces).
Esta distribución se llama unimodal porque sólo posee una moda.
 El siguiente conjunto de datos no tiene moda.
15, 19, 20, 35, 47, 58, 63.

Porque ninguno de ellos está repetido
 La siguiente distribución es bimodal es decir, tiene dos modas:
8, 9, 9, 13, 13, 13, 18, 20, 24,24,24, 33, 59, 78, 78.
Mo = 13 y también Mo = 24
34
 La siguiente distribución es trimodal:
4, 8, 8, 8, 8, 15, 15, 15, 20, 20, 21, 21, 21, 21,32, 40, 40,40, 40, 80, 80,
90.
Mo = 8, Mo = 21, Mo = 40 Tiene tres modas.
b) Para datos clasificados
 1 
M o  Li  Wi  
 1   2 
I i  [ Li , Li 1  : clase modal, es aquella que tiene la frecuencia máxima
Li : límite inferior de la clase modal.
Wi : ancho de la clase modal
 1  ni  ni 1 : exceso de la frecuencia modal sobre la frecuencia de la clase

contigua inferior.
 2  ni  ni 1 : exceso de la frecuencia modal sobre la frecuencia de la clase
contigua superior.
Ejemplo:
Determinar la moda de la siguiente distribución de frecuencias:
Tabla Nº 5
Ii ni
[12,5 20,5 1
[20,5 28,5 8
[28,5 36,5 22
[36,5 44,5 26
[44,5 52,5 20
[52,5 60,5 12
[60,5 68,5 6
[68,5 76,5 5
TOTALES
La clase modal será: I = [36,5; 44,5 
Además es una distribución unimodal.
35
1 = 26 -22 = 4
2 = 26 -20 = 6
 1   4 
Mo  36,5  W    36,5  8    39,7

 1   2 4 6
ni
Ii
4. CUARTILES (QI)
Son medidas de posición que dividen en cuatro partes iguales al conjunto de

valores ordenados en una distribución de frecuencias. Estas medidas son: el
primer Cuartil Q1, el segundo Cuartil Q2 y el tercer Cuartil Q3
25%
Q1 Q2 Q3
25% 75%
Las fórmulas para calcular los cuartiles se derivan de la fórmula utilizada para
calcular la mediana y los pasos para el cálculo son los mismos:
Para el primer cuartil: Para el tercer cuartil:
n   3n 
  N i 1    N i 1 
Q1  Li  Wi  4  Q3  Li  Wi  4 
 ni   ni 
   
   
Ejemplo
A partir de la siguiente tabla determinar el 25% inferior y el 25% superior.
36
Tabla Nº 6
Altura en pulgadas ni Ni Hi
[60, 63 5 5 0,05
[63, 66 18 23 0,23
[66, 69 42 65 0,65
[69, 72 27 92 0,92
[72, 75 8 100 1
TOTALES
Para determinar el 25% inferior debemos calcular el primer cuartil.
Para determinar el 25% superior debemos calcular el tercer cuartil

Cálculo de Q1 :
n 100
  25 . Luego tomamos la clase: I = [66; 69 
4 4
Luego:
 100 
 4  23 
Q1  66  3    66,14
 42 
 
 
Cálculo de Q3 :
3n 3x100
  75 . Luego tomamos la clase: I = [69; 72  
4 4
Luego:
 3x100 
 4  65 
Q3  69  3    70,11
 27 
 
 
5. DECILES ( DI )
Son medidas de posición que dividen en 10 puntos iguales al conjunto de los

valores ordenados de una distribución de frecuencias. Estas medidas son: el
primer decil D1, el segundo decil D2 y así sucesivamente hasta el noveno decil D9.
El primer decil distribuye al lado izquierdo el 10% de los datos y al otro lado el
90%, es decir, ocupa la posición n/10.
En igual forma para los demás deciles hasta el noveno decil 9n/10 que deja a la
izquierda el 90% de los datos y a la derecha el 10%.
37
30%
D1 D2 D3 D4 D5 D6 D7 D8 D9
10%
90%
 Entre cada dos deciles consecutivos debe encontrarse comprendido el 10%

del número de datos.
La fórmula para calcular deciles es:
 rn 
  N i 1 
Dr  Li  Wi  10 
 ni 
 
 
Donde:
Dr = el decil buscado.
Li = límite inferior del intervalo donde se halla el decil buscado
r = indica el decil. Por ejemplo si queremos el tercer decil  r = 3.
rn
 indica la situación del decil, es decir, la clase donde está el decil
10
Los demás signos: n , Ni-1 , Wi , ni tienen los mismos significados que para
el caso de la mediana.
Ejemplo
Se presenta la distribución de frecuencias de los puntajes obtenidos por 250

alumnos en una prueba de rendimiento de Física. Determinar qué puntajes
deben tener los que se hallen en el 20% inferior y cuáles puntajes los que
se encuentren en el décimo superior.
38
Tabla N° 7
Intervalos ni Ni
40; 45 4 4
45; 50 10 14
50; 55 18 32
55; 60 25 57
60; 65 46 103
65; 70 53 156
70; 75 37 193
75; 80 29 222
80; 85 18 240
85; 90 10 250
Totales 250
Primero debemos determinar el segundo decil a fin de determinar el 20%

inferior.
Cálculo de D2:
2n 2x250
  50 ; Luego el segundo decil está en la clase: I = [55, 60 
10 10
 50  32 
Por fórmula: D  55  5    58, 6
 25 
Para hallar los que se encuentran en el décimo superior calculamos el

noveno decil.
Cálculo de D9:
9n 9x250
  225 ; Luego el noveno decil está en la clase: I = 80; 85 
10 10
 225  222 
Por fórmula: D  80  5    80,83
 18 
CARACTERÍSTICAS DE DISPERSIÓN
Las dos siguientes series de datos:
39
Tienen la misma media aritmética y la misma mediana (100). Sin embargo

difieren profundamente. Lo que las hace diferentes es lo que, en estadística,
se llama dispersión; la segunda serie es mucho más dispersa que la primera.
Es pues importante resumir una serie estadística no sólo por características

de tendencia central, sino por características de dispersión. Veremos de dos
tipos: las ligadas a la media: desviación típica; las ligadas a la mediana:
intervalo intercuartílico, intervalo interdecílico.
6. MEDIDAS DE DISPERSIÓN
 Varianza ( S x2 ó V( x ) )
Se define:
 n
  ( xi  x)
2
 i 1 , datos no clasifcados
 n
V( x )  Sx   k
2
  ( xi  x) 2 ni
 i 1
 , datos clasificados
n
Se interpreta como la media aritmética de los cuadrados de las desviaciones

de las xi con respecto a x .
A menudo el cálculo de la varianza es muy laborioso, sobre todo si la media

no es entera, para facilitar los cálculos podemos usar una segunda forma:
n x 2
i i
2
V( x )  i 1
 x ; datos clasificados
n
 Desviación Típica
S x 
S x  V( x )
Una idea sencilla del significado de la desviación típica se obtiene cuando se

comparan dos series de la misma naturaleza: la que posee una desviación
típica más alta es la más dispersa.
 Coeficiente de variación (C.V.)
Sx
C.V . 
x
40
Generalmente se expresa en porcentajes. Es útil para la comparación en

términos relativos del grado de concentración en torno a la media de dos
distribuciones distintas.
 Rango o extensión (e)
Indica la extensión del intervalo en donde se halla toda la población

estudiada.
e = Lk – L1 =l(A)
Por ejemplo de la Tabla Nº8, tenemos e = 90 - 40 = 50
 Rango interdecílico = D9 – D1
 Rango intercuartílico = Q3 – Q1
Por ejemplo, a partir de la tabla Nº8, tenemos:
Rango intercuartil = 74,26 – 60.97 = 13,99
Rango interdecílico = 80,83 – 53,06 = 27,77
7. GRÁFICAS DE CAJA
Los histogramas transmiten impresiones un tanto generales sobre un conjunto

de datos, mientras que un resumen único tal como la media o la desviación
estándar se enfoca en sólo un aspecto de los datos. En años recientes, se ha
utilizado con éxito un resumen gráfico llamado gráfica de caja para describir
varias de las características más prominentes de un conjunto de datos. Estas
características incluyen 1) el centro, 2) la dispersión, 3) el grado y naturaleza de
cualquier alejamiento de la simetría y 4) la identificación de las observaciones
“extremas o apartadas” inusualmente alejadas del cuerpo principal de los datos.
Como incluso un solo valor extremo puede afectar drásticamente los valores de -
x y s, una gráfica de caja está basada en medidas “resistentes” a la presencia de
unos cuantos valores apartados, la mediana y una medida de variabilidad
llamada dispersión de los cuartos.
Se ordenan las observaciones de la más pequeña a la más grande y se separa la

mitad más pequeña de la más grande; se incluye la mediana Xm en ambas
mitades si n es impar. En tal caso el cuarto inferior es la mediana de la mitad
más pequeña y el cuarto superior es la mediana de la mitad más grande. Una
medida de dispersión que es resistente a los valores apartados es la dispersión
de los cuartos fs o también conocido como rango intercuartilico, dada por:
fs = cuarto superior – cuarto inferior
41
Ejemplo
Se utilizó ultrasonido para reunir los datos de corrosión adjuntos de la placa de

piso de un tanque elevado utilizado para almacenar petróleo crudo (“Statistical
Analysis of UT Corro- sion Data from Floor Plates of a Crude Oil Aboveground
Storage Tank”, Materials Eval; 1994: 846-849); cada observación es la
profundidad de picadura más grande en la placa, expresada en milésimas de
pulgada.
40 52 55 60 70 75 85 85 90 90 92 94 94 95 98 100 115 125 125
El resumen de cinco números es como sigue:

xi más pequeña = 40
xi más grande = 125
cuarto inferior = 72.5
cuarto superior = 96.5

Mediana = Xm = 90
La figura muestra la gráfica de caja resultante. El lado derecho de la caja está

mucho más cerca a la mediana que el izquierdo, lo que indica una asimetría
sustancial en la mitad derecha de los datos. El ancho de la caja (fs) también es
razonablemente grande con respecto al rango de datos (distancia entre las
puntas de los bigotes).
Figura 1. Gráfica de caja de los datos de corrosión
8. ASIMETRÍA
Es la deformación horizontal de las curvas de frecuencias.
Cuando la curva está inclinada o alargada hacia la derecha se denomina

asimetría a la derecha o asimetría positiva (Fig.2). Observamos que la media
aritmética queda hacia el lado más largo (el derecho) y que x  X m  M o .
Cuando la curva está inclinada o alargada al lado izquierdo se denomina

asimetría a la izquierda o negativa (Fig.3). Notamos que la media aritmética está
del lado más largo (el izquierdo) y que x  X m  M o .
42
En la Fig. 4 observamos que la curva está igualmente inclinada a los dos lados
por eso se llama curva simétrica. En este caso: x  X m  M o
Fig. 1 Fig. 2 Fig. 3
Mo Md x x Md Mo x
Md
Mo
Primer coeficiente de Asimetría de Pearson
Media  Moda
AS1 
desviación estándar
x  Mo
AS1 
Sx
Notar que el valor del Primer coeficiente de Asimetría de Pearson nos indica el
tipo de asimetría que tendrá la curva.
Ejemplo:
Considerando la tabla del Problema 1, calcular: la varianza, la desviación típica,

el coeficiente de variación, el rango, el rango intercuartil, el rango interdecílico y
con ayuda del primer coeficiente de Pearson indicar que tipo de asimetría
presenta a la curva.
Tabla Nº 9
Ii ni xi xi  X 2 ni xi.ni ni xi2

10; 26 4 18 2959,36 72 1296
26; 42 12 34 1505,28 408 13872
42; 58 7 50 161,28 350 17500
58; 74 4 66 1730,56 264 17424
74; 90 2 82 2708,48 164 13448
90;106 1 98 2787,84 98 9604
Total 30 11852,8 1356 73144
43
11852,8 73144
V(x)   395,09 V(x)   45, 22  395,09
30 30
1356
Sx  395,09  19,88 X  45, 2
30
 8 
Sx19,88 M0  26  16    35,85
C.V.    0, 44 8 5
X 45, 2
e  l(A)  105  10  95
 30 
 4  4
Q1  26  16    30, 67
 12 
 
 
 90 
 4  16 
Q3  42  16    56,86
 7 
 
 
RIQ  Q3  Q1  56,86  30,67  26,19
 30 
 10  0 
D1  10  16    22
 4 
 
 
 270 
 10  23 
D9  58  16    74
 4 
 
 
RID  D9  D1  74  22  52
X  Mo
AS1 
Sx
45, 2  35,85
AS1   0, 47
19,88
44
Asimetría a la derecha o positiva.
9. VALORES APARTADOS O ANÓMALOS
Gráficas de caja que muestran valores apartados
Una gráfica de caja puede ser embellecida para indicar explícitamente la

presencia de valores apartados. Muchos procedimientos inferenciales se basan
en la suposición de que la distribución de la población es normal (un cierto tipo
de curva en forma de campana). Incluso
DEFINICIÓN
Cualquier observación a más de 1.5 fs del cuarto más cercano es un valor

apartado (o atípico). Un valor apartado es extremo si se encuentra a más de
3fs del cuarto más cercano y moderado de lo contrario.
Un solo valor apartado extremo que aparezca en la muestra advierte al

investigador que tales procedimientos pueden ser no confiables y la presencia de
varios valores apartados transmite el mismo mensaje.
Modifíquese ahora la construcción previa de una gráfica de caja trazando un

bigote que sale de cada extremo de la caja hacia las observaciones más
pequeñas y más grandes que no son valores apartados. Cada valor apartado
moderado está representado por un círculo cerrado y cada valor apartado
extremo por uno abierto. Algunos programas de computadora estadísticos no
distinguen entre valores apartados moderados y extremos.
Ejemplo
Los efectos de descargas parciales en la degradación de materiales para

cavidades aislantes tienen implicaciones importantes en relación con las
duraciones de componentes de alto voltaje. Considérese la siguiente muestra de
n = 25 anchos de pulso de descargas lentas en una cavidad cilíndrica de
polietileno. (Estos datos son consistentes con un histograma de 250
observaciones en el artículo “Assessment of Dielectric Degradation by Ultrawide-
band PD Detection”, IEEE Trans. on Dielectrics and Elec. Insul., 1995: 744-760.)
El autor del artículo señala el impacto de una amplia variedad de herramientas
estadísticas en la interpretación de datos de descarga.
5.3 8.2 13.8 74.1 85.3 88.0 90.2 91.5 92.4 92.9 93.6
94.3 94.8 94.9 95.5 95.8 95.9 96.6 96.7 98.1 99.0
101.4 103.7 106.0 113.5
Las cantidades pertinentes son:
x̃ = 94.8 cuarto inferior = 90.2 cuarto superior = 96.7

fs = 6.5 1.5fs = 9.75 3fs = 19.50
45
Por lo tanto, cualquier observación menor que 90.2 - 9.75 = 80.45 o mayor
que 96.7 + 9.75 = 106.45 es un valor apartado. Hay un valor apartado en el
extremo superior de la muestra y cuatro en el extremo inferior. Debido a que
90.2 - 19.5 = 70.7, las tres observaciones 5.3, 8.2 y 13.8 son valores
apartados extremos; los otros dos son moderados. Los bigotes se extienden
a 85.3 y 106.0, las observaciones más extremas que no son valores
apartados. La gráfica de caja resultante aparece en la figura. Existe una gran
cantidad de asimetría negativa en la mitad media de la muestra así como
también en toda la muestra.
Gráfica 2. Gráfica de caja de los datos de ancho de pulso que

muestra valores apartados
1. Los siguientes datos son los tiempos de ignición de ciertos materiales

expuestos al fuego, dados a la más cercana centésima de segundo:
2,58 5,50 6,75 2,65 7,60 6,25 3,78 4,90 5,21 2,51
6,20 5,92 5,84 7,86 8,79 4,79 3,90 3,75 3,49 4,04
3,87 6,90 4,72 9,45 7,41 2,45 3,24 5,15 3,81 2,50
1,52 4,56 8,80 4,71 5,92 5,33 3,10 6,77 9,20 6,43
1,38 2,46 7,40 6,25 9,65 8,64 6,43 5,62 1,20 1,58
a) Construya una distribución de frecuencias utilizando un intervalo de

clase de 2 minutos.
b) Represente la distribución de frecuencias por medio de un polígono de
frecuencias.
c) Calcule la mediana mediante un método gráfico.
2. Se le pide a un analista experimentado la evaluación de dos métodos

diferentes para la determinación de trazas de plomo en ácido acético glacial,
y se le entrega una muestra que contiene precisamente 1.282 ppm. de Pb,
por litro (dato des- conocido por el analista). Se realizaron cinco
determinaciones mediante cada método, que dieron los siguientes resultados
para la concentración del plomo, en partes por millón (ppm):
46
Método A: 1,34 1,33 1,32 1,34 1,31

Método B: 1,30 1,26 1,30 1,33 1,24
Compare ambos métodos.
3. En un laboratorio se preparó una serie de compuestos que contienen las

siguientes masas de nitrógeno y oxígeno (en gramos):

Compuesto N2 O2
A 16,8 19,2
B 17,1 39,0
C 33,6 57,3
D 25,4 28,2
E 27,9 26,1
F 14,3 45,8
G 35,2 53,5
a) Calcule e interprete la masa de nitrógeno promedio de los compuestos.

b) Calcule e interprete la mediana de la masa de oxígeno de los
compuestos.
c) ¿Cuál elemento de los compuestos presenta una menor variabilidad
relativa? Justifique la respuesta.
4. Si el salario promedio semanal de n obreros es de 150 soles y cada obrero

recibe un aumento general de 7,5 soles semanales y una bonificación
semanal del 1,5% del salario incrementado.
¿Cuál es el salario promedio actual semanal de los obreros?
5. En una fábrica trabajan 20 mujeres y 45 hombres, el salario promedio

semanal de las mujeres es de 100 soles y el de los hombres 120 soles.
¿Cuál es el promedio del salario semanal de todos los trabajadores de la

fábrica?
6. Para los siguientes datos:
55.31 81.47 64.90 70.88 86.02 77.25 76.76 84.21 56.02
84.92 90.23 78.01 88.05 73.37 87.09 57.41 85.43
74.76 86.51 86.37 76.15 88.64 84.71 66.05 83.91
a) Calcular la mediana antes de clasificar los datos.
47
b) Agrupar los datos en una tabla de frecuencias cuyas marcas de clase

sean: 60, 70, etc. y calcular la desviación típica y la mediana.
7. El salario medio semanal pagado a los trabajadores de una compañía es de

300 soles. Los salarios medios semanales pagados a hombres y mujeres de
la compañía son 315 y 240 soles respectivamente. Determinar el porcentaje
de hombres y mujeres que trabajan en la compañía.
Un estudio final realizado determinó que existen 800 trabajadores, ¿Cuántos

son hombres?
8. Sea la siguiente distribución de lados X en mm medidos en 10 piezas: 1,20 –

2,40 – 6,00 – 7,20 – 12,00 – 13,20 – 16,80 – 21,60 – 22,80 y 25,20 mm.
a) Determinar la media x y la desviación típica Sx de la variable X.
b) Tras emplear el cambio de variable Y  5 X  54 / 6 determinar la media

y y la desviación típica Sy de la nueva variable Y.
9. Los siguientes datos son las temperaturas registradas en grados Farenheit:
415 510 460 475 420

490 480 450 435 485
470 465 500 455 435
Encontrar x y Sx a partir de los datos.
10. La siguiente tabla muestra la distribución de salarios de 150 trabajadores de

TECSUP durante el mes de Abril del año 2001.
Haberes Número de
trabajadores
 600 , 900  15
 900 , 1400  24
 1400 , 1700  29
 1700 , 2100  38
 2100 , 2400  24
 2400 , 2600  20
Tabla N° 8
Por incremento del costo de vida se plantean dos alternativas de aumento

para el mes siguiente. La primera propuesta consiste en un aumento general
de 350 soles mensuales.
La segunda propuesta consiste en un aumento del 30% de los salarios de

Abril a los trabajadores que ganan menos de 2100 soles y del 5% a los
48
trabajadores que ganan más de 2100 soles y un aumento adicional de 100

soles para todos los trabajadores.
a) ¿Cuál de las propuestas convendría a los trabajadores?
b) Para los trabajadores que ganan menos de 2100 soles ¿Qué propuesta
les convendría?
11. El ingreso per cápita anual de un país es de 9000 dólares. El sector obrero
1
que constituye el 60% de la población percibe 5 del ingreso total. Calcular
el ingreso per cápita del sector no obrero.
12. La distribución siguiente corresponde a las lecturas con un contador Geiger

del número de partículas emitidas por una sustancia radiactiva en 100
intervalos sucesivos de 40 segundos:
Número de partículas Frecuencia

5-9 1
10-14 10
15-19 37
20-24 36
25-29 13
30-34 2
35-39 1
a) Calcule la frecuencia absoluta acumulada “a menos de” y la frecuencia
relativa “a más de”. Interprete el valor de la tercera clase de ambas
frecuencias acumuladas.
b) Represente gráficamente la distribución de frecuencias por medio de un
histograma.
c) Calcule e interprete: el promedio aritmético, la moda y la mediana.
d) Calcule la desviación estándar y el coeficiente de variación.
e) Calcule e interprete el percentil 75%.

13. El artículo (“A Thin-Film Oxygen Uptake Test for the Evaluation of
Automotive Crankcase Lubricants”, Lubric. Engr.,1984: 75-83) reportó los
siguientes datos sobre tiempo de inducción de oxidación (min) de varios
aceites comerciales:
87 103 130 160 180 195 132 145 211 105 145
153 152 138 87 99 93 119 129
a. Calcule la varianza muestral y la desviación estándar.

b. Si las observaciones se volvieran a expresar en horas, ¿cuáles serían
los valores resultantes de la varianza de la muestra y la desviación
estándar muestral?
49
14. Se seleccionó una muestra de 20 botellas de vidrio de un tipo particular y se

determinó la resistencia a la presión inter- na de cada botella. Considere la
siguiente información parcial sobre la muestra:
mediana = 202.2 cuarto inferior = 196.0 cuarto superior = 216.8
Las tres observaciones más pequeñas 125.8 188.1 193.7
Las tres observaciones más grandes 221.3 230.5 250.2
a. ¿Hay valores apartados en la muestra? ¿Algunos valores apartados

extremos?
b. Construya una gráfica de caja que muestre valores apartados y comente
sobre cualesquiera características interesantes.
50
TECSUP – PFR Estadística y Probabilidades
UNIDAD III
ANÁLISIS DE DATOS BIVARIADOS
Hemos estudiado ahora datos provenientes de una sola variable, sin embargo con
frecuencia es necesario analizar respecto a la relación entre dos variables. La relación
entre dos variables puede darse de la siguiente manera:
1. Cualitativa vs cualitativa
2. Cualitativa vs cuantitativa
3. Cuantitativa vs cuantitativa
Para el segundo caso “cualitativa vs cuantitativa” puede trabajarse la variable

cuantitativa con sus datos originales o puede elaborarse intervalos y analizarlo como el
primer caso “cualitativa vs cualitativa”. Para el tercer caso puede utilizarse el análisis
de correlación, regresión o puede categorizarse (convertirlo en una variable cualitativa
o formar intervalos) la variable y trabajarlo como el primer o segundo caso.
1. CUALITATIVA VS CUALITATIVA
Supongamos que se toma una muestra de tamaño “n” de una población que se
está investigando.
Sean X e Y las variables a estudiar, tal que los datos obtenidos son:
( X1,Y1 ),( X2,Y2), ….,( Xn,Yn).
Distribución conjunta y marginal

La tabla de frecuencia que agrupa a esta información se conoce “tabla de
contingencia“. Por ejemplo, para el caso de dos variables cualitativas con dos
modalidades o categorías, la tabla sería:
Categoría 1 Categoría 2 Total
Celda Celda Total marginal

Categoría 1
f11 f12 f1.
Celda Celda Total marginal
Categoría 2
f21 f22 f2.
Total Total Total de
Total marginal marginal individuos
f.1 f.2 n
51
Estadística y Probabilidades TECSUP – PFR
Distribución Marginal
Cuando sólo interesa conocer la frecuencia de ocurrencia de cada una de las

variables por separado se habla de Frecuencia Marginal de la variable
Por ejemplo:
Hábitos de Fumar
SEXO Total
SI NO
VARON
DISTRIBUCION DISTRIBUCION
MUJER CONJUNTA MARGINAL
Tamaño
DISTRIBUCION
de
Total MARGINAL
muestra
¿Cuántas variables tenemos?
………………………………………………………………………………………………………..
¿Cuáles son?
………………………………………………………………………………………………………..
Ejemplo 1:
Frecuencia absoluta: conjunta y marginal
Hábitos de Fumar
SEXO Total
SI NO
VARON
800 1200 2000
MUJER
1000 2000 3000
Total
1800 3200 5000
52
Frecuencia relativa: conjunta y marginal
Categoría Categoría To
X/Y
variable Y variable Y tal
Total
Categoría f11 f12 marginal
variable X n n
f1./n
Total
Categoría f21 f22 marginal
variable X n n
f2./n
Total Total Total de
Total marginal marginal individuos
f.1/n f.2/n n/n
HábitosdeFumar
SEXO Total
SI NO
VARON 0.16 0.24 0.40
MUJER 0.20 0.40 0.60
Total 0.36 0.64 1
Frecuencia Condicional
Cuando se “pregunta” por la frecuencia relativa de una de las variables, digamos

X, restringida a los elementos observados de una clase dada de la otra; esto es,
estudiar el comportamiento de una variable dado un valor fijo de la otra.
Categoría Categoría
variable Y variable Y
Categoría 1 f1 / f.1 f12/f.2

Categoría 2 f21/f.1 f22/f.2
Total 1 1
2. ANÁLISIS DE UNA VARIABLE CUALITATIVA VS CUANTITATIVA
Al estudiar los métodos de análisis de datos cuantitativos, primero se trataron

problemas que implican una sola muestra de números. En problemas de una
muestra, los datos se componían de observaciones sobre respuestas de
individuos u objetos experimentales seleccionados de una sola población.
53
El análisis de una variable cualitativa vs una cuantitativa, se refiere al análisis de

datos muestreados de más de dos poblaciones (grupos) numéricas o de datos
de experimentos en los cuales se utilizaron más de dos tratamientos. La
característica que diferencia los grupos o poblaciones una de otra se llama
factor (variable cualitativa) en estudio y los distintos tratamientos o poblaciones
se conocen como niveles del factor (categorías de la variable cualitativa).
Ejemplos de tales situaciones incluyen los siguientes:
1. Un experimento para estudiar los efectos de cinco marcas diferentes de

gasolina con respecto a la eficiencia de operación de un motor automotriz
(mpg).
2. Un experimento para estudiar los efectos de la presencia de cuatro

soluciones azucaradas diferentes (glucosa, sucrosa, fructosa y una mezcla
de las tres) en cuanto a crecimiento de bacterias.
3. Un experimento para investigar si la concentración de madera dura en la

pulpa (%) afecta la resistencia a la tensión de bolsas hechas de la pulpa.
4. Un experimento para decidir si la densidad de color de un espécimen de tela

depende de la cantidad de tinte utilizado.
En el caso 1) el factor de interés (variable cualitativa) es la marca de la gasolina

y existen cinco niveles diferentes del factor. En 2) el factor es el azúcar con
cuatro niveles (o cinco, si se utiliza una solución de control que no contenga
azúcar). Tanto en 1) como en 2), el factor es de naturaleza cualitativa y los
niveles corresponden a posibles categorías del factor. En 3) y 4), los factores
son concentración de madera dura y cantidad de tinte, respectivamente; estos
dos factores son de naturaleza cuantitativa, por lo que los niveles identifican
diferentes ajustes del factor. Cuando el factor de interés es cuantitativo, también
se pueden utilizar técnicas estadísticas de análisis de regresión (ver análisis de
dos variables cuantitativas).
3. ANÁLISIS DE DOS VARIABLES CUANTITATIVAS
Regresión lineal simple y correlación
En muchos trabajos es necesario, a menudo, determinar el efecto que una

variable ejerce sobre otra. Así, por ejemplo, se desea comprobar si una reacción
colorimétrica sigue la ley de Beer-Lambert, medir la velocidad de una reacción
química o conocer la validez de nuevo método en relación con una serie de
normas conocidas. Un experimento de laboratorio es una medida del efecto de
una variable sobre la otra; con base a una cantidad de muestra, se efectúa la
reacción y posteriormente, se cuantifica la respuesta.
Al estudiar el comportamiento conjunto de dos variables es ver si están

relacionadas, en lugar de utilizar una para predecir el valor de la otra.
54
Iniciaremos con el desarrollo del coeficiente de correlación muestral r como una

medida de qué tan fuerte es la relación entre dos variables x y y en un muestra.
Coeficientes de correlación “r”
Existen diversos coeficientes que miden el grado de correlación, adaptados a la

naturaleza de los datos. El más conocido es el coeficiente de correlación de
Pearson (introducido en realidad por Francis Galton), que se obtiene dividiendo la
covarianza de dos variables entre el producto de sus desviaciones estándar.
r = cosα
Propiedades de r
Las propiedades más importantes de r son las siguientes:
1. El valor de r no depende de cuál de las dos variables estudiadas es x

y cual es y.
2. El valor de r es independiente de las unidades en las cuales x y y
estén medidas.
3. -1 < r < 1
4. r = 1 si y sólo si todos los pares (xi, yi) quedan en una línea recta con
pendiente positiva y r = -1 si y sólo si los pares (xi, yi) quedan en una línea
recta con pendiente negativa.
5. El cuadrado del coeficiente de correlación muestral da el valor del
coeficiente de determinación que resultaría de ajustar el modelo de
regresión lineal simple, en símbolos (r)2 = r2.
La propiedad 3 dice que el valor máximo de r, correspondiente al grado más

grande posible de relación positiva, es r = 1, mientras que la relación más
negativa está identifica- da con r = -1. De acuerdo con la propiedad 4, las
55
correlaciones positivas y negativas más grandes se obtienen sólo cuando todos

los puntos quedan a lo largo de una línea recta. Cualquier otra configuración de
puntos, aun cuando la configuración sugiere una relación determinística entre las
variables, dará un valor r menor que 1 en magnitud absoluta. Por consiguiente, r
mide el grado de relación lineal entre las variables. Un valor de r cercano a 0 no
es evidencia de la falta de una fuerte relación, sino sólo de la ausencia de una
relación lineal, de modo que tal valor de r debe ser interpretado con precaución.
La siguiente figura ilustra varias configuraciones de puntos asociadas con valores
diferentes de r.
Una pregunta planteada es ¿cuándo existe correlación fuerte entre las variables
y cuándo es débil? Una regla empírica notable es decir que la correlación es
débil si 0 < r< 0.5, fuerte si 0.8 < r< 1, y moderada de lo contrario. Puede
sorprender que r = 0.5 se considere débil, pero r2 = 0.25 implica que en una
regresión de y en x (modelo: y = mx + b), solo 25% de la variación de y
observada sería explicada por el modelo.
4. REGRESIÓN
La regresión es una técnica estadística para estudiar la naturaleza de la relación

entre dos o más variables. Aunque puede utilizarse en esto las ecuaciones no
lineales, la presenta unidad se limitará a la explicación de las ecuaciones de
regresión del tipo lineal (línea recta).
Un caso práctico de análisis es construir las curvas de calibración utilizadas en

los métodos fotométricos: hay que proceder a la medición de la respuesta de un
aparato en relación con cantidades variables del constituyente a estudiar. En
análisis gravimétrico, puede presentarse la necesidad de relacionar el peso de
precipitado con la temperatura, el pH, el contenido en electrolito inerte o con
otras variables.
56
Los objetivos de la regresión son mostrar la forma como la variable in-

dependiente (X) se relaciona con la variable dependiente (Y), hacer pronósticos
sobre los valores de la variable dependiente, con base en el conocimiento de los
valores de la variable independiente.
1. Numerosos factores contribuyen al funcionamiento suave de un motor

eléctrico (“Increasing Market Share Through Improved Product and Process
Design: An Experimental Approach”, Quality Engineering, 1991: 361-369). En
particular, es deseable mantener el ruido del motor y vibraciones a un
mínimo. Para estudiar el efecto que la marca de los cojinetes tiene en la
vibración del motor, se examinaron cinco marcas diferentes de cojinetes
instalando cada tipo de cojinete en muestras aleatorias distintas de seis
motores. Se registró la cantidad de vibración del motor (medida en micrones)
cuando cada uno de los 30 motores estaba funcionando. Los datos de este
estudio se dan a continuación. Realice un análisis de comparaciones
múltiples, es decir, entre todos los grupos.
Marca 1 13.1 15.0 14.0 14.4 14.0 11.6

Marca 2 16.3 15.7 17.2 14.9 14.4 17.2
Marca 3 13.7 13.9 12.4 13.8 14.9 13.3
Marca 4 15.7 13.7 14.4 16.0 13.9 14.7
Marca 5 13.5 13.4 13.2 12.7 13.4 12.3
2. Un fabricante sospecha que el contenido de nitrógeno en un producto varía

de un lote a otro. Selecciona una muestra aleatoria de cuatro lotes y realiza
cinco determinaciones del contenido de nitrógeno en cada lote. ¿Existe una
diferencia en el contenido de nitrógeno de un lote a otro?
Lote Observaciones
1 26,15 26,25 26,39 26,18 26,20

2 24,95 25,01 24,89 24,85 25,13
3 25,00 25,36 25,20 25,09 25,12
4 26,81 26,75 26,15 26,50 26,70
3. El Turbine Oil Oxidation Test (TOST) y el Rotating Bomb Oxidation Test

(RBOT) son dos procedimientos diferentes de evaluar la estabilidad ante la
oxidación de aceites para turbina de vapor. El artículo “Dependence of
Oxidation Stability of Steam Turbine Oil on Base Oil Composition” (J. of the
Society of Tribologists and Lubrication Engrs., octubre de 1997: 19-24)
reportó las observaciones adjuntas sobre x = tiempo para realizar TOST (h)
y y = tiempo para realizar RBOT (min) con 12 especímenes de aceite.
57
TOST 4200 3600 3750 3675 4050 2770

RBOT 370 340 375 310 350 200
TOST 4870 4500 3450 2700 3750 3300

RBOT 400 375 285 225 345 285
a. Calcule e interprete el valor del coeficiente de correlación muestral (como

lo hicieron los autores del artículo).
b. ¿Cómo se vería afectado el valor de r si se hubiera hecho x = tiempo para
realizar RBOT y y = tiempo para realizar TOST?
c. ¿Cómo se vería afectado el valor de r si el tiempo para realizar RBOT
estuviera expresado en horas?
d. Construya gráficas de probabilidad normal y comente.
e. Interprete los coeficientes del modelo de regresión lineal y el R2.
4. Los datos siguientes se refieren a los días desde la inoculación(X) y al

crecimiento de una colonia de bacterias (Y) en un cultivo.
X 3 6 9 12 15 18
Y 115 147 239 356 579 864
a) Calcule el coeficiente de correlación

b) Calcule e interprete el coeficiente de determinación
c) Interprete la constante de regresión en términos del problema
5. La tenacidad y fibrosidad de los espárragos son determinantes importantes

de su calidad. Éste fue el enfoque de un estudio reportado en “Post-Harvest
Glyphosphate Application Reduces Toughening, Fiber Content, and
Lignification of Stored Asparagus Spears” (J. of the Amer. Soc. of
Horticultural Science, 1988: 569-572). El artículo reportó los datos adjuntos
(tomados de una gráfica) sobre x = fuerza cortante (kg) y y = porcentaje de
peso de fibra en seco.
X : 46 48 55 57 60 72 81 85 94
Y: 2.18 2.10 2.13 2.28 2.34 2.53 2.28 2.62 2.63
X: 109 121 132 137 148 149 184 185 187
Y: 2.50 2.66 2.79 2.80 3.01 2.98 3.34 3.49 3.26
a. Calcule el valor del coeficiente de correlación muestral. Basado en este

valor, ¿cómo describiría la naturaleza de la relación entre las dos
variables?
b. Si un primer espécimen tiene un valor más grande de fuerza cortante
que un segundo espécimen, ¿qué tiende a ser cierto del porcentaje de
peso de fibra en seco para los dos especímenes?
c. Si la fuerza cortante se expresa en libras, ¿qué le pasa al valor de r? ¿Por
qué?
58
d. Si el modelo de regresión lineal simple fuera ajustado a estos datos, ¿qué

proporción de la variación observada en porcentaje de peso de fibra en
seco podría ser explicada por la relación de modelo?
6. Los datos adjuntos sobre x = tasa de consumo de diesel medida por el

método pesaje de drenaje y y = tasa medida por el método de trazado de
intervalo de confianza, ambos en g/h, se tomaron de una gráfica incluida en
el artículo “A New Measurement Method of Diesel Engine Oil Consumption
Rate” (J. Society Auto Engr., 1985: 28-33).
x : 4 5 8 11 12 16 17 20 22 28 30 31 39
y : 5 7 10 10 14 15 13 25 20 24 31 28 39
a. Suponiendo que x y y están relacionadas por el modelo de regresión lineal

simple, realice una prueba para decidir si es factible que en promedio el
cambio de la tasa medida por el método de trazado de intervalo de con-
fianza sea idéntico al cambio de la tasa medido mediante el método de
pesaje de drenaje.
b. Calcule e interprete el valor del coeficiente de correlación muestral.
7. Los siguientes datos corresponden al tiempo de secado (en horas) de

cierto barniz y la cantidad de un aditivo (en gramos) con el que se
intenta reducir el tiempo de secado:
Aditivo 1 1,5 2 2,5 3 3,5

Tiempo 2 4 6 8 9 11
a) Construya el diagrama de dispersión.

b) Calcule el coeficiente de correlación.
c) Estime el tiempo de secado del barniz cuando se han utilizado 4 gramos
del aditivo.
8. Los resultados de varias determinaciones de cobre en un mineral son los que

siguen (en % Cu). El primer grupo de determinaciones fue realizado por el
analista A, el segundo por el analista B. Comparar las precisiones de los dos
analistas.
A 6,2 5,7 6,5 6,0 6,3 5,8 5,7 6,0 6,0 5,8
B 5,6 5,9 5,6 5,8 6,0 5,5 5,7 5,5
9. En la ciudad de Lima se ha incrementado durante los últimos cinco años el

número de restaurantes de comida rápida. Debido a esto los expertos la
empresa de investigación de mercado Consultores-ECE se pregunta. ¿La
preferencia de un cliente por la comida rápida tiene que ver la edad?. La
empresa eligió una muestra aleatoria de 500 clientes de comida rápida
mayores de 16 años y se les preguntó su restaurante favorito, obteniéndose
los siguientes datos:
59
Grupo de Restaurant
edad Kentuky McDonalds Burger-King Otro
16 - 21 75 34 10 6
21 - 30 89 42 19 10
30 - 49 54 52 28 18
50 a más 21 25 7 10
¿Cuáles serán las conclusiones que llegarán los expertos de la empresa

Consultores-ECE?
10. Los resultados de un experimento para evaluar el efecto del petróleo crudo
en parásitos de peces se describen en el artículo “Effects of Crude Oils on
the Gastrointestinal Parasites of Two Species of Marine Fish” (J. Wildlife
Diseases, 1983: 253-258). Se compararon tres tratamientos
(correspondientes a poblaciones del procedimiento descrito):
1) sin contaminación, 2) contaminación por petróleo de 1 año de

antigüedad, y 3) contaminación por petróleo nuevo. Para cada condición de
tratamiento se tomó una muestra de peces, y cada uno de éstos se clasificó
como con parásitos o sin parásitos. Se da información compatible con la del
artículo. ¿La información indica que los tres tratamientos difieren con
respecto a la verdadera proporción de peces con parásitos o sin parásitos?
Tratamiento Con parásitos Sin parásitos
Control 30 3
Petróleo viejo 16 8
Petróleo nuevo 16 16
11. Una compañía empaca un producto particular en latas de tres tamaños

diferentes, cada uno con una línea de producción distinta. La mayor parte
de las latas se apegan a especificaciones, pero un ingeniero de control de
calidad ha identificado las siguientes razones de no cumplimiento de
especificaciones:
1. Defecto en lata
2. Grieta en lata
3. Ubicación incorrecta de arillo
4. Arillo faltante
5. Otras
Se selecciona una muestra de unidades fuera de especificación de cada una

de las tres líneas de producción, y cada unidad se clasifica según la razón
por la que están fuera de especificación; dio por resultado la siguiente
información de tabla de contingencia: ¿existe alguna relación entre la línea
de producción y las razones por las que las latas no cumplan las
especificaciones?
60
61
ANOTACIONES:
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
62
UNIDAD IV
PROBABILIDAD
El término probabilidad se refiere al estudio de azar y la incertidumbre en cualquier

situación en la cual varios posibles sucesos pueden ocurrir; la disciplina de la
probabilidad proporciona métodos de cuantificar las oportunidades y probabilidades
asociadas con varios sucesos. El lenguaje de probabilidad se utiliza constantemente
de manera informal tanto en el contexto escrito como en el hablado. Algunos ejemplos
incluyen enunciados tales como “es probable que el índice Dow-Jones se incremente al
final del año”, “existen 50-50 probabilidades de que la persona con posesión de su
cargo busque la reelección”, “probablemente se ofrecerá por lo menos una sección del
curso el próximo año”, “las probabilidades favorecen la rápida solución de la huelga” y
“se espera que se vendan por lo menos 20 000 boletos para el concierto”. En esta
unidad, se introducen algunos conceptos de probabilidad, se indica cómo pueden ser
interpretadas las probabilidades y se demuestra cómo pueden ser aplicadas las reglas
de probabilidad para calcular las probabilidades de muchos eventos interesantes. La
metodología de probabilidad permite entonces expresar en lenguaje preciso
enunciados informales como los antes expresados.
1. EXPERIENCIA ALEATORIA Y ESPACIO MUESTRAL
Un experimento es cualquier acción o proceso cuyo resultado está sujeto a la

incertidumbre. Aunque la palabra experimento en general sugiere una situación
de prueba cuidadosamente controlada en un laboratorio, se le utiliza aquí en un
sentido mucho más amplio. Por lo tanto, experimentos que pueden ser de interés
incluyen lanzar al aire una moneda una vez o varias veces, seleccionar una carta
o cartas de un mazo, pesar una hogaza de pan, el tiempo de recorrido de la casa
al trabajo en una mañana particular, obtener tipos de sangre de un grupo de
individuos o medir las resistencias a la compresión de diferentes vigas de acero.
El espacio muestral de un experimento denotado por S o por Ω, es el conjunto

de todos los posibles resultados de dicho experimento.
Ejemplos:
Si se examinan tres fusibles en secuencia y se anota el resultado de cada

examen, entonces un resultado del experimento es cualquier secuencia de letras
N y D de longitud 3, por lo tanto
Ω = {NNN, NND, NDN, NDD, DNN, DND, DDN, DDD}
Dos gasolineras están localizadas en cierta intersección. Cada una dispone de 6

bombas de gasolina. Considérese el experimento en el cual se determina el
número de bombas en uso a una hora particular del día en cada una de las
gasolineras. Un resultado experimental especifica cuántas bombas están en uso
en la primera gasolinera y cuántas están en uso en la segunda. Un posible
resultado es (2, 2), otro es (4, 1) y otro más es (1, 4). Los 49 resultados en S se
63
muestran en la tabla adjunta. El espacio muestral del experimento en el cual un

dado de 6 lados es lanzado dos veces se obtiene eliminando la fila 0 y la columna
0 de la tabla y se obtienen 36 resultados.
2. SUCESOS O EVENTOS
En el estudio de la probabilidad, interesan no sólo los resultados individuales de

Ω sino también varias recopilaciones de resultados de .
Un evento es cualquier recopilación (subconjunto) de resultados contenidos en el

espacio muestral Ω. Un evento es simple si consiste en exactamente un
resultado y compuesto si consiste en más de un resultado.
Podemos combinar sucesos para formar nuevos sucesos, utilizando las diferentes
operaciones con conjuntos:
 A  B es el suceso que ocurre si y sólo si A o B o ambos ocurren;
 A  B es el suceso que ocurre si y sólo si A y B ocurren simultáneamente.
 A , (Complemento de A ó contrario de A), es el suceso que ocurre si y sólo si

A no ocurre.
2.1 SUCESOS O EVENTOS INCOMPATIBLES
Dos sucesos que no puedan ocurrir simultáneamente, reciben el nombre de

sucesos incompatibles; para que dos sucesos sean incompatibles, deben
carecer de elementos comunes.
Por ejemplo, en el caso de la ruleta anterior, son incompatibles los sucesos

elementales.
El contrario de {1 , 3 } es {2, 4, 5}, para la ruleta del ejemplo anterior.
Desde luego, dos sucesos contrarios deben ser incompatibles, pero no

basta con ello; además, la unión de ambos debe dar el espacio muestral.
Ejemplo:
64
Láncese un dado y obsérvese el número que aparece en la cara superior.
Entonces el espacio muestral es:
 = {1, 2, 3, 4, 5, 6}
Sea A el suceso de salir un número par, B de salir impar y C de salir primo;
A = {2, 4, 6}, B = {1, 3, 5}, C = {2, 3, 5}
Entonces:
A  C = {2, 3, 4, 5, 6}
B  C ={3, 5}
C = {1, 4, 6}
3. APLICACIÓN FRECUENCIAL
Tres caras de un cubo se han pintado de color azul, dos de color rojo, y se ha
dejado una de color blanco.
Si vamos lanzando el cubo y anotando el color de la cara sobre la que queda

apoyado, ¿cuántas veces saldrá cada color? ¿Cuál será su frecuencia relativa?
Es razonable pensar que, ya que la mitad de las caras son de color azul, este
color aparecerá la mitad de las veces que se tire el cubo; la frecuencia relativa
del color azul tenderá a 1/2 si repetimos las tiradas muchas veces.
Análogamente, una tercera parte de las veces saldrá de color rojo, y una sexta
parte el color blanco; la frecuencia relativa del color rojo tenderá a 1/3, y la del
blanco a 1/6 si los lanzamientos se repiten muchas veces.
De este modo, asignando a cada color un número que exprese la frecuencia

relativa esperada para dicho color, tendremos la siguiente aplicación:
Azul  1/2
Rojo  1/3
Blanco  1/6
Observa que la frecuencia relativa esperada para cada color es un número

positivo menor que uno, y que la suma de todas es igual a uno.
65
4. PROBABILIDAD
Consideremos la experiencia aleatoria que consiste en lanzar el cubo anterior y

anotar el color de la cara sobre la que queda apoyado, el conjunto de resultados
posibles o espacio muestral de la experiencia es:
  {azul, rojo, blanco}
Recuerda que un suceso de esta experiencia es un subconjunto del espacio

muestral. Ahora queremos precisar, con números adecuados, el mayor o menor
grado de confianza que nos merece cada suceso; y este número lo obtendremos
a partir de las frecuencias relativas a las que parecen tender cada uno de los
resultados.
La aplicación que obtengamos recibirá el nombre de probabilidad definida en el

espacio muestral  .
El criterio a seguir será el de asignar a cada suceso el número obtenido como

suma de las frecuencias relativas esperadas de cada uno de sus resultados.
Con ello, la probabilidad del suceso imposible (conjunto vacío) será 0, la

probabilidad de un suceso elemental será la frecuencia relativa a la que tienda
su único resultado; y a los demás sucesos, les corresponderá la suma de las
probabilidades de los sucesos elementales que lo componen.
1 1 1
 0 {azul}  . . {rojo}  . {blanco} 
2 3 6
1 1 1 1 1 1
{azul,rojo}  .  {azul,blanco}  .  {rojo,blanco}  
2 3 2 6 3 6
1 1 1
{azul,rojo,blanco}   
2 3 6
Observa que, para disponer de un probabilidad definida en un espacio muestral,

basta conocer las probabilidades de los suceso elementales.
La terna formada por el conjunto  , el conjunto S de sus sucesos y la

probabilidad p, recibe el nombre de espacio de probabilidad.
AXIOMAS DE PROBABILIDAD
Aparecen para esta aplicación tres propiedades esenciales:
a) 0  p( A)  1 , para cualquier suceso A.

b) p()  1
c) Si A y B son dos sucesos incompatibles: p( A  B )  p( A)  p( B)
66
Las tres propiedades se toman como axiomas para definir una probabilidad en un
espacio muestral finito . Toda aplicación entre el conjunto de los sucesos de
una experiencia aleatoria y los números reales, con estas tres características,
reciben el nombre de probabilidad definida en el espacio muestral
correspondiente.
Teorema 1: dado un suceso A, entonces: p ( A)  1  p( A)
Teorema 2: dados dos sucesos A y B, entonces: p( A  B)  p( A)  p( A  B )
Teorema 3: dados dos sucesos A y B, entonces:
p ( A  B)  p ( A)  p( B)  p( A  B)
4.1 PROBABILIDAD UNIFORME
En algunas experiencias aleatorias, todos los resultados tienen la misma

frecuencia relativa esperada, el mismo peso; entonces, los sucesos
elementales son equiprobables y la probabilidad se llama probabilidad
uniforme.
Por ejemplo, si tiramos un dado, cada resultado posible tiene el mismo

peso, 1/6
En general, si el espacio muestral tiene n elementos, la probabilidad
uniforme de cualquier suceso elemental será 1/n y la probabilidad de un
suceso que conste de m resultados, será m/n
En este caso de sucesos elementales equiprobables, puede indicarse una

expresión sencilla par el cálculo de la probabilidad de un suceso cualquiera.
Si llamamos casos favorables a los elementos de dicho suceso, se tendrá:
casos favorables
probabilidad del suceso 
casos totales
Ejemplo
Calcula la probabilidad de sacar un as de una baraja, en una sola

extracción.
Resolución.
Puesto que en la baraja hay 4 ases (de oros, de copas, de espadas y de

bastos) y un total de 52 cartas será:
4
p
52
Tener en cuenta que se trata de probabilidad uniforme
67
4.2 PROBABILIDAD DE EXPERIENCIAS COMPUESTAS
Efectuemos la siguiente experiencia compuesta:
 Lanzar una moneda

 Hacer girar una ruleta.
Representemos el lanzamiento de moneda y el giro de ruleta por separado,

mediante unos diagramas circulares en los que se ha señalado tantas zonas
como resultados posibles, escribiendo en cada zona la frecuencia relativa
esperada para el resultado correspondiente.
cara c
1/2
1/3 a
cruz 1/2
b
1/2
1/6
¿Cuáles son los resultados posibles en la experiencia compuesta?.

Utilicemos un diagrama de árbol:
a 1/2
1/2 b 1/6
cara
c 1/3
 = { (cara, a); (cara, b); (cara, c);
a 1/2
(cruz, a); (cruz, b); (cruz, c) }
cruz 1/2 b 1/6

c 1/3
Nuestro objetivo es definir una probabilidad en el conjunto , para lo que

necesitamos hallar la probabilidad de cada suceso elemental.
Fijémonos, por ejemplo, en el resultado (cara, c). Si repetimos muchas

veces la doble prueba, saldrá cara aproximadamente la mitad de los casos;
y en esta doble prueba, al jugar a la ruleta saldrán las zonas a,b,c cada una
con la frecuencia relativa indicada en el gráfico.
En particular, la zona c saldrá la tercera parte de esta mitad del total; ello
supone pues, la sexta parte del total.
De ahí que se asigna al par (cara, c) el número: 1/6.
68
4.3 PROBABILIDAD CONDICIONAL
DEFINICIÓN
Para dos eventos cualesquiera A y B con P(B) > 0, la probabilidad

condicional de A dado que B ha ocurrido está definida por:
Las probabilidades asignadas a varios eventos dependen de lo que se sabe

sobre la situación experimental cuando se hace la asignación. Subsiguiente
a la asignación inicial puede llegar a estar disponible información parcial
pertinente al resultado del experimento. Tal información puede hacer que
se revisen algunas de las asignaciones de probabilidad. Para un evento
particular A, se ha utilizado P(A) para representar la probabilidad asignada
a A; ahora se considera P(A) como la probabilidad original no condicional
del evento A.
En esta sección, se examina cómo afecta la información de que “un evento

B ha ocurrido” a la probabilidad asignada a A. Por ejemplo, A podría
referirse a un individuo que sufre una enfermedad particular en la
presencia de ciertos síntomas. Si se realiza un examen de sangre en el
individuo y el resultado es negativo (B = examen de sangre negativo),
entonces la probabilidad de que tenga la enfermedad cambiará (deberá
reducirse, pero no a cero, puesto que los exámenes de sangre no son
infalibles). Se utilizará la notación P(A | B) para representar la probabilidad
condicional de A dado que el evento B haya ocurrido. B es el “evento
condicionante”.
Por ejemplo, considérese el evento A en que un estudiante seleccionado al

azar en su universidad obtuvo todas las clases deseadas durante el ciclo
de inscripciones del semestre anterior. Presumiblemente P(A) no es muy
grande. Sin embargo, supóngase que el estudiante seleccionado es un
atleta con prioridad de inscripción especial (el evento B). Entonces P(A | B)
deberá ser sustancialmente más grande que P(A), aunque quizá aún no
cerca de 1.
Ejemplo
En una planta se ensamblan componentes complejos en dos líneas de
ensamble diferentes, A y A'. La línea A utiliza equipo más viejo que A', por
lo que es un poco más lenta y menos confiable. Suponga que en un día
dado la línea A ensambla 8 componentes, de los cuales 2 han sido
identificados como defectuosos (B) y 6 como no defectuosos (B'), mientras
que A' ha producido 1 componente defectuoso y 9 no defectuosos. Esta
información se re sume en la tabla adjunta:
69
No obstante, si el componente seleccionado resulta defectuoso, entonces

el evento B ha ocurrido, por lo que el componente debe haber sido 1 de
los 3 de la columna B de la tabla. como estos 3 componentes son
igualmente probables entre ellos mismos una vez que B ha ocurrido,
No obstante, si el componente seleccionado resulta defectuoso, entonces

el evento B ha ocurrido, por lo que el componente debe haber sido 1 de
los 3 de la columna B de la tabla. Como estos 3 componentes son
igualmente probables entre ellos mismos una vez que B ha ocurrido,
La probabilidad condicional está expresada como una razón de

probabilidades incondicionales. El numerador es la probabilidad de la
intersección de los dos eventos, en tanto que el denominador es la
probabilidad del evento condicionante B. Un diagrama de Venn ilustra esta
relación.
Dado que B ha ocurrido, el espacio muestral pertinente ya no es S pero

consta de resultados en B; A ha ocurrido si y sólo si uno de los resultados
en la intersección ocurrió, así que la probabilidad condicional de A dado B
es proporcional a P(A n B). Se utiliza la constante de proporcionalidad
1/P(B) para garantizar que la probabilidad P(B | B) del nuevo espacio
muestral B sea igual a 1.
4.4 PROBABILIDAD TOTAL Y TEOREMA DE BAYES
El cálculo de una probabilidad posterior P(Aj | B) a partir de probabilidades

previas dadas P(Ai) y probabilidades condicionales P(B | Ai) ocupa una
posición central en la probabilidad elemental. La regla general de dichos
cálculos, los que en realidad son una aplicación simple de la regla de
multiplicación, se remonta al reverendo Thomas Bayes, quien vivió en el
siglo XVIII. Para formularla primero se requiere otro resultado. Recuérdese
que los eventos A1, . . . , Ak son mutuamente excluyentes si ninguno de
los dos tiene resultados comunes.
70
5. LEY DE LA PROBABILIDAD TOTAL
Sean A1, . . . , Ak eventos mutuamente excluyentes y exhaustivos. Entonces

para cualquier otro evento B,
6. TEOREMA DE BAYES
Sean A1, A2, . . . , Ak un conjunto de eventos mutuamente excluyentes y

exhaustivos con probabilidades previas P(Ai) (i = 1, . . . , k). Entonces para
cualquier otro evento B para el cual P(B) > 0, la probabilidad posterior de Aj
dado que B ha ocurrido es
La transición de la segunda a la tercera expresión en formula del teorema de

Bayes se apoya en el uso de la regla de multiplicación en el numerador y la ley
de probabilidad total en el denominador. La proliferación de eventos y subíndices
en esta fórmula puede ser un poco intimidante para los recién llegados a la
probabilidad. Mientras existan relativamente pocos eventos en la repartición, se
puede utilizar un diagrama de árbol como base para calcular probabilidades
posteriores sin jamás referirse de manera explícita al teorema de Bayes.
INDEPENDENCIA
La definición de probabilidad condicional permite revisar la probabilidad P(A)

originalmente asignada a A cuando después se informa que otro evento B ha
ocurrido; la nueva probabilidad de A es P(A | B). En los ejemplos, con frecuencia
fue el caso de que P(A | B) difería de la probabilidad no condicional P(A), lo que
indica que la información “B ha ocurrido” cambia la probabilidad de que ocurra A.
A menudo la probabilidad de que ocurra o haya ocurrido A no se ve afectada por
el conocimiento de que B ha ocurrido, así que P(A | B) = P(A). Es entonces
natural considerar a A y B como eventos independientes, es decir que la
ocurrencia o no ocurrencia de un evento no afecta la probabilidad de que el otro
ocurra.
Definición
Los eventos A y B son independientes si P(A | B) = P(A) y son dependientes de lo
contrario.
71
Regla de la multiplicación
Con frecuencia la naturaleza de un experimento sugiere que dos eventos A y B

deben suponerse independientes. Este es el caso, por ejemplo, si un fabricante
recibe una tarjeta de circuito de cada uno de dos proveedores diferentes, cada
tarjeta se somete a prueba al llegar y A = {la primera está defectuosa} y B = {la
segunda está defectuosa}. Si P(A) = 0.1, también deberá ser el caso de que P(A
| B) = 0.1; sabiendo que la condición de la segunda tarjeta no informa sobre la
condición de la primera. El siguiente resultado muestra cómo calcular P(A _ B)
cuando los eventos son independientes.
A y B son independientes si y sólo si
7. EJERCICIOS PROPUESTOS
1. Que A denote el evento en que la siguiente solicitud de asesoría de un

consultor de “software” estadístico tenga que ver con el paquete SPSS y que
B denote el evento en que la siguiente solicitud de ayuda tiene que ver con
SAS.
Suponga que P(A ) = 0.30 y P(B) = 0.50.
a. ¿Por qué no es el caso en que P(A) + P(B) = 1?

b. Calcule P(A').
c. Calcule P(A U B).
d. Calcule P(A' n B').
2. Una caja contiene 220 tornillos iguales, de los cuales 80 son producidos por
la máquina A, 60 por la máquina B, 50 por la máquina C y 30 por la máquina
D. Si se elige un tornillo al azar de la caja, determinar:
a) ¿Cuál es la probabilidad que el tornillo elegido haya sido producido por

las máquinas A o C?
b) ¿Cuál es la probabilidad que el tornillo elegido haya sido producido por

las máquinas A y D?.
3. Una tienda de departamentos vende camisas sport en tres tallas (chica,

mediana y grande), tres diseños (a cuadros, estampadas y a rayas) y dos
largos de manga (larga y corta). Las tablas adjuntas dan las proporciones de
camisas vendidas en las combinaciones de categoría.
72
a. ¿Cuál es la probabilidad de que la siguiente camisa vendida sea una

camisa mediana estampada de manga larga?
b. ¿Cuál es la probabilidad de que la siguiente camisa vendida sea una
camisa estampada mediana?
c. ¿Cuál es la probabilidad de que la siguiente camisa vendida sea de
manga corta? ¿De manga larga?
d. ¿Cuál es la probabilidad de que la talla de la siguiente camisa vendida
sea mediana? ¿Que la siguiente camisa vendida sea estampada?
e. Dado que la camisa que se acaba de vender era de manga corta a
cuadros, ¿cuál es la probabilidad de que fuera mediana?
f. Dado que la camisa que se acaba de vender era mediana a cuadros,
¿cuál es la probabilidad de que fuera de manga corta? ¿De manga
larga?
4. Cada vez que se recibe un lote de llantas, un inspector de calidad adopta la

siguiente política: extrae dos llantas una después de otra y sin restitución, si
al menos una de ellas es defectuosa revisa todo el lote.
Si se recibe un lote de 50 llantas y se sabe que en él hay tres llantas

defectuosas. ¿Cuál es la probabilidad que al aplicar la política de revisión se
tenga que revisar todo el lote?
5. Un empresario tiene una máquina automática en su fábrica que produce

tapas para lapiceros. con su pasada experiencia ha comprobado que si la
máquina se ajusta en forma apropiada, la máquina producirá un 90 % de
tapas aceptables, mientras que si su acondicionamiento no es adecuado,
sólo producirá un 30 % de tapas aceptables. El empresario también ha
observado que el 75 % de los acondicionamientos se hace en forma
73
correcta. Si la primera tapa producida es aceptable, ¿qué probabilidad existe

que el acondicionamiento se haya hecho correctamente?
6. Un laboratorio somete a los choferes que cometen accidentes de tránsito a

un test de “dosaje etílico”. Se ha determinado que:
 Cuando un chofer está ebrio, el test proporciona resultado positivo en el

95 % de los casos.
 cuándo el chofer no está ebrio, el test proporciona resultado negativo en
el 94 % de los casos.
 El 2 % de los conductores que cometen accidentes manejan ebrios.
¿Cuál es la probabilidad que el chofer esté ebrio dado que el resultado fue
positivo?
7. Componentes de cierto tipo son enviados a un distribuidor en lotes de diez.

Suponga que 50% de dichos lotes no contienen componentes defectuosos,
30% contienen un componente defectuoso y 20% contienen dos
componentes defectuosos. Se seleccionan al azar dos componentes de un
lote y se prueban. ¿Cuáles son las probabilidades asociadas con 0, 1 y 2
componentes defectuosos que están en el lote en cada una de las siguientes
condiciones?
a. Ningún componente probado está defectuoso.

b. Uno de los dos componentes probados está defectuoso. [Sugerencia:
Trace un diagrama de árbol con tres ramas de primera generación
correspondientes a los tres tipos diferentes de lotes.]
8. En una gasolinería, 40% de los clientes utilizan gasolina regular (A1), 35%
usan gasolina plus (A2) y 25% utilizan premium (A3). De los clientes que
utilizan gasolina regular, sólo 30% llenan sus tanques (evento B). De los
clientes que utilizan plus, 60% llenan sus tanques, mientras que los que
utilizan premium, 50% llenan sus tanques.
a. ¿Cuál es la probabilidad de que el siguiente cliente pida gasolina plus y

llene el tanque (A2 n B)?
b. ¿Cuál es la probabilidad de que el siguiente cliente llene el tanque?
9. En el ejercicio 8, considere la siguiente información adicional sobre el uso de

tarjetas de crédito:
 El 70% de todos los clientes que utilizan gasolina regular y que llenan el
tanque usan una tarjeta de crédito.
 El 50% de todos los clientes que utilizan gasolina regular y que no

llenan el tanque usan una tarjeta de crédito.
 El 60% de todos los clientes que llenan el tanque con gasolina plus
usan una tarjeta de crédito.
74
 El 50% de todos los clientes que utilizan gasolina plus y que no llenan
el tanque usan una tarjeta de crédito.
 El 50% de todos los clientes que utilizan gasolina premium y que llenan
el tanque usan una tarjeta de crédito.
 El 40% de todos los clientes que utilizan gasolina premium y que no

llenan el tanque usan una tarjeta de crédito.
Calcule la probabilidad de cada uno de los siguientes eventos para el

siguiente cliente que llegue (un diagrama de árbol podría ayudar).
a. {Plus, tanque lleno y tarjeta de crédito}

b. {Premium, tanque no lleno y tarjeta de crédito}
c. {Premium y tarjeta de crédito}
d. {Tanque lleno y tarjeta de crédito}
e. {Tarjeta de crédito}
f. Si el siguiente cliente utiliza una tarjeta de crédito, ¿cuál es la
probabilidad de que pida premium?
10. La costura de un avión requiere 25 remaches. La costura tendrá que ser

retrabajada si alguno de los remaches está defectuoso. Suponga que los
remaches están defectuosos independientemente uno de otro, cada uno con
la misma probabilidad.
a. Si 20% de todas las costuras tienen que ser retrabajadas, ¿cuál es la

probabilidad de que un remache esté defectuoso?
b. ¿Qué tan pequeña deberá ser la probabilidad de un remache
defectuoso para garantizar que sólo 10% de las costuras tienen que ser
retrabajadas?
11. Considere el sistema de componentes conectados como en la figura adjunta.

Los componentes 1 y 2 están conectados en paralelo, de modo que el
subsistema trabaja si y sólo si 1 o 2 trabaja; como 3 y 4 están conectados en
serie, qué subsistema trabaja si y sólo si 3 y 4 trabajan. Si los componentes
funcionan independientemente uno de otro y P(el componente trabaja)
= 0.9, calcule P(el sistema trabaja).
12. Una compañía de exploración petrolera en la actualidad tiene dos proyectos

activos, uno en Asia y el otro en Europa. Sea A el evento en que el proyecto
asiático tiene éxito y B el evento en que el proyecto europeo tiene éxito.
Suponga que A y B son eventos independientes con P(A) = 0.4 y P(B) = 0.7.
75
a. Si el proyecto asiático no tiene éxito, ¿cuál es la probabilidad de que el

europeo también fracase? Explique su razonamiento.
b. ¿Cuál es la probabilidad de que por lo menos uno de los dos proyectos
tenga éxito?
c. Dado que por lo menos uno de los dos proyectos tiene éxito, ¿cuál es la
probabilidad de que sólo el proyecto asiático tenga éxito?
76

Estadistica PDF

Transféré par

Informations du document

Description originale:

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Estadistica PDF

Transféré par

Droits d'auteur :

Formats disponibles

TECSUP - PFR Estadística y Probabilidades

El uso de los métodos estadísticos para analizar datos se ha convertido en una

La exposición matemática es relativamente modesta. El uso sustancial del

La unidad 1 se inicia con algunos conceptos y terminología básicos (población,

1.1 POBLACIÓN Y MUESTRA

A fin de entender cómo se puede aplicar los métodos estadísticos, se debe

Aunque existe la libertad de llamar población a un grupo cualquiera de

Una muestra es un subconjunto de elementos de la población que puede

representa, y la validez de cualquier conclusión obtenida de ella depende

La muestra debería ser seleccionada en forma aleatoria, es decir, ca- da

Los factores que determinan la selección de muestras son: costo, tiempo y

Cuando se hace una investigación con todos los elementos de la población,

Disciplina que nos proporciona un conjunto de métodos y procedimientos

Esta definición nos permite distinguir la Estadística Descriptiva de la

La estadística descriptiva se puede definir como los métodos

Uno de los propósitos fundamentales de los métodos estadísticos es

a conclusiones acerca de los verdaderos parámetros de la población, se le

La estadística inferencial generaliza los resultados observados en una

1.3 CICLO METODOLÓGICO DE UN TRABAJO ESTADÍSTICO

Cuando no sea posible obtener una información completa de la población,

Este ciclo se cumple en la mayoría de las veces del quehacer estadístico

Dicho esto, podríamos estar de acuerdo en que nociones como sexo,

No obstante, al empezar a familiarizarse con este tema, se suele confundir

Otra confusión frecuente se da con los datos estadísticos. Consideremos

La correspondencia entre el nivel teórico y el operacional de una

A nivel operacional o de medición, variable es un conjunto de números u

Según su naturaleza las variables pueden clasificarse en:

a) Variables cuantitativas, son aquellas que consisten de números que

Continua, corresponde a “mediciones” y por tanto sus valores están

Ejemplos: contenido neto en gramos en una lata de café, diámetro de

b) Variables cualitativas se dividen en diferentes categorías que se

Ejemplo. Clasifica las siguientes variables:

 Marca de detergente que una ama de casa usa.

Según la función que cumplen en el estudio:

Una distinción de particular importancia es aquella entre variables

independiente” se utilizan para representar una relación de

El problema de la determinación de causalidad (¿cuáles variables son

Es aquella característica o propiedad que se supone ser la causa del

Hayman (1974: 69) la define como propiedad o característica que se

La variable dependiente es el factor que es observado y medido para

Considere la siguiente cuestión: ¿Es el aumento del ingreso per cápita

El proceso de medición utiliza diversas escalas: Nominal, Ordinal, Intervalo y

Escala Nominal: Sólo permite asignar un nombre, etiqueta o valor al

Escala Ordinal: Además de asignar un nombre, etiqueta o valor, esta escala

Grado de satisfacción (alto, medio, bajo), estado de salud (bueno, regular,

Escala de Intervalo: Además de asignar un nombre o etiqueta y establecer

Los datos de intervalo siempre son numéricos.

Para esta escala de medición, es posible establecer una relación de

Costo de un automóvil, número de aprobados, número de artículos

La estadística descriptiva se ocupa de la recopilación, clasificación, presentación y

Los datos pueden recopilarse de dos maneras fundamentales:

a) Si se consideran todos los elementos de la población y se registran

b) Si se seleccionan algunos elementos de la población, pero no todos,

Un ejemplo de una recopilación completa o censo es el Censo Poblacional

Los datos obtenidos por observación o medición suelen ser registrados en

2.3 PRESENTACIÓN DE DATOS

Una vez recolectados los datos y optado por su posible clasificación es

3. ELABORACIÓN DE TABLAS SEGÚN LAS NORMAS APA

Cualquier forma de presentación empleada en el trabajo tendrá que ser

Citar tablas en el cuerpo del texto

Cuerpo de la fuente de la tabla

Fuente de las notas de la tabla