Estadistica Escuela Preparatoria PDF

UNIVERSIDAD AUTÓNOMA DEL
ESTADO DE MÉXICO uaem
ESTADÍSTICA, ESCUELA PREPARATORIA
ELABORARON
LORENZO CONTRERAS GARDUÑO

JOEL NÚÑEZ SALAZAR
OCTAVIO RODRÍGUEZ MORENO
Juan manuel gómez tagle f.
Juan laredo santín
1998
ÍNDICE
1 CONCEPTOS BÁSICOS 11
1.1 CONCEPTO DE ESTADÍSTICA 13
1.2 CLASIFICACIÓN Y CAMPO DE APLICACIÓN DE LA ESTADÍSTICA 14
1.3 DATO ESTADÍSTICO 15
1.4 POBLACIÓN Y MUESTRA 16
1.5 VARIABLES Y SU CLASIFICACIÓN 17
1.6 FUENTES DE ADQUISICIÓN DE DATOS 19
1.7 SELECCIÓN DE LA MUESTRA DE UNA POBLACIÓN 20
1.8 NIVELES O ESCALAS DE MEDICIÓN 22
2 REPRESENTACIÓN DE DATOS 31
2.1 REPRESENTACIÓN TABULAR DE DATOS 33
2.2 DISTRIBUCIÓN O TABLA DE FRECUENCIA SIMPLE 33
2.3 DISTRIBUCIÓN DE FRECUENCIA 44
FRECUENCIA ACUMULADA 44
FRECUENCIA RELATIVA 45
FRECUENCIA RELATIVA ACUMULADA 46
2.4 REPRESENTACIÓN GRÁFICA 47
GRÁFICA DE BARRAS 48
HISTOGRAMA DE FRECUENCIAS 50
POLÍGONO DE FRECUENCIA 53
OJIVA 56
CIRCULOGRAMA 58
3 MEDIDAS DE TENDENCIA CENTRAL 83

3.2 MEDIDAS DE TENDENCIA CENTRAL 90
MEDIA ARITMÉTICA 90
MODA 98
MEDIANA 102
4 MEDIDAS DE DISPERSIÓN 133

4.1 RANGO 136
4.2 DESVIACIÓN MEDIA 137
4.3 VARIANZA 144
4.4 DESVIACIÓN ESTÁNDAR O TÍPICA 150
4.5 COEFICIENTE DE VARIACIÓN 158
4.6 MEDIDAS DE SESGO 160
5 COVARIANZA Y CORRELACIÓN LINEAL 183

5.1 DATOS BIVARIADOS 186
5.2 DIAGRAMA DE DISPERSIÓN 187
5.3 CENTRO DE GRAVEDAD O CENTROIDE 188
5.4 COVARIANZA 191
5.5 CORRELACIÓN LINEAL 197
6 RECTA DE REGRESIÓN 211

6.1 RECTA DE REGRESIÓN 213
6.2 APLICACIONES DE LA RECTA DE REGRESIÓN A SERIES DE TIEMPO 223
CONCEPTOS BÁSICOS 13
CONCEPTOS BÁSICOS
La estadística, tuvo sus inicios en los grandes imperios de la antigüedad,
los primeros antecedentes que se conocen para llevar un registro de sus
pertenencias, son las tablillas de arcilla utilizadas por lo babilonios 5000 a.c. Más
tarde las culturas realizaron registros de bienes, soldados esclavos etc., y más
tarde implementaron los censos de población, Una de las primeras obras que se
conocieron, fue donde se aplicaron las técnicas estadísticas descriptivas que
explican la importancia de los censos.
A mediados del siglo XVII la estadística tuvo un gran desarrollo

cuantitativo, ya que en esa época, los imperios del viejo continente tenían la
necesidad de llevar un buen control administrativo de sus actividades comerciales
y bélicas, entre otras donde sus registros y operaciones consistían en números.
Posteriormente se inicia el estudio de la probabilidad, que junto con la

estadística permite estudiar problemas donde intervienen fenómenos aleatorios
que no se pueden predecir.
En la actualidad la estadística junto con el cálculo de probabilidades

tienen una gran aplicación en todas las actividades que realiza el hombre, tales
como: predicciones, censos, control de calidad, etc.
1.1 CONCEPTO DE ESTADÍSTICA:
La Estadística, es un conjunto de técnicas que tienen por objeto recopilar,

organizar, interpretar, analizar y representar datos para establecer conclusiones o
para tomar decisiones en algunos problemas que se plantean.
1.2 CLASIFICACIÓN Y CAMPOS DE APLICACIÓN DE LA

ESTADÍSTICA.
La estadística para su estudio se divide en dos ramas:
Estadística Descriptiva--------------------Estadística Inferencial
ESTADISTICA DESCRIPTIVA O DEDUCTIVA
La estadística deductiva o descriptiva, se ocupa de la recolección,

clasificación y descripción de datos. Por ejemplo las estadísticas de un partido de
futbol, el promedio de calificaciones del 5o semestre de los alumnos de esta
preparatoria, el nivel de escolaridad de los empleados de una fábrica. etc.
Los resultados que se obtienen en la estadística descriptiva, se presentan en

cualquiera de las tres formas siguientes:
a) tabular. Mediante una tabla, en la cual se encuentran los datos organizados y

clasificados del objeto que se estudia.
b) Gráfica. Mediante un diagrama en el cual se presentan de una manera objetiva

los datos organizados en una figura ilustrativa.
c) Medidas Estadísticas. Mediante números, los cuales se obtienen al aplicar un

método o procedimiento de un conjunto de datos, por ejemplo; el promedio, la
desviación estándar, etc. los cuales permiten comparar varios conjuntos de datos
de diferentes poblaciones.
ESTADÍSTICA INFERENCIAL O INDUCTIVA.
La estadística Inferencial o Inductiva, se ocupa de interpretar los

resultados obtenidos con las técnicas descriptivas, para tomar decisiones en base
a estos resultados. Por ejemplo: en base a las estadísticas de inflación registradas
en los últimos meses en México, se espera que para este mes de marzo se vuelva
a tener una inflación de un solo dígito.
APLICACIONES DE LA ESTADÍSTICA.
La Estadística se utiliza en todas las áreas del conocimiento, ya sean

humanísticas, técnicas, científicas, laborales, deportivas, etc. Esto es, actualmente
resulta difícil indicar alguna área o ciencia que no utilice la Estadística.
Para aplicar las técnicas estadísticas con eficiencia, se requiere por parte
del investigador conocer ampliamente el área de estudio.
Siendo más específicos, la estadística se aplica en la ingeniería, Medicina,

Psicología, Economía, Geografía, Física, Química, Agronomía, Administración,
Biología, Ecología, Antropología, Historia, Contaduría, Planeación, Política, etc., y
aunque los problemas de cada área o ciencia son diferentes, las técnicas que se
utilizan para el análisis estadístico son las mismas debidos a que se trabaja con
datos numéricos.
Al realizar un estudio estadístico sobre un determinado fenómeno, se

inicia con la recopilación de información, la cual consiste en un conjunto de datos
que generalmente se obtiene en forma desorganizada, y corresponde a la
estadística organizarla y posteriormente su análisis para posteriormente
interpretar los resultados.
Antes de continuar con el estudio de la estadística descriptiva, se presentan

algunos conceptos estadísticos que serán utilizados en este texto.
1.3 DATO ESTADÍSTICO.
Un dato estadístico, es la característica medible o descrita mediante un

valor o atributo de u elemento en estudio.
Por ejemplo: Si se están estudiando las características de una persona, los

datos que se pueden obtener son: su peso, edad, estatura, estado civil,
escolaridad, etc. Si se realiza un estudio estadístico de la edad de un grupo de
personas, los datos pueden ser 19, 35, 11, 18, 23, 15, etc. Si el estudio se realiza
sobre el color de los carros que circulan en la ciudad de Toluca, algunos datos
serían: verde, azul, negro, amarillo, rojo, negro, etc., si el estudio se realiza sobre
el ingreso mensual de una familia, los datos obtenidos pueden ser: 1500, 1000,
1200, 4500, 3250, etc.
1.4 POBLACIÓN Y MUESTRA.
Al realizar un estudio estadístico de un fenómeno determinado

dependiendo del número de datos que se pretenden analizar resulta en ocasiones
imposible o incosteable recolectar los datos de todos los elementos del grupo.
Al conjunto formado por el total de los elementos en estudio se le llama

población.
A un subconjunto de una población estadística se le llama muestra.
Una población puede ser finita o infinita.
La población finita está formada por un número determinado de

elementos. Por ejemplo: Una población formada por todos los motores fabricados
en un mes en una industria automotriz. En la población infinita no se tiene
determinado el número de elementos en estudio. Por ejemplo: los posibles
sucesos (águila o sol) obtenidos al azar una moneda al aire.
La información que se obtiene de una población es exacta, debido a que

se consideran todos los elementos en estudio, mientras que en una muestra, la
información recopilada puede resultar no muy exacta debido a que la muestra
que se elige puede no ser representativa de la población. Para eficientar las
medidas estadísticas que se pretenden obtener, es necesario aplicar técnicas
estadísticas adecuadas para poder elegir muestras que sean representativas de la
población.
Existen varias razones por las cuales en la mayoría de los casos en que se
realiza un estudio estadístico, este se aplica sobre una muestra y no sobre una
población, las principales son:
a) En ciertos casos, el estudio consiste en pruebas destructivas de

laboratorio como por ejemplo: el probar en ciertos objetos o materiales
su resistencia a la ruptura, al calor, a la humedad, etc.
b) Resulta más económico estudiar los elementos de una muestra que sea
representativa de la población, que toda la población, puesto que se tiene
un ahorro en tiempo y dinero.
1.5 VARIABLES Y SU CLASIFICACIÓN
Para la aplicación de los métodos estadísticos, es necesario representar

los diversos tipos de datos que se tienen de una forma general utilizando
variables.
Una variable es la representación general de un conjunto de datos que

tienen una misa característica.
Las variables se asignan mediante una letra, las más comunes son x,y,z:
Por ejemplo cuando se están estudiando varias características de un conjunto
formado por varias personas, como son, su peso, estatura y sexo. Las variables se
asignan de la siguiente manera:
x representa el peso del conjunto de elementos
y representa la estatura del conjunto de elementos
z representa el sexo del conjunto de elementos
Para identificar los diferentes valores de los elementos sobre una misma
característica, a la variable se le asigna un subíndice que por lo común es la letra i,
la cual va tomando o adquiriendo valores enteros positivos y consecutivos a partir
de uno.
Por ejemplo: si a cada persona del conjunto en el que se estudia el peso,

la estatura y el sexo, se les asigna un número de identificación, se tiene:
x1 representa el peso de la persona asignada con el número 1

y1 representa la estatura de la persona asignada con el número 10
z23 representa el sexo de la persona asignada con el número 23
x30, y30, z30representan el peso, estatura y sexo de la persona asignada con el

número 30.
Y en forma General, xi, yi, zi, representan el peso, estatura y sexo de la i-

ésima persona.
CLASIFICACIÓN DE LAS VARIABLES
Para el estudio de un proceso estadístico, las variables se clasifican en:
|cualitativas
|
Variables
| |discretas
|cuantitativas
|continuas
LAS VARIABLES CUALITATIVAS: Son aquellas que describen cualidades o

atributos del objeto de estudio. Por ejemplo; se puede asignar una variable
cualitativa al color de automóviles, sexo de las personas, estado civil de las
personas, escolaridad en personas mayores de 20 años, etc.
LAS VARIABLES CUANTITATIVAS: Son las que se representan a través de un

valor numérico, que en una recopilación de datos se obtiene mediante conteo o
medición de la característica en estudio. Se clasifican en Discretas y continuas.
LAS VARIABLES DISCRETAS: Son las que están asociadas a un proceso de

conteo, es decir que sólo pueden tomar algunos valores de una escala de
medición, por ejemplo en un salón de clases puede haber 32 o 33 alumnos, pero
nunca 32.4 alumnos
LAS VARIABLES CONTINUAS: Están asociadas a un proceso de medición y

pueden adquirir cualquier valor en una escala de medición, esto es, que si se
tienen dos valores dados, siempre puede existir otro valor intermedio, por
ejemplo: un hombre puede medir 1.71 m y otro 1.72 m y un tercero un valor
comprendido entre estos, tal como 1.714 m.
1.6 FUENTES DE ADQUISICIÓN DE DATOS.
La adquisición de datos estadísticos, es el procedimiento empleado para

recopilar la información que se va a analizar.
Existen varias formas para obtener la información deseada, las más

comunes son:
a) Observación.- Consiste en recopilar información mediante la simple

observación. Por ejemplo: Si se desea conocer cuál es el color de ropa más usual
en el mes de diciembre en tu escuela preparatoria, una forma de adquirir la
información es precisamente, observar el color de ropa que se utiliza durante
varios días en ese mes de diciembre.
b) Encuesta.- Consiste en recopilar información mediante cuestionarios y

entrevistas. Por ejemplo: Al levantar un censo de población se utiliza la encuesta.
c) Experimento.- Consiste en recopilar información mediante pruebas de

laboratorio. Por ejemplo: Si se desea conocer el comportamiento de la resistencia
a la ruptura de una mezcla de concreto, se prueban especímenes elaborados con
esa mezcla y se anota su resistencia al momento de romperse.
d) Investigación.- Consiste en recopilar información que ya se tiene

concentrada o escrita, la cual se puede recopilar en bibliotecas, hemerotecas,
mapotecas, videotecas, centros de cómputo, etc.
1.7 SELECCIÓN DE LA MUESTRA DE UNA POBLACIÓN.
Se ha mencionado que al realizar un estudio estadístico sobre un

problema determinado, los datos, en la mayoría de las veces se recopilan de una
muestra y no de una población; los resultados obtenidos de una muestra sirven
para estimar el comportamiento de una población. Para garantizar que una
muestra sea representativa de la población, es necesario que la muestra se elija
adecuadamente.
No existe una forma general para seleccionar una muestra y que esta sea
representativa de la población en un 100% por lo que se debe utilizar el método
que más se apegue y que garantice la selección adecuada al problema que se está
analizando. En este texto se presentan solo algunas formas que existen para
seleccionar una muestra, corresponde al lector elegir cual es la que usará.
a) Selección de una muestra mediante números aleatorios.
Se llama muestra aleatoria, a la obtenida cuando todos los elementos que

forman la población, tienen la misma probabilidad de ser elegidos para formar la
muestra.
Un procedimiento empleado para elegir los elementos de la población

que formaran la muestra, es a través de una tabla de números aleatorios.
Una tabla de números aleatorios, es un conjunto de números

acomodados en renglones y columnas, los cuales se han seleccionado al azar o
mediante algún procedimiento (estas tablas se encuentran al final de cualquier
texto de probabilidad o estadística). Actualmente se puede construir una tabla de
números aleatorios o bien obtenerlos directamente con la calculadora mediante
la tecla RAN # que maneja la mayoría de las calculadoras. Si su calculadora no
tiene esta tecla, consulte su manual y busque que tecla le proporciona los
números aleatorios.
Para seleccionar los elementos de la población primero se les asigna un

número consecutivo a todos los elementos de la población.
Por ejemplo: Si se desea seleccionar una muestra de 50 elementos, de una

población de 500, se consideran de la tabla de números aleatorios, de una
población de 500, se consideran de la tabla de números aleatorios o con la
calculadora los primeros 50 números comprendidos entre 1 y 500, obteniéndose
la muestra, la cual se forma por los elementos de la población que tengan el
mismo número que los seleccionados en la tabla o con la calculadora; los números
que aparecen en la tabla o en la calculadora mayores de 500 se omiten.
b) Selección de una muestra mediante fórmulas.
El número de elementos que contiene una muestra se obtiene mediante

fórmulas, algunas de las utilizadas son las siguientes.

1)
Dónde:
n es el tamaño de la muestra que desea obtener.
N el número de elementos de la población.
e es el error máximo que se tiene con un intervalo de confianza del
95.44%
Por ejemplo, si se desea realizar un estudio para estimar la proporción de

familias aficionadas a ver el futbol por televisión de una comunidad formada por
aproximadamente 3000 familias y se desea tener un error de más menos 5%, la
muestra se formará por:

n= 352.94
Es decir se debe considerar una muestra formada por 353 familias.
Existen otras fórmulas para obtener el tamaño de la muestra, enseguida

se mencionan dos.

2)

3)
c) Otros criterios:
Existen otros criterios para seleccionar una muestra, como son: la

estratificada, la no estratificada, por conglomerado, sistemática, etc.
1.8 NIVELES O ESCALAS DE MEDICIÓN
En estadística cuando se realiza un estudio, se recopila información de

una o más características de un elemento, mediante números, cualidades o
atributos. Se categorizan en escalas o niveles de medición. Los valores obtenidos,
dependiendo del tipo de dato que corresponda, pueden caer en alguna de las
cuatro escalas de medición que existen, las cuales son:
a) NOMINAL. Es cuando se asignan números a las cualidades o atributos

del objeto de estudio, los cuales carecen de significado aritmético. Es decir, no se
pueden sumar o restar. Como por ejemplo: Los números que portan los jugadores
de futbol en sus camisetas, los números telefónicos, el valor obtenido al lanzar un
dado, el número de licencia de manejo, el sexo de una persona puede ser hombre
o mujer, el número de cuenta de los alumnos de la UAEM, etc.
b) ORDINAL. Es cuando las categorías pueden ser ordenadas mediante

algún criterio previamente establecido, por ejemplo un vaso puede ser grande,
mediano o chico, un alumno en estadística puede ser bueno regular o malo, la
edad de las personas se puede clasificar de 0-10, de 10-20, de 20-30, de 30-40 y
más de 40.
c) INTERVALAR. Es cuando se utiliza el cero como un valor arbitrario, por

ejemplo, se desea comparar la estatura de Hugo, Paco y Luis, se procede de la
siguiente manera: Se coloca Paco que es el más bajo recargado a la Pared y se
pone una marca que coincide con su altura, aquí se asigna el cero como punto de
referencia, se coloca Luis y se marca su estatura, luego se mide la diferencia entre
marcas, suponiendo esta de 10 cm, lo cual significa que Luis es más alto que Paco
con 10 cm y por último de coloca Hugo y resulta 30 cm más alto que Paco. Si se
analizan las 2 diferencias que son 10 y 30 cm no significa que Luis mide la tercera
parte de Hugo, sino que mide 20cm. menos.
d) DE RAZÓN. Es la que utiliza el cero real, es decir cómo se trabaja en una

recta numérica. Las escalas de razón al medirse establecen proporcionalidades,
por ejemplo en el caso anterior si Paco mide 1.50 m. entonces Luis mide 1.60 m y
Hugo 1.80 y se puede decir que Paco mide 1.50/1.80 = 5/6 de lo que mide Hugo.
Taro Yamane Estadística pag 379 Harla

Zuwaylif Estadística General Aplicada pag 232 FEISA
Johnson Robert. Estadística Elemental pag 17 GE Iberoamérica
REPRESENTACIÓN DE DATOS 33
2.1 REPRESENTACIÓN TABULAR DE DATOS.
Cuando se efectúa un estudio estadístico en un determinado problema, por lo

general los datos obtenidos en la recopilación ya sea de una muestra o de una
población, no se pueden analizar o interpretar en su primera presentación, por lo
común son un conjunto de datos escritos en una o más paginas sin presentar ningún
orden.
Al conjunto de datos obtenidos en la recopilación, se les conoce como datos

no agrupados, una vez que se han recopilado los datos, el siguiente paso consiste en
organizarlos, por ejemplo: los datos que aparecen en la fig 37 son un conjunto de
datos no agrupados.
Al conjunto de datos que se han organizado en vacías clases o categorías, se

les llama datos agrupados. Por ejemplo: la tabla que aparece en la fig 38 corresponde
a los datos ya agrupados, que se presentaron en el ejemplo anterior.
2.2 DISTRIBUCIÓN O TABLA DE FRECUENCIA SIMPLE
Para agrupar u organizar un conjunto de datos, se construye una tabla

llamada tabla de frecuencia o distribución de frecuencia simple.
El primer paso para organizar los datos, consiste en identificar el tipo de datos
que se tienen, los cuales pueden ser cualitativos o cuantitativos.
Cuando los datos corresponden a valores cualitativos, se clasifican en varias

clases o categorías, que corresponden a las cualidades, valores o atributos obtenidos
de cada elemento, después se efectúa una tabulación, es decir se realiza un conteo de
los elementos que pertenecen a cada clase o categoría. Para llevar un orden y no
omitir algún valor, se asigna una columna para la tabulación y se coloca una marca
para cada elemento de la muestra o población, donde corresponda a su categoría.
Una vez terminada la tabulación se cuentan los elementos que contiene cada
clase o categoría y se anota el valor en otra columna que se denomina frecuencia.
Así, la frecuencia es el número de elementos que contiene cada clase o

categoría en un conjunto de datos.
Ejemplo 1
Con los siguientes datos que corresponden al color de automóvil que se

encuentran hoy en el estacionamiento de la escuela preparatoria, se construye una
tabla de frecuencia simple.
verde azul verde rojo gris café gris rojo negro negro azul azul
rojo verde rosa blanco verde beige azul gris verde negro verde verde
rosa rojo vino azul verde vino café verde anaranjado rojo rojo
beige azul azul blanco negro negro azul negro rosa rojo rosa rojo
beige azul gris anaranjado gris beige blanco beige azul gris rojo
rosa anaranjado negro rojo rojo verde azul café verde rojo rojo
café gris beige café gris negro anaranjado negro café negro rosa
Con cada uno de estos atributos, se construye una clase y se coloca en una
columna que corresponde a los colores.
COLOR
Verde
Azul
Rojo
Gris
Café
Negro
Rosa
Blanco
Beige
Vino
Anaranjado
A continuación se realiza la tabulación, asignando cada uno de los colores a su

clase correspondiente.
COLOR TABULACIÓN
Verde ||||| ||||| |
Azul ||||| ||||| |
Rojo ||||| ||||| |||
Gris ||||| |||
Café ||||| |
Negro ||||| |||||
Rosa ||||| |
Blanco |||
Beige ||||| |
Vino ||
Anaranjado ||||
Se obtiene la frecuencia de cada clase, contando el número de elementos que

contiene cada clase, lo cual se muestra en la siguiente tabla de frecuencias simple.
COLOR TABULACIÓN FRECUENCIA

Verde ||||| ||||| | 11
Azul ||||| ||||| | 11
Rojo ||||| ||||| ||| 13
Gris ||||| ||| 8
Café ||||| | 6
Negro ||||| ||||| 10
Rosa ||||| | 6
Blanco ||| 3
Beige ||||| | 6
Vino || 2
Anaranjado |||| 4
Cuando los datos que se tienen, corresponden a valores cuantitativos, estos

se agrupan de la misma forma en varias clases o grupos, llamados intervalos, o
también intervalos de clase, se tabula y se obtiene la frecuencia de cada intervalo.
Cada intervalo contiene todos los elementos comprendidos entre sus

extremos, incluyendo estos. A los extremos de un intervalo se les llama límites de
clase. Cada intervalo tiene dos límites de clase llamados límite inferior y límite
superior, los cuales corresponden a su extremo inicial y final de cada intervalo
respectivamente.
No existe un método general para determinar el número de intervalos que

contiene una distribución de frecuencia, los expertos recomiendan que deben ser 6 ó
más intervalos, pero menos que 16, esto es, la tabla debe contener de 6 a 15
intervalos
Para construir una tabla, o distribución de frecuencias siempre se emplea el

siguiente procedimiento:
1. Se determina el rango del conjunto de datos, mediante:
Rango = Dato mayor - Dato menor

2. Se determina la variación que se presenta en los datos, esto es, la diferencia entre
los datos diferentes más cercanos, por ejemplo; sí se tienen los datos 3, 8, 6, 5, 7, 7, 4,
su variación es igual a uno.
Para los datos 100, 110, 125, 135, 130, 120, 125 su variación es 5.
Para los datos 10, 90, 80, 60, 30, 40, 60, 50, 20 su variación es 10.
Para los datos 5.7, 8.1, 6.4, 7.6, 6.5, 9.2, 7.7, 5.6 su variación es 0.1
3. Toca al estudiante elegir el número de intervalos con los cuales desea trabajar o el
tamaño que deben tener los intervalos que se van a formar, se puede optar
cualquiera de los siguiente criterios.
a) Cuando se asigna el número de intervalos, se obtiene el tamaño que

tendrán los intervalos con la formula.
Rango + variación
Tamaño del intervalo = --------------------------
Número de intervalos
El tamaño obtenido, cuando no resulta entero, se puede aproximar a un

número mayor que no cambie el número de intervalos y que su manejo sea más
sencillo.
b) Si se asigna el tamaño del intervalo, se obtiene el número de intervalos que

va a contener la tabla, mediante la fórmula:
Rango + variación
Número de intervalos = ---------------------------
Tamaño del intervalo
Si el resultado no es un número entero, se considera el entero siguiente para

el número de intervalos.
4. Se construyen los intervalos con su respectivo tamaño.
a) Si al obtener el número de intervalos o el tamaño de los siguientes los

intervalos, resulto exacta la división, el límite inferior del primer intervalo coincide
con el valor menor del conjunto de datos y el límite superior del último, debe
coincidir con el dato mayor del conjunto de datos.
b) Si el tamaño o el número de intervalos, se aproximó a un valor mayor, el

límite inferior del primer intervalo o el límite superior del último no necesariamente
deben coincidir con el valor menor y mayor del conjunto de datos.
5. Una vez establecidos los intervalos se efectúa la tabulación.
6. Por último, se obtiene la frecuencia de cada intervalo de clase.
Se ha utilizado el término, tamaño de un intervalo, el cual cuando se tienen los límites

de clase, este se obtienen mediante:
Tamaño del intervalo = límite superior - límite superior + variación
La estadística, es un conjunto de técnicas que se aplican en todas las ciencias,

áreas o actividades humanas, aunque los problemas que se resuelven en cada una
son totalmente diferentes, las técnicas que se aplican son las mismas. Corresponde al
lector asociar cada conjunto de datos con un problema en particular de un área
determinada.
Ejemplo 2.
Para el conjunto de datos siguiente, construya la tabla de frecuencia,

considere 10 intervalos.
65 39 32 92 76 54 87 43 54 23 56 34
45 78 65 23 65 34 56 87 54 68 87 56
42 48 54 87 65 51 40 46 65 60 28 55
50 30 75 75 72 35 52 50 40 53 40 30
45 60 40 92 91 41 75 38 42 56 38 54
45 52 65 47 50 50 50 48 51 60 61 58
40 60 46 70 30 60 23 85 85 84 53 80
52 48 75 86 85 82 45 57 57 53 26 58
65 70 60 70 30 25 75 65 65 66 63 60
60 92 38 45 60 78 73 57 57 55 53 60
Primero se obtiene el rango, esto es:
Dato mayor 92
Dato menor 23
Rango = 69
Los datos son no agrupados y aumentan de uno en uno, por lo cual la

variación es igual a 1.
Como se deben distribuir en 10 intervalos, se determina ahora el tamaño que

tendrá cada intervalo:

!"
#$%

%&

'
Por lo cual se tiene 10 intervalos de tamaño 7.
El tamaño resulto entero, por lo que el límite inferior del primer intervalo se
hace coincidir con el dato menor y a partir de aquí se construyen los 10 intervalos,
observe que el límite superior del último intervalo coincide con el valor del mayor que
es 92, se realiza la tabulación y se obtiene la frecuencia, (número de elementos que
tiene cada intervalo), esto es.
No. INTERVALO TABULACIÓN FRECUENCIA

1 23-29 ||||| | 6
2 30-36 ||||| ||| 8
3 37-43 ||||| ||||| ||| 13
4 44-50 ||||| ||||| |||||| | 16
5 51-57 ||||| ||||| |||||| ||||| || 22
6 58-64 ||||| ||||| |||||| 15
7 65-71 ||||| ||||| |||||| 15
8 72-78 ||||| ||||| 10
9 79-85 ||||| | 6
10 86-92 ||||| |||| 9
Observe que al construir la tabla anterior, el límite superior de un intervalo, se

obtuvo mediante.
()
*+,
()

-
.
/ 0
1

Por ejemplo, el límite superior del intervalo uno que es igual a 29, se
determinó como 23+7-1=29.
El límite inferior del segundo intervalo se obtuvo sumando la variación a el

límite superior del primer intervalo 29+1
Ejemplo 3.
Construya la tabla de distribución de frecuencia simple, para el siguiente

conjunto de datos, considere intervalos de tamaño 11.
5 14 52 86 59 74 71 42 45 43 56 42
47 77 52 56 69 91 14 45 57 78 86 62
4 12 7 9 25 13 81 24 37 45 53 11
8 91 95 86 34 43 45 51 22 27 30 15
14 25 18 35 69 92 85 84 41 52 56 53
14 45 32 38 38 40 57 36 52 53 23 6
94 8 10 60 67 66 65 63 72 51 46 20
Obteniendo el rango, se tiene:
Valor mayor 95
–
Valor menor 4
Rango 91
La variación = 1
Se determina enseguida el número de intervalos.

2
*
3 !
$%%
2
*
%%
2
* 4567
Aproximando al siguiente entero, se deben tener 9 intervalos de tamaño 11.

Como se aproximó el número de intervalos, el dato menor y el dato mayor no

necesariamente deben coincidir con los límites del primero y del último intervalo. La
elección del primer o último valor se debe efectuar de tal manera que los valores que
se agreguen tengan sentido para el problema en estudio. Se debe tener cuidado que
al construir la tala se tenga el número y tamaño de intervalos elegidos. En los cuales,
el dato menor se debe encontrar dentro del primer intervalo y el dato mayor dentro
del último intervalo.
Para el ejemplo, se construir el primer intervalo con un límite inferior igual a 1
y a partir de aquí se obtiene la tabla de frecuencia simple.
No. INTERVALO TABULACIÓN FRECUENCIA

1 1-11 ||||||||| 9
2 12-22 |||||||||| 10
3 23-33 ||||||| 7
4 34-44 |||||||||||| 12
5 45-55 |||||||||||||||| 16
6 56-66 ||||||||||| 11
7 67-77 ||||||| 7
8 78-88 ||||||| 7
9 89-99 ||||| 5
Obsérvese que tanto en esta tabla como en la anterior, existen valores que no
se consideran en ningún intervalo de clase (como son los valores comprendidos entre
el límite superior y el límite inferior del siguiente intervalo) como es el caso de este
último ejemplo de los datos 33.9 y 44.1
Si al conjunto de datos dl ejemplo anterior, se le agregan estos valores 33.9 y

44.1 por aproximación se hubiesen tabulado en el intervalo número 4. Pero si se
tiene el valor 33.5 existe la duda de tabularlo en el intervalo 3 o en el intervalo 4.
Para resolver este problema se construyen los límites reales de clase, límites
verdaderos de clase, o fronteras de clase.
Los límites reales de clase, son valores que evitan huecos entre un intervalo y
el siguiente. Sus valores se obtienen como el punto medio del límite superior y el
límite inferior del siguiente intervalo, resultando que el límite real superior de un
intervalo es igual que el límite real inferior del intervalo siguiente.
Ahora bien, al tabular un valor tal como el 33.5, se observa que este valor se
encuentra en el intervalo 3 y en el intervalo 4, este texto utiliza el criterio de tabularlo
en el primer intervalo en que aparece dicho dato, esto es, en el intervalo número 3.
Ejemplo 4.
Obtenga los límites reales de clase de la tabla del ejemplo 3.
No. LÍMITES DE FRECUENCIA LÍMITES REALES

CLASE DE CLASE
11 1-11 9 0.5-11.5
22 12-22 10 11.5-22.5
33 23-33 7 22.5-33.5
44 34-44 12 33.5-44.5
55 45-55 16 44.5-55.5
66 56-66 11 55.5-66.5
77 67-77 7 66.5-77.5
88 78-88 7 77.5-88.5
99 89-99 5 88.5-99.5
a) Observe que el límite real inferior del primer intervalo se determinó

restando la mitad de la variación (que es |) al límite inferior, esto es:
1 – ½ (1) = 0.5
b) El límite real superior del último intervalo se determinó sumando la mitad

de la variación al límite superior, esto es:
99 + ½ (1) = 99.5
En ocasiones, es necesario identificar los límites de clase o límites reales de

clase inferior y/o superior, esto se muestra en la siguiente tabla:
.LÍMITES LÍMITES ..LÍMITE ...LÍMITE LÍMITE LÍMITE

FREC. REALES DE REAL REAL
DE CLASE INFERIOR SUPERIOR
CLASE INFERIOR SUPERIOR
1 - 11 9 0.5 - 11.5 1 11 0.5 11.5
12 - 22 10 11.5 - 22.5 12 22 11.5 22.5
23 - 33 7 22.5 - 33.5 23 33 22.5 33.5
34 - 44 12 33.5 - 44.5 34 44 33.5 44.5
45 - 55 16 44.5 - 55.5 45 55 44.5 55.5
56 - 66 11 55.5 - 66.5 56 66 55.5 66.5
67 - 77 7 66.5 - 77.5 67 77 66.5 77.5
78 - 88 7 77.5 - 88.5 78 88 77.5 88.5
89 - 99 5 88.5 - 99.5 89 99 88.5 99.5
Cuando se tiene un conjunto de datos agrupados, dados por sus límites reales
de clase, la variación vale cero.
El tamaño de un intervalo se obtiene:
ñ
(
*+,
/ (

-

Si se considera cualquier intervalo de la tabla anterior, por ejemplo, el tamaño

del tercer intervalo es:
Tamaño = 33.5 – 22.5
Observe que el tamaño no cambia como era de esperarse.
Ejemplo 5.
En los siguientes conjuntos de datos se han determinados los límites reales a

partir de los límites de clase.
Intervalo Intervalo Real Intervalo Intervalo Real

1 - 10 0.5 - 10.5 100 - 140 95 - 145
11 - 20 10.5 - 20.5 150 - 190 145 - 195
21 - 30 20.5 - 30.5 200 - 240 195 - 245
31 - 40 30.5 - 40.5 250 - 290 245 - 295
41 - 50 40.5 - 50.5 300 - 340 295 - 345
51 - 60 50.5 - 60.5 350 - 390 345 - 395
61 - 70 60.5 - 70.5 400 - 440 395 - 445
71 - 80 70.5 - 80.5 450 - 490 445 - 495
81 - 90 80.5 - 90.5 500 - 540 495 - 545
91 - 100 90.5 - 100.5 550 - 590 545 - 595
Intervalo Intervalo Real Intervalo Intervalo Real

7.0 - 7.5 6.95 - 7.55 40 - 46 39 - 47
7.6 - 8.1 7.55 - 8.15 48 - 54 47 - 55
8.2 - 8.7 8.15 - 8.75 56 - 62 55 - 63
8.8 - 9.3 8.75 - 9.35 64 - 70 63 - 71
9.4 - 9.9 9.35 - 9.95 72 - 78 71 - 79
10.0 - 10.5 9.95 - 10.55 80 - 86 79 - 87
10.6 - 11.1 10.55 - 11.15 88 - 94 87 - 95
11.2 - 11.7 11.15 - 11.75 96 - 102 95 - 103
MARCA DE CLASE
La marca de clase es el punto medio de un intervalo, se representa por Mi y

se obtiene con la expresión:
límite interior + límite superior

Marca de clase= ---------------------------------------
2
o bien
límite real inferior + límite real superior

Marca de clase = --------------------------------------------------
2
Su valor es igual, debido a que se trata del mismo intervalo.
Ejemplo 6
En los siguientes conjuntos de datos se ha obtenido la marca de clase:
a) INTERVALO Mi b) INTERVALO Mi
10-15 12.5 1.00-1.09 1.045
15-20 17.5 1.10-1.19 1.145
20-25 22.5 1.20-1.29 1.245
25-30 27.5 1.30-1.39 1.345
30-35 32.5 1.40-1.49 1.445
35-40 37.5 1.50-1.59 1.545
40-45 42.5 1.60-1.69 1.645
45-50 47.5 1.70-1.79 1.745
50-55 52.2 1.80-1.89 1.845
2.3 DISTRIBUCIONES DE FRECUENCIA
Además de la distribución de frecuencia simple que hasta el momento se ha

estudiado, existen otras distribuciones de frecuencia que se utilizan en estadística, se
presentan a continuación solo las más comunes.
FECUENCIA ACUMULADA.
La frecuencia acumulada de un intervalo, se obtiene sumando la frecuencia de

ese intervalo con la frecuencia de los intervalos anteriores. La frecuencia acumulada
del último intervalo, corresponde al número total de datos. Se representan con la
letra F.
Ejemplo 1
En los siguientes conjuntos de datos, se muestra la distribución de frecuencia

acumulada.
a)
INTERVALO FREC. FRECUENCIA
ACUMULADA
1000-2000 4 4
2000-3000 12 16
3000-4000 35 51
4000-5000 17 68
5000-6000 20 88
6000-7000 14 102
7000-8000 8 110
b)
INTERVALO FREC. FRECUENCIA
ACUMULADA
10-17 15 15
18-25 38 53
26-33 57 110
34-41 41 151
42-49 22 173
50-57 16 189
58-65 11 200
FRECUENCIA RELATIVA.
La frecuencia relativa de un intervalo, se obtiene dividiendo la frecuencia del

intervalo entre el número total de datos. La suma de todas las frecuencias relativas de
un conjunto de datos es igual a uno.
Si la frecuencia relativa de un intervalo se multiplica por 100 se llama

frecuencia porcentual y su valor representa el porcentaje de datos que contiene cada
intervalo.
Ejemplo 2
En el siguiente conjunto de datos, se muestra la distribución de frecuencia

relativa.
No.INTERVALO FRECUENCIA FRECUENCIA

________________________________RELATIVA___
1 100-150 7 0.0368
2 150-200 23 0.1210
3 200-250 15 0.0789
4 250-300 38 0.2000
5 300-350 26 0.1368
6 350-400 34 0.1789
7 400-450 14 0.0736
8 450-500 20 0.1052
9 500-550 13 0.0684
----------------------------------------------------------------------
SUMAS 190 1.000
Como se observa, el intervalo 4 contiene el 20% del total de los datos.

FRECUENCIA RELATIVA ACUMULADA.
Se obtiene dividiendo la frecuencia acumulada de cada intervalo, entre el

número total de datos. La frecuencia relativa acumulada de un intervalo multiplicado
por 100, se llama frecuencia porcentual acumulada de un intervalo y su valor
representa el porcentaje acumulado de datos que se encuentran hasta un cierto
intervalo.
Ahora se realiza un ejercicio de repaso en el cual, dado un conjunto de datos,

se obtiene su marca de clase, la frecuencia acumulada, la frecuencia relativa y la
frecuencia relativa acumulada.
Frecuencia
Marca Frecuencia Frecuencia
Intervalo Frec. Relativa
de clase Acumulada Relativa
Acumulada
100 - 108 34 104 34 0.0756 0.0756
109 - 117 45 113 79 0.1000 0.1756
118 - 126 78 122 157 0.1733 0.3489
127 - 135 112 131 269 0.2489 0.5978
136 - 144 89 140 358 0.1978 0.7956
145 - 153 63 149 421 0.1400 0.9356
154 - 162 29 158 450 0.0644 1.0000
2.4 REPRESENTACIÓN GRÁFICA.
Los datos obtenidos en una investigación estadística, una vez que se han
agrupado, se pueden obtener algunas conclusiones directamente de la tabla de
distribución de frecuencia, o bien, se puede representar mediante alguna gráfica, ya
que su presentación por sí sola, muestra el comportamiento de los datos.
Existen varias formas de representar las distribuciones de frecuencia, tales como:
1. Histograma de frecuencia
2. Polígono de frecuencia
3. Gráfica de barras
4. Gráfica de líneas
5. Curvas
6. Cartograma
7. Pictograma
8. Localización gráfica
9. Tabla de valores
GRÁFICA DE BARRAS
La gráfica de barras es un tipo de gráfica utilizado en estadística, consiste en

una serie de rectángulos cuyas bases se encuentran sobre una base horizontal
correspondiendo a cada uno de los intervalos o categorías de la distribución de
frecuencias y su altura, marcada en un eje vertical, es proporcional a la frecuencia de
cada intervalo o categoría.
Ejemplo 1
Construye la gráfica de barras para los siguientes conjuntos de datos.
a) INTERVALO FRECUENCIA
1-5 15
6-10 12
11-15 13
16-20 8
21-25 11
26-30 7
31-35 6
36-40 10
Localizando los intervalos en el eje horizontaly marcando una escala para la

frecuencia en el eje vertical.
16
14
12
10
FRECUENCIA 8
6
4
2
0
1-5 6-10 11-15 16-20 21-25 26-30 31-35 36-40
INTERVALO
Ahora se traza un intervalo para cada intervalo en los cuales su altura depende de la
frecuencia.
16
14
12
10
FRECUENCIA 8
6
4
2
0
1-5 6-10 11-15 16-20 21-25 26-30 31-35 36-40
INTERVALO
Las líneas que aparecen en forma horizontal, se incluyeron para visualizar la

altura de los rectángulos y de esta manera verificar o ver su frecuencia
correspondiente.
b) CALIDAD FRECUENCIA
Excelente 5
Bueno 14
Malo 16
Regular 4
Pésimo 2
Ubicando cada una de las categorías en el eje horizontal y una escala en el eje
vertical que corresponda a la frecuencia, se construye la gráfica de barras.
16
14
12
10
FRECUENCIA 8 16
14
6
4
2 5 4 2
0
Excelente Bueno Malo Regular Pésimo
INTERVALO
En esta gráfica, se incluyeron los valores de la frecuencia de cada clase dentro

de las barras, se recomienda realizar esta acción cuando es difícil identificar las
alturas, sobre todo de los últimos rectángulos.
HISTOGRAMA DE FRECUENCIA
El histograma de frecuencia, se emplea para representar mediante una gráfica

similar a la de barras, una distribución de frecuencia. La diferencia que tiene con la
gráfica de barras, es que en el histograma de frecuencia, se localizan los límites reales
de clase en el eje horizontal (en la gráfica de barras se localizan los límites de clase).
Consiste en una serie de rectángulos que tienen sus bases sobre un eje
horizontal (eje x), de longitud igual al tamaño de los intervalos de clase y su altura es
proporcional a las frecuencias de clase.
Ejemplo 2
Trace el histograma de frecuencia para los siguientes conjuntos de datos.
0-10 9
10-20 11
20-30 7
30-40 14
40-50 16
50-60 12
60-70 8
70-80 8
80-90 6
Se localizan los intervalos sobre el eje horizontal señalado los límites reales de clase y
una escala para la frecuencia sobre el eje vertical.
18
16
14
FRECUENCIA
12
10
8
6
4
2
0
0-10 10-20 20-30 30-40 40-50 50-60 60-70 70-80 80-90
INTERVALO
Ahora se trazan los rectángulos, obteniéndose el histograma de frecuencia.

18
16
14
FRECUENCIA
12
10
8
6
4
2
0
0-10 10-20 20-30 30-40 40-50 50-60 60-70 70-80 80-90
INTERVALO
En ocasiones la frecuencia de cada intervalo, se escribe en la parte
superior de cada intervalo para visualizar mejor la frecuencia de cada inérvalo.
18 16
16 14
14 12
11
FRECUENCIA
12
10 9
8 8
8 7
6
6
4
2
0
0-10 10-20 20-30 30-40 40-50 50-60 60-70 70-80 80-90
INTERVALO
INTERVALO FRECUENCIA
100-105 5
106-111 12
112-117 20
118-123 14
b) 124-129 8
130-135 4
136-141 5
En este caso, primero see ob

obtienen los límites reales de clase para cada intervalo
rvalo.
INTERVAL
VALO FRECUENCIA LÍMITES REALES
100-105
105 5 99.5-105.5
106-111
111 12 105.5-111.5
112-117
117 20 111.5-117.5
118-123
123 14 117.5-123.4
124-129
129 8 123.5-129.5
130-135
135 4 129.5-135.5
136-141
141 5 135.5-141.5
Se localizan los lími

límites reales de clase en el eje horizontal, una escala
cala para la
frecuencia en el eje vertical
tical y se construye el histograma de frecuencia
20
20
15 14
12
10
8
5 5
5 4
0
99.
99.5 105.5 111.5 117.5 123.5 129.5 135.5 141.5
Como se observarva en este histograma de frecuencia, cuando el primer

intervalo se encuentra muy alejado del origen, se hace un corte en el eje horizontal,
hor
para que este primer interv
tervalo no se encuentre muy alejado del origen
Si en el eje vertica
tical se localizan las frecuencias relativas, la gráfica
ca sse llama
histograma de frecuenciaia re
relativa.
0
99.
99.5 105.5 111.5 117.5 123.5 129.5 135.5 141.5
POLÍGONO
NO DE FRECUENCIA
El polígono de frecu
frecuencia, es una gráfica de línea que generalmente te sse traza
sobre el histograma de frec
frecuencia, representa la distribución de un conjunto
to d
de datos
construida sobre sus marca
arcas de clase. Se obtiene con el siguiente procedimient
iento.
1. Se traza el histogram
grama de frecuencia.
2. Se agrega el interv
tervalo antes y uno después del conjunto de datos
atos con el
mismo tamaño y fre
frecuencia cero.
3. Se localiza en el eeje horizontal las marcas de clase de cada interva

ervalo y se
proyectan estas a la parte superior de los rectángulos.
4. Se trazan rectas
as para unir estos puntos, obteniéndose el Polígo
olígono de
Frecuencia.
FRECUENCIA
INTERVALO
Primero: Se constru
struye el histograma de frecuencia y se agregan doss intervalos
int
con frecuencia cero y se ubican las marcas de clase en la parte superior rior de los
rectángulos.
El polígono de frecuencia
ia se obtiene uniendo los puntos:
En ocasiones, el polígono de frecuencia se representa sin el histograma de frecuencia.

frec
O bien la forma de represen

esentar el polígono de frecuencia es el siguiente:
OJIVA
La ojiva, es unaa ggráfica que se obtiene localizando en el eje ver vertical la

frecuencia acumulada o frefrecuencia relativa acumulada. Se tienen dos tipos de ojivas
en los cuales solo se agrega
regan un solo intervalo con frecuencia cero en eje horiz
orizontal.
OJIVA “O MAS”
Es una gráfica en la cual
al sse tiene las frecuencias acumuladas de todos los valores
mayores o iguales que ell lím
límite real inferior de cada intervalo.
Ejemplo 4
Trazar la ojiva “o
o má
más” para el siguiente conjunto de datos.
20-30 5
30-40 12
40-50 17
50-60 21
60-70 16
70-80 13
80-90 6
Primero se obtiene la tabla de frecuencia acumulada “o más” en la cual la

frecuencia acumulada se va obteniendo del último el primer intervalo.
FREC.
INTERVALO FRECUENCIA ACUMULADA
20 o más 5 90
30 o mas 12 85
40 o más 17 73
50 o más 21 56
60 o más 16 35
70 o más 13 19
80 o más 6 6
90 o más 0
Ahora traza la ojiva “o más”

100
90
80
FRECUENCIA 70
ACUMULADA 60
50
40
30
20
10
0
20 o 30 o 40 o 50 o 60 o 70 o 80 o 90 o
más mas más más más más más más
INTERVALO
OJIVA “MENOR QUE”
La ojiva menor que, es una gráfica que se obtiene localizando el eje vertical de
las frecuencias acumuladas hasta el límite real superior de cada intervalo.
Ejemplo 5
Construya la ojiva para el siguiente conjunto de datos.
20-30 5
30-40 12
40-50 17
50-60 21
60-70 16
70-80 13
80-90 6
Primero se obtiene la tabla de frecuencia acumulada “menor que” en la cual

la frecuencia acumulada se obtiene a partir del primer intervalo de frecuencia cero
que se agregó.
INTERVALO FRECUENCIA FREC. ACUMULADA

Menor que 20 0
Menor que 30 5 5
Menor que 40 12 17
Menor que 50 17 34
Menor que 60 21 55
Menor que 70 16 71
Menor que 80 13 84
Menor que 90 6 90
Ahora se traza la ojiva “menor que”.

100
90
80
70
FRECUENCIA
60
ACUMULADA
50
40
30
20
10
0
Menor Menor Menor Menor Menor Menor Menor Menor
que 20 que 30 que 40 que 50 que 60 que 70 que 80 que 90
INTERVALO
CIRCULOGRAMA
El circulograma, también llamada gráfica circular o de pastel, es una gráfica

que consiste en un círculo, se utiliza para representar datos, que por lo general son
cualitativos, a cada clase, categoría o atributo se le asigna una parte del círculo
(Sector Circular) que corresponde al porcentaje que representa del total de los datos.
Para construir un circulograma, se determina el porcentaje que representacada

clase (frecuencia relativa porcentual) y se obtiene el valor de la magnitud del ángulo
en grados de sector circular que le corresponde a cada clase, atributo o categoría en
el círculo con la siguiente expresión:

Dónde:
f Es la frecuencia de un intervalo.
n Es el número total de datos.
Ejemplo 6
Construya el circulo
culograma para el siguiente conjunto de datos
COLOR FRECUENCIA
Rojo 21
Verde 12
Azul 35
Negro 3
Blanco 9
Determinado ell án
ángulo central que tendrá cada color en su sec
sector del
circulograma y el porcentaje
ntaje que representa.
COLOR FRECUENCIA ÁNGULO %

Rojo 21 95° 26.25
Verde 12 54° 15.00
Azul 35 158° 43.75
Negro 3 14° 3.75
Blanco 9 41° 11.25
TOTAL 80 360° 100.00
Ahora se traza el circulogram

grama.
MEDIDAS DE TENDENCIA CENTRAL 90
3.2 MEDIDAS DE TENDENCIA CENTRAL
Las medidas de tendencia central, también llamadas medidas de posición

o medidas de centralización, indican mediante un valor o atributo la localización
central de la distribución de frecuencia.
Debido a que se pueden dar varias interpretaciones a lo que significa valor

central de una distribución, se estudian tres medidas de tendencia central que son
la media, la mediana y la moda. Cabe aclarar que estas medidas de posición, no
son las únicas que existen.
Las medidas de tendencia central, se estudian primero cuando se tiene un

conjunto de datos no agrupado y después para un conjunto de datos agrupados.
MEDIA ARITMÉTICA
La media aritmética, también llamada media o promedio es una de las

medias más utilizadas dentro de la estad,s-ca. Se denota por x.
Media para datos no agrupados.
Para un conjunto de n datos no agrupados x1, x2, x3, …………, xn la

media aritmética, se define como la suma de todos los datos dividida entre el
número de todos los datos, esto es:

o bien

Las unidades de la media aritmética, corresponden a las mismas unidades

de las caracter,sticas de los mismos elementos.
La principal aplicación que se obtiene de la media, es que significa, que

todos los datos tuvieran el mismo valor y esto, lo hace representativo de todo el
conjunto de datos.
Media para datos agrupados.
Cuando se tiene un conjunto de n datos, que se encuentran agrupados en

una distribución de frecuencia, una aproximación de la media es:

o bien

Dónde:
x. Es el valor de la media.
k Es el número de intervalos.
fi Es la frecuencia del i-ésimo intervalo.
Mi Es la marca de clase del i-ésimo intervalo.
n Es el número de datos
El valor de la media, se obtiene en forma aproximada debido a que se

considera que el valor de todos los datos de un intervalo es igual a la marca de
clase, (la marca de clase es el punto medio de los l,mites de cada intervalo) y esto
casi nunca se cumple.

Observe que en este último caso en la fórmula ya no se

incluyen los valores inicial y final del sub,ndicei que deben de ir abajo y arriba del
s,mbolo Σ respectivamente, esta forma de escribir la suma, también es correcta,
en este caso se asume que el valor inicial es el uno y el valor final, el último que
aparece en el conjunto de datos.
MEDIA PONDERADA
La media ponderada, es un caso particular y especial de la media de un

conjunto de dato. Se aplica cuando un conjunto de datos se divide en varios
subconjuntos, de los cuales cada uno tiene una media diferente. También se
utiliza cuando se asignan varios pesos o ponderaciones a ciertos elementos. Su
valor se obtiene con cualquiera de las siguientes expresiones:

Dónde:
fi Es el número de datos del subconjunto i.
x.i Es la Media del subconjunto i.
pi Es el peso o factor de ponderación.
xi Es el valor asociado a la ponderación del i-ésimo valor.
n Es el número total de datos (Σ fi )

Ejemplo 5
En un poblado viven 5,000 habitantes, de los cuales 2,823 son mujeres

con un promedio de edad de 18 años y el resto son hombres con un promedio de
edad de 28 años. ¿Cuál es el promedio de edad de los habitantes de esa región?
El conjunto de datos se ha dividido en 2 subconjuntos, en los cuales, la

media se obtiene:

! "#!# $$#

%% &'(
El promedio de edades de esta región es 22.3 años.
Ejemplo 6
En la asignatura de estad,stica, el curso del año pasado se evaluó de la

siguiente manera:
Primer examen parcial 30%

Segundo examen parcial 30%
Trabajo de investigación estad,stica 20%
Cuaderno de ejercicios 15%
Asistencias 5%
Si al final del curso un alumno obtuvo el siguiente puntaje:
Primer examen parcial 5.5

Segundo examen parcial 8.0
Trabajo de investigación estad,stica 9.5
Cuaderno de ejercicios 9.5
Asistencias Todas (equivale a 10)
¿Cuál es su promedio final?

Se tienen 5 elementos, la media se obtiene:

" #"! # ) #) ##

""
* +*'
MODA
La moda, también llamada modo, Es el valor que aparece con mayor

frecuencia en un conjunto de datos. Se representa por,
Existen casos en los que se tiene más de una moda, a los cuales se les
llama multimodales y algunos no tiene moda, se les llama amodales.
Moda para datos no agrupados.
Cuando los datos no están agrupados, solo se busca el dato que aparece
más veces y ese corresponde a la moda.
Ejemplo 7
Obtenga la moda en los siguientes conjuntos de datos.
a) 4 3 7 2 5 6 3 2 5 7 3 6 4 3
El número que más se repite es el 3, por lo cual la moda es 3.
b) 10 15 13 14 10 8 13 10 21 13 7 6 1 0 3
En este caso el 13 y 10 se repiten 3 veces, entonces el conjunto de datos

es bimodal, sus modas son 10 y 13.
c) 0.5 0.2 0.7 0.9 0.1 0.6 0.8 0.3 0.4
No se repite ningún valor, el conjunto es amodal
Moda para datos agrupados.
Si el conjunto de datos se presenta en forma agrupada, esto es mediante

una distribución o tabla de frecuencias, una forma aproximada de calcular el valor
de la moda es utilizando la fórmula:
0
, - . /0 12 Valor aproximado de la moda
0
Aqu, se considera que el valor de la moda se encuentra en el intervalo de mayor

frecuencia, puesto que al ser el intervalo que contiene más datos, existe una
mayor probabilidad de que aqu, se repitan más valores.
Dónde:
L Es el l,mite real inferior del intervalo que contiene a la moda.
∆1 Es la diferencia entre la frecuencia del intervalo que contiene a la

moda y la frecuencia del intervalo anterior.
∆2 Es la diferencia entre la frecuencia del intervalo que contiene a la

moda y la frecuencia del intervalo siguiente.
c Es el tamaño del intervalo que contiene a la moda.

MEDIDAS
M DE TENDENCIA CENTRAL 97
MEDIANA
Para un conjunto
unto de datos ordenados en forma ascendente ente o
descendente, la medianaa es el valor central de los datos, se presenta por .
Mediana para
pa datos no agrupados
a) Si el número dee datos

d es impar, la mediana es igual al valor que se
encuentra en el centro
c de la distribución una vez que estos se han
ordenado en forma
rma ascendente o descendente.
b) Si el número de datos
da es par, la mediana es igual al promedio de los dos
datos que se encue
cuentra en el centro de la distribución una vez quee estos
es
se han ordenado
o en forma ascendente o descendente.
Ejemplo 9
En los siguientes casos

asos se muestra como se obtiene el valor de la medi
ediana
para un conjunto de da
datos no agrupados.
a) 4 13 12 17 7 4 8 7 17 19 13 14 25 8 23
Se tienen 15 datos, (número

ero Impar de datos) al ordenarlos en forma ascendent
dente.
4 4 7 7 8 8 12 13 13 14 17 17 19 23 25
El valor que se e encuentra

en al centro de la distribución es el 13, que
corresponde al valor de la m
mediana, esto es la mediana = 13
b) 150 28 330 42 12 50 63 30 3 60 150

128 201 103 37 85 35 26 43 75 50 78
Se tienen 22 datos (Número

ero par de datos) al ordenarlos en forma ascendente.
te.
3 12 26 28 30 35 37 42 43 50 50
60 63 75 78 85 103 128 150 150 201 330
Los valores que se encuentran en el centro de la distribución son ell 50 y el

60, por lo cual la mediana
na = 55
c) Un alumno obtuvo las siguientes calificaciones en una materia

cocurricular:
MB B B R R E B ¿Cuál es la calificación final?
En este caso la calificación final corresponde a la mediana, si se ordenan

los datos, se tiene:
R R B B B MB E
El valor central es B (3 B), que correponde a la calificación final del

alumno.
Mediana para datos agrupados
Si el conjunto de datos, se presentan en forma agrupada, esto es

mediante una distribución de frecuencias, la mediana se obtiene en forma
aproximada con la siguiente fórmula:
4 56
3 - . / 12
7
89
Dónde:
L Es el l,mite real inferior del intervalo que contiene a la mediana.
n Es el número de datos.
Fa Es la frecuencia acumulada del intervalo anterior al que contiene

la mediana.
f˜x Es la frecuencia del intervalo que contiene a la mediana.
c Es el tamaño del intervalo que contiene a la mediana.
Lo primero que se debe obtener, es el intervalo en el cual se encuentra el

valor de la mediana. Corresponde al dato que se encuentra en medio de la
distribución, es decir, el dato número :4%.
Existen distribuciones de frecuencia en los cuales al calcular la media, la

mediana y la moda, se obtiene el mismo valor, esto es:
3 ,
La distribución de frecuencia que cumple con esta caracter,stica se llama

distribución de frecuencia simétrica, y su gráfica (pol,gono de frecuencia
suavizado) se llama curva normal o campana de Gauss, tiene la siguiente forma:
, 3
Para una distribución de frecuencia simétrica, la media, la mediana y la

moda están relacionadas mediante:
, &3 %
MEDIDAS DE DISPERSIÓN 135
MEDIDAS DE DISPERSIÓN
Una vez que se han calculado las medias de tendencia central para un
conjunto de datos, es necesario contar con otra medida estadística, que indique
un comportamiento adicional del conjunto de datos, puesto que la media, la
mediana y la moda, solo indican valores centrales de la distribución.
Las medidas que se estudian son las medidas de dispersión o también

llamadas medidas de variación, las cuales indican que tan alejados o dispersos se
encuentran los datos, con respecto a si mismos o con respecto a la media del
conjunto de datos.
Para comprender la importancia que tienen las medidas de dispersión, se

muestra el siguiente ejemplo, en la cual se aprecia claramente la necesidad de
contar con otra medida diferente a la media, que nos indique como varían los
datos. Suponga que lo invitan a una fiesta y le dicen que el promedio de edades
de los asistentes será de 19 años, al imaginarse a las personas que se encontrará
en la fiesta, por el promedio de edad indicado, seguramente le hará tomar la
rápida decisión de asistir a dicha fiesta, pero se lleva a cabo la gran sorpresa de
que en la fiesta, se encuentra una abuela de 75 años, el abuelo de 83 años, su hija
de 26 y el yerno de 28 años, sus nietos de 2, 3 y 5 años y unos invitados de 2, 3, 4,
4, 5, y 6 años.
En este ejemplo, se ve claramente, que si se hubiera tenido más

información de la variación de datos, la decisión de haber asistido a la fiesta, pudo
haber sido diferente.
Las principales medidas de dispersión que se estudian en este texto, son

el rango, la desviación media, la varianza y la desviación estándar o típica.
Las principales medidas de dispersión que se estudian en este texto, son

el rango, la desviación, la varianza y la desviación estándar o típica.
4.1 RANGO
Es la medida de dispersión más simple y se obtiene como la diferencia

entre el valor máximo y mínimo del conjunto de datos, esto es:
Ejemplo 1
Determine el rango del siguiente conjunto de datos.
25 25 56 89 87 45 36 24 12 6 9 47
14 45 46 58 96 92 37 58 45 81 9 52
15 47 45 46 36 25 8 36 5 36 58 100
Aplicando la fórmula:
Esta medida de dispersión tiene aplicaciones muy limitadas, debido a que

solamente considera valores extremos del conjunto de datos y no indica ningún
comportamiento de valores intermedios del conjunto. También, el rango de una
muestra depende de su tamaño, es decir, una muestra pequeña, el rango de
muestra depende de su tamaño, es decir, una muestra pequeña, tiende a tener un
rango más pequeño que una muestra grande. Por lo que no es conveniente
utilizar el rango para comparar la variación entre dos o más grupos de datos.
La principal aplicación del rango se da en el control estadístico, en la

calidad de producción.
4.2 DESVIACIÓN MEDIA
En el promedio de los valores absolutos de las desviaciones de los datos

con respecto a la media. Indica en promedio el número de unidades en que cada
dato se encuentra alejado de la media.
Desviación media para datos no agrupados
Cuando se tiene un conjunto datos no agrupados, la desviación media se

obtiene mediante:
Dónde:
xi es el valor del i-ésimo dato
x; es la media del conjunto de datos
n es el número total de datos
Ejemplo 1
Determine el valor de la desviación media para el siguiente conjunto de datos
a) 4 14 12 8 12 6 16 8
Primero se determina la media

La desviación media es:
Este valor significa, que en promedio cada dato se encuentra 3.5 unidades
alejado de la media. Se representa en el siguiente diagrama de dispersión
x;
b) 0.3 2.1 7.2 4.3 5.7 8.3 4.4 6.5 3.2 4.0
Determinando el valor de la media.
La desviación media es:
Este valor significa que en promedio cada datos de encuentra 1.86

unidades alejado de la media.
Desviación media para datos agrupados
Cuando el conjunto de datos se tiene agrupado en una tabla de distribución

de frecuencia, la desviación media se obtiene en forma aproximada por:
Dónde:
fi Es el valor de la frecuencia del i-ésimo intervalo
Mi Es el valor de la marca de clase del i-ésimo intervalo
Es la media del conjunto de datos
n Es el número total de datos ( n = Σ fi )
Se utiliza la marca de clase Mi , por considerar que su valor es el

representativo de los fi , datos que se encuentran en el intervalo i.
Ejemplo 2
Determine la desviación media para el siguiente conjunto de datos.

a)
10-20 2
20-30 11
30-40 19
40-50 21
50-60 35
60-70 30
70-80 28
80-90 20
90-100 13
El valor de la media se obtiene con la fórmula:
Agregando la columna Mi, en la tabla, se tiene:
INTERVALO FRECUENCIA Mi
10-20 2 15
20-30 11 25
30-40 19 35
40-50 21 45
50-60 35 55
60-70 30 65
70-80 28 75
80-90 20 85
90-100 13 95
Σ 179
El valor de la media es:
60.4749
Se agrega por último la columna fi |Mi –x;|y la suma de esta
INTERVALO FRECUENCIA Mi fi |Mi – x;|

10-20 2 15 90.950
20-30 11 25 390.223
30-40 19 35 484.022
40-50 21 45 324.972
50-60 35 55 191.620
60-70 30 65 135.754
70-80 28 75 406.704
80-90 20 85 490.503
90-100 13 95 448.827
Σ 179 2963.575
El valor de la desviación media es:

b)
1.0-1.9 7
2.0-2.9 15
3.0-3.9 23
4.0-4.9 18
5.0-5.9 20
6.0-6.9 16
7.0-7.9 9
Agregando la columna de marca de clase para obtener el valor de la

media.
1.0-1.9 7 1.45
2.0-2.9 15 2.45
3.0-3.9 23 3.45
4.0-4.9 18 4.45
5.0-5.9 20 5.45
6.0-6.9 16 6.45
7.0-7.9 9 7.45
= 4.4963
Ahora se agrega la última columna para obtener la desviación media.
INTERVALO FRECUENCIA Mi fi |Mi – x;|

1.0-1.9 7 1.45 21.32
2.0-2.9 15 2.45 30.69
3.0-3.9 23 3.45 24.06
4.0-4.9 18 4.45 0.83
5.0-5.9 20 5.45 19.07
6.0-6.9 16 6.45 31.26
7.0-7.9 9 7.45 26.58
El valor de la desviación media es:
= 1.42.42
4.3 VARIANZA
La varianza se define como el promedio de los cuadrados de las

desviaciones de los datos con respecto a la media. Su valor indica la forma en que
están distribuidos los datos con respecto a la media. Se representa mediante σ2
Varianza para datos no agrupados
Cuando se tiene un conjunto de datos no agrupados, la varianza se

obtiene mediante:
Dónde:
Es el conjunto del i-ésimo dato
n El número total de datos
Ejemplo 1
Determine el valor de la varianza para el siguiente conjunto de datos
a) 12 25 8 15 5 18 26 14 9 10
Primero se determina la media.
La varianza es:
25 8 15 5 18
26 14 9 10 = 443.6
= 44.36
b) 7.2 4.5 12.7 54.6 25.6 32.9 19.1 47.2 36.5
Determinando el valor de la media
7.2 + 4.5 + 12.7 + 54.6 + 25.6 + 32.9 + 19.1 + 47.2 + 36.5 = 240.3
La varianza es:
= = 24.612
273.4666
Varianza para datos agrupados
Cuando el conjunto de datos se tiene agrupado en una tabla de

distribución de frecuencia, la varianza se obtiene en forma aproximada por:
Dónde:
Es el valor de la frecuencia en el i-ésimo intervalo
Mi Es el valor de la marca de clase del i-ésimo intervalo
n Es el número total de datos (n = Σ fi)
Cuando se utiliza la marca de clase por considerar que su valor es el

representativo de los datos que se encuentran en cada intervalo.
Ejemplo 2
Determine la varianza para el siguiente conjunto de datos
0-50 7
50-100 15
100-150 28
150-200 22
200-250 11
250-300 13
300-350 9
350-400 25
400-450 10
Agregando la columna Mi
0-50 7 25
50-100 15 75
100-150 28 125
150-200 22 175
200-250 11 225
250-300 13 275
300-350 9 325
350-400 25 375
400-450 10 425
(7X25)+ (15X75)+ (28X125)+ (22X175)+ (11X225)+

(13X275)+ (9X325)+ (25X375)+ (10X425) = 31250
= 223.2143
Se agrega por último la columnafi (Mi – x;)2y la suma de esta.
INTERVALO FRECUENCIA Mi fi (Mi – x;)^2

0-50 7 25 275022
50-100 15 75 329512
100-150 28 125 270089
150-200 22 175 51142
200-250 11 225 35
250-300 13 275 34863
300-350 9 325 93243
350-400 25 375 575973
400-450 10 425 407175
140 2037054
El valor de la varianza es:

b)
0-2 12
2-4 35
4-6 43
6-8 31
8-10 22
10-12 17
12-14 11
14-16 4
Σ 175
Agregando las columnas necesarias, el valor de la media es:
0-2 12 1
2-4 35 3
4-6 43 5
6-8 31 7
8-10 22 9
10-12 17 11
12-14 11 13
14-16 4 15
Σ 175
= 6.4971
Ahora se agregan la columna necesaria para obtener el valor de la varianza
INTERVALO FRECUENCIA Mi fi (Mi – x;)^2

0-2 12 1 362.62
2-4 35 3 428.05
4-6 43 5 96.38
6-8 31 7 7.84
8-10 22 9 137.81
10-12 17 11 344.69
12-14 11 13 465.16
14-16 4 15 289.19
Σ 175 2131.75
El valor de la varianza es:
Existen otras fórmulas para obtener el valor de la varianza, las cuales solo
se mencionan en el presente texto.
Para datos no agrupados
Para datos agrupados

4.4 DESVIACIÓN ESTANDAR O TÍPICA
La desviación estándar de un conjunto de datos, se define como la raíz

cuadrada de la varianza, se denota por “σ”. Tiene las mismas unidades que las de
los datos originales.
El valor de la desviación estándar se obtiene:
Para los datos no agrupados
Para datos agrupados
Ejemplo 1
Determina la desviación estándar para los conjuntos de datos utilizados

en la varianza del ejemplo 1.
Para datos no agrupados
a) En el ejemplo con datos
12 25 8 15 5 18 26 14 9 10
La varianza resultó
44.36
La desviación estándar es:

b) En el ejemplo con datos
7.2 4.5 12.7 54.6 25.6 32.9 19.1 47.2 36.5
273.46
Para datos agrupados, del ejemplo 2.
a) En el ejemplo con datos

0-50 7
50-100 15
100-150 28
150-200 22
200-250 11
250-300 13
300-350 9
350-400 25
400-450 10

b) En el ejemplo con datos
0-2 12
2-4 35
4-6 43
6-8 31
8-10 22
10-12 17
12-14 11
14-16 4

INTERPRETACIÓN DE LA DESVIACIÓN ESTÁNDAR
1. Para distribuciones de frecuencia aproximadamente simétricas, el intervalo

que tiene por límites,- - σ y,- + σ contiene aproximadamente el 68.27% del
total de los datos o bien el 0.6827 del área bajo la curva normal, esto es:
68.27%
σ σ σ x; σ σ σ

que tiene por límites ,- - 2σ y ,- +2σcontiene aproximadamente el 95.45%
del total de los datos o bien el 0.9545 del área bajo la curva normal, esto es:
95.45%

que tiene por límites ,- - 3σ y ,- +3σ contiene aproximadamenteel 99.73%
del total de los datos o bien el 0.9973 del área bajo la curva normal, esto es:
99.73%
Ejemplo 2
Obtenga el valor de la desviación estándar para el siguiente conjunto de

datos, e interprete el resultado:
0-1 1
6-11 4
11-16 12
16-21 20
21-26 31
26-31 22
31-36 14
36-41 7
41-46 2
La desviación estándar se obtiene mediante
Agregando a la tabla las columnas necesarias para determinar la media
0-1 1 3.5
6-11 4 8.5
11-16 12 13.5
16-21 20 18.5
21-26 31 23.5
26-31 22 28.5
31-36 14 33.5
36-41 7 38.5
41-46 2 43.5
Σ 113
= 24.3407
Agregando la última columna se obtiene:
INTERVALO FRECUENCIA Mi VARIANZA

0-1 1 3.5 434.3351
6-11 4 8.5 1003.7121
11-16 12 13.5 1410.2514
16-21 20 18.5 682.2774
21-26 31 23.5 21.9105
26-31 22 28.5 380.5936
31-36 14 33.5 1174.4968
36-41 7 38.5 1403.3989
41-46 2 43.5 734.1569
Σ 113 7245.1327
La desviación estándar se obtiene mediante
Este valor indica que el intervalo ,- - σ y ,- + σo sea, 24.34 – 8.007 y

24.34 + 8.007, esto es en el intervalo (16.333 ; 32.247) se encuentran
aproximadamente el 68.27% del total de los datos.
Como ejercicio determine el intervalo que contiene aproximadamente el

95.45% del total de los datos.
Ejemplo 3
Si en un conjunto formado por 800 datos, su media es de 14.5 y su

desviación estándar es de 6.5. Indique que intervalo contiene aproximadamente
el 68.27% del total de los datos, cuantos datos se encuentran aproximadamente
en este intervalo.
El 68.27% de los datos se encuentran en el intervalo ,- - σ y ,- + σ
Sustituyendo valores
14.5 – 6.5 y 14.5 + 6.5. Por lo cual el 68.27% del total de los datos se
encuentran en el intervalo (8;21)
En este intervalo 8-21 se encuentran aproximadamente el 68.27% del

total de los datos; esto es, 0.6827 X 800 = 546.16 que en forma aproximada
significa 516 datos de los 800 se encuentran en el intervalo 8 – 21.
4.5 COEFICIENTE DE VARIACIÓN
El coeficiente de variación, también llamado coeficiente de dispersión, es

una medida de variación relativa, se presenta en forma de porcentaje y su valor se
obtiene mediante:
Dónde:
V Es el coeficiente de variación
σ Es la desviación estándar del conjunto de datos
Su valor es útil y se emplea para comparar la variación que eiste entre

diferentes distribuciones de frecuencia.
Ejemplo 1
En una fiesta de Halloween, en Villa Jardín, el promedio de edades fue

de 19 años y la desviación estándar de 2.5 años, mientras que en el salón
Continental, el promedio de edades fue de 25 años y la desviación estándar de
4 años. ¿En cuál fiesta hubo menor variación de edades?
El coeficiente de variación para los asistentes a Villa Jardín es:
El coeficiente de variación para los asistentes al salón Continental es:
Comparando los dos valores obtenidos para el coeficiente de variación se

concluye que se presentó una menor variación de edades entre los asistentes a
Villa Jardín.
Ejemplo 2
Hugo y Paco que son hermanos y están en diferente año en la escuela

preparatoria, discutían con su papá sobre quién había salido mejor en
matemáticas, ya que les había prometido un auto último modelo al que obtuviera
la mejor calificación y los dos sacaron 7.0 ¿A cuál de los dos hermanos le
corresponde el automóvil?
Como la discusión se estaba acalorando cada vez más y la mamá se estaba

inclinando por uno de ellos, el padre que tenía altos conocimientos en estadística,
resolvió este problema familiar utilizando el coeficiente de variación de la
siguiente manera:
Acudió a la escuela preparatoria donde estaban sus hijos y solicitó una

copia de las calificaciones de todo el grupo y calculó el coeficiente de variación de
cada uno..
Las calificaciones del grupo de Hugo que cursa Trigonometría fueron:
5 4 8 6 3.5 5.5 8 4 6 6.3 6.2

5.9 5.8 7 8.2 5.8 6.6 7.2 8.2 5.6 9.6 7.1
6.8 9.5 5.6 6.3 3.4 4.5 5.8 8 4.7 7.1 7.2
5.6 5.8 6.3 6.2 6.5 6.8 6.2 5.5 5.8 6.3 6.1
El promedio de calificaciones de este grupo fue de 6.26
La desviación estándar de las calificaciones del grupo fue de 1.36
Por lo tanto el coeficiente de variación para el grupo de Hugo es de 0.2174
Las calificaciones del grupo de Paco que cursa Cálculo Diferencial e

Integral fueron:
7 8.5 6.9 8.3 7.6 9.2 8.2 5.6 7.2 8.2 8.3
9.2 4.8 5.7 8.6 9.3 7.5 7 6 9 8.2 5.8
9.7 4.2 7.5 7 8.8 6.6 5.5 6 9.5 8.5 7
9 8.5 8 9.5 7.5 6.5 8 7 9.3
El promedio de calificaciones de este grupo fue de 7.61
La desviación estándar de las calificaciones del grupo fue de 1.38
Por lo tanto el coeficiente de variación para el grupo de Paco es de 0.1814
De acuerdo a los resultados anteriores el auto le corresponde a Hugo.

4.6 MEDIDAS DE SESGO
El sesgo es el grado de asimetría de una distribución de frecuencia
Las medidas estadísticas más utilizadas para obtener el sesgo son; la

media, la mediana y la moda. Aunque existen otras medidas con las cuales se
puede determinar qué tan sesgada se encuentra una distribución. En este texto,
solo se utiliza la media, la mediana y la moda para calcular el sesgo.
Una distribución de frecuencia simétrica, no tiene sesgo, lo cual equivale a

decir que su sesgo es igual a cero. Se tiene una distribución simétrica, cuando en
el conjunto de datos la media, la mediana y la moda, tiene el mismo valor.
En forma gráfica, el conjunto de datos tiene la forma:
Una distribución de frecuencia se encuentra sesgada hacia la derecha,

cuando tiene un sesgo positivo. En este caso, en el conjunto de datos, la media es
mayor que la mediana y la moda.
Gráficamente, el conjunto de datos tiene la forma:

Una distribución de frecuencia se encuentra sesgada hacia la izquierda,

cuando tiene un sesgo negativo. En este caso, en el conjunto de datos, la media
es menor que la mediana y la moda.
Gráficamente, el conjunto de datos tiene la forma:
En forma numérica, el sesgo se determina mediante dos valores,

denominados coeficientes de sesgo de Pearson, siendo estos:
Primer coeficiente de sesgo de Pearson
Sesgo =
Segundo coeficiente de sesgo de Pearson
Sesgo =
Ejemplo 1
Utilizando el primer coeficiente de Pearson, indique que tipo de sesgo

presenta la siguiente distribución.
1-8 3
9-16 12
17-24 19
25-32 22
33-40 27
41-48 34
49-56 43
57-64 37
65-72 21
73-80 18
Agregando la columna de marca de clase para obtener la moda y la suma

de la frecuencia para obtener la media se tiene:
1-8 3 4.5
9-16 12 12.5
17-24 19 20.5
25-32 22 28.5
33-40 27 36.5
41-48 34 44.5
49-56 43 52.5
57-64 37 60.5
65-72 21 68.5
73-80 18 76.5
Σ 236
46.7648
El valor de la moda es:
Agregando la columna para obtener la desviación estándar:
INTERVALO FRECUENCIA Mi fi (Mi – ,-)^2

1-8 3 4.5 5309.10
9-16 12 12.5 13927.38
17-24 19 20.5 12911.07
25-32 22 28.5 7181.80
33-40 27 36.5 2736.73
41-48 34 44.5 145.38
49-56 43 52.5 1513.21
57-64 37 60.5 7181.93
65-72 21 68.5 10101.45
73-80 18 76.5 16126.86
Σ 236 77134.92
El primer coeficiente de sesgo de Pearson es:
C.S =
C.S.
C.S = – 0.3724
Como se observa, se tiene un sesgo negativo, por lo tanto la curva se

encuentra sesgada a la izquierda.
Ejemplo 2
Utilizando el segundo coeficiente de Pearson, indique que tipo de sesgo

presenta la siguiente distribución.
100-96 3
95-91 7
90-86 10
85-81 12
80-76 17
75-71 20
70-66 28
65-61 54
60-56 32
55-51 14
Agregando las columnas para obtener la media y la mediana.
INTERVALO FRECUENCIA Mi Fa
100-96 3 98 197
95-91 7 93 194
90-86 10 88 187
85-81 12 83 177
80-76 17 78 165
75-71 20 73 148
70-66 28 68 128
65-61 54 63 100
60-56 32 58 46
55-51 14 53 14
Σ 197
68.58
El valor de la mediana es:
Agregando la columna para obtener la desviación estándar:
INTERVALO FRECUENCIA Mi fi (Mi – x;)^2 Fa

100-96 3 98 2595.95 197
95-91 7 93 4173.07 194
90-86 10 88 3769.91 187
85-81 12 83 2493.94 177
80-76 17 78 1507.32 165
75-71 20 73 390.06 148
70-66 28 68 9.54 128
65-61 54 63 1683.63 100
60-56 32 58 3584.51 46
55-51 14 53 3399.95 14
Σ 197 23607.87
El primer coeficiente de sesgo de Pearson es:
C.S =
C.S.
C.S =0.8831
Como se observa, se tiene un sesgo positivo, por lo tanto la curva se

encuentra sesgada a la derecha.
COVARIANZA Y CORRELACIÓN LINEAL 185
COVARIANZA
Y
CORRELACIÓN LINEAL
Hasta el momento se han estudiado algunas técnicas estadísticas

aplicables a una característica de un grupo de elementos que constituyen
una muestra o población. Como ejemplo el promedio de edades de los
habitantes de una región, el ingreso familiar, nivel de escolaridad de los
habitantes de Toluca, etc. Sin embargo, se puede presentar el caso en el
cual no sólo se estudió una sola característica de los elementos de la
población, sino dos o más.
Al realizar una investigación estadística, resulta que en muchas

ocasiones se obtienen varias características de un solo elemento de la
población o muestra. También en ocasiones se hacen consultas en varias
tablas previamente elaboradas y en ellas se relacionan algunas
características de un mismo elemento, el ejemplo más común es aquél en
el cual casi todas las personas han consultado tablas que relacionan el peso
y la estatura según el sexo, y de esta forma tratar de ajustarse mediante
alguna dieta o deporte al valor o rango deseado. En este ejemplo se están
analizando tres características que son: el peso, la estatura y el sexo.
Así en estadística se pueden obtener resultados para una, dos, tres,

cuatro o más características de un mismo elemento. En esta unidad se
presenta el análisis de algunas técnicas estadísticas que se utilizan al
estudiar dos características de un mismo elemento de la población o
muestra.
5.1 DATOS BIVARIADOS
Al conjunto de valores asignados a dos variables distintas obtenidas del

mismo elemento de una población o muestra, se les denomina datos bivariados.
Para una muestra o población formada por n elementos, las dos variables
se presentan mediante un conjunto de pares ordenados de la forma.
Por ejemplo si la muestraestá formada por n personas, el conjunto de

valores x1, x2, x3,…….., xn se pueden asociar a diferentes escolaridades de las n
personas y1,y2,y3,…….., yn a las edades correspondientes de las mismas n
personas. Más aun el par ordenado (x4, y4) representa la escolaridad y edad de la
cuarta persona.
A continuación se muestran algunos ejemplos de datos bivariados, es

decir, el estudio de dos características del mismo elemento de una población o
muestra.
1. La relación de edad y presiónsanguínea de personas.

2. Peso y estatura de varias personas.
3. Frecuencia de fumar tabaco y afecciones pulmonares.
4. Modelo de automóviles y su precio.
5. Cociente intelectual y aprovechamiento de estudiantes.
6. Publicidad y venta de algunos artículos.
7. Tasa de criminalidad y desempleo para las ciudades más grandes del país.
8. Lluvia y asistencia a los partidos de futbol de los potros de la UAEM, los
viernes en el estadio de C.U.
9. Escolaridad e ingreso mensual de los jefes de familia.
10. Dureza del acero y su resistencia a la deformación en varias pruebas.
11. Retraso y tiempo empleado en trasladarse a la preparatoria por los
estudiantes.
12. Densidad y contenido de hierro en minerales.
13. Número de revoluciones por minuto y potencia de motores diésel.
14. Número de cilindros de un motor y su consumo de magna sin.
15. Peso de un bebé al nacer y días de embarazo de la madre.
16. Edad y agudeza visual de las personas.
Etc.
Como se puede observar existe un gran número de casos en los cuales se

tiene un conjunto de datos bivariados- Para todos los casos a la primer
característica se le asigna la variable x y la segunda característica la variable y.
5.2 DIAGRAMA DE DISPERSIÓN
Un diagrama de dispersión, es la representación gráfica de todos los pares

ordenados que forman los datos bivariados en un sistema coordenado rectangular.
Ejemplo 1
En la siguiente tabla se muestra el número de fallas y la calificación

obtenida por 15 estudiantes de un plantel de escuela preparatoria.
Estudiante 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
No. de faltas
X 5 11 5 9 8 10 6 1 3 0 4 7 7 9 1
Calificación
Y 8 6 7.5 8 8.5 5 8 10 9 9.5 8 6.5 7.5 6 9
Para el cual se constituye su diagrama de dispersión

5.1 CENTRO DE GRAVEDAD O CENTROIDE
El centro de gravedad o centroide, es el punto de equilibrio de un conjunto

de datos en un diagrama de dispersión, sus coordenadas son: ( xD, yD), donde:
xD Es la medida aritméEca del conjunto de los primeros elementos de los

pares ordenados de los datos bivariados.
Ejemplo 1
Determine el centro de gravedad del siguiente conjunto de datos.
X 82 74 95 86 75 95 90 85 92 84 86 82 83
Y 11 5 80 17 6 50 26 15 30 11 14 11 11
La media de los primeros elementos es:
xD = 85.307
La media de los segundos elementos es:
yD = 22.076
El centro de gravedad tiene coordenadas (85.307, 22.076), el cual se

localiza en el diagrama de dispersión, se encuentra marcado como CG.
b)
x 5 4 3 9 6 7 2 1 4 6 8 3 4
y 5 -2 4 6 2.1 4.3 -6 1.5 3.2 7.8 4.6 -1.5 2.3
La media de los primeros y segundos elementos es:
xD = 4.769 yD = 2.407
El centro de gravedad, tiene coordenadas ( 4.769, 2.407 ), en el cual se

localiza en su diagrama de dispersión, se encuentra marcado como CG.
CG
5.4 COVARIANZA
En medida de dispersión conjunta de las dos variables de un conjunto de

datos bivariados. Indica si existe o no dependencia entre las dos variables.
Su valor se obtiene con la expresión.
Su valor puede resultar positivo, negativo o cero, debido a que se obtiene

de un producto de dos diferencias.
a) La varianza resulta positiva, cuando los dos factores son del mismo
signo, lo cual significa, que mientras el valor de una variable aumenta, el otro
también aumenta. Por ejemplo: a mayor edad de una persona, es mayor su grado
de conocimientos, representa una dependencia positiva entre variables.
b) La covarianza en negativa, cuando uno de sus factores es negativo, lo

cual significa, que mientras el valor de una variable aumenta, el otro disminuye.
Por ejemplo: a mayor uso del vehículo es menor su valor, representa una
dependencia negativa entre variables.
c) La covarianza es igual a cero, cuando uno de los factores resulta cero, lo

cual significa que no existe ninguna relación entre las variables.
Enseguida se muestran algunos diagramas de dispersión en los cuales se

indica el signo de la covarianza, en ellos se puede apreciar la relación que existe
entre las variables.
Ejemplo 1
Obtenga la covarianza para los siguientes conjuntos de datos.
a)
x y
2 10
6 3
4 7
5 7
7 4
5 6
9 2
13 1
8 5
3 6
5 8
2 9
La covarianza se obtiene con la expresión:
Primero se determina las dos medias aritméEcas, esto es xD H yD, se van

agregando las columnas , , el producto de estas y finalmente se
obtiene el valor de la covarianza.
Calculando el valor de las medias es:
xD = 5.75 yD = 5.66
Agregando la columna (xi - xD) y obteniendo sus valores correspondientes para

cada elemento:
x y (xi - xD)
2 10 -3-75
6 3 0.25
4 7 -1.75
5 7 -0.75
7 4 -1.25
5 6 -0.75
9 2 3.25
13 1 7.25
8 5 2.25
3 6 -2.75
5 8 -0.75
2 9 -3.75
SUMAS 69 68
Agregando la columna (yi - yD) y obteniendo sus valores para cada elemento:
x y (xi - xD) (yi - yD)

2 10 -3-75 4.334
6 3 0.25 -2.666
4 7 -1.75 1.334
5 7 -0.75 1.334
7 4 -1.25 -1.666
5 6 -0.75 0.334
9 2 3.25 -3.666
13 1 7.25 -4.666
8 5 2.25 -0.666
3 6 -2.75 0.334
5 8 -0.75 2.334
2 9 -3.75 3.334
SUMAS 69 68
Agregando la columna (xi - xD)(yi - yD), obteniendo sus valores para cada
elemento y la suma de esta última columna:
x y (xi - xD) (yi - yD) (xi - xD)(yi - yD)

2 10 -3-75 4.334 -16.252
6 3 0.25 -2.666 -0.666
4 7 -1.75 1.334 -2.334
5 7 -0.75 1.334 -1.000
7 4 -1.25 -1.666 -2.085
5 6 -0.75 0.334 -0.250
9 2 3.25 -3.666 -11.914
13 1 7.25 -4.666 -33.826
8 5 2.25 -0.666 -1.498
3 6 -2.75 0.334 -0.918
5 8 -0.75 2.334 -1.750
2 9 -3.75 3.334 -12.502
SUMAS 69 68
Finalmente el valor de la covarianza es:
= 1/12 (-80.825)
= -6.735
Interpretación:
Como la covarianza resulto negativa, entonces cuando (x) crece (y)

decrece, esto es, existe una dependencia negativa entre las dos variables.
b)
x Y
2 120
15 1500
12 1000
6 400
8 500
14 1600
9 1000
2 125
5 320
La covarianza se obtiene con la expresión:
Calculando el valor de las medias:
xD = 8.111 yD = 729.444
Se construye la tabla y se determina el valor de la covarianza
x Y (xi- x) (yi- y) (xi - x)(yi- y)

2 120 -6.111 -609.444 3724.383
15 1500 6.889 770.556 5308.272
12 1000 3.889 270.556 1052.160
6 400 -2.111 -329.444 695.494
8 500 -0.111 -229.444 25.494
14 1600 5.889 870.556 5126.605
9 1000 0.889 270.556 240.494
2 125 -6.111 -604.444 3693.827
5 320 -3.111 -409.444 1273.827
SUMAS 73 6565 21140.556
El valor de la covarianza es:
= 1/9 (21140.556)
= -2348.951.
Interpretación:
Como la covarianza resulto positiva, significa que existe una dependencia

positiva entre las dos variables, es decir, cuando (x) crece, (y) también crece.
El estudio de la covarianza, tiene la desventaja de que sus unidades

carecen de sentido, ya que se obtienen como el producto de las unidades en que
están expresadas las variables, por ejemplo, si las unidades de x son Kg y las de y
son litros, las unidades de la covarianza resultan kg por litro lo cual no tiene
ningún sentido práctico. Por esta razón es necesario incluir otra medida de
dispersión que resuelve este problema, dicha medida se obtiene dividiendo la
covarianza entre el producto de las desviaciones estándar de las dos variables. A
esta medida de dispersión se le conoce como coeficiente de correlación.
5.5 CORRELACIÓN LINEAL
Indica que tan estrecha es la relación entre dos variables. Para analizar la
correlación que existe entre dos variables se utiliza el coeficiente de correlación.
COEFICIENTE DE CORRELACIÓN
Es el número adimensional (no tiene unidades) que oscila entre -1 y 1; se

obtiene con la expresión.
Dónde:
Cov (x, y) es la covarianza del conjunto de datos.
σx es la desviación estándar de x
σy es la desviación estándar de y
El coeficiente de correlación r, al igual que la covarianza, indica la posible

correlación lineal que existe entre las variables, además que tan estrecha es esa
dependencia o relación; como se muestra en seguida:
a) Si r es positivo, indica que la variable y aumenta al aumentar la variable x,

es decir se tiene una correlación positiva.
b) Si r es negativo, indica que la variable y disminuye o decrece al aumentar la

variable x, es decir se tiene una correlación negativa.
c) Si r es igual a cero, no existe ninguna relación entre las variables.
d) Si r = 1 ór = -1 existe una dependencia lineal entre las dos variables, es decir

en el diagrama de dispersión todos los puntos se encuentran sobre una línea
recta.
e) Si r esta próximo a cero se tiene una correlación débil.
f) Si r esta próxima a 1 ó -1 se tiene una correlación fuerte.

Lo anterior ejemplifica los siguientes diagramas de dispersión.
r=1 r>0
r<0 r=0
r=-1
Se muestra también en la recta numérica el valor obtenido para r.
Correlación Correlación
Fuerte Fuerte
Correlación débil
-1 0 1
No hay correlación
Correlación lineal
Ejemplo 1
Obtenga el coeficiente de correlación para el siguiente conjunto de datos,

indique la relación que existe entre las variables.
x y
a) 2 10
6 3
4 7
5 7
7 4
5 6
9 2
13 1
8 5
3 6
5 8
2 9
El coeficiente de correlación se obtiene mediante:
Calculando el valor de las medias:
xD = 5.75 yD = 5.666
Agregando las columnas para obtener la covarianza, la desviación estándar de x y

la desviación estándar de y.
x y (xi- x) (yi- y) (xi - x)(yi- y) (xi- x)2 (yi- y)2
2 10 -3.750 4.333 -16.250 14.063 18.778
6 3 0.250 -2.667 -0.667 0.063 7.111
4 7 -1.750 1.333 -2.333 3.063 1.778
5 7 -0.750 1.333 -1.000 0.563 1.778
7 4 1.250 -1.667 -2.083 1.563 2.778
5 6 -0.750 0.333 -0.250 0.563 0.111
9 2 3.250 -3.667 -11.917 10.563 13.444
13 1 7.250 -4.667 -33.833 52.563 21.778
8 5 2.250 -0.667 -1.500 5.063 0.444
3 6 -2.750 0.333 -0.917 7.563 0.111
5 8 -0.750 2.333 -1.750 0.563 5.444
2 9 -3.750 3.333 -12.500 14.063 11.111
69 68 -85.000 110.250 84.667
El valor de la covarianza es:
= 1/12 (-85.000)
= -7.083
El valor de la desviación estándar de x es:
σx = 3.031
El valor de la desviación estándar de y es:
σy = 2.656
El coeficiente de correlación es:
r = -0.88
Interpretación:
Como el coeficiente de correlación está muy próximo a -1, existe una

marcada dependencia lineal entre las variables.
RECTA DE REGRESIÓN 213
6.1 RECTA DE REGRESIÓN
Es un método que se emplea para estimar o predecir el valor de una variable

en función de valores dados a la otra variable, teniendo como antecedente el
compromiso para un conjunto de datos del mismo tipo.
El proceso consiste en ajustar el conjunto de puntos a una curva llamada

curva de ajuste, como se muestra en la gráfica.
El diagrama de dispersión, sirve de base para conocer el tipo de curva que

mejor se ajusta a los datos, estas curvas se llaman curvas de ajuste, Si la curva de
mejor ajuste es una recta, se llama recta de ajuste.
Así pues, una recta de ajuste, es una línea que hace mínima la suma de las
desviaciones de cada punto con respecto a la línea, esto es:
X
Donde d1, d2, d3, …, dn son las desviaciones de cada punto con respecto a la
línea y la suma d1 + d2 + d3 + … + dn resulta mínima.
Debido a lo anterior, a la recta de ajuste, también se le conoce como recta de

mínimos cuadrados.
La recta de mínimos cuadrados pasa por el centro de gravedad en el diagrama

de dispersión.
En este material solo se considera el caso de ajustar un conjunto de puntos a

una línea recta.
Al igual que cualquier recta como las estudiadas previamente en el curso de

Gerencia Analítica una recta de regresión se puede describir mediante una ecuación
de la forma.

Que se llama ecuación de regresión o recta de mínimos cuadrados donde los

valores de las constantes m y b se obtienen mediante:

m representa la pendiente de la recta
b es el punto donde la recta intersecta al eje y,
Como se puede ver, para obtener el valor de (b) en un conjunto de datos,

resulta muy laborioso, existe otra forma para obtener su valor que es la siguiente:
La recta de regresión pasa por el centro de gravedad, ),por lo cual este
punto satisface la ecuación de la recta.

Por lo que una vez conocidos xÒ , yÒ y mse despeja b en la ecuación anterior,

lo cual resulta:

En el siguiente diagrama de dispersión, se ha trazado la recta de regresión

pasa por el punto (x:, y:) e intersecta al eje y en b.
Para estimar el valor de y se sustituye el valor de x en la ecuación de la recta

de regresión y se obtiene el valor de y. Este valor resulta una aproximación del valor
real, dependiente del valor del coeficiente de correlación. Resulta exacto solo si r = ±
1 y es más inexacto, si el valor de r está cercano a cero.
Al proceso de estimar valores de y se llama:
a) Interpolación, si el valor correspondiente de x esta entre los límites inferior y

superior de la muestra
b) Extrapolación si el valor correspondiente de x esta fuera de los límites inferior

y superior de la muestra.
Ejemplo 1
Obtener la ecuación de la recta de regresión para el siguiente conjunto de

datos y estime un valor para x = 0, 5.5 y 10
x y
2 8
8 10
3 7
1 5
4 9
5 8
6 9
3 7
2 6
4 8
8 10
5 9
Primero se determinan los valores de x: y de y: , esto es.
x: = 4.25 y: = 8
Se determina la Cov(x, y) y la Var(x), para lo cual se construye la tabla.
X y 1 - ) 1 - ) i - )1 - ) 1 - )2

2 8 -2.25 0 0 5.0625
8 10 3.75 2 7.5 14.0625
3 7 -1.25 -1 1.25 1.5625
1 5 -3.25 -3 9.75 10.5625
4 9 -0.25 1 -0.25 0.0625
5 8 0.75 0 0 0.5625
6 9 1.75 1 1.75 3.0625
3 7 -1.25 -1 1.25 1.5625
2 6 -2.25 -2 4.5 5.0625
4 8 -0.25 0 0 0.0625
8 10 3.75 2 7.5 14.0625
5 9 0.75 1 0.75 0.5625
Σ 51 96 34.00 56.25
La última columna se agregó para determinar la varianza de x , esto es:

! "

"

#$%#

&$'(
La covarianza resulta
)*
+
!
!
)*
+ "

,&
)*
+ %',,,
Ahora se obtiene el valor de m esto es:

"-...

/0-12
0.6044
El valor de b

' $3&&
&%#
#&,44
Sustituyendo los valores anteriores, en la ecuación.

Se obtiene la ecuación de la recta de regresión para el conjunto de datos

dado: la cual es
3$3&& 5.4311
En seguía se muestra la gráfica de la recta de regresión lineal, la cual se ha

trazado en el diagrama de dispersión. Observe que esta recta pasa por el centro de
gravedad.
b) Las estimaciones para x = 0, 5.5 y 10 se obtiene sustituyendo estos valores en la

ecuación de la recta regresión.
Para x=0
y = 0.6044 x + 5.4311
y = 0.6044 (0) + 5.4311
y = 5.4311
Para x = 5.5
y = 0.6044 x + 5.4311
y = 0.6044 (5.5) + 5.4311
y = 8.7553
Para x = 10
y = 0.6044 x + 5.4311
y = 0.6044 (10) + 5.4311
y = 11.4751
6.2 APLICACIÓN DE LA RECTA DE REGRESIÓN A SERIES DE

TIEMPO
Otra aplicación del problema estudiado con anterioridad, que corresponde a

la REGRESIÓN, es cuando en una variable se maneja un periodo de tiempo, por
importancia este tema se estudia aparte llamándosele series de tempo, el método
que se aplica para su análisis es el estudiado para la regresión.
Una serie de tiempo, es un conjunto de datos bivariados ( x, y) en los cuales

los primeros elementos ( x ) corresponden a la variable tiempo, la cual se expresa en
periodos que pueden ser: décadas, años, semestres, meses, semanas, días, horas, etc.
Al resolver un problema de series de tiempo, a la recta de regresión se le

conoce también como recta de tendencia, aquí el objetivo de realizar estimaciones es
para realizar estimaciones o pronósticos de lo que puede suceder a futuro en base a
datos presentes y pasados conocidos.
Ejemplo:
En la siguiente tabla se indica el número de automóviles que fueron fabricados por

una compañía automotriz durante los últimos años.
AÑO PRODUCCIÓN
1987 1000
1988 950
1989 1400
1990 1350
1991 1500
1992 1975
1993 1950
1994 2010
Obtenga la ecuación de la recta de ajuste, su gráfica y el número de

automóviles que se espera que la industria fabrique en los años 2000 y 2005.
Primero se determinan los valores de x: y de y: , esto es.
x: = 1990.5
y: = 1517
Se determina la Cov ( x, y ) y la Var (x), para lo cual se construye la siguiente

tabla.
x y 1 - ) 1 - ) i - )1 - ) 1 - )2
1987 1000 -3.5 -517 1809.5 12.25
1988 950 -2.5 -567 1417.5 6.25
1989 1400 -1.5 -117 175.5 2.25
1990 1350 -0.5 -167 83.5 0.25
1991 1500 0.5 -17 -8.5 0.25
1992 1976 1.5 459 688.5 2.25
1993 1950 2.5 433 1082.5 6.25
1994 2010 3.5 493 1725.5 12.25
Σ 15924 12136 6974.0 42.00
La última columna se agregó para determinar la varianza de x , esto es:

! "

&%
-

#%#
La covarianza resulta
)*
+
!
!
)*
+ -
$5(&
)*
+ '(4(#
Ahora se obtiene el valor de m esto es:

-1 12

2"2
166.6476
El valor de b

4#4(
4$$3&($
4553#
6,%533345
Sustituyendo los valores anteriores, en la ecuación.

Se obtiene la ecuación de la recta de ajuste para el conjunto de datos dado: la

cual es
4$$3&($ -329000.79
La gráfica de ajuste es:
y = 166.0x - 32900
20000
R² = 0.910
-1 499 999 1499 1999 2499

-30000
-80000
-130000
-180000
-230000
-280000
-330000
La producción esperada para el año 2000 es:
y = 166.0476 x + 329000.79
y = 166.0476 (2000) + 329000.79
y =3094
Esto es, se espera que para el año 2000, se fabriquen 3094 automóviles.
La producción esperada para el año 2005 es:
y = 166.0476 x + 329000.79
y = 166.0476 (2005) + 329000.79
y =3925
Esto es se espera que para el año 2005, se fabriquen 3925 automóviles.

Estadistica Escuela Preparatoria PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Estadistica Escuela Preparatoria PDF

Transféré par

Droits d'auteur :

Formats disponibles

UNIVERSIDAD AUTÓNOMA DEL

ESTADO DE MÉXICO uaem

ESTADÍSTICA, ESCUELA PREPARATORIA

LORENZO CONTRERAS GARDUÑO

3 MEDIDAS DE TENDENCIA CENTRAL 83

4 MEDIDAS DE DISPERSIÓN 133

5 COVARIANZA Y CORRELACIÓN LINEAL 183

6 RECTA DE REGRESIÓN 211

A mediados del siglo XVII la estadística tuvo un gran desarrollo

Posteriormente se inicia el estudio de la probabilidad, que junto con la

En la actualidad la estadística junto con el cálculo de probabilidades

1.1 CONCEPTO DE ESTADÍSTICA:

La Estadística, es un conjunto de técnicas que tienen por objeto recopilar,

1.2 CLASIFICACIÓN Y CAMPOS DE APLICACIÓN DE LA

La estadística para su estudio se divide en dos ramas:

Estadística Descriptiva--------------------Estadística Inferencial

ESTADISTICA DESCRIPTIVA O DEDUCTIVA

La estadística deductiva o descriptiva, se ocupa de la recolección,

Los resultados que se obtienen en la estadística descriptiva, se presentan en

a) tabular. Mediante una tabla, en la cual se encuentran los datos organizados y

b) Gráfica. Mediante un diagrama en el cual se presentan de una manera objetiva

c) Medidas Estadísticas. Mediante números, los cuales se obtienen al aplicar un

ESTADÍSTICA INFERENCIAL O INDUCTIVA.

La estadística Inferencial o Inductiva, se ocupa de interpretar los

La Estadística se utiliza en todas las áreas del conocimiento, ya sean

Siendo más específicos, la estadística se aplica en la ingeniería, Medicina,

Al realizar un estudio estadístico sobre un determinado fenómeno, se

Antes de continuar con el estudio de la estadística descriptiva, se presentan

1.3 DATO ESTADÍSTICO.

Un dato estadístico, es la característica medible o descrita mediante un

Por ejemplo: Si se están estudiando las características de una persona, los

1.4 POBLACIÓN Y MUESTRA.

Al realizar un estudio estadístico de un fenómeno determinado

Al conjunto formado por el total de los elementos en estudio se le llama

A un subconjunto de una población estadística se le llama muestra.

Una población puede ser finita o infinita.

La población finita está formada por un número determinado de

La información que se obtiene de una población es exacta, debido a que

a) En ciertos casos, el estudio consiste en pruebas destructivas de

1.5 VARIABLES Y SU CLASIFICACIÓN

Para la aplicación de los métodos estadísticos, es necesario representar

Una variable es la representación general de un conjunto de datos que

x representa el peso del conjunto de elementos

y representa la estatura del conjunto de elementos

z representa el sexo del conjunto de elementos

Por ejemplo: si a cada persona del conjunto en el que se estudia el peso,

x1 representa el peso de la persona asignada con el número 1

x30, y30, z30representan el peso, estatura y sexo de la persona asignada con el

Y en forma General, xi, yi, zi, representan el peso, estatura y sexo de la i-

CLASIFICACIÓN DE LAS VARIABLES

Para el estudio de un proceso estadístico, las variables se clasifican en:

LAS VARIABLES CUALITATIVAS: Son aquellas que describen cualidades o

LAS VARIABLES CUANTITATIVAS: Son las que se representan a través de un

LAS VARIABLES DISCRETAS: Son las que están asociadas a un proceso de

LAS VARIABLES CONTINUAS: Están asociadas a un proceso de medición y

1.6 FUENTES DE ADQUISICIÓN DE DATOS.

La adquisición de datos estadísticos, es el procedimiento empleado para

Existen varias formas para obtener la información deseada, las más

a) Observación.- Consiste en recopilar información mediante la simple

b) Encuesta.- Consiste en recopilar información mediante cuestionarios y

c) Experimento.- Consiste en recopilar información mediante pruebas de

d) Investigación.- Consiste en recopilar información que ya se tiene

1.7 SELECCIÓN DE LA MUESTRA DE UNA POBLACIÓN.