Vous êtes sur la page 1sur 58

ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL

I. INTRODUCCIÓN

ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL


Actualmente la Estadística como disciplina ha experimentado un crecimiento
considerable. Lo anterior, se debe principalmente a: la tendencia mundial del
planteamiento cuantitativo que se usa de forma creciente en todas las ciencias como
también en las áreas de los negocios, la economía y a la disponibilidad de poderosos
sistemas de computación que permiten manejar volúmenes considerables de
información. Esto conlleva a: recopilar, procesar, interpretar, presentar y representar
datos numéricos de forma acertada que ayude a tomar la mejor decisión de acuerdo
a la información que tenemos.

De este modo, la estadística es una poderosa disciplina que nos entrega


procedimientos para la obtención de los datos, como asimismo, proporciona las
herramientas que permiten extraer la información1.

II. ¿QUÉ ES LA ESTADÍSTICA?

Como se esbozó en el párrafo precedente, la Estadística es una disciplina que


diseña medios e instrumentos en donde el hombre trate de comprender la
generalidad de los procesos que se presentan en la vida.

En la literatura podemos encontrar diferentes definiciones de Estadística, sin


embargo, una definición precisa es:

“La Estadística es un conjunto de procesos y herramientas que


permiten: recopilar, procesar, interpretar, presentar, representar, analizar datos
alfa numéricos, que nos ayude a realizar inferencias sobre el comportamiento
general de la población en estudio y, por lo tanto, implique el poder entender el
comportamiento de los fenómenos para tomar la mejor decisión posible”. 2

La etapa de recopilación, procesamiento, interpretación, representación y


análisis de los datos se llama Estadística Descriptiva; es decir, comprende
cualquier actividad relacionada con los datos. Mientras que, la generalización,
inferencia y toma de decisión se conoce como Estadística Inferencial o Inferencia
Estadística.

1
Departamento de Evaluación, Medición y Registro Educacional. Nociones Básicas de Estadística.
Universidad de Chile.
2
Escobedo, C. (2008). Apuntes de Estadística para Geógrafos. Universidad de Chile.
III. CONCEPTOS BÁSICOS RELATIVOS A LA ESTADÍSTICA

ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL


3.1 Población
Corresponde a un conjunto de elementos, personas, o medidas que tienen
entre sí alguna característica común y que es objeto de estudio. Por ejemplo, los
estudiantes de una determinada carrera del IP Chile, los habitantes de un país, el
conjunto de piezas defectuosas y no defectuosas que produce una fábrica en un día
determinado.

3.2 Muestra

La constituye un subconjunto de la población. Por ejemplo, 30 de los


estudiantes de una determinada carrera.

3.3 Variable

Característica o propiedad asociada a un conjunto de unidades observables


de una población o muestra. Llamaremos observación o dato a cualquier valor
cualitativo o cuantitativo asociado a una variable. Por ejemplo: la altura de un
conjunto de personas, el sueldo semanal de los trabajadores de cierta empresa, la
nacionalidad de los estudiantes de una determinada carrera, el número de hijos de
un grupo de personas.
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
3.4 Parámetro
Se denomina así, a toda aquella característica medible de una población.

Por ejemplo, la calidad de servicio de una determinada empresa es medida en


función de ciertos parámetros, tales como: reclamos recibidos, atendidos, no
atendidos, tiempo de atención, tiempo de respuesta, entre otros.

3.5 Estadístico o Estadígrafo

Se denomina así, a toda característica medible de una muestra que permita


obtener conclusiones respecto del comportamiento de ciertos parámetros. Por
ejemplo, la moda, media, mediana, varianza, desviación estándar, entre otros.

IV. TIPOS DE VARIABLES

4.1 Variables Cuantitativas

Sus valores expresan algo medible a través de números, es decir, cuanto de


algo se posee. Las variables cuantitativas, según la naturaleza de los datos
numéricos que originan, se pueden clasificar en:

4.1.1 Discretas

Son aquellas cuyo recorrido adoptan ciertos valores a lo largo de un intervalo.


Ejemplos de variables discretas son los siguientes: número de hijos en una familia,
cantidad de automóviles usados vendidos en un fin de semana, etc.

4.1.2 Continuas

Son aquellas cuyo recorrido es un conjunto no numerable (por ejemplo, un


intervalo de números reales). Ejemplos de variables continuas son: estatura de los
estudiantes de un tercer año medio en centímetros, peso de una caja de naranjas en
kilos, etc.
4.2 Variables Cualitativas

ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL


Sus valoren corresponden a conceptos, atributos, o cualidades. Estás se pueden clasificar
en:

4.2.1 Nominales

Permiten clasificar o distinguir entre categorías. Nombran, pero no miden la


variable. Ejemplo: Nacionalidad, Estado civil, etc.

4.2.2 Ordinales

Permiten establecer relaciones de orden entre los datos de la variable en


mayor, menor o igual.

Ejemplo: Nivel socioeconómico (alto, medio, bajo), rendimiento académico


(excelente, regular, deficiente), etc.

La clasificación anterior se ve representada en el siguiente esquema:


ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
4.3 Ejemplo

Considerando a los trabajadores y al producto (bolsas de azúcar) que se


fabrica en cierta industria, se podría obtener información como la siguiente:

¿Qué edad tienen los operarios?, ¿cuál es su escolaridad?, ¿qué oficios


tienen?, ¿cuál es el ingreso mensual?, ¿cuál es el defecto más común en las bolsas
de azúcar?, ¿cuál es el nº de bolsas mal selladas por línea?, ¿cuál es el peso de
cada bolsa?, ¿cuántas bolsas están altamente dañadas en línea de producción A?

Solución:
La siguiente tabla muestra la solución de cada una de las interrogantes
anteriores.
V. TABLAS DE FRECUENCIA

ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL


Una forma eficaz de presentar ordenadamente un grupo de observaciones es
a través de tablas de distribución de frecuencia. En simple palabras, una tabla de
distribución de frecuencia es y presenta la cantidad de valores observados que
entran en cada clase. La estructura de la tabla depende de la cantidad y tipo de
variable (cualitativa o cuantitativa) que se están analizando, siendo las más simple,
las referidas a una variable.

Para la construcción de una tabla de frecuencias se debe elegir


adecuadamente el número de clases a utilizar, que depende de la cantidad de
observaciones que se quieran resumir. Por lo general, la distribución de frecuencias
debe tener como mínimo 5 clases, pero no más de 15, aunque algunos autores han
minimizado esta cantidad a 8.3

5.1 Elementos de una Tabla de Frecuencia

En una tabla de frecuencia se encontrarán cuatro tipos distintos de


frecuencias, cada uno de estos dispuestos en una columna de la tabla. Si el tamaño
de la muestra que se estudia es n, es decir, se tienen n observaciones o datos, se
definen las frecuencias como sigue:

5.1.1 Frecuencia absoluta

Este tipo de frecuencia lo denotaremos por fi, y representa el número de


elementos que pertenecen a la clase i-ésima.

5.1.2 Frecuencia absoluta acumulada

Se denota por Fi, y corresponde a la suma de la frecuencia absoluta de la i-


ésima clase y todas las anteriores.

5.1.3 Frecuencia relativa

Se denota por hi, y corresponde al cuociente entre la frecuencia absoluta de la


i-ésima clase y n. También es posible expresarla en forma porcentual multiplicando
este cuociente por 100.

3
Canavos, G.(1992): PROBABILIDAD Y ESTADÍSTICA, Editorial McGraw-Hill.
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
5.1.4 Frecuencia relativa acumulada

Se denota por Hi, y corresponde a la suma de la frecuencia relativa de la i-


ésima clase y todas las anteriores.

5.2 Tabla de distribución de frecuencias para variable discreta

Para una muestra de tamaño n, de la cual se han extraído ‘k’ clases distintas,
una tabla de frecuencia de variable discreta se representa así.

Observe que:

𝑛 𝑛

� 𝑓𝑖 = 𝑛 � ℎ𝑖 = 100%
𝑘=1 𝑘=1
5.2.1 Ejemplo

ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL


La información que se presenta en la siguiente tabla corresponde al número
de artículos vendidos en cierto día, por una muestra de vendedores de una gran
tienda comercial.

1 0 3 2 0 5 1 3 5 5
0 2 1 5 5 2 5 4 0 0
5 5 4 4 2 1 3 4 5 1
2 5 5 0 4 5 0 2 5 4
0 2 0 3 5 1 0 0 4 2

Solución

Para construir una tabla de distribución de frecuencia para una variable


discreta se elige tantas clases como datos distintos existan. Si el número de datos
distintos es muy grande (superior a 15, por ejemplo) es conveniente agrupar los datos
en intervalos de clases, es decir, considerar a la variable como continua.

A continuación se presenta la tabla de distribución de frecuencia discreta.

i x fi Fi hi (%) Hi (%)
1 0 11 11 22% 22%
2 1 6 17 12% 34%
3 2 8 25 16% 50%
4 3 4 29 8% 58%
5 4 7 36 14% 72%
6 5 14 50 28% 100%
Total 50 --- 100% ---

Algunas conclusiones que se pueden extraer del ejemplo son:

• La tabla contiene 5 clases, pues la variable artículos vendidos, toma 5 valores


distintos, que en orden ascendente son {0, 1, 2, 3, 4, 5,}.

ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL


La muestra está constituida por 50 empleados de la tienda.

• f3=8, y representa que 8 empleados de la tienda venden 2 artículos cada uno


en ese día.

• F4=29, y representa que 29 empleados de la tienda venden no más de 3


artículos en este día. Observe que la información de estos 29 empleados
incluye a la clase 4 (3 artículos vendidos) y a todas las anteriores.

• h2=12%, y representa que el 12% de los empleados de la tienda vende 1


artículo cada uno en ese día.

• H5=72%, y representa que el 72% de los empleados venden no más de 5


artículos cada uno en ese día.

5.3 Tabla de Distribución de Frecuencias para Variable Continua

Si la variable es continua o si la naturaleza de los datos es muy heterogénea es


conveniente agrupar los datos de intervalos de clases. Para una muestra de tamaño
n, de la cual se han extraído ‘k’ intervalos de clases, una tabla de frecuencia se
representa así:
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
Observaciones:

• Cada intervalo es cerrado por la izquierda y abierto por la derecha,


salvo el último que es cerrado por la izquierda y por la derecha.

• La marca de clase, Xi, corresponde al punto que está en la mitad de los


extremos del intervalo i-ésimo, y es representativa de los datos que
𝑋𝑖−1 ´ +𝑋𝑖 ´
pertenecen a esta clase. Luego𝑋𝑖 = 2

• En [X0’, Xk’] están contenidos todos los datos de la muestra.

• La amplitud del intervalo i-ésimo, denotada por Ai, se define como: Ai =


Xi-Xi-1.

• En general, en el intervalo Xi-1’ - Xi’, a Xi-1’ se le llama límite inferior del


intervalo i-ésimo ya Xi’, límite superior del intervalo i-ésimo.

5.3.1 Ejemplo

El Banco Estado decide hacer un registro con las 40 cuentas de ahorro personal
con saldo bajo (en miles de pesos). Los resultados son:

179 112 1150 100 109 470 780 352


1200 1482 695 952 510 783 890 1595
937 217 712 293 579 287 1112 1394
1101 501 711 1202 415 602 1312 1175
783 1390 666 1555 1422 1273 185 100

Construya la tabla de distribución de frecuencia para una variable continua.

Solución
Para resolver se debe utilizar el criterio de Sturges. Se detallan los pasos a
continuación

Paso 1: Obtener el número de intervalos.

Se utiliza la fórmula que se detalla a continuación:


𝑠 = 1 + 3,3 ∗ log(𝑛); Donde n es el total de la muestra o población.

ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL


Reemplazando con nuestro ejemplo, se obtiene:

𝑠 = 1 + 3,3 ∗ log(40)
𝑠 = 6,28

Como este número debe ser entero se utiliza las reglas de aproximación.

𝑠=6

Paso 2: Encontrar el máximo y mínimo valor observado.

Para este caso son los siguientes números.

Xmax: 1550

Xmin: 100

Paso 3: Determinar la Amplitud del intervalo.

Para determinar la amplitud del intervalo se debe utilizar la siguiente fórmula:

𝑋𝑚𝑎𝑥 − 𝑋𝑚𝑛
𝐴𝑖 =
𝑠
En nuestro ejemplo reemplazando las fórmulas tenemos que:

1595 − 100
𝐴𝑖 =
6
𝐴𝑖 = 249,16

Este número siempre se aproxima al decimal o entero mayor. Como en nuestro


caso no hay decimales se aproxima al entero mayor. Entonces el número es:

𝐴𝑖 = 250
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
Paso 4: Creación de los intervalos.

En este paso debemos tomar el valor mínimo y sumar la amplitud.

Saldo (Miles de $) N° de cuentas de Ahorro


100 - 350

Si consideramos los 100 y les sumamos los 250 se obtiene los 350.Luego se
repite la misma secuencia, hasta llegar el número de intervalos (para nuestro ejercicio
es 6).
N° de cuentas de Ahorro
Saldo (Miles de $) (fi)
100 - 350
350 - 600
600 - 850
850 - 1100
1100 - 1350
1350 - 1600

Paso 5: Determinación de la frecuencia absoluta (fi).

Ahora se debe determinar cuántas personas tienen un saldo mayor e igual (límite
inferior) a $100.000 y menor $ 350.000 (límite superior). Se debe seguir con la misma
secuencia. El límite superior del último intervalo considera el menor e igual.

Saldo (Miles de $) N° de cuentas de Ahorro


100 - 350 9
350 - 600 6
600 - 850 8
850 - 1100 3
1100 - 1350 8
1350 - 1600 6
TOTAL 40
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
Para complementar el ejercicio vamos a determinar los de más componentes de la
tabla de distribución de frecuencias e interpretar algunos valores.

Saldo (Miles de
$) Xi fi Fi hi (%) Hi (%)
100 - 350 225 9 9 23% 23%
350 - 600 475 6 15 15% 38%
600 - 850 725 8 23 20% 58%
850 - 1100 975 3 26 8% 65%
1100 - 1350 1225 8 34 20% 85%
1350 - 1600 1475 6 40 15% 100%
TOTAL 40 100%

f2:6, Esto quiere decir que 6 clientes tienen en su cuenta de ahorro un monto que va
desde los $ 350.000 y menor a los $ 600.000.

F5: 34, Esto quiere decir que 34 clientes tienen en su cuenta de ahorro un monto
menor a los $ 1.350.000.

h1: 23%, Esto quiere decir que 23% de los clientes tiene en su cuenta de ahorro un
monto que va desde $100.000 y menor a los $ 350.000.

H4: 65%, Esto quiere decir que 65% de los clientes tienen en su cuenta de ahorro un
monto menor a los $ 1.100.000.

VI. MEDIDAS DESCRIPTIVAS

Para ampliar la información de la distribución de los datos, resumida en la


tabla de frecuencias y complementar el análisis descriptivo de estos, necesitamos
determinados valores numéricos que permiten cuantificar ciertas “características” de
la distribución, llamando a estos valores estadísticos o estadígrafos, si son calculados
a partir de los datos de una muestra y parámetros, si son calculados desde los datos
de una población. Se estudiarán, a continuación, medidas de posición, entre las
cuales hay de tendencia central y no central, y medidas de dispersión. 4

4
Martín Pliego, F. J. (1994): INTRODUCCIÓN A LA ESTADÍSTICA ECONÓMICA Y EMPRESARIAL. (Teoría y
práctica). Colección Plan Nuevo. Editorial AC.
6.1 Medidas de Tendencia Central para datos Agrupados y no

ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL


Agrupados
Las medidas de tendencia central localizan el centro de la distribución,
aportando información respecto al valor promedio de un conjunto de datos.

6.1.1 Media Aritmética

La media (media aritmética o promedio) corresponde al valor que está en el


centro de gravedad de un conjunto de observaciones.

Si tenemos un conjunto de n mediciones x1, x2 , x3 , ..., xn, de una variable x,


entonces la media se puede calcular como la suma de los valores, dividida por el
número total de observaciones n, es decir:

La media aritmética admite una interpretación física: representa el centro de


gravedad de un conjunto de puntos x1, x2 , x3 , ..., xn, distribuidos sobre un segmento
de recta:

Balanza 1:
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
Balanza 2:

6.1.2 Cálculo de la media aritmética para datos tabulados como variable


discreta

Sea X, una variable discreta. La siguiente tabla resume los datos obtenidos de
X. En este caso, el valor de la media aritmética estará dado por:
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
Donde xi representa al valor de la clase i-ésima, fi a la frecuencia absoluta de
la clase y n al tamaño de la muestra.

Ejemplo:

La tabla siguiente muestra el número de medicamentos que se clasifican en


una hora por número de empleados de una farmacia:

Sea X el número de medicamentos clasificados en una hora, luego se puede


organizar la información anterior en una tabla como la siguiente:

Solución:
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
De donde:

Por lo que se concluye que:

Los empleados de esta farmacia clasifican en promedio 40 medicamentos en


una hora.

6.1.3 Cálculo de la media aritmética para datos tabulados como variable


continúa

Sea X, una variable continua. La siguiente tabla resume los datos obtenidos de
X:

En este caso el valor de la media aritmética estará dado por:


ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
Donde i x representa al valor de la marca de clase, de la clase i-ésima, i f a la
frecuencia absoluta de la clase y n al tamaño de la muestra.

Ejemplo:

La siguiente tabla corresponde a la distribución de las ventas diarias (en miles


de pesos) de un grupo de empleados de una tienda.

Solución

Sea X el monto de ventas diarias en miles de pesos de un grupo de


empleados, luego se puede organizar la información anterior en una tabla como la
siguiente:
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
De donde:

Por lo que se concluye que:

Los empleados de esta tienda venden en promedio, aproximadamente,


$408.000 diariamente.

Observación

Como anteriormente se dijo, el valor que representa la media corresponde al


centro de gravedad de una masa de datos. Esta situación, hace que el valor de la
media presenta sensibilidad a los datos extremos.

6.1.4 Mediana

En ocasiones, la media aritmética no representa de manera fiel el


comportamiento de los datos (esto sucede cuando la distribución de los datos es
bastante irregular, por ejemplo, cuando estamos frente a la presencia de datos
atípicos). Esto se produce porque la media aritmética es una medida de posición
sensible a datos extremos. 5

La mediana (Me) de un conjunto de n mediciones x1, x2 , x3 , ..., xn es el valor de x que


se encuentra en el punto medio o centro, cuando los valores se ordenan de menor a
mayor.

Regla para calcular la mediana

Se ordenan las n observaciones de menor a mayor y luego:

5
Martín Pliego, F. J. (1994): INTRODUCCIÓN A LA ESTADÍSTICA ECONÓMICA Y EMPRESARIAL. (Teoría y
practica). Colección Plan Nuevo. Editorial AC.
1. Si n es impar, entonces, 𝑀𝑒 = 𝑋𝑛+1 correspondiente a la observación central.

ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL


2
𝑋𝑛 +𝑋𝑛
+1
2. 2. Si n es par, entonces𝑀𝑒 = 2 2
correspondiente al promedio de las
2
observaciones centrales.

Ejemplo

Supongamos que debemos calcular la mediana del siguiente conjunto de


valores:
{5, 7, 9, 14, 15, 2, 3, 2, 25}
Para calcular la mediana de estos datos, primero deben ordenarse de menor a
mayor:
{2, 2, 3, 5, 7, 9, 14, 15, 25}

Dado que n=9, y 9 es un número impar, Me = X9+1 = X5 = 7 es decir, aquel


2
dato que se encuentra en la posición número 5:

Si al conjunto anterior se le agregase un valor, por ejemplo 17, el conjunto


ordenado, sería:

{2, 2, 3, 5, 7, 9, 14, 15, 17, 25}


X10 +X10
+1 X +X6 7+9
Y dado que n=10, se tiene: Me = 2 2 2 = 5 2 = 2
= 8, es decir, el dato
correspondiente al promedio de los dos datos centrales:
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
6.1.5 Cálculo de la mediana para datos tabulados como variable discreta

Consideremos la tabla de distribución de frecuencias siguiente:

Para calcular la mediana, se identifica la primera frecuencia absoluta


n
acumulada que supere a2. Sea Fi dicha frecuencia. Entonces, existen dos alternativas
para Fi-1:

𝑛
• 𝐹𝑖−1 < 2
y en este caso 𝑀𝑒 = 𝑥𝑖

𝑛 𝑥𝑖−1 +𝑥𝑖
• 𝐹𝑖−1 = 2
y en este caso 𝑀𝑒 = 2
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
Ejemplo:

La tabla siguiente muestra el número de medicamentos que se clasifican en


una hora por número de empleados de una farmacia:

Solución:

Sea X el número de medicamentos clasificados en una hora, luego se puede


organizar la información anterior en una tabla como la siguiente:

n
Vemos que la primera frecuencia acumulada absoluta que supera a 2 = 50, es
F3 = 60, como F2=35 < 50, se tiene Me = x3 =40.

Luego se puede concluir que:

“La mitad de los empleados clasifica a lo más, 40 medicamentos por hora o el


50% de los empleados clasifica a lo más, 40 medicamentos en una hora”.
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
6.1.6 Cálculo de la mediana para datos tabulados como variable continúa

Cuando se desea determinar la mediana de una distribución de datos,


tabulados como variable continua, es necesario hallar el intervalo mediano (esto es, el
intervalo en el cual se encuentra la mediana). En la siguiente tabla:

n
Localizamos la primera frecuencia absoluta acumulada que supere a 2(esto
debido a la definición de mediana). Sea Fi sea frecuencia. Lo anterior significa que
n n n
Fi > 2. Además, siFi = 2, entonces la mediana será Me = Xi−1 ´. Si Fi > 2, pero
n
Fi−1 < 2, la mediana se encontrará en el i-ésimo intervalo, esto es, en el
intervaloXi−1 ´ − Xi ´.

Una vez hallado el intervalo mediano, debemos determinar el valor de la


mediana. Para ello, utilizaremos la siguiente fórmula:

Donde Fi-1, representa a la frecuencia absoluta acumulada del intervalo


anterior al intervalo mediano y, Ai y fi ya la amplitud y a la frecuencia absoluta,
respectivamente, del intervalo mediano.
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
Ejemplo:

La siguiente tabla corresponde a la distribución de las ventas diarias (en


miles de pesos) de un grupo de empleados de una tienda.

Sea X el ‘monto de ventas diarias en miles de pesos’ de un grupo de


empleados, luego se puede organizar la información anterior en una tabla como la
siguiente:

n 43
Del ejemplo se tiene que 2 = 2
= 21,5, luego el intervalo mediano es 400-
500. Por lo que:
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
Luego, se puede concluir que: “La mitad, o el 50%, de los empleados,
vende a lo más $483.846 diariamente”.

6.1.7 Moda

La moda (Mo) de un conjunto de n mediciones x1, x2 , x3 , ..., xn para una


variable o característica x, es el valor que ocurre con mayor frecuencia o que más
se repite.

Ejemplo

Calculemos la moda del siguiente conjunto de datos:

437 446 451 452 467 470 474 483 484 488 500 505 506 507 509 510 510
511 515 518523 527 532 532 534 534 540 544 552 566

Nos damos cuenta que este conjunto de datos posee más de una moda.

En este caso se habla de distribuciones multimodales, por lo que no tiene


mayor sentido su interpretación.

Cuando una distribución tiene una, dos o más modas, hablamos de


distribución “unimodal”, “bimodal” o “multimodal”.

6.1.8 Cálculo de la moda para datos agrupados como variable continua

1) Se identifica el intervalo que posee mayor frecuencia absoluta, o intervalo


modal. Sea 𝑋𝑖−1 ´ − 𝑋𝑖 ´ , tal intervalo, con frecuencia absoluta fi.

2) Se calculan las diferencias d1=fi-fi-1y d2=fi-fi+1 con fi-1 como la frecuencia


absoluta del intervalo anterior al intervalo modal, y fi+1 como la frecuencia
absoluta del intervalo siguiente al intervalo modal.
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
3) Se calcula la moda de los datos, según la siguiente fórmula:

Donde Li, es el límite inferior del intervalo modal y Ai la amplitud de


dicho intervalo.

Ejemplo:

De la tabla se deduce que el intervalo modal es 300-400, pues posee


la frecuencia absoluta más gran de, f2 =15. Luego calculamos:

d1: 15 - 6 = 9
d2: 15 – 13 = 2

Y, finalmente, la moda estará dada por:

Se concluye que: “El monto de ventas diarias más frecuente,


asciende a los $381.818”
VII. MEDIDAS DE POSICIÓN DE TENDENCIA NO CENTRAL PARA

ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL


DATOS AGRUPADOS Y NO AGRUPADOS
La descripción de un conjunto de datos, incluye como un elemento de
importancia la ubicación de estos dentro de un contexto de valores posibles. Las
medidas de posición no centrales permiten conocer otros puntos característicos de
la distribución que no son los valores centrales 6.

Por ejemplo, puede resultar de interés conocer qué porcentaje de


automóviles equipados con convertidor catalítico sobrepasa el estándar de
emisiones de gases que es aceptable según la legislación vigente.

Ya no se trata en este ejemplo de describir el centro de un conjunto de


datos de esta naturaleza.

Es necesario ser más específico. Es probable que la emisión promedio de


un conjunto de automóviles esté dentro de la norma. Pero, ¿es aceptable que el
25% de ellos no la cumpla?

7.1 Percentiles
Una medida de posición muy útil para describir una población, es conocida
como 'percentil'. En forma intuitiva podemos decir que es un valor tal que supera
un determinado porcentaje de los miembros de la población.

Los percentiles son valores que dividen a la muestra ordenada en forma


ascendente (o descendente) en 100 partes iguales. Un percentil de orden k,
denotado como Pk es aquel valor de la variable que deja atrás al k% de las
observaciones de la variable.

7.1.1 Cálculo del percentil de orden k para datos agrupados como variable
continua

La forma de calcular el percentil k para datos tabulados como variable


continua es una generalización del cálculo de la mediana desarrollado,
anteriormente, para el mismo tipo de variable.

El intervalo que contiene al percentil Pk es el primer intervalo cuya


frecuencia acumulada porcentual supera al k%. Sea Xi−1 ´ − Xi ´ dicho intervalo y
Hi su frecuencia acumulada porcentual, entonces se pueden dar dos casos:

• Hi-1=k%, entonces Pk − Xi−1 ´

6
Canavos, G.(1992): PROBABILIDAD Y ESTADÍSTICA, Editorial McGraw-Hill.
• Hi-1=k%, entonces Pk está contenido en el intervalo Xi−1 ´ − Xi ´, la fórmula es

ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL


la siguiente:

Con Li como el límite inferior del intervalo que contiene a Pk ,n tamaño de la


muestra, Fi-1 la frecuencia acumulada absoluta del intervalo anterior al intervalo
que contiene a Pk , fi la frecuencia absoluta y Ai la amplitud del intervalo que
contiene a Pk.

Ejemplo:

La siguiente tabla corresponde a la distribución de las ventas diarias (en


miles de pesos) de un grupo de empleados de una tienda.

Sea X el ‘monto de ventas diarias en miles de pesos’ de un grupo de


empleados, luego se puede organizar la información anterior en una tabla como la
siguiente:
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
Supongamos se desea calcular el monto máximo de ventas diarias del 54%
de los empleados con menores índices de ventas diarias, es decir, P54

Identificamos primero que el intervalo que contiene a P54 es 400- 500, luego
ingresamos los datos a la fórmula:

Se concluye que: “El 54% de los empleados con menores índices de


ventas diarias, vende a lo más $417.077 diariamente”.

7.2 Cuartiles, Quintiles y Deciles


Los Cuartiles son valores que dividen a la muestra ordenada en forma
ascendente (o descendente) en 4 partes iguales. Un cuartil de orden k, con k = 1,
2 y 3, denotado como Ck es aquel valor de la variable que deja atrás al 25%, 50%
y 75% de las observaciones de la variable.

Equivalencias:

C1= P25
C2 = P50
C3= P75
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
Los quintiles son valores que dividen a la muestra ordenada en forma
ascendente (o descendente) en 5 partes iguales. Un cuartil de orden k, con k = 1,
2,3 y 4 denotado como Qk es aquel valor de la variable que deja atrás al 20%,
40%, 60% y 80% de las observaciones de la variable.

Equivalencias:

Q1= P20
Q2 = P40
Q3= P60
Q4 = P80

Los deciles son valores que dividen a la muestra ordenada en forma


ascendente (o descendente) en 10 partes iguales. Un cuartil de orden k, con k = 1,
2,3,…, 8 y 9 denotado como Dk es aquel valor de la variable que deja atrás al
10%, 20% , …, 80% y 90% de las observaciones de la variable.

Equivalencias:

D1= P10
D2 = P20
D3= P30
D4 = P40
D5 = P50
D6 = P60
D7 = P70
D8 = P80
D9 = P90

VIII. MEDIDAS DE DISPERSIÓN PARA DATOS AGRUPADOS Y NO


AGRUPADOS
Al analizar un conjunto de datos, resulta a menudo conveniente expresar
numéricamente la variabilidad que existe entre ellos.
Para llevar a cabo esta descripción, se usan varias estadísticas que usan
relaciones internas entre los datos. Comúnmente, estas relaciones tienen que ver
con diferencias de los datos o funciones de ellos respecto de algunas estadísticas
de posición.
Dependiendo del tipo de diferencia usada, se obtienen distintas expresiones
que entregan visiones parciales de la forma en que los datos varían. Estas
visiones parciales se complementan para entregar un cuadro más completo de la
dispersión observada entre los datos. 7

ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL


8.1 Rango
El rango (amplitud) se calcula como la diferencia entre el máximo y el
mínimo valor de un conjunto de datos, esto es:

8.2 Varianza
La varianza se define como el promedio cuadrático de las desviaciones de
las observaciones respecto del promedio de estos datos. La varianza está
denotada por σx 2 y para datos agrupados se calcula a partir de la fórmula:

Donde, n es el tamaño de la muestra, xi el valor correspondiente i-ésima


observación (o marca de clase en el caso de datos agrupados como variable
continua), x� el promedio de la muestra y fi la frecuencia absoluta de la clase i-
ésima.
Una manera alternativa de calcular la varianza, es mediante la fórmula:

7
Canavos, G.(1992): PROBABILIDAD Y ESTADÍSTICA, Editorial McGraw-Hill.
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
Esta última expresión tiene algunas ventajas sobre la anterior, debido a que
se producen menores errores de redondeo al utilizarla.
En muchos textos (especialmente, en los textos de probabilidad e inferencia
estadística) se hace uso de la siguiente expresión para calcular la varianza:

Esta última expresión se denomina varianza muestral de la variable X. La


diferencia entre los respectivos denominadores se debe al hecho que, cuando se
trabaja con muestras, se utiliza Sx 2 para estimar la varianza poblacional σx 2 . Al
aumentar el tamaño de la muestra, la diferencia que produce n y n-1 en los
resultados, disminuye cada vez más.

8.3 Desviación Estándar

Diremos que la desviación típica o estándar, denotada por 𝜎𝑥 o S𝑥 está


definida como la raíz cuadrada de la varianza. Se calcula según la fórmula:

O bien:

Observación

La unidad de medida de la desviación estándar es la misma unidad de


medida de la variable.

8.4 Coeficiente de Variación


La desviación estándar es útil como medida de variación de un conjunto de
datos, sin embargo, depende de la unidad de medida.

Si por ejemplo, se desea comparar la variabilidad de las estaturas de los


chilenos versus la variabilidad de las estaturas de los ingleses, no es posible
hacerlo directamente con las medidas de dispersión expuestas anteriormente,
debido a las distintas unidades de medición utilizadas (por ejemplo, en el caso de
los chilenos, la estatura se mide en centímetros, mientras que en el Reino Unido,
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
la estatura se mide en pulgadas).

Cuando se quiere comparar la dispersión de dos conjuntos de datos, con


unidad de medida diferente, surge una medida de varianza relativa llamada
coeficiente de variación, la cual expresa la desviación estándar como un
porcentaje de la media. Esto es:

Observaciones generales

• Antes de ejemplificar los conceptos de dispersión vistos hasta aquí, es


conveniente tener en cuenta las siguientes observaciones que relacionan
las medidas de dispersión.

• Cuanto más disperso sean los datos, más aumentará el rango, el rango
intercuartil, la varianza, la desviación estándar y el coeficiente de variación.

• Cuanto más concentrados u homogéneos sean los datos, disminuirá el


rango, el rango intercuartil, la varianza, la desviación estándar y el
coeficiente de variación.

• Si las observaciones son todas iguales (de manera que no hay variación en
los datos), el rango, el rango intercuartil, la varianza, la desviación estándar
y el coeficiente de variación serán iguales a cero.

• Las medidas de variación nunca son negativas.


ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
Ejemplo

Con el fin de observar la relación entre la inteligencia y el nivel


socioeconómico (medido por el salario mensual familiar) se tomaron dos grupos,
uno formado con sujetos de cociente intelectual inferior a 95 y otro formado por los
demás. De cada sujeto se anotó el salario semanal familiar (en miles de pesos).
Teniendo en cuenta los resultados que se indican en la tabla:

¿Cuál de los dos grupos presenta mayor homogeneidad?

Desarrollemos la tabla de distribución de frecuencias para ambas muestras

Muestra 1 (CI<95)

Muestra 2 (CI >= 95)


ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
Por tanto: CV (muestra1) = 35,3% > CV (muestra 2)= 30,17%

Se concluye que la segunda muestra es más homogénea y como el


coeficiente de variación representa el tamaño relativo de la dispersión media (o
desviación estándar) con respecto a la media, podemos concluir también que la
media de la muestra 2 es más representativa que la media de la muestra 1.

IX. ESTADÍSTICA BIDIMENSIONAL O BIVARIADA


En la vida cotidiana existen diversas situaciones en las que interesa
observar si dos variables están relacionadas y, en este caso, en qué medida. Así
por ejemplo, a un científico le puede interesar la concentración de fosfatos en el
agua y el grado de contaminación química que existe.
Al respecto, empezaremos el estudio conociendo la forma como se
presentan los datos y sus respectivos elementos. 8

9.1 Tablas de Frecuencia Bidimensionales

Consideramos una población de n individuos, donde cada uno de ellos


presenta dos caracteres que representamos mediante las variables X e Y.
Representados mediante:

X= {x1, x2,. . ., xi, . . . , xk}

A las k clases que presenta la variable X, y mediante

Y={y1, y2,. . ., yj , . . . , yp} las p clases de la variable Y.

8
Canavos, G.(1992): PROBABILIDAD Y ESTADÍSTICA, Editorial McGraw-Hill.
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
Cada par de datos (xi, yi) representa a los valores particulares de las
variables X e Y que se observan en un individuo de la muestra.

Con la intención de reunir en una sola estructura toda la información


disponible, creamos una tabla formada por k · p casillas, organizadas de forma
que se tengan k filas y p columnas.

Ejemplo

Se obtuvo la siguiente información acerca del número de años de estudio y


la edad, de un grupo de personas de una localidad del sur de Chile:

¿Cómo se podría resumir la información de estas dos variables utilizando


una sola estructura?

Respuesta: Construyendo con estos datos una tabla de frecuencias


bidimensional.

Si se agrupan los
valores de la variable X en
tres intervalos, se obtiene una
tabla de frecuencias
bidimensionales como la que
sigue:
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
Nótese que los valores de la primera fila de la tabla bidimensional (celdas
amarillas) corresponden a la distribución de personas según años de estudio, que
tienen como mínimo 18 años y menos de 22. Por ejemplo, en este rango de edad
hay 3 personas que tienen 12 años de estudio, lo que puede comprobarse
fácilmente, contando cuántas personas pertenecen a este rango de edad
(amarillo) y al mismo tiempo tienen 12 años de estudio en la tabla original:

Una tabla de frecuencias bidimensional también es llamada tabla de


frecuencias bivariada y resume la distribución de frecuencias de dos variables.

En general una tabla de frecuencias bidimensional se presenta así:

En donde:

ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL


nij: es la frecuencia conjunta del valor de la clase xi y del valor de la
clase yj

• ni*: es la frecuencia marginal de la clase xi

• n*j: es la frecuencia marginal de la clase yj

• n: es el tamaño de la muestra

Además se cumple que:

Ejemplo:

En la tabla anterior las frecuencias marginales son:

El tamaño de la muestra se obtiene sumando la fila o la columna de las


frecuencias marginales.

Ejemplo

Del grupo de personas del Sur de Chile del ejemplo anterior, se desea solo
estudiar las características de la variable Edad (X) de aquellas personas que
tienen 14 años de estudio. En la tabla bidimensional, solo se considerará entonces
la columna donde Y = 14:
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
Asimismo, es posible representar aisladamente la distribución de
frecuencias de la variable X condicionada a Y=14, es decir, X/Y=14, como sigue:

9.2 Medidas de Posición y Dispersión en una Tabla Bivariada


Consideremos una tabla bivariada, como la que sigue:

Donde X representa la edad en años, e Y el número de años de


estudio, de un grupo de personas.

¿Cuál es el promedio de edad de este grupo de personas?

Para determinar x� , se utilizará a las respectivas marcas de clase de la


variable X y sus frecuencias marginales, es decir:
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
Cuando se margina a una variable de la otra y de este modo, por ejemplo,
se obtiene su media, a esta media le llamaremos:

Media Marginal:

La media marginal de la variable ‘Edad’, del ejemplo, se obtiene mediante la


expresión:

Luego se concluye que:

“Las personas de esta muestra tienen en promedio 23,58 años de edad”.

¿Cuál es el promedio de edad de aquellas personas que sólo tienen 14


años de estudio?

Para calcular esta media, primero debemos condicionar la variable X, de


modo que X/Y=14:
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
Una vez condicionada la variable, calculamos:

De donde se concluye que: “La edad promedio de aquellas personas que


tienen 14 años de estudio es 24 años”.

Cuando se condiciona una variable respecto de la otra y de este modo, por


ejemplo, se obtiene su media, a esta media le llamaremos: Media Condicional.

Así también, se pueden obtener todas las otras medidas de posición y


dispersión estudiadas en la primera unidad (modas, percentiles, varianzas,
desviaciones estándar, etcétera).

Cuando se obtiene el estadígrafo de una variable marginada de la otra, el


estadígrafo es marginal.

Cuando se obtiene el estadígrafo de una variable condicionada a cierto(s)


valor(es) de la otra, el estadígrafo es condicional.

9.3 Medidas de Correlación


Dependencia

Intuitivamente, consideramos la dependencia entre dos variables, X e Y,


como un proceso en el que una de las variables; por ejemplo, Y aumenta o
disminuye a medida que cambia X.
Por ejemplo, consideremos una muestra de niños entre los 4 y los 10 años,
y definamos dos variables de esta muestra:

X: Edad en años.
Y: Estatura en centímetros.
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
Es evidente que existe una relación de dependencia entre estas dos
variables, es más, se esperaría que a medida que X aumenta, aumentase también
Y.
Sabemos que de ‘alguna manera’ estas dos variables están relacionadas,
no sabemos específicamente cómo ni en qué grado, pero existen formas analíticas
y gráficas de averiguarlo.

9.3.1 Diagrama de Dispersión

Es una representación gráfica del grado de relación entre dos variables


cuantitativas.

• Características principales.

• Un Diagrama de Dispersión muestra la posibilidad de la existencia de


correlación entre dos variables de un vistazo.

• Simplifica el análisis de situaciones numéricas complejas.

• El análisis de datos mediante esta herramienta proporciona mayor


información que el simple análisis matemático de correlación,
sugiriendo posibilidades y alternativas de estudio, basadas en la
necesidad de conjugar datos y procesos en su utilización. 9

Construcción

Ejemplo:

Consideremos las alturas y los pesos de un grupo de personas:

9
Canavos, G.(1992): PROBABILIDAD Y ESTADÍSTICA, Editorial McGraw-Hill.
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
Nótese que, por ejemplo, el par (166, 54), ubicado en la séptima fila,
representa la información de un individuo de la muestra. En este caso una persona
que mide 166cm y pesa 54kg.

El diagrama de dispersión de estos datos es:

Cada par de datos (xi, yi) es representado por un punto P del plano
cartesiano, con abscisa xi y ordenada yi.

Interpretación del gráfico

• “Al parecer” los datos (puntos) tienden a agruparse en torno a una


recta, o dicho de otra manera, a alinearse.

• A medida que la altura aumenta, aumenta también el peso.


ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
Las conclusiones que se pueden obtener en primera instancia,
mediante la observación de dos variables a través de un gráfico de dispersión,
pueden ser corroboradas, complementadas o descartadas con otras medidas de
correlación.

9.4 Covarianza
La covarianza Sxy, es una medida que nos hablará de la variabilidad
conjunta de dos variables cuantitativas, en otras palabras, la covarianza indica la
existencia o no de relación entre dos variables numéricas.

La relación que permite calcular es:

Si los datos están agrupados en una tabla de frecuencias bidimensional, la


covarianza puede calcularse según la fórmula:

9.5 Interpretación geométrica de la covarianza


Consideremos la nube de puntos formadas por las “n” parejas de datos (xi,
yi). El centro de gravedad de esta nube de puntos es (𝑥̅ , 𝑦�). Trasladamos los ejes
XY al nuevo centro de coordenadas (𝑥̅ , 𝑦�). Queda así dividida la nube de puntos
en cuatro cuadrantes como se observa en la figura siguiente. Los puntos que se
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
encuentran en el primer y tercer cuadrante, contribuyen positivamente al valor de
Sxy, y los que se encuentran en el segundo y el cuarto, lo hacen negativamente.

Si hay mayoría de puntos en


el tercer y primer cuadrante,
ocurrirá que Sxy> 0, lo que se puede
interpretar como que la variable Y
tiende a aumentar cuando lo hace
X, es decir, existe una relación
directa entre las variables.

Si la mayoría de puntos están


repartidos entre el segundo y cuarto
cuadrante, entonces Sxy< 0, es decir,
las observaciones Y tienen tendencia
a disminuir cuando las de X
aumentan, es decir, existe una
relación indirecta entre las variables.

Cuando los puntos se reparten de modo más o menos homogéneo entre los
cuadrantes primero y tercero, y segundo y cuarto, se tiene que Sxy cercano a 0.

Eso no quiere decir de ningún modo que no pueda existir relación entre las
dos variables, ya que ésta puede existir como se aprecia en la figura de la
derecha. 10

10
Martín Pliego, F. J. (1994): INTRODUCCIÓN A LA ESTADÍSTICA ECONÓMICA Y EMPRESARIAL. (Teoría y
práctica). Colección Plan Nuevo. Editorial AC.
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
En síntesis

• Si Sxy> 0 las dos variables crecen o decrecen a la vez (nube de puntos


creciente).

• Si Sxy< 0 cuando una variable crece, la otra tiene tendencia a decrecer


(nube de puntos decreciente).

• Si los puntos se reparten con igual intensidad alrededor de (𝑥̅ , 𝑦�) Sxy
cercano a 0 (no hay relación lineal).

• El signo de la covarianza nos dice si el aspecto de la nube de puntos es


creciente o no, pero no nos dice nada sobre el grado de relación entre
las variables.

Ejemplo

Un estudio del rendimiento de los alumnos de cierto curso en un instituto,


registró información respecto del número de preguntas que poseía cada prueba
aplicada y el rendimiento que obtenían en dicha prueba, en escala de 1,0 a 7,0.

La información se registra en la siguiente tabla:


ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
Calculemos la covarianza:

Solución

Sea X la variable nota obtenida

Sea Y la variable N° de preguntas

Debemos realizar las distribuciones marginales para ambas variables:

Considerando la fórmula:

Y utilizando los datos de la tabla se obtiene:


ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
Por lo tanto:

Se concluye que el aumento de una variable conlleva al decrecimiento de la


otra, pues el signo de la covarianza es negativo.

9.6 Coeficiente de Correlación lineal


Recordemos que:

• El signo de la covarianza nos dice si el aspecto de la nube de puntos


es creciente o no, pero no nos dice nada sobre el grado de relación 2
entre las variables.

• La covarianza está afectada por las unidades en las que cada


variable se mide. (La unidad de medida de la covarianza de las
variables X e Y es el producto de la unidades de medida de cada
variable).

Así pues, es necesario definir una medida de la relación entre dos variables,
y que no esté afectada por los cambios de unidad de medida. Una forma de
conseguir este objetivo es dividir la covarianza por el producto de las desviaciones
típicas de cada variable, ya que así se obtiene un coeficiente adimensional, r, que
se denomina coeficiente de correlación lineal de Pearson: 11

Propiedades del coeficiente de correlación lineal

11
Martín Pliego, F. J. (1994): INTRODUCCIÓN A LA ESTADÍSTICA ECONÓMICA Y EMPRESARIAL. (Teoría y
práctica). Colección Plan Nuevo. Editorial AC.

ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL


Carece de unidades de medida (adimensional).

• Es invariante para transformaciones lineales (cambio de origen y escala)


de las variables.

• Solo toma valores comprendidos entre −1 y 1.

• Cuando |r| esté próximo a uno, se tiene que existe una relación lineal
muy fuerte entre las variables.

• Cuando |r| » 0, puede afirmarse que no existe relación lineal entre


ambas variables. Se dice en este caso que las variables son
incorreladas.

Ilustremos lo anterior gráficamente en diagramas de dispersión:

Figura 1

r » 0 , la nube de puntos está


dispersa, luego las variables no se
relacionan linealmente.

Figura 2

r = 0,4, la nube de puntos está


dispersa aún, aunque en menor
cantidad, luego, podría existir algún
grado de relación lineal.
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
Figura 3

r = 0,8, la nube de puntos está ‘más


Alineada’, existe relación lineal entre
las variables, aunque no es tan
‘fuerte’

Figura 4

r = 0,99 »1, la nube de puntos


prácticamente forma una recta en el
plano, las variables poseen una
relación lineal fuerte.

Los gráficos siguientes muestran situaciones análogas a las descritas


anteriormente, pero considerando a r, negativo:
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
Observación importante

Nótese que el signo de r es el mismo signo de la covarianza, pues las


desviaciones estándar de X e Y son siempre positivas:

Ejemplo

Los siguientes datos corresponden a las estaturas en centímetros de


padres e hijos de 5 grupos familiares:

¿Existe relación lineal entre las variables?

Para determinar una respuesta a la pregunta anterior, calcularemos el


coeficiente de correlación lineal de las variables.
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
Primero determinamos las medias y las desviaciones estándar de cada
variable:

Luego la covarianza:

Y finalmente el coeficiente de correlación:

Se concluye que existe una fuerte relación lineal entre las variables, pues r
es muy cercano a 1. Corroboremos lo anterior con un diagrama de dispersión:

Criterio Importante

En general nos podríamos preguntar:


ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
¿A partir de qué valores se considera que hay “buena relación lineal”?

Es difícil responder a esta pregunta, puesto que en la literatura se


encuentran muchas clasificaciones, además para una clasificación se debe
considerar la naturaleza de las variables y cuál es el comportamiento de estas
mediante estudios. No obstante, podemos llegar a una clasificación aproximada: 12

• Si |r|>0,7 hay buena relación lineal (Intervalo de valores en rojo).


• Si |r|>0,4 hay débil relación (Intervalo de valores en rosado).
• De lo contrario, podemos decir que no hay relación lineal entre las
variables (intervalo de valores en gris).

X. MODELOS DE REGRESIÓN
Uno de los objetivos que se persiguen, al estudiar conjuntamente dos
variables, es encontrar alguna forma de poder predecir los valores de una de ellas
conocido el valor de la otra variable.

En este sentido, es lógico pensar que, si hay una curva en torno a la cual se
agrupan los puntos de un diagrama de dispersión, ésta ha de dar una
aproximación de los valores reales. Un análisis que pretende determinar la curva
que mejor aproxima los datos en un diagrama de dispersión es conocido como
Modelos de Regresión.

Existen varios modelos de regresión, dependiendo de la forma que


adquieren los datos dispersos en un diagrama de puntos. Es así como tenemos
modelos de regresión, lineal, exponencial, logarítmico, multinomial entre otros
modelos.

10.1 Modelo de Regresión lineal simple

El modelo de regresión lineal simple, consiste en aproximar los valores de


una variable (Y o variable dependiente) a partir de los de otra (X o variable
independiente), usando una relación funcional de tipo lineal, es decir, buscamos
cantidades a y b, tales que se pueda escribir:

12
Martín Pliego, F. J. (1994): INTRODUCCIÓN A LA ESTADÍSTICA ECONÓMICA Y EMPRESARIAL. (Teoría y
práctica). Colección Plan Nuevo. Editorial AC.
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
Con el menor error posible entre Y e �
Y.

Para determinar los coeficientes (cantidades) a y b del modelo, se debe


minimizar la suma de los cuadrados de la diferencias entre Y e �
Y. Debido a este
proceso, este método de regresión es llamado Método de los mínimos cuadrados.

Las cantidades a y b que minimizan dicho error son los llamados


coeficientes de regresión:

Donde el coeficiente a es llamado ordenada en el origen o coeficiente de


posición y b es la pendiente de la recta.

En términos gráficos, encontrar el modelo de regresión lineal de un conjunto


de datos del tipo (xi, yi), correspondientes a los valores de las variables X e Y, es
determinar la recta que ‘mejor se ajusta a los puntos (xi, yi) en el diagrama de
dispersión:
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
Ejemplo:

Los siguientes datos corresponden a las estaturas en centímetros de


padres e hijos de 5 grupos familiares:

Vamos a obtener el modelo de regresión lineal que mejor aproxima Y


en función de X y se utilizará este modelo para calcular el valor esperado de Y
cuando X=180.

Lo que se busca es la recta, �


Y = a + b·x, que mejor se aproxima los valores
de Y (según el criterio de los mínimos cuadrados) en la nube de puntos que
resulta de representar en un plano las 5 observaciones. Los coeficientes de esta
recta son:
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
Por lo que el modelo buscado es:

Luego si X=180, tenemos que:

Esto significa que si la estatura del padre es 180 cm., la estatura del
hijo pronosticado por el modelo será, aproximadamente, 175,3 cm.

Interpretación de los coeficientes

Coeficiente b (pendiente de la recta).

La interpretación del coeficiente b, se puede realizar de dos formas


complementarias.

El signo, nos indica si la relación es directa (positivo) o indirecta (negativo).

• Si b > 0, las dos variables aumentan o disminuyen a la vez (modelo


creciente).
• Si b < 0, cuando una variable aumenta, la otra disminuye (modelo
decreciente).

Por otro lado, se debe interpretar el número. En este caso, representa la


razón de cambio entre las variables, es decir, la variación de la variable Y, cuando
la variable X aumenta en una unidad.

Considerando el modelo obtenido anteriormente:

Se podría concluir que por cada unidad de crecimiento de la variable X, la


variable �
Y crece 0,5. Lo anterior, en el problema representa que: Si dos padres
poseen estaturas que se diferencian en un centímetro, las estaturas de sus hijos
se diferenciarán en medio centímetro.

Coeficiente a

El coeficiente a es el valor de la variable �


Y cuando X=0, por lo que no
siempre tiene sentido su interpretación. En el ejemplo anterior X=0, cuando la
estatura de un padre es 0 cm. Luego la interpretación de a, en este caso, carece
de sentido.
ESTADÍSTICA PARA LA GESTIÓN – MÓDULO 1 – IPCHILE VIRTUAL
Porcentaje de explicación entre las variables

En el ejemplo anterior, nos podríamos preguntar, ¿cuánto explica la variable


X a la variable Y?, es decir, qué tan confiable es la predicción de un valor para la
variable Y a partir de la variable X. La respuesta a esta interrogante la
encontramos en la bondad de ajuste.

En un modelo de regresión lineal el grado de bondad de ajuste se


determina a partir del coeficiente de determinación, denotado por R2. Se calcula:

El coeficiente de determinación, R2 indica en qué porcentaje el modelo de


regresión lineal obtenido, explica la variabilidad de Y en función de la de X, e
igualmente, la variabilidad de X en función de la de Y.

Ejemplo:

Con los datos del problema anterior:

Obtuvimos que:

Luego, el coeficiente de determinación es:

De lo que concluimos que:

El modelo de regresión lineal explica el 94,09% de variabilidad de la altura


del hijo en función de la altura del padre. Lo mismo se puede decir de la
variabilidad de la altura del padre respecto de la del hijo. Del mismo modo puede
decirse que hay un (100-94,09)%, es decir, 5,91% de variabilidad no explicada.

Vous aimerez peut-être aussi