Académique Documents
Professionnel Documents
Culture Documents
UNIDAD 1
ESTADSTICA DESCRIPTIVA
CONCEPTOS BSICOS
Para la mayora de la gente, la estadstica solo significa un conjunto de tablas, grficos y
algunas medidas numricas. A diario, y en la mayora de los medios de comunicacin, se
pueden encontrar estadsticas sobre la produccin industrial, sobre el nmero de personas
ocupadas y desocupadas, sobre la produccin de automviles nuevos, etc.
Aunque estos ejemplos reflejan en parte qu es y de que se ocupa la estadstica, esta palabra
tiene un significado ms amplio para aquellas personas que la utilizan a menudo en su trabajo.
Debido a lo extenso y variado del campo cubierto por la estadstica es difcil proponer una
definicin precisa de esta ciencia. No obstante, todos los estadsticos estn de acuerdo en
clasificarla en dos tipos, la estadstica descriptiva y la estadstica inferencial. Ambas
desempean funciones distintas pero complementarias en el anlisis estadstico.
La estadstica descriptiva se ocupa del resumen y descripcin de los datos. Dicho resumen
puede ser tabular, grfico o numrico. El anlisis se limita a los datos recolectados y no se
realizan inferencias o generalizaciones acerca de la totalidad de donde provienen esas
observaciones (poblacin).
Por ejemplo, suponga que el jefe de personal somete a un test de aptitud a un grupo de
empleados de la empresa, entre lo que puede hacer con las puntuaciones que resulten del test a
partir de la estadstica descriptiva estn los aspectos siguientes: arreglar las puntuaciones o
clasificarlas de manera que se pueda tener una imagen general de las mismas, calcular el
promedio de las puntuaciones, construir tablas, grficas y cuadros para visualizar el
comportamiento de los datos, etc.
Si bien es cierto la descripcin de los datos recolectados es a veces el fin que se persigue, en la
mayora de los trabajos estadsticos estamos ms bien al comienzo de la tarea que al final de la
misma. Esto es as porque el objetivo ltimo de la tarea estadstica es el extraer conclusiones
sobre todas las observaciones posibles, con base a la informacin recolectada. Es decir, la
estadstica descriptiva no es ms que un trabajo preliminar para la inferencia, entendindose
como inferencia estadstica el proceso de hacer predicciones acerca de un todo a partir de la
informacin contenida en una muestra.
Variable: Es toda caracterstica que toma diferentes valores en distintas personas, lugares o
cosas. Por ejemplo, la altura o el peso de las personas, el ingreso de los trabajadores de la
industria de la madera, etc.
Variable aleatoria: Cuando los valores que asume una variable han sido antecedidos por una
seleccin aleatoria de los objetos medidos o son el resultado de algn proceso al azar, tendremos
una variable aleatoria. Las variables aleatorias usualmente se denotan por las letras X, Y, Z y sus
valores por las respectivas minsculas.
As, si de las cajas de ahorro de los clientes de un banco se eligen 5 al azar un da
determinado, la variable saldo en la caja de ahorro de cada cliente constituye una variable
2
aleatoria que puede llamarse X . Si alguna de las cajas tiene un saldo de $1.000 entonces
x = 1.000.
Variable discreta: Es aquella que puede tomar un nmero finito o infinito contable de valores.
Por ejemplo, el nmero de accidentes anuales en una esquina de una ciudad, el nmero de
personas que llegan por hora a un banco a solicitar algn servicio, etc. Por lo general las
variables discretas se generan en los procesos de contar.
Variable continua: Es aquella que al menos en teora puede tomar cualquier valor dentro de un
intervalo de valores. Por ejemplo la estatura de las personas, el tiempo requerido para finalizar
una tarea, etc. Las variables continuas se generan en los procesos de medicin.
Variable cuantitativa: Es aquella que asume valores numricos acompaados de una unidad de
medida. Por ejemplo, el ingreso por familia en determinados sectores de la ciudad, el peso de
una persona, etc.
Variable cualitativa: Los valores que asume corresponden a categoras de una clasificacin
como el estado civil, el lugar de nacimiento, etc.
Poblacin: Es el conjunto formado por todos los valores posibles de una variable aleatoria. Por
ejemplo, si en un estudio en particular se efectuar una investigacin sobre las ventas anuales de
todos los comercios de la ciudad de Posadas, entonces las ventas anuales constituyen la
poblacin.
Es importante tener en cuenta que el termino poblacin puede interpretarse de dos
maneras. En primer lugar, considerar a la poblacin como el conjunto de todos los valores
posibles de una variable, en segundo lugar, como el conjunto de todos los objetos sobre los
cuales acta la variable considerada.
As, si se quiere estudiar los ingresos de los trabajadores de la industria del t, la
poblacin incluye a todos los trabajadores de dicha industria (unidades elementales o
individuales) o todos los ingresos de los trabajadores de la industria del t (observaciones).
Muestra: Una muestra es cualquier subconjunto de la poblacin elegido bajo ciertos criterios de
seleccin. La muestra es el elemento bsico sobre la cual se basa la posterior inferencia acerca
de la poblacin.
El concepto de muestra tiene tambin las dos connotaciones que hemos sealado para la
poblacin.
Por lo general, los datos que se obtienen en una investigacin estadstica no son
susceptibles de ser analizados e interpretados en la forma que se recogen. Presentaremos a
continuacin algunas procedimientos tabulares y grficos que son utilizados para resumir las
observaciones tanto de variables cualitativas como cuantitativas. Como veremos, al utilizar
estos procedimientos podremos visualizar algunas de las propiedades de las observaciones con
la que se cuenta.
3
Frecuencia de la clase
Frecuencia relativa de la clase i
n
O bien
fi
fri
n
Podemos ahora completar la tabla 1 con las frecuencias relativas y las porcentuales
obtenindose la tabla 2.
4
En base a los datos y a los resultados de la tabla puede verse que el 38% de las ventas
de ese da fueron para Coke Classic y que le siguen Pepsi Cola con un 26% y Diet Coke con un
16%. Puede apreciase tambin que el 80% de las ventas de refresco de ese da corresponden a
estas tres marcas.
16
Frecuencia absoluta
13
13
9 8
6 5 5
2
Diet Coke Pepsi Cola
Coke Classic Dr Pepper Sprite
Marca
Grfico 1
El grfico de barras para las frecuencias relativas es similar a ste solo que en el eje
vertical se registran las frecuencias relativas y no las absolutas.
Por ejemplo, hay 360 en el crculo, como Coke Classic tiene 0,38 de frecuencia
relativa le corresponder un sector de 136,8.
El resto de los sectores se calcula de la misma manera. El diagrama circular para los
datos del Ejemplo 1 es el siguiente
Sprite
10%
Coke Classic
38%
Pepsi Cola
26%
Dr. Pepper
Diet Coke
10% 16%
Grfico 2
k 1 3,322 log(n)
donde n es el nmero de observaciones.
2. Una vez elegido el valor de k, se determina la longitud l que debern tener los intervalos.
Esto puede hacerse, tambin en forma aproximada, utilizando la frmula
3. El primer intervalo debe contener el menor de los datos y el ltimo el mayor. Todos los
intervalos deben tener la misma longitud.
4. Se construye una tabla en la cual, en la primera columna se identifican las clases (1, 2, ...,
k). en la segunda se identifican los intervalos y en la tercera columna las frecuencias
absolutas.
Ejemplo 3: Suponga que el gerente de calidad de una empresa metalrgica desea analizar como
varan las longitudes de las barras de hierro producidas cierto da por la empresa. Para ello toma
una muestra de 50 barras producidas, las mide y decide agrupar la informacin en una
distribucin de frecuencias. Los datos recogidos fueron los siguientes:
En primer lugar calculamos el nmero de intervalos que tendr la distribucin. Para ello
utilizamos la frmula de Sturges.
l 72 53 2,7
7
Observe que los intervalos que hemos considerado estn separados entre s por una
unidad. Esto indicara que la variable longitud da saltos de intervalo a intervalo lo cual parece
no tener sentido con la condicin de continuidad de la misma.
Con el propsito de construir una tabla que refleje la idea de continuidad de la variable,
los intervalos deben estar unidos y es por ello se procede de la siguiente manera: el extremo
52 53 52,5
inferior del primer intervalo se sustituye por ; el extremos superior del primer
2
55 56 55,5
intervalo lo reemplazamos por . Este valor pasa a ser el extremo superior del
2
primer intervalo y el extremo inferior del segundo. Se contina de la misma manera con el resto
de los intervalos y los resultados obtenidos se dan en la tabla 5
Clase Intervalo fi
1 52,5 55,5 2
2 55,5 58,5 5
3 58,5 61,5 9
4 61,5 64,5 15
5 64,5 67,5 12
6 67,5 70,5 5
7 70,5 73,5 2
Total 50
Tabla 5
Cuando los intervalos se toman en la forma indicada en la tabla 5 se los llama intervalos
reales. Cuando se los toma como en la tabla 3 reciben el nombre de intervalos ficticios.
8
Definicin: Se llama marca de clase del intervalo i al punto medio del intervalo de clase
correspondiente. Lo denotaremos por mi .
52,55 55,5
m1 54
2
As, F1 2 , F2 2 5 7 , F3 9 7 16 ,..., F7 50
fi
fri
n
Definicin: Se llama frecuencia relativa acumulada de la clase i al nmero que resulta de sumar
la frecuencia relativa de la clase i con la frecuencia relativa de las clases que le anteceden. La
simbolizaremos Fri
As, para el primer intervalo tendremos Fr1 0.04 , para la segunda, Fr2 0.14 ,...,
Fr7 1 .
Toda esta informacin se resume en la siguiente tabla
Distribucin de frecuencias
9
Histogramas
Un histograma de frecuencias o simplemente histograma es una representacin visual de los
datos resumidos en una tabla como la anterior. Un histograma es similar a un diagrama de barras
para datos cualitativos solo que aqu las barras se colocan unidas para dar una idea de
continuidad de la variable estudiada.
Un histograma se construye de la siguiente manera:
1. La base de los rectngulos se localizan en el eje horizontal. El ancho de las barras es igual a
la longitud de los intervalos.
2. Las alturas de los rectngulos se registran sobre el eje vertical y corresponden a las
frecuencias (absolutas o relativas) de las clases.
3. Las reas de los rectngulos son proporcionales a las frecuencias de las clases.
16
14
frecuencia absoluta
11
0
51 54 57 60 63 66 69 72 75
Longitud
Grfico 3
Observacin: Los intervalos estn centrados en las marcas de clase para simplificar la
construccin del grfico.
Pueden verse, analizando el histograma, algunas propiedades del conjunto de datos. Por
ejemplo, las observaciones estn centradas alrededor de x 63 y que la dispersin de las
observaciones respecto de ste valor de la variable es ms o menos simtrica. Ms adelante
veremos cmo calcular este valor central y la dispersin de las observaciones en forma
numrica
Polgono de frecuencias
10
Otro recurso grfico que sirve para describir un conjunto de observaciones es el polgono de
frecuencias. Este se construye utilizando un par de ejes perpendiculares al colocar sobre cada
marca de clase un punto a una altura igual a la frecuencia asociada a dicha clase, luego se unen
dichos puntos con segmentos de recta. Para que el polgono quede cerrado se considera un
intervalo ms al inicio (con frecuencia cero) y otro al final (tambin con frecuencia cero). Puede
superponerse el polgono de frecuencias con el histograma o no. En el grfico 4 aparece el
polgono para los datos del ejemplo 3.
16
14
frecuencia absoluta
11
0
51 54 57 60 63 66 69 72 75
Longitud
Grfico 4
53
45
frec. abs. acumulada
38
30
23
15
0
51 54 57 60 63 66 69 72 75
Longitud
Grfico 5
Ojivas
11
Una ojiva es un polgono que se obtiene al unir por segmentos de recta los puntos situados a una
altura igual a la frecuencia acumulada a partir del extremo superior de cada clase. La ojiva,
utilizando las frecuencias acumuladas absolutas se muestran en el siguiente grfico
53
45
30
23
15
0
51 54 57 60 63 66 69 72 75
Longitud
Grfico 6
Los mtodos tabulares y grficos tiene como funcin principal hacer que el analista
aprecie de manera rpida las principales caractersticas de los datos. Sin embargo, las tcnicas
grficas presentan limitaciones en la descripcin y anlisis de las observaciones.
Por ejemplo, las tcnicas tabulares y grficas no se puede utilizar para hacer inferencias
(fin que generalmente se persigue) aunque si pueden ser el punto de partida para algunos
procesos de este tipo.
Media
Quiz sea la medida de posicin o localizacin ms utilizada en la estadstica. Se la suele llamar
promedio de las observaciones. Si los datos provienen de una muestra se la representa por
medio de x . Si los datos provienen de la poblacin se la representa por medio de la letra griega
.
xi
n
x1 x 2 ... x n
x i 1
n n
x 46 54 46 46 32 224 44,8
5 5
Media poblacional
Si una poblacin consta de N observaciones, la media de la poblacin se define de la siguiente
manera
xi
N
i 1
N
2.210 2.255 2.350 2.380 2.380 2.390 2.420 2.440 2.450 2.550 2.630 2.825
Como puede verse este valor de salario represente bastante bien al conjunto de datos.
ste es el fin que generalmente se persigue cuando se calcula la media. Buscar un nmero que
describa o resuma de la mejor manera las observaciones que se tienen.
Suponga ahora que se cambia la ltima observacin por $ 10.000. La media ser ahora
x 3.037,91 $3.038 . Evidentemente ahora esta media o promedio no describe
correctamente los datos. Una sola observacin extrema hizo que el promedio se corriera
hacia arriba. Algo similar ocurrira si en lugar de una observacin muy grande agregamos una
muy pequea. En este caso la media se correr hacia abajo.
Definicin: La mediana es el valor intermedio de las observaciones cuando las misma han sido
ordenadas de manera ascendente o descendente. La simbolizamos Me .
Antes de calcular la mediana debemos ver si contamos con un nmero impar o par de
observaciones. Veremos como se procede en cada caso.
46 54 42 46 32
Solucin: En primer lugar hay que ordenar las observaciones de menor a mayor. Una vez hecho
esto obtenemos
32 42 46 46 54
2.210 2.255 2.350 2.380 2.380 2.390 2.420 2.440 2.450 2.550 2.630 2.825
Aqu, por tratarse de un nmero par de observaciones no existe un nico valor central.
La mediana se encuentra en este caso promediando los dos valores centrales . Por lo tanto
Moda
Definicin: La moda es el valor de la variable que presenta mayor frecuencia. La
simbolizaremos Mo
La moda es una medida descriptiva numrica muy sencilla de calcular pero tiene
algunos inconvenientes. En primer lugar, al igual que la mediana no utiliza todos los datos para
su clculo. Esto la pone en desventaja con la media que s utiliza toda la informacin de la
muestra. Adems, puede ocurrir que un conjunto de datos no posea moda o que posea ms de
una moda. En estos casos no es una medida descriptiva muy til para describir el conjunto de
observaciones.
Proporcin
La proporcin muestral simbolizada p se define como la fraccin de una muestra que posee
determinada caracterstica o propiedad.
As, por ejemplo, si de 80 trabajadores de una empresa 15 tienen ms de 5 aos de
vinculacin con la misma, entonces
p X
N
p x
n
Percentiles
Un percentil da informacin acerca de cmo se distribuyen los datos sobre ciertos intervalos.
Por ejemplo, el p simo percentil divide el conjunto de datos en dos partes. Ms o menos el p
por ciento de las observaciones tiene valores menores al p simo percentil y aproximadamente
el (100 p) por ciento de las observaciones tienen valores mayores que el p simo percentil.
Las observaciones deben estar ordenadas de menor a mayor.
Definicin: El p simo percentil es el valor tal que por lo menos un p por ciento de las
observaciones tienen dicho valor o menos y un (100 p) por ciento de las observaciones tienen
este valor o ms.
Para ver la utilidad de los percentiles analicemos el siguiente ejemplo. Suponga que un
alumno ha sacado una calificacin de 8 puntos en una evaluacin. Si se quiere saber cual ha
sido el desempeo del alumno respecto del conjunto total, lo ideal es calcular un percentil. Si la
calificacin de 8 corresponde al percentil 70, sabremos que aproximadamente el 70% de los
alumnos tuvo una calificacin menor o igual a este valor y que ms o menos un 30% de los
alumno una calificacin mayores que 8.
p
2. Calcular el ndice i n donde p es el percentil de inters y n la cantidad de
100
observaciones.
Ejemplo 8: Utilizando los datos del ejemplo 4, calcular el percentil 85 de los salarios de los
gerentes.
15
Solucin: Los datos estn en orden ascendentes as que obviamos este paso. Calculamos el
ndice i
i 85 12 10,2
100
i 50 12 6
100
Cuartiles
Con frecuencia se busca dividir el conjunto de datos en cuatro partes cada una con el 25% de las
observaciones. A los puntos de divisin se los llama cuartiles y se los definen de la siguiente
manera:
Ejemplo 9: Nuevamente utilizamos los datos del Ejemplo 4 para calcular los 3 cuartiles
Solucin: Dado que los cuartiles son casos especiales de percentiles, para calcular el primer
cuartil procedemos de la siguiente manera
25 12 3
Calculamos en primer lugar el ndice i
100
2.350 2.380 $2.365
Por lo tanto Q1
2
i 75 12 9
100
MEDIDAS DE VERIABILIDAD
Adems de las medida de localizacin, es necesario considerar siempre las medidas de
variabilidad cuando se busca describir un conjunto de observaciones.
Veremos algunas de las razones por las cuales es necesario considerar siempre las
medidas de variabilidad junto con las medidas de localizacin.
1. Nos permitirn estudiar la confiabilidad del promedio o medida de localizacin que se est
utilizando. Una dispersin pequea respecto del promedio indica que los datos se
encuentran muy prximos respecto del mismo. Luego, el promedio podr considerarse
como representativo del conjunto de observaciones. Por el contrario, una dispersin muy
grande respecto del promedio, indicar que los datos se encuentran muy dispersos respecto
del promedio por lo que esta medida no ser una buena medida de localizacin para dicho
conjunto.
Ejemplo 10: Dos departamentos, de 10 trabajadores cada uno, tienen las siguientes
producciones por hora
Departamento 1 7 8 8 9 9 9 9 10 10 11
Departamento 2 3 4 5 6 9 9 12 13 14 15
Rango o amplitud
Es una de las medidas de variabilidad ms sencillas de calcular e interpretar.
Ejemplo 11: Las capacidades de varios recipientes metlicos son 38, 20, 37, 64 y 27 litros. Por
lo tanto
A 64 20 44 litros
Si un conjunto de datos tiene una amplitud igual a 20 y otro conjunto de datos tiene una
amplitud igual a 4, el segundo conjunto presenta menos dispersin que el primero.
El hecho de que para calcular la amplitud se tomen en cuanta solo los valores mximo y
mnimo de un conjunto de observaciones, hace de la amplitud una medida de variabilidad poco
17
precisa (no toma en consideracin todos los datos). No obstante es muy utilizada en el control
estadstico de calidad.
Desviacin media
Esta medida de dispersin, a diferencia la amplitud o rango utiliza todas las observaciones
disponibles para su clculo. Se la denomina tambin desviacin promedio y mide el promedio
de las desviaciones de las observaciones de una muestra o poblacin respecto de la media.
DM
n
Una pregunta que podemos formularnos aqu es porqu utilizar el valor absoluto de las
i 1 ( xi
n
diferencias respecto de la media y no directamente x ) . La respuesta es que
xi
n
DM i 1
N
Ejemplo 12: Los pesos de una muestra de 5 cajas listas para embarcarse son, en kilogramos,
Podemos decir que en promedio, los pesos de las cajas se desvan 2,4kg. de la media.
Varianza
Es otra medida de dispersin que emplea todos los datos para su clculo. Como cualquier
medida descriptiva numrica se puede calcular tanto para la poblacin como para una muestra.
n
2 i 1
( xi x ) 2
s
n 1
2 3 3 5 5 8 10 12
La media de la muestra es
x 2 3 3 ... 12 6
8
Por lo tanto
(2 6) 2 (3 6) 2 ... (12 6) 2
s2 13,14
8 1
Analizando la frmula que define a s 2 puede verse que, exceptuando el hecho de que
la divisin es por ( n 1) y no por n, la varianza sera la media de las desviaciones al cuadrado
de las observaciones respecto de la media aritmtica.
Cabe preguntarse porqu el denominador es (n 1) y no n. La respuesta ms simple
que podemos dar y que analizaremos ms adelante es que la divisin por ( n 1) nos da una
medida ms til para propsitos inferenciales.
El denominador ( n 1) recibe el nombre de grados de libertad. ste concepto
tambin ser analizado ms adelante. La frmula anterior recibe el nombre de frmula
conceptual o frmula de definicin de la varianza de una muestra o varianza muestral. Podemos
utilizar tambin la llamada frmula de clculo que puede deducirse a partir de la frmula de
definicin. La misma es la siguiente
s2
ni 1 x i2
n
x
n
i 1 i
2
n( n 1)
Es decir
s s2
O sea
19
s
i 1 ( xi x ) 2
n
ni 1 x i2
n
x n
i 1 i
2
n 1 n( n 1)
N
2
( x ) 2
i 1 i
N
i 1 ( xi ) 2
N
Coeficiente de variacin
En algunos casos interesa comparar la variabilidad de dos o ms conjuntos de datos. Esto puede
hacerse fcilmente utilizando sus respectivas varianzas o desviaciones estndar cuando las
variables se dan en las mismas unidades y cuando sus medias son relativamente iguales. Cuando
esto no ocurre el coeficiente de variacin es la medida adecuada.
CV s 100
x
Ejemplo 14: Supongamos un conjunto de datos que tenga una media x 44 y un desvo
estndar s 8 . El coeficiente de variacin es en este caso
CV 8 100 18,2%
44
Si tenemos otro conjunto de valores con una media x 2.440 y una desviacin
estndar s 165,65 , este conjunto de datos parece tener ms variabilidad que el primero si la
20
comparacin quiere hacerse solamente utilizando sus desviaciones estndar. Pero tenga en
cuanta que las medias son diferentes as que esta comparacin no es correcta. Lo adecuado es
comparar la variabilidad por medio del coeficiente de variacin que en este caso vale
165,65
CV 100 6,79%
2.440
Estadstica descriptiva
Resumen Salarios
n 12,00
Media 2440,00
D.E. 165,65
Var(n-1) 27440,91
CV 6,79
Mn 2210,00
Mx 2825,00
Mediana 2405,00
Q1 2365,00
Q3 2500,00
Salida 2
REGLA EMPRICA
En la regla emprica se combinan la media y la desviacin estndar de un conjunto de
observaciones con el fin de obtener cierta informacin . Si bien es cierto enunciaremos la regla
para una poblacin, la misma es vlida para una muestra tomada de una poblacin.
Grficamente
95%
2 2
21
99%
Ejemplo 15: En una lnea de produccin se llenan automticamente envases de plstico con
detergente lquido. El peso de llenado tiene una distribucin en forma de campana. Si el peso
promedio de llenado es de 16 gramos y la desviacin estndar es de 0,25 gramos entonces
a) El intervalo 16 0,25 o 15,75 16,25 gramos contendr aproximadamente
el 68% de los pesos de los envases.
DESIGUALDAD DE CHEBYSHEV
Esta regla, si bien es menos precisa que la regla emprica, es ms general dado que se aplica a
cualquier conjunto de observaciones de una poblacin o de una muestra. La misma dice
Ejemplo 16: Los siguientes datos representan los porcentajes del ingreso familiar asignados a la
compra de alimentos en una muestra de 30 familias
26 28 30 37 33 30
29 39 49 31 28 26
33 24 34 40 29 41
40 29 35 44 32 45
35 26 42 36 37 35
a) Calcular la media, la varianza y la desviacin estndar del porcentaje del ingreso gastado en
alimentos.
b) Verifique que la desigualdad de Chebyshev es vlida para k 2 .
22
Solucin: El lector puede verificar sin mayores dificultades que x 34,10 y que s 6,34 .
La regla de Chebyshev indica que si k 2 , entonces al menos o por lo menos el 75% de las
observaciones deben estar en el intervalo x 2 s . Utilizando los valores calculados tendremos
Densidad
Variable Variable
3( x M e )
CA
s
Ejemplo 17: Un conjunto de observaciones tiene una media x 2.436 , una mediana
M e 2.459 y una desviacin estndar s 76,7 . Por lo tanto
3( x M e ) 3( 2.436 2.459)
CA 0,91
s 76,7
DISTRIBUCIONES BIDIMENSIONALES
Analizaremos a continuacin las llamadas distribuciones bidimensionales en donde en cada
elemento o individuo se observan simultneamente dos caractersticas o variables en lugar de
una.
Ejemplo 18: Suponga que se recogieron datos sobre la evolucin del stock de 40 PYMES que
si bien llevan un mtodo de inventarios tuvieron ruptura de stock dentro de un perodo
determinado. Las empresas consideradas tienen caractersticas similares. Se presenta a
continuacin una tabla con las frecuencias absolutas y otra con las frecuencias relativas para
cada par de variables
Produccin en unidades
Ruptura 12.000 13.000 15.000 Total
1 5 4 3 n1 . 12
2 6 5 2 n 2 . 13
3 8 7 0 n 3 . 15
Total n.1 19 n. 2 16 n. 3 5 40
Tabla 7
Produccin en unidades
Ruptura 12.000 13.000 15.000 Total
1 0,125 0,10 0,075 0,30
2 0,15 0,125 0,05 0,325
3 0,20 0,175 0 0,375
Total 0,475 0,40 0,125 1
Tabla 8
La suma de todas las frecuencias relativas conjuntas debe ser igual a uno. Osea
i 1 j 1 hij 1 .
f c
24
Distribuciones marginales
Se denomina distribucin marginal a la que se obtiene al acumular la suma de las frecuencias de
las filas o de las columnas analizando cada variable con independencia de la otra.
En los mrgenes de la tabla 7 y de la tabla 8 se encuentran el clculo de las frecuencias
marginales conformando dos distribuciones marginales, una para la variable fila y otra para la
variable columna.
n1 . j 1 n1 j 12 (Primera fila)
3
n 3 . j 1 n 3 j 15 (Tercera fila)
3
De las empresas que han tenido 2 veces ruptura de stock, el 39% produjeron 13.000
unidades.
25
De las empresas que tuvieron una mayor produccin, tuvieron menor cantidad de veces
rupturas de stock. Sin embargo, las que tuvieron una menor produccin tuvieron una mayor
cantidad de rupturas de stock.
Si se dividen las frecuencias absolutas de cada celda con las frecuencias marginales de cada
columna se obtienen las frecuencias relativas basadas en totales columnas. En nuestro ejemplo
obtendremos la siguiente tabla
Produccin en unidades
Rupturas 12.000 13.000 15.000
1 0,26 0,25 0,60 0,300
2 0,32 0,31 0,40 0,325
3 0,42 0,44 0 0,375
Total 1 1 1 1
Tabla 10
De las empresas que produjeron 13.000 unidades, el 31% tuvieron 2 veces ruptura de stock.
Para las empresas que produjeron 15.000 unidades, el mayor porcentaje de empresas tuvo
una sola vez ruptura de stock.
Ejemplo 19: Suponga que en una muestra de 40 casas de la ciudad se ha registrado el tipo de
vivienda (A, B y C) y el tipo de estacionamiento para cada una de ellas. Toda la informacin se
registr en la siguiente tabla
Tipo de estacionamiento
Para un Para dos Para ms de dos
Tipo de vivienda Ninguno Totales
automvil automviles automviles
A 1 4 4 3 12
B 2 12 3 1 18
C 4 4 2 0 10
Totales 7 20 9 4 40
Tabla 11
Todas stas tablas pueden hacerse utilizando el programa InfoStat. La salida producidas
por este software correspondientes al ejemplo 18 se muestran a continuacin
26
Tablas de contingencia
Frecuencias: Frecuencias
Frecuencias absolutas
En columnas: Produccin
Rupturas 12000 13000 15000 Total
1 5 4 3 12
2 6 5 2 13
3 8 7 0 15
Total 19 16 5 40
10 2 46
Tabla 12
64
57
Ventas
51
44
37
1 2 3 4 5
Comercialas
Grfico 7
10 10
8 8
5 5
y
3 3
1 0
1 2 4 5 6 1 2 3 4 5
x x
28
a b
Grfico 8
El diagrama de dispersin del grfico 8 (a) sugiere que se podra emplear una lnea recta
de pendiente negativa como una aproximacin a la relacin entre las variables. El grfico 8 (b)
sugiere que entre las variables no estn relacionadas. En este caso se dice que las mismas son
independientes.
A continuacin presentamos la covarianza como una medida descriptiva numrica de la
asociacin lineal entre las variables.
COVARIANZA
Para una muestra de n elementos, con sus correspondientes parejas de datos
( x1 , y1 ), ( x 2 , y 2 ) etc. la covarianza de la muestra se simboliza y define de la siguiente
manera
( x i x )( y i y )
n
s xy i 1
n 1
30 3 y 510 51
Como x y , tendremos
10 10
( xi x )( y i y )
N
xy i 1
N
Interpretacin de la covarianza
Para entender como debe interpretarse la covarianza muestral analicemos el grfico 9 . Esta es
el mismo grfico 7 pero con una recta vertical trazada en x 3 y otra horizontal traza en
y 51 .
29
64
II I
57
Ventas
51
44
III IV
37
1 2 3 4 5
Comerciales
Grfico 9
COEFICIENTE DE CORRELACIN
Para los datos de una muestra, el coeficiente de correlacin de Pearson se simboliza y se define
de la siguiente manera
s xy
rxy
sx s y
en donde
rxy coeficiente de correlacin muestral
s xy covarianza muestral
30
i 1 ( xi x ) 2
10
20
sx 1,4907
n 1 9
i 1 ( y i y ) 2
n
566
sy 7,9303
n 1 9
Por lo tanto
11
rxy 0,93
(1,4907)(7,9303)
xi i 1 y i
n n
i 1 xi y i
n
i 1
rxy n
x n 2
y
n 2
i 1 x i2 i 1 i
i 1 y i2
n n i 1 i
n n
sta frmula nos ahorra el hecho de tener que calcular las desviaciones ( x i x ) y
( y i y ) . Utilizando sta ltima frmula tendremos
(30)(510)
1.690
rxy 10 0,93
110 90 26.576 26.010
donde
xy covarianza de la poblacin
x 1 2 3
y 10 30 50
Tabla 13
52
39
26
y
13
0
0 1 2 2 3
x
Grfico 10
La recta que se traz y que pasa por cada uno de los tres puntos indica que hay una
relacin lineal perfecta entre las dos variables x e y. Puede demostrarse sin dificultad que
220 6(90) / 3
rxy 1
14 6 2 / 3 3.500 90 2 / 3
Vemos as que el valor del coeficiente de correlacin muestral para este conjunto de
datos es igual a 1. En general, si todos los puntos de un conjunto de datos caen en una lnea
recta con pendiente positiva, el valor del coeficiente de correlacin es +1. Esto es, un
coeficiente de correlacin muestral igual +1 corresponde a una relacin lineal positiva perfecta
entre x e y. Por otro lado, si los puntos de un conjunto de datos estn en una recta que tiene
pendiente negativa, el valor del coeficiente de correlacin muestral es 1. Es decir, un
coeficiente de correlacin muestral igual a 1 indica una relacin lineal negativa perfecta entre
x e y.
Supongamos ahora que para cierto conjunto de datos, hay una relacin lineal positiva
entre x e y pero que esta relacin no es perfecta. El valor de rxy ser menor que uno, lo que
implica que los puntos del diagrama de dispersin no estn perfectamente alineados. A medida
que los puntos se desvan ms y ms de una relacin lineal positiva perfecta, el valor de rxy se
hace ms y ms pequeo. Un valor de rxy igual a cero indica que no hay relacin lineal entre
32
las variables. Los valores de rxy cercanos a cero sealan una relacin lineal dbil. En general
1 rxy 1 .
Para el ejemplo que hemos venido analizando, obtuvimos rxy 0,93 . Luego, hay una
fuerte relacin lineal positiva entre la cantidad de comerciales y las ventas. Ms
especficamente, un aumento en la cantidad de comerciales se asocia con un aumento de las
ventas.
En el grfico 11se muestran los puntos de datos junto con la mejor recta que se ajusta
a los mismo. En la unidad VI veremos como encontrar sta recta.
64
56
Ventas
47
39
30
0 1 3 4 5
Comercialas
Grfico 11
Recuerde que rxy mide la fuerza de la relacin lineal entre dos variables. Pueden estar
relacionadas no linealmente y por lo tanto rxy 0 .