Vous êtes sur la page 1sur 32

1

UNIDAD 1

ESTADSTICA DESCRIPTIVA

CONCEPTOS BSICOS
Para la mayora de la gente, la estadstica solo significa un conjunto de tablas, grficos y
algunas medidas numricas. A diario, y en la mayora de los medios de comunicacin, se
pueden encontrar estadsticas sobre la produccin industrial, sobre el nmero de personas
ocupadas y desocupadas, sobre la produccin de automviles nuevos, etc.

Aunque estos ejemplos reflejan en parte qu es y de que se ocupa la estadstica, esta palabra
tiene un significado ms amplio para aquellas personas que la utilizan a menudo en su trabajo.

Debido a lo extenso y variado del campo cubierto por la estadstica es difcil proponer una
definicin precisa de esta ciencia. No obstante, todos los estadsticos estn de acuerdo en
clasificarla en dos tipos, la estadstica descriptiva y la estadstica inferencial. Ambas
desempean funciones distintas pero complementarias en el anlisis estadstico.

La estadstica descriptiva se ocupa del resumen y descripcin de los datos. Dicho resumen
puede ser tabular, grfico o numrico. El anlisis se limita a los datos recolectados y no se
realizan inferencias o generalizaciones acerca de la totalidad de donde provienen esas
observaciones (poblacin).

Por ejemplo, suponga que el jefe de personal somete a un test de aptitud a un grupo de
empleados de la empresa, entre lo que puede hacer con las puntuaciones que resulten del test a
partir de la estadstica descriptiva estn los aspectos siguientes: arreglar las puntuaciones o
clasificarlas de manera que se pueda tener una imagen general de las mismas, calcular el
promedio de las puntuaciones, construir tablas, grficas y cuadros para visualizar el
comportamiento de los datos, etc.
Si bien es cierto la descripcin de los datos recolectados es a veces el fin que se persigue, en la
mayora de los trabajos estadsticos estamos ms bien al comienzo de la tarea que al final de la
misma. Esto es as porque el objetivo ltimo de la tarea estadstica es el extraer conclusiones
sobre todas las observaciones posibles, con base a la informacin recolectada. Es decir, la
estadstica descriptiva no es ms que un trabajo preliminar para la inferencia, entendindose
como inferencia estadstica el proceso de hacer predicciones acerca de un todo a partir de la
informacin contenida en una muestra.

Veremos a continuacin una serie de conceptos que se utilizarn extensamente a lo largo


de nuestra asignatura. La lista ser lo ms breve posible limitndonos a aquellos que
utilizaremos inmediatamente dejando para ms adelante los dems, los que sern definidos a
medida que los necesitemos.

Variable: Es toda caracterstica que toma diferentes valores en distintas personas, lugares o
cosas. Por ejemplo, la altura o el peso de las personas, el ingreso de los trabajadores de la
industria de la madera, etc.

Variable aleatoria: Cuando los valores que asume una variable han sido antecedidos por una
seleccin aleatoria de los objetos medidos o son el resultado de algn proceso al azar, tendremos
una variable aleatoria. Las variables aleatorias usualmente se denotan por las letras X, Y, Z y sus
valores por las respectivas minsculas.
As, si de las cajas de ahorro de los clientes de un banco se eligen 5 al azar un da
determinado, la variable saldo en la caja de ahorro de cada cliente constituye una variable
2

aleatoria que puede llamarse X . Si alguna de las cajas tiene un saldo de $1.000 entonces
x = 1.000.
Variable discreta: Es aquella que puede tomar un nmero finito o infinito contable de valores.
Por ejemplo, el nmero de accidentes anuales en una esquina de una ciudad, el nmero de
personas que llegan por hora a un banco a solicitar algn servicio, etc. Por lo general las
variables discretas se generan en los procesos de contar.

Variable continua: Es aquella que al menos en teora puede tomar cualquier valor dentro de un
intervalo de valores. Por ejemplo la estatura de las personas, el tiempo requerido para finalizar
una tarea, etc. Las variables continuas se generan en los procesos de medicin.

Variable cuantitativa: Es aquella que asume valores numricos acompaados de una unidad de
medida. Por ejemplo, el ingreso por familia en determinados sectores de la ciudad, el peso de
una persona, etc.

Variable cualitativa: Los valores que asume corresponden a categoras de una clasificacin
como el estado civil, el lugar de nacimiento, etc.

Poblacin: Es el conjunto formado por todos los valores posibles de una variable aleatoria. Por
ejemplo, si en un estudio en particular se efectuar una investigacin sobre las ventas anuales de
todos los comercios de la ciudad de Posadas, entonces las ventas anuales constituyen la
poblacin.
Es importante tener en cuenta que el termino poblacin puede interpretarse de dos
maneras. En primer lugar, considerar a la poblacin como el conjunto de todos los valores
posibles de una variable, en segundo lugar, como el conjunto de todos los objetos sobre los
cuales acta la variable considerada.
As, si se quiere estudiar los ingresos de los trabajadores de la industria del t, la
poblacin incluye a todos los trabajadores de dicha industria (unidades elementales o
individuales) o todos los ingresos de los trabajadores de la industria del t (observaciones).

Muestra: Una muestra es cualquier subconjunto de la poblacin elegido bajo ciertos criterios de
seleccin. La muestra es el elemento bsico sobre la cual se basa la posterior inferencia acerca
de la poblacin.
El concepto de muestra tiene tambin las dos connotaciones que hemos sealado para la
poblacin.

Las caractersticas de una poblacin se resumen para su estudio a travs de los


denominados parmetros. Por ejemplo, la media aritmtica de las cuentas corrientes de los
clientes de un banco determinado constituye un parmetro de la poblacin de las cuentas de los
clientes de ese banco.
Cuando las caractersticas de la poblacin estudiada se reduce a una muestra, el
resumen de esa caracterstica se hace mediante un estadstico. As, por ejemplo, si se toman 100
cuentas del total de las cuentas corrientes, las 100 observaciones conforman una muestra y la
media aritmtica de los saldos es un estadstico.
La inferencia estadstica se ocupa en sacar conclusiones acerca de un parmetro o
parmetros de una poblacin con base en el valor de un estadstico obtenido a partir de los datos
muestrales extrados de esa poblacin.

Por lo general, los datos que se obtienen en una investigacin estadstica no son
susceptibles de ser analizados e interpretados en la forma que se recogen. Presentaremos a
continuacin algunas procedimientos tabulares y grficos que son utilizados para resumir las
observaciones tanto de variables cualitativas como cuantitativas. Como veremos, al utilizar
estos procedimientos podremos visualizar algunas de las propiedades de las observaciones con
la que se cuenta.
3

RESUMEN DE DATOS CUALITATIVOS


Distribuciones de frecuencias
En primer lugar veremos como es posible resumir datos provenientes de una variable
cualitativa. Una excelente herramienta para ello son las distribuciones de frecuencias.
El objetivo de una distribucin de frecuencias es el de proporcionar una perspectiva de
los datos a fin de que con un solo vistazo podamos extraer conclusiones sobre los mismos.

Ejemplo 1: La siguiente distribucin de frecuencias muestra las cantidades de latas de refresco


vendidas por un comercio un da determinado

Marca de refresco Frecuencia


Coke Classic 19
Diet Coke 8
Dr. Pepper 5
Pepsi Cola 13
Sprite 5
Total 50
Tabla 1

Una distribucin de frecuencias para datos cualitativos es muy sencilla de armar. En la


primera columna se colocan las categoras de la variable y en la segunda su frecuencia absoluta
o su frecuencia relativa que se obtienen a partir del conteo o de registros previamente
confeccionados.
Al completar la distribucin de frecuencias del ejemplo es posible ver que la marca ms
vendida ha sido Coke Classic y que Dr. Pepper y Sprite fueron las menos vendidas.

Distribuciones de frecuencias relativas y porcentuales


La distribucin de frecuencias muestra la cantidad (frecuencia absoluta) de datos
correspondiente a una determinada categora de la variable.
Muchas veces interesa conocer tambin la proporcin o porcentaje de los artculos de
cada clase.

Si tenemos un conjunto de n observaciones, la frecuencia relativa de la clase i se calcula


de la siguiente manera

Frecuencia de la clase
Frecuencia relativa de la clase i
n

O bien

fi
fri
n

donde fri es la frecuencia relativa de la clase i y f i su frecuencia absoluta.

La frecuencia porcentual es la frecuencia relativa de una clase expresada en porcentaje.

Podemos ahora completar la tabla 1 con las frecuencias relativas y las porcentuales
obtenindose la tabla 2.
4

Marca de refresco Frecuencia fi fri (fri)100 (%)


Coke Classic 19 0,38 38
Diet Coke 8 0,16 16
Dr. Pepper 5 0,10 10
Pepsi Cola 13 0,26 26
Sprite 5 0,10 10
Total 50 1,00 100
Tabla 2

En base a los datos y a los resultados de la tabla puede verse que el 38% de las ventas
de ese da fueron para Coke Classic y que le siguen Pepsi Cola con un 26% y Diet Coke con un
16%. Puede apreciase tambin que el 80% de las ventas de refresco de ese da corresponden a
estas tres marcas.

Grficos de barras y diagramas circulares


Un grfico de barras es una forma grfica de presentar datos cualitativos que se han resumido
previamente en una distribucin de frecuencias. Para la construccin de un diagrama de barras
se utiliza un par de ejes ortogonales.
En el eje horizontal se marcan las distintas categoras de la variable y sobre el vertical
las frecuencias absolutas o las frecuencias relativas. El ancho de las barras debe ser el mismo y
su altura igual a las frecuencias absolutas o relativas.
Las barras se separan con el fin de indicar que cada clase es una categora
independiente.

El siguiente grfico muestra un diagrama de barras para el ejemplo de las ventas de


refresco.
20 19

16
Frecuencia absoluta

13
13

9 8

6 5 5

2
Diet Coke Pepsi Cola
Coke Classic Dr Pepper Sprite

Marca

Grfico 1

El grfico de barras para las frecuencias relativas es similar a ste solo que en el eje
vertical se registran las frecuencias relativas y no las absolutas.

Los diagramas circulares pueden utilizarse tambin para representar distribuciones de


frecuencia para datos cualitativos. Supongamos que queremos representar las frecuencias
relativas de la distribucin de frecuencias de las latas de refrescos vendidas en un da por el
comercio considerado.
Para trazarlo se dibuja primero un crculo y a continuacin se divide el crculo en
sectores o partes proporcionales a las frecuencias relativas de cada clase.
5

Por ejemplo, hay 360 en el crculo, como Coke Classic tiene 0,38 de frecuencia
relativa le corresponder un sector de 136,8.
El resto de los sectores se calcula de la misma manera. El diagrama circular para los
datos del Ejemplo 1 es el siguiente

Sprite
10%

Coke Classic
38%
Pepsi Cola
26%

Dr. Pepper
Diet Coke
10% 16%

Grfico 2

RESUMEN DE DATOS CUANTITATIVOS


Las distribuciones de frecuencias pueden utilizarse para datos provenientes tanto de una
variable cualitativa como cuantitativa. Sin embrego, las tablas para datos de una variable
cuantitativa son un poco ms elaboradas.
Presentamos a continuacin una distribucin de frecuencias para datos cuantitativos con
el fin de mostrar cules son sus partes. Luego veremos como se las construye.

Ejemplo 2: En la siguiente distribucin de frecuencias se muestran la longitud, en pulgadas, de


una muestra de 50 barras de acero producidas cierto da por una fbrica

Clase Intervalos (pulgadas) Frecuencia absoluta fi


1 53 55 2
2 56 58 5
3 59 61 9
4 62 64 15
5 65 67 12
6 68 70 5
7 71 73 2
Total 50
Tabla 3

En la primera columna de la tabla aparecen identificados los intervalos o clases. La


segunda columna es la columna de los intervalos para la variable considerada, longitud en
pulgadas en este caso. La tercera columna nos indica el nmero de observaciones (frecuencia
absoluta) que tenemos en cada intervalo.
As, en el intervalo [62 64] pulgadas, encontramos que hay 15 barras. Si bien es
cierto, al agrupar las observaciones en una distribucin de frecuencias se pierde informacin en
el proceso de condensacin, se obtiene una mejor aproximacin en la identificacin de las
caractersticas ms sobresaliente de las mismos.
6

Construccin de una distribucin de frecuencias para datos cuantitativos


La primera cuestin que deber resolverse cuando se busca construir una distribucin de
frecuencias para datos cuantitativos es decidir cuntos intervalos (clases) se considerarn. Este
nmero depender principalmente de la cantidad de datos a resumir.
El nmero de intervalos no puede ser muy grande (longitud de los intervalos muy
pequea) pues esto puede dar lugar a que cada clase o intervalo tenga muy pocos datos o incluso
ninguno lo que no permitir apreciar las caractersticas ms sobresaliente de los mismos. Un
nmero pequeo de intervalos (longitud grande) puede ocultar la naturaleza general de las
observaciones.
Presentamos a continuacin algunas recomendaciones que pueden ayudar en la
construccin de una distribucin de frecuencias para datos cuantitativos.

1. El nmero de intervalos debe elegirse de acuerdo al nmero de datos. El nmero k


aproximado de intervalos aconsejados puede calculares con la frmula de Sturges:

k 1 3,322 log(n)
donde n es el nmero de observaciones.

2. Una vez elegido el valor de k, se determina la longitud l que debern tener los intervalos.
Esto puede hacerse, tambin en forma aproximada, utilizando la frmula

Dato mayor - Dato menor


l
k

3. El primer intervalo debe contener el menor de los datos y el ltimo el mayor. Todos los
intervalos deben tener la misma longitud.

4. Se construye una tabla en la cual, en la primera columna se identifican las clases (1, 2, ...,
k). en la segunda se identifican los intervalos y en la tercera columna las frecuencias
absolutas.

Ejemplo 3: Suponga que el gerente de calidad de una empresa metalrgica desea analizar como
varan las longitudes de las barras de hierro producidas cierto da por la empresa. Para ello toma
una muestra de 50 barras producidas, las mide y decide agrupar la informacin en una
distribucin de frecuencias. Los datos recogidos fueron los siguientes:

Longitud (en pulgadas) de 50


barras de hierro
65 63 65 63 69 67 53 58 60 61
64 65 64 72 68 66 55 57 60 62
64 65 64 71 68 66 56 59 61 62
63 65 63 70 67 66 57 59 61 62
64 64 63 69 67 66 58 60 61 62
Tabla 4

En primer lugar calculamos el nmero de intervalos que tendr la distribucin. Para ello
utilizamos la frmula de Sturges.

k 1 3,322 log(50) 6,64

Tomamos k 7 intervalos. En segundo lugar calculamos la amplitud de cada uno de


ellos.
7

l 72 53 2,7
7

Tomamos l 3 . El siguiente paso es determinar donde comienza el primer intervalo.


Lo que habitualmente se hace es considerar el comienzo del primer intervalo en el dato menor,
es decir 53. Como la longitud de los intervalos es 3, el primero ser el intervalo [53 55], el
segundo [56 58], etc.
Una vez armada las primeras dos columnas de la tabla es el siguiente paso es contar
cuantas observaciones (frecuencia) caen dentro de cada intervalo. Es conveniente que todo dato
contabilizado sea tachado de la lista para evitar equivocaciones.
En el primer intervalo caen las observaciones 53 y 55, luego f 1 2 . En el segundo
intervalo caen las observaciones 58, 57, 56, 57 y 58 luego f 2 5 , etc. Por ltimo se coloca
toda la informacin en la siguiente tabla:

Clase Intervalos (pulgadas) Frecuencia absoluta fi


1 53 55 2
2 56 58 5
3 59 61 9
4 62 64 15
5 65 67 12
6 68 70 5
7 71 73 2
Total 50

que no es ms que la tabla 3 de la pgina 5 de este material.

Observe que los intervalos que hemos considerado estn separados entre s por una
unidad. Esto indicara que la variable longitud da saltos de intervalo a intervalo lo cual parece
no tener sentido con la condicin de continuidad de la misma.
Con el propsito de construir una tabla que refleje la idea de continuidad de la variable,
los intervalos deben estar unidos y es por ello se procede de la siguiente manera: el extremo
52 53 52,5
inferior del primer intervalo se sustituye por ; el extremos superior del primer
2
55 56 55,5
intervalo lo reemplazamos por . Este valor pasa a ser el extremo superior del
2
primer intervalo y el extremo inferior del segundo. Se contina de la misma manera con el resto
de los intervalos y los resultados obtenidos se dan en la tabla 5

Clase Intervalo fi
1 52,5 55,5 2
2 55,5 58,5 5
3 58,5 61,5 9
4 61,5 64,5 15
5 64,5 67,5 12
6 67,5 70,5 5
7 70,5 73,5 2
Total 50
Tabla 5

Cuando los intervalos se toman en la forma indicada en la tabla 5 se los llama intervalos
reales. Cuando se los toma como en la tabla 3 reciben el nombre de intervalos ficticios.
8

La tabla de frecuencias puede completarse para obtener ms informacin sobre el


conjunto de observaciones. Damos a continuacin algunas definiciones.

Definicin: Se llama marca de clase del intervalo i al punto medio del intervalo de clase
correspondiente. Lo denotaremos por mi .

As, para el intervalo [52,5 55,5] de la tabla anterior, tendremos

52,55 55,5
m1 54
2

Definicin: Se llama frecuencia acumulada de la clase i al nmero que resulta de sumar la


frecuencia de la clase i con las frecuencias de las clases que le anteceden. La denotaremos Fi.

As, F1 2 , F2 2 5 7 , F3 9 7 16 ,..., F7 50

Definicin: Se llama frecuencia relativa de la clase i al cociente entre la frecuencia de la clase i


y el total de los datos. La simbolizaremos fri . Es decir

fi
fri
n

As, para el primer intervalo tendremos fr1 2 / 50 0,04 , para el segundo


fr2 5 / 50 0,10 , etc.

Definicin: Se llama frecuencia relativa acumulada de la clase i al nmero que resulta de sumar
la frecuencia relativa de la clase i con la frecuencia relativa de las clases que le anteceden. La
simbolizaremos Fri

As, para el primer intervalo tendremos Fr1 0.04 , para la segunda, Fr2 0.14 ,...,
Fr7 1 .
Toda esta informacin se resume en la siguiente tabla

Intervalo Marca de clase fi Fi fri Fri


Clase
1 52,5 55,5 54 2 2 0,04 0,04
2 55,5 58,5 57 5 7 0,10 0,14
3 58,5 61,5 60 9 16 0,18 0,32
4 61,5 64,5 63 15 31 0,30 0,62
5 64,5 67,5 66 12 43 0,24 0,86
6 67,5 70,5 69 5 48 0,10 0,96
7 70,5 73,5 72 2 50 0,04 1,00
Total 50 1,00
Tabla 6

La salida del InfoStat se muestra a continuacin

Distribucin de frecuencias
9

Variable Clase LI LS MC FA FR FAA FRA


Longitud 1 52,50 55,50 54,00 2 0,04 2 0,04
Longitud 2 55,50 58,50 57,00 5 0,10 7 0,14
Longitud 3 58,50 61,50 60,00 9 0,18 16 0,32
Longitud 4 61,50 64,50 63,00 15 0,30 31 0,62
Longitud 5 64,50 67,50 66,00 12 0,24 43 0,86
Longitud 6 67,50 70,50 69,00 5 0,10 48 0,96
Longitud 7 70,50 73,50 72,00 2 0,04 50 1,00
Salida 1

Histogramas
Un histograma de frecuencias o simplemente histograma es una representacin visual de los
datos resumidos en una tabla como la anterior. Un histograma es similar a un diagrama de barras
para datos cualitativos solo que aqu las barras se colocan unidas para dar una idea de
continuidad de la variable estudiada.
Un histograma se construye de la siguiente manera:

1. La base de los rectngulos se localizan en el eje horizontal. El ancho de las barras es igual a
la longitud de los intervalos.

2. Las alturas de los rectngulos se registran sobre el eje vertical y corresponden a las
frecuencias (absolutas o relativas) de las clases.

3. Las reas de los rectngulos son proporcionales a las frecuencias de las clases.

En el siguiente grfico se muestra el histograma de frecuencias absolutas para los datos


del ejemplo analizado.

16

14
frecuencia absoluta

11

0
51 54 57 60 63 66 69 72 75
Longitud

Grfico 3

Observacin: Los intervalos estn centrados en las marcas de clase para simplificar la
construccin del grfico.
Pueden verse, analizando el histograma, algunas propiedades del conjunto de datos. Por
ejemplo, las observaciones estn centradas alrededor de x 63 y que la dispersin de las
observaciones respecto de ste valor de la variable es ms o menos simtrica. Ms adelante
veremos cmo calcular este valor central y la dispersin de las observaciones en forma
numrica

Polgono de frecuencias
10

Otro recurso grfico que sirve para describir un conjunto de observaciones es el polgono de
frecuencias. Este se construye utilizando un par de ejes perpendiculares al colocar sobre cada
marca de clase un punto a una altura igual a la frecuencia asociada a dicha clase, luego se unen
dichos puntos con segmentos de recta. Para que el polgono quede cerrado se considera un
intervalo ms al inicio (con frecuencia cero) y otro al final (tambin con frecuencia cero). Puede
superponerse el polgono de frecuencias con el histograma o no. En el grfico 4 aparece el
polgono para los datos del ejemplo 3.

16

14
frecuencia absoluta
11

0
51 54 57 60 63 66 69 72 75
Longitud

Grfico 4

El polgono de frecuencias al ser construdo a partir de datos muestrales, se puede


considerar como una representacin aproximada del comportamiento poblacional, el cual, para
poblaciones infinitas, est dado por una curva continua.

Histograma de frecuencias acumuladas


El histograma de frecuencias acumuladas (absolutas o relativas) se construye con el mismo
procedimiento establecido en la construccin del histograma de frecuencias.
Seguidamente se muestra el histograma de frecuencias acumuladas absolutas para los
datos del ejemplo 3.

53

45
frec. abs. acumulada

38

30

23

15

0
51 54 57 60 63 66 69 72 75
Longitud

Grfico 5
Ojivas
11

Una ojiva es un polgono que se obtiene al unir por segmentos de recta los puntos situados a una
altura igual a la frecuencia acumulada a partir del extremo superior de cada clase. La ojiva,
utilizando las frecuencias acumuladas absolutas se muestran en el siguiente grfico

53

45

frec. abs. acumulada


38

30

23

15

0
51 54 57 60 63 66 69 72 75
Longitud

Grfico 6

Tambin se pueden construir ojivas utilizando las frecuencias relativas.

Los mtodos tabulares y grficos tiene como funcin principal hacer que el analista
aprecie de manera rpida las principales caractersticas de los datos. Sin embargo, las tcnicas
grficas presentan limitaciones en la descripcin y anlisis de las observaciones.
Por ejemplo, las tcnicas tabulares y grficas no se puede utilizar para hacer inferencias
(fin que generalmente se persigue) aunque si pueden ser el punto de partida para algunos
procesos de este tipo.

MEDIDAS DESCRIPTIVAS NUMRICAS


A continuacin presentaremos varios mtodos numricos de la estadstica descriptiva que
tambin son utilizados para resumir y describir un conjunto de observaciones.
Existen varias medidas de localizacin, dispersin y de asociacin. Como hemos dicho
al principio de la unidad, si se calculan a partir de los datos de una muestra reciben el nombre de
estadsticos. Si se calculan a partir de los datos de la poblacin reciben el nombre de
parmetros. En primer lugar analizaremos las medidas de posicin o de localizacin.

Media
Quiz sea la medida de posicin o localizacin ms utilizada en la estadstica. Se la suele llamar
promedio de las observaciones. Si los datos provienen de una muestra se la representa por
medio de x . Si los datos provienen de la poblacin se la representa por medio de la letra griega
.

Definicin: Sean x1 , x 2 ,..., x n valores de una muestra de la variable X, entonces

xi
n
x1 x 2 ... x n
x i 1
n n

Por ejemplo, supongamos tener los siguientes datos x1 46 , x 2 54 , x 3 46 ,


x 4 46 y x 5 32 provenientes de una muestra de tamao 5. Por lo tanto
12

x 46 54 46 46 32 224 44,8
5 5

Media poblacional
Si una poblacin consta de N observaciones, la media de la poblacin se define de la siguiente
manera

xi
N

i 1
N

Difcilmente la media poblacional sea conocida y es por ello que generalmente se la


estima por medio de x . Ms adelante volveremos sobre el problema de estimacin.

Aunque la media es la medida de localizacin o posicin ms utilizada tiene el


problema que puede ser muy influenciada por valores extremos del conjunto de observaciones.
Analicemos el siguiente ejemplo.

Ejemplo 4: Supongamos que las siguientes 12 observaciones representan una muestra de 12


salarios mensuales, en pesos, de gerentes de una gran compaa.

2.210 2.255 2.350 2.380 2.380 2.390 2.420 2.440 2.450 2.550 2.630 2.825

Calcular la media de los salarios.


Solucin: Como se trata de una muestra tendremos

x 2.210 2.255 ... 2.825 $2.440


12

Como puede verse este valor de salario represente bastante bien al conjunto de datos.
ste es el fin que generalmente se persigue cuando se calcula la media. Buscar un nmero que
describa o resuma de la mejor manera las observaciones que se tienen.

Suponga ahora que se cambia la ltima observacin por $ 10.000. La media ser ahora
x 3.037,91 $3.038 . Evidentemente ahora esta media o promedio no describe
correctamente los datos. Una sola observacin extrema hizo que el promedio se corriera
hacia arriba. Algo similar ocurrira si en lugar de una observacin muy grande agregamos una
muy pequea. En este caso la media se correr hacia abajo.

Cuando en el conjunto de observaciones se detecta algn o algunos valores extremos


podemos buscar el centro de los datos con otra medida muy utilizada en la estadstica
descriptiva que es la mediana.

Definicin: La mediana es el valor intermedio de las observaciones cuando las misma han sido
ordenadas de manera ascendente o descendente. La simbolizamos Me .

Antes de calcular la mediana debemos ver si contamos con un nmero impar o par de
observaciones. Veremos como se procede en cada caso.

Ejemplo 5: Calcular la mediana del siguiente conjunto de observaciones


13

46 54 42 46 32
Solucin: En primer lugar hay que ordenar las observaciones de menor a mayor. Una vez hecho
esto obtenemos

32 42 46 46 54

Como se trata de un nmero impar de observaciones la mediana es Me 46 .

Ejemplo 6: Analicemos nuevamente la muestra de los 12 salarios de los gerentes, datos


estudiados en el ejemplo 4

2.210 2.255 2.350 2.380 2.380 2.390 2.420 2.440 2.450 2.550 2.630 2.825

Aqu, por tratarse de un nmero par de observaciones no existe un nico valor central.
La mediana se encuentra en este caso promediando los dos valores centrales . Por lo tanto

Me 2.390 2.420 $2.405


2

Si cambiamos la ltima observacin de $2.850 a $10.000 la mediana seguir siendo la


misma. Por lo tanto no se ve afectada por valores extremos del conjunto de observaciones.

Moda
Definicin: La moda es el valor de la variable que presenta mayor frecuencia. La
simbolizaremos Mo

Ejemplo 7: Para el conjunto formado por los 12 salarios, la moda es Mo $2.380 .

La moda es una excelente medida descriptiva cuando se quiere describir un conjunto de


datos provenientes de una variable cualitativa.

Si consideramos la distribucin de frecuencias del Ejemplo 1 de este material, la moda


es Mo Coke Classic dado que es valor de la variable que presenta la mayor frecuencia.

La moda es una medida descriptiva numrica muy sencilla de calcular pero tiene
algunos inconvenientes. En primer lugar, al igual que la mediana no utiliza todos los datos para
su clculo. Esto la pone en desventaja con la media que s utiliza toda la informacin de la
muestra. Adems, puede ocurrir que un conjunto de datos no posea moda o que posea ms de
una moda. En estos casos no es una medida descriptiva muy til para describir el conjunto de
observaciones.

Proporcin
La proporcin muestral simbolizada p se define como la fraccin de una muestra que posee
determinada caracterstica o propiedad.
As, por ejemplo, si de 80 trabajadores de una empresa 15 tienen ms de 5 aos de
vinculacin con la misma, entonces

Proporcin de trabajadores con ms de 5 aos p 15 0,1875


80

o bien, el 18,75% de los empleados de la empresa tiene ms de 5 aos de vinculacin con la


misma.
Si la poblacin bajo estudio es finita y de tamao moderado, se podr calcular la
proporcin poblacional haciendo el cociente entre todos los objetos que tienen la propiedad
14

deseada y el nmero total de elementos u objetos de la poblacin. La proporcin poblacional se


simboliza p o .
Cuando la poblacin es finita pero muy grande, es muy difcil por razones de tiempo y
costo analizar todos los elementos de la misma, la proporcin poblacional deber ser estimada
por la muestral p .
Resumiendo, si tenemos una poblacin de tamao N en la cual X elementos tienen cierta
propiedad, entonces

p X
N

ser la proporcin de elementos de la poblacin con la propiedad de inters.

Si de la poblacin bajo estudio se extrae una muestra de tamao n y en la misma x


elementos tiene la propiedad deseada, entonces

p x
n

representa la proporcin de individuos en la muestra que poseen la caracterstica de inters.

Percentiles
Un percentil da informacin acerca de cmo se distribuyen los datos sobre ciertos intervalos.
Por ejemplo, el p simo percentil divide el conjunto de datos en dos partes. Ms o menos el p
por ciento de las observaciones tiene valores menores al p simo percentil y aproximadamente
el (100 p) por ciento de las observaciones tienen valores mayores que el p simo percentil.
Las observaciones deben estar ordenadas de menor a mayor.

Definicin: El p simo percentil es el valor tal que por lo menos un p por ciento de las
observaciones tienen dicho valor o menos y un (100 p) por ciento de las observaciones tienen
este valor o ms.

Para ver la utilidad de los percentiles analicemos el siguiente ejemplo. Suponga que un
alumno ha sacado una calificacin de 8 puntos en una evaluacin. Si se quiere saber cual ha
sido el desempeo del alumno respecto del conjunto total, lo ideal es calcular un percentil. Si la
calificacin de 8 corresponde al percentil 70, sabremos que aproximadamente el 70% de los
alumnos tuvo una calificacin menor o igual a este valor y que ms o menos un 30% de los
alumno una calificacin mayores que 8.

Para calcular el p simo percentil debe procederse de la siguiente manera

1. Ordenar los datos de menor a mayor.

p
2. Calcular el ndice i n donde p es el percentil de inters y n la cantidad de
100
observaciones.

3. Si i no es un nmero entero, se redondea su valor. El valor entero inmediato mayor que i


indica la posicin del p simo percentil. Si i es entero, el p simo es el promedio de las
observaciones ubicados en los lugares i e i 1 .

Ejemplo 8: Utilizando los datos del ejemplo 4, calcular el percentil 85 de los salarios de los
gerentes.
15

Solucin: Los datos estn en orden ascendentes as que obviamos este paso. Calculamos el
ndice i

i 85 12 10,2
100

Como i no es entero redondeamos su valor al entero inmediato superior. Por lo tanto, el


lugar del percentil 85 es el del siguiente entero mayor que 10,2 o sea la posicin 11 de las
observaciones. Por lo tanto, el percentil 85 es $2.630.

Supongamos que se quiera calcular el percentil 50. Aplicamos directamente el paso 2

i 50 12 6
100

Como i es entero, el percentil 50 es el promedio de las observaciones ubicadas en el


sexto y sptimo lugar. Por lo tanto

2.390 2.420 $2.405


2

Observe que el percentil 50 es la mediana del conjunto de las observaciones.

Cuartiles
Con frecuencia se busca dividir el conjunto de datos en cuatro partes cada una con el 25% de las
observaciones. A los puntos de divisin se los llama cuartiles y se los definen de la siguiente
manera:

Q1 primer cuartil o percentil 25

Q2 segundo cuartil o percentil 50 (es igual a la mediana)

Q3 tercer cuartil o percentil 75

Ejemplo 9: Nuevamente utilizamos los datos del Ejemplo 4 para calcular los 3 cuartiles
Solucin: Dado que los cuartiles son casos especiales de percentiles, para calcular el primer
cuartil procedemos de la siguiente manera
25 12 3
Calculamos en primer lugar el ndice i
100
2.350 2.380 $2.365
Por lo tanto Q1
2

Para calcular Q3 procedemos de la misma manera

i 75 12 9
100

2.450 2.550 $2.500


Por lo tanto Q3
2

El segundo cuartil o la mediana se calcul con anterioridad.


16

MEDIDAS DE VERIABILIDAD
Adems de las medida de localizacin, es necesario considerar siempre las medidas de
variabilidad cuando se busca describir un conjunto de observaciones.

Veremos algunas de las razones por las cuales es necesario considerar siempre las
medidas de variabilidad junto con las medidas de localizacin.

1. Nos permitirn estudiar la confiabilidad del promedio o medida de localizacin que se est
utilizando. Una dispersin pequea respecto del promedio indica que los datos se
encuentran muy prximos respecto del mismo. Luego, el promedio podr considerarse
como representativo del conjunto de observaciones. Por el contrario, una dispersin muy
grande respecto del promedio, indicar que los datos se encuentran muy dispersos respecto
del promedio por lo que esta medida no ser una buena medida de localizacin para dicho
conjunto.

2. Una medida de dispersin permite, en algunos casos, comparar la variabilidad de dos o ms


conjunto de observaciones.

Ejemplo 10: Dos departamentos, de 10 trabajadores cada uno, tienen las siguientes
producciones por hora

Departamento 1 7 8 8 9 9 9 9 10 10 11
Departamento 2 3 4 5 6 9 9 12 13 14 15

Como se puede comprobar, ambos conjuntos de datos tiene igual media, x1 x 2 9


pero evidentemente la produccin del departamento 2 est ms dispersa respecto de la media.
Ciertamente estos conjuntos de datos son diferentes. La diferencia est en la dispersin de los
mismos. La produccin del departamento 1 muestra relativamente poca dispersin en su
produccin horaria mientras que la produccin del departamento 2 tiene una mayor.

Una medida de variabilidad es un nmero que nos indica el grado de dispersin de un


conjunto de datos. Si el nmero es pequeo respecto de la unidad de medida, entonces hay una
gran uniformidad entre los datos. Por el contrario, un valor grande nos indica que hay poca
uniformidad.

Rango o amplitud
Es una de las medidas de variabilidad ms sencillas de calcular e interpretar.

Definicin: La amplitud o rango de un conjunto de datos es la diferencia entre los valores


mayor (o ms alto) y el menor (o el ms bajo).

Si x M es el valor ms alto y x m el ms bajo de la variable, entonces la amplitud es


A xM xm

Ejemplo 11: Las capacidades de varios recipientes metlicos son 38, 20, 37, 64 y 27 litros. Por
lo tanto

A 64 20 44 litros

Si un conjunto de datos tiene una amplitud igual a 20 y otro conjunto de datos tiene una
amplitud igual a 4, el segundo conjunto presenta menos dispersin que el primero.
El hecho de que para calcular la amplitud se tomen en cuanta solo los valores mximo y
mnimo de un conjunto de observaciones, hace de la amplitud una medida de variabilidad poco
17

precisa (no toma en consideracin todos los datos). No obstante es muy utilizada en el control
estadstico de calidad.

Desviacin media
Esta medida de dispersin, a diferencia la amplitud o rango utiliza todas las observaciones
disponibles para su clculo. Se la denomina tambin desviacin promedio y mide el promedio
de las desviaciones de las observaciones de una muestra o poblacin respecto de la media.

Definicin: Sean x1 , x 2 ,..., x n n observaciones provenientes de una muestra; la desviacin


media de la muestra se simboliza y define de la siguiente manera
i1 xi x
n

DM
n

Una pregunta que podemos formularnos aqu es porqu utilizar el valor absoluto de las
i 1 ( xi
n
diferencias respecto de la media y no directamente x ) . La respuesta es que

i 1 ( xi x ) 0 como puede demostrarse fcilmente. Definir una medida de variabilidad que


n

siempre valga 0 no tiene ninguna utilidad.

Si se tienen x1 , x 2 ,..., x N observaciones pertenecientes a una poblacin de tamao N,


la desviacin media se simboliza y define de la siguiente manera

xi
n

DM i 1
N

donde es la media de la poblacin.

Ejemplo 12: Los pesos de una muestra de 5 cajas listas para embarcarse son, en kilogramos,

103 97 101 106 103


Cunto vale la desviacin media?; cmo la interpreta?
Solucin: En primer lugar hay que calcular la media de la muestra. El lector puede verificar sin
dificultad que x 102 Kg.
Por lo tanto
103 102 97 102 ... 103 102 12
DM 2,4 Kg.
5 5

Podemos decir que en promedio, los pesos de las cajas se desvan 2,4kg. de la media.

Varianza
Es otra medida de dispersin que emplea todos los datos para su clculo. Como cualquier
medida descriptiva numrica se puede calcular tanto para la poblacin como para una muestra.

Definicin: Sean x1 , x 2 ,..., x n n observaciones provenientes de una muestra. La varianza


muestral se simboliza y define de la siguiente manera


n
2 i 1
( xi x ) 2
s
n 1

Ejemplo 13: Considere el siguiente conjunto de observaciones provenientes de una muestra de


tamao 8
18

2 3 3 5 5 8 10 12

La media de la muestra es
x 2 3 3 ... 12 6
8

Por lo tanto

(2 6) 2 (3 6) 2 ... (12 6) 2
s2 13,14
8 1

Analizando la frmula que define a s 2 puede verse que, exceptuando el hecho de que
la divisin es por ( n 1) y no por n, la varianza sera la media de las desviaciones al cuadrado
de las observaciones respecto de la media aritmtica.
Cabe preguntarse porqu el denominador es (n 1) y no n. La respuesta ms simple
que podemos dar y que analizaremos ms adelante es que la divisin por ( n 1) nos da una
medida ms til para propsitos inferenciales.
El denominador ( n 1) recibe el nombre de grados de libertad. ste concepto
tambin ser analizado ms adelante. La frmula anterior recibe el nombre de frmula
conceptual o frmula de definicin de la varianza de una muestra o varianza muestral. Podemos
utilizar tambin la llamada frmula de clculo que puede deducirse a partir de la frmula de
definicin. La misma es la siguiente

s2
ni 1 x i2
n
x
n
i 1 i
2

n( n 1)

Por ejemplo, si queremos calcular la varianza del conjunto de observaciones del


Ejemplo 13 utilizando la frmula de clculo debemos proceder de la siguiente manera

8( 2 2 3 2 ... 12 2 ) (2 3 ... 12) 2


s2 13,14
8(8 1)

Desviacin estndar o tpica


La varianza tiene la dificultad de que estar medidas en unidades al cuadrado, como pesos al
cuadrado, kilogramos al cuadrado, etc. lo que dificulta su interpretacin prctica. Por este y
otros motivos se define una medida de variabilidad derivada de la varianza llamada desviacin
estndar muestral.

Definicin: Para un conjunto de n observaciones provenientes de una muestra, la desviacin


estndar de la muestra o desviacin estndar muestral se simboliza s y se define como la raz
cuadrada positiva de la varianza.

Es decir

s s2

O sea
19

s
i 1 ( xi x ) 2
n


ni 1 x i2
n
x n
i 1 i
2

n 1 n( n 1)

Definicin: La varianza y la desviacin estndar de una poblacin de tamao N se simbolizan y


definen respectivamente de la siguiente manera


N
2
( x ) 2
i 1 i

N

i 1 ( xi ) 2
N

La varianza y la desviacin estndar de la poblacin difcilmente se conozcan y por lo


tanto debern ser estimadas a partir de s 2 y s respectivamente.

Observe que el denominador de s es ( n 1) y el denominador de es N. Por qu


esta diferencia?. Hemos dicho que utilizar ( n 1) en el clculo de s es til para propsitos
inferenciales tema que analizaremos oportunamente.

Ahora bien, si el objetivo analtico consiste nicamente en describir la variabilidad que


presenta una muestra, es perfectamente satisfactorio calcular s 2 dividiendo por n solamente.
Pero si el propsito es estimar 2 por medio de s 2 , debe calcularse la varianza muestral
dividiendo por ( n 1) .

Coeficiente de variacin
En algunos casos interesa comparar la variabilidad de dos o ms conjuntos de datos. Esto puede
hacerse fcilmente utilizando sus respectivas varianzas o desviaciones estndar cuando las
variables se dan en las mismas unidades y cuando sus medias son relativamente iguales. Cuando
esto no ocurre el coeficiente de variacin es la medida adecuada.

Definicin: El coeficiente de variacin de una muestra se simboliza y define de la siguiente


manera

CV s 100
x

Ejemplo 14: Supongamos un conjunto de datos que tenga una media x 44 y un desvo
estndar s 8 . El coeficiente de variacin es en este caso

CV 8 100 18,2%
44

El coeficiente de variacin nos indica que la desviacin estndar de la muestra es 18,2%


del valor de la media.

Si tenemos otro conjunto de valores con una media x 2.440 y una desviacin
estndar s 165,65 , este conjunto de datos parece tener ms variabilidad que el primero si la
20

comparacin quiere hacerse solamente utilizando sus desviaciones estndar. Pero tenga en
cuanta que las medias son diferentes as que esta comparacin no es correcta. Lo adecuado es
comparar la variabilidad por medio del coeficiente de variacin que en este caso vale

165,65
CV 100 6,79%
2.440

Es decir, el valor de la desviacin estndar es aproximadamente un 6,8% del valor de la


media. Evidentemente este conjunto es menos variable que el primero.

Seguidamente se muestra algunas medidas descriptivas numricas calculadas con el


InfoStat para los datos del ejemplo 4 (salarios de los gerentes)

Estadstica descriptiva
Resumen Salarios
n 12,00
Media 2440,00
D.E. 165,65
Var(n-1) 27440,91
CV 6,79
Mn 2210,00
Mx 2825,00
Mediana 2405,00
Q1 2365,00
Q3 2500,00
Salida 2

REGLA EMPRICA
En la regla emprica se combinan la media y la desviacin estndar de un conjunto de
observaciones con el fin de obtener cierta informacin . Si bien es cierto enunciaremos la regla
para una poblacin, la misma es vlida para una muestra tomada de una poblacin.

Para un conjunto de observaciones que tiene un histograma en forma de campana, el


intervalo
contiene aproximadamente el 68% de las observaciones
2 contiene aproximadamente el 95% de las observaciones
3 contiene aproximadamente el 99% de las observaciones

Grficamente

95%

2 2
21

99%

Ejemplo 15: En una lnea de produccin se llenan automticamente envases de plstico con
detergente lquido. El peso de llenado tiene una distribucin en forma de campana. Si el peso
promedio de llenado es de 16 gramos y la desviacin estndar es de 0,25 gramos entonces
a) El intervalo 16 0,25 o 15,75 16,25 gramos contendr aproximadamente
el 68% de los pesos de los envases.

b) El intervalo 2 16 2(0,25) o 15,50 16,50 gramos contendr


aproximadamente el 95% de los pesos de los envases.

c) El intervalo 3 16 3(0,25) o 15,25 16,75 gramos contendr


aproximadamente el 99% de los pesos de los envases.

DESIGUALDAD DE CHEBYSHEV
Esta regla, si bien es menos precisa que la regla emprica, es ms general dado que se aplica a
cualquier conjunto de observaciones de una poblacin o de una muestra. La misma dice

Para todo conjunto de datos y para toda constante k 1 el intervalo k contiene


al menos 1 1 / k 2 por ciento de las observaciones.

Por ejemplo, si k 2 , el intervalo 2 contendr al menos o por lo menos


1 1 / 4 3 / 4 o el 75% de las observaciones de la variable. Si k 3 el intervalo 3
contendr al menos 1 1 / 9 8 / 9 o 89% de las observaciones de la variable.

Ejemplo 16: Los siguientes datos representan los porcentajes del ingreso familiar asignados a la
compra de alimentos en una muestra de 30 familias

26 28 30 37 33 30
29 39 49 31 28 26
33 24 34 40 29 41
40 29 35 44 32 45
35 26 42 36 37 35

a) Calcular la media, la varianza y la desviacin estndar del porcentaje del ingreso gastado en
alimentos.
b) Verifique que la desigualdad de Chebyshev es vlida para k 2 .
22

Solucin: El lector puede verificar sin mayores dificultades que x 34,10 y que s 6,34 .
La regla de Chebyshev indica que si k 2 , entonces al menos o por lo menos el 75% de las
observaciones deben estar en el intervalo x 2 s . Utilizando los valores calculados tendremos

x 2s 34,10 2(6,34) 34,10 12,68

Por lo tanto, y de acuerdo a la regla, el intervalo 21,42 46,78 contendr al menos


el 75% de los datos. Si observamos nuestra tabla de valores veremos que en realidad la nica
observacin que est fuera de este intervalo es 49; o sea que hay 29/30 = 0,96 o el 96% de las
observaciones dentro de este intervalo. Queda as verificado el cumplimento de la regla .

MEDIDAS DE ASIMETRA O SESGO


Recordemos que la regla emprica exiga que la distribucin sea simtrica. Pero hay muchas
distribuciones que no lo son, presentndose distintos tipos de sesgos o asimetras. Las dos
distribuciones que se muestran a continuacin presentan sesgos. Una es sesgada a izquierda y la
otra a derecha.
Densidad

Densidad

Variable Variable

Distribucin sesgada a izquierda Distribucin sesgada a derecha

Una medida para medir la asimetra o sesgo de una distribucin es el coeficiente de


asimetra de Pearson. Se lo define de la siguiente manera

3( x M e )
CA
s

Cuando la distribucin sea simtrica la media ser igual a la mediana y el coeficiente


valdr cero. Cuando la distribucin sea sesgada a derecha (sesgo positivo) tendremos que
Mo Me x y por lo tanto el coeficiente ser mayor que cero. Cuando la distribucin sea
sesgada a izquierda (sesgo negativo) tendremos que x Me Mo y el coeficiente ser un
nmero negativo.

Ejemplo 17: Un conjunto de observaciones tiene una media x 2.436 , una mediana
M e 2.459 y una desviacin estndar s 76,7 . Por lo tanto

3( x M e ) 3( 2.436 2.459)
CA 0,91
s 76,7

La distribucin es levemente sesgada a izquierda.


23

DISTRIBUCIONES BIDIMENSIONALES
Analizaremos a continuacin las llamadas distribuciones bidimensionales en donde en cada
elemento o individuo se observan simultneamente dos caractersticas o variables en lugar de
una.

Tablas para datos discretos. Distribucin conjunta


En el caso que se analicen dos variables numricas, se llamar tabla de distribucin conjunta a
la tabla que muestra los valores observados de las variables y las frecuencias (absolutas o
relativas) asociadas a cada par.

Ejemplo 18: Suponga que se recogieron datos sobre la evolucin del stock de 40 PYMES que
si bien llevan un mtodo de inventarios tuvieron ruptura de stock dentro de un perodo
determinado. Las empresas consideradas tienen caractersticas similares. Se presenta a
continuacin una tabla con las frecuencias absolutas y otra con las frecuencias relativas para
cada par de variables

Produccin en unidades
Ruptura 12.000 13.000 15.000 Total
1 5 4 3 n1 . 12
2 6 5 2 n 2 . 13
3 8 7 0 n 3 . 15
Total n.1 19 n. 2 16 n. 3 5 40
Tabla 7

Produccin en unidades
Ruptura 12.000 13.000 15.000 Total
1 0,125 0,10 0,075 0,30
2 0,15 0,125 0,05 0,325
3 0,20 0,175 0 0,375
Total 0,475 0,40 0,125 1
Tabla 8

La tabla de distribucin de frecuencias absolutas conjunta (cuerpo de la tabla 7) se


logr al contar el nmero de PYMES que han tenido i ruptura de stock y que tienen j unidades
de produccin. Entonces, en cada celda del cuerpo de la tabla aparecen las frecuencias absolutas
que se simbolizarn por n ij asociada a los valores de las variables en cada celda, ruptura de
stock ( y 2 ) y unidades producidas ( y1 ) .
La suma de todas las frecuencias debe ser igual al total de las observaciones. O sea
i 1 j 1 nij n donde
f c

f = cantidad de filas o cantidad de valores distintos que asume la variable y 2

c = cantidad de columnas o valores distintos que asume la variable y1

En el cuerpo de la tabla 8 se presenta la distribucin de frecuencias relativas conjunta


n
que se simboliza y se define de la siguiente manera, hij ij .
n

La suma de todas las frecuencias relativas conjuntas debe ser igual a uno. Osea
i 1 j 1 hij 1 .
f c
24

Analizando la tabla de la distribucin conjunta relativa se puede ver que el 0,10 o el


10% de las empresas produjeron 13.000 unidades y tuvieron una ruptura de stock dentro del
perodo considerado.

Distribuciones marginales
Se denomina distribucin marginal a la que se obtiene al acumular la suma de las frecuencias de
las filas o de las columnas analizando cada variable con independencia de la otra.
En los mrgenes de la tabla 7 y de la tabla 8 se encuentran el clculo de las frecuencias
marginales conformando dos distribuciones marginales, una para la variable fila y otra para la
variable columna.

Las frecuencias marginales absolutas se obtienen como sigue, n i . j 1 n ij (para la


c

variable y i o variable fila) o n. j i 1 n ij para la variable columna. Por ejemplo:


f

n1 . j 1 n1 j 12 (Primera fila)
3

n 3 . j 1 n 3 j 15 (Tercera fila)
3

n.1 i 1 n i1 19 (Primera columna)


3

n.3 i 1 n i 3 5 (Tercera columna)


3

Para obtener las distribuciones de frecuencias marginales relativas se sigue la misma


lgica solo que trabajando con las frecuencias relativas. Se puede leer en la tabla 8 para la
variable ruptura y i que en el 37,5% de las empresas tubo 3 veces ruptura de stock o para la
variable produccin que el 40% de las empresas produjeron 13.000 unidades.
Si se divide la frecuencia absoluta de cada celda con la frecuencia marginal de cada fila
se obtienen las frecuencias relativas basadas en totales filas.

En nuestro caso tendramos


Produccin en unidades
Rupturas 12.000 13.000 15.000
1 0,42 0,33 0,25 1
2 0,46 0,39 0,15 1
3 0,53 0,47 0 1
Total 0,475 0,40 0,125 1
Tabla 9

De la tabla 9 se puede leer que

De las empresas que han tenido 2 veces ruptura de stock, el 39% produjeron 13.000
unidades.
25

De las empresas que tuvieron una mayor produccin, tuvieron menor cantidad de veces
rupturas de stock. Sin embargo, las que tuvieron una menor produccin tuvieron una mayor
cantidad de rupturas de stock.

Si se dividen las frecuencias absolutas de cada celda con las frecuencias marginales de cada
columna se obtienen las frecuencias relativas basadas en totales columnas. En nuestro ejemplo
obtendremos la siguiente tabla

Produccin en unidades
Rupturas 12.000 13.000 15.000
1 0,26 0,25 0,60 0,300
2 0,32 0,31 0,40 0,325
3 0,42 0,44 0 0,375
Total 1 1 1 1
Tabla 10

Analizando esta tabla puede verse ente otras cosas que

De las empresas que produjeron 13.000 unidades, el 31% tuvieron 2 veces ruptura de stock.

Para las empresas que produjeron 15.000 unidades, el mayor porcentaje de empresas tuvo
una sola vez ruptura de stock.

TABLAS PARA DATOS CATEGRICOS


Si el anlisis es de dos variables categricas en forma conjunta, la presentacin mediante lo que
se denomina tabla de contingencia o tabla de doble entrada en la cual la primera fila y la
primera columna se destinan a las categoras de las variables en cuestin. El cuerpo de la tabla a
las observaciones conjuntas y los mrgenes de la misma a las frecuencias marginales que no son
otra cosa que las observaciones de una categora en particular independientemente de la otra
variable. En este sentido se tendr el mismo tratamiento que las variables numricas.

Ejemplo 19: Suponga que en una muestra de 40 casas de la ciudad se ha registrado el tipo de
vivienda (A, B y C) y el tipo de estacionamiento para cada una de ellas. Toda la informacin se
registr en la siguiente tabla

Tipo de estacionamiento
Para un Para dos Para ms de dos
Tipo de vivienda Ninguno Totales
automvil automviles automviles
A 1 4 4 3 12
B 2 12 3 1 18
C 4 4 2 0 10
Totales 7 20 9 4 40
Tabla 11

Todas stas tablas pueden hacerse utilizando el programa InfoStat. La salida producidas
por este software correspondientes al ejemplo 18 se muestran a continuacin
26

Tablas de contingencia
Frecuencias: Frecuencias
Frecuencias absolutas
En columnas: Produccin
Rupturas 12000 13000 15000 Total
1 5 4 3 12
2 6 5 2 13
3 8 7 0 15
Total 19 16 5 40

Frecuencias relativas al total


En columnas: Produccin
Rupturas 12000 13000 15000 Total
1 0,125 0,100 0,075 0,300
2 0,150 0,125 0,050 0,325
3 0,200 0,175 0,000 0,375
Total 0,475 0,400 0,125 1,000

Frecuencias relativas por filas


En columnas: Produccin
Rupturas 12000 13000 15000 Total
1 0,417 0,333 0,250 1,000
2 0,462 0,385 0,154 1,000
3 0,533 0,467 0,000 1,000
Total 0,475 0,400 0,125 1,000

Frecuencias relativas por columnas


En columnas: Produccin
Rupturas 12000 13000 15000 Total
1 0,263 0,250 0,600 0,300
2 0,316 0,313 0,400 0,325
3 0,421 0,438 0,000 0,375
Total 1,000 1,000 1,000 1,000
Salida 3

MEDIDAS DE ASOCIACIN ENTRE DOS VARIABLES


Con frecuencia es necesario estudiar la relacin entre dos variables. A continuacin
estudiaremos los conceptos de covarianza y correlacin como medidas descriptivas numricas
de la relacin entre dos variables. Adems utilizaremos los diagramas de dispersin como una
herramienta grfica con el mismo objetivo.

Suponga que el administrador de un comercio est interesado en investigar la relacin


que existe entre la cantidad de comerciales por televisin que aparecen los fines de semana y las
ventas del comercio durante la siguiente semana. En la tabla 1 aparecen los datos de una
muestra donde las ventas se expresan en cientos de pesos.

Semana Cantidad de comerciales (x) Volumen de ventas (y)


1 2 50
2 5 57
3 1 41
4 3 54
5 4 54
6 1 38
7 5 63
8 3 48
9 4 59
27

10 2 46
Tabla 12

Un diagrama de dispersin consta de un par de ejes ortogonales. La cantidad de


comerciales (x) se indica en el eje horizontal y las ventas (y) en el eje vertical. Para la semana 1
tenemos x 2 ; y 50 . En el diagrama de dispersin se grfica un punto con esas
coordenadas. Para las siguientes 9 semanas se grafican los puntos correspondientes. El diagrama
de dispersin para el ejemplo se muestra en el grfico 7.

64

57
Ventas

51

44

37
1 2 3 4 5
Comercialas

Grfico 7

El diagrama indica una relacin positiva entre las cantidades de comerciales y


las ventas en el sentido de que las mayores ventas se asocian con mayores cantidades de
comerciales. La relacin no es perfecta porque no todos los puntos estn sobre una misma recta.
Sin embargo, el comportamineto general de los puntos nos sugiere que la relacin general es
positiva.

En el grfico 8 vemos algunos otros patrones generales que pueden aparecer en un


diagrama de dispersin. En la figura 2 (a) se muestra una relacin negativa donde y tiende a
disminuir a medida que x aumenta. La figura (b) no muestra una relacin aparente entre las
variables x e y.

10 10

8 8

5 5
y

3 3

1 0
1 2 4 5 6 1 2 3 4 5
x x
28

a b
Grfico 8

El diagrama de dispersin del grfico 8 (a) sugiere que se podra emplear una lnea recta
de pendiente negativa como una aproximacin a la relacin entre las variables. El grfico 8 (b)
sugiere que entre las variables no estn relacionadas. En este caso se dice que las mismas son
independientes.
A continuacin presentamos la covarianza como una medida descriptiva numrica de la
asociacin lineal entre las variables.

COVARIANZA
Para una muestra de n elementos, con sus correspondientes parejas de datos
( x1 , y1 ), ( x 2 , y 2 ) etc. la covarianza de la muestra se simboliza y define de la siguiente
manera

( x i x )( y i y )
n

s xy i 1
n 1

En esta frmula, cada valor x i est apareado con un y i . Adems n es el tamao de la


muestra. Para medir la intensidad de la relacin lineal entre la cantidad de comerciales y el
volumen de ventas, aplicamos la ecuacin anterior para calcular la covarianza de la muestra.

30 3 y 510 51
Como x y , tendremos
10 10

( 2 3)(50 51) (5 3)(57 51) ... (2 3)(46 51) 99


s xy 11
9 9

La ecuacin para calcular la covarianza de una poblacin de tamao N se da a


continuacin

( xi x )( y i y )
N

xy i 1
N

donde x es la media de la variable x y y es la media de la variable y.

Interpretacin de la covarianza
Para entender como debe interpretarse la covarianza muestral analicemos el grfico 9 . Esta es
el mismo grfico 7 pero con una recta vertical trazada en x 3 y otra horizontal traza en
y 51 .
29

64

II I

57

Ventas
51

44

III IV

37
1 2 3 4 5
Comerciales

Grfico 9

De esta manera se obtienen 4 cuadrantes. Los puntos del cuadrante I corresponden a


valores de x i mayores que x y los valores de y i mayores que y . Entonces el valor de
( x i x )( y i y ) debe ser positivo para los puntos ubicados en el cuadrante I y III, negativo
para los puntos del cudrante II y IV.
Si el valor de s xy es positivo, los puntos que tuvieron mxima influencia sobre s xy
deben estar en los cudarantes I y III. Por consiguiente, un valor positivo de s xy indica una
relacin lineal positiva entre x e y. Es decir, al aumentar los valores de x, aumetan los de y. Sin
embargo, si el valor de s xy es negativo, los puntos que tuvieron la mayor influencia sobre su
valor estarn en los cudrantes II y IV. Por lo tanto, un valor negativo de s xy indica una
asociacin lineal negativa entre x e y. Esto es, al aumentar los valores de x los de y disminuyen.
Por ltimo, si los puntos se distribuyen uniformemente en los cuatro cudrantes, el valor de s xy
ser cercano a cero indicando que no hay asociacin lineal entre las variables x e y.
Para el ejemplo que estamos analizando, y como era de esperar, el valor de la
covarianza es positivo ( s xy 11 ). De acuerdo con lo anterior, parecera que un valor positivo
grande de la covarianza indica una fuerte relacin lineal positiva y que un valor negativo grande
indica una fuerte relacin lineal negativa. Sin embargo, un problema del uso de la covarianza
como medida de la intensidad de la relacin lineal es que su valor depende de las unidades en
que se midan las variables x e y.
Para evitar esta dificultad se usa el coeficiente de correlacin que tambin mide la
relacin lineal entre dos variables.

COEFICIENTE DE CORRELACIN
Para los datos de una muestra, el coeficiente de correlacin de Pearson se simboliza y se define
de la siguiente manera

s xy
rxy
sx s y

en donde
rxy coeficiente de correlacin muestral

s xy covarianza muestral
30

s x desviacin muestral de la variable x

s y desviacin muestral de la variable y

Calculemos ahora el coeficiente de correlacin muestral par las variables x e y del


ejemplo analizado. Tenemos

i 1 ( xi x ) 2
10
20
sx 1,4907
n 1 9

i 1 ( y i y ) 2
n
566
sy 7,9303
n 1 9

Por lo tanto

11
rxy 0,93
(1,4907)(7,9303)

Una forma alternativa de calcular el coeficiente de correlacin de Pearson es mediante


la frmula

xi i 1 y i
n n

i 1 xi y i
n
i 1
rxy n
x n 2
y
n 2

i 1 x i2 i 1 i
i 1 y i2
n n i 1 i

n n

sta frmula nos ahorra el hecho de tener que calcular las desviaciones ( x i x ) y
( y i y ) . Utilizando sta ltima frmula tendremos

(30)(510)
1.690
rxy 10 0,93
110 90 26.576 26.010

La ecuacin para calcular el coeficiente de correlacin poblacional se define de la


siguiente manera
xy
xy
x y

donde

xy coeficiente de correlacin poblacional

xy covarianza de la poblacin

x desviacin estndar poblacional de la variable x


31

y desviacin estndar poblacional de la variable y

Interpretacin del coeficiente de correlacin


Veremos con un sencillo ejemplo cual es la interpretacin del coeficiente de correlacin. Sean
las variables x e y cuyos valores se dan en la tabla siguiente

x 1 2 3
y 10 30 50
Tabla 13

El diagrama de dispersin que se muestra en la figura 4 muestra la relacin entre las


variables

52

39

26
y

13

0
0 1 2 2 3
x

Grfico 10

La recta que se traz y que pasa por cada uno de los tres puntos indica que hay una
relacin lineal perfecta entre las dos variables x e y. Puede demostrarse sin dificultad que

220 6(90) / 3
rxy 1
14 6 2 / 3 3.500 90 2 / 3

Vemos as que el valor del coeficiente de correlacin muestral para este conjunto de
datos es igual a 1. En general, si todos los puntos de un conjunto de datos caen en una lnea
recta con pendiente positiva, el valor del coeficiente de correlacin es +1. Esto es, un
coeficiente de correlacin muestral igual +1 corresponde a una relacin lineal positiva perfecta
entre x e y. Por otro lado, si los puntos de un conjunto de datos estn en una recta que tiene
pendiente negativa, el valor del coeficiente de correlacin muestral es 1. Es decir, un
coeficiente de correlacin muestral igual a 1 indica una relacin lineal negativa perfecta entre
x e y.

Supongamos ahora que para cierto conjunto de datos, hay una relacin lineal positiva
entre x e y pero que esta relacin no es perfecta. El valor de rxy ser menor que uno, lo que
implica que los puntos del diagrama de dispersin no estn perfectamente alineados. A medida
que los puntos se desvan ms y ms de una relacin lineal positiva perfecta, el valor de rxy se
hace ms y ms pequeo. Un valor de rxy igual a cero indica que no hay relacin lineal entre
32

las variables. Los valores de rxy cercanos a cero sealan una relacin lineal dbil. En general
1 rxy 1 .
Para el ejemplo que hemos venido analizando, obtuvimos rxy 0,93 . Luego, hay una
fuerte relacin lineal positiva entre la cantidad de comerciales y las ventas. Ms
especficamente, un aumento en la cantidad de comerciales se asocia con un aumento de las
ventas.
En el grfico 11se muestran los puntos de datos junto con la mejor recta que se ajusta
a los mismo. En la unidad VI veremos como encontrar sta recta.

64

56
Ventas

47

39

30
0 1 3 4 5
Comercialas

Grfico 11

Estamos en condiciones de enunciar el siguiente resultado

Si las variables x e y son independientes, entonces rxy 0 . Sin embargo, el


enunciado recproco no es siempre verdadero pues puede ser rxy 0 y an as las
variables no ser independientes.

Recuerde que rxy mide la fuerza de la relacin lineal entre dos variables. Pueden estar
relacionadas no linealmente y por lo tanto rxy 0 .

Vous aimerez peut-être aussi