Vous êtes sur la page 1sur 22

Medidas de asociación

Ya se establecieron tres criterios de posible existencia de asociación (o de indepen-


dencia). Sin embargo, no resulta suficiente saber esto, es necesario dar un valor que
cuantifique la fuerza o debilidad de dicha asociación.

El número que cuantifica la fuerza y dirección de la asociación, si dicha asociación


existe, se denomina medida de asociación entre las variables X y Y.

UNAL 1 / 22
Covarianza

Es un valor que refleja el grado de variación conjunta de dos variables cuantitativas X


y Y, con respecto a sus medias x̄ y ȳ . Dependiendo de la disposición de los datos (no
agrupados o agrupados) se tiene:

Para datos sin agrupar:


n
1 X
Sxy = (xi − x̄)(yi − ȳ )
n−1
i=1

En este caso, los valores xi y yi son los datos obtenidos del individuo i.

UNAL 2 / 22
Ejemplo

Una fábrica de bebidas energizantes estudia el efecto de la última campaña publicitaria.


Se escogen personas al azar y se les pregunta acerca del número de veces que vieron
un anuncio y la cantidad de latas de bebida consumidas, durante la semana anterior.
Se obtiene lo siguiente:

Número de anuncios (X) 3 7 4 2 0 4 1 2

Cantidad de latas (Y) 11 18 9 4 7 6 3 8

Determinar la covarianza entre los datos.

UNAL 3 / 22
Para los datos de la tabla se tiene que x̄ = 2.875 y ȳ = 8.25. Luego:

1
Sxy = [(3 − 2.875)(11 − 8.25) + (7 − 2.875)(18 − 8.25) + (4 − 2.875)(9 − 8.25)+
8−1
(2 − 2.875)(4 − 8.25) + (0 − 2.875)(7 − 8.25) + (4 − 2.875)(6 − 8.25)+
(1 − 2.875)(3 − 8.25) + (2 − 2.875)(8 − 8.25)] = 8.036

Como el valor tiene signo positivo, se dice que a medida que aumenta el número de
anuncios, va aumentar el consumo de latas. Por lo cual se tiene una relación directa.

UNAL 4 / 22
Ejemplo

Se quiere revisar cómo sería la relación entre el rendimiento de dos entidades del es-
tado, comparando el presupuesto ejecutado, en miles de millones de pesos, durante los
últimos 6 años:

Años 2013 2014 2015 2016 2017 2018

X: Presupuesto ejecutado por Entidad 1 11 8 7 9 10 7

Y: Presupuesto ejecutado por Entidad 2 9 4 12 11 5 7

Determinar la covarianza entre los datos. Que se puede concluir?

UNAL 5 / 22
Solución

Se obtiene el grafico de las dos variables, llamado, diagrama de dispersión:

Al trazar una linea que trate de tomar los puntos, parece que su relación es muy débil,
por que la linea es casi horizontal.

UNAL 6 / 22
Se puede verificar que x̄ = 8.67 y ȳ = 8, con lo cual:

Sxy = (1/5)[(11 − 8.67)(9 − 8) + (8 − 8.67)(4 − 8) + (7 − 8.67)(12 − 8)+

(9 − 8.67)(11 − 8) + (10 − 8.67)(5 − 8) + (7 − 8.67)(7 − 8) = −0.6

Como el valor es muy cercano a cero, se puede decir, que la asociación es inversa
pero débil. En este ejemplo, la cercanía del valor de la covarianza a cero permite la
conclusión.

UNAL 7 / 22
Para datos agrupados:

k c
1 XX
Sxy = (xi − x̄)(yj − ȳ )fij
n−1
i=1 j=1

En este caso, los valores xi y yj corresponden a marcas de clase.

UNAL 8 / 22
Ejemplo

Previamente se determinó que los salarios tienen que relación con la cantidad de horas
laboradas. Se calcula la covarianza de los datos para ver el tipo de relación que se
establece. La información a utilizar es la siguiente:

De donde x̄ = 986 y ȳ = 18.18. (verificar).

UNAL 9 / 22
Por otro lado, como las marcas de clase van a representar a cada intervalo, podemos
ver la tabla conjunta de las dos variables, de acuerdo a sus marcas de clase como:

1
Sxy = [(400 − 986)(6 − 18.18)(320) + (400 − 986)(18 − 18.18)(550)+
2000 − 1
(400 − 986)(30 − 18.18)(150) + (1200 − 986)(6 − 18.18)(100)+
(1200 − 986)(18 − 18.18)(280) + (1200 − 986)(30 − 18.18)(115)+
(2000 − 986)(6 − 18.18)(85) + (2000 − 986)(18 − 18.18)(130)+
(2000 − 986)(30 − 18.18)(270)] = 119.3
Así, la relación entre variables es directa.

UNAL 10 / 22
Coeficiente de Correlación

Se puede observar que la covarianza es un indicador acerca de la dirección (directa


o inversa) de la asociación entre variables. Sin embargo, puede tomar cualquier valor,
por lo cual no podemos decir con claridad si la relación entre las variables es fuerte,
moderada o débil.

Otro inconveniente viene de las unidades de la covarianza, que resulta ser el producto
de las unidades. Para el ejemplo de los salarios y las horas laboradas, las unidades de
la covarianza son miles de pesos-hora. En el caso del tiempo de empleo y el numero de
proyectos, las unidades serían meses-número proyectos. En los dos casos las unidades
no significan nada.

UNAL 11 / 22
Para resolver este inconveniente, se calcula el coeficiente de correlación de Pearson,
dado por:
Sxy
rxy =
Sx Sy
Donde Sxy es la covarianza, Sx es la desviación estándar de X y Sy es la desviación
estándar de Y.

A diferencia de la covarianza, esta medida no tiene unidades y toma valores entre -1 y


1. Así −1 ≤ rxy ≤ 1.

Si rxy = 0 no existe asociación entre X y Y.


Si rxy = −1 existe asociación perfecta inversa entre X y Y.
Si rxy = 1 existe asociación perfecta directa entre X y Y.

UNAL 12 / 22
Ejemplo

Para el ejemplo de la relación entre salarios y horas laboradas se tiene que:


Sx = 660.32, Sy = 8.65 y Sxy = 119.3. En este caso:

Sxy 119.3
rxy = = = 0.02
Sx Sy (660.32)(8.65)

Para el ejemplo de la relación entre el número de anuncios y la cantidad de latas


compradas se tiene que: Sx = 2.167, Sy = 4.713 y Sxy = 8.036. En este caso:

Sxy 8.036
rxy = = = 0.7868
Sx Sy (2.167)(4.713)

Para el ejemplo de la ejecución de presupuesto:

Sxy −0.6
rxy = = √ √ = −0.1138
Sx Sy 2.67 10.4

UNAL 13 / 22
Ejemplo

Se quiere ver la relación entre el periodo de tiempo en meses que un empleado lleva
trabajando en cierta entidad y el número de proyectos entregados por la entidad al
gobierno central. Se observa lo siguiente:

Calcular la covarianza y coeficiente de correlación y concluir.

UNAL 14 / 22
Solución

En este caso se deben aplicar las fórmulas y conceptos de datos agrupados. Como
primer paso, determinamos las distribuciones marginales:

Meses labo- fi• Marca de


rados clase xj

0-6 79 3

6 -12 93 9

De donde:
x̄ = (1/172)[(79 ∗ 3) + (93 ∗ 9)] = 6.24
q
sx = + (1/171)[79(3 − 6.24)2 ] + 93(9 − 6.24)2 ] = 2.99

UNAL 15 / 22
Número de f•j Marca de
proyectos clase yj

0-4 46 2

5-8 68 6.5

9 - 11 58 10

De donde:
ȳ = (1/172)[(46 ∗ 2) + (68 ∗ 6.5) + (58 ∗ 10)] = 6.48
q
sy = + (1/171)[46(2 − 6.48)2 ] + 68(6.5 − 6.48)2 + 58(10 − 6.48)2 ] = 3.09

UNAL 16 / 22
La covarianza es:

sxy = (1/171)[21(3 − 6.24)(2 − 6.48) + 25(3 − 6.24)(6.5 − 6.48)+

33(3 − 6.24)(10 − 6.48) + 25(9 − 6.24)(2 − 6.48)+


43(9 − 6.24)(6.5 − 6.48) + 25(9 − 6.24)(10 − 6.48)] = −0.801

El coeficiente de correlación es:


sxy −0.801
rxy = = = −0.087
sx sy (2.99)(3.09)

De este modo la relación entre la cantidad de meses laborados y el número de proyec-


tos entregados es inversa pero de fuerza débil, al ser muy cercana a 0.

UNAL 17 / 22
Ejemplo

Se conduce una investigación para evaluar la relación entre fumar y enfermarse. El


número diario de cigarrillos fumados y los días de ausencia laboral por enfermedad,
durante el último año se obtuvieron para 12 empleados de una compañía:

Persona 1 2 3 4 5 6 7 8 9 10 11 12

Cantidad de cigarrillos 0 0 0 10 13 20 27 35 35 44 53 60

Días de ausencia 1 3 8 10 4 14 5 6 12 16 10 16

Cómo es el tipo de relación existente entre las variables?

UNAL 18 / 22
Primero, se realiza el gráfico entre las dos variables, teniendo en cuenta los pares de
valores. este gráfico es al que se llama el diagrama de dispersión. Sirve para dar una
idea inicial de lo que sucede entre las variables:

UNAL 19 / 22
La recta que pasa entre los puntos va a dar una idea de la relación entre las dos vari-
ables. En este caso se observa una relación directa, es decir, a mayor cantidad de
cigarrillos fumados por una persona, presenta mayor cantidad de días de ausencia por
enfermedad.

De los datos se tiene que el promedio de cigarrillos fumados para las 12 personas
es 24.75 y el promedio de días de ausencia es de 8.75. La desviación estándar de la
cantidad de cigarrillos es 20.98 y la desviación estándar de los días de ausencia es de
5.8. La covarianza es:

sxy = (1/11)[(0 − 20.98)(1 − 8.75) + ... + (60 − 20.98)(16 − 8.75)] = 72.02

El coeficiente de correlación es
Sxy 72.02
rxy = = = 0.59
sx sy (20.98)(5.8)

Luego, la relación entre las dos variables es directa y moderadamente fuerte.

UNAL 20 / 22
Ejemplo

Para estudiar una posible relación entre la religión y la autoestima, se escogen 10


personas aleatoriamente y se les aplican dos tests: uno de autoestima, donde un valor
pequeño representa una mayor autoestima. Otro para la participación en actividades
relgiosas, por lo cual, un mayor puntaje representa mayor participación:

Persona 1 2 3 4 5 6 7 8 9 10

Participación religiosa 5 25 45 20 30 40 1 15 10 35

Autoestima 8 3 2 7 5 5 4 4 7 3

UNAL 21 / 22
El diagrama de dispersión es el siguiente:

Se puede verificar que sxy = −16.8 y rxy = −0.56. Luego, la relación entre las dos
variables es inversa y moderada. De modo que a mayores niveles de participación
religiosa, menores niveles de autoestima. Lo cual, se ve reflejado en el gráfico.

UNAL 22 / 22

Vous aimerez peut-être aussi