Vous êtes sur la page 1sur 17

COVARIANZA

Cuando analizbamos las variables unidimensionales


considerbamos, entre otras medidas importantes, la media y la
varianza. Ahora hemos visto que estas medidas tambin podemos
considerarlas de forma individual para cada una de las componentes
de la variable bidimensional.
Si observamos con atencin los trminos

2
X

f j g ( X i X ) g( X i X )
i 1

2
Y

f gj (Y j Y ) g(Y j Y )

(X i X )
Vemos que las cantidades
tanto no

j 1

(Yy
j Y )

estn elevadas al cuadrado y por


pueden ser negativas .

DEFINICIN

La covarianza
, es una manera de generalizar la varianza y
adems se pude definir como una tcnica estadstica que,
utilizando un modelo de regresin lineal mltiple que busca
comparar los resultados obtenidos en diferentes grupos de una
variable cuantitativa pero corrigiendo las posibles diferencias
existentes entre los grupos en otras variables que pudieran afectar
tambin al resultado
(covariantes).
S

S XY

XY

En el estudio conjunto kdepdos variables, lo que interesa


S XYsaber

X ) g (Ytipo
principalmente es
si fexiste
de relacin entre ellas.
ij ( X i algn
i Y )
i

1
j

1
Esto se ve grficamente con el Diagrama de dispersin.
La covarianza

de dos variables aleatorias X e Y se define como:

CARACTERISTICAS

Si Sxy > 0 hay dependencia directa (positiva), es decir, a grandes valores de x


corresponden grandes valores de y.
Si Sxy = 0 Una covarianza 0 se interpreta como la no existencia de una relacin
lineal entre las dos variables estudiadas.
Si Sxy < 0 hay dependencia inversa o negativa, es decir, a grandes valores de
x corresponden pequeos valores de y.
La matriz de covarianza SXY de dos variables aleatorias n-dimensionales
t
t
expresadas comoXvectores
e
se
Y Y1 ,....,Yn
X1 ,....,columna
Xn
define como:

S XY E

X E X E E Y

E g

Donde es

el operador esperanza.

PROPIEDADES
Si a todos los valores de la variable x, les sumamos una
constante k y a todos los valores de la variable y, les sumamos
una constante k, la covarianza no vara.

Si a todos los valores de una variable x los multiplicamos por


una constante k y a todos los valores de la variable y, los
multiplicamos por una constante k, su covarianza queda
multiplicada por el producto de las constantes.

A partir de las anteriores: si tenemos dos variables x, y con la


covarianza Sxy , y transformaciones lineales de las variables de
la forma z = ax+b, y t = cy +d, la nueva covarianza se
relaciona con la anterior de la forma: Szt = acSxy.

GRAFICA DE LA COVARIANZA
Consideremos la nube de puntos formadas por las n -parejas
Xi ,Ydatos
de
i
(X, Y)

X ,Y de esta nube de puntos es


El centro de gravedad
, o bien
podemos escribir simplemente
si los datos no estn
ordenados en una tabla de doble entrada.
X ,Y
Trasladamos los ejes XY al nuevo centro de
coordenadas
.Queda as dividida la nube de puntos en
cuatro cuadrantes como se observa en la figura.
Los puntos que se encuentran en el primer y tercer cuadrante
contribuyen positivamente al valor de , y los que se
encuentran en el segundo y el cuarto lo hacen negativamente.

INTERPRETACION GEOMETRICA DE SXY

DE ESTE MODO

Si hay mayora de puntos en el tercer y primer cuadrante, ocurrir que


, lo que se puede interpretar como que la variable Y tiende a aumentar
cuando lo hace X;

Si la mayora de puntos estn repartidos entre el segundo y cuarto


cuadrante entonces , es decir, las observaciones Y tienen tendencia a
disminuir cuando las de X aumentan;

Si los puntos se reparten con igual intensidad alrededor de , entonces


se tendr que . Vase la siguiente figura como ilustracin.

GRAFICAMENTE

EJEMPLO

Se han clasificado 100 familias segn el nmero de hijos varones (V) o


hembras (H), en la tabla siguiente:

H 0

2 3 4

0 4

9 4 1

1 5

10 7 4 2

2 7

5 3 1

3 5

3 2 1

4 2

2 1 0

1. Hallar las medias, varianzas y desviaciones tpicas marginales.

2. Qu nmero medio de hijas hay en aquellas familias que


tienen 2 hijos?

3. Qu nmero medio de hijos varones hay en aquellas familias


que no
tienen hijas?

4. Qu nmero medio de hijos varones tienen aquellas familias


que a lo sumo tienen 2 hijas?

5. Hallar la covarianza

SOLUCION

En primer lugar, definimos las variables X = nmero de hijos varones, e


Y = nmero de hijas y construimos la tabla con las frecuencias marginales,
y con otras cantidades que nos son tiles en el clculo de medias y
varianzas:

y1

y2

y3

y4

y5

X i nijY j

X V

ni g

ni gX i

ni gX 2i

X1 0

24

X 2 1

10

28

28

28

44

X3 2

24

48

96

62

X4 3 5

16

48

144

63

32

128

40

ngj

23

32

26

14

100

156

396

209

ngj y j

32

52

42

20

146

ngj y 2 j 0

32

104

126

80

342

X5 4

j 0

De este modo, las medias marginales son


1 5
156
X
ni gx i
1.56

n ggi 1
100
1 5
146
y
n gj y j
1.46

n gg j 1
100

Calculamos despus las varianzas marginales


S

2
X

2
Y

1 5
396
2
2

n
g
x

1.562 1.5264

i
i
n ggi 1
100

1 5
342
2

n
g
y

1.462 1.2884

j
j
n ggJ 1
100

Que

nos

dan

directamente

tpicas marginales,
S X S 2X 1.2354

las

desviaciones

SY S ;2Y 1.1351

El nmero medio de hijas en las familias con 2 hijos varones se obtiene


calculando la distribucin condicionada
Y
Y de
X 2

n3j

n3j yj

Y1 0

Y2 1

X 2

Y3 2

10

Y4 3

Y5 4

24

31

X 2

X3

X3

1 5
31
Y3
n
g
y

3 j j 24 1.2917
n3 g j 1

Del mismo modo, el nmero medio de hijos varones de las familias sin hijas,
X Y 0 X Y
se calcula con la distribucin condicionada
1

X Y 0

ni1

ni1
xi

X1 0

X 2 1

X3 2
X4 3
X5 4

X Y 0 X Y

14

15

2
3

42

1 5
42
X1
n
g
X

i 1 i 23 1.826
n g1 i 1

El nmero medio de hijos varones en las familias que a lo


sumo tienen dos hijas, se calcula usando las marginales de la
tabla obtenida a partir de las columnas y1, y2 e y3

X Y 2

ni1

ni2

ni3

ni1+ni2+
ni3

(ni1+ni2+ni3) xi

X1 0

19

19

X 2 1

22

22

X3 2

20

40

X4 3

13

39

X5 4

28

81

129

1
0

X Y 2

129
1.5926
81

La covarianza es:
S XY

5
1 5
209

X
n
y

x
g
y

1.56 x 1.46 0.1876

i ij
j
n ggi 1
100
j 1