Vous êtes sur la page 1sur 20

I.

Estadstica Descriptiva de
dos variables
Objetivo:

Estudiar la posible asociacin entre dos variables

Herramientas:

A. Estadsticos: Covarianza, Coeficiente de correlacin


B. Representaciones grficas: Diagramas de dispersin,
rectas de regresin

Guin
II.1 Diagramas de Dispersin
II.2 Medidas de Asociacin
Covarianza
Coeficiente de correlacin
II.3 Regresin
Regresin lineal
Regresin No lineal

2 Diagrama de dispersin
Variable explicativa x
Variable respuesta y
Suponemos que la variable y depende de la variable x.
A veces solo queremos ver si hay asociacin y de que tipo
Diagrama de dispersin Grfico en el que se representan los puntos
(x_i, y_i)

Cerebro CI Escalado
Grados Consumo

Cerebro CI

Qu se observa en el diagrama de dispersin?

Asociacin: fuerte o dbil

Asociacin: negativa o positiva

Asociacin: lineal o no lineal

3. Medidas de Asociacin
Covarianza muestral : Muestra la relacin
entre los datos

cov x , y

1
n

( xi

x )( yi y )

i 1

1 n
( xiyi ) xy
n i1

Asociacin positiva

cov >0

Asociacin negativa

cov <0

No Asociacin

cov ~0

Depende de las
Unidades!

3 Regresin
Regresion Lineal Se trata de buscar la recta que aproxima
mejor los datos

PComo se halla la recta de regresin?


Se busca una recta y=a+bx, tales que los coeficientes
a y b minimizen,
ECM

1
n

( yi

bxi ) 2

i 1

Respuesta (Derivando)

cov xy

y
y

x
vx

cov xy
(x
vx

cov x , y
vx

x)

Recta de
Regresin

3. Medidas de Asociacin
Coeficiente de correlacin (Pearson) :
Muestra la relacin (lineal) entre los datos
r

Covx , y
v xv y

Asociacin fuerte y positiva

r~ 1

Asociacin fuerte y negativa

r ~-1

No Asociacin

r ~0

Relacin entre la recta de Regresin y el


coeficiente de correlacin
2

E.CM
E .CM

vy
1
n

vy (1 r )
1
n

( yi
i 1

y)

( yi
i 1

cov xy
y
( x xi )) 2
vx
x cov xy

cov xy 2
(
) (x
vx
vy

(cov x , y ) 2
vx

xi )

2(

yi

v y v yr 2

y )( x

cov xy
xi )
vx

Coeficiente de correlacin
No depende de las unidades
No es robusto (depende de datos
atpicos)

=% de la variacion de y que se debe a la


variacin de x

Solo mide relaciones lineales

3 Regresin no lineal
Regresion No Lineal Se trata de buscar una curva que
aproxime los datos de la mejor manera posible. Puede
ser exponencial polinomial,etc

Como se calcula?

ae

bx

Ln( y )

Ln( a ) bx

z
Se hace la regresin de la nueva variable Z sobre X

Cmo hacemos regresin


logaritmica?
z

Ln( x )

a bLn( x )

Se hace la regresin de la variable Y sobre Z

Cmo hacemos regresin


potencial?
z

a( x)

Ln(Y )

Ln(a ) bLn( x )

Se hace la regresin de la variable W sobre Z

Cmo se predice el futuro con


los modelos de regresin?
y

f ( x)

Modelo de Regresin

Que valor predice para un valor x de la variable respuesta?

Concentracin de NO2 en una ciudad de Noruega (tabla parcial de datos)

Concent
Cars
3.71844
7.6912 9.2
3.10009
7.69894
3.31419
4.81218
4.38826
6.95177
4.3464 7.51806
-1.3
4.16044
7.67183
4.01277
5.52545
2.15176
4.68213
3.157
7.15618
2.37955
4.74493
3.83298
5.81114
4.48187
8.10892
4.0483 8.31385
12.2
4.00186
5.22036
3.2308 6.40853
-0.9
4.67189
7.3192 -8.5
2.73437
6.6174 6.5
3.49651
7.76938
3.67122
6.4677 -1.1
3.67377
7.65064
3.15274
7.75061
3.42751
5.18178
4.32413
7.63964
3.65584
8.00703

Temp WindSp
4.
8
6.4
3.5
-3.7
0.9
-7.2
1.7
2.6
-0.1
2.6
1.6
-7.9
1.6
-4.1
3.8
-12.7 5.2
-1.6
3
-3.1
1.8
1 1.2
4
-2.8
-1.5
2.4
3
0.1
0.8
2.9
4.1
4.2
7.1
2.5
1
0.8
3.4
8.2
4.5
0.2
0.4
-2.1
4.3
-2.8
6

TempDiff
WindDir
74.4 20
600
-0.3
56
14
-0.1
281.3
4
1.2
74
65
11 115
0.3
224.2
19
0.3
211.9
5
-0.1
63.1
4
-0.1
64.5
12
0.4
58.3
3
0.3
78
1.5
215
230.4
17 572
0.9
82.7
5
235
1
282.4
20 447
88
24
186
19. 3
10
277
6
-0.4
70
12
0.2
307
0.2
230
-0.2
41.4
11
-0.2
62.5
15

Hour

Day

196
513
23
143
527
502
453
462
554
2
18

55
47

556
69

550
142
167
14
5
432
453

32
112

Anlisis con todos los datos


r = 0.5121

Correlacin con parte de los datos


r = 0.774

Cuidado!
Correlaciones y datos atpicos
Correlaciones y heterogeneidad
Correlaciones espurias