Vous êtes sur la page 1sur 6

SESION X

ANALISIS DE REGRESION Y CORRELACION LINEAL SIMPLE


1. INTRODUCCION
En una distribucin bidimensional intervienen dos variables, x e y, por tanto, a cada individuo i le
corresponden dos valores xi e yi . Estos dos valores se pueden considerar como coordenadas de un
punto (xi, yi) representado en un diagrama cartesiano. As, a cada individuo le corresponder un
punto, y toda la muestra se ver representada mediante un conjunto de puntos.
Por ejemplo, supongamos que a los cinco hijos, A, B, C, D y E, de una familia se les evala su aptitud
musical (Mu) y su aptitud para las matemticas (Ma) y se obtienen los siguientes resultados:

INDIVIDUO

Valoracin (Mu)

Valoracin (Ma)

10

Esta tabla es una distribucin bidimensional porque intervienen dos variables: valoracin Mu,
valoracin Ma. A cada individuo le corresponden dos valores: A(5,6), B(7,10), C(4,5), D(8,6), E(2,4).
De este modo se asocia a cada individuo un punto en un diagrama cartesiano:

12
10
8

Mu

6
4
2
0
0

10

Ma

Esta representacin grfica de una distribucin bidimensional se llama nube de puntos o diagrama de
dispersin.
2. CORRELACIN
Entre las dos variables que determinan una distribucin bidimensional puede existir una relacin o
asociacin ms o menos estrecha que se llama correlacin, y se puede medir mediante el coeficiente
de correlacin, r, que es un nmero, asociado a los valores de las dos variables. El coeficiente de
correlacin puede tomar valores entre -1 y 1.

6
x

10 12

0 1 2 3 4 5 6 7 8 9 101112
x

0 1 2 3 4 5 6 7 8 9 101112
x

1 2 3 4 5 6 7 8 9
x

a)
b)
c)
d)
Cuando r = 1 existe una relacin funcional entre las dos variables de modo que el valor de cada
variable se puede obtener a partir de la otra. Los puntos de la nube estn todos situados sobre una
recta de pendiente positiva (a).
Esto ocurre, por ejemplo, cuando una barra metlica se somete a distintas temperaturas, x1, x2,, xn,
y se miden con precisin sus correspondientes longitudes, y1, y2,, yn. Las longitudes se obtienen
funcionalmente a partir de las temperaturas de modo que, conociendo la temperatura a que se va a
calentar, se podra obtener la longitud que tendra la barra.

Cuando r es positivo y grande (prximo a 1) se dice que hay una correlacin fuerte y positiva. Los
valores de cada variable tienden a aumentar cuando aumentan los de la otra. Los puntos de la nube
se sitan prximos a una recta de pendiente positiva (b).
Es el caso de las estaturas, x1, x2,, xn, y los pesos, y1, y2,, yn, de diversos atletas de una misma
especialidad. A mayor estatura cabe esperar que tengan mayor peso, pero puede haber excepciones.
Cuando r es prximo a cero (por ejemplo, r = -0,12 o r = 0,08) se dice que la correlacin es muy dbil
(prcticamente no hay correlacin). La nube de puntos es amorfa (d).
Es lo que ocurrira si lanzramos simultneamente dos dados y anotramos sus resultados:
puntuacin del dado rojo, xi; puntuacin del dado verde, yi. No existe ninguna relacin entre las
puntuaciones de los dados en las diversas tiradas.
Cuando r es prximo a -1 (por ejemplo, r = -0,93) se dice que hay una correlacin fuerte y negativa.
Los valores de cada variable tienden a disminuir cuando aumentan los de la otra. Los puntos de la
nube estn prximos a una recta de pendiente negativa (c).
Si en un conjunto de pases en vas de desarrollo se miden sus rentas per cpita, xi, y sus ndices de
natalidad, yi, se obtiene una distribucin de este tipo, pues suele ocurrir que, grosso modo, cuanto
mayor sea la renta per cpita menor ser el ndice de natalidad.
Cuando r = -1 todos los puntos de la recta estn sobre una recta de pendiente negativa. Existe una
relacin funcional entre las dos variables.
3. PARMETROS DE UNA DISTRIBUCIN BIDIMENSIONAL
Cada una de las dos variables x, y de una distribucin bidimensional tiene sus propios parmetros.
Para el estudio de la correlacin se necesitan sus medias, x, y, y sus desviaciones estndar, x, y.
Hay adems un nuevo parmetro, xy, llamado covarianza, que sirve para medir el grado de relacin
entre las dos variables: cmo vara cada una con relacin a la otra.
La covarianza de una distribucin bidimensional de n individuos dados por los pares de valores (x1,y1),
(x2,y2),,(xn,yn), se calcula mediante la frmula siguiente:

xy =

( x ix ) ( y i y ) = x i y i x y
n

La segunda expresin es ms cmoda de aplicar cuando los promedios, no son nmeros enteros.
El coeficiente de correlacin, r, se obtiene dividiendo la covarianza por el producto de las
desviaciones tpicas:

xy

2
i

( x )( y )

( xi )
n

n
2

)(

=
2
i

( y i )
n

xy
xy

Este parmetro no tiene dimensiones. Por ejemplo, si la variable x es una longitud y la y un peso, los
promedios x

y x son longitudes, y sus valores varan segn que los datos estn dados en

centmetros, en metros; los valores de

y y son pesos, y sus valores varan segn las

unidades en que se expresen los datos; la covarianza, xy, es el producto de una longitud por un
peso, y su valor vara segn las unidades en que se den xi, yi; sin embargo, el coeficiente de
correlacin es un nmero abstracto cuyo valor no depende de las unidades en que se hallen los
valores de las variables. Adems, el hecho de que r tome valores entre 1 y 1 (-1 r 1) hace que
resulte muy cmodo interpretar sus resultados. Por todo ello, r es un parmetro sumamente adecuado
para calcular la correlacin entre dos variables estadsticas.
4. REGRESIN
Se llama recta de regresin a una recta que marca la tendencia de la nube de puntos. Si la
correlacin es fuerte (tanto positiva como negativa) y, por tanto, los puntos de la nube estn prximos
a una recta, sta es la recta de regresin.
Matemticamente hay dos rectas de regresin, la recta de regresin de Y sobre X y la de X sobre Y.
La recta de regresin de Y sobre X es aquella y = ax + b para la cual la suma de los cuadrados de las
desviaciones en el sentido de las ordenadas de cada punto a ella es mnima.

Al obligar a que di2 = (yi axi b)2 sea mnima, se obtiene la ecuacin

^y = y +

xy
2

( xx )

La recta de regresin de X sobre Y es aquella para la cual la suma de los cuadrados de las
desviaciones en el sentido de las abscisas de cada punto a ella es mnima.

Su ecuacin es

2y
^y = y +
( xx )
xy
que tambin se puede poner as:

^x =x +

xy
2y

( y y )

Las rectas de regresin tienen las siguientes peculiaridades:

( x , y )

Ambas pasan por el punto

llamado

centro

de

gravedad

de

la

distribucin.

Los valores

b yx =

b yx =

xy

(
xy
2

( x )( y )
n

x2i

; b xy=

( xi )
n

xy
2x

xy
2

se llaman coeficientes de regresin de Y sobre X y de X sobre Y, respectivamente.


Las pendientes de las rectas de regresin son byx y 1/byx.
Cuando la correlacin es fuerte, las dos rectas de regresin son muy prximas (son la misma si
r = 1). Si la correlacin es dbil, las dos rectas de regresin forman un ngulo grande.

Cuando |r| es prximo a 1 la recta de regresin sirve para realizar estimaciones fiables de una de las
variables para nuevos valores de la otra variable.

Ao
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008

Periodo
(x)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
136

Demanda
(y)
85
88
84
95
110
125
130
120
135
139
140
142
145
144
143
146
1971

18294
r=

a=

x
1
4
9
16
25
36
49
64
81
100
121
144
169
196
225
256
1496

y
7225
7744
7056
9025
12100
15625
16900
14400
18225
19321
19600
20164
21025
20736
20449
21316
250911

( 136 )( 1971 )
16

y b x
n

( )
n

85
176
252
380
550
750
910
960
1215
1390
1540
1704
1885
2016
2145
2336
18294

89.206
93.737
98.268
102.799
107.329
111.860
116.391
120.922
125.453
129.984
134.515
139.046
143.576
148.107
152.638
157.169
1971

18294
=0.9277 b=

( 136 )2
(1971 )2
1496
250911
16
16

)(

xy

7957.689
8786.581
9656.530
10567.538
11519.603
12512.725
13546.906
14622.144
15738.440
16895.794
18094.206
19333.676
20614.203
21935.788
23298.431
24702.132
249782.387

( 136 )( 1971 )
16

( 136 )2
1496
16

(y-)=e
-4.206
-5.737
-14.268
-7.799
2.671
13.140
13.609
-0.922
9.547
9.016
5.485
2.954
1.424
-4.107
-9.638
-11.169
0.000

=4.53

1971
136
4.53
=84.675
16
16

( )

150

f(x) = 4.53x + 84.68


R = 0.86

140
130
120
Demanda

110
100
90
80
70
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
Periodos

PRUEBA DE SIGNIFICACIN DE B
1. Planteamiento de hiptesis
Ho: = 0

e
17.689
32.910
203.566
60.817
7.132
172.652
185.200
0.850
91.146
81.291
30.088
8.729
2.026
16.870
92.896
124.749
1128.613

Ha: 0
2. Nivel de Significacin
0.95

= 0.05
-2.145=tde(0.025,
3. Estadstica
Prueba

t c=

1421gl)

2.145 =t (0.975,n-2gl)

( b )

S2e
SC x

4. Criterio de decisin:

0.025

0.025

Por lo tanto se aceptar la Ho si:

-2.145 < t Cal < 2.145

5. Clculo de la prueba:

2
e

S=

(
(

2
i

( y i )

S e = 250911

t c=

) (

( 1971 )2

16

)(

2
i

^y

( ^y i )
n

249782.387

( 1971 )2
=80.615
16

( 4.530880 )
=9.30
80.615
340

1. Conclusin:
Existe evidencia estadstica a un = 0.05 para rechazar la H o. Por lo tanto se puede afirmar a
un nivel de confianza del 95% que el valor de B es diferente de 0.

EJERCICIO DE TAREA

Ao
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006

Periodo (x)
1
2
3
4
5
6
7
8
9
10
11

Demanda (y)
37
39
41
40
45
48
50
60
75
80
95

2007
2008
2009
2010

12
13
14
15

100
110
114
117

BIBLIOGRAFIA
BARRENO, E., CHUE, J., MILLONES, R., VSQUEZ, F., CASTILLO, C. (2010). Estadstica
Aplicada. Primera edicin. Per: Edit. Fondo editorial Universidad de Lima. 445 p ISBN: 9789972-45-273-6
CRDOVA Baldeon Isaac. (2009). Estadstica Aplicada a la Investigacin. 1 era edicin. Per:
Edit. San Marcos. 203 p. ISBN: 978-9972-38-711-1
DAZA P. Jorge. Estadstica Aplicada con Microsoft Excel. 1era edicin. Lima: Megabyte, 2006.
648 p. ISBN: 9972-821-56-0
LEVIN, I. Richard y RUBIN, S. David (2010). Estadstica para Administracin y Economa. Stima
edicin revisada. Mxico: Edit. Pearson Education. 952 p. ISBN: 978-607-442-905-3
NEL Quezada Lucio. (2010). Estadstica para Ingenieros. 1era edicin. Per: Edit. Macro. 310 p.
ISBN: 978-612-4034-55-8
SPIEGEL Murray R. y STEPHENS Larry J. (2009). Estadstica. 4ta edicin. Mxico: McGraw-Hill,
577 p. ISBN: 978-0-07-148584-5
TRIOLA Mario F. (2009). Estadstica. Dcima edicin. Mxico: Pearson Education. 904 p. ISBN:
978-970-26-1287-2

Vous aimerez peut-être aussi