Vous êtes sur la page 1sur 31

ESTADISTICA

CORRELACIN, REGRESIN LINEAL, ANLISIS DE LA VARIANZA

CORRELACION
1. INTRODUCCIN
Con frecuencia estamos interesados en investigar dos o mas caractersticas de cada individuo o
elemento, por ejemplo podemos observar la estatura y el peso de una poblacin de nios entre
0 y 6 aos , si asociamos cada caracterstica bajo estudio una variable , digamos x e y
respectivamente , tendremos el par ordenado (x, y) de variables . As para el ejemplo anterior,
todas las estaturas medidas formaran la variable x y todos los pesos la variable y. El par (x, y)
se llamara variable estadstica bidimensional.
Estudiamos las variables peso y estatura, esperando que en general ocurra que a mayor estatura
tambin encontremos mayor peso, aunque es posible que en algunos pocos casos no ocurra as.
Vemos que existe una relacin entre las dos variables, aunque no es funcional, o sea, no
podemos determinar con exactitud el peso que corresponder a cada talla. En este tema
trataremos de describir y medir este tipo de relaciones, que aparecen en gran cantidad de
problemas.
A continuacin, desarrollaremos el grado de relacin entre dos o mas variables en lo que
llamaremos anlisis de correlacin, Para representar esta relacin utilizaremos una
representacin grfica llamada diagrama de dispersin, estudiaremos un modelo matemtico
para estimar el valor de una variable basndonos en el valor de otra, en lo que llamaremos
anlisis de regresin.
En muchas situaciones, las dos caractersticas observadas estn relacionadas entre si por lo que
es interesante su estudio en conjunto.
La variable estadstica bidimensional (x, y) se puede clasificar segn la naturaleza de sus
variables cualitativas, cuantitativas discretas y cuantitativas continuas, se obtiene los tipos de
distribuciones de dos caractersticas siguientes:
1. Los dos caracteres cualitativos, por ejemplo nivel de educacin, religin.
2. Uno cualitativo , otro cuantitativo, estos pueden ser:
a) Uno cualitativo, otro cuantitativo discreto, por ejemplo nivel educacional y numero
de hijos de las personas.
b) Uno cualitativo, otro cuantitativo continuo, por ejemplo edad y estado civil de las
personas.
3. Los dos cuantitativos, estos pueden ser:
a) Uno continuo y otro discreto, por ejemplo horas trabajadas y numero de accidentes
de trabajo.
b) Uno discreto y otro continuo, por ejemplo numero de horas extras trabajadas y edad
de las personas.
c) Los dos continuos, por ejemplo estatura y peso de las personas.

SEMINARIO TERMINAL I

ESTADISTICA

CORRELACIN, REGRESIN LINEAL, ANLISIS DE LA VARIANZA

Cuando son observadas ms de dos caractersticas hablamos de variables estadsticas ndimensionales, convirtindose entonces el anlisis en multivariante, situacin que no ser de
anlisis en este trabajo.
1.1. DISTRIBUCIONES BIDIMENSIONALES
Cuando sobre una poblacin estudiamos simultneamente los valores de dos variables
estadsticas, el conjunto de los pares de valores correspondientes a cada individuo se denomina
distribucin bidimensional.
Ejemplo
Supongamos que si a los cinco hijos, A, B, C, D y E, de una familia se les pasan unas pruebas
que miden la aptitud musical (Mu) y la aptitud para las matemticas (Ma), se obtienen los
siguientes resultados:

Esta tabla es una distribucin bidimensional porque intervienen dos variables: valoracin Mu,
valoracin Ma. A cada individuo le corresponden dos valores: A(5,6), B(7,10), C(4,5), D(8,6),
E(2,4).
1.2. IDEA DE CORRELACIN
Es frecuente que estudiemos sobre una misma poblacin los valores de dos variables
estadsticas distintas, con el fin de ver si existe alguna relacin entre ellas, es decir, si los
cambios en una de ellas influyen en los valores de la otra. Si ocurre esto decimos que las
variables estn correlacionadas o bien que hay correlacin entre ellas.
En el ejemplo anterior parece que hay cierta tendencia a que cuanto mejor es la nota en
Matemticas, mejor es la de lengua.
1.3. ANLISIS DE CORRELACIN
Es el conjunto de tcnicas estadsticas empleado para medir la intensidad de la asociacin entre
dos variables.
El principal objetivo del anlisis de correlacin consiste en determinar que tan intensa es la
relacin entre dos variables. Normalmente, el primer paso es mostrar los datos en un diagrama
de dispersin.

SEMINARIO TERMINAL I

ESTADISTICA

CORRELACIN, REGRESIN LINEAL, ANLISIS DE LA VARIANZA

1.4. NUBE DE PUNTOS O DIAGRAMA DE DISPERSIN


La investigacin de una relacin entre dos variables comienza con un intento por descubrir la
forma aproximada de la relacin , para lo cual se representan los datos observados en un
sistema de coordenadas , esta grafica recibe el nombre de diagrama de dispersin el cual
muestra la ubicacin de los valores o puntos (x, y) de la variable bidimensional (x, y) en un
sistema de coordenadas rectangulares , es esta grafica se puede observar si existe o no la
relacin acentuada entre las variables x e y ,y se puede ver que forma tiene : lineal u otra.

Ejemplo
De este modo para el ejemplo de la familia de cinco hijos se asocia a cada individuo un punto
en un diagrama cartesiano:

Esta representacin grfica de una distribucin bidimensional se llama nube de puntos o


diagrama de dispersin.

SEMINARIO TERMINAL I

ESTADISTICA

CORRELACIN, REGRESIN LINEAL, ANLISIS DE LA VARIANZA

1.5. CORRELACIN LINEAL


Covarianza
La covarianza mide la relacin lineal entre x e y, para ilustrarlo se dibujo en los ejes
coordenados los diagramas de dispersin de las figuras siguientes, donde se muestra distintos
tipos de relacin entre dos variables y covarianza resultante.

a) Covarianza positiva

b) covarianza prxima a cero

c) Covarianza negativa

SEMINARIO TERMINAL I

d) covarianza prxima a cero

ESTADISTICA

CORRELACIN, REGRESIN LINEAL, ANLISIS DE LA VARIANZA

Cuando x e y varan conjuntamente de forma lineal como indican las (a) y (c) la varianza ser
alta, por ejemplo en el caso de (a) la mayora de los puntos x, - x e y,- y estn en ele
primer cuadrante y tercer cuadrante (definidos por x e y ) , contribuyendo positivamente a la
suma , en el caso (c) la mayora de los puntos x, - x e y,- y estn en el segundo cuadrante
por tanto serna negativos , obteniendo una suma de alta magnitud y negativa en la formula de
covarianza.
Por el contrario cuando no existe relacin caso (b) o existe relacin no lineal caso (d) la
covarianza ser pequea al estar los puntos repartidos por los cuatro cuadrantes definidos por
x e y .
Se esta hablando tanto de la covarianza que se hace necesario hacer mencin de su formula:

Cov ( x, y )

(x

x)( y i y )
n

x y
i

xy

Pero el inconveniente de la covarianza como medida de asociacin lineal es su dependencia de


las unidades de medida de las variables, en consecuencia para construir una medida
adimensional tendremos que dividir la covarianza por un trmino con sus mismas dimensiones.
Si se divide por el producto de sus desviaciones tpicas se define el coeficiente de correlacin
entre dos variables.
Cuando observamos una nube de puntos podemos apreciar si los puntos se agrupan cerca de
alguna curva. Aqu nos limitaremos a ver si los puntos se distribuyen alrededor de una recta. Si
as ocurre diremos que hay correlacin lineal. La recta se denomina recta de regresin.

Hablaremos de correlacin lineal fuerte cuando la nube se parezca mucho a una recta y ser
cada vez ms dbil (o menos fuerte) cuando la nube vaya desparramndose con respecto a la
recta.

SEMINARIO TERMINAL I

ESTADISTICA

CORRELACIN, REGRESIN LINEAL, ANLISIS DE LA VARIANZA

En el grfico observamos que en nuestro ejemplo la correlacin es bastante fuerte, ya que la


recta que hemos dibujado est prxima a los puntos de la nube.
Cuando la recta es creciente la correlacin es positiva o directa: al aumentar una variable, la
otra tiene tambin tendencia a aumentar, como en el ejemplo anterior. Cuando la recta es
decreciente la correlacin es negativa o inversa: al aumentar una variable, la otra tiene
tendencia a disminuir.
Ejemplo 2:
Una persona se entrena para obtener el carnet de conducir repitiendo un test de 50 preguntas.
En la grfica se describen el n de errores que corresponden a los intentos realizados.
Observa que hay una correlacin muy fuerte (los puntos estn "casi" alineados) y negativa (la
recta es decreciente).

Ejemplo 3:
A 12 alumnos de un centro se les pregunt a qu distancia estaba su residencia del Instituto, con
fin de estudiar si esta variable estaba relacionada con la nota media obtenida. Se obtuvieron los
datos que figuran en la siguiente tabla:

Distancia (en km) 0,05 0,1 0,12 0,4 0,5 0,7


Nota media

SEMINARIO TERMINAL I

8,4

5,7

1,2 2,1 2,5

9,1 6,3 6,7 4,3 5,4 7,8 4,5 7,2 8,1

ESTADISTICA

CORRELACIN, REGRESIN LINEAL, ANLISIS DE LA VARIANZA

Observamos una nube de puntos que no nos sugiere ninguna recta concreta, porque la
correlacin es prcticamente inexistente, es decir, no tiene nada que ver con el rendimiento
acadmico la distancia del domicilio al instituto
1.6. MEDIDA DE LA CORRELACIN
La apreciacin visual de la existencia de correlacin no es suficiente. Usaremos un parmetro,
llamado coeficiente de correlacin que denotaremos con la letra r, que nos permite valorar si
sta es fuerte o dbil, positiva o negativa.
El clculo es una tarea mecnica, que podemos realizar con una calculadora o un programa
informtico. Nuestro inters est en saber interpretarlo.
Antes de ponernos a trabajar destacaremos una de sus propiedades
-1 < r < 1
DEFINICIN DE COEFICIENTE DE CORRELACIN
El coeficiente de correlacin (o ndice de correlacin lineal de Pearson) entre dos variables x
e y se define por.

Cov ( x, y )
SxS y

Donde:
Sx y Sy son las desviaciones tpicas de x y de y respectivamente.
Se demuestra que el coeficiente de correlacin cumple:
1. Si se multiplica x por k1 e y por k1 el coeficiente de correlacin no varia.
2. Si existe una relacin lineal exacta entre ambas variables y todos los puntos estn
en la lnea y= a bx el coeficiente de correlacin es igual a 1 (si b > 0) -1 (si b<0).

SEMINARIO TERMINAL I

ESTADISTICA

CORRELACIN, REGRESIN LINEAL, ANLISIS DE LA VARIANZA

3. Si no existe relacin lineal exacta: -1 < r < 1, el cual representa el grado de


asociacin.
4. r = 0 cuando no hay ninguna correlacin entre x e y.
INTERPRETACIN
Entre las dos variables que determinan una distribucin
bidimensional puede existir una relacin ms o menos
estrecha que se llama correlacin, y se puede medir
mediante el coeficiente de correlacin, r, que es un
nmero, asociado a los valores de las dos variables. El
coeficiente de correlacin puede valer entre -1 y 1.
Cuando r = 1 existe una relacin funcional entre las dos
variables de modo que el valor de cada variable se puede
obtener a partir de la otra. Los puntos de la nube estn
todos situados sobre una recta de pendiente positiva.
Esto ocurre, por ejemplo, cuando una barra metlica se somete a distintas temperaturas, x1, x2,
, xn, y se miden con precisin sus correspondientes
longitudes, y1, y2,, yn. Las longitudes se obtienen
funcionalmente a partir de las temperaturas de modo que,
conociendo la temperatura a que se va a calentar, se
podra obtener la longitud que tendra la barra.
Cuando r es positivo y grande (prximo a 1) se dice que
hay una correlacin fuerte y positiva. Los valores de
cada variable tienden a aumentar cuando aumentan los
de la otra. Los puntos de la nube se sitan prximos a
una recta de pendiente positiva.
Es el caso de las estaturas, x1, x2,, xn, y los pesos, y1, y2,, yn, de diversos atletas de una
misma especialidad. A mayor estatura cabe esperar que
tengan mayor peso, pero puede haber excepciones.
Cuando r es prximo a cero (por ejemplo, r = -0,12 o
r = 0,08) se dice que la correlacin es muy dbil
(prcticamente no hay correlacin). La nube de puntos es
amorfa.
Es lo que ocurrira si lanzramos simultneamente dos
dados y anotramos sus resultados: puntuacin del dado

SEMINARIO TERMINAL I

ESTADISTICA

CORRELACIN, REGRESIN LINEAL, ANLISIS DE LA VARIANZA

rojo, xi; puntuacin del dado verde, yi. No existe


ninguna relacin entre las puntuaciones de los dados en
las diversas tiradas.
Cuando r es prximo a -1 (por ejemplo, r = -0,93) se
dice que hay una correlacin fuerte y negativa. Los
valores de cada variable tienden a disminuir cuando
aumentan los de la otra. Los puntos de la nube estn
prximos a una recta de pendiente negativa.
Si en un conjunto de pases en vas de desarrollo se
miden sus rentas per cpita, xi, y sus ndices de
natalidad, yi, se obtiene una distribucin de este tipo, pues
suele ocurrir que, grosso modo, cuanto mayor sea la renta
per cpita menor ser el ndice de natalidad.
Cuando r = -1 todos los puntos de la recta estn sobre
una recta de pendiente negativa. Existe una relacin
funcional entre las dos variables.

INTERPRETACIN ERRNEA DE LOS COEFICIENTES DE CORRELACIN


En ocasiones el coeficiente de correlacin se interpreta errneamente como un porcentaje. Si
r=0.7 ser incorrecto afirmar que el 70 % de las variaciones de y viene explicado por la
variable x, para una interpretacin correcta deber considerarse r2, as para r= 0.7 ser: r2 = 0.49
solo el 49 % de la variacin de y es explicada por la variable x.
PROPIEDADES DEL COEFICIENTE DE CORRELACIN
i) nmero sin dimensiones entre -1 y 1.
ii) si las variables son independientes =0. La inversa no es necesariamente cierta, aunque si
las variables son normales bivariantes s.
iii) si las variables estuvieran relacionadas linealmente =1
Un contraste que interesa realizar en un modelo II es H0: =0. Como este contraste es
totalmente equivalente al realizado sobre dicho coeficiente, aunque tambin hay tablas basadas
en que una cierta transformacin (de Fisher) de r se distribuye aproximadamente como una
normal.

SEMINARIO TERMINAL I

ESTADISTICA

CORRELACIN, REGRESIN LINEAL, ANLISIS DE LA VARIANZA

Qu mide r?
Se puede demostrar una relacin algebraica entre r y el anlisis de la varianza de la regresin
de tal modo que su cuadrado (coeficiente de determinacin) es la proporcin de variacin de la
variable Y debida a la regresin. En este sentido, r2 mide el poder explicatorio del modelo
lineal.
Qu no mide r?
- no mide la magnitud de la pendiente ("fuerza de la asociacin")

- tampoco mide lo apropiado del modelo lineal

1.7. OTROS COEFICIENTES DE CORRELACIN


COEFICIENTE DE CORRELACIN Q DE YULE
Mide la asociacin de dos variables nominales con solo dos categoras excluyentes (por ejemplo
sexo: hombre, mujer; estudia si, no ) .Cuando los valores de x e y son solamente dos, la
distribucin del numero de puntos puede disponerse como la tabla siguiente:
y
x
0

SEMINARIO TERMINAL I

Total

a+b

10

ESTADISTICA

CORRELACIN, REGRESIN LINEAL, ANLISIS DE LA VARIANZA

Total

a+c

b+d

c+d

el coeficiente de correlacin entre este tipo de variables x e y esta dado por:

ad bc
ad bc

el coeficiente Q no es aplicable cuando uno de los casilleros es cero.


Ejemplo
Se desea estudiar la relacin que existe entre encontrar trabajo y el conocimiento de un
determinado idioma. Con tal objeto se realizo una encuesta , la distribucin de resultado es
como sigue:
idioma
Si

No

Total

Si

11

18

No

10

14

Total

15

17

n= 32

encontrar trabajo

Por tanto el coeficiente de correlacin de Yule es:


Q

ad bc
ad bc

(11 10) (7 4)
(11 10) (7 4)

82
138

Q 0.594

COEFICIENTE DE CORRELACIN PHI


Es un coeficiente para medir el grado de asociacin entre dos variables cualitativas ordinal o
nominal, de solo dos categoras. La distribucin del numero de puntos se dispone como en la
siguiente tabla:
y
x
0

SEMINARIO TERMINAL I

Total

a+b

11

ESTADISTICA

CORRELACIN, REGRESIN LINEAL, ANLISIS DE LA VARIANZA

c+d

Total

a+c

b+d

El coeficiente de correlacin PHI o de puntos esta dado por:

ad bc

a b c d a c b d

Ejemplo
Ver si existe relacin entre actividad social y calificacin como lder :
Activ. Social
alta

Baja

Total

Favorable

86

41

127

Desfavorable

62

71

133

Total

148

112

n= 260

Calif. como lder

Por tanto el coeficiente de correlacin de Yule es:

ad bc

a b c d a c b d

(86 71) (41 62)

127 133148112

0.213

1.8. CORRELACIN Y CAUSALIDAD


Los coeficientes de correlacin son solo medida de covariacion de las variables, en cuanto a la
variacin misma puede deberse a causas que afectan a cada variable de una misma manera o de
maneras opuestas, o bien una de ellas es causa de variacin de la otra, o puede suceder que la
relacin causal sea reciproca; todo esto es ajeno a la comprobacin de la existencia de la
correlacin y del valor del coeficiente de correlacin.
Es fcil imaginarse que parejas de variables pudieran dar un alto valor de un coeficiente de
correlacin y que no se deba realmente a una estrecha relacin entre ellas, sino el efecto comn
sobre estas de una tercera variable y entonces este alto valor del coeficiente de relacin refleja
solo ese efecto comn.

SEMINARIO TERMINAL I

12

ESTADISTICA

CORRELACIN, REGRESIN LINEAL, ANLISIS DE LA VARIANZA

En consecuencia los coeficientes de correlacin se deben manejar con mucho cuidado, ya que de
no ser as puede llevarnos a conclusiones errneas.

REGRESION LINEAL
2. REGRESIN LINEAL
Historia corregir
La primera forma de regresiones lineales documentada fue el mtodo de los mnimos cuadrados, el
cual fue publicado por Legendre en 1805, y por Gauss en 1809. El trmino "mnimos cuadrados"
proviene de la descripcin dada por Legendre "moindres carrs". Sin embargo Gauss asegur que
conoca dicho mtodo desde 1795.
Tanto Legendre como Gauss aplicaron el mtodo para determinar, a partir de observaciones
astronmicas, las rbitas de cuerpos alrededor del sol. En 1821, Gauss public un trabajo en dnde
desarrollaba de manera ms profunda el mtodo de los mnimos cuadrados, y en dnde se inclua
una versin del teorema de Gauss-Markov.
Etimologa
El trmino regresin se utiliz por primera vez en el estudio de variables antropomtricas: al
comparar la estatura de padres e hijos, result que los hijos cuyos padres tenan una estatura muy
superior al valor medio tendan a igualarse a ste, mientras que aquellos cuyos padres eran muy
bajos tendan a reducir su diferencia respecto a la estatura media; es decir, "regresaban" al
promedio. La constatacin emprica de esta propiedad se vio reforzada ms tarde con la
justificacin terica de ese fenmeno.
El trmino lineal se emplea para distinguirlo del resto de tcnicas de regresin, que emplean
modelos basados en cualquier clase de funcin matemtica. Los modelos lineales son una
explicacin simplificada de la realidad, mucho ms gil y con un soporte terico por parte de la
matemtica y la estadstica mucho ms extenso.
Introduccin
Si sabemos que existe una relacin entre una variable denominada dependiente y otras
denominadas independientes (como por ejemplo las existentes entre: la experiencia profesional de
los trabajadores y sus respectivos sueldos, las estaturas y pesos de personas, la produccin agraria y

SEMINARIO TERMINAL I

13

ESTADISTICA

CORRELACIN, REGRESIN LINEAL, ANLISIS DE LA VARIANZA

la cantidad de fertilizantes utilizados, etc.), puede darse el problema de que la dependiente asuma
mltiples valores para una combinacin de valores de las independientes.
"Y es una funcin de X"
Y = f(X)
Como Y depende de X, Y es la variable dependiente, y X es la variable independiente.
En el Modelo de Regresin es muy importante identificar cul es la variable dependiente y cul es
la variable independiente.
En el Modelo de Regresin Simple se establece que Y es una funcin de slo una variable
independiente, razn por la cual se le denomina tambin Regresin Divariada porque slo hay dos
variables, una dependiente y otra independiente y se representa as:
Y = f (X)
"Y est regresando por X"
La variable dependiente es la variable que se desea explicar, predecir. Tambin se le llama
REGRESANDO VARIABLE DE RESPUESTA.
La variable Independiente X se le denomina VARIABLE EXPLICATIVA REGRESOR y se le
utiliza para EXPLICAR Y.
El modelo de regresin lineal
La regresin es un mtodo de anlisis de los datos de la realidad econmica que sirve para poner en
evidencia las relaciones que existen entre diversas variables. Consiste en determinar los valores de
"a" y " " a partir de la muestra, es decir, encontrar los valores de a y b con los datos observados de
la muestra.
La ecuacin es de carcter deterministico y la ecuacin es una funcin de Regresin Poblacional:
Yi Xi Ui

La ecuacin es una funcin de Regresin Muestral:


Yi Xi ei

SEMINARIO TERMINAL I

14

ESTADISTICA

CORRELACIN, REGRESIN LINEAL, ANLISIS DE LA VARIANZA

Interpretacin de la Funcin de Regresin Poblacional:

Yi Xi Ui

Y es la variable endgena, (dependiente o el regresando observable), X es la variable


explicativa o exgena (independiente o el regresor observable), Ui es la perturbacin
estocstica (no es observable), a y b son los parmetros de regresin, desconocidos.
Finalmente i como sub-ndice, se refiere a la i-sima observacin.
Las observaciones pueden tomarse para ciertas unidades a travs del tiempo (series
cronolgicas) o a travs de individuos, familias, provincias, pases u otros agregados
geogrficos, etc. Para cierto periodo unitario de tiempo (cortes transversales o cortes de
secciones transversales), o a travs de una combinacin de los dos procedimientos
precedentes (combinacin de series de tiempo es cortes transversales).
Interpretacin de la Funcin de Regresin Muestral:
Yi Xi ei

Siendo Y^ el valor calculado de Y, por medio de los estimadores a y b de los parmetros a y b


respectivamente, donde ei es el termino estocstico de la funcin.
Supuestos del modelo de regresin lineal
Para poder crear un modelo de regresin lineal, es necesario que se cumpla con los siguientes
supuestos:
1. Yi Xi Ui

Funcin de regresin poblacional

2. Ui

Tiene una distribucin normal

3. E(Ui) = 0
4.

E (Ui 2 ) u

La media o esperanza es igual a cero


2

SEMINARIO TERMINAL I

Homocedasticidad

15

ESTADISTICA

CORRELACIN, REGRESIN LINEAL, ANLISIS DE LA VARIANZA

5. E(Ui , Uj) = 0 ( j )

Ausencia de autoregrasividad

6. Xi es un regresor fijo

Es una variable no estocstica con valores fijos

Estimacin de parmetros de la Funcin de Regresin Poblacional


Mtodo De Los Mnimos Cuadrados.
El objetivo de nuestro anlisis es lograr estimadores de los parmetros a y b, tales que renan las
siguientes condiciones o exhiban las siguientes propiedades:

Que sean combinaciones lineales de las observaciones mustrales.


Que sean insesgados.
Que tengan varianzas menores a cualquier otro estimador.

La diferencia entre los valores observados y calculados de Yi esto es (Yi-Yi^) la cual se denomina
residual o simplemente residuo, representndose por ei es decir:
ei Yi Yi

El objetivo a travs del principio de los mnimos cuadrados es la minimizacin de la suma a travs
de las observaciones de los cuadrados de las perturbaciones establecidas en la ecuacin.
Tenemos:

(Yi Yi )
e e2
(Yi Yi ) 2
2

1)1)

min ei2 min (Yi Yi ) 2

min ei2 min (Yi Yi ) 2

2)

Se debe distinguir cuidadosamente las dos ecuaciones siguientes:

Yi Xi Ui
Yi Xi i
e (Yi Xi)
2

1 Condicin:

F.R.P.
F.R.M.

e2
2 (Yi Xi )( 1) 0

(Yi Xi) 0
SEMINARIO TERMINAL I

Yi n Xi 0
Yi n Xi

16
3)

ESTADISTICA

CORRELACIN, REGRESIN LINEAL, ANLISIS DE LA VARIANZA

2 Condicin:
2 (1)(1) 2 (1) 2n(1) 2n
2 e2
2(1) (Yi Xi)(1)(1) 0
2
e2
2 (Yi Xi)( X ) 0

(Yi Xi) X 0
( XYi X X

)0

Obteniendo de las ecuaciones 3 y 4 la Ecuaciones Normales

XYi X X

Yi n Xi

0
3)

XYi

XX2 X 2

XYi

4)

4)

Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la siguiente solucin
para ambos parmetros:
Despejando el parmetro a de la ecuacin (4)

Y X y X

Y X
n

SEMINARIO TERMINAL I

17

ESTADISTICA

CORRELACIN, REGRESIN LINEAL, ANLISIS DE LA VARIANZA

Reemplazamos I en la ecuacin (4)

XY

Y X X X

X Y ( X )

XY
n

X 2

n XY X Y ( X ) 2 n X 2

n XY X Y n X 2 ( ( X 2 )

Entonces la ecuacin del parmetro B es:

n XY X Y
2 2
n X ( X )

II

Reemplazando II en I

Y n X Y X Y

2
2
n
n X ( X )

X
n

Y n X X n XY X Y

nn X X
2

n Y X 2 Y X n X XY Y X
2

n n X 2 X


SEMINARIO TERMINAL I

n Y X 2 X XY

n n X 2 X

18

ESTADISTICA

CORRELACIN, REGRESIN LINEAL, ANLISIS DE LA VARIANZA

Entonces la ecuacin del parmetro a es:

Y X
n X

2
2

X XY
( X ) 2

RESIDUAL

ei Yi Yi

e Y Y Y Y

Se ha sumado y restado la media de Y

5)

e (Y Y ) (Y Y )

Se ha asociado y factorizado signos

6)

Donde:

Y X
Y X
Y Y X X ( X X )
Y Y ( X X )

7)

Si:

xX X

8)

y Y Y

9)

y Y Y

10)

SEMINARIO TERMINAL I

19

ESTADISTICA

CORRELACIN, REGRESIN LINEAL, ANLISIS DE LA VARIANZA

Reemplazamos las ecuaciones (8) , (9) , (10) en la ecuacin (7)

y x

11)

(e ) ( y x)
2

e2
2 ( y x)( x) 2 0

( y x) x 0
( xy x

por lo tanto:

)0

xy x 2 0

xy ( X X )(Y Y )
x
(X X )

Determinacin del estimador de la varianza del trmino estocstico.


u2

ei2

n2

Y X Y Y X X Y Y

n2

n2

Y XY
n2

Formulas de las Varianzas de los parmetros de a^ y b^

V ( )

u2

( X X ) 2

X2
1
X2

V ( ) u
u
2
2
n X X
n ( X X )

SEMINARIO TERMINAL I 2

20

ESTADISTICA

CORRELACIN, REGRESIN LINEAL, ANLISIS DE LA VARIANZA

Formulas de las Covarianzas de los parmetros a^ y b^

Cov ( , ) u2

X X

CASO PRCTICO
Supongamos que usted tiene a su cargo el dinero del departamento de Oruro, los datos
corresponden al suministro de dinero y el Producto Nacional Bruto (ambos expresados en millones
de bolivianos)

Suministro de
PNB (en Bs)
Dinero (en Bs)
Y
X
5,0
2,0
5,5
2,5
6,0
3,2
7,0
3,6
7,2
3,3
7,7
4,0
8,4
4,2
9,0
4,6
9,7
4,8
10,0
5,0
75,5
37,2

SEMINARIO TERMINAL I

XY

X^2

ei

Y^2

10,00
13,75
19,20
25,20
23,76
30,80
35,28
41,40
46,56
50,00
295,95

4,00
6,25
10,24
12,96
10,89
16,00
17,64
21,16
23,04
25,00
147,18

0.40
0.04
-0.66
-0.34
0.37
-0.33
0.03
-0.06
0.30
0.25
0.00

25.00
30.25
36.00
49.00
51.84
59.29
70.56
81.00
94.00
100.00
597.03

21

ESTADISTICA

CORRELACIN, REGRESIN LINEAL, ANLISIS DE LA VARIANZA

Se pide:
a) Estimar el siguiente modelo

PNBi Dineroi U i

b) Determinar las ecuaciones normales.


c) Determinar los valores de ei
d) Determinar la varianza muestral del termino estocstico.
e) Determinar la varianza muestral del estimador a y su desviacin tpica muestral de la misma
manera la varianza muestral del parmetro b y su desviacin tpica muestral.
f) Determinar la covarianza de a y b respectivamente.

n XY X Y
2 2
n
(
PNB
X
Dinero
U X )

SOLUCION.
a)

2959.5 2808.6

1471.8 1383.84

10(295.95) 37.2(75.5)

108147.18) (37.2) 2
Entonces el modelo estimado ser:

1.7156

150.9

87.96

1.1681 1.7156 Dinero e


PNB
i
i

Entonces podemos decir, cuando el suministro de dinero se incrementa en 1 milln de bolivianos el


2
producto nacional bruto aumentara enY1.7156
X millones
Xde bolivianos.
XY


n X ( X )
2

b) Se toma las ecuaciones encontradas 3 y 4, y se reemplaza

Y
X

Reemplazando:

n Yi n Xi

75.5
37.2
1.7156(
)
3)
10
2

4)
XYi X X
1.1681
7.55 6.382

SEMINARIO TERMINAL I

22

ESTADISTICA

CORRELACIN, REGRESIN LINEAL, ANLISIS DE LA VARIANZA

Entonces tenemos:

75.50 10 37.20

3)

295.95 37.20 147.18


c) Para hallar los valores de ei

4)

ei Yi Yi

ei Yi Xi
ei Yi 1.1681 1.7156 Xi
e1 5.0 1.1681 1.7156(2.0)

e2 5.5 1.1681 1.7156(2.5)

u sea eel error


04 ser el numero
Muchas personasecometern
errores
2 0.menos
V
( pequeos
) y cuanto mayor
1 0.40
2

(X
X )igual a 0
que los cometan, el error medio de las personas ser
la sumatoria

( X ecuacin:
X)
d) Reemplazamos datos en la siguiente
2

Y Y2 XY
(37.20) 2
( X Xn ) 2 147.18 10
2199
2
(
X

X
)

( X(295
X.95
) 2) 8.796
597
.
03

1
.
1681
(75.5) 1.
7156

2
250
u
2

u2

10 2

0.1400
V ( )
1.106638.796
2

V ( ) 0.0159

u2 0.14

Hallamos la varianza muestral del estimador b

V ( )

SEMINARIO TERMINAL I

0.0159
23

0.1260

ESTADISTICA

CORRELACIN, REGRESIN LINEAL, ANLISIS DE LA VARIANZA

Hallamos la varianza muestral del estimador a

X
n X X

V ( )
2
u

147.18

10(8.796)

V ( ) 0.14

V ( ) 0.2337

V ( )

0.2337

0.4834
SEMINARIO TERMINAL I

24

ESTADISTICA

CORRELACIN, REGRESIN LINEAL, ANLISIS DE LA VARIANZA

Hallamos la covarianza de los estimadores a y b

Cov ( , ) u2

X X

37.20

Cov ( , ) 0.1400 10
8.796

Cov ( , ) 0.0591

ANALISIS DE LA VARIANZA DE LA REGRESION


3. INTRODUCCIN
En estadstica, el anlisis de la varianza o anlisis de varianza (ANOVA, segn
terminologa inglesa) es una coleccin de modelos estadsticos y sus procedimientos
asociados, en el cual la varianza esta particionada en ciertos componentes debidos a
diferentes variables explicativas. Las tcnicas iniciales del anlisis de varianza fueron
desarrolladas por el estadstico y genetista R. A. Fisher en los aos 1920 y 1930 y es
algunas veces conocido como Anova de Fisher o anlisis de varianza de Fisher, debido
al uso de la distribucin F de Fisher como parte del test de significancia estadstica.
El anlisis de varianza sirve para comparar si los valores de un conjunto de datos numricos
son significativamente distintos a los valores de otro o ms conjuntos de datos. El

SEMINARIO TERMINAL I

25

ESTADISTICA

CORRELACIN, REGRESIN LINEAL, ANLISIS DE LA VARIANZA

procedimiento para comparar estos valores est basado en la varianza global observada en
los grupos de datos numricos a comparar. Tpicamente, el anlisis de varianza se utiliza
para asociar una probabilidad a la conclusin de que la media de un grupo de puntuaciones
es distinta de la media de otro grupo de puntuaciones.
3.1. DESCOMPOSICIN DE LA VARIANZA
La descomposicin de la variacin muestral de Y, podemos considerar esta variacin
representada en el siguiente grafico.
Y X

Como se puede ver los 11 valores de Y correspondientes a los respectivos 11 valores de X,


difieren entre ellos, es decir de observacin muestral a observacin muestral A que se
debe?
En primer lugar, conforme a lo postulado en el modelo que se estudia la variacin de Y
viene en parte explicada o es debida a cambios o variaciones en X que generan cambios en
el valor esperado de Y, o variaciones en X que generan cambios en el valor esperado de Y,
es decir en la Funcin de Regresin Poblacional.
En segundo lugar, parte de la variacin observada viene explicada o es debido a los efectos
introducidos por la perturbacin aleatoria o estocstica.
Consecuentemente, surge la pregunta de cuanto de la variacin de Y puede atribuirse al
primer factor (variacin de X) y cuanto de ella puede atribuirse al segundo factor o a la
perturbacin estocstica.

SEMINARIO TERMINAL I

26

ESTADISTICA

CORRELACIN, REGRESIN LINEAL, ANLISIS DE LA VARIANZA

La respuesta a esta interrogante lo da el Anlisis de la Varianza de la Regresin, de


acuerdo al siguiente punto de vista:
Si la variacin muestral de Y fuese nula, todos los valores de Y correspondientes a los
respectivos valores de X, descansaran sobre una horizontal en el grafico de dispersin. Si
este fuese el caso, al ser todos los valores de Y iguales, ellos coincidiran con el valor de su
media muestral de Y (barra), y a esta altura se estabilizara dicha horizontal.
3.2. SUMA TOTAL DE CUADRADOS
Las distancias desde Y observadas hasta Y (barra), pueden tomarse entonces como
elementos de medidas de la variacin total de Y. Una medida basada en dichos elementos es
la suma de los cuadrados de dichas distancias en la muestra, denominada suma Total de
Cuadrados (STC).
STC (Yi Y ) 2 yi2

Por lo tanto el anlisis de la varianza de la regresin intenta DESCOMPONER o participar


esta Suma Total de Cuadrados (STC) en dos partes, de tal manera que cada una de ellas
explique las variaciones de Y atribuibles a los factores de X y Ui respectivamente.
En lo que hace el factor X, supongamos que se ha ajustado la recta de regresin (del grafico
anterior) por el mtodo de mnimos cuadrados, logrando de este modo una recta de mejor
ajuste
En este contexto consideremos una observacin especifica cualquiera por ejemplo la
i - sima, compuesta por el par de valores (Yi : Xi) y consideremos tambin la distancia
vertical desde el punto (Yi : Xi) hasta Y(barra) esta distancia total, como la siguiente figura
puede ser descompuesta en dos partes, la primera es la distancia vertical desde el punto
observado hasta la lnea (recta) de la funcin de Regresin Muestral, la otra es la distancia
desde la lnea (recta) de la Funcin de Regresin Muestral hasta Y(barra) es decir.
Yi Yi ei

SEMINARIO TERMINAL I

27

ESTADISTICA

CORRELACIN, REGRESIN LINEAL, ANLISIS DE LA VARIANZA

Y X

ei

(Yi Y )

Y
Yi

Yi

Restando Y (barra) de ambos miembros de la ecuacin anterior se tiene


Yi Y (Yi Y ) ei

Esto es lo que hace a una observacin aislada. Lo mismo sucede con cualquier otra, sin
embargo se pueden tambin generalizarse para todas las observaciones conjuntamente, y
elevarlas al cuadrado para eliminar la influencia de los signos es decir:

(Yi Y )

(Yi Y ) ei

De donde:

(Yi Y ) (Yi Y )
2

(Yi Y )

2
2(Yi Y )ei ei

2
(Yi Y ) 2 2 (Yi Y )ei ei

Pero:

(Yi Y )e
(Yi Y )e
(Yi Y )e

i
i
i

( X Y )e
(e Xe Y e )
e X e Y e

SEMINARIO TERMINAL I

28

ESTADISTICA

CORRELACIN, REGRESIN LINEAL, ANLISIS DE LA VARIANZA

Pero a su vez:

Por lo tanto

X e

i i

(Yi Y )e

Consecuentemente:

(Yi Y ) (Yi Y ) e
2

STC =

SRC

SEC

Lo que se entiende como Suma Total de Cuadrados. Igual a la suma Regresin de


Cuadrados mas la Suma Error de Cuadrados.
Realizando operaciones en la SRC se puede de manera simple descubrir el origen de esta
parte de la contribucin a la varianza o dicho de otro modo variacin total de Y.
SRC

(Yi Y )

( Xi Y )

Pero:
Y X

Entonces:

(Yi Y ) (Y X ) X Y
(Yi Y ) Y X X Y
(Yi Y ) ( X X )
(Yi Y ) ( X X )
SRC (Yi Y ) ( X X )

SRC TERMINAL
SEMINARIO
x I
2

2
i

29

ESTADISTICA

CORRELACIN, REGRESIN LINEAL, ANLISIS DE LA VARIANZA

Con lo que habremos logrado la demostracin de la variacin muestral de Y (STC), en una


parte que describe la variacin de los valores ajustados por mnimos cuadrados de Y (SRC)
y otra parte que toma en cuenta el efecto estimado de la perturbacin estocstica (SEC).

(Y Y ) 2

Inmediatamente podemos intuir que esta descomposicin nos conduce a una medida natural
de la bondad de ajuste logrado por mnimos cuadrados, denominado coeficiente de
determinacin y simbolizado por R2

2
i

(Yi Y ) 2

Variacin total (VT) o Suma Total de Cuadrados (STC)

2
y i (Yi Y ) 2

Variacin explicada (VE) o Suma Regresin de Cuadrados (SRC) o Suma Explicada de


Cuadrados (SEC)

(Y Y ) 2

Valor residual (VR) o Suma de Errores al Cuadrado (SEC) o Suma Residual de Cuadrados
(SRC)
3.3. DISTRIBUCIN F
De las distribuciones de SEC y SRC se deduce que el estadstico:

SEMINARIO TERMINAL I

30

ESTADISTICA

CORRELACIN, REGRESIN LINEAL, ANLISIS DE LA VARIANZA

SEC/k
F = -------------------

tiene una distribucin F(k,T-k-1) de Fisher Snedecor.

SRC(T k 1)
Pero como: 1 R2 = (SRC/STC), podemos poner F de la forma:
R2

(T-k-1)

F(k,T-k-1)= ------------ ------------1 - R2

Este estadstico va a permitir hallar regresiones de confianza a un nivel de significacin


para el conjunto de parmetros bi del modelo. Este estadstico tambin nos va a permitir
contrastar la hiptesis nula b1=b2==bk=0.
4. BIBLIOGRAFA
5. BIBLIOGRAFA
Estadstica

Schaum

www.wikipedia.com

SEMINARIO TERMINAL I

31

Vous aimerez peut-être aussi