Académique Documents
Professionnel Documents
Culture Documents
CORRELACION
1. INTRODUCCIN
Con frecuencia estamos interesados en investigar dos o mas caractersticas de cada individuo o
elemento, por ejemplo podemos observar la estatura y el peso de una poblacin de nios entre
0 y 6 aos , si asociamos cada caracterstica bajo estudio una variable , digamos x e y
respectivamente , tendremos el par ordenado (x, y) de variables . As para el ejemplo anterior,
todas las estaturas medidas formaran la variable x y todos los pesos la variable y. El par (x, y)
se llamara variable estadstica bidimensional.
Estudiamos las variables peso y estatura, esperando que en general ocurra que a mayor estatura
tambin encontremos mayor peso, aunque es posible que en algunos pocos casos no ocurra as.
Vemos que existe una relacin entre las dos variables, aunque no es funcional, o sea, no
podemos determinar con exactitud el peso que corresponder a cada talla. En este tema
trataremos de describir y medir este tipo de relaciones, que aparecen en gran cantidad de
problemas.
A continuacin, desarrollaremos el grado de relacin entre dos o mas variables en lo que
llamaremos anlisis de correlacin, Para representar esta relacin utilizaremos una
representacin grfica llamada diagrama de dispersin, estudiaremos un modelo matemtico
para estimar el valor de una variable basndonos en el valor de otra, en lo que llamaremos
anlisis de regresin.
En muchas situaciones, las dos caractersticas observadas estn relacionadas entre si por lo que
es interesante su estudio en conjunto.
La variable estadstica bidimensional (x, y) se puede clasificar segn la naturaleza de sus
variables cualitativas, cuantitativas discretas y cuantitativas continuas, se obtiene los tipos de
distribuciones de dos caractersticas siguientes:
1. Los dos caracteres cualitativos, por ejemplo nivel de educacin, religin.
2. Uno cualitativo , otro cuantitativo, estos pueden ser:
a) Uno cualitativo, otro cuantitativo discreto, por ejemplo nivel educacional y numero
de hijos de las personas.
b) Uno cualitativo, otro cuantitativo continuo, por ejemplo edad y estado civil de las
personas.
3. Los dos cuantitativos, estos pueden ser:
a) Uno continuo y otro discreto, por ejemplo horas trabajadas y numero de accidentes
de trabajo.
b) Uno discreto y otro continuo, por ejemplo numero de horas extras trabajadas y edad
de las personas.
c) Los dos continuos, por ejemplo estatura y peso de las personas.
SEMINARIO TERMINAL I
ESTADISTICA
Cuando son observadas ms de dos caractersticas hablamos de variables estadsticas ndimensionales, convirtindose entonces el anlisis en multivariante, situacin que no ser de
anlisis en este trabajo.
1.1. DISTRIBUCIONES BIDIMENSIONALES
Cuando sobre una poblacin estudiamos simultneamente los valores de dos variables
estadsticas, el conjunto de los pares de valores correspondientes a cada individuo se denomina
distribucin bidimensional.
Ejemplo
Supongamos que si a los cinco hijos, A, B, C, D y E, de una familia se les pasan unas pruebas
que miden la aptitud musical (Mu) y la aptitud para las matemticas (Ma), se obtienen los
siguientes resultados:
Esta tabla es una distribucin bidimensional porque intervienen dos variables: valoracin Mu,
valoracin Ma. A cada individuo le corresponden dos valores: A(5,6), B(7,10), C(4,5), D(8,6),
E(2,4).
1.2. IDEA DE CORRELACIN
Es frecuente que estudiemos sobre una misma poblacin los valores de dos variables
estadsticas distintas, con el fin de ver si existe alguna relacin entre ellas, es decir, si los
cambios en una de ellas influyen en los valores de la otra. Si ocurre esto decimos que las
variables estn correlacionadas o bien que hay correlacin entre ellas.
En el ejemplo anterior parece que hay cierta tendencia a que cuanto mejor es la nota en
Matemticas, mejor es la de lengua.
1.3. ANLISIS DE CORRELACIN
Es el conjunto de tcnicas estadsticas empleado para medir la intensidad de la asociacin entre
dos variables.
El principal objetivo del anlisis de correlacin consiste en determinar que tan intensa es la
relacin entre dos variables. Normalmente, el primer paso es mostrar los datos en un diagrama
de dispersin.
SEMINARIO TERMINAL I
ESTADISTICA
Ejemplo
De este modo para el ejemplo de la familia de cinco hijos se asocia a cada individuo un punto
en un diagrama cartesiano:
SEMINARIO TERMINAL I
ESTADISTICA
a) Covarianza positiva
c) Covarianza negativa
SEMINARIO TERMINAL I
ESTADISTICA
Cuando x e y varan conjuntamente de forma lineal como indican las (a) y (c) la varianza ser
alta, por ejemplo en el caso de (a) la mayora de los puntos x, - x e y,- y estn en ele
primer cuadrante y tercer cuadrante (definidos por x e y ) , contribuyendo positivamente a la
suma , en el caso (c) la mayora de los puntos x, - x e y,- y estn en el segundo cuadrante
por tanto serna negativos , obteniendo una suma de alta magnitud y negativa en la formula de
covarianza.
Por el contrario cuando no existe relacin caso (b) o existe relacin no lineal caso (d) la
covarianza ser pequea al estar los puntos repartidos por los cuatro cuadrantes definidos por
x e y .
Se esta hablando tanto de la covarianza que se hace necesario hacer mencin de su formula:
Cov ( x, y )
(x
x)( y i y )
n
x y
i
xy
Hablaremos de correlacin lineal fuerte cuando la nube se parezca mucho a una recta y ser
cada vez ms dbil (o menos fuerte) cuando la nube vaya desparramndose con respecto a la
recta.
SEMINARIO TERMINAL I
ESTADISTICA
Ejemplo 3:
A 12 alumnos de un centro se les pregunt a qu distancia estaba su residencia del Instituto, con
fin de estudiar si esta variable estaba relacionada con la nota media obtenida. Se obtuvieron los
datos que figuran en la siguiente tabla:
SEMINARIO TERMINAL I
8,4
5,7
ESTADISTICA
Observamos una nube de puntos que no nos sugiere ninguna recta concreta, porque la
correlacin es prcticamente inexistente, es decir, no tiene nada que ver con el rendimiento
acadmico la distancia del domicilio al instituto
1.6. MEDIDA DE LA CORRELACIN
La apreciacin visual de la existencia de correlacin no es suficiente. Usaremos un parmetro,
llamado coeficiente de correlacin que denotaremos con la letra r, que nos permite valorar si
sta es fuerte o dbil, positiva o negativa.
El clculo es una tarea mecnica, que podemos realizar con una calculadora o un programa
informtico. Nuestro inters est en saber interpretarlo.
Antes de ponernos a trabajar destacaremos una de sus propiedades
-1 < r < 1
DEFINICIN DE COEFICIENTE DE CORRELACIN
El coeficiente de correlacin (o ndice de correlacin lineal de Pearson) entre dos variables x
e y se define por.
Cov ( x, y )
SxS y
Donde:
Sx y Sy son las desviaciones tpicas de x y de y respectivamente.
Se demuestra que el coeficiente de correlacin cumple:
1. Si se multiplica x por k1 e y por k1 el coeficiente de correlacin no varia.
2. Si existe una relacin lineal exacta entre ambas variables y todos los puntos estn
en la lnea y= a bx el coeficiente de correlacin es igual a 1 (si b > 0) -1 (si b<0).
SEMINARIO TERMINAL I
ESTADISTICA
SEMINARIO TERMINAL I
ESTADISTICA
SEMINARIO TERMINAL I
ESTADISTICA
Qu mide r?
Se puede demostrar una relacin algebraica entre r y el anlisis de la varianza de la regresin
de tal modo que su cuadrado (coeficiente de determinacin) es la proporcin de variacin de la
variable Y debida a la regresin. En este sentido, r2 mide el poder explicatorio del modelo
lineal.
Qu no mide r?
- no mide la magnitud de la pendiente ("fuerza de la asociacin")
SEMINARIO TERMINAL I
Total
a+b
10
ESTADISTICA
Total
a+c
b+d
c+d
ad bc
ad bc
No
Total
Si
11
18
No
10
14
Total
15
17
n= 32
encontrar trabajo
ad bc
ad bc
(11 10) (7 4)
(11 10) (7 4)
82
138
Q 0.594
SEMINARIO TERMINAL I
Total
a+b
11
ESTADISTICA
c+d
Total
a+c
b+d
ad bc
a b c d a c b d
Ejemplo
Ver si existe relacin entre actividad social y calificacin como lder :
Activ. Social
alta
Baja
Total
Favorable
86
41
127
Desfavorable
62
71
133
Total
148
112
n= 260
ad bc
a b c d a c b d
127 133148112
0.213
SEMINARIO TERMINAL I
12
ESTADISTICA
En consecuencia los coeficientes de correlacin se deben manejar con mucho cuidado, ya que de
no ser as puede llevarnos a conclusiones errneas.
REGRESION LINEAL
2. REGRESIN LINEAL
Historia corregir
La primera forma de regresiones lineales documentada fue el mtodo de los mnimos cuadrados, el
cual fue publicado por Legendre en 1805, y por Gauss en 1809. El trmino "mnimos cuadrados"
proviene de la descripcin dada por Legendre "moindres carrs". Sin embargo Gauss asegur que
conoca dicho mtodo desde 1795.
Tanto Legendre como Gauss aplicaron el mtodo para determinar, a partir de observaciones
astronmicas, las rbitas de cuerpos alrededor del sol. En 1821, Gauss public un trabajo en dnde
desarrollaba de manera ms profunda el mtodo de los mnimos cuadrados, y en dnde se inclua
una versin del teorema de Gauss-Markov.
Etimologa
El trmino regresin se utiliz por primera vez en el estudio de variables antropomtricas: al
comparar la estatura de padres e hijos, result que los hijos cuyos padres tenan una estatura muy
superior al valor medio tendan a igualarse a ste, mientras que aquellos cuyos padres eran muy
bajos tendan a reducir su diferencia respecto a la estatura media; es decir, "regresaban" al
promedio. La constatacin emprica de esta propiedad se vio reforzada ms tarde con la
justificacin terica de ese fenmeno.
El trmino lineal se emplea para distinguirlo del resto de tcnicas de regresin, que emplean
modelos basados en cualquier clase de funcin matemtica. Los modelos lineales son una
explicacin simplificada de la realidad, mucho ms gil y con un soporte terico por parte de la
matemtica y la estadstica mucho ms extenso.
Introduccin
Si sabemos que existe una relacin entre una variable denominada dependiente y otras
denominadas independientes (como por ejemplo las existentes entre: la experiencia profesional de
los trabajadores y sus respectivos sueldos, las estaturas y pesos de personas, la produccin agraria y
SEMINARIO TERMINAL I
13
ESTADISTICA
la cantidad de fertilizantes utilizados, etc.), puede darse el problema de que la dependiente asuma
mltiples valores para una combinacin de valores de las independientes.
"Y es una funcin de X"
Y = f(X)
Como Y depende de X, Y es la variable dependiente, y X es la variable independiente.
En el Modelo de Regresin es muy importante identificar cul es la variable dependiente y cul es
la variable independiente.
En el Modelo de Regresin Simple se establece que Y es una funcin de slo una variable
independiente, razn por la cual se le denomina tambin Regresin Divariada porque slo hay dos
variables, una dependiente y otra independiente y se representa as:
Y = f (X)
"Y est regresando por X"
La variable dependiente es la variable que se desea explicar, predecir. Tambin se le llama
REGRESANDO VARIABLE DE RESPUESTA.
La variable Independiente X se le denomina VARIABLE EXPLICATIVA REGRESOR y se le
utiliza para EXPLICAR Y.
El modelo de regresin lineal
La regresin es un mtodo de anlisis de los datos de la realidad econmica que sirve para poner en
evidencia las relaciones que existen entre diversas variables. Consiste en determinar los valores de
"a" y " " a partir de la muestra, es decir, encontrar los valores de a y b con los datos observados de
la muestra.
La ecuacin es de carcter deterministico y la ecuacin es una funcin de Regresin Poblacional:
Yi Xi Ui
SEMINARIO TERMINAL I
14
ESTADISTICA
Yi Xi Ui
2. Ui
3. E(Ui) = 0
4.
E (Ui 2 ) u
SEMINARIO TERMINAL I
Homocedasticidad
15
ESTADISTICA
5. E(Ui , Uj) = 0 ( j )
Ausencia de autoregrasividad
6. Xi es un regresor fijo
La diferencia entre los valores observados y calculados de Yi esto es (Yi-Yi^) la cual se denomina
residual o simplemente residuo, representndose por ei es decir:
ei Yi Yi
El objetivo a travs del principio de los mnimos cuadrados es la minimizacin de la suma a travs
de las observaciones de los cuadrados de las perturbaciones establecidas en la ecuacin.
Tenemos:
(Yi Yi )
e e2
(Yi Yi ) 2
2
1)1)
2)
Yi Xi Ui
Yi Xi i
e (Yi Xi)
2
1 Condicin:
F.R.P.
F.R.M.
e2
2 (Yi Xi )( 1) 0
(Yi Xi) 0
SEMINARIO TERMINAL I
Yi n Xi 0
Yi n Xi
16
3)
ESTADISTICA
2 Condicin:
2 (1)(1) 2 (1) 2n(1) 2n
2 e2
2(1) (Yi Xi)(1)(1) 0
2
e2
2 (Yi Xi)( X ) 0
(Yi Xi) X 0
( XYi X X
)0
XYi X X
Yi n Xi
0
3)
XYi
XX2 X 2
XYi
4)
4)
Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la siguiente solucin
para ambos parmetros:
Despejando el parmetro a de la ecuacin (4)
Y X y X
Y X
n
SEMINARIO TERMINAL I
17
ESTADISTICA
XY
Y X X X
X Y ( X )
XY
n
X 2
n XY X Y ( X ) 2 n X 2
n XY X Y n X 2 ( ( X 2 )
n XY X Y
2 2
n X ( X )
II
Reemplazando II en I
Y n X Y X Y
2
2
n
n X ( X )
X
n
Y n X X n XY X Y
nn X X
2
n Y X 2 Y X n X XY Y X
2
n n X 2 X
SEMINARIO TERMINAL I
n Y X 2 X XY
n n X 2 X
18
ESTADISTICA
Y X
n X
2
2
X XY
( X ) 2
RESIDUAL
ei Yi Yi
e Y Y Y Y
5)
e (Y Y ) (Y Y )
6)
Donde:
Y X
Y X
Y Y X X ( X X )
Y Y ( X X )
7)
Si:
xX X
8)
y Y Y
9)
y Y Y
10)
SEMINARIO TERMINAL I
19
ESTADISTICA
y x
11)
(e ) ( y x)
2
e2
2 ( y x)( x) 2 0
( y x) x 0
( xy x
por lo tanto:
)0
xy x 2 0
xy ( X X )(Y Y )
x
(X X )
u2
ei2
n2
Y X Y Y X X Y Y
n2
n2
Y XY
n2
V ( )
u2
( X X ) 2
X2
1
X2
V ( ) u
u
2
2
n X X
n ( X X )
SEMINARIO TERMINAL I 2
20
ESTADISTICA
Cov ( , ) u2
X X
CASO PRCTICO
Supongamos que usted tiene a su cargo el dinero del departamento de Oruro, los datos
corresponden al suministro de dinero y el Producto Nacional Bruto (ambos expresados en millones
de bolivianos)
Suministro de
PNB (en Bs)
Dinero (en Bs)
Y
X
5,0
2,0
5,5
2,5
6,0
3,2
7,0
3,6
7,2
3,3
7,7
4,0
8,4
4,2
9,0
4,6
9,7
4,8
10,0
5,0
75,5
37,2
SEMINARIO TERMINAL I
XY
X^2
ei
Y^2
10,00
13,75
19,20
25,20
23,76
30,80
35,28
41,40
46,56
50,00
295,95
4,00
6,25
10,24
12,96
10,89
16,00
17,64
21,16
23,04
25,00
147,18
0.40
0.04
-0.66
-0.34
0.37
-0.33
0.03
-0.06
0.30
0.25
0.00
25.00
30.25
36.00
49.00
51.84
59.29
70.56
81.00
94.00
100.00
597.03
21
ESTADISTICA
Se pide:
a) Estimar el siguiente modelo
PNBi Dineroi U i
n XY X Y
2 2
n
(
PNB
X
Dinero
U X )
SOLUCION.
a)
2959.5 2808.6
1471.8 1383.84
10(295.95) 37.2(75.5)
108147.18) (37.2) 2
Entonces el modelo estimado ser:
1.7156
150.9
87.96
n X ( X )
2
Y
X
Reemplazando:
n Yi n Xi
75.5
37.2
1.7156(
)
3)
10
2
4)
XYi X X
1.1681
7.55 6.382
SEMINARIO TERMINAL I
22
ESTADISTICA
Entonces tenemos:
75.50 10 37.20
3)
4)
ei Yi Yi
ei Yi Xi
ei Yi 1.1681 1.7156 Xi
e1 5.0 1.1681 1.7156(2.0)
(X
X )igual a 0
que los cometan, el error medio de las personas ser
la sumatoria
( X ecuacin:
X)
d) Reemplazamos datos en la siguiente
2
Y Y2 XY
(37.20) 2
( X Xn ) 2 147.18 10
2199
2
(
X
X
)
( X(295
X.95
) 2) 8.796
597
.
03
1
.
1681
(75.5) 1.
7156
2
250
u
2
u2
10 2
0.1400
V ( )
1.106638.796
2
V ( ) 0.0159
u2 0.14
V ( )
SEMINARIO TERMINAL I
0.0159
23
0.1260
ESTADISTICA
X
n X X
V ( )
2
u
147.18
10(8.796)
V ( ) 0.14
V ( ) 0.2337
V ( )
0.2337
0.4834
SEMINARIO TERMINAL I
24
ESTADISTICA
Cov ( , ) u2
X X
37.20
Cov ( , ) 0.1400 10
8.796
Cov ( , ) 0.0591
SEMINARIO TERMINAL I
25
ESTADISTICA
procedimiento para comparar estos valores est basado en la varianza global observada en
los grupos de datos numricos a comparar. Tpicamente, el anlisis de varianza se utiliza
para asociar una probabilidad a la conclusin de que la media de un grupo de puntuaciones
es distinta de la media de otro grupo de puntuaciones.
3.1. DESCOMPOSICIN DE LA VARIANZA
La descomposicin de la variacin muestral de Y, podemos considerar esta variacin
representada en el siguiente grafico.
Y X
SEMINARIO TERMINAL I
26
ESTADISTICA
SEMINARIO TERMINAL I
27
ESTADISTICA
Y X
ei
(Yi Y )
Y
Yi
Yi
Esto es lo que hace a una observacin aislada. Lo mismo sucede con cualquier otra, sin
embargo se pueden tambin generalizarse para todas las observaciones conjuntamente, y
elevarlas al cuadrado para eliminar la influencia de los signos es decir:
(Yi Y )
(Yi Y ) ei
De donde:
(Yi Y ) (Yi Y )
2
(Yi Y )
2
2(Yi Y )ei ei
2
(Yi Y ) 2 2 (Yi Y )ei ei
Pero:
(Yi Y )e
(Yi Y )e
(Yi Y )e
i
i
i
( X Y )e
(e Xe Y e )
e X e Y e
SEMINARIO TERMINAL I
28
ESTADISTICA
Pero a su vez:
Por lo tanto
X e
i i
(Yi Y )e
Consecuentemente:
(Yi Y ) (Yi Y ) e
2
STC =
SRC
SEC
(Yi Y )
( Xi Y )
Pero:
Y X
Entonces:
(Yi Y ) (Y X ) X Y
(Yi Y ) Y X X Y
(Yi Y ) ( X X )
(Yi Y ) ( X X )
SRC (Yi Y ) ( X X )
SRC TERMINAL
SEMINARIO
x I
2
2
i
29
ESTADISTICA
(Y Y ) 2
Inmediatamente podemos intuir que esta descomposicin nos conduce a una medida natural
de la bondad de ajuste logrado por mnimos cuadrados, denominado coeficiente de
determinacin y simbolizado por R2
2
i
(Yi Y ) 2
2
y i (Yi Y ) 2
(Y Y ) 2
Valor residual (VR) o Suma de Errores al Cuadrado (SEC) o Suma Residual de Cuadrados
(SRC)
3.3. DISTRIBUCIN F
De las distribuciones de SEC y SRC se deduce que el estadstico:
SEMINARIO TERMINAL I
30
ESTADISTICA
SEC/k
F = -------------------
SRC(T k 1)
Pero como: 1 R2 = (SRC/STC), podemos poner F de la forma:
R2
(T-k-1)
Schaum
www.wikipedia.com
SEMINARIO TERMINAL I
31