Vous êtes sur la page 1sur 16

9/22/2014

UNIVERSIDAD NACIONAL DE LA PLATA


FACULTAD DE CIENCIAS NATURALES Y MUSEO
CTEDRA DE ESTADSTICA
CLASE ESPECIAL

Tema:
Correlacin mltiple y parcial.
Ecuaciones y planos de regresin

La Plata, septiembre de 2014

UNLP - FCNyM - ESTADSTICA

Correlacin mltiple y parcial.


Ecuaciones y planos de regresin
Contenido:
Correlacin y regresin simple
Introduccin al anlisis multivariado
Correlacin mltiple y parcial
Ecuaciones y planos de regresin

9/22/2014

UNLP - FCNyM - ESTADSTICA

Correlacin y regresin simple.


El anlisis bivariado analiza la relacin entre 2 variables.
(Correlacin y regresin)
Correlacin lineal:
Mide el grado de relacin entre 2 variables (X e Y).
Coeficiente de correlacin lineal (r), o del producto momento de
Pearson (vara entre 1 y 0)
rxy = Sxy /SxSy
Donde: Sxy es la covarianza de x e y; Sx y Sy son los desvos estndar
de x e y (raz cuadrara de las varianzas).

UNLP - FCNyM - ESTADSTICA

Ecuacin de la regresin lineal simple (ecuacin de la recta):


Yi = + Xi
Donde: Y: var dependiente X: var. Independiente
: ordenada al origen (interseccin)
: pendiente (coeficiente de regresin)
( y con parmetros poblacionales)
Como en una poblacin es improbable que los datos se ubiquen en una recta:
Yi = + Xi + i

(donde i: error o residuo)

Ecuacin de regresin muestral:

i = a + bXi

Los estadsticos a y b son estimadores de y (parmetros poblacionales).

9/22/2014

UNLP - FCNyM - ESTADSTICA

ANOVA de la regresin: Evala la significancia del modelo de regresin.


Var Explicada
F=
Var Residual (no explicada)
(Y Y)2

( Y)2

(Y )2

Variacin total = Variacin explicada + Variacin no explicada


Y: valor observado o real
Y: media aritmtica de X
: valor estimado de X con la ecuacin de la recta de regresin
r=

Coeficiente de determinacin (R2 ):


Porcentaje de variacin explicado por el modelo de regresin

UNLP - FCNyM - ESTADSTICA

Ejemplo 1: Anlisis de regresin lineal simple

2
4
6
8
10
12
7

5
7
14
12
18
16
12

5,9
8,3
10,8
13,2
15,7
18,2

a = 3,40
b = 1,23
r = 0,90
R2= 0,81
y = 3,4 + 1,23 x

9/22/2014

UNLP - FCNyM - ESTADSTICA

Anlisis multivariado
Cuando tenemos ms de 3 variables y queremos analizar su relacin
podemos realizar un anlisis de la correlacin y regresin mltiple.
Ejemplos:

Crecimiento de una planta en funcin de variables climticas y edficas.


Contenido de materia orgnica de una laguna en funcin de la temperatura del
agua, pH, vientos, etc.
Tasa de reproduccin de un insecto en funcin del alimento, la humedad, el
tiempo de desarrollo, etc.
Nivel de contaminacin de un rea en funcin de caractersticas climticas,
urbansticas e industriales.
Tenor extrable de un oligoelemento en funcin de las caractersticas del
sustrato (materia orgnica, pH, arcillas).

UNLP - FCNyM - ESTADSTICA

Correlacin mltiple y parcial:


La correlacin mltiple mide el grado de correlacin que existe
entre 3 o ms variables. Se asume distribucin normal multivariada.
Coeficiente de Correlacin Mltiple (Ry.1k): mide la covariacin
conjunta de una variable (Y) con otras variables (X1, X2).
R=

2 1.23
1

Donde S1 es la desviacin tpica de la variable dependiente (Y).


S1.23 es el error tpico de la estimaciones de Y a partir de las dos
variables independientes (X1 y X2) utilizando la ecuacin de regresin
mltiple.

9/22/2014

UNLP - FCNyM - ESTADSTICA

Correlacin mltiple y parcial:


En el anlisis de regresin mltiple R mide el grado de ajuste entre los
valores reales y los valores estimados (0 y +1).
El coeficiente de correlacin mltiple (R) es la raz cuadrada positiva
(+) del Coeficiente de Determinacin Mltiple (R).
Debido a que R no est ajustado al nmero de grados de libertad,
tiende a sobreestimar al parmetro poblacional y.1k. Puede
mejorarse si se calcula:
Raj = 1 (1 - R)(n-1/n-k-1)
Donde:
Raj: Coeficiente de Determinacin ajustado.
n: nmero de observaciones; k: nmero de variables independientes
en el modelo.

UNLP - FCNyM - ESTADSTICA

Correlacin mltiple y parcial:


Coeficiente de correlacin parcial: Mide la correlacin entre un par de
variables (1 y 2) manteniendo las dems variables (3) constantes.

r12.3 =

r12 - r13r2
(1 - r213) (1 - r223)

Donde: r12.3 es el coeficiente de correlacin parcial entre las variables 1 y 2,


manteniendo la variable 3 constante; y r12, r13, r23 son los coeficientes de
correlacin simple entre cada par de variables.

9/22/2014

UNLP - FCNyM - ESTADSTICA

Ejemplo de clculo de la correlacin parcial:


X1: longitud de antena

X2: longitud de Ala

r12 = 0,85

r13 = 0,75

rA12 - r13r23

X3: longitud de trax


r23 = 0,86

0,85 (0,75)(0,86)

r12.3 = ___________________ = _______________________ = 0,61


(1 - r213) (1 - r223)

(1 0,752)(1 0,862)

La correlacin parcial entre la variable longitud de la antena (X1) y longitud


del ala (X2), manteniendo constante la variable longitud de trax (X3) es de
0,61. A pesar de que la longitud del trax podra explicar el tamao general, no
es suficiente para explicar la correlacin entre la antena y el ala.

UNLP - FCNyM - ESTADSTICA

Interpretacin de la correlacin parcial:


La correlacin entre Y1 y Y2 (r12) se debe a una causa comn (Y4), pero como
otras variables (Y3, Y5) tambin determinan su valor, la correlacin entre estas
variables no ser perfecta.
La correlacin parcial r12.4, debiera dar un valor de r cercano a 0 (cero), ya
que no existe covariacin entre las variables Y1 y Y2 cuando Y4 no vara.
Ejemplo: puede ser interesante analiza la relacin entre distintas partes de un
organismo (cabeza, trax, alas, brazos, piernas), manteniendo el tamao total
del mismo constante.

9/22/2014

UNLP - FCNyM - ESTADSTICA

Ecuaciones y planos de regresin:


El anlisis de estimacin de una variable dependiente (Y) en funcin de varias
variables independientes (X1, X2, , Xn), se denomina regresin mltiple.
Permite analizar de qu modo una variable depende de las variaciones en
otras variables.

Ecuacin de regresin lineal mltiple para estimar una variable dependiente


(Y) a partir de dos variables independientes (X1; X2):
Yj = + 1X1j + 2X2j
Donde: Yj es la variable dependiente
X1 y X2: son las variables independientes.
: constante, interseccin, valor de Y cuando X1, y X2 son igual a cero.
1 y 2: coeficientes de regresin parcial.
Expresan cuanto cambia Y en respuesta a un cambio en X1 o X2 manteniendo
las otras constantes o invariantes.

UNLP - FCNyM - ESTADSTICA

Ecuaciones y planos de regresin:


Podemos definir la ecuacin en su forma muestral:
j = a + b1X1j + b2X2j
Donde : a es estimador de ; y
b1 y b2 son estimadores de 1 y 2 respectivamente.
Este modelo se denomina regresin lineal mltiple debido a la naturaleza lineal
(aditiva) de los parmetros de la ecuacin ( y ).

9/22/2014

UNLP - FCNyM - ESTADSTICA

Ecuaciones y planos de regresin:


Un modelo de regresin mltiple (Y; X1 y X2) en un sistema de coordenadas
rectangulares tridimensional, se representa con un plano de regresin de Y
sobre X1 y X2. Con n variables independientes, se define un espacio
multidimensional ( superficie de respuesta o hiperplano).

UNLP - FCNyM - ESTADSTICA

Ecuaciones y planos de regresin:


Del mismo que en el caso de la regresin simple, no todos los datos
poblacionales se ubicarn sobre el plano, por lo que incluimos un error (i).
Yj = + 1X1j + 2X2j + i
i: es una medida del error o diferencia entre el valor real y el valor estimado
por la ecuacin (su suma tambin es cero).

9/22/2014

UNLP - FCNyM - ESTADSTICA

Anlisis de regresin mltiple (ARM):


Analiza la relacin entre una variable dependiente (Y) respecto a o en funcin
de un conjunto de variables independientes (X1 a Xn) en forma simultnea,
computando la funcin lineal que mejor ajuste a los datos (por mnimos
cuadrados).

Los objetivos del ARM son:


i) Establecer una ecuacin lineal que permita predecir una porcin
significativa de la varianza de una variable dependiente (Y) en funcin de un
conjunto reducido de variables independientes (X1, , Xn).
ii) Estimar y ajustar un modelo estructural que explique las variaciones
observadas en la variable dependiente (Y) en funcin de las variables
independientes consideradas.

UNLP - FCNyM - ESTADSTICA

Ejemplo: Anlisis de regresin mltiple (Y; X1; X2)


Y: concentracin media anual de SO2 (ug/m3)
4 variables climticas:
X1: temperatura media anual ( F)
X4: velocidad media anual del viento (millas/hora).
X5: precipitacin media anual (pulgadas)
X6: nmero de das con precipitacin al ao
2 variables antrpicas:
X2: nmero de fbricas con ms de 20 empleados.
X3: tamao poblacional humana (en miles)

Datos de Sokal & Rohlf (1995). Procesados con Statistica (7.1)

9/22/2014

UNLP - FCNyM - ESTADSTICA

Ejemplo 2: Anlisis de regresin mltiple (Y; X1; X2).

UNLP - FCNyM - ESTADSTICA

Ejemplo 2: Anlisis de regresin mltiple (Y; X1; X2).

= 77,24 1,05 X1 + 0,02 X2


R = 11,374,09 / 22,037,90 = 0,516
R = R = 0,5161 = 0,7184
Raj = 1 (1 - R)(n-1/n-k-1) = 1 (1 0,516)(41-1/41-2-1) = 0,4906

10

9/22/2014

UNLP - FCNyM - ESTADSTICA

Ejemplo 3: Anlisis de regresin mltiple (Y; X1; X2; X3).

= 58,20 0,59 X1 + 0,07 X2 0,05 X3

R = 13,499,25 / 22,037,90 = 0,613


R = R = 0,613 = 0,783

UNLP - FCNyM - ESTADSTICA

Ejemplo 3: Anlisis de regresin mltiple (Y; X1; X2; X3)


Estimacin de Y a partir del modelo:

= 58,20 0,59 X1 + 0,07 X2 0,05 X3


Ciudad 1:
X1 (Temperatura media anual): 70,3 F
X2 (Nmero de fbricas con ms de 20 empleados): 213
X3 (Tamao poblacional humana, en miles): 582.000 hab.
= 58,183 (0,5868)(70,3) + (0,07128)(213) (0,04670)(582) =
Y = 4,9 ug SO2/m3
(estimado) = 4,9 ug SO2/m3
Y (observado) = 10 ug SO2/m3

11

9/22/2014

UNLP - FCNyM - ESTADSTICA

Resultados Anlisis de Regresin Mltiple


Ejemplo 2: ARM (Y; X1; X2)
Y = 77,24 1,05 X1 + 0,02 X2
R = 11,374,09 / 22,037,90 = 0,516
R = R = 0,7184
Ejemplo 3: ARM (Y; X1; X2; X3)
Y = 58,20 0,59 X1 + 0,07 X2 0,05 X3
R = 13,499,25 / 22,037,90 = 0,613
R = R = 0,613 = 0,783
A medida que incremento el nmero de variables mejora el ajuste del modelo,
lo que significa que las nuevas variables independientes muestran una
correlacin parcial con la variable dependiente.

UNLP - FCNyM - ESTADSTICA

Anlisis de regresin mltiple paso a paso


A medida que aumentamos el nmero de variables independientes en un
modelo se espera que se incremente el valor del coeficiente de correlacin
mltiple ( R), salvo que las nuevas variables no estn asociadas con la variable
dependiente.
Todas las variables aportan por igual al modelo?
Cmo seleccionar aquellas que tienen mayor peso relativo?
Anlisis de regresin mltiple paso a paso:
Forward (agregando) or Backward (eliminando) progresivamente.

12

9/22/2014

UNLP - FCNyM - ESTADSTICA

Anlisis de regresin mltiple paso a paso


Los criterios de seleccin de variables pueden ser (Forward):
i) Aquellas que producen un incremento significativo en el valor de R
(Coeficiente de determinacin mltiple). A tal fin, se puede seleccionar aquella
variable que tiene el mayor valor de correlacin parcial (r y.1k).
ii) Calcular el valor de F correspondiente al test de significancia del
incremento de R debido a la inclusin de la nueva variable (valor de F para
entrar). Se incorpora aquella variable que tenga el mayor valor, slo si es
significativo a un nivel especificado.
Ambos criterios son coincidentes.
El proceso se detiene cuando el valor de F es no significativo en relacin a un
nivel nominal de P (valor de P para entrar).

UNLP - FCNyM - ESTADSTICA

Ejemplo 4: Anlisis de regresin mltiple paso a paso


(Stepwise: Forward) (Y; Xn).

13

9/22/2014

UNLP - FCNyM - ESTADSTICA

Ejemplo 4: Anlisis de regresin mltiple paso a paso


(Stepwise: Forward) (Y; Xn).

UNLP - FCNyM - ESTADSTICA

Ejemplo 4: Anlisis de regresin mltiple paso a paso


(Stepwise: Forward) (Y; Xn).

14

9/22/2014

UNLP - FCNyM - ESTADSTICA

Ejemplo 4: Anlisis de regresin mltiple paso a paso


(Stepwise: Forward) (Y; Xn).

UNLP - FCNyM - ESTADSTICA

Ejemplo 4: Anlisis de regresin mltiple paso a paso


A medida que aumentamos el nmero de variables independientes en un
modelo se incrementa el valor del coeficiente de correlacin mltiple ( R),
salvo que las nuevas variables no estn asociadas con la variable dependiente.
Podemos observar el incremento de la varianza explicada y la reduccin
progresiva de la varianza NO explicada a medida que incluimos nuevas
variables independientes (Forward).
Del mismo modo podemos ver el efecto de eliminar progresivamente
variables independientes del anlisis sobre la varianza No explicada (errores o
residual), eliminando del modelo aquellas variables que no aporten
significativamente al modelo (Backward).
De este modo podemos definir aquel modelo de regresin mltiple que tenga
el mejor ajuste con el menor nmero de variables independientes.

15

9/22/2014

UNLP FCNYM
CLASE ESPECIAL

MUCHAS GRACIAS

La Plata, septiembre de 2014

UNLP - FCNyM - ESTADSTICA

Interpretacin geomtrica de la correlacin parcial.


Se observa un elipsoide tridimensional con sus respectivas proyecciones bidimensionales
(sombreadas). El elipsoide se corta para Y2 = C, generando una elipse que representa la
covariacin de las variables Y1 y Y3 cuando la variable Y2 se mantiene constante (e igual a
C), a medida que esa elipse sea ms alargada, mayor ser la correlacin parcial entre Y1 y
Y3.

16

Vous aimerez peut-être aussi