Vous êtes sur la page 1sur 13

Anlisis de Regresin y Correlacin

Introduccin
Muchas veces las decisiones se basan en la relacin entre dos o ms variables.Ejemplos
Dosis de fertilizantes aplicadas y rendimiento del cultivo.
La relacin entre la radiacin que reciben los sensores con la que se predicen los rendimientos por parcelas con
los rendimientos reales observados en dichas parcelas.
Relacin entre tamao de un lote de produccin y horas -hombres utilizadas para realizarlo.
Distinguiremos entre relaciones funcionales y relaciones estadsticas

Relacin funcional entre dos variables


Una relacin funcional se expresa mediante una funcin matemtica.
Si X es la variable independiente e Y es la variable dependiente, una relacin funcional tiene la forma:
Y=f(X)
Ejemplo 1
Parcela

Dosis

Rendimiento(kg/h)

75

150

25

50

130

260

Figura 1

Relacin funcional perfecta entre dosis y rendimientos

Nota: Las observaciones caen exactamente sobre la lnea de relacin funcional

Relacin estadstica entre dos variables


A diferencia de la relacin funcional, no es una relacin perfecta, las observaciones no caen exactamente sobre
la curva de relacin entre las variables
Ejemplo 2
Lote de productos

Tamao del lote

Horas hombre

30

73

20

50

60

128

80

170

40

87

Figura 2

Relacin estadstica entre tamao del lote y horas hombre

Nota: La mayor parte de los punto no caen directamente sobre la lnea de relacin estadstica.
Esta dispersin de punto alrededor de la lnea representa la variacin aleatoria

Figura 3
Coordenadas de puntos de control utilizados para corregir la columna de los niveles digitales de una imagen
satelital

Nota: se trata de un terreno rugoso donde varan notablemente las condiciones de observacin del sensor, para
corregir errores geomtricos de la imagen, se aplican funciones de segundo grado. Los datos sugieren que la
relacin estadstica es de tipo curvilnea.

Conceptos bsicos
Anlisis de Regresin: ES un procedimiento estadstico que estudia la relacin funcional entre variables.Con el
objeto de predecir una en funcin de la/s otra/s.
Anlisis de Correlacin: Un grupo de tcnicas estadsticas usadas para medir la intensidad de la relacin entre
dos variables
Diagrama de Dispersin: ES un grfico que muestra la intensidad y el sentido de la relacin entre dos variables
de inters.
Variable dependiente (respuesta, predicha, endgena): es la variable que se desea predecir o estimar
Variables independientes (predictoras, explicativas exgenas). Son las variables que proveen las bases para
estimar.
Regresin simple: interviene una sola variable independiente
Regresin mltiple: intervienen dos o ms variables independientes.
Regresin lineal: La funcin es una combinacin lineal de los parmetros.
Regresin no lineal: La funcin que relaciona los parmetros no es una combinacin lineal

Grfico de dispersin
Los diagramas de dispersin no slo muestran la relacin existente entre variables, sino tambin resaltan las
observaciones individuales que se desvan de la relacin general. Estas observaciones son conocidas como
outliers o valores inusitados, que son puntos de los datos que aparecen separados del resto.
Grfico de dispersin entre Bandas

Coeficiente de correlacin lineal


El Coeficiente de Correlacin (r) requiere variables medidas en escaLa de intervalos o de proporciones
- Vara entre -1 y 1.
- Valores de -1 1 indican correlacin perfecta.
- Valor igual a 0 indica ausencia de correlacin.
- Valores negativos indican una relacin lineal inversa y valores positivos indican una relacin lineal directa

Correlacin Negativa Perfecta

Correlacin Positiva Perfecta

Ausencia de Correlacin

Correlacin Fuerte y Positiva

Frmula para el coeficente de correlacin (r) Pearson

Modelos de Regresin
Un modelo de regresin, es una manera de expresar dos ingredientes esenciales de una relacin estadstica:
- Una tendencia de la variable dependiente Y a variar conjuntamente con la variacin de la o las X de una
manera sistemtica
- Una dispersin de las observaciones alrededor de la curva de relacin estadstica
Estas dos caractersticas estn implcitas en un modelo de regresin, postulando que:
- En la poblacin de observaciones asociadas con el proceso que fue muestreado, hay una distribucin de
probabilidades de Y para cada nivel de X.
- Las medias de estas distribuciones varan de manera sistemtica al variar X.

Representacin grfica del modelo de Regresin Lineal

Nota: en esta figura se muestran las distribuciones de probabilidades de Y para distintos valores de X

Anlisis de Regresin
Objetivo: determinar la ecuacin de regresin para predecir los valores de la variable dependiente (Y) en base
a la o las variables independientes (X).

Procedimiento: seleccionar una muestra a partir de la poblacin, listar pares de datos para cada observacin;
dibujar un diagrama de puntos para dar una imagen visual de la relacin; determinar la ecuacin de regresin.

Supuestos de Regresin Lineal Clsica


Cada error est normalmente distribuido con:
- Esperanza de los errores igual a 0
- Variancia de los errores igual a una constante .
- Covariancia de los errores nulas para todo i

Proceso de estimacin de la regresin lineal simple


Modelo de regresin
y = 0+ 1x +

Ecuacin de regresin
E(y) = 0+ 1x

Parmetros desconocidos
0.1

Datos de la muestra
x

x1
x2
.
.
.
xn

y1
y2
.
.
.
yn

Ecuacin estimada de regresin


b0 y b1
y = b0+b1x
proporcionan estimados
0 y 1

Estadsticos de la muestra
b0.b1

Lneas posibles de regresin en la regresin lineal simple


Seccin A

Relacin lineal positiva

Seccin C
No hay relacin

Seccin B

Relacin lineal negativa

Estimacin de la ecuacin de Regresin Simple


Y = a + b.X, donde:
- Y es el valor estimado de Y para distintos X.
- a es la interseccin o el valor estimado de Y cuando X=0
- b es la pendiente de la lnea, o el cambio promedio de Y para cada cambio en una unidad de X

- el principio de mnimos cuadrados es usado para obtener a y b:

a = (Y)/n - b.(X)/n

Mnimos cuadrados - Supuestos


El modelo de regresin es lineal en los parmetros.
Los valores de X son fijos en muestreo repetido.
El valor medio de la perturbacin i es igual a cero.
Homocedasticidad o igual variancia de i.
No autocorrelacin entre las perturbaciones.
La covariancia entre i y Xi es cero.
El nmero de observaciones n debe ser mayor que el nmero de parmetros a estimar.
Variabilidad en los valores de X.
El modelo de regresin est correctamente especificado.
No hay relaciones lineales perfectas entre las explicativas.

Estimacin de la variancia de los trminos del error ()


Debe ser estimada por varios motivos
Para tener una indicacin de la variabilidad de las distribuciones de probabilidad de Y.
Para realizar inferencias con respecto a la funcin de regresin y la prediccin de Y.
La lgica del desarrollo de un estimador de para el modelo de regresin es la misma que cuando se muestrea
una sola poblacin
La variancia de cada observacin Yi es ,la misma que la de cada trmino del error
Dado que los Yi provienen de diferentes distribuciones de probabilidades con medias diferentes que dependen
del nivel de X, la desviacin de una observacin Yi debe ser calculada con respecto a su propia media estimada
Yi.
Yi - i = ei
Por tanto, las desviaciones son los residuales

Y la suma de cuadrados es:

La suma de cuadrados del error, tiene n-2 grados de libertad asociados con ella, ya que se tuvieron que estimar
dos parmetros.
Por lo tanto, las desviaciones al cuadrado dividido por los grados de libertad, se denomina cuadrados medios

Donde CM es el Cuadrado medio del error o cuadrado medio residual. Es un estimador insesgado de

Anlisis de Variancia en el anlisis de regresin


El enfoque desde el anlisis de variancia se basa en la particin de sumas de cuadrados y grados de libertad
asociados con la variable respuesta Y.
La variacin de los Yi se mide convencionalmente en trminos de las desviaciones
(Yi - Yi)
La medida de la variacin total SC tot, es la suma de las desviaciones al cuadrado
(Yi - Yi)

Desarrollo formal de la particin


Consideremos la desviacin
(Yi - Yi)
Podemos descomponerla en
(Yi - Y)

(i - Y)
=

(Yi - i)
+

(T): desviacin total


(R): es la desviacin del valor ajustado por la regresin con respecto a la media general
(E): es la desviacin de la observacin con respecto a la lnea de regresin

Si consideremos todas las observaciones y elevamos al cuadrado para que los desvos no se anulen
(Yi - Y)

(i - Y)
=

SC tot

(Yi - i)
+

SC reg

SCer

(SC tot): Suma de cuadrados total


(SC reg): Suma de cuadrados de la regresin
(SCer): Suma de cuadrados del error
Dividiendo por los grados de libertad, (n-1), (k) y (n-2), respectivamente cada suma de cuadrados, se obtienen
los cuadrados medios del anlisis de variancia.

Coeficiente de Determinacin
Coeficiente de Determinacin, R2 - es la proporcin de la variacin total en la variable dependiente Y que es
explicada o contabilizada por la variacin en la variable independiente X.
- El coeficiente de determinacin es el cuadrado del coeficiente de correlacin, y varia entre 0 y 1.
Clculo del R a travs de la siguiente frmula
R = [(c - Y)]/[(o - Y)]

Inferencia en Regresin
Los supuestos que establecimos sobre los errores nos permiten hacer inferencia sobre los parmetros de
regresin (prueba de hiptesis e intervalos de confianza), ya que los estimadores de 0 y 1 pueden cambiar su
valor si cambia la muestra.
Por lo tanto debemos conocer la distribucin de los estimadores para poder realizar prueba de hiptesis e
intervalos de confianza
Ejemplo:
Se desean comparar los rendimientos predichos a partir de la informacin obtenida por 3 sensores sobre los
rendimientos reales por parcelas de lotes de maz. Los rendimientos (Y) y el los rindes predichos de 4 sensores
se presentan a continuacin

Qu sensor refleja mejor el rendimiento de esa zona?


Descripcin grfica y cuantitativa de la relacin entre cada sensor y el rendimiento

Y = 338.71*X - 4.87
R = 0.32

Y = 155.37*X - 13.25
R = 0.57

Y = -1004.34*X +112.24
R = 0.44