Vous êtes sur la page 1sur 23

UNIVERSIDAD DE LIMA

FACULTAD DE INGENIERÍA DE SISTEMAS


DEPARTAMENTO ACADÉMICO DE INGENIERÍA DE SISTEMAS
ASIGNATURA : ESTADÍSTICA
SECCIÓN : 704
PROFESOR : JORGE CHUÉ GALLARDO
SEMESTRE : 98-I

ANÁLISIS DE REGRESIÓN
¿Qué es el análisis de regresión?.
El análisis de regresión es una técnica estadística que consiste en modelar e
investigar la relación entre dos o más variables.

¿Están relacionadas las variables?, en caso afirmativo, ¿cómo es esa relación?. El


análisis de regresión responde a estas preguntas estableciendo un modelo no
determinístico (ecuación que representa en forma simplificada la realidad) que
incluye un término aleatorio . Este modelo es de la forma:

Y = µ(X1, X2, X3,...,Xk) + 

¿Qué representa ?
 es una variable aleatoria que representa a:
 otras variables que no se consideran en el modelo
 errores de medición
 error de especificación de no considerar el modelo correcto
 otros factores que no se consideren en el modelo.

Como puede deducirse de lo anterior, el análisis de regresión estudia el


comportamiento de una variable dependiente (respuesta), denotada por Y, en
términos de un conjunto de variables denominadas independientes (regresores o
estímulos), denotadas por X1, X2, X3,...,Xk.

La función µ(X1, X2, X3,..., Xk) puede asumir diversas formas. La que se estudia en
este curso es:

0 + 1Z1 + 2 Z2 + ... + k Zk (1)

donde las Zi pueden ser funciones de las Xi. Los valores 0, 1, 2, ..., k son
denominados coeficientes de regresión poblacionales o parámetros.
Estadística – Ingeniería de Sistemas - Chué 84

CLASIFICACIÓN DE LOS MODELOS DE REGRESIÓN

 Si k=1 en la expresión (2), entonces se tiene el modelo de regresión lineal


simple

0 + 1x1 (3)

Si k>1 en la expresión (2), entonces se tiene el modelo de regresión lineal


múltiple.

 El término lineal en la expresión (1) se refiere a los parámetros 0, 1, 2, ... ,
k y no a las variables. Un modelo que no es de la forma (1) se denomina no
lineal.

En la expresión (1), cuando todas las Zi = Xi , se tiene el modelo de regresión:

0 + 1x1 + 2 x2 + ... + k xk (2)

Ejemplos:

Algunos ejemplos de modelos son:

Y = 0 + 1 x +  (lineal)
Y = 0 + 1 x1 + 2 x2 + 2 x3 +  (lineal múltiple)
Y = 0 + 1 x + 2 x² +  (lineal múltiple cuadrática)
Y = x +  (no lineal simple exponencial)
Y = x +  (no lineal simple exponencial)
Y =  log  x +  (no lineal simple logarítmica)
Y = exp ( 1 + 2 t2 +  ) (no lineal simple)

Y
1
1  2
e 2 t
 e
1 t
 (no lineal simple)

SUPOSICIONES DEL ANÁLISIS DE REGRESIÓN LINEAL

 i es una variable aleatoria no observable, con E(i) =0 y Var(i)=2


(desconocida).
 i y j no están correlacionadas, ij, cov(i , j ) =0.
 Como consecuencia de lo anterior se tiene que, la variable respuesta Y es una
variable aleatoria con valores Y1, Y2, ... , Yn observables e independientes, y
con E(Yi)= µY/X = 0 + 1x1 + 2 x2 + ... + k xk y Var(Yi) = 2.
Estadística – Ingeniería de Sistemas - Chué 85

 Las variables X1, X2, X3,...,Xk son variables matemáticas, es decir, han sido
registradas sin error.

Nota importante.- La suposición de que i es una variable aleatoria no


observable, con E(i) =0 y Var(i)=2 (desconocida), también puede ser
reemplazada por i N(0, 2)

OBJETIVOS DE LA REGRESIÓN

Los objetivos de la regresión son:


 Presentar la forma como las variables independientes se relacionan con la
variable dependiente. Este objetivo cubre las etapas de: especificación,
estimación y verificación.
 Realizar pronósticos de los valores de la variable dependiente, con base en el
conocimiento del valor de las variables independientes. Es decir, utilizar el
modelo de regresión para estimar el valor promedio µY/X y un valor individual
de Y.
 Realizar estimaciones de los parámetros de la regresión 0, 1, 2, ... , k.

En esta sección se estudia el conjunto de procedimientos y sus aplicaciones para el


caso de una variable dependiente y sólo una variable independiente. Es decir, se
estudia la regresión lineal simple.

Nota Importante.- Las relaciones no son del tipo causa y efecto.

Algunos ejemplos de la relación entre variables son los siguientes:

X Y
a. Tiempo de estudio Calificaciones
b. Publicidad Ventas
c. Km. recorridos en un negocio de mensajería Ingresos brutos
d. Horas de cómputo Cansancio visual

¿Qué es un dato bivariado?

Un dato bivariado es un par de valores (par ordenado) de dos variables distintas


obtenidas del mismo elemento de la población. Por ejemplo: el Sr. J. Jacinto
dedica 3 horas diarias al estudio y tiene un promedio acumulativo de 14.7.
En general un dato multivariado es (X1, X2, ..., XK, Y). El interés es analizar los
datos bivariados (o multivariados en la siguiente sección) usando la técnica del
análisis de regresión.
Estadística – Ingeniería de Sistemas - Chué 86

Un análisis inmediato a la regresión, es el denominado análisis de correlación. Por


lo tanto, otro objetivo que se busca en esta sección es: aprender a diferenciar estas
dos técnicas, y adquirir destreza con las presentaciones gráficas.

DIAGRAMA DE DISPERSION

El diagrama de dispersión es una gráfica en un sistema de ejes de todos los pares


ordenados que forman los datos bivariados. El diagrama de dispersión es el primer
paso que siempre debe ejecutarse en el análisis de los datos. A menudo, el
diagrama de dispersión permite determinar si existe un patrón de comportamiento
de los datos y obtener el tipo de función apropiada, si la hay, que mejor describa
dicho patrón de comportamiento.

Ejemplos: Las siguientes figuras son los posibles diagramas de dispersión de un


conjunto de datos bivariados.

a. Relación directa
16

14

12

10

0
0 2 4 6 8 10 12 14

b. Relación inversa
20

18

16

14

12

10

0
0 2 4 6 8 10 12 14
Estadística – Ingeniería de Sistemas - Chué 87

c. No hay relación lineal


25

20

15

10

0
0 2 4 6 8 10 12 14

REGRESION LINEAL SIMPLE

El modelo de regresión lineal simple es

Y = 0 + 1 x + 

donde :

Yi es la variable aleatoria respuesta con µY/x = E(0 + 1 xi) y Var(Yi) = 2.


0 es el coeficiente de intersección poblacional.
1 es el coeficiente de regresión poblacional.
xi es la variable estímulo o predictora medida sin error.
i es el error aleatorio no observable con E(i)=0 y Var(i) = 2. Además, para ij,
cov(i , j ) =0.

MÉTODO DE MINIMOS CUADRADOS

Para realizar el proceso de estimación de los parámetros 0 y 1 se obtiene una


muestra aleatoria de datos bivariados, (x1, y1), (x2, y2) , . . . , (xn, yn).

El método de mínimos cuadrados consiste en minimizar la suma de los cuadrados


de las desviaciones verticales de las observaciones con respecto a la ecuación 0 +
1 xi . Como consecuencia de este proceso, las estimaciones de 0 y 1 deben dar
como resultado una línea que se “ajuste mejor a los datos”.
Estadística – Ingeniería de Sistemas - Chué 88

¿Qué es el ajuste de una línea?. Como nuestro deseo es pronosticar una valor de y
basados en el conocimiento de un valor de x y observar la dirección de la relación
(positiva o negativa) entre x e y. Esta tarea requiere el ajuste de una ecuación
matemática lineal a los datos. Luego, el ajuste de una línea recta consiste en
obtener la ecuación de la recta específica que proporcione en algún sentido el
mejor ajuste posible a los datos observados.

Un buen ajuste podría ser uno que minimice el error o la desviación no explicada
y i - ŷ i . En términos formales, el método de mínimos cuadrados requiere que se
n
encuentren constantes b0 y b1, tales que la suma 
i =1
y i - ŷ i 2 sea tan

pequeña como sea posible.

Es decir:
yi = 0 + 1 xi + i para i=1,2,...,n

i = yi – ( 0 + 1 xi )
n n
Q( 0 , 1 )  
i 1
 i2  
i 1
 y i   0  1x i  2

Derivando Q(0, 1) con respecto a 0 y 1 :


n
 Q( 0 , 1 )
 0
2
i 1

 y i   0  1x i 

n
 Q( 0 , 1 )
 1
2
i 1

x i  y i   0  1x i 

e igualando a cero, se obtienen los estimados b0 y b1 :


n


i 1
 y i  b 0  b1x i  0

Ecuaciones Normales
n


i 1
x i  y i  b 0  b1x i   0

b 0  y  b1 x
Estadística – Ingeniería de Sistemas - Chué 89
 n  n 
n

  x 
i


y 
i


i 1
x i yi   i 1   i 1 
n
b1 
 n 
n

  xi 

2


i 1
x i2   i 1
n

Por lo tanto, la línea de regresión estimada o ajustada esta dada por :

Ŷ  b 0  b1 x
ˆ
Los estimadores de los parámetros 0 y 1 también son denotados por  ˆ
0 y 1 ,
respectivamente.

¿Qué representa b0?. b0 representa el valor de la variable respuesta Y cuando x=0.


En la mayoría de los casos, es el mínimo valor de y.

¿Qué indica b1?. b1 es la razón de cambio en la variable respuesta Y cuando la


variable predictora x cambia en una unidad.

Nota importante: La variabilidad de Y en un valor particular de x está


determinada por la variancia del error 2. Esto implica que hay una distribución de
valores de Y para cada x, y que la variancia es la misma en cada x.

Nótese que cada par de observaciones satisface la relación:

yi = b0 + b1 xi + ei i=1,2,...,n

donde ei = yi - ŷi recibe el nombre de residual. El residual describe el error en


el ajuste del modelo en la i-ésima observación yi. La suma de estos valores ei es
una cantidad mínima y su raíz cuadrada es denominada el error estándar de
estimación.

En resumen, para determinar la ecuación de regresión por el método de mínimos


cuadrados se sigue el siguiente procedimiento:

a) Considerar los n pares de valores (x1, y1),...,(xn, yn).


Estadística – Ingeniería de Sistemas - Chué 90
n n n n

b) Calcular las siguientes cantidades x


i =1
i yi ,  x , x ,  y ,
i =1
i
i=1
2
i

i=1
i

 y . Aplicar las fórmulas correspondientes de b y b .


i=1
2
i 0 1

c) Determinar la ecuación de regresión lineal simple: y = a + b x


d) Interpretar b0 y b1 .

Antes de continuar con la teoría del análisis de regresión lineal simple, a


continuación se presenta un ejemplo de cálculo de la ecuación ajustada.

PROPIEDADES DE LOS ESTIMADORES MÍNIMO


CUADRÁTICOS

Los estimadores b0 y b1 obtenidos por el método de mínimos cuadrados tienen las


siguientes propiedades:
 
 2 
1 x
1. El estimador b0 tiene E(b0) = 0 y 2b =Var (b0) = 2 
n  n






i 1
(xi  x)2 

2
2. El estimador b1 tiene E(b1) = 1 y 2b = Var (b1) =
n

 (x
i 1
i  x) 2

 2 x
n
3. Cov (b0, b1) =
 (x
i 1
i  x) 2

4. El S2e es un estimador insesgado de 2 .

5. b0 y b1 son óptimos o estimadores insesgados de mínima variancia.

Ejemplo: Un comerciante al por menor obtiene el registro, mediante


computadoras, de las ventas facturadas a sus clientes. Teóricamente, los únicos
errores que pueden entrar al sistema se deben a las entradas incorrectas hechas por
los vendedores en cada venta. El comerciante desea probar si el número de
entradas o errores de digitación está relacionado con las horas de descanso de sus
vendedores. Diez vendedores fueron seleccionados para realizar la investigación.
Se fijaron cinco períodos de sueño y se asignaron dos vendedores a cada periodo.
Inmediatamente después del periodo de descanso, el vendedor trabajo su turno de
Estadística – Ingeniería de Sistemas - Chué 91

8 horas y se registraron las entradas incorrectas en la computadora. Los resultados


fueron los siguientes:

Número de errores 8 6 8 14 16
6 10 14 20 12
Número de horas sin sueño 8 12 16 20 24

¿Cuál es la ecuación de ajuste?


Primero se calculan las siguientes cantidades:
n n

x
i =1
i yi = 2008 x
i =1
i = 160


i =1
x i2 =2880

n n

y
i =1
i = 114 y
i =1
2
i = 1492

Luego, se aplican las fórmulas de b0 y b1: b1= 0.575 y b0= 2.2. Finalmente:

ŷ  2.2  .575x

El reporte de MINITAB es:

Regression Analysis

The regression equation is


Y = 2.20 + 0.575 X

Predictor Coef StDev T P


Constant 2.200 3.121 0.70 0.501
X 0.5750 0.1839 3.13 0.014

S = 3.290 R-Sq = 55.0% R-Sq(adj) = 49.4%

Analysis of Variance

Source DF SS MS F P
Regression 1 105.80 105.80 9.77 0.014
Error 8 86.60 10.82
Total 9 192.40

Unusual Observations
Obs X Y Fit StDev Fit Residual St Resid
8 20.0 20.00 13.70 1.27 6.30 2.08R
Estadística – Ingeniería de Sistemas - Chué 92

R denotes an observation with a large standardized residual

El siguiente gráfico representa la relación del valor observado de Y respecto a la


ecuación de ajuste.

y
*
Residual

Observado

Predecido

La siguiente figura es un ploteo de los residuales en la que se demuestra que el


ajuste de una línea de regresión fue un error.

Variable X 1 Gráfico de los residuales

100
Residuos

0
0 2 4 6 8 10 12
-100
Variable X 1

Nota Importante.- Cuando se hagan predicciones respecto al valor de y en base a


un valor de x, se debe estar seguro de que el valor de x está dentro del dominio de
los valores x observados o muy cerca de ellos.

ERROR ESTANDAR DE ESTIMACIÓN

El método de regresión puede ser usado para predecir Y usando x. Sin embargo,
los valores actuales Y difieren de los valores predecidos y . Luego es necesario
tener una medida del tamaño global de las diferencias. Esta medida es el error
estándar de estimación y es definido por
Estadística – Ingeniería de Sistemas - Chué 93


i =1
y i - ŷ i 2
se =
n-2

Obsérvese que Se² es la suma de los cuadrados de las desviaciones verticales


(residual) de los puntos a la recta dividida entre n-2.
Una fórmula equivalente para Se es

Syy - b1 Sxy
se =
n-2
 n  n   n 
2

donde : SXY= n

  x i 


yi 
 , SYY = n

 y i

i 1
x i yi   i 1  i 1 
n 
i 1
y i2   i 1 
n

donde: Syy = SC(y) = y² - (y)²/n

Nótese que Se tiene las mismas unidades que los datos originales. El valor de Se es
también conocido como la raíz del cuadrado medio del error (rcme) de la
regresión.

Recuérdese que el residual es la distancia por encima (+) o por debajo (-) de la
línea de regresión. Cada punto en el diagrama de dispersión tiene un residual,
representando el error que se comete por el método de regresión.

Se nos indica que tan lejos se encuentra un punto de la línea de regresión.

Nota Importante.- Los puntos en un diagrama de dispersión se desvían de la línea


de regresión (arriba o abajo) por los residuales en tamaño igual al Se. El valor de Se
es a la línea de regresión como la desviación estándar S es al promedio muestral
Y . Es decir, Se mide la dispersión alrededor de la línea de regresión.

Regla Empírica.- Aproximadamente el 68% de los puntos en un diagrama de


dispersión están dentro de un Se (rcme) de la línea de regresión; y
aproximadamente el 95% de ellos están dentro de dos Se (rcme). Esta regla cumple
para muchos conjuntos de datos, pero no para todos. Veamos el siguiente gráfico.

Se 2 Se
Estadística – Ingeniería de Sistemas - Chué 94

68% 95%

La interpretación del Se, error estándar de estimación, y S, la desviación estándar


de los valores originales, es la siguiente:

I) La desviación estándar S mide la distancia de un punto cualquiera por debajo o


por encima de la línea horizontal trazada a la altura del promedio y. En otras
palabras, S mide el tamaño probable del error si Ud. predice Y usando el
promedio y e ignorando la presencia de las x.

II) Se mide la distancia por encima o por debajo de la línea de regresión. S e será
menor, debido a que la línea de regresión puede ubicarse más cerca a los
puntos siguiendo la tendencia de los mismos. La relación entre S e y S de las y
es :
1  r 2 S  Se

Donde r es el coeficiente de correlación que estudiaremos en la siguiente


sección. Es decir, Se es menor que S por el factor 1  r2

S
Se

PRUEBA DE HIPÓTESIS DE 0 Y 1
Estadística – Ingeniería de Sistemas - Chué 95

Para realizar la prueba de hipótesis de 0 y 1 es necesario realizar la suposición


adicional de que los errores se distribuyen normal e independientemente con
media cero y variancia 2. Es decir, N(0, 2).

Las siguientes estadísticas de prueba se utilizan para realizar las pruebas de


hipótesis:
ˆ 
 0 0,0
To 
 
 
1. Para la Ho: 0 = 0,0 se utiliza 2
1 x 
Se n  n 

 i 1
(x i  x) 2 


To tiene distribución t con n-2 grados de libertad si la Ho es cierta. La región


de rechazo es |t0| > t/2, n-2. t0 se calcula utilizando la fórmula de To.
ˆ 1  1,0
To 
1
2. Para la Ho: 1 = 1,0 se utiliza Se n


i 1
(x i  x) 2

To tiene distribución t con n-2 grados de libertad si la Ho es cierta. La región


de rechazo es |t0| > t/2, n-2. t0 se calcula utilizando la fórmula de To.

Nota.- La decisión de rechazar la Ho: 1 = 1,0 es equivalente a concluir que


no hay ninguna relación lineal entre x e Y.

INTERVALOS DE CONFIANZA PARA 0 Y 1


Para la construcción de los intervalos de confianza de 0 y 1 también es
necesario realizar la suposición adicional de que los errores se distribuyen
normal e independientemente con media cero y variancia 2. Es decir, N(0,
2).

Las siguientes fórmulas se utilizan para calcular los intervalos de confianza:

2 2
1 x 1 x
ˆ 0  t  / 2, n  2 Se    0  ˆ 0  t  / 2, n  2 Se 
 n n n n


i 1
(x i  x)2 
i 1
(x i  x) 2

1 1
ˆ 1  t  / 2, n  2 Se n
 1  ˆ 1  t  / 2, n  2 Se n


i 1
(x i  x) 2 
i 1
(x i  x)2
Estadística – Ingeniería de Sistemas - Chué 96

ANÁLISIS DE VARIANCIA DE LA REGRESIÓN LINEAL


SIMPLE

¿Es significativa la regresión como un todo?. Es decir, cómo saber si la X elegida


explica significativamente la variabilidad observada en Y. Las hipótesis son:

H0: 1=0  hipótesis nula: Y no depende de X.

Ha: 1  0  hipótesis alternativa: Y depende de X.

¿QUÉ ES EL ANÁLISIS DE VARIANCIA?

El análisis de variancia es una técnica estadística que consiste en particionar la


n
suma de cuadrados de la variable dependiente, 
i 1
( yi  y) 2 , en fuentes de
variación conocida. El análisis de variancia se denota por ANVA o ANOVA.

En el caso de la regresión lineal simple, se tiene lo siguiente:

SC total de la = SC explicada + SC total no explicada


variable dependiente por la regresión o error

SCT = SCR + SCE


n n n


i 1
( yi  y) 2 = 
i 1
( ŷ i  y) 2 + 
i 1
( y i  ŷ i ) 2

n-1 = 1 + n-2

La prueba estadística para probar la hipótesis nula es

CM Re gresión
Fo 
CM Error

Fo tiene distribución F(1-/2, 1, n-2) si la Ho es verdadera.


La regla de decisión es rechazar la Ho si fo > f(1-/2, 1, n-2). En caso contrario no se
rechaza la Ho. fo se calcula utilizando la fórmula de Fo. En caso de rechazarse la
Ho, se concluye que la regresión es significativa y que la variable escogida como
independientes es apropiada para explicar la variable dependiente.
Estadística – Ingeniería de Sistemas - Chué 97

La información de la partición de la suma de cuadrados, de los grados de libertad


de otras cantidades mencionadas se presenta en un cuadro denominado la tabla del
análisis de variancia de la regresión lineal simple.

TABLA DEL ANVA DE LA REGRESIÓN LINEAL SIMPLE

Fuente de Grados de Suma de cuadrados Cuadrado medio F calculado


Variabilidad libertad
Regresión 1 n SC regresión SC regresión

i 1
( ŷ i  y) 2
Se 2
Error n-2 n
Se2

i 1
( y i  ŷ i ) 2

Total n-1 n


i 1
( yi  y) 2

Recuérdese que:
 n  n   n 
2

SXY= n

  x i


y i

 SXX= n

 xi 


i 1
x i yi   i 1  i 1 
n i 1

x i2   i 1 
n
2
 n 
SYY = n

 yi 


i 1
y i2   i 1 
n

Entonces,

SC regresión = b1SXY = b21 SXX

SC Error = SYY – SC regresión

La siguiente figura presenta la relación entre la desviación total, la desviación


explicada y la desviación no explicada de un punto individual en una regresión
simple.

Y
Valor Observado de Y

Y- Y Línea de regresión
Estadística – Ingeniería de Sistemas - Chué 98

Desviación
respecto a
Y
Y - Y
Y

Nota Importante. La prueba del ANVA se conoce como la prueba global del
modelo de regresión y las pruebas de 0 y 1 son conocidas como pruebas
individuales.

INTERVALO DE CONFIANZA PARA UN VALOR MEDIO µy/x

Un intervalo de confianza para un valor medio µy/x del 100(1-) por ciento para
un valor x=x0 es:

1 (x 0  x) 2 1 (x 0  x) 2
ŷ 0  t ( / 2,n 2) Se  n ŷ 0  t (  / 2,n 2) Se  n
n  µy/x  n

(x i  x) 2
i 1
 (x i  x) 2
i 1

INTERVALO DE CONFIANZA PARA UN VALOR INDIVIDUAL

Un intervalo de confianza para un valor individual del 100(1-) por ciento para
un valor x= x0 es:

1 (x  x) 2
ŷ 0  t (  / 2,n  2) Se 1   n 0
n  y0
 (x i  x) 2
i 1
Estadística – Ingeniería de Sistemas - Chué 99

1 (x  x) 2
ŷ 0  t (  / 2,n 2) Se 1   n 0
 n
 (x i  x) 2
i 1

CORRELACION LINEAL

¿Qué es correlación lineal?. Es una técnica estadística que consiste en medir la


asociación lineal entre dos variables.

El coeficiente de correlación lineal poblacional es denotado por . Mientras que su


estimador correspondiente, denominado coeficiente de correlación muestral, es
denotado por " r ".
El valor del coeficiente de correlación (poblacional o muestral) puede variar de -1
a 1. La interpretación del valor de r es la siguiente:

1.- Si r < 0, esto indicará que hay una relación lineal inversa entre las dos
variables en estudio. Si r=-1, entonces hay una relación perfecta lineal
inversa.
Ejemplos:
45
40
35
30
25 r<0
20
15
10
5
0
0 2 4 6 8 10
Estadística – Ingeniería de Sistemas - Chué 100

40

35

30

25 r = -1
20

15

10

0
0 2 4 6 8 10

2.- Si r > 0, esto indicará que hay una relación lineal directa entre las dos
variables en estudio. Si r=1, entonces hay una relación perfecta lineal
directa.
Ejemplos:
50
45
40

35
30
r>0
25
20
15

10
5
0
0 2 4 6 8 10

25

20

15
r=1

10

0
0 2 4 6 8 10
Estadística – Ingeniería de Sistemas - Chué 101

3.- Si r=0, esto indicará que no hay una relación lineal directa entre las dos
variables en estudio. Pero si puede existir algún otro tipo de relación no
lineal.
Ejemplos:
40

35

30

25
r=0
20

15

10

0
0 2 4 6 8 10

40

35

30

25
No existe correlación
20

15

10

0
0 2 4 6 8 10

30

25
No existe correlación

20

15

10

0
0 10 20 30 40
Estadística – Ingeniería de Sistemas - Chué 102

La fórmula para calcular el valor de r es:

n  n

n  xi    yi 
 xi yi - i=1  n i=1 
i=1
r =
2 2
 n   n 
  xi    yi 
 i=1   
 
2
2
xi - yi - i=1
i=1 n i=1 n

Esta fórmula de r es denominada momento producto de Pearson.


Nota importante.- La evidencia muestral sólo puede indicar que el patrón de
comportamiento de las dos variables está relacionado linealmente en el sentido de
que una puede ser utilizada de manera efectiva para predecir la otra. Esto no
significa que se haya establecido una relación causa-efecto.

RELACIÓN ENTRE CORRELACIÓN Y REGRESIÓN

¿Están relacionadas linealmente dos variables? - Correlación Lineal


¿Cuál es la relación? - Regresión Lineal
¿Cómo están relacionadas dos variables? - Regresión Lineal

Los conceptos de correlación y regresión lineales son muy diferentes, ya que cada
uno mide características distintas. Es posible tener datos que produzcan una
marcada correlación, y que tengan el modelo incorrecto. Por ejemplo, si el
intervalo del dominio se restringe lo suficiente, puede utilizarse una recta para
aproximar casi cualquier línea curva. En este caso el valor de r puede ser grande,
pero aún así la gráfica no será una línea recta perfecta. Ver gráfico siguiente.
Estadística – Ingeniería de Sistemas - Chué 103

100

90

80

70

60

50

40

30

20

10

0
0 20 40 60 80 100 120

El coeficiente de regresión muestral b y el coeficiente de correlación muestral r


están relacionados por la siguiente fórmula:

2
 n 
  x i
n  
 xi - i=1n
2

r= b i=1 2
 n 
  yi 
n  
 yi - i=1 n
2

i=1

Recuérdese también que Se mide la dispersión alrededor de la línea de regresión


en términos absolutos: nuevos soles, kgs, y así sucesivamente. El coeficiente de
correlación r mide la dispersión relativa a la desviación estándar de las y, y no
tiene unidades.
 r describe el agrupamiento de los puntos alrededor de la línea de las
desviaciones estándares.
 r indica como el promedio de las y depende de las x- asociada con un
incremento en la desviación estándar de las x hay un incremento de únicamente
r desviaciones estándares de las y, en el promedio.
 r determina la exactitud de las predicciones de regresión, por intermedio de la
fórmula de Se.

Nota Importante.- Si Ud. extrapola más allá de los datos o usa la línea de
regresión para obtener estimados de Y usando valores de x que no fueron
considerados en el estudio, Se no podrá indicarle qué tan lejos es su estimación.
Estadística – Ingeniería de Sistemas - Chué 104

COEFICIENTE DE DETERMINACION R2

El coeficiente de determinación R2 es definido como:

SC regresión
R2 = SC total

Es decir, R2 es la proporción de la variación total de la variable dependiente que es


explicada por el modelo de regresión 0 + 1x (o por la variable independiente x).
También se dice que es la reducción en la variación total de la variable respuesta
por el uso de la variable independiente X.

R2 mide o juzga la idoneidad del modelo de regresión 0 + 1x. Nótese que R2 = r2.

Si por ejemplo, en un estudio r=0.8, entonces el 64% de la variación en la variable


dependiente y se atribuye a su relación con x; si en otro estudio r=0.40, sólo el
16% de la variación en y se atribuye a su relación con x. Por lo tanto, en el sentido
del "porcentaje de variación", podemos decir que una correlación de 0.8 es
aproximadamente cuatro veces más fuerte que una correlacción de 0.40. De la
misma forma, decimos que una correlación de 0.60 es nueve veces más fuerte que
una de 0.20.

EJEMPLO DE ANÁLISIS DE REGRESIÓN LINEAL SIMPLE


(Continuación del ejemplo de los errores de entrada )

Regression Analysis

The regression equation is


Y = 2.20 + 0.575 X

Predictor Coef StDev T P


Constant 2.200 3.121 0.70 0.501
X 0.5750 0.1839 3.13 0.014

S = 3.290 R-Sq = 55.0% R-Sq(adj) = 49.4%

Analysis of Variance

Source DF SS MS F P
Regression 1 105.80 105.80 9.77 0.014
Error 8 86.60 10.82
Total 9 192.40

Unusual Observations
Obs X Y Fit StDev Fit Residual St Resid
Estadística – Ingeniería de Sistemas - Chué 105
8 20.0 20.0 13.70 1.27 6.30 2.08R

R denotes an observation with a large standardized residual

Fit StDev Fit 95.0% CI 95.0% PI


6.80 1.80 ( 2.64, 10.96) ( -1.85, 15.45)
6.80 1.80 ( 2.64, 10.96) ( -1.85, 15.45)
9.10 1.27 ( 6.16, 12.04) ( 0.96, 17.24)
9.10 1.27 ( 6.16, 12.04) ( 0.96, 17.24)
11.40 1.04 ( 9.00, 13.80) ( 3.44, 19.36)
11.40 1.04 ( 9.00, 13.80) ( 3.44, 19.36)
13.70 1.27 ( 10.76, 16.64) ( 5.56, 21.84)
13.70 1.27 ( 10.76, 16.64) ( 5.56, 21.84)
16.00 1.80 ( 11.84, 20.16) ( 7.35, 24.65)
16.00 1.80 ( 11.84, 20.16) ( 7.35, 24.65)

Vous aimerez peut-être aussi