Vous êtes sur la page 1sur 19

Estadística General

Regresión lineal simple.

1
Relaciones entre variables y regresión
 El término regresión fue introducido por Galton en su libro
“Natural inheritance” (1889) refiriéndose a la “ley de la
regresión universal”:
 “Cada peculiaridad en un hombre es compartida por sus
descendientes, pero en media, en un grado menor.”
 Regresión a la media
 Su trabajo se centraba en la descripción de los rasgos físicos de
los descendientes (una variable) a partir de los de sus padres (otra
variable).
 Pearson (un amigo suyo) realizó un estudio con más de 1000 Sir Francis Galton
registros de grupos familiares observando una relación del tipo: •Primo de Darwin
 Altura del hijo = 85cm + 0,5 altura del padre (aprox.) •Estadístico y aventurero
•Fundador (con otros) de
 Conclusión: los padres muy altos tienen tendencia a tener hijos que la estadística moderna
heredan parte de esta altura, aunque tienen tendencia a acercarse para explicar las teorías
(regresar) a la media. Lo mismo puede decirse de los padres muy
bajos. de Darwin.

 Hoy en día el sentido de regresión es el de predicción de una


medida basándonos en el conocimiento de otra.
2
¿Es posible descubrir una relación?

 RELACIÓN FUNCIONAL
Y=f (X1, X2, … , Xn)
Ejemplo: La relación que existe entre el tiempo (Y) que tarda un
móvil en recorrer una distancia (X) a velocidad constante (v)
Y=X/v
 NO EXISTE NINGUNA RELACIÓN
Ejemplo: La relación que existe entre el dinero (Y) que gana una
persona adulta mensualmente y su altura (X)
 RELACIÓN ESTOCÁSTICA
 Y = f(X) + error
 f es una función de un tipo determinado (desconocida)

 el error es aleatorio, pequeño, y no depende de X

3
REGRESIÓN

La regresión es una (X,Y)


técnica estadística
encaminada a
establecer la relación (x1, y1)
existente entre dos
(x2 ,
o más variables.
y2 ) ...
(xn,
yn )
OBJETIVOS

 Mostrar la forma como la variable


independiente (X) se relaciona con la
variable dependiente (Y).
 Hacer pronósticos sobre los valores de la
variable dependiente, con base en el
conocimiento de los valores de la variable
independiente.
Modelo de regresión lineal simple
 Dado dos variables
Y (dependiente)
X (independiente, explicativa, predictora)

buscamos encontrar una función de X muy simple (lineal)


y  0  1x  
que nos permita aproximar “y” mediante

yˆ  b 0
y
y ˆ
modelo derara vez coincidirán por muy bueno que sea
regresión.
 e
A la cantidad
el e b
 y x
1
se le denomina residuo o error
yˆ 6
Método de Mínimos Cuadrados

 yi  ^i
2
Los errores a minimizar son las ei2
cantidades
y

Método de Mínimos Cuadrados
2 2 2
 ei    yi  ˆyi   yi b0 b1 xi
n n n

i1

i1
i1

 Para minimizar se deriva con respecto a ambas (b y b ) e
0 1
igualando a cero.

 Obteniéndose dos ecuaciones normales. La primera


se escribe como, n n

y  b0n  b1  xi 
 i
i1


0 b0  y 
i1


b1x
Mediante la segunda ecuación normal,

n n n
 yi xi b0  xi b1  x  0 2
i
i i i
1 1 1
Método de Mínimos
Cuadrados
y sustituyendo, se obtiene que
n n n

n  xi y i -  xi  S
b1 = i=1 i=1 i=1  r SY
-
n n 2
yi n 2

X

1 x i  i=1 x i 
i=


 La constante b0 de regresión indica el valor pronosticado de Y
cuando X es cero.
 El coeficiente de regresión b1 representa la cantidad de cambio
(aumento o disminución) que pronosticaríamos en Y para un
aumento de una unidad en X.
 Un signo negativo en el coeficiente b1 nos indica que a medida que
aumenta X, disminuye Y. Gráficamente, b1 es la pendiente de la
línea de regresión.

yˆ b0 b1x
 Se obtiene además unas ventajas “de
regalo”
 El error residual medio es nulo
 La varianza del error residual es
Errores de
mínima para dicha estimación. predicción
Traducido: En término medio no nos Y
equivocamos. Cualquier otra estimación (residuos)
que no cometa error en término medio, si
es de tipo lineal, será peor por presentar
mayor variabilidad con respecto al error
medio (que es cero).

Cuanto menos
dispersos sean los
residuos, mejor será
la bondad del
ajuste.
10
SUPUESTOS
1. X no es una variable aleatoria.
2. Para cada valor de X hay una
distribución de probabilidad de Y.
Se supone que cada una de estas
distribuciones es normal.
SUPUESTOS

3. Todas las medias de las subpoblaciones de Y están


sobre una recta (suposición de linealidad)

4. Todas las subpoblaciones de Y son independientes y


tienen varianzas iguales.
BONDAD DE AJUSTE
 Si el ajuste de Y mediante la ecuación de regresión
Y f (x)
es bueno, cabe esperar que la varianza del error de
estimación debe ser pequeña (en comparación con la de Y).

Ello se puede expresar definiendo una nueva variable E que


mida las diferencias entre los auténticos valores de Y y los
teóricos suministrados por la regresión,

 e1e2 yy12y

2
E Y Y  1
y 
 
en  yn 

yn
BONDAD DE AJUSTE

E pequeña
E debe ser una variable cuya media debe ser 0, y la varianza S 2
en comparación con S.
Y 2

Por ello se define el coeficiente de determinación de la regresión de Y


sobre X, como
2 S 2 VarianciadeY explicadaporX
R  1   Y2E  VarianciatotaldeY
S

 Si el ajuste es bueno se debe tener que R2 tome un valor próximo a


1.
 El coeficiente de determinación sirve entonces para medir de qué
modo las diferencias entre los verdaderos valores de una variable y
los de su aproximación mediante una ecuación de regresión son
pequeños en relación con los de la variabilidad de la variable que
intentamos aproximar. Por esta razón estas cantidades miden el
grado de bondad del ajuste.
SIGNIFICANCIA DE LA REGRESIÓN
 ¿Qué ocurre con la recta de
regresión si el coeficiente “b0” tomara
el valor 0? .
 ¿Qué ocurre con la recta de
regresión si el coeficiente “b1” tomara
el valor 0? .

H0 : b0  0  H 0 : b1  0
H 1 : b0   1 1
H :b 
0 0
PRUEBA DE HIPÓTESIS PARA 

 Asociación no es sinónimo de
causalidad.
 Prueba de hipótesis para “medir la
intensidad de la asociación
observada entre dos variables
cualesquiera”.

H0 :  XY  0
H 1 : XY 
0
Otros modelos de regresión
¿recta o
 Se pueden considerar otros parábola?
tipos de modelos, en función del
aspecto que presente el
diagrama de dispersión
(regresión no lineal)

 Incluso se puede considerar el 140 150 160 170 180 190 200
que una variable dependa de
varias (regresión múltiple). ¿recta o cúbica?

140 150 160 170 180 190 200

17
Vehículos

En una fábrica de combustible se hizo


un estudio en 15 vehículos de la misma
marca y modelo para relacionar la
velocidad (x) en km/h con el gasto de
combustible (y) en litros por kilómetro,
la cual se muestra en la siguiente tabla:

a)Si una vehículo gasta 1 litro por


kilómetro, ¿A qué velocidad debe correr
aproximadamente para lograr ese
consumo?
b)¿Qué gasto de combustible puede
esperarse de un vehículo cuando
corra a la velocidad de 40 km/h?
c) Calcular r.

18
Se realizó una encuesta en
diferentes ciudades importantes de
un país para relacionar el grado de
contaminación ambiental (x) en
imecas con el porcentaje de
población afectado de las vías
respiratorias (y), la cual se muestra
en la siguiente tabla:

a)Si una población alcanza 150 imecas,


¿Qué porcentaje de su `población es
de esperarse que padezca de las vías
respiratorias?
b)Si una población tiene el 60% de
enfermos de las vías respiratorias,
¿Qué grado de contaminación
es de suponerse que tenga?
c) Calcular r.
19

Vous aimerez peut-être aussi