Vous êtes sur la page 1sur 72

ESTADÍSTICA

APLICADA

PRONOSTICOS
ANTECEDENTES

En este punto hemos analizado pruebas que implicaron sólo


una variable de intervalo (o de razón).
• Estadística descriptiva: distribución de frecuencias,
calculo de medidas de ubicación y de dispersión para
describir las características de la distribución.
• Probabilidad y distribuciones de probabilidad
• Inferencia estadística: utilizamos una muestra para
estimar un parámetro poblacional.
• Pruebas de hipótesis: utilizamos los datos de la muestra
para probar una inferencia.
El foco de interés cambia hacia el estudio de la relación
entre dos variables de intervalo (o de razón).
ANÁLISIS DE REGRESION Y CORRELACION

• El ANÁLISIS DE REGRESIÓN es un método estadístico


que permite explicar el comportamiento de una variable Y,
llamada VARIABLE EXPLICADA, a partir del
comportamiento de otra u otras variables X, llamadas
VARIABLES EXPLICATIVAS, que puedan estar
relacionadas, estableciendo la expresión funcional del
modelo matemático que describa dicho comportamiento.
• El análisis de Regresión se utiliza principalmente con el
propósito de hacer predicciones.
• El análisis de Correlación, se utiliza para medir la
intensidad entre las variables numéricas.
ANÁLISIS DE REGRESION Y CORRELACION

Las relaciones entre dos variables se pueden


estudiar dibujando sobre una gráfica los
pares de medidas y representando cada par
ordenado de observaciones mediante un
punto. Tales representaciones se denominan
diagramas de dispersión. Si los observamos
podemos tener una cierta idea sobre el
grado de relación entre las dos variables.
DIAGRAMA DE DISPERSIÓN
EJEMPLO

Almacenes Clientes Ventas


1 907 11.20
2 926 11.05 Diagram a de dispersión de las
3 506 6.84 ventas sem anales y núm ero de
4 741 9.21 clientes
5 789 9.42
6 889 10.08 15

Ventas semanales
7 874 9.45
8 510 6.73 10
9 529 7.24
10 420 6.12
11 679 7.63 5
12 872 9.43
13 924 9.46 0
14 607 7.64
500 700 900 1100
15 452 6.92
16 729 8.95 Núm ero de clientes
17 794 9.33
18 844 10.23
19 1010 11.77
20 621 7.41
METODO DE MINIMOS CUADRADOS

Determina una ecuación de regresión al


minimizar la suma de los cuadrados de
las distancias verticales entre los
valores reales de Y y los valores
pronosticados de Y
METODO DE MINIMOS CUADRADOS

Consideremos los puntos representativos de los


datos dados por (x1, y1), (x2, y2)... (xn, yn). Para un
valor de xi, existirá una diferencia di entre yi y el
valor que da la ecuación de ajuste.
Cada diferencia se conoce como desviación o
error, el cual puede ser positivo, negativo o cero.
De todas las curvas de aproximación a una serie de
datos puntuales, la curva que tiene la propiedad
de:
d12 + d22 + ... + dn2 = un mínimo
se conoce como la mejor curva de ajuste.
METODO DE MINIMOS CUADRADOS

Para ilustrar este concepto, se trazan los datos en


las tres gráficas siguientes.
Los puntos son los valores reales de Y, y los
asteriscos son los valores predichos de Y para un
valor dado de X.
La recta de regresión de la gráfica 1 se determinó
con el método de los mínimos cuadrados.
Es la recta de mejor ajuste porque la suma de los
cuadrados de las desviaciones verticales respecto
de sí misma es mínima.
METODO DE MINIMOS CUADRADOS
La primera gráfica (X=3, Y=8) se desvía 2 unidades
de la recta, calculada como 10-8. Entonces d12 es 4;
d22 de X=4, Y=18 es 16 y d32 de X=5, Y=16 es 4.
La suma de las desviaciones al cuadrado es 24,
calculado 4+16+4. Suponga que las otras dos
rectas se trazaron con una regla:

4+16+4 4+36+4 64+4+64


ANÁLISIS DE REGRESION Y CORRELACION

• Una curva con esta propiedad se dice que ajusta


los datos en el sentido de mínimos cuadrados y se
llama curva de regresión de mínimos cuadrados.
Por tanto una recta con esta propiedad se llama
recta de mínimos cuadrados una parábola con esta
propiedad se llama parábola de mínimos
cuadrados, etc.
• El Tipo mas simple de curva de regresión es el de
la línea recta (Y=a+bX). Con las siguientes
fórmulas encontraremos la pendiente (b) y la
ordenada al origen de la recta de regresión
muestral (a).
ANÁLISIS DE REGRESION Y CORRELACION

n xy  ( x)( y )
b
n x2  ( x)2

a
 y b x

n n
Donde:
 x = suma de valores de x.
 y = suma de valores y
 x^2 = suma de los cuadrados de los valores de x
(x)^2= cuadrado de la suma de los valores de x
xy = suma de productos de x e y para cada observación pareada
n = número de observaciones x-y
EJEMPLO
x y xy x^2 y^2 20(134127 .9)  (14623)(176.1)
1 907 11.2 10158.4 822649 125.44 b 
20(11306209 )  (14623) 2
2 926 11.05 10232.3 857476 122.1025
3 506 6.84 3461.04 256036 46.7856
4 741 9.21 6824.61 549081 84.8241 b = 0.00873
5 789 9.42 7432.38 622521 88.7364
6 889 10.08 8961.12 790321 101.6064
7 874 9.45 8259.3 763876 89.3025
8 510 6.73 3432.3 260100 45.2929 a  176 .11  0.00873 (14623 )  2.423
9 529 7.24 3829.96 279841 52.4176 20 20
10 420 6.12 2570.4 176400 37.4544
11 679 7.63 5180.77 461041 58.2169
12 872 9.43 8222.96 760384 88.9249
13 924 9.46 8741.04 853776 89.4916
La ecuación para la mejor
14 607 7.64 4637.48 368449 58.3696
15 452 6.92 3127.84 204304 47.8864 línea recta que se ajusta a
16 729 8.95 6524.55 531441 80.1025 estos datos es:
17 794 9.33 7408.02 630436 87.0489
18 844 10.23 8634.12 712336 104.6529 Y = 2.423 + .00873 x
19 1010 11.77 11887.7 1020100 138.5329
20 621 7.41 4601.61 385641 54.9081
14623 176.11 134127.9 11306209 1602.0971
COEFICIENTE DE CORRELACION

El coeficiente de correlación es un valor entre –1 y


+1 que indica la fuerza de la relación lineal. Para
una población se identifica como  (la letra griega
rho) y para una muestra se identifica como r.

El valor de –1 indica una relación lineal negativa


perfecta, +1 una relación lineal positiva perfecta y
0 indica que no hay relación lineal. La siguiente
ecuación se usa para calcular este coeficiente:
COEFICIENTE DE CORRELACION

n xy  ( x)( y )
r
n x 2  ( x)2 n y 2  ( y )2

En el ejemplo que venimos desarrollando:

20(134127 .9)  (14623 )(176 .11)


r  0.9555
20(11306209 )  14623 2
20(1602 .0971)  (176 .11) 2

Esto indica un grado de correlación bastante


aceptable
COEFICIENTE DE CORRELACION
MEDICIONES DE VARIACION EN
REGRESION Y CORRELACION

Con el fin de examinar que tan bien una


variable independiente predice a la variable
dependiente en nuestro modelo estadístico,
necesitamos desarrollar algunas medidas de
variación. La primera de ellas es la SUMA
TOTAL DE CUADRADOS (SST), que es
una medida de la variación de los valores Yi
alrededor de su media, Y.
MEDICIONES DE VARIACION EN
REGRESION Y CORRELACION

Esta se divide en: VARIACION


EXPLICADA ó SUMA DE CUADRADOS
DEBIDA A LA REGRESION (SSR) que se
puede atribuir a la relación entre X y Y; y la
VARIACION NO EXPLICADA Ó SUMA
DE CUADRADOS DEL ERROR (SSE),
que se puede atribuir a factores diferentes a
la relación entre X y Y.
MEDICIONES DE VARIACION EN REGRESION
Y CORRELACION
 2
SST = SSR + SSE SST   (Y  Y )2  Y 2  n Y

SSE  (Y  Y )2  Y 2  aY  b XY

SSR  a y  b xy  n y 2

En el ejemplo:
SSE=1602.0971-(2.423)(176.11)-
(0.00873)(134127.90)=4.446
SST = 1602.0971-20(8.8055)^2 = 51.3605
SSR=(2.423)(176.11)+(0.00873)(134127.90)-
20(8.8055)^2=46.9145
SST = SSR + SSE
51.3605 = 46.9145 + 4.446
COEFICIENTE DE DETERMINACIÓN

El coeficiente de determinación mide la porción de


variación que es explicada por la variable
independiente del modelo de regresión, puede
definirse como:
suma cuadrados debido regresiòn SSR 46.9145
r 
2
   0.913
suma total cuadrados SST 51.3605

Por lo tanto 91.3% de la variación de las ventas


semanales puede explicarse mediante la
variabilidad en el numero de clientes de una tienda
a otra.
EL ERROR ESTANDAR DE LA ESTIMACIÓN
La ecuación de regresión no es un pronosticador
perfecto, en realidad es un pronosticador aproximado.
La medida de la variabilidad alrededor de la línea de
regresión (su variación estándar) se conoce como error
estándar de la estimación. La forma de calcular este
error estándar es:
S yx 
  a y  b xy
y 2

n2
En el ejemplo:
1602 .0971  (2.423)(176.11)  (0.00873)(134127 .90)
S yx   0.497
20  2
INFERENCIAS RESPECTO A LOS
PARAMETROS DE POBLACION
Cuando se realizan análisis de regresión y
correlación es necesario contar con cierto grado
de confiabilidad de que las predicciones y las
relaciones entre “X y Y” sean estadísticamente
aceptables y para ello se usa la inferencia
estadística para llegar a conclusiones acerca de la
pendiente “b” y del coeficiente de correlación de
la población, “r”. Analizaremos tres tipos de
pruebas para este fín.
PENDIENTE VERDADERA IGUA A CERO

Podemos determinar si existe una relación significativa


entre las variables X y Y al probar si “b” (pendiente de la
ecuación lineal) es igual a cero. Si esta hipótesis es
rechazada se puede llegar a la conclusión de que existe
evidencia de una relación lineal. Las hipótesis nula y
alternativa se pueden establecer de la manera siguiente:

Ho : 1 = 0 ( No hay relación )
Ha : 1  0 ( Hay relación )
PENDIENTE VERDADERA IGUA A CERO

Y el estadístico de prueba para probar la


hipótesis está dada por:
b1   1
t
Sb1

En donde:

S yx
Sb1  

x 2
nx2
PENDIENTE VERDADERA IGUAL A CERO

Del ejemplo:
0.497 0.497
Sb1    0.000634
11,306 ,209  20(731 .15) 2
614 ,603

y, bajo la hipótesis nula, 1 = 0 :

b1 0.00873
t   13.77
S1 0.000634
PENDIENTE VERDADERA IGUAL A CERO

Regla de Decisión: Si t calculado  t tabla


se rechaza la hipótesis y como 13.77 
2.101 rechazamos la hipótesis nula y por
tanto indicamos que si existe relación entre
las dos variables ya que 1 no es igual a 0,
por tanto la pendiente es mayor que 0.
• Nivel de significación de 0.05 con n-2
grados de libertad.
Establecer un intervalo de confianza para 1 y
determinar si el valor 1 está incluido en este intervalo

La estimación de intervalo de confianza se


obtendría mediante la siguiente fórmula:
b1  t Sb1
Si se deseara una estimación de intervalo de
confianza del 95% tendríamos b1= 0.00873, t18 =
2.1009, Sb1 = 0.000634

1 = 0.00873  2.1009 (0.000634)


= .00873  0.00133
0.0074  1  0.01006
Establecer un intervalo de confianza para 1 y
determinar si el valor 1 está incluido en este intervalo

REGLA DE DECISION. Los valores del


intervalo de 1 están por arriba de 0, esto
hace concluir que existe relación lineal
significativa, por tanto podemos llegar a la
conclusión de que existe una relación lineal
significativa entre las ventas semanales y el
número de clientes.
Determinar si existe alguna correlación significativa entre las variables
haciendo la Hipótesis que el coeficiente de correlación de la población “p”

Es igual a cero:
Ho : p = 0 (no hay correlación)
H1 : p  0 ( hay correlación )
El estadístico de prueba para determinar la
existencia de una correlación significativa esta
dada por:
r p
t 
1 r 2

n2
Determinar si existe alguna correlación significativa entre las variables
haciendo la Hipótesis que el coeficiente de correlación de la población “p”

En el ejemplo de los almacenes:


0.956 0.956
t   13.75
1  0.913 0.0695
20  2

El t de student de la tabla con n-2 gl y a un 95%


= 2.101
Regla de decisión: Si t calculado es mayor que
el t de la tabla se rechaza la hipótesis nula.
13.75  2.1009 Se rechaza la hipótesis nula
Se concluye que si existe correlación.
REGRESION
REGRESION

a = 2.4230
b1= 0.008729
REGRESION

Syx = 0.501495
REGRESION

SS total = 51.3605
SS error = 4.2570
SS regresión = 46.8335
REGRESION

R2 = 0.91185
REGRESION

R = 0.9549
REGRESION

Tc = 2.109 LI = 0.0074
95 % confianza LS = 0.10007
Se rechaza Ho

b1 = 0.008 Sb1 = 0.0006 t = 13.64612


CORRELACIÓN
REGRESION Y CORRELACION
MULTIPLE
MODELO DE REGRESIÓN MULTIPLE

➢ Algunas veces se da el caso de que se puede desarrollar


un modelo que se ajusta mejor si se toma en cuenta más
de una variable explicatoria en cuyo caso estaríamos
desarrollando un modelo de Regresión múltiple.
➢ En un análisis de correlación múltiple se pueden tomar
en consideración muchas variables explicatorias.

➢ El modelo de regresión lineal múltiple pude expresarse


así:
MODELO DE REGRESIÓN MULTIPLE

Y = o + 1X1 + 2 X2 + 3X3 +........... + pXp

En la que:

o = Intersección con el eje Y

1 = Pendiente de Y respecto a la variable X1,


manteniendo constantes X2, X3,....Xp

2 = Pendiente de Y respecto a la variable X2,


manteniendo constantes X1, X3,....Xp

p = Pendiente de Y respecto a la variable Xp,


manteniendo constante X1, X2,...Xp-1
MODELO DE REGRESIÓN MULTIPLE

Ejemplo: Amy Green presidenta de la compañía


Green Garden quiere ver si el volumen semanal
de ventas de su empresa se relaciona con algunas
variables. Primero las ventas con el número de
anuncios semanales en televisión de la compañía,
y luego analiza la temperatura promedio semanal
como otra variable los resultados son:
MODELO DE REGRESIÓN MULTIPLE
MODELO DE REGRESIÓN MULTIPLE

Las ecuaciones serían:

y = nbo + b1x1 + b2 X2


x1y= box 1+ b1x12 + b2 X1X2
x2y= boX2 + b1 x1x2 + b2 x22
MODELO DE REGRESIÓN MULTIPLE

En el ejemplo:

1089 = 8 bo + b1 33 + b2 432
4608 = bo 33 + b1 145 + b2 1928
61088 = bo 432+ b1 1928 + b2 27036
MODELO DE REGRESIÓN MULTIPLE

Resolviendo este sistema de ecuaciones de tres


incógnitas tendremos que:
bo = 86.255 b1 = 8.324 y b2 = 0.2877

y el modelo de regresión quedaría así:

y = 86.255 + 8.324 X1 + 0.2877 X2


MODELO DE REGRESIÓN MULTIPLE

Cuales son las ventas semanales con un número de


comerciales de 4 (X1) y la temperatura ambiental
promedio de la semana es de 70 (X2).

El pronóstico de ventas semanales es:

y = 86.255 + 8.324 (4) + 0.2877 (70)

y = 139.688 (miles de dólares)


EJEMPLO

La Empresa Casa Fácil vende casas en la costa de Estados Unidos. Una de


las preguntas que los posibles compradores hacen con más frecuencia es: Si
adquirimos esta casa, cuánto tendremos que pagar por la calefacción en
invierno. Se le pidió al departamento de investigaciones de la compañía que
elabore unos lineamientos relacionados con los costos de calefacción para
casas unifamiliares. Se considero que el costo incluye tres variables: 1) la
temperatura media diaria en el exterior, 2) el espesor en pulgadas del
material de aislamiento térmico, y 3) la antigüedad del calefactor. Para
realizar esta investigación, el departamento en cuestión seleccionó una
muestra aleatoria de 20 casas vendidas recientemente. Determinó el costo
de la calefacción de cada casa en el mes de enero, la temperatura exterior en
el la región, el espesor en pulgadas del material aislante, y la antigüedad del
calefactor.
EJEMPLO
ECUACIÓN DE REGRESIÓN MÚLTIPLE

Forma general:

Y´ = a + b1X1 + b2X2 + b3X3

Donde:

X1 = Temperatura media en el exterior

X2 = Aislante térmico en el desván

X3 = Antigüedad del calefactor


ECUACIÓN DE REGRESIÓN MÚLTIPLE
ECUACIÓN DE REGRESIÓN MÚLTIPLE
ECUACIÓN DE REGRESIÓN MÚLTIPLE
ECUACIÓN DE REGRESIÓN MÚLTIPLE
ECUACIÓN DE REGRESIÓN MÚLTIPLE
ECUACIÓN DE REGRESIÓN MÚLTIPLE

a = 427
b1= - 4.58
b2= -14.83
b3= 6.10
ECUACIÓN DE REGRESIÓN MÚLTIPLE

Ecuación de regresión múltiple:

Y´ = 417 - 4.58X1 – 14.8X2 + 6.10X3


ERROR ESTÁNDAR MÚLTIPLE

S y.12...K 
 (Y  Y´) 2

n  ( K  1)
Donde:

Sy.123 = Tres variables

Y = Valor observado

Y´ = Valor estimado mediante la ecuación

n = Número de observaciones de la muestra

k = Número de variables independientes


ERROR ESTÁNDAR MÚLTIPLE

Sy.123 = 51.05
MEDICION DE VARIACIÓN

SS total = 212916
SS error = 41695
SS regresión = 171220
COEFICIENTE DE DETERMINACIÓN

R2 = 0.8047
COEFICIENTE DE CORRELACIÓN

R = 0.89
MATRIZ DE CORRELACIÓN
MATRIZ DE CORRELACIÓN
MATRIZ DE CORRELACIÓN
MATRIZ DE CORRELACIÓN

Marcar títulos
en primera fila
MATRIZ DE CORRELACIÓN
MATRIZ DE CORRELACIÓN
PRUEBA

Temperatura Material aislante Calefactor

Ho: 1 = 0 Ho: 2 = 0 Ho: 3 = 0

Ha: 1  0 Ha: 2  0 Ha: 3  0

Nivel de significancia 0.05

El estadístico de prueba es la distribución t con n – (k + 1) grados de


libertad.

K = Número de variables independientes b1   1


t
Tc = menor que -2.120 o mayor que 2.120 Sb1
PRUEBA PARA LA TEMPERATURA

Se rechaza la
hipótesis nula

b1 = - 4.58 Sb1 = 0.7723 t = - 5.93


PRUEBA PARA EL MATERIAL AISLANTE

Se rechaza la
hipótesis nula

b2 = - 14.83 Sb2 = 4.7544 t = - 3.12


PRUEBA PARA LA ANTIGÜEDAD DEL CALEFACTOR

No se rechaza la
hipótesis nula

b3 = 6.10 Sb3 = 4.0121 t = 1.52

Vous aimerez peut-être aussi