Vous êtes sur la page 1sur 62

CONTENIDO

• Regresión lineal y correlación


• Método de mínimos cuadrados y la línea
• Intervalos de confianza y de predicción
• Análisis de varianza para la regresión
• Análisis de residuales
• Análisis de regresión múltiple y el método de los mínimos cuadrados
• El coeficiente de determinación múltiple y el error estándar múltiple de
estimación
• Análisis de varianza para la regresión múltiple
• Análisis de residuales
• Aplicaciones

2
¿QUÉ ES UN ANÁLISIS DE CORRELACIÓN?

El análisis de correlación es el estudio de la relación que existe entre las


variables. Para explicar lo anterior supóngase que el gerente de ventas de la
compañía Copier Sales of America, empresa que tiene una gran fuerza de
ventas en todo Estados Unidos y Canadá, desea determinar si existe una
relación entre el número de llamadas telefónicas de ventas hechas en un
mes, y la cantidad de copiadoras vendidas durante ese lapso. El gerente
selecciona al azar una muestra de ·10 representantes, y determina el número
de tales llamadas que hizo cada uno el mes anterior y la cantidad de
productos vendidos. La información muestra! Aparece en la tabla

3
TABLA DE DATOS

Representantes de ventas Número de llamadas Número de copiadoras


vendidas

Tom Keller 20 30

Jeff Hall 40 60

Brayan Virost 20 40

Greg fish 30 60

Susan Welch 10 30

Carlos Ramirez 10 40

Rich Niles 20 40

Maik kiel 20 50

Mark Reynolds 20 30

Soni Jones 30 70

4
CONCEPTOS

• Análisis de correlación: Conjunto de técnicas estadísticas


empleado para medir la intensidad de la asociación entre dos
variables.

• Diagrama de dispersión: Gráfica que representa la relación


entre dos variables.

5
CONCEPTOS
• Variable dependiente: La variable que se predice o se calcula.

• Variable independiente: Variable que proporciona las bases para


el calculo. Es una variable de predicción.

• En estadística, el coeficiente de correlación de Pearson es una


medida de la relación lineal entre dos variables aleatorias
cuantitativas. A diferencia de la covarianza, la correlación de
Pearson es independiente de la escala de medida de las
variables

6
INTERPRETACIÓN
El valor del índice de correlación varía en el intervalo [-1,1], indicando el signo el sentido de
la relación:

Si r = 1, existe una correlación positiva perfecta. El índice indica una dependencia total entre
las dos variables denominada relación directa: cuando una de ellas aumenta, la otra
también lo hace en proporción constante.

• Si 0 < r < 1, existe una correlación positiva.

• Si r = 0, no existe relación lineal. Pero esto no necesariamente implica que las variables
son independientes: pueden existir todavía relaciones no lineales entre las dos variables

• Si -1 < r < 0, existe una correlación negativa.

• Si r = -1, existe una correlación negativa perfecta. El índice indica una dependencia total
entre las dos variables llamada relación inversa: cuando una de ellas aumenta, la otra
disminuye en proporción constante

7
Ejemplos de diagramas de dispersión con diferentes valores del
coeficiente de correlación (ρ

8
9
Llamadas ventas
20 30
40 60
20 40
30 60
10 30
10 40
20 40
20 50
20 30
30 70
medias 22 45
var muestral 84.4444444 205.555556
var pob 76 185

10
CALCULO DEL COEFICIENTE DE CORRELACIÓN

11
CALCULO DEL COEFICIENTE DE CORRELACIÓN

Llamadas X ventas y X² Y² XY
20 30 400 900 600
40 60 1600 3600 2400
20 40 400 1600 800
30 60 900 3600 1800
10 30 100 900 300
10 40 100 1600 400
20 40 400 1600 800
20 50 400 2500 1000
20 30 400 900 600
30 70 900 4900 2100
220 450 5600 22100 10800

12
DESVIACIÓN DE LA MEDIA Y SUS PRODUCTOS

Llamadas X ventas y X- Y- (X- )(Y- )


20 30 -2 -15 30
40 60 18 15 270
20 40 -2 -5 10
30 60 8 15 120
10 30 -12 -15 180
10 40 -12 -5 60
20 40 -2 -5 10
20 50 -2 5 -10
20 30 -2 -15 30
30 70 8 25 200
900

13
Llamadas X ventas y X² Y² XY
20 30 400 900 600
40 60 1600 3600 2400
20 40 400 1600 800
30 60 900 3600 1800
10 30 100 900 300
10 40 100 1600 400
20 40 400 1600 800
20 50 400 2500 1000
20 30 400 900 600
30 70 900 4900 2100
TOTALES 220 450 5600 22100 10800

14
15
INTERPRETACIÓN

El coeficiente de correlación es de 0.759 es positivo, lo que indica que


hay una relación directa entre las llamadas y las ventas, este valor es
bastante cercano a 1.0 por lo que se concluye que la relación es fuerte,.
Un aumento del 25% en las llamadas podría significar un aumento del
25 5 en las ventas.

16
COEFICIENTE DE DETERMINACIÓN
Coeficiente de determinación: La porción de variación total en la variable
dependiente Y que se explica por la variación de la variable independiente X.

Los términos de fuerte, mediana o ligera relación no significan nada, por lo que
es necesario utilizar un coeficiente de determinación que de significado
numérico a la expresión. r² = (0.759) ² = 0.576. Es una proporción que
significa que el 57.6% de las copiadoras vendidas se explica por la variación
de llamadas hechas a los clientes.

17
PRUEBA DE SIGNIFICANCIA PARA EL
COEFICIENTE DE CORRELACIÓN

18
Con un nivel de significancia de α=.0.05=2.896(valor de tablas) . Como
3.297 ˃2.896 ,se rechaza H0 y se acepta H1, lo que significa que la
correlación de variables no es nula, dependiendo el numero de
ventas al numero de llamadas hechas por los vendedores.

19
ANÁLISIS DE REGRESIÓN
La ecuación de regresión define la relación lineal entre dos variables

Y=a+bX

Y= valor pronosticado de la variable


dependiente Y

a= ordenada al origen

b= Pendiente de la recta

X= valor de la variable independiente.

20
PRINCIPIO DE MÍNIMOS CUADRADOS
Mínimos cuadrados es una técnica de análisis numérico
enmarcada dentrode
la optimización matemática, en la que, dados un conjunto de
pares ordenados: variable independiente, variable dependiente,
y una familia de funciones, se intenta encontrar
la función continua, dentro de dicha familia, que mejor se
aproxime a los datos

21
 Es el mejor método para obtener un ajuste
lineal a una serie de datos. Es base para la
identificación de componentes de
tendencia de una serie de tiempo.

 Con este método se encuentra la ecuación


de una recta de mínimos cuadrados. Con
esta recta se obtendrán los valores de
tendencia

22
23
• Dónde:
• Y:Valor proyectado, estimado o pronóstico de Y
• a: Punto dónde la recta corta el eje.
• b: La pendiente de la recta la tendencia.
• x: Cualquier valor de tiempo seleccionado.

24
25
EJEMPLO

Una zapatería que empezó en 2006, la


cual ha ido aumentando sus ventas
año con año le gustaría saber u n
aproximado de sus ventas en el 2015.

26
27
28
SOLUCION

29
30
31
EJEMPLO
X Y' ventas
Llamadas Y ventas estimadas
20 30 42.6316
40 60 66.3156
20 40 42.6316
30 60 54.4736
10 30 30.7896
10 40 30.7896
20 40 42.6316
20 50 42.6316
20 30 42.6316
30 70 54.4736

32
Y= 1.1842X + 18.9476

33
ERROR ESTÁNDAR DE ESTIMACIÓN
Error estándar de desviación: Medida de la dispersión de los
valores observados, con respecto a la línea de regresión.

34
ERROR ESTÁNDAR DE ESTIMACIÓN

35
X Llamadas Y ventas Y' ventas estimadas Y-Y' (Y-Y')²
20 30 42.6316 -12.6316 159.557319
40 60 66.3156 -6.3156 39.8868034
20 40 42.6316 -2.6316 6.92531856
30 60 54.4736 5.5264 30.541097
10 30 30.7896 -0.7896 0.62346816
10 40 30.7896 9.2104 84.8314682
20 40 42.6316 -2.6316 6.92531856
20 50 42.6316 7.3684 54.2933186
20 30 42.6316 -12.6316 159.557319
30 70 54.4736 15.5264 241.069097
0 784.210526

36
ANÁLISIS DE REGRESIÓN Y CORRELACIÓN
MÚLTIPLES
El uso de una variable independiente para predecir la variable dependiente
no toma en cuenta la relación de otras variables con la variable dependiente.
En esta parte se amplía el estudio de la correlación y de la regresión,

examinando la influencia de dos o más variables independientes sobre la

variable dependiente. Esto se denomina análisis de regresión y correlación


múltiples.

37
ECUACIÓN DE REGRESIÓN MÚLTIPLE CON DOS
VARIABLES INDEPENDIENTES
Y'=a + b1X1 +b2 X2
Donde
X1, X2 son las dos variables independientes.
a es la intersección con el eje Y. Es la ordenada del punto de intersección con
el eje Y.
b1 es la variación neta en Y por cada unidad de variación en X,. manteniendo X2
constante. Se denomina coeficiente de regresión parcial, coeficiente de regresión
neta, o simplemente, coeficiente de regresión.
b2 es el cambio neto en Y para cada cambio unitario en X2, manteniendo X1
constante. También se le conoce como coeficiente de regresión parcial,
coeficiente de regresión neta, o simplemente, coeficiente de regresión.

38
Para ilustrar la interpretación de la intersección y de los dos coeficientes de
regresión, supóngase que en un vehículo el rendimiento del galón de
gasolina está directamente relacionado con el octanaje ele la gasolina que se
utiliza (X1) e inversamente relacionado con el peso del automóvil (X2)
Considérese que la ecuación de regresión múltiple obtenida a partir de un
paquete de cómputo es:

Y' = 6.3 + 0.2X1 -0.001X2

39
Por ejemplo, si el peso de un automóvil es 2 000 libras y el octanaje de la
gasolina es 92, el rendimiento promedio del galón de gasolina será 22.7
millas, que se obtiene de:

Y'= a+ b 1X1 + b2X2 = 6.3 + 0.2(92) + (-0.001)2 000 = 22.7

40
Ecuación de regresión múltiple con tres variables independientes
Y'=a + b1X1 +b2 X2 +b3x3

Ecuación de regresión múltiple con k independientes


Y'=a + b1X1 +b2 X2 +b3x3 … bkXk
Ecuaciones generadas

41
EJEMPLO
E! ingeniero de control de calidad de industrias trancazo desea estimar la
resistencia a la tensión mecánica de un alambre de acero, en función de su
diámetro exterior y el contenido de molibdeno en el acero. Para hacer un
experimento, seleccionó 25 trozos de alambre, midió su diámetro exterior y
determinó el contenido de molibdeno. A· continuación midió la resistencia a
la tensión de cada trozo .. ·Los resultados obtenidos en los primeros Cuatro
trozos fueron:

42
TRAMO Y resit tension X1 diam ext X2 cant molibdeno

A 11 0.3 6

B 9 0.2 5

C 16 0.4 8

D 12 0.3 7

43
FORMACION DE LA ECUACIONES
X1
Y resit diam X2 cant
TRAMO tension ext molibdeno X²1 X²2 X1Y X2Y X1*X2
A 11 0.3 6 0.09 36 3.3 66 1.8
B 9 0.2 5 0.04 25 1.8 45 1
C 16 0.4 8 0.16 64 6.4 128 3.2

D 12 0.3 7 0.09 49 3.6 84 2.1


total 48 1.2 26 0.38 174 15.1 323 8.1

48=4a+1.2b1+26b2
15.1=1.2a+.38b1+8.1b2
323=26a+8.1b1+174b2

44
RESOLVIENDO LAS SIMULTANEAS
48=4a+1.2b1+26b2
15.1=1.2a+.38b1+8.1b2
323=26a+8.1b1+174b2
a= 0.5
X1= 20
X2= 1
La ecuación queda así.

Y’= -0.5+20X1 + 1 X2

45
RESOLUCIÓN DE SIMULTANEAS POE
DETERMINANTES
48=4a+1.2b1+26b2 4 1.2 26
15.1=1.2a+.38b1+8.1B2 1.2 0.38 8.1
Δ= 26 8.1 174 = 0.04
323=26a+8.1b1+174b2
4 1.2 26
1.2 0.38 8.1
48 1.2 26
15.1 0.38 8.1
Δa= 323 8.1 174 = -0.02
48 1.2 26
15.1 0.38 8.1

4 48 26
1.2 15.1 8.1
Δb1= 26 323 174 = 0.8
4 48 26
1.2 15.1 8.1

46
a=Δa/Δ= -0.5 48=4a+1.2b1+26b2
15.1=1.2a+.38b1+8.1B2
323=26a+8.1b1+174b2

b1=Δb1/Δ= 20

Y’= -0.5+20X1 + 1 X2
b2=Δb2/Δ= 1

47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62