Vous êtes sur la page 1sur 25

Implantacin de programas de mejora Seis Sigma

Anlisis de Regresin y Correlacin


con MINITAB

Primeras definiciones y conceptos de la


regresin

El anlisis de la regresin es una tcnica estadstica que se utiliza


para estudiar la relacin entre variables o factores cuantitativos
referidos a un mismo grupo de unidades observadas.

Se trata de comprobar estadsticamente si tal relacin es posible,


y de serlo, expresarlo matemticamente mediante una ecuacin.

Su uso ms frecuente es el de la prediccin de resultados de una


de ellas para valores fijos de las otras.

Regresin 1
Implantacin de programas de mejora Seis Sigma

Primeras definiciones y conceptos de la


regresin

Cuando se cree que algunas de las variables pueden causar ( o al


menos explicar) los cambios observados en otra, a stas se les llama
variables explicativas (Xs)

La que mide el resultado del estudio se le llama variable respuesta


(Y)

Se intentar establecer una ecuacin de la forma Y=g(x)

Metodologa de un anlisis de regresin

1. Representar los datos en un grfico

2. Identificar su aspecto y sus desviaciones

3. Descripciones numricas que informen sobre los datos y su


posible relacin

4. Descripcin matemtica resumida del aspecto general del


problema

Regresin 2
Implantacin de programas de mejora Seis Sigma

1. Representacin de los datos


La manera de mostrar grficamente los datos observados en un
grfico es a travs de un diagrama de dispersin.
Y, la respuesta se marca en el eje vertical; la X, variable
explicativa, en el eje horizontal. Cada observacin, es un punto
del grfico

2. Identificacin del aspecto del diagrama


de dispersin

El aspecto general del grfico viene dado por la direccin,


forma y fuerza del mismo:

Direccin: positiva o negativa

Forma: disposicin de los puntos (rectilnea o curvilnea)

Fuerza: cuanta ms amorfa sea la disposicin de los puntos


en el grfico, menor su relacin

Regresin 3
Implantacin de programas de mejora Seis Sigma

2. Identificacin del aspecto del diagrama


de dispersin

Es interesante en esta primera identificacin del aspecto


del grfico, identificar observaciones atpicas (aquellas que
se distinguen del aspecto general del grfico)

El diagrama de dispersin slo muestra el aspecto general


de la relacin entre las dos variables.

En situaciones no muy evidentes, un simple cambio de


escala puede hacernos cambiar la forma de pensar.

2. Identificacin del aspecto del diagrama


de dispersin

Scatterplot of Tiempo vs Edad

450

400
Tiempo

350

300

30 32 34 36 38 40 42 44 46 48
Edad

Regresin 4
Implantacin de programas de mejora Seis Sigma

3. Descripciones numricas

Se necesita una medida numrica que complemente al grfico y


que, independientemente de las dimensiones de los valores de las
variables, nos informe sobre la fuerza de la relacin existente.
Una medida es el Coeficiente de correlacin

Caractersticas del coeficiente de correlacin


de Pearson

r utiliza valores estandarizados, luego no le influyen las unidades:


tomara el mismo valor aunque se cambiara de unidad de medida.

r se ve afectada por las observaciones atpicas

Una r positiva (negativa)indica una relacin positiva (negativa)


entre las variables.

Valores de r cercanos al 0 indican una relacin lineal muy dbil.


La fuerza de la relacin lineal aumenta a medida que r se aleja del
0 y se acerca al +1 o al 1.

Regresin 5
Implantacin de programas de mejora Seis Sigma

Ejemplos reales

Situacin 1 Situacin 2 Situacin 3


95 95 95

90 90 90

85 85 85

80 80 80

75 75 75
150 160 170 180 150 160 170 180 150 160 170 180
Temperatura Temperatura Temperatura

r = 0,983 r = 0,887 r = 0,230


p-value: 0,000 p-value: 0,000 p-value: 0,108

Un valor de r distinto de 0 no implica relacin lineal


Es necesario que sea significativamente distinto de cero

Coeficiente de correlacin: Precaucin

El coeficiente de correlacin de Pearson slo mide relacin LINEAL

200

r = 0,5 pero ...

Relacin casi perfecta,


100
aunque no lineal.

0 10 20 30

Regresin 6
Implantacin de programas de mejora Seis Sigma

4. Descripcin matemtica de la forma del


grfico

Si la correlacin entre las dos variables indica una relacin fuerte,


sera muy interesante poder resumir el grfico en forma de una
ecuacin matemtica.

En el caso de una forma lineal, a la recta que ajusta la nube de


puntos se le llama recta de regresin.

Esta recta se calcula teniendo en cuenta dos cosas:


Puesto que describe un cambio en la respuesta a medida que
cambia la otra variable, se necesita tener presente esta
distincin a la hora de calcularla.
Puesto que ninguna recta puede pasar exactamente por todos
los puntos, se necesita una manera de construirla que asegure
su paso tan cerca de todos los puntos como sea posible.

4. Descripcin matemtica de la forma del


grfico

Fitted Line Plot


Tiempo = - 1550 + 95,80 Edad
- 1,193 Edad**2
S 38,3533
450 R-Sq 37,1%
R-Sq(adj) 35,0%

400
Tiempo

350

300

250
30 32 34 36 38 40 42 44 46 48
Edad

Regresin 7
Implantacin de programas de mejora Seis Sigma

Modelo de regresin simple

Modelo terico para la poblacin:


y = 0 + 1x +
distancia entre lo real y lo que se predice
~ N (0, ) Y

y = b0 + b1x
Recta ajustada:
(a partir de una muestra) y i prediccin de la recta

yi observado

r sy
y = y + (x x)
sx

xi X

Modelo de regresin simple

La pendiente de la recta , b1, representa la tasa de cambio, es


decir, la cantidad en que cambia y cuando x aumenta en una
unidad.

y
r sy
y = b0 + b1x b1 =
sx

b1

1
b0

Regresin 8
Implantacin de programas de mejora Seis Sigma

Modelo de regresin simple

r2, representa la fraccin de la variacin de Y que se explica


por la regresin de Y sobre X y sirve de medida de bondad
de la regresin para explicar la respuesta.

La parte de la variable Y que no es explicada por el modelo


se llama residual.

Una vez dibujada la recta de regresin, existe un valor


residual para cada dato: e = y y

Modelo de regresin simple

e i = y i y i

ei

Regresin 9
Implantacin de programas de mejora Seis Sigma

Anlisis de los residuos

La disposicin de los residuos sirve para comprobar si la


recta sirve para ajustar los datos

Dibujando sus valores en el eje de ordenadas frente a las


predicciones deben presentar una forma uniforme ,
centrada en el valor 0, a lo largo de toda la recta, sin que
aparezca ningun valor extrao

Inferencia para la regresin lineal

Regression Plot
Rendi2 = 10,2163 + 0,447563 Temperatura

S = 2,01711 R-Sq = 78,6 % R-Sq(adj) = 78,2 %

95
Intervalo para las predicciones

Intervalo para la recta


Rendi2

85

Regression
95% CI
75
95% PI

150 160 170 180

Temperatura

Regresin 10
Implantacin de programas de mejora Seis Sigma

Regresin no lineal

La relacin entre x e y no tiene porqu ser lineal.

Los softwares informticos ajustan los datos a curvas no lineales


(exponenciales, parablicas, etc.) y calculan el valor de r2 para
medir la fuerza de esa relacin.
Fitted Line Plot
Tiempo = - 1550 + 95,80 Edad
- 1,193 Edad**2
S 38,3533
450 R-Sq 37,1%
R-Sq(adj) 35,0%

400
Tiempo

350

300

250
30 32 34 36 38 40 42 44 46 48
Edad

Regresin mltiple

La regresin mltiple expresa el valor de la variable dependiente


Y, como funcin de las variables independientes X1, X2, ...,Xk

La ms simple es la regresin lineal y el modelo al que se


debieran ajustar los datos es:

Yi = + 1 X 1i + 2 X 2i + ... + + k X ki + i

Regresin 11
Implantacin de programas de mejora Seis Sigma

Regresin mltiple

Comprobar si el rendimiento de un proceso qumico depende,


adems de la temperatura de la presin a la que se realiza.

Regresin mltiple lineal: Interpretacin de


resultados

Regression Analysis: Rendi versus


Presion; Temperatura

The regression equation is


Rendi = 48,9 + 1,84 Presion + 0,208 Temperatura

Predictor Coef SE Coef T P


Constant 48,941 2,709 18,07 0,000
Presion 1,8437 0,4699 3,92 0,001
Temperat 0,20807 0,01562 13,32 0,000

S = 0,7947 R-Sq = 90,8% R-Sq(adj) = 89,9%

Desviacin tipo de los residuos Pruebas de significacin


y 2s para los coeficientes

Media de calidad del ajuste

Regresin 12
Implantacin de programas de mejora Seis Sigma

Regresin mltiple lineal: Interpretacin de


resultados

Coeficiente de correlacin mltiple

R 2 = r2 = 1
(y i y i ) 2

(y i yi ) 2

El r2 proporciona, al igual que en el caso simple, una


medida de la fuerza de la relacin entre Y y sus
predicciones, a partir del modelo de regresin propuesto
(plano de regresin)
Se pueden definir tambin, coeficientes de correlacin
parciales, rYXi , miden la relacin entre Y y Xi eliminando los
efectos del resto de Xj

Regresin mltiple lineal: Inferencias

Al igual que en el caso simple, pueden calcularse intervalos de


confianza para los coeficientes del plano

Tambin al igual que en el caso simple, ser necesaria la


comprobacin de la adecuidad del modelo con el anlisis y
estudio de sus residuos: stos deben de ser normales, centrados
en 0 y con variabilidad constante.

Regresin 13
Implantacin de programas de mejora Seis Sigma

Ejemplo prctico con MINITAB

Deducir una ecuacin que relacione el tiempo marcado por una


atleta (en minutos) en una carrera de triatln con los siguientes
posibles factores:

Edad del deportista


Peso del deportista
Experiencia en la prctica del triatln, en aos
Kilmetros en carrera en entrenamientos
Kilmetros en bicicleta en entrenamientos
Kilmetros nadadndo en entrenamientos
Consumo de oxgeno corriendo
Consumo de oxgeno en bicicleta
Cosumo de oxgeno nadando

Ejemplo prctico con MINITAB

Regresin 14
Implantacin de programas de mejora Seis Sigma

Ejemplo prctico con MINITAB


Para la Regresin Simple: Stat/Regression/Fitted Line Plot

Residual Plots for Tiempo


Fitted Line Plot
Tiempo = 205,2 + 3,585 Edad Normal Probability Plot of the Residuals Residuals Versus the Fitted Values
99,9
S 44,7224 99
100
R-Sq 13,0%
450 90 50
R-Sq(adj) 11,7%
Residual
Percent

50 0
10
-50
1
400
0,1 -100
-100 0 100 320 340 360 380
Tiempo

Residual Fitted Value

Histogram of the Residuals Residuals Versus the Order of the Data


350
16 100

12 50
Frequency

Residual

300 8 0

4 -50

30 32 34 36 38 40 42 44 46 48 0 -100
Edad -80 -40 0 40 80 1 5 10 15 20 25 30 35 40 45 50 55 60 65
Residual Observation Order

Residual Plots for Tiempo


Fitted Line Plot
Tiempo = - 1550 + 95,80 Edad Normal Probability Plot of the Residuals Residuals Versus the Fitted Values
- 1,193 Edad**2 99,9
100
99

S 38,3533 90
50
Residual
Percent

450 R-Sq 37,1%


R-Sq(adj) 35,0% 50

10 0

1
400 -50
0,1
-100 -50 0 50 100 280 300 320 340 360
Tiempo

Residual Fitted Value

350 Histogram of the Residuals Residuals Versus the Order of the Data
16
100

12
300
Frequency

50
Residual

8
0
4
250
30 32 34 36 38 40 42 44 46 48 0 -50
Edad -40 -20 0 20 40 60 80 100 1 5 10 15 20 25 30 35 40 45 50 55 60 65
Residual Observation Order

Regresin 15
Implantacin de programas de mejora Seis Sigma

Ejemplo prctico con MINITAB

Lo ms habitual en la prctica es querer establecer una relacin


entre una variable respuesta (Y) y varias explicativas (Xs)

Para la Regresin Mltiple, existen varias opciones:


Stat/Regression/Regression
Stat/Regression/Best Subsets
Stat/Regression/Stepwise

Ejemplo prctico con MINITAB


Ejemplo con la opcin Stat/Regression/Regression
Regression Analysis: Tiempo versus Edad; Peso; ...

The regression equation is


Tiempo = 486 + 3,41 Edad + 0,347 Peso - 21,4 Experiencia + 0,702 EnCarrera
- 0,173 EnBici - 1,37 EnNatacion - 3,36 COCarrera - 1,38 COBici
+ 0,893 CONatacion

Predictor Coef SE Coef T P


Constant 486,3 114,5 4,25 0,000
Edad 3,410 1,091 3,13 0,003
Peso 0,3470 0,7862 0,44 0,661
Experien -21,424 3,697 -5,80 0,000
EnCarrer 0,7025 0,2771 2,54 0,014
EnBici -0,17251 0,06920 -2,49 0,016
EnNataci -1,3727 0,9566 -1,43 0,157 Cuidado!!
COCarrer -3,3550 0,8338 -4,02 0,000
COBici -1,3845 0,9098 -1,52 0,134
CONataci 0,8934 0,9217 0,97 0,337

S = 22,70 R-Sq = 80,4% R-Sq(adj) = 77,2%


Bondad del ajuste
Analysis of Variance

Source DF SS MS F P
Regression 9 116566 12952 25,14 0,000
Residual Error 55 28339 515 Linealidad significativa
Total 64 144905

Unusual Observations
Obs Edad Tiempo Fit SE Fit Residual St Resid
19 36,0 408,00 359,05 10,03 48,95 2,40R
32 37,0 407,00 364,39 10,96 42,61 2,14R
36 37,0 325,00 367,72 8,39 -42,72 -2,03R

R denotes an observation with a large standardized residual

Regresin 16
Implantacin de programas de mejora Seis Sigma

Ejemplo prctico con MINITAB

Realizar un anlisis de regresin multivariante tiene el siguiente


inconveniente: si dos variables X estn muy relacionadas entre s
y aportan mucho a la hora de conocer Y, una de ellas tendr un p-
valor grande y la otra no. Pero, de eliminar una cul
eliminaramos? Una la conozco, pero no s con cual est
correlacionada....

Posibilidades:
Representar grficamente las relaciones: Grfico matriz
Calcular los coeficientes de correlacin entre las variables

Ejemplo prctico con MINITAB

Regresin 17
Implantacin de programas de mejora Seis Sigma

Ejemplo prctico con MINITAB

Matrix Plot of Tiempo; Edad; Peso; Experiencia; EnCarrera; EnBici; ...


32 40 4860 70 80
0,0 2,5 5,0 30 60 90 150 300 4500 10 20 50 60 70 50 60 70
40 50 60

420

Tiempo 360
300
48

40
Edad
32
80

70
Peso
60
5,0

Experiencia 2,5

0,0
90

60
EnCarrera
30
450

300
EnBici
150

20

10
EnNatacin
0
70

60
CoCarrera
50
70

60
CoBici
50

CoNatacin

Ejemplo prctico con MINITAB

Regresin 18
Implantacin de programas de mejora Seis Sigma

Ejemplo prctico con MINITAB

Correlations: Tiempo; Edad; Peso; Experiencia; EnCarrera; EnBici; EnNatacin; Co

Tiempo Edad Peso Experien EnCarrer EnBici EnNataci CoCarrer CoBici


Edad 0,361
Peso 0,249 0,342
Experien -0,436 0,414 0,254
EnCarrer -0,469 -0,288 -0,090 0,349
EnBici -0,492 -0,356 -0,091 0,137 0,792
EnNataci -0,430 -0,419 0,132 -0,005 0,479 0,691
CoCarrer -0,695 -0,306 -0,506 0,183 0,255 0,147 0,160
CoBici -0,647 -0,441 -0,474 0,146 0,376 0,323 0,090 0,695
CoNataci -0,596 -0,635 -0,340 0,134 0,478 0,415 0,380 0,548 0,652

Ejemplo prctico con MINITAB

Cuando existen muchas variables X que pueden influir en la


respuesta Y, estas opciones pueden resultar complicadas de
interpretar.

Cmo resuelve este problema MINITAB?


Stepwise:crea un modelo paso a paso, eligiendo primero la variable X
que mejor explica la Y, aadiendo despus una a una, otras X que
junto con las anteriores aporten informacin. Para, cuando no
encuentra ninguna ms de las que quedan fuera que aada
informacin
Best Subsets: Crea subconjuntos de n variables X que mejor explican
Y

Regresin 19
Implantacin de programas de mejora Seis Sigma

Ejemplo prctico con MINITAB

Step 1 2 3 4 5
Constant 687,9 709,7 704,1 532,8 516,1

CoCarrer -5,68 -5,20 -4,82 -3,96 -4,09


T-Value -7,67 -8,24 -8,37 -6,81 -7,45
P-Value 0,000 0,000 0,000 0,000 0,000

EnBici -0,203 -0,187 -0,128 -0,242


T-Value -5,15 -5,24 -3,51 -4,69
P-Value 0,000 0,000 0,001 0,000

Experien -10,7 -16,9 -20,8


T-Value -3,94 -5,56 -6,61
P-Value 0,000 0,000 0,000

Edad 3,03 3,53


T-Value 3,56 4,32
P-Value 0,001 0,000

EnCarrer 0,80
T-Value 2,96
P-Value 0,004

S 34,5 29,1 26,2 24,0 22,6


R-Sq 48,31 63,82 71,15 76,17 79,25
R-Sq(adj) 47,49 62,65 69,73 74,59 77,50
C-p 84,4 42,8 24,1 12,0 5,3

Regresin 20
Implantacin de programas de mejora Seis Sigma

Ejemplo prctico con MINITAB

Response is Tiempo
E E E C C
x n n o o
p C E N C C N
e a n a a o a
E P r r B t r B t
d e i r i a r i a
a s e e c c e c c
Vars R-Sq R-Sq(adj) C-p S d o n r i i r i i

1 48,3 47,5 84,4 34,482 X


1 41,8 40,9 102,6 36,578 X
2 63,8 62,6 42,8 29,081 X X
2 58,8 57,4 57,0 31,050 X X
3 71,3 69,9 23,8 26,117 X X X
3 71,2 69,7 24,1 26,177 X X X
4 76,2 74,6 12,0 23,987 X X X X
4 75,1 73,5 14,9 24,500 X X X X
5 79,3 77,5 5,3 22,573 X X X X X
5 76,9 75,0 11,9 23,801 X X X X X
6 79,5 77,4 6,7 22,631 X X X X X X
6 79,5 77,3 6,8 22,651 X X X X X X
7 80,1 77,6 7,0 22,506 X X X X X X X
7 79,7 77,2 8,1 22,721 X X X X X X X
8 80,4 77,6 8,2 22,535 X X X X X X X X
8 80,1 77,3 8,9 22,687 X X X X X X X X
9 80,4 77,2 10,0 22,699 X X X X X X X X X

Regresin 21
Implantacin de programas de mejora Seis Sigma

Ejemplo prctico con MINITAB

Regresin-Stepwise: crea un modelo paso a paso, eligiendo


primero la variable X que mejor explica la Y, aadiendo despus
una a una, otras X que junto con las anteriores aporten
informacin. Para cuando no encuentra ninguna ms, de las que
quedan fuera que aada informacin

Inconveniente:
el modelo es muy dependiente de la primera elegida (la que ms
informacin aporta por si sola, pero puede no ser la mejor para
trabajar con ella)

Ejemplo prctico con MINITAB


Regresin Best Subsets: Crea subconjuntos de n variables X que
mejor explican Y

Inconvenientes:
No dice cual es la mejor opcin, luego hay que decidirse.
Su lista se basa en el valor R2, luego habr que comprobar si las variables
del modelo son significativas

Regresin 22
Implantacin de programas de mejora Seis Sigma

Ejemplo prctico con MINITAB


Si elegimos el modelo con 5 variables (R2=77,5%) y hacemos
regresin multivariante:
The regression equation is
Tiempo = 516 + 3,53 Edad - 20,8 Experiencia + 0,796 EnCarrera - 0,242 EnBici
- 4,09 CoCarrera

Predictor Coef SE Coef T P


Constant 516,10 54,51 9,47 0,000
Edad 3,5335 0,8188 4,32 0,000
Experien -20,752 3,141 -6,61 0,000
EnCarrer 0,7958 0,2689 2,96 0,004
EnBici -0,24185 0,05154 -4,69 0,000
CoCarrer -4,0886 0,5490 -7,45 0,000
S = 22,57 R-Sq = 79,3% R-Sq(adj) = 77,5%

Analysis of Variance
Source DF SS MS F P
Regression 5 114844 22969 45,08 0,000
Residual Error 59 30062 510
Total 64 144905

Ejemplo prctico con MINITAB


Qu pasara con el de 6 variables aadiendo Ennatacin?

The regression equation is


Tiempo = 521 + 3,39 Edad - 20,6 Experiencia + 0,758 EnCarrera - 0,215 EnBici
- 4,07 CoCarrera - 0,582 EnNatacin

Predictor Coef SE Coef T P


Constant 520,92 55,06 9,46 0,000
Edad 3,3875 0,8434 4,02 0,000
Experien -20,612 3,157 -6,53 0,000
EnCarrer 0,7583 0,2742 2,77 0,008
EnBici -0,21535 0,06217 -3,46 0,001
CoCarrer -4,0746 0,5512 -7,39 0,000
EnNataci -0,5823 0,7581 -0,77 0,446

S = 22,65 R-Sq = 79,5% R-Sq(adj) = 77,3%

Regresin 23
Implantacin de programas de mejora Seis Sigma

Ejemplo prctico con MINITAB


Y qu pasara con el de 4 variables quitando Encarrera?
The regression equation is
Tiempo = 533 + 3,03 Edad - 16,9 Experiencia - 0,128 EnBici - 3,96
CoCarrera

Predictor Coef SE Coef T P


Constant 532,77 57,62 9,25 0,000
Edad 3,0256 0,8508 3,56 0,001
Experien -16,867 3,033 -5,56 0,000
EnBici -0,12825 0,03655 -3,51 0,001
CoCarrer -3,9574 0,5815 -6,81 0,000

S = 23,99 R-Sq = 76,2% R-Sq(adj) = 74,6%

Analysis of Variance

Source DF SS MS F P
Regression 4 110381 27595 47,96 0,000
Residual Error 60 34524 575
Total 64 144905

Ejemplo prctico con MINITAB


Antes de dar por vlido el estudio y con las opciones elegidas se
debern analizar los residuos:

Regresin 24
Implantacin de programas de mejora Seis Sigma

Ejemplo prctico con MINITAB

Residual Plots for Tiempo


Normal Probability Plot of the Residuals Residuals Versus the Fitted Values
99,9
99 50
90 25

Residual
Percent

50 0

10 -25
1
-50
0,1
-80 -40 0 40 80 250 300 350 400 450
Residual Fitted Value

Histogram of the Residuals Residuals Versus the Order of the Data

12 50

25
Frequency

9
Residual

6 0

-25
3
-50
0
-40 -20 0 20 40 60 1 5 10 15 20 25 30 35 40 45 50 55 60 65
Residual Observation Order

Regresin 25

Vous aimerez peut-être aussi