Vous êtes sur la page 1sur 29

Seleccin de Variables

MTODOS STEPWISE

WWW.UNCONEJONEGRO.BLOGSPOT.COM Trabajos Resueltos. Oracle, estadstica y ms. Anthony A. Alarcn Moreno

Anthony A. Alarcn Moreno

www.unconejonegro.blogspot.com

Contenido Seleccin de Variables - Mtodos Stepwise .................................2 1. Backward Elimination ...................................................................2 1.1 Conceptos previos .....................................................................2 1.2 Aplicacin .....................................................................................5 2.Fordward Selection ...................................................................... 15 3. Stepwise Selection ....................................................................... 23

www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadstica y ms.

Pgina

Anthony A. Alarcn Moreno

www.unconejonegro.blogspot.com

Seleccin de Variables - Mtodos Stepwise


Cuando, en un modelo de regresin lineal, disponemos de muchas variables explicativas, se hace necesario seleccionar un conjunto de ellas, pues generalmente un subconjunto de variables dan mejores predicciones que un modelo con todas las variables en caso que el nmero de variables predictoras sea grande (ms de 10). Para seleccionar la cantidad de variables, nos podemos plantear varios criterios, como reducir la varianza o aumentar el r cuadrado, as como generar todos los modelos posibles. Reduciendo la cantidad de variables regresoras lograremos tambin que nuestro modelo sea un modelo parsimonioso el modelo ms simple que explica suficientemente bien los datos-. En este trabajo vamos a ver, de manera prctica, los mtodos de seleccin STEPWISE, cuyos algoritmos son: Backward Elimination Forward Selection Stepwise Selection

1. Backward Elimination

1.1 Conceptos previos


Empezaremos explicando este mtodo, que empieza tomando todas las variables. Usar unos datos en el minitab pueden solicitarme la data, a mi correo o desde www.unconejonegro.blogspot.com-

El modelo estar dado por www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadstica y ms.

Pgina

Anthony A. Alarcn Moreno

www.unconejonegro.blogspot.com

Fijaremos un valor de entrada =0.05 y uno de salida =0.10. Esto nos servir para los tres algoritmos. La explicacin del valor de entrada y de salida es sencilla, se trata de cun grande quieres que sea el rea de tu regin de rechazo (donde estarn tus variables significativas); por ejemplo, en el caso del valor de entrada, nos da un 95% de confianza para afirmar que las variables son significativas y que explican el modelo, mientras que en el caso del valor de salida slo nos da un 90% de confianza. Mientras ms grande sean nuestros valores de salida, el nivel de confianza se reducir, anlogamente con el caso del valor de entrada. Sucede lo mismo con los valores F. Vamos a la grfica: Definimos

Para el caso que escojamos un valor de salida =0.10

www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadstica y ms.

Pgina

Anthony A. Alarcn Moreno Esta

www.unconejonegro.blogspot.com

Para el caso de usar los valores de F-IN o F-OUT, vamos a ver cmo es esto. Usualmente se escoge un F=4. En nuestro caso, tenemos 3 grados de libertad para el cuadrado medio de la regresin (CMR) y 70 grados de libertad para el cuadrado medio del error (CME). Calculamos el rea de la regin de aceptacin

Vemos que el rea de la regin de aceptacin para el F=4 ya sea OUT o IN- es 0.98907475 u2 www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadstica y ms.

Pgina

Anthony A. Alarcn Moreno Grficamente sera:

www.unconejonegro.blogspot.com

1.2 Aplicacin
Ahora, con estos conceptos, seguiremos el mtodo backward elimination. En el minitab, calcularemos el anova y la tabla de coeficientes para el modelo considerando todas las variables

www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadstica y ms.

Pgina

Anthony A. Alarcn Moreno

www.unconejonegro.blogspot.com

Clicamos en Resultados y seleccionamos la opcin:

www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadstica y ms.

Pgina

Anthony A. Alarcn Moreno

www.unconejonegro.blogspot.com

Clicamos en Aceptar y luego, en el panel principal, tambin le damos en Aceptar

Y tendremos los resultados:

www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadstica y ms.

Pgina

Anthony A. Alarcn Moreno

www.unconejonegro.blogspot.com

Donde vemos que la estadstica t asociada a la variable X3, cae en la regin de aceptacin. Esto nos indica que la variable X3 no es significativa. Tambin notamos que el p-valor es 55.9%, que evidentemente nos sugiere que cae en la regin de aceptacin tambin. Acordmonos que tenemos 3 grados de libertad para la regresin y 70, para el error; con esto calculamos =0.011 para F=4.

Se elimina X3 pues es la nica que cae en la regin de aceptacin. Si hubiese ms estadsticas t, escogeramos la ms pequea entre las que caen en la regin de aceptacin. Usando el p-valor, sera lo mismo.

www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadstica y ms.

Pgina

Anthony A. Alarcn Moreno Vemos que cae en la regin de aceptacin, y es la nica. Ahora, como eliminamos X3, nuestro modelo quedara as:

www.unconejonegro.blogspot.com

En el paso 2, volveremos a hacer el mismo procedimiento, pero esta vez para el modelo reducido. Con el minitab hacemos:

Luego, seleccionamos solo las variables X1 y X2 como variables regresoras o independientes

Damos Aceptar www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadstica y ms.

Pgina

Anthony A. Alarcn Moreno

www.unconejonegro.blogspot.com

Y obtendremos:

www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadstica y ms.

Pgina

Vemos que los grados de libertad son, 2 para la regresin y 71 para el error, pues eliminamos una variable. Con estos datos calcularemos la estadstica t

10

Anthony A. Alarcn Moreno

www.unconejonegro.blogspot.com

Graficndolo sera

Entonces, como ya no hay variables que se puedan eliminar, pues X1 y X2 son significativas, ac se para el proceso y nos quedamos con el modelo

Veamos, en el minitab vamos a la opcin

www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadstica y ms.

Pgina

11

Minitab nos brinda una opcin para realizar este mtodo backward eliminationautomticamente. Hace todos los pasos necesarios hasta conseguir un modelo que no elimine las variables significativas.

Anthony A. Alarcn Moreno

www.unconejonegro.blogspot.com

En el panel que aparecer, seleccionaremos las variables predictoras y la variable respuesta que queremos que sean analizadas por el mtodo backward elimination

Luego, vamos a Mtodos y

www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadstica y ms.

Pgina

12

Anthony A. Alarcn Moreno

www.unconejonegro.blogspot.com

En este panel seleccionaremos la tercera opcin, Eliminacin hacia atrs. Activamos la opcin Usar valores alfa y fijamos el valor de salida en 0.10 Podramos usar los valores F, no hay problema en ello, pero esta vez, como ejemplo, usar las pruebas t aunque ustedes pueden usar cualquiera-.

Clicamos Aceptar y veremos: www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadstica y ms.

Pgina

13

Anthony A. Alarcn Moreno

www.unconejonegro.blogspot.com

Resumi todo el procedimiento anterior y nos dijo que slo us dos pasos y que el modelo, con un 90% de confianza, se reduce a

Bueno, en adelante, para los otros mtodos, las pruebas t y F son anlogas. Veamos.

www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadstica y ms.

Pgina

14

Anthony A. Alarcn Moreno

www.unconejonegro.blogspot.com

2.Fordward Selection
Este mtodo empieza como un modelo de regresin simple, donde el criterio para seleccionar la variable independiente de este modelo de regresin simple, es tomar aquella variable que tenga el mayor valor de la estadstica t, en valor absoluto aunque tambin podramos usar el valor F, pero se los dejo como tarea =) -. Segn esto, tendremos que calcular el modelo con todas sus variables para poder saber qu variable tiene la mayor estadstica t; nosotros ya lo calculamos en el mtodo backward elimination pgina 7-

De este grfico, vemos que la variable que presenta la mayor estadstica t, en valor absoluto, es X2. Entonces, empezaremos con el modelo de regresin simple

Ahora, calcularemos el Anova y la tabla de coeficientes

www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadstica y ms.

Pgina

15

Anthony A. Alarcn Moreno

www.unconejonegro.blogspot.com

Seleccionamos X2 como variable independiente de nuestro modelo lineal simple y luego clicamos en Resultados

Activamos la segunda opcin y clicamos Aceptar y tambin en el panel anterior. Y tenemos:

www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadstica y ms.

Pgina

16

Anthony A. Alarcn Moreno Fijamos un valor de entrada, un

www.unconejonegro.blogspot.com con un =0.05. Entonces nuestra estadstica ser: ( )

Con la regla de decisin ( ) | | Vemos que la variable X2 es significativa, por tanto seguimos con el siguiente paso de no haber sido significativa, se paraba y nos quedbamos con el modelo . De los resultados que obtuvimos en la tabla

Vemos que la variable que tiene la estadstica, en valor absoluto, ms alta despus de X2 es X1 (| | ). Entonces, incluiremos esta variable en el modelo. Nuestro modelo sera Con el matlab calcularemos el anova y la tabla de coeficientes

www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadstica y ms.

Pgina

17

Anthony A. Alarcn Moreno

www.unconejonegro.blogspot.com

En el panel que aparecer, seleccionamos, como predictores, las variables X1 y X2

Y obtendremos

www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadstica y ms.

Pgina

18

Anthony A. Alarcn Moreno Luego, calcularemos la estadstica ( )

www.unconejonegro.blogspot.com

Usamos la regla de decisin Regla de decisin | | | | Decisin Significativa Significativa

X1 X2

Como las 2 variables son significativas, seguimos agregando variables. Agregamos la ltima variable, X3. Entonces nuestro modelo sera Calculamos el anova y la tabla de coeficientes para este modelo:

As obtenemos el anova y la tabla de coeficientes

www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadstica y ms.

Pgina

19

Anthony A. Alarcn Moreno

www.unconejonegro.blogspot.com

Calculamos la estadstica de entrada

Usamos la regla de decisin Regla de Decisin X1 X2 X3 | | | | | | Decisin Significativa Significativa No significativa

Vemos que la variable X3 es no significativa as que esa variable no entra, y nos quedamos con el modelo:

Bueno, como en el caso anterior, minitab resume todo esto en un par de clics. Veamos.

www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadstica y ms.

Pgina

20

Anthony A. Alarcn Moreno

www.unconejonegro.blogspot.com

Vamos a Mtodos

Y nos saldr:

www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadstica y ms.

Pgina

21

Activamos la casilla Usar valores alfa y usamos 0.5 como el valor alfa de entrada. Le damos Aceptar y en el panel anterior, tambin.

Anthony A. Alarcn Moreno

www.unconejonegro.blogspot.com

Vemos los valores que nos sali anteriormente y que utiliz, como nosotros, dos pasos. Seleccion las variables X1 y X2 como variables independientes. En resumen obtuvimos el mismo modelo.

www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadstica y ms.

Pgina

22

Anthony A. Alarcn Moreno

www.unconejonegro.blogspot.com

3. Stepwise Selection
Este mtodo de seleccin de variables es la combinacin de los dos anteriores, pero partimos, como en el mtodo forward selection, desde un modelo de regresin simple, tomando como variable independiente aquella que tenga la estadstica t ms alta. Ya vimos en los mtodos anteriores que la variable X2 es la seleccionada para empezar el mtodo. Como dijimos al principio, tomaremos 0.1 como el valor de salida y 0.05 como el de entrada.

www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadstica y ms.

Pgina

23

Anthony A. Alarcn Moreno

www.unconejonegro.blogspot.com

El resultado de la anova y tabla de coeficientes para el modelo de regresin simple del paso 1, lo obtuvimos en el mtodo anterior (ver pg. 16)

Ahora, fijaremos

y ( )

Tenemos Regla de Decisin Primera Prueba Segunda Prueba | | | | Decisin Significativa

X2

www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadstica y ms.

Pgina

Si en algunas de las dos pruebas resultase no significativa, entonces la decisin es no significativa; es decir, se elimina la variable. Como la variable X2 pas, entonces incluiremos al modelo la variable X1-junto a X2-, que ya vimos que es la segunda que tiene la mayor estadstica t.

24

Anthony A. Alarcn Moreno

www.unconejonegro.blogspot.com

Veamos, ya hicimos el clculo del anova y de la tabla de coeficientes para este modelo, con X1 y X2 como variables independientes (Ver pg. 18)

Ahora, fijaremos

y ( )

Tenemos Regla de Decisin Primera Prueba | | X1 | | X2

Segunda Prueba | | | |

Decisin Significativa Significativa

En este caso, las dos variables pasan las pruebas, entonces el modelo quedara

www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadstica y ms.

Pgina

Le aadiremos la ltima variable, y haremos la misma prueba para las 3. Tenemos el anova y la tabla de coeficientes de los mtodos anteriores (Ver pg. 20)

25

Anthony A. Alarcn Moreno

www.unconejonegro.blogspot.com

Ahora, fijaremos

y ( )

Tenemos Regla de Decisin Primera Prueba Segunda Prueba | | | | | | | | | | | | Decisin Significativa Significativa No Significativa

X1 X2 X3

Vemos que la variable X3 no pasa con ninguna prueba aunque baste no pasar una prueba para eliminarla-, por tanto es no significativa, y la eliminamos. En conclusin, usando los tres mtodos de seleccin Stepwise llegamos al mismo resultado. El modelo sera: Como en los casos anteriores, todo esto lo hubisemos resuelto en un par de clics pues minitab nos permite ahorrarnos el trabajo. Veamos

www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadstica y ms.

Pgina

26

Anthony A. Alarcn Moreno

www.unconejonegro.blogspot.com

Seleccionamos todas las variables y clicamos en Mtodos

www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadstica y ms.

Pgina

27

Anthony A. Alarcn Moreno

www.unconejonegro.blogspot.com

Usaremos los valores alfa y seleccionamos la variable independiente escogida por tener el mayor valor de la estadstica t, en valor absoluto. Le damos en Aceptar, y en el panel anterior tambin. Nos quedar

Vemos que hizo los dos pasos que hicimos, y que seleccion X1 y X2 como variables predictoras. Obtuvo los mismos resultados-como tena que ser-. Y bueno, la conclusin es que el modelo, segn los mtodos de seleccin de Stepwise, ser: Acurdense que tambin pudimos usar los valores F, sera anlogo y quiz lo mismo si usas un F adecuado. Bueno, se los dejo como tarea. Hasta un prximo post, y no olviden de visitar la web, que est buensima. Recomindala!

www.unconejonegro.blogspot.com Trabajos Resueltos. Oracle, Estadstica y ms.

Pgina

28

Vous aimerez peut-être aussi