Vous êtes sur la page 1sur 33

ANLISIS DE REGRESIN

PROGRAMA DE INGENIERA INDUSTRIAL 2013-2

ESTADSTICA III

Anlisis de regresin En muchas investigaciones existen dos o ms variables que estn relacionadas y puede resultar importante modelar y explorar sta relacin. Ejemplo: 1. El rendimiento del producto de una reaccin qumica asociado con la temperatura. Es posible estar interesado en construir un modelo y usarlo para predecir, optimizar o controlar el proceso. REGRESIN LINEAL SIMPLE En el anlisis de regresin simple se desea determinar la relacin entre una sola variable de regresin (x), y la variable respuesta (y). Usualmente se supone que la variable x es continua y controlable por el experimentador. Se supone que cada observacin puede describirse mediante el modelo: I. = + 1 + ; = 1,2,3, ,

Regresin lineal simple

Para estimar los parmetros del modelo se utiliza la funcin de mnimos cuadrados obtenida de la anterior ecuacin:
L=
2 =1

=1

+ 1

Corrigiendo la variable de regresin mediante su promedio, quedando as: = + 1 + 1 1 + = + 1 + 1 ( ) +

Y= + 1 ( ) + Empleando el modelo transformado la funcin de mnimos cuadrados es: =


=1

ESTIMADORES DE MNIMOS CUADRADOS

Los estimadores de mnimos cuadrados de los parmetros se obtienen derivando parcialmente respecto a 1 , :
=1 ( ) 2 =1

1 =

Entonces el modelo ajustado de regresin lineal simple es:

= + 1 ( )
En trminos de la ecuacin original es: = + 1 . ; = . + 1 . El trmino del denominador en 1 : = =
=1 2
=1 2

2 =1

=1

=1

=1

=1

; entonces 1 =

Diagrama de dispersin Impurezas vs Rapidez 20 18


Impurezas

16 14 12 10 8 20 24 28 32 Rapidez 36 40 44

Simple Regression - Impurezas vs. Rapidez Dependent variable: Impurezas Independent variable: Rapidez Linear model: Y = a + b*X

Coefficients Parameter Intercept Slope

Least Squares Estimate -0,289277 0,456643

Standard Error 1,22079 0,0384385

T Statistic -0,236959 11,8798

P-Value 0,8175 0

Analysis of Variance Source Sum of Squares Df Model 119,275 Residual 8,45142 Total (Corr.) 127,727

Mean Square F-Ratio P-Value 1 119,275 141,13 10 0,845142 11

Ejemplo: Se realiz un estudio para determinar el efecto que tiene la rapidez de mezclado sobre la cantidad de impureza en una pintura producida mediante un proceso qumico.
Rapidez 20 22 9,5 24 26 28 30 32 34 36 38 40 42

Impurezas 8,4

11,8 10,4 13,3 14,8 13,2 14,7 16,4 16,5 18,9 18,5

Aplicando las ecuaciones anteriores obtienes en Excel los mismos resultados que en Statgraphics.

Rapidez Xi 20 22 24 26 28 30 32 34 36 38 40 42

Impurezas Yi 8,4 9,5 11,8 10,4 13,3 14,8 13,2 14,7 16,4 16,5 18,9 18,5 xiyi 168 209 283,2 270,4 372,4 444 422,4 499,8 590,4 627 756 777 5419,6 xi2 400 484 576 676 784 900 1024 1156 1296 1444 1600 1764 12104 yi2 70,56 90,25 139,24 108,16 176,89 219,04 174,24 216,09 268,96 272,25 357,21 342,25

Imp estim Yiest 8,84 9,76 10,67 11,58 12,50 13,41 14,32 15,24 16,15 17,06 17,98 18,89

Residuo Yi-Yiest -0,44 -0,26 1,13 -1,18 0,80 1,39 -1,12 -0,54 0,25 -0,56 0,92 -0,39

Cuad del res (Yi-Yiest)2 0,196765878 0,065981683 1,276549724 1,4005326 0,645247513 1,93206386 1,261800643 0,287923462 0,062564517 0,317145807 0,852957532 0,151888693 8,451421913

372 beta1 beta0 xbarra ybarra 0,456643 -0,289277 31 13,8666667

166,4 0,45664336 -0,28927739

Var est

0,84514219

Propiedades de los estimadores

Propiedades

1. =
4. =

. =

. =

Por lo general es necesario estimar . usando los residuos.

PRUEBAS DE HIPTESIS EN REGRESIN LINEAL SIMPLE


Inicialmente se suponen dos situaciones: 1. Qu el trmino del error ~ (, ) 2. Que el investigador desea probar las hiptesis de que la pendiente es igual a un cierto valor. Ho : = :

REGRESIN LINEAL MLTIPLE En general la variable respuesta puede estar relacionada con k variables regresoras, obteniendo el modelo: = + . + . + + . + . A este modelo se le llama modelo de regresin lineal mltiple. El mtodo de mnimos cuadrados se igualmente para estimar los coeficientes de regresin. Considrese a , , tabla.
y y1 y2 . . . yn Datos para regresin mltiple x1 x2 ... xk x11 x21 ... xk1 x12 x22 ... xk2 . . . . . . . . . x1n x2n ... xnk

En los trminos de los datos el modelo est dado por: = +


=

+ ; = , , ,

Al igual que en el caso de la regresin lineal simple, la ordenada en el origen se redefine como: = + + + . . . + , = regresin.
= ,

de

Funcin de mnimos cuadrados

La funcin de mnimos cuadrados est dada por: L=


=1

=1 (

Para la estimacin de los parmetros es conveniente definir la suma de cuadrados corregida de la i-sima variable de regresin :
2

=
=1

=
=1

2 =1

Y definir tambin la suma corregida de los productos cruzados :


= =
=1


=1 =1

=1

=1

; = 1,2, ,

=
=1

=
=1

=1

Estimadores de mnimos cuadrados

Los estimadores de mnimos cuadrados para , 1 , 2 , , deben satisfacer:

=
=1

1 1 + 2 2 + + = ; = 1,2, . , Ntese que hay k+1 ecuaciones normales y la solucin de estas ecuaciones sern los estimadores de mnimos cuadrados para los parmetros. Es ms sencillo resolverlas si se utiliza notacin matricial. El modelo expresado matricialmente es: y = . + , :
y1 y2 . . . yn 1 1 . . . 1 11 12 . . . 1 21 22 . . . 2 ... ... 1 2

y =

X=

...

1 . . .

1 2
=

El mtodo de mnimos cuadrados consiste en elegir los de modo que la su ma de cuadrados de los errores . Derivando parcialmente la sumatoria: 2 2 L= = =1 =1 =1 , : normales: + 1 . . .
=1 1 =1 1

+ 2

=1 2

+ +
=1 1 2

=1

+ 1 . . .

2 =1 1

+ 2 . . .

+ +

=1 =1 1

=1 1

. . .
=1 2

. . .

=1

+ 1

=1 1

+ 2

+ +

2 =1.

=1

Pero L puede expresarse como:


=

= . =

= +

Puesto que 1 x k y es un vector de orden nx1 Entonces que es igual a Por lo tanto L= + Derivando respecto a : = Donde =

AJUSTE DE MODELO DE REGRESIN

El modelo de regresin ajustado es: = La varianza 2 : 2 =


; p es el nmero 2 = = =1

de parmetros a estimar p= k+1.


2 =1

= .

Ejemplo: En la siguiente tabla se muestran 16 observaciones de la viscosidad de un polmero(y) y dos variables del proceso, la temperatura de reaccin (x1) y la velocidad de alimentacin del catalizador (x2).
Observ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Te mp(x1, c)

Datos viscosidad Veloc (x2) 80 8 93 9 100 10 82 12 90 11 99 8 81 8 96 10 94 12 93 11 97 13 95 11 100 8 85 12 86 9 87 12

Viscoc 2256 2340 2426 2293 2330 2368 2250 2409 2364 2379 2440 2364 2404 2317 2309 2328

Ejemplo

La estimacin de los parmetros obtenidos en Excel son:


1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 80 93 100 82 90 99 81 96 94 93 97 95 100 85 86 87 8 9 10 12 11 8 8 10 12 11 13 11 8 12 9 12 2256 2340 2426 2293 2330 2368 2250 2409 2364 2379 2440 2364 2404 2317 2309 2328

X=

y=

X' =

1 80 8

1 93 9

1 100 10

1 82 12

1 90 11

1 99 8

1 81 8

1 96 10

1 94 12

1 93 11

1 97 13

1 95 11

1 1 100 85 8 12

1 86 9

1 87 12

inv(X'X)=

14,18 -0,13 -0,2235 -0,13 0 -5E-05 -0,22 -0 0,02222

X'X =

16 1458 164 1458 133560 14946 164 14946 1726

37577 X'y = 3429550 385562

1566 = 7,621 8,585

Resultados en Statgraphics

En Statgraphics se obtienen los mismos resultados:


Parametros Estimacin CONSTANTE 1566,08 Temperatura 7,62129 Veloc 8,58485 Anlisis de varianza F Variac SS Model 44157,1 Residual 3478,85 Total (Corr.) 47635,9 Error Estndar 61,5918 0,61843 2,43868 T Statistic 25,4267 12,3236 3,52028 P-Valor 0 0 0,0038

g.l 2 13 15

CME 22078,5 267,604

F 82,5

P-Valor 0

R-squared = 92,697 percent R-squared (adjusted for d.f.) = 91,5735 percent

Prueba de hiptesis en regresin mltiple En regresin lineal mltiple ciertas pruebas de hiptesis acerca de los parmetros son una ayuda importante para medir la utilidad del modelo. Para estos procedimientos se requiere que 0, 2 . Como resultado de este supuesto se tiene que = +
=1

Y varianza igual a: = 2 La prueba de significacin de la regresin es el procedimiento para determinar si existe una relacin lineal entre la variable respuesta y un subconjunto de las variables regresoras 1 , 2 , , . : Ho: 1 = 2 , = = 0 H1: 0, . El rechazo de Ho, significa que al menos una de las variables regresoras, 1 , , , . Siguiendo con el enfoque del anlisis de varianza es claro que: = +
=1

=1

=1

SST = SSR + SSE

Observaciones generales

La SSE toma en cuenta la variacin de los datos con respecto a la recta de regresin estimada. Si todos los datos se encuentran sobre la recta estimada, el valor de todos los residuos es cero, es decir SSE= 0. Entre ms grande es el valor de SSE, mayor es la contribucin de la componente del error a la variacin de las observaciones o mayor es la incertidumbre cuando se estima la respuesta mediante el uso de la ecuacin de regresin. La SSR representa la variacin de la observacin que es atribuible al efecto lineal de x sobre Y. El modelo lineal especificado anteriormente, la nica restriccin que impone es que sea lineal en los parmetros desconocidos. Una ecuacin especificada por: = + . + . + + . + ,
se denomina modelo de primer orden. Si hay dos variables que interactan el modelo es de la forma: = + . + . + + + . + , = Para este caso el significado de , , con respecto a , representa el efecto sobre la respuesta media por unidad de cambio en , .

Otro caso es cuando el modelo es de la forma:


= + 1 . + 2 . 2 + + . + ; j= 1,2, ,n Este modelo es conocido como modelo curvilineal o polinomial. El modelo general expresado matricialmente como: Y = . + , bajo el caso de la teora normal se cumple que: ~ , 2 ~ , 2 , = = 2 Para la estimacin de los parmetros por mnimos cuadrados se utiliza la expresin: = ; = Cada una distribucin normal, tal que = , = +1 2 , j=0, 1, 2,,k, donde +1 + 1 1 Un estimador no sesgado de la varianza del error es: 2 = , donde n es el nmero de observaciones y m es el nmero de parmetros a estimar. Una estimacin de ( ) es: 2 = +1 2 La hiptesis apropiada para probar Ho es: Ho: 1 = 2 = = = 0 1: 0 = 1,2, , .

Modelo lineal general

Un estimador no sesgado de la varianza del error es: = numerador es la suma de cuadrados de los residuos y el denominador es el nmero de observaciones menos el nmero de parmetros. TABLA ANOVA La tabla anova para el modelo lineal general es:
N g. l. Fuente de variac Regresin Error Total k=m-1 n-m n-1
2

, el

Suma de Cuadrados

Cuadrados medios SCR/(m-1) SSE/(n-m)

Estadstica F
( 1) ( )

Para este modelo la nocin del coeficiente de determinacin se extiende para dar origen a lo que se conoce como coeficiente de correlacin mltiple o coeficiente de determinacin mltiple. Este coeficiente se define como: 2 = = 1 , observaciones con respecto a su media atribuible a la ecuacin de regresin estimada.

Principio de la suma de cuadrados extra

2 , es una medida relativa de que tanto las variables de prediccin incluidas en el modelo explican la variacin de las observaciones. Entre ms cercano a 1 es el valor de 2 mayor es la cantidad de la variacin total que puede explicarse por medio de los trminos que aparecen en el modelo. Algo importante a tener en cuenta es que por s mismo un R cuad no puede validar el modelo propuesto, ni tener un valor de R cuad cercano a 1, necesariamente implica que la ecuacin de regresin estimada sea apropiada para realizar una prediccin. PRINCIPIO DE LA SUMA DE CUADRADOS EXTRAS La inclusin de una variable de prediccin en un modelo de regresin no implica que tenga un efecto substancial sobre la variable respuesta. Cuando un investigador identifica un conjunto de variables de prediccin, queda por comprobar si algunas realmente lo hacen. El procedimiento apropiado para encontrar los efectos individuales de las variables de prediccin se basa en el principio de la suma de cuadrados extra. Este principio permite determinar la reduccin en la suma de los cuadrados de los errores cuando se introduce un coeficiente adicional de regresin. Cabe sealar que a pesar de que la SSE siempre disminuye conforme se aaden ms trminos al modelo, el incremento de la SCR tiene un lmite conforme se suman ms trminos al modelo.

Principio de la suma de cuadrados extra

Una estrategia lgica en regresin lineal mltiple es la de aadir no cualesquiera trminos al modelo, sino slo aquellos que incrementen en forma significativa la SCR, disminuyendo de esta manera significativamente la SSE. Recuerda que SSE = SST SSR Para ilustrar el principio de la suma de cuadrados extra se emplearn los siguientes datos:
Obs 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 Y 6,9 14,4 7,4 8,5 8 2,8 5 12,2 10 15,2 26,8 14 14,7 6,4 17,6 22,3 24,8 26 34,9 18,2 23,2 18 13,1 16,1 32,1 34,7 31,7 33,6 30,4 26,6 27,8 45,7 x1 38,4 40,3 40 31,8 40,8 41,3 38,1 50,8 32,2 38,4 40,3 32,2 31,8 41,3 38,1 50,8 32,2 38,4 40,3 40 32,2 31,8 40,8 41,3 38,1 50,8 32,2 38,4 40 40,8 41,3 50,8 x2 6,1 4,8 6,1 0,2 3,5 1,8 1,2 8,6 5,2 6,1 4,8 2,4 0,2 1,8 1,2 8,6 5,2 6,1 4,8 6,1 2,4 0,2 3,5 1,8 1,2 8,6 5,2 6,1 6,1 3,5 1,8 8,6 x3 220 231 217 316 210 267 274 190 236 220 231 284 316 267 274 190 236 220 231 217 284 316 210 267 274 190 236 220 217 210 267 190 x4 235 307 212 365 218 235 285 205 267 300 367 351 379 275 365 275 360 365 395 272 424 428 273 358 444 345 402 410 340 347 416 407

Ejemplo

Se tiene el propsito de desarrollar una ecuacin de regresin para estimar la produccin de gasolina como una funcin de las propiedades de destilacin de cierto tipo de petrleo crudo. X1: la gravedad del petrleo x2: la presin del vapor del petrleo crudo X3: punto del 10% ASTM para el petrleo crudo(F) x4: punto ASTM final para la gasolina(F).
Multiple Regression - Cant gasol Dependent variable: Cant gasol Independent variables: Gravedad Presin ASTM astmgasol Parameter CONSTANT Gravedad Presin ASTM astmgasol Source Model Residual Total (Corr.) Estimate -6,82077 0,227246 0,553726 -0,149536 0,15465 SS 3429,27 134,804 3564,08 ErrorStandard 10,1232 0,0999366 0,369752 0,0292292 0,00644584 T -0,67378 2,2739 1,49756 -5,11597 23,9922 P-Value 0,5062 0,0311 0,1458 0 0 F-Ratio 171,71 P-Value 0

Analysis of Variance gl CM 4 857,318 27 4,99274 31

R-squared = 96,2177 percent

Para ilustrar el principio de la suma de cuadrados extra se emplearn de estos datos solo las variables 2 3 ajustando todas las posibles regresiones de la produccin de gasolina. Existen tres ecuaciones de regresin, dos que toman en cuenta a 2 3 en forma individual y la tercera que contiene ambas variables.
ANOVA F variac Model Residual Total (Corr.) SS 525,738(x2) 3038,34 3564,08 gl 1 30 31 Mean Square 525,738 101,278 F-Ratio 5,19 P-Value 0,03 = 13.09 + 1.572

Source Model Residual Total (Corr.)

SS 353,7(x3) 3210,38 3564,08

gl 1 30 31 gl 2 29 31

Mean Square 353,7 107,013

F-Ratio 3,31

P-Value 0,0791

= 41.39 0.09 3

Source SS Model 547,49(x2,x3) Residual 3016,59 Total (Corr.) 3564,08

Mean Square 273,745 104,02

F-Ratio 2,63

P-Value 0,0891

= 2.52 + 2.26 2 + 0.053

En el anlisis es importante anotar que la suma total de cuadrados es la misma sin importar el nmero de variables regresoras que se incluyan en el modelo. Si suponemos que el modelo original es: = + ; 2 ,

Ejemplo Prater

2 = 525,74 es la reduccin en la suma de los cuadrados cuando se aade el trmino 2 2 , al modelo = + . La inclusin de este nuevo trmino en el modelo representa la suma extra de cuadrados en la que disminuye . Si la hiptesis nula se planteara en trminos de que: Ho: 2 = 0 Se rechazara porque el f observado es F= 5,19 > 0,95;1,30 = 4,17 Pero para Ho: 3 = 0, , F= 3,31< 4,17 Es importante anotar que la SSE cuando se incluyen en el modelo tanto a 2 , 3 es igual a 3016,59. Pero cuando solo est en el modelo 2 , = 3038,34. Lo anterior quiere decir que la diferencia entre SSE(2 ) E(2 , 3 ) la suma de cuadrados extras debido a la inclusin del trmino 3 3 . Esta diferencia se denota como: 3 2 = 2 2 , 3 = 3038,34 3016,59 = 21,75 Esta cantidad representa la reduccin adicional en la suma de cuadrados de los errores cuando se introduce 3 2 . Ahora puesto que una reduccin en la suma de los cuadrados de los errores significa un aumento en la suma de cuadrados de la regresin, entonces: (2 ,3 ) = (3 2 )+ (2 ) = 21,75 + 525,74 = 547,49 que es el mismo valor que coincide con el obtenido en Statgraphics.

Modelo lineal general

De la misma manera se puede generalizar el resultado anterior cuando se tienen 3 variables regresoras, escribiendo: 1 , 2 , 3 = (2 ) + 1 2 + 3 2 , 1 EL PROBLEMA DE LA MULTICOLINEALIDAD Es bastante frecuente obtener conclusiones erradas con un punto de vista casual para la aplicacin de anlisis de regresin, cuando no se tiene una completa apreciacin de los problemas en estudio. El enfoque en el anlisis de regresin no debe ser simplemente maximizar el coeficiente de correlacin mltiple, sin tomar en cuenta los coeficientes de regresin estimados y sus desviaciones estndar o la de comprobar las suposiciones fundamentales del anlisis de regresin. Un problema frecuente en regresin lineal mltiple es el que algunas de las variables de prediccin estn correlacionadas. Si existe una correlacin muy fuerte entre dos o ms variables, los resultados sern muy ambiguos respecto a los coeficientes de regresin estimados. Las correlaciones altas son indicios de lo que se denomina multicolinealidad. Esto surge con frecuencia cuando hay datos deficientes o cuando no es posible disear experimentos en forma estadstica recabando los datos en arreglos balanceados. La presencia de multicolinealidad no impide tener un buen ajuste, ni evita que la respuesta sea en forma adecuada predicha dentro del intervalo de observaciones; mas sin embargo si afecta en forma severa las estimaciones de mnimos cuadrados. Si el coeficiente de correlacin simple entre dos variables es cero, entonces se dice que las variables son ortogonales, que es una de las principales razones en el diseo de experimentos la de adquirir factores o variables de este tipo.

Multicolinealidad

Para ilustrar los efectos de ortogonalidad se examinarn los datos que aparecen en la siguiente tabla, que consiste en la temperatura aparente Y, como una funcin de la temperatura del aire (x1) y de la humedad relativa (x2).
Y(F) 66 72 77 67 73 78 68 74 79 x1(F) 70 75 80 70 75 80 70 75 80 x2(%) 20 20 20 30 30 30 40 40 40

Multiple Regression - Tempa Dependent variable: Tempa Independent variables: Tempaire Humedad

Parameter Estimate Error Statistic P-Value CONSTANT -12,8333 1,80534 -7,10853 0,0004 Tempaire 1,1 0,02357 46,669 0 Humedad 0,1 0,01179 8,48528 0,0001 Anlisis de varianza Source SS Model 187,5 Residual 0,5 Total (Corr.) 188

Matriz de correlacin CONSTANT Tempaire Humedad CONSTANT Tempaire Humedad 1 -0,9792 -0,1958 -0,9792 1 0 -0,1958 0 1

gl 2 6 8

CM 93,75 0,0833333

F-Ratio 1125

P-Value 0

R-squared = 99,734 percent

Estos resultados indican que por cada grado que aumenta la temperatura del aire, la tempa aparente aumenta 1.1 grados y por cada incremento en porcentaje de la humedad relativa, la tempa aumenta 0.1 grados. Es evidente tambin que el coeficiente de correlacin entre las variables x1 y x2 es cero, por lo que se concluye que son variables ortogonales.

Mejor conjunto de variables de prediccin

DETERMINACIN DEL MEJOR CONJUNTO DE VARIABLES DE PREDICCIN Un problema esencial en el anlisis de regresin es determinar cules de las variables iniciales debern incluirse en el modelo de regresin: Un investigador decidir por aquellas que tengan la mayor probabilidad de contener los factores ms importantes para la respuesta dada. Para esto es necesario tener una manera de determinar de la lista inicial de variables aquellas que mejor describan el cambio en la respuesta promedio. Entonces si k es el nmero inicial de potenciales de variables de prediccin, al incluir el trmino constante, el nmero de trminos en el modelo lineal completo es m= k+1. Cuando se tienen k+1 trminos en un modelo, hay: 1. Una ecuacin que no contiene ninguna variable de prediccin = 2. Hay k ecuaciones cada una con una variable de prediccin = + 1 1 ; = + 2 2 ; ; = + 3. Hay k.(k-1)/2 ecuaciones cada una con dos variables de prediccin, etc. Cuando k es grande, se han desarrollado tcnicas para la seleccin de variables. De todas maneras si se sospecha de multicolinealidad la tcnica ms usual es el procedimiento de regresin por pasos, de las cuales hay dos: seleccin hacia adelante y eliminacin hacia atrs, (forward stepwise y back stepwise).

Stepwise

El procedimiento de seleccin hacia adelante comienza con una ecuacin que no contiene variables de prediccin. La primera variable que se incluye es aquella que produce la mayor reduccin en SSE, sta es la variable con el coeficiente de correlacin simple ms alto para la respuesta dada. Con base en una prueba de hiptesis, si el coeficiente de regresin es significativamente diferente de cero, la variable permanece en la ecuacin y se comienza la bsqueda de la segunda variable. El proceso contina hasta que la significancia estadstica no sea discernible para el coeficiente de la ltima variable que entr en la ecuacin de regresin. El procedimiento de seleccin hacia atrs comienza con la ecuacin de regresin que contiene a todas las variables de prediccin. Luego se van eliminando una a la vez las variables menos importantes con base en su contribucin a la reduccin en el valor de la SSE. Por ejemplo la primera variable por omitir ser aquella cuyo efecto sobre la reduccin en la SSE dada la presencia de las dems variables sea el ms pequeo.

CRITERIOS

Criterios de comparacin y evaluacin de las ecuaciones Para evaluar y comparar las ecuaciones de regresin es necesario tener criterios efectivos, dos de los ms tiles son: el cuadrado medio del error y el criterio Cp. Estudiaremos en particular el CME. Este valor se define como: =

= 2

Es importante recordar que la SSE no puede aumentar si se permiten ms variables en el modelo, no ocurre lo mismo con el CME. Vase por ejemplo en la diapositiva 24 la 2 = 3038,34 2 , 3 = 3016,59, 2 > 2 , 3 Pero el 2 = 101,28 < 104,02 = 2 , 3 . Entonces con este criterio puede determinarse el conjunto de variables de prediccin que minimice a CME, hasta el momento para el que la inclusin de ms variables ya no garantice la reduccin en el CME.

Criterio Cp

El criterio Cp Sabemos que la varianza residual 2 es un estimador no sesgado de la varianza del error 2 solo cuando se ha escogido la forma correcta para el modelo de regresin. De otra manera puede comprobarse que:
2

= +

2 =1

, donde p es el nmero de trminos

que aparecen en el modelo, incluido el trmino constante.


Y por otro lado = E , . Ahora para una ecuacin de regresin que contenga p trminos, se define = (n-p) 2 Luego = 2 = ( 2 + despejando obtenemos que
2 =1 =
2 =1

)= 2 +

2 =1 ;

Un estimador de es 2 2 , 2 = . 1 , 2 , , 2 . Por ltimo Cp =


2

2 . Esta ltima expresin se obtiene al utilizar la definicin del

cuadrado medio del error total estandarizado. Por ejemplo para obtener el valor de Cp para la regresin de Y sobre 2 3 , 2 , 3 = 3016,59 y CME(x1,x2,x3,x4) = 4,99. Entonces Cp=
3016,59 4,99

32 2 4

= 580,52

Ejemplo

En muchas agencias gubernamentales y compaas privadas el problema de identificar aquellos factores que son importantes para predecir la aptitud para el trabajo de los aspirantes para obtener un empleo constituye un proceso continuo. El procedimiento usual es el de aplicar al solicitante un conjunto de pruebas apropiadas y tomar la decisin de contratarlo o no con base en los resultados de stas. El asunto clave es conocer a priori qu pruebas pueden predecir la aptitud para el trabajo de una persona. Supngase que el personal de una compaa muy grande ha desarrollado cuatro pruebas para una determinada clasificacin con respecto al trabajo. Esta pruebas se aplicaron a 20 personas que fueron contratados por la empresa. Despus de un perodo de 2 aos cada uno de estos empleados se clasifica de acuerdo con su aptitud para el trabajo. La puntuacin para la aptitud hacia el trabajo Y y la correspondiente a cada una de las cuatro pruebas se registra en la siguiente tabla:
Empleado 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Y 94 71 82 76 111 64 109 104 80 73 127 88 99 80 99 116 100 96 126 58 x1 122 108 120 118 113 112 109 112 115 111 119 112 120 117 109 116 104 110 117 120 x2 121 115 115 117 102 96 129 119 101 95 118 110 89 108 125 122 83 101 120 77 x3 96 98 95 93 109 90 102 106 95 95 107 100 105 99 108 116 100 103 113 80 x4 89 78 90 95 109 88 108 105 88 84 110 87 97 100 95 102 102 103 108 74

Ejemplo

A) Ajustar la regresin lineal de Y sobre 1 , 2 , 3 4 B) Realizar una anlisis de varianza mostrando todas las posibles pruebas F parciales. C) Interprtense los coeficientes de regresin estimados y el coeficiente de correlacin mltiple. D) Calclese 2 1 ; 3 1 2