Vous êtes sur la page 1sur 31

ING.

EN GESTIN EMPRESARIAL Vale la pena destacar que a medida que x incrementa de 2 a 3 (un
incremento de una unidad), y incrementa de 9 a 11 (un incremento de dos
ESTADSTICA INFERENCIAL II unidades). Ese es el significado de la pendiente. Existen relaciones
1 REGRESIN LINEAL SIMPLE Y CORRELACIN negativas entre las variables como por ejemplo en la ecuacin:

1.1 Modelo de regresin simple y = 3 - 8x

El objetivo principal de muchas investigaciones estadsticas consiste donde la pendiente es -8, esto indica que por cada unidad que aumenta x,
en establecer relaciones que hagan posible predecir una o ms variables y disminuye en 8 unidades. Desafortunadamente en el mundo real no se
en trminos de otras variables conocidas. Por ejemplo, ventas futuras de puede determinar con exactitud el valor de la variable dependiente y
un nuevo producto en trminos de su precio, prdida de peso de una conociendo el valor de x, la variable dependiente presenta algn grado de
persona en trminos del nmero de semanas que llevar una dieta con aleatoriedad, por tanto, habr algn error en el intento por explicar o
determinado nmero de caloras, ingresos de una empresa en trminos de predecir esta variable. Se dice que un modelo de esta naturaleza es
los gastos efectuados en publicidad, etc. estocstico, por la presencia de la variacin aleatoria. Por tanto, el modelo
lineal que representa el modelo de regresin lineal simple es:
A la relacin entre dos variables se le puede asignar una expresin
en trminos de dos literales x e y, es decir, se designa a la variable que se
predecir con la letra y que se denomina variable dependiente, porque su donde y es la variable dependiente, o y 1 son parmetros de la ecuacin
valor est determinado por el de x. La variable x, se le llama variable
de regresin, o es el valor de y cuando x = 0, 1 indica la pendiente de la
independiente, ya que su valor no depende de ninguna otra variable.
recta de regresin, representa el error aleatorio de muestreo en cada
La ecuacin de una recta se expresa como: y = b + mx (en geometra ensayo u observacin.
analtica se acostumbra escribir: y = mx + b), donde m es la pendiente y b
es la ordenada al origen, es decir, el punto donde la recta corta al eje Para un conjunto de datos muestrales apareados, la ecuacin de
vertical de las y. Por ejemplo consideremos la ecuacin: regresin ajustada es:

y = 5 + 2x = bo + b1x

el punto de interseccin, la pendiente y la grfica se representan en la donde es el valor estimado (o valor calculado de y, tambin se escribe
siguiente figura: como yc) con base en el modelo de regresin, los parmetros o y 1 del
modelo de regresin lineal se estiman mediante los valores bo y b1, con
base en los datos muestrales. La grfica de la ecuacin de regresin se
denomina recta de regresin o recta de mnimos cuadrados. En
condiciones adecuadas, esta ecuacin resulta til para hacer predicciones.
Algunas de estas relaciones muestran diagramas de dispersin o
nube de puntos que representan las observaciones pareadas para x e y,
en la siguiente figura se muestran distintos casos de estos diagramas. La
figura a) sugiere una relacin lineal positiva, en b) una relacin lineal
negativa, en c) y d) indican relaciones no lineales. Finalmente en la grfica
e) no se puede observar ninguna relacin entre x e y los puntos sugieren
que no existe ninguna relacin entre x e y.

1
1.2 Supuestos
Para comprender mejor el modelo lineal, se deben observar los cuatro
supuestos sobre los cuales se construye.
El trmino de error es una variable aleatoria distribuida
normalmente.
La varianzas son iguales de los valores yi. Este supuesto se
denomina Homoscedasticidad.
Los trminos de error son independientes uno del otro.
El supuesto de linealidad
1.3 Determinacin de la ecuacin de regresin
La ecuacin de regresin estimada de y = o + 1x + se obtiene
como:

Diagrama del proceso de estimacin en la regresin lineal simple

Ejemplo

2
La tcnica matemtica que determina los valores bo y b1 que mejor c) Pronosticar las ventas para una poblacin de 28 mil estudiantes
se ajusten a los datos observados se conoce como mtodo de los
Solucin
mnimos cuadrados, de esta forma se obtienen las dos ecuaciones
siguientes llamadas ecuaciones normales. a) Efectuando los clculos sugeridos de las frmulas en la tabla anterior
completamos las siguientes columnas y las sumas resultantes de cada
Y= nb0+ b1 X una de ellas:

XY = b 0 X + b 1 X2 Poblacin Ventas
n X Y X2 Y2 XY
Como hay dos ecuaciones con dos incgnitas (bo y b1), se pueden 0
solucionar estas ecuaciones simultneamente para bo y b1 en la forma 1 2 58 4 3364 116
siguiente con las frmulas: 2 6 105 36 11025 630

n( xy) ( x)( y)
3 8 88 64 7744 704
b1 4 8 118 64 13924 944
n( x 2 ) ( x) 2 5 12 117 144 13689 1404
6 16 137 256 18769 2192
( y)( x 2 ) ( x)( xy) 7 20 157 400 24649 3140
b0
n( x 2 ) ( x) 2
8 20 169 400 28561 3380
9 22 149 484 22201 3278
El coeficiente bo tambin puede obtenerse con los promedios de x y los 10 26 202 676 40804 5252
promedios de y, mediante la expresin: n X Y X2 Y2 XY
bo = 1 10 140 1300 2528 184730 21040

Ejemplo: La siguiente tabla presenta una muestra de 10 observaciones


Adicionalmente calculamos:
de la poblacin de estudiantes (en miles) que ingresan a un restaurante
de comida rpida Armands Burguer y el nivel de ventas trimestrales (en ( X)2 = (140)2 = 19,600
miles de $).
Para encontrar los coeficientes b1 y bo sustituimos en las ecuaciones
respectivamente:

2
( Y)( X ) - ( X)( XY) (1300)(2528) - (140)(21040)
b0= =
n ( X2) - ( X)2 (10)(2528) - (140)^2

3286400 - 2945600
=
25280 - 19600

n ( XY) - ( X)( Y) (10)(21040) - (140)(1300)


b1= 2 2
=
n ( X ) - ( X) (10)(2528) - (140)^2

210400 - 182000
=
25280 - 19600

Finalmente se tiene:
a) Se pide hallar la ecuacin de regresin lineal
b) Trazar la grfica lineal y nube de puntos

3
b0 = 340800 = 60 basa en un conjunto particular de datos muestrales, otra muestra obtenida
5680 de la misma poblacin quiz generara una ecuacin ligeramente
diferente.
b1 = 28400 = 5
5680 Ejercicios
Ejercicio 1
Por tanto la recta de regresin es:
= 60 + 5x

De acuerdo a lo anterior, se puede concluir que las ventas trimestrales
incrementen $5 por cada aumento de un estudiante, es decir, si las
cifras estn dadas en miles, un aumento de 1000 en el tamao de la
poblacin de estudiantes corresponde un aumento esperado de $5000
en las ventas.
b) La recta de regresin estimada y la grfica
Ejercicio 2

Ejercicio 3

c) Para una poblacin de 28 mil estudiantes, sustituimos x=28 en la


ecuacin de regresin y el nivel de ventas pronosticado es:
yi = 60 + 5 (28) = 60 + 140 = 200, es decir $200 000
Se debe tener en cuenta que la ecuacin obtenida es un estimado de la
verdadera ecuacin de regresin y = o + 1 x. Ya que este estimado se

4
Ejercicio 4 La variacin no explicada es la porcin de la variacin total que no es
explicada por el modelo de regresin. Si estas diferencias (y - ) de error
se elevan al cuadrado y se suman, se tendr la suma del cuadrado del
error, (SCE).

La relacin entre SCT, SCR y SCE es la suma SCT = SCR + SCE, o sea:
Variacin total = Variacin explicada + Variacin no explicada
El clculo de estas desviaciones para el ejemplo de Armands Burguer

n X Y y y y ( y y ) 2 y y ( y y ) 2 y y ( y y ) 2
0
1 2 58 70 -12 144 -72 5184 -60 3600
2 6 105 90 15 225 -25 625 -40 1600
3 8 88 100 -12 144 -42 1764 -30 900
4 8 118 100 18 324 -12 144 -30 900
5 12 117 120 -3 9 -13 169 -10 100
6 16 137 140 -3 9 7 49 10 100
7 20 157 160 -3 9 27 729 30 900
8 20 169 160 9 81 39 1521 30 900
9 22 149 170 -21 441 19 361 40 1600
10 26 202 190 12 144 72 5184 60 3600
SCE = (Y - )2 SCT = (Y - )2 SCR = ( - )2
1530 15730 14200

Donde las medias son = 14 e = 130. Recordemos que los valores en


la columna de las se obtienen a partir de sustituir los valores observados
1.4 Medidas de variacin de x en la ecuacin de regresin = 60 + 5x, por ejemplo, el ltimo valor
de x = 26 sustituido en la ecuacin es = 60 + 5(26) = 190, as para x = 16
Para comprender plenamente lo que mide el coeficiente de = 140, etc.
correlacin, se deben desarrollar tres medidas de variacin (desviacines).
La variacin total de y, es decir, la cantidad por la cual los valores La siguiente grfica muestra las desviaciones respecto a la lnea de regresin
individuales de y varan de su media . Si todas estas variaciones (y - ) estimada y al promedio que se muestra como una lnea horizontal. Por
se elevan al cuadrado y se suman se tendr la suma de cuadrados totales, ejemplo, en el caso particular de la ltima observacin y10 de la muestra,
(SCT). es decir, donde y = 202, la variacin no explicada y - = 202 190 = 12
se encuentra por encima de la recta de prediccin, en cambio, la variacin
explicada - = 190 130 = 60 se encuentra por abajo de la recta de
Esta variacin puede dividirse en variacin explicada y variacin no prediccin. La variacin total es y - = 202 130 = 72, o como hemos
explicada La variacin explicada es la diferencia de lo que predice el visto, es la suma de la variacin explicada y la no explicada, es decir, y -
modelo con su media . La suma de estas variaciones ( - ) elevadas = 12 + 60 = 72. Estas variaciones como se observa en la tabla, pueden ser
al cuadrado proporciona la suma de cuadrados de la regresin, (SCR). positivas o negativas dependiendo de su posicin con respecto a las
rectas.

5
Las siguientes grficas muestran los posibles valores para el coeficiente r

Hemos visto que: SCT = SCR + SCE, es decir:


Variacin total = Variacin explicada + Variacin no explicada
15730 = 14200 + 1530
Al cociente SCR /SCT, que toma valores entre cero y uno, se usa para
evaluar la bondad de ajuste de la ecuacin de regresin estimada. A este
cociente se le llama coeficiente de determinacin y se denota por r2.

14200
Coeficiente de determinacin = r2 = = = 0.9027
15730

1.5 Clculo de los coeficientes de correlacin y de determinacin


El coeficiente de correlacin es la medida de la intensidad de la
relacin entre dos variables.
El coeficiente de correlacin lineal entre las variables x e y, se
designa por la letra r. El coeficiente de correlacin puede asumir cualquier
valor entre -1 y +1, es decir:
-1 r 1
Por tanto el grado de correlacin puede ubicarse en los intervalos

6
En las figuras c) y d) el valor absoluto de r se aproxima a 1, en cambio, en El resultado anterior, nos sugiere que existe una fuerte atraccin entre las
la figura e) la grfica de puntos muestra muy poca o ninguna relacin entre variables x e y, ya que r est muy prximo a 1.
las variables x e y, por lo que r se aproxima acero. En general, entre ms
se aproxime el valor absoluto de r a 1, ms fuerte ser la relacin entre las
variables.
El coeficiente de correlacin se calcula mediante la expresin: Si calculamos r2, obtenemos el coeficiente de determinacin. Para nuestro
ejemplo, si hacemos r2 = (0.95012)2 = 0.9027, esto quiere decir que
r = n XY - ( X)( Y) aproximadamente 90.3% de la variacin en los valores de y se explica por
[n X2 - ( X)2][n Y2 - ( Y)2]] una relacin lineal con x.
Ya hemos visto que el coeficiente de determinacin tambin se puede
Por ejemplo, para calcular el coeficiente r de Armands Burguer calcular mediante el cociente:
nuevamente se usan los clculos realizados de la tabla.
14200
Poblacin Ventas r2 = = = 0.9027
15730
n X Y X2 Y2 XY
0 por lo que el coeficiente de correlacin r se calcula directamente:
1 2 58 4 3364 116
2 6 105 36 11025 630
3 8 88 64 7744 704
4 8 118 64 13924 944
5 12 117 144 13689 1404
6 16 137 256 18769 2192 donde r = 0.9027 = 0.95012
7 20 157 400 24649 3140
8 20 169 400 28561 3380 De acuerdo a lo anterior, r tambin se puede calcular con el cociente de
9 22 149 484 22201 3278 dos medidas de variacin. En la regresin lineal simple, r debe tomar el
10 26 202 676 40804 5252
signo de b1.
n X Y X2 Y2 XY
10 140 1300 2528 184730 21040 Ejercicios
Adicionalmente tambin se calcula: 1. La siguiente tabla muestra datos hipotticos de x e y

( Y)2 = (1300)2 = 1,690,000 ( X)2 = (140)2 = 19,600


Sustituyendo en la frmula para r, se tiene:

r = (10)(21040) - (140)(1300)
[(10)(2528) - (140)^2] [(10)(184730) - (1300)^2]
2. La siguiente tabla muestra datos hipotticos de x e y
r = 210400 - 182000
[25280 - 19600] [1847300 - 1690000]

r = 28400 = 28400 = 0.95012


[(5680)(157300)] [893464000]

7
1.6 Anlisis residual
Grfica de residuales
El anlisis residual es la herramienta principal para determinar si el 20
modelo de regresin empleado es apropiado. 15
10
5
0
-5 0 5 10 15 20 25 30
-10
-15
-20
-25

El residual y - es el error que resulta de usar la ecuacin de regresin Cuando se analiza una grfica residual, se busca un patrn en la
estimada para predecir el valor de la variable dependiente. configuracin de los puntos y se deben utilizar los siguientes criterios:
La grfica residual puede ser otra herramienta til para analizar Si una grfica residual no revela ningn patrn, la ecuacin de regresin es
resultados de correlacin y regresin. Una grfica residual es una grfica una buena representacin de la asociacin entre las dos variables.
de los puntos (x, y- ). Las grficas de los residuales deben mostrar
Si una grfica revela algn patrn sistemtico, la ecuacin de regresin no es
realmente fluctuaciones aleatorias alrededor de un valor cero. una buena representacin de la asociacin entre las dos variables.
A continuacin se revisan los residuales del ejemplo de Armands Burguer De acuerdo a lo anterior, en nuestro ejemplo de Armands Burguer, la
donde se obtuvo un modelo de regresin simple. recta de regresin se ajusta bien a los datos. La grfica residual no revela
ningn patrn.
Ejercicios
Poblacin Ventas Ventas estimadas Residuales
Ejercicio 1
X Y y y y Considera los datos de la siguiente tabla, construye una grfica residual.
0 Existe algn patrn evidente? Qu sugiere la grfica residual acerca de
2 58 70 -12 la relacin entre x e y?
6 105 90 15
8 88 100 -12 xi 0 1 2 3 4 5 7 8 9 10
8 118 100 18 yi 1 0 2 5 10 20 15 10 7 3
12 117 120 -3
16 137 140 -3 Ejercicio 2
20 157 160 -3 Para los datos de la siguiente tabla, construye una grfica residual.
Existe algn patrn? cmo estn dispersos los puntos? Qu sugiere la
20 169 160 9
grfica residual acerca de la relacin entre x e y?
22 149 170 -21
26 202 190 12 xi 0 1 2 3 4 5 7 8 9 10
yi 0 6 9 15 10 35 15 60 75 20
Con los valores de x y los residuales y - de la tabla, se obtiene la
siguiente grfica

8
1.7 Inferencias acerca de la pendiente SXY es el error estndar de estimacin, es una medida del grado de
dispersin de los valores y, alrededor de la recta de regresin. Mide la
Si la pendiente de la recta de regresin poblacional real pero
variacin de los puntos de datos por encima y por debajo de la recta de
desconocida es cero, no existe relacin entre las variables x e y, en
regresin. En este sentido es una medida del error tpico.
nuestro ejemplo, no existe relacin entre los estudiantes y las ventas
contraria a los resultados muestrales. Si se hace un diagrama de
dispersin para la poblacin de todos los puntos de datos, puede
aparecer una nube de puntos como la siguiente figura. La ausencia de
cualquier patrn indica que no existe relacin. Al recolectar la muestra,
se pudo haber incluido slo 10 observaciones dentro de la regin
marcada. Tomados por si solos, estos datos sugieren de manera falsa
una relacin positiva.

Clculo del intervalo de confianza. Del ejemplo de Armands Burguer


utilizando un nivel de confianza del 95%, estimar un intervalo para 1.
Como son n = 10 datos, se busca el valor t crtico denominado tgl en tablas
Si el valor de 1 = 0, la recta de regresin es horizontal y se puede estadsticas con un nivel de 0.95, obteniendo t8 = 2.306. Y calculando
concluir que x e y no estn relacionadas. Pero si el valor de 1 es adicionalmente (X )2 = 568 de la tabla:
distinto de cero, se concluir que las dos variables estn relacionadas. Se tiene t gl = t 8 = 2.306 gl = n - 2 = 8
Hay dos pruebas que son las ms usadas. En ambas, se requiere una
estimacin de 2, la varianza del error en el modelo de regresin. b1 = 5 (X - X)2 = 568 SYX = 13.82931669

Prueba del intervalo de confianza para estimar 1 Con lo que se construye el intervalo sustituyendo en la expresin
Significara que podemos estar seguros con un nivel de confianza de t gl SYX
que el coeficiente de regresin para toda la poblacin de todos los b1
valores x e y estar dentro de ese intervalo. El intervalo se determina
mediante:
( X X ) 2

t gl SYX 5 (2.306) (13.8293)


b1 [568]
( X X ) 2
5 1.338094
donde tgl es un valor de la distribucin t con gl = n 2 grados de libertad
Con lo que se estima con una certeza del 95% que la pendiente real se
encuentra dentro del intervalo
donde SYX ( y y ) 2

3.6619 < 1 < 6.33809


n2

9
Prueba de hiptesis para 1. Esta prueba se basa en demostrar que la Ejercicios 2
pendiente de la recta de la poblacin es distinta de cero, si es el caso, Para los datos de la siguiente tabla
entonces se puede concluir que al utilizar la ecuacin de regresin
aumenta la capacidad de predecir o pronosticar la variable dependiente
basndose en la variable independiente.
Prueba de hiptesis Para nuestro ejemplo deseamos probar las
hiptesis:
Ho: 1 = 0 No hay relacin significativa entre las variables Ejercicios 3
H1: 1 0 Hay una relacin significativa entre variables
Usando el estadstico de prueba con gl = n - 2 = 8 grados de libertad
b1 - 1
t = Sb1
donde Sb1 se obtiene
S YX
S b1
(X X ) 2

sustituyendo SYX = 13.8293 con (X )2 = 568

13.82931669
S b1 = = 0.58027
568

El valor del estadstico de prueba con b1 = 5, 1 = 0 y Sb1 = 0.58027


b1 - 0 5
t = = = 8.6167492
S b1 0.5802652
Si el nivel de confianza de la prueba es del 95% con 8 grados de Ejercicio 4
libertad el valor t critico es t8 = 2.306. Como es una prueba de dos colas
tomamos el intervalo t8 = -2.306 y t8 = 2.306. La regla de decisin es:
Si el estadstico de prueba t se encuentra dentro del intervalo
formado por t8 = -2.306 y t8 = 2.306, entonces se debera aceptar la
hiptesis nula, en caso contrario se debe rechazar.
Como 8.616 > 2.306, t se encuentra fuera del intervalo, por tanto, se
debe rechazar la hiptesis nula a un nivel de significancia del 95%, se
puede concluir que hay relacin significativa entre las variables.
1.8 Aplicaciones
Ejercicios 1
Para el ejemplo de Armands Burguer hallar un intervalo de confianza a un
nivel de 99% para el parmetro 1.

10
Ejercicio 5

11
2. REGRESIN LINEAL MLTIPLE Y CORRELACIN Lo que resulta el planteamiento de un sistema de seis ecuaciones con seis
incgnitas, las incgnitas son b0, b1, b2, b3, b4 y b5. Estos coeficientes son
2.1 Modelo de regresin
las representaciones de 1, 2, 3,. . . ,k. Los valores de los coeficientes
Es razonable que las predicciones deban mejorar si consideramos para sistemas ms complejos se pueden resolver con un paquete
otra informacin relevante. Por ejemplo, debemos poder hacer mejores adecuado de computacin.
predicciones de las ventas del primer ao de vendedores recin
contratados por una compaa si consideramos no slo sus aos de 2.2 Estimacin de la ecuacin de regresin mltiple
experiencia, sino tambin su agudeza visual, su capacidad de juzgar Consideremos, los datos del siguiente ejemplo de una inmobiliaria
relaciones personales y su coordinacin entre la vista y las manos. que muestran el nmero de recmaras, de baos y los precios a los cuales
Muchas frmulas matemticas pueden servir para expresar se vendieron recientemente ocho casas unifamiliares en cierta comunidad.
relaciones entre ms de dos variables, pero las de uso ms comn en
estadstica son ecuaciones lineales de la forma Nmero de Nmero de
recmaras baos Precio ($)
y = 0 + 1 x1 + 2 x2 + 3 x3 + . . . + k xk +
x1 x2 y
El problema principal que se afronta al obtener una ecuacin lineal en 3 2 88,800
ms de dos variables que mejor describa un conjunto de datos es el de 2 1 84,300
obtener los valores numricos de b0, b1, b2, b3, . . . , y bk. Esto se lleva a 4 3 93,800
cabo mediante el mtodo de mnimos cuadrados, es decir, se minimiza 2 1 84,200
la suma de cuadrados (y- )2, este mtodo requiere que se resuelvan
3 2 89,700
tantas ecuaciones normales como constantes desconocidas b0, b1, b2,
2 2 84,900
b3,. . ., y bk haya. Por ejemplo, cuando hay dos variables independientes
x1 y x2, y deseamos ajustar la ecuacin 5 3 98,400
4 2 92,900
= b0 + b1 x1 + b2 x2
Los clculos realizados son
debemos resolver tres ecuaciones normales
n Y X1 X2 X1Y X2Y X12 X22 X1X2
Y= nb o + b1 X1 + b2 X2 1 88,800 3 2 266,400 177,600 9 4 6
X1Y = b o X1 + b1 X12 + b2 X1X2 2 84,300 2 1 168,600 84,300 4 1 2
X2Y = b o X2 + b1 X1X2 + b2 X22 3 93,800 4 3 375,200 281,400 16 9 12
4 84,200 2 1 168,400 84,200 4 1 2
desde el punto de vista algebraico, esto equivale a resolver un sistema 5 89,700 3 2 269,100 179,400 9 4 6
de tres ecuaciones con tres incgnitas. Donde las incgnitas son los 6 84,900 2 2 169,800 169,800 4 4 4
coeficientes b0, b1 y b2. As, por ejemplo, si hay cinco variables 7 98,400 5 3 492,000 295,200 25 9 15
independientes, x1, x2, x3, x4 y x5, el modelo de ecuacin lineal de ajuste 8 92,900 4 2 371,600 185,800 16 4 8
ser = b0 + b1 x1 + b2 x2 + b3 x3 + b4 x4 + b5 x5, donde las ecuaciones Y X1 X2 X1Y X2Y X12 X22 X1X2
normales resultantes son:
717,000 25 16 2,281,100 1,457,700 87 36 55
Y= nb o + b1 X1 + b2 X2 + b3 X3 + b4 X4 + b5 X5
las ecuaciones normales para las variables y, x1 e x2
X1Y = b o X1 + b1 X12 + b2 X1X2 + b3 X1X3 + b4 X1X4 + b5 X1X5
X2Y = b o X2 + b1 X1X2 + b2 X22 + b3 X2X3 + b4 X2X4 + b5 X2X5 Y= nb o + b1 X1 + b2 X2
X3Y = bo X3 + b1 X1X3 + b2 X2X3 + b3 X32 + b4 X3X4 + b5 X3X5 X1Y = b o X1 + b1 X12 + b2 X1X2
X4Y = bo X4 + b1 X1X4 + b2 X2X4 + b3 X3X4 + b4 X42 + b5 X4X5
X2Y = b o X2 + b1 X1X2 + b2 X22
X5Y = bo X5 + b1 X1X5 + b2 X2X5 + b3 X3X5 + b4 X4X5 + b5 X52

12
sustituyendo en las ecuaciones normales se forma el sistema: Ejemplo. El gerente de una determinada empresa est estudiando las
posibles relaciones entre las variables X1: Beneficios anuales, X2: Gastos
717000 = 8 bo + 25 b1 + 16 b2 en publicidad anuales (en millones de $) y X3: Horas extraordinarias
2281100 = 25 bo + 87 b1 + 55 b2 anuales de los empleados, utilizando para ello datos de estas tres
1457700 = 16 bo + 55 b1 + 36 b2 variables proporcionadas por algunas empresas de su sector:
finalmente, resolviendo se tiene:
Gastos en Horas extras
b0 = 75,192, b1 = 4,133.33, b2 = 758.33 Beneficios publicidad anuales
sustituyendo estos valores en la ecuacin lineal 1.3 0.3 4
3.5 1.5 9
= b0 + b1 x1 + b2 x2 2.8 0.7 6
la ecuacin estimada es: 3 1.1 7.5
3.3 1.2 8
= 75192 + 4133.33 x1 + 758.33 x2

4 2 7
esto nos indica que, en este estudio, cada recmara extra suma en
3.7 2 8
promedio $4133.33 y cada bao suma $758.33 al precio de venta de
una casa. Para predecir el precio de venta promedio de una casa de Los siguientes clculos permiten calcular las varianzas y covarianzas
tres recamaras con dos baos, por ejemplo, sustituimos en la ecuacin
2 2 2
x1 = 3 y x2 = 2, obteniendo X1 X2 X3 X1 X2 X3 X1X2 X1X3 X2X3
1.3 0.3 4 1.69 0.09 16 0.39 5.2 1.2
= 75192 + 4133.33 (3) + 758.33 (2) = 89108.65
3.5 1.5 9 12.25 2.25 81 5.25 31.5 13.5
as el precio de una casa con una recmara y un bao es = 80,083.33 2.8 0.7 6 7.84 0.49 36 1.96 16.8 4.2
3 1.1 7.5 9 1.21 56.25 3.3 22.5 8.25
2.3 Matriz de varianzas covarianzas
3.3 1.2 8 10.89 1.44 64 3.96 26.4 9.6
Cuando en un estudio se mide la relacin bivariada entre ms de 4 2 7 16 4 49 8 28 14
dos variables, frecuentemente la informacin se expresa en forma 3.7 2 8 13.69 4 64 7.4 29.6 16
matricial. La estructura de esta matriz, es de naturaleza simtrica, y
X1 X2 X3 X12 X22 X32 X1X2 X1X3 X2X3
conocida como matriz de varianzas-covarianzas, su arreglo es el
siguiente: 21.6 8.8 49.5 71.36 13.48 366.25 30.26 160 66.75

Las medias y varianzas de cada una de las variables son:


2
S x1 Sx 1x 2 Sx 1x 3
21.6 8 .8 49 . 5
C = Sx 2x 1 S2x2 Sx 2x 3 x1 3.08 x2 1 . 25 x3 7 . 07
7 7 7
Sx 3x 1 Sx 3x 2 S2x3
x12 x22 x32
S 2 x1 x1 S2 x2 x2 S x3 x3
2 2 2 2
en la diagonal principal se contiene la informacin de la varianza de la n n n
variable, as la celda (1,1) contendr la varianza de la primera variable
estudiada, en la celda (2,2) la varianza de la segunda y en la celda (3,3) donde se tienen las varianzas:
la de la tercera. 2
S 2x 1 = 10.194 - (3.08) = 0.6726
En el resto de las celdas se reflejar el estadstico de covarianza para 2
S 2x 2 = 1.925 - (1.25) = 0.3453
cada par de variables. 2
S 2x 3 = 52.321 - (7.07) = 2.3163

13
y las covarianzas son:
x 2 x3
Sx2 x3
x1 x2 x1 x3
Sx1 x2 x1 x2 Sx1 x3 x1 x3 x 2 x3
n n n

Sx 1x 2 = 30.26 / 7 - (3.08)(1.25) = 0.4437


Sx 1x 3 = 160 / 7 - (3.08)(7.07) = 1.0367
Sx 2x 3 = 66.75 / 7 - (1.25)(7.07) = 0.6459
sustituyendo las varianzas y las covarianzas en la matriz:
Pruebas individuales para los coeficientes de regresin

S2x1 Sx 1x 2 Sx 1x 3
C = Sx 2x 1 S2x2 Sx 2x 3
Sx 3x 1 Sx 3x 2 S2x3

por tanto, se tiene la matriz de varianzas-covarianzas

0.6726 0.4437 1.0367


C = 0.4437 0.3453 0.6459
1.0367 0.6459 2.3163

Por ejemplo, para la prueba de hiptesis individual, de la inmobiliaria de


2.4 Pruebas de hiptesis para los coeficientes de regresin
casas unifamiliares, la desviacin estndar para el coeficiente obtenido
La introduccin de software adecuado ha hecho posible rpidas y para b1 = 4133.3 denotada como Sb1 es 228.6, resultado que en forma
sencillas soluciones a complicados problemas de regresin lineal manual es muy tedioso de calcular y rara vez se realiza. Por fortuna la
mltiple. La mayora de los resultados presentados por computadora mayora de los paquetes estadsticos reportan esta informacin. As, para
ofrecen informacin que facilita probar hiptesis nulas acerca de los probar la hiptesis:
coeficientes de regresin mltiple verdaderos o de la construccin de
intervalos de confianza.
Evaluacin del modelo como un todo
Sustituyendo b1 = 4133.3, 1 = 0 y Sb1 = 228.6, el valor t para la prueba es
4133.3 - 0
t= = 18.080927
228.6

si se selecciona un valor de = 0.05 con tgl crtica de t0.05,5 = 2.57,


comparando los valores, la regla es:
No rechazar Ho, si t est entre -2.57 y 2.57. De lo contrario rechazar
Cmo t = 18.08 > 2.57, se rechaza la hiptesis nula. Al nivel de
La siguiente tabla ANOVA y la prueba F proporciona el formato general significancia del 5% el nmero de recamaras contribuye significativamente
para la regresin mltiple. al poder explicativo del modelo.

14
Ejercicios n Y X1 X2 Yc (y - y c )2 (y c - y)2 (y - y)2
Ejercicio 1. Considere los siguientes datos 1 88,800 3 2 89108.3 95069.44 266944.44 680625
2 84,300 2 1 84216.7 6944.44 29250069.44 28355625
3 93,800 4 3 94000 40000.00 19140625.00 17430625
4 84,200 2 1 84216.7 277.78 29250069.44 29430625
5 89,700 3 2 89108.3 350069.44 266944.44 5625
6 84,900 2 2 84975 5625.00 21622500.00 22325625
7 98,400 5 3 98133.3 71111.11 72391736.11 77000625
8 92,900 4 2 93241.7 116736.11 13080277.78 10725625
( y y ) ( y y) 2 ( y y)
2 2

Ejercicio 2 685833.33 185269167 185955000

para los clculos realizados; = 89625, de los resultados anteriores


tenemos que: SCR = 185,269,167, SCT =185,955,000. Por tanto, el
coeficiente de determinacin es:

185,269,167
R2 = = 0.9963
185,955,000
Ejercicio 3
se deduce que el coeficiente de correlacin mltiple es:

R = 0.9963 = 0.9981

As el 99.63% del cambio en el precio de una vivienda se explica mediante


los cambios del nmero de baos y el nmero de recmaras.
2.5 Correlacin lineal mltiple
Se define el coeficiente de determinacin mltiple en la misma forma 2.6 Aplicaciones
en que se define r. Ejercicio 1

R2
( y y)2

( y y) 2
como hemos visto, tambin se tiene que:

con la raz cuadrada de la expresin anterior, se tiene el coeficiente de


correlacin mltiple. As para el ejemplo, que muestran el nmero de
recmaras, de baos y los precios a los cuales se vendieron ocho casas
unifamiliares, se complementa la tabla como:

15
Ejercicio 2 (Contina ejercicio 4)

a) Calcula R y realiza un comentario de la variacin de los datos


b) Calcula F y realiza la prueba F adecuada, usa = 0.05
c) Realiza una prueba t para la significancia de b1. Usa = 0.05
d) Realiza una prueba t para la significancia de b2. Usa = 0.05
e) Realiza una prueba t para la significancia de b1. Usa = 0.01
f) Cambia el criterio de decisin al elegir de 0.05 a 0.01 para b1?
g) Realizar la misma prueba anterior para b2.
h) Cmo cambian los intervalos para 1 y 2 en las dos pruebas anteriores?

Ejercicio 5

Ejercicio 3
En el ejercicio 2 del apartado 2.4 anterior, se present la siguiente ecuacin
basada en 10 observaciones (para la t crtica consultar una tabla t de student)

Ejercicio 4

16
3. ANLISIS DE SERIES DE TIEMPO
3.1 Componentes de una serie de tiempo
Una serie de tiempo es una sucesin de observaciones de un
fenmeno que vara con el tiempo. Se representa comnmente
mediante una grfica con el valor de la variable en el eje vertical y el
tiempo en el eje horizontal. Se puede pensar que una serie de tiempo
existen cuatro tipos bsicos de variacin, los cuales, sobrepuestos y Ejemplo
actuando en concierto, contribuyen a los cambios observados en un
periodo de tiempo y dan a la serie su aspecto errtico. Estas cuatro
componentes son:
1. Tendencia secular
2. Variacin estacional
3. Variacin cclica
4. Variacin irregular
cualquiera o ninguna de estas componentes pueden estar presentes en
una serie de tiempo. Adems todas las series de tiempo poseen una
variacin aleatoria que tiende a obscurecer el comportamiento de las
componentes no aleatorias de la serie.
3.2 Mtodo de mnimos cuadrados

Realizando los clculos correspondientes se tiene:

17
Interpretacin Indice de Total mvil Promedio
Ao fracasos de 5 aos mvil 5 aos
1983 33.2
1984 42.0
1985 41.6 216.5 43.3
Ejercicio 1 1986 48.0 239.2 47.8
1987 51.7
1988 55.9
1989 51.8
1990 57.0
1991 64.4
Ejercicio 2 1992 60.8
1993 56.3
1994 53.2
1995 53.3
1996 51.6
1997 49.0
3.3 Mtodo de promedios mviles 1998 38.6
Se usa para estimar el promedio de una serie de tiempo de La serie original y el promedio mvil de cinco aos se muestran en la siguiente
demanda y para suprimir los efectos de las fluctuaciones al azar. Este grfica
mtodo resulta ms til cuando la demanda no tiene tendencias
pronunciadas ni fluctuaciones estacinales. Implica simplemente
ndice de fracasos comerciales 1983-1998
calcular la demanda promedio para los n periodos mas recientes con el
fin de utilizarla como pronstico del periodo siguiente. Para el pronstico 70.0
siguiente una vez conocida la demanda, la demanda ms antigua
incluida en el promedio anterior se sustituye por la demanda mas 60.0
reciente y luego se vuelve a calcular el promedio.
50.0
El problema bsico en la elaboracin de un promedio mvil es la
eleccin de un periodo apropiado para el promedio. Esta eleccin 40.0
depende considerablemente de la naturaleza de los datos y del Datos originales
propsito para el cual se elabora el ndice. 30.0
Promedio mvil
Ft+1 = Suma de las n ltimas demandas / n = (Dt + Dt -1 + Dt-2 ++ Dt - 20.0
n+1) / n
10.0
Donde:
0.0
Dt = demanda real en el periodo t
1982
1983
1984
1985
1986
1987
1988

1998
1999
1989
1990
1991
1992
1993
1994
1995
1996
1997
n = nmero total de periodos incluidos en el promedio
F t+1 = Pronstico para el periodo t+1
Ejemplo 1. Elaborar un promedio mvil de cinco aos para uniformar la Ejemplo 2. Elaborar un promedio mvil de tres aos para uniformar la
serie que consta de los ndices de fracasos comerciales (nmero de misma serie anterior de fracasos comerciales y realizar la grfica (se
fallas por 10,000 negocios), en los aos 1983 a 1998. deja al estudiante).

18
el ltimo trimestre de 1998. Se han calculado los promedios mviles a
cuatro trimestres.

Ejemplo 3. En la tabla siguiente se presentan las ventas de una


empresa para los ltimos 12 meses. Se han calculado los promedios
mviles (PM) a 3 y 5 meses. Elabora una grfica que muestre el efecto
de suavizamiento para estos promedios mviles.

El PM de cuatro trimestres se obtuvo promediando los primeros cuatro


trimestres, es decir:
(40 + 45 + 38 + 47)/4 = 42.50
el siguiente PM se obtuvo con los cuatro periodos siguientes
(45 + 38 + 47 + 53)/4 = 45.75
y as sucesivamente con los restantes.
El PM de cuatro trimestres centrado es el promedio del primer par de
los promedios mviles, es decir
(42.50 + 45.75)/2 = 44.13
La siguiente entrada se obtiene promediando el segundo y el tercer
valor
Cuando un nmero impar de periodos se utiliza en el promedio mvil, (45.75 + 44.25)/2 = 45.00
los resultados pueden centrarse automticamente en la mitad del
de igual forma para los periodos restantes y se van centrando en sus
periodo. Sin embargo, si existe un nmero par de periodos en el
respectivos periodos.
promedio, debe hacerse un ajuste ya que no existe una observacin en
la mitad en la cual se centre automticamente el valor. Como lo ilustra 3.4 Mtodos de suavizacin exponencial
el siguiente ejemplo.
Es un mtodo de promedio mvil ponderado muy refinado que
Ejemplo 4. La siguiente tabla muestra los datos de ventas trimestrales permite calcular el promedio de una serie de tiempo, asignando a las
de cierta firma. Los datos van desde el primer trimestre de 1996, hasta demandas mayor ponderacin que a las demandas anteriores. Es el
mtodo de pronstico formal que se usa ms a menudo, por su

19
simplicidad y por la reducida cantidad de datos que requiere. La En el siguiente cuadro se presenta la misma tabla pero con un 0.7
expresin para su clculo es:
Suavisacin exponencial
Pt = Dt + (1 - )(Pt -1) Perodo Demanda Dt Pronstico Pt 0.7 Pt = Dt + (1 - )(Pt -1)
1 9.9 9.9 P1 = 9.9
donde Dt es la demanda del periodo y Pt es el pronstico. 2 22.2 18.50 P2 = 0.7 (22.2) + 0.3 ( 9.9 ) = 18.5
3 11.4 13.50 P3 = 0.7 (11.4) + 0.3 ( 18.5 ) = 13.5
La constante, , toma valores entre 0 y 1
4 14.8 14.40 P4 = 0.7 (14.8) + 0.3 ( 13.5 ) = 14.4
Una cercana a uno da una alta velocidad de respuesta

5 19.7 18.10 P5 = 0.7 (19.7) + 0.3 ( 14.4 ) = 18.1


6 14.9 15.90 P6 = 0.7 (14.9) + 0.3 ( 18.1 ) = 15.9
Una cercana a cero da una baja velocidad de respuesta
7 15.9 15.90 P7 = 0.7 (15.9) + 0.3 ( 15.9 ) = 15.9
8 13.4 14.20 P8 = 0.7 (13.4) + 0.3 ( 15.9 ) = 14.2
Ejemplo 1. Se presentan datos hipotticos de un registro de demanda 9 12 12.70 P9 = 0.7 (12) + 0.3 ( 14.2 ) = 12.7
para doce periodos con 0.2 10 7.9 9.30 P10 = 0.7 (7.9) + 0.3 ( 12.7 ) = 9.3
11 12.9 11.80 P11 = 0.7 (12.9) + 0.3 ( 9.3 ) = 11.8
Suavisacin exponencial 12 16.8 15.30 P12 = 0.7 (16.8) + 0.3 ( 11.8 ) = 15.3
Perodo Demanda Dt Pronstico Pt 0.2 Pt = Dt + (1 - )(Pt -1)
1 9.9 9.9 P1 = 9.9 La grfica correspondiente para este suavizamiento es
2 22.2 12.40 P2 = 0.2 (22.2) + 0.8 ( 9.9 ) = 12.4
3 11.4 12.20 P3 = 0.2 (11.4) + 0.8 ( 12.4 ) = 12.2 25
4 14.8 12.70 P4 = 0.2 (14.8) + 0.8 ( 12.2 ) = 12.7
5 19.7 14.10 P5 = 0.2 (19.7) + 0.8 ( 12.7 ) = 14.1
6 14.9 14.30 P6 = 0.2 (14.9) + 0.8 ( 14.1 ) = 14.3 20
7 15.9 14.60 P7 = 0.2 (15.9) + 0.8 ( 14.3 ) = 14.6
8 13.4 14.40 P8 = 0.2 (13.4) + 0.8 ( 14.6 ) = 14.4
9 12 13.90 P9 = 0.2 (12) + 0.8 ( 14.4 ) = 13.9
15
10 7.9 12.70 P10 = 0.2 (7.9) + 0.8 ( 13.9 ) = 12.7
11 12.9 12.70 P11 = 0.2 (12.9) + 0.8 ( 12.7 ) = 12.7 Demanda
12 16.8 13.50 P12 = 0.2 (16.8) + 0.8 ( 12.7 ) = 13.5
10 Pronstico
La grfica correspondiente para este suavizamiento es
5
25

20 0
0 5 10 15

15
En las grficas anteriores se puede apreciar que la eleccin de la
Demanda
constante de suavizacin tiene un efecto pronunciado en la magnitud de
10 Pronstico
la suavizacin. La serie con 0.2 es mucho ms estable que la serie
con 0.7, esto es lo que se busca cuando el objetivo consiste en
5 promediar las variaciones de los datos periodo tras periodo.
Ejemplo 2.
0
0 5 10 15

20
Cuando utilizamos la suavizacin exponencial para hacer predicciones 3.5 Tendencias no lineales
a corto plazo, tomamos el valor suavizado Pt en el periodo t, como la
Cuando los datos parecen desviarse poco ms o menos
estimacin de Dt en el periodo t + 1. Designando esta estimacin por
ampliamente de la linealidad, en el anlisis de regresin o de una serie
medio de la frmula:
de tiempo, debemos pensar en ajustar una curva en lugar de una lnea
Pt +1 = Dt + (1 - )Pt recta. Una de las curvas ms tiles es la parbola y su ecuacin es

Ejemplo 3. La tabla siguiente muestra la demanda registrada en el = b0 + b1 x + b2 x2


periodo de enero a julio y las cifras proyectadas para agosto usando un Al ajustar una parbola por medio del mtodo de mnimos cuadrados,
0.3 y 0.8 debemos determinar a, b y c de manera que

sea mnimo. Por consiguiente, el mtodo de mnimos cuadrados nos


lleva a obtener las ecuaciones normales
2

y nb 0 b1 x b 2 x
2 3

xy b 0 x b1 x b2 x
2 2 3 4

x y b 0 x b1 x b 2 x

La solucin de estas ecuaciones para determinar bo, b1 y b2 se puede


simplificar en forma apreciable si colocamos el cero de la nueva escala
en el centro de la serie y observamos los convencionalismos para un
nmero impar de periodos donde resulta X = 0 y X3 = 0, y las
ecuaciones normales se reducen a
Ejercicio 1. La serie siguiente ilustra el nmero de solicitudes de
reparacin de lavadoras en una compaa de servicio de reparacin de
artculos domsticos, en 10 das hbiles consecutivos: 25, 34, 23, 20,
y nb b x
0 2
2

25, 17, 19, 31, 15 y 11. Suavizar esta serie mediante el uso de = 0.2 y xy b x1
2

0.8. trazar una grfica para cada caso.


Ejercicio 2
x y b x b x
2
0
2
2
4

donde se puede obtener b1 fcilmente de la segunda ecuacin y se


puede determinar bo y b2 resolviendo simultneamente la primera y
tercera ecuacin. Las parbolas se conocen asimismo como
ecuaciones polinomiales de segundo grado.
Ejemplo. En los aos de 1994 a 2004 se produjeron 8.48, 7.08, 8.58,
9.25, 8.30, 9.53, 9.90, 9.81, 6.47, 5.09 y 4.67 millones de barriles de
petrleo crudo al da en Arabia Saudita.
a) Ajustar a esta serie una curva de tendencia parablica, de la
forma = b0 + b1 x + b2 x2
b) Calcular los valores con tendencia de 1994, 2003 y 2005.
c) Trazar la grfica de la parbola junto con la serie de datos
original.

21
Solucin. a) Se construye la siguiente tabla donde se determina los para 2003 sustituimos x = 4 y se obtiene
valores de n, y, x, xy, x2, x2y, x3 y x4
= 9.32 -0.28 (4) -0.14 (4)2 = 5.98
n X Y X 2
X Y 2 XY X 3
X 4
y para 2005, sustituimos x = 6 obteniendo
11 0 87.16 110 753.36 -30.62 0 1958
Aos Produccin = 9.32 -0.28 (6) -0.14 (6)2 = 2.67
2 2 3 4
Ao n X Y X X Y XY X X
1994 1 -5
0
8.48 25 212 -42.4 -125 625
c) Para trazar la grfica de tendencia parablica se necesitan por lo
1995 2 -4 7.08 16 113.28 -28.32 -64 256 menos tres puntos.
1996 3 -3 8.58 9 77.22 -25.74 -27 81
1997 4 -2 9.25 4 37 -18.5 -8 16 Nube de puntos y curva de tendencia
Produccin
1998 5 -1 8.3 1 8.3 -8.3 -1 1
12
1999 6 0 9.53 0 0 0 0 0
2000 7 1 9.9 1 9.9 9.9 1 1
2001 8 2 9.81 4 39.24 19.62 8 16 10
2002 9 3 6.47 9 58.23 19.41 27 81
2003 10 4 5.09 16 81.44 20.36 64 256
2004 11 5 4.67 25 116.75 23.35 125 625 8

Sustituyendo los valores de la tabla en las ecuaciones normales se


tiene: 6

87.16 = 11 b 0 0 b1 110 b 2
4
-30.62 = 0 b0 110 b1 0 b2
753.36 = 110 b 0 0 b2 1958 b 2
2
El sistema anterior se simplifica
87.16 = 11 bo, + 110 b2 0
-30.62 = 110 b1 -6 -4 -2 0 2 4 6
Aos
753.36 = 110 bo + 1958 b2
de donde se obtiene b1 directamente mediante 3.6 Variaciones estacionales (Se deja al estudiante)
b1 = -30.62/110 Ejercicios. Ver la hoja de clculo base de datos para la siguiente tabla
b1 = -0.28
Ao Pagos
despus se resuelven las ecuaciones simultneas 1993 10.1
87.16 = 11 bo, + 110 b2 1994 11.3
1995 13.8
753.36 = 110 bo + 1958 b2
1996 16.1
finalmente, usando el mtodo de eliminacin o por determinantes, se 1997 17.1
obtiene que bo = 9.32 y b2 = -0.14. Con esto, escribimos la ecuacin de 1998 18
tendencia parablica 1999 20.2
2000 22.9
= 9.32 -0.28 x -0.14 x2 2001 24.5
2002 25.9
b) Para determinar el valor de la tendencia en 1994, sustituimos x = -5 y
2003 27.6
se obtiene
2004 30.1
= 9.32 -0.28 (-5) -0.14 (-5)2 = 7.22 2005 34.8
2006 41.5

22
4. DISEO EXPERIMENTAL PARA UN FACTOR Niveles: los diferentes tratamientos o poblaciones. Segn sean
elegidos por el experimentador o elegidos al azar de una amplia
4.1 Introduccin
poblacin se denominan factores de efectos fijos o factores de efectos
El diseo experimental es una tcnica estadstica que permite aleatorios.
identificar y cuantificar las causas de un efecto dentro de un estudio Observacin experimental: es cada medicin de la variable
experimental. En un diseo experimental se manipulan deliberadamente respuesta.
una o ms variables, vinculadas a las causas, para medir el efecto que Tamao del Experimento: es el nmero total de observaciones
tienen en otra variable de inters. El diseo experimental prescribe una recogidas en el diseo.
serie de pautas relativas qu variables hay que manipular, de qu
Interaccin de factores: existe interaccin entre dos factores Fi y Fj si
manera, cuntas veces hay que repetir el experimento y en qu orden
el efecto de algn nivel de Fi cambia al cambiar de nivel en Fj. Esta
para poder establecer con un grado de confianza predefinido la
definicin puede hacerse de forma simtrica y se puede generalizar a
necesidad de una presunta relacin de causa-efecto.
interacciones de orden tres o superior.
El diseo experimental encuentra aplicaciones en la industria, la Ortogonalidad de factores: dos factores Fi y Fj con i y j niveles,
agricultura, la mercadotecnia, la medicina, la ecologa, las ciencias de la respectivamente, son ortogonales si en cada nivel i de Fi el nmero de
conducta, etc. constituyendo una fase esencial en el desarrollo de un observaciones de los j niveles de Fj estn en las mismas proporciones.
estudio experimental. Esta propiedad permite separar los efectos simples de los factores en
4.2 Clasificacin de los diseos experimentales estudio.
(Se deja al estudiante) Diseo equilibrado o balanceado: es el diseo en el que todos los
tratamientos son asignados a un nmero igual de unidades
4.3 Nomenclatura y simbologa en el diseo experimental experimentales.
En esta seccin se hace un resumen de la terminologa comn Ejemplo 1. Una compaa textil utiliza diversos telares para la
utilizada en la teora de los modelos de diseo de experimentos: produccin de telas. Aunque se desea que los telares sean
Unidad experimental: son los objetos, individuos, intervalos de homogneos con el objeto de producir tela de resistencia uniforme, se
espacio o tiempo sobre los que se experimenta. supone que puede existir una variacin significativa en la resistencia de
Variable de inters o respuesta: es la variable que se desea estudiar la tela debida a la utilizacin de distintos telares. A su disposicin tiene
y controlar su variabilidad. 5 tipos de telares con los que realiza determinaciones de la resistencia
de la tela. Este experimento se realiza en orden aleatorio y los
Factor: es una propiedad o caracterstica que nos permite distinguir
resultados se muestran en la tabla siguiente
entre si a las distintas poblaciones. As, en un anlisis de dos factores
por ejemplo, podramos separar la estatura de las personas utilizando Telares Resistencia
los siguientes dos factores: 1. Gnero (hombre o mujer) y 2. Mano 1 51 49 50 49 51 50
dominante derecha o izquierda. 2 56 60 56 56 57
Tratamiento: este trmino, se usa por lo general para referirse a las 3 48 50 53 44 45
diversas clasificaciones, ya sea de mezclas diferentes, anlisis 4 47 48 49 44
diferentes, fertilizadores diferentes o regiones del pas diferentes. Se 5 43 43 46 47 45 46
supone que las k poblaciones son independientes y normalmente
distribuidas con media y varianza comn. Estas suposiciones son ms En este experimento, se han considerado 5 tipos de telares y se han
aceptables mediante la aleatorizacin. realizado 6, 5, 5, 4 y 6 determinaciones de la resistencia de tela
Factor tratamiento: es un factor del que interesa conocer su influencia manufacturada con cada uno, respectivamente. Responder lo siguiente:
en la respuesta.
1. Cul es la variable de inters o variable de respuesta? La
Factor bloque: es un factor en el que no se est interesado en conocer resistencia
su influencia en la respuesta pero se supone que esta existe y se quiere 2. Cul es el factor? El telar
controlar para disminuir la variabilidad residual. 3. Cules son los niveles del factor? Los diferentes telares

23
Ejemplo 2. En una determinada fbrica de galletas se desea saber si Aleatorizar: se seleccionan al azar dos grupos de operarios y se asigna
las harinas de sus cuatro proveedores producen la misma viscosidad en al azar cada grupo de operarios a cada una de las dos mquinas.
la masa. Para ello, produce durante un da 16 masas, 4 de cada tipo de Finalmente se evala la produccin de las mismas.
harina, y mide su viscosidad. Los resultados obtenidos son: Bloquear: se introduce el factor-bloque operario. Se elige un nico
grupo de operarios y todos ellos utilizan las dos mquinas.
Proveedor A Proveedor B Proveedor C Proveedor D
98 97 99 96 4.6 Supuestos estadsticos en las pruebas experimentales
91 90 93 92
96 95 97 95
95 96 99 98

Responder lo siguiente:
1. Cul es la variable de inters o variable de respuesta?
2. Cul es el factor?
3. Cules son los tratamientos?
4.4 Identificacin de los efectos de los diseos experimentales
(Se deja al estudiante)
4.5 La importancia de la aleatorizacin de los especmenes de
prueba
Aleatorizar (y bloquear) son estrategias eficientes para asignar los
tratamientos a las unidades experimentales sin preocuparse de qu
tratamientos considerar. Aleatorizar todos los factores no controlados
por el experimentador en el diseo experimental y que pueden influir en
los resultados sern asignados al azar a las unidades experimentales. Cuando se cumplen estas condiciones, se emplea la prueba F como la
distribucin del estadstico de prueba.
Ventajas de aleatorizar los factores no controlados:
Transforma la variabilidad sistemtica no planificada en variabilidad no 4.7 Prueba de Duncan
planificada o ruido aleatorio. Dicho de otra forma, aleatorizar previene Se utiliza para comparar todos los pares de medias. Fue desarrollado
contra la introduccin de sesgos en el experimento. por primera vez por Duncan en 1951 pero posteriormente l mismo
Evita la dependencia entre observaciones al aleatorizar los instantes modific su primer mtodo generando el que ahora se denomina Nuevo
de colecta muestral. mtodo de Rango Mltiple de Duncan. Esta prueba no requiere de una
Valida muchos de los procedimientos estadsticos ms comunes. prueba previa de F, como sucede con la DMS (Diferencia Mnima
Significativa) o sea que an sin ser significativa la prueba F puede
Ejemplo. Se desea investigar las posibles diferencias en la produccin llevarse a cabo.
de dos mquinas, cada una de las cuales debe ser manejada por un
La estadstica de prueba es denotado, por
operario.
En el planteamiento de este problema la variable respuesta es la
produccin de una mquina (en un da), el factor-tratamiento en el que
se est interesado es el tipo de mquina que tiene dos niveles y un
factor nuisance es el operario que maneja la mquina. En el diseo del
experimento para realizar el estudio se pueden utilizar dos estrategias
para controlar el factor operario que maneja la mquina.

24
Donde es el nmero de medias inclusive entre las dos medias a
comparar para diseos balanceados. Para aplicar esta prueba al nivel
se debe pasar por las siguientes etapas:
1. Determinar el error estndar (desviacin estandar) de cada promedio,
, el cual es dado por la expresin:

d) A continuacin se compara la segunda media ms grande con


la ms pequea y se compara con el intervalo mnimo significativo
.
Donde el CM es obtenido de la tabla ANOVA

2. Con los grados de libertad del error y el nivel de significancia


determinar los valores de (intervalos o amplitudes estandarizadas
significativos) utilizando las tablas de amplitudes estandarizadas de
Duncan. Para encontrar estos valores, se requieren los grados de
libertad del error y el valor de .

3. Determinar las amplitudes mnimas significativas denotadas por Este proceso contina hasta que han sido comparadas las diferencias
entre todos los posibles pares de la forma:
calculados por la expresin:

4. Se ordenan de manera creciente los resultados promedios del Si una diferencia observada es mayor que el intervalo mnimo
significativo, se concluye que la pareja de medias comparadas son
experimento
significativamente diferentes.
5. Se comparan las medias ordenadas as Para evitar contradicciones, ninguna diferencia entre una pareja de
comienza a comparar en el siguiente orden: medias se considera significativamente diferente si stas se encuentran
entre otras dos que no difieren significativamente. A manera de
a) El promedio ms alto, con el ms bajo, comparando esta
ilustracin se tiene:
diferencia con el intervalo mnimo significativo . Si esta diferencia es
no significativa entonces todas las otras diferencias son no significantes. Cuando el diseo es desbalanceado pero los tamaos de rplicas
Si la diferencia es significativa se contina con b) difieren marcadamente este mtodo puede adaptarse
b) Posteriormente se calcula la diferencia entre el valor ms alto y utilizando en vez de en la estadstica, el valor de la media armnica
de los tamaos de muestras
el penltimo y se compara con el intervalo mnimo significativo

c) Este procedimiento se contina hasta que todas las medias se han


comparado con la media ms grande .

25
o alternativamente se puede reemplazar a por la media armnica
de las medias extremas, donde

y y son los tamaos de muestra correspondientes a las


medias de tratamientos menos pequeo y ms grande respectivamente.
4.8 Aplicaciones industriales
Ejemplo
Un ingeniero de desarrollo de productos est interesado en maximizar
la resistencia a la tensin de una nueva fibra sinttica que se emplear
en la manufactura de tela para camisas de hombre. El ingeniero sabe
por experiencia que la resistencia es influida por el porcentaje de
algodn presente en la fibra. Adems, l sospecha que elevar el Diagrama de dispersin de la resistencia contra el porcentaje de algodn
contenido de algodn incrementar la resistencia, al menos
inicialmente. Tambin sabe que el contenido de algodn debe variar Se observa en este grfico que parece existir una relacin curvilnea
aproximadamente entre 10 y 40 % para que la tela resultante tenga entre la resistencia y el porcentaje de algodn. A continuacin se ilustra
otras caractersticas de calidad que se desean (como capacidad de una comparacin entre las medias de los tratamientos, pareciendo
recibir un tratamiento de planchado permanente). El ingeniero decide indicar que a un porcentaje de 30% de algodn se obtiene la mayor
probar muestras a cinco niveles de porcentaje de algodn: 15, 20, 25, resistencia.
30 y 35 %. As mismo, decide ensayar cinco muestras a cada nivel del
contenido de algodn.los datos aparecen en la tabla

Al planificar un experimento hay tres principios bsicos que se deben


Para analizar esta situacin, inicialmente se presenta un grafica de
tener siempre en cuenta:
medias de tratamientos que permite visualizar el comportamiento de la
variable (lineal, cuadrtico, cbico u otro). El principio de aleatorizacin.
El bloqueo.
La factorizacin del diseo.

26
Los dos primeros (aleatorizar y bloquear) son estrategias eficientes para
asignar los tratamientos a las unidades experimentales sin preocuparse
de qu tratamientos considerar. Por el contrario, la factorizacin del
diseo define una estrategia eficiente para elegir los tratamientos sin
considerar en absoluto como asignarlos despus a las unidades
experimentales.
Ejemplo

*Se compara con R5 porque entre 1 y 4 hay inclusive 5 medias


Al presentar en un diagrama de lneas los resultados se tiene:

Se acostumbra resumir las conclusiones anteriores mediante el dibujo


de una lnea bajo cualquier subconjunto de medias contiguas que no
son significativamente diferentes.

27
5. DISEO EXPERIMENTAL CON BLOQUES AL AZAR Y DISEOS
FACTORIALES
5.1 Metodologa del diseo experimental de bloques al azar
5.3 Diseo factorial 2K
Hay ciertos tipos especiales de diseos factoriales que son muy tiles.
Uno de stos es un diseo factorial con k factores, cada uno en dos
niveles. Debido a que cada rplica completa del diseo tiene 2k
ejecuciones o combinaciones de tratamiento, el arreglo se llama un
diseo factorial 2k. Estos diseos tienen un anlisis estadstico
sumamente simplificado, y adems forman la base de muchos otros
diseos tiles.
El tipo ms simple de diseo 2k es el 22; esto es, dos factores A y B,
cada uno en dos niveles. Solemos considerarlos como los niveles bajo
y alto del factor. El diseo 22 se muestra en la siguiente figura.
5.2 Diseo de experimentos factoriales
Advirtase que el diseo puede presentarse geomtricamente como un
cuadrado con las 22 = 4 ejecuciones formando las esquinas de un
cuadrado. Se emplea una notacin especial para representar las
combinaciones de tratamiento. En general una combinacin de
tratamiento se representa por medio de una serie de letras minsculas.
Si est presente una letra, entonces el factor correspondiente se ejecuta
en su nivel bajo. Por ejemplo, la combinacin de tratamiento a indica
que el factor A esta en el nivel alto y el factor B est en el nivel bajo. La
combinacin de tratamiento con ambos factores en el nivel bajo se
representa por medio de (1). Esta notacin se usa a lo largo de las
series del diseo 2k.

28
Los mtodos presentados para los diseos factoriales con k = 2 mquinas, dos operadores, los niveles "superior" e "inferior" de un
factores cada uno en dos niveles pueden extenderse con facilidad a factor, o quizs, la ausencia o presencia de un factor.
ms de dos factores. Por ejemplo, considrese k = 3 factores, cada uno
Una rplica completa de tal diseo requiere que se recopilen 2 x 2 x ....
en dos niveles. Este es un diseo factorial 23, y tiene ocho
x 2 = 2k observaciones y se conoce como diseo general 2k.
combinaciones de tratamiento. Geomtricamente, el diseo es un cubo
como se muestra en la siguiente figura, con las ocho ejecuciones 5.4 Diseo de cuadrado latino
formando las esquinas del cubo. Este diseo permite estimar tres
factores principales (A, B y C) junto con tres interacciones de dos Un cuadrado latino K K es una disposicin de K letras en una matriz K
factores (AB, AC y BC) y una interaccin de tres factores (ABC). K de forma que todas las letras aparecen una vez en cada fila y una
vez en cada columna. Por ejemplo, un cuadrado latino 3 3 es el
siguiente:

Un cuadrado latino es un cuadrado latino estndar cuando las letras de


la primera fila y de la primera columna estn dispuestas en orden
alfabtico.
La denominacin simblica de estos diseos es igual que las de los
diseos factoriales, pero con distinto significado: un diseo de cuadrado
latino 2x2 significa que tiene dos variables de bloqueo con dos valores
cada una y el nmero de condiciones experimentales es 2. En cambio,
un diseo factorial 2x2 significa que tiene dos variables independientes
con dos niveles cada una y el nmero de tratamientos es 4.
Los diseos de cuadrado latino pueden ser unifactoriales y factoriales y
en ambos casos se tienen que cumplir las siguientes condiciones:
Los principales efectos pueden estimarse con facilidad. Recurdese que
las letras minsculas (1), a, b, ab, c, ac, bc y abc representan el total de Las variables de bloqueo tienen que estar muy relacionadas con la
todas las n rplicas en cada una de las ocho combinaciones de variable dependiente y no pueden interactuar entre s, ni con la variable
tratamiento del diseo. independiente.
En esta parte se ha presentado el diseo y anlisis de experimentos El nmero de bloques de cada variable de bloqueo y de tratamientos
con varios factores, concentrndose en los diseos factoriales. Estos tiene que ser el mismo.
son a ampliamente utilizados en experimentos en los que intervienen Las variables bloqueadas se ordenan dentro de una matriz, matriz de
varios factores para estudiar el efecto conjunto de estos sobre una bloqueo, con tantas filas y columnas como bloque se hayan formado en
respuesta. Existen varios casos especiales del diseo factorial general las variables de bloqueo. Una de las variables se sita en el sentido de
que resultan importantes porque. se usan ampliamente en el trabajo de las filas y la otra en el de las columnas. El nmero de celdillas tiene que
investigacin, y porque constituyen la base para otros diseos de gran ser igual al producto del nmero de valores o bloques de cada variable
valor prctico. de bloqueo. As, por ejemplo, en el caso de un diseo 2x2, el nmero de
El ms importante de estos casos especiales ocurre cuando se tienen k celdillas sea cuatro.
factores, cada uno con dos niveles. Estos niveles pueden ser Los tratamientos se suelen representar dentro de cada celdilla con
cuantitativos como sera el caso de dos valores de temperatura presin diferentes letras del alfabeto latino. La disposicin del cuadrado latino
o tiempo. Tambin pueden ser cualitativos como sera el caso de dos

29
puede ser utilizada tambin en los diseos intrasujeto para el control del
efecto del orden o en la aplicacin de diseos factoriales incompletos.
A cada celdilla se le aplica aleatoriamente un tratamiento, teniendo en
cuenta que cada condicin experimental debe aparecer una sola vez en
cada fila y en cada columna, siendo cada fila y cada columna una
rplica completa del experimento.
El proceso que tenemos que seguir para aplicar este diseo es el
siguiente:
Determinar cules van a ser las variables de bloqueo y medirlas en
todos los sujetos de la muestra antes de la formacin de los grupos.
En funcin del nmero de tratamientos decidimos cuntos bloques
vamos a formar.
Construimos la matriz de datos, colocando los bloques de cada una
variable de bloqueo en las firmas y los de la otra variable de bloqueo en
las columnas.
Asignamos aleatoriamente los tratamientos a las celdillas teniendo en
cuenta que cada tratamiento debe aparecer una sola vez en cada fila y
en cada columna y cada fila y cada columna tiene que ser una rplica
del experimento. En cada fila y cada columna tiene que haber todas las
condiciones experimentales.
Aplicamos los tratamientos experimentales a todos los sujetos y
medimos la variable dependiente, analizamos los datos con un anlisis
de varianza, interpretamos los resultados, extraemos conclusiones y
generalizamos a la poblacin de la que hemos extrado la muestra.
Finalmente redactamos el informe de la investigacin.
A continuacin tenemos la representacin simblica del diseo de
cuadrado latino 2x2:

Este diseo, al bloquear dos variables posee mayor validez interna que
los diseos anteriores, pero la validez externa es muy pequea debido a
la eliminacin de sujetos y a la sensibilizacin de los sujetos a las
medidas de las variables de bloqueo.
5.4 Diseo de cuadrado grecolatino
(Se deja al estudiante)

30
FUENTES DE INFORMACIN investigan todas las posibles combinaciones de los niveles de los
1. Baird, D. C., Experimentacin, Prentice-Hall Hispanoamericana, S. A. factores en cada ensayo completo o rplica del experimento. Por
2. Lawson, John, Jose L. Madrigal & John Erjavec, Estrategias ejemplo, si existen a niveles del factor A y b niveles del factor B,
experimentales para el mejoramiento de la Calidad en la Industria, entonces cada rplica del experimento contiene todas las ab
Grupo Editorial Iberoamrica S. A. de C. combinaciones de los tratamientos. A menudo, se dice que los factores
3. Montgomery, Douglas C., Diseo y Anlisis de Experimentos, estn cruzados cuando stos se arreglan en un diseo factorial.
Grupo Editorial Iberoamrica S. A. de C.
El efecto de un factor se define como el cambio en la respuesta producida
4. Canavos, George C., Probabilidad y Estadstica, Aplicaciones y
por un cambio en el nivel del factor. Con frecuencia, ste se conoce como
Mtodos, Grupo Editorial Iberoamrica
efecto principal porque se refiere a los factores de inters primordial del
5. Yamane, Taro, Estadstica, Harla, S.A.
experimento. Por ejemplo, consideremos los datos de la tabla 1. El efecto
6. Shao, Stephen P., Estadstica para Economistas y Administradores
de Empresas, Herrero Hermanos, Sucs., S.A. principal del factor A es la diferencia entre la respuesta promedio en el
7. Juran, J.M. & Frank M. Gryna, Manual de Control de Calidad, primer nivel de A y la respuesta promedio en el segundo nivel de A.
McGraw-Hill, Vol. I y II
El diseo de cuadrado grecolatino se caracteriza porque utiliza dos
8. Draper, N.R. & H. Smith, Applied Regression Analysis, John Wiley &
variables de bloque si tiene dos variables independientes (diseo factorial)
Sons
y tres variables de bloqueo si slo tiene una variable independiente (diseo
9. Levin I. Richard Estadstica para administadores. Ed. Prentice-Hall
unifactorial) ya que es imprescindible en este diseo que el nmero total
10. L. Kazmier Estadstica aplicada apara la administracin y economa
de variables entre variables independientes y bloqueadas sea 4.
Editorial: McGraw Hill
11. Walpole Probabilidad y estadstica. Editorial McGraw Hill
12. John E. Freund A. Simon. Estadstica elemental. Ed. Prentice-Hall
13. William Mendenhall D. Wackerly, L. Scheaffer. Estadstica
matemtica con aplicaciones. Editorial Grupo editorial Iberoamericana
14. Box, Hunter, Hunter. Estadstica para investigadores. Ed. Reverte
15. Bowerman, Bruce L. Pronsticos, series de tiempo y Regresin.
Editorial: Thomson.

1. Si r = 1 r = -1 Correlacin perfecta
2. Si 0.9 r < 1 -1 < r -0.9 Correlacin excelente
3. Si 0.8 r < 0.9 -0.9 < r -0.8 Correlacin buena
4. Si 0.6 r < 0.8 -0.8 < r -0.6 Correlacin regular
5. Si 0.3 r < 0.6 -0.6 < r -0.3 Correlacin mala
6. Si -0.3 < r < 0.3 No hay correlacin
y = o + 1 x

Muchos experimentos se llevan a cabo para estudiar los efectos


producidos por dos o ms factores. Puede mostrarse que en general los
diseos factoriales son los ms eficientes para este tipo de
experimentos. Por diseo factorial se entiende aquel en el que se

31