Vous êtes sur la page 1sur 176

Diseo de experimentos

ndice General
Conceptos bsicos de Inferencia Estadstica
1 Conceptos bsicos de Inferencia Estadstica.
1.1 Objetivos de la Inferencia Estadstica.
1.2 Inferencia Estadstica. Conceptos bsicos.
1.3 Contraste o test de hiptesis. Definiciones.
1.3.1 Definiciones bsicas.
1.3.2 Pasos a seguir en la realizacin de un contraste de hiptesis.
1.3.3 Tipos de Error en un contraste de hiptesis.
1.3.4 Nivel crtico y regin crtica.
1.3.5 Potencia de un contraste.
1.3.6 Algunos contrastes paramtricos importantes.

Teora de Diseo de Experimentos


2 Principios bsicos del diseo de experimentos.
2.1 Introduccin.
2.2 Tipos de variabilidad.
2.3 Planificacin de un experimento.
2.4 Tres principios bsicos.
2.5 Algunos diseos experimentales clsicos.
2.5.1 Diseo completamente aleatorizados.
2.5.2 Diseo en bloques o con un factor bloque.
2.5.3 Diseos con dos o ms factores bloque.
2.6 Ejemplos Reales.
3 Diseos con una fuente de variacin.
3.1 Introduccin.
3.2 Modelo matemtico (diseo completamente aleatorizado).
3.3 Estimacin de los parmetros.
3.3.1 Estimadores por mxima-verosimilitud.
3.3.2 Estimadores por mnimo-cuadrticos.
3.3.3 Estimacin puntual de la varianza.
3.4 Anlisis de la varianza de una va.
3.4.1 Idea general.
3.4.2 Descomposicin de la variabilidad.
3.5 Inferencia de los parmetros del modelo.
3.5.1 Intervalos de confianza de los parmetros.

3.5.2 Contrastes.
3.5.3 Contrastes mltiples.
3.6 Efectos aleatorios.
3.6.1 El modelo matemtico de un factor aleatorio.
3.6.2 Contraste de igualdad de los efectos tratamiento.
4 Chequeo y validacin del modelo con un factor.
4.1 Hiptesis estructurales del modelo.
4.2 Bondad del ajuste del modelo.
4.3 Normalidad de los errores.
4.4 Homocedasticidad de los errores.
4.5 La familia de transformaciones de Box-Cox.
4.6 Homogeneidad de los errores. Datos atpicos.
4.7 Independencia de los errores.
4.7.1 Grficos para detectar dependencia.
4.7.2 Contrastes para detectar dependencias.
4.8 Contraste de Kruskal-Wallis. Alternativa no paramtrica al Anova.
5 Diseos con dos o ms factores.
5.1 Concepto de bloque.
5.2 Modelo de diseo en bloques completamente aleatorizados.
5.2.1 Modelo matemtico.
5.2.2 Estimacin de los parmetros.
5.2.3 Anlisis de la varianza.
5.2.4 Anlisis de residuos.
5.3 La interaccin entre factores.
5.4 Modelos de dos factores-tratamiento.
5.4.1 Modelo matemtico.
5.4.2 Estimacin de los parmetros.
5.4.3 Descomposicin de la variabilidad
5.4.4 Diseo factorial con tres factores.
5.5 Fracciones factoriales. El cuadrado latino.
5.5.1 El cuadrado latino.
5.5.2 Extensiones de los modelos de diseos experimentales.
6 Chequeo y diagnosis del modelo de regresin lineal simple. Anlisis de
residuos.
6.1 Problemas al ajustar un modelo de regresin lineal simple.
6.2 La hiptesis de linealidad. Transformaciones.
6.3 Anlisis de residuos. Grficos.
6.3.1 Residuos. Tipos.
6.3.2 Grficos de residuos.
6.4 Observaciones atpicas y observaciones influyentes.
6.4.1 Valor de influencia.
6.4.2 El estadstico D de Cook.
6.5 Las hiptesis bsicas.

6.5.1 La hiptesis de normalidad.


6.5.2 La hiptesis de homocedasticidad.
6.5.3 La hiptesis de independencia.
7 Modelo de regresin lineal mltiple.
7.1 Regresin Lineal General: el modelo matemtico
7.2 Estimacin de los parmetros del modelo.
7.3 Interpretacin geomtrica.
7.4 Propiedades de los estimadores.
7.4.1 El estimador mnimo-cuadrtico de los parmetros de la recta.
7.4.2 El estimador de la varianza.
7.4.3 Intervalos de confianza para los parmetros de la recta.
7.4.4 Teorema de Gauss-Markov.
7.5 El Anlisis de la Varianza.
7.5.1 El contraste conjunto de la F.
7.5.2 Contrastes individuales de la F.
7.6 Correlacin.
7.6.1 Coeficiente de correlacin mltiple.
7.6.2 Correlacin Parcial
7.7 Prediccin en el Modelo de Regresin Lineal Mltiple.
7.7.1 Estimacin de las medias condicionadas.
7.7.2 Prediccin de una observacin.
8 Modelos de regresin lineal mltiple. Diagnosis y validacin.
8.1 Problemas en el ajuste de un modelo de regresin lineal mltiple.
8.2 Multicolinealidad.
8.3 Anlisis de residuos. Grficos.
8.4 Hiptesis de normalidad.
8.5 Hiptesis de homocedasticidad.
8.6 Hiptesis de independencia.
8.7 Anlisis de influencia. Observaciones atpicas.
8.7.1 Influencia a priori.
8.7.2 Influencia a posteriori.
8.8 Error de especificacin.
8.9 Seleccin de variables regresoras.
8.10 Criterios para la eleccin de un modelo de regresin.
8.11 Resumen de los modelos de regresin lineal.

Teora de Regresin Lineal

9 El modelo de regresin lineal simple.


9.1 Introduccin a los modelos de regresin.Objetivos.
9.2 Clasificacin de los modelos de regresin.
9.3 El modelo de regresin lineal simple.

9.3.1 Formulacin matemtica del modelo.


9.3.2 Estimacin de los parmetros del modelo.
9.3.3 Propiedades de los estimadores.
9.4 Interpretacin geomtrica del modelo.
9.5 Contrastes sobre los parmetros del modelo. El contraste individual de la t.
9.6 Tabla ANOVA del modelo de regresin lineal simple. El contraste de
regresin.
9.7 El contraste de linealidad.
9.8 Coeficiente de determinacin. Coeficiente de correlacin.
9.9 Prediccin en regresin lineal simple.
9.9.1 Estimacin de las medias condicionadas.
9.9.2 Prediccin de una observacin.
9.10 Modelo de regresin lineal con regresor estocstico.
10 Otros modelos de regresin importantes.
10.1 Estimacin por mnimos cuadrados generalizados.
10.1.1 Heterocedasticidad.
10.1.2 Observaciones dependientes.
10.2 Estimacin robusta.
10.3 Estimacin polinmica.
10.4 Regresin con variables regresoras cualitativas.
10.5 Regresin con variable respuesta binaria.
10.6 Regresin contrada (ridge regression)
10.7 Regresin no lineal.

1.1 Objetivos de la Inferencia Estadstica.


El objetivo de la Estadstica es medir y modelar la variabilidad del proceso
mediante un modelo probabilstico.
Para modelar la variabilidad de una variable aleatoria si slo se dispone del
conocimiento de una muestra de la misma se sigue el siguiente modo de
actuacin:
1. Planteamiento del problema.
2. Seleccin de la muestra (Muestreo estadstico), en algunos estudios la
muestra se obtiene por simulacin (Simulacin Estadstica)
3. Estudio descriptivo de la muestra, analtico y grfico (Estadstica
Descriptiva).
4. En base al conocimiento de los modelos probabilsticos ms utilizados y
teniendo en cuenta el planteamiento del problema y el estudio descriptivo
previo, elegir un modelo de probabilidad (Teora de la Probabilidad).
5. Estimar los parmetros del modelo supuesto a partir de las observaciones
muestrales utilizando los mtodos de Inferencia Estadstica: estimacin
puntual, estimacin por intervalos de confianza y contrastes de hiptesis
paramtricos.
6. Chequear que el modelo de probabilidad ajustado a los datos es adecuado
y que se verifican las hiptesis supuestas en el estudio, por ejemplo, que
las observaciones muestrales son independientes, que no existen
observaciones errneas,...,etc. Para ello se utilizan los mtodos de
Inferencia no Paramtrica.
7. Si se acepta que el modelo ajustado es adecuado se puede utilizar para
obtener resultados y conclusiones sobre la variable en estudio. En caso
contrario, se debe reformular el modelo de probabilidad y repetir el
proceso desde el paso 4.
Si se obtiene ms informacin se puede mejorar el conocimiento de la
variabilidad de la variable de inters. Puede hacerse por los siguientes medios:
Mejorar la estimacin de los parmetros del modelo, utilizando mtodos
estadsticos ms eficaces.
Aumentando el tamao muestral.
Reducir la variabilidad controlando la variabilidad sistemtica que puede ser
debida a factores que influyen en la variable en estudio o controlando otras
variables relacionadas con la variable de inters y que explican en mayor o
menor medida su comportamiento. Para ello es necesario disponer de
informacin adicional a la de la propia variable de inters, y tener datos de los
factores y/o variables explicativas que influyen en ella.
Este texto se estudian los modelos estadsticos que estudian una variable
utilizando su relacin con otras variables y/o factores. En particular se

estudiarn los dos modelos estadsticos ms importantes y utilizados en la


prctica,
El Diseo de Experimentos, que estudia la variabilidad de la variable de
inters controlando los factores que pueden influir en la misma.
Los Modelos de Regresin, que estudian la variabilidad de la variable de
inters teniendo en cuenta la relacin funcional de la misma con otras
variables explicativas.

1.2 Inferencia Estadstica. Conceptos bsicos.


Puede definirse la Inferencia Estadstica como

El conjunto de mtodos estadsticos que permiten deducir (inferir)


como se distribuye la poblacin en estudio o las relaciones estocsticas
entre varias variables de inters a partir de la informacin que
proporciona una muestra.
Para que un mtodo de inferencia estadstica proporcione buenos resultados
debe de:
Basarse en una tcnica estadstico-matemtica adecuada al problema y
suficientemente validada.
Utilizar una muestra que realmente sea representativa de la poblacin y de un
tamao suficiente.
Conceptos bsicos que se utilizarn en este texto son los siguientes:
Poblacin: es un conjunto homogneo de individuos sobre los que se estudia
una o varias caractersticas que son, de alguna forma, observables.
Muestra: es un subconjunto de la poblacin. El nmero de elementos de la
muestra se denomina tamao muestral.
Muestreo aleatorio simple: es aquel en el que todos los individuos de la
poblacin tienen la misma probabilidad de ser elegidos.
Muestra aleatoria simple, de una variable aleatoria X, con distribucin F, de
tamao n, es un conjunto de n variables aleatorias X1,X2,...,Xn, independientes
e igualmente distribudas (i.i.d.) con distribucin F.
Espacio muestral: es el conjunto de muestras posibles que pueden obtenerse
al seleccionar una muestra aleatoria, de tamao n, de una cierta poblacin.
Parmetro: es cualquier caracterstica medible de la funcin de distribucin
de la variable en estudio (media, varianza,..).
Estadstico: es una funcin de la muestra T
. Por tanto, es una
variable aleatoria que tiene una funcin de distribucin que se denomina
distribucin en el muestreo de T. Los estadsticos independientes del
parmetro a estimar se denominan estimadores.
Propiedades de los estimadores.
Sea n = n
un estimador del parmetro . Propiedades del
estimador son las siguientes

1. Estimador centrado o insesgado, tiene sesgo cero,

2. Estimador asintticamente centrado o insesgado, verifica

3. Error Cuadrtico Medio de

, es

4. Estimador consistente en media cuadrtica, verifica

5. La precisin o eficacia del estimador

es

Si el estimador es insesgado

6. Estimador de la media poblacional, se utiliza la media muestral


definida por
(1.1)
7. Si X sigue una distribucin N

, se verifica que
(1.2)

8. Estimador de la varianza poblacional, se utiliza la cuasivarianza


muestral definida por
(1.3)
9. Si X sigue una distribucin N

, se verifica que
(1.4)

10.Dado que normalmente la varianza poblacional se desconoce y es

necesario estimarla, es de inters el siguiente resultado


(1.5)

1.3 Contraste o test de hiptesis. Definiciones.


1.3.1 Definiciones bsicas.
Un contraste o test de hiptesis es una tcnica de Inferencia Estadstica que
permite comprobar si la informacin que proporciona una muestra observada
concuerda (o no) con la hiptesis estadstica formulada sobre el modelo de
probabilidad en estudio y, por tanto, se puede aceptar (o no) la hiptesis
formulada.
Una hiptesis estadstica es cualquier conjetura sobre una o varias
caractersticas de inters de un modelo de probabilidad.
Un hiptesis estadstica puede ser:
Paramtrica: es una afirmacin sobre los valores de los parmetros
poblacionales desconocidos. Las hiptesis paramtricas se clasifican en
Simple: si la hiptesis asigna valores nicos a los parmetros ( = 1'5, = 10,
X =
Y ,...).
Compuesta: si la hiptesis asigna un rango de valores a los parmetros
poblacionales desconocidos ( > 1'5, 5 < < 10, X < Y ,...).
No Paramtrica: es una afirmacin sobre alguna caracterstica estadstica de la
poblacin en estudio. Por ejemplo, las observaciones son independientes, la
distribucin de la variable en estudio es normal, la distribucin es simtrica,...
La hiptesis que se contrasta se denomina hiptesis nula y, normalmente, se
denota por H0. Si se rechaza la hiptesis nula es porque se asume como correcta
una hiptesis complementaria que se denomina hiptesis alternativa y se denota
por H1.
1.3.2 Pasos a seguir en la realizacin de un contraste de hiptesis.
Al realizar cualquier contraste de hiptesis estadstico se deben seguir las
siguientes etapas:
1. Plantear el contraste de hiptesis, definiendo la hiptesis nula (H0,
hiptesis que se desea contrastar), y la hiptesis alternativa (H1, cualquier
forma de negacin de la hiptesis nula ).
2. Definir una medida de discrepancia entre la informacin que proporciona
la muestra ( ) y la hiptesis H0. Esta medida de discrepancia
(1.6)
3. se denomina estadstico del contraste y ser cualquier funcin de los
datos muestrales
hiptesis nula
.

y de la informacin de la

La medida de discrepancia debe seguir una distribucin conocida cuando


H0 sea cierta, de forma que se pueda distinguir entre:
una discrepancia grande, la que tiene una probabilidad muy pequea de ocurrir
cuando H0 es cierto.
una discrepancia pequea, la que tiene una probabilidad grande de ocurrir
cuando H0 es cierta.
4. Decidir que valores de d se consideran muy grandes, cuando H0 es cierto,
para que sean atribuibles al azar. sto es, decidir que discrepancias se
consideran inadmisibles cuando H0 es correcto, lo que equivale a indicar el
valor del nivel de significacin, que se denota por .
5. Tomar la muestra ( ), calcular el valor del estadistico asociado a la
muestra (valor crtico del contraste) y analizar:
Si es pequeo (pertenece a la regin de aceptacin), entonces se acepta
la hiptesis H0.
Si es grande (pertenece a la regin de rechazo), entonces se rechaza la
hiptesis H0.
1.3.3 Tipos de Error en un contraste de hiptesis.
Al realizar un contraste se puede cometer uno de los dos errores siguientes:
Error tipo I, se rechaza la hiptesis nula H0 cuando es cierta.
Error tipo II, se acepta la hiptesis nula H0 cuando es falsa.

Situacin real:
H es cierta H es falsa
0

ACEPTAR H

CORRECTO

ERROR II

ERROR I

CORRECTO

Decisin:
RECHAZAR H

Tabla 1.1: Situaciones posibles en un contraste de hiptesis.


Debe tenerse en cuenta que slo se puede cometer uno de los dos tipos de error
y, en la mayora de las situaciones, se desea controlar controlar la probabilidad
de cometer un error de tipo I.
Se denomina nivel de significacin de un contraste a la probabilidad de
cometer un error tipo I, se denota por y, por tanto,
(1.7)
Fijar el nivel de significacin equivale a decidir de antemano la probabilidad
mxima que se est dispuesto a asumir de rechazar la hiptesis nula cuando es
cierta. El nivel de significacin lo elige el experimentador y tiene por ello la

ventaja de tomarlo tan pequeo como desee (normalmente se toma = 0'05, 0'01
o 0'001).
La seleccin de un nivel de significacin conduce a dividir en dos regiones
el conjunto de posibles valores del estadstico de contraste:
La regin de Rechazo, con probabilidad , bajo H0.
La regin de Aceptacin, con probabilidad 1 - ,bajo H0.
Si el estadstico de contraste toma un valor perteneciente a la regin de
aceptacin, entonces no existen evidencias suficientes para rechazar la hiptesis
nula con un nivel de significacin
y el contraste se dice que estadsticamente
no es significativo. Si, por el contrario, el estadstico cae en la regin de
rechazo entonces se asume que los datos no son compatibles con la hiptesis
nula y se rechaza a un nivel de significacin . En este supuesto se dice que el
contraste es estadsticamente significativo.
Por tanto, resolver un contraste estadstico es calcular la regin de
aceptacin y la regin de rechazo y actuar segn la siguiente regla de decisin:
Se obtiene la muestra =
y se calcula el estadstico del
contraste .
(1.8)
Segn la forma de la regin de rechazo, un contraste de hiptesis, paramtrico o
no, se denomina
Contraste unilateral o contraste de una cola es el contraste de hiptesis cuya
regin de rechazo est formada por una cola de la distribucin del estadstico
de contraste, bajo H0.
Contraste bilateral o contraste de dos colas es el contraste de hiptesis cuya
regin de rechazo est formada por las dos colas de la distribucin del
estadstico de contraste, bajo H0.

Figura 1.2. Contraste bilateral. H0 : = 0, H1 :

0.

Figura 1.3. Contraste unilateral H0 : > 0, H1 : < 0.


En la resolucin de un problema de test de hiptesis qu parmetro que no se
controla?
El error de tipo II. Se desconoce la probabilidad de aceptar la hiptesis nula
cuando es falsa.
Si, simultneamente, se desea controlar la probabilidad de error de tipo I
y
la probabilidad de error de tipo II ( ( 1)) se debe especificar el tamao muestral
que se est dispuesto a asumir. sto es, si se quiere controlar el porcentaje de
veces que se detecta la hiptesis alternativa (que se denota = 1) cuando es
cierta, que en trminos de probabilidad se denota por

es necesario calcular el tamao muestral n adecuado para garantizar que ambas


probabilidades de error sean las fijadas.
Obviamente existe una relacin entre los tres parmetros (n, y ( )),
conocidos dos de ellos se puede obtener el tercero:
n, tamao muestral,
, probabilidad de error de tipo I,
( ), probabilidad de error de tipo II.
1.3.4 Nivel crtico y regin crtica.

Si el contraste de hiptesis se va estudiar con una nica muestra y no de forma


repetida y sistemtica, se puede utilizar una filosofa alternativa y ms
informativa que se basa en los conceptos de nivel crtico y regin crtica.
Se denomina nivel crtico o p-valor a la probabilidad p de obtener una
discrepancia con H0 mayor o igual que el valor crtico cuando H0 es correcto.
(1.9)
La regin crtica es el conjunto de valores para los cuales d es mayor o igual
que el valor crtico d . por tanto

Figura 1.7. Nivel crtico. Contraste unilateral sobre la media con

= 0'84.

Comentarios:
1. El nivel crtico slo puede calcularse una vez tomada la muestra,
obtenindose niveles crticos distintos para cada muestra.
2. El nivel crtico p puede interpretarse como un nivel mnimo de
significacin en el sentido de que niveles de significacin iguales o
superiores al p - valor llevarn a rechazar la hiptesis nula.
Por tanto, cuanto menor sea el p - valor mayor es el grado de
incompatibilidad de la muestra con H0, lo que lleva a rechazar H0.
3. El clculo del nivel crtico no proporciona de modo sistemtico una
decisin entre H0 y H1.

4. En las Figuras 1.7 (y 1.8) pueden verse representados el nivel crtico y la


regin crtica en un contraste unilateral (y bilateral) acerca de la media,
bajo la hiptesis de normalidad.
1.3.5 Potencia de un contraste.
Para medir la bondad de un contraste de hiptesis se utiliza el concepto de
potencia del contraste. Considrese que se est estudiando un contraste de
hiptesis acerca del parmetro , siendo la hiptesis nula

frente a la hiptesis alternativa

Se denomina potencia al nivel del estadstico de contraste d a la funcin que


asigna a cada valor del parmetro la probabilidad de rechazar H0 cuando es
correcto.
Esto es,

donde
(1.10)
Comentarios:
1. Al grafo de la potencia se lo denomina curva de potencia. En algunos
textos se trabaja con la funcin curva caracterstica de operacin
definida por
(1.11)
2. Si denotamos por a la probabilidad de error de tipo I, se verifica que

Cuanto ms lejana se encuentra la alternativa H1 de H0 menor es la


probabilidad de incurrir en un error tipo II ( ) y, por consiguiente, la
potencia tomar valores ms prximos a 1.
3. Si la potencia en la hiptesis alternativa es siempre muy prxima a 1
entonces se dice que el estadstico de contraste es muy potente para
contrastar H0 ya que en ese caso las muestras sern, con alta probabilidad,
incompatibles con H0 cuando H1 sea cierta.
Por tanto puede interpretarse la potencia de un contraste como su
sensibilidad o capacidad para detectar una hiptesis alternativa.

4. Fijado un nivel de significacin , un contraste d1 se dice ms potente que


otro d2 para contrastar la hiptesis nula H0 si
(1.12)
5. En la Figura 1.9. se representa la funcin de potencia del contraste H0 : =
0 frente a la alternativa H1 :
0 (contraste bilateral), bajo la hiptesis de
normalidad, con = 0'10 y tamao muestral n = 100.
En la Figura 1.10. se representa la funcin de potencia del contraste H0 :
< 0 frente a la alternativa H1 : > 0 (contraste unilateral), bajo la hiptesis
de normalidad, con = 0'10 y tamao muestral n = 100.

Figura 1.9. Funcin de Potencia. Contraste bilateral acerca de la media.

Figura 1.10. Funcin de Potencia. Contraste unilateral acerca de la media.


1.3.6 Algunos contrastes paramtricos importantes.
Se exponen en esta seccin algunos de los estadsticos de contraste ms
importantes para contrastar hiptesis nulas del tipo H0 : = 0, siendo un
parmetro desconocido y de cuyo valor depende la distribucin de una variable
de inters X.
Contrastes sobre la media. A partir de una muestra
extrada
de una poblacin X normal con media y varianza 2 desconocidas, se desea
contrastar la hiptesis nula
El estadstico de contraste es
(1.13)
donde es la desviacin tpica muestral corregida

. Si H0 es cierto

Contrastes sobre la varianza. Sea la muestra aleatoria simple


extrada de una poblacin X normal con varianza
contrastar

, se desea

El estadstico de contraste es
(1.14)
Si H0 es cierto

Contrastes sobre la igualdad de varianzas. Sean dos muestras aleatorias


simples
e
obtenidas de dos poblaciones X e Y,
con distribuciones respectivas N

yN

. Se desea contrastar

El estadstico de contraste es
(1.15)
Si H0 es cierto
Contrastes sobre la diferencia de medias, muestras independientes e
igualdad de varianzas. Sean dos muestras aleatorias simples
obtenidas de dos poblaciones X e Y, con distribuciones N
yN
contrastar

. Por tanto se supone que

2
X

. Se desea

El estadstico de contraste es
(1.16)
siendo
(1.17)
un estimador insesgado eficiente de la varianza que se calcula a partir de la
informacin que proporcionan ambas muestras.
Si H0 es cierto se verifica que
Contrastes sobre la diferencia de medias, muestras independientes y
varianzas desiguales. Sean dos muestras aleatorias simples
obtenidas de dos poblaciones X e Y, con distribuciones
respectivas N
contrastar

yN

,y no puede suponerse que

. Para

El estadstico de contraste que se utiliza es


(1.18)
Si H0 es cierto se verifica que

siendo g = n + m - 2 + , con un trmino de correccin (ver Cao y otros


(2001)).
Contrastes sobre la diferencia de medias, muestreo apareado. En este caso
las dos muestras aleatorias simples tienen igual tamao muestral
e
y son obtenidas al realizar dos observaciones
Xi e Y i sobre el mismo individuo, el i-simo. Por la naturaleza del muestreo
apareado las dos muestras son dependientes. Para eliminar este problema se
estudia la variable diferencia Z = Y - X, por tanto, a partir de las dos muestras
iniciales se calcula la muestra de diferencias
, Zi = Xi - Y i. Para
contrastar la hiptesis
Se utiliza el siguiente estadstico de contraste
(1.19)
Si H0 es cierto

Captulo 2
Principios bsicos del diseo de experimentos.
2.1 Introduccin.
La adquisicin de conocimientos nuevos viene condicionada por dos elementos
esenciales:
la ocurrencia de algn hecho diferente de lo habitual,
la circunstancia de que este hecho se produzca en presencia de una persona
capaz de identificarlo como extrao, reflexionar sobre l y, lo que es ms
difcil, extraer consecuencias.
La experimentacin se basa en reproducir artificialmente estas dos
circunstancias. Se trata de forzar la aparicin de circunstancias extraas en
presencia de personas especialmente preparadas para interpretar y extraer
conclusiones de lo que ocurra.

En una investigacin de tipo emprico es natural que repitiendo un


experimento, en condiciones indistinguibles para el experimentador, los
resultados presenten variabilidad.

La metodologa del Diseo de Experimentos estudia cmo variar


deliberadamente las condiciones habituales de un proceso emprico
para aumentar la probabilidad de detectar cambios significativos en la
respuesta y obtener as un conocimiento ms profundo sobre el
comportamiento del proceso.
Tpicamente, un experimento se realiza por una o varias de las siguientes
razones:
determinar las principales causas de variacin en la respuesta,
encontrar las condiciones experimentales que permiten alcanzar un valor
extremo en la respuesta,
comparar las respuestas en diferentes niveles de observacin de variables
controladas,
obtener un modelo matemtico que permita predecir respuestas futuras.
Pero, es realmente necesario planificar experimentos? no se podran obtener
las mismas conclusiones analizando convenientemente los datos disponibles?
Puede resultar peligroso analizar datos que no proceden de una adecuada
planificacin experimental aunque tambin se puede aprender de los estudios
realizados a partir de datos recogidos por observacin, de forma aleatoria y no
planificada. Si no se toman las debidas precauciones, en los estudios derivados
de la observacin muestral, hay un alto riesgo de cometer los siguientes errores
en el anlisis estadstico:
inconsistencia de los datos;
rango de variables limitado;
variables altamente correlacionadas: confusin de efectos;
variables altamente correlacionadas: relacin no causal (variable oculta).

2.2 Tipos de variabilidad.


Los resultados de cualquier experimento estn sometidos a tres tipos de
variabilidad:
Variabilidad sistemtica y planificada. (deseable)
Es el tipo de variabilidad que se intenta identificar con el diseo
estadstico. Incluye la posible dispersin de los resultados debida a
diferencias sistemticas entre las distintas condiciones experimentales
impuestas en el diseo por expreso deseo del experimentador.
Cuando este tipo de variabilidad est presente y tiene un tamao
importante, se espera que las respuestas tiendan a agruparse formando
grupos (clusters).

Variabilidad tpica de la naturaleza del problema y del


experimento. (tolerable)
Esta es la variabilidad debida al ruido aleatorio, trmino que incluye a la
componente de variabilidad no planificada denominada error de medida.
Es una variabilidad impredecible e inevitable pero, si el experimento ha
sido bien planificado, ser posible estimar (medir) su tamao, lo que ser
de utilidad para establecer conclusiones.
Variabilidad sistemtica y no planificada. (amenaza con el
desastre)
Tiene lugar cuando, debido a causas desconocidas y no planificadas en el
experimento, se produce una variacin sistemtica en los resultados. En
otras palabras, los resultados estn siendo sesgados sistemticamente por
causas desconocidas. Esta variabilidad supone la principal causa de
conclusiones errneas y estudios incorrectos.
Como se ver posteriormente existen dos estrategias principales para
tratar este tipo de varibilidad: la aleatorizacin y la tcnica de bloques.

2.3 Planificacin de un experimento.


Las tcnicas de Diseo de Experimentos se basan en estudiar simultaneamente
los efectos de todos los factores de inters, son ms eficaces y proporcionan
mejores resultados con un menor coste.
A continuacin se enumeran las acciones que deben ser ejecutadas
secuencialmente en una correcta planificacin de un diseo experimental y se
introducen algunos conceptos bsicos en el anlisis del Diseo de Experimentos.
1.- Definir los objetivos del experimento.
Hacer una lista con las cuestiones concretas a las que debe dar respuesta el
experimento. Solo se indicarn las cuestiones esenciales ya que problemas
colaterales pueden complicar innecesariamente el experimento.
2.- Identificar todas las posibles fuentes de variacin.
Una fuente de variacin es cualquier cosa que pueda generar variabilidad
en la respuesta. Se distinguen dos tipos: aquellas cuyo efecto sobre la respuesta
es de particular inters para el experimentador (factores tratamiento) y
aquellas que no son de inters directo pero que se contemplan en el diseo para
reducir la variabilidad no planificada (factores nuisance).
(i) Factores y sus niveles.
Se denomina factor tratamiento a cualquier variable cuyo posible efecto
sobre los datos desea ser investigado. Los niveles de un factor tratamiento sern
los tipos o grados especficos del factor que se utilizarn en el experimento.
Los factores tratamiento pueden ser cualitativos o cuantitativos.
Ejemplos de factores cualitativos y sus niveles respectivos son los
siguientes: proveedor (diferentes proveedores de una materia prima), tipo
de mquina (diferentes tipos o marcas de mquinas), trabajador (los

trabajadores encargados de hacer una tarea), tipo de procesador ( los


procesadores de los que se quiere comparar su velocidad de
ejecucin), ....
Ejemplos de factores cuantitativos son: tamao de memoria (diferentes
tamaos de memoria de ordenadores), droga (distintas cantidades de la
droga), la temperatura (conjuntos de temperaturas seleccionadas en unos
rangos de inters), ...
Cuando en un experimento se trabaja con ms de un factor, cada observacin es
una medida en las condiciones determinadas por la combinacin de niveles de los
distintos factores tratamiento. Los diseos en que existen observaciones de todas
las posibles combinaciones de niveles (tratamiento) se denominan
experimentos factoriales.
(ii) Unidades experimentales.
Son el material donde evaluar la variable respuesta y al que se le aplican los
distintos niveles de los factores tratamiento. Por ejemplo: en informtica,
ordenadores, pginas web, buscadores de internet; en agricultura, parcelas de
tierra; en medicina, individuos humanos u animales; en industria, lotes de
material, trabajadores, mquinas, __
(iii) Factores nuisance: bloques, factores ruido y covariables.
En cualquier experimento, adems de los factores tratamiento, cuyo efecto
sobre la respuesta se quiere evaluar, tambin influyen otros factores, de escaso
inters en el estudio, pero cuya influencia sobre la respuesta puede aumentar
significativamente la variabilidad no planificada. Con el fin de eliminar esta
influencia pueden incluirse en el diseo nuevos factores que, atendiendo a su
naturaleza, pueden ser de diversos tipos.
En algunos casos el factor nuisance puede ser fijado en distintos niveles, de
modo que es posible controlar su efecto a esos niveles: se mantiene constante su
nivel para un grupo de unidades experimentales, se cambia a otro nivel para otro
grupo y as sucesivamente. Estos factores se denominan factores de bloqueo y
las unidades experimentales evaluadas en un mismo nivel del bloqueo se dice que
pertenecen al mismo bloque. Incluso cuando el factor nuisance no es medible, a
veces es posible agrupar las unidades experimentales en bloques de unidades
similares: parcelas de tierra contiguas o perodos de tiempo prximos
probablemente conduzcan a unidades experimentales ms parecidas que parcelas
o perodos distantes.
Otras veces el factor nuisance es una propiedad cuantitativa de las unidades
experimentales que puede ser medida antes de realizar el experimento (el
tamao de un fichero informtico, la presin sangunea de un paciente). El factor
se denomina entonces covariable y juega un papel importante en el anlisis
estadstico.
Por ltimo, si el experimentador est interesado en la variabilidad de la
respuesta cuando se modifican las condiciones experimentales, entonces los
factores nuisance son incluidos deliberadamente en el experimento y no se aisla
su efecto va el bloqueo. Se habla entonces de factores ruido.
Las posibles fuentes de variacin del experimento son:

Fuente

Tipo

Debida a las condiciones de inters


(Factores tratamiento)

Planificada y sistemtica

Debida al resto de condiciones controladas


(Factores nuisance)

Planificada y sistemtica

Debida a condiciones no controladas


(error de medida, material
experimental, ... )

No planificada, pero sistemtica?

3.- Elegir una regla de asignacin de las unidades experimentales a las


condiciones de estudio (tratamientos).
La regla de asignacin, o diseo experimental, especifica que unidades
experimentales se observarn bajo cada tratamiento.
4.- Especificar las medidas que se realizarn (la respuesta), el
procedimiento experimental y anticiparse a las posibles dificultades.
Los datos que se recogen en un experimento son medidas de una variable
respuesta o variable de inters. Es importante precisar de antemano cul ser
esta variable y en qu unidades se medir.
Tambin es conveniente determinar con claridad la forma en que se harn las
mediciones: instrumentos de medida, disponibilidad de stos, momento en que
se tomarn, etc.
5.- Ejecutar un experimento piloto.
Un experimento piloto es un mini-experimento que utiliza un nmero pequeo
de observaciones. El objetivo de su ejecucin es ayudar a completar y chequear
la lista de acciones a realizar. Ventajas que proporciona este paso son las
siguientes:
* permite practicar la tcnica experimental e identificar problemas no
esperados en el proceso de recogida de datos,
* si es suficientemente grande puede ayudar a seleccionar un modelo
adecuado al experimento principal,
* los errores experimentales observados en el experimento piloto pueden
ayudar a calcular el nmero de observaciones que se precisan en el experimento
principal, etc.

6.- Especificar el modelo.


El modelo matemtico especificado debe indicar la relacin que se supone
que existe entre la variable respuesta y las principales fuentes de variacin
identificadas en el paso 2. Dado que las tcnicas analticas que se utilizarn
dependen de la forma del modelo, es importante que ste se ajuste a la realidad
con la mayor precisin posible.
El tipo de modelo ms habitual es el lineal:

En este modelo la respuesta viene dada por una combinacin lineal de trminos
que representan las principales fuentes de variacin planificada ms un trmino
residual debido a las fuentes de variacin no planificada. El experimento piloto
puede ayudar a comprobar si el modelo se ajusta razonablemente bien a la
realidad.
Un modelo se denomina modelo de efectos fijos si los niveles de todos los
factores han sido seleccionados por el experimentador. Es apropiado cuando el
inters se centra en comparar el efecto (denominado efecto fijo) sobre la
respuesta de esos niveles especficos.
Sin embargo, si un factor tiene un nmero excesvamente grande de niveles,
es razonable incluir en el experimento tan slo una muestra aleatoria simple de
los mismos. El efecto de ese factor se denomina efecto aleatorio. En este caso
se est interesado en examinar la variabilidad de la respuesta debida a la
poblacin entera de niveles del factor.
Un modelo con todos los factores de efectos aleatorios se denomina modelo
de efectos aleatorios. Y los modelos en que se combinan factores de efectos
fijos con factores de efectos aleatorios se denominan modelos mixtos.
7.- Esquematizar los pasos del anlisis estadstico.
El anlisis estadstico a realizar depender de: los objetivos indicados en el
paso 1, el diseo seleccionado en el paso 3 y su modelo asociado que se habr
especificado en el paso 5.
Ahora es el momento de esquematizar los pasos del anlisis, incluyendo las
estimaciones, contrastes e intervalos de confianza que se calcularn.
Finalmente, el anlisis debe incluir un completo ejercicio de diagnosis y crtica
del grado de ajuste del modelo a la realidad.
8.- Determinar el tamao muestral.
Calcular el nmero de observaciones que se deben tomar para alcanzar los
objetivos del experimento.
9.- Revisar las decisiones anteriores. Modificar si es necesario.

Casi siempre es el proceso de recogida de datos la tarea que mayor tiempo


consume, pero es importante realizar una planificacin previa, detallando los
pasos anteriores, lo que garantizar que los datos sean utilizados de la forma ms
eficiente posible.

Ningn mtodo de anlisis estadstico, por sofisticado que sea,


permite extraer conclusiones correctas en un diseo de experimentos
mal planificado.
Recprocamente, debe quedar claro que el anlisis estadstico es un paso ms,
completamente integrado en el proceso de planificacin:

El anlisis estadstico no es un segundo paso independiente de la


tarea de planificacin. Es necesario comprender la totalidad de
objetivos propuestos antes de comenzar con el anlisis. Si no se hace
as, tratar que el experimento responda a otras cuestiones a posteriori
puede ser (lo ser casi siempre) imposible.
Pero no slo los objetivos estn presentes al inicio del anlisis sino tambin la
tcnica experimental empleada. Una regla de oro en la experimentacin es

No invertir nunca todo el presupuesto en un primer conjunto de


experimentos y utilizar en su diseo toda la informacin previa
disponible.
Por ltimo,

Toda persona implicada en la ejecucin del experimento y en la


recoleccin de los datos debe ser informada con precisin de la
estrategia experimental diseada.
Se finaliza esta seccin resumiendo la terminologa comn de los modelos de
diseo de experimentos, algunos de estos trminos han sido comentados
anteriormente:
Unidad experimental: son los objetos, individuos, intervalos de espacio o
tiempo sobre los que se experimenta.
Variable de inters o respuesta: es la variable que se desea estudiar y
controlar su variabilidad.
Factor: son las variables independientes que pueden influir en la variabilidad
de la variable de inters.
Niveles: cada uno de los resultados de un factor. Segn sean elegidos por el
experimentador o elegidos al azar de una amplia poblacin se denominan
factores de efectos fijos o factores de efectos aleatorios.
Tratamiento: es una combinacin especfica de los niveles de los factores en
estudio.
Observacin experimental: es cada medicin de la variable respuesta.

Tamao del Experimento: es el nmero total de observaciones recogidas en el


diseo.
Diseo Equilibrado o Balanceado: es aquel en el que todos los tratamientos
son asignados a un nmero igual de unidades experimentales.

2.4 Tres principios bsicos.


Existen tres principios bsicos que se deben tener siempre en cuenta al planificar
un experimento:
El principio de aleatorizacin.
El bloqueo.
La factorizacin del diseo.

Aleatorizar: Todos aquellos factores no controlados por el


experimentador en el diseo experimental y que puden influir en los
resultados sern asignados al azar a las unidades experimentales.
Por qu aleatorizar?
Transforma la variabilidad sistemtica no planificada en variabilidad no
planificada o ruido aleatorio. En otros trminos: previene contra la introduccin
de sesgos en el experimento.
Evita la dependencia entre observaciones.
Valida muchos de los procedimientos estadsticos ms comunes.

Bloquear: Dividir o particionar las unidades experimentales en


grupos llamados bloques de modo que las observaciones realizadas en
cada bloque se realicen bajo condiciones experimentales lo ms
parecidas posibles.
A diferencia de lo que ocurre con los factores tratamiento, el
experimentador no est interesado en investigar las posibles diferencias
de la respuesta entre los niveles de los factores bloque.
Por qu bloquear?
Convierte la variabilidad sistemtica no planificada en variabilidad
sistemtica planificada.
Cmo elegir los bloques?
Bloquear es una buena estrategia siempre y cuando sea posible dividir las
unidades experimentales en grupos de unidades similares. En ocasiones los
principios de aleatorizacin y de bloqueo son incompatibles
Ejemplo.
Investigar las posibles diferencias en la produccin de dos mquinas, cada una
de las cuales debe ser manejada por un operario.
Aleatorizar: seleccionar al azar dos grupos de operarios y asignar, al azar, cada
grupo de operarios a las mquinas y evaluar la produccin de las mismas.

Bloquear: introducir el factor bloque operario. Se elige un grupo de operarios


y todos ellos utilizan las dos mquinas.

Diseo Factorial: Estrategia experimental que consiste en cruzar los


niveles de todos los factores tratamiento en todas las combinaciones
posibles.
Ventajas de los diseos factoriales:
Permiten detectar la existencia de efectos interaccin entre los niveles de
factores tratamiento distintos.
Es una estrategia ms eficiente que la estrategia clsica de examinar la
influencia de un factor manteniendo constantes los dems.

2.5 Algunos diseos experimentales clsicos.


Un diseo experimental es una regla que determina la asignacin de las unidades
experimentales a los tratamientos. Aunque los experimentos difieren unos de
otros en muchos aspectos, existen diseos estndar que se utilizan con mucha
frecuencia.
2.5.1 Diseo completamente aleatorizados.
El experimentador asigna las unidades experimentales a los tratamientos al azar,
con la nica restriccin del nmero de observaciones que se tomarn en cada
tratamiento.
Sea ni el nmero de observaciones en el i-simo tratamiento, i = 1,...,I.
Entonces, los valores n1,n2,...,nI, determinan por completo las propiedades
estadsticas del diseo.
Naturalmente, este tipo de diseo se utiliza en experimentos que no incluyen
factores bloque.
El modelo matemtico es de la forma:

2.5.2 Diseo en bloques o con un factor bloque.


El experimentador agrupa las unidades experimentales en bloques, a
continuacin determina la distribucin de los tratamientos en cada bloque y, por
ltimo, asigna al azar las unidades experimentales a los tratamientos dentro de
cada bloque.

En el anlisis estadstico de un diseo en bloques, stos se tratan como los


niveles de un nico factor de bloqueo, aunque en realidad puedan venir definidos
por la combinacin de niveles de ms de un factor nuisance.
El modelo matemtico es:

El diseo en bloques ms simple es el llamado Diseo en Bloques Completos


en el que cada tratamiento se observa el mismo nmero de veces en cada
bloque.
Un diseo en bloques completos con una nica observacin por cada
tratamiento se denomina Diseo en Bloques Completamente Aleatorizado o,
simplemente, Diseo en Bloques Aleatorizado.
Cuando el tamao del bloque es inferior al nmero de tratamientos no es
posible observar la totalidad de tratamientos en cada bloque y se habla entonces
de Diseo en Bloques Incompletos.
2.5.3 Diseos con dos o ms factores bloque.
En ocasiones hay dos (o ms) fuentes de variacin lo suficientemente
importantes como para ser designadas factores de bloqueo. En tal caso, ambos
factores bloque pueden ser cruzados o anidados.
Los factores bloque estn cruzados cuando existen unidades experimentales
en todas las combinaciones posibles de los niveles de los factores bloques.
Los factores bloque estn anidados si cada nivel particular de uno de los
factores bloque ocurre en un nico nivel del otro factor bloque.
En la siguiente tabla puede observarse la diferencia entre ambos tipos de
bloqueo.
Bloques Cruzados

Bloques Anidados

Bloque 1

Bloque 1

Bloque 2

6
7
8
9

Tabla 2.1: Plan esquemtico de experimentos con dos factores bloque


Diseo con Factores Bloque Cruzados. Tambin se denomina diseo filacolumna y se caracteriza porque existen unidades experimentales en todas las
celdas (intersecciones de fila y columna).
El modelo matemtico es:

Diseo con Factores Bloque Anidados o Jerarquizados. Dos factores bloque se


dicen anidados cuando observaciones pertenecientes a dos niveles distintos de un
factor bloque estn automticamente en dos niveles distintos del segundo factor
bloque.

2.6 Ejemplos Reales.


1. El proceso de obtencin del algodn.
A continuacin se describe un experimento real descrito por Robert Peake en
el Journal of Applied Statistics en noviembre de 1953. Es relativo al proceso de
obtencin del algodn.
Contexto: En un paso intermedio del proceso de obtencin de algodn se
obtiene un hilo ms grueso que el producto final llamado roving. Con unas guas
rotatorias denominadas flyers, el roving se retuerce justo antes de enrollarlo a
unas bobinas que tienen las mquinas. Cuanto ms se retuerce, ms fuerte
resulta ser el algodn, pero ms se ralentiza y encarece el proceso.
1.- Objetivos. Fundamentalmente dos:
(1) Investigar el modo en que los diferentes grados de tensin sobre el roving
(medidos en vueltas por pulgadas) afecta a la tasa de roturas del roving.
(2) Comparar el flyer tradicional con uno de reciente introduccin en el
mercado.
2.- Identificar fuentes de variacin.
Factores tratamiento y Niveles:
Factor 1: Tipo de flyer, con dos niveles codificados como 1 y 2.

Factor 2: Grado de trabajo sobre el roving. Para elegir los niveles de este
factor se pens en un rango admisible y se ejecut un experimento piloto para
determinar los niveles ms adecuados, optando por: 1'63, 1'69, 1'78 y 1'90 vueltas
por pulgadas, que fueron codificados mediante 1, 2, 3 y 4 respectivamente.

Flyer

1'63

1'69

1'78

Grado
1'90

Estndar
Nuevo

(11)
21

12
22

13
23

14
(24)

Los tratamientos (11) y (24) se omitieron porque el experimento piloto


permiti comprobar que no daban lugar a resultados apropiados.
Unidades Experimentales: Una unidad experiemental consisti en el hilo de
algodn de un conjunto de bobinas de una mquina en un determinado da.
En este punto fu importante advertir tres hechos destacados.
1. No era posible asignar bobinas distintas a tratamientos distintos en una
misma mquina.
2. Las bobinas deberan enrollarse completamente dado que la tensin, y
consiguientemente la tasa de roturas, cambiara a medida que se llenaba la
bobina.
3. Llevaba cerca de un da acabar de enrollar todas las bobinas de una
mquina.
Factores nuisance: Adems de los factores tratamiento, se identificaron como
otras posibles fuentes de variacin: las mquinas, los operarios, el material
experimental (el algodn) y las condiciones atmosfricas.
Hubo algn debate entre los experimentadores para determinar los factores
de bloqueo. Algunos pensaban que, aunque el material sera lo ms similar
posible y las condiciones de humedad de la fbrica estaban supercontroladas,
podan originar importantes cambios en la respuesta a lo largo del tiempo, de
modo que sera aconsejable considerar el da del experimento como un factor
bloque. Sin embargo, finalmente se opt por ignorar la variabilidad del da-a-da
y controlar nicamente a los operarios y las mquinas. As se consider un factor
bloque cuyos niveles seran cada mquina con un nico operario.
3.- Elegir una regla de asignacin de las unidades experimentales a los
tratamientos. Buscando mantener lo ms homogneas posibles las condiciones
experimentales dentro de cada bloque, se limit a seis el nmero de unidades
experimentales por cada bloque.

En particular se eligi un diseo en bloques completamente aleatorizados.


Las seis unidades experimentales de cada bloque se asignaron al azar a los seis
tratamientos.

Bloque

I
II
III
IV

22
21
23
23

12
14
21
21

14
12
14
12

Orden
4

21
13
12

13
22
13

23
23
22

4.- Especificar las medidas que se realizarn, el procedimiento experimental


y anticiparse a las posibles dificultades. La respuesta consistira en medir el
nmero de roturas por cada cien libras de material.
Esta respuesta era muy apropiada porque el trabajo del operario inclua
reparar las roturas, de modo que sera muy sencillo llevar un registro.
El experimento se realizara durante la jornada rutinaria y las mayores
dificultades seran: el tiempo perdido en tomar cada observacin, la prdida de
produccin causada por el cambio de flyers y el hecho de no saber por anticipado
el nmero de mquinas precisas.
5.- Ejecutar un experimento piloto. Permiti identificar los niveles del factor 2.
En este caso no se utiliz para estimar el tamao de la variabilidad no
planificada.
6.- Especificar el modelo. Se consider el modelo
Tasa de Rotura = Constante + Efecto del Tratamiento + Efecto del Bloque +
Error
7.- Esquematizar los pasos del anlisis. El anlisis se orient a evaluar las
diferencias entre la tasa de roturas debidas a cada combinacin de flyer/tensin.
Tambin se orient a examinar la tendencia de la tasa de roturas cuando se
incrementaba la tensin en cada flyer por separado.
8.- Determinar el tamao muestral. En base a experiencias previas semejantes,
aunque de otra naturaleza, se estim la variabilidad experimental. Tal
estimacin implicaba que sera necesario examinar 56 bloques (336
observaciones) para detectar, con alta probabilidad, una diferencia real de al
menos 2 roturas por 100 pulgadas.

9.- Revisar las decisiones anteriores. Modificar si es necesario. Dado que cada
bloque supona una semana de observacin, se opt por analizar los datos una
vez que su hubiesen examinado trece bloques. Por tanto la pretensin de
detectar 2 roturas por 100 pulgadas con alta probabilidad fue desestimada.

2. Experimento con Pilas. (Dean Voss, 1999)


1.- Definir los objetivos del experimento. Debido al elevado gasto de una
familia en pilas para linternas, el padre de familia desea investigar que tipo de
pila no recargable es ms econmica. Le interesa comparar la duracin por
unidad de coste de dos marcas: una particular que usa con frecuencia y otra
marca estndar del hiper donde acostumbra a realizar la compra diaria. Adems,
quiere saber si merece la pena pagar el sobreprecio que las pilas alcalinas tienen
con respecto a las pilas de larga duracin.
Un objetivo posterior sera comparar las duraciones de las pilas
independientemente del coste.
2.- Identificar las posibles fuentes de variacin. (i) Factores tratamiento y
niveles. Existen en este experimento una serie de fuentes de variacin muy
fciles de determinar. Adems de los factores tipo de pila y marca, que definirn
los tratamientos, se podran incluir: las fechas de fabricacin de las pilas, como
controlar la duracin, la temperatura del entorno, la edad y la variabilidad de las
lmparas de las linternas, ...
Las pilas que se van a usar en el experimento se compraron en fechas y
lugares distintos al objeto de obtener una amplia variedad de fechas de
fabricacin. Si se hubiesen apuntado las fechas de los envases, la variabilidad de
esta fuente podra haberse planificado a travs de una covariable; al no ser as,
su variabilidad aumenta la variabilidad no planificada.
Se fijaron las condiciones de ejecucin del experimento: se encenderan las
linternas y se evaluara su duracin. Sin duda este sistema no reproduce las
condiciones de uso habituales de las linternas pero permite controlar muy
fcilmente las condiciones de experimentacin.
El experimento se ejecutar en una habitacin donde la temperatura ser
prcticamente estable durante las horas de funcionamiento de las pilas. Adems,
no se espera que pequeas fluctuaciones de la temperatura ambiente tengan una
fuerte incidencia en la respuesta.
La variabilidad debida a la edad de las bombillas es ms preocupante y ms
difcil de manipular. Hubo que decidir entre usar una nueva bombilla para cada
observacin (arriesgndose a confundir los efectos de bombilla y pila) o usar una
misma bombilla durante todo el experimento (con el riesgo de sesgar los
resultados por la edad de la bombilla). Una tercera posibilidad sera agrupar las
observaciones en bloques y usar una nica bombilla para cada bloque pero
bombillas distintas para bloques distintos. Al final se opt por la primera de las

opciones debido a que el tiempo de vida de una bombilla resultaba


considerablemente mayor que el de una pila.
En resumen:
(i) Factores tratamiento y niveles. Dos factores tratamiento, cada uno de
ellos con dos niveles de efectos fijos. Se codificaron de dos formas distintas:
Codificacin
1

Codificacin 2

1
2
3
4

11
12
21
22

Tratamientos
alcalina, marca particular
alcalina, marca del hiper
larga duracin, marca particular
larga duracin, marca del hiper

(ii) Unidades experimentales. Una unidad experimental es el orden temporal en


que se obtiene cada observacin. Se asignaron al azar a los cuatro tipos de pilas
(tratamientos).
(iii) Factores bloque, factores ruido y covariables. No hubo.
3.- Elegir una regla de asignacin de las u.e. a los tratamientos. Dado que no
se planificaron otras fuentes de variacin se opt por un diseo completamente
aleatorizado.
4.- Especificar las medidas a realizar, el procedimiento experimental y
posibles dificultades. La primera dificultad radica en cmo medir la duracin de
una pila ya que cada linterna usa dos. Se opt por manipular cada linterna
mediante un circuito que conectaba a la bombilla con una nica pila. Una vez
ms no se reproducen las condiciones de uso habituales pero, dado que las
condiciones de ejecucin se iban a mantener constantes, se consider que la tasa
relativa de duracin de la pila por unidad de coste se preservara.
Otra dificultad reside en determinar en qu momento se acaba la pila.
Primero porque tardara unas cuantas horas y no todas las observaciones podran
ser monitorizadas y, segundo, porque la luz de la bombilla se va atenuando poco
a poco a medida que la pila se est terminando. Para evitar estos dos problemas
simultneamente se opt por conectar al circuito un pequeo reloj que se
parara justo antes de apagarse por completo la bombilla. El tiempo marcado en
el reloj se computara como duracin de la bombilla.
Finalmente, el coste de la pila equivaldra a la mitad del valor de un pack
doble de pilas y la respuesta: duracin por coste unitario, vendra dada en
minutos por dlar.
5.- Ejecutar un experimento piloto. Se ejecut un experimento piloto con pocas
observaciones, lo que, de entrada, permiti garantizar que el circuito ideado
trabajara adecuadamente. En particular se descubri que bombilla y reloj tenan
que estar conectados en paralelo y no en serie (como se proyect en un

principio). El experimento piloto tambin permiti tener una idea de la duracin


aproximada de cada observacin (al menos cuatro horas) y proporcion una
primera estimacin de la variabilidad del error que fue til para determinar (en
el paso 8 de la lista) que seran necesarias cuatro observaciones para cada
tratamiento.
Dificultades encontradas: __________________________
Slo una: al ejecutar la cuarta observacin se descubri que el reloj
continuaba funcionando cuando la bombilla ya no alumbraba. Se haba
desconectado el sistema. Se repar y se continu el experimento sin dificultades
adicionales.

3.1 Introduccin.
El Diseo de Experimentos estudia la forma de realizar comparaciones lo ms
homogneas posibles que permitan detectar cambios en el proceso e identificar a
los factores ms influyentes.
Un primer mtodo es la comparacin de las medias de dos poblaciones
normales (diseo de experimentos con un factor a dos niveles). La generalizacin
de este problema es el estudio de la igualdad de las medias de I niveles de un
factor y, por tanto, de la influencia del factor en la variable de inters.
En este estudio se utiliza la tcnica del Anlisis DE la VArianza: ADEVA (en
ingls, ANalysis Of VAriance: ANOVA), introducida por R. A. Fisher, hacia 1.930, y
que es la tcnica fundamental para el estudio de observaciones que dependen de
varios factores.

El ANOVA es la herramienta bsica para el anlisis de los modelos


estadsticos de Diseo de Experimentos y Regresin Lineal, porque
permite descomponer la variablidad de un experimento en componentes
independientes que pueden asignarse a diferentes causas.
El Diseo Completamente Aleatorizado es el diseo ms simple y en l se utiliza
un nico factor y las unidades experimentales se asignan a los tratamientos
completamente al azar.
En este modelo los tratamientos son los niveles del factor y no se incluyen
factores bloque.

3.2 Modelo matemtico (diseo completamente aleatorizado).


Se denota
Yit : la variable aleatoria que representa el valor de la respuesta en la tsima observacin del i-simo tratamiento. En adelante se utilizar la
notacin Y it para referise a la variable e yit para referirse a una
observacin concreta.
i: la respuesta real del i-simo tratamiento. Es decir, a la respuesta que
se obtendra siempre con el i-simo tratamiento si se ejecutase el
experimento en, exactamente, las mismas condiciones.
it : la variable aleatoria que representa la distancia de la t-sima
observacin del i-simo tratamiento a su valor real. Por tanto it agrupa la
contribucin de las fuentes de variacin menores y no planificadas. Esta
variable se denomina error o error experimental.
Para cada t = 1,...,ni, i = 1,...,I, el modelo matemtico del diseo es:
(3.1)

Si en este modelo se denota

se obtiene la siguiente forma alternativa del modelo


(3.2)
es una constante que indica la respuesta media y i representa la desviacin,
positiva o negativa, de esta constante cuando se observa el nivel i. Los
parmetros i suelen llamarse efectos.
Si se utiliza el segundo modelo, se exige la condicin:
(3.3)
Si hay el mismo nmero de datos en cada nivel
condicin es

, esta
(3.4)

El modelo (3.1) es un modelo lineal y para estimarlo es necesario establecer una


serie de hiptesis acerca de las variables de error:

3.3 Estimacin de los parmetros.


En el modelo matemtico (3.1) hay I + 1 parmetros a estimar:

Anlogamente, en el modelo (3.2) hay I + 1 parmetros a estimar:

el parmetro I se deduce de la condicin (3.3).


Los parmetros del modelo se estiman por el mtodo de mxima-verosimilitud
que bajo la hiptesis de normalidad es equivalente a obtenerlos por el mtodo de
mnimos cuadrados.

3.3.1 Estimadores por mxima-verosimilitud.


De la hiptesis de normalidad se sigue que

La funcin de verosimilitud es

Tomando logaritmos neperianos se obtiene la funcin soporte

para obtener el mximo de la funcin L


2
y se iguala a cero, de donde se obtienen
proporciona los siguientes estimadores:

se deriva la misma respecto a i y


ecuaciones, cuya resolucin
(3.5)
(3.6)

3.3.2 Estimadores por mnimo-cuadrticos.


Un mtodo alternativo de estimacin de los parmetros es el mtodo de
estimacin mnimo cuadrtica, que consiste en seleccionar como estimadores los
valores de los parmetros que minimizan la suma de los cuadrados de los errores.
Esto es, se trata de seleccionar valores 1,..., I que minimicen la siguiente
funcin de I variables:

esto es,

El problema de minimizacin anterior conduce a un sistema de I ecuaciones


(denominadas ecuaciones normales) cuyas soluciones nicas son para cada i = +
i,
(3.7)
Por tanto, los estimadores que se utilizarn son los siguientes
(3.8)
Si se utiliza el modelo (3.2), los estimadores son
(3.9)
(3.10)
En base a las hiptesis del modelo es fcil deducir que la distribucin de los
estimadores dados (3.8) es la siguiente
(3.11)
3.3.3 Estimacin puntual de la varianza.
En cualquier modelo estadstico, se denomina residuo a la diferencia entre un
valor observado y el valor previsto por el modelo. Esto es,
(3.12)
En el modelo actual, para todo t = 1,...,ni e i = 1,...,I se tiene:
(3.13)
con i los estimadores mnimo-cuadrticos dados (3.8).
A partir de los residuos se obtiene la suma de residuos al cuadrado, suma de
cuadrados residual o variabilidad no explicada (scR), dada por
(3.14)
El valor concreto scR es una realizacin particular de la variable aleatoria SCR
(el resultado que se obtiene a partir de la muestra selccionada)
Se demuestra que:

siendo

2
i

la varianza muestral corregida del i-simo tratamiento:

Como i2 es un estimador insesgado de la varianza del error


esperado de SCR es:

Por tanto, un estimador insesgado de

, el valor

es:
(3.15)

que se denomina, indistintamente, varianza residual o error cuadrtico medio


o varianza dentro de los tratamientos.
De las hiptesis del modelo se deduce que
(3.16)
A partir de (3.16) se puede calcular un intervalo de confianza al (1 - ) para la
varianza 2 del modelo.
Los intervalos de confianza de i se obtienen a partir de (3.11) y (3.16). Se
deduce que
(3.17)

3.4 Anlisis de la varianza de una va.


3.4.1 Idea general.
El problema bsico es contrastar la hiptesis nula de que el factor no influye en
la variable de inters,

o equivalentemente

frente a la alternativa de que el factor si influye. Esto es, existen diferencias


entre los valores medios de los distintos tratamientos,

La idea bsica del test anlisis de la varianza es comparar:


la suma de cuadrados residual bajo el modelo matemtico cuando H1 es
cierto, (modelo completo),

con la suma de cuadrados residual del modelo que resulta cuando H0 es


cierto (modelo reducido).
Si H0 es cierto, el estimador mnimo-cuadrtico de es la media muestral de
todas las observaciones,

Por tanto, la suma de cuadrados residual del modelo reducido (H0) es:

Se verifica que

Si H es falsa y al menos dos efectos tratamiento difieren, la suma de


cuadrados residual scR bajo el modelo completo es considerablemente ms
pequea que la suma de cuadrados residual del modelo reducido scR . Por el
contrario, si H es cierta ambas sern muy similares.
0

El contraste ANOVA se basa en comparar la cantidad

con scR. Si scT es grande en relacin a scR se rechaza H0.


scT se denomina indistintamente variabilidad explicada o suma de
cuadrados entre tratamientos o suma de cuadrados explicada (por diferencias
entre tratamientos).
3.4.2 Descomposicin de la variabilidad.
Teniendo en cuenta que:

puede probarse que,

Siendo n - 1 el nmero de grados de libertad de scG, porque hay n


I
n
observaciones relacionadas por la ecuacin
= 0.
i=1
t=1 i
I - 1 el nmero de grados de libertad de scT, porque hay I efectos de los
I
tratamientos relacionados por la ecuacin
i = 1 ni i = 0.
n - I el nmero de grados de libertad de scR, porque hay n residuos
n
relacionados por las ecuaciones
t = 1 ieit = 0, i = 1,...,I.
Dividiendo las sumas de cuadrados por los correspondientes grados de libertad se
obtienen tres estimaciones distintas de 2:

Si H0 (igualdad de medias) es cierta, se verifica que

Por tanto,
(3.18)
Utilizando (3.18), como estadstico del contraste puede utilizarse

Se rechaza H0 al nivel de significacin si

Comentarios.
1. Si el test F resulta significativo (se rechaza H0, por tanto, el factor es
influyente) se deber estudiar entre qu tratamientos existen diferencias
significativas.
2. Una medida relativa de la variabilidad explicada por el factor es el
coeficiente de determinacin, definido como
(3.19)
3. Si de desea aumentar la precisin del contraste, puede hacerse de dos
formas:
a. Reducir 2 (el error experimental) introduciendo nuevos factores.
b. Aumentar el tamao muestral en cada grupo.
4. En algunos textos se utiliza la siguiente notacin: scG = V T (Variabilidad
Total), scT = V E (Variabilidad Explicada), scR = V NE (Variabilidad No
Explicada).
5. En general, sea cierta o no la hiptesis nula, se verifica que

siendo
(3.20)

CUADRO DEL ANLISIS DE LA VARIANZA


UNA VA FACTOR FIJO
g.l
.

Suma de
Cuadrado
s

Fuente de
Variacin

Residual

i=1

n
t=1 i

I-1
n-I

scR =
i=1

E(SCM
)

scmT =

scT =
Tratamientos

sc
m

n
2
t = 1 i it

scmR =

+ Q( i)

scG =
Global

i=1

n
t=1 i

Rechazar H0 :

n-1

i,j en base al p-valor

Coeficiente de Determinacin: R2 =
Cuadro 1.1: Cuadro del anlisis de la varianza para un diseo completamente
aleatorizado de efectos fijos.

3.5 Inferencia de los parmetros del modelo.


3.5.1 Intervalos de confianza de los parmetros.
Se acepta H .
Si se acepta la no influencia del factor los datos provienen de una nica muestra
homognea y los parmetros y
se estiman segn las tcnicas clsicas.
0

(3.21)
(3.22)
Se rechaza H .
Si se supone que el factor influye, entonces los parmetros del modelo son:
y . Sus estimadores son
0

,...,

(3.23)
Para la varianza

se utiliza
(3.24)

Diferencia entre dos medias.


Si se rechaza la hiptesis nula es porque existen medias de tratamientos diferentes y
es importante calcular un intervalo de confianza para el parmetro = - , con i j, i,j
= 1,...,I. Este intervalo se deduce fcilmente del siguiente estadstico pivote
i

(3.25)

A partir de este estadstico pivote (con distribucin t) se puede hacer el siguiente test
de hiptesis

En base a la resolucin de este ejercico se puede plantear la siguiente pregunta:


En lugar de hacer la tabla ANOVA no se pueden hacer todos los contrastes posibles dos
a dos?
3.5.2 Contrastes.
Lo expuesto en el apartado anterior puede generalizarse. Para ello se introduce el
siguiente concepto:
Se denomina contraste, , a cualquier combinacin lineal de los efectos de los
tratamientos

En un diseo completamente aleatorizado todo contraste es estimable y su estimador


mnimo-cuadrtico es

Por la normalidad e independencia de las observaciones, se obtiene la distribucin de


(3.26)
En muchos casos es til representar un contraste por la lista de sus coeficientes. Esto es,
el contraste se puede representar por cualquiera de las dos formas equivalentes
siguientes:

Contrastes importantes sobre los que es interesante hacer inferencia son los
siguientes:
Comparar tratamientos a pares (pairwise).
Es decir, estimar contrastes del tipo: = - . Existen m = contrastes de
comparaciones por pares.
Tratamientos frente a control.
Un subconjunto de contrastes del grupo anterior muy particular es el formado por
los I - 1 contrastes
- ([1,0,...,0,-1]),
- ([0,1,...,0,-1]), ... ,
i

I-1

([0,0,...,1,-1]). El objetivo es comparar el efecto de cada uno de los


tratamientos con un tratamiento concreto, que se suele denominar control.
Diferencia de medias.
Cuando los niveles de los factores tratamiento se dividen de un modo natural en
dos o ms grupos, puede ser interesante comparar el efecto medio de un grupo
con los efectos medios de otros grupos.
Tendencias
Cuando los niveles del factor tratamiento son cuantitativos y tienen un orden
natural, el experimentador podra estar interesado en saber si la respuesta crece
o decrece con un incremento del nivel o, ms an, si esa tendencia se mantiene
o no constante. Se habla entonces de contrastes de tendencia.
En general, si = i = 1Ib es el estimador mnimo cuadrtico de un contraste individual
= i = 1Ib , con i = 1Ib = 0. Entonces, de (3.26) se deduce que un intervalo de
confianza para , al nivel 1 - , viene dado por:
i

(3.27)
donde g.l. representa los grados de libertad con que se ha estimado la varianza del
error.
3.5.3 Contrastes mltiples.
Utilizando la distribucin dada en (3.26) se pueden realizar test de hiptesis del tipo
(3.28)
Si el test de la F de la tabla ANOVA indica rechazo de la hiptesis nula de igualdad de las
medias de los niveles, es importante establecer la hiptesis alternativa adecuada y, para
ello, son de gran utilidad los contrastes mltiples. En ocasiones se quiere realizar un
nmero muy grande de comparaciones, de modo que la probabilidad de que alguna
comparacin individual resulte significativa puede ser errneamente muy grande.
Si se quieren resolver todas las pruebas de hiptesis siguientes:

Existen m = pruebas (por ejemplo, si I = 6 entonces m = 15). Al resolverlas una a


una, con nivel , se denomina A al suceso:
ij

Entonces:

Sea el suceso: A = rechazar errneamente alguna H0ij =

A.

m
ij

ij

Cul es la probabilidad de A?
Suponiendo que los A fuesen independientes (obviamente no lo son):
ij

Si = 0 05 y m = 15, entonces P(A) = 1 - 0 95 = 1 - 0 46 = 0 54.


Por tanto, la probabilidad de concluir errneamente que algn par de tratamientos
son significativamente distintos es mayor que 0 54.
Hay distintos mtodos para abordar el problema de la resolucin de pruebas de
hiptesis simultneas (es decir, garantizando para todos ellas un nivel de significacin
predeterminado). Unos han sido desarrollados con carcter general y otros orientados a
problemas concretos como puede ser la comparacin de distintos tratamientos con un
tratamiento control.
A continuacin se exponen dos mtodos de resolucin de contrastes mltiples.
Mtodo de Bonferroni.
Se basa en calcular un nivel de significacin, , para cada una de las m pruebas de
hiptesis que garantice un nivel de significacin concreto para todas las pruebas de
hiptesis simultneas ( es por tanto el nivel de significacin global).
Supngase que se tienen I niveles y m pruebas de hiptesis individuales. Sean los
sucesos:
A : aceptar la hiptesis nula del contraste k-simo cuando sta es cierta.
A : rechazar errneamente la hiptesis nula de uno o ms contrastes.
Qu habr que utilizar en cada prueba de hiptesis individual para garantizar que
P(A) no es mayor que ?
'

'

15

'

'

'

(3.29)
Por tanto, para el modelo matemtico de un diseo completamente aleatorizado, el
mtodo de Bonferroni consiste en resolver cada prueba de hiptesis individual conforme
al siguiente criterio:
m
j
Dado un conjunto de m contrastes
j = 1 , rechazar la hiptesis H0 :
= 0, a un nivel de significacin global no superior a , siempre que

I j
i = 1 bi

(3.30)

Ventajas y desventajas de este procedimiento son las siguientes:


Si m es muy grande,
puede aproximar por:

ser tan pequeo que t

n-I

no viene en las tablas. Se

donde z
es el valor de una normal estandar tal que P
= .
Es mtodo es excesivamente conservador y slo resulta ms potente que otros
procedimientos cuando m es muy pequeo.
Es vlido para cualquier tipo de diseo.

Mtodo de Scheff.
El mtodo de Bonferroni presenta serios inconvenientes, en particular, si m es muy
grande la mnima diferencia significativa al nivel global para cada prueba es
excesivamente grande.
Por el contrario, el mtodo de Scheff proporciona una mnima diferencia
significativa que no depende del nmero de pruebas m a realizar.
El valor crtico de Scheff es
de modo que, para cualquier contraste individual
hiptesis H :
que
0

I
i = 1 bi

I
i=1

se rechaza la

= 0, a un nivel de significacin global no superior a

, siempre

(3.31)

Sobre el mtodo de Scheff conviene saber que


Slo depende de I y de n, pero no de m.
Es especialmente adecuado cuando se precisen comparar otros contrastes adems de
las comparaciones a pares.
Si m es muy grande, resulta ms potente (y por ello ms recomendable) que el mtodo
de Bonferroni.
Es vlido para cualquier tipo de diseo.
El F-test del ANOVA resulta significativo al nivel si al menos una de las infinitas
pruebas de hiptesis simultneas de Scheff lo es.

3.6 Efectos aleatorios.


Hasta ahora los niveles de los factores tratamiento eran seleccionados especficamente
por el experimentador ya que el inters del experimento se centraba en conocer los
efectos sobre la respuesta de esos niveles particulares. En este caso se denominan
factores de efectos fijos, indicando as que su representacin en el modelo se
corresponde con constantes desconocidas (parmetros). Los modelos conteniendo
nicamente efectos fijos se denominan tambin modelos de efectos fijos.
En muchas situaciones le interesa al experimentador un factor que tiene un nmero
elevado de posibles niveles, de modo que para realizar el experimento es necesario
seleccionar una muestra de ellos al azar. En este caso se habla de efectos aleatorios y,
en el correspondiente modelo matemtico, aparecen representados como variables
aleatorias idnticamente distribuidas segn la distribucin de la poblacin de niveles.
Estos modelos se denominan modelos de efectos aleatorios. En este tipo de modelos el
inters radica en medir la variabilidad existente en la totalidad de los efectos de la
poblacin de niveles. El objetivo es distinto del caso de efectos fijos y, por consiguiente,
la planificacin y anlisis difiere en ambos modelos.
En esta seccin se supone que la poblacin de niveles es infinita o lo suficientemente
grande como para ser considerada como tal. En otro caso es necesario aplicar
correcciones para poblaciones finitas a toda la formulacin matemtica.

3.6.1 El modelo matemtico de un factor aleatorio.


Para un diseo completamente aleatorizado con I niveles seleccionados al azar de un
factor tratamiento T, el modelo de un factor aleatorio es
(3.32)
para i = 1,...,I, t = 1,...,n . Las T son variables aleatorias i.i.d. con distribucin N(0, T2),
y los son variables aleatorias i.i.d. con distribucin N(0, ). Siendo las T y los
mutuamente independientes.
Comparando el modelo de efectos aleatorios con el modelo de efectos fijos, se
observa que la forma de ambos modelos y las hiptesis sobre el error son exactamente
iguales. La nica diferencia est en la modelizacin del efecto tratamiento. Dado que el
i-simo nivel del factor tratamiento T observado en el experimento ha sido seleccionado
aleatoriamente de una poblacin infinita, su efecto observado es el resultado de la
variable aleatoria T . La media de la poblacin de los efectos del tratamiento es la
constante y, por tanto, se justifica que la media de las T sea cero. El parmetro de
inters es ahora T2. Su importancia es fundamental: si todos los efectos de la totalidad
de niveles del factor tratamiento son iguales, entonces T2 = 0. Si, por el contrario,
existen niveles con efectos muy diferentes, entonces T2 es grande.
La suposicin de independencia asumida implica que el factor tratamiento no tiene
incidencia sobre cualquier fuente de variacin que haya sido englobada en el error.
En el modelo con factor aleatorio se tiene:
i

it

it

(3.33)
ya que por la independencia de T y
Por tanto
i

, la Cov

= 0.

it

(3.34)
se denominan componentes de la

Las dos trminos de la varianza de Y :


y
varianza.
Estimacin de .
Por la similitud entre los modelos de una va de efectos aleatorios y de efectos fijos y
realizando un sencillo clculo matemtico puede probarse que la varianza residual
obtenida en (3.15) para el modelo de efectos fijos tambin es un estimador insesgado de
en el modelo de efectos aleatorios.
it

2
T

donde n = i = 1In .
Definiendo la varianza residual como en el modelo de efectos fijos,
i

(3.35)

se obtiene que la varianza residual R2 es un estimador insesgado de


en el modelo de
efectos aleatorios.
Estimacin de T2.
Se puede utilizar scmT para obtener un estimador de T2. Un sencillo desarrollo
matemtico permite obtener
2

(3.36)
Si todos los n son iguales (n = r, para todo i), entonces n = Ir y c = r. Por tanto,
i

De lo anterior se deduce que SCMT es un estimador insesgado de c


Y de (3.35) y (3.36) se deduce que

2
T

(3.37)
(no de T2).
(3.38)

Finalmente, de (3.33), (3.35) y (3.38) se deduce que un estimador insesgado de la


varianza de Y, Y 2, es
(3.39)
3.6.2 Contraste de igualdad de los efectos tratamiento.
En el modelo de efectos aleatorios tiene inters la siguiente prueba de hiptesis:

Es posible utilizar la misma medida de discrepancia para resolver este test que la
utilizda para contrastar si los efectos eran iguales en un modelo de efectos fijos?
En el apartado anterior se obtena que:

Si H0T es cierta, el valor esperado del cociente


es 1 y, si H1T es cierta, el
cociente anterior toma valores positivos grandes. El resultado es anlogo al caso de
efectos fijos, y el clculo matemtico para resolver el problema con efectos aleatorios y
con efectos fijos es el mismo aunque el planteamiento de los problemas es muy
diferente.
El cuadro de anlisis de la varianza para el modelo de una va de efectos aleatorios
es prcticamente igual al de efectos fijos con la diferencia de los valores esperados de
las sumas de cuadrados medios.

CUADRO DEL ANLISIS DE LA VARIANZA


UNA VA EFECTOS ALEATORIOS

g.l
.

Suma de
Cuadrado
s

Fuente de
Variacin

I
i=1

t=1

I-1

scR =

Residual
i=1

n
t=1 i

n-I

i=1

2
T

scmR =
2

scmG =

scG =
Global

E(SCM)

scmT =

scT =
Tratamientos

sc
m

n
t=1 i

n-1

c=
Rechazar H0 :

2
T

= 0 en base al p-valor p = P

Cuadro 1.2: Cuadro del anlisis de la varianza para un diseo completamente


aleatorizado de efectos aleatorios.
Como regla general, los modelos de efectos fijos se utilizan para conocer si deben
no aplicarse determinados tratamientos, mientras que los modelos de efectos
aleatorios permiten medir el efecto de factores que, se quiera o no, estn presentes
en el proceso. En el primer caso, nos interesa conocer el aumento o disminucin de la
media de la respuesta segn los niveles de los factores, mientras que con el segundo
se busca su efecto sobre la variabilidad.
Comparando el modelo de efectos fijos y efectos aleatorios, se tiene:
Efectos Fijos
Modelo

y = +
ij

Los efectos
Influyen

+u

ij

=0

Efectos Aleatorios
y = +T +u
ij

ij

parmetros desconocidos variables aleatorias


en la respuesta media

Objetivo

estimar

Los niveles

se eligen

en la variabilidad
estimar
al azar

2
T

El contraste

H :
0

= 0, i

H :
0

2
T

=0

Captulo 4
Chequeo y validacin del modelo con un factor.
4.1 Hiptesis estructurales del modelo.
En el estudio de un modelo de Diseo de Experimentos, al igual que en el estudio de
cualquier modelo estadstico, se debe contrastar que se verifican las hiptesis bsicas o
estructurales del modelo. En el modelo de diseo de experimentos con un factor las
hiptesis establecidas a priori sobre los errores del modelo:
(4.1)
son las siguientes:
1. Bondad del ajuste del modelo estadstico propuesto.
2. La normalidad.
3. La homocedasticidad del error.
4. La homogeneidad de la muestra.
5. La independencia de las observaciones.
Dado que los errores del modelo son desconocidos, las hiptesis anteriores pueden y
deben chequearse a partir de los residuos,

y, en general, es preferible trabajar con los residuos estandarizados, definidos por

Si las suposiciones sobre el modelo son correctas, se verifica que


es una muestra
aleatoria simple de una distribucin N(0,1) y, por tanto, es razonable suponer un
comportamiento similar para r .
Un estudio descriptivo analtico y grfico de la muestra y de los residuos permite
tener una idea aproximada acerca del cumplimiento de las hiptesis bsicas. Es
recomendable lo siguiente:
1. Previo al clculo del modelo se deben obtener los estadsticos bsicos de la
variable respuesta Y segn el factor.
2. Grficos de inters para un anlisis previo son: el grficos de puntos de Y segn
el factor y el grfico de cajas mltiple de Y segn el factor.
3. Una vez ajustado el modelo y calculados los residuos (o los residuos
estandarizados) se deben obtener los estadsticos bsicos de los residuos segn el
factor.
it

4. Analizar el grficos de puntos de los residuos segn el factor, el grfico de cajas


mltiple de los residuos segn el factor, el histograma de los residuos, el grfico
de los residuos frente a las predicciones, el grfico de los residuos frente al
ndice.
La interpretacin de estos estadsticos y grficos se expone en la secciones siguientes en
las que se analiza la metodologa a seguir para chequear las hiptesis bsicas.

4.2 Bondad del ajuste del modelo.


El grfico de puntos de los residuos (o de la variable respuesta) frente al factor o el
grfico de cajas mltiple de los residuos estandarizados frente al factor proporciona
informacin acerca de la si el modelo se ajusta adecuadamente y si el factor es
significativo. Ver la Figura 4.2.

Figura 4.2. Grfico de cajas mltiple de los residuos estandarizados frente al factor.
Si se observa que el modelo no se ajusta bien, el grfico de los residuos frente a los
niveles de un factor no includo puede indicar la necesidad incluir el factor en el
experimento. En algunas ocasiones el histograma de los residuos puede indicar la
importancia de un factor no introducido en el modelo.
Otro grfico de inters es el grfico de la variable respuesta frente a las predicciones
que permite observar la influencia del factor y la forma de esta.

4.3 Normalidad de los errores.

Los grficos para estudiar la normalidad de los residuos son los siguientes:
El histograma de los residuos, la mayora de los paquetes estadsticos permiten
dibujar el histograma conjuntamente con la densidad normal que se ajusta a la
muestra. Debe de tenerse en cuenta que el nmero de barras que se elija para el
histograma influye en la forma del mismo. En la Figura 4.3. se observa el histograma
de los residuos estandarizados y la normal ajustada.
n
El grfico de normalidad para los datos
i = 1 , en el que se representan los pares
n
n
es la frecuencia relativa acumulada de
i=1 y
i = 1 , donde F
la muestra (distribucin emprica) y F
es la distribucin terica (en este caso la
distribucin normal). Estas curvas se representan en unos ejes escalados de forma que
n
los puntos
i = 1 estn sobre la recta y = x. Por tanto, si los puntos
n
i = 1 estn prximos a esta recta, se aceptar la hiptesis de normalidad.
En la Figura 4.4. se representa el grfico de normalidad de los residuos.
Otros grficos que pueden ayudar a estudiar la hiptesis de normalidad son los
siguientes: el grfico de cajas, el grfico de tallos y hojas, el grfico de simetra.
n

Figura 4.3. Histograma de residuos y normal ajustada.

Figura 4.4. Grfico de normalidad para los residuos estandarizados del ejemplo 3.1.
Por otra parte, existen muchos contrastes no paramtricos sobre la bondad del ajuste de
los errores a una distribucin normal. De hecho, en la mayora de los casos estos
contrastes son vlidos para contrastar si una muestra sigue una determinada funcin de
distribucin (no solo la normal).
Por su importancia se exponen los ms utilizados: contraste chi-cuadrado, contraste
de Kolmogorov-Smirnov (Lilliefors), y el contraste de asimetra y curtosis.
Contraste chi-cuadrado de Pearson.

El test chi-cuadrado es un contraste general de bondad de ajuste de una distribucin y,


en particular, puede utilizarse para contrastar la normalidad de una muestra. Este
estadstico compara las frecuencias observadas (o ) con las frecuencias esperadas (e ), en
base a la distribucin de probabilidad especificada. Concretamente, para una variable
discreta con k modalidades o una variable continua con k intervalos de clase, el
contraste definido por Pearson (1900) es el siguiente,
i

La distribucin aproximada de este contraste, bajo la hiptesis de que la distribucin


especificada sea correcta, es la de una chi-cuadrado con k - 1 grados de libertad ( k - 12).
Comentarios
1. Este contraste compara el histograma de frecuencias relativo de la muestra con
el que se deduce de la masa de probabilidad terica. Es vlido para
distribuciones discretas y continuas.
2. Si la distribucin depende de algn parmetro que debe ser estimado, la
distribucin aproximada del test es una k -r- 12, siendo r el nmero de parmetros

estimados. As, si se contrasta la hiptesis de normalidad, hay que estimar dos


parmetros: y . Por tanto, el nmero de grados de libertad es k - 3.
3. Si la variable en estudio es continua se puede utilizar este contraste haciendo
intervalos de clase. Esto plantea el problema de la subjetividad en la eleccin de
los mismos, as como la dependencia del resultado del test de los intervalos
elegidos.
2

Contraste Contraste de Kolmogoroff-Smirnoff

El contraste de Kolmogoroff-Smirnoff es vlido para contrastar la bondad de ajuste de


distribuciones continuas. En primer lugar, se define la funcin de distribucin emprica
asociada a una muestra
La Funcin de Distribucin Emprica (F ) es una funcin escalonada y no
decreciente, construda a partir de la muestra, de forma que en cada observacin
muestral da un salto de magnitud igual a la fraccin de datos iguales a ese valor (cuando
no hay repeticiones se trata de saltos de amplitud 1/n).
n

Para calcular F , se ordena la muestra de menor a mayor


se define la Funcin de Distribucin Emprica (f.d.e.) como
n

donde card

y ahora

es el nmero de observaciones muestrales menores o iguales que x.

El contraste de Kolmogoroff-Smirnoff se basa en calcular la distancia (en norma L )


entre la funcin de distribucin emprica y la funcin de distribucin terica. Por tanto,
el estadstico del contraste es el siguiente
1

que representa la mxima discrepancia, en vertical, entre la funcin de distribucin


emprica y la terica. Siempre que la distribucin (continua) de partida sea correcta, el
estadstico D es de distribucin libre (no depende de la poblacin) y est tabulada para
tamaos muestrales pequeos (en otro caso, se utilizan aproximaciones asintticas).
El test de Kolmogoroff-Smirnoff-Lilliefors para normalidad (contraste KSL)
En la mayora de los casos al utilizar el estadstico de Kolmogorov-Smirnov es
necesario estimar los parmetros desconocidos que caracterizan a la distribucin
terica. Si la distribucin que se desea ajustar es una normal, hay que estimar la media
y la desviacin tpica. En este caso, los parmetros se estiman por mxima verosimilitud
y la distribucin del estadstico cambia.
Ahora el estadstico del contraste es
n

donde

es la funcin de distribucin de una normal estndar.

El estadstico D representa la mxima discrepancia, en vertical, entre la funcin de


distribucin emprica y la funcin de distribucin de la normal ajustada (esto es, de la
normal con media y varianza estimadas). La distribucin de este estadstico fue tabulada
por Lilliefors (contraste K-S-L) y, por tanto, es con respecto a esta tabulacin (y no con
respecto a la tabla de Kolmogoroff-Smirnoff) como se debe juzgar la significacin del
valor obtenido para este estadstico.
n

El contraste de asimetra.

Como la distribucin normal es simtrica, bajo la hiptesis de normalidad el coeficiente


de asimetra (CA) poblacional toma el valor cero. Se define el coeficiente de asimetra
como sigue,

donde X es la variable aleatoria en estudio, m al momento muestral de orden 3 respecto


a la media
y s la desviacin tpica de la muestra.
Bajo la hiptesis de normalidad el CA sigue una distribucin asinttica normal con
media cero y varianza 6/n. Se define el coeficiente de asimetra estandarizado (CAS)
3

Para tamaos muestrales grandes ( n > 50) el CAS sigue aproximadamente una
distribucin N(0,1) y puede ser utilizado como estadstico para contrastar la hiptesis de
que la distribucin de la muestra es simtrica.
El test estadstico a un nivel de significacin de rechaza la hiptesis de que la
distribucin es simtrica si

donde Z
N
.

verifica que P

= , siendo una variable aleatoria con distribucin

El contraste de apuntamiento

Este contraste sirve para contrastar la hiptesis de que el coeficiente de apuntamiento


(CAp ) es cero. Propiedad que verifica la distribucin normal.
Se define el coeficiente de apuntamiento o curtosis como

donde m es el momento muestral de orden 4 respecto a la media.


4

Bajo la hiptesis de normalidad la distribucin asinttica del CAp es N


calcula el coeficiente de apuntamiento estandarizado como

. Se

El test estadstico a un nivel de significacin de


distribucin tiene curtosis cero si

rechaza la hiptesis de que la

en este caso la distribucin no es normal.


Los dos ltimos contrastes se pueden combinar en un contraste conjunto. Para ello,
se define el estadstico

que bajo la hiptesis de normalidad se distribuye asintticamente como una chicuadrado con dos grados de libertad. Por tanto, si d toma valores positivos grandes
(segn una
con dos grados de libertad) se rechaza que la distribucin es simtrica y/o
que tiene curtosis nula y, en consecuencia, se rechaza la hiptesis de normalidad.
Qu consecuencias tiene la falta de normalidad?
Este problema afecta especialmente a la estimacin de la varianza del modelo y no
2

se obtendrn intervalos de confianza correctos del error experimental


. Sin
embargo, por el Teorema Central del Lmite, la falta de normalidad tiene poca
influencia en el F-test de la tabla ANOVA y en las estimaciones puntuales de las medias y
de las diferencias de medias de los tratamientos.

4.4 Homocedasticidad de los errores.


Es necesario contrastar la hiptesis de homocedasticidad, sto es, la varianza de los
residuos es constante y no vara en los diferentes niveles del factor. La falta de
homocedasticidad se denomina heterocedasticidad.
Una primera aproximacin acerca del cumplimiento de esta hiptesis se tiene con un
anlisis descriptivo y grfico:
Clculo de la varianza (o desviacin tpica) de los residuos segn los niveles del factor.
El grfico de cajas mltiple proporciona una idea de la distribucin de los residuos
segn los niveles del factor.
El grfico de los residuos (e ) frente a las predicciones ( ) es interesante porque, en
muchas situaciones, la varianza de los residuos por niveles aumenta con las
predicciones. Esto se puede observar en la Figura 4.6.
ij

i.

Figura 4.6. Digrama de dispersin de residuos frente a predicciones.


Existen contrastes para detectar heterocedasticidad:
El contraste de Cochran, se utiliza si todos los tamaos muestrales son iguales y
es til si la varianza de un tratamiento es mucho mayor que en los otros.
El contraste de Bartlett o el Contraste de Hartley son ms generales y ms
utilizados. Estos contrastes son muy conservadores y muy sensibles a la ausencia
de normalidad.
El contraste de Levene es muy utilizado, en esencia, consiste en efectuar un
anlisis de la varianza sobre las diferencias en valor absoluto entre las
observaciones y la mediana (u otra medida de tendencia central) manteniendo el
diseo original.
El contraste de Romero y Znica, se basa en una idea anloga, se realiza un
anlisis de la varianza sobre los cuadrados de los residuos del modelo ajustado
con el mismo factor en estudio. Ahora la hiptesis bsica a contrastar es que la
varianza en todos los grupos es la misma.
Un modelo muy usual de heterocedasticidad es el siguiente modelo multiplicativo
(4.2)
donde los son variables aleatorias de media 1 y varianza constante. En este modelo los
grupos con mayor media tienen mayor variabilidad. Para corregir este problema se
toman logaritmos en el modelo (4.2) y se obtiene el siguiente modelo aditivo que si es
homocedstico.
(4.3)
Muchas veces la heterocedasticidad responde al modelo:
(4.4)
as el modelo multiplicativo (4.2) sigue una heterocedasticidad del tipo (4.4) con q = 1.
ij

Para este tipo de heterocedasticidad es posible transformar los datos para obtener
homocedasticidad (en otro caso puede resultar imposible encontrar transformaciones
adecuadas). Adems la heterocedasticidad del modelo suele ir unida a la falta de
normalidad (la distribucin de es asimtrica) y la transformacin de los datos corrige
simultaneamente ambos problemas. Como una primera aproximacin, la
transformacin tomar logaritmos puede proporcionar buenos resultados y es un caso
particular de la familia de transformaciones de Box-Cox que es ampliamente utilizada y
que se describe en la siguiente seccin.
Qu consecuencias tiene la falta de homocedasticidad?
Se ha demostrado que si el diseo es balanceado (n = m, i = 1,...,I) los niveles de
significacin de los pruebas de hiptesis y los niveles de confianza de los intervalos
apenas se ven afectados por la existencia de heterocedasticidad, a no ser que la
varianza de la respuesta para algn tratamiento particular sea considerablemente mayor
que para otros.
Para tamaos muestrales de los grupos similares, la heterocedasticidad no afecta al
F-test ni a los distintos mtodos de comparaciones mltiples siempre que:
ij

Si los tamaos muestrales son muy distintos, se verifica que:


- si los tratamientos con tamaos muestrales
pequeos tienen mayor varianza
la probabilidad de cometer un error de tipo I en las pruebas de hiptesis ser
menor de lo que se obtiene y los niveles de confianza de los intervalos sern
inferiores a lo que se cree;
- si los tratamientos con tamaos muestrales
grandes tienen mayor varianza,
entonces se tendr el efecto contrario y las pruebas sern conservadoras.

4.5 La familia de transformaciones de Box-Cox.


La familia de transformaciones ms utilizada para resolver los problemas de falta de
normalidad y de heterocedasticidad es la familia de Box-Cox, cuya definicin es la
siguiente.
Se desea transformar la variable Y, cuyos valores muestrales se suponen positivos, en
caso contrario se suma una cantidad fija M tal que Y + M > 0. La transformacin de BoxCox depende de un parmetro por determinar y viene dada por
(4.5)
Si se quieren transformar los datos para conseguir normalidad, el mejor mtodo para
estimar el parmetro es el de mxima verosimilitud y se calcula como sigue: para
diferentes valores de se realiza la transformacin
(4.6)
siendo =
conjunto de valores

1/n

la media geomtrica de la variable Y. Para cada , se obtiene el


n
i = 1 . La funcin de verosimilitud es

(4.7)
Se elige el parmetro que maximiza L . En la prctica, se calcula L
en un enrejado
(grid) de valores de que permite dibujar aproximadamente la funcin L
y se obtiene
el mximo de la misma.

Valores muy utilizados del parmetro son los siguientes:


Transformacin
-1

= 1/Y

-1/2

= 1/

= lg

1/2

=Y

Un mtodo grfico sencillo de estimar

es el siguiente:

Para cada grupo de residuos, segn el tratamiento, se calcula la media de la


respuesta, , y la desviacin tpica de los residuos,
.
Se dibuja el grfico de los pares de puntos ( ; ) y se ajusta una curva del tipo
i.

i.

(un ajuste lineal respecto a los logaritmos de ambas componentes)


Si = 0 los residuos son homocedsticos.
Si = 1 hay heterocedasticidad y la transformacin a realizar es tomar
logaritmos.
En otro caso, hay heterocedasticidad y se deben transformar los datos segn la
transformacin de Box-Cox con = 1 - .

4.6 Homogeneidad de los errores. Datos atpicos.


Un dato atpico (outlier) es un registro mayor o menor de lo esperado que se detecta
por tener un residuo que es un valor inusual, muy grande o muy pequeo en relacin
con la distribucin asociada a los residuos. Dado que los residuos estandarizados r son
una muestra aleatoria de una distribucin N(0,1), se verifica que aproximadamente un
68% de los r deben estar entre -1 y 1, y alrededor del 95% entre -2 y 2 y prcticamente
todos entre -3 y 3. Por ello, un residuo estandarizado que diste ms de 3 o 4 unidades
del 0
se correponde, potencialmente, con una observacin atpica.
it

it

Para chequear la existencia de observaciones atpicas se pueden utilizar diferentes


grficos: el histograma de los r , el diagrama de cajas mltiple de los r por niveles del
factor tratamiento como se observa en la Figura 4.7. o el diagrama de dispersin de los
puntos
.
it

it

Figura 4.7. Grfico de cajas mltiple de los residuos estandarizados frente al


factor.
Tambin se puede contrastar la hiptesis de no existencia de datos atpicos.
Contrastes de valores atpicos
Cuando el tamao muestral es moderado (no mayor de 20) y se sospecha la presencia
de una nica observacin atpica, un contraste bastante utilizado se basa en calcular el
siguiente estadstico que est tabulado:
q

= max

max
Si el tamao muestral es medio o grande, o se espera que pueda haber ms de un
dato atpico, resulta ms adecuado usar el contraste basado en el coeficiente de
apuntamiento muestral. Este coeficiente aumenta notablemente al introducir alguna
observacin muestral que provenga de una distribucin de mayor varianza que la del
resto de variables de la muestra.

En ocasiones las observaciones atpicas son fruto de errores concretos en el proceso


de recogida de los datos. Otras veces en cambio delatan ausencia de normalidad,
heterocedasticidad o una incorrecta especificacin del modelo.

.7 Independencia de los errores.


La hiptesis de que las observaciones muestrales son independientes es una hiptesis
bsica en el estudio de los modelos de regresin lineal. Con ello se entiende que los
n
errores
i = 1 son variables aleatorias independientes.
La falta de independencia, se produce fundamentalmente cuando se trabaja con
variables aleatorias que se observan a lo largo del tiempo, esto es, cuando se trabaja
con series temporales. Por ello, una primera medida para tratar de evitar la
dependencia de las observaciones consiste en aleatorizar la recogida muestral.
Qu consecuencias tiene la falta de independencia?
La ausencia de aleatoriedad entre las observaciones es muy difcil de corregir y es
especialmente grave ya que puede invalidar por completo las conclusiones del anlisis
estadstico (obteniendo conclusiones errneas). Todas las expresiones utilizadas para las
varianzas son incorrectas y, por tanto, los intervalos de confianza y las pruebas de
hiptesis deducidos a partir de ellas, tendrn una confianza o una potencia distinta a la
supuesta.
4.7.1 Grficos para detectar dependencia.
Hay dos grficos que ayudnr a detectar la dependencia de las observaciones.
Grfico de los residuos frente al ndice (tiempo).
El grfico de
puede ayudar a detectar las siguientes caractersticas.
Existencia de tendencia.

Figura 4.10. Residuos con tendencia lineal.

Dependencia (Correlacin) Positiva.

Figura 4.11. Residuos con dependencia positiva.


Dependencia (Correlacin) Negativa.

Figura 4.12. Residuos con dependencia negativa.

Cambio en un instante temporal.

Figura 4.13. Salto en los residuos.

No se detecta ningn problema significativo.

Figura 4.14. Residuos independientes.

Algunas veces los residuos tienen una alta variabilidad (son muy ruidosos) y en el
grfico
no es fcil detectar la presencia de dependencia. Este problema se puede
resolver en parte si se aplica un filtro de suavizado a los residuos.
Suavizacin de los datos.
En algunas situaciones en que se dispone de muchas observaciones puede ser
conveniente suavizar los datos para observar tendencias o dependencias en la nube de
datos. sto evita que una fuerte dispersin de las observaciones o la existencia de datos
atpicos no deje ver la tendencia de la nube.
Una tcnica sencilla de suavizacin es la tcnica de medias mviles simples (Simple
n
Moving Average). Si se desea suavizar la muestra
i = 1 segn la media mvil de orden
2k + 1, se hace como sigue:
Sustituir el valor de x por la media aritmtica de las 2k+1 observaciones consecutivas
cuyo centro es x . sto es, se sustituye x por
i

En la Figura 4.15 se representa una nube de puntos con una fuerte varianza y en la
Figura 4.16 se representa la nube de puntos una vez que se ha aplicado medias mviles
simples con k = 2 a la variable. En esta segunda figura la tendencia lineal en la muestra
es mucho ms evidente.

Figura 4.15. Nube de puntos sin suavizar la variable en estudio

Figura 4.16. Nube de puntos suavizada. Grfico de los residuos e frente a e .


t+1

Un grfico alternativo al grfico


y, en muchas ocasiones, ms ilustrativo para
detectar dependencias positivas o negativas es el grfico de
que permite
detectar con facilidad fuertes dependencias, sobre todo, si se pueden modelizar segn
un AR . siguiente:
Si existe dependencia positiva el grfico es

Figura 4.17. Grfico

Si existe depencia negativa

con dependencia positiva.

Figura 4.18. Grfico

Si existe independencia el grfico

con dependencia negativa.

es

Figura 4.19. Grfico

con independencia.

4.7.2 Contrastes para detectar dependencias.


Los contrastes para detectar la dependencia se pueden clasificar en dos tipos: los
basados en rachas que se utilizan bsicamente cuando se dispone de pocas
observaciones y los basados en los coeficientes de autocorrelacin.
Contrastes basados en rachas.

Considrese una muestra de una variable con dos posibles resultados: E: dispositivo con
error y S:dispositivo sin error.
Se define una racha (run) como una sucesin de valores consecutivos repetidos que
est entre dos valores adyacentes distintos.
El nmero total de rachas (o las longitudes de las mismas) constituye una medida de
lo aleatoriamente que estn repartidos los posibles valores a lo largo de la muestra
observada:
Demasiadas rachas implican excesiva alternancia de valores (dependencia
negativa)
Pocas rachas indican largas sucesiones de valores contiguos repetidos
(dependencia positiva).
Aunque el test del nmero de rachas est pensado para una distribucin con slo dos
posibles valores (E y S), tambin puede aplicarse a variables continuas. Para ello, se
codifican las observaciones con los valores + o -, segn que el dato en cuestin quede
por arriba o por abajo de la mediana muestral.
El contraste del nmero total de rachas
Considrese una muestra de tamao n de una variable con dos posibles resultados
. De las n observaciones hay n de tipo
y n de tipo
, n + n = n.
Se denota
1

este nmero es el estadstico del contraste. Cuando n tiende a infinito y n /n tienda a


una constante, la distribucin de R tiende a la de una normal con la siguiente media y
varianza:
1

Si los valores n y n son pequeos la distribucin de R est tabulada.


1

El contraste de rachas ascendentes y descendentes


Cuando la variable es continua, un test mejor que el anterior es el test de las rachas
ascendentes y descendentes que utiliza de forma ms intensiva la continuidad de la
variable. Este contraste se basa en el nmero total de rachas ascendentes o
descendentes.
Se define una racha ascendente o descendente como sigue:
para cada par de datos consecutivos se anota un signo + si estn en orden ascendente
y - si el orden es descendente. En esta sucesin de signos se define racha ascendente
(o descendente) a la sucesin consecutiva de signos + (respectivamente de signos -).

Con los n datos se forma una sucesin de n - 1 signos + o -, y se cuenta el nmero


total de rachas ascendentes o descendentes: T.
La hiptesis de independencia tender a rechazarse si el nmero de rachas
ascendentes y descendentes es muy grande (indicando dependencia negativa) o muy
pequeo (dependencia positiva).
La significacin estadstica de dichos valores grandes o pequeos siempre ha de ser
juzgada con respecto a la distribucin del estadstico T bajo la hiptesis de
independencia. Esta distribucin de T est tabulada para tamaos muestrales pequeos
(n < 25), y para valores mayores puede aproximarse por una normal de parmetros

Contrastes basados en las autocorrelaciones. El correlograma.

El coeficiente de correlacin entre dos variables aleatorias X e Y se define como

y es una medida de la dependencia lineal entre las dos variables.


En base a este concepto se puede definir la funcin de autocorrelacin simple, fas
, k Z, de una sucesin de variables aleatorias
estrictamente estacionarias (todas
las variables tienen la misma distribucin), como sigue:

esto es, fas es el coeficiente de correlacin entre dos variables separadas k instantes:
y
. Debe de tenerse en cuenta que por ser la sucesin
estrictamente
estacionaria, la fas
no depende del instante t.
En la prctica, esta funcin no se conoce y se estima a partir de las observaciones
muestrales. En particular, en los modelos de diseo de experimentos o regresin la fas
de los errores
se estima a partir de la muestra de pares de residuos
t=
n-k
.
1
Los estimadores que se utilizan son los siguientes: dada la muestra de residuos
e ,e ,...,e , se define el coeficiente de autocorrelacin muestral de orden uno como
t

t+k

n
donde =
i = 1 e = 0, es la media muestral de los residuos. Por tanto, r(1) mide la
correlacin entre lo observado en un instante y lo observado un instante despus.
La definicin general del coeficiente de autocorrelacin de orden k (k retardos), es
la siguiente
i

La grfica de las autocorrelaciones muestrales se denomina correlograma y puede


utilizarse para contrastar la independencia, ya que si las observaciones son
independientes los coeficientes de autocorrelacin sern prximos a cero.
Un inconveniente que presenta el clculo de r(k) es que se necesita una muestra con
tamao mayor a k + 1, y para que la estimacin sea precisa, el tamao muestral debe
ser mucho mayor que este valor. Normalmente, para muestras de tamao n, se calcula el
correlograma hasta el orden k = n/4.
Bajo independencia, cada coeficiente de autocorrelacin muestral, r(k), tiene
distribucin lmite normal: N(
, ). Esto permite contrastar la hiptesis H :
= 0.
Graficamente se dibuja el correlograma y si se observa que para todo k se verifica que |
0

r(k)| <
, se puede aceptar la hiptesis de independencia.
El test de hiptesis estadstico ms utilizado para contrastar la hiptesis de
independencia de los residuos es el siguiente:
El contraste de Ljung-Box.
Si los residuos son independientes sus primeras m autocorrelaciones son cero, para
cualquier valor de m. Se elige un m suficientemente grande pero que se pueda estimar
= (m) de forma razonable, entonces, el contraste de Ljung-Box (chi-cuadrado)
contrasta la hiptesis nula de que las primeras m autocorrelaciones son cero. Esto es
m

El estadstico del contraste de Ljung-Box es el siguiente:

Bajo la hiptesis nula este estadstico se distribuye aproximadamente segn una chicuadrado con m - 1 grados de libertad. El valor de m puede ser fijado arbitrariamente
aunque no debe de ser grande.
Si en el anlisis de los residuos se observa en los grficos descritos que existe una
tendencia muy clara de los residuos respecto al ndice o el tiempo t de recogida de las
observaciones (en el grfico
), por ejemplo, una relacin lineal de los residuos
frente al tiempo, se pueden estudiar otros modelos como:
t

con X la covariable tiempo. Este modelo se denomina Modelo de Anlisis de la


Covarianza.
En resumen, el incumplimiento de las hiptesis en la aplicacin de un modelo
ANOVA influye de la siguiente forma:
La falta de normalidad afecta poco a la tabla ANOVA y a los contrastes de igualdad de
it

medias, pero si afecta a la estimacin de .


La heterocedasticidad influye en la estimacin de la varianza, pero su influencia en
la tabla ANOVA y en los contrastes resultantes depende de si existe una diferencia
grande entre los tamaos muestrales de cada grupo, a modo orientativo, si mx(n ) < 2
.
m n(n ) se considera que la heterocedasticidad influye poco. En caso contrario si
influye.
La falta de independencia influye mucho en todo el proceso. Puede tratar de evitarse
la dependencia de las observaciones aleatorizando la recogida muestral.
2

4.8 Contraste de Kruskal-Wallis. Alternativa no paramtrica al Anova.


Si la suposicin de normalidad no es asumible, se tienen dos opciones:
Transformar los datos para obtener normalidad (familia de transformaciones de BoxCox).
Utilizar un procedimiento alternativo de tipo no paramtrico.
La prueba de Kruskal-Wallis basada en los rangos de las observaciones es el
procedimiento alternativo a la prueba F del anlisis de la varianza que no dependa de la
hiptesis de normalidad.
Esta prueba que es una extensin de la prueba de la suma de rangos de Wilcoxon
para comparar la homogeneidad de dos poblaciones a partir de dos muestras aleatorias
simples e independientes de ambas, contrasta la hiptesis nula de que las I muestras
independientes proceden de la misma poblacin y, en particular, todas ellas tienen la
misma esperanza.
Se procede como sigue. Se ordenan todas las observaciones en sentido creciente y se
reemplazan por su rango R , i = 1,...,I, t = 1,...,n , en la muestra conjunta ordenada. En
caso de empates se asigna a cada una de las observaciones empatadas el rango promedio
de todas ellas. Se suman entonces los rangos de las observaciones procedentes del iit

simo tratamiento, R =
i.

t=1

R , para i = 1,...,I. Entonces la estadstica de prueba es:


it

donde
denota la varianza muestral corregida de los rangos.
Cuando los tamaos muestrales n son razonablemente grandes (n > 5), H tiene una
distribucin aproximadamente
con I - 1 grados de libertad bajo la hiptesis nula. El
criterio es entonces rechazar sta a un nivel de significacin siempre que H > I - 1, 2.
2

Captulo 5
Diseos con dos o ms factores.
5.1 Concepto de bloque.
Al estudiar la influencia de un factor-tratamiento en una variable de inters puede ser
importante eliminar (controlar) estadsticamente la influencia de un factor que puede
influir en la variable respuesta. Para ello se utiliza el concepto de bloque, que se basa

en seleccionar niveles de esta variable y aplicar en cada uno de ellos todos los niveles
del factor principal, de esta forma disminuye la variabilidad residual o no explicada.
Por tanto, un factor-bloque es un factor cuyo control puede reducir significativamente la
variabilidad no explicada y que no interacciona con los factores principales.
Un diseo en bloques es apropiado cuando el objetivo del experimento es comparar
los efectos de diferentes tratamientos promediados sobre un rango de condiciones
experimentales distintas.
Bloquear un experimento consiste en distribuir las unidades experimentales en
subgrupos tales que unidades experimentales pertenecientes a un mismo subgrupo
deben ser similares y pueden ser analizadas en condiciones experimentales semejantes,
en tanto que unidades experimentales ubicadas en subgrupos distintos darn lugar
probablemente a respuestas diferentes an cuando sean asignadas a un mismo
tratamiento. Cada uno de estos conjuntos de unidades experimentales similares se
denomina bloque.
El anlisis de un diseo en bloques incluye la comparacin de diferentes tratamientos
aplicados a las unidades experimentales de un mismo bloque. De este modo se pretende
simultneamente:
- evitar que grandes diferencias entre las unidades experimentales enmascaren
diferencias reales entre los tratamientos,
- medir los efectos de los tratamientos en condiciones experimentales distintas.

5.2 Modelo de diseo en bloques completamente aleatorizados.


Si se quiere comparar las medias de I poblaciones en presencia de una variable extraa
(o ms) se utiliza el procedimiento de bloques. Siendo un bloque una coleccin de I
unidades experimentales tan parecidas como sea posible con respecto a la variable
extraa, asignndose aleatoriamente cada tratamiento a una unidad dentro de cada
bloque. Este diseo se denomina de bloques completamente aleatorizados,
- porque se han agrupado las unidades experimentales en bloques, en funcin de
la nueva variable,
- aleatorizado por la forma de asignar los tratamientos dentro de cada bloque,
- completo porque cada tratamiento se utiliza exactamente una vez dentro de
cada bloque.
Si hay un nico factor-bloque con J bloques, los datos se recogen segn el siguiente
esquema:
Bloq.1

Bloq.2

...

Bloq.J

Trat.1

11

12

...

1J

Trat.2

21

22

...

2J

Trat.I

...

5.2.1 Modelo matemtico.

I1

I2

IJ

Para cada i = 1,...,I; j = 1,...,J, la formulacin matemtica del modelo es la siguiente:


(5.1)
siendo,
Y el resultado del tratamiento i-simo, i = 1,2,...,I al bloque j-simo, j =
1,2,...,J.
es el efecto global, mide el nivel medio de todos los resultados,
es el efecto del tratamiento i-simo, i = 1,2,...,I, mide el efecto incremental
I
del tratamiento del factor principal sobre el efecto global. Se verifica que
i=1
= 0,
es el efecto del bloque j-simo, j = 1,2,...,J, mide el efecto incremental del
tratamiento del factor secundario (bloque) sobre el efecto global. Se verifica que
J
= 0,
j=1
es el error experimental o perturbacin, son variables aleatorias
ij

ij

independientes idnticamente distribuidas (i.i.d.) con distribucin N


.
El nmero de observaciones es: n = IJ,
El problema bsico que se plantea es contrastar la hiptesis nula de que el factortratamiento no influye,
(5.2)
frente a la alternativa de que s existen diferencias entre los valores medios de los
distintos tratamientos.
En el estudio de este modelo debe de tenerse en cuenta:
No existe interaccin entre el factor-tratamiento y el factor-bloque.
Este modelo tratamiento-bloque es similar al modelo de dos vas de efectos
principales para dos factores tratamiento en un diseo completamente aleatorizado
con una observacin por celda. Por ello los cuadros ANOVA asociados a ambos modelos
son similares.
Pero en el modelo de dos factores-tratamiento tiene inters un segundo contraste
para saber si el segundo factor es influyente o no. Este contraste sera
(5.3)
frente a la alternativa de que s existen diferencias entre los valores medios de los
distintos tratamientos del segundo factor. Sin embargo en el modelo tratamientobloque realizar este contraste carece de inters salvo para saber si ha sido
conveniente bloquear o no.
Por tanto, el modelo matemtico que se estudia en esta seccin es vlido para el modelo
de bloques completamene aleatorizados (un factor-tratamiento y un factor-bloque) y
para el modelo de dos vas de efectos principales (dos factores-tratamiento entre los
que no existe interaccin). Y aunque estos dos modelos tienen un desarrollo matemtico
anlogo, su planteamiento y objetivos son diferentes.
En la prctica

Bloquear sin ser necesario conduce a pruebas de hiptesis menos


potentes y a intervalos de confianza ms amplios que aquellos que se
obtendran mediante un diseo completamente aleatorizado.

5.2.2 Estimacin de los parmetros.


El nmero de parmetros que hay que estimar en modelo (5.1) es

utilizando el mtodo de mnimos cuadrados se obtienen los siguientes estimadores:


(5.4)
(5.5)
(5.6)
Por tanto, la prediccin en la casilla

es
(5.7)

y los residuos son

La suma de los residuos en cada fila y cada columna es cero, por tanto, hay I + J - 1
relaciones entre los residuos y el nmero de grados de libertad es

Razonando como en el modelo de diseo completamente aleatorizado se obtiene que


el estimador de la varianza es la varianza residual
(5.8)
Propiedades de los estimadores.
La distribucin de los estimadores anteriores es la siguiente,
(5.9)
(5.10)
(5.11)
(5.12)
Por tanto, los estimadores definidos son centrados y eficientes. Utilizando las
distribuciones anteriores (la t y la ) se pueden calcular intervalos de confianza de los
parmetros del modelo.
2

5.2.3 Anlisis de la varianza.


Teniendo en cuenta que

y ij

..

=
+
+e,
puede deducirse que la suma de cuadrados global se puede descomponer de la
forma:
ij

g.l. = I-1

g.l. = IJ1

g.l. = J-1

g.l. =

esto es,
(5.13)

de donde se deduce la siguiente tabla ANOVA

CUADRO DEL ANLISIS DE LA VARIANZA


MODELO TRATAMIENTO-BLOQUE

Fuente de
Variacin

Suma de
Cuadrado
s

Tratamientos

scT =

g.l
.

sc
m

I-1

scmT =

i=1

scmT =

scB =

Bloques

J
j=1

J -1

scR =

Residual

I
i=1

J
j=1

scmR =

(I -1)
(J -1)

scG =
Global

i=1

j=1

scmG =

IJ - 1

Rechazar H0

= ... =

Rechazar H0

= ... =

, segn p = P

, segn p = P

Tabla 5.1: Anlisis de la varianza para un diseo en bloques completamente


aleatorizados.
De esta tabla ANOVA se deducen dos contrastes:
Si H0(1) es cierto, el factor-tratamiento no influye, se verifica que
(5.14)
se rechaza H0(1) al nivel de significacin si
=
>F
(2)
Si H0 es cierto, el factor-bloque no influye, se verifica que
1

(5.15)
se rechaza H0(2) al nivel de significacin si
=
>F
.
Comentarios.
La eficacia de este diseo depende de los efectos de los bloques. Si stos son
pequeos, es ms eficaz el diseo completamente aleatorio ya que el denominador en
la comparacin de tratamientos tiene menos grados de libertad. Sin embargo si los
bloques influyen es mucho mejor y ms eficaz este modelo, ya que disminuye la
variabilidad no explicada. Por ello, es mejor estudiar primero el modelo de bloques
aleatorizados y, si los bloques no influyen, se pasa fcilmente al modelo de un solo
factor sumando en la tabla ANOVA la fila del factor bloque con la de la variabilidad
residual.
Se define el Coeficiente de Determinacin como:
2

siendo R
yR
los coeficientes de determinacin parciales asociados al factortratamiento y al factor-bloque, respectivamente. Representan el tanto por uno de la
variabilidad total explicada por los tratamientos y los bloques.
2

El tratamiento estadstico expuesto para el modelo de diseo de experimentos


completamente aleatorizado con un factor tratamiento y un factor bloque es
exactamente igual que el diseo de experimentos con dos factores tratamiento sin
interaccin.
Si de la tabla ANOVA del modelo de diseo de experimentos completamente
aleatorizado se deduce que existen diferencias entre los tratamientos, estas
diferencias
se estiman por
Se pueden obtener intervalos de confianza de

a partir de la distribucin
(5.16)

de forma anloga se puede hacer para las diferencias

5.2.4 Anlisis de residuos.


Como en cualquier modelo estadstico hay que contrastar que se verifican las hiptesis
del modelo. Esto se hace, bsicamente, por medio del anlisis de los residuos. Todo lo
estudiado sobre este particular en el modelo de un solo factor (diseo completamente
aleatorizado) sigue siendo vlido para este modelo. Se contrastarn las hiptesis de:
Normalidad de los residuos.
Homocedasticidad: la varianza en los diferentes niveles de cada uno de los dos
factores es constante.
Independencia de los residuos.
Homogeneidad de los datos, todos provienen de la misma distribucin y no hay datos
atpicos.
No existe interaccin entre los dos factores. Si existe interaccin el modelo
matemtico es
En este caso el nmero de parmetros a estimar es
igual que el nmero de observaciones y menor que el nmero de grados de libertad de
los residuos y, por tanto, no es posible estimarlos. Para resolver este problema hay las
siguientes alternativas:
Aumentar el nmero de observaciones, replicando el diseo de experimentos
(se estudia a continuacin).
Disminuir el nmero de parmetros, suponiendo que algunas interacciones
son nulas o son funciones de unos pocos parmetros. En el modelo de dos
factores, Tuckey supona que las interacciones tenan una forma funcional
multiplicativa,
con lo cual, slo hay que estimar un parmetro
para obtener las IJ
interacciones.
En la prctica se suele utilizar una combinacin de las dos estrategias
anteriores. As, en modelos complejos en los que hay tres o ms factores,
normalmente, se supone que las interacciones de orden superior a dos son
nulas y para estimar las interacciones de orden dos se replica el experimento.
Test de Tuckey.

Tuckey propuso un test para contrastar la hiptesis de que las interacciones son de la
forma
=
. Esto es, se desea contrastar
ij

El contraste de Tuckey se basa en dibujar la grfica de los residuos e frente a las


predicciones , si existe una interaccin de tipo multiplicativo la nube de puntos tendr
forma parablica.
Este contraste tambin se puede hacer de forma analtica, se dibuja la nube de
puntos de los residuos e frente a la variable x =
y se ajusta una recta. Ahora
contrastar la hiptesis H : = 0 es equivalente a contrastar que el coeficiente de
correlacin es cero. Si no se acepta la hiptesis de no interaccin, se toma la pendiente
de la recta ajustada como estimacin de .
En las Figura 5.1, 5.2. y 5.3. se presentan diferentes grficos de e frente a , que
indican las diferentes posibilidades que hay.
ij

ij

ij

ij

ij

Figura 5.1. No hay indicios de que exista interaccin multiplicativa.

ij

Figura 5.2. Existe interaccin entre los factores.

Figura 5.3. Existe interaccin y heterocedasticidad.

5.3 La interaccin entre factores.


Se considera un diseo completamente aleatorizado con dos factores tratamiento A y B
cuyos niveles se cruzan. El factor A tiene I niveles que se codifican mediante 1,2,...,I y
el factor B tiene J niveles codificados por 1,2,...,J. Por tanto hay un total de IJ
tratamientos (o combinaciones de tratamientos) distintos codificados por

11,12,...,1J,21,22,...,2J, ...,IJ. El diseo completo se ha replicado R veces y se


denotar y a la t-sima observacin del tratamiento ij (una realizacin particular de la
variable aleatoria Y ), con t = 1,2,...,K, y hay K unidades experimentales asignadas al
tratamiento ij, siendo el tamao del experimento igual a n = IJK.
El significado de la interaccin
Se dice que no existe interaccin entre los dos factores tratamiento cuando sus
efectos sobre la respuesta son aditivos. En otros trminos, la diferencia de las
respuestas medias tericas en dos niveles cualesquiera de un factor es constante en
todos los niveles del otro factor y viceversa:
ijt

ijt

Un grfico ilustrativo de la posible existencia de interaccin es el denominado


grfico de interaccin. Para construir este grfico se marcan en el eje de abscisas los
niveles de uno de los dos factores tratamiento, por ejemplo el A, y se dibuja la nube de
puntos

uniendo a continuacin con segmentos las medias muestrales y con igual j.


Aunque los grficos de interaccin son muy intuitivos y tiles, pueden conducir a
interpretaciones peligrosas debido a que en ellos no se refleja el tamao del error
experimental. Esto puede llevar a deducir del grfico la existencia de interaccin y, sin
embargo, el error experimental ser lo suficientemente grande como para que el anlisis
de la varianza no detecte la interaccin como significativa (y viceversa). Por tanto, se
debe ser muy prudente con las conclusiones que se derivan de un grfico de este tipo.
Frecuentemente el inters del diseo radica fundamentalmente en evaluar la
contribucin individual de cada factor tratamiento sobre la respuesta observada. A los
efectos marginales de cada factor se les denomina efectos principales. Sin embargo,
cuando el efecto interaccin entre ambos factores es importante, puede ser imposible
examinar por separado cada uno de los efectos principales.
Como conclusin:
ij.

Si la interaccin es significativa, ser complejo examinar los efectos de


cada factor tratamiento por separado. Por ejemplo, la presencia de
interaccin significativa podra encubrir diferencias reales entre los
niveles de algn factor, de modo que no se detectasen diferencias
significativas entre ellos en el anlisis estadstico.
5.4 Modelos de dos factores-tratamiento.
5.4.1 Modelo matemtico.
Se sigue considerando el diseo completamente aleatorizado con dos factores
tratamiento A (que tiene I niveles) y B (con J niveles), y se supone que las interacciones
entre ambos factores no son nulas. Este modelo tiene IJ + 1 parmetros y para poder

estimarlo es necesario replicar el experimento. Se replica K veces y, por tanto, se


obtienen K resultados en cada casilla (tratamiento) ij.
Para cada i = 1,...,I, j = 1,...,J, k = 1,...,K se tiene el siguiente modelo:

Donde,
Y es el resultado del tratamiento i-simo, i = 1,2,...,I del factor y del tratamiento
j-simo, j = 1,2,...,n del factor , en la replicacin t-sima, t = 1,...,K.
es el efecto global que mide el nivel medio de todos los resultados,
es el efecto (positivo o negativo) sobre la respuesta debido a que se observa el nivel
i del factor A. Se verifica que i = 1I = 0,
es el efecto (positivo o negativo) sobre la respuesta debido a que se observa el nivel
j del factor B. Se verifica que j = 1J = 0,
representa la interaccin y es el efecto extra (positivo o negativo) sobre la
respuesta debido a que se observan conjuntamente los niveles i y j de los factores A y
B respectivamente. Mide la desviacin de las medias de la hiptesis de aditividad de
los efectos y viene definida por:
ijk

ij

Se verifica que i = 1I
= j = 1J
= 0, para i = 1,...,I; j = 1,...,J.
es el error experimental o perturbacin, son variables aleatorias independientes
ij

ij

ijk

idnticamente distribuidas (i.i.d.) con distribucin N


Por tanto, los parmetros de este modelo son
Parmetros

Nmero
1
I-1

J-1

ij

Total

1
IJ + 1

Siendo n = IJK el nmero de observaciones.


El modelo de diseo de experimentos con dos factores tratamiento con interacin se
conoce como modelo completo de dos vas o modelo de anlisis de la varianza de dos
vas.

Si, ocasionalmente, experimentos similares previos o hechos cientficos contrastados


garantizan con una razonable seguridad que ambos factores no interaccionan, el
experimento se modeliza a travs de:
(5.17)
El modelo (5.17) es un submodelo del modelo completo de dos vas y se denomina
modelo de efectos principales de dos vas o modelo aditivo de dos vas dado que el
efecto sobre la respuesta del tratamiento ij se modeliza como la suma de los efectos
individuales de cada factor. Es importante

Usar el modelo de efectos principales slo cuando se tiene la certeza


de que no existe interaccin entre los factores.

5.4.2 Estimacin de los parmetros.


La tcnica de mnimos cuadrados (minimizar la suma de los cuadrados de los residuos)
(5.18)
proporciona los siguientes estimadores:
(5.19)
(5.20)
(5.21)
(5.22)
donde
es la media de las observaciones de la casilla ij. El resto de los trminos tiene
la interpretacin habitual.
La prediccin de la casilla ij es la media de los valores de la casilla, por tanto:
(5.23)
ij.

Los residuos, diferencia entre lo observado y la prediccin,

Los residuos verifican la siguiente restriccin (la suma de los residuos en cada casilla
es cero)

por tanto, en cada casilla hay


valores independientes y el nmero de grados de
libertad es:
IJ. Al igual que en los modelos estudiados previamente se utiliza la
varianza residual como estimador de la varianza. Este estimador viene dado por
(5.24)
5.4.3 Descomposicin de la variabilidad
La suma de cuadrados global se puede descomponer de la forma:

g.l. = I-1

g.l. =
IJK-1

g.l. = J-1

g.l. = (I-1)(J-1)

g.l. = IJ(K-1)

esto es,
(5.25)

de donde se deduce la siguiente tabla ANOVA

CUADRO DEL ANLISIS DE LA VARIANZA


MODELO COMPLETO DE DOS VAS

scA =

Factor A

JK

J
j=1

IK

J-1

scAB =
K

I
i=1

J
j=1

scR =

Residual
i=1

Global

i=1

I-1

scB =

Factor B

Inter. AB

g.l
.

Suma de
Cuadrado
s

Fuente de
Variacin

j=1

t=1

IJ(K 1)

IJK 1

scG =
I
i=1

J
j=1

K
t=1

Rechazar H0AB :

ij

(I -1)
(J -1)

sc
m

scmA =

scmB =

scmAB =

scmR =

scmG =

= 0 i,j

en base al p-valor p = P

Si se acepta H0AB entonces

Rechazar H0A :

= ... =

, segn p = P

Rechazar H0B : 1 = 2 = ... = J, segn p = P


Si se rechaza H0AB entonces considerar el modelo de una va: Y

ijt

ij

ijt

Tabla 5.2. Cuadro del anlisis de la varianza para un diseo completamente


aleatorizado y balanceado de dos factores de efectos fijos (modelo completo).
De este cuadro se deducen los siguientes contrastes:
Si la hiptesis nula H0AB :

ij

= 0, i,j (la interaccin no influye) es cierta, se verifica

que
(5.26)
se rechaza H0

AB

al nivel de significacin

si

Si se acepta la hiptesis H0AB entonces puede contrastarse la influencia de los dos


factores.
Si la hiptesis nula H0A :
=
= ... = = 0, (el factor A no influye) es cierta, se
verifica que
1

(5.27)
se rechaza H0A al nivel de significacin si
=
>
.
Si la hiptesis nula H0B :
=
= ... =
= 0, (el factor B no influye) es cierta, se
verifica que
A

,IJ

(5.28)
se rechaza H0B al nivel de significacin si
=
>
.
La tabla ANOVA asociada al modelo de efectos principales de dos vas (sin interaccin y
con replicacin) es la siguiente
B

,IJ

CUADRO DEL ANLISIS DE LA VARIANZA


MODELO COMPLETO DE DOS VAS

scA =

Factor A

JK

i=1

I-1

IK

j=1

J
j=1

K
t=1

scG =
Global

I
i=1

J
j=1

scmA =

J -1

scR =
I
i=1

sc
m

scmB =

scB =

Factor B

Residual

g.l
.

Suma de
Cuadrado
s

Fuente de
Variacin

IJK -I
-J +1
IJK 1

scmR =

scmG =

Rechazar H0A :

= ... =

Rechazar H0B :

= ... =

, segn p = P

, segn p = P

Tabla 5.3. Cuadro del anlisis de la varianza para un diseo completamente


aleatorizado y balanceado de dos factores de efectos fijos sin interaccin.
5.4.4 Diseo factorial con tres factores.
El modelo de diseo de experimentos con dos factores se puede generalizar a tres o ms
factores, aunque presenta el gran inconveniente de que para su aplicacin es necesario
un tamao muestral muy grande. El modelo de diseo de experimentos con tres factores
(A, B y C), interaccin y replicacin tiene el siguiente modelo matemtico:
y = + + + +
(5.29)
+
+
+
+
ijkr

ij

ik

jk

ijk

ijkr

con
son i.i.d. N
i,j,k,r
En este modelo se tienen tres factores-tratamineto: el factor A (efecto ) con niveles i =
1,...,I, el factor B (efecto ) con niveles j = 1,...,J, y el factor C (efecto ) con niveles k
= 1,...,K. Cada tratamiento se ha replicado R veces. Por tanto se tienen n = IJKR
observaciones. El trmino
es la interaccin de tercer orden que, en la mayora
de los casos, se suponen nulas.
ijkr

ijk

5.5 Fracciones factoriales. El cuadrado latino.


Los modelos de diseo de experimentos con varios factores estudiados en las secciones
previas son diseos completos o equilibrados. Esto es, se obtienen pruebas cruzando los
niveles de los factores de todas las formas posibles. Por ello, en estos diseos se verifica
la propiedad de que los factores son ortogonales.
En un diseo de experimentos el factor A (efecto ) con I niveles y el factor B
(efecto ) con J niveles son ortogonales si en las pruebas del diseo en cada uno de los
niveles I del factor A aparecen en idnticas proporciones los J niveles del factor B.
Esta propiedad bsica de ortogonalidad es la que permite separar los efectos de cada
uno de los factores sobre la variable de inters.
Si los efectos simples de todos los factores estudiados en el diseo de experimentos
son ortogonales, la estimacin
del efecto del nivel i del factor A se obtiene como la
diferencia entre la media de los resultados obtenidos cuando el factor A est al nivel i y
la media general de todos los resultados.

Las estimaciones as obtenidas para los efectos de un factor no vienen afectadas por
los efectos de los otros factores, lo que permite separar los efectos simples de todos los
factores estudiados.
En los diseos equilibrados el nmero de pruebas que hay que realizar crece muy
rapidamente con el nmero de factores, an en el caso de que no se consideren
interacciones y no sea necesario replicar el diseo. Por ello, en estas situaciones son de
gran utilidad los diseos de experimentos que permitan estudiar la influencia de los

factores sin necesidad de realizar todas las pruebas, pero manteniendo la propiedad
fundamental de ortogonalidad de los efectos a estudiar. Estos diseos se denominan
fracciones factoriales. A modo de ejemplo, se estudia la fraccin factorial
denominada cuadrado latino.
5.5.1 El cuadrado latino.
En un diseo de experimentos con tres factores, todos ellos, con K niveles se necesiatan
K observaciones, nmero que puede ser muy elevado si K es grande. Un diseo ms
eficaz que exige nicamente K observaciones para el mismo problema es el cuadrado
latino, que se basa en aprovechar la simetra del experimento factorial seleccionando un
conjunto de condiciones experimentales con la condicin de que cada nivel de un factor
aparezca una vez con cada uno de los niveles de los otros factores.
Por tanto, el diseo de cuadrado latino se puede utilizar si se verifican las siguientes
condiciones:
1. Se estudian tres factores.
2. Los tres factores tienen el mismo nmero de niveles: K.
3. No hay interacciones entre los tres factores.
3

Por lo anterior el diseo de experimentos en cuadrado latino est especialmente


indicado para estudiar un factor-trataminento con K niveles y dos factores-bloque de K
bloques cada uno.
Un cuadrado latino I I es una disposicin de I letras latinas en una matriz I I de tal
modo que todas las letras aparecen una vez en cada fila y una vez en cada columna.
Por ejemplo, un cuadrado latino 3 3 est dado en la Tabla 5.4.
A B C
B C A
C A B
Tabla 5.4.: Cuadrado latino 3 3.
Un Diseo en Cuadrado Latino es un diseo con K tratamientos y K unidades
experimentales agrupadas en K bloques fila y K bloques columna, de tal forma que
unidades experimentales de un mismo bloque fila son semejantes, unidades
experimentales de un mismo bloque columna son semejantes y unidades
experimentales de distintos bloques fila y distintos bloques columna son
sustancialmente diferentes.
Existe un nico diseo en cuadrado latino 3 3 estndar, sin embargo hay cuatro
diseos en cuadrado latino 4 4 estndar cuyos planes experimentales se muestran en la
Tabla 5.5. Para cualquier nmero de tratamientos K existe siempre al menos un diseo
en cuadrado latino estndar cclico.
Cuadro 2
Cuadro 3
Cuadro 4
Cuadro 1
A B C
D
A B C
D
A B C
D
A B C
D
2

B C D

B A D

B A D

B D A

C D A

C D A

C D B

C A D

D A B

D C B

D C A

D C B

Tabla 5.5: Cuatro posibles diseos en cuadrado latino 4 4 estndar.


La formulacin matemtica del modelo es la siguiente:
(5.30)
Siendo el efecto fila, el efecto columna y el efecto cuadrado latino, con i,j,k =
1,...K.
La notacin y
indica que el subndice k toma valores que dependen de la casilla
.
La tcnica de mnimos cuadrados proporciona los siguientes estimadores:
i

ij

Los residuos son

que verifican las siguientes restricciones


i=1
j=1

e = 0, con j = 1,...,K,

ij.

e = 0, con i = 1,...,K,

ij.

e = 0, con k = 1,...,K,
teniendo en cuenta las restricciones existentes, los residuos tienen
grados de libertad. De la descomposicin de la variabilidad se obtiene la siguiente Tabla
ANOVA:
i=1

j=1

ij(k)

CUADRO DEL ANLISIS DE LA VARIANZA


MODELO CUADRADO LATINO
Fuente de
Variacin

Suma de
Cuadrado
s

g.l
.

sc
m

Bloques
Fila

scBF =
K
i=1

K-1

scBC =

Bloques
Columna

j=1

k=1

i=1

K
i=1

K
2
j = 1 ij(k)

Rechazar H0

Rechazar H0

Rechazar H0

j=1

scmG =

K -1
2

= ... =

scmR =

(K-1)
(K-2)

scG =

Global

scmTL =

K-1

scR =

Residual

scmBC =

K-1

scTL =

Tratamientos
Letra

scmBF =

, segn p = P

= ... =

, segn p = P

= ... =

, segn p = P

Tabla 5.6. Cuadro del anlisis de la varianza para un diseo de cuadrado latino.
De este cuadro se deducen los siguientes contrastes:
Si H0

= ... =

= 0, (el factor fila no influye) es cierta, se verifica


(5.31)

se rechaza H0
Si H0 :
=
1

al nivel de significacin si
=
>
= ... =
= 0, (el factor columna no influye) es cierta, se verifica
1

(5.32)
se rechaza H0
al nivel de significacin si
=
>
.
Si H0
: = = ... = = 0, (el factor letra no influye, el ms importante porque es
el factor-tratamiento en el que se est interesado) es cierta, se verifica
2

(5.33)
se rechaza H0

al nivel de significacin si

>

5.5.2 Extensiones de los modelos de diseos experimentales.

Siguiendo la metodologa expuesta en las secciones precedentes es fcil generalizar los


modelos estudiados y tienen inters los siguientes modelos:
1. Cuadrado Latino Replicado. Si se replica el cuadrado latino, manteniendo las
mismas condiciones de experimentacin, es posible que exista cierta
heterogeneidad entre las rplicas por lo que ser conveniente considerar una
rplica como un bloque, lo que lleva al siguiente modelo:

donde es el efecto rplica que se estimar por la diferencia entre la media de


cada rplica completa y la media general.
2. Cuadrado Greco-Latino. El cuadrado greco-latino permite con K observaciones
estudiar cuatro factores de K niveles sin interacciones, lo que exigira utilizar K
observaciones en un diseo completo. Para ello, lo que se hace es superponer dos
cuadrados latinos, resultando el siguiente modelo:
r

El problema de estos modelos es que su utilizacin es muy restrictiva. Adems


pueden no existir cuadrados greco-latinos, por ejemplo, para K = 6.
3. Existen situaciones donde es imposible cruzar todas las fuentes de variacin lo
que lleva a situaciones de diseos anidados o jerrquicos, siendo el ms
importante el modelo de componantes de la varianza cuya formulacin
matemtica para dos factores es:

donde representa el efecto del primer factor,


representa el efecto del
nivel j del segundo factor al trabajar con el nivel i del factor primero.
4. En la experimentacin industrial y en el estudio de problemas de control de la
calidad son muy utilizados los diseos factoriales 2 , que son diseos de
experimentos en los que se consideran K factores, todos con 2 niveles. Si K es
muy grande se utilizan las fracciones factoriales 2 , que son los modelos de
diseo de experimentos de K factores, todos con 2 niveles pero que solo utilizan
2 observaciones. Estos modelos estn especialmente adaptados para trabajar de
forma secuencial con un nmero alto de factores. Tambin en este mismo
i

K-P

K-P

contexto son utilizados las fracciones con factores a 3 niveles

Captulo 6
Chequeo y diagnosis del modelo de regresin lineal simple.
Anlisis de residuos.
6.1 Problemas al ajustar un modelo de regresin lineal simple.
Al ajustar un modelo de regresin lineal simple se pueden presentar diferentes
problemas bien porque no existe una relacin lineal entre las variables o porque no se

verifican las hiptesis estructurales que se asumen en el ajuste del modelo. Estos
problemas son los siguientes:
Falta de Linealidad, porque la relacin entre las dos variables no es lineal o porque
variables explicativas relevantes no han sido includas en el modelo.
Existencia de valores atpicos e influyentes, existen datos atpicos que se separan de
la nube de datos muestrales e influyen en la estimacin del modelo.
Falta de Normalidad, los residuos del modelo no se ajustan a una distribucin normal.
Heterocedasticidad, la varianza de los residuos no es constante.
Dependencia (autocorrelacin), existe dependencia entre las observaciones.
En este captulo se estudia como detectar estos problemas, su influencia en el clculo
del modelo de regresin y las posibles soluciones de los mismos.
Un primer paso para el estudio de estos problemas es la realizacin de un estudio
descriptivo, analtico y grfico, de la muestra. En particular el grfico de puntos de la
muestra bidimensional permite detectar algunos problemas como se pone de manifiesto
en las siguientes figuras (7.1. - 7.6.).
Figura 7.1. La nube de puntos muestrales bidimensionales parece ajustarse bien
a una recta.

Figura 7.1. El ajuste lineal parece adecuado.


Figura 7.2. El ajuste lineal no parece adecuado para esta muestra.

Figura 4.2. Existe relacin pero no lineal.


Figura 7.3. No existe relacin lineal entre las dos variables.

Figura 7.3. No hay indicios de existencia de relacin.


Figura 7.4. Claros indicios de heterocedasticidad.

Figura 7.4. Hay heterocedasticidad


Figura 7.5. Existen puntos atpicos que probablemente influyan en la estimacin
de la recta ajustada.

Figura 7.5. Existen observaciones atpicas.


Figura 7.6. Existe una variable regresora binaria que se debe de incluir en el
modelo de regresin.

Figura 7.6. Hay indicios de la existencia de clasificacin.

6.2 La hiptesis de linealidad. Transformaciones.


La hiptesis bsica del modelo de regresin lineal simple es

pero en muchos casos en el grfico de la variable respuesta frente a la variable


regresora puede verse que la relacin no es de este tipo. A pesar de ello, el modelo de
regresin lineal contina siendo vlido en muchas situaciones porque la relacin puede
convertirse en lineal por medio de una transformacin simple en la variable respuesta Y
(trabajando con lg Y , 1/Y, Y ... ), o en la variable regresora, X, o en ambas. Algunos de
los ejemplos de transformaciones ms interesantes son los siguientes:
2

Modelo
Simple

Y=

Trans. X
t

=x

Trans. Y
t

=y

Expon.

Y = exp

Recpr. Y

=x

=x

Y=
Recpr. X
Y=

= ln

=y

= ln

=y

= ln

= ln

=y

=x

= ln

Rec Doble
Y=
Logar. X

Y=

Multipl

Y=

Raz C. X

Y=

Raz C. Y
Curva S

ln

+
0

Y = exp

Las grficas de las funciones que se obtienen con estas transformaciones son las
siguientes:

Figura 7.7. Modelo Y = exp

Figura 7.8. Modelo Y = 1/

Figura 7.9. Modelo Y =

lg X

Figura 7.10. Modelo Y =

Figura 7.11. Modelo Y =

Figura 7.12. Modelo Y = exp


Como se ha indicado existen transformaciones sencillas que convierten una relacin no
lineal en lineal. Y, en algunos casos, estas transformaciones permiten resolver otros
problemas como falta de normalidad o heterocedasticidad. Por ello, si en el anlisis de
residuos no se observan estos problemas, se puede intentar conseguir la linealidad del
modelo transformando solamente la variable regresora x. Pero si, por el contrario, se
observan estos problemas puede ser necesario transformar las dos variables.
La familia de transformaciones ms utilizada para resolver este problema es la
familia de Box-Cox.

6.3 Anlisis de residuos. Grficos.


Para comprobar si se verifican las hiptesis estructurales en el ajuste de un modelo
lineal, el anlisis de residuos juega un papel fundamental y en este apartado se
estudiarn algunos grficos que de forma sencilla pueden aportar informacin relevante
sobre el problema.
6.3.1 Residuos. Tipos.
Se define el residuo (ordinario) asociado a una observacin muestral como la diferencia
entre la observacin
y la prediccin
,

El i-simo residuo e es una variable aleatoria que tiene las siguientes propiedades
(6.1)
Bajo la hiptesis de normalidad se obtiene
i

De (6.1) se deduce que


no es constante, lo que hace difcil identificar las
observaciones con residuos grandes. Por ello es usual tipificarlos y se definen los
residuos estandarizados como
2

(6.2)
Los residuos estandarizados tienen media cero y varianza prxima a 1.
En el clculo de r existe una relacin de dependencia entre el numerador y el
denominador porque en el clculo de s se utiliza el residuo e . Este problema se elimina
si se estima la varianza residual a partir de toda la muestra excepto la observacin
. A la varianza residual as obtenida se le denotar por sR, 2, y permite definir los
residuos estudentizados como
i

(6.3)
6.3.2 Grficos de residuos.
El anlisis descriptivo anlitico y grfico de los residuos estandarizados da una buena
idea acerca de si se verifican o no las hiptesis del modelo de regresin. En una primera
etapa es conveniente calcular los estadsticos bsicos de los mismos: media, mediana,
desviacin tpica, coeficiente de asimetra, coeficiente de curtosis, ... que permiten
tener una primera aproximacin a la distribucin de los mismos.
Los grficos de cajas (Box-Plot) y el histograma de los residuos estandarizados
proporcionan informacin sobre la distribucin de los mismos. Si el el tamao de la
muestra es pequeo en lugar del histograma de residuos se puede utilizar el diagrama
de puntos (dot-plot) o el grfico de tallos y hojas (stem and leaf plot), con una
interpretacin anloga a la expuesta para el histograma. (Ver figuras 7.13. y 7.14.)

Figura 7.13. Indica la existencia de una variable oculta.

Figura 7.14. Dot-plot de un conjunto de residuos.


El grfico de residuos frente a predicciones.
Aparte de los grficos ya comentados el grfico de los residuos frente a las
predicciones
es el que proporciona una mayor informacin acerca del
cumplimiento de las hiptesis del modelo. Esto se observa en las siguientes figuras:

Figura 7.15. No se detecta ningn problema.

Figura 7.16. El ajuste lineal no es adecuado.

Figura 7.17. Ajuste lineal mal calculado.

Figura 7.18. Existe heterocedasticidad.

Figura 7.19. Ajuste no lineal y heterocedasticidad.

Figura 7.20 Existencia de datos atpicos.

6.4 Observaciones atpicas y observaciones influyentes.


Al ajustar un modelo de regresin lineal a una nube de puntos bidimensional
n
1 , en el grfico de y frente a x , en algunas ocasiones puede observarse que existen
observaciones (valores extremos) que se separan claramente del resto de la nube de
observaciones. Es de gran inters conocer la influencia que estos puntos tienen en el
clculo de la estimacin de la recta de regresin.
i

i=

6.4.1 Valor de influencia.


Para el estudio de la influencia de una observacin en el clculo de la recta de regresin
se tendr en cuenta la siguiente ecuacin que se deduce de las ecuaciones cannicas de
la recta de regresin,

donde

y escrito de forma matricial se tiene que

n
siendo H =
t,i = 1 la matriz de proyeccin (en muchos textos se le denomina hat
matrix) una matriz cuadrada y simtrica.
Por tanto la influencia de la observacin
en el clculo de viene dado por dos
valores:
El valor de y segn se separe mucho o poco de la recta ajustada calculada sin esa
observacin.
Del valor de h segn sea grande o no.
El valor h mide, al menos parcialmente, la influencia a priori de la observacin isima en el clculo de la prediccin . En particular, los elementos de la diagonal de la
matriz H, h , t = 1,...,n, miden la influencia de la observacin t-sima en el clculo de
. Su expresin viene dada por
t

ti

ti

tt

(6.4)
h es una medida de la distancia del punto x al centro , y se le denomina valor de
influencia a priori, o ms habitualmente por su denominacin en ingls leverage. Por
tanto, observaciones con valor de influencia alto son observaciones que a priori
influyen en el clculo del modelo y observaciones con valor de influencia bajo a priori
influyen poco.
Se debe recordar la siguiente relacin
tt

donde n es el nmero equivalente de observaciones .


El valor de influencia de las observaciones muestrales es un valor comprendido entre
1/n y 1,
t

Los casos extremos son los siguientes:


x = , entonces h = 1/n, el valor ms pequeo que puede tomar.
t

tt

Sea la muestra
, entonces h =
,i
= 1,...,n-1, puntos en los que x = x , y h = 1, el mayor valor que puede tomar. En
i

este caso la recta de regresin pasa por los puntos


=

i=1

y . Tal y como se indica en la Figura 7.25.

n-1

, siendo

Figura 7.25. Observacin con mximo valor de influencia.


Es fcil probar que

n
t=1

h = 2, por tanto E

tt

. Se puede considerar que una

observacin tiene un valor de influencia grande si se verifica que h >


ms refinada, se calcula la varianza de los h
tt

. O de una forma

tt

y se considera que una observacin tiene un valor de influencia grande si

De todo lo anterior se deduce que los valores de influencia son tiles para tener una
idea aproximada de las observaciones que influyen en el clculo de la recta de
regresin, aunque no para tomar una decisin definitiva sobre este problema. Para ello
se utilizar el concepto de residuo ya definido anteriormente y los contrastes tipo D de
Cook.
Otra forma de determinar si una observacin es un punto influyente es comparar si
su ajuste cambia mucho cuando se calcula la recta de regresin con toda la muestra o
con toda la muestra menos esa observacin. Para ello se define
como la prediccin de
la observacin
cuando se calcula la recta de regresin a partir de toda la muestra
excepto este punto.
Se definen los residuos eliminados como
(6.5)
Entre los residuos ordinarios y los residuos eliminados existe la siguiente relacin

(6.6)
Cuando el valor de influencia de una observacin es grande los dos residuos son
diferentes.
Las observaciones con residuos estandarizados grandes se denominan datos atpicos.
En el modelo de regresin lineal simple, es fcil observar y determinar las observaciones
que son atpicas en el grfico de la nube de observaciones muestrales y la recta
ajustada, pero sto es un grave problema en modelos de regresin con varias variables
explicativas. En todo caso, es conveniente investigar aquellas observaciones que tienen
un residuo asociado grande.
6.4.2 El estadstico D de Cook.
Una observacin influyente a posteriori es aquella
cuya inclusin modifica
sustancialmente la estimacin del modelo.
Es importante identificar y estudiar las observaciones influyentes a posteriori. A
diferencia de las observaciones influyentes a priori (con valor de influencia alto), en
este caso, se consideran los valores de las dos variables: regresora y respuesta. Si una
observacin
es influyente en el modelo de regresin, esta influencia se notar en
la prediccin de las observaciones y en la estimacin de los parmetros de la recta de
regresin
.
El estadstico D de Cook, mide la influencia de la observacin

por medio de
(6.7)

donde es la prediccin de la i-sima observacin calculada con toda la muestra,


es
la prediccin de la misma observacin pero calculada con toda la muestra excepto el
dato
, r es el i-simo residuo estandarizado y h es el valor de influencia a priori
de la i-sima observacin. Bajo la hiptesis nula, si
no es una observacin
influyente a posteriori se verifica que D sigue una distribucin F con 2 y n - 2 grados
de libertad,
j

ii

Por tanto, con un nivel de significacin se considern influyentes a posteriori a


aquellas observaciones tales que (es un contraste de una cola)

Otro estadstico relacionado es el propuesto por Belsey, Kuh y Welsh, que viene dado
por
DFFITS

=
=

=
1/2

t , i = 1,...,n,

1/2

(6.8)

se puede observar que DFFITS


es comparable a D . Estos dos estadsticos miden
toda la influencia de la observacin
en el ajuste de regresin. El estadstico
DFFITS se considera significativo si es mayor que 2/ .
2

6.5 Las hiptesis bsicas.


Para contrastar las hiptesis bsicas de normalidad, homocedasticidad e independencia
se pueden utilizar las tcnicas descritas en el captulo 4. En este apartado se indican
algunas caractersticas propias de los modelos de regresin lineal.
6.5.1 La hiptesis de normalidad.
Una hiptesis bsica es que los errores del modelo siguen una distribucin normal y para
ello se debe de contrastar la hiptesis de que los residuos e = y - , i = 1,...,n,
provienen de una distribucin normal. Pero dado que V ar
=
=
,i=
1,...,n, es preferible trabajar con los residuos estandarizados o estudentizados que
tienen la misma varianza.
Si la hiptesis de normalidad no se verifica, sto afecta al modelo en:
Los estimadores por mnimos-cuadrados de los parmetros del modelo no coinciden
con los mximo-verosmiles. Los estimadores obtenidos son centrados pero no
eficientes.
Los contrastes de significacin (de la F y de la t) dejan de ser vlidos y los intervalos
de confianza obtenidos para los parmetros del modelo no son correctos. A pesar de
ello, si el tamao muestral es razonablemente grande, por el Teorema Central del
Lmite, los contrastes e intervalos de confianza obtenidos son una buena aproximacin
de los reales.
Es muy importante conocer la causa por la que no se cumple la hiptesis de normalidad
ya que esta informacin puede ayudar a corregir el modelo de regresin ajustado. Entre
otros motivos, la falta de normalidad puede ser debida a un conjunto pequeo de
observaciones atpicas que originan apuntamiento o a la existencia de una variable
cualitativa oculta que hace que la distribucin sea multimodal. En estos casos se puede
mejorar el modelo corrigiendo estos problemas. En otras ocasiones la falta de
normalidad es debida a una fuerte asimetra de la distribucin que, en muchos casos, va
acompaada de otros problemas como falta de linealidad o heterocedasticidad.
Entonces lo recomendable es transformar la variable respuesta que normalmente arregla
ambos problemas. La familia de transformaciones de Box-Cox ya comentada es la que
normalmente se utiliza.
Para estudiar la normalidad de los residuos estandarizados se pueden utilizar las
tcnicas descritas en la seccin 4.3. y que se enumeran a continuacin:
Grficos: el grfico de cajas, el histograma, la estimacin no paramtrica de la
funcin de densidad, el grfico de simetra y los grfico p - p y q - q.
Contrastes de normalidad: contraste de asimetra y curtosis, contraste chi-cuadrado,
contraste de Kolmogoroff-Smirnoff-Lilliefors.
i

6.5.2 La hiptesis de homocedasticidad.

La hiptesis de homocedasticidad implica que V ar( ) =


= cte, se detecta fcilmente
en el grfico de residuos (e ) frente a las predicciones ( ) o, equivalentemente, en el
grfico de los residuos (e ) frente a la variable regresora (x ).
Un modelo bastante frecuente de heterocedasticidad es el del siguiente modelo
2

ij

ij

de donde se deduce que

si la funcin g no es constante, el modelo es heterocedstico, siendo el caso ms


frecuente el siguiente

En particular, si = 1, la desviacin tpica de los errores crece linealmente con la


variable regresora, la transformacin adecuada consiste en multiplicar ambas variables
X e Y por 1/X, de esta forma se obtiene el siguiente modelo de regresin con
homocedasticidad,

Si hay heterocedasticidad los estimadores son insesgados pero no son de mnima


varianza y las varianzas de los coeficientes del modelo de regresin tienden a ser ms
grandes y los contrastes que se deducen no se pueden aplicar.
En algunos casos transformando solamente la variable respuesta se consigue
homocedasticidad y se resuelven otros posibles problemas como falta de simetra y de
normalidad. Nuevamente, la familia de transformaciones de Box-Cox es til para este
propsito y la sencilla transformacin = 0 (tomar logaritmos en la variable respuesta)
es suficiente para obtener homocedasticidad.
Una alternativa para estimar el parmetro que se puede utilizar en la
transformacin de Box-Cox es la siguiente:
Ordenar las predicciones de menor a mayor
.
Hacer grupos (normalmente de tamao entre 5 y 11) de los respectivos residuos
manteniendo ese orden.
Calcular en cada grupo la media de las predicciones
y la desviacin tpica de
los residuos
con k = 1,2,...,m, donde m es el nmero de grupos utilizado.
Dibujar la grfica de pares
.
Ajustar a esta nube de puntos la curva s = k. .
Si = 0, hay homocedasticidad y no es necesario hacer ninguna transformacin. Si
0 se transforma la variable respuesta segn la transformacin de Box-Cox con
parmetro = 1 - . Esto es
k

6.5.3 La hiptesis de independencia.


La hiptesis de que las observaciones muestrales son independientes es una hiptesis
bsica en el estudio de los modelos de regresin lineal. Con ello se entiende que los
n
errores
i = 1 son variables aleatorias independientes.
La falta de independencia, se produce fundamentalmente cuando se trabaja con
variables aleatorias que se observan a lo largo del tiempo, esto es, cuando se trabaja
con series temporales. Por ello, una primera medida para tratar de evitar la
dependencia de las observaciones consiste en aleatorizar la recogida muestral.
El que no se cumpla la hiptesis de independencia afecta gravemente a los
resultados del modelo de regresin, se obtienen estimadores de los parmetros y
predicciones ineficientes y los intervalos de confianza y contrastes que se deducen de la
tabla ANOVA no son vlidos. Esto es debido a que se utiliza el resultado de que la
varianza de la suma de variables independientes es igual a la suma de las varianzas de
cada variable. Propiedad que no se cumple para variables dependientes.
Si no se cumple la hiptesis de independencia se tienen dos alternativas. La primera,
se basa en transformar los datos para obtener observaciones incorreladas
(independientes, bajo hiptesis de normalidad) y luego aplicar las tcnicas de regresin
estudiadas (mnimos cuadrados), esta mtodo es un caso particular de la denominada
tcnica de mnimos cuadrados generalizados, que se puede aplicar en situaciones muy
precisas y, por tanto, su utilizacin es un tanto restringida. La segunda, se basa en
aplicar mtodos estadsticos diseados para el estudio con observaciones dependientes
como son los mtodos de series de tiempo y los modelos de regresin dinmica.
La dependencia entre las observaciones surge la mayora de las veces porque los
datos son recogidos a lo largo del tiempo, y los grficos y contrastes expuestos en la
seccin 4.7. son vlidos para detectarla.
Grficos para detectar dependencia son: el grfico de los residuos frente al
ndice (tiempo),
, el grfico de los residuos e frente a e y el correlograma.
Contrastes para detectar dependencias son: los contrastes basados en rachas,
contrastes sobre las autocorrelaciones, el contraste de Ljung-Box.
Dentro de los contrastes de autocorrelaciones para modelos de regresin, el contraste
de Durbin-Watson es muy utilizado.
t+1

Contraste de Durbin-Watson.
El contraste de Durbin-Watson est diseado para detectar residuos de un modelo de
regresin lineal que tienen un coeficiente de autocorrelacin de orden uno distinto de
cero. El contraste es el siguiente

El estadstico de Durbin-Watson para este contraste es

siendo e = y - los residuos y r la autocorrelacin muestral de orden uno. Durbin y


Watson calcularon la distribucin de este estadstico , bajo la hiptesis nula y para
cada tamao muestral, n. Para cada nivel de significacin las tablas Durbin y Watson
proporcionan los niveles inferior, d , y superior, d ,de la distribucin. La decisin final se
obtiene de la siguiente regla:
Si 0 < < d se rechaza H y aceptamos la existencia de autocorrelacin positiva.
Si d < < d el contraste no es concluyente.
Si d < < 4 - d se acepta H , sto es, no hay autocorrelacin.
Si 4 - d < < 4 - d el contraste no es concluyente.
Si 4 - d < < 4 se rechaza H y aceptamos la existencia de autocorrelacin
negativa.
t

U
L

7 Modelo de regresin lineal mltiple.


7.1 Regresin Lineal General: el modelo matemtico
Los Modelos de Regresin estudian la relacin estocstica cuantitativa entre una
variable de inters y un conjunto de variables explicativas. Sea Y la variable de inters,
variable respuesta o dependiente y sean x x ,...,x las variables explicativas o
regresoras. La formulacin matemtica de estos modelos es la siguiente
1,

donde es el error de observacin debido a variables no controladas.


En el modelo de Regresin Lineal General se supone que la funcin de regresin
m
es lineal. Por tanto, la expresin matemtica del modelo de regresin
lineal general es
(7.1)
Un primer objetivo en el estudio de este modelo es el de estimar los parmetros del
mismo , , ..., y la funcin de distribucin del error F a partir de una muestra de
n observaciones, que tendr la forma
0

2,

k,

De la expresin matemtica del modelo de regresin lineal general se deduce que


para i = 1,2,...,n se verifica la siguiente igualdad

donde

es el error aleatorio o perturbacin de la observacin i-sima.

Es intererante escribir el modelo de regresin lineal general en forma


matricial. De (7.1) se obtiene

escrito en forma vectorial

escrito en forma matricial


(8.2)
donde es un vector n-dimensional (matriz n 1) de la variable respuesta o
dependiente,
X es la matriz del diseo de las variables regresoras (matriz n
), la primera
columna de esta matriz est formada por unos, es la columna asociada con el parmetro
; la columna j + 1 contiene la informacin relativa a la variable x , j = 1,...,k, es la
columna asociada al parmetro .
0

es el vector

-dimensional (matriz

1) de los parmetros del modelo,

es el vector n-dimensional (matriz n 1) de las perturbaciones aleatorias.


Desarrollando la ecuacin matricial anterior se tiene,

La fila i-sima de la matriz X,


=
se corresponde con los datos de
las variables regresoras en el individuo i-simo, i = 1,2,...,n. Por tanto, la informacin
acerca del individuo i-simo est contenida en el vector
i.

i.

La columna j-sima de la matriz X,


=
se corresponde con los
datos de la variable regresora x , j = 1,2,...,k. La informacin acerca de la variable j
-sima est contenida en el vector .
.
j

.
j

En resumen, las matrices del modelo de regresin lineal mltiple son:

En el estudio del modelo de regresin lineal general se asume que se verifican las
siguientes hiptesis:

1. La funcin de regresin es lineal,


m( ) = m
i

=E

=E

=
+ x + x + ... + x , i = 1,...,n,
2. o, equivalentemente, E
= 0, i = 1,...,n.
3. La varianza es constante (homocedasticidad),
0

i1

i2

o, equivalentemente, V ar

ik

, i = 1,...,n.

4. La distribucin es normal,

o, equivalentemente,

~N

, i = 1,...,n.

5. Las observaciones Y son independientes (bajo normalidad, esto equivale a que la


i

Cov(Y ,Y ) = 0, si i j).
i

Esta hiptesis en funcin de los errores sera los son independientes, que bajo
normalidad, equivale a que Cov
= 0, si i j .
i

''

6. n > k + 1. En caso contrario no se dispone de informacin suficiente para estimar


los parmetros del modelo.
7. Las variables regresoras x x ,...,x son linealmente independientes.
1,

En el siguiente cuadro se resumen las hiptesis del modelo de regresin lineal general.

HIPTESIS del Modelo de Regresin Lineal General


En base a la var.
En base a la var. respuesta Y
de error i
E
E

=0
0

Homocedasticidad
V ar

Independencia,
Cov
= 0 los
errores, i, son
independientes

N(0, 2)

+ 1xi1 + 2xi2 + ... + kxik


Homocedasticidad

V ar

Independencia las observaciones, yi, son independientes

Normalidad

Normalidad
i

Y/xi1,xi2,...,xik ~ N

n>k+1
Las variables
regresoras son
linealmente
independientes

n>k+1
Las variables regresoras
son linealmente independientes

7.2 Estimacin de los parmetros del modelo. Estimacin de


Sea
un estimador del vector de parmetros
como

. Se define el vector de predicciones

El vector de residuos se obtiene como

El estimador por mnimos cuadrados de


se obtiene minimizando la suma de los
residuos al cuadrado. sto es, se minimiza la siguiente funcin de k + 1 variables:

Derivando respecto a

e igualando a cero, se obtienen las ecuaciones de regresin

de donde se deduce el siguiente estimador


(7.3)
Debe tenerse en cuenta que para calcular este estimador es necesario que la matriz X X
sea invertible. Esto est garantizado por la hiptesis 6 del modelo.
La matriz X X es una matriz

cuya expresin es la siguiente


t

La matriz X Y es una matriz


t

1 que viene dada por

Si se trabaja con todas las variables centradas se obtiene otra forma interesante de
expresar el modelo de regresin lineal.
(7.4)
donde , , ,..., son las medias muestrales de las variables Y,x ,x ,...,x .
Razonando como antes, se obtiene el siguiente estimador por mnimos cuadrados del
vector =
1

donde

es la matriz del diseo de las variables regresoras centradas (matriz n k )

S es la matriz de covarianzas de
con
.
XX

. Y S es el vector de covarianzas de Y
XY

7.3 Interpretacin geomtrica.


En el estudio del modelo de regresin lineal mltiple con k variables regresoras a partir
de una muestra de n observaciones se considera el subespacio vectoral de R , de
n

dimensin
, generado por los vectores
(columnas de la matriz
de diseo X). El problema de ajustar un modelo de regresin lineal mltiple se puede
interpretar geomtricamente como el problema de encontrar en este subespacio
vectorial el vector (vector de predicciones) lo ms prximo al vector de la variable
respuesta, . Esto es, encontrar el vector que minimice el mdulo del vector de
residuos, = - (la suma de los residuos al cuadrado). La resolucin de este problema
viene dada por el vector proyeccin ortogonal del vector en el subespacio
considerado. Por tanto,

siendo H la matriz de proyeccin (hat matrix) en el subespacio .

El estimador por mnimos cuadrados

viene dado por las coordenadas del vector de

predicciones en el subespacio respecto a la base


.
De esta interpretacin geomtrica se deduce que los residuos verifican las siguientes
restricciones

por tanto, los residuos tienen n H la matriz de proyeccin,


Dado que

grados de libertad.

Por tanto la matriz de proyeccin sobre el subespacio es

En el estudio de un modelo de regresin mltiple tiene gran inters la suma de residuos


al cuadrado, que representa la variabilidad no explicada por el modelo
, a partir
de la cual se obtienen los estimadores de la varianza . Por este motivo se expone a
continuacin una forma sencilla de calcular este valor.
2

Clculo de la suma de residuos al cuadrado,

o equivalentemente
(7.5)

7.4 Propiedades de los estimadores.


7.4.1 El estimador mnimo-cuadrtico

El estimador del vector de parmetros que se obtiene utilizando la tcnica de mnimos


cuadrados =
X Y verifica las siguientes propiedades:
El estimador es insesgado o centrado: E
= .
-1

La matriz de varianzas-covarianzas del estimador

es

De donde se deduce que los estimadores y


no son incorrelados ya que ij2 =
Cov
0, con i,j = 0,1,...,k y, por tanto, no son independientes. En particular, la
varianza del estimador viene dada por
i

siendo q el elemento i-simo de la matriz


.
El estimador tiene distribucin normal multivariante de orden k + 1,
-1

ii

(7.6)
El estimador

del parmetro

tiene la siguiente distribucin normal


(7.7)

El parmetro indica la influencia de la variable regresora x en la variable respuesta


Y , representa el incremento que se produce en la variable respuesta por un
crecimiento unitario en la variable regresora x .
Debe tenerse en cuenta que el valor de est condicionado al modelo de regresin
mltiple con el que se est trabajando y si se cambia el modelo (se eliminan variables
regresoras o se introducen nuevas variables) el coeficiente , asociada a la variable
regresora x , tambien cambia.
Aceptar que el valor de es cero equivale a aceptar que la variable x no est
relacionada linealmente con la variable Y.
Si se conoce la varianza del modelo , utilizando las distribuciones (7.6) y (7.7) se
pueden calcular intervalos de confianza de los parmetros , individuales o conjuntos
(regiones de confianza del vector paramtrico
, con j ,j ,...,j
) o hacer contrastes de simplificacin sobre estos parmetros. En la
prctica casi nunca se conoce el parmetro
y es necesario estimarlo.
i

7.4.2 El estimador de la varianza.


Una hiptesis bsica del modelo es que los errores son normales y homocedsticos, por
tanto, V ar
= , i = 1,...,n, el parmetro
normalmente es desconocido y es
necesario estimarlo. El estimador de este parmetro es la varianza residual, definida
por
2

(7.8)
Su distribucin es
(7.9)
7.4.3 Intervalos de confianza para
De la distribucin de

dada en (7.7) se deduce

Como
no se conoce, se sustituye por su estimador
siguiente estadstico con distribucin t
2

2
R

, lo que permite obtener el

n-

(7.10)
El estadstico tambin puede utilizarse para realizar contrastes de hiptesis acerca de
si la variable explicativa x influye individualmente o no en la variable respuesta Y
(contrastes de simplificacin).Esto es, se desea hacer el siguiente contraste
i

(7.11)
El estadstico del contraste es
(7.12)
donde representa la discrepancia entre la informacin que proporciona la muestra y
la informacin que proporciona la hiptesis nula
. Si H es cierto se verifica que
(7.13)
Estos contrastes se denominan contrastes individuales de la t.
Debe tenerse en cuenta que todos los resultados obtenidos sobre la inferencia del
parmetro , coeficiente de la variable x en el modelo de regresin, estn
condicionados a que las otras variables regresoras estn en el modelo y si se cambia el
modelo de regresin eliminando variables regresoras o introduciendo nuevas variables,
el coeficiente asociado a la variable x tambin cambia.
i

7.4.4 Teorema de Gauss-Markov.


El siguiente teorema de Gauss-Markov justifica la utilizacin de los estimadores mnimos
cuadrticos, ya que, en este contexto, indica que estos estimadores son los mejores
(los ms eficaces) dentro de la clase de los estimadores lineales insesgados.

En la estimacin del modelo de regresin lineal

si las perturbaciones son incorreladas, de igual varianza e


independientes de las variables explicativas. Entonces los estimadores
mnimo-cuadrticos
son ptimos o de mnima varianza dentro de la
clase de los estimadores centrados que son funciones lineales de las
observaciones, y .
i

El Teorema de Gauss-Markov asegura que los estimadores mnimo-cuadrticos son los


mejores dentro de la clase de estimadores que son insesgados y funciones lineales de
las observaciones, pero no garantiza que estos estimadores sean mejores que otros
estimadores que no pertenezcan a la clase anterior.
Por otra parte, al comparar estimadores se est utilizando el criterio de Error
Cuadrtico Medio (ECM), siendo
(7.14)
En la clase de los estimadores insesgados, el sesgo es cero. Por tanto

Si los estimadores mnimo-cuadrticos son los de menor varianza tambin son los de
menor ECM. Pero puede ocurrir que existan estimadores sesgados con menor varianza
que los estimadores mnimo-cuadrticos de forma que tengan menor ECM.
Finalmente debe tenerse en cuenta que en este teorema no se exigen hiptesis sobre
la distribucin de los , tan solo que sean independientes y con la misma varianza.
i

7.5 El Anlisis de la Varianza.


A continuacin se expone como descomponer la variabilidad de la variable de inters Y
cuando se ajusta un modelo de regesin mltiple.
7.5.1 El contraste conjunto de la F.
Razonando como en el modelo de Regresin Lineal Simple, en cada observacin muestral
se puede hacer la siguiente descomposicin

En base a las propiedades geomtricas del modelo y utilizando el Teorema de


Pitgoras, se obtiene

De esta igualdad se construye la siguiente tabla ANOVA

Fuente de
Variacin
Por la recta
Residual
Global

Tabla ANOVA del modelo de regresin mltiple


Suma de
Grados de
Cuadrado
Varianzas
Libertad
s
scE =

i=1

scR =

i=1

scG =

n
i=1
2

nn-1

=
Y

De esta tabla ANOVA se deduce el siguiente contraste acerca de la influencia


conjunta del modelo de regresin en la variable respuesta.
Contraste de regresin mltiple de la F.
El contraste que se desea resolver es el siguiente

Si H es cierto ninguna de las variables regresoras influye en la variable respuesta (el


modelo no influye). En este supuesto se verifica que
0

por ser sta una medida absoluta se compara con la varianza residual, lo que lleva a
utilizar como estadstico del contraste el siguiente

Bajo la hiptesis nula y por la hiptesis de independencia se sigue que


distribucin F (Contraste de la F) con k y n grados de libertad,

sigue una
(7.15)

7.5.2 Contrastes individuales de la F.


El contraste individual de la t que permite contrastar la influencia individual de la
variable x se deduce de la distribucin del estimador , pero tambin puede hacerse
por medio de una tabla ANOVA, estudiando el incremento que se produce en la suma de
cuadrados explicada por el modelo al introducir la variable regresora en estudio x .
Para ello, si se desea contrastar la influencia de la variable x , se ajusta el modelo de
regresin completo, con las k variables regresoras y se calcula la suma de cuadrados
explicada por el modelo (scE(k)). A continuacin, se ajusta el modelo de regresin con k
- 1 variables, todas excepto la variable x . Se calcula la suma de cuadrados explicada por
este modelo (scE
). Ahora se define la suma de cuadrados incremental debida a
x como el valor
i

Este valor indica el aumento de la variabilidad explicada por el modelo al introducir


la variable x . Para contrastar la influencia individual o no de x , se realiza el siguiente
contraste,
i

Como estadstico del contraste se utiliza


(7.16)
Bajo la hiptesis nula se verifica que
sigue una distribucin F (Contraste individual
de la F) con 1 y n grados de libertad.
i

(7.17)
Evidentemente, si H es cierto, scE
0y
tomar valores pequeos. Por tanto
este contraste es unilateral siendo el p - valor del contraste el siguiente
0

Este contraste proporciona exactamente el mismo resultado que el contraste


individual de la t, ambos dan igual p - valor. Sin embargo este mtodo presenta la
ventaja adicional de poder utilizarse para contrastar la influencia de un subconjunto de
l variables explicativas, con l < k,
. En este caso el estadstico del
contraste es

En un modelo de regresin mltiple al hacer los contrastes sobre la influencia


individual de cada una de las variables regresoras y el contraste sobre la influencia
conjunta del modelo de regresin ajustado, pueden darse las siguientes situaciones:

Caso 1. Todas las variables explicativas influyen en la variable respuesta.


Caso 2. Influyen algunas variables explicativas, otras no.
Caso 3. Las variables explicativas son muy dependientes entre s. Entonces,
conjuntamente influyen, pero los coeficientes individuales tienen varianzas muy altas
en relacin con el valor de las estimaciones que son no significativas. Este problema
se denomina multicolinealidad y se soluciona eliminando algunas variables regresoras
del modelo.
Caso 4. Es otro caso de multicolinealidad, las variables son muy dependientes pero con
una fuerte correlacin negativa. Es poco frecuente.
Caso 5. Anlogo al anterior.
Caso 6. Ninguna de las variables regresoras influye en la variable respuesta o la
influencia no la detecta la muestra tomada.

7.6 Correlacin.

Al ajustar un modelo de regresin mltiple a una nube de observaciones es importante


disponer de alguna medida que permita medir la bondad del ajuste. Esto se consigue con
los coeficientes de correlacin mltiple.
7.6.1 Coeficiente de correlacin mltiple.
En el estudio de la recta de regresin se ha definido el coeficiente de correlacin lineal
simple (o de Pearson) entre dos variables X e Y , como
(7.18)
donde s
es la covarianza muestral entre las variables X e Y ; s y s son las
desviaciones tpicas muestrales de X e Y , respectivamente.
El coeficiente de correlacin lineal simple es una medida de la relacin lineal
existente entre las variables X e Y.
En general cuando se ajusta un modelo estadstico a una nube de puntos, una medida
de la bondad del ajuste es el coeficiente de determinacin, definido por
X

(7.19)
Si el modelo que se ajusta es un modelo de regresin lineal mltiple, a R se le denomina
coeficiente de correlacin mltiple y representa el porcentaje de variabilidad de la Y
que explica el modelo de regresin.
Como scE < scG, se verifica que 0 < R < 1. Si R = 1 la relacin lineal es exacta y si R
= 0 no existe relacin lineal entre la variable respuesta y las variables regresoras.
El coeficiente de correlacin mltiple R es igual al coeficiente de correlacin lineal
simple entre el vector variable respuesta
y el vector de predicciones ,
2

El coeficiente de correlacin mltiple R presenta el inconveniente de aumentar


siempre que aumenta el nmero de variables regresoras, ya que al aumentar k (nmero
de variables regresoras) disminuye la variabilidad no explicada, algunas veces de forma
artificial lo que puede ocasionar problemas de multicolinealidad. Si el nmero de
observaciones n es pequeo, el coeficiente R es muy sensible a los valores de n y k. En
particular, si n = k + 1 el modelo se ajusta exactamente a las observaciones. Por ello y
con el fin de penalizar el nmero de variables regresoras que se incluyen en el modelo
de regresin, es conveniente utilizar el coeficiente de determinacin corregido por el
nmero de grados de libertad, . Este coeficiente es similar al anterior, pero utiliza el
cociente de varianzas en lugar del cociente de sumas de cuadrados. Para su definicin se
tiene en cuenta que
2

Cambiando las sumas de cuadrados por varianzas se obtiene el coeficiente de


determinacin corregido por el nmero de grados de libertad, , definido como sigue
2

(7.20)

Ahora es fcil deducir la siguiente relacin entre los dos coeficientes de determinacin
(7.21)
Tambin es fcil relacionar el estadstico del contraste de regresin mltiple con el
coeficiente de determinacin, obteniendo
(7.22)
7.6.2 Correlacin Parcial
Sea
un conjunto de variables aleatorias, el coeficiente de correlacin
parcial entre X y X es una medida de la relacin lineal entre las variables X y X una vez
que se ha eliminado en ambas variables los efectos debidos al resto de las variables del
conjunto
. Al coeficiente de correlacin parcial entre X y X se le
denotar por r .
Para una mejor interpretacin de este concepto, considrese el conjunto de cuatro
variables
, se desea calcular el coeficiente de correlacin parcial entre
las variables X y X . Para ello, se procede de la siguiente forma,
Se calcula la regresin lineal de X respecto de X y X
i

.
12 3...k

donde e son los residuos del ajuste lineal realizado.


Se calcula la regresin lineal de X respecto de X y X
.
1 34

donde e son los residuos del ajuste lineal realizado.


El coeficiente de correlacin parcial entre X y X es el coeficiente de correlacin
lineal simple entre las variables e y e ,
.
2 34

.
1 34

.
2 34

Por tanto, el coeficiente de correlacin lineal se define siempre dentro de un conjunto


de variables y no tiene interpretacin ni sentido si no se indica este conjunto de
variables.
Relacin entre los coeficientes de correlacin.
Sea el conjunto de variables
, entonces se verifica la siguiente relacin
entre los coeficientes de correlacin lineal simple y el coeficiente de correlacin
parcial,
(7.23)
Clculo del coeficiente de correlacin parcial.
En un modelo de regresin mltiple

se puede calcular fcilmente el coeficiente de correlacin parcial entre la variable


respuesta Y y una variable regresora X controlado por el resto de variables regresoras.
Para ello se utiliza el estadstico del contraste individual de la t respecto a la variable X
y que se defini anteriormente como
i

obtenindose la siguiente relacin


(7.24)
donde C =
regresoras excepto el ndice i.

el conjunto de ndices de todas las variables

7.7 Prediccin en el Modelo de Regresin Lineal Mltiple.


Razonando como en el modelo de regresin lineal simple, se deben distinguir dos
problemas diferentes:
Estimar la media de la distribucin condicionada de Y/ = . Esto es, se quiere
estimar el parmetro
t

Predecir el valor de la variable respuesta en un individuo del que se conoce que


. Esto es, se quiere predecir un valor de la variable condicionada Y/ = .
h

7.7.1 Estimacin de las medias condicionadas.


Una vez que se ha ajustado el modelo de regresin lineal por mnimos cuadrados se
obtiene

El estimador de la media de la distribucin condicionada de Y/


parmetro m = E
Obteniendo

, se obtiene sustituyendo

, esto es, del

en el modelo de regresin.

Este estimador tiene las siguientes propiedades:


Es un estimador centrado o insesgado, E
La varianza del estimador
es V ar
=
influencia o leverage asociado al vector
expuesta en la seccin 7.4.
t

=m =E
h , donde h = tt
es el valor de
. La interpretacin de este valor es la
t

tt

tt

-1

Se define el inverso de h como el nmero equivalente de observaciones para


tt

estimar m , valor que se denota por n = 1/h .


t

tt

La interpretacin de n es la siguiente: la informacin que proporciona la muestra, de


n
tamao n,
i = 1 para estimar m es la misma que proporcionara una muestra
n
de tamao n de observaciones
j = 1 de una poblacin con distribucin igual a la
condicionada de Y/ = .
t

Para todas las observaciones muestrales

, i = 1,...,n, se verifica que

Adems para cualquier valor de


se verifica que el valor de n ser mayor cuanto ms
prximo est
de y cuando
= se obtiene que n = n, valor mximo que puede
tomar. Inversamente, si la distancia entre
y crece entonces el valor de n
disminuye, y si esta distancia se hace infinitamente grande (se extrapola) el valor de
n se aproxima a cero.
La distribucin de
es normal. Por tanto,
t

Como en la prctica el parmetro


es desconocido, el estadstico pivote
no se
puede utilizar para calcular intervalos de confianza y es necesario sustituir
desconocido por un estimador, R2. Obteniendo el siguiente estadstico pivote
2

(7.25)
Por la hiptesis de normalidad se sigue que la distribucin de

es
(7.26)

Al estimar una media condicionada utilizando el modelo de regresin se debe de


tener en cuenta que los resultados son razonables dentro del rango de valores de las
variables regresoras (interpolar) donde se verifica que 1 < n < n y, en particular, para
= se verifica que n = n, y la estimacin de m tiene la menor varianza. Si es un
vector alejado de , entonces n es pequeo y V ar
grande, obtenindose
estimaciones poco precisas. Finalmente, si se estima la media condicionada m fuera del
rango de valores de (extrapolar), entonces puede ocurrir que n 0, lo que hace que la
precisin de la estimacin de m sea muy pequea.
t

7.7.2 Prediccin de una observacin.


Se desea predecir el valor de la respuesta, Y , de un individuo del que se sabe que
, utilizando el ajuste de un modelo de regresin lineal de la variable Y respecto al
vector de variables regresoras .
t

El predictor
viene dado por

que minimiza el Error Cuadrtico Medio de Prediccin, E

Por tanto, la prediccin de Y = Y/ =


es el mismo valor que se obtiene en la
estimacin de m pero su varianza es mayor.
El predictor verifica las siguientes propiedades:
La prediccin es centrada, ya que, E
=E
La varianza de la prediccin es,
t

V ar

=E
= V ar
+ V ar
V ar
=
+ h =
Para calcular intervalos de prediccin de y se utilizar el siguiente estadstico pivote
2

tt

(7.27)
Los intervalos de prediccin que se obtienen son mucho mayores que los intervalos de
confianza de la media condicionada m ya que la varianza ha aumentado.
t

Captulo 8
Modelos de regresin lineal mltiple. Diagnosis y validacin.

8.1 Problemas en el ajuste de un modelo de regresin lineal mltiple.


Los principales problemas que se pueden presentar en la construccin de un Modelo de
Regresin Mltiple son los siguientes:
Multicolinealidad: las variables regresoras son muy dependientes entre s, y es difcil
separar su contribucin individual al modelo. Consecuencia de sto es que los
parmetros del modelo son muy inestables, con varianzas muy grandes.
Error de especificacin: el modelo de regresin no proporciona un buen ajuste a la
nube de observaciones. Esto puede ser por diferentes motivos: la relacin no es lineal;
existen variables explicativas relevantes que no han sido includas en el modelo. Por
ello, cuando se dispone de un conjunto amplio de posibles variables explicativas, es
importante disponer de algoritmos que seleccionen el subconjunto ms adecuado de
variables explicativas que se deben incorporar al modelo de regresin, asi como de
medidas que midan la bondad del ajuste.
Falta de Normalidad: los residuos no son normales.
Heterocedasticidad: la varianza no es constante.
Existencia de valores atpicos o heterogneos: existen datos atpicos que se separan
de la nube de datos muestrales que pueden influir en la estimacin del modelo de
regresin o que no se ajustan al modelo.
Dependencia (autocorrelacin): existe dependencia entre las observaciones.

8.2 Multicolinealidad.
En el modelo de regresin lineal mltiple
el estimador por mnimos cuadrados

(8.1)
se obtiene resolviendo el sistema de ecuaciones
(8.2)

Por tanto, para calcular es necesario invertir la matriz


. Se pueden dar las
siguientes situaciones:
Una (o ms) de las columnas de la matriz de diseo X, , es una combinacin lineal
exacta de las otras columnas, esto es, una variable explicativa es combinacin lineal
de las otras. Entonces el rang
< k + 1, el
= 0 y no existe
. Por tanto el
sistema
= X Y no tiene solucin nica. No se puede estimar unvocamente el
vector . Este sera el caso extremo de multicolinealidad que en la prctica no se
suele dar.
El caso opuesto al anterior se da cuando las variables regresoras son ortogonales. Esto
es,
.
.j

-1

(8.3)
En este caso los resultados del modelo de regresin se pueden interpretar sin
ambigedad. La matriz X X es diagonal y la matriz V ar
tambin es diagonal, lo que
implica que los estimadores , i = 1,2,...k, son incorrelados. El signo de es igual al
signo del coeficiente de correlacin r
, y la contribucin de la variable regresora
x a R es independiente de las otras variables regresoras que estn includas en el
modelo de regresin, esto es, si se elimina alguna variable regresora o se aade una
nueva (ortogonal), la contribucin de x es la misma.
t

En la mayora de las situaciones lo que ocurre es una situacin intermedia entre los
dos casos extremos anteriores. Esto es, existe una cierta relacin entre las variables
explicativas lo que hace que los estimadores estn correlacionados. Si est relacin
es muy fuerte porque dos o ms variables regresoras estn prximas a una relacin
de linealidad del tipo
i

siendo , ,..., nmeros no todos iguales a cero. Entonces se tiene un problema de


multicolinealidad.
Aunque exista problema de multicolinealidad, se puede ajustar y estimar el modelo de
regresin lineal, pero con mucha variabilidad, en el sentido de que las varianzas de los
estimadores de los coeficientes del modelo son muy altas, lo que afecta al estudio del
modelo.
Desde otro punto de vista, comparando la V ar
cuando se utiliza el modelo de
regresin lineal mltiple
con dos regresores y cuando se utiliza el modelo de
regresin lineal simple
de un solo regresor. Se obtiene que
1

si existe alta multicolinealidad 1 - r122 0 y, por tanto, V ar


>> V ar
.
La ltima ecuacin se generaliza para un modelo de regresin lineal con k variables
regresoras, de la siguiente forma
(8.4)
donde ri.resto2 es el coeficiente de correlacin mltiple entre la variable explicativa x y el
resto de variables explicativas.
Se denomina factor de incremento de la varianza al nmero
i

(8.5)
Por tanto,
(8.6)
De (8.6) se deduce que V ar
< V ar
, lo que implica que el modelo de
regresin lineal simple estima con mayor precisin la influencia de la variable x en la
variable respuesta que el modelo de regresin mltiple.
Si existe multicolinealidad, el FIV
es muy grande y V ar
es mucho
mayor que V ar
.
De todo lo anterior se deduce que en un problema de regresin mltiple con fuerte
multicolinealidad se verificar:
Los estimadores tendrn varianzas muy altas y estarn muy correlacionados entre
s.
Por la alta variabilidad de los estimadores puede ocurrir que los contrastes
individuales (contrastes de la t) sean no significativos mientras que el contraste
conjunto (contraste de la F) sea altamente significativo.
La multicolinealidad normalmente afecta a unas variables si y a otras no, por tanto,
puede afectar a unos parmetros del modelo y a otros no.
i

La multicolinealidad no afecta a las predicciones


poblacional

, residuos

, y varianza

En resumen la multicolinealidad es un problema de la muestra de la que se quiere


obtener ms informacin de la que contiene.
Se resuelve el problema de multicolinealidad eliminando del modelo las variables
explicativas dependientes. Esto es, se deben eliminar del modelo aquellas variables
que proporcionan una informacin que se obtiene de otras variables ya includas en el
modelo.
Detectando la multicolinealidad.
La multicolinealidad indica que existe una fuerte correlacin entre las variables
regresoras, por lo tanto para detectarla se debe estudiar:
La matriz de correlaciones de las variables regresoras, R.
La existencia de algn valor alto fuera de la diagonal de esta matriz (r , i j, es
prximo a 1) , indica que existe una fuerte relacin lineal entre las variables
regresoras x y x .
i,j

Pero sto no es suficiente ya que la matriz R no detecta fuertes relaciones de una


variable regresora con un conjunto de variables regresoras. Para evitar esta situacin
se debe estudiar,
Los elementos de la diagonal de la matriz R .
-1

Ya que se verifica que el i-simo elemento de esta matriz es


(8.7)
por tanto si FIV es un valor muy alto, existe multicolinealidad causada por la
variable x . Por ejemplo si diag R = FIV > 10 ri.resto2 > 0 9. Como consecuencia se
debera eliminar la variable explicativa x del modelo de regresin.
El inconveniente de este mtodo es que la matriz R se calcula con poca precisin
(depende mucho de la muestra) cuando la matriz R es casi singular (su determinante
es prximo a cero).
Calcular los autovalores de la matriz R.
Si las variables regresoras son ortogonales, todos los autovalores de R son iguales a
uno, pero si hay multicolinealidad, al menos uno de los autovalores de R es prximo a
cero, la variable regresora asociada a ese autovalor ser la que es aproximadamente
una combinacin lineal de las otras variables regresoras.
Para medir si un autovalor es prximo a cero o, equivalentemente, para medir la
multicolinealidad asociada a la matriz R se utiliza el ndice de condicionamiento
de la matriz R que es una buena medida de la singularidad de esta matriz. La
definicin del ndice de acondicionamineto es la siguiente,
i

-1

'

-1

(8.8)

8.3 Anlisis de residuos. Grficos.


Como se ha indicado anteriormente, el anlisis de los residuos es bsico para chequear si
se verifican las hiptesis del modelo de regresin. Por ello, a continuacin se exponen
las propiedades matemticas de los mismos. Considrese el modelo de regresin lineal
mltiple

Los residuos mnimo-cuadrticos vienen dados por

o en forma matricial

Como = H , siendo H = X
X la matriz de proyeccin ortogonal. Es fcil
probar que la matriz H es idempotente
y simtrica
. En base a esto
= - = -H =
=
= X + -HX -H =
,
donde se utiliz que HX = X. Se calcula la matriz de varianzas de los residuos,
-1

Por tanto, e es una variable aleatoria con distribucin


i

(8.9)
donde h es el valor de influencia de
que mide la distancia estadstica de
a . Un
residuo grande indica que la observacin est lejos del modelo estimado y, por tanto,
la prediccin de esta observacin es mala. Las observaciones con residuos grandes se
denominan observaciones atpicas o heterogneas (outliers).
Como los residuos tienen varianza variable y son dimensionados (tienen las unidades
de la variable Y ), normalmente se tipifican
ii

(8.10)
los residuos tipificados siguen una distribucin normal estndar, pero como
es
desconocido, se sustituye por su estimador, la varianza residual R2 y se obtienen los
residuos estandarizados, definidos como
2

(8.11)
Por la hiptesis de normalidad los residuos estandarizados siguen una distribucin t con
ngrados de libertad. Como ya se indic en el estudio del modelo de regresin
lineal simple, en el cluco de r existe el problema de que hay una relacin de
dependencia entre el numerador y el denominador de r . Para evitar sto, con mayor
esfuerzo computacional, se calcula para cada i, i = 1,...,n, el estimador
, la varianza
residual del modelo de regresin obtenido a partir de la muestra en la que se ha
eliminado la observacin
. Ahora se definen los residuos estudentizados como
i

R,

(8.12)
Los residuos estudentizados siguen una distribucin t con
grados de
libertad. Si el tamao muestral
es grande, los residuos estandarizados y los
estudentizados son casi iguales y muy informativos, pudindose considerar grandes los
residuos estandarizados tales que
> 2.
Con los residuos estandarizados o estudentizados se pueden construir los siguientes
grficos de inters, muchos de los cuales ya han sido comentados,

El histograma de los residuos, que sirve para observar la existencia de normalidad, simetra
y detectar observaciones atpicas.
El grfico probabilstico de normalidad (p-p y q -q) y el grfico de simetra, que permite
contrastar la normalidad (simetra) de la distribucin de los residuos.
El grfico de residuos
frente a las predicciones
, que permite detectar diferentes
problemas:
Heterocedasticidad, la varianza no es constante y se deben de transformar los datos (la
variable Y ) o aplicar mnimos cuadrados ponderados.
Error en el anlisis, se ha realizado mal el ajuste y se verifica que los residuos negativos
se corresponden con los valores pequeos y los errores positivos se corresponden con los
valores grandes de , o al revs.
El modelo es inadecuado por falta de linealidad y se deben de transformar los datos o
introducir nuevas variables que pueden ser cuadrados de las existentes o productos de las
mismas. O bien se deben introducir nuevas variables explicativas.
Existencia de observaciones atpicas o puntos extremos.
Tener en cuenta que se debe utilizar el grfico de residuos
frente a las
predicciones
en lugar del grfico de residuos
frente a las observaciones
porque las variables e estn correladas, mientras que las variables e no lo estn.
El grfico de residuos
frente a una variable explicativa
, permite deducir si la
existencia de heterocedasticidad o la falta de linealidad en el modelo son debidas a la
variable explicativa representada.
i

Grficos de este tipo son los representados en las Figuras 9.2 y 9.3. En la primera de ellas se
observa que la relacin con la variable x no es lineal y, probablemente, un ajuste cuadrtico
sea adecuado, tambin se tendran dudas acerca de la homocedasticidad del modelo.
j

Figura 9.2. Grfico de residuos frente a variable regresora. Ajuste no lineal.


En la Figura 7.3. se observa que el modelo es heterocedstico y la causa de este
problema puede ser la variable explicativa x . Por ello, la solucin se basa en
transformar el modelo teniendo en cuenta este hecho.
j

Figura 9.3. Grfico de residuos frente a variable regresora. Heterocedasticidad.

El grfico de residuos
frente a una variable omitida, permite valorar si esta variable influye en el m
tanto se debe incluir como una nueva variable regresora.

En la Figura 9.4. de residuos frente a una variable omitida


se observa que existe una relacin line
variable y por tanto se mejora el ajuste si se incluye la variable x .
omit

Figura 9.4. Grfico de residuos frente a variable omitida.

Un situacin frecuente se produce cuando se tienen observaciones de diferentes poblaciones y se debe d


variable de clasificacin en el modelo de regresin. sto se puede observar en el grfico de residuos fren
como se puede ver en la Figura 9.5.

Figura 9.5. Necesidad de una variable de clasificacin.


El grfico de los residuos frente a la variable de clasificacin omitida se presenta en la Figura 9.6.

Figura 9.6. Residuos frente a variable de clasificacin omitida.

El grfico parcial de residuos, es til para valorar la influencia real de una variable regresora, esto es,
informacin nueva que aporta la variable regresora en estudio y que no aportan las otras variables regre

Si se tienen k variables regresoras


y se desea obtener el grfico parcial de residuos respe
x , se procede de la siguiente forma: se calcula el modelo de regresin respecto a las restantes
va
k

Se calculan los residuos

que representan la parte de Y no explicada por las variables x ,x ,...,x . Por tanto, la grfica de los resid
frente a la variable x permite valorar la importancia real de esta variable.
Un grfico muy parecido y ms fcil de calcular se obtiene de la siguiente forma. Calcular
*
k =
+
=
+
1

k-1

= Se obtiene un nuevo grfico parcial representando los residuos parciales k* frente a la variable x .
Si la variable x es ortogonal a las restantes variables explicativas los estimadores i* y , i = 1,...,k - 1,
prximos y, por tanto, tambin lo son los vectores ek* y k * . Lo que hace que los dos grficos de residuos
iguales en este caso.
Grficos parciales son representados en las Figuras 9.7 y 9.8. En ambos casos se observa que existe una r
entre las variables regresoras y la variable de inters.
k

Figura 9.7. Grfico parcial con los datos del Ejemplo 7.1. (altura)

Figura 9.8. Grfico parcial con los datos del Ejemplo 7.1. (dimetro)

El grfico de residuos
frente al ndice (tiempo = i), proporciona informacin acerca de la hiptesis
de los residuos. En este grfico se pueden observar algunas caractersticas que indican falta de independ
una correlacin positiva o negativa, la existencia de tendencias, saltos estructurales, rachas,....,etc.

En este grfico tambin se puede observar si existe una relacin lineal con el ndice y ste debe de inclu
de regresin como variable explicativa.
Como ya se indic anteriormente al realizar estos grficos, una alta variabilidad en los
residuos ( grande) puede esconder una pauta de comportamiento de los mismos y,
en este caso, es conveniente filtrar o suavizar los residuos utilizando la tcnica de
medias mviles o medianas mviles u otro anlogo. Asi el filtro de medianas
n
mviles de orden tres a partir de los residuos originales
t = 1 genera una nueva
n-1
sucesin de residuos
ms suave.
t=2
2

para t = 2,...,n- 1. Si se considera que la sucesin resultante no est suficientemente


suavizada se puede repetir el procedimiento de suavizacin.
Otro grfico de inters en regresin lineal mltiple es un grfico de dispersin
matricial de todas las variables del modelo, que proporciona una primera idea de la
existencia de relacin lineal entre la variable de inters y las variables regresoras. Este
grfico es el representado en la Figura 9.11.

Figura 9.11. Grfico matricial con los datos del Ejemplo 7.1.

8.4 Hiptesis de normalidad.


Una hiptesis del modelo es que los errores, , siguen una distribucin normal. Hiptesis
que hay que contrastar a partir de los residuos e. Se debe tener en cuenta que bajo la
hiptesis de normalidad los residuos siguen la distribucin

por tanto, los residuos e tienen varianza variable y no son adecuados para contrastar la
n
normalidad. Por ello se utilizan los residuos estandarizados
i = 1 y se les aplican los
contrastes y grficos de normalidad.
Grficos para observar la normalidad son: el histograma, estimador ncleo de
Rosenblatt-Parzen, grfico p - p y grfico q - q.
Contrastes de normalidad son los siguientes: contraste de asimetra y kurtosis,
contraste chi-cuadrado, contraste de Kolmogorov-Smirnov-Liliefors.
Si no se verifica la hiptesis de normalidad los estimadores mnimo-cuadrticos no son
eficientes (de mnima varianza) y los intervalos de confianza de los parmetros del
modelo y los contrastes de significacin son solamente aproximados y no exactos.
Causas origen de falta de normalidad son las siguientes:
Existen observaciones heterogneas. En este caso se debe averiguar la causa que
origina estas observaciones: errores en la recogida de datos; el modelo especificado
no es correcto... Finalmente se debe hacer un estudio de influencia de estas
observaciones atpicas para averiguar el grado de influencia en la estimacin del
modelo.
Existe asimetra en la distribucin. En este caso suele ser conveniente transformar la
variable respuesta (transformacin de Box-Cox) y dado que este problema suele estar
relacionado con otros problemas como falta de linealidad o heterocedasticidad, la
solucin de transformar las observaciones pueden resolverlos conjuntamente.
i

Si la hiptesis de normalidad no se verifica y las soluciones anteriores no son vlidas se


pueden obtener intervalos de confianza de los parmetros por mtodos diferentes de
los expuestos en los que se tiene en cuenta la distribucin especfica de los errores.

8.5 Hiptesis de homocedasticidad.


Una hiptesis del modelo de regresin es la homocedasticidad y todo lo comentado sobre
este problema en el modelo de regresin lineal simple sigue siendo vlido en el modelo
de regresin lineal mltiple.
La falta de homocedasticidad influye en el modelo de regresin lineal, los
estimadores mnimo-cuadrticos siguen siendo centrados pero no son eficientes y las
frmulas de las varianzas de los estimadores de los parmetros no son correctas. Por
tanto no pueden aplicarse los contrastes de significacin.
La heterocedasticidad se detecta en los grficos de residuos:
De forma general, en el grfico de residuos
frente a las predicciones
.
En el grfico de residuos
frente a una variable explicativa
si se sospecha que
la heterocedasticidad es debida a la variable explicativa x .
Si los grficos anteriores son dudosos se pueden hacer grupos de los residuos
ordenados de menor a mayor segun las predicciones
y en cada grupo calcular la
media de las predicciones
y la desviacin tpica de los residuos
. Si hay
homocedasticidad, la nube de puntos
se ajusta a una recta horizontal, en caso
contrario, es necesario transformar los datos.
Existen contrastes especficos para contrastar la homocedasticidad.
Para resolver este problema las alternativas que hay son las siguientes:
Transformar los datos. En muchos casos es suficiente con tomar logaritmos en la
variable respuesta (o de forma ms compleja, aplicar la transformacin de Box-Cox).
Por otra parte, el problema puede estar ligado a otros problemas como falta de
normalidad, falta de linealidad que, normalmente, tambin se resuelven al hacer la
transformacin.
Si la heterocedasticidad es debida a una variable regresora (por ejemplo x ) y la
varianza aumenta linealmente con la variable x , V ar
= kx . Entonces se obtiene
homocedasticidad haciendo la siguiente transformacin del modelo de regresin
j

ik

Si la que vara linealmente con x es la desviacin tpica, la transformacin a realizar


sera la siguiente
k

Las transformaciones anteriores son casos particulares del mtodo de mnimos


cuadrados ponderados, mtodo muy utilizado para obtener estimadores de los
parmetros en situaciones de heterocedasticidad.

8.6 Hiptesis de independencia.

La independencia de los errores es una hiptesis bsica en el estudio de un modelo de


regresin lineal y, si no se verifica, sus efectos son muy graves ya que las conclusiones
del modelo sern errneas por los siguientes motivos:
Los estimadores son centrados pero ineficientes (no son de varianza mnima).
El estimador R2 normalmente subestima el parmetro , lo que hace que los
contrastes de significacin (contrastes individuales de la t) no sean vlidos y tienden a
detectar relaciones inexistentes, denominadas relaciones espreas, que sern
relaciones falsas entre variables independientes que siguen una evolucin anloga en
el tiempo y tienen un R alto.
Las predicciones son ineficientes.
La falta de independencia se suele dar en aquellas situaciones en que las observaciones
son recogidas secuencialmente en el tiempo, por ejemplo, en muchas variables
econmicas, sociales y demogrficas. En este caso el tiempo puede ser una variable
regresora.
Todo lo expuesto anteriormente sobre esta hiptesis sigue siendo vlido en el modelo
de regresin mltiple. Se detecta la falta de independencia en:
Los siguientes grficos: el grfico de residuos
frente al ndice (o tiempo), ; el
grfico de
frente a
; el grfico de la funcin de autocorrelacin simple de los
residuos (fas).
Los siguientes contrastes de independencia: el contraste de Durbin-Watson sobre el
primer coeficiente de correlacin; el contraste de Ljung-Box sobre las
autocorrelaciones que se consideren significativas.
Si existe dependencia entre las observaciones la metodologa descrita para estudiar los
modelos de regresin lineal general por mnimos cuadrados ordinarios no es vlida y, en
la mayora de las situaciones, deben utilizarse tcnicas de series de tiempo y regresin
dinmica.
En algunas situaciones se pueden estimar los parmetros del modelo de regresin por
el mtodo de mnimos cuadrados generalizados.
2

8.7 Anlisis de influencia. Observaciones atpicas.


Es importante realizar un anlisis de influencia para conocer las observaciones
muestrales que tienen una mayor influencia en el modelo y las observaciones atpicas o
heterogneas que no se ajustan al modelo. Este estudio es anlogo al desarrollado para
el modelo de regresin lineal simple y que en esta seccin se generaliza al caso
mltiple.
8.7.1 Influencia a priori.
Una vez recogidos los datos relativos a las variables regresoras se desea encontrar los
puntos heterogneos de la muestra, los que se separan de la nube muestral. Si
solamente hay una o dos variables regresoras estos puntos se detectan fcilmente
observando el grfico de la nube de puntos, pero si el nmero de variables regresoras es
grande entonces los mtodos grficos son complejos y poco eficaces. En este caso se
utiliza el valor de influencia a priori (leverage) de las observaciones. En el modelo de
regresin lineal general el vector de prediccin viene dado por

siendo H = X
X la matriz de proyeccin ortogonal en el espacio generado por las
variables regresoras.
Los elementos de la diagonal de H son los valores de influencia a priori de las
observaciones, h i = 1,2,...,n. Un valor grande de h indica que la observacin isima se separa de la nube muestral (en las variables regresoras) y es una
observacin influyente a priori.
El valor de influencia a priori viene dado por
-1

ii

ii

(8.13)
donde i es la fila i-sima de la matriz X (datos de la observacin i-sima).
Si no hay filas repetidas en la matriz de diseo X se verifica que:
.t

Por tanto E
=
. Y se puede considerar que una observacin tiene un valor de
influencia grande si se verifica que

Distancia de Mahalanobis.
Muchos paquetes estadsticos proporcionan la distancia de Mahalanobis de los puntos
muestrales i.t =
, i = 1,2,...,n, al punto medio de la nube de las
variables regresoras =
, donde , j = 1,2,...,k es la media de los datos
de la variable x . Esta distancia viene definida como sigue
(8.14)
t

.
j

siendo S = E
la matriz de varianzas-covarianzas del
vector de variables
.
La distancia de Mahalanobis es una distancia estadstica que generaliza la distancia
eucldea entre dos vectores en la que se tiene en cuenta la dispersin de las variables y
su dependencia. Un valor alto de la distancia de Mahalanobis indica que el punto se
aleja del centro de la nube y, por tanto, es una posible observacin influyente a priori.
8.7.2 Influencia a posteriori.
La identificacin de las observaciones influyentes a posteriori es de mayor inters. Una
observacin influyente a posteriori es aquella
cuya inclusin en el ajuste
modifica sustancialmente la estimacin del modelo. En este caso, se estn considerando
los datos de las variables regresoras y de la variable respuesta.
El problema bsico es determinar la influencia del dato
en el ajuste del
modelo de regresin lineal mltiple. O, equivalentemente, se desea realizar el siguiente
contraste estadstico
:

H : El modelo ajustado con toda la muestra es igual al modelo ajustado con la


muestra excepto el dato
.
H : El modelo ajustado con toda la muestra es distinto al modelo ajustado con la
muestra excepto el dato
.
0

Si la observacin

es influyente en el modelo de regresin, sto se observa en

la estimacin de los parmetros del modelo de regresin


:
el vector de prediccin de las observaciones:
la prediccin de la respuesta en el punto i-simo:
Los estadsticos para resolver el contraste C se basan en calcular la distancia entre
las estimaciones de cualquiera de los tres valores anteriores cuando se utiliza toda la
muestra
i

y las mismas estimaciones cuando se utiliza toda la muestra excepto el dato

Las tres distancias llevan al mismo estadstico, el D-estadstico de Cook, definido


por
(8.15)

D
=

=
=
=
,
siendo r el i-simo residuo estandarizado y k el nmero de variables regresoras. Bajo la
hiptesis nula, la observacin i-sima no es una observacin influyente a posteriori,
se verifica que
i

La familia de estadsticos DFFITS relacionados con el D-estadstico de Cook se


definen como
(8.16)
donde t es el residuo estudentizado. Belsey, Kuh y Welsch (1980) proponen utilizar como
i

cota superior de este estadstico el valor 2


influyente a posteriori si

. Esto es, la observacin

es
(8.17)

8.8 Error de especificacin.

La hiptesis bsica del modelo de regresin lineal mltiple es que la variable respuesta
Y se puede expresar como una combinacin lineal de k variables explicativas ms un
trmino de error . Se supone que el trmino de error es independiente de las k
variables explicativas o, equivalentemente, que cualquier otra variable explicativa no
includa en el modelo y que pueda explicar a la variable Y es independiente de las
variables explicativas del modelo. En la prctica no siempre es posible incluir todas las
variables relevantes, bien porque alguna de estas variables no se considera relevante o
porque no se puede medir. Otras veces se incluyen errneamente variables irrelevantes
o se especifica una relacin lineal que no lo es. Todo ello conduce a especificar
incorrectamente el modelo y, es importante determinar la influencia de tales
especificaciones incorrectas y tenerlas en cuenta en los resultados.
Se consideran los siguientes errores de especificacin al ajustar un modelo de
regresin mltiple:
Omitir una variable relevante, alguna variable regresora de gran importancia no se
ha includo en el modelo. Este problema produce:
Que los estimadores mnimo cuadrticos sean sesgados y con mayor varianza
salvo que la variable excluda sea ortogonal a las variables regresoras del
modelo.
Que la varianza residual R2 sea un estimador sesgado por exceso ya que los
errores son mayores de lo que seran si se hubiera includo la variable excluda,
sobre todo si esta variable es ortogonal a las variables regresoras, ya que
entonces su influencia en la variable Y es mayor.
Como R2 es muy grande los intervalos de confianza de los parmetros del
modelo son mayores de lo que deberan y los contrastes individuales de la t
llevarn a considerar como no significativas a variables regresoras que si lo
son.
Incluir una variable irrelevante, que no influye en la variable respuesta Y o que la
informacin que proporciona sobre esta variable ya est contenida en las otras
variables regresoras. Las consecuencias de este problema son las siguientes:
Si la variable irrelevante includa depende de las otras variables regresoras se
tiene un problema de multicolinealidad, ya comentado en la seccin 9.2.
Aumentar la varianza de los , y los contrastes individuales de la t tienden a
considerar como no significativas a variables regresoras que si lo son.
Si la variable irrelevante includa es ortogonal a las otras variables regresoras,
el efecto es menor, se pierde eficacia porque se pierde un grado de libertad al
aumentar una variable regresora que no aporta variabilidad explicada, pero
para tamaos muestrales grandes el efecto es mnimo.
Especificar una relacin lineal que no lo es, proporciona malos resultados, sobre
todo fuera del rango de valores observados porque una relacin no lineal en un
estrecho intervalo de observacin se puede aproximar por una lineal. Las graves
consecuencias de este error son las siguientes:
Los estimadores son sesgados y su varianza se calcula mal.
La varianza residual se calcula mal y los contrastes individuales de la t no son
vlidos.
Las predicciones del modelo son malas, sobre todo fuera del rango de valores
de las observaciones.
Los errores de especificacin se detectan utilizando los grficos de residuos descritos
anteriormente. Especialmente se tendrn en cuenta:
El grfico de residuos
frente a predicciones
.
El grfico de residuos
frente a una variable explicativa
.

El grfico de residuos
frente a una variable explicativa omitida
. En muchas
ocasiones se intuye que se debera incluir un trmino cuadrtico o una interaccin
(producto) de variables explicativas, siendo razonable hacer el grfico de los residuos
frente a variables como xij2 o x . x .
El grfico de residuos
frente a la variable ndice o tiempo si las observaciones
son recogidas secuencialmente y se sospecha que el tiempo puede ser una variable
regresora.
ij

ik

8.9 Seleccin de variables regresoras.


En muchas situaciones se dispone de un conjunto grande de posibles variables
regresoras, una primera pregunta es saber si todas las variables deben de entrar en el
modelo de regresin y, en caso negativo, se quiere saber que variables deben entrar y
que variables no deben entrar en el modelo de regresin.
Intuitivamente parece bueno introducir en el modelo todas las variables regresoras
significativas (segn el contraste individual de la t) al ajustar el modelo con todas las
variables posibles. Pero este procedimiento no es adecuado porque en la varianza del
modelo
influye el nmero de variables del modelo, as como la V ar
crece al aumentar el nmero de regresores. Adems puede haber problemas de
multicolinealidad cuando hay muchas variables regresoras
Para responder a estas preguntas se dispone de diferentes procedimientos
estadsticos. Bajo la hiptesis de que la relacin entre las variables regresoras y la
variable respuesta es lineal existen procedimientos paso a paso (o setpwise) que
permiten elegir el subconjunto de variables regresoras que deben estar en el modelo.
Estos algoritmos se presentan en esta seccin. Tambin existen medidas de la bondad de
ajuste de un modelo de regresin que permiten elegir entre diferentes subconjuntos de
variables regresoras el mejor subconjunto para construir el modelo de regresin. Para
la utilizacin de estas medidas de bondad de ajuste no es necesaria la hiptesis de
linealidad. Estos criterios sern estudiados en la siguiente seccin. La utilizacin
combinada de los algoritmos de seleccin de las variables regresoras y los criterios de
bondad de ajuste permiten seleccionar adecuadamente el modelo de regresin que se
debe utilizar. En todo caso, una vez elegido el modelo de regresin, antes de utilizarlo,
se debe de contrastar que se verifican las hiptesis estructurales del modelo y si no se
verifican, se debe reformular el modelo.
Los procedimientos para seleccionar las variables regresoras que deben entrar en el
modelo son los siguientes:
Eliminacin progresiva (Backward Stepwise Regression). Este procedimiento
parte del modelo de regresin con todas las variables regresoras y en cada etapa se
elimina la variable menos influyente segn el contraste individual de la t (o de la F)
hasta una cierta regla de parada.
El procedimiento de eliminacin progresiva tiene los inconvenientes de necesitar
mucha capacidad de clculo si k es grande y llevar a problemas de multicolinealidad si
las variables estn relacionadas. Tiene la ventaja de no eliminar variables
significativas.
Introduccin progresiva (Fordward Stepwise Regression). Este algoritmo funciona
de forma inversa que el anterior, parte del modelo sin ninguna variable regresora y en

cada etapa se introduce la ms significativa hasta una cierta regla de parada.


El procedimiento de introduccin progresiva tiene la ventaja respecto al anterior de
necesitar menos clculo, pero presenta dos graves inconvenientes, el primero, que
pueden aparecer errores de especificacin porque las variables introducidas
permanecen en el modelo aunque el algoritmo en pasos sucesivos introduzca nuevas
variables que aportan la informacin de las primeras. Este algoritmo tambin falla si
el contraste conjunto es significativo pero los individuales no lo son, ya que no
introduce variables regresoras.
Regresin paso a paso (Stepwise Regression). Este mtodo es una combinacin
de los procedimientos anteriores, comienza como el de introduccin progresiva, pero
en cada etapa se plantea si todas las variables introducidas deben de permanecer.
Termina el algoritmo cuando ninguna variable entra o sale del modelo.
El algoritmo es el siguiente:
Paso 1. Se elige un criterio de entrada, t y un criterio de salida, t .
Un criterio de entrada es un valor t de una variable con distribucin t tal
que el intervalo
es la regin de aceptacin de que una variable
regresora no es significativa. Anlogamente un criterio de salida es un valor
de una variable t con distribucin t tal que el intervalo
es la
regin de aceptacin de que la variable regresora no es significativa (no entra
en el modelo).
Se calculan los coeficientes de correlacin lineal simple r
, i = 1,...,k.
Supongamos que el mayor de ellos corresponde a la variable x , que ser la
candidata a entrar en el modelo.
Paso 2. Se obtiene la regresin de Y sobre x y se calcula el estadstico para
el coeficiente
IN

OUT

IN

OUT

(Es equivalente hacerlo con los contrastes individuales de la F, que es lo que


hacen la mayora de los programas estadsticos, entonces el criterio de salida
viene dado por un nmero F y la regin de aceptacin es
, y el
criterio de entrada sera un nmero F .)
Paso 3. El valor se compara con el valor t elegido, de forma que:
OUT

IN

IN

- si
> t , entonces la variable x es significativa y se introduce en el modelo.
Ir al Paso 4.
IN

- si
< t , se acepta que la variable x no es significativa y no se introduce en
el modelo. Se termina el algoritmo.
Paso 4. Una vez introducido x en el modelo se calculan las correlaciones
parciales (eliminando la influencia de x ): r , i = 1,...,k - 1. Se calcula la
correlacin parcial mayor que supongamos que es la correspondiente a la
variable x : r ,
Paso 5. Se calcula el modelo de regresin de Y respecto a x y x . Se calculan
los estadsticos
y .
Paso 6. Se compara
con t .
IN

.
Y,i k

.
Y,k-1 k

k-1

k-1

k-1

k-1

IN

- si
> t , entonces la variable x es significativa y se introduce en el
modelo. Ir al Paso 7.
IN

k-1

- si
< t , se acepta que la variable x no es significativa y no se introduce
en el modelo. Se termina el algoritmo.
Paso 7. Se decide si la variable x debe permanecer en el modelo. Para ello se
compara con t .
IN

k-1

OUT

- si
< t , se acepta que la variable x no es significativa y se elimina del
modelo. Se vuelve al Paso 4, con x como variable regresora. Contina el
proceso.
- si
> t , entonces la variable x es significativa. Se vuelve al Paso 4, con x
y x como variables regresoras. Contina el proceso.
Muchos paquetes estadsticos tienen programado este algoritmo utilizando el
contraste de la F en lugar del contraste de la t y, generalmente, utilizan que F = F ,
sto es una eleccin del usuario pero no una condicin para su utilizacin. Lo que si es
necesario es que F > F , para evitar que una variable que entra en una etapa salga en
la siguiente.
El algoritmo paso a paso tiene las ventajas del algoritmo de introduccin progresiva
pero lo mejora al no mantener fijas en el modelo las variables que ya entraron en una
etapa, evitando de esta forma problemas de multicolinealidad. En la prctica, es un
algoritmo bastante utilizado que proporciona resultados razonables cuando se tiene un
nmero grande de variables regresoras.
En todo caso, la utilizacin de estos algoritmos de manera automtica es peligroso y
una vez obtenido el modelo de regresin se debe chequear que se verifican las hiptesis
del modelo as como tener en mente el problema de regresin que se est estudiando.
OUT

k-1

OUT

k-1

IN

IN

OUT

OUT

8.10 Criterios para la eleccin de un modelo de regresin.


Cuando se est buscando el subconjunto de variables regresoras que deben entrar en el
modelo de regresin, un estudio complementario a la utilizacin de los algoritmos
descritos en la seccin anterior sera considerar todos los posibles subconjuntos. Si k es
grande
hacer sto de una forma directa es muy caro computacionalmente. Pero
puede hacerse implictamente, entendiendo con ello, que un sencillo estudio permita
deshechar un gran nmero de subconjuntos. Por ejemplo, si se utiliza como medida de
bondad de ajuste el coeficiente de determinacin, R , y a priori se dispone de diez
variables regresoras, si algunas de ellas presentan un coeficiente de correlacin lineal
simple muy bajo con la variable Y, es probable que algunas de ellas se puedan
deshechar. Por ejemplo, si x tiene un R mayor que el modelo con las variables x y x ,
entonces el subconjunto
tiene un R mayor que el subconjunto
. En base a
esta idea est el branch-and-bound algorithm de Furnival y Wilson que obtiene buenos
resultados para obtener implictamente todas las posibles regresiones e identificar el
mejor subconjunto de un determinado nmero de variables regresoras segn un criterio
de ajuste prefijado.
Para decidir entre dos o ms subconjuntos de variables regresoras en el estudio de un
modelo de regresin mltiple es interesante disponer de medidas que midan la bondad
del ajuste del modelo construdo. Se supone que el nmero de variables explicativas que
puede haber en el modelo es k, el nmero de observaciones es n y, si se ajusta un
modelo de regresin lineal con i variables, el nmero de parmetros del modelo es i + 1.
Entonces se definen las siguientes medidas de bondad de ajuste:
Coeficiente de determinacin, R , definido en la seccin 8.6. como
2

(8.18)
Este criterio aumenta al ir introduciendo nuevas variables en el modelo. Sea denota Rj2,
j = 1,...,k, el mximo valor posible de R cuando en el modelo hay j variables
explicativas, se verifica Rj - 12 < Rj2, (Rj2 es montona creciente) y las diferencias Rj2 - Rj 2
y
1 decrecen. En base a sto, un criterio sencillo sera considerar un nmero pequeo
elegir el modelo con j ms pequeo y tal que Rk2 -Rj2 < (Rk2 es el coeficiente de
determinacin del modelo con las k variables regresoras). Este criterio tiene el
inconveniente de no tener en cuenta el nmero de variables regresoras. Tiende a
sobreajustar y utilizar demasiadas variables regresoras.
Coeficiente de determinacin corregido, , esta medida de bondad de ajuste (ver
seccin 8.6.) evita el problema de la medida anterior. Se define como
2

(8.19)
Por tanto,
< R , y el coeficiente
tiene en cuenta el nmero de variables
regresoras y no tiene porque crecer al introducir nuevas variables regresoras. Se denota
2
para el modelo de j variables, entonces un buen criterio sera
j al mayor valor de
elegir el subconjunto de j variables que maximiza este coeficiente, j2.
Varianza residual, R2. Se ha definido R2 como
2

(8.20)
donde scmR (Mean Square Error) es la media de los errores al cuadrado. Un buen
criterio de seleccin del subconjunto de variables es elegir el subconjunto de j
variables que minimiza el valor scmR , siendo sta la varianza residual obtenida con el
modelo de j variables.
Teniendo en cuenta que
j

se deduce que
por tanto, el criterio de minimizar la varianza residual es equivalente al criterio de
maximizar el coeficiente de determinacin corregido.
El estadstico C de Mallows. Los criterios anteriores se basan en el scmR, pero tambin
es interesante tener en cuenta el sesgo en la seleccin del modelo ya que si se omite
una variable regresora importante los estimadores de los coeficientes de regresin son
sesgados y los criterios anteriores pueden elegir un modelo que tenga sesgo grande
aunque su scmR sea pequeo. Un criterio que tenga en cuenta el sesgo ayudar a elegir
el modelo adecuadamente. Con este objetivo surge el estadstico C de Mallows
definido como,
p

(8.21)
donde p es el nmero de parmetros del modelo (en un modelo de regresin lineal
mltiple p = j + 1, con j el nmero de variables regresoras), R2 es la varianza del
modelo con todas las variables y R2
es la varianza residual al ajustar el modelo con j
= p - 1 variables regresoras.
Para interpretar este estadstico, se define el error cuadrtico medio de prediccin

para los puntos observados cuando se utiliza un modelo con p parmetros


como
ECMP

=
=

donde

p,i

i=1

n
i=1

V ar
+ Sesgo
,
es la prediccin cuando se utiliza el modelo con p parmetros y m = E
i=1

(8.22)

p,i

.
Siendo un buen criterio de seleccin del modelo el de elegir el modelo que tenga el
ECMP mnimo. Este criterio es equivalente a minimizar el estadstico C de Mallows.
Adems puede probarse que en los modelos sin sesgo C = p. Por tanto, aquellos
subconjuntos de j variables regresoras que tengan un C p = j + 1, son buenos.
Normalmente se construir una grfica de C para los diferentes subconjuntos que se
quieren analizar frente a p. Y se considerarn buenos los subconjuntos que tienen C
pequeo y adems estn por debajo de la diagonal C = p.
En la Figura 9.13. se puede observar el grfico C para dos subconjuntos de variables
regresoras y se observa que el subconjunto A tiene un sesgo mucho mayor que el del
subconjunto B, pero ste tiene menor C .
p

Figura 9.13. Grfico C de Mallows.


p

8.11 Resumen de los modelos de regresin lineal.

Las principales frmulas y propiedades de los modelos de regresin lineal simple y


mltiple se presentan en la tabla adjunta.

R. L. Simple
yi = 0 +
= 0 +

Modelo

Estimacin

xi +
+
1
1

yi =

+ 1xi1 + 2xi2+
+... + kxik + i
=X +

1
0

R. L. Mltiple

= -

-1

XtY

E
~N

Propiedades
0

-1
V ar
= 2
Distribucin Normal

~N

Prediccin

0
0

+
+

Varianza
Estimada

2
R

n-2

2
R

n 2
i=1 i

sx
=

xi1 + 2xi2+
+... + kxik
=X
1

~ Fk,n-2

i=1

n-

~ tn-2
=

=
1

~N

ei = yi = -

Propiedades

Contraste F

Interv. de
Confianza

xi

ei = yi -

Residuos

~ tn-

~ t n-2
=

~ Fk,n-

ei2
2

Captulo 9
El modelo de regresin lineal simple.
9.1 Introduccin a los modelos de regresin.Objetivos.
Los Modelos de Regresin estudian la relacin estocstica cuantitativa entre una
variable de inters y un conjunto de variables explicativas. Estos modelos son muy
utilizados y su estudio conforma un rea de investigacin clsica dentro de la disciplina
de la Estadstica desde hace muchos aos.
Cuando se estudia la relacin entre una variable de inters, variable respuesta o
variable dependiente
y un conjunto de variables regresoras (explicativas,
independientes)
, puede darse las siguientes situaciones:
Existe una relacin funcional entre ellas, en el sentido de que el conocimiento de las
variables regresoras determina completamente el valor que toma la variable
respuesta, sto es,

No exista ninguna relacin entre la variable respuesta y las variables regresoras, en el


sentido de que el conocimiento de stas no proporciona ninguna informacin sobre el
compartamiento de la otra.
El caso intermedio, existe una relacin estocstica entre la variable respuesta y las
variables regresoras, en el sentido de que el conocimiento de stas permiten predecir
con mayor o menor exactitud el valor de la variable respuesta. Por tanto siguen un
modelo de la forma,

siendo una variable aleatoria de media cero (el error de observacin).


Las relaciones estocsticas son las que ocurren en la mayora de las situaciones y su
estudio se corresponde con los denominados Modelos de Regresin.
El objetivo bsico en el estudio de un modelo de regresin es el de estimar la funcin
de regresin, m , y el modelo probabilstico que sigue el error aleatorio , sto es,
estimar la funcin de distribucin F de la variable de error. La estimacin de ambas
funciones se hace a partir del conocimiento de una muestra de las variables en estudio,
.
Una vez estimadas estas funciones se tiene conocimiento de:
La relacin funcional de la variable respuesta con las variables regresoras, dada por la
funcin de regresin que se define como sigue,

Esto permite tener una idea general del comportamiento de la variable respuesta en
funcin de las regresoras.
Se puede estimar y predecir el valor de la variable respuesta de un individuo del que
se conocen los valores de las variables regresoras. sto es, de un individuo t se sabe
que X = x ,...,X = x , entonces se puede predecir el valor de Y y calcular un
intervalo de prediccin del mismo.
1

1,t

k,t

9.2 Clasificacin de los modelos de regresin.


Los modelos de regresin se pueden clasificar de dos formas:
Segn la metodologa utilizada para su estudio:
Modelos de regresin paramtricos. Se supone que la funcin de regresin, m,
que relaciona a la variable respuesta con las variables regresoras pertenece
una determinada familia paramtrica:
donde =
y =
R.
Por ejemplo, se supone que la familia paramtrica es lineal,
p

Este enfoque es el que se ha estudiado clsicamente y que con mayor


frecuencia se utiliza en la prctica.
Modelos de regresin no paramtricos. Es un enfoque alternativo que est
teniendo una gran aceptacin, con este mtodo no se hace ninguna suposicin
acerca de la forma funcional de la regresin y se estima la funcin de
regresin punto a punto. sto es, se estima el valor de m
en
N
un enrejado (grid) de valores
i = 1 de las variables
regresoras.
Los mtodos de regresin no paramtrica, tambin llamados de suavizacin de
la funcin de regresin, se han desarrollado a partir de los aos setenta y
tienen una gran aceptacin por varios motivos: son verstiles, permiten
observar comportamientos locales y para su desarrollo terico utilizan
hiptesis muy dbiles. Un inconveniente de estos mtodos es que exigen una
razonable capacidad de clculo computacional, problema que se ha solventado
en los ltimos aos con el continuo y rpido avance de los medios
computacionales.
No deben de considerarse los mtodos de regresin paramtricos y los no
paramtricos como competidores sino como mtodos complementarios. Siendo
recomendable, en la prctica, utilizar ambos enfoques, pues los dos mtodos
proporcionan informacin complementaria acerca del problema en estudio.
Segn la forma de recogida muestral, se distinguen dos tipos de modelos de
regresin:
Modelos de regresin de diseo fijo, en estos modelos las variables regresoras
son valores predeterminados. Este modelo se utiliza en el estudio del
comportamiento de una variable respuesta cuando las variables regresoras
varan en una determinada direccin. En este caso se debe disear y realizar
un experimento en el que las variables regresoras se muevan en dicha
direccin. Por tanto, en este diseo se controla en todo momento el valor de
las variables regresoras.
Modelos de regresin con diseo aleatorio, en estos modelos las variables

regresoras son variables aleatorias. Se utiliza este modelo cuando se estudia la


relacin entre la variable respuesta y las variables regresoras a partir de una
muestra obtenida de la observacin de las variables en unidades de
experimentacin elegidas al azar. Esto es, el experimentador es un observador
pasivo en la recogida muestral y los resultados slo sern vlidos para el rango
de variacin conjunta de las variables implicadas en el estudio.
El tratamiento matemtico en ambos modelos, de diseo fijo y de diseo aleatorio,
es similar aunque las conclusiones e interpretacin de los resultados varan segn sea el
caso. En este texto, el estudio se centra en el modelo de regresin con diseo fijo que
tiene una menor complejidad.

9.3 El modelo de regresin lineal simple.


9.3.1 Formulacin matemtica del modelo.
El modelo de regresin ms sencillo es el Modelo de Regresin Lineal Simple que
estudia la relacin lineal entre la variable respuesta
y la variable regresora
,a
n
partir de una muestra
i = 1 , que sigue el siguiente modelo:
(9.1)
Por tanto, es un modelo de regresin paramtrico de diseo fijo. En forma matricial
(9.2)
donde
=
, =
,
=
,
=
.
Se supone que se verifican las siguientes hiptesis:
1. La funcin de regresin es lineal,
t

o, equivalentemente, E

= 0, i = 1,...,n.

2. La varianza es constante (homocedasticidad),

o, equivalentemente, V ar
3. La distribucin es normal,

o, equivalentemente,

~N

, i = 1,...,n.

, i = 1,...,n.

4. Las observaciones Y son independientes. Bajo las hiptesis de normalidad, esto


i

equivale a que la Cov(Y ,Y ) = 0, si i j.


i

Esta hiptesis en funcin de los errores sera los son independientes, que
bajo normalidad, equivale a que Cov
= 0, si i j.
i

9.3.2 Estimacin de los parmetros del modelo.

En el modelo de regresin lineal simple hay tres parmetros que se deben estimar: los
coeficientes de la recta de regresin,
y ; y la varianza de la distribucin normal, .
El clculo de estimadores para estos parmetros puede hacerse por diferentes
mtodos, siendo los ms utilizados el mtodo de mxima verosimilitud y el mtodo de
mnimos cuadrados.
Mtodo de mxima verosimilitud.
Conocida una muestra de tamao n,
, de la hiptesis de
normalidad se sigue que la densidad condicionada en y es
0

y, por tanto, la funcin de densidad conjunta de la muestra es,

Una vez tomada la muestra y, por tanto, que se conocen los valores de
se define la funcin de verosimilitud asociada a la muestra como sigue

i=1

(9.3)
esta funcin (con variables
y ) mide la verosimilitud de los posibles valores de
estas variables en base a la muestra recogida.
El mtodo de mxima verosimilitud se basa en calcular los valores de
y
que
maximizan la funcin (9.3) y, por tanto, hacen mxima la probabilidad de ocurrencia de
la muestra obtenida. Por ser la funcin de verosimilitud una funcin creciente, el
problema es ms sencillo si se toman logaritmos y se maximiza la funcin resultante,
denominada funcin soporte. As se obtienen los siguientes estimadores mximo
verosmiles,
0,

0,

donde se ha denotado e a las medias muestrales de X e Y, respectivamente; sx2 es la


varianza muestral de X y s es la covarianza muestral entre X e Y.
Mtodo de mnimos cuadrados.
A partir de los estimadores:
y , se pueden calcular las predicciones para las
observaciones muestrales, dadas por,
XY

o, en forma matricial,

donde

. Ahora se definen los residuos como

e = y - , i = 1,2,...,n,
Residuo = Valor observado -Valor previsto,
en forma matricial,
i

Los estimadores por mnimos cuadrados se obtienen minimizando la suma de los


cuadrados de los residuos, sto es, minimizando la siguiente funcin,
(9.4)
derivando e igualando a cero se obtienen las siguientes ecuaciones, denominadas
ecuaciones cannicas,

(9.5)

De donde se deducen los siguientes estimadores mnimo cuadrticos de los parmetros


de la recta de regresin

Se observa que los estimadores por mxima verosimilitud y los estimadores mnimo
cuadrticos de
y
son iguales. Esto es debido a la hiptesis de normalidad y, en
adelante, se denota
=
=
y
=
=
.
0

0,MV

0,mc

1,MV

1,mc

9.3.3 Propiedades de los estimadores.


De la primera ecuacin cannica se deduce que la recta de regresin pasa por el punto
que es el centro geomtrico de la nube de datos.
El estimador
es la pendiente de la recta regresin, se denomina coeficiente de
regresin y tiene una sencilla interpretacin, indica el crecimiento (o decrecimiento)
de la variable respuesta Y asociado a un incremento unitario en la variable regresora
1

X.
Utilizando las hiptesis de normalidad e independencia se obtiene que la distribucin
del estimador

es una normal de media

y varianza

. sto es,
(9.6)

Por tanto la V ar
- disminuye al aumentar n,
- disminuye al aumentar sx2
- disminuye al disminuir .
El estimador
indica el valor de la ordenada en la recta de regresin estimada para x
= 0 tiene menor importancia y, en muchos casos, no tiene una interpretacin prctica.
2

La distribucin de
sto es,

es una normal de media

y varianza

.
(9.7)

Por tanto la V ar
- disminuye al disminuir V ar
(disminuye al aumentar n o al aumentar sx2
o al disminuir ).
- disminuye al disminuir .
Nuevamente, utilizando las hiptesis de normalidad e independencia se obtiene que la
distribucin del estimador mximo-verosmil de , viene dado por
2

El nmero de grados de libertad de los residuos es n- 2 porque hay n residuos


relacionados por dos ecuaciones. De las ecuaciones cannicas se deduce que los
residuos verifican
n
(los vectores y son ortogonales).
i=1 e = 0
n
(los vectores y son ortogonales).
i = 1 ex = 0
Por tanto, MV 2 es un estimador consistente pero sesgado, ya que
i
i

Por este motivo, como estimador de

se utiliza la varianza residual,

2
R

dada por
(9.8)

(se divide la suma de residuos al cuadrado por el nmero de grados de libertad y no


por el tamao muestral). Este estimador es consistente e insesgado.
La distribucin de la varianza residual viene dada por
(9.9)
A partir de este estadstico se pueden obtener intervalos de confianza de la varianza
poblacional, .
En la prctica, de la distribucin de
(9.6) no se pueden calcular intervalos de
confianza de , porque la varianza poblacional ( ) no es conocida y se tiene que
sustituir por un estimador, R2. De la distribucin de ste se obtiene que la distribucin
del estadstico pivote
es
2

(9.10)
De forma anloga se puede obtener un intervalo de confianza del parmetro . De las
funciones de distribucin de
y R2 se deduce que la distribucin del estadstico
verifica que
0

(9.11)
Los estimadores
y
no son variables aleatorias independientes ya que su
covarianza viene dada por
0

por tanto, si es positiva, la Cov


es negativa, sto es, al crecer
disminuye
.
Tiene inters la ecuacin de la recta de regresin dada en funcin solo del parmetro
, sto es,
(9.12)
o bien,
1

Para ello basta con centrar las dos variables en estudio y calcular la recta de
regresin que pasa por el origen de coordenadas.
La recta de regresin de X sobre Y es distinta de la recta de regresin de Y sobre X. En
el primer caso se obtiene que

donde

= -

9.4 Interpretacin geomtrica del modelo.


Considrense los siguientes vectores del espacio n-dimensional R
=
vector de la variable respuesta
=
vector de 1
=
vector de la variable regresora
=
vector de los errores aleatorios
=
vector de las predicciones
=
= - vector de los residuos
Dado el modelo de regresin lineal

el mtodo de estimacin por mnimos cuadrados tiene la siguiente interpretacin


geomtrica: el vector de predicciones es la proyeccin ortogonal del vector en el
plano que generan los vectores
y . De esta forma el vector de residuos es de
n 2
mdulo mnimo ( = i = 1 ei ) . Por tanto, el vector de residuos es perpendicular al
plano generado por
y . Y, en particular, es ortogonal a estos dos vectores, sto es,
2

Del teorema de Pitgoras se deduce,

Figura 6.6. Interpretacin geomtrica del modelo de regresin lineal.

9.5 Contrastes sobre los parmetros del modelo. El contraste individual de la


t.
A partir de la distribucin (9.10) puede hacerse el siguiente contraste

Este contraste es de gran inters ya que si se acepta la hiptesis nula H , se acepta


que la recta de regresin es Y =
+
y, por tanto, no existe relacin lineal entre las
variables X e Y . Para hacer este contraste utilizando (9.10), si H es cierto, se sigue que
0

(9.13)
Este contraste se denomina contraste (individual) de la t.
De la misma forma se puede hacer el contraste

Aunque este contraste tiene un menor inters por su escaso significado. En este caso, a
partir de la distribucin (??) , si H es cierto, se verifica que
0

9.6 Tabla ANOVA del modelo de regresin lineal simple. El contraste de


regresin.
En este apartado se descompone la variabilidad de la variable respuesta en variabilidad
explicada por el modelo ms variabilidad no explicada o residual, esto permitir
contrastar si el modelo es significativo o no. Bajo la hiptesis de que existe una relacin
lineal entre la variable respuesta y la regresora, se quiere realizar el siguiente contraste
de hiptesis,

frente a la alternativa

por tanto, si se acepta H , la variable regresora no influye y no hay relacin lineal entre
ambas variables. En caso contrario, si existe una dependencia lineal de la variable
respuesta respecto a la regresora.
Para todos los datos muestrales se hace la siguiente descomposicin
0

elevando al cuadrado y sumando se obtiene,

en base a la ortagonalidad de los vectores se obtiene que los productos cruzados son
cero, de donde se sigue la siguiente igualdad (Teorema de Pitgoras) que permite
descomponer la variabilidad de la variable respuesta
explicada por la recta de regresin
explicada por el modelo ajustado

en la variabilidad

ms la variabilidad residual o no
,

Ahora se puede construir siguiente tabla ANOVA

Fuente de
Variacin
Por la recta
Residual
Global

Tabla ANOVA del modelo de regresin simple


Suma de
Grados de
Cuadrado
Varianzas
Libertad
s
scE =

i=1

scR =

i=1

scG =

n
i=1
2

n-2

n-1

Si H es cierta (la variable X no influye), la recta de regresin es aproximadamente


horizontal y se verifica que aproximadamente
, y por tanto scE 0. Pero scE es una
medida con dimensiones y no puede utilizarse como medida de discrepancia, para
resolver este inconveniente se divide por la varianza residual y como estadstico del
contraste de regresin se utiliza el siguiente
0

Por la hiptesis de normalidad y bajo H se deduce que el estadstico


distribucin F (Contraste de la F) con 1 y n - 2 grados de libertad.
0

sigue una
(9.14)

El Contraste de la F es un contraste unilateral (de una cola) pero en este modelo


proporciona exactamente el mismo resultado que se obtiene por el contraste individual
de la t relativo al coeficiente de regresin
(Contraste de la t) estudiado en el
apartado anterior.
1

9.7 El contraste de linealidad.


Si para cada valor de la variable explicativa
se dispone de varios valores de la
variable respuesta (algo normal en los modelos de regresin de diseo fijo) la muestra es
de la siguiente forma
,

...

y
y

y
y

...
...

y
y

...

11
12

21
22

1n1

2n2

k1
k2

knk

El tamao muestral es n + n + ... + n = n, y para cada valor de X = x , i = 1,2,...,k se


puede calcular la media condicionada muestral de la variable respuesta:
1

lo que permite descomponer los residuos de la siguiente forma

Un razonamiento anlogo al realizado anteriormente permite descomponer la


variabilidad no explicada como sigue,
scR =

k
i=1

j=1

eij2 =

k
n
k
=
+
i=1
j=1
i=1 n
Ahora la descomposicin de la variabilidad total es la siguiente,
k
i=1

scG =

i=1

j=1

n
j=1 i

=
+
=
= scE + scR = scE + scR + scR
En base a esta igualdad se puede construir la siguiente tabla ANOVA, ms completa
que la anterior,

Fuente de
Variacin
Por la recta

Tabla ANOVA del modelo de regresin simple


Suma de
Grados
Cuadrado
de
Varianzas
s
Libertad
scE =

k
i=1

ni

scR(1)

scR(1) =

i=1

ni

k-2

scR(2)
scR

n-k
scR(2) =
n
j=1 i

k
i=1
2

n-2

R,1

R,2

scR =

k
i=1

n
1 i

Global

j=
2
R

Global

i=1

n-1

=
=

A partir de esta tabla ANOVA se puede contrastar la hiptesis de que la funcin de


regresin es lineal frente a la alternativa de que no es lineal, esto es,

frente a la alternativa

Si H es cierto, las medias condicionadas estarn prximas a la recta de regresin:


, y la scR(1) = i = 1kn
0. De nuevo esta medida tiene dimensiones y no es
vlida para utilizar como medida de discrepancia, para resolver el problema se compara
con R,22 y el cociente de ambas cantidades se utiliza como estadstico del contraste en
estudio.
0

Bajo la hiptesis de normalidad y H (hiptesis de linealidad) se deduce que


una distribucin F (Contraste de la F) con k - 2, n - k grados de libertad.
0

sigue

9.8 Coeficiente de determinacin. Coeficiente de correlacin.


Una vez ajustada la recta de regresin a la nube de observaciones es importante
disponer de una medida que mida la bondad del ajuste realizado y que permita decidir si
el ajuste lineal es suficiente o se deben buscar modelos alternativos. Como medida de
bondad del ajuste se utiliza el coeficiente de determinacin, definido como sigue
(9.15)
o bien

Como scE < scG, se verifica que 0 < R < 1.


2

El coeficiente de determinacin mide la proporcin de variabilidad total de la


variable dependiente
respecto a su media que es explicada por el modelo de
regresin. Es usual expresar esta medida en tanto por ciento, multiplicndola por cien.
Por otra parte, teniendo en cuenta que - =
, se se obtiene
i

(9.16)
Dadas dos variables aleatorias cualesquiera X e Y , una medida de la relacin lineal que
hay entre ambas variables es el coeficiente de correlacin definido por
(9.17)
donde
representa la desviacin tpica de la variable X (anlogamente para
).
Un buen estimador de este parmetro es el coeficiente de correlacin lineal muestral
(o coeficiente de correlacin de Pearson), definido por
(9.18)
Por tanto, r
. Este coeficiente es una buena medida de la bondad del ajuste de la
recta de regresin. Evidentemente, existe una estrecha relacin entre r y
aunque
estos estimadores proporcionan diferentes interpretaciones del modelo:
r es una medida de la relacin lineal entre las variables X e Y.
mide el cambio producido en la variable Y al realizarse un cambio de una unidad en
la variable X.
De las definiciones anteriores se deduce que:
1

Es importante estudiar si r es significativo (distinto de cero) ya que ello implica que


el modelo de regresin lineal es significativo. Desafortunadamente la distribucin de r es
complicada pero para tamaos muestrales mayores que 30 su desviacin tpica es
1/ , y puede utilizarse la siguiente regla

En la interpretacin del coeficiente de correlacin se debe tener en cuenta que r =


1 indica una relacin lineal exacta positiva (creciente) o negativa (decreciente); r = 0
indica la no existencia de relacin lineal estocstica, pero no indica independencia de
las variables ya que puede existir una relacin no lineal incluso exacta; valores
intermedios de r (0 < r < 1 -1 < r < 0) indican la existencia de una relacin lineal
estocstica, ms fuerte cuanto ms prximo a +1 ( -1) sea el valor de r.
Para poder interpretar con mayor facilidad el coeficiente de correlacin muestral se
exponen varias nubes de observaciones y el ajuste lineal obtenido:
Figura 6.7. Las observaciones estn sobre la recta de regresin, por tanto, existe una dependencia
funcional lineal.

Figura 6.7. Dependencia funcional lineal.


Figura 6.8. La nube de puntos indica que las variables son casi independientes, la relacin lineal
entre las variables es muy pequea y no parece que exista otro tipo de relacin entre ellas.

Figura 6.8. Observaciones casiindependientes.


Figura 6.9. Existe una dependencia funcional entre las observaciones pero no de tipo lineal, por
tanto la correlacin es muy pequea.

Figura 6.9. Existe una relacin cuadrtica.


Figura 6.10. La nube de datos se ajusta razonablemente a una recta con pendiente positiva.

Figura 6.10. Relacin estocstica lineal.


Figura 6.11. Existe una fuerte dependencia lineal negativa entre las dos variables y la correlacin
es muy alta (prxima a 1).

Figura 6.11. Fuerte relacin estocstica lineal.

9.9 Prediccin en regresin lineal simple.


Como se coment anteriormente hay dos objetivos bsicos en el ajuste de un modelo de
regresin:
Conocer la relacin existente entre la variable respuesta y las variables
regresoras. En el caso de la regresin lineal simple se estima la mejor recta de
regresin que relaciona la variable Y con la variable X y se cuantifica la
importancia de dicha relacin por medio del coeficiente de correlacin, r.
Utilizar el modelo de regresin ajustado para predecir el valor de la variable
respuesta Y cuando la variable regresora toma un valor determinado, X = x .
En esta seccin se estudia este segundo objetivo. sto es, estimada la recta de
regresin, cmo predecir el valor de Y sabiendo que la variable regresora toma el valor
X = x ? Ante esta pregunta, se deben distinguir dos situaciones diferentes:
Estimar la media de la distribucin condicionada de Y/X = x : E
= m.
Predecir el valor de la variable respuesta en un individuo de la poblacin en
estudio del que se sabe que X = x .
t

9.9.1 Estimacin de las medias condicionadas.


Una vez calculada la recta de regresin de la variable Y respecto a X,

se quiere estimar el parmetro m = E


. Para ello, como estimador se utiliza
el que proporciona la recta de regresin, sustituyendo x por x en la ecuacin de la
recta,
(9.19)
Este estimador verifica las siguientes propiedades:
Es centrado o insesgado, E
= m.
La varianza es,
t

(9.20)
donde
(9.21)
n se denomina nmero equivalente de observaciones para estimar m .
Teniendo en cuenta que en una muestra de tamao n, la varianza de la media
muestral es V ar
= /n, la interpretacin de n es la siguiente: la informacin que
n
proporciona la muestra, de tamao n, de datos bivariantes
para estimar
i=1
m es la misma que proporcionara una muestra de tamao n de observaciones
univariantes de una poblacin con distribucin igual a la de Y/X = x .
De la expresin de n se deduce que este valor ser mayor cuanto ms prximo est x
de . Y si x = se verifica que n = n.
La inversa de n , h = 1/n se denomina valor de influencia de la observacin x (muy
utilizado el nombre en ingls leverage) y se ver ms adelante que es una medida de
la influencia de la observacin
(si este es uno de los datos muestrales) en el
clculo de la recta de regresin.
La distribucin del estimador
es normal,
t

tt

En la prctica el estadstico anterior no se puede utilizar para calcular intervalos de


confianza de m porque es desconocido. Por ello, se sustituye por su estimador y
bajo la hiptesis de normalidad se obtiene la siguiente distribucin,
t

(9.22)
Al utilizar el modelo de regresin lineal para estimar una media condicionada o
predecir una observacin debe de tenerse en cuenta que el mtodo proporciona
resultados aceptables dentro del rango de valores muestrales de la X (interpolar), aqu
est garantizado que 1 < n < n. Si x es un punto muy alejado de (an estando dentro
de la nube de observaciones est muy alejado del centro de la misma) entonces n 1 y
la varianza de
ser muy grande con lo que se obtienen estimaciones con poca
precisin (mucha variabilidad). El caso opuesto es que x = y, por tanto, n = n, ahora la
varianza de
es /n, la menor posible.
Por otra parte, si se quiere predecir fuera del rango de valores muestrales de X
(extrapolar), entonces x - puede ser muy grande y, en consecuencia, n 0, lo que hace
que la precisin de la estimacin de m sea muy pequea por tener el estimador
una
varianza muy grande y, por tanto, obtener resultados con muy poca validez.
t

9.9.2 Prediccin de una observacin.

Se quiere predecir el valor de la variable aleatoria Y/X = x teniendo en cuenta que se


ha ajustado una recta de regresin. El problema es conceptualmente diferente del
anterior, ya que en el apartado anterior se estima un parmetro (la media condicionada)
y ahora se quiere predecir el resultado de una variable aleatoria. El predictor que se
utiliza se obtiene como aquel que minimize el Error Cuadrtico Medio de Prediccin.
Esto es, se obtiene como el valor que minimiza la siguiente funcin
t

Al resolver este problema de minimizacin se obtiene como predictor el resultado de


sustituir el valor de x en la recta de regresin calculada,
t

Por tanto, la prediccin de Y/X = x es la misma que la estimacin de m pero su


varianza aumenta ya que la variabilidad debida a la muestra
se incrementa
con la variabilidad propia de la variable aleatoria que se quiere predecir
.
Ahora la varianza de
es
t

En base a este resultado, a la hiptesis de normalidad y un razonamiento anlogo al


realizado en el apartado anterior se sigue que un intervalo de prediccin para y , con
un nivel de confianza , se obtiene de la siguiente forma,
t

(9.23)
Los intervalos de prediccin que se obtienen son mucho mayores que los obtenidos en el
apartado anterior debido al aumento de la varianza.

9.10 Modelo de regresin lineal con regresor estocstico.


Todo el desarrollo matemtico realizado para el modelo de regresin lineal simple con
diseo fijo es vlido para este modelo con diseo aleatorio (regresor estocstico) si se
verifican las siguientes hiptesis:
La variable condicionada Y/X = x sigue una distribucin normal
h

La distribucin marginal de la variable regresora, f (x), no depende de los parmetros


del modelo: ,
y .
Las variables observaciones muestrales
son independientes entre s.
El error de observacin y la variable regresora X son variables aleatorias
independientes.
X

Captulo 10
Otros modelos de regresin importantes.
10.1 Estimacin por mnimos cuadrados generalizados.
En un modelo de regresin lineal se supone que la matriz de varianzas-covarianzas de los
errores es de la forma
(10.1)
siendo I la matriz identidad de orden n. Si no se verifica la hiptesis de
homocedasticidad, o la de independencia, o ambas, entonces la matriz de varianzascovarianzas tiene la forma general
(10.2)
siendo una matriz simtrica, definida positiva de orden n n. En este caso, se puede
calcular el estimador de por el mtodo de mnimos cuadrados generalizados. Este
mtodo se desarrolla en dos etapas: en una primera etapa se transforma el modelo de
regresin original
n

Para ello y por ser


cuadrada P tal que

una matriz simtrica, definida positiva, existe una matriz

esta matriz no tiene porque ser nica, pero si existe. Multiplicando por P la ecuacin
de regresin se obtiene
(10.3)
Denominando
= P , X = PX y = P , se obtiene la ecuacin de regresin
(10.4)
y los errores del modelo verifican
*

por tanto los errores son incorrelados y homocedsticos. Ahora se puede aplicar el
mtodo de mnimos cuadrados ordinarios a estos datos transformados
obtener el estimador

para
(10.5)

Por el Teorema de Gauss-Markov, este estimador


es el mejor estimador lineal
insesgado. En la prctica, la matriz P, aunque existe, es desconocida y es necesario
G

estimarla

a partir de las observaciones, obteniendo el estimador


(10.6)

A continuacin se exponen dos situaciones comunes en las que se puede aplicar este
mtodo de estimacin.
10.1.1 Heterocedasticidad.
Si las observaciones son independientes pero heterocedsticas entonces la matriz de
varianzas-covarianzas viene dada por

Y la matriz P

En este caso los datos transformados son

Esto equivale a trabajar con el modelo transformado


(10.7)
Sobre este modelo se aplica ahora el mtodo de mnimos cuadrados ordinarios. En
particular, si se trabaja con el modelo de regresin lineal se obtiene el siguiente
estimador del coeficiente de regresin

(10.8)

Este estimador se denomina estimador por mnimos cuadrados ponderados y es un caso


particular del estimador por mnimos cuadrados generalizados. En la prctica, para
utilizar este estimador hay que calcular estimadores de los parmetros 12,..., n2. Para
ello, se hacen grupos en las observaciones de forma que se pueda suponer que en cada
grupo la varianza es constante y se estima la varianza en cada grupo.
10.1.2 Observaciones dependientes.
Si las observaciones son homocedsticas pero dependientes entonces la matriz de
varianzas-covarianzas es de la forma general

En la mayora de las situaciones la estructura de dependencia de los errores puede


ajustarse a un modelo paramtrico. Un modelo sencillo y muy utilizado es el modelo AR
, (modelo autorregresivo de orden uno). En este caso se verifica que los errores siguen
la ecuacin
(10.9)
siendo la autocorrelacin de orden 1 del proceso , por tanto, < 1, y a es una
sucesin de variables aleatorias independientes e igualmente distribudas.
En este caso, la matriz de varianzas-covarianzas es
t

la matriz P de transformacin es

y la matriz

-1

es

(10.10)

Utilizando esta matriz se obtiene el estimador por mnimos cuadrados generalizados


(10.11)
Nuevamente, en la prctica,
es desconocido y se tiene que estimar. Por la forma de
la matriz , es suficiente con estimar el parmetro y sustituir en la matriz. Para
estimar , puede utilizarse el siguiente procedimiento: ajustar a los datos el modelo de
-1

-1

regresin lineal por mnimos cuadrados ordinarios y calcular los residuos mnimo
cuadrticos

A partir de estos residuos se obtiene el siguiente estimador de ,


(10.12)
sustituyendo por en la matriz
se obtiene el estimador

-1

se obtiene la matriz estimada

, a partir de la cual

-1

(10.13)

10.2 Estimacin robusta.


Cuando existe evidencia existen una o varias observaciones heterogneas que influyen
en la estimacin del modelo, la regresin robusta es una alternativa a la regresin por
mnimos cuadrados ordinarios. La idea bsica es calcular el estimador
que minimiza la
siguiente funcin
R

(10.14)
donde
es una funcin de ponderacin que se introduce para reducir (e incluso
eliminar) el efecto de los residuos altos. Por tanto se definen los pesos
de forma
que tomen valores pequeos en los residuos e grandes. Para aplicar esta definicin es
necesario conocer los residuos e . Este razonamiento conduce al siguiente algoritmo
iterativo anlogo al descrito para el mtodo de mnimos cuadrados generalizados:
Etapa 1. Calcular un estimador inicial (por ejemplo, el estimador por mnimos
cuadrados ordinarios)
=
de los parmetros del modelo, a partir del cual se
obtienen los residuos iniciales, ei
i

MCO

Etapa 2. Se define una funcin de ponderacin razonable. Por ejemplo, la


funcin de Huber
(10.15)
donde ri es el residuo estandarizado asociado a ei
y k es una constante. Si k
toma valores pequeos (inferior a 1 5) entonces las observaciones con residuos
relativamente grandes influyan poco en la estimacin del modelo.
'

Figura 10.6. Funcin de ponderacin de Huber.


n
Etapa 3. Se calcula el valor de que minimiza la funcin
=
ei2.
i=1
'
A este vector se le denomina
.
En el modelo de regresin lineal simple, el estimador que se obtiene para el
coeficiente de regresin lineal es

Etapa 4. Con los nuevos estimadores


se obtienen unos nuevos residuos et
se contina el proceso en la etapa 2 hasta obtener la convergencia de las
estimaciones

10.3 Estimacin polinmica.


En algunas situaciones para obtener un buen ajuste del modelo de regresin es necesario
utilizar trminos polinmicos. Si se trabaja con una nica variable explicativa, el modelo
polinmico de grado p obtenido a partir de la muestra
tiene la
forma
(10.16)

Para el estudio de este modelo se utiliza la teora de la regresin lineal mltiple, y basta
con utilizar la relacin

esto es, la variable explicativa j-sima es x .


Al ajustar un modelo polinmico se deben tener en cuenta los siguientes puntos:
Si se utiliza un grado p muy alto se puede conseguir un ajuste muy bueno e incluso un
ajuste exacto si p = n-1. Pero esta formulacin no es correcta ya que se estara
ajustando el error del modelo. Por ello se recomienda utilizar un valor de p bajo (p <
3) y, en la mayora de las situaciones, es suficiente utilizar p = 2. Es necesario hacer
un anlisis de los residuos para determinar si el ajuste es adecuado y se satisfacen las
hiptesis bsicas.
Dado que las variables x y x (respectivamente x y x ) son dependientes pueden surgir
problemas de multicolinealidad. Para disminuir los efectos de este problema es
conveniente trabajar con las variables centradas y, por tanto, utilizar el siguiente
modelo de regresin
j

(10.17)

10.4 Regresin con variables regresoras cualitativas.


Tambin puede ocurrir que al estudiar un modelo de regresin sea necesario introducir
en el modelo una o varias variables regresoras de tipo cualitativo o de clasificacin. No
tener en cuenta estas variables atributo puede conducir a resultados errneos.
Una primera posibilidad para estudiar este problema consiste en dividir la muestra
en grupos, segn la variable atributo, y estudiar la regresin en cada caso. Esta solucin
no es eficiente y, en algunas ocasiones, imposible de realizar si se dispone de muy pocos
datos en alguno de los grupos. Un mtodo mejor y ms eficiente consiste en introducir
una variable de clasificacin. Para ello, si se quiere dividir la muestra en dos grupos (A y
B) al ajustar un modelo de regresin lineal simple

basta con introducir una variable de clasificacin z que vale z = 0 si la observacin es del
grupo A y toma el valor z = 1 si es del grupo B,

Ahora el modelo obtenido es


(10.18)
La recta de regresin para el grupo A es

Y la recta de regresin para el grupo B es

La estimacin de los parmetros , y


se obtienen por mnimos cuadrados
ordinarios.
Este modelo es fcil de generalizar al supuesto de variable de clasificacin con d
grupos. En este caso se deben introducir d - 1 variables ficticias o dumping definidas de
la siguiente forma
0

que proporcionan el siguiente modelo de regresin


(10.19)
y la recta de regresin ser en cada caso

Este modelo se puede generalizar y considerar un modelo de regresin lineal


mltiple con variables cualitativas y variables cuantitativas.
En el estudio de este modelo se suponen las siguientes hiptesis bsicas:
Los efectos de las variables atributo se suponen aditivos y no existe interaccin entre
estas variables.
Los efectos de las variables regresoras cuantitativas se suponen constantes y no
interaccionan con las variables cualitativas.
Si se supone que existe interaccin entre las variables atributo es necesario introducir
ms variables ficticias. El estudio de modelos que permiten interaccin entre las
variables cualitativas y las cuantitativas se denomina Anlisis de la Covarianza.

10.5 Regresin con variable respuesta binaria.


Hay una clase muy importante de modelos de regresin en que la variable respuesta es
binaria (la variable Y toma los valores 1 o 0 para clasificar a los individuos en uno de dos
grupos posibles), por ejemplo, un paciente cura de una enfermead o no, en una cadena
de produccin se fabrica una pieza correcta o no, un estudiante aprueba una asignatura
o suspende, un cliente realiza la compra o no. En estos problemas el objetivo del
modelo es poder predecir la respuesta (binaria)
de un individuo de la poblacin del
que se conocen unas caractersticas medibles
.
Formulando el problema de regresin en la forma usual, se tiene el siguiente modelo
para una muestra de n observaciones

Tomando esperanzas condicionadas cuando x = x . se obtiene que la funcin de


regresin es
i

y, por otra parte, como Y es una variable binomial


(10.20)
donde se denota

= P(Y = 1/x ) . De donde,

'

(10.21)
por tanto es una prediccin de una probabilidad y debera ser un valor entre 0 y 1.
En este problema trabajar con el modelo de regresin mltiple presenta varios
inconvenientes:
No est garantizado que = x . sea un valor comprendido entre 0 y 1.
La variable de error toma dos posibles valores
i

Por tanto los no sigue una distribucin normal.


Los errores son heterocedsticos ya que
i

Los grficos de y frente a x son poco ilustrativos.


Entonces cmo debera ser la funcin m(x) = (x)?, para algunos valores extremos de x
deber ser prximo a 0 y para otros valores extremos deber ser prximo a 1, y para los
otros valores deber tomar valores intermedios. Esto se garantiza si se establece una
relacin no lineal del tipo
i

siendo F una funcin de distribucin. Utilizando la distribucin logstica se obtiene el


modelo ms utilizado, el modelo logit. Entonces
(10.22)
La funcin logstica se representa en la Figura 10.10.

Figura 10.10. Funcin logstica.


de donde se deduce que
(10.23)
que tiene una fcil interpretacin, la variable logit x . representa, en escala
logartmica, la diferencia de probabilidades de pertenecer a los dos grupos que definen
la variable Y.
Este modelo es el ms utilizado por ser una transformacin razonable y tener un
sencillo tratamiento matemtico.
i

10.6 Regresin contrada (ridge regression)


El error cuadrtico medio

de un estimador

viene dado por


(10.24)

y el error cuartico medio de cada uno de los estimadores es


ECM
= Sesgo
+ V ar
=
2

(10.25)
=
+E
, j = 0,1,...,k.
La estimacin de un modelo de regresin lineal por mnimos cuadrados se basa en buscar
el estimador de mnima varianza en la clase de los estimadores insesgados, de esta
forma se obtiene el estimador de menor error cuadrtico medio dentro de los de esta
clase. Un mtodo alternativo de estimacin consiste en buscar estimadores que pueden
ser sesgados pero con menor error cuadrtico medio. Los mtodos de regresin
contrada parten de esta idea y tratan de minimizar el ECM . Tambin se debe tener
en cuenta que al comparar los estimadores de mnimos cuadrados con los estimadores de
regresin contrada no siempre se estn comparando estimadores insesgados con
estimadores sesgados ya que los estimadores por mnimos cuadrados son insesgados si el
modelo de regresin en estudio es el adecuado y se verifican las hiptesis bsicas.
El error cuadrtico medio de los estimadores mnimo cuadrticos viene dado por
2

(10.26)
donde tr
es la traza de la matriz cuadrada X X que es igual a la suma de los
elementos de la diagonal de esta matriz; son los autovalores de la matriz
, que
son positivos, y
es el menor de estos autovalores.
Por otra parte, el ECM de cualquier estimador verifica que
t

min

(10.27)
De las (10.26) y se (10.27) deduce que
E

>

>0

(10.28)
>
+
Esta ltima desigualdad (10.28) indica que la longitud esperada del estimador mnimo
cuadrtico E
es mayor que la longitud del vector de parmetros
. La
E

diferencia entre estos dos valores es mayor que


y ser un valor alto si el menor
autovalor de
,
, es prximo a cero. Si hay multicolinealidad se verifica que
0 y del razonamiento anterior se deduce que los estimadores mnimo cuadrticos no
proporcionan buenos resultados. Una opcin alternativa es utilizar estimadores
contrados, estos estimadores contraen el tamao del vector y tienen la forma
general (Stein, 1956)
(10.29)
donde es una constante y Q una matriz definida positiva. Segn sea la matriz Q se
obtienen diferentes estimadores, siendo los ms utilizados los dos siguientes:
Estimadores de Stein. Haciendo Q = X X se obtiene el estimador
(10.30)
En este caso se aplica la misma contraccin a todos los estimadores
, j = 0,1,...,k.
Estimadores cresta (Ridge regression). Haciendo Q = I se obtiene el estimador
(10.31)
Estos estimadores fueron propuestos por Hoerl y Kennard (1970) y son los ms
utilizados. Un primer problema para su clculo es la determinacin del parmetro ,
que puede hacerse de la siguiente forma: para un enrejado de valores de
(normalmente entre 0 y 1) se calculan los estimadores
y se dibuja el grfico de
estos valores
frente a , para todos los j. En base a este grfico se escoge el
menor valor de en el que se observa que los estimadores
se estabilizan (toman
aproximadamente el mismo valor).
min

min

MC,j

R,j

R,j

R,j

10.7 Regresin no lineal.


Se ha visto que los modelos lineales son tiles en muchas situaciones y aunque la
relacin entre la variable respuesta y las variables regresoras no sea lineal, en muchos
casos, la relacin es linealizable en el sentido de que transformando (tomar
logaritmos, calcular la inversa,...) la variable respuesta y/o algunas variables regresoras
la relacin es lineal. Sin embargo, existen situaciones en que la relacin no es lineal y
tampoco es linealizable, por ejemplo, si el modelo de regresin es el siguiente

la funcin de regresin m
=
exp
no es lineal ni se puede
transformar en lineal, sera un modelo de regresin no lineal. La forma general de
estos modelos es
(10.32)
siendo m una funcin que depende de un vector de parmetros que es necesario
estimar, son los errores que se supone que verifican las mismas hiptesis que el
modelo lineal.
El estudio de los modelos de regresin no lineal es muy extenso y complejo,
existiendo una amplia literatura sobre el tema. Textos de referencia son los los de Bates
y Watts (1988) y Seber y Wild (1989).
1

La estimacin del vector de parmetros se realiza por el mtodo de mnimos


cuadrados. Esto es, se calcula el que minimiza la funcin de la suma de residuos al
cuadrado,
(10.33)
El algoritmo para minimizar esta funcin es un procedimiento iterativo que se basa en el
mtodo de Gauss-Newton o en algoritmos ms complejos como el algoritmo de
Levenberg-Marquard. Para aplicar estos procedimientos se parte de unos valores iniciales
que permiten iniciar el algoritmo iterativo y en cada etapa se obtiene un nuevo
estimador
hasta obtener la convergencia segn un criterio de parada predifinido.
0

Vous aimerez peut-être aussi