Académique Documents
Professionnel Documents
Culture Documents
ndice General
Conceptos bsicos de Inferencia Estadstica
1 Conceptos bsicos de Inferencia Estadstica.
1.1 Objetivos de la Inferencia Estadstica.
1.2 Inferencia Estadstica. Conceptos bsicos.
1.3 Contraste o test de hiptesis. Definiciones.
1.3.1 Definiciones bsicas.
1.3.2 Pasos a seguir en la realizacin de un contraste de hiptesis.
1.3.3 Tipos de Error en un contraste de hiptesis.
1.3.4 Nivel crtico y regin crtica.
1.3.5 Potencia de un contraste.
1.3.6 Algunos contrastes paramtricos importantes.
3.5.2 Contrastes.
3.5.3 Contrastes mltiples.
3.6 Efectos aleatorios.
3.6.1 El modelo matemtico de un factor aleatorio.
3.6.2 Contraste de igualdad de los efectos tratamiento.
4 Chequeo y validacin del modelo con un factor.
4.1 Hiptesis estructurales del modelo.
4.2 Bondad del ajuste del modelo.
4.3 Normalidad de los errores.
4.4 Homocedasticidad de los errores.
4.5 La familia de transformaciones de Box-Cox.
4.6 Homogeneidad de los errores. Datos atpicos.
4.7 Independencia de los errores.
4.7.1 Grficos para detectar dependencia.
4.7.2 Contrastes para detectar dependencias.
4.8 Contraste de Kruskal-Wallis. Alternativa no paramtrica al Anova.
5 Diseos con dos o ms factores.
5.1 Concepto de bloque.
5.2 Modelo de diseo en bloques completamente aleatorizados.
5.2.1 Modelo matemtico.
5.2.2 Estimacin de los parmetros.
5.2.3 Anlisis de la varianza.
5.2.4 Anlisis de residuos.
5.3 La interaccin entre factores.
5.4 Modelos de dos factores-tratamiento.
5.4.1 Modelo matemtico.
5.4.2 Estimacin de los parmetros.
5.4.3 Descomposicin de la variabilidad
5.4.4 Diseo factorial con tres factores.
5.5 Fracciones factoriales. El cuadrado latino.
5.5.1 El cuadrado latino.
5.5.2 Extensiones de los modelos de diseos experimentales.
6 Chequeo y diagnosis del modelo de regresin lineal simple. Anlisis de
residuos.
6.1 Problemas al ajustar un modelo de regresin lineal simple.
6.2 La hiptesis de linealidad. Transformaciones.
6.3 Anlisis de residuos. Grficos.
6.3.1 Residuos. Tipos.
6.3.2 Grficos de residuos.
6.4 Observaciones atpicas y observaciones influyentes.
6.4.1 Valor de influencia.
6.4.2 El estadstico D de Cook.
6.5 Las hiptesis bsicas.
, es
es
Si el estimador es insesgado
, se verifica que
(1.2)
, se verifica que
(1.4)
y de la informacin de la
Situacin real:
H es cierta H es falsa
0
ACEPTAR H
CORRECTO
ERROR II
ERROR I
CORRECTO
Decisin:
RECHAZAR H
ventaja de tomarlo tan pequeo como desee (normalmente se toma = 0'05, 0'01
o 0'001).
La seleccin de un nivel de significacin conduce a dividir en dos regiones
el conjunto de posibles valores del estadstico de contraste:
La regin de Rechazo, con probabilidad , bajo H0.
La regin de Aceptacin, con probabilidad 1 - ,bajo H0.
Si el estadstico de contraste toma un valor perteneciente a la regin de
aceptacin, entonces no existen evidencias suficientes para rechazar la hiptesis
nula con un nivel de significacin
y el contraste se dice que estadsticamente
no es significativo. Si, por el contrario, el estadstico cae en la regin de
rechazo entonces se asume que los datos no son compatibles con la hiptesis
nula y se rechaza a un nivel de significacin . En este supuesto se dice que el
contraste es estadsticamente significativo.
Por tanto, resolver un contraste estadstico es calcular la regin de
aceptacin y la regin de rechazo y actuar segn la siguiente regla de decisin:
Se obtiene la muestra =
y se calcula el estadstico del
contraste .
(1.8)
Segn la forma de la regin de rechazo, un contraste de hiptesis, paramtrico o
no, se denomina
Contraste unilateral o contraste de una cola es el contraste de hiptesis cuya
regin de rechazo est formada por una cola de la distribucin del estadstico
de contraste, bajo H0.
Contraste bilateral o contraste de dos colas es el contraste de hiptesis cuya
regin de rechazo est formada por las dos colas de la distribucin del
estadstico de contraste, bajo H0.
0.
= 0'84.
Comentarios:
1. El nivel crtico slo puede calcularse una vez tomada la muestra,
obtenindose niveles crticos distintos para cada muestra.
2. El nivel crtico p puede interpretarse como un nivel mnimo de
significacin en el sentido de que niveles de significacin iguales o
superiores al p - valor llevarn a rechazar la hiptesis nula.
Por tanto, cuanto menor sea el p - valor mayor es el grado de
incompatibilidad de la muestra con H0, lo que lleva a rechazar H0.
3. El clculo del nivel crtico no proporciona de modo sistemtico una
decisin entre H0 y H1.
donde
(1.10)
Comentarios:
1. Al grafo de la potencia se lo denomina curva de potencia. En algunos
textos se trabaja con la funcin curva caracterstica de operacin
definida por
(1.11)
2. Si denotamos por a la probabilidad de error de tipo I, se verifica que
. Si H0 es cierto
, se desea
El estadstico de contraste es
(1.14)
Si H0 es cierto
yN
. Se desea contrastar
El estadstico de contraste es
(1.15)
Si H0 es cierto
Contrastes sobre la diferencia de medias, muestras independientes e
igualdad de varianzas. Sean dos muestras aleatorias simples
obtenidas de dos poblaciones X e Y, con distribuciones N
yN
contrastar
2
X
. Se desea
El estadstico de contraste es
(1.16)
siendo
(1.17)
un estimador insesgado eficiente de la varianza que se calcula a partir de la
informacin que proporcionan ambas muestras.
Si H0 es cierto se verifica que
Contrastes sobre la diferencia de medias, muestras independientes y
varianzas desiguales. Sean dos muestras aleatorias simples
obtenidas de dos poblaciones X e Y, con distribuciones
respectivas N
contrastar
yN
. Para
Captulo 2
Principios bsicos del diseo de experimentos.
2.1 Introduccin.
La adquisicin de conocimientos nuevos viene condicionada por dos elementos
esenciales:
la ocurrencia de algn hecho diferente de lo habitual,
la circunstancia de que este hecho se produzca en presencia de una persona
capaz de identificarlo como extrao, reflexionar sobre l y, lo que es ms
difcil, extraer consecuencias.
La experimentacin se basa en reproducir artificialmente estas dos
circunstancias. Se trata de forzar la aparicin de circunstancias extraas en
presencia de personas especialmente preparadas para interpretar y extraer
conclusiones de lo que ocurra.
Fuente
Tipo
Planificada y sistemtica
Planificada y sistemtica
En este modelo la respuesta viene dada por una combinacin lineal de trminos
que representan las principales fuentes de variacin planificada ms un trmino
residual debido a las fuentes de variacin no planificada. El experimento piloto
puede ayudar a comprobar si el modelo se ajusta razonablemente bien a la
realidad.
Un modelo se denomina modelo de efectos fijos si los niveles de todos los
factores han sido seleccionados por el experimentador. Es apropiado cuando el
inters se centra en comparar el efecto (denominado efecto fijo) sobre la
respuesta de esos niveles especficos.
Sin embargo, si un factor tiene un nmero excesvamente grande de niveles,
es razonable incluir en el experimento tan slo una muestra aleatoria simple de
los mismos. El efecto de ese factor se denomina efecto aleatorio. En este caso
se est interesado en examinar la variabilidad de la respuesta debida a la
poblacin entera de niveles del factor.
Un modelo con todos los factores de efectos aleatorios se denomina modelo
de efectos aleatorios. Y los modelos en que se combinan factores de efectos
fijos con factores de efectos aleatorios se denominan modelos mixtos.
7.- Esquematizar los pasos del anlisis estadstico.
El anlisis estadstico a realizar depender de: los objetivos indicados en el
paso 1, el diseo seleccionado en el paso 3 y su modelo asociado que se habr
especificado en el paso 5.
Ahora es el momento de esquematizar los pasos del anlisis, incluyendo las
estimaciones, contrastes e intervalos de confianza que se calcularn.
Finalmente, el anlisis debe incluir un completo ejercicio de diagnosis y crtica
del grado de ajuste del modelo a la realidad.
8.- Determinar el tamao muestral.
Calcular el nmero de observaciones que se deben tomar para alcanzar los
objetivos del experimento.
9.- Revisar las decisiones anteriores. Modificar si es necesario.
Bloques Anidados
Bloque 1
Bloque 1
Bloque 2
6
7
8
9
Factor 2: Grado de trabajo sobre el roving. Para elegir los niveles de este
factor se pens en un rango admisible y se ejecut un experimento piloto para
determinar los niveles ms adecuados, optando por: 1'63, 1'69, 1'78 y 1'90 vueltas
por pulgadas, que fueron codificados mediante 1, 2, 3 y 4 respectivamente.
Flyer
1'63
1'69
1'78
Grado
1'90
Estndar
Nuevo
(11)
21
12
22
13
23
14
(24)
Bloque
I
II
III
IV
22
21
23
23
12
14
21
21
14
12
14
12
Orden
4
21
13
12
13
22
13
23
23
22
9.- Revisar las decisiones anteriores. Modificar si es necesario. Dado que cada
bloque supona una semana de observacin, se opt por analizar los datos una
vez que su hubiesen examinado trece bloques. Por tanto la pretensin de
detectar 2 roturas por 100 pulgadas con alta probabilidad fue desestimada.
Codificacin 2
1
2
3
4
11
12
21
22
Tratamientos
alcalina, marca particular
alcalina, marca del hiper
larga duracin, marca particular
larga duracin, marca del hiper
3.1 Introduccin.
El Diseo de Experimentos estudia la forma de realizar comparaciones lo ms
homogneas posibles que permitan detectar cambios en el proceso e identificar a
los factores ms influyentes.
Un primer mtodo es la comparacin de las medias de dos poblaciones
normales (diseo de experimentos con un factor a dos niveles). La generalizacin
de este problema es el estudio de la igualdad de las medias de I niveles de un
factor y, por tanto, de la influencia del factor en la variable de inters.
En este estudio se utiliza la tcnica del Anlisis DE la VArianza: ADEVA (en
ingls, ANalysis Of VAriance: ANOVA), introducida por R. A. Fisher, hacia 1.930, y
que es la tcnica fundamental para el estudio de observaciones que dependen de
varios factores.
, esta
(3.4)
La funcin de verosimilitud es
esto es,
siendo
2
i
, el valor
es:
(3.15)
o equivalentemente
Por tanto, la suma de cuadrados residual del modelo reducido (H0) es:
Se verifica que
Por tanto,
(3.18)
Utilizando (3.18), como estadstico del contraste puede utilizarse
Comentarios.
1. Si el test F resulta significativo (se rechaza H0, por tanto, el factor es
influyente) se deber estudiar entre qu tratamientos existen diferencias
significativas.
2. Una medida relativa de la variabilidad explicada por el factor es el
coeficiente de determinacin, definido como
(3.19)
3. Si de desea aumentar la precisin del contraste, puede hacerse de dos
formas:
a. Reducir 2 (el error experimental) introduciendo nuevos factores.
b. Aumentar el tamao muestral en cada grupo.
4. En algunos textos se utiliza la siguiente notacin: scG = V T (Variabilidad
Total), scT = V E (Variabilidad Explicada), scR = V NE (Variabilidad No
Explicada).
5. En general, sea cierta o no la hiptesis nula, se verifica que
siendo
(3.20)
Suma de
Cuadrado
s
Fuente de
Variacin
Residual
i=1
n
t=1 i
I-1
n-I
scR =
i=1
E(SCM
)
scmT =
scT =
Tratamientos
sc
m
n
2
t = 1 i it
scmR =
+ Q( i)
scG =
Global
i=1
n
t=1 i
Rechazar H0 :
n-1
Coeficiente de Determinacin: R2 =
Cuadro 1.1: Cuadro del anlisis de la varianza para un diseo completamente
aleatorizado de efectos fijos.
(3.21)
(3.22)
Se rechaza H .
Si se supone que el factor influye, entonces los parmetros del modelo son:
y . Sus estimadores son
0
,...,
(3.23)
Para la varianza
se utiliza
(3.24)
(3.25)
A partir de este estadstico pivote (con distribucin t) se puede hacer el siguiente test
de hiptesis
Contrastes importantes sobre los que es interesante hacer inferencia son los
siguientes:
Comparar tratamientos a pares (pairwise).
Es decir, estimar contrastes del tipo: = - . Existen m = contrastes de
comparaciones por pares.
Tratamientos frente a control.
Un subconjunto de contrastes del grupo anterior muy particular es el formado por
los I - 1 contrastes
- ([1,0,...,0,-1]),
- ([0,1,...,0,-1]), ... ,
i
I-1
(3.27)
donde g.l. representa los grados de libertad con que se ha estimado la varianza del
error.
3.5.3 Contrastes mltiples.
Utilizando la distribucin dada en (3.26) se pueden realizar test de hiptesis del tipo
(3.28)
Si el test de la F de la tabla ANOVA indica rechazo de la hiptesis nula de igualdad de las
medias de los niveles, es importante establecer la hiptesis alternativa adecuada y, para
ello, son de gran utilidad los contrastes mltiples. En ocasiones se quiere realizar un
nmero muy grande de comparaciones, de modo que la probabilidad de que alguna
comparacin individual resulte significativa puede ser errneamente muy grande.
Si se quieren resolver todas las pruebas de hiptesis siguientes:
Entonces:
A.
m
ij
ij
Cul es la probabilidad de A?
Suponiendo que los A fuesen independientes (obviamente no lo son):
ij
'
15
'
'
'
(3.29)
Por tanto, para el modelo matemtico de un diseo completamente aleatorizado, el
mtodo de Bonferroni consiste en resolver cada prueba de hiptesis individual conforme
al siguiente criterio:
m
j
Dado un conjunto de m contrastes
j = 1 , rechazar la hiptesis H0 :
= 0, a un nivel de significacin global no superior a , siempre que
I j
i = 1 bi
(3.30)
n-I
donde z
es el valor de una normal estandar tal que P
= .
Es mtodo es excesivamente conservador y slo resulta ms potente que otros
procedimientos cuando m es muy pequeo.
Es vlido para cualquier tipo de diseo.
Mtodo de Scheff.
El mtodo de Bonferroni presenta serios inconvenientes, en particular, si m es muy
grande la mnima diferencia significativa al nivel global para cada prueba es
excesivamente grande.
Por el contrario, el mtodo de Scheff proporciona una mnima diferencia
significativa que no depende del nmero de pruebas m a realizar.
El valor crtico de Scheff es
de modo que, para cualquier contraste individual
hiptesis H :
que
0
I
i = 1 bi
I
i=1
se rechaza la
, siempre
(3.31)
it
it
(3.33)
ya que por la independencia de T y
Por tanto
i
, la Cov
= 0.
it
(3.34)
se denominan componentes de la
2
T
donde n = i = 1In .
Definiendo la varianza residual como en el modelo de efectos fijos,
i
(3.35)
(3.36)
Si todos los n son iguales (n = r, para todo i), entonces n = Ir y c = r. Por tanto,
i
2
T
(3.37)
(no de T2).
(3.38)
Es posible utilizar la misma medida de discrepancia para resolver este test que la
utilizda para contrastar si los efectos eran iguales en un modelo de efectos fijos?
En el apartado anterior se obtena que:
g.l
.
Suma de
Cuadrado
s
Fuente de
Variacin
I
i=1
t=1
I-1
scR =
Residual
i=1
n
t=1 i
n-I
i=1
2
T
scmR =
2
scmG =
scG =
Global
E(SCM)
scmT =
scT =
Tratamientos
sc
m
n
t=1 i
n-1
c=
Rechazar H0 :
2
T
= 0 en base al p-valor p = P
y = +
ij
Los efectos
Influyen
+u
ij
=0
Efectos Aleatorios
y = +T +u
ij
ij
Objetivo
estimar
Los niveles
se eligen
en la variabilidad
estimar
al azar
2
T
El contraste
H :
0
= 0, i
H :
0
2
T
=0
Captulo 4
Chequeo y validacin del modelo con un factor.
4.1 Hiptesis estructurales del modelo.
En el estudio de un modelo de Diseo de Experimentos, al igual que en el estudio de
cualquier modelo estadstico, se debe contrastar que se verifican las hiptesis bsicas o
estructurales del modelo. En el modelo de diseo de experimentos con un factor las
hiptesis establecidas a priori sobre los errores del modelo:
(4.1)
son las siguientes:
1. Bondad del ajuste del modelo estadstico propuesto.
2. La normalidad.
3. La homocedasticidad del error.
4. La homogeneidad de la muestra.
5. La independencia de las observaciones.
Dado que los errores del modelo son desconocidos, las hiptesis anteriores pueden y
deben chequearse a partir de los residuos,
Figura 4.2. Grfico de cajas mltiple de los residuos estandarizados frente al factor.
Si se observa que el modelo no se ajusta bien, el grfico de los residuos frente a los
niveles de un factor no includo puede indicar la necesidad incluir el factor en el
experimento. En algunas ocasiones el histograma de los residuos puede indicar la
importancia de un factor no introducido en el modelo.
Otro grfico de inters es el grfico de la variable respuesta frente a las predicciones
que permite observar la influencia del factor y la forma de esta.
Los grficos para estudiar la normalidad de los residuos son los siguientes:
El histograma de los residuos, la mayora de los paquetes estadsticos permiten
dibujar el histograma conjuntamente con la densidad normal que se ajusta a la
muestra. Debe de tenerse en cuenta que el nmero de barras que se elija para el
histograma influye en la forma del mismo. En la Figura 4.3. se observa el histograma
de los residuos estandarizados y la normal ajustada.
n
El grfico de normalidad para los datos
i = 1 , en el que se representan los pares
n
n
es la frecuencia relativa acumulada de
i=1 y
i = 1 , donde F
la muestra (distribucin emprica) y F
es la distribucin terica (en este caso la
distribucin normal). Estas curvas se representan en unos ejes escalados de forma que
n
los puntos
i = 1 estn sobre la recta y = x. Por tanto, si los puntos
n
i = 1 estn prximos a esta recta, se aceptar la hiptesis de normalidad.
En la Figura 4.4. se representa el grfico de normalidad de los residuos.
Otros grficos que pueden ayudar a estudiar la hiptesis de normalidad son los
siguientes: el grfico de cajas, el grfico de tallos y hojas, el grfico de simetra.
n
Figura 4.4. Grfico de normalidad para los residuos estandarizados del ejemplo 3.1.
Por otra parte, existen muchos contrastes no paramtricos sobre la bondad del ajuste de
los errores a una distribucin normal. De hecho, en la mayora de los casos estos
contrastes son vlidos para contrastar si una muestra sigue una determinada funcin de
distribucin (no solo la normal).
Por su importancia se exponen los ms utilizados: contraste chi-cuadrado, contraste
de Kolmogorov-Smirnov (Lilliefors), y el contraste de asimetra y curtosis.
Contraste chi-cuadrado de Pearson.
donde card
y ahora
donde
El contraste de asimetra.
Para tamaos muestrales grandes ( n > 50) el CAS sigue aproximadamente una
distribucin N(0,1) y puede ser utilizado como estadstico para contrastar la hiptesis de
que la distribucin de la muestra es simtrica.
El test estadstico a un nivel de significacin de rechaza la hiptesis de que la
distribucin es simtrica si
donde Z
N
.
verifica que P
El contraste de apuntamiento
. Se
que bajo la hiptesis de normalidad se distribuye asintticamente como una chicuadrado con dos grados de libertad. Por tanto, si d toma valores positivos grandes
(segn una
con dos grados de libertad) se rechaza que la distribucin es simtrica y/o
que tiene curtosis nula y, en consecuencia, se rechaza la hiptesis de normalidad.
Qu consecuencias tiene la falta de normalidad?
Este problema afecta especialmente a la estimacin de la varianza del modelo y no
2
i.
Para este tipo de heterocedasticidad es posible transformar los datos para obtener
homocedasticidad (en otro caso puede resultar imposible encontrar transformaciones
adecuadas). Adems la heterocedasticidad del modelo suele ir unida a la falta de
normalidad (la distribucin de es asimtrica) y la transformacin de los datos corrige
simultaneamente ambos problemas. Como una primera aproximacin, la
transformacin tomar logaritmos puede proporcionar buenos resultados y es un caso
particular de la familia de transformaciones de Box-Cox que es ampliamente utilizada y
que se describe en la siguiente seccin.
Qu consecuencias tiene la falta de homocedasticidad?
Se ha demostrado que si el diseo es balanceado (n = m, i = 1,...,I) los niveles de
significacin de los pruebas de hiptesis y los niveles de confianza de los intervalos
apenas se ven afectados por la existencia de heterocedasticidad, a no ser que la
varianza de la respuesta para algn tratamiento particular sea considerablemente mayor
que para otros.
Para tamaos muestrales de los grupos similares, la heterocedasticidad no afecta al
F-test ni a los distintos mtodos de comparaciones mltiples siempre que:
ij
1/n
(4.7)
Se elige el parmetro que maximiza L . En la prctica, se calcula L
en un enrejado
(grid) de valores de que permite dibujar aproximadamente la funcin L
y se obtiene
el mximo de la misma.
= 1/Y
-1/2
= 1/
= lg
1/2
=Y
es el siguiente:
i.
it
it
= max
max
Si el tamao muestral es medio o grande, o se espera que pueda haber ms de un
dato atpico, resulta ms adecuado usar el contraste basado en el coeficiente de
apuntamiento muestral. Este coeficiente aumenta notablemente al introducir alguna
observacin muestral que provenga de una distribucin de mayor varianza que la del
resto de variables de la muestra.
Algunas veces los residuos tienen una alta variabilidad (son muy ruidosos) y en el
grfico
no es fcil detectar la presencia de dependencia. Este problema se puede
resolver en parte si se aplica un filtro de suavizado a los residuos.
Suavizacin de los datos.
En algunas situaciones en que se dispone de muchas observaciones puede ser
conveniente suavizar los datos para observar tendencias o dependencias en la nube de
datos. sto evita que una fuerte dispersin de las observaciones o la existencia de datos
atpicos no deje ver la tendencia de la nube.
Una tcnica sencilla de suavizacin es la tcnica de medias mviles simples (Simple
n
Moving Average). Si se desea suavizar la muestra
i = 1 segn la media mvil de orden
2k + 1, se hace como sigue:
Sustituir el valor de x por la media aritmtica de las 2k+1 observaciones consecutivas
cuyo centro es x . sto es, se sustituye x por
i
En la Figura 4.15 se representa una nube de puntos con una fuerte varianza y en la
Figura 4.16 se representa la nube de puntos una vez que se ha aplicado medias mviles
simples con k = 2 a la variable. En esta segunda figura la tendencia lineal en la muestra
es mucho ms evidente.
es
con independencia.
Considrese una muestra de una variable con dos posibles resultados: E: dispositivo con
error y S:dispositivo sin error.
Se define una racha (run) como una sucesin de valores consecutivos repetidos que
est entre dos valores adyacentes distintos.
El nmero total de rachas (o las longitudes de las mismas) constituye una medida de
lo aleatoriamente que estn repartidos los posibles valores a lo largo de la muestra
observada:
Demasiadas rachas implican excesiva alternancia de valores (dependencia
negativa)
Pocas rachas indican largas sucesiones de valores contiguos repetidos
(dependencia positiva).
Aunque el test del nmero de rachas est pensado para una distribucin con slo dos
posibles valores (E y S), tambin puede aplicarse a variables continuas. Para ello, se
codifican las observaciones con los valores + o -, segn que el dato en cuestin quede
por arriba o por abajo de la mediana muestral.
El contraste del nmero total de rachas
Considrese una muestra de tamao n de una variable con dos posibles resultados
. De las n observaciones hay n de tipo
y n de tipo
, n + n = n.
Se denota
1
esto es, fas es el coeficiente de correlacin entre dos variables separadas k instantes:
y
. Debe de tenerse en cuenta que por ser la sucesin
estrictamente
estacionaria, la fas
no depende del instante t.
En la prctica, esta funcin no se conoce y se estima a partir de las observaciones
muestrales. En particular, en los modelos de diseo de experimentos o regresin la fas
de los errores
se estima a partir de la muestra de pares de residuos
t=
n-k
.
1
Los estimadores que se utilizan son los siguientes: dada la muestra de residuos
e ,e ,...,e , se define el coeficiente de autocorrelacin muestral de orden uno como
t
t+k
n
donde =
i = 1 e = 0, es la media muestral de los residuos. Por tanto, r(1) mide la
correlacin entre lo observado en un instante y lo observado un instante despus.
La definicin general del coeficiente de autocorrelacin de orden k (k retardos), es
la siguiente
i
r(k)| <
, se puede aceptar la hiptesis de independencia.
El test de hiptesis estadstico ms utilizado para contrastar la hiptesis de
independencia de los residuos es el siguiente:
El contraste de Ljung-Box.
Si los residuos son independientes sus primeras m autocorrelaciones son cero, para
cualquier valor de m. Se elige un m suficientemente grande pero que se pueda estimar
= (m) de forma razonable, entonces, el contraste de Ljung-Box (chi-cuadrado)
contrasta la hiptesis nula de que las primeras m autocorrelaciones son cero. Esto es
m
Bajo la hiptesis nula este estadstico se distribuye aproximadamente segn una chicuadrado con m - 1 grados de libertad. El valor de m puede ser fijado arbitrariamente
aunque no debe de ser grande.
Si en el anlisis de los residuos se observa en los grficos descritos que existe una
tendencia muy clara de los residuos respecto al ndice o el tiempo t de recogida de las
observaciones (en el grfico
), por ejemplo, una relacin lineal de los residuos
frente al tiempo, se pueden estudiar otros modelos como:
t
simo tratamiento, R =
i.
t=1
donde
denota la varianza muestral corregida de los rangos.
Cuando los tamaos muestrales n son razonablemente grandes (n > 5), H tiene una
distribucin aproximadamente
con I - 1 grados de libertad bajo la hiptesis nula. El
criterio es entonces rechazar sta a un nivel de significacin siempre que H > I - 1, 2.
2
Captulo 5
Diseos con dos o ms factores.
5.1 Concepto de bloque.
Al estudiar la influencia de un factor-tratamiento en una variable de inters puede ser
importante eliminar (controlar) estadsticamente la influencia de un factor que puede
influir en la variable respuesta. Para ello se utiliza el concepto de bloque, que se basa
en seleccionar niveles de esta variable y aplicar en cada uno de ellos todos los niveles
del factor principal, de esta forma disminuye la variabilidad residual o no explicada.
Por tanto, un factor-bloque es un factor cuyo control puede reducir significativamente la
variabilidad no explicada y que no interacciona con los factores principales.
Un diseo en bloques es apropiado cuando el objetivo del experimento es comparar
los efectos de diferentes tratamientos promediados sobre un rango de condiciones
experimentales distintas.
Bloquear un experimento consiste en distribuir las unidades experimentales en
subgrupos tales que unidades experimentales pertenecientes a un mismo subgrupo
deben ser similares y pueden ser analizadas en condiciones experimentales semejantes,
en tanto que unidades experimentales ubicadas en subgrupos distintos darn lugar
probablemente a respuestas diferentes an cuando sean asignadas a un mismo
tratamiento. Cada uno de estos conjuntos de unidades experimentales similares se
denomina bloque.
El anlisis de un diseo en bloques incluye la comparacin de diferentes tratamientos
aplicados a las unidades experimentales de un mismo bloque. De este modo se pretende
simultneamente:
- evitar que grandes diferencias entre las unidades experimentales enmascaren
diferencias reales entre los tratamientos,
- medir los efectos de los tratamientos en condiciones experimentales distintas.
Bloq.2
...
Bloq.J
Trat.1
11
12
...
1J
Trat.2
21
22
...
2J
Trat.I
...
I1
I2
IJ
ij
es
(5.7)
La suma de los residuos en cada fila y cada columna es cero, por tanto, hay I + J - 1
relaciones entre los residuos y el nmero de grados de libertad es
y ij
..
=
+
+e,
puede deducirse que la suma de cuadrados global se puede descomponer de la
forma:
ij
g.l. = I-1
g.l. = IJ1
g.l. = J-1
g.l. =
esto es,
(5.13)
Fuente de
Variacin
Suma de
Cuadrado
s
Tratamientos
scT =
g.l
.
sc
m
I-1
scmT =
i=1
scmT =
scB =
Bloques
J
j=1
J -1
scR =
Residual
I
i=1
J
j=1
scmR =
(I -1)
(J -1)
scG =
Global
i=1
j=1
scmG =
IJ - 1
Rechazar H0
= ... =
Rechazar H0
= ... =
, segn p = P
, segn p = P
(5.15)
se rechaza H0(2) al nivel de significacin si
=
>F
.
Comentarios.
La eficacia de este diseo depende de los efectos de los bloques. Si stos son
pequeos, es ms eficaz el diseo completamente aleatorio ya que el denominador en
la comparacin de tratamientos tiene menos grados de libertad. Sin embargo si los
bloques influyen es mucho mejor y ms eficaz este modelo, ya que disminuye la
variabilidad no explicada. Por ello, es mejor estudiar primero el modelo de bloques
aleatorizados y, si los bloques no influyen, se pasa fcilmente al modelo de un solo
factor sumando en la tabla ANOVA la fila del factor bloque con la de la variabilidad
residual.
Se define el Coeficiente de Determinacin como:
2
siendo R
yR
los coeficientes de determinacin parciales asociados al factortratamiento y al factor-bloque, respectivamente. Representan el tanto por uno de la
variabilidad total explicada por los tratamientos y los bloques.
2
a partir de la distribucin
(5.16)
Tuckey propuso un test para contrastar la hiptesis de que las interacciones son de la
forma
=
. Esto es, se desea contrastar
ij
ij
ij
ij
ij
ij
ijt
Donde,
Y es el resultado del tratamiento i-simo, i = 1,2,...,I del factor y del tratamiento
j-simo, j = 1,2,...,n del factor , en la replicacin t-sima, t = 1,...,K.
es el efecto global que mide el nivel medio de todos los resultados,
es el efecto (positivo o negativo) sobre la respuesta debido a que se observa el nivel
i del factor A. Se verifica que i = 1I = 0,
es el efecto (positivo o negativo) sobre la respuesta debido a que se observa el nivel
j del factor B. Se verifica que j = 1J = 0,
representa la interaccin y es el efecto extra (positivo o negativo) sobre la
respuesta debido a que se observan conjuntamente los niveles i y j de los factores A y
B respectivamente. Mide la desviacin de las medias de la hiptesis de aditividad de
los efectos y viene definida por:
ijk
ij
Se verifica que i = 1I
= j = 1J
= 0, para i = 1,...,I; j = 1,...,J.
es el error experimental o perturbacin, son variables aleatorias independientes
ij
ij
ijk
Nmero
1
I-1
J-1
ij
Total
1
IJ + 1
Los residuos verifican la siguiente restriccin (la suma de los residuos en cada casilla
es cero)
g.l. = I-1
g.l. =
IJK-1
g.l. = J-1
g.l. = (I-1)(J-1)
g.l. = IJ(K-1)
esto es,
(5.25)
scA =
Factor A
JK
J
j=1
IK
J-1
scAB =
K
I
i=1
J
j=1
scR =
Residual
i=1
Global
i=1
I-1
scB =
Factor B
Inter. AB
g.l
.
Suma de
Cuadrado
s
Fuente de
Variacin
j=1
t=1
IJ(K 1)
IJK 1
scG =
I
i=1
J
j=1
K
t=1
Rechazar H0AB :
ij
(I -1)
(J -1)
sc
m
scmA =
scmB =
scmAB =
scmR =
scmG =
= 0 i,j
en base al p-valor p = P
Rechazar H0A :
= ... =
, segn p = P
ijt
ij
ijt
ij
que
(5.26)
se rechaza H0
AB
al nivel de significacin
si
(5.27)
se rechaza H0A al nivel de significacin si
=
>
.
Si la hiptesis nula H0B :
=
= ... =
= 0, (el factor B no influye) es cierta, se
verifica que
A
,IJ
(5.28)
se rechaza H0B al nivel de significacin si
=
>
.
La tabla ANOVA asociada al modelo de efectos principales de dos vas (sin interaccin y
con replicacin) es la siguiente
B
,IJ
scA =
Factor A
JK
i=1
I-1
IK
j=1
J
j=1
K
t=1
scG =
Global
I
i=1
J
j=1
scmA =
J -1
scR =
I
i=1
sc
m
scmB =
scB =
Factor B
Residual
g.l
.
Suma de
Cuadrado
s
Fuente de
Variacin
IJK -I
-J +1
IJK 1
scmR =
scmG =
Rechazar H0A :
= ... =
Rechazar H0B :
= ... =
, segn p = P
, segn p = P
ij
ik
jk
ijk
ijkr
con
son i.i.d. N
i,j,k,r
En este modelo se tienen tres factores-tratamineto: el factor A (efecto ) con niveles i =
1,...,I, el factor B (efecto ) con niveles j = 1,...,J, y el factor C (efecto ) con niveles k
= 1,...,K. Cada tratamiento se ha replicado R veces. Por tanto se tienen n = IJKR
observaciones. El trmino
es la interaccin de tercer orden que, en la mayora
de los casos, se suponen nulas.
ijkr
ijk
Las estimaciones as obtenidas para los efectos de un factor no vienen afectadas por
los efectos de los otros factores, lo que permite separar los efectos simples de todos los
factores estudiados.
En los diseos equilibrados el nmero de pruebas que hay que realizar crece muy
rapidamente con el nmero de factores, an en el caso de que no se consideren
interacciones y no sea necesario replicar el diseo. Por ello, en estas situaciones son de
gran utilidad los diseos de experimentos que permitan estudiar la influencia de los
factores sin necesidad de realizar todas las pruebas, pero manteniendo la propiedad
fundamental de ortogonalidad de los efectos a estudiar. Estos diseos se denominan
fracciones factoriales. A modo de ejemplo, se estudia la fraccin factorial
denominada cuadrado latino.
5.5.1 El cuadrado latino.
En un diseo de experimentos con tres factores, todos ellos, con K niveles se necesiatan
K observaciones, nmero que puede ser muy elevado si K es grande. Un diseo ms
eficaz que exige nicamente K observaciones para el mismo problema es el cuadrado
latino, que se basa en aprovechar la simetra del experimento factorial seleccionando un
conjunto de condiciones experimentales con la condicin de que cada nivel de un factor
aparezca una vez con cada uno de los niveles de los otros factores.
Por tanto, el diseo de cuadrado latino se puede utilizar si se verifican las siguientes
condiciones:
1. Se estudian tres factores.
2. Los tres factores tienen el mismo nmero de niveles: K.
3. No hay interacciones entre los tres factores.
3
B C D
B A D
B A D
B D A
C D A
C D A
C D B
C A D
D A B
D C B
D C A
D C B
ij
e = 0, con j = 1,...,K,
ij.
e = 0, con i = 1,...,K,
ij.
e = 0, con k = 1,...,K,
teniendo en cuenta las restricciones existentes, los residuos tienen
grados de libertad. De la descomposicin de la variabilidad se obtiene la siguiente Tabla
ANOVA:
i=1
j=1
ij(k)
Suma de
Cuadrado
s
g.l
.
sc
m
Bloques
Fila
scBF =
K
i=1
K-1
scBC =
Bloques
Columna
j=1
k=1
i=1
K
i=1
K
2
j = 1 ij(k)
Rechazar H0
Rechazar H0
Rechazar H0
j=1
scmG =
K -1
2
= ... =
scmR =
(K-1)
(K-2)
scG =
Global
scmTL =
K-1
scR =
Residual
scmBC =
K-1
scTL =
Tratamientos
Letra
scmBF =
, segn p = P
= ... =
, segn p = P
= ... =
, segn p = P
Tabla 5.6. Cuadro del anlisis de la varianza para un diseo de cuadrado latino.
De este cuadro se deducen los siguientes contrastes:
Si H0
= ... =
se rechaza H0
Si H0 :
=
1
al nivel de significacin si
=
>
= ... =
= 0, (el factor columna no influye) es cierta, se verifica
1
(5.32)
se rechaza H0
al nivel de significacin si
=
>
.
Si H0
: = = ... = = 0, (el factor letra no influye, el ms importante porque es
el factor-tratamiento en el que se est interesado) es cierta, se verifica
2
(5.33)
se rechaza H0
al nivel de significacin si
>
K-P
K-P
Captulo 6
Chequeo y diagnosis del modelo de regresin lineal simple.
Anlisis de residuos.
6.1 Problemas al ajustar un modelo de regresin lineal simple.
Al ajustar un modelo de regresin lineal simple se pueden presentar diferentes
problemas bien porque no existe una relacin lineal entre las variables o porque no se
verifican las hiptesis estructurales que se asumen en el ajuste del modelo. Estos
problemas son los siguientes:
Falta de Linealidad, porque la relacin entre las dos variables no es lineal o porque
variables explicativas relevantes no han sido includas en el modelo.
Existencia de valores atpicos e influyentes, existen datos atpicos que se separan de
la nube de datos muestrales e influyen en la estimacin del modelo.
Falta de Normalidad, los residuos del modelo no se ajustan a una distribucin normal.
Heterocedasticidad, la varianza de los residuos no es constante.
Dependencia (autocorrelacin), existe dependencia entre las observaciones.
En este captulo se estudia como detectar estos problemas, su influencia en el clculo
del modelo de regresin y las posibles soluciones de los mismos.
Un primer paso para el estudio de estos problemas es la realizacin de un estudio
descriptivo, analtico y grfico, de la muestra. En particular el grfico de puntos de la
muestra bidimensional permite detectar algunos problemas como se pone de manifiesto
en las siguientes figuras (7.1. - 7.6.).
Figura 7.1. La nube de puntos muestrales bidimensionales parece ajustarse bien
a una recta.
Modelo
Simple
Y=
Trans. X
t
=x
Trans. Y
t
=y
Expon.
Y = exp
Recpr. Y
=x
=x
Y=
Recpr. X
Y=
= ln
=y
= ln
=y
= ln
= ln
=y
=x
= ln
Rec Doble
Y=
Logar. X
Y=
Multipl
Y=
Raz C. X
Y=
Raz C. Y
Curva S
ln
+
0
Y = exp
Las grficas de las funciones que se obtienen con estas transformaciones son las
siguientes:
lg X
El i-simo residuo e es una variable aleatoria que tiene las siguientes propiedades
(6.1)
Bajo la hiptesis de normalidad se obtiene
i
(6.2)
Los residuos estandarizados tienen media cero y varianza prxima a 1.
En el clculo de r existe una relacin de dependencia entre el numerador y el
denominador porque en el clculo de s se utiliza el residuo e . Este problema se elimina
si se estima la varianza residual a partir de toda la muestra excepto la observacin
. A la varianza residual as obtenida se le denotar por sR, 2, y permite definir los
residuos estudentizados como
i
(6.3)
6.3.2 Grficos de residuos.
El anlisis descriptivo anlitico y grfico de los residuos estandarizados da una buena
idea acerca de si se verifican o no las hiptesis del modelo de regresin. En una primera
etapa es conveniente calcular los estadsticos bsicos de los mismos: media, mediana,
desviacin tpica, coeficiente de asimetra, coeficiente de curtosis, ... que permiten
tener una primera aproximacin a la distribucin de los mismos.
Los grficos de cajas (Box-Plot) y el histograma de los residuos estandarizados
proporcionan informacin sobre la distribucin de los mismos. Si el el tamao de la
muestra es pequeo en lugar del histograma de residuos se puede utilizar el diagrama
de puntos (dot-plot) o el grfico de tallos y hojas (stem and leaf plot), con una
interpretacin anloga a la expuesta para el histograma. (Ver figuras 7.13. y 7.14.)
i=
donde
n
siendo H =
t,i = 1 la matriz de proyeccin (en muchos textos se le denomina hat
matrix) una matriz cuadrada y simtrica.
Por tanto la influencia de la observacin
en el clculo de viene dado por dos
valores:
El valor de y segn se separe mucho o poco de la recta ajustada calculada sin esa
observacin.
Del valor de h segn sea grande o no.
El valor h mide, al menos parcialmente, la influencia a priori de la observacin isima en el clculo de la prediccin . En particular, los elementos de la diagonal de la
matriz H, h , t = 1,...,n, miden la influencia de la observacin t-sima en el clculo de
. Su expresin viene dada por
t
ti
ti
tt
(6.4)
h es una medida de la distancia del punto x al centro , y se le denomina valor de
influencia a priori, o ms habitualmente por su denominacin en ingls leverage. Por
tanto, observaciones con valor de influencia alto son observaciones que a priori
influyen en el clculo del modelo y observaciones con valor de influencia bajo a priori
influyen poco.
Se debe recordar la siguiente relacin
tt
tt
Sea la muestra
, entonces h =
,i
= 1,...,n-1, puntos en los que x = x , y h = 1, el mayor valor que puede tomar. En
i
i=1
n-1
, siendo
n
t=1
h = 2, por tanto E
tt
. O de una forma
tt
De todo lo anterior se deduce que los valores de influencia son tiles para tener una
idea aproximada de las observaciones que influyen en el clculo de la recta de
regresin, aunque no para tomar una decisin definitiva sobre este problema. Para ello
se utilizar el concepto de residuo ya definido anteriormente y los contrastes tipo D de
Cook.
Otra forma de determinar si una observacin es un punto influyente es comparar si
su ajuste cambia mucho cuando se calcula la recta de regresin con toda la muestra o
con toda la muestra menos esa observacin. Para ello se define
como la prediccin de
la observacin
cuando se calcula la recta de regresin a partir de toda la muestra
excepto este punto.
Se definen los residuos eliminados como
(6.5)
Entre los residuos ordinarios y los residuos eliminados existe la siguiente relacin
(6.6)
Cuando el valor de influencia de una observacin es grande los dos residuos son
diferentes.
Las observaciones con residuos estandarizados grandes se denominan datos atpicos.
En el modelo de regresin lineal simple, es fcil observar y determinar las observaciones
que son atpicas en el grfico de la nube de observaciones muestrales y la recta
ajustada, pero sto es un grave problema en modelos de regresin con varias variables
explicativas. En todo caso, es conveniente investigar aquellas observaciones que tienen
un residuo asociado grande.
6.4.2 El estadstico D de Cook.
Una observacin influyente a posteriori es aquella
cuya inclusin modifica
sustancialmente la estimacin del modelo.
Es importante identificar y estudiar las observaciones influyentes a posteriori. A
diferencia de las observaciones influyentes a priori (con valor de influencia alto), en
este caso, se consideran los valores de las dos variables: regresora y respuesta. Si una
observacin
es influyente en el modelo de regresin, esta influencia se notar en
la prediccin de las observaciones y en la estimacin de los parmetros de la recta de
regresin
.
El estadstico D de Cook, mide la influencia de la observacin
por medio de
(6.7)
ii
Otro estadstico relacionado es el propuesto por Belsey, Kuh y Welsh, que viene dado
por
DFFITS
=
=
=
1/2
t , i = 1,...,n,
1/2
(6.8)
ij
ij
Contraste de Durbin-Watson.
El contraste de Durbin-Watson est diseado para detectar residuos de un modelo de
regresin lineal que tienen un coeficiente de autocorrelacin de orden uno distinto de
cero. El contraste es el siguiente
U
L
2,
k,
donde
es el vector
-dimensional (matriz
i.
.
j
En el estudio del modelo de regresin lineal general se asume que se verifican las
siguientes hiptesis:
=E
=E
=
+ x + x + ... + x , i = 1,...,n,
2. o, equivalentemente, E
= 0, i = 1,...,n.
3. La varianza es constante (homocedasticidad),
0
i1
i2
o, equivalentemente, V ar
ik
, i = 1,...,n.
4. La distribucin es normal,
o, equivalentemente,
~N
, i = 1,...,n.
Cov(Y ,Y ) = 0, si i j).
i
Esta hiptesis en funcin de los errores sera los son independientes, que bajo
normalidad, equivale a que Cov
= 0, si i j .
i
''
En el siguiente cuadro se resumen las hiptesis del modelo de regresin lineal general.
=0
0
Homocedasticidad
V ar
Independencia,
Cov
= 0 los
errores, i, son
independientes
N(0, 2)
V ar
Normalidad
Normalidad
i
Y/xi1,xi2,...,xik ~ N
n>k+1
Las variables
regresoras son
linealmente
independientes
n>k+1
Las variables regresoras
son linealmente independientes
Derivando respecto a
Si se trabaja con todas las variables centradas se obtiene otra forma interesante de
expresar el modelo de regresin lineal.
(7.4)
donde , , ,..., son las medias muestrales de las variables Y,x ,x ,...,x .
Razonando como antes, se obtiene el siguiente estimador por mnimos cuadrados del
vector =
1
donde
S es la matriz de covarianzas de
con
.
XX
. Y S es el vector de covarianzas de Y
XY
dimensin
, generado por los vectores
(columnas de la matriz
de diseo X). El problema de ajustar un modelo de regresin lineal mltiple se puede
interpretar geomtricamente como el problema de encontrar en este subespacio
vectorial el vector (vector de predicciones) lo ms prximo al vector de la variable
respuesta, . Esto es, encontrar el vector que minimice el mdulo del vector de
residuos, = - (la suma de los residuos al cuadrado). La resolucin de este problema
viene dada por el vector proyeccin ortogonal del vector en el subespacio
considerado. Por tanto,
grados de libertad.
o equivalentemente
(7.5)
es
ii
(7.6)
El estimador
del parmetro
(7.8)
Su distribucin es
(7.9)
7.4.3 Intervalos de confianza para
De la distribucin de
Como
no se conoce, se sustituye por su estimador
siguiente estadstico con distribucin t
2
2
R
n-
(7.10)
El estadstico tambin puede utilizarse para realizar contrastes de hiptesis acerca de
si la variable explicativa x influye individualmente o no en la variable respuesta Y
(contrastes de simplificacin).Esto es, se desea hacer el siguiente contraste
i
(7.11)
El estadstico del contraste es
(7.12)
donde representa la discrepancia entre la informacin que proporciona la muestra y
la informacin que proporciona la hiptesis nula
. Si H es cierto se verifica que
(7.13)
Estos contrastes se denominan contrastes individuales de la t.
Debe tenerse en cuenta que todos los resultados obtenidos sobre la inferencia del
parmetro , coeficiente de la variable x en el modelo de regresin, estn
condicionados a que las otras variables regresoras estn en el modelo y si se cambia el
modelo de regresin eliminando variables regresoras o introduciendo nuevas variables,
el coeficiente asociado a la variable x tambin cambia.
i
Si los estimadores mnimo-cuadrticos son los de menor varianza tambin son los de
menor ECM. Pero puede ocurrir que existan estimadores sesgados con menor varianza
que los estimadores mnimo-cuadrticos de forma que tengan menor ECM.
Finalmente debe tenerse en cuenta que en este teorema no se exigen hiptesis sobre
la distribucin de los , tan solo que sean independientes y con la misma varianza.
i
Fuente de
Variacin
Por la recta
Residual
Global
i=1
scR =
i=1
scG =
n
i=1
2
nn-1
=
Y
por ser sta una medida absoluta se compara con la varianza residual, lo que lleva a
utilizar como estadstico del contraste el siguiente
sigue una
(7.15)
(7.17)
Evidentemente, si H es cierto, scE
0y
tomar valores pequeos. Por tanto
este contraste es unilateral siendo el p - valor del contraste el siguiente
0
7.6 Correlacin.
(7.19)
Si el modelo que se ajusta es un modelo de regresin lineal mltiple, a R se le denomina
coeficiente de correlacin mltiple y representa el porcentaje de variabilidad de la Y
que explica el modelo de regresin.
Como scE < scG, se verifica que 0 < R < 1. Si R = 1 la relacin lineal es exacta y si R
= 0 no existe relacin lineal entre la variable respuesta y las variables regresoras.
El coeficiente de correlacin mltiple R es igual al coeficiente de correlacin lineal
simple entre el vector variable respuesta
y el vector de predicciones ,
2
(7.20)
Ahora es fcil deducir la siguiente relacin entre los dos coeficientes de determinacin
(7.21)
Tambin es fcil relacionar el estadstico del contraste de regresin mltiple con el
coeficiente de determinacin, obteniendo
(7.22)
7.6.2 Correlacin Parcial
Sea
un conjunto de variables aleatorias, el coeficiente de correlacin
parcial entre X y X es una medida de la relacin lineal entre las variables X y X una vez
que se ha eliminado en ambas variables los efectos debidos al resto de las variables del
conjunto
. Al coeficiente de correlacin parcial entre X y X se le
denotar por r .
Para una mejor interpretacin de este concepto, considrese el conjunto de cuatro
variables
, se desea calcular el coeficiente de correlacin parcial entre
las variables X y X . Para ello, se procede de la siguiente forma,
Se calcula la regresin lineal de X respecto de X y X
i
.
12 3...k
.
1 34
.
2 34
, se obtiene sustituyendo
en el modelo de regresin.
=m =E
h , donde h = tt
es el valor de
. La interpretacin de este valor es la
t
tt
tt
-1
tt
(7.25)
Por la hiptesis de normalidad se sigue que la distribucin de
es
(7.26)
El predictor
viene dado por
V ar
=E
= V ar
+ V ar
V ar
=
+ h =
Para calcular intervalos de prediccin de y se utilizar el siguiente estadstico pivote
2
tt
(7.27)
Los intervalos de prediccin que se obtienen son mucho mayores que los intervalos de
confianza de la media condicionada m ya que la varianza ha aumentado.
t
Captulo 8
Modelos de regresin lineal mltiple. Diagnosis y validacin.
8.2 Multicolinealidad.
En el modelo de regresin lineal mltiple
el estimador por mnimos cuadrados
(8.1)
se obtiene resolviendo el sistema de ecuaciones
(8.2)
-1
(8.3)
En este caso los resultados del modelo de regresin se pueden interpretar sin
ambigedad. La matriz X X es diagonal y la matriz V ar
tambin es diagonal, lo que
implica que los estimadores , i = 1,2,...k, son incorrelados. El signo de es igual al
signo del coeficiente de correlacin r
, y la contribucin de la variable regresora
x a R es independiente de las otras variables regresoras que estn includas en el
modelo de regresin, esto es, si se elimina alguna variable regresora o se aade una
nueva (ortogonal), la contribucin de x es la misma.
t
En la mayora de las situaciones lo que ocurre es una situacin intermedia entre los
dos casos extremos anteriores. Esto es, existe una cierta relacin entre las variables
explicativas lo que hace que los estimadores estn correlacionados. Si est relacin
es muy fuerte porque dos o ms variables regresoras estn prximas a una relacin
de linealidad del tipo
i
(8.5)
Por tanto,
(8.6)
De (8.6) se deduce que V ar
< V ar
, lo que implica que el modelo de
regresin lineal simple estima con mayor precisin la influencia de la variable x en la
variable respuesta que el modelo de regresin mltiple.
Si existe multicolinealidad, el FIV
es muy grande y V ar
es mucho
mayor que V ar
.
De todo lo anterior se deduce que en un problema de regresin mltiple con fuerte
multicolinealidad se verificar:
Los estimadores tendrn varianzas muy altas y estarn muy correlacionados entre
s.
Por la alta variabilidad de los estimadores puede ocurrir que los contrastes
individuales (contrastes de la t) sean no significativos mientras que el contraste
conjunto (contraste de la F) sea altamente significativo.
La multicolinealidad normalmente afecta a unas variables si y a otras no, por tanto,
puede afectar a unos parmetros del modelo y a otros no.
i
, residuos
, y varianza
-1
'
-1
(8.8)
o en forma matricial
Como = H , siendo H = X
X la matriz de proyeccin ortogonal. Es fcil
probar que la matriz H es idempotente
y simtrica
. En base a esto
= - = -H =
=
= X + -HX -H =
,
donde se utiliz que HX = X. Se calcula la matriz de varianzas de los residuos,
-1
(8.9)
donde h es el valor de influencia de
que mide la distancia estadstica de
a . Un
residuo grande indica que la observacin est lejos del modelo estimado y, por tanto,
la prediccin de esta observacin es mala. Las observaciones con residuos grandes se
denominan observaciones atpicas o heterogneas (outliers).
Como los residuos tienen varianza variable y son dimensionados (tienen las unidades
de la variable Y ), normalmente se tipifican
ii
(8.10)
los residuos tipificados siguen una distribucin normal estndar, pero como
es
desconocido, se sustituye por su estimador, la varianza residual R2 y se obtienen los
residuos estandarizados, definidos como
2
(8.11)
Por la hiptesis de normalidad los residuos estandarizados siguen una distribucin t con
ngrados de libertad. Como ya se indic en el estudio del modelo de regresin
lineal simple, en el cluco de r existe el problema de que hay una relacin de
dependencia entre el numerador y el denominador de r . Para evitar sto, con mayor
esfuerzo computacional, se calcula para cada i, i = 1,...,n, el estimador
, la varianza
residual del modelo de regresin obtenido a partir de la muestra en la que se ha
eliminado la observacin
. Ahora se definen los residuos estudentizados como
i
R,
(8.12)
Los residuos estudentizados siguen una distribucin t con
grados de
libertad. Si el tamao muestral
es grande, los residuos estandarizados y los
estudentizados son casi iguales y muy informativos, pudindose considerar grandes los
residuos estandarizados tales que
> 2.
Con los residuos estandarizados o estudentizados se pueden construir los siguientes
grficos de inters, muchos de los cuales ya han sido comentados,
El histograma de los residuos, que sirve para observar la existencia de normalidad, simetra
y detectar observaciones atpicas.
El grfico probabilstico de normalidad (p-p y q -q) y el grfico de simetra, que permite
contrastar la normalidad (simetra) de la distribucin de los residuos.
El grfico de residuos
frente a las predicciones
, que permite detectar diferentes
problemas:
Heterocedasticidad, la varianza no es constante y se deben de transformar los datos (la
variable Y ) o aplicar mnimos cuadrados ponderados.
Error en el anlisis, se ha realizado mal el ajuste y se verifica que los residuos negativos
se corresponden con los valores pequeos y los errores positivos se corresponden con los
valores grandes de , o al revs.
El modelo es inadecuado por falta de linealidad y se deben de transformar los datos o
introducir nuevas variables que pueden ser cuadrados de las existentes o productos de las
mismas. O bien se deben introducir nuevas variables explicativas.
Existencia de observaciones atpicas o puntos extremos.
Tener en cuenta que se debe utilizar el grfico de residuos
frente a las
predicciones
en lugar del grfico de residuos
frente a las observaciones
porque las variables e estn correladas, mientras que las variables e no lo estn.
El grfico de residuos
frente a una variable explicativa
, permite deducir si la
existencia de heterocedasticidad o la falta de linealidad en el modelo son debidas a la
variable explicativa representada.
i
Grficos de este tipo son los representados en las Figuras 9.2 y 9.3. En la primera de ellas se
observa que la relacin con la variable x no es lineal y, probablemente, un ajuste cuadrtico
sea adecuado, tambin se tendran dudas acerca de la homocedasticidad del modelo.
j
El grfico de residuos
frente a una variable omitida, permite valorar si esta variable influye en el m
tanto se debe incluir como una nueva variable regresora.
El grfico parcial de residuos, es til para valorar la influencia real de una variable regresora, esto es,
informacin nueva que aporta la variable regresora en estudio y que no aportan las otras variables regre
que representan la parte de Y no explicada por las variables x ,x ,...,x . Por tanto, la grfica de los resid
frente a la variable x permite valorar la importancia real de esta variable.
Un grfico muy parecido y ms fcil de calcular se obtiene de la siguiente forma. Calcular
*
k =
+
=
+
1
k-1
= Se obtiene un nuevo grfico parcial representando los residuos parciales k* frente a la variable x .
Si la variable x es ortogonal a las restantes variables explicativas los estimadores i* y , i = 1,...,k - 1,
prximos y, por tanto, tambin lo son los vectores ek* y k * . Lo que hace que los dos grficos de residuos
iguales en este caso.
Grficos parciales son representados en las Figuras 9.7 y 9.8. En ambos casos se observa que existe una r
entre las variables regresoras y la variable de inters.
k
Figura 9.7. Grfico parcial con los datos del Ejemplo 7.1. (altura)
Figura 9.8. Grfico parcial con los datos del Ejemplo 7.1. (dimetro)
El grfico de residuos
frente al ndice (tiempo = i), proporciona informacin acerca de la hiptesis
de los residuos. En este grfico se pueden observar algunas caractersticas que indican falta de independ
una correlacin positiva o negativa, la existencia de tendencias, saltos estructurales, rachas,....,etc.
En este grfico tambin se puede observar si existe una relacin lineal con el ndice y ste debe de inclu
de regresin como variable explicativa.
Como ya se indic anteriormente al realizar estos grficos, una alta variabilidad en los
residuos ( grande) puede esconder una pauta de comportamiento de los mismos y,
en este caso, es conveniente filtrar o suavizar los residuos utilizando la tcnica de
medias mviles o medianas mviles u otro anlogo. Asi el filtro de medianas
n
mviles de orden tres a partir de los residuos originales
t = 1 genera una nueva
n-1
sucesin de residuos
ms suave.
t=2
2
Figura 9.11. Grfico matricial con los datos del Ejemplo 7.1.
por tanto, los residuos e tienen varianza variable y no son adecuados para contrastar la
n
normalidad. Por ello se utilizan los residuos estandarizados
i = 1 y se les aplican los
contrastes y grficos de normalidad.
Grficos para observar la normalidad son: el histograma, estimador ncleo de
Rosenblatt-Parzen, grfico p - p y grfico q - q.
Contrastes de normalidad son los siguientes: contraste de asimetra y kurtosis,
contraste chi-cuadrado, contraste de Kolmogorov-Smirnov-Liliefors.
Si no se verifica la hiptesis de normalidad los estimadores mnimo-cuadrticos no son
eficientes (de mnima varianza) y los intervalos de confianza de los parmetros del
modelo y los contrastes de significacin son solamente aproximados y no exactos.
Causas origen de falta de normalidad son las siguientes:
Existen observaciones heterogneas. En este caso se debe averiguar la causa que
origina estas observaciones: errores en la recogida de datos; el modelo especificado
no es correcto... Finalmente se debe hacer un estudio de influencia de estas
observaciones atpicas para averiguar el grado de influencia en la estimacin del
modelo.
Existe asimetra en la distribucin. En este caso suele ser conveniente transformar la
variable respuesta (transformacin de Box-Cox) y dado que este problema suele estar
relacionado con otros problemas como falta de linealidad o heterocedasticidad, la
solucin de transformar las observaciones pueden resolverlos conjuntamente.
i
ik
siendo H = X
X la matriz de proyeccin ortogonal en el espacio generado por las
variables regresoras.
Los elementos de la diagonal de H son los valores de influencia a priori de las
observaciones, h i = 1,2,...,n. Un valor grande de h indica que la observacin isima se separa de la nube muestral (en las variables regresoras) y es una
observacin influyente a priori.
El valor de influencia a priori viene dado por
-1
ii
ii
(8.13)
donde i es la fila i-sima de la matriz X (datos de la observacin i-sima).
Si no hay filas repetidas en la matriz de diseo X se verifica que:
.t
Por tanto E
=
. Y se puede considerar que una observacin tiene un valor de
influencia grande si se verifica que
Distancia de Mahalanobis.
Muchos paquetes estadsticos proporcionan la distancia de Mahalanobis de los puntos
muestrales i.t =
, i = 1,2,...,n, al punto medio de la nube de las
variables regresoras =
, donde , j = 1,2,...,k es la media de los datos
de la variable x . Esta distancia viene definida como sigue
(8.14)
t
.
j
siendo S = E
la matriz de varianzas-covarianzas del
vector de variables
.
La distancia de Mahalanobis es una distancia estadstica que generaliza la distancia
eucldea entre dos vectores en la que se tiene en cuenta la dispersin de las variables y
su dependencia. Un valor alto de la distancia de Mahalanobis indica que el punto se
aleja del centro de la nube y, por tanto, es una posible observacin influyente a priori.
8.7.2 Influencia a posteriori.
La identificacin de las observaciones influyentes a posteriori es de mayor inters. Una
observacin influyente a posteriori es aquella
cuya inclusin en el ajuste
modifica sustancialmente la estimacin del modelo. En este caso, se estn considerando
los datos de las variables regresoras y de la variable respuesta.
El problema bsico es determinar la influencia del dato
en el ajuste del
modelo de regresin lineal mltiple. O, equivalentemente, se desea realizar el siguiente
contraste estadstico
:
Si la observacin
D
=
=
=
=
,
siendo r el i-simo residuo estandarizado y k el nmero de variables regresoras. Bajo la
hiptesis nula, la observacin i-sima no es una observacin influyente a posteriori,
se verifica que
i
es
(8.17)
La hiptesis bsica del modelo de regresin lineal mltiple es que la variable respuesta
Y se puede expresar como una combinacin lineal de k variables explicativas ms un
trmino de error . Se supone que el trmino de error es independiente de las k
variables explicativas o, equivalentemente, que cualquier otra variable explicativa no
includa en el modelo y que pueda explicar a la variable Y es independiente de las
variables explicativas del modelo. En la prctica no siempre es posible incluir todas las
variables relevantes, bien porque alguna de estas variables no se considera relevante o
porque no se puede medir. Otras veces se incluyen errneamente variables irrelevantes
o se especifica una relacin lineal que no lo es. Todo ello conduce a especificar
incorrectamente el modelo y, es importante determinar la influencia de tales
especificaciones incorrectas y tenerlas en cuenta en los resultados.
Se consideran los siguientes errores de especificacin al ajustar un modelo de
regresin mltiple:
Omitir una variable relevante, alguna variable regresora de gran importancia no se
ha includo en el modelo. Este problema produce:
Que los estimadores mnimo cuadrticos sean sesgados y con mayor varianza
salvo que la variable excluda sea ortogonal a las variables regresoras del
modelo.
Que la varianza residual R2 sea un estimador sesgado por exceso ya que los
errores son mayores de lo que seran si se hubiera includo la variable excluda,
sobre todo si esta variable es ortogonal a las variables regresoras, ya que
entonces su influencia en la variable Y es mayor.
Como R2 es muy grande los intervalos de confianza de los parmetros del
modelo son mayores de lo que deberan y los contrastes individuales de la t
llevarn a considerar como no significativas a variables regresoras que si lo
son.
Incluir una variable irrelevante, que no influye en la variable respuesta Y o que la
informacin que proporciona sobre esta variable ya est contenida en las otras
variables regresoras. Las consecuencias de este problema son las siguientes:
Si la variable irrelevante includa depende de las otras variables regresoras se
tiene un problema de multicolinealidad, ya comentado en la seccin 9.2.
Aumentar la varianza de los , y los contrastes individuales de la t tienden a
considerar como no significativas a variables regresoras que si lo son.
Si la variable irrelevante includa es ortogonal a las otras variables regresoras,
el efecto es menor, se pierde eficacia porque se pierde un grado de libertad al
aumentar una variable regresora que no aporta variabilidad explicada, pero
para tamaos muestrales grandes el efecto es mnimo.
Especificar una relacin lineal que no lo es, proporciona malos resultados, sobre
todo fuera del rango de valores observados porque una relacin no lineal en un
estrecho intervalo de observacin se puede aproximar por una lineal. Las graves
consecuencias de este error son las siguientes:
Los estimadores son sesgados y su varianza se calcula mal.
La varianza residual se calcula mal y los contrastes individuales de la t no son
vlidos.
Las predicciones del modelo son malas, sobre todo fuera del rango de valores
de las observaciones.
Los errores de especificacin se detectan utilizando los grficos de residuos descritos
anteriormente. Especialmente se tendrn en cuenta:
El grfico de residuos
frente a predicciones
.
El grfico de residuos
frente a una variable explicativa
.
El grfico de residuos
frente a una variable explicativa omitida
. En muchas
ocasiones se intuye que se debera incluir un trmino cuadrtico o una interaccin
(producto) de variables explicativas, siendo razonable hacer el grfico de los residuos
frente a variables como xij2 o x . x .
El grfico de residuos
frente a la variable ndice o tiempo si las observaciones
son recogidas secuencialmente y se sospecha que el tiempo puede ser una variable
regresora.
ij
ik
OUT
IN
OUT
IN
IN
- si
> t , entonces la variable x es significativa y se introduce en el modelo.
Ir al Paso 4.
IN
- si
< t , se acepta que la variable x no es significativa y no se introduce en
el modelo. Se termina el algoritmo.
Paso 4. Una vez introducido x en el modelo se calculan las correlaciones
parciales (eliminando la influencia de x ): r , i = 1,...,k - 1. Se calcula la
correlacin parcial mayor que supongamos que es la correspondiente a la
variable x : r ,
Paso 5. Se calcula el modelo de regresin de Y respecto a x y x . Se calculan
los estadsticos
y .
Paso 6. Se compara
con t .
IN
.
Y,i k
.
Y,k-1 k
k-1
k-1
k-1
k-1
IN
- si
> t , entonces la variable x es significativa y se introduce en el
modelo. Ir al Paso 7.
IN
k-1
- si
< t , se acepta que la variable x no es significativa y no se introduce
en el modelo. Se termina el algoritmo.
Paso 7. Se decide si la variable x debe permanecer en el modelo. Para ello se
compara con t .
IN
k-1
OUT
- si
< t , se acepta que la variable x no es significativa y se elimina del
modelo. Se vuelve al Paso 4, con x como variable regresora. Contina el
proceso.
- si
> t , entonces la variable x es significativa. Se vuelve al Paso 4, con x
y x como variables regresoras. Contina el proceso.
Muchos paquetes estadsticos tienen programado este algoritmo utilizando el
contraste de la F en lugar del contraste de la t y, generalmente, utilizan que F = F ,
sto es una eleccin del usuario pero no una condicin para su utilizacin. Lo que si es
necesario es que F > F , para evitar que una variable que entra en una etapa salga en
la siguiente.
El algoritmo paso a paso tiene las ventajas del algoritmo de introduccin progresiva
pero lo mejora al no mantener fijas en el modelo las variables que ya entraron en una
etapa, evitando de esta forma problemas de multicolinealidad. En la prctica, es un
algoritmo bastante utilizado que proporciona resultados razonables cuando se tiene un
nmero grande de variables regresoras.
En todo caso, la utilizacin de estos algoritmos de manera automtica es peligroso y
una vez obtenido el modelo de regresin se debe chequear que se verifican las hiptesis
del modelo as como tener en mente el problema de regresin que se est estudiando.
OUT
k-1
OUT
k-1
IN
IN
OUT
OUT
(8.18)
Este criterio aumenta al ir introduciendo nuevas variables en el modelo. Sea denota Rj2,
j = 1,...,k, el mximo valor posible de R cuando en el modelo hay j variables
explicativas, se verifica Rj - 12 < Rj2, (Rj2 es montona creciente) y las diferencias Rj2 - Rj 2
y
1 decrecen. En base a sto, un criterio sencillo sera considerar un nmero pequeo
elegir el modelo con j ms pequeo y tal que Rk2 -Rj2 < (Rk2 es el coeficiente de
determinacin del modelo con las k variables regresoras). Este criterio tiene el
inconveniente de no tener en cuenta el nmero de variables regresoras. Tiende a
sobreajustar y utilizar demasiadas variables regresoras.
Coeficiente de determinacin corregido, , esta medida de bondad de ajuste (ver
seccin 8.6.) evita el problema de la medida anterior. Se define como
2
(8.19)
Por tanto,
< R , y el coeficiente
tiene en cuenta el nmero de variables
regresoras y no tiene porque crecer al introducir nuevas variables regresoras. Se denota
2
para el modelo de j variables, entonces un buen criterio sera
j al mayor valor de
elegir el subconjunto de j variables que maximiza este coeficiente, j2.
Varianza residual, R2. Se ha definido R2 como
2
(8.20)
donde scmR (Mean Square Error) es la media de los errores al cuadrado. Un buen
criterio de seleccin del subconjunto de variables es elegir el subconjunto de j
variables que minimiza el valor scmR , siendo sta la varianza residual obtenida con el
modelo de j variables.
Teniendo en cuenta que
j
se deduce que
por tanto, el criterio de minimizar la varianza residual es equivalente al criterio de
maximizar el coeficiente de determinacin corregido.
El estadstico C de Mallows. Los criterios anteriores se basan en el scmR, pero tambin
es interesante tener en cuenta el sesgo en la seleccin del modelo ya que si se omite
una variable regresora importante los estimadores de los coeficientes de regresin son
sesgados y los criterios anteriores pueden elegir un modelo que tenga sesgo grande
aunque su scmR sea pequeo. Un criterio que tenga en cuenta el sesgo ayudar a elegir
el modelo adecuadamente. Con este objetivo surge el estadstico C de Mallows
definido como,
p
(8.21)
donde p es el nmero de parmetros del modelo (en un modelo de regresin lineal
mltiple p = j + 1, con j el nmero de variables regresoras), R2 es la varianza del
modelo con todas las variables y R2
es la varianza residual al ajustar el modelo con j
= p - 1 variables regresoras.
Para interpretar este estadstico, se define el error cuadrtico medio de prediccin
=
=
donde
p,i
i=1
n
i=1
V ar
+ Sesgo
,
es la prediccin cuando se utiliza el modelo con p parmetros y m = E
i=1
(8.22)
p,i
.
Siendo un buen criterio de seleccin del modelo el de elegir el modelo que tenga el
ECMP mnimo. Este criterio es equivalente a minimizar el estadstico C de Mallows.
Adems puede probarse que en los modelos sin sesgo C = p. Por tanto, aquellos
subconjuntos de j variables regresoras que tengan un C p = j + 1, son buenos.
Normalmente se construir una grfica de C para los diferentes subconjuntos que se
quieren analizar frente a p. Y se considerarn buenos los subconjuntos que tienen C
pequeo y adems estn por debajo de la diagonal C = p.
En la Figura 9.13. se puede observar el grfico C para dos subconjuntos de variables
regresoras y se observa que el subconjunto A tiene un sesgo mucho mayor que el del
subconjunto B, pero ste tiene menor C .
p
R. L. Simple
yi = 0 +
= 0 +
Modelo
Estimacin
xi +
+
1
1
yi =
+ 1xi1 + 2xi2+
+... + kxik + i
=X +
1
0
R. L. Mltiple
= -
-1
XtY
E
~N
Propiedades
0
-1
V ar
= 2
Distribucin Normal
~N
Prediccin
0
0
+
+
Varianza
Estimada
2
R
n-2
2
R
n 2
i=1 i
sx
=
xi1 + 2xi2+
+... + kxik
=X
1
~ Fk,n-2
i=1
n-
~ tn-2
=
=
1
~N
ei = yi = -
Propiedades
Contraste F
Interv. de
Confianza
xi
ei = yi -
Residuos
~ tn-
~ t n-2
=
~ Fk,n-
ei2
2
Captulo 9
El modelo de regresin lineal simple.
9.1 Introduccin a los modelos de regresin.Objetivos.
Los Modelos de Regresin estudian la relacin estocstica cuantitativa entre una
variable de inters y un conjunto de variables explicativas. Estos modelos son muy
utilizados y su estudio conforma un rea de investigacin clsica dentro de la disciplina
de la Estadstica desde hace muchos aos.
Cuando se estudia la relacin entre una variable de inters, variable respuesta o
variable dependiente
y un conjunto de variables regresoras (explicativas,
independientes)
, puede darse las siguientes situaciones:
Existe una relacin funcional entre ellas, en el sentido de que el conocimiento de las
variables regresoras determina completamente el valor que toma la variable
respuesta, sto es,
Esto permite tener una idea general del comportamiento de la variable respuesta en
funcin de las regresoras.
Se puede estimar y predecir el valor de la variable respuesta de un individuo del que
se conocen los valores de las variables regresoras. sto es, de un individuo t se sabe
que X = x ,...,X = x , entonces se puede predecir el valor de Y y calcular un
intervalo de prediccin del mismo.
1
1,t
k,t
o, equivalentemente, E
= 0, i = 1,...,n.
o, equivalentemente, V ar
3. La distribucin es normal,
o, equivalentemente,
~N
, i = 1,...,n.
, i = 1,...,n.
Esta hiptesis en funcin de los errores sera los son independientes, que
bajo normalidad, equivale a que Cov
= 0, si i j.
i
En el modelo de regresin lineal simple hay tres parmetros que se deben estimar: los
coeficientes de la recta de regresin,
y ; y la varianza de la distribucin normal, .
El clculo de estimadores para estos parmetros puede hacerse por diferentes
mtodos, siendo los ms utilizados el mtodo de mxima verosimilitud y el mtodo de
mnimos cuadrados.
Mtodo de mxima verosimilitud.
Conocida una muestra de tamao n,
, de la hiptesis de
normalidad se sigue que la densidad condicionada en y es
0
Una vez tomada la muestra y, por tanto, que se conocen los valores de
se define la funcin de verosimilitud asociada a la muestra como sigue
i=1
(9.3)
esta funcin (con variables
y ) mide la verosimilitud de los posibles valores de
estas variables en base a la muestra recogida.
El mtodo de mxima verosimilitud se basa en calcular los valores de
y
que
maximizan la funcin (9.3) y, por tanto, hacen mxima la probabilidad de ocurrencia de
la muestra obtenida. Por ser la funcin de verosimilitud una funcin creciente, el
problema es ms sencillo si se toman logaritmos y se maximiza la funcin resultante,
denominada funcin soporte. As se obtienen los siguientes estimadores mximo
verosmiles,
0,
0,
o, en forma matricial,
donde
e = y - , i = 1,2,...,n,
Residuo = Valor observado -Valor previsto,
en forma matricial,
i
(9.5)
Se observa que los estimadores por mxima verosimilitud y los estimadores mnimo
cuadrticos de
y
son iguales. Esto es debido a la hiptesis de normalidad y, en
adelante, se denota
=
=
y
=
=
.
0
0,MV
0,mc
1,MV
1,mc
X.
Utilizando las hiptesis de normalidad e independencia se obtiene que la distribucin
del estimador
y varianza
. sto es,
(9.6)
Por tanto la V ar
- disminuye al aumentar n,
- disminuye al aumentar sx2
- disminuye al disminuir .
El estimador
indica el valor de la ordenada en la recta de regresin estimada para x
= 0 tiene menor importancia y, en muchos casos, no tiene una interpretacin prctica.
2
La distribucin de
sto es,
y varianza
.
(9.7)
Por tanto la V ar
- disminuye al disminuir V ar
(disminuye al aumentar n o al aumentar sx2
o al disminuir ).
- disminuye al disminuir .
Nuevamente, utilizando las hiptesis de normalidad e independencia se obtiene que la
distribucin del estimador mximo-verosmil de , viene dado por
2
2
R
dada por
(9.8)
(9.10)
De forma anloga se puede obtener un intervalo de confianza del parmetro . De las
funciones de distribucin de
y R2 se deduce que la distribucin del estadstico
verifica que
0
(9.11)
Los estimadores
y
no son variables aleatorias independientes ya que su
covarianza viene dada por
0
Para ello basta con centrar las dos variables en estudio y calcular la recta de
regresin que pasa por el origen de coordenadas.
La recta de regresin de X sobre Y es distinta de la recta de regresin de Y sobre X. En
el primer caso se obtiene que
donde
= -
(9.13)
Este contraste se denomina contraste (individual) de la t.
De la misma forma se puede hacer el contraste
Aunque este contraste tiene un menor inters por su escaso significado. En este caso, a
partir de la distribucin (??) , si H es cierto, se verifica que
0
frente a la alternativa
por tanto, si se acepta H , la variable regresora no influye y no hay relacin lineal entre
ambas variables. En caso contrario, si existe una dependencia lineal de la variable
respuesta respecto a la regresora.
Para todos los datos muestrales se hace la siguiente descomposicin
0
en base a la ortagonalidad de los vectores se obtiene que los productos cruzados son
cero, de donde se sigue la siguiente igualdad (Teorema de Pitgoras) que permite
descomponer la variabilidad de la variable respuesta
explicada por la recta de regresin
explicada por el modelo ajustado
en la variabilidad
ms la variabilidad residual o no
,
Fuente de
Variacin
Por la recta
Residual
Global
i=1
scR =
i=1
scG =
n
i=1
2
n-2
n-1
sigue una
(9.14)
...
y
y
y
y
...
...
y
y
...
11
12
21
22
1n1
2n2
k1
k2
knk
k
i=1
j=1
eij2 =
k
n
k
=
+
i=1
j=1
i=1 n
Ahora la descomposicin de la variabilidad total es la siguiente,
k
i=1
scG =
i=1
j=1
n
j=1 i
=
+
=
= scE + scR = scE + scR + scR
En base a esta igualdad se puede construir la siguiente tabla ANOVA, ms completa
que la anterior,
Fuente de
Variacin
Por la recta
k
i=1
ni
scR(1)
scR(1) =
i=1
ni
k-2
scR(2)
scR
n-k
scR(2) =
n
j=1 i
k
i=1
2
n-2
R,1
R,2
scR =
k
i=1
n
1 i
Global
j=
2
R
Global
i=1
n-1
=
=
frente a la alternativa
sigue
(9.16)
Dadas dos variables aleatorias cualesquiera X e Y , una medida de la relacin lineal que
hay entre ambas variables es el coeficiente de correlacin definido por
(9.17)
donde
representa la desviacin tpica de la variable X (anlogamente para
).
Un buen estimador de este parmetro es el coeficiente de correlacin lineal muestral
(o coeficiente de correlacin de Pearson), definido por
(9.18)
Por tanto, r
. Este coeficiente es una buena medida de la bondad del ajuste de la
recta de regresin. Evidentemente, existe una estrecha relacin entre r y
aunque
estos estimadores proporcionan diferentes interpretaciones del modelo:
r es una medida de la relacin lineal entre las variables X e Y.
mide el cambio producido en la variable Y al realizarse un cambio de una unidad en
la variable X.
De las definiciones anteriores se deduce que:
1
(9.20)
donde
(9.21)
n se denomina nmero equivalente de observaciones para estimar m .
Teniendo en cuenta que en una muestra de tamao n, la varianza de la media
muestral es V ar
= /n, la interpretacin de n es la siguiente: la informacin que
n
proporciona la muestra, de tamao n, de datos bivariantes
para estimar
i=1
m es la misma que proporcionara una muestra de tamao n de observaciones
univariantes de una poblacin con distribucin igual a la de Y/X = x .
De la expresin de n se deduce que este valor ser mayor cuanto ms prximo est x
de . Y si x = se verifica que n = n.
La inversa de n , h = 1/n se denomina valor de influencia de la observacin x (muy
utilizado el nombre en ingls leverage) y se ver ms adelante que es una medida de
la influencia de la observacin
(si este es uno de los datos muestrales) en el
clculo de la recta de regresin.
La distribucin del estimador
es normal,
t
tt
(9.22)
Al utilizar el modelo de regresin lineal para estimar una media condicionada o
predecir una observacin debe de tenerse en cuenta que el mtodo proporciona
resultados aceptables dentro del rango de valores muestrales de la X (interpolar), aqu
est garantizado que 1 < n < n. Si x es un punto muy alejado de (an estando dentro
de la nube de observaciones est muy alejado del centro de la misma) entonces n 1 y
la varianza de
ser muy grande con lo que se obtienen estimaciones con poca
precisin (mucha variabilidad). El caso opuesto es que x = y, por tanto, n = n, ahora la
varianza de
es /n, la menor posible.
Por otra parte, si se quiere predecir fuera del rango de valores muestrales de X
(extrapolar), entonces x - puede ser muy grande y, en consecuencia, n 0, lo que hace
que la precisin de la estimacin de m sea muy pequea por tener el estimador
una
varianza muy grande y, por tanto, obtener resultados con muy poca validez.
t
(9.23)
Los intervalos de prediccin que se obtienen son mucho mayores que los obtenidos en el
apartado anterior debido al aumento de la varianza.
Captulo 10
Otros modelos de regresin importantes.
10.1 Estimacin por mnimos cuadrados generalizados.
En un modelo de regresin lineal se supone que la matriz de varianzas-covarianzas de los
errores es de la forma
(10.1)
siendo I la matriz identidad de orden n. Si no se verifica la hiptesis de
homocedasticidad, o la de independencia, o ambas, entonces la matriz de varianzascovarianzas tiene la forma general
(10.2)
siendo una matriz simtrica, definida positiva de orden n n. En este caso, se puede
calcular el estimador de por el mtodo de mnimos cuadrados generalizados. Este
mtodo se desarrolla en dos etapas: en una primera etapa se transforma el modelo de
regresin original
n
esta matriz no tiene porque ser nica, pero si existe. Multiplicando por P la ecuacin
de regresin se obtiene
(10.3)
Denominando
= P , X = PX y = P , se obtiene la ecuacin de regresin
(10.4)
y los errores del modelo verifican
*
por tanto los errores son incorrelados y homocedsticos. Ahora se puede aplicar el
mtodo de mnimos cuadrados ordinarios a estos datos transformados
obtener el estimador
para
(10.5)
estimarla
A continuacin se exponen dos situaciones comunes en las que se puede aplicar este
mtodo de estimacin.
10.1.1 Heterocedasticidad.
Si las observaciones son independientes pero heterocedsticas entonces la matriz de
varianzas-covarianzas viene dada por
Y la matriz P
(10.8)
la matriz P de transformacin es
y la matriz
-1
es
(10.10)
-1
regresin lineal por mnimos cuadrados ordinarios y calcular los residuos mnimo
cuadrticos
-1
, a partir de la cual
-1
(10.13)
(10.14)
donde
es una funcin de ponderacin que se introduce para reducir (e incluso
eliminar) el efecto de los residuos altos. Por tanto se definen los pesos
de forma
que tomen valores pequeos en los residuos e grandes. Para aplicar esta definicin es
necesario conocer los residuos e . Este razonamiento conduce al siguiente algoritmo
iterativo anlogo al descrito para el mtodo de mnimos cuadrados generalizados:
Etapa 1. Calcular un estimador inicial (por ejemplo, el estimador por mnimos
cuadrados ordinarios)
=
de los parmetros del modelo, a partir del cual se
obtienen los residuos iniciales, ei
i
MCO
Para el estudio de este modelo se utiliza la teora de la regresin lineal mltiple, y basta
con utilizar la relacin
(10.17)
basta con introducir una variable de clasificacin z que vale z = 0 si la observacin es del
grupo A y toma el valor z = 1 si es del grupo B,
'
(10.21)
por tanto es una prediccin de una probabilidad y debera ser un valor entre 0 y 1.
En este problema trabajar con el modelo de regresin mltiple presenta varios
inconvenientes:
No est garantizado que = x . sea un valor comprendido entre 0 y 1.
La variable de error toma dos posibles valores
i
de un estimador
(10.25)
=
+E
, j = 0,1,...,k.
La estimacin de un modelo de regresin lineal por mnimos cuadrados se basa en buscar
el estimador de mnima varianza en la clase de los estimadores insesgados, de esta
forma se obtiene el estimador de menor error cuadrtico medio dentro de los de esta
clase. Un mtodo alternativo de estimacin consiste en buscar estimadores que pueden
ser sesgados pero con menor error cuadrtico medio. Los mtodos de regresin
contrada parten de esta idea y tratan de minimizar el ECM . Tambin se debe tener
en cuenta que al comparar los estimadores de mnimos cuadrados con los estimadores de
regresin contrada no siempre se estn comparando estimadores insesgados con
estimadores sesgados ya que los estimadores por mnimos cuadrados son insesgados si el
modelo de regresin en estudio es el adecuado y se verifican las hiptesis bsicas.
El error cuadrtico medio de los estimadores mnimo cuadrticos viene dado por
2
(10.26)
donde tr
es la traza de la matriz cuadrada X X que es igual a la suma de los
elementos de la diagonal de esta matriz; son los autovalores de la matriz
, que
son positivos, y
es el menor de estos autovalores.
Por otra parte, el ECM de cualquier estimador verifica que
t
min
(10.27)
De las (10.26) y se (10.27) deduce que
E
>
>0
(10.28)
>
+
Esta ltima desigualdad (10.28) indica que la longitud esperada del estimador mnimo
cuadrtico E
es mayor que la longitud del vector de parmetros
. La
E
min
MC,j
R,j
R,j
R,j
la funcin de regresin m
=
exp
no es lineal ni se puede
transformar en lineal, sera un modelo de regresin no lineal. La forma general de
estos modelos es
(10.32)
siendo m una funcin que depende de un vector de parmetros que es necesario
estimar, son los errores que se supone que verifican las mismas hiptesis que el
modelo lineal.
El estudio de los modelos de regresin no lineal es muy extenso y complejo,
existiendo una amplia literatura sobre el tema. Textos de referencia son los los de Bates
y Watts (1988) y Seber y Wild (1989).
1