Vous êtes sur la page 1sur 9

MODELOS DE RANGO NO MXIMO Y DE COVARIANZA

Regresin en variables Dummy (0, 1):


Ilustraremos la introduccin de variables ficticias con un ejemplo adaptado del
libro de FOX citado anteriormente. El ejemplo se refiere a la relacin entre el
nivel de ingresos y el nivel de educacin en dos grupos raciales en Estados
Unidos. Suponemos que el nivel de ingresos (medido a travs del salario) es la
variable dependiente y que el nivel de educacin (medido a travs del nmero
de aos) es la variable independiente o regresora.
Cabe esperar que, en general, para un nivel de educacin ms alto el nivel de
ingresos sea tambin ms alto. Dadas las caractersticas de la sociedad
americana, es de esperar tambin que para un mismo nivel de educacin una
persona de raza blanca tenga un nivel de ingresos mayor que una persona de
raza negra. Luego el nivel de ingresos depende de la raza (variable cualitativa)
y debera ser incluida en el modelo como regresora. La situacin se ha
esquematizado en la figura siguiente.

Relacin entre el nivel de ingresos y el de educacin para blancos y negros.
Es claro que si no incluimos la variable raza de alguna manera, el modelo
conjunto que relaciona ingresos y educacin no se ajusta bien ni al grupo de
los blancos ni al de los negros. Una solucin sera ajustar un modelo por
separado para cada grupo y compararlos, sin embrago, vamos a buscar una
solucin que explique correctamente la situacin con un solo modelo.
En lugar de ajustar el modelo conjunto

0 1
Y X | | = +
podemos ajustar el modelo
0 1
Y X D | | o = + +

donde la variable D se define de la siguiente manera

la variable D se dice que es una variable ficticia ya que no ha sido media
directamente de esta forma. Veamos como la variable ficticia soluciona el
problema.
- Interpretacin del modelo con variables ficticias:
La interpretacin de los modelos en los que se han incluido variables
ficticias es simple.
Calculemos el modelo en cada uno de los grupos.
En el grupo de los negros (D=0)
0 1 0 1
0 Y X X | | o | | = + + = +

En el grupo de los blancos (D=1)
( )
0 1 0 1
1 Y X X | | o | o | = + + = + +

Luego
1
| es la pendiente (comn) de los modelos para ambos grupos.
0
| es la constante en el modelo para el grupo de los negros,
0
| o + es la
constante en el modelo para el grupo de los blancos y o , por tanto, es la
diferencia entre los ingresos de los blancos y los negros, sea cual sea el
nivel de educacin. El contraste de igualdad a cero de o es el contraste
de que no hay diferencias en el nivel de ingresos entre los dos grupos de
la raza, sea cual sea el nivel de educacin. La situacin esquematizada
se muestra en la figura siguiente.


Interpretacin de un modelo con variables ficticias.
Cuando la variable cualitativa tiene ms de dos grupos tenemos que
introducir varias variables ficticias.
- Variables ficticias para ms de dos grupos:
Supongamos ahora que disponemos de un grupo ms, el de los
hispanos y hemos de introducir los tres en el modelo que relaciona
ingresos y educacin. Tomaremos uno de los grupos como base de
comparacin, por ejemplo, el grupo de los hispanos.
El modelo ser ahora:
0 1 n n b b
Y X D D | | o o = + + +

donde las variables D
n
y D
b
se define de la siguiente manera

La interpretacin de los parmetros y el modelo para los distintos grupos
es clara a partir del grfico siguiente.

Variables ficticias para varios grupos.
Luego
1
| es la pendiente (comn) de los modelos para los tres grupos.
0
| es la constante en el modelo para el grupo de los hispanos,
0 n
| o + es
la constante en el modelo para el grupo de los negros y
0 b
| o + es la
constante en el modelo para el grupo de los blancos; entonces
n
o es la
diferencia entre el grupo de los negros y el de los hispanos,
b
o es la
diferencia entre el grupo de los blancos y el de los hispanos y
b n
o o es
la diferencia entre blancos y negros.
- Variables ficticias en presencia de interaccin:
Supongamos ahora que, en el ejemplo anterior, las diferencias entre los
ingresos para las dos razas, aumentan a medida que aumenta el nivel
de educacin, es decir, los efectos de la raza y del nivel de educacin no
son aditivos, existe lo que se denomina interaccin entre la raza y el
nivel de educacin. El concepto de interaccin es clave en la
investigacin aplicada, ya que implica que la relacin de la variable
dependiente con otra variable depende de los valores de una tercera. No
debe confundirse interaccin con relacin, en el ejemplo, raza y
educacin interactan en el efecto que manifiestan sobre el nivel de
educacin, pero no tienen por qu estar relacionadas entre s.
La interaccin se traduce en que las pendientes de las rectas para
ambos grupos no son la misma.
La situacin se representa en la figura siguiente.


Interaccin entre raza y educacin.
En este caso no es vlido el modelo anterior con variables ficticias, ya
que, all suponamos que las pendientes de las rectas eran iguales y, por
tanto, la diferencia entre blancos y negros era constante.
Tomaremos ahora el modelo
0 1
Y X D DX | | o = + + +

donde la variable D se define como antes, y DX es el producto de las
variables D y X, es decir

Y

La interpretacin del nuevo modelo es simple. Calculamos el modelo en
cada uno de los grupos.
En el grupo de los negros (D=0)
0 1 0 1
0 0 Y X X | | o | | = + + + = +

En el grupo de los blancos (D=1)
( ) ( )
0 1 0 1
1 Y X X X | | o | o | = + + + = + + +

Luego
1
| es la pendiente del modelo para el grupo de los negros.
0
| +
es la pendiente del modelo para el grupo de los blancos y, por tanto,
es la diferencia en las pendientes.

0
| es la constante en el modelo para el grupo de los negros,
0
| o + es la
constante en el modelo para el grupo de los blancos. o ya no es la
diferencia entre los ingresos de los blancos y los negros, ya que esta
depende del nivel de educacin.

Interpretacin del modelo de variables ficticias considerando interaccin.

Contrastar la presencia de interaccin en el modelo consiste en contrastar
la nulidad del parmetro . Si se dispone de varios grupos es necesario
introducir en el modelo el producto de la variable continua por todas las
variables ficticias. Si se dispone de dos variables cualitativas y se desea
introducir la interaccin de las mismas en el modelo hay que multiplicar
todos los pares posibles de variables ficticias resultantes. Si se desea
introducir la interaccin entre dos variables continuas basta con introducir
el producto de las mismas.

- Modelos de diseo experimental con variables ficticias (el anlisis de la
varianza como modelo lineal general):
Los clsicos modelo de diseo experimental que se analizan mediante el
denominado Anlisis de la varianza, pueden considerarse como un
modelo lineal general en el que se consideran solamente variables
ficticias en la forma 0 y 1. La utilizacin de una variable ficticia para cada
uno de los grupos hace que la matriz de diseo X sea singular por lo que
es necesario reparametrizar el modelo para que puedan estimarse sus
parmetros. Una forma de conseguirlo es, como ya hemos visto,
tomando uno de los grupos como base de la comparacin, suprimiendo
la correspondiente variable ficticia del modelo. Supongamos que es el
primero de los r grupos.
Si tenemos una nica variable cualitativa con r grupos el modelo para la
observacin j-sima del grupo i-simo es de la forma
, 1,...,
ij i i ij
x D i r o c = + + =

donde Di (i=2, ..., r) es la correspondiente variable ficticia y D1 = 0. La
matriz de diseo (X) tendr r columnas, una columna completa de unos y
una columna por cada una de las variables ficticias introducidas (r-1).
Los grados de libertad de la parte explicada son, entonces, (r-1).
es la media del primer grupo,
i
o es la diferencia entre la media del
grupo i-simo y la del primero y
i j
o o es la diferencia entre la i-sima y
la j-sima poblaciones. El contraste de la diferencia entre la media de la
i-sima y primera poblaciones es el contraste de que
i
o es cero, y se
calcula directamente. El contraste de que la diferencia
i j
o o es cero no
puede realizarse directamente aunque es muy simple. Los estimadores
de los parmetros son las medias de cada uno de los grupos.

Sea c el vector con r componentes que tiene un 1 en la componente i-
sima, un -1 en la j-sima y ceros en el resto. Sea ( )
2
, ,...,
r
o o o
'
=
el
vector de parmetros del modelo, de forma que

( )
i j
c o o o ' =



El estimador de la diferencia es
( )

i j
c o o o
'
=

El estimador no es ms que una combinacin lineal de los estimadores
de los parmetros. Si los estimadores de los parmetros tienen
distribucin normal, tambin la tiene una combinacin lineal. Se tiene
entonces que el estimador de la diferencia tiene una distribucin:
( )
( )
1

, c N c c X X c o o o

' ' ' ' = ~

combinndola con la distribucin asociada a la varianza residual para
obtener una distribucin t, se obtiene que
( )
( )
1

e
c c
t
S c X X c
o o

' '

=
' '

sigue una distribucin t de Student con n-r grados de libertad.
Por tanto el contraste
( )
0
: 0
: 0
i j
a
H c
H
o o o

' = = =
=

se realiza directamente a partir del estadgrafo de contraste
( ) ( )
1 1


i j
e e
x x
c
t
S c X X c S c X X c
o

'
= =
' ' ' '

Todo el procedimiento descrito es exactamente el mismo que el
habitualmente conocido como anlisis de la varianza con un factor de
variacin con las correspondientes comparaciones por parejas.
Si r=2, el estadgrafo t del contraste anterior coincide exactamente con el
estadgrafo t para la comparacin de las medias de dos poblaciones
normales con varianzas desconocidas pero iguales.

Vous aimerez peut-être aussi