Vous êtes sur la page 1sur 5

MODELOS CON VARIABLES EXPLICATIVAS DICTOMAS

1.- Introduccin
Hay dos tipos de modelos: ANOVA en los que la(s) nica variable explicativa es una dummy, y
ANCOVA donde hay variables cualitativas y cuantitativas entre los regresores.
El supuesto ms sencillo consiste en considerar que la variable endgena Y est
determinada por una variable cualitativa. Por ejemplo, si queremos estudiar la influencia del
sexo en los salarios de los profesores, podemos formular el modelo
t t t
Y a bD v + +
donde D es la variable cualitativa sexo. Para cuantificarla suelen asignrsele dos valores segn
el sexo de los profesores, 1 para hombres y 0 para mujeres (o viceversa). El salario esperado de
los respectivos sexos ser entonces,
E(Y
t
/D
i
=0) = a, en el caso de las mujeres
E(Y
t
/D
i
=1) = a+b, en el caso de los hombres
Slo quedara efectuar la regresin y contrastar por el procedimiento habitual de la t de Student,
si el parmetro b es estadsticamente significativo, en cuyo caso se rechazara la hiptesis nula
H
0
: 0 b (igualdad de salarios) y se aceptara la alternativa, es decir la discriminacin de
salarios en funcin del sexo.
Con los datos de la tabla siguiente,
Sexo 1 0 0 1 0 1 1 0 0 1
Salario 22 19 18 21.7 18.5 21 20.5 17 17.5 21.2
se obtiene,
(57.7) (7.439)
18 3.34
t t
Y D +
es decir que se aceptara la discriminacin por razn de sexo.
Repasemos cmo sera el proceso manual de clculo. Supongamos que tenemos la matriz de
varianzas, covarianzas y medias de las variables implicadas,
D W
D 0.25 0.835
W 3.18
Medias 0.5 19.67
a) Estimacin, cov( , ) / var( ) 0.835/ 0.25 3.34 b Y X X ,
19.67 3.340.5 18 a Y bX
b) Ajuste,
2
3.340.835/ 3.18 0.877 R b'X'Y/Y'Y , o tambin
cov( , ) / var( )var( ) 0.835/ 3.180.25 0.9365 r Y X Y X
c) Contraste de hiptesis. Calculemos primero la suma cuadrtica de los residuos y el
estimador insesgado de la varianza de las perturbaciones aleatorias.
2 2
( ) 10(3.18 0.8353.34) 3.911
t y xy
d n s bs

Y'Y- b'X'X
2 2
/( 2) 3, 911/ 8 0.489
u t
d n

2 2 2 2
var( ) / / 0.489/100.25 0.1956 ( ) 0.442
u t u t
b x x ee b

H
0
: = 0, 8
3.34 0
7.55
( ) 0.442
b
t
ee b


Se rechaza H
0
.
H
0
: = 3, 8
3.34 3
0.77
( ) 0.442
b
t
ee b


No se puede rechazar H
0
.
d) Intervalo de confianza. Elegido el nivel de confianza, por ejemplo el 95%,
obtendramos el intervalo a partir de la expresin,
Pr 0.95
( )
b
A A
ee b
1
< <
1
]
obtenido A de las tablas, en este caso A = 2.306, se tiene,
3.34
Pr 2.306 2.306 0.95 (3.34 2.3060.442) (2.32, 4.46)
0.442

1
< < t
1
]
Sin embargo en economa no suele trabajarse con modelos tan sencillos, sino que lo habitual es
considerar modelos donde haya al menos una variable cuantitativa y una cualitativa (modelos
ANCOVA).
1.1 Modelos con una variable cuantitativa y una cualitativa, con dos clases, entre los regresores
Siguiendo con el mismo modelo, lo razonable es considerar que adems del sexo influyan otro
tipo de variables, por ejemplo los aos de experiencia docente. Tendremos entonces,
1 2 t t t t
Y a a D bX v + + +
siendo ahora el salario medio esperado,
E(Y
t
/D
i
=0, X
t
) = a
1
+bX
t
, en el caso de las mujeres
E(Y
t
/D
i
=1, X
t
) = a
1
+a
2
+bX
t
, en el caso de los hombres
de manera que aunque ambas regresiones tienen la misma pendiente, el intercepto es diferente:
en trminos prcticos la interpretacin es que aunque el incremento del salario debido a la
experiencia laboral es el mismo, el nivel de salarios de los hombres difiere del de las mujeres en
la cantidad absoluta a
2
.
El contraste estadstico adecuado en este caso, se llevara a cabo estimando la regresin
y contrastando la hiptesis H
0
: a
2
=0 (igualdad de salarios), empleando el ratio t-Student.
Por ejemplo, supongamos que, considerando ahora la experiencia laboral del
profesorado, los datos son,
Sexo 1 0 0 1 0 1 1 0 0 1
Salario 22 19 18 21.7 18.5 21 20.5 17 17.5 21.2
Exper. 10 10 6 8 7 5 4 4 5 6
En este caso el modelo de regresin proporcionara,

16.22 0.279 3.28


t t t
Y X D + +
(59.7) (20.23) (7.25)
es decir,
( / 1) 16.22 0.279 3.28 19.5 0.279
t t t
E Y D X X + + +
( / 0) 16.22 0.279
t t
E Y D X +
de manera que la discriminacin por sexo se manifestara en el intercepto diferencial.
Proceso de clculo manual dada la matriz de varianzas, covarianzas y medias,
Y X D
Y 3.18 1.405 0.835
X 4.45 0.05
D 0.25
Medias
19.67 6.5 0.5
a) Estimacin,
1
1
2
1
2
4.45 0.05 1.405 0.279
0.05 0.25 0.835 3.284
yx x xd
b
yd dx d

_ _
_ _ _




, , ,
, ,


(X'X) X'Y

1 1 2
16.22 a Y b X b D
b) Ajuste,
( )
2
1.405
0.279 3.284
0.835 3.134
0.985
3.18 3.18
R
_

,
b'X'Y/Y'Y
c) Contraste de significatividad individual,
( ) [ ]
1
2 2
1 2
2
10 3.18 3.134 0.46
y
t y
y
s
d n s b b
s
1
_

1
1
,
]

Y'Y- b'X'X
2
/( 3) 0.46/ 7 0.066

n d'd
1
1
2
2 2 1 2 2
2
1
4.45 0.05
1
( ) ( )
0.05 0.25
4.45 0.05 .00135 .00027
0.066
0.05 0.25 .00027 .0241 10
u u u
x xd
D b
dx d n

_
_




,
,
_ _

, ,


X'X
por tanto,
1 2
( ) 0.00135 0.037, ( ) 0.0241 0.155 ee b ee b
H
0
:
1
= 0,
7
0.279
7.54
0.037
t
H
0
:
2
= 0,
7
3.284
21.19
0.155
t
d) Construccin de intervalos de confianza,
Ahora el valor crtico para el 95% es 2.365, de manera que,
1 1 1
2.365 0.279 2.3650.037 (0.191, 0.366)
b
b t t
2 2
2.3650.155 3.284 0.367 (2.917, 3.65) b t t
e) Contraste de significatividad global,
H
0
:
1
=
2
= 0
Puede hacerse a partir del coeficiente de determinacin, formando el estadstico,
2
1,
2
/ 1 0.985/ 2
229.8
(1 /( ) 0.015/ 7
k n k
R k
F
R n k



si buscamos las tablas de una F de Snedecor con 2 y 7 grados de libertad, observamos
que el valor crtico para el 95% es 4.74. Como el valor obtenido es muy superior al
tabulado, rechazamos la hiptesis nula.
El contraste puede llevarse a cabo tambin con
/( 1)
/( )
k
n k

b'X'Y
d'd
que se distribuye
igualmente como una F
2, 7
.
En la modelizacin es importante el nmero de variables ficticias a emplear. Ello
depende de los atributos o categoras de la variable cualitativa: si slo hay dos categoras se
emplear una nica variable ficticia, si tres categoras, dos y, en general, si hay n categoras, con
n-1 variables dummy. En caso contrario se incurre en multicolinealidad perfecta.

Vous aimerez peut-être aussi