Académique Documents
Professionnel Documents
Culture Documents
Regresin
Nuestro camino
63
64
65
universidades privadas muy prestigiosas del nordeste de EE. UU. (Brown, Columbia,
Cornell, Dartmouth College, Harvard, Pensilvania, Yale y Princeton). (N. de la T.)
2 Aqu se sigue el esquema de puntuacin de las pruebas de acceso a la universidad
de Estados Unidos (SAT) anterior al ao 2005, segn el cual en las notas finales se
suman los puntos obtenidos en matemticas y en expresin oral, cada una de las cuales
toma valores entre 0 y 800, de modo que el mximo combinado asciende a 1600.
66
Pero resulta que hay muchas otras cosas que influyen en los ingre-
sos, aparte del gnero, la universidad o la puntuacin obtenida en
las pruebas de acceso. Como las decisiones sobre a qu universidad
67
68
69
70
71
efectuarse con estos datos. Por ejemplo, cabe construir una media
ponderada que refleje el hecho de que el grupo B incluye dos estu-
diantes, mientras que el grupo A tiene tres. En este caso la media
ponderada se calculara como
( 3
5 )( 2
)
5.000 + 30.000 = 9.000.
5
72
73
Yi = + Pi + Ai + ei . (2.1)
quieren J-1 variables binarias para una descripcin completa de esos grupos. La
categora a la que no le corresponde ninguna variable binaria recibe el nombre de
grupo de referencia.
74
Yi = + Pi + Ai ,
ei = Yi Yi = Yi ( + Pi + Ai).
= 40.000
= 10.000
= 60.000.
75
76
8 Barrons clasifica las facultades en grupos segn el percentil en que caen las
77
150
en Yi = + Pi + jGROUP ji + 1SATi + 2 en PIi + ei (2.2)
j =1
78
9 Otros controles del modelo emprico incluyen variables binarias que marcan
segn gnero, raza, aptitudes deportivas, y estudiantes que obtuvieron el grado uni-
versitario dentro del 10% mejor de su clase. Estas variables no constan en la ecua-
cin (2.2).
79
Regresiones en accin
80
Notas: Esta tabla incluye la estimacin de los efectos que ejerce sobre los ingresos el hecho
de cursar estudios en centros universitarios privados. Cada columna muestra los coefi-
cientes de una regresin del logaritmo de los ingresos con variables binarias que marcan
si se estudi en un centro privado, as como varios controles. Los resultados de las colum-
nas (4)-(6) proceden de modelos que incluyen variables binarias para diversos grupos de
centros segn su nivel selectivo. El tamao de la muestra es de 5.583. Los errores tpicos
constan entre parntesis.
81
10 En EE. UU., los jvenes con dotes atlticas especiales suelen tener grandes fa-
cilidades para acceder a las universidades, tanto pblicas como privadas. (N. de la T.)
82
83
Notas: Esta tabla incluye la estimacin de los efectos que ejerce sobre los ingresos el hecho
de cursar estudios en centros universitarios privados. Cada columna muestra los coefi-
cientes de una regresin del logaritmo de los ingresos con variables binarias que marcan
si se estudi en un centro privado, as como varios controles. El tamao de la muestra es
14.238. Los errores tpicos constan entre parntesis.
84
Notas: Esta tabla incluye la estimacin de los efectos que ejerce sobre los ingresos el ca-
rcter ms o menos selectivo de la universidad. Cada columna muestra los coeficientes de
una regresin del logaritmo de los ingresos con la nota media de acceso del centro don-
de se cursan los estudios, as como varios controles. El tamao de la muestra es 14.238.
Los errores tpicos constan entre parntesis.
85
86
87
Yi = l + l Pi + Ai + e il . (2.3)
Yi = s + s Pi + Ai + e si .
88
que slo lo hizo la mitad de los integrantes del grupo B, con ingre-
sos inferiores. La diferencia de ingresos entre estudiantes de centros
pblicos y privados se debe en parte al hecho de que los estudiantes
del grupo A, en su mayora de centros privados, tienen ingresos su-
periores de todos modos, con independencia de esa circunstancia. Al
incluir una variable binaria que controla la pertenencia al grupo A en
la regresin larga se tiene en cuenta esta diferencia.
Como sugiere esta explicacin, la conexin formal entre los coefi-
cientes de las regresiones simple y larga tiene dos componentes:
Al reunir estas piezas se obtiene la frmula del SVO. Partimos del he-
cho de que
89
Ai = 0 + 1 Pi + ui ,
y que
90
Por qu la omisin del tamao de las familias puede sesgar las esti-
maciones por regresin del efecto de estudiar en centros privados?
Porque las diferencias de ingresos entre los graduados de Harvard
y de U-Mass provienen en parte de diferencias en cuanto a los ta-
maos de las familias entre los dos grupos (es decir, de la relacin
entre FSi y Pi) y del hecho de que las familias ms reducidas estn
correlacionadas con ingresos superiores, incluso despus de intro-
ducir las variables de control presentes en la regresin simple (este
es el efecto de FSi sobre la regresin larga, que incluye igualmente
todos los controles anteriores). La regresin larga tiene en cuenta
el hecho de que los estudiantes que acuden a Harvard proceden de
familias (en promedio) ms pequeas que las de los estudiantes que
fueron a U-Mass, mientras que la regresin simple que omite FSi no
lo tiene en cuenta.
91
en Yi = l + l Pi + jl GROUPji +
j
92
93
94
Variable dependiente
Notas: Esta tabla describe la relacin entre el hecho de cursar estudios en una univer-
sidad privada y las caractersticas personales. Las variables dependientes son la nota
obtenida en las pruebas de acceso a la universidad (dividida entre 100) en las colum-
nas (1)-(3) y el logaritmo de los ingresos de los padres en las columnas (4)-(6). Cada
columna muestra el coeficiente de una regresin de la variable dependiente sobre una
variable binaria que seala si se asisti o no a un centro privado, as como varios con-
troles. El tamao de la muestra es 14.238. Los errores tpicos constan entre parntesis.
95
96
el SVO asociado a los regresores accesibles proporciona una gua acerca del SVO
generado por los regresores de los que no se dispone. Vanse los detalles en su es-
tudio Selection on Observed and Unobserved Variables: Assesing the Efectiveness
of Catholic Schools, Journal of Political Economy, vol. 113, nmero 1, febrero de 2005,
pginas 151-184.
97
98
nal of the Anthropological Institute of Great Britain and Ireland, vol. 15, 1886, pginas
246-263.
16 George Udny Yule, An Investigation into the Causes of Changes in Pauper-
ism in England, Chiefly during the Last Two Intercensal Decades, Journal of the
Royal Statistical Society, vol. 62, nmero 2, enero de 1899, pginas 249-295.
17 Literalmente, casas de trabajo. (N. de la T.)
99
E[Yi|Xi = x],
100
7.2
7.0
Logaritmo de los ingresos semanales
6.8
6.6
6.4
6.2
6.0
5.8
0 2 4 6 8 10 12 14 16 18 20
Aos de formacin acadmica
101
Regresin y la FVEC
102
103
104
C(Yi , Xi)
b = = (2.7)
V(Xi)
= = E[(Yi] E[Yi].
Ajustes y residuos
Yi = Yi + ei .
105
K
ei = Yi Yi = Yi k Xki .
k=1
106
E[Yi|Zi = 0] =
E[Yi|Zi = 1] = + ,
de manera que
= E[Yi|Zi = 1] E[Yi|Zi = 0]
107
Las regresiones ms interesantes son las mltiples, es decir, las que in-
cluyen una variable causal de inters y una o ms variables de control.
Por ejemplo, la ecuacin (2.2) plantea una regresin del logaritmo de
los ingresos sobre una variable binaria que marca si se ha asistido o
no a una universidad privada, en un modelo que incorpora controles
para las aptitudes individuales, el contexto familiar y el nivel selectivo
de los centros en los que se solicita la admisin y en los que se logra el
acceso. Ya hemos explicado que el control de las variables explicativas
se parece al proceso de emparejamiento. Es decir, el coeficiente de
regresin de una variable binaria que indique el acceso a una univer-
sidad privada en un modelo que incluya controles es similar al que
se obtendra si distribuyramos a los estudiantes en celdas sobre la
base de esos mismos controles, comparramos a los estudiantes de
centros pblicos y privados dentro de esas celdas, y luego tomramos
el promedio del conjunto resultante de las comparaciones condicio-
nadas. A continuacin, ofrecemos una leccin de anatoma de la
regresin ms detallada.
Supongamos que la variable causal de inters es X 1i (podra ser
una variable binaria que indicase si se estudi o no en un centro
privado), y que la variable de control es X 2i (podra ser la nota en las
pruebas de acceso a la universidad). Tras cierto esfuerzo se puede lle-
gar a la expresin siguiente para el coeficiente de X 1i en una regresin
con X 2i como control:
~
C(Yi , X 1i)
1 =
~ ,
V(X u)
~
donde X 1i representa el residuo de la regresin de X 1i sobre X 2i :
~
X 1i = 0 + 1 X 2i + X 1i .
108
Anatoma de la regresin
~
C(Yi ,X ki)
k =
~ ,
V(X ki)
~
donde X ki es el residuo de una regresin de Xki sobre las otras K 1
variables explicativas incluidas en el modelo.
La anatoma de la regresin resulta especialmente reveladora
cuando los controles son variables binarias, como en la ecuacin
(2.2). Para los fines de esta explicacin podemos simplificar el mo-
delo de inters para que queden slo variables de control binarias,
es decir,
150
en Yi = + Pi + j GROUPji + ej . (2.9)
j =1
109
Yi = l + l X 1i + X 2i + e il .
110
Yi = s + s X 1i + e il .
s = l + 21 ,
111
s = l + 21, (2.12)
Modelos logartmicos
en Yi = + Pi + ei , (2.13)
112
E[en Yi|Pi] = + Pi .
en Y0i = + ei
en Y1i = + + ei .
Y1i
= en
Y0i ( Y1i Y0i
= en 1 +
Y0i )
= en(1 + %Yp)
%Yp ,
de modo que
113
Y1i Y0i
= exp() 1.
Y0i
< exp() 1,
114
c 1
SE(n) =
,
n c
6
Y
0
0 2 4 6 8 10
X
115
Igual que el error tpico de una media muestral, los errores tpicos
de una regresin decrecen cuando aumenta el tamao de la mues-
tra. Los errores tpicos crecen (es decir, las estimaciones de la regre-
sin resultan menos precisas) cuando los residuos presentan una va-
rianza grande. Esto no debe sorprender, porque una gran varianza
en los residuos significa que la regresin no da un buen ajuste. Por
otra parte, la variabilidad de los regresores es beneficiosa: cuando
se incrementa X se hace ms precisa la pendiente estimada. Esto se
aprecia en la figura 2.2, la cual revela que al aadir variabilidad a Xi
(en concreto, al aadir las observaciones representadas en gris) se
contribuye a realzar la pendiente que vincula Yi con Xi .
La frmula de la anatoma de la regresin para las regresiones
mltiples se puede trasladar a los errores tpicos. En un modelo mul-
tivariado como este:
k
Yi = + k Xki + ei ,
k=1
~
donde X~k es la desviacin tpica de X ki , el residuo de una regresin
de Xki sobre el resto de regresores. Aadir controles conlleva dos efec-
tos opuestos sobre SE(k). La varianza de los residuos (e en el nu-
merador de la frmula del error tpico) cae cuando se aaden a la
regresin variables explicativas para predecir Yi . Por el contrario, la
~
desviacin tpica de X ki en el denominador de la frmula del error
tpico es menor que la desviacin tpica de X ki , lo que incrementa el
error. El aadido de variables explicativas explica parte de la varia-
cin de otros regresores, y esta variacin se elimina en virtud de la
anatoma de la regresin. La interrelacin entre estos cambios hacia
arriba o hacia abajo puede conducir tanto a una mejora como a un
empeoramiento de la precisin.
Los errores tpicos que se calculan por medio de la ecuacin
(2.15) se consideran hoy da pasados de moda, y no se suelen mos-
trar en pblico. Esa frmula antigua da por supuesto que la varianza
de los residuos no guarda relacin con los regresores o, como dicen
los maestros, los residuos son homocedsticos. Cuando los residuos son
116
1 V(Xkiei)
RSE() =
. (2.16)
n (X2~ )2 k
~ ~
V(X kiei) = V(X ki)V(ei) = X2~k 2e .
117