Vous êtes sur la page 1sur 56

2

Regresin

Kwai Chang Caine: Al trabajador se lo conoce por sus herramientas.


La pala para el cavador. El hacha para el leador. El econometrista
usa regresiones.
Kung Fu, primera temporada, episodio 8

Nuestro camino

Cuando encontramos cortado el camino de la asignacin aleatoria,


buscamos rutas alternativas hacia el conocimiento causal. Si se esgri-
men con destreza, las armas economtricas distintas a la asignacin
aleatoria pueden tener una capacidad para revelar causas muy simi-
lar a la de un experimento real. La ms bsica de estas tcnicas es la
regresin, que compara sujetos de tratamiento y de control con las
mismas caractersticas observadas. Los conceptos de la regresin son
de carcter fundamental, y sirven de base a herramientas ms elabo-
radas que se describen en captulos posteriores. La inferencia causal
basada en la regresin parte del supuesto de que, una vez se han igua-
lado las variables observadas en los grupos de tratamiento y de con-
trol, entonces tambin queda eliminado en su mayor parte el sesgo
de seleccin debido a cosas que no podemos ver. Ilustramos esta idea
con una investigacin emprica del beneficio econmico que reporta
la formacin en centros privados de lite.

63

ECONOMETRIA.indd 63 04/05/16 13:06


Dominar la econometra

2.1 Historia de dos universidades

Los estudiantes que cursaban carreras de cuatro aos en centros


privados de Estados Unidos pagaron en promedio unos 29.000 dla-
res en concepto de matrcula y tasas en el ao acadmico 2012-2013.
Quienes acudieron a una universidad pblica en su estado natal pa-
garon menos de 9.000. Una educacin privada de lite podra ser
mejor por varias razones: grupos ms reducidos en cada clase, insta-
laciones deportivas ms nuevas, profesorado ms distinguido y estu-
diantes ms listos. Pero 20.000 dlares por ao acadmico suponen
una gran diferencia. Cabra preguntarse si vale la pena.
La cuestin de juntar manzanas con manzanas correspondera,
en este caso, a preguntarse cules seran los ingresos de un graduado
de cuarenta aos nacido en Massachusetts y graduado en Harvard si
hubiera cursado sus estudios en la Universidad de Massachusetts (U-
Mass). El dinero no lo es todo pero, como deca Groucho Marx: El
dinero te libra de hacer las cosas que no te gustan. Como a m no me
gusta hacer casi nada, el dinero me viene muy bien. As que cuando
nos preguntamos si vale la pena el gasto adicional que supone un cen-
tro privado, nos centramos en la posible mejora de ingresos que quiz
disfruten quienes estudiaron en universidades privadas de lite. Pue-
de haber otras razones, y no slo un aumento de ingresos, para pre-
ferir una institucin privada de lite en lugar de la universidad local
del estado. Muchos estudiantes universitarios conocen a sus futuros
cnyuges y forjan amistades para toda la vida en la facultad. Aun as,
cuando una familia invierte 100.000 dlares adicionales, o ms, en la
formacin del capital humano, parece verosmil que las expectativas
de unos mayores ingresos en el futuro formen parte del asunto.
La comparacin de ingresos entre quienes asistieron a universida-
des de distintos tipos siempre revela grandes diferencias en favor del
alumnado de centros de lite. Aunque, pensndolo bien, es fcil ver
por qu es poco probable que la comparacin de los ingresos de quie-
nes estudiaron en Harvard con los de quienes lo hicieron en U-Mass
revele las ventajas de tener un ttulo de Harvard. La comparacin
refleja que los titulados de Harvard suelen tener calificaciones ms al-
tas en secundaria y notas mejores en las pruebas de admisin, suelen
estar ms motivados y quiz cuenten con otras habilidades y talentos.
No pretendemos ofender a los muchsimos buenos estudiantes que

64

ECONOMETRIA.indd 64 04/05/16 13:06


Regresin

acuden a U-Mass, pero es endiabladamente difcil entrar en Harvard,


y quienes lo logran conforman un grupo especial y selecto. En con-
traste, U-Mass acepta, e incluso subvenciona, a casi cualquier solici-
tante de Massachusetts que haya sacado unas notas decentes en la
enseanza media. Por lo tanto, cabra esperar que la comparacin de
ingresos entre titulados de estas universidades estuviera contamina-
da por un sesgo de seleccin, como las comparaciones entre tipos de
seguro mdico que tratamos en el captulo anterior. Tambin hemos
visto que este tipo de sesgos de seleccin se elimina con la asignacin
aleatoria. Pero, por desgracia, las oficinas de Harvard an no estn
preparadas para cambiar sus criterios de admisin por un generador
de nmeros aleatorios.
La trascendencia de la eleccin de universidad deber esclarecer-
se recurriendo a los datos que generan las decisiones habituales en el
proceso de solicitud, admisin y matriculacin tomadas por estudian-
tes y universidades de varios tipos. Cabe emplear estos datos para
simular el experimento aleatorio que nos habra gustado ejecutar en
este contexto? No de manera perfecta, sin duda, pero quiz podamos
acercarnos. La clave de este desafo radica en que muchas decisiones,
incluidas las que tienen que ver con la eleccin de facultad, incorpo-
ran cierta cantidad de variacin debida al azar causada por conside-
raciones econmicas, circunstancias personales y tiempo.
El azar se puede explotar si se identifica una muestra de solicitantes
situados al filo de la navaja, que fcilmente podran haber cado tanto a
un lado como al otro. Hay algn caso de estudiante admitido en Har-
vard pero que al final terminara acudiendo a su universidad estatal lo-
cal? A nuestra amiga y antigua estudiante de doctorado del MIT Nan-
cy, le ocurri justo eso. Nancy se cri en Tejas, as que su universidad
estatal era la Universidad de Tejas (UT). El buque insignia de la UT, el
campus de Austin, aparece catalogado como muy competitivo en la
clasificacin de Barrons, pero no es Harvard. Sin embargo, la UT es
mucho ms barata que Harvard (la revista The Princeton Review calific
el campus de la UT en Austin como el mejor en cuanto a relacin cali-
dad-precio). A Nancy la admitieron tanto en Harvard como en la UT,
pero acab eligiendo la UT porque su oficina de admisiones, ansiosa
por mejorar la media de las notas de ingreso en el campus, ofreci a
Nancy y a otros cuantos solicitantes destacados un paquete de ayudas
econmicas especialmente generoso, lo que Nancy acept encantada.

65

ECONOMETRIA.indd 65 04/05/16 13:06


Dominar la econometra

Qu consecuencias tuvo para Nancy la decisin de aceptar la


oferta de la UT y rechazar la de Harvard? Las cosas le han ido bas-
tante bien a pesar de haber elegido la UT en lugar de Harvard: hoy
es profesora de economa en otra universidad de la Ivy League1 en
Nueva Inglaterra. Pero esto es una nica observacin. Bueno, en rea-
lidad tenemos dos observaciones, porque nuestra amiga Mandy se
gradu en la Universidad de Virginia, su estado de origen, tras recha-
zar ofertas de Duke, Harvard, Princeton y Stanford. Ahora Mandy es
profesora en Harvard.
Un tamao de muestra igual a dos es demasiado poco para ex-
traer una inferencia causal fiable. Nos gustara comparar a muchas
personas como Mandy y Nancy con otras parecidas, pero que eligie-
ron las universidades privadas. Cabe la esperanza de obtener conclu-
siones de validez general a partir de comparaciones entre grupos ma-
yores. Pero el acceso a una muestra grande no basta. El paso primero
y ms importante en nuestro esfuerzo por aislar la componente que
es fruto del azar en la eleccin de universidad consistira en mantener
constantes las diferencias ms evidentes e importantes entre los estu-
diantes que acuden a universidades pblicas y los que acuden a las
privadas. De este modo aspiramos (aunque no lo podemos prometer)
a que el resto permanezca igual.
Veamos un ejemplo numrico que recurre a una muestra peque-
a para ilustrar el concepto de ceteris paribus (usaremos ms datos
cuando llegue el momento de hacer el trabajo emprico real). Su-
pongamos que las dos nicas circunstancias relevantes en la vida, al
menos en lo que respecta al nivel de ingresos, fueran las notas en los
exmenes de acceso a la universidad y en qu universidad se cursan
los estudios. Pensemos en Uma y Harvey, ambos con la misma califi-
cacin combinada en matemticas y lectura de 1400 en las pruebas
de acceso a la universidad.2 Uma fue a la U-Mass, mientras que Har-
vey acudi a Harvard. Comparemos en primer lugar los ingresos de
Uma y Harvey. Como hemos supuesto que lo nico que importa al

1 Ivy League es el nombre informal con que se conoce a un conjunto de ocho

universidades privadas muy prestigiosas del nordeste de EE. UU. (Brown, Columbia,
Cornell, Dartmouth College, Harvard, Pensilvania, Yale y Princeton). (N. de la T.)
2 Aqu se sigue el esquema de puntuacin de las pruebas de acceso a la universidad

de Estados Unidos (SAT) anterior al ao 2005, segn el cual en las notas finales se
suman los puntos obtenidos en matemticas y en expresin oral, cada una de las cuales
toma valores entre 0 y 800, de modo que el mximo combinado asciende a 1600.

66

ECONOMETRIA.indd 66 04/05/16 13:06


Regresin

respecto es, aparte de la universidad elegida, la puntuacin final en


las pruebas de acceso, la comparacin de Uma con Harvey se produce
en condiciones ceteris paribus.
En la prctica, por supuesto, la vida es ms complicada. Este
ejemplo sencillo ya plantea una dificultad notable: Uma es una mu-
jer, mientras que Harvey es un hombre. Las mujeres con un mismo
nivel de estudios que los hombres suelen ganar menos dinero que
stos, quiz por discriminacin o debido al tiempo que pasan fuera
del mercado laboral para tener hijos. El hecho de que Harvey gane
un 20% ms que Uma podra deberse al efecto de una formacin
mejor en Harvard, pero tambin podra reflejar una diferencia en-
tre hombres y mujeres debida a otros motivos.
Nos gustara desenredar el efecto Harvard, puro, de entre todos
esos otros motivos. Sera fcil si lo nico relevante fuera el gnero: se
sustituye a Harvey por una estudiante femenina de Harvard, Hanna,
que tambin haya sacado 1400 en las pruebas de acceso a la univer-
sidad, y se la compara con Uma. Al final, y dado que perseguimos
conclusiones generales que van ms all de las historias individuales,
buscamos muchas ms parejas formadas por estudiantes de las dos
universidades y que cumplan el criterio de ser iguales en cuanto a g-
nero y nota de acceso. Es decir, calculamos la media de la diferencia
de ingresos entre estudiantes de Harvard y de U-Mass con gneros y
notas de acceso iguales. La media de estas diferencias especficas del
grupo Harvard frente a U-Mass constituyen nuestra primera accin
para intentar estimar el efecto causal de la formacin en Harvard.
Este es un estimador economtrico apareado que controla (es decir,
mantiene fijos) el gnero y la nota de acceso. Si se acepta que todos
los estudiantes que acuden a Harvard y a U-Mass tienen el mismo
potencial de ingresos, condicionado por el gnero y la nota de acceso,
entonces este estimador capta el efecto causal promedio que ejerce
sobre los ingresos el hecho de graduarse en Harvard.

El emparejador que las empareje

Pero resulta que hay muchas otras cosas que influyen en los ingre-
sos, aparte del gnero, la universidad o la puntuacin obtenida en
las pruebas de acceso. Como las decisiones sobre a qu universidad

67

ECONOMETRIA.indd 67 04/05/16 13:06


Dominar la econometra

acudir no se adoptan de manera aleatoria, hay que controlar todos


los factores que determinan tanto la eleccin de universidad como los
ingresos posteriores. Entre estos factores se cuentan ciertas caracte-
rsticas del estudiante, como la destreza para expresarse por escrito,
la diligencia, las relaciones familiares, y ms. Intentar el control de
un abanico tan amplio de factores parece una tarea desalentadora:
las posibilidades son infinitas, y muchas de las caractersticas resultan
difciles de cuantificar. Pero Stacy Berg Dale y Alan Krueger dieron
con un atajo ingenioso y fascinante.3 En lugar de identificar todo lo
que podra influir en la eleccin de universidad y en los ingresos,
trabajan con una medida conjunta clave: las caractersticas de las
universidades en las que los estudiantes presentaron las solicitudes y
fueron admitidos.
Consideremos de nuevo la historia de Uma y Harvey: ambos
presentaron solicitud y fueron admitidos tanto en U-Mass como en
Harvard. El hecho de que Uma pidiera Harvard indica que tena al-
guna motivacin para ir all, mientras que su admisin significa que
tena las capacidades necesarias para triunfar all, como Harvey.
Al menos eso es lo que piensa la oficina de admisiones de Harvard,
y no es fcil engaarlos.4 Sin embargo, Uma opta por formarse en
U-Mass, por ser ms barata. Su eleccin podra deberse a factores
que no estn relacionados con su potencial de ingresos, como tener
un to muy exitoso que hubiera estudiado en U-Mass, que uno de
sus mejores amigos eligiera U-Mass, o a que se le pasara el plazo
para solicitar una beca del Rotary Club que habra conseguido con
facilidad y que le habra costeado los estudios en una universidad
de la Ivy League, ms cara. Si sucesos azarosos de este estilo fueron
decisivos tanto para Uma como para Harvey, entonces los dos for-
man una buena pareja.

3 Stacy Berg Dale y Alan B. Krueger, Estimating the Payoff to Attending a

More Selective College: An Application of Selection on Observables and Unob-


servables, Quarterly Journal of Economics, vol. 117, nmero 4, noviembre de 2002,
pginas 1491-1527.
4Lo que no quiere decir que sea imposible. Adam Wheeler logr acceder a

Harvard de manera ilcita con expedientes y calificaciones manipulados en 2007.


A pesar del engao, las calificaciones que obtena Adam en Harvard eran sobre
todo notables y sobresalientes hasta que se descubri la trampa (John R. Ellement
y Tracy Jan, ExHarvard Student Accused of Living a Lie, The Boston Globe, 18 de
mayo de 2010).

68

ECONOMETRIA.indd 68 04/05/16 13:06


Regresin

Dale y Krueger analizaron un gran conjunto de datos denomi-


nado Universidad y Ms All (College and Beyond, C&B). Los datos
C&B contienen informacin sobre miles de estudiantes que ingre-
saron en un conjunto de universidades de Estados Unidos con una
poltica de seleccin entre moderada y alta, junto con informacin
contextual aportada por los propios estudiantes al pasar las pruebas
de acceso (lo que sucede alrededor de un ao antes de entrar en la
universidad) e informacin recogida en 1996 (mucho despus de
que la mayora hubiera obtenido ya sus ttulos acadmicos). Nuestro
anlisis se centra en los estudiantes que ingresaron en 1976 y que
estaban trabajando en 1995 (la mayora de los graduados universita-
rios adultos tiene trabajo). Entre los centros de estudios se cuentan
universidades privadas prestigiosas, como la Universidad de Pensil-
vania, Princeton o Yale; un conjunto de universidades privadas ms
pequeas, como Swarthmore, Williams u Oberlin, y cuatro univer-
sidades pblicas (Michigan, la Universidad de Carolina del Norte,
Penn State y la Universidad Miami en Ohio). La puntuacin media
(1978) en las pruebas de acceso a la universidad en estos centros va
desde un mnimo de 1020 en Tulane hasta un mximo de 1370 en
Bryn Mawr. Los costes de matriculacin en 1976 ascendan a tan
slo 540 dlares en la Universidad de Carolina del Norte, y la con-
siderable cifra de 3.850 dlares en Tufts (as estaban las cosas por
entonces).
La tabla 2.1 presenta una versin simplificada de la estrategia de
emparejamiento de Dale y Krueger, expuesta en lo que llamamos
matriz universitaria de emparejamiento. La tabla consigna decisio-
nes de solicitud, admisin y matriculacin para una lista (ficticia) de
nueve estudiantes, cada uno de los cuales solicit el ingreso en hasta
tres centros elegidos de una lista imaginaria de seis. Tres de estos cen-
tros son pblicos (Omnipolis, Altpolis y Otrpolis) y tres privados
(Treposa, Foliosa y Astutosa). Cinco de nuestros nueve estudiantes
(nmeros 1, 2, 4, 6 y 7) acudieron a centros privados. Los ingresos
anuales medios de este grupo ascienden a 92.000 dlares. Los otros
cuatro, con ingresos medios de 72.500, estudiaron en centros pbli-
cos. La diferencia de casi 20.000 dlares entre estos dos grupos pa-
rece indicar que acudir a una universidad privada proporciona una
ventaja considerable.

69

ECONOMETRIA.indd 69 04/05/16 13:06


Dominar la econometra

Tabla 2.1. Matriz universitaria de emparejamiento

Centros privados Centros pblicos


Grupo de Estudiante Treposa Foliosa Astutosa Omnipolis Altpolis Alterpolis Ingresos
solicitantes en 1996
A 1 Rechazo Admisin Admisin 110,000
2 Rechazo Admisin Admisin 100,000
3 Rechazo Admisin Admisin 110,000
B 4 Admisin Admisin Admisin 60,000
5 Admisin Admisin Admisin 30,000
C 6 Admisin 115,000
7 Admisin 75,000
D 8 Rechazo Admisin Admisin 90,000
9 Admisin Admisin Admisin 60,000

Nota: Las decisiones de ingreso se resaltan en gris.

Los estudiantes de la tabla 2.1 se distribuyen en cuatro grupos defini-


dos por el conjunto de centros que solicitaron y en los que resultaron
admitidos. Cabe esperar que los estudiantes incluidos en cada grupo
tengan ambiciones similares en cuanto a carrera profesional, y que
hayan sido considerados de capacidades semejantes por el personal
encargado de la admisin en los centros solicitados. De este modo, las
comparaciones dentro de los grupos deberan acercarse ms a juntar
manzanas con manzanas que las comparaciones no controladas que
mezclan a todos los estudiantes.
Los estudiantes del grupo A pidieron el ingreso en dos centros pri-
vados, Foliosa y Astutosa, y en uno pblico, Altpolis. Aunque estos
estudiantes fueran rechazados en Foliosa, lograron la admisin tanto
en Astutosa como en Altpolis. Los estudiantes 1 y 2 acudieron a As-
tutosa, mientras que el 3 eligi Altpolis. Los estudiantes del grupo A
tienen ingresos elevados y es probable que procedan de familias de
clase media alta (como lo indica el hecho de que pidieran el ingreso
en ms universidades privadas que pblicas). El estudiante 3, aunque
fue admitido en Astutosa, prefiri la opcin de Altpolis, ms barata,
quiz para ahorrar dinero a su familia (como nuestras amigas Nancy
y Mandy). Aunque a los estudiantes del grupo A les vaya bastante
bien, con ingresos medios elevados y una proporcin alta de estudios
cursados en centros privados, el diferencial de la escuela privada es

70

ECONOMETRIA.indd 70 04/05/16 13:06


Regresin

negativo en este colectivo: (110 + 100)/2 110 = 5. En otras palabras,


un salto de 5.000 dlares.
Este cotejo dentro del grupo A no es ms que una de las muchas
comparaciones que pueden establecerse a travs de emparejamientos
en la tabla. El grupo B incluye dos estudiantes, cada uno de los cuales
solicit el ingreso en una universidad privada y en dos pblicas (Tre-
posa, Omnipolis y Alterpolis). Los estudiantes del grupo B obtie-
nen ingresos medios inferiores a los del A. Ambos lograron la admi-
sin en las tres universidades que solicitaron. El nmero 4 ingres en
Treposa, mientras que el nmero 5 prefiri Alterpolis. El diferencial
de ingresos aqu asciende a 30.000 dlares (60 30 = 30). Esta brecha
sugiere una ventaja muy sustancial debida a la educacin privada.
El grupo C incluye dos estudiantes que presentaron la solicitud
en un solo centro (Foliosa), donde fueron admitidos y donde se ma-
tricularon. Los ingresos del grupo C no nos dicen nada acerca de
las consecuencias de asistir a un centro privado, porque ambos estu-
diantes acudieron a una universidad privada. Los dos estudiantes del
grupo D presentaron solicitudes en tres centros, fueron admitidos en
dos y finalmente eligieron opciones distintas. Pero estos estudiantes
se matricularon en Omnipolis y Altpolis, ambas universidades p-
blicas, as que sus ingresos tampoco esclarecen el peso de la ensean-
za privada. Los grupos C y D no aportan informacin porque, desde
el punto de vista de nuestro afn por estimar el efecto del tratamiento
universidad privada, cada uno de ellos se compone, o bien de indi-
viduos todos ellos sujetos al tratamiento, o bien de individuos todos
ellos del grupo de control.
En nuestro ejemplo el inters se centra en los grupos A y B, por-
que ambos incluyen sujetos que cursaron estudios en escuelas p-
blicas y en escuelas privadas, y que solicitaron el ingreso y fueron
admitidos en el mismo conjunto de centros. Para construir un nico
estimador que emplee todos los datos disponibles procedemos a pro-
mediar los estimadores especficos de cada grupo. El promedio de
5.000 (del grupo A) y 30.000 (del grupo B) es 12.500. He aqu una
buena estimacin del efecto que ejerce acudir a un centro privado
sobre los ingresos medios porque, en gran medida, controla tanto las
decisiones como las capacidades de los solicitantes.
La media simple de las diferencias tratamiento-control en los gru-
pos A y B no es la nica comparacin bien controlada que puede

71

ECONOMETRIA.indd 71 04/05/16 13:06


Dominar la econometra

efectuarse con estos datos. Por ejemplo, cabe construir una media
ponderada que refleje el hecho de que el grupo B incluye dos estu-
diantes, mientras que el grupo A tiene tres. En este caso la media
ponderada se calculara como

( 3
5 )( 2
)
5.000 + 30.000 = 9.000.
5

Al dar ms peso a los grupos grandes, el sistema de ponderacin em-


pleado hace un uso ms eficiente de los datos, lo que podra conducir
a una sntesis estadstica ms precisa en lo que respecta al diferencial
de ingresos pblico-privado.
El aspecto ms importante en este contexto reside en la naturaleza
de las comparaciones, que siguen el principio de colocar las manza-
nas con las manzanas, y las naranjas con las naranjas. Las manzanas
del grupo A se comparan con otras manzanas del grupo A, mien-
tras que las naranjas del grupo B se comparan slo con naranjas. En
contraste, las comparaciones simplonas que se limitan a poner a los
alumnos de instituciones privadas frente a los de las pblicas arrojan
una diferencia mucho mayor, de 19.500 dlares, al incluir a todos
los alumnos de la tabla. Incluso si se limita a los cinco estudiantes
de los grupos A y B, una comparacin no controlada conduce a un
salto de 20.000 dlares (20 = (110 + 100 + 60)/3 (110 + 30)/2). Estas
comparaciones mayores y sin control reflejan un sesgo de seleccin:
los estudiantes que solicitan los centros privados y que son admitidos
en ellos tienen ingresos mayores con independencia de dnde deci-
dan finalmente estudiar.
Los indicios de sesgos de seleccin surgen al comparar los ingre-
sos medios entre los grupos A y B (y no dentro de ellos). Los ingresos
medios del grupo A, donde dos tercios solicitaron centros privados,
estn en torno a 107.000 dlares. Los ingresos medios del grupo B,
donde dos tercios solicitaron centros pblicos, ascienden a tan slo
45.000. Nuestras comparaciones dentro de cada grupo ponen de ma-
nifiesto que gran parte de esta diferencia carece de relacin con el
tipo de universidad a la que acudieron. Las diferencias entre grupos
se explican ms bien por una combinacin de ambiciones y capacida-
des, como traslucen las decisiones sobre solicitudes y el conjunto de
centros donde los alumnos fueron admitidos.

72

ECONOMETRIA.indd 72 04/05/16 13:06


Regresin

2.2 Emparjame y hazme una regresin

La regresin es la herramienta preferida de los maestros, aunque slo


sea como punto de partida para aplicar, luego, estrategias empricas
ms elaboradas. Aunque la regresin tiene esplendorosas virtudes,
conviene contemplarla como una herramienta de emparejamiento
automtico. En concreto, la regresin brinda estimaciones que son
promedios ponderados de mltiples comparaciones similares a las
que construimos para los grupos de nuestra elemental matriz de em-
parejamientos (el apndice de este captulo trata una conexin estre-
cha entre la regresin y el valor esperado).
Los ingredientes fundamentales de la receta para la regresin son:

la variable dependiente, en este caso los ingresos del estudiante i en


su vida posterior, tambin llamada la variable resultado (deno-
tada como Yi);
la variable de tratamiento, en este caso una variable binaria que
seala si los estudiantes acudieron a una universidad privada o
a una pblica (denotada como Pi), y
un conjunto de variables de control, en este caso variables que
identifican conjuntos de centros en los que los estudiantes pre-
sentan sus solicitudes y son admitidos o no.

73

ECONOMETRIA.indd 73 04/05/16 13:06


Dominar la econometra

En nuestra matriz de emparejamientos los cinco estudiantes de


los grupos A y B (tabla 2.1) aportan datos tiles, mientras que los
estudiantes de los grupos C y D se pueden descartar. En un conjun-
to de datos que contenga los que permanecen tras el descarte de los
grupos C y D, basta una sola variable que seale a los estudiantes del
grupo A para indicarnos a cul de los grupos restantes pertenecen
los estudiantes, porque los que no estn en A pertenecern nece-
sariamente a B. Esta variable, a la que llamaremos Ai , ser nuestro
nico control. Obsrvese que tanto Pi como Ai son variables bina-
rias (dummy), es decir, cuando valen 1 indican que las observaciones
pertenecen a un cierto grupo o condicin, y lo contrario cuando
valen 0. Las variables binarias clasifican los datos en categoras sim-
ples del tipo s/no. Aun as, si se crean muchas variables de este tipo
se puede conseguir un conjunto de variables de control tan detalla-
do como se desee. 5
En este contexto un modelo de regresin es una ecuacin que
relaciona la variable de tratamiento con la variable dependiente,
manteniendo las variables de control fijas al incluirlas en el modelo.
Con slo una variable de control, Ai , la regresin de inters podra
escribirse como

Yi = + Pi + Ai + ei . (2.1)

La diferencia entre la variable de tratamiento, Pi , y la variable de con-


trol, Ai , en la ecuacin (2.1) es conceptual, no formal: no hay nada en
la ecuacin (2.1) que indique cul es cul. Es la pregunta objeto de
investigacin y la estrategia emprica las que justifican la clasificacin
de las variables y determinan qu funciones desempean.
Como en el captulo anterior, tambin aqu designamos con letras
griegas los parmetros, para as distinguirlos de las variables del mode-
lo. Los parmetros de la regresin (llamados coeficientes de regresin) son

la ordenada en el origen, (alfa);


el efecto causal del tratamiento, (beta), y
el efecto de pertenecer al grupo A, (gamma).

5 Cuando los datos pertenecen a uno de un total de J grupos, entonces se re-

quieren J-1 variables binarias para una descripcin completa de esos grupos. La
categora a la que no le corresponde ninguna variable binaria recibe el nombre de
grupo de referencia.

74

ECONOMETRIA.indd 74 04/05/16 13:06


Regresin

El ltimo trmino de la ecuacin (2.1) es el residuo, ei (tambin


llamado trmino de error). Los residuos se definen como la diferencia
entre los Yi observados y los valores estimados que genera el modelo
de regresin concreto que se emplee. Estos valores estimados se es-
criben como

Yi = + Pi + Ai ,

y los residuos correspondientes vienen dados por

ei = Yi Yi = Yi ( + Pi + Ai).

El anlisis de regresin asigna valores a los parmetros del modelo


(, y ), de manera que las i sean tan parecidas a las Yi como sea
posible. Esto se logra eligiendo valores que minimicen la suma de
los cuadrados de los residuos, lo que conduce al apelativo de mnimos
cuadrados ordinarios (MCO) para las estimaciones resultantes.6 Cuan-
do se ejecuta esta minimizacin en una muestra concreta se dice
que se procede a la estimacin de los parmetros de la regresin. En
ocasiones se dice que los maestros de la econometra que estiman
modelos de regresin a diario se dedican a hacer regresiones, aun-
que muchas veces parece que son las regresiones las que nos hacen a
nosotros, y no al contrario. El apndice de este captulo bosqueja los
aspectos formales de la estimacin por regresin y la teora estadsti-
ca subyacente.
Al hacer la regresin (2.1) sobre los datos de los cinco estudiantes
de los grupos A y B se obtienen las estimaciones siguientes (estas es-
timaciones pueden realizarse con una calculadora de bolsillo, pero
en el trabajo emprico real se utilizan programas profesionales de
regresin):

= 40.000
= 10.000
= 60.000.

6 Aqu el adjetivo ordinarios se refiere a que el procedimiento asigna el mismo

peso a la hora de efectuar la suma de los cuadrados. La estimacin por medio de


mnimos cuadrados ponderados se trata en el captulo 5.

75

ECONOMETRIA.indd 75 04/05/16 13:06


Dominar la econometra

El coeficiente de centros privados es en este caso 10.000, lo que


implica un diferencial de ingresos privado-pblico de 10.000 dlares.
Esta cantidad es en realidad un promedio ponderado de los dos efec-
tos especficos de grupo (recordemos que el efecto en el grupo A es
de 5.000 y en el grupo B de 30.000). El resultado no es ni la media
simple (12.500), ni la media ponderada segn el tamao de los gru-
pos (9.000), pero no cae demasiado lejos de ninguna de las dos. En
este caso la regresin asigna un peso de 4/7 al grupo A y otro de 3/7
al B. Como en el caso de las otras medias ponderadas, el promedio
ponderado que da la regresin es bastante inferior a la diferencia
de ingresos que dara la comparacin sin controlar entre alumnos de
escuelas privadas y pblicas.7
La estimacin por medio de regresin (y los correspondientes erro-
res tpicos para calcular la varianza muestral) se efecta de manera in-
mediata mediante computadoras y programas economtricos. La sim-
plicidad computacional y la interpretacin conceptual de las estima-
ciones por regresin como un promedio ponderado de las diferencias
dentro de cada grupo son dos de las razones por las que recurrimos a
esta herramienta. La regresin tiene otras dos cualidades que la hacen
atractiva. Primero, es costumbre entre los maestros aportar estimacio-
nes por regresin en cualquier investigacin economtrica sobre efec-
tos causales, incluidas las que involucren variables de tratamiento que
adopten ms de dos valores. La estimacin por regresin proporciona
una base simple sobre la que se pueden aplicar tcnicas ms refinadas.
En segundo lugar, en ciertas circunstancias las estimaciones por re-
gresin son efectivas en el sentido de que proporcionan las estimacio-
nes estadsticas de los efectos causales promedio ms precisas a las que
se puede aspirar a partir de una determinada muestra. Este aspecto
tcnico se trata brevemente en el apndice de este captulo.

Lo pblico y lo privado cara a cara

El banco de datos C&B incluye ms de 14.000 antiguos estudiantes.


Estos estudiantes fueron admitidos y rechazados en muchas combi-

7 En nuestro libro Mostly Harmless Econometrics (Econometra casi inocua, Princeton

University Press, 2009) tratamos en ms detalle los sistemas de pesos en regresiones.

76

ECONOMETRIA.indd 76 04/05/16 13:06


Regresin

naciones diferentes de universidades (C&B peda los nombres de al


menos tres centros que los estudiantes hubieran considerado seria-
mente, aparte de aqul en el que estudiaron). Muchos de los conjun-
tos posibles de solicitud/admisin en estos datos estn representados
por un solo estudiante. Adems, muchos conjuntos con ms de un
estudiante estn formados por centros que son todos ellos, o bien
pblicos, o bien privados. Como en los grupos C y D de la tabla 2.1,
estos grupos totalmente homogneos no arrojan luz sobre el valor de
la formacin en centros privados.
Se puede aumentar el nmero de comparaciones tiles si se con-
sideran equivalentes centros que sean igual de selectivos en cuanto
a criterios de acceso, en lugar de insistir en que se trate exactamen-
te de los mismos centros. Con el fin de agrandar los grupos que se
obtienen de esta manera, consideraremos comparables dos centros
si caen dentro de la misma categora selectiva de Barrons.8 Volvien-
do a nuestra matriz de emparejamiento simplificada, supongamos
que Omnipolis y Altpolis estuvieran en la categora competiti-
va, Alterpolis y Astutosa en altamente competitiva, y que Tre-
posa y Foliosa fueran de las ms competitivas. Segn el escalafn
de Barrons, toda persona que solicitara ingresar en Altpolis, As-
tutpolis y Foliosa, y fuera admitida en Altpolis y Astutosa, se po-
dra comparar con un estudiante que pidiera Omnipolis, Astutosa
y Treposa, pero que resultara admitido en Omnipolis y Astutosa.
Los estudiantes de ambos grupos solicitaron ingreso en una univer-
sidad competitiva, una altamente competitiva y una de las ms
competitivas, y fueron admitidos en una competitiva y en otra
altamente competitiva.
Los datos C&B permiten emparejar de este modo a 9.202 estu-
diantes. Pero como lo que nos interesa es la comparacin entre cen-
tros pblicos y privados, nuestra muestra construida a partir de los
criterios de Barrons debe restringirse a grupos concordes que con-
tengan estudiantes de centros de los dos tipos. Esto deja 5.583 estu-
diantes emparejados para el anlisis, distribuidos entre 151 grupos de

8 Barrons clasifica las facultades en grupos segn el percentil en que caen las

calificaciones de los estudiantes matriculados, y en funcin de la proporcin de


admisiones frente a solicitudes. Los grupos son: de las ms competitivas, alta-
mente competitiva, muy competitiva, competitiva, menos competitiva y no
competitiva.

77

ECONOMETRIA.indd 77 04/05/16 13:06


Dominar la econometra

semejanza por su grado de selectividad que contienen alumnado de


universidades tanto pblicas como privadas.
Nuestro modelo operativo de regresin para la muestra construi-
da a partir de los criterios de Barrons difiere en varios aspectos de
la regresin mostrada en la ecuacin (2.1), empleada para analizar la
matriz de emparejamiento de la tabla 2.1. En primer lugar, el mo-
delo operativo coloca en el primer miembro el logaritmo natural
de los ingresos, en lugar de usar los ingresos directamente. Como
se explica en el apndice de este captulo, usar una variable depen-
diente de carcter logartmico permite interpretar las estimaciones
de la regresin como cambios porcentuales. Por ejemplo, si se esti-
ma para un valor 0,05, entonces los alumnos de escuelas privadas
ganan aproximadamente un 5% ms que los de escuelas pblicas,
resultado condicionado a los controles que se hayan incluido en el
modelo.
Otra diferencia importante entre nuestro modelo emprico y el
ejemplo de la tabla 2.1 consiste en que ahora incluimos ms varia-
bles de control, mientras que en el ejemplo slo consta la variable
binaria Ai , que identifica a los estudiantes del grupo A. Los controles
clave en el modelo actual son un conjunto de muchas variables bina-
rias que identifican todos los emparejamientos segn los criterios de
Barrons representados en la muestra (dejando fuera un grupo, como
categora de referencia). Estos controles representan la selectividad
relativa de las universidades solicitadas por los estudiantes, y las de
los centros que los admitieron que, en el mundo real, representan
muchas combinaciones de centros. El modelo de regresin resultante
tiene esta pinta:

150
en Yi = + Pi + jGROUP ji + 1SATi + 2 en PIi + ei (2.2)
j =1

El parmetro de este modelo sigue representando el efecto del


tratamiento de inters, una estimacin del efecto causal de estudiar
en un centro privado. Pero este modelo contiene 151 grupos de con-
trol, en lugar de los dos presentes en el ejemplo. Los parmetros j ,
para j = 1,,150, son los coeficientes de las variables binarias de los
150 grupos de seleccin, denotadas como GROUPji .
Vale la pena analizar algo ms la notacin de la ecuacin (2.2),

78

ECONOMETRIA.indd 78 04/05/16 13:06


Regresin

porque volveremos a utilizarla ms adelante. La variable binaria


GROUPji vale 1 cuando el estudiante i pertenece al grupo j, y vale 0
en los dems casos. Por ejemplo, la primera variable binaria, deno-
tada como GROUP 1i , podra identificar a los estudiantes que solicita-
ron el ingreso y fueron admitidos en dos universidades altamente
competitivas. La segunda, GROUP 2i , podra identificar a los sujetos
que solicitaron dos facultades de la categora altamente competiti-
va y una de las ms competitivas, pero fueron admitidos en una
de cada clase. No es relevante el orden en el que se codifican las
categoras, mientras haya una variable binaria para cada combina-
cin posible, omitiendo siempre un grupo como referencia. Aunque
hayamos pasado de una variable binaria a 150, la idea es la misma
de antes: controlar los conjuntos de centros de solicitud y admisin
nos hace avanzar un paso gigantesco en pos de la comparacin en
condiciones ceteris paribus entre estudiantes de universidades pbli-
cas y privadas.
Se aaden dos variables de control adicionales como modificacin
final con fines operativos: la puntuacin individual en las pruebas
de acceso a la universidad (SATi) y el logaritmo de los ingresos de sus
padres (PIi), aparte de otras variables diversas cuya explicacin rele-
gamos a una nota al pie.9 Los controles de la calificacin individual
en las pruebas de acceso y del logaritmo de los ingresos paternos
aparecen en el modelo como los coeficientes 1 y 2 (lanse delta-1
y delta-2), respectivamente. Este tipo de controles sirven como me-
didas directas de las aptitudes individuales (notas de acceso) y del
contexto familiar (ingresos de los padres), y pueden ayudar a que la
comparacin entre centros pblicos y privados junte manzanas con
manzanas y naranjas con naranjas mejor de lo que lo hara si no se
introdujeran. A la vez, dependiendo de cmo funcionen las variables
binarias que marcan los distintos grupos, podra ocurrir que algunos
de estos controles no fueran necesarios, un aspecto que se tratar en
detalle ms adelante.

9 Otros controles del modelo emprico incluyen variables binarias que marcan

segn gnero, raza, aptitudes deportivas, y estudiantes que obtuvieron el grado uni-
versitario dentro del 10% mejor de su clase. Estas variables no constan en la ecua-
cin (2.2).

79

ECONOMETRIA.indd 79 04/05/16 13:06


Dominar la econometra

Regresiones en accin

Empezamos estimando la mejora de ingresos que resulta de acudir a


un centro privado aplicando un modelo estadstico carente de con-
troles. Al hacer la regresin del logaritmo de los ingresos (1995) con
la variable binaria que indica si se estudi en un centro pblico, sin
incluir en el modelo otros regresores (variables del segundo miem-
bro), se obtiene la diferencia bruta del logaritmo de los ingresos en-
tre quienes acudieron a universidades pblicas y el resto de la mues-
tra (el apndice del captulo explica por qu al usar una sola varia-
ble binaria se extrae la diferencia entre las medias de los dos grupos
definidos por esa variable). No debe sorprender que esta diferencia
bruta, que consta en la primera columna de la tabla 2.2, muestre una
ventaja sustancial para las universidades privadas. En concreto, se esti-
ma que quienes estudian en universidades privadas ganan un 14% ms
que el resto.
Los nmeros entre parntesis bajo las estimaciones de la regresin
de la tabla 2.2 son los errores tpicos estimados para esos valores. Al
igual que los errores tpicos de una diferencia de medias que se ex-
plican en el apndice del captulo 1, estos errores tpicos cuantifican
la precisin estadstica de las estimaciones que arroja la regresin. El
error tpico asociado a la cantidad estimada en la columna (1) ascien-
de a 0,055. El hecho de que 0,135 sea ms de dos veces el error tpico
(0,055) hace muy poco probable que la diferencia positiva estimada
entre centros privados y pblicos sea resultado del puro azar. El coefi-
ciente de los centros privados es estadsticamente significativo.
La gran diferencia a favor de los centros privados que aparece en
la columna (1) de la tabla 2.2 constituye un hecho descriptivo intere-
sante pero, como en nuestro ejemplo anterior, sin duda parte de este
efecto se debe a un sesgo de seleccin. Como veremos ms adelante,
los estudiantes de universidades privadas tienen notas mejores en las
pruebas de acceso y proceden de familias con ms recursos que los
estudiantes de las universidades pblicas, y por eso cabe esperar que
ganen ms dinero con independencia de dnde cursaran estudios.
Por lo tanto, introducimos controles que tienen en cuenta las capaci-
dades individuales y el entorno familiar a la hora de estimar la ventaja
de acudir a un centro privado. La columna (2) de la tabla 2.2 presen-
ta una estimacin de la ventaja de las universidades privadas a partir

80

ECONOMETRIA.indd 80 04/05/16 13:06


Regresin

Tabla 2.2. Efectos de la universidad privada:


emparejamientos de Barrons

Sin controles de Con controles de


seleccin seleccin
(1) (2) (3) (4) (5) (6)
Centro privado .135 .095 .086 .007 .003 .013
(.055) (.052) (.034) (.038) (.039) (.025)
Nota de acceso individual 100 .048 .016 .033 .001
(.009) (.007) (.007) (.007)
Logaritmo de los ingresos paternos .219 .190
(.022) (.023)
Mujeres .403 .395
(.018) (.021)
Negros .005 .040
(.041) (.042)
Hispanos .062 .032
(.072) (.070)
Asiticos .170 .145
(.074) (.068)
Otra raza (o no consta) .074 .079
(.157) (.156)
En el 10% mejor de su escuela .095 .082
secundaria
(.027) (.028)
No consta nivel de secundaria .019 .015
(.033) (.037)
Deportista .123 .115
(.025) (.027)
Variables binarias de seleccin No No No S S S

Notas: Esta tabla incluye la estimacin de los efectos que ejerce sobre los ingresos el hecho
de cursar estudios en centros universitarios privados. Cada columna muestra los coefi-
cientes de una regresin del logaritmo de los ingresos con variables binarias que marcan
si se estudi en un centro privado, as como varios controles. Los resultados de las colum-
nas (4)-(6) proceden de modelos que incluyen variables binarias para diversos grupos de
centros segn su nivel selectivo. El tamao de la muestra es de 5.583. Los errores tpicos
constan entre parntesis.

81

ECONOMETRIA.indd 81 04/05/16 13:06


Dominar la econometra

de un modelo que incluye controles sobre las notas en las pruebas de


acceso. A cada 100 puntos en las pruebas de acceso les corresponde
un incremento del 5% en los ingresos. Al controlar las calificaciones
de acceso, la ventaja de los centros privados se reduce a aproximada-
mente 0,1. Si se aaden controles relacionados con los ingresos pa-
ternos, as como con caractersticas demogrficas relacionadas con
raza o gnero, estar entre los mejores de la clase o si el estudiante
es atleta,10 se rebaja un poco ms la ventaja de los centros privados,
hasta un valor an considerable y estadsticamente significativo igual
a 0,086, que consta en la columna (3) de la tabla.
Aunque se trate de una cifra sustancial, probablemente an sea
demasiado elevada, es decir, sigue contaminada por efectos de selec-
cin. La columna (4) consigna las estimaciones que resultan cuando
no se controlan las capacidades individuales, el contexto familiar o
las caractersticas demogrficas. Pero observemos, en cambio, que el
modelo de regresin empleado para calcular las estimaciones que
figuran en esta columna incluyen una variable binaria que etiqueta
cada grupo selectivo de universidades de la muestra. Es decir, el mo-
delo que se usa para construir esta estimacin incorpora la variable
binaria GROUPji , con j =1,, 150 (la tabla omite la multitud de va-
lores j que produce este modelo, pero indica su inclusin en la fila
denominada controles de seleccin). La ventaja que se estima por
haber estudiado en centros privados cuando se incluyen los contro-
les por grupo selectivo coincide casi exactamente con un valor cero,
con un error tpico en torno a 0,04. Y eso no es todo: tras aniquilar
la ventaja de las universidades privadas con las variables binarias de
grupos selectivos, las columnas (5) a (6) muestran que la ventaja
residual vara poco cuando se introducen en el modelo controles de
capacidad individual o de contexto familiar. Esto parece indicar que
los controles por solicitudes y por admisiones nos acercan a com-
parar manzanas con manzanas y naranjas con naranjas que, como
sabemos, es la base de cualquier estrategia creble de regresin en
pos de la inferencia causal.
Los resultados de las columnas (4) a (6) de la tabla 2.2 proce-
den de la submuestra de 5.583 estudiantes para los que se pueden

10 En EE. UU., los jvenes con dotes atlticas especiales suelen tener grandes fa-

cilidades para acceder a las universidades, tanto pblicas como privadas. (N. de la T.)

82

ECONOMETRIA.indd 82 04/05/16 13:06


Regresin

construir emparejamientos basados en los criterios de Barrons que


permite hacer comparaciones dentro de cada grupo entre alumnos
de universidades pblicas y privadas. Quiz haya algo especial en esta
submuestra, que contiene menos de la mitad del total de encuestados
en C&B. Esta posibilidad sugiere probar un sistema de controles me-
nos exigente, que incluya slo la nota media en las pruebas de acceso
a la universidad a la hora de definir los grupos de universidades en
las que se presenta la solicitud, ms otra variable binaria para el n-
mero de centros solicitados (es decir, una variable binaria que marca
a los estudiantes que pidieron el ingreso en dos universidades, otra
para los que lo hicieron en tres, etctera), en vez de todo un conjunto
de 150 variables binarias por grupos selectivos. Esta regresin, que
puede aplicarse a la totalidad de los datos C&B, recibe el nombre de
modelo de autorrevelado, porque encuentra justificacin en el hecho de
que son los propios solicitantes quienes mejor conocen sus capacida-
des y dnde es probable que sean admitidos. Esta autoevaluacin se
refleja en el nmero y en la selectividad media de las universidades
que se solicitan. Por regla general, los solicitantes ms flojos cursan
menos solicitudes, y lo hacen en universidades menos selectivas, que
los estudiantes mejor dotados.
El modelo de autorrevelado genera resultados muy semejantes a los
que resultan de los emparejamientos segn los criterios de Barrons.
Las estimaciones del autorrevelado, calculadas a partir de una mues-
tra de 14.238 sujetos, se presentan en la tabla 2.3. Como antes, las
tres primeras columnas de la tabla evidencian una cada notable de
la ventaja de los centros privados, aunque se mantenga en un nivel
sustancial, a medida que se aaden controles para la capacidad indi-
vidual y el contexto familiar (en este caso cae de 0,21 hasta 0,14). Al
mismo tiempo, las columnas (4) a (6) revelan que los modelos con
controles para el nmero de solicitudes y la selectividad promedio
de las universidades solicitadas arrojan resultados estadsticamente
no significativos en el entorno de 0,03. Adems, como en los modelos
que controlan segn los grupos de Barrons, los modelos con contro-
les basados en la selectividad promedio generan estimaciones muy
poco sensibles a la inclusin de controles sobre la capacidad indivi-
dual o el contexto familiar.
La asistencia a una universidad privada parece, por lo tanto, no
guardar relacin con los ingresos futuros una vez se tiene en cuenta

83

ECONOMETRIA.indd 83 04/05/16 13:06


Dominar la econometra

Tabla 2.3. Efectos de la universidad privada: controles segn


la nota media en las pruebas de acceso

Sin controles de Con controles de


seleccin seleccin
(1) (2) (3) (4) (5) (6)
Centro privado .212 .152 .139 .024 .031 .037
(.060) (.057) (.043) (.062) (.062) (.039)
Nota de acceso individual 100 .051 .024 .036 .009
(.008) (.006) (.006) (.006)
Logaritmo de los ingresos paternos .181 .159
(.026) (.025)
Mujeres .398 .396
(.012) (.014)
Negros .003 .037
(.031) (.035)
Hispanos .027 .001
(.052) (.054)
Asiticos .189 .155
(.035) (.037)
Otra raza (o no consta) .166 .189
(.118) (.117)
En el 10%mejor de su escuela .067 .064
secundaria (.020) (.020)
No consta nivel de secundaria .003 -.008
(.025) (.023)
Deportista .107 .092
(.027) (.024)
Puntuacin media en pruebas de ac- .110 .082 .077
ceso en las escuelas solicitadas 100 (.024) (.022) (.012)
Presentaron dos solicitudes .017 .062 .058
(.013) (.011) (.010)
Presentaron tres solicitudes .093 .079 .066
(.021) (.019) (.017)
Presentaron cuatro o ms solicitudes .139 .127 .098
(.024) (.023) (.020)

Notas: Esta tabla incluye la estimacin de los efectos que ejerce sobre los ingresos el hecho
de cursar estudios en centros universitarios privados. Cada columna muestra los coefi-
cientes de una regresin del logaritmo de los ingresos con variables binarias que marcan
si se estudi en un centro privado, as como varios controles. El tamao de la muestra es
14.238. Los errores tpicos constan entre parntesis.

84

ECONOMETRIA.indd 84 04/05/16 13:06


Regresin

Tabla 2.4. Efectos del carcter selectivo de los centros:


controles segn la nota media en las pruebas de acceso

Sin controles de Con controles de


seleccin seleccin
(1) (2) (3) (4) (5) (6)
Nota media de acceso al centro 100 .109 .071 .076 -.021 -.031 .000
(.026) (.025) (.016) (.026) (.026) (.018)
Nota de acceso individual 100 .049 .015 .037 .009
(.007) (.006) (.006) (.006)
Logaritmo de los ingresos paternos .187 .161
(.024) (.025)
Mujeres .403 .396
(.015) (.014)
Negros .023 .034
(.035) (.035)
Hispanos .015 .006
(.052) (.053)
Asiticos .173 .155
(.036) (.037)
Otra raza (o no consta) .188 .193
(.119) (.116)
En el 10% mejor de su escuela se- .061 .063
cundaria (.018) (.019)
No consta nivel de secundaria .001 -.009
(.024) (.022)
Deportista .102 .094
(.025) (.024)
Puntuacin media en pruebas de ac- .138 .016 .089
ceso en las escuelas solicitadas 100 (.017) (.015) (.014)
Presentaron dos solicitudes .082 .075 .063
(.015) (.014) (.011)
Presentaron tres solicitudes .107 .096 .074
(.026) (.024) (.022)
Presentaron cuatro o ms solicitudes .153 .143 .106
(.031) (.030) (.025)

Notas: Esta tabla incluye la estimacin de los efectos que ejerce sobre los ingresos el ca-
rcter ms o menos selectivo de la universidad. Cada columna muestra los coeficientes de
una regresin del logaritmo de los ingresos con la nota media de acceso del centro don-
de se cursan los estudios, as como varios controles. El tamao de la muestra es 14.238.
Los errores tpicos constan entre parntesis.

85

ECONOMETRIA.indd 85 04/05/16 13:06


Dominar la econometra

el sesgo de seleccin. Pero quiz nos estamos equivocando al poner el


foco en la comparacin entre lo pblico y lo privado. Los estudiantes
podran beneficiarse de asistir a las universidades Treposa, Foliosa o
Astutosa por el simple hecho de que sus compaeros de clase, en esos
centros, son mucho mejores. La sinergia que surge en un grupo de
compaeros ms capaces podra ser el rasgo por el que valga la pena
pagar la factura de un centro privado.
Podemos explorar esta hiptesis si reemplazamos la variable bina-
ria de centro privado en el modelo de autorrevelado por alguna medi-
da de la calidad de los compaeros. En concreto, y como en el estudio
original de Dale y Krueger que inspira nuestro anlisis, reemplaza-
mos Pi en la ecuacin (2.2) por la puntuacin media en las pruebas
de acceso de los compaeros de la universidad en la que se cursaron
los estudios.11 Las columnas (1) a (3) de la tabla 2.4 revelan que los
estudiantes que acudieron a universidades ms selectivas tienen un
xito marcadamente superior en el mercado de trabajo, con un efecto
positivo del carcter selectivo de los centros del 8% en los ingresos por
cada 100 puntos de incremento medio en la nota de corte para ser
admitido. Aun as, este efecto tambin parece ser un artificio inducido
por el sesgo de seleccin, debido a la mayor ambicin y mayores capa-
cidades de quienes estudian en centros selectivos. Las estimaciones de
modelos con controles de autorrevelado, que constan en las columnas
(4) a (6) de la tabla, muestran que el carcter selectivo de la universi-
dad carece, esencialmente, de relacin con los ingresos.

2.3 Ceteris paribus?

Tema: Describa brevemente las experiencias, retos y logros que lo


definen a usted como persona.
Redaccin: Tengo una personalidad dinmica; se me suele ver esca-
lando montes y glaciares. Consigo cocinar las recetas de bizcocho
de treinta minutos en tan slo veinte. Soy un experto estucador,
amante veterano y proscrito en Per. Los mircoles, despus de las
clases, reparo electrodomsticos por amor al arte.

11 Dale y Krueger, Estimating the Payoff to Attending a More Selective Colle-

ge, Quarterly Journal of Economics, 2002.

86

ECONOMETRIA.indd 86 04/05/16 13:06


Regresin

Soy artista abstracto, analista concreto y un despiadado ratn de bi-


blioteca. Vibrante, driblador, inquieto, pero pago mis cuentas.
Triunf en los toros en San Juan, en las competiciones de buceo en
arrecifes de Sri Lanka y en los concursos de deletreo del Kremlin.
He interpretado a Hamlet, he realizado operaciones quirrgicas a
corazn abierto y he hablado con Elvis.
Pero todava no he ido a la universidad.

De una redaccin compuesta por Hugh Gallagher, de 19 aos


(Hugh asisti luego a la Universidad de Nueva York)

Imagine a Harvey y Uma cuando recibieron sus cartas de admisin.


Ambos estn encantados de haber entrado en Harvard (esto tiene
que ser como uno de esos bizcochos hechos en veinte minutos). Har-
vey de inmediato acepta la oferta de Harvard. Y quin no? Pues Uma,
que se enfrenta a una decisin difcil y elige U-Mass. Qu le pasa a
Uma? De verdad sus ceteris son paribus?
Uma podra tener buenos motivos para elegir U-Mass antes que
Harvard, a pesar de su menor prestigio. El precio es una circunstan-
cia obvia (Uma consigui una de las becas Adams de Massachusetts,
que cubre la matrcula universitaria de estudiantes buenos como ella,
pero que no se puede usar en centros privados). Si el precio le impor-
ta a Uma ms que a Harvey, entonces es posible que las circunstancias
de Uma difieran de las de Harvey en muchos otros aspectos. Quiz
sea ms pobre. Algunos de nuestros controles de regresin tienen en
cuenta los ingresos paternos, pero esta es una medida imperfecta del
nivel de vida de una familia. Entre otras cosas, ignoramos cuntos
hermanos y hermanas tenan los estudiantes de la muestra C&B. Una
familia mayor puede tener ms difcil costear la educacin de toda la
prole con el mismo nivel de ingresos. Si el tamao de la familia es-
tuviera tambin relacionado con los ingresos posteriores (vase ms
sobre esto en el captulo 3), entonces nuestras estimaciones mediante
regresin de las ventajas de los centros privados no estaran compa-
rando manzanas con manzanas despus de todo.
Esto es algo ms que una historia para contar ante un fuego de
campamento. La regresin pretende ser un modo de mantener el
resto de las cosas iguales, pero la igualdad se genera slo para las
variables incluidas en el segundo miembro del modelo. No introdu-

87

ECONOMETRIA.indd 87 04/05/16 13:06


Dominar la econometra

cir suficientes controles, o los adecuados, abre la puerta al sesgo de


seleccin. La versin del sesgo de seleccin que aparece en las regre-
siones cuando los controles no son los adecuados se denomina sesgo
de variables omitidas (SVO), y constituye una de las ideas centrales del
canon de la econometra.
Volvamos a nuestro ejemplo de cinco estudiantes para ilustrar
el SVO y la influencia de omitir el control sobre la pertenencia al
grupo A de solicitantes. Aqu la regresin larga incluye la variable
binaria Ai , que marca a los sujetos del grupo A. El modelo de regre-
sin que incluye esta variable se escribe como

Yi = l + l Pi + Ai + e il . (2.3)

Se trata de la ecuacin (2.1) reescrita con el superndice l en los par-


metros y los residuos para recordarnos que la ordenada en el origen
y el coeficiente de centro privado corresponden al modelo largo, y
para facilitar la comparacin con el modelo simple que pasamos a
plantear.
Influye la inclusin de Ai sobre la estimacin del efecto de estu-
diar en centros privados en la regresin anterior? Supongamos que
procedemos a una regresin simple, sin controles, que podra expre-
sarse como

Yi = s + s Pi + Ai + e si .

Como el nico regresor aqu es una variable binaria, la pendiente de


este modelo resultar igual a la diferencia del Yi promedio entre los
sujetos que tienen Pi activado y los que lo tienen igual a cero. Como
indicamos en el apartado 2.1, s = 20.000 en la regresin simple, mien-
tras que el parmetro de la regresin larga, l , slo asciende a 10.000.
La diferencia entre l y s es el SVO debido a la omisin de Ai en la
regresin simple. En este caso el SVO asciende a 10.000 dlares, una
cifra de la que vale la pena preocuparse.
Por qu es tan intenso el efecto de omitir el control del grupo A
sobre la estimacin del efecto de estudiar en un centro privado? Re-
cordemos que los ingresos medios de los estudiantes del grupo A
superan los del grupo B. Adems, dos tercios de los estudiantes de
este grupo de ingresos elevados acudi a centros privados, mientras

88

ECONOMETRIA.indd 88 04/05/16 13:06


Regresin

que slo lo hizo la mitad de los integrantes del grupo B, con ingre-
sos inferiores. La diferencia de ingresos entre estudiantes de centros
pblicos y privados se debe en parte al hecho de que los estudiantes
del grupo A, en su mayora de centros privados, tienen ingresos su-
periores de todos modos, con independencia de esa circunstancia. Al
incluir una variable binaria que controla la pertenencia al grupo A en
la regresin larga se tiene en cuenta esta diferencia.
Como sugiere esta explicacin, la conexin formal entre los coefi-
cientes de las regresiones simple y larga tiene dos componentes:

(i) La relacin entre la variable omitida (Ai) y la variable de trata-


miento (Pi); pronto veremos cmo cuantificar esta relacin por
medio de una regresin adicional.
(ii) La relacin entre la variable omitida (Ai) y la variable de resul-
tado (Yi). Esta relacin viene dada por el coeficiente de la varia-
ble omitida en la regresin larga, en este caso el parmetro de
la ecuacin (2.3).

Al reunir estas piezas se obtiene la frmula del SVO. Partimos del he-
cho de que

Efecto de Pi en simple = Efecto de Pi en larga +


+ ([Relacin entre omitida e incluida]
[Efecto de la omitida en larga]).

En concreto, cuando la variable omitida es Ai y la variable de trata-


miento Pi , entonces

Efecto de Pi en simple = Efecto de Pi en larga +


+ ([Relacin entre Ai y Pi]
[Efecto de Ai en larga]).

El sesgo de variables omitidas (SVO), definido como la diferencia


entre los coeficientes de Pi en los modelos simple y largo, consiste en
una sencilla reordenacin de la ecuacin anterior:

SVO = [Relacin entre Ai y Pi]


[Efecto de Ai en larga].

89

ECONOMETRIA.indd 89 04/05/16 13:06


Dominar la econometra

Podemos refinar la frmula del SVO si recurrimos al hecho de que


los dos trminos de la frmula son en s mismos coeficientes de regre-
sin. El primer trmino es el coeficiente que resulta de calcular una
regresin de la variable omitida Ai con la variable binaria de centro
privado. En otras palabras, este trmino es el coeficiente 1 (lase pi-
uno) en el modelo de regresin

Ai = 0 + 1 Pi + ui ,

donde ui es un residuo. Ahora podemos escribir la frmula del SVO de


manera compacta con letras griegas:

SVO = Efecto de Pi en simple Efecto de Pi en larga


= s l = 1 ,

donde es el coeficiente de Ai en la regresin larga. Esta frmula,


muy importante, se deduce en el apndice del presente captulo.
El alumnado de centros privados incluye dos sujetos del grupo A
y dos sujetos del grupo B, mientras que el colectivo que estudi en
centros pblicos tiene a una persona en A y otra en B. El coeficiente
1 de nuestro ejemplo con cinco estudiantes vale, por tanto, 2/3
1/2 = 0,1667. Como se indica en el apartado 2.2, el coeficiente vale
60.000, lo que refleja que el grupo A tiene ingresos superiores. Si se
renen las piezas tenemos que

SVO = Simple Larga


= s l
= 20.000 10.000 = 10.000

y que

SVO = [Regresin de omitida sobre incluida]


[Efecto de la omitida en larga] =
= 1 = 0,1667 60.000 = 10.000.

Caramba! El clculo sugerido por la frmula del SVO coincide de ver-


dad con la comparacin directa de los coeficientes resultantes de las
regresiones simple y larga.

90

ECONOMETRIA.indd 90 04/05/16 13:06


Regresin

La frmula del SVO es un resultado matemtico que explica las


diferencias entre coeficientes de regresin cuando se comparan dos
escenarios cualesquiera de tipos simple y largo, con independencia
de la interpretacin causal de los parmetros de la regresin. Las
etiquetas simple y larga son tan slo relativas: la regresin simple
no tiene por qu ser especialmente simple, pero la regresin larga
siempre es ms larga, porque incluye los mismos regresores que la
simple y al menos uno ms. Con frecuencia las variables adicionales
que alargan la regresin larga son de carcter hipottico, es decir, no
estn disponibles en los datos. La frmula del SVO es una herramien-
ta que permite considerar el impacto de las variables de control de las
que querramos disponer. Esto, a su vez, ayuda a aclarar si realmente
ceteris es o no es paribus. Lo que nos lleva de nuevo a Uma y Harvey.
Supongamos que una de las variables omitidas en la ecuacin
(2.2) fuera el tamao de la unidad familiar, FSi . Hemos incluido los
ingresos paternos como variable de control, pero no el nmero de
hermanos y hermanas que podran acudir tambin a la universidad,
una informacin que no est disponible en el banco de datos C&B. Si
la variable omitida es FSi , tenemos

SVO = Simple Larga =


= [Relacin entre FSi y Pi]
[Efecto de FSi en larga].

Por qu la omisin del tamao de las familias puede sesgar las esti-
maciones por regresin del efecto de estudiar en centros privados?
Porque las diferencias de ingresos entre los graduados de Harvard
y de U-Mass provienen en parte de diferencias en cuanto a los ta-
maos de las familias entre los dos grupos (es decir, de la relacin
entre FSi y Pi) y del hecho de que las familias ms reducidas estn
correlacionadas con ingresos superiores, incluso despus de intro-
ducir las variables de control presentes en la regresin simple (este
es el efecto de FSi sobre la regresin larga, que incluye igualmente
todos los controles anteriores). La regresin larga tiene en cuenta
el hecho de que los estudiantes que acuden a Harvard proceden de
familias (en promedio) ms pequeas que las de los estudiantes que
fueron a U-Mass, mientras que la regresin simple que omite FSi no
lo tiene en cuenta.

91

ECONOMETRIA.indd 91 04/05/16 13:06


Dominar la econometra

El primer trmino en esta aplicacin de la frmula del SVO es


el coeficiente que resulta de una regresin entre la variable omitida
(FSi) y la incluida (Pi) y todo lo dems que aparezca en el segundo
miembro de la ecuacin (2.2). Esta regresin, que a veces recibe el
nombre de auxiliar porque facilita la interpretacin de la regresin
que de verdad nos importa, se puede escribir como

FSi = 0 + 1Pi + jGROUPji + 2SATi + 3 en PIi + i . (2.4)


j

La mayor parte de los coeficientes de la ecuacin (2.4) tienen poco


inters. Lo que importa aqu es 1, porque mide la relacin entre la
variable omitida, FSi , y la variable que representa el efecto que quere-
mos valorar, Pi , tras tener en cuenta el resto de variables que aparecen
tanto en el modelo simple como en el largo.12
Para completar la frmula del SVO en este caso escribiramos la
regresin larga como:

en Yi = l + l Pi + jl GROUPji +
j

+ SATi + 2l en PIi + FSi + e il ,


l
1
(2.5)

donde de nuevo se emplea el superndice l para indicar la regre-


sin larga. El regresor FSi figura aqu con el coeficiente .13 As,
la frmula del SVO queda

SVO = Simple Larga = l = 1 ,

donde procede de la ecuacin (2.2).


Si seguimos pensando en la ecuacin (2.2) como la regresin
simple, mientras que la larga incorpora ahora todas las variables
incluidas ah ms el tamao de la familia, vemos que es probable
que el SVO sea positivo. Los estudiantes de centros privados tienden
a formar parte, en promedio, de familias ms pequeas, incluso te-
niendo en cuenta los ingresos familiares. Si esto es as, el coeficiente
de regresin que relaciona el tamao familiar con la asistencia a

Las variables binarias de grupo en (2.4), j , se leen zeta-jota.


12

Este coeficiente se lee lambda.


13

92

ECONOMETRIA.indd 92 04/05/16 13:06


Regresin

centros privados es negativo ( 1 < 0 en la ecuacin [2.4]). Los estu-


diantes procedentes de familias menores tienen tambin ms po-
sibilidades de lograr ms ingresos, con independencia del tipo de
centro donde estudiaran, as que el efecto de omitir el control sobre
el tamao familiar en una regresin larga tambin ser negativo ( < 0
en la ecuacin [2.5]). El producto de estos dos trminos negativos
es positivo.
Razonar con cuidado acerca del SVO es una parte esencial del
juego economtrico. No podemos usar datos que cuantifiquen las
consecuencias de omitir variables que no se observan, pero podemos
emplear la frmula del SVO para emitir una conjetura bien funda-
mentada acerca de las consecuencias probables de su omisin. La ma-
yora de las variables de control que pueden omitirse en la ecuacin
(2.2) se asemejan al tamao familiar en que el signo del SVO que re-
sulta al omitirlas probablemente sea positivo. Deducimos de ah que,
a pesar de lo reducido de los efectos de asistir a un centro privado que
se muestran en las columnas (4)-(6) de las tablas 2.2 y 2.3, bien pue-
den estar sobreestimados. Estos resultados, por tanto, se oponen con
contundencia a la hiptesis de que estudiar en universidades privadas
suponga una ventaja sustancial en trminos de ingresos.

Anlisis de sensibilidad de la regresin

Nunca podremos estar seguros de si un conjunto concreto de contro-


les bastar para eliminar el sesgo de seleccin. Por eso es importan-
te preguntarse en qu medida los resultados de una regresin son
sensibles a cambios en el conjunto de controles. La confianza en las
estimaciones por regresin de los efectos causales aumenta cuando
los efectos del tratamiento se hacen insensibles (los maestros dicen
que son robustos) sobre el aadido o la eliminacin de una va-
riable particular, mientras que algunos controles determinados se
mantengan en el modelo. Este patrn deseable queda ilustrado en
las columnas (4) a (6) de las tablas 2.2 y 2.3, que presentan estimacio-
nes que apuntan a que la ventaja de estudiar en un centro privado es
insensible a la inclusin de las capacidades del alumnado (medidas
mediante las notas en las pruebas de acceso a la universidad), ingre-
sos familiares y otras variables de control, una vez que se ha tenido en

93

ECONOMETRIA.indd 93 04/05/16 13:06


Dominar la econometra

cuenta el carcter de los centros en los que el alumnado present su


solicitud de ingreso.
La frmula del SVO explica este hallazgo tan llamativo. Comen-
cemos con la tabla 2.5, que muestra los coeficientes de ecuaciones
semejantes a la (2.4), salvo en que en lugar de FSi se introdujo SATi
en el primer miembro para generar las estimaciones de las columnas
(1)-(3), mientras que al situar lnPi en el primer miembro resultan las
columnas (4)-(6). Estas regresiones auxiliares esclarecen la relacin
(condicionada a otros controles del modelo) entre cursar estudios en
centros privados y dos de nuestros controles, SATi y lnPi . No sorpren-
de observar que acudir a un centro privado es una buena variable
predictora tanto de las puntuaciones en los exmenes de acceso a la
universidad como de los ingresos familiares, relaciones que quedan
documentadas en las columnas (1) y (4) de la tabla. Cuando se aa-
den controles demogrficos, resultados en los estudios de secundaria
y una variable binaria que refleja la participacin en equipos depor-
tivos, los resultados cambian muy poco, como se ve en las columnas
(2) y (5). Pero si se incluyen controles sobre el nmero de solicitudes
cursadas y la nota media en las pruebas de acceso en las universida-
des solicitadas, como en el modelo de autorrevelado, se elimina de
manera muy efectiva la relacin entre el hecho de acudir a un centro
privado y estas importantes variables de trasfondo. Esto explica por
qu los coeficientes estimados para el efecto de estudiar en univer-
sidades privadas son esencialmente los mismos en las columnas (4),
(5) y (6) de la tabla 2.3.
La frmula del SVO es la Primera Directiva de la econometra
aplicada, as que breguemos con los nmeros para ver cmo entra
en accin. A modo de ilustracin tomaremos como modelo simple
una regresin que introduzca en Pi el logaritmo de los ingresos, sin
controles, y como modelo largo, una regresin que tenga en cuenta
la calificacin individual en las pruebas de acceso a la universidad
(variable SATi). El coeficiente de Pi que se deduce de la regresin sim-
ple (sin controles) consta en la columna (1) de la tabla 2.3 y asciende
a 0,212, mientras que el coeficiente correspondiente de la regresin
larga (que incluye el control SATi) aparece en la columna (2) y vale
0,152. Como puede verse tambin en la columna (2) de la tabla, el
efecto de SATi en la regresin larga asciende a 0,051. La primera co-
lumna de la tabla 2.5 muestra que la regresin de la variable omitida

94

ECONOMETRIA.indd 94 04/05/16 13:06


Regresin

Tabla 2.5. Efectos de la universidad privada:


sesgo de variables omitidas

Variable dependiente

Nota de acceso Logaritmo de los


individual 100 ingresos paternos
(1) (2) (3) (4) (5) (6)

Centro privado 1.165 1.130 .066 .128 .138 .028


(.196) (.188) (.112) (.035) (.017) (.037)
Mujeres -.367 .016
(.076) (.013)
Negros -1.947 -.359
(.079) (.019)
Hispanos -1.185 .259
(.168) (.050)
Asiticos -014 -.060
(.116) (.031)
Otra raza (o no consta) -.521 .082
(.293) (.061)
En el 10% mejor de su escuela secundaria .948 -.066
(.107) (.011)
No consta nivel de secundaria .556 -.030
(.102) (.023)
Deportista -.318 .017
(.147) (.016)
Puntuacin media en pruebas de acceso .777 .063
en las escuelas solicitadas 100 (.058) (.014)
Presentaron dos solicitudes .252 .020
(.077) (.010)
Presentaron tres solicitudes .375 .042
(.106) (.013)
Presentaron cuatro o ms solicitudes .330 .079
(.093) (.014)

Notas: Esta tabla describe la relacin entre el hecho de cursar estudios en una univer-
sidad privada y las caractersticas personales. Las variables dependientes son la nota
obtenida en las pruebas de acceso a la universidad (dividida entre 100) en las colum-
nas (1)-(3) y el logaritmo de los ingresos de los padres en las columnas (4)-(6). Cada
columna muestra el coeficiente de una regresin de la variable dependiente sobre una
variable binaria que seala si se asisti o no a un centro privado, as como varios con-
troles. El tamao de la muestra es 14.238. Los errores tpicos constan entre parntesis.

95

ECONOMETRIA.indd 95 04/05/16 13:06


Dominar la econometra

SATi sobre la incluida Pi conduce a un coeficiente de 1,165. Si se rene


esta informacin se puede deducir el SVO de dos maneras:

SVO = Simple Larga = 0,212 0,152 = 0,06


SVO = [Regresin de omitida sobre incluida]
[Efecto de la omitida en larga] =
= 1,165 0,051 = 0,06.

Comprese lo anterior con el clculo paralelo que nos lleva desde la


columna (4) hasta la (5) en la tabla 2.3. Estas columnas reflejan los
resultados de modelos que incluyen controles de autorrevelado. Aqu
Simple-Larga tiene un valor reducido, 0,034 0,031 = 0,003 para ser
exactos. Tanto la regresin simple como la larga incluyen controles
selectivos procedentes del modelo de autorrevelado, al igual que la
relevante regresin auxiliar de la puntuacin individual en las prue-
bas de acceso a la universidad, SATi , sobre Pi . Cuando se incluyen
controles de autorrevelado en ambos modelos se deduce:

SVO = [Regresin de omitida sobre incluida]


[Efecto de la omitida en larga] =
= 0,066 0,036 = 0,0024.

(El error de redondeo en nmeros pequeos nos desva del objeti-


vo de 0,003). El efecto de omitir SATi en la regresin larga cae ahora
de 0,051 a 0,036, mientras que la regresin de la variable omitida
sobre la incluida cae en un orden de magnitud, desde el abultado
valor 1,165 hasta 0,066 (consta en la columna [3] de la tabla 2.5).
Esto indica que, si se tienen en cuenta tanto el nmero de escuelas
solicitadas como la selectividad media de las mismas, entonces no se
aprecian diferencias significativas entre los estudiantes que eligen
centros pblicos y los que optan por los privados, al menos en lo
que respecta a las calificaciones obtenidas en las pruebas de acceso
a la universidad. En consecuencia, desaparece el contraste entre la
estimacin simple y la larga.
El efecto de estudiar en un centro privado resulta insensible a la
inclusin de las variables disponibles sobre capacidades individua-
les y sobre trasfondo familiar, una vez que se incluyen controles de

96

ECONOMETRIA.indd 96 04/05/16 13:06


Regresin

autorrevelado. Del mismo modo, otras variables de control, inclu-


yendo aquellas sobre las que no disponemos de datos, podran tener
tambin muy poca influencia. En otras palabras, es probable que
cualquier SVO debido a diferencias no controladas sea modesto.14
Este indicio circunstancial acerca de la escasa importancia del SVO
no garantiza que los resultados de las regresiones tratadas en este
captulo posean la misma fuerza causal que los que se obtendran
de un experimento aleatorio: siempre preferiramos disponer de un
experimento real. Sin embargo, y como mnimo, estos resultados
ponen en cuestin la afirmacin de que estudiar en las caras uni-
versidades privadas confiere una ventaja sustancial en cuanto a los
ingresos futuros.

Maestro Stevefu: Por favor, Pequeo Saltamontes, s breve.


Pequeo saltamontes: Las comparaciones causales comparan lo se-
mejante con lo semejante. Para esclarecer los efectos de la eleccin
de universidad nos centramos en estudiantes de caractersticas si-
milares.
Maestro Stevefu: Cada cual puede ser diferente de un millar de
maneras. Han de ser similares en todo?
Pequeo Saltamontes: Las comparaciones buenas eliminan las di-
ferencias sistemticas entre quienes eligieron un camino y quienes
optaron por otro, si tales diferencias estn asociadas a los ingresos.
Maestro Stevefu: Cmo puede lograrse eso?
Pequeo Saltamontes: El mtodo de emparejamiento rene indi-
viduos en grupos concordes, con los mismos valores de las varia-
bles de control, como medidas de las capacidades individuales
o del entorno familiar. Las comparaciones concordes dentro de
esos grupos se promedian despus para deducir un efecto global
nico.

14 Joseph Altonji, Todd Elder y Christopher Taber formalizan la nocin de que

el SVO asociado a los regresores accesibles proporciona una gua acerca del SVO
generado por los regresores de los que no se dispone. Vanse los detalles en su es-
tudio Selection on Observed and Unobserved Variables: Assesing the Efectiveness
of Catholic Schools, Journal of Political Economy, vol. 113, nmero 1, febrero de 2005,
pginas 151-184.

97

ECONOMETRIA.indd 97 04/05/16 13:06


Dominar la econometra

Maestro Stevefu: Y la regresin?


Pequeo Saltamontes: La regresin empareja de manera automti-
ca. La estimacin por regresin de un efecto causal constituye tam-
bin un promedio de las comparaciones dentro de cada grupo.
Maestro Stevefu: Cul es el tao del SVO?
Pequeo Saltamontes: El SVO es la diferencia entre los coeficientes
de la regresin simple y la larga. La regresin larga incluye contro-
les adicionales que se omiten en la simple. La simple es igual a la
larga ms el efecto en la larga de la variable omitida multiplicado
por la regresin de la omitida sobre la incluida.
Maestro Joshway: Aqu no se ha omitido nada, Pequeo Saltamontes.

Maestros de la econometra: Galton y Yule

El trmino regresin lo acu sir Francis Galton, medio primo de


Charles Darwin, en 1886. Galton era un hombre de amplios intere-
ses, pero qued muy impactado por la obra maestra de Darwin, El
origen de las especies. Galton confiaba en aplicar la teora evolutiva de
Darwin a la variacin de los rasgos humanos. En el curso de sus inves-
tigaciones estudi atributos que abarcan desde las huellas dactilares
a la belleza. Fue adems uno de los muchos intelectuales britnicos
que pusieron la obra de Darwin al servicio de la siniestra eugenesia.
A pesar de esta lamentable desviacin, su trabajo en estadstica te-
rica ejerci efectos duraderos y saludables sobre las ciencias sociales.
Galton estableci los cimientos estadsticos de las ciencias sociales
cuantitativas como las que ahora nos ocupan.
Galton descubri que las estaturas medias de padres e hijos estn
ligadas a travs de una ecuacin de regresin. Tambin desvel una
consecuencia interesante de este modelo particular de regresin: la
estatura media de los hijos es una media ponderada de la estatura de
los padres y de la estatura media de la poblacin de la que proceden los
padres y los hijos. En consecuencia, los progenitores ms altos que la
media tendrn descendientes no tan altos, mientras que los progeni-
tores ms bajos que la media tendrn descendientes no tan bajos. En
concreto, el maestro Stevefu, que mide 191 centmetros, puede espe-
rar que su progenie tenga una buena estatura, pero no tanto como
la suya. En cambio, y por fortuna, el maestro Joshway, que en das fa-

98

ECONOMETRIA.indd 98 04/05/16 13:06


Regresin

vorables mide 168 centmetros, puede esperar que sus descendientes


alcancen una estatura algo mayor.
Galton explic este fenmeno de promediado en su clebre artcu-
lo de 1886 titulado Regression towards Mediocrity in Hereditary
Stature.15 Hoy da esta propiedad recibe el nombre de regresin a
la media. La regresin a la media no constituye una relacin cau-
sal, sino que se trata de una propiedad estadstica de los pares de
variables correlacionadas, tales como las estaturas de padres e hi-
jos. Aunque las estaturas de padres e hijos nunca sean exactamente
iguales, sus distribuciones de frecuencias se mantienen esencial-
mente invariables. Esta estabilidad de las distribuciones es la causa
de la regresin de Galton.
Vemos en la regresin un procedimiento estadstico que nos con-
fiere el poder de efectuar comparaciones ms igualadas, mediante la
introduccin de variables de control en los modelos, para esclarecer
los efectos de un tratamiento. Galton no pareca tener inters en la
regresin como estrategia de control. El iniciador del uso de la regre-
sin con fines de control fue George Udny Yule, alumno del estads-
tico Karl Pearson, un protegido de Galton. Yule se dio cuenta de que
el mtodo de regresin de Galton podra extenderse para incorporar
muchas variables. En un artculo de 1899, Yule us esta extensin
para estudiar la relacin entre la aplicacin de las leyes inglesas de
pobreza (Poor Laws) en los distintos condados, y la probabilidad de que
los residentes de esos condados fueran pobres, introduciendo contro-
les sobre el crecimiento de la poblacin y la distribucin de edades
en cada condado.16 Las leyes de pobreza garantizaban la subsisten-
cia de los indigentes, normalmente proporcionndoles alojamiento
y empleo en unos albergues denominados workhouses.17 Yule tena un
inters especial en averiguar si la prctica de la llamada atencin exter-
na, que implicaba proporcionar ayudas en metlico pero sin exigir la
entrada en un albergue, aumentaba los ndices de pobreza al hacer
ms llevadera la condicin de pobre. He aqu una cuestin causal

15 Francis Galton, Regression towards Mediocrity in Hereditary Stature, Jour-

nal of the Anthropological Institute of Great Britain and Ireland, vol. 15, 1886, pginas
246-263.
16 George Udny Yule, An Investigation into the Causes of Changes in Pauper-

ism in England, Chiefly during the Last Two Intercensal Decades, Journal of the
Royal Statistical Society, vol. 62, nmero 2, enero de 1899, pginas 249-295.
17 Literalmente, casas de trabajo. (N. de la T.)

99

ECONOMETRIA.indd 99 04/05/16 13:06


Dominar la econometra

bien planteada en unos trminos semejantes a aquellas de las que se


ocupa la ciencia social de hoy.

Apndice: Teora de la regresin

Funciones de valor esperado condicionado

En el captulo 1 se introdujo el concepto de valor esperado, a veces


llamado esperanza para abreviar. Escribimos E[Yi] para referirnos al
valor esperado de la variable Yi . Tambin nos interesa el valor esperado
condicionado, es decir, el valor esperado de una variable dentro de un
grupo (tambin llamado celda) definido por una segunda variable.
A veces, esta segunda variable es de carcter binario y adopta slo dos
posibles valores, pero no siempre tiene por qu ser as. Con frecuen-
cia, como sucede en este captulo, nos interesan los valores esperados
condicionados para grupos definidos segn los valores de variables
que no son binarias como, por ejemplo, los ingresos esperados de
personas que han completado 16 aos de formacin acadmica. Este
tipo de valor esperado condicionado se puede escribir como

E[Yi|Xi = x],

y se lee como el valor esperado de Yi , cuando Xi adopta el valor con-


creto x.
Los valores esperados condicionados nos dicen cmo cambia la
media poblacional de una variable a medida que alteramos la variable
condicional dentro del abanico de valores que puede adoptar. Para
cada valor de la variable condicional podemos obtener un promedio
distinto de la variable dependiente, Yi . El conjunto de tales prome-
dios se denomina la funcin de valor esperado condicionado (FVEC abre-
viado); E[Yi|Xi] es la FVEC de Yi conocido Xi , pero sin especificar un
valor para Xi , mientras que E[Yi|Xi = x] especifica un punto concreto
en el dominio de esta funcin.
La figura 2.1 muestra una de nuestras FVEC favoritas. Los puntos
de la grfica representan el promedio del logaritmo de los ingresos
mensuales para hombres con niveles de escolaridad diferentes (medi-
dos segn el ltimo curso superado), los cuales se describen en el eje

100

ECONOMETRIA.indd 100 04/05/16 13:06


Regresin

7.2

7.0
Logaritmo de los ingresos semanales

6.8

6.6

6.4

6.2

6.0

5.8
0 2 4 6 8 10 12 14 16 18 20
Aos de formacin acadmica

Figura 2.1. La FVEC y la recta de regresin.


Notas: Esta figura muestra la funcin de valor esperado condiciona-
do (FVEC) del logaritmo de los ingresos semanales segn los aos
de formacin, as como la lnea recta generada al efectuar una re-
gresin del logaritmo de los ingresos semanales sobre los aos de
formacin (representada con trazo discontinuo).

X (los datos proceden del censo de Estados Unidos de 1980). Aunque


presenta ciertas irregularidades, la FVEC de ingresos sobre escolari-
dad muestra una tendencia ascendente muy marcada, con una pen-
diente promedio de alrededor de 0,1. Dicho de otro modo, cada ao
de escolaridad va asociado a ingresos que son un 10% superiores en
promedio.
Muchas de las FVEC que nos interesan involucran ms de una
variable condicional, cada una de las cuales puede adoptar dos o ms
valores. Escribimos
E[Yi|X 1i ,,X Ki]

para una FVEC con K variables condicionales. Cuesta ms repre-


sentar grficamente una FVEC con muchas variables condicionales,
pero la idea es la misma. E[Yi|X 1i ,,X Ki] da el promedio poblacional
de Yi cuando estas otras K variables se mantienen fijas. En lugar de fi-
jarnos en los ingresos promedio condicionados slo a la escolaridad,
podramos considerar tambin celdas condicionales definidas, por
ejemplo, por edad, raza o gnero.

101

ECONOMETRIA.indd 101 04/05/16 13:06


Dominar la econometra

Regresin y la FVEC

La tabla 2.1 ilustra la filosofa del emparejamiento al comparar estu-


diantes que asistieron a centros pblicos o privados, habiendo distri-
buido previamente a los estudiantes en celdas segn las universidades
en las que presentaron sus solicitudes, y en las que fueron admitidos.
El grueso del captulo se dedica a explicar cmo la regresin ofrece
un modo rpido y fcil de automatizar esas comparaciones en grupos
de individuos concordes. Aqu usaremos la FVEC para hacer una in-
terpretacin ms rigurosa de la regresin.18
Las estimaciones por regresin de la ecuacin (2.2) que constan
en la tabla 2.3 sugieren que acudir a una universidad privada carece
de relacin con los ingresos medios, una vez se han fijado la nota
individual en las pruebas de acceso, los ingresos paternos y el nivel
selectivo de las universidades que se solicitan y en las que se ingresa.
Como simplificacin supongamos que la FVEC del logaritmo de los
ingresos fuera una funcin lineal de estas variables condicionales. En
concreto admitamos que

E[en Yi|Pi , GROPUPi , SATi , en PIi] = (2.6)


= + Pi + jGROPUPji + 1SATi + 2 en PIi ,
j

donde las letras griegas, como siempre, son parmetros. Si la FVEC


de lnYi es una funcin lineal de las variables condicionales, como en
la ecuacin (2.6), la regresin de lnYi sobre esas mismas variables
condicionales estima esa funcin lineal. (No damos una prueba de-
tallada de este hecho, aunque no es complicada.) En particular, si
hay linealidad, el coeficiente de Pi en la ecuacin (2.2) ser igual al
coeficiente de Pi en la ecuacin (2.6).
Con una FVEC lineal, las estimaciones por regresin de los efectos
de estudiar en un centro privado basados en la ecuacin (2.2) tam-
bin resultan idnticas a las que se obtendran mediante una estrate-
gia que (i) agrupara a los estudiantes segn los valores de GROUPi ,
SATi y lnPi ; (ii) comparara dentro de cada grupo los ingresos prome-
dio de los estudiantes que asistieron a centros privados (Pi = 1) con

18 Puede consultarse una explicacin ms detallada en el captulo 3 de Angrist

y Pischke, Mostly Harmless Econometrics, 2009.

102

ECONOMETRIA.indd 102 04/05/16 13:06


Regresin

los que acudieron a centros pblicos (Pi = 0) para cada combinacin


posible de las variables condicionales, y (iii) produjera un promedio
simple promediando todas estas comparaciones concretas dentro de
las celdas. Para ver esto basta usar la ecuacin (2.6) y escribir las com-
paraciones especficas dentro de cada celda como

E[en Yi|Pi = 1, GROPUPi , SATi , en PIi] =


E[en Yi|Pi , = 0, GROPUPi , SATi , en PIi]= .

Como nuestro modelo lineal para la FVEC admite que el efecto de


acudir a un centro privado es igual a la constante en todas las cel-
das, cualquier promedio ponderado de comparaciones concretas de
celda sobre este aspecto tambin resultar igual a .
Los modelos lineales nos ayudan a comprender la regresin, pero
la regresin es una herramienta fabulosamente flexible, que puede
emplearse con independencia de que la FVEC subyacente sea o no
lineal. La regresin hereda esta flexibilidad del siguiente par de pro-
piedades tericas muy relacionadas entre s:

Si E[Yi|X 1i ,,X Ki] = a + Kk=1 bk Xki para algunas constantes a y


b1,,bK , entonces la regresin de Yi sobre X 1i ,,X Ki tiene orde-
nada en el origen a y pendientes b1,,bK . Es decir, si la FVEC de
Yi condicionada a X 1i ,,X Ki es lineal, entonces la regresin de Yi
sobre X 1i ,,X Ki nos estima esa funcin.
Si E[Yi |X 1i ,,X Ki] es una funcin no lineal de las variables con-
dicionales, entonces la regresin de Yi sobre X 1i ,,X Ki consti-
tuye la mejor aproximacin lineal a esta FVEC no lineal en el
sentido de que minimiza la desviacin cuadrtica media espe-
rada entre los valores ajustados mediante un modelo lineal y
la FVEC.

En resumen: si la FVEC es lineal, la regresin da con ella; si no es


lineal, la regresin encuentra una buena aproximacin a la misma.
Acabamos de usar la primera propiedad terica para interpretar las
estimaciones por regresin de los efectos de las universidades priva-
das cuando la FVEC es lineal. La segunda propiedad nos dice que
podemos esperar que las estimaciones mediante una regresin de

103

ECONOMETRIA.indd 103 04/05/16 13:06


Dominar la econometra

los efectos de un tratamiento estn cerca de las que obtendramos


agrupando de acuerdo con los valores de las variables y luego prome-
diando las diferencias entre el tratamiento y el control de cada celda,
incluso aunque la FVEC no sea lineal.
La figura 2.1 ilustra el modo en que la regresin se aproxima
a la FVEC no lineal del logaritmo de los ingresos condicionada a la
formacin acadmica. Aunque la FVEC oscile en torno a la lnea de
regresin, esta lnea capta la fuerte relacin positiva que existe entre
la formacin acadmica y los salarios. Adems, la pendiente de la re-
gresin resulta cercana a E {E[Yi|Xi] E[Yi|Xi 1]}, es decir, la pendien-
te de la regresin tambin se acerca al efecto esperado de un cambio
del valor de Xi en una unidad en E[Yi|Xi].19

Regresin simple y covarianza

La regresin est estrechamente ligada al concepto estadstico de co-


varianza (o covariancia). La covarianza entre dos variables, Xi y Yi , se
define como

C(Xi ,Yi) = E [(Xi E[Xi])(Yi E[Yi])].

La covarianza tiene tres propiedades importantes:

(i) La covarianza de una variable consigo misma es su varianza;


C(Xi ,Xi) = X 2.
(ii) Si el valor esperado de una de las dos variables, Xi o Yi , es 0,
entonces la covarianza entre ellas es el valor esperado de su
producto; C(Xi ,Yi) = E[XiYi].
(iii) La covarianza entre funciones lineales de las variables Xi e Yi
(definidas como Wi = a + bXi , Zi = c + dYi) mediante las constan-
tes a, b, c, d, viene dada por

C(Wi , Zi) = bd C(Xi ,Yi).

19 La cantidad entre corchetes, E[Y |X ] E[Y |X 1], es una funcin de X y, por


i i i i i
tanto, al igual que la variable Xi , posee un valor esperado.

104

ECONOMETRIA.indd 104 04/05/16 13:06


Regresin

La conexin ntima entre la regresin y la covarianza se puede ver


en un modelo de regresin simple, es decir, una regresin con un regre-
sor, Xi , ms una ordenada en el origen.20 La pendiente y la ordenada
en el origen de la regresin simple son los valores de a y b que mi-
nimizan la correspondiente suma cuadrtica de residuos (SCR), que
escribimos como

SCR(a,b) = E[(Yi a bXi)2].

La expresin SCR se refiere a la suma de cuadrados, porque a la


hora de efectuar la minimizacin en una muestra concreta se susti-
tuye el valor esperado por una media simple, o una suma. La solu-
cin en el caso de dos variables es

C(Yi , Xi)
b = = (2.7)
V(Xi)

= = E[(Yi] E[Yi].

La ecuacin (2.7) implica que cuando hay dos variables no correlacio-


nadas (con covarianza mutua 0), la regresin de cualquiera de ellas
sobre la otra arroja una pendiente nula. Del mismo modo, una pen-
diente en una regresin simple nula significa que las dos variables no
estn correlacionadas.

Ajustes y residuos

La regresin separa cualquier variable dependiente en dos partes. En


concreto, para la variable dependiente Yi podemos escribir

Yi = Yi + ei .

20 Mientras que en ingls, cuando en la regresin intervienen dos variables,

una dependiente en el primer miembro y una explicativa en el segundo miembro,


se suele hablar, en traduccin literal, de regresin bivariada hemos preferido
mantener el uso habitual en castellano y hablar de regresin simple A los mo-
delos de regresin multivariada, que aaden ms variables explicativas a este
esquema bsico, los llamamos de regresin mltiple, siguiendo la costumbre en
castellano. (N. del E.)

105

ECONOMETRIA.indd 105 04/05/16 13:06


Dominar la econometra

El primer trmino, i , representa los valores ajustados y se acostum-


bra a decir que es la parte de Yi explicada por el modelo. La segun-
da parte, ei , el residuo, es lo que sobra.
Los residuos de la regresin y los regresores incluidos en el mo-
delo que los produce son cantidades no correlacionadas. Es decir,
si ei es el residuo de una regresin con variables X 1i ,,X Ki , entonces
la regresin de ei con estas mismas variables producir coeficientes
que sern todos ellos nulos. Como los valores estimados son una
combinacin lineal de los regresores, se concluye que tampoco es-
tn correlacionados con los residuos. Pasemos a resumir estas im-
portantes propiedades.

Propiedades de los residuos Supongamos que y 1,,K son la


ordenada en el origen y las pendientes que resultan de efectuar la
regresin de Yi sobre X 1i ,,X Ki . Los valores estimados de esta regre-
sin son:
K
Yi = + k Xki ,
k=1

y los correspondientes residuos de la regresin son:

K
ei = Yi Yi = Yi k Xki .
k=1

Los residuos de la regresin

(i) tienen valor esperado y media muestral nulos: {insertar aqu


la frmula con la que termina el punto (i), justo al final de la
pgina 87};
(ii) no estn correlacionados, tanto a nivel de poblacin como
de muestra, con los regresores de los que se derivan, ni con
los valores estimados correspondientes. Es decir, para cada
regresor X ki ,
n n
E[X kiei] = Xki ei = 0; E[Yi ei ] = Yi ei = 0,
i=1 i=1

Estas propiedades podran parecernos un artculo de fe, pero son


fciles de deducir si se sabe un poco de anlisis matemtico. Se parte

106

ECONOMETRIA.indd 106 04/05/16 13:06


Regresin

del hecho de que los parmetros de la regresin y los valores estima-


dos minimizan la suma de residuos cuadrticos. Las condiciones de
primer orden de este problema de minimizacin son equivalentes a
los puntos (i) y (ii) anteriores.

Regresin con variables binarias

Un caso especial y muy importante de regresin es el de la regresin


simple en la que uno de los regresores es una variable binaria. El valor
esperado condicionado de Yi dado el valor de una variable binaria, Zi ,
puede adoptar dos valores. Escritos con letras griegas se veran as:

E[Yi|Zi = 0] =
E[Yi|Zi = 1] = + ,

de manera que

= E[Yi|Zi = 1] E[Yi|Zi = 0]

representa el cambio del valor esperado de Yi cuando el regresor bi-


nario Zi se activa o se desactiva.
Con esta notacin podemos escribir

E[Yi |Zi] = E[Yi |Zi = 0] + (E[Yi |Zi = 1] E[Yi |Zi = 0])Zi


= + Zi . (2.8)

Esto indica que E[Yi|Zi] es una funcin lineal de Zi , con pendiente


y ordenada en el origen . Como la FVEC con una nica variable
binaria es lineal, la regresin ajusta esta funcin perfectamente. En
consecuencia, la pendiente de la regresin debe ser tambin = E[Yi|Zi =
=1] E[Yi|Zi = 0], la diferencia entre los valores esperados de Yi cuan-
do Zi se activa o desactiva.
La importancia de la regresin con variables binarias se debe a
la frecuencia con que encontramos este tipo de regresores, como en
nuestros anlisis de los seguros mdicos o de los tipos de centros edu-
cativos en los que se cursan los estudios.

107

ECONOMETRIA.indd 107 04/05/16 13:06


Dominar la econometra

Anatoma de la regresin y la frmula del SVO

Las regresiones ms interesantes son las mltiples, es decir, las que in-
cluyen una variable causal de inters y una o ms variables de control.
Por ejemplo, la ecuacin (2.2) plantea una regresin del logaritmo de
los ingresos sobre una variable binaria que marca si se ha asistido o
no a una universidad privada, en un modelo que incorpora controles
para las aptitudes individuales, el contexto familiar y el nivel selectivo
de los centros en los que se solicita la admisin y en los que se logra el
acceso. Ya hemos explicado que el control de las variables explicativas
se parece al proceso de emparejamiento. Es decir, el coeficiente de
regresin de una variable binaria que indique el acceso a una univer-
sidad privada en un modelo que incluya controles es similar al que
se obtendra si distribuyramos a los estudiantes en celdas sobre la
base de esos mismos controles, comparramos a los estudiantes de
centros pblicos y privados dentro de esas celdas, y luego tomramos
el promedio del conjunto resultante de las comparaciones condicio-
nadas. A continuacin, ofrecemos una leccin de anatoma de la
regresin ms detallada.
Supongamos que la variable causal de inters es X 1i (podra ser
una variable binaria que indicase si se estudi o no en un centro
privado), y que la variable de control es X 2i (podra ser la nota en las
pruebas de acceso a la universidad). Tras cierto esfuerzo se puede lle-
gar a la expresin siguiente para el coeficiente de X 1i en una regresin
con X 2i como control:
~
C(Yi , X 1i)
1 =
~ ,
V(X u)
~
donde X 1i representa el residuo de la regresin de X 1i sobre X 2i :

~
X 1i = 0 + 1 X 2i + X 1i .

Como siempre, los residuos no estn correlacionados con los regre-


~
sores de los que proceden, y lo mismo ocurre para el residuo X 1i . No
deber sorprender, por tanto, que el coeficiente de X 1i en una regre-
sin mltiple que incluya X 2i como control sea el coeficiente bivariado
procedente de un modelo que incluya slo la parte de X 1i que no est
correlacionada con X 2i . Esta importante ecuacin de la anatoma de

108

ECONOMETRIA.indd 108 04/05/16 13:06


Regresin

la regresin determina nuestra interpretacin de los coeficientes de


una regresin.
La idea de la anatoma de la regresin se extiende a modelos con
ms de dos regresores. El coeficiente multivariado de un regresor
dado se puede escribir como el coeficiente de una regresin simple
del residuo de ese regresor sobre al resto de regresores. Veamos la
anatoma del k-simo coeficiente en un modelo con K regresores:

Anatoma de la regresin
~
C(Yi ,X ki)
k =
~ ,
V(X ki)
~
donde X ki es el residuo de una regresin de Xki sobre las otras K 1
variables explicativas incluidas en el modelo.
La anatoma de la regresin resulta especialmente reveladora
cuando los controles son variables binarias, como en la ecuacin
(2.2). Para los fines de esta explicacin podemos simplificar el mo-
delo de inters para que queden slo variables de control binarias,
es decir,
150
en Yi = + Pi + j GROUPji + ej . (2.9)
j =1

La anatoma de la regresin nos dice que el coeficiente de Pi en el


modelo con 150 variables binarias de control GROUPji es el coeficien-
~
te que resultara de una regresin de P i , smbolo que representa el
residuo de una regresin de Pi sobre el conjunto constante de las
150 variables binarias GROUPji .
Ser de ayuda aadir ahora un segundo subndice para sealar
los grupos, y no slo los individuos. En este esquema, lnYij es el lo-
garitmo de los ingresos del graduado universitario i en el grupo de
selectividad j, mientras que Pij representa el tipo de escolarizacin
universitaria (privada o pblica) de este mismo graduado. Cul es el
~
residuo P ij que resulta de la regresin auxiliar de Pij sobre el conjun-
to de 150 variables binarias de grupos selectivos? Como la regresin
~
auxiliar que genera P ij incluye un parmetro para cada posible valor
de la FVEC subyacente, esta regresin reproduce a la perfeccin la
FVEC de Pij condicionada al grupo selectivo. (Aqu estamos exten-

109

ECONOMETRIA.indd 109 04/05/16 13:06


Dominar la econometra

diendo el resultado acerca de las variables binarias descrito por la


ecuacin [2.8] a regresiones sobre variables binarias que describen
una variable categorizada que adopta muchos valores, y no slo dos.)
En consecuencia, el valor estimado por la regresin de Pij sobre todo
el conjunto de variables binarias de grupo selectivo ser el nivel me-
dio de asistencia a escuelas privadas dentro de cada grupo. Para el
solicitante i en el grupo j, el residuo de la regresin auxiliar ser por
~
tanto P ij = Pij P j, donde P j representa la media de asistencia a centros
privados dentro del grupo selectivo j, al que pertenece el sujeto i.
Para terminar, si se renen todas las piezas, la anatoma de la re-
gresin nos dice que el parmetro en el modelo de regresin mlti-
ple descrito por la ecuacin (2.9) es:
~
C(en Yij, P ij) C(en Yij, Pij P ij)
=
~ = .
(2.10)
V(P ij) V(Pij P ij)

Esta expresin pone de manifiesto que la regresin sobre la asistencia


a universidades privadas con controles binarios para grupos selecti-
vos es tambin un proceso que se realiza dentro de cada grupo, justo
igual que si hubiramos organizado a mano a los estudiantes en gru-
pos y hubiramos comparado a los estudiantes de centros pblicos y
privados dentro de cada grupo: la variacin entre grupos se elimina
~
al restar P j para construir los residuos P ij. Adems, como sucede con
los grupos C y D de la tabla 2.1, la ecuacin (2.10) implica que los
grupos de solicitantes en los que todos sus integrantes acuden, o bien
a un centro pblico, o bien a uno privado, no aportan informacin

sobre los efectos de estudiar en universidades privadas, porque Pij P j
es cero para todos los miembros de tales grupos.
La frmula del SVO, usada al final de este captulo (apartado 2.3)
para interpretar las estimaciones de modelos con conjuntos diferen-
tes de controles, ilustra otra prestacin reveladora de la anatoma de
la regresin. Llamemos l , coeficiente de regresin larga, al coeficien-
te de X 1i en un modelo de regresin mltiple que incluya X 2i como
control:

Yi = l + l X 1i + X 2i + e il .

Y llamemos s al coeficiente de X 1i en un modelo de regresin simple


(es decir, que no incluye X 2i):

110

ECONOMETRIA.indd 110 04/05/16 13:06


Regresin

Yi = s + s X 1i + e il .

La frmula del SVO describe la relacin entre los coeficientes de las


regresiones simple y larga del modo siguiente.

frmula del sesgo de variables omitidas (svo)

s = l + 21 ,

donde es el coeficiente de X 2i en la regresin larga, y 21 el coefi-


ciente de X 1i en una regresin de X 2i sobre X 1i .21 Si se expresa con
palabras: simple igual a larga ms el efecto de la omitida por la regresin de
la omitida sobre la incluida.

Vale la pena deducir esta frmula crucial. La pendiente del modelo


simple es:
C(Yi , X 1i)
s = . (2.11)
V(X 1i)

Si en lugar de Yi se coloca el modelo largo en la ecuacin (2.11), se


obtienen
C(l + 1l X 1i + X 2i + e il , X 1i)

V(X 1i)
1l V(X 1i) + C(X 2i , X 1i) + (e il , X 1i)
=
V(X 1i)
C(X 2i , X 1i)
= 1l + = 1l + 21.
V(X 1i)

La primera igualdad procede del hecho de que la covarianza de una


combinacin lineal de variables es la correspondiente combinacin
lineal de covarianzas, tras recolocar los trminos. Tambin, la co-
varianza de una constante con cualquier otra cosa es cero, y la cova-
rianza de una variable consigo misma es la varianza de la variable. La
segunda igualdad se justifica porque C(eil , X 1i) = 0, dado que los resi-

21 La frmula de la anatoma de la regresin se deduce de un modo similar, as

que aqu mostramos todos los pasos solamente para el SVO.

111

ECONOMETRIA.indd 111 04/05/16 13:06


Dominar la econometra

duos no estn correlacionados con los regresores de los que proceden


(eil es el residuo de una regresin que incluye X 1i). La tercera igualdad
define 21 como el coeficiente de X 1i en una regresin de X 2i sobre X 1i .
Con frecuencia, como en la explicacin de las ecuaciones (2.2) y
(2.5), nos interesa comparar modelos simples y largos, pero con cier-
tos controles incluidos en ambos. La frmula del SVO en este escena-
rio es una extensin trivial de la anterior. Llamemos l , coeficiente de
la regresin larga, al coeficiente de X1i en una regresin mltiple que
incluya X 2i y X 3i como controles; denominemos s , coeficiente de la
regresin simple, al coeficiente de X 1i en una regresin mltiple que
incluya slo X 3i como control (y que excluya X 2i). La frmula del SVO
en este caso se puede seguir escribiendo como

s = l + 21, (2.12)

donde es el coeficiente de X 2i en la regresin larga, pero esa regre-


sin incluye tanto X 3i como X 2i , y 21 es el coeficiente de X 1i en una
regresin de X 2i sobre X 1i y X 3i a la vez. De nuevo podemos decir: corta
igual a larga ms el efecto de la omitida por la regresin de la omitida sobre
la incluida. Dejamos para el lector la deduccin de la frmula (2.12),
un ejercicio que pondr a prueba su entendimiento de la materia (y
constituye una pregunta de examen magnfica).

Modelos logartmicos

Las regresiones tratadas en este captulo tienen este aspecto:

en Yi = + Pi + jGROUPji + 1SATi + 2 en PIi + ei ,


j

que repite la ecuacin (2.2). Qu hace ah ese lnYi en el primer


miembro? Por qu se introduce el logaritmo, y no la variable ori-
ginal tal cual? La respuesta se comprende mejor si se plantea una
regresin simple como

en Yi = + Pi + ei , (2.13)

donde Pi es una variable binaria que indica si se estudi o no en una


universidad privada. Como se trata de un caso de regresin con varia-
bles binarias, tenemos que

112

ECONOMETRIA.indd 112 04/05/16 13:06


Regresin

E[en Yi|Pi] = + Pi .

Dicho de otro modo, la regresin en este caso estima perfectamente


la FVEC.
Supongamos que introducimos una modificacin ceteris paribus en
Pi para el estudiante i. Esto conducira al resultado potencial Y0i cuan-
do Pi = 0, y al resultado potencial Y1i si Pi = 1. Si volvemos a tomar la
ecuacin (2.13) como modelo, tendremos para los logaritmos de esos
resultados potenciales

en Y0i = + ei
en Y1i = + + ei .

La diferencia de resultados potenciales es, por tanto,

en Y1i en Y0i = . (2.14)

Si se reordenan los trminos resulta

Y1i
= en
Y0i ( Y1i Y0i
= en 1 +
Y0i )
= en(1 + %Yp)
%Yp ,

donde %Yp representa el porcentaje de cambio en el resultado poten-


cial inducido por Pi . El anlisis matemtico nos dice que en(1 + %Yp)
est muy cerca de %Yp, si esta ltima cantidad es pequea. De aqu se
concluye que la pendiente de la regresin en un modelo con enYi en el
primer miembro da aproximadamente el porcentaje de cambio en Yi
inducido por un cambio en el regresor correspondiente.
Para calcular el porcentaje exacto de cambio inducido por una
alteracin en Pi tomamos la exponencial de ambos miembros de la
ecuacin (2.14)
Y1i
= exp(),
Y0i

de modo que

113

ECONOMETRIA.indd 113 04/05/16 13:06


Dominar la econometra

Y1i Y0i
= exp() 1.
Y0i

Cuando es menor que, aproximadamente, 0,2, entonces exp() 1


se parece lo suficiente a como para que est justificado referirse a
esta ltima cantidad como un cambio porcentual.22
Quiz usted se encuentre con maestros que describen los coe-
ficientes que resultan de una regresin logartmica-lineal como
puntos logartmicos. Esta terminologa recuerda al auditorio que
la interpretacin en trminos de puntos porcentuales es slo apro-
ximada. En general, los puntos logartmicos subestiman el cambio
porcentual, es decir,

< exp() 1,

donde la diferencia entre ambas cantidades aumenta a medida que


crece . Por ejemplo, cuando = 0,05, entonces exp() 1 = 0,051,
pero cuando = 0,3 entonces exp() 1 = 0,35.

Errores tpicos de la regresin e intervalos de confianza

Nuestro tratamiento de la regresin ha ignorado en buena medida el


hecho de que nuestros datos provienen de muestras. Como ya indica-
mos en el apndice del captulo primero, las estimaciones resultantes
de regresiones muestrales, al igual que las medias muestrales, estn
sujetas a la varianza muestral. Imaginamos que la relacin subyacente
cuantificada por la regresin es de carcter fijo y no aleatorio, pero
contamos con que se manifiesten diferencias al calcular las estimacio-
nes de esa relacin cuando se empleen muestras distintas extradas
de la misma poblacin. Supongamos que queremos definir la rela-
cin entre los ingresos de los graduados universitarios y el tipo de
universidad al que asistieron. Es poco probable que dispongamos
de datos sobre la totalidad de la poblacin de graduados. Por lo tan-
to, en la prctica, se trabaja con muestras extradas de la poblacin de

22 La interpretacin en trminos de cambio porcentual de modelos de regre-

sin logartmicos no requiere establecer una comparacin de resultados potencia-


les, pero resulta ms sencilla de explicar de este modo.

114

ECONOMETRIA.indd 114 04/05/16 13:06


Regresin

inters. (Incluso aunque tuviramos informacin completa sobre la


poblacin estudiantil de un ao, estudiantes diferentes conformarn
esa poblacin en otros aos.) El conjunto de datos analizado para
alcanzar las estimaciones de las tablas (2.2)-(2.5) se basa en una de
tales muestras. Nos gustara cuantificar la varianza muestral corres-
pondiente a estas estimaciones.
Como suceda con la media muestral, la varianza muestral de
un coeficiente de regresin se mide por medio de su error tpico.
El apndice del captulo 1 explica que el error tpico de una media
muestral es:

SE(Y n) = .

n

El error tpico de una pendiente estimada mediante regresin simple


circunflejo tiene un aspecto similar y se puede escribir como

c 1
SE(n) =
,
n c

donde e es la desviacin tpica de los residuos de la regresin, y X la


desviacin tpica del regresor Xi .

6
Y

0
0 2 4 6 8 10
X

Figura 2.2. La varianza en X es buena.

115

ECONOMETRIA.indd 115 04/05/16 13:06


Dominar la econometra

Igual que el error tpico de una media muestral, los errores tpicos
de una regresin decrecen cuando aumenta el tamao de la mues-
tra. Los errores tpicos crecen (es decir, las estimaciones de la regre-
sin resultan menos precisas) cuando los residuos presentan una va-
rianza grande. Esto no debe sorprender, porque una gran varianza
en los residuos significa que la regresin no da un buen ajuste. Por
otra parte, la variabilidad de los regresores es beneficiosa: cuando
se incrementa X se hace ms precisa la pendiente estimada. Esto se
aprecia en la figura 2.2, la cual revela que al aadir variabilidad a Xi
(en concreto, al aadir las observaciones representadas en gris) se
contribuye a realzar la pendiente que vincula Yi con Xi .
La frmula de la anatoma de la regresin para las regresiones
mltiples se puede trasladar a los errores tpicos. En un modelo mul-
tivariado como este:
k
Yi = + k Xki + ei ,
k=1

el error tpico para la pendiente k-sima, k , es


e 1 ,
SE(k) =
(2.15)
n ~
Xk

~
donde X~k es la desviacin tpica de X ki , el residuo de una regresin
de Xki sobre el resto de regresores. Aadir controles conlleva dos efec-
tos opuestos sobre SE(k). La varianza de los residuos (e en el nu-
merador de la frmula del error tpico) cae cuando se aaden a la
regresin variables explicativas para predecir Yi . Por el contrario, la
~
desviacin tpica de X ki en el denominador de la frmula del error
tpico es menor que la desviacin tpica de X ki , lo que incrementa el
error. El aadido de variables explicativas explica parte de la varia-
cin de otros regresores, y esta variacin se elimina en virtud de la
anatoma de la regresin. La interrelacin entre estos cambios hacia
arriba o hacia abajo puede conducir tanto a una mejora como a un
empeoramiento de la precisin.
Los errores tpicos que se calculan por medio de la ecuacin
(2.15) se consideran hoy da pasados de moda, y no se suelen mos-
trar en pblico. Esa frmula antigua da por supuesto que la varianza
de los residuos no guarda relacin con los regresores o, como dicen
los maestros, los residuos son homocedsticos. Cuando los residuos son

116

ECONOMETRIA.indd 116 04/05/16 13:06


Regresin

homocedsticos, las estimaciones que resultan de la regresin son


estadsticamente eficientes. Sin embargo, esta condicin podra no
satisfacerse, y por eso los iniciados prefieren hoy da emplear una
frmula ms complicada llamada de los errores tpicos robustos.
La frmula de los errores tpicos robustos se puede escribir como

1 V(Xkiei)
RSE() =
. (2.16)
n (X2~ )2 k

Los errores tpicos robustos tienen en cuenta la posibilidad de que la


curva de regresin ajuste mejor o peor para distintos valores de Xi ,
circunstancia en la que se dice que los residuos son heterocedsticos.
Pero si al final resultara que los residuos fueran homocedsticos, en-
tonces el numerador de la frmula robusta se simplificara:

~ ~
V(X kiei) = V(X ki)V(ei) = X2~k 2e .

En este caso, las estimaciones de RSE() deberan parecerse a las


de SE(), porque los errores tpicos tericos son entonces idnticos.
Pero si los residuos son realmente heterocedsticos, entonces las es-
timaciones de RSE() suelen brindar una medida ms acertada (y
normalmente algo mayor) de la varianza muestral.23

23 La distincin entre los errores robustos y los errores tpicos ya pasados de

moda para las estimaciones por regresin, se parece a la distincin (comentada en


el apndice del captulo 1) entre los estimadores de los errores tpicos para la dife-
rencia de dos medias que usan estimaciones comunes o independientes de Y2 para
la varianza de los datos de los grupos de tratamiento y de control.

117

ECONOMETRIA.indd 117 04/05/16 13:06


ECONOMETRIA.indd 118 04/05/16 13:06

Vous aimerez peut-être aussi