Método de Imputación de Los Valores No Observados. Una Aplicación en El Análisis de La Importancia de Las Becas Escolares

Mtodo de imputacin de los valores no observados.
Una aplicacin en el anlisis de la importancia de las becas escolares
Mauro Mediavilla
Universitat de Valncia & IEB & GIPE
(Mauro.Mediavilla@uv.es)
Segunda versin: abril 2012
Abstract
La estimacin de una base de datos con observaciones faltantes (missings values) genera un fenmeno de
attrition que puede cambiar el grado de significatividad de las variables, disminuir la robustez en
trminos de eficiencia de los resultados obtenidos e incrementar la posibilidad de una mala especificacin
del modelo final estimado. El objetivo del trabajo es comprobar la importancia de la imputacin de las
observaciones faltantes mediante dos metodologas (la imputacin a la media y la imputacin mltiple)
como vas para obtener estimaciones ms robustas. Para ello se realiza un anlisis comparativo
empleando los resultados obtenidos en el anlisis descriptivo y de regresin logstica.
Los resultados muestran el incremento en la eficiencia de la estimacin en el caso de las bases imputadas
entendida como una reduccin del error estndar y una mejora en los indicadores de bondad del ajuste.
Por otra parte, los cambios en los signos y la significatividad de algunas variables observadas son un claro
ejemplo de las diferencias que se pueden llegar a producir como consecuencia de estimar con bases de
datos imputadas o no. Estos resultados pueden provocar la estimacin de un modelo no correctamente
especificado. La principal conclusin que se deriva es que resulta recomendable imputar aquellas bases de
datos con observaciones faltantes y, dentro de las metodologas de imputacin aqu presentadas, la
imputacin mltiple da muestra de una mayor eficiencia. Asimismo, y sobre todo para bases no muy
amplias (menos de 1000 observaciones, por ejemplo), la imputacin no slo permite una mayor precisin
en los coeficientes sino que evita interpretaciones errneas de los fenmenos econmicos analizados fruto
de una base de datos, efectivamente estimada, que slo parcialmente refleja a la poblacin objetivo.
Palabras Clave: observaciones perdidas, imputacin mltiple, eficiencia en la estimacin.
1
1. Introduccin
Habitualmente, la literatura emprica en el campo de la economa aplicada basa sus

estimaciones poblaciones que slo contienen las observaciones con informacin vlida para
todas las variables implicadas, eliminando toda aquella informacin considerada parcial. Como
consecuencia de esta prdida de informacin se pueden originar dos problemas: una prdida de
eficiencia y un incremento en la probabilidad de llegar a una mala especificacin del modelo.
En el primer caso, se puede generar un incremento de la varianza y en los desvos estndar,
adems de aumentar la probabilidad de realizar estimaciones a partir de una muestra
escasamente representativa de la poblacin analizada. En este sentido, si bien la potencial
disminucin de las observaciones no tiene por qu ser un problema en si misma, la
representatividad se ve afecta cuando este fenmeno influye no aleatoriamente en las variables
con valores no observados. En el segundo caso, se considera que un modelo estimado con bases
de datos con problemas de informacin podra inducir al investigador a escoger una estructura
modelstica que no responda a la realidad de la muestra incurriendo en dos posibles problemas:
omisin de variables relevantes (infraespecificacin) y/o inclusin de variables irrelevantes
(sobreespecificacin). Las consecuencias directas implican calcular estadsticos t y F
distorsionados (Maddala, 1996).
En un intento por mejorar las estimaciones realizadas, algunos autores han sugerido que
la manera ms adecuada para disminuir estos potenciales problemas era substituyendo los
valores perdidos mediante algunas de las tcnicas de imputacin desarrolladas (Schafer, 1999;
Acock, 2005).
Con el objeto de comprobar las ventajas de la imputacin, en el presente trabajo se

desarrollaran tres metodologas de imputacin y su aplicabilidad segn sea el patrn seguido por
las variables con valores perdidos. Asimismo, se plantea un caso prctico -relevancia de las
becas en el logro educativo de los individuos en el nivel secundario post-obligatorio en Espaa-
que permite al lector observar las principales diferencias obtenidas a partir de una misma base
de datos original que se ve modificada segn sea la opcin de imputacin escogida siguiendo la
idea planteada por Allison (Allison, 2000).
Los resultados obtenidos en el anlisis descriptivo y en la regresin logstica posterior

indican que, en relacin con la no imputacin, las metodologas de imputacin de datos faltantes
mejoran la eficiencia en la estimacin y obtienen una mayor bondad del ajuste. Resulta
trascendente, desde el punto de vista de la interpretacin de los propios resultados, algunos
cambios de signo y de significatividad ocurridos. Los mismos implican que las metodologas de
2
imputacin, y especialmente aquella que emplea la imputacin mltiple, al trabajar con toda la
informacin disponible mejoran los resultados obtenidos y permiten al investigador obtener
resultados ms robustos.
El trabajo se inicia con una breve revisin terica de las diferentes metodologas de
imputacin haciendo hincapi en la importancia de conocer el patrn por el cual se generan los
valores perdidos. En el captulo 3, se introduce el caso prctico con el cual se comparan las tres
metodologas de imputacin utilizadas. En el captulo 4, se realiza la comparacin de las
estimaciones resultantes y, en el captulo final, se introducen las principales conclusiones.
2. Anlisis de los datos perdidos
La presencia de informacin faltante es un problema constante con el que deben lidiar

los investigadores en las diferentes reas de la economa aplicada. La misma se puede originarse
por un registro defectuoso de la informacin, por la falta de respuesta a las preguntas del
encuestador (sea la misma total o parcial) o, directamente, por la ausencia natural de la
informacin (Allison, 2001; Perez, 2004). Su tratamiento estadstico obliga a la seleccin de una
metodologa de imputacin que debe ser el resultado natural de un anlisis previo sobre el
patrn por el cual se generan los valores perdidos.
2.1 Patrones de comportamiento de los valores perdidos
En primer lugar, se puede determinar que el patrn seguido por los valores perdidos es
totalmente aleatorio (MCAR, Missing Completely At Random) o establecer un supuesto no tan
restrictivo indicando que su generacin ha sido de manera aleatoria (MAR, Missing At
Random). En este caso, los valores perdidos pueden ser determinados a partir de otras variables
observables siguiendo la siguiente forma funcional:
Pr Ymiss | Y , X , Pr Ymiss | Y , X obs , ,
donde hace referencia a los parmetros desconocidos. Desafortunadamente, no existe un test

que categricamente indique si el supuesto MAR se satisface, por lo que se deben optar por vas
indirectas de control como la prueba de las correlaciones dicotmicas, el test conjunto de
aleatoriedad de Little o el anlisis de sensibilidad de la estabilidad de los resultados, inferidos a
partir de diferentes modelos de imputacin (Perez, 2004; Carpenter, 2007). Por ltimo, se puede
3
suponer que los valores perdidos fueron generados de manera no aleatoria (MNAR, Missings
Not At Random), por lo que seguiran un patrn sistmico especfico (Rubin, 1976).
En el siguiente apartado se detallan las principales opciones de imputacin existente en

la literatura y su aplicabilidad segn el patrn que se suponga que siguen los valores perdidos.
2.2. Diferentes metodologas de imputacin1
2.2.1 Imputacin Listwise (eliminacin)
En primer lugar, la eliminacin directa es una tcnica comnmente empleada en el

anlisis emprico, en la cual se elimina la fila donde existe un vaco de informacin. Con el
objeto de obtener una base completa slo con valores originariamente vlidos se provoca una
reduccin de la base de datos inicial (Perez, 2004). En caso de suponer un patrn MCAR, la
eliminacin directa de las observaciones generara una muestra ms pequea pero an
representativa, lo que permitira una estimacin no sesgada de los estimadores. An as, este
proceso conllevara una prdida de informacin y un incremento en los errores estndar. No
obstante, si la base de datos no sigue un patrn MCAR, tal eliminacin introduce un sesgo a la
hora de la estimacin de los parmetros, que afecta la eficiencia de la propia estimacin y podra
inducir a una mala especificacin del modelo utilizado (Howell, 2007).
2.2.2 Imputacin determinstica: imputacin a la media
En segundo lugar, la imputacin determinstica se basa en la sustitucin del dato

perdido por la media de las observaciones vlidas. Si bien su aplicacin es muy sencilla, tiene
como desventaja que modifica la distribucin de la variable reduciendo artificialmente su
varianza, efecto que no debe sorprender dado que se incrementa artificialmente la muestra sin
agregar informacin (Howell, 2007). El fundamento terico para su empleo est basado en el
hecho de que ambos parmetros seran un valor esperado en el caso de una observacin
seleccionada al azar de una distribucin normal. En el caso de valores perdidos con un patrn no
estrictamente al azar (MAR o MNAR), esta metodologa genera valores que reflejan
escasamente los valores originales.
1
Otros mtodos empleados para imputar valores perdidos y aqu no desarrollados son la imputacin
HotDecking propuesta por Todeschini (1990) que propone estimar los valores perdidos mediante una
estimacin basada en sus k-vecinos ms prximos, la imputacin pairwise deletion y la substitucin
va regresin.
4
Existen algunas variantes en su aplicacin que intentan ajustar mejor los valores
imputados mediante esta tcnica. En primer lugar, dividiendo la base de datos por secciones con
diferente media y a cada registro perdido imputndosele la media correspondiente. En segundo
lugar, creando una variable dummy por cada variable que contenga valores perdidos que
indiquen si la fila contiene alguna variable imputada. Las mismas se introducen en las
estimaciones posteriores y sus coeficientes estaran indicando la existencia de un efecto missing
en la estimacin del parmetro de inters (Acock, 2005). Ambas opciones se pueden aplicar
simultneamente. Asimismo, en caso de existir valores extremos en las variables a imputar se
deberan sustituir los valores ausentes por la mediana, estadstico ms robusto para este caso en
particular2.
2.2.3 Imputacin estocstica: imputacin mltiple3
La tcnica de imputacin mltiple, si bien es conocida desde la dcada de 1970 (Rubin,

1976), su desarrollo y aplicacin se ha ido extendiendo en los ltimos aos como consecuencia,
principalmente, de dos factores. En primer lugar, a causa de su introduccin en los programas
economtricos que han permitido su generalizacin entre la comunidad acadmica (Little y
Rubin, 1987; Rubin, 1996; Van Buuren et al., 1999; Royston, 2004, 2005; Reiter y
Raghunathan, 2007). En segundo lugar, a partir de la publicacin de diferentes estudios que han
demostrado las ventajas de la imputacin mltiple frente a los procedimientos tradicionales de
tratamiento de los valores perdidos (Gmez y Palarea, 2003; Acock, 2005; Ambler y Omar,
2007).
Esta tcnica, de caracterstica estocstica, permite hacer un uso eficiente de los datos,
obtener estimadores no sesgados y reflejar la incertidumbre que la no-respuesta parcial
introduce en la estimacin de los parmetros (Rubin, 1996). Su aplicacin se basa en sustituir
los datos no observados por m>1 valores posibles simulados4. La aplicabilidad de este mtodo
se ha visto potenciada con la incorporacin, en su esquema general, de los mtodos de Monte
Carlo basados en cadenas de Markov, conocidos como algoritmos MICE (Multiple imputation
by chained equations)5,6. Asimismo, a la imputacin mltiple se la considera una metodologa
2
Para una explicacin de sta y otras metodologas de imputacin alternativas, vase Perez (2004; pp. 46-
48).
3
Otra metodologa de imputacin aqu no desarrollada aplica el Expectation-Maximization algorithm
(Schafer, 1997).
4
Para una explicacin terica detallada, vase Schafer (1999).
5
Otros mtodos que han sido tambin empleados son el algoritmo EM (Expectation-Maximization); la
aproximacin de Monte Carlo Newton Raspn y Monte Carlo mediante una aproximacin de mxima
verosimilitud.
5
flexible que permite trabajar con datos multivariados y con distribuciones montonas o
arbitrarias de los valores perdidos. Su aplicabilidad requiere que el patrn de distribucin de los
valores perdidos sea aleatoria (MCAR o MAR).
El proceso de imputacin mltiple consta de tres etapas. En la primera, cada valor

perdido se reemplaza por un conjunto de m>1 valores generados por simulacin, con los que se
crean m matrices de datos completas. Para generar estos valores posibles se debe establecer un
mtodo de estimacin particular para cada variable a imputar a partir de sus caractersticas
propias. En la segunda etapa, el investigador debe aplicar a cada matriz simulada el anlisis
deseado que se hubiese aplicado a la base original en caso de no haber contenido observaciones
perdidas. Por ltimo, se combinan los resultados obtenidos en cada matriz para obtener una
estimacin del parmetro estimado que, segn Rubin (1987), se llevara a cabo a partir del
clculo de la media aritmtica.
El nmero ptimo de bases de datos simuladas (m) depende del porcentaje de

informacin perdida. Si bien, hasta hace unos aos se consideraba correcto el empleo de no ms
de 10 bases imputadas para aproximar la incertidumbre asociada a la informacin no existente
(Schafer, 1999), la literatura actual considera ptimo realizar entre 3 y 20 imputaciones en caso
de tener una baja fraccin de informacin perdida (un 20% como mximo de valores perdidos)
y hasta 50 imputaciones en caso de proporciones altas de datos no observados (Van Buuren et
al., 1999; Kenward y Carpenter, 2007). Por su parte, STATA recomienda realizar un mnimo de
20 imputaciones con el objetivo de reducir los posibles errores muestrales generados a partir de
las propias imputaciones (StataCorp, 2009).
Para su uso emprico, esta metodologa ha sido trasladada a los diferentes paquetes
economtricos a partir de los trabajos de Van Buuren et al. (1999) y la implementacin directa,
en el caso de STATA 10, a travs del comando elaborado por Royston (Royston, 2004, 2005)
llamado ice, el cual permite realizar las estimaciones a partir de una distribucin arbitraria de
los datos perdidos o mediante toda una familia de comandos mi que se incorporan a partir de la
versin 11. Asimismo, se han desarrollado otras aproximaciones en el caso del programa
SOLAS, SAS y S-Plus (Horton y Lipsitz, 2001).
6
En los ltimos aos se han desarrollado extensiones, como la imputacin mltiple mediante rboles de
clasificacin (Bacallao y Bacallao, 2010).
6
3. Caso aplicado: evaluacin de la relevancia de las becas en el logro educativo en
Espaa
3.1 Base de datos empleada: Encuesta de Condiciones de Vida (ECV)
La Encuesta de Condiciones de Vida (en adelante, ECV7) es una base de datos novedosa
dirigida a hogares que viene a reemplazar el Panel de Hogares de la Unin Europea (PHOGUE),
realizado durante el periodo 1994-2001. El objetivo fundamental que se persigue con la ECV es
disponer de una fuente de referencia sobre estadsticas comparativas de la distribucin de
ingresos y la exclusin social en el mbito europeo. Aunque los datos se refieren tanto a la
dimensin transversal como a la longitudinal, se da prioridad a la produccin de datos
transversales de alta calidad en lo que respecta a la puntualidad y a la comparabilidad.
La componente longitudinal permite seguir en el tiempo a las mismas personas, estudiar

los cambios que se producen en sus vidas cuando las condiciones y las polticas
socioeconmicas se modifican, y cmo reaccionan a estos cambios. Formalmente, la ECV
comienza en 2004 (si bien algunos pases comenzaron ms tarde y otros en 2003) y los ficheros
de microdatos (tanto transversales como longitudinales) se generan con una periodicidad anual.
A partir del ao 2005 se van introduciendo mdulos adicionales en la componente transversal
sobre diferentes temas de especial inters.
Especificidades tcnicas
La poblacin de referencia son los hogares y todas las personas mayores de 16 aos que
se encuentren residiendo en un hogar dentro del territorio de los estados miembros en el
momento de realizarse la encuesta. Quedan excluidas las personas que viven en hogares
colectivos (residencias para la tercera edad, por ejemplo) o en algunos territorios que no son
incorporados por sus propios pases en la base de datos (territorios franceses fuera de sus
fronteras europeas, por ejemplo). Los datos son recogidos por cada pas mediante una
institucin que, en Espaa, es el Instituto Nacional de Estadstica (INE). Estrictamente, la
poblacin objeto de investigacin (poblacin objetivo) son las personas miembros de hogares
privados que residen en viviendas familiares principales. Aunque las personas de todas las
edades forman parte de la poblacin objetivo no todas las personas son encuestadas
exhaustivamente, ya que slo son seleccionables en este caso, los miembros del hogar con 16 o
ms aos el 31 de diciembre del ao anterior a la fecha de la entrevista.
7
EU-SILC (European Union Statistics on Income and Living Conditions), en sus siglas en ingls.
7
La base de datos proporciona de microdatos transversales y longitudinales con
informacin personalizada sobre ingresos, educacin, salud, ocupacin, entre otros, que permite
conocer las condiciones en que viven los encuestados y las posibles situaciones de pobreza y
exclusin social. En el caso de los ingresos, es de especial inters para este trabajo la
informacin relacionada con las transferencias dinerarias recibidas por el individuo en concepto
de becas y, en el caso de las variables educativas, aquellas que permiten seguir su evolucin
dentro del sistema educativo.
Caso espaol
En el caso de Espaa, la encuesta es de tipo panel rotante, es decir, al ser un panel se

investiga a las mismas unidades a lo largo de los aos pero, a diferencia del PHOGUE en que
las unidades panel eran fijas a lo largo de los ocho aos de duracin del estudio, en la ECV las
unidades panel se encuestan durante cuatro aos y luego son reemplazadas. La muestra se
compone de 4 submuestras panel, de forma que cada ao una de ellas se sustituye por una nueva
submuestra. Para la seleccin de cada submuestra se sigue un diseo bietpico con
estratificacin de las unidades de primera etapa. La primera etapa la forman las secciones
censales y la segunda etapa las viviendas familiares principales. Dentro de ellas no se realiza
submuestreo alguno, investigndose a todos los hogares que tienen su residencia habitual en las
mismas. La seleccin de la muestra se realiza a partir del Padrn Municipal de habitantes de
2003 (INE) y, por ejemplo, en la ECV 2007 la muestra transversal para Espaa cuenta con
informacin de 12.329 hogares y 34.635 individuos.
3.2. Seleccin de la muestra
Para el anlisis emprico se emplean los datos correspondientes a la Encuesta de

Condiciones de Vida (ECV)8, elaborada por EUROSTAT con datos longitudinales para el
perodo 2004-2006, publicada en 2009. Los datos disponibles hacen referencia a los pases de la
Unin Europea y en el caso espaol, la muestra comprende 58.740 individuos. Para el estudio
de impacto de las becas y ayudas al estudio en el logro educativo de los estudiantes, la variable
dependiente hace referencia al nivel educativo que posee la persona a los 19 aos (vase tabla
1).
8
Contrato n. EU-SILC/2006/19. En l se establece la obligacin, en el momento de publicar los
resultados, de comunicar lo siguiente: EUROSTAT no es responsable de los resultados y las
conclusiones, responsabilidad que corresponde al investigador.
8
Tabla 1. Variables utilizadas en el anlisis emprico
Tipo de Variable utilizada Descripcin

variable
Individuo Nivel educativo a Variable que indica el nivel educativo (ISCED-97) a los 19 aos en 2006 (a). Se
los 19 aos estructura como una dummy = 1 si la persona tiene un nivel educativo igual o superior
al de secundaria post-obligatoria (Post-oblig_con_19).
Beca Dummy Becario. Percepcin de una o ms becas/ayudas al estudio en el nivel

secundario post-obligatorio en el perodo 2004-2005 (Beca).
Gnero Dummy gnero. Toma el valor 1 si el individuo es mujer (Mujer).
Efecto calendario Dummy mes de nacimiento. Toma el valor 1 si el individuo naci en el ltimo trimestre
del ao (ltimo_Tri).
Estado de salud Dummy enfermedad crnica. Toma el valor 1 si el individuo padece una enfermedad o
incapacidad crnica (Enf_Crnica).
Orden entre Variable que hace referencia al orden que ocupa el individuo en relacin con sus
hermanos hermanos (Ejemplo: el hermano mayor tiene un nmero de orden igual a 1) (Posicin).
Padre/Madre Nivel educativo Mxima educacin lograda por el padre (ISCED-97) (Educ_Padre).
padre
Nivel educativo Mxima educacin lograda por la madre (ISCED-97) (Educ_Madre).

madre
Actividad padre Dummy activo. Toma el valor 1 si el individuo se encuentra activo (Activo_Padre).
Actividad madre Dummy activo. Toma el valor 1 si el individuo se encuentra activo (Activo_Madre).
Hogar Nmero de Variable que indica la cantidad de hermanos existentes en el hogar (Nro_Hermanos).
hermanos
Nivel de ingresos (I) Quintil de ingresos disponibles equivalentes (Quintil) (b).
Nivel de ingresos Dummy dificultades econmicas. Toma el valor 1 si el hogar declara tener problemas
(II) para asumir los gastos habituales del mes (Dificultad_Econ).
Rgimen de la Dummy propietario de la vivienda. Toma el valor 1 si los habitantes del hogar son
vivienda propietarios de la misma (Vivienda_Prop).
Problemas Dummy problemas estructurales en la vivienda. Toma el valor 1 si existen problemas

estructurales estructurales en la vivienda (Prob_Estructural).
Dimensiones del Dummy si el hogar posee ms de cuatro ambientes (Mas_4_Dep).

hogar
Grado de Dummy si el individuo vive en una zona de baja o media urbanizacin.

urbanizacin (Baja_Media_Urb).
(a) ISCED-97: International Standard Classification of Education.

(b) El ingreso equivalente se calcula teniendo en cuenta el ingreso disponible anual del hogar, el factor de
no respuesta y el tamao equivalente del hogar, el cual pondera de manera diferencial a los adultos y a los
menores del hogar (escala: OCDE modificada).
9
Si bien la edad terica para finalizar el nivel secundario post-obligatorio son los 18
aos, se ha optado por seleccionar un ao ms para evitar encontrar individuos con 18 aos que
an no tengan este nivel educativo alcanzado slo porque la encuesta se ha realizado antes de
finalizar su curso lectivo. Como variables independientes se consideran diferentes variables
relacionadas con el individuo, sus progenitores, su hogar y el entorno que lo rodea.
A partir del total de observaciones vlidas para la variable dependiente

(Post_Oblig_con_19), se genera una sub-base de datos con 783 observaciones de individuos de
19 aos durante el perodo analizado que contiene valores perdidos para algunas de las variables
independientes, bsicamente localizadas en aquellas que hacen referencia a los progenitores
(vase tabla 2), si bien en ningn caso superan el 20%.
3.3 Aplicacin de la metodologa de imputacin
3.3.1. Anlisis del patrn de comportamiento de los datos perdidos
Como paso previo al proceso de imputacin, se debe comprobar la aleatoriedad (sea

parcial o total) de los valores ausentes. En este caso, los bajos niveles de significacin obtenidos
en la prueba de las correlaciones dicotomizadas, donde las correlaciones indican el grado de
asociacin entre los valores perdidos, permiten considerar que los valores perdidos se estaran
generando aleatoriamente9. Esta conclusin permite aplicar algunas de las metodologas de
imputacin desarrolladas en la literatura emprica.
3.3.2. Metodologas tradicionales de imputacin
En primer lugar, se emplean las dos metodologas tradicionalmente utilizadas por la

literatura emprica: la eliminacin de todas las variables con observaciones faltantes (listwise) y
la imputacin con el valor de la media aritmtica.
3.3.3. Imputacin Mltiple
En segundo lugar, se aplica la imputacin mltiple para substituir los datos faltantes.
Siguiendo la literatura, se aplica una estimacin mltiple a partir del algoritmo MICE,
sistematizado para el programa STATA mediante el comando ice. La imputacin aqu aplicada
9
Previo al clculo de los coeficientes de correlacin se comprob la ausencia de valores atpicos a partir
de grficos de caja. Todo este anlisis previo se encuentra disponible para los lectores que as lo soliciten.
10
genera valores posibles a partir de una serie de modelos univariantes en los cuales una variable
nica es imputada en base a un grupo de variables.
Tabla 2. Valores perdidos en la base de datos original
N obs. vlidas N obs. missings % missings
Variable dependiente
Post_Oblig_con_19 783 0 0
Variables independientes
Individual
Beca 783 0 0
Mujer 783 0 0
ltimo_Tri 779 4 0,51
Enf_Crnica 783 0 0
Posicin 752 31 3,96
Padre / madre
Educ_Padre 662 121 15,45
Educ_Madre 714 69 8,81
Activo_Padre 672 111 14,18
Activo_Madre 748 35 4,47
Hogar
Nro_Hermanos 775 8 1,02
Quintil 783 0 0
Dificultad_Econ 783 0 0
Vivienda_Prop 783 0 0
Prob_Estructural 783 0 0
Mas_4_Dep 783 0 0
Entorno
Baja_Media_Urb 783 0 0
En este caso, y siguiendo las ltimas recomendaciones de la literatura, se han empleado

todas las variables disponibles para estimar los datos no observados y se han generado 20 bases
de datos imputadas (m=20), empleando dos aproximaciones empricas diferentes (logit y logit
ordenado) para las diferentes variables a imputar a partir de sus caractersticas particulares
(vase tabla 3). Para cada observacin perdida se generan 20 observaciones imputadas a partir
de la estimacin escogida, teniendo en cuenta que el porcentaje mximo de observaciones no
observadas es de 15,45% para el caso de la educacin del padre.
11
Tabla 3. Aproximaciones empricas utilizadas para la imputacin
Variable a imputar Caracterstica Aproximacin emprica
ltimo_Tri Dummy (0-1) Logit

Activo_Padre Dummy (0-1)
Activo_Madre Dummy (0-1)
Posicin Discreta (1-3) Logit ordenado

Educ_Padre Discreta (1-5)
Educ_Madre Discreta (1-5)
Nro_Hermanos Discreta (0-3)
3.4. Base de datos obtenida mediante las diferentes metodologas de imputacin
Para analizar descriptivamente las bases de datos obtenidas, se presentan los valores de
la media y la desviacin estndar para todas las variables utilizadas. Asimismo, y en los casos
en que la variable posea valores no observados, se calculan los valores resultantes para las tres
metodologas utilizadas: la no imputacin, la imputacin con la media aritmtica y la
imputacin mltiple. En el caso de la no imputacin, los valores surgen a partir de las
observaciones finalmente empleadas en la estimacin (en este caso, 616 observaciones) y, en el
caso de la imputacin mltiple, el valor publicado refleja el promedio de las 20 bases generadas.
En la tabla 4 se observan los resultados para la variable dependiente y las variable

independientes referidas al mbito del individuo. Teniendo en cuenta que se consideran
diferencias relevantes aquellas por encima del 4%, slo en el caso de la no imputacin existen
diferencias entre la base original y la finalmente utilizada para la estimacin. Es el caso de la
variable dependiente con una diferencia que supera el 7% y la que indica si el individuo ha
recibido o no una beca, con una diferencia superior al 10%. Asimismo, en el caso de la no
imputacin (listwise) se observa que el nmero de observaciones empleadas es de 661 con una
prdida de 122 observaciones respecto a la base original que significan un 15,58% de la muestra
original. Finalmente, conviene recalcar que si bien la estimacin mltiple se aplica en todas las
variables con valores no observados y, por tanto, hace variar el valor promedio y la desviacin
estndar, en ningn caso se obtiene una diferencia significativa en relacin a la muestra original.
12
Tabla 4. Anlisis descriptivo (I)
Media Desviacin Estndar
Original Imputada Original Imputada
Listwise I. I. Listwise I. Media I.

Media Mltiple Mltiple
(*) (*)
Var. dependiente
Post_oblig_con_19 0,4546 0,4886 0,4546 0,4546 0,4982 0,5002 0,4982 0,4982

(+7,47%) (+0,40%)
Var. independientes
Individual
Beca 0,1915 0,2110 0,1915 0,1915 0,3938 0,4084 0,3938 0,3938

(+10,18%) (+3,71%)
Mujer 0,4802 0,4756 0,4802 0,4802 0,4999 0,4998 0,4999 0,4999

(-0,95%) (-0,02%)
ltimo_Tri 0,2593 0,2630 0,2593 0,2597 0,4385 0,4406 0,4374 0,4388

(+1,42%) (+0,15%) (+0,48%) (-0,25%) (+0,07%)
Enf_Crnica 0,0740 0,0730 0,0740 0,0740 0,2620 0,2604 0,2620 0,2620

(-1,35%) (-0,61%)
Posicin 1,5771 1,5568 1,5771 1,5718 0,6995 0,6867 0,6855 0,6986

(-1,29%) (-0,33%) (-1,83%) (-2,00%) (-0,13%)
N 783 661 783 783 783 661 783 783
En negrita los valores que presentan desviaciones respecto al valor de la base original. Sombreado: para
diferencias mayores al 4%. (*) El valor imputado surge como el promedio de los valores obtenidos en las
20 bases de datos completas generadas por el proceso de imputacin.
Fuente: Elaboracin propia a partir de microdatos de EUSILC LONGITUDINAL UDB 2006 versin 2
de Marzo 2009.
En la tabla 5 finaliza el anlisis descriptivo con las variables independientes referidas a

los progenitores y al hogar donde habita el individuo analizado. En cuanto a la media resultante,
slo se observan diferencias consideradas significativas en la base no imputada para cuatro
variables referidas al hogar. Asimismo, conviene destacar la diferencia de 12,22% observada
para la variable referida a los problemas estructurales de la vivienda. En cuanto a la desviacin
estndar se observa que, claramente, la no imputacin confiere un desvo significativo en cinco
de las once variables analizadas y con diferencias que superan el 8% en dos casos (tasa de
actividad del padre y quintil de renta del hogar) diferencia. En este sentido, imputar implica
13
reducir las diferencias con respecto a la base original. Mientras la imputacin con la media
aritmtica genera diferencias superiores al 4% en tres variables, con la imputacin mltiple slo
se genera una diferencia destacada en una variable de entre todas las caractersticas tenidas en
cuenta.
Asimismo, cabe consignar que todos los valores obtenidos bajo la imputacin a la
media generan desvos con respecto al valor inicial siempre menores, con lo que implica una
variabilidad menor de la base imputada en relacin a la original e, implcitamente, sta restando
representatividad a la muestra final respecto de la original. Asimismo, se ha realizado el anlisis
de correlacin bivariada de Pearson para cada base evaluada observndose dos aspectos
relevantes a destacar. En primer lugar, que los signos y la intensidad de los coeficientes queda
reflejado en los coeficientes obtenidos en la regresiones que se presentan en el prximo
apartado y; por ltimo, que en ningn caso se observan relaciones por encima de 0,60 y slo tres
emparejamientos muestran valores por encima de 0,40 (para una revisin de la totalidad de los
coeficientes, vase anexo).
El anlisis descriptivo de las diferentes bases de datos indica que, mientras la base no
imputada presenta los mayores problemas de representatividad en trminos de diferencias
relevantes tanto en la media como en la desviacin estndar y la base imputada a la media
mejora la aproximacin pero reduce los niveles de variabilidad de las variables con valores no
observables, la imputacin mltiple ofrece una alternativa que permite incorporar el mximo de
informacin sin perder representatividad de la base imputada respecto a la original y
manteniendo el grado de variabilidad de todas las variables involucradas en la estimacin.
4. Comparacin de las estimaciones obtenidas a partir de diferentes bases de datos:

imputadas y no imputadas
En este apartado se comparan los resultados obtenidos en una regresin logstica

binomial aplicada a las tres bases de datos resultantes: la base no imputada, la base imputada
con la media aritmtica y la base imputada mediante un proceso de imputacin mltiple (vase
tabla 6). En este ltimo caso se plantean tres resultados diferentes: el valor medio de los
resultados obtenidos en las 20 bases imputadas y los resultados generados por la base imputada
ms y menos eficiente en trminos de minimizacin del error estndar. El objetivo del ejercicio
es determinar la importancia de las becas en el logro educativo de los alumnos.
14
Tabla 5. Anlisis descriptivo (II)
Media Desviacin Estndar
Original Imputada Original Imputada
Listwise I. I. Mltiple Listwise I. Media I. Mltiple

Media (*) (*)
Padre / madre
Educ_Padre 2,4577 2,4496 2,4577 2,4669 1,4954 1,4763 1,3749 1,5012

(-0,33%) (+0,37%) (-1,27%) (-8,06%) (+0,39%)
Educ_Madre 2,2913 2,2938 2,2913 2,2807 1,3797 1,3792 1,3175 1,3818

(+0,11%) (-0,46%) (-0,04%) (-4,51%) (+0,15%)
Activo_Padre 0,9196 0,9334 0,9196 0,8900 0,2720 0,2494 0,2520 0,3128

(+1,50%) (-3,22%) (-8,31%) (-7,35%) (+15,00%)
Activo_Madre 0,5120 0,5081 0,5120 0,5162 0,5001 0,5003 0,4888 0,5000

(-0,76%) (+0,82%) (+0,04%) (-2,26%) (-0,02%)
Hogar
Nro_Hermanos 1,3303 1,2824 1,3303 1,3208 0,8771 0,8173 0,8726 0,8794

(-3,60%) (-0,71%) (-6,82%) (-0,51%) (+0,26%)
Quintil 2,6321 2,7029 2,6321 2,6321 1,3682 1,5654 1,3682 1,3682

(+2,69%) (+14,41%)
Dificultad_Econ 0,6398 0,6055 0,6398 0,6398 0,4803 0,4891 0,4803 0,4803

(-5,36%) (+1,83%)
Vivienda_Prop 0,8352 0,8620 0,8352 0,8352 0,3712 0,3452 0,3712 0,3712

(+3,21%) (-2,60%)
Prob_Estructural 0,1775 0,1558 0,1775 0,1775 0,3823 0,3630 0,3823 0,3823

(-12,22%) (-5,04%)
Mas_4_Dep 0,7139 0,7458 0,7139 0,7139 0,4522 0,4305 0,4522 0,4522

(+4,47%) (-4,80%)
Baja_Media_Urb 0,5441 0,5698 0,5441 0,5441 0,4984 0,4955 0,4984 0,4984

(+4,72%) (-0,58%)
N 783 661 783 783 783 661 783 783
En negrita los valores que presentan desviaciones respecto al valor de la base original. Sombreado: para
diferencias mayores al 4%. (*) El valor imputado surge como el promedio de los valores obtenidos en las
20 bases de datos completas generadas por el proceso de imputacin.
Fuente: Elaboracin propia a partir de microdatos de EUSILC LONGITUDINAL UDB 2006 versin 2
de Marzo 2009.
15
Tabla 6. Estimacin en base a las diferentes metodologas de imputacin
Imp. Mltiple Imp. Mltiple
Media I.
Listwise Imp. Media (Base ms (Base menos
Mltiple
eficiente) eficiente)
Beca Coef 1,105 1,216 1,194 1,199 1,216

Error 0,227 0,208 0,208 0,207 0,208
Z 4,87 5,82 5,73 5,78 5,83
Mujer Coef 0,305 0,240 0,242 0,245 0,240

Error 0,179 0,160 0,161 0,159 0,160
Z 1,70 1,50 1,51 1,54 1,50
ltimo_Tri Coef 0,195 0,105 0,106 0,105 0,101

Error 0,203 0,182 0,182 0,181 0,182
Z 0,96 0,58 0,58 0,58 0,55
Enf_Crnica Coef 0,013 -0,242 -0,239 -0,231 -0,238

A Error 0,343 0,310 0,310 0,309 0,310
Z 0,04 -0,78 -0,77 -0,75 -0,77
Posicin Coef -0,207 -0,142 -0,116 -0,161 -0,124

Error 0,147 0,131 0,130 0,129 0,131
Z -1,40 -1,08 -0,99 -1,24 -0,94
Educ_Padre Coef 0,246 0,238 0,330 0,199 0,235

Error 0,076 0,069 0,065 0,066 0,066
Z 3,23 3,43 3,35 3,02 3,52
Educ_Madre Coef 0,152 0,151 0,129 0,106 0,156

Error 0,084 0,075 0,074 0,074 0,076
Z 1,81 2,00 1,74 1,43 2,06
Activo_Padre Coef 0,028 0,037 0,222 0,030 -0,134

Error 0,373 0,332 0,274 0,290 0,265
Z 0,08 0,11 0,75 0,10 -0,50
Activo_Madre Coef 0,146 -0,031 -0,025 -0,007 0,002

Error 0,186 0,171 0,194 0,166 0,169
Z 0,79 -0,18 -0,17 -0,05 0,01
Nro_Hermanos Coef -0,086 -0,125 -0,114 -0,100 -0,105

Error 0,125 0,105 0,106 0,105 0,106
Z -0,69 -1,19 -1,08 -0,95 -0,99
Quintil Coef 0,092 0,129 0,121 0,136 0,108

Error 0,078 0,067 0,067 0,068 0,068
Z 1,18 1,92 1,77 2,00 1,58
Dificultad_Econ Coef -0,187 -0,261 -0,252 -0,282 -0,244

Error 0,198 0,181 0,181 0,179 0,181
Z -0,94 -1,45 -1,40 -1,57 -1,34
16
Tabla 6. Estimacin en base a las diferentes metodologas de imputacin (continuacin)
Imp. Mltiple Imp. Mltiple
Media I.
Listwise Imp. Media (Base ms (Base menos
Mltiple
eficiente) eficiente)
Vivienda_Prop Coef 0,797 0,735 0,742 0,759 0,749

Error 0,284 0,237 0,239 0,238 0,238
Z 2,80 3,10 3,11 3,19 3,14
Prob_Estructural Coef -0,358 -0,319 -0,303 -0,319 -0,333

Error 0,259 0,221 0,222 0,220 0,222
Z -1,38 -1,44 -1,36 -1,45 -1,50
Mas_4_Dep Coef -0,025 0,193 0,198 0,199 0,201

Error 0,215 0,182 0,183 0,183 0,183
Z -0,01 1,06 1,08 1,09 1,10
Baja_Media_Urb Coef -0,497 -0,450 -0,456 -0,450 -0,455

Error 0,188 0,165 0,166 0,165 0,165
Z -2,64 -2,72 -2,75 -2,73 -2,74
Constante Coef -1,583 -1,752 -1,854 -1,607 -1,636

Error 0,596 0,531 0,494 0,504 0,488
Z -2,65 -3,30 -3,75 -3,19 -3,35
N 616 783 783 783 783
(*) En negrita: estimacin con un menor error estndar.
Un anlisis inicial de los resultados obtenidos indica que la no imputacin genera los
resultados menos eficientes en trminos comparativos. Para todas las variables incorporadas en
la regresin, no imputar genera un error estndar que supera el observado por las otras
alternativas de imputacin. De las dos opciones metodolgicas de imputacin, si bien en algn
caso la imputacin a la media se revela como la ms eficiente (vivienda en propiedad y ms de
4 dependencias), en el anlisis global la base imputada mediante la imputacin mltiple es
claramente la ms eficiente.
El anlisis comparativo de los resultados obtenidos muestra tres aspectos relevantes a

destacar. En primer lugar, y en cuanto a la significatividad de las variables, se observa que en el
caso de la variable mujer se pasa de una significatividad del 90% en la base no imputada a
resultar no significativa en las bases imputadas. Otro cambio se observa en la educacin de la
madre donde se obtienen diferentes grados de significatividad segn la base empleada. Por
ltimo, el quintil de renta pasa de no ser significativo para la regresin no imputada a tener un
significatividad del 90/95% en las bases imputadas a excepcin de la base imputada menos
eficiente.
17
En segundo lugar, el anlisis se centra en los valores de los coeficientes donde se
detectan diferencias relevantes entre las distintas regresiones. En la gran mayora de variables
los porcentajes de variacin son elevados (cuya influencia es relevante dado que el investigador
puede sacar conclusiones de coeficientes relativamente sobre o subestimados) y en tres casos
(enfermedad crnica, activo madre y ms de 4 dependencia) el coeficiente cambia de signo. ste
ltimo fenmeno es necesario destacar ya que en dos de los casos el cambio se alinea con un
resultado esperado en base a la teora. Finalmente, en la variable clave para el ejercicio
propuesto (Beca) se observa que las bases de datos imputadas le asignan un impacto mayor en
cuanto a su efecto en el xito escolar en el nivel secundario post-obligatorio en Espaa.
En tercer lugar, se calculan diferentes indicadores de la bondad del ajuste de las

regresiones anteriormente comentadas. Si bien, en todos los modelos se rechaza la hiptesis
nula de que todos los trminos incluidos en el modelo (excepto la constante) son cero; el ratio
de mxima verosimilitud (LR), el R2 de MacFadden, el porcentaje de predicciones correctas y
los indicadores Akaike y Bayesiano muestran algunas diferencias (vase tabla 7). Observando el
comportamiento de los cinco indicadores seleccionados, se observa que en cuatro de ellos (LR,
McFadden, Akaike y Bayesiano) la regresin empleando una base de datos imputada mediante
la metodologa de la imputacin mltiple obtiene los mejores resultados. Por su parte, la
imputacin mediante la media aritmtica obtiene un mayor porcentaje de observaciones
predichas correctamente. Por ltimo, la base de datos sin imputar (listwise) obtiene los peores
resultados comparativos en cuatro de los cinco indicadores escogidos.
Tabla 7. Estimacin en base a las diferentes metodologas de imputacin: bondad del ajuste
Log- Prob>LR LR(16) McFadden Pred. Akaike Bayesiano

Likelihood Correctas
(en %)
Listwise -368,216 0,000 117,21 0,137 66,20 1,251 -3111,094
Imp. Media -464,006 0,000 151,01 0,140 68,70 1,229 -4174,948
Media I. Mltiple -463,921 0,000 151,18 0,140 68,59 1,229 -4176,117
Imp. Mltiple (Base -467,412 0,000 144,20 0,133 68,10 1,237 -4169,134
ms eficiente)
Imp. Mltiple (Base -462,854 0,000 153,31 0,142 68,50 1,226 -4178,251
menos eficiente)
18
5. Conclusiones
El presente trabajo se plante el reto de comprobar las diferencias existentes entre la

simple no imputacin de las observaciones con datos faltantes y las alternativas ofrecidas por la
literatura en trminos de diferentes metodologas de imputacin. Para ello se realiz un anlisis
comparativo entre las distintas bases de datos generadas a partir de un anlisis descriptivo, de
correlacin y de regresin logstica.
Los resultados obtenidos muestran que la imputacin, por las dos vas exploradas,
incrementan la eficiencia de la estimacin entendida como una reduccin del error estndar y
una mejora en los indicadores de bondad del ajuste. Asimismo, los cambios en los signos y de
significatividad de algunas variables muestran las diferencias que se pueden llegar a producir a
causa de la prdida de observaciones producida por la no imputacin, en un claro efecto
atrittion.
La principal conclusin que se deriva es que resulta recomendable imputar aquellas

bases de datos con observaciones faltantes y, dentro de las metodologas de imputacin aqu
presentadas, la imputacin mltiple da muestra de una mayor eficiencia. Asimismo, y sobre
todo para bases de datos no muy amplias (menos de 1000 observaciones, por ejemplo), la
imputacin no slo permite una mayor precisin en los coeficientes sino que tambin una menor
probabilidad de realizar interpretaciones errneas fruto de una base de datos efectivamente
estimada que no es representativa de la muestra original.
Bibliografa
Acock, Alan. 2005. "Working with Missing Values." Journal of Marriage and Family, 67, pp.
1012-28.
Allison, Paul. 2000. "Multiple imputation for missing data: a cautionary tale." Sociological
Methods & Research, 28:3, pp. 301-09.
Allison, Paul. 2001. Missing values. Thousand Oaks, CA: Sage Publications.
Ambler, Gareth y Rumana Omar. 2007. "A comparison of imputation techniques for handling
missing predictor values in a risk model with a binary outcome." Statistical Methods in Medical
Research, 16, pp. 227-98.
Bacallao, Jorge y Jorge Bacallao. 2010. "Imputacin Mltiple en Variables Categricas usando
Data Augmentation y rboles de Clasificacin." Revista Investigacin Operacional, 31:2, pp.
133-39.
19
Carpenter, James, Michael Kenward, e Ian White. 2007. "Sensitivity analysis after multiple
imputation under missing at random: a weighting approach." Statistical Methods in Medical
Gmez, Juan y Javier Palarea. 2003. "Inferencia basada en imputacin mltiple en problemas
con informacin incompleta." Comunicacin presentada en la IX Conferencia Espaola de
Biometra.
Horton, Nocholas y Stuart Lipsitz. 2001. "Multiple Imputation in Practice: Comparison of

Software Packages for Regression Models with Missings Variables." The American Statistician,
55:3, pp. 244-54.
Howell, David. (2007). "The treatment of missing data. En: W. Outhwaite y S. Turner (eds.),
The SAGE Handbook of social science methodology (208-224). London: Sage Publications.
Kenward, Michael y James Carpenter. 2007. "Multiple imputation: current perspectives."

Statistical Methods in Medical Research, 16, pp. 199-218.
Little, Roderick y Donald Rubin. 1987. Statistical Analysis with Missing Data. New York: John
Wiley & Sons.
Maddala, Gangadharrao. 1996. Introduccin a la econometria. Mxico: Prentice-Hall

Hispanoamericana (2da edicin).
Perez, Cesar. 2004. Tcnicas de anlisis multivariante de datos: aplicaciones con SPSS. Madrid:
Prentice Hall.
Reiter, Jerome y Trivellore Raghunathan. 2007. "The Multiple Adaptations of Multiple

Imputation." Journal of the American Statistical Association, 102:480, pp. 1462-71.
Royston, Patrick. 2004. "Multiple imputation of missing values." The Stata Journal, 4:3, pp.
227-41.
Royston, Patrick. 2005. "Multiple imputation of missings values: update." The Stata Journal,
5:2, pp. 1-14.
Rubin, Donald. 1976. "Inference and missing data." Biometrika, 63:3, pp. 581-92.
Rubin, Donald. 1987. Multiple imputation for nonresponse in Surveys. New York: Wiley.
Rubin, Donald. 1996. "Multiple Imputation After 18+ Years." Journal of the American
Statistical Association, 91:434, pp. 473-89.
Schafer, Joseph. 1997. Analysis of incomplete multivariate data. London: Chapman & Hall.
Schafer, Joseph. 1999. "Multiple imputation: a primer." Statistical Methods in Medical

StataCorp. 2009. Stata: Release 11. Multiple Imputation. Texas: Stata Press.
Todeschini, Roberto. 1990. "Weighted k-nearest neighbour method for the calculation of
missing values." Chenometrics and Intelligent Laboratory Systems, 9, pp. 201-05.
Van Buuren, Stef, Hendriek Boshuizen, y Dirk Knook. 1999. "Multiple imputation of missing
blood pressure covariates in survival analysis." Statistics in Medicine, 18, pp. 681-94.
20
Anexo
Tabla de correlaciones segn diferentes bases de datos
1. Base sin imputar (listwise)

post_~18 con_be~1 mujer ultimo~i enf_cr~a posici~s educ_p~e
post_obli~18 1.0000
con_beca1 0.1709 1.0000
mujer 0.0574 0.0571 1.0000
ultimo_tri 0.0357 -0.0288 0.0070 1.0000
enf_cronica 0.0001 0.0383 0.0199 -0.0402 1.0000
posicion_bis -0.1306 -0.0950 0.0135 0.0204 0.0268 1.0000
educ_padre 0.2766 -0.0579 0.0005 -0.0046 -0.0306 -0.1030 1.0000
educ_madre 0.2558 -0.0410 -0.0380 0.0198 -0.0236 -0.1473 0.5811
activo_padre 0.0526 0.0104 -0.0195 0.0560 -0.0252 -0.0776 0.1300
activo_madre 0.0848 -0.0084 -0.0057 -0.0540 0.0391 -0.1149 0.0886
nro_herman~s -0.1393 -0.0717 0.0208 0.0372 -0.0436 0.4117 -0.1364
quintil 0.1986 -0.0973 -0.0285 0.0085 -0.0120 0.0588 0.3801
dif_final_~s -0.1413 0.1000 0.0770 0.0370 0.0607 0.0305 -0.2381
vivienda_p~p 0.1651 0.0454 -0.0054 0.0145 -0.0143 -0.0320 0.0901
problemas_~i -0.1156 0.0191 0.0658 -0.0432 -0.0174 0.0884 -0.1249
mas_4_ambi~e 0.0437 0.0173 -0.0316 -0.0539 -0.0141 -0.0106 0.1123
medio_bajo~b -0.1608 0.1199 0.0069 -0.0619 -0.0081 0.0457 -0.1886
educ_m~e ac~padre ac~madre nro_he~s quintil dif_fi~s vivien~p
educ_madre 1.0000
activo_padre 0.0569 1.0000
activo_madre 0.2381 -0.0022 1.0000
nro_herman~s -0.1877 -0.0033 -0.1726 1.0000
quintil 0.3970 0.0135 0.1880 -0.1607 1.0000
dif_final_~s -0.2593 -0.0290 -0.0832 0.1572 -0.3462 1.0000
vivienda_p~p 0.0682 0.0631 -0.0265 -0.0633 0.1958 -0.1496 1.0000
problemas_~i -0.1208 -0.0828 0.0199 0.0980 -0.0541 0.1179 -0.1006
mas_4_ambi~e 0.0969 0.0144 -0.0096 0.0816 0.0612 -0.1202 0.1550
medio_bajo~b -0.1907 -0.0479 -0.0351 0.0556 -0.2325 0.1574 -0.0054
proble~i mas_4_~e medio_~b
problemas_~i 1.0000
mas_4_ambi~e -0.0361 1.0000
medio_bajo~b 0.1293 0.0613 1.0000
2. Base imputada a la media

post_~18 con_be~1 mujer ultimo~a enf_cr~a posici~a educ_p~a
post_obli~18 1.0000
con_beca1 0.1942 1.0000
mujer 0.0310 0.0453 1.0000
ultimo_tri~a 0.0173 -0.0141 0.0571 1.0000
enf_cronica -0.0330 0.0358 0.0210 -0.0116 1.0000
posicion_b~a -0.1080 -0.0825 0.0223 0.0245 0.0018 1.0000
educ_padre~a 0.2616 -0.0562 -0.0254 -0.0158 -0.0425 -0.1020 1.0000
educ_madre~a 0.2435 -0.0206 -0.0261 0.0323 -0.0201 -0.1481 0.5234
activo_pad~a 0.0598 0.0238 -0.0131 0.0356 -0.0028 -0.0756 0.1323
activo_mad~a 0.0491 -0.0250 -0.0199 -0.0367 0.0634 -0.1259 0.0805
nro_herman~a -0.1498 -0.0839 0.0072 0.0312 -0.0512 0.4060 -0.1329
quintil 0.2156 -0.0660 -0.0443 -0.0114 -0.0202 0.0203 0.3489
dif_final_~s -0.1752 0.0678 0.0768 0.0479 0.0700 0.0416 -0.2366
vivienda_p~p 0.1774 0.0762 -0.0279 0.0094 -0.0453 -0.0059 0.0885
problemas_~i -0.1222 0.0116 0.0418 -0.0270 -0.0165 0.1072 -0.1266
mas_4_ambi~e 0.0899 0.0640 -0.0364 -0.0497 -0.0152 -0.0081 0.1090
medio_bajo~b -0.1374 0.1068 0.0484 -0.0364 0.0044 0.0093 -0.1810
educ_m~a activo.. activo.. nro_he~a quintil dif_fi~s vivien~p
educ_madre~a 1.0000
activo_pad~a 0.0570 1.0000
activo_mad~a 0.2451 0.0042 1.0000
nro_herman~a -0.1942 -0.0470 -0.1904 1.0000
quintil 0.3848 0.0660 0.1830 -0.1801 1.0000
dif_final_~s -0.2599 -0.0694 -0.0910 0.1876 -0.3652 1.0000
vivienda_p~p 0.0591 0.0635 -0.0393 -0.0739 0.1852 -0.1754 1.0000
problemas_~i -0.1286 -0.0929 -0.0005 0.1165 -0.1072 0.1466 -0.1000
mas_4_ambi~e 0.0996 0.0096 -0.0374 0.0627 0.0653 -0.1158 0.1455
medio_bajo~b -0.1751 -0.0198 -0.0679 0.0537 -0.1956 0.1358 0.0082
problemas_~i 1.0000
mas_4_ambi~e -0.0461 1.0000
medio_bajo~b 0.1233 0.0787 1.0000
21
3. Base imputada mediante la imputacin mltiple
3.1. Modelo ms eficiente
post_obli~18 1.0000
con_beca1 0.1942 1.0000
mujer 0.0310 0.0453 1.0000
ultimo_tri 0.0131 -0.0154 0.0585 1.0000
enf_cronica -0.0330 0.0358 0.0210 -0.0123 1.0000
posicion_bis -0.1108 -0.0838 0.0124 0.0459 0.0052 1.0000
educ_padre 0.2566 -0.0481 -0.0360 -0.0227 -0.0471 -0.1174 1.0000
educ_madre 0.2325 -0.0144 -0.0453 0.0224 -0.0221 -0.1674 0.5821
activo_padre 0.0650 0.0181 -0.0259 0.0354 0.0044 -0.0974 0.1633
activo_madre 0.0525 -0.0196 -0.0053 -0.0392 0.0705 -0.1264 0.0965
nro_herman~s -0.1434 -0.0779 0.0014 0.0384 -0.0477 0.4270 -0.1566
quintil 0.2156 -0.0660 -0.0443 -0.0148 -0.0202 0.0189 0.3819
dif_final_~s -0.1752 0.0678 0.0768 0.0513 0.0700 0.0446 -0.2495
vivienda_p~p 0.1774 0.0762 -0.0279 0.0048 -0.0453 -0.0001 0.0885
problemas_~i -0.1222 0.0116 0.0418 -0.0245 -0.0165 0.1067 -0.1530
mas_4_ambi~e 0.0899 0.0640 -0.0364 -0.0556 -0.0152 0.0018 0.1184
medio_bajo~b -0.1374 0.1068 0.0484 -0.0350 0.0044 0.0063 -0.2095
educ_madre 1.0000
activo_madre 0.2483 0.0040 1.0000
nro_herman~s -0.2296 -0.0518 -0.1886 1.0000
quintil 0.4113 0.0842 0.1885 -0.1761 1.0000
dif_final_~s -0.2752 -0.0701 -0.0917 0.1859 -0.3652 1.0000
vivienda_p~p 0.0402 0.0516 -0.0329 -0.0731 0.1852 -0.1754 1.0000
problemas_~i -0.1372 -0.0977 0.0043 0.0968 -0.1072 0.1466 -0.1000
mas_4_ambi~e 0.1158 0.0166 -0.0396 0.0733 0.0653 -0.1158 0.1455
medio_bajo~b -0.1747 -0.0480 -0.0601 0.0538 -0.1956 0.1358 0.0082
problemas_~i 1.0000
mas_4_ambi~e -0.0461 1.0000
medio_bajo~b 0.1233 0.0787 1.0000
3.2. Modelo menos eficiente

post_obli~18 1.0000
con_beca1 0.1942 1.0000
mujer 0.0310 0.0453 1.0000
ultimo_tri 0.0158 -0.0140 0.0555 1.0000
enf_cronica -0.0330 0.0358 0.0210 -0.0115 1.0000
posicion_bis -0.0995 -0.0732 0.0138 0.0310 -0.0052 1.0000
educ_padre 0.2817 -0.0360 -0.0217 -0.0078 -0.0384 -0.1099 1.0000
educ_madre 0.2610 -0.0212 -0.0459 0.0265 -0.0288 -0.1423 0.5789
activo_padre 0.0535 0.0379 -0.0343 0.0422 -0.0241 -0.0636 0.1738
activo_madre 0.0651 -0.0248 -0.0182 -0.0406 0.0517 -0.1336 0.1243
nro_herman~s -0.1434 -0.0779 0.0014 0.0329 -0.0477 0.4292 -0.1675
quintil 0.2156 -0.0660 -0.0443 -0.0114 -0.0202 0.0263 0.3938
dif_final_~s -0.1752 0.0678 0.0768 0.0492 0.0700 0.0390 -0.2632
vivienda_p~p 0.1774 0.0762 -0.0279 0.0113 -0.0453 0.0090 0.1023
problemas_~i -0.1222 0.0116 0.0418 -0.0308 -0.0165 0.0987 -0.1430
mas_4_ambi~e 0.0899 0.0640 -0.0364 -0.0511 -0.0152 -0.0022 0.0975
medio_bajo~b -0.1374 0.1068 0.0484 -0.0319 0.0044 0.0130 -0.1791
educ_madre 1.0000
activo_madre 0.2644 0.0126 1.0000
nro_herman~s -0.1974 -0.0190 -0.2022 1.0000
quintil 0.4178 0.0535 0.2083 -0.1761 1.0000
dif_final_~s -0.2926 -0.1044 -0.1042 0.1859 -0.3652 1.0000
vivienda_p~p 0.0719 0.0621 -0.0409 -0.0731 0.1852 -0.1754 1.0000
problemas_~i -0.1423 -0.1442 -0.0012 0.0968 -0.1072 0.1466 -0.1000
mas_4_ambi~e 0.1121 0.0280 -0.0355 0.0733 0.0653 -0.1158 0.1455
medio_bajo~b -0.1777 -0.0299 -0.0676 0.0538 -0.1956 0.1358 0.0082
problemas_~i 1.0000
mas_4_ambi~e -0.0461 1.0000
medio_bajo~b 0.1233 0.0787 1.0000
22

Método de Imputación de Los Valores No Observados. Una Aplicación en El Análisis de La Importancia de Las Becas Escolares

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Método de Imputación de Los Valores No Observados. Una Aplicación en El Análisis de La Importancia de Las Becas Escolares

Transféré par

Droits d'auteur :

Formats disponibles

Mtodo de imputacin de los valores no observados.

Una aplicacin en el anlisis de la importancia de las becas escolares

Segunda versin: abril 2012

Palabras Clave: observaciones perdidas, imputacin mltiple, eficiencia en la estimacin.

Habitualmente, la literatura emprica en el campo de la economa aplicada basa sus

Con el objeto de comprobar las ventajas de la imputacin, en el presente trabajo se

Los resultados obtenidos en el anlisis descriptivo y en la regresin logstica posterior

2. Anlisis de los datos perdidos

La presencia de informacin faltante es un problema constante con el que deben lidiar

2.1 Patrones de comportamiento de los valores perdidos

Pr Ymiss | Y , X , Pr Ymiss | Y , X obs , ,

donde hace referencia a los parmetros desconocidos. Desafortunadamente, no existe un test

En el siguiente apartado se detallan las principales opciones de imputacin existente en

2.2. Diferentes metodologas de imputacin1

2.2.1 Imputacin Listwise (eliminacin)

En primer lugar, la eliminacin directa es una tcnica comnmente empleada en el

2.2.2 Imputacin determinstica: imputacin a la media

En segundo lugar, la imputacin determinstica se basa en la sustitucin del dato

2.2.3 Imputacin estocstica: imputacin mltiple3

La tcnica de imputacin mltiple, si bien es conocida desde la dcada de 1970 (Rubin,

El proceso de imputacin mltiple consta de tres etapas. En la primera, cada valor

El nmero ptimo de bases de datos simuladas (m) depende del porcentaje de

3.1 Base de datos empleada: Encuesta de Condiciones de Vida (ECV)

La componente longitudinal permite seguir en el tiempo a las mismas personas, estudiar

En el caso de Espaa, la encuesta es de tipo panel rotante, es decir, al ser un panel se

3.2. Seleccin de la muestra

Para el anlisis emprico se emplean los datos correspondientes a la Encuesta de

Tipo de Variable utilizada Descripcin

Beca Dummy Becario. Percepcin de una o ms becas/ayudas al estudio en el nivel

Gnero Dummy gnero. Toma el valor 1 si el individuo es mujer (Mujer).

Nivel educativo Mxima educacin lograda por la madre (ISCED-97) (Educ_Madre).

Nivel de ingresos (I) Quintil de ingresos disponibles equivalentes (Quintil) (b).

Problemas Dummy problemas estructurales en la vivienda. Toma el valor 1 si existen problemas

Dimensiones del Dummy si el hogar posee ms de cuatro ambientes (Mas_4_Dep).

Grado de Dummy si el individuo vive en una zona de baja o media urbanizacin.

(a) ISCED-97: International Standard Classification of Education.

A partir del total de observaciones vlidas para la variable dependiente

3.3 Aplicacin de la metodologa de imputacin

3.3.1. Anlisis del patrn de comportamiento de los datos perdidos

Como paso previo al proceso de imputacin, se debe comprobar la aleatoriedad (sea

3.3.2. Metodologas tradicionales de imputacin

En primer lugar, se emplean las dos metodologas tradicionalmente utilizadas por la

3.3.3. Imputacin Mltiple

Tabla 2. Valores perdidos en la base de datos original

N obs. vlidas N obs. missings % missings

En este caso, y siguiendo las ltimas recomendaciones de la literatura, se han empleado

Variable a imputar Caracterstica Aproximacin emprica

ltimo_Tri Dummy (0-1) Logit

Posicin Discreta (1-3) Logit ordenado

3.4. Base de datos obtenida mediante las diferentes metodologas de imputacin

En la tabla 4 se observan los resultados para la variable dependiente y las variable

Media Desviacin Estndar

Original Imputada Original Imputada

Listwise I. I. Listwise I. Media I.

Post_oblig_con_19 0,4546 0,4886 0,4546 0,4546 0,4982 0,5002 0,4982 0,4982

Beca 0,1915 0,2110 0,1915 0,1915 0,3938 0,4084 0,3938 0,3938

Mujer 0,4802 0,4756 0,4802 0,4802 0,4999 0,4998 0,4999 0,4999

ltimo_Tri 0,2593 0,2630 0,2593 0,2597 0,4385 0,4406 0,4374 0,4388

Enf_Crnica 0,0740 0,0730 0,0740 0,0740 0,2620 0,2604 0,2620 0,2620

Posicin 1,5771 1,5568 1,5771 1,5718 0,6995 0,6867 0,6855 0,6986

N 783 661 783 783 783 661 783 783

En la tabla 5 finaliza el anlisis descriptivo con las variables independientes referidas a

4. Comparacin de las estimaciones obtenidas a partir de diferentes bases de datos: