Académique Documents
Professionnel Documents
Culture Documents
Mauro Mediavilla
Universitat de Valncia & IEB & GIPE
(Mauro.Mediavilla@uv.es)
Abstract
La estimacin de una base de datos con observaciones faltantes (missings values) genera un fenmeno de
attrition que puede cambiar el grado de significatividad de las variables, disminuir la robustez en
trminos de eficiencia de los resultados obtenidos e incrementar la posibilidad de una mala especificacin
del modelo final estimado. El objetivo del trabajo es comprobar la importancia de la imputacin de las
observaciones faltantes mediante dos metodologas (la imputacin a la media y la imputacin mltiple)
como vas para obtener estimaciones ms robustas. Para ello se realiza un anlisis comparativo
empleando los resultados obtenidos en el anlisis descriptivo y de regresin logstica.
Los resultados muestran el incremento en la eficiencia de la estimacin en el caso de las bases imputadas
entendida como una reduccin del error estndar y una mejora en los indicadores de bondad del ajuste.
Por otra parte, los cambios en los signos y la significatividad de algunas variables observadas son un claro
ejemplo de las diferencias que se pueden llegar a producir como consecuencia de estimar con bases de
datos imputadas o no. Estos resultados pueden provocar la estimacin de un modelo no correctamente
especificado. La principal conclusin que se deriva es que resulta recomendable imputar aquellas bases de
datos con observaciones faltantes y, dentro de las metodologas de imputacin aqu presentadas, la
imputacin mltiple da muestra de una mayor eficiencia. Asimismo, y sobre todo para bases no muy
amplias (menos de 1000 observaciones, por ejemplo), la imputacin no slo permite una mayor precisin
en los coeficientes sino que evita interpretaciones errneas de los fenmenos econmicos analizados fruto
de una base de datos, efectivamente estimada, que slo parcialmente refleja a la poblacin objetivo.
1
1. Introduccin
En un intento por mejorar las estimaciones realizadas, algunos autores han sugerido que
la manera ms adecuada para disminuir estos potenciales problemas era substituyendo los
valores perdidos mediante algunas de las tcnicas de imputacin desarrolladas (Schafer, 1999;
Acock, 2005).
El trabajo se inicia con una breve revisin terica de las diferentes metodologas de
imputacin haciendo hincapi en la importancia de conocer el patrn por el cual se generan los
valores perdidos. En el captulo 3, se introduce el caso prctico con el cual se comparan las tres
metodologas de imputacin utilizadas. En el captulo 4, se realiza la comparacin de las
estimaciones resultantes y, en el captulo final, se introducen las principales conclusiones.
En primer lugar, se puede determinar que el patrn seguido por los valores perdidos es
totalmente aleatorio (MCAR, Missing Completely At Random) o establecer un supuesto no tan
restrictivo indicando que su generacin ha sido de manera aleatoria (MAR, Missing At
Random). En este caso, los valores perdidos pueden ser determinados a partir de otras variables
observables siguiendo la siguiente forma funcional:
3
suponer que los valores perdidos fueron generados de manera no aleatoria (MNAR, Missings
Not At Random), por lo que seguiran un patrn sistmico especfico (Rubin, 1976).
1
Otros mtodos empleados para imputar valores perdidos y aqu no desarrollados son la imputacin
HotDecking propuesta por Todeschini (1990) que propone estimar los valores perdidos mediante una
estimacin basada en sus k-vecinos ms prximos, la imputacin pairwise deletion y la substitucin
va regresin.
4
Existen algunas variantes en su aplicacin que intentan ajustar mejor los valores
imputados mediante esta tcnica. En primer lugar, dividiendo la base de datos por secciones con
diferente media y a cada registro perdido imputndosele la media correspondiente. En segundo
lugar, creando una variable dummy por cada variable que contenga valores perdidos que
indiquen si la fila contiene alguna variable imputada. Las mismas se introducen en las
estimaciones posteriores y sus coeficientes estaran indicando la existencia de un efecto missing
en la estimacin del parmetro de inters (Acock, 2005). Ambas opciones se pueden aplicar
simultneamente. Asimismo, en caso de existir valores extremos en las variables a imputar se
deberan sustituir los valores ausentes por la mediana, estadstico ms robusto para este caso en
particular2.
Esta tcnica, de caracterstica estocstica, permite hacer un uso eficiente de los datos,
obtener estimadores no sesgados y reflejar la incertidumbre que la no-respuesta parcial
introduce en la estimacin de los parmetros (Rubin, 1996). Su aplicacin se basa en sustituir
los datos no observados por m>1 valores posibles simulados4. La aplicabilidad de este mtodo
se ha visto potenciada con la incorporacin, en su esquema general, de los mtodos de Monte
Carlo basados en cadenas de Markov, conocidos como algoritmos MICE (Multiple imputation
by chained equations)5,6. Asimismo, a la imputacin mltiple se la considera una metodologa
2
Para una explicacin de sta y otras metodologas de imputacin alternativas, vase Perez (2004; pp. 46-
48).
3
Otra metodologa de imputacin aqu no desarrollada aplica el Expectation-Maximization algorithm
(Schafer, 1997).
4
Para una explicacin terica detallada, vase Schafer (1999).
5
Otros mtodos que han sido tambin empleados son el algoritmo EM (Expectation-Maximization); la
aproximacin de Monte Carlo Newton Raspn y Monte Carlo mediante una aproximacin de mxima
verosimilitud.
5
flexible que permite trabajar con datos multivariados y con distribuciones montonas o
arbitrarias de los valores perdidos. Su aplicabilidad requiere que el patrn de distribucin de los
valores perdidos sea aleatoria (MCAR o MAR).
Para su uso emprico, esta metodologa ha sido trasladada a los diferentes paquetes
economtricos a partir de los trabajos de Van Buuren et al. (1999) y la implementacin directa,
en el caso de STATA 10, a travs del comando elaborado por Royston (Royston, 2004, 2005)
llamado ice, el cual permite realizar las estimaciones a partir de una distribucin arbitraria de
los datos perdidos o mediante toda una familia de comandos mi que se incorporan a partir de la
versin 11. Asimismo, se han desarrollado otras aproximaciones en el caso del programa
SOLAS, SAS y S-Plus (Horton y Lipsitz, 2001).
6
En los ltimos aos se han desarrollado extensiones, como la imputacin mltiple mediante rboles de
clasificacin (Bacallao y Bacallao, 2010).
6
3. Caso aplicado: evaluacin de la relevancia de las becas en el logro educativo en
Espaa
La Encuesta de Condiciones de Vida (en adelante, ECV7) es una base de datos novedosa
dirigida a hogares que viene a reemplazar el Panel de Hogares de la Unin Europea (PHOGUE),
realizado durante el periodo 1994-2001. El objetivo fundamental que se persigue con la ECV es
disponer de una fuente de referencia sobre estadsticas comparativas de la distribucin de
ingresos y la exclusin social en el mbito europeo. Aunque los datos se refieren tanto a la
dimensin transversal como a la longitudinal, se da prioridad a la produccin de datos
transversales de alta calidad en lo que respecta a la puntualidad y a la comparabilidad.
Especificidades tcnicas
La poblacin de referencia son los hogares y todas las personas mayores de 16 aos que
se encuentren residiendo en un hogar dentro del territorio de los estados miembros en el
momento de realizarse la encuesta. Quedan excluidas las personas que viven en hogares
colectivos (residencias para la tercera edad, por ejemplo) o en algunos territorios que no son
incorporados por sus propios pases en la base de datos (territorios franceses fuera de sus
fronteras europeas, por ejemplo). Los datos son recogidos por cada pas mediante una
institucin que, en Espaa, es el Instituto Nacional de Estadstica (INE). Estrictamente, la
poblacin objeto de investigacin (poblacin objetivo) son las personas miembros de hogares
privados que residen en viviendas familiares principales. Aunque las personas de todas las
edades forman parte de la poblacin objetivo no todas las personas son encuestadas
exhaustivamente, ya que slo son seleccionables en este caso, los miembros del hogar con 16 o
ms aos el 31 de diciembre del ao anterior a la fecha de la entrevista.
7
EU-SILC (European Union Statistics on Income and Living Conditions), en sus siglas en ingls.
7
La base de datos proporciona de microdatos transversales y longitudinales con
informacin personalizada sobre ingresos, educacin, salud, ocupacin, entre otros, que permite
conocer las condiciones en que viven los encuestados y las posibles situaciones de pobreza y
exclusin social. En el caso de los ingresos, es de especial inters para este trabajo la
informacin relacionada con las transferencias dinerarias recibidas por el individuo en concepto
de becas y, en el caso de las variables educativas, aquellas que permiten seguir su evolucin
dentro del sistema educativo.
Caso espaol
8
Contrato n. EU-SILC/2006/19. En l se establece la obligacin, en el momento de publicar los
resultados, de comunicar lo siguiente: EUROSTAT no es responsable de los resultados y las
conclusiones, responsabilidad que corresponde al investigador.
8
Tabla 1. Variables utilizadas en el anlisis emprico
Individuo Nivel educativo a Variable que indica el nivel educativo (ISCED-97) a los 19 aos en 2006 (a). Se
los 19 aos estructura como una dummy = 1 si la persona tiene un nivel educativo igual o superior
al de secundaria post-obligatoria (Post-oblig_con_19).
Efecto calendario Dummy mes de nacimiento. Toma el valor 1 si el individuo naci en el ltimo trimestre
del ao (ltimo_Tri).
Estado de salud Dummy enfermedad crnica. Toma el valor 1 si el individuo padece una enfermedad o
incapacidad crnica (Enf_Crnica).
Orden entre Variable que hace referencia al orden que ocupa el individuo en relacin con sus
hermanos hermanos (Ejemplo: el hermano mayor tiene un nmero de orden igual a 1) (Posicin).
Padre/Madre Nivel educativo Mxima educacin lograda por el padre (ISCED-97) (Educ_Padre).
padre
Actividad padre Dummy activo. Toma el valor 1 si el individuo se encuentra activo (Activo_Padre).
Actividad madre Dummy activo. Toma el valor 1 si el individuo se encuentra activo (Activo_Madre).
Hogar Nmero de Variable que indica la cantidad de hermanos existentes en el hogar (Nro_Hermanos).
hermanos
Nivel de ingresos Dummy dificultades econmicas. Toma el valor 1 si el hogar declara tener problemas
(II) para asumir los gastos habituales del mes (Dificultad_Econ).
Rgimen de la Dummy propietario de la vivienda. Toma el valor 1 si los habitantes del hogar son
vivienda propietarios de la misma (Vivienda_Prop).
9
Si bien la edad terica para finalizar el nivel secundario post-obligatorio son los 18
aos, se ha optado por seleccionar un ao ms para evitar encontrar individuos con 18 aos que
an no tengan este nivel educativo alcanzado slo porque la encuesta se ha realizado antes de
finalizar su curso lectivo. Como variables independientes se consideran diferentes variables
relacionadas con el individuo, sus progenitores, su hogar y el entorno que lo rodea.
En segundo lugar, se aplica la imputacin mltiple para substituir los datos faltantes.
Siguiendo la literatura, se aplica una estimacin mltiple a partir del algoritmo MICE,
sistematizado para el programa STATA mediante el comando ice. La imputacin aqu aplicada
9
Previo al clculo de los coeficientes de correlacin se comprob la ausencia de valores atpicos a partir
de grficos de caja. Todo este anlisis previo se encuentra disponible para los lectores que as lo soliciten.
10
genera valores posibles a partir de una serie de modelos univariantes en los cuales una variable
nica es imputada en base a un grupo de variables.
Variable dependiente
Post_Oblig_con_19 783 0 0
Variables independientes
Individual
Beca 783 0 0
Mujer 783 0 0
ltimo_Tri 779 4 0,51
Enf_Crnica 783 0 0
Posicin 752 31 3,96
Padre / madre
Educ_Padre 662 121 15,45
Educ_Madre 714 69 8,81
Activo_Padre 672 111 14,18
Activo_Madre 748 35 4,47
Hogar
Nro_Hermanos 775 8 1,02
Quintil 783 0 0
Dificultad_Econ 783 0 0
Vivienda_Prop 783 0 0
Prob_Estructural 783 0 0
Mas_4_Dep 783 0 0
Entorno
Baja_Media_Urb 783 0 0
11
Tabla 3. Aproximaciones empricas utilizadas para la imputacin
Para analizar descriptivamente las bases de datos obtenidas, se presentan los valores de
la media y la desviacin estndar para todas las variables utilizadas. Asimismo, y en los casos
en que la variable posea valores no observados, se calculan los valores resultantes para las tres
metodologas utilizadas: la no imputacin, la imputacin con la media aritmtica y la
imputacin mltiple. En el caso de la no imputacin, los valores surgen a partir de las
observaciones finalmente empleadas en la estimacin (en este caso, 616 observaciones) y, en el
caso de la imputacin mltiple, el valor publicado refleja el promedio de las 20 bases generadas.
12
Tabla 4. Anlisis descriptivo (I)
Var. dependiente
Var. independientes
Individual
En negrita los valores que presentan desviaciones respecto al valor de la base original. Sombreado: para
diferencias mayores al 4%. (*) El valor imputado surge como el promedio de los valores obtenidos en las
20 bases de datos completas generadas por el proceso de imputacin.
Fuente: Elaboracin propia a partir de microdatos de EUSILC LONGITUDINAL UDB 2006 versin 2
de Marzo 2009.
Asimismo, cabe consignar que todos los valores obtenidos bajo la imputacin a la
media generan desvos con respecto al valor inicial siempre menores, con lo que implica una
variabilidad menor de la base imputada en relacin a la original e, implcitamente, sta restando
representatividad a la muestra final respecto de la original. Asimismo, se ha realizado el anlisis
de correlacin bivariada de Pearson para cada base evaluada observndose dos aspectos
relevantes a destacar. En primer lugar, que los signos y la intensidad de los coeficientes queda
reflejado en los coeficientes obtenidos en la regresiones que se presentan en el prximo
apartado y; por ltimo, que en ningn caso se observan relaciones por encima de 0,60 y slo tres
emparejamientos muestran valores por encima de 0,40 (para una revisin de la totalidad de los
coeficientes, vase anexo).
El anlisis descriptivo de las diferentes bases de datos indica que, mientras la base no
imputada presenta los mayores problemas de representatividad en trminos de diferencias
relevantes tanto en la media como en la desviacin estndar y la base imputada a la media
mejora la aproximacin pero reduce los niveles de variabilidad de las variables con valores no
observables, la imputacin mltiple ofrece una alternativa que permite incorporar el mximo de
informacin sin perder representatividad de la base imputada respecto a la original y
manteniendo el grado de variabilidad de todas las variables involucradas en la estimacin.
14
Tabla 5. Anlisis descriptivo (II)
Padre / madre
Hogar
En negrita los valores que presentan desviaciones respecto al valor de la base original. Sombreado: para
diferencias mayores al 4%. (*) El valor imputado surge como el promedio de los valores obtenidos en las
20 bases de datos completas generadas por el proceso de imputacin.
Fuente: Elaboracin propia a partir de microdatos de EUSILC LONGITUDINAL UDB 2006 versin 2
de Marzo 2009.
15
Tabla 6. Estimacin en base a las diferentes metodologas de imputacin
Imp. Mltiple Imp. Mltiple
Media I.
Listwise Imp. Media (Base ms (Base menos
Mltiple
eficiente) eficiente)
16
Tabla 6. Estimacin en base a las diferentes metodologas de imputacin (continuacin)
Imp. Mltiple Imp. Mltiple
Media I.
Listwise Imp. Media (Base ms (Base menos
Mltiple
eficiente) eficiente)
Un anlisis inicial de los resultados obtenidos indica que la no imputacin genera los
resultados menos eficientes en trminos comparativos. Para todas las variables incorporadas en
la regresin, no imputar genera un error estndar que supera el observado por las otras
alternativas de imputacin. De las dos opciones metodolgicas de imputacin, si bien en algn
caso la imputacin a la media se revela como la ms eficiente (vivienda en propiedad y ms de
4 dependencias), en el anlisis global la base imputada mediante la imputacin mltiple es
claramente la ms eficiente.
17
En segundo lugar, el anlisis se centra en los valores de los coeficientes donde se
detectan diferencias relevantes entre las distintas regresiones. En la gran mayora de variables
los porcentajes de variacin son elevados (cuya influencia es relevante dado que el investigador
puede sacar conclusiones de coeficientes relativamente sobre o subestimados) y en tres casos
(enfermedad crnica, activo madre y ms de 4 dependencia) el coeficiente cambia de signo. ste
ltimo fenmeno es necesario destacar ya que en dos de los casos el cambio se alinea con un
resultado esperado en base a la teora. Finalmente, en la variable clave para el ejercicio
propuesto (Beca) se observa que las bases de datos imputadas le asignan un impacto mayor en
cuanto a su efecto en el xito escolar en el nivel secundario post-obligatorio en Espaa.
Tabla 7. Estimacin en base a las diferentes metodologas de imputacin: bondad del ajuste
Imp. Mltiple (Base -467,412 0,000 144,20 0,133 68,10 1,237 -4169,134
ms eficiente)
Imp. Mltiple (Base -462,854 0,000 153,31 0,142 68,50 1,226 -4178,251
menos eficiente)
18
5. Conclusiones
Los resultados obtenidos muestran que la imputacin, por las dos vas exploradas,
incrementan la eficiencia de la estimacin entendida como una reduccin del error estndar y
una mejora en los indicadores de bondad del ajuste. Asimismo, los cambios en los signos y de
significatividad de algunas variables muestran las diferencias que se pueden llegar a producir a
causa de la prdida de observaciones producida por la no imputacin, en un claro efecto
atrittion.
Bibliografa
Acock, Alan. 2005. "Working with Missing Values." Journal of Marriage and Family, 67, pp.
1012-28.
Allison, Paul. 2000. "Multiple imputation for missing data: a cautionary tale." Sociological
Methods & Research, 28:3, pp. 301-09.
Allison, Paul. 2001. Missing values. Thousand Oaks, CA: Sage Publications.
Ambler, Gareth y Rumana Omar. 2007. "A comparison of imputation techniques for handling
missing predictor values in a risk model with a binary outcome." Statistical Methods in Medical
Research, 16, pp. 227-98.
Bacallao, Jorge y Jorge Bacallao. 2010. "Imputacin Mltiple en Variables Categricas usando
Data Augmentation y rboles de Clasificacin." Revista Investigacin Operacional, 31:2, pp.
133-39.
19
Carpenter, James, Michael Kenward, e Ian White. 2007. "Sensitivity analysis after multiple
imputation under missing at random: a weighting approach." Statistical Methods in Medical
Research, 16, pp. 259-75.
Gmez, Juan y Javier Palarea. 2003. "Inferencia basada en imputacin mltiple en problemas
con informacin incompleta." Comunicacin presentada en la IX Conferencia Espaola de
Biometra.
Howell, David. (2007). "The treatment of missing data. En: W. Outhwaite y S. Turner (eds.),
The SAGE Handbook of social science methodology (208-224). London: Sage Publications.
Little, Roderick y Donald Rubin. 1987. Statistical Analysis with Missing Data. New York: John
Wiley & Sons.
Perez, Cesar. 2004. Tcnicas de anlisis multivariante de datos: aplicaciones con SPSS. Madrid:
Prentice Hall.
Royston, Patrick. 2004. "Multiple imputation of missing values." The Stata Journal, 4:3, pp.
227-41.
Royston, Patrick. 2005. "Multiple imputation of missings values: update." The Stata Journal,
5:2, pp. 1-14.
Rubin, Donald. 1976. "Inference and missing data." Biometrika, 63:3, pp. 581-92.
Rubin, Donald. 1987. Multiple imputation for nonresponse in Surveys. New York: Wiley.
Rubin, Donald. 1996. "Multiple Imputation After 18+ Years." Journal of the American
Statistical Association, 91:434, pp. 473-89.
Schafer, Joseph. 1997. Analysis of incomplete multivariate data. London: Chapman & Hall.
StataCorp. 2009. Stata: Release 11. Multiple Imputation. Texas: Stata Press.
Todeschini, Roberto. 1990. "Weighted k-nearest neighbour method for the calculation of
missing values." Chenometrics and Intelligent Laboratory Systems, 9, pp. 201-05.
Van Buuren, Stef, Hendriek Boshuizen, y Dirk Knook. 1999. "Multiple imputation of missing
blood pressure covariates in survival analysis." Statistics in Medicine, 18, pp. 681-94.
20
Anexo
post_obli~18 1.0000
con_beca1 0.1709 1.0000
mujer 0.0574 0.0571 1.0000
ultimo_tri 0.0357 -0.0288 0.0070 1.0000
enf_cronica 0.0001 0.0383 0.0199 -0.0402 1.0000
posicion_bis -0.1306 -0.0950 0.0135 0.0204 0.0268 1.0000
educ_padre 0.2766 -0.0579 0.0005 -0.0046 -0.0306 -0.1030 1.0000
educ_madre 0.2558 -0.0410 -0.0380 0.0198 -0.0236 -0.1473 0.5811
activo_padre 0.0526 0.0104 -0.0195 0.0560 -0.0252 -0.0776 0.1300
activo_madre 0.0848 -0.0084 -0.0057 -0.0540 0.0391 -0.1149 0.0886
nro_herman~s -0.1393 -0.0717 0.0208 0.0372 -0.0436 0.4117 -0.1364
quintil 0.1986 -0.0973 -0.0285 0.0085 -0.0120 0.0588 0.3801
dif_final_~s -0.1413 0.1000 0.0770 0.0370 0.0607 0.0305 -0.2381
vivienda_p~p 0.1651 0.0454 -0.0054 0.0145 -0.0143 -0.0320 0.0901
problemas_~i -0.1156 0.0191 0.0658 -0.0432 -0.0174 0.0884 -0.1249
mas_4_ambi~e 0.0437 0.0173 -0.0316 -0.0539 -0.0141 -0.0106 0.1123
medio_bajo~b -0.1608 0.1199 0.0069 -0.0619 -0.0081 0.0457 -0.1886
educ_madre 1.0000
activo_padre 0.0569 1.0000
activo_madre 0.2381 -0.0022 1.0000
nro_herman~s -0.1877 -0.0033 -0.1726 1.0000
quintil 0.3970 0.0135 0.1880 -0.1607 1.0000
dif_final_~s -0.2593 -0.0290 -0.0832 0.1572 -0.3462 1.0000
vivienda_p~p 0.0682 0.0631 -0.0265 -0.0633 0.1958 -0.1496 1.0000
problemas_~i -0.1208 -0.0828 0.0199 0.0980 -0.0541 0.1179 -0.1006
mas_4_ambi~e 0.0969 0.0144 -0.0096 0.0816 0.0612 -0.1202 0.1550
medio_bajo~b -0.1907 -0.0479 -0.0351 0.0556 -0.2325 0.1574 -0.0054
problemas_~i 1.0000
mas_4_ambi~e -0.0361 1.0000
medio_bajo~b 0.1293 0.0613 1.0000
post_obli~18 1.0000
con_beca1 0.1942 1.0000
mujer 0.0310 0.0453 1.0000
ultimo_tri~a 0.0173 -0.0141 0.0571 1.0000
enf_cronica -0.0330 0.0358 0.0210 -0.0116 1.0000
posicion_b~a -0.1080 -0.0825 0.0223 0.0245 0.0018 1.0000
educ_padre~a 0.2616 -0.0562 -0.0254 -0.0158 -0.0425 -0.1020 1.0000
educ_madre~a 0.2435 -0.0206 -0.0261 0.0323 -0.0201 -0.1481 0.5234
activo_pad~a 0.0598 0.0238 -0.0131 0.0356 -0.0028 -0.0756 0.1323
activo_mad~a 0.0491 -0.0250 -0.0199 -0.0367 0.0634 -0.1259 0.0805
nro_herman~a -0.1498 -0.0839 0.0072 0.0312 -0.0512 0.4060 -0.1329
quintil 0.2156 -0.0660 -0.0443 -0.0114 -0.0202 0.0203 0.3489
dif_final_~s -0.1752 0.0678 0.0768 0.0479 0.0700 0.0416 -0.2366
vivienda_p~p 0.1774 0.0762 -0.0279 0.0094 -0.0453 -0.0059 0.0885
problemas_~i -0.1222 0.0116 0.0418 -0.0270 -0.0165 0.1072 -0.1266
mas_4_ambi~e 0.0899 0.0640 -0.0364 -0.0497 -0.0152 -0.0081 0.1090
medio_bajo~b -0.1374 0.1068 0.0484 -0.0364 0.0044 0.0093 -0.1810
educ_madre~a 1.0000
activo_pad~a 0.0570 1.0000
activo_mad~a 0.2451 0.0042 1.0000
nro_herman~a -0.1942 -0.0470 -0.1904 1.0000
quintil 0.3848 0.0660 0.1830 -0.1801 1.0000
dif_final_~s -0.2599 -0.0694 -0.0910 0.1876 -0.3652 1.0000
vivienda_p~p 0.0591 0.0635 -0.0393 -0.0739 0.1852 -0.1754 1.0000
problemas_~i -0.1286 -0.0929 -0.0005 0.1165 -0.1072 0.1466 -0.1000
mas_4_ambi~e 0.0996 0.0096 -0.0374 0.0627 0.0653 -0.1158 0.1455
medio_bajo~b -0.1751 -0.0198 -0.0679 0.0537 -0.1956 0.1358 0.0082
problemas_~i 1.0000
mas_4_ambi~e -0.0461 1.0000
medio_bajo~b 0.1233 0.0787 1.0000
21
3. Base imputada mediante la imputacin mltiple
post_obli~18 1.0000
con_beca1 0.1942 1.0000
mujer 0.0310 0.0453 1.0000
ultimo_tri 0.0131 -0.0154 0.0585 1.0000
enf_cronica -0.0330 0.0358 0.0210 -0.0123 1.0000
posicion_bis -0.1108 -0.0838 0.0124 0.0459 0.0052 1.0000
educ_padre 0.2566 -0.0481 -0.0360 -0.0227 -0.0471 -0.1174 1.0000
educ_madre 0.2325 -0.0144 -0.0453 0.0224 -0.0221 -0.1674 0.5821
activo_padre 0.0650 0.0181 -0.0259 0.0354 0.0044 -0.0974 0.1633
activo_madre 0.0525 -0.0196 -0.0053 -0.0392 0.0705 -0.1264 0.0965
nro_herman~s -0.1434 -0.0779 0.0014 0.0384 -0.0477 0.4270 -0.1566
quintil 0.2156 -0.0660 -0.0443 -0.0148 -0.0202 0.0189 0.3819
dif_final_~s -0.1752 0.0678 0.0768 0.0513 0.0700 0.0446 -0.2495
vivienda_p~p 0.1774 0.0762 -0.0279 0.0048 -0.0453 -0.0001 0.0885
problemas_~i -0.1222 0.0116 0.0418 -0.0245 -0.0165 0.1067 -0.1530
mas_4_ambi~e 0.0899 0.0640 -0.0364 -0.0556 -0.0152 0.0018 0.1184
medio_bajo~b -0.1374 0.1068 0.0484 -0.0350 0.0044 0.0063 -0.2095
educ_madre 1.0000
activo_padre 0.0734 1.0000
activo_madre 0.2483 0.0040 1.0000
nro_herman~s -0.2296 -0.0518 -0.1886 1.0000
quintil 0.4113 0.0842 0.1885 -0.1761 1.0000
dif_final_~s -0.2752 -0.0701 -0.0917 0.1859 -0.3652 1.0000
vivienda_p~p 0.0402 0.0516 -0.0329 -0.0731 0.1852 -0.1754 1.0000
problemas_~i -0.1372 -0.0977 0.0043 0.0968 -0.1072 0.1466 -0.1000
mas_4_ambi~e 0.1158 0.0166 -0.0396 0.0733 0.0653 -0.1158 0.1455
medio_bajo~b -0.1747 -0.0480 -0.0601 0.0538 -0.1956 0.1358 0.0082
problemas_~i 1.0000
mas_4_ambi~e -0.0461 1.0000
medio_bajo~b 0.1233 0.0787 1.0000
post_obli~18 1.0000
con_beca1 0.1942 1.0000
mujer 0.0310 0.0453 1.0000
ultimo_tri 0.0158 -0.0140 0.0555 1.0000
enf_cronica -0.0330 0.0358 0.0210 -0.0115 1.0000
posicion_bis -0.0995 -0.0732 0.0138 0.0310 -0.0052 1.0000
educ_padre 0.2817 -0.0360 -0.0217 -0.0078 -0.0384 -0.1099 1.0000
educ_madre 0.2610 -0.0212 -0.0459 0.0265 -0.0288 -0.1423 0.5789
activo_padre 0.0535 0.0379 -0.0343 0.0422 -0.0241 -0.0636 0.1738
activo_madre 0.0651 -0.0248 -0.0182 -0.0406 0.0517 -0.1336 0.1243
nro_herman~s -0.1434 -0.0779 0.0014 0.0329 -0.0477 0.4292 -0.1675
quintil 0.2156 -0.0660 -0.0443 -0.0114 -0.0202 0.0263 0.3938
dif_final_~s -0.1752 0.0678 0.0768 0.0492 0.0700 0.0390 -0.2632
vivienda_p~p 0.1774 0.0762 -0.0279 0.0113 -0.0453 0.0090 0.1023
problemas_~i -0.1222 0.0116 0.0418 -0.0308 -0.0165 0.0987 -0.1430
mas_4_ambi~e 0.0899 0.0640 -0.0364 -0.0511 -0.0152 -0.0022 0.0975
medio_bajo~b -0.1374 0.1068 0.0484 -0.0319 0.0044 0.0130 -0.1791
educ_madre 1.0000
activo_padre 0.0762 1.0000
activo_madre 0.2644 0.0126 1.0000
nro_herman~s -0.1974 -0.0190 -0.2022 1.0000
quintil 0.4178 0.0535 0.2083 -0.1761 1.0000
dif_final_~s -0.2926 -0.1044 -0.1042 0.1859 -0.3652 1.0000
vivienda_p~p 0.0719 0.0621 -0.0409 -0.0731 0.1852 -0.1754 1.0000
problemas_~i -0.1423 -0.1442 -0.0012 0.0968 -0.1072 0.1466 -0.1000
mas_4_ambi~e 0.1121 0.0280 -0.0355 0.0733 0.0653 -0.1158 0.1455
medio_bajo~b -0.1777 -0.0299 -0.0676 0.0538 -0.1956 0.1358 0.0082
problemas_~i 1.0000
mas_4_ambi~e -0.0461 1.0000
medio_bajo~b 0.1233 0.0787 1.0000
22