Académique Documents
Professionnel Documents
Culture Documents
Nota metodolgica
Historia del artculo: Que haya valores ausentes en variables registradas en encuestas de salud es habitual, pero no lo es impu-
Recibido el 23 de noviembre de 2016 tarlos posteriormente cuando se realiza el anlisis. Trabajar con datos imputados puede tener ventajas
Aceptado el 9 de enero de 2017 en trminos de precisin de los estimadores y de identificacin sin sesgos de la asociacin entre varia-
On-line el 15 de marzo de 2017
bles. Probablemente, el proceso de imputacin sigue siendo desconocido para muchos profesionales no
estadsticos, que le atribuyen una alta complejidad y quizs un objetivo que no es exactamente el que
Palabras clave: persigue. Para aclarar estas cuestiones, esta nota pretende ofrecer una visin amena, no exhaustiva, del
Valores ausentes
proceso de imputacin, que permita conocer sus bondades para el trabajo de un salubrista. Todo ello
Imputacin
Salud pblica
en el marco de variables dicotmicas, habituales en salud pblica. Para ilustrar los conceptos se usa un
Epidemiologa ejemplo en el cual se trabaja con datos con valores ausentes, imputados de forma simple y mltiple.
2017 SESPAS. Publicado por Elsevier Espana, S.L.U. Este es un artculo Open Access bajo la licencia
CC BY-NC-ND (http://creativecommons.org/licenses/by-nc-nd/4.0/).
a b s t r a c t
Keywords: The presence of missing data in collected variables is common in health surveys, but the subsequent
Missing data imputation thereof at the time of analysis is not. Working with imputed data may have certain bene-
Imputation fits regarding the precision of the estimators and the unbiased identification of associations between
Public health
variables. The imputation process is probably still little understood by many non-statisticians, who view
Epidemiology
this process as highly complex and with an uncertain goal. To clarify these questions, this note aims to
provide a straightforward, non-exhaustive overview of the imputation process to enable public health
researchers ascertain its strengths. All this in the context of dichotomous variables which are common-
place in public health. To illustrate these concepts, an example in which missing data is handled by means
of simple and multiple imputation is introduced.
2017 SESPAS. Published by Elsevier Espana, S.L.U. This is an open access article under the CC
BY-NC-ND license (http://creativecommons.org/licenses/by-nc-nd/4.0/).
http://dx.doi.org/10.1016/j.gaceta.2017.01.001
0213-9111/ 2017 SESPAS. Publicado por Elsevier Espana, S.L.U. Este es un artculo Open Access bajo la licencia CC BY-NC-ND (http://creativecommons.org/licenses/by-nc-
nd/4.0/).
Document downloaded from http://www.elsevier.es, day 03/09/2017. This copy is for personal use. Any transmission of this document by any media or format is strictly prohibited.
Es importante identificar el patrn en que aparecen los datos causa de la variacin introducida en la imputacin de los valores
ausentes, ya que esto puede determinar la viabilidad de imputar y, ausentes.
en caso afirmativo, el mtodo ms eficiente3,5,7 . 3. Pooling step: combinando las estimaciones de los diversos con-
juntos de datos mediante reglas simples6 se obtienen los
estimadores definitivos ( X1 imp ), as como los errores ( X1 imp )
Imputacin simple
que incorporan la incertidumbre de los valores ausentes.
Consiste en asignar un valor al valor ausente, que poste-
riormente es analizado exactamente igual que los realmente Para profundizar en la imputacin mltiple pueden consultarse
observados. Para variables dicotmicas existen varios mtodos: Rubin6 y Van der Palm et al.2 .
entre otros, generar una nueva categora que agrupe los valores
ausentes; asignar el valor del vecino ms cercano; o el mtodo Hot- Ejemplo
Deck, que consiste en extraer al azar, del grupo de sujetos con las
mismas caractersticas que el que presenta el valor ausente, uno Tenemos una poblacin con tres variables dicotmicas: la
de los valores observados (donador). El lector interesado puede dependiente, YBin(N, =0,207); la variable con valores ausen-
profundizar en imputacin simple consultando varios trabajos4,5 . tes, X1 Bin(N, =0,399); y una sin valores ausentes, X2 Bin(N,
Id X1 X2 Y
1 x11 x21 y1
2 x12 x22 y2
3 x23 y3 Conjunto de datos original,
con valores ausentes
n x1n x2n yn
x1, x1
Id X1 X2 Y Id X1 X2 Y Id X1 X2 Y
1 x11 x21 y1 1 x11 x21 y1 1 x11 x21 y1
2 x12 x22 y2 2 x12 x22 y2 2 x12 x22 y2
3 x13_imp_1 x23 y3 3 x13_imp_2 x23 y3 3 x13_imp_m x23 y3
x1_imp, x1_imp
Figura 1. Esquema del proceso de imputacin mltiple para una variable X1, con dos covariables sin valores ausentes (X2 e Y).
Document downloaded from http://www.elsevier.es, day 03/09/2017. This copy is for personal use. Any transmission of this document by any media or format is strictly prohibited.
MCAR MAR
0,020
0,015
SE (X1)
0,010
0,005
0,000
5% 15% 25% 35% 5% 15% 25% 35% 5% 15% 25% 35% 5% 15% 25% 35% 5% 15% 25% 35% 5% 15% 25% 35%
LW IS IM LW IS IM
Porcentaje de valores ausentes
MCAR MAR
3,5
3,0
2,5
OR (X1)
2,0
1,5
1,0
0,5
5% 15% 25% 35% 5% 15% 25% 35% 5% 15% 25% 35% 5% 15% 25% 35% 5% 15% 25% 35% 5% 15% 25% 35%
LW IS IM LW IS IM
Porcentaje de valores ausentes
MCAR MAR
3,5
3,0
2,5
OR (X1)
2,0
1,5
1,0
0,5
5% 15% 25% 35% 5% 15% 25% 35% 5% 15% 25% 35% 5% 15% 25% 35% 5% 15% 25% 35% 5% 15% 25% 35%
LW IS IM LW IS IM
Porcentaje de valores ausentes
Figura 2. Resultados de las simulaciones: error estndar de X1 (SE(X1 )), OR(X1 ) y OR(X2 ). La lnea discontinua indica el valor poblacional.
=0,442). Seleccionamos muestras de tamano n = 1000 con 1) porque se cree que su objetivo consiste simplemente en sustituir
diferentes porcentajes de prdidas segn MCAR y MAR (vase un valor ausente por uno imputado; 2) por la percepcin de que es
el Apndice disponible online como Material suplementario). Se una tcnica compleja; y 3) por la creencia de que ante la incerti-
estiman los coeficientes de una regresin logstica segn LW, impu- dumbre que provoca un valor ausente lo ms prudente es dejarlo
tacin simple (mtodo Hot-Deck, librera R HotDeckImputation9 ) e como tal. La primera es falsa; sobre la segunda, creemos que puede
imputacin mltiple, mediante ecuaciones encadenadas2,10 (libre- afirmarse que hay tcnicas ms complejas cuyo uso est genera-
ra R mice10 ). Se comparan los resultados en trminos de precisin lizado; y para la ltima opinamos que, a menudo, imputar puede
para la estimacin de X1 y de la asociacin entre X1 y X2 con Y. ser ms prudente que no hacerlo (con la informacin disponible
En la figura 2 se presentan los resultados de las simulaciones. e imputando podemos lograr estimadores ms eficientes y menos
En trminos de precisin de X1 puede observarse que, con LW, sesgados, si no insesgados).
a mayor porcentaje de prdida, peor precisin, mientras que al Trabajar con LW aumenta la imprecisin, y si el mecanismo de
trabajar de forma imputada esta se mantiene. En trminos de aso- prdida es MAR, generar estimadores sesgados5,7 . Hay que dis-
ciacin de X1 con Y se observa que, cuando el patrn de prdidas es tinguir entre imputacin simple e imputacin mltiple: la primera
MCAR, todos los mtodos realizan estimaciones cercanas al valor solo sustituye el valor ausente por otro que es tratado exactamente
real. Sin embargo, cuando el patrn es MAR, LW obtiene estimado- igual que uno observado; la segunda consiste en un proceso ms
res con mayor sesgo al aumentar el porcentaje de valores ausentes. elaborado que permite capturar la incertidumbre de los valores
La imputacin simple y la imputacin mltiple arrojan estimado- ausentes. A diferencia de cuando se trabaja con una variable con-
res cercanos al valor real en todos los casos, ligeramente con menor tinua, donde la imputacin simple suele subestimar el error57 ,
variabilidad con la imputacin mltiple. segn nuestros resultados para variables dicotmicas parecera que
las diferencias entre imputacin simple e imputacin mltiple no
Discusin y conclusiones son tan sensibles, siempre que el mecanismo de imputacin repro-
duzca el patrn de prdida. Y es que la validez de los resultados
En nuestra opinin, hay tres razones fundamentales por las depende de que, en el caso de la imputacin mltiple, el modelo de
que el uso de la imputacin mltiple sigue siendo poco frecuente: imputacin se realice adecuadamente3 .
Document downloaded from http://www.elsevier.es, day 03/09/2017. This copy is for personal use. Any transmission of this document by any media or format is strictly prohibited.
Editora responsable del artculo Se puede consultar material adicional a este artculo en su ver-
sin electrnica disponible en doi:10.1016/j.gaceta.2017.01.001
Mara Victoria Zunzunegui.
Bibliografa
Contribuciones de autora
1. Prez-Hoyos S, Ferreros I, del Amo J, et al. Imputacin del instante de serocon-
versin al VIH en cohortes de hemoflicos. Gac Sanit. 2003;17:47482.
Todas las personas firmantes contribuyeron a la concepcin y 2. Van der Palm DW, van der Ark LA, Vermunt JK. A comparison of incomplete-data
el diseno del trabajo, el diseno de las simulaciones, el anlisis y la methods for categorical data. Stat Methods Med Res. 2016;25:75474.
interpretacin de los datos, la escritura del documento y su revisin 3. Sterne JAC, White IR, Carlin JB, et al. Multiple imputation for missing data in
epidemiological and clinical research: potential and pitfalls. BMJ. 2009;338:
crtica con contribuciones intelectuales importantes, y aprobaron b2393.
la versin final para su publicacin. 4. Little RJA, Rubin DB. Statistical analysis with missing data. New York: Wiley;
2002.
5. Schafer JL, Graham JW. Missing data: our view of the state of the art. Psychol
Financiacin Methods. 2002;7:14777.
6. Rubin DB. Multiple imputation for nonresponse in surveys. New York: Wiley-
Si bien este trabajo no ha tenido financiacin directa, el segundo Interscience; 2004.
7. Donders ART, van der Heijden GJMG, Stijnen T, et al. Review: a gentle introduc-
autor ha sido parcialmente apoyado por becas del Instituto de Salud tion to imputation of missing values. J Clin Epidemiol. 2006;59:108791.
Carlos III (Gobierno de Espana), cofinanciado por fondos FEDER 8. Canizares M, Barroso I, Alfonso K. Datos incompletos: una mirada crtica para su
(Fondos para el Desarrollo Regional Europeo) - Una forma de hacer manejo en estudios sanitarios. Gac Sanit. 2004;18:5863.
9. Joenssen DW. HotDeckImputation. Hot Deck Imputation Methods for Missing
Europa (referencias: RD12/0036/0056, PI11/02090) y por la Agn-
Data. 2015.
cia de Gesti dAjuts Universitaris i de Recerca (2014SGR 756) y 10. Van Buuren S, Groothuis-Oudshoorn K. MICE. Multivariate Imputation by Chai-
RecerCaixa 2015 (MD088652). ned Equations in R. J Stat Softw. 2011;45:167.
Conflicto de intereses
Ninguno.