Vous êtes sur la page 1sur 50

Sesin 7

Procesamiento de Datos

Procesamiento de Datos
El procesamiento de datos en una encuesta es llamado,
frecuentemente, cuello de botella.
Esto se debe a que muchas encuestas han sufrido serios
excesos de
d costos,
t
grandes
d demoras,
d
e inclusive,
i l i
ffallas
ll
totales en la etapa del procesamiento de datos.
Los factores que comnmente contribuyen a esto son la
falta de conocimiento prctico en materia de
procesamiento de datos, la falta de facilidades de equipos
(hardware) y programas (software) de cmputo y un
manejo y control inadecuados.
Hussmanns, R.; Mehran, F.; Verma, V.: ILO Manual sobre
conceptos y mtodos de la OIT (Ginebra, Oficina
I
Internacional
i
ld
dell T
Trabajo,
b j 1990) p. 291
291.
07/2

Procesamiento de Datos

Planificacin del procesamiento


de datos
OBJETIVO
OBJETIVO:
reducir, tanto como sea posible y sin
reducir
comprometer la calidad de los datos, el
tiempo entre la captacin de datos
posterior a la recoleccin en el terreno y la
p
p
preparacin
de stos p
para el anlisis.

07/3

Procesamiento de Datos
Planificacin
del
procesamiento
de datos
Definir los
requerimientos
de la encuesta

Actividades
A
ti id d d
de
pre-procesamiento

Actividades, tales
como diseo de la
muestra, encuesta
piloto
il t etc.
t

Ingreso
de datos

Anlisis
de datos

Limpieza
de datos

Informe
final

Concluir los
indicadores
Diseo del
cuestionario

Recoleccin de
datos del terreno

Redaccin
del
informe

Etapas tpicas en las encuestas SIMPOC


07/4

Procesamiento de Datos

Planificacin de polticas
Factores importantes a considerar
estructura de la encuesta
recoleccin de datos y cronograma
mtodos de recoleccin de datos
mantener el mpetu de la encuesta

Empezar a planificar el procesamiento de datos


tan pronto como sea posible al mismo tiempo
que se inicia la planificacin de la encuesta
07/5

Procesamiento de Datos

Actividades de planificacin de
polticas
Definicin de los aspectos relevantes de las bases
de datos
Seleccin del hardware y software
Identificacin del personal
Programacin del tiempo necesario para el
procesamiento de datos
Formulacin de la estrategia de almacenamiento
de datos
Diseo del procedimiento de acceso
07/6

Procesamiento de Datos

Definicin de los aspectos


relevantes de las bases de datos (1)
Variable para la identificacin de registros
identificar un caso o registro de manera nica
vincular variables en una base de datos de archivos
mltiples
vincular la base de datos original (con todas las
variables) y la base de datos de uso pblico
identificar variables que servirn para la identificacin
de registros (p.ej. cdigo provincial, cdigo del rea de
empadronamiento, y nmero de la vivienda)
07/7

Procesamiento de Datos

Definicin de los aspectos


relevantes de las bases de datos (2)
archivo ASCII
ESTRUCTURA
DEL ARCHIVO

archivos en formato especfico


archivo fijo
archivo jerrquico
j
q

07/8

Seleccionar la estructura de los archivos de acuerdo a


los recursos de cmputo disponibles y la experiencia de
los procesadores de datos

Procesamiento de Datos

Definicin de los aspectos


relevantes de las bases de datos (3)
contenido del archivo

(datos, documentos, cuestionario, etc.)

ROTULAR
ARCHIVOS

unidades a las que se relaciona


ell archivo
hi (nio o nia, padres, ambos)
nmero de versin
pas pertinente
ao y etapa
p de la encuesta
archivo de uso general o restringido

Desarrollar una convencin para rotular los archivos


07/9

Procesamiento de Datos

Definicin de los aspectos


relevantes de las bases de datos (4)
Creando y rotulando variables
mtodo pregunta-nmero al rotular variables originales
( i
(primarias)
i )
mtodo predeterminado al rotular variables derivadas
maysculas para las variables primarias (cuando es
posible)
minsculas
i l para las
l variables
i bl derivadas
d i d
factor de ponderacin debe rotularse de acuerdo a las
reglas de las variables primarias
07/10

considerar las variables imputadas como variables


derivadas

Procesamiento de Datos

Definicin de los aspectos


relevantes de las bases de datos (5)
Las etiquetas de las variables
ayudan a comprender la base de datos
relacionan la pregunta con la variable
usan un texto con significado dentro de los
lmites permitidos

07/11

contina

Procesamiento de Datos

Definicin de los aspectos


relevantes de las bases de datos (6)
Las etiquetas de las variables
en el caso de las variables primarias,
primarias pueden
incluir la pregunta literal junto con el nmero
de pregunta correspondiente
incluyen la justificacin para crear una variable
derivada con referencia a la variable primaria

07/12

Procesamiento de Datos

Definicin de los aspectos


relevantes de las bases de datos (7)
Codificacin
precodificar previamente al ingreso de datos
para cdigos adicionales, seguir el esquema de
codificacin
difi
i d
definido
fi id d
durante
t ell di
diseo
d
dell
cuestionario
cumplir con los estndares
especificar todos los valores perdidos posibles
07/13

Procesamiento de Datos

Definicin de los aspectos


relevantes de las bases de datos (8)
Reglas de verificacin de consistencia
y lgica
desarrollar reglas de verificacin lgica a
travs de la revisin del cuestionario
tener un entendimiento detallado del
cuestionario y su flujo
las reglas pueden ser de gran utilidad para
los programadores de cmputo

07/14

Procesamiento de Datos

Definicin de los aspectos


relevantes de las bases de datos (9)
Ejemplos: Consistencia y revisin de reglas lgicas
Una persona de 5 aos que diga estar casada
Una persona masculina que diga estar embarazada
Un nio-a
nio a que no ha trabajado que reporte haber tenido
una lesin relacionada con el trabajo

07/15

Procesamiento de Datos

Definicin de los aspectos


relevantes de las bases de datos (10)
Imputaciones
desarrollar posibles frmulas revisando los
cuestionarios
desarrollar software de automatizacin
identificar mtodos para incorporarlos en los
datos
Involucrar en el desarrollo de frmulas al analista de datos
y a los diseadores de los cuestionarios y de la muestra
07/16

Procesamiento de Datos

Definicin de los aspectos


relevantes de las bases de datos (11)
Documentacin
designar
g
en algn
g miembro del equipo
q p
la responsabilidad de registrar todas
las actividades de procesamiento
problemas encontrados
resolucin
de problemas
principales decisiones tomadas
07/17

Procesamiento de Datos

Seleccin del hardware y


soft a e (1)
software
Computadoras
e impresoras
Software de
ingreso y limpieza
de datos

computadora
p
p
para el
procesamiento de datos
computadora para el
almacenamiento final
Blaise
IMPS
ISSA
EpiInfo

07/18

CSPro

Procesamiento de Datos

Seleccin del hardware y


soft a e (2)
software
Software
f
para ell
procesamiento estadstico
y tabulados

SPSS
SAS
STATA

Software para
documentacin y otros
tabulados

Microsoft Office,
y
Word,,
incluyendo
Excel, y Access
TPL

07/19

Procesamiento de Datos

Seleccin del hardware y


soft a e (3)
software
Herramientas
utilitarias del
software

herramientas de
automatizacin

(para realizar tareas repetidas)

herramientas para transferir


archivos entre distintas
computadoras
software anti-virus

Accesorios del
hardware
07/20

Cables, discos,
CDs UPS,
CDs,
UPS etc
etc.

Procesamiento de Datos

Identificacin del personal (1)


Personal para ingreso de datos
identificar
id
ifi
a un responsable
bl para ell iingreso d
de
datos y validaciones iniciales
familiaridad con el software de ingreso de datos
Regla emprica:
Se necesita 10 p
personas trabajando
j
en paralelo
p
en el ingreso
g
de datos, por aproximadamente 40 horas a la semana y por
un perodo de 2 meses, para ingresar y validar los datos de
8,000
,
hogares
g
07/21

Procesamiento de Datos

Identificacin del personal (2)


Personal para el procesamiento de datos
Debe estar completamente familiarizado con
ell cuestionario
i
i
la edicin
los tabulados
La misma persona puede realizar distintas
actividades.
ti id d
07/22

Procesamiento de Datos

Identificacin del personal (3)


El personal para el procesamiento de
datos debe
q
conocer los p
paquetes
estadsticos
ser capaz de hallar y corregir errores en las
bases de datos
ser capaz de realizar tareas repetitivas
eficientemente

07/23

Procesamiento de Datos

Identificacin del personal (4)


Programador de cmputo
desarrollo de programas basndose en reglas de
verificacin de consistencia, automatizacin, etc.
capaz de entender el cuestionario de la encuesta y
desarrollar reglas para revisar la consistencia
en los casos en que participen programadores en el
diseo del cuestionario, ellos deben ser incluidos
posteriormente en el equipo de programacin

07/24

Procesamiento de Datos

Identificacin del personal (5)


Administracin del sistema de cmputo
Los administradores de los sistemas de cmputo
deben estar familiarizados con
el manejo de sistemas autnomos o en red
impresoras
mtodos de transferencia de archivos
sistemas antivirus
operaciones de respaldo (backup)
07/25

mtodos de recuperacin de archivos contaminados

Procesamiento de Datos

Identificacin del personal (6)


Supervisor:
especialista altamente calificado en el procesamiento
de datos
experiencia
i
i en programacin
i
capacidad para supervisar toda la operacin de
procesamiento de datos
experiencia previa en el manejo del procesamiento de
datos de encuestas o censos
estar familiarizado con los paquetes de software
para el p
procesamiento de datos en materia
utilizados p
de ETI
07/26

Procesamiento de Datos

Programacin del tiempo


necesario para el
procesamiento de datos (1)
El desarrollo del programa para el ingreso
de datos, pruebas y capacitacin
puede tomar mucho tiempo
b ell programa d
t
probar
de iingreso d
de d
datos
los operadores de ingreso de datos deben ser
capacitados
i d
deben estar listos antes de la recoleccin de datos
07/27

Procesamiento de Datos

Programacin del tiempo


necesario para el
procesamiento de datos (2)
el ingreso de datos tarda, aproximadamente, un
mes incluyendo la codificacin adicional
la validacin de los datos tarda,
i d
aproximadamente,
un mes
contratar el nmero requerido
q
de operadores
p
de
ingreso de datos que corresponda

07/28

Procesamiento de Datos

Formulacin de una estrategia


pa
para
a el almacenamiento de datos
Hardware
Software de automatizacin
E t t
d
t i
Estructura
dell di
directorio

07/29

Procesamiento de Datos

Diseo de un procedimiento
de acceso
Poltica de acceso
persona a cargo de la custodia: Administrador
del sistema
persona de contacto: Supervisor
p
p
autoridad que puede modificar el contenido:
Supervisor
completar la condicin de acceso para cada
archivo
07/30

Procesamiento de Datos

Diseo de un procedimiento
de acceso
Poltica de respaldo (backup)
Todos
deben
de
T d los
l archivos
hi
d
b ttener copias
i d
respaldo de acuerdo a la poltica existente
en la organizacin

07/31

Procesamiento de Datos

Actividades del procesamiento


de datos (1)
Ingreso de datos y validaciones preliminares
Anexar, fusionar y dividir archivos
Validacin de datos
Decisiones finales en materia de errores
Completar el procesamiento de datos y
generar el(los) archivo(s) de datos
07/32

Procesamiento de Datos

Actividades del procesamiento


de datos (2)
Preparacin de las bases de datos de uso pblico
Documentacin final
Tabulaciones finales
Conversin de los archivos de datos a otros
formatos (en caso sea necesario)
Almacenamiento de todos los archivos
07/33

Procesamiento de Datos

Ingreso de datos y validaciones


p
preliminares
elimina es
Puede realizarse en el terreno o en la sede de la
encuesta
Debe iniciar inmediatamente despus de la
recoleccin de datos
Revisin cruzada con el cuestionario para
chequear mensajes de error
Aplicar
p
el mtodo de doble entrada p
para el
ingreso de datos
Una vez ingresados
g
los datos,, los cuestionarios
deben ser empaquetados y almacenados
07/34

Procesamiento de Datos

Anexar, fusionar y dividir


a chi os (1)
archivos
anexar
fusionar

aadir
di casos
aadir variables
fusin de uno-a-uno
fusin de uno-a-muchos
fusin de muchos
muchos-a-muchos
a muchos

dividir
07/35

subconjuntos
j
de casos y variables

Procesamiento de Datos

Fusin de archivos: uno a uno


Antes de la fusin

07/36

Despus de la fusin

Fichero 1
(vivienda)

Fichero 2
(persona)

(Los nmeros

son identificadores
d
f d

1 a1
1 a2
2 a3
3

1 x1
1 x2
2 x3
3

1 a1
1 a2
2 a3
3 x1
1 x2
2 x3
3

2 b1 b2 b3

2 y1 y2 y3

2 b1 b2 b3 y1 y2 y3

3 c1 c2 c3

3 z1 z2 z3

3 c1 c2 c3 z1 z2 z3

nicos utilizados para la fusin)

Excepciones: Uno de los ficheros tiene ms casos que el otro.


O ambos fficheros tienen las mismas variables. Cada p
paquete
q
estadstico puede tratar estas situaciones de manera
diferente.

Procesamiento de Datos

Fusin de archivos: uno a varios


Antes de la fusin
Fichero 1
(vivienda)

Fichero 2
(persona)

(Los nmeros son identificadores

1 a1
1 a2
2 a3
3

1 x1
1 x2
2 x3
3

1 a1
1 a2
2 a3
3 x1
1 x2
2 x3
3

Igual que en la vivienda 1 1 y1 y2 y3

1 a1 a2 a3 y1 y2 y3

Igual que en la vivienda 1 1 z1 z2 z3

1 a1 a2 a3 z1 z2 z3

2 b1 b2 b3

2 b1 b2 b3 m1 x1 z1

2 m1 x1 z1

nicos utilizados para la fusin)

Igual que en la vivienda 2 2 z1 m1 m2

2 b1 b2 b3 z1 m1 m2

3 c1 c2 c3

3 c1 c2 c3 m1 y1 y2

3 m1 y1 y2

Igual que en la vivienda 3 3 x1 y1 y2

07/37

Despus de la fusin

3 c1 c2 c3 x1 y1 y2

Excepciones: Uno de los ficheros tiene registros que no coinciden con el


otro. Cada paquete estadstico puede tratar esta situacin de manera
diferente.

Procesamiento de Datos

Fusin de archivos: varios a varios


Antes de la fusin

07/38

Despus de la fusin

Fichero 1
(vivienda y
persona)

Fichero 2
(persona y
persona)

(Los nmeros

son identificadores
d
f d

1 a1 a2 a3
(persona 1)

1 x1 x2 x3

1 a1 a2 a3 x1 x2 x3

1 b1 b2 b3
(persona 2)

1 persona no
entrevistada

2 b1 b2 b3 __ __ __

2 persona no
entrevistada

2 z1
1 z2
2 z3
3

3 __ __ __ z1
1 z2
2 z3
3

3 d1 d2 d3

3 persona no
entrevistada

3 d1 d2 d3 __ __ __

nicos utilizados para la fusin)

Procesamiento de Datos

Anexar, fusionar y dividir


a chi os (2)
archivos
Aspectos a observar cuando se
anexa o fusiona archivos
etiquetas de variables distintas pero usadas para
representar lo mismo en dos archivos de datos
(p ej edad
archivo cc_edad
edad en otro archivo)
(p.ej.
edad en un archivo,
etiquetas de variables para representar datos distintos
en dos archivos de datos (p.ej.
salario
(p ej variable salario
representa ingreso por semana en un archivo e ingreso
mensual en otro)
07/39

contina

Procesamiento de Datos

Anexar, fusionar y dividir


a
archivos
chi os (3)
etiquetas de variables en dos archivos pueden ser
iguales pero de distinto tipo (p.ej. numrico vs string)
variables string en dos archivos distintos pueden ser de
diferente tamao (p.ej. 8 y 16 caracteres)
mismas etiquetas de variables pero diferente cdigo
(p.ej.
(p
j los valores p
para s y no estn invertidos))

07/40

Procesamiento de Datos

Validacin de datos
Verificacin del nmero de variables
Verificacin
del nmero

de registros/casos
Cotejo y conteo de registros
Cdigos y valores fuera de rango
Valores perdidos
Verificacin de consistencia

07/41

Procesamiento de Datos

Decisiones finales acerca de


los errores
Diversos errores requieren de
decisiones diversas:
identificar/marcar errores en los datos
id ifi
identificar
casos/variables
i bl que pueden
d ser iimputadas
d y
por qu
incorporacin de valores imputados
identificacin de casos que deben ser referidos de vuelta
a los cuestionarios de la encuesta
casos que se pueden eliminar
razones por las que se eliminan
elaboracin de la documentacin
07/42

Procesamiento de Datos

Completar el procesamiento
de datos y la generacin de
archivo(s) de datos
Procesamiento de datos algunas veces es un
proceso continuo y que no termina
Decidir cundo detenerse
Nombrar esta versin del archivo como UNO
Revisar del 3 al 5% de los registros para asegurarse
de que estn libres de errores
Revisin al azar para evaluar la integridad general
de la base de datos
07/43

Procesamiento de Datos

Preparacin
i de
d b
bases d
de d
datos
para uso pblico
Temas de
confidencialidad

identificadores directos

Manejando
variables/casos

supresin
i

identificadores indirectos

poner corchetes
codificacin superior/inferior
recodificacin

07/44

canje de datos
interferencia de datos
(data perturbation)

Procesamiento de Datos

Documentacin final
Puede tomar mucho tiempo
Debe contener toda la informacin sobre los datos,
datos
p.ej. el mtodo de encuesta, informacin sobre
muestreo, perodo de recoleccin, informacin
acerca d
de llas variables,
i bl
valores
l
omisos,
i
etc.
Debe iniciarse previamente al procesamiento de
datos efectivo
Debe seguir los estndares
Preferiblemente un archivo debe hacer referencia
a otros archivos
07/45

Procesamiento de Datos

Tabulaciones finales
Las encuestas involucran algn tipo de
plan de tabulados
elaboracin de tablas y revisin de
consistencia entre las mismas
comparacin de los resultados con valores
de otras fuentes (valores proyectados)

07/46

Procesamiento de Datos

Conversin de los archivos de


datos a otros formatos segn se
requiera
Usualmente es generado en el formato de un
paquete especfico
De ser posible, convertir datos a otros formatos
Convertir datos a ASCII y generar libro de cdigos
Recargar
g los datos ASCII usando el mismo libro de
cdigos
Verificar los datos
07/47

Procesamiento de Datos

Almacenamiento de todos
los archivos
a chi os (1)
Posibles listados/tipo de archivos
datos en un formato/paquete especfico
datos en ASCII con el diccionario de datos necesario
datos de uso pblico
datos de uso pblico en ASCII con el
diccionario de datos necesario
07/48

contina

Procesamiento de Datos
documentacin final
cuestionario
reglas lgicas para la verificacin de consistencia
archivos
hi
de
d programas d
de cmputo

t
manual de instrucciones del entrevistador
y/o supervisor
archivo(s) de cdigos
archivos de muestreo y ponderacin
07/49

Procesamiento de Datos

Almacenamiento de todos
los a
archivos
chi os (2)
Agruparlos de acuerdo a versin
versin, tipo
tipo, etc
etc.
Crear un archivo ndice asociado a cada
subdirectorio
archivo
Aadir una breve descripcin en cada archivo,
de acuerdo a los contenidos del archivo en el
ndice

07/50

Vous aimerez peut-être aussi