Tipos de Estudios Observacionales

Albert Navarro Giné, Miguel Martín Mateo
Grups de Recerca d’Amèrica i Àfrica Llatines

(GRAAL)
Universitat Autònoma de Barcelona
Facultat de Medicina. Unitat de Bioestadística
Uso profesional del SPSS

Autoprendizaje a través de un estudio real
L’exercici professional de les advocades de Barcelona
Datos del editor en México

Primera edición: julio de 2002
Universitat Autònoma de Barcelona
Servei de Publicacions
Edifici A. 08193 Bellaterra (Barcelona). Spain
sp@uab.es
Se ceden gratuitamente los derechos de autor y de edición de este

libro, para uso exclusivo de los cursos impartidos por el Colegio
de la Frontera Sur, de San Cristobal de las Casas, Chiapas, México.
En concepto de cooperación internacional.
ISBN y Depósito legal de la edición en México

Uso profesional del SPSS Materials 3
Índice
CAPÍTULO 1. INTRODUCCIÓN ....................................................................................... 7

¿A quién va dirigido el libro? ................................................................................... 8
Estructura del libro ................................................................................................... 9
Enunciado del ejemplo práctico ................................................................................ 10
Características de la región La Fraylesca y de la muestra estudiada ....................... 11
Bibliografía ............................................................................................................... 12
CAPÍTULO 2. EL PAQUETE ESTADÍSTICO SPSS ............................................................ 15

¿Qué es un paquete estadístico? ............................................................................... 15
Estructura básica de un paquete estadístico .............................................................. 16
Normas generales de la sintaxis ................................................................................ 19
Ejecución de una instrucción de sintaxis .................................................................. 21
Instrucciones de control (settings) ............................................................................ 23
CAPÍTULO 3. ACCIONES BÁSICAS CON LA MATRIZ DE DATOS ......................................... 27

La matriz de datos ..................................................................................................... 27
Matriz de datos individualizados ........................................................................ 27
Matriz de datos agrupados o agregados .............................................................. 29
Introducción de los datos .................................................................................... 30
Ficheros disponibles para realizar el estudio ...................................................... 31
Abrir archivos en ASCII (texto) ............................................................................... 33
Cómo guardar o grabar el fichero activo .................................................................. 40
Cómo abrir archivos en formato de hoja de cálculo o de base de datos ................... 42
Cómo abrir un archivo de datos en formato de datos SPSS (*.sav) ......................... 45
Apertura general de archivos .................................................................................... 46
Sintaxis del capítulo 3 .................................................................................................52
CAPÍTULO 4. DEFINICIÓN DE VARIABLES ....................................................................... 55

Introducción ............................................................................................................... 55
Formato ................................................................................................................ 55
Medida o naturaleza.............................................................................................. 56
Definición de la información que registra la variable ........................................ 58
Definición de las posibles categorías o valores especiales .................................. 58
Valores perdidos o desconocidos ......................................................................... 59
Definición de las características de una variable ....................................................... 59
Formato ...................................................................................................................... 60
Medida .................................................................................................................... 62
Etiquetas de valores o categorías ............................................................................ 64
4 Materials Albert Navarro; Miguel Martín
Valores perdidos o desconocidos ............................................................................ 66

Sintaxis del capítulo 4 ............................................................................................. 70
CAPÍTULO 5. MANIPULACIÓN DE FICHEROS ................................................................ 75

Introducción ............................................................................................................ 75
Ordenación de casos ............................................................................................... 76
¿Cómo añadir casos a un fichero ya existente? ...................................................... 77
¿Cómo añadir variables a los registros de un fichero ya existente? ....................... 81
Selección de subgrupos de casos ............................................................................ 85
Agregación de datos en tablas indexadas ............................................................... 89
Segmentar un fichero .............................................................................................. 95
Ejercicios ................................................................................................................ 98
CAPÍTULO 6. CREACIÓN Y TRANSFORMACIÓN DE VARIABLES ...................................... 99

Introducción ............................................................................................................ 99
¿Con qué formato? ........................................................................................... 100
Creación de variables .............................................................................................. 100
Recodificación de valores ....................................................................................... 106
Transformación condicionada ................................................................................. 111
Bucle de transformaciones condicionadas .............................................................. 113
Determinación de la frecuencia de aparición de un valor determinado
en un grupo de variables ......................................................................................... 115
CAPÍTULO 7. CONTROL DE CALIDAD Y DESCRIPCIÓN DE LOS DATOS ............................ 119

Introducción ................................................................................................. 119
Control de calidad de los datos registrados ............................................................. 119
Descripción de variables ......................................................................................... 126
¿Cómo se describe una variable? ............................................................................ 126
Cómo describir las variables categóricas o cuantitativa discreta: La distribución
de frecuencias ................................................................................................... 127
Cómo describir una variable categórica en función de otra variable categórica:
la tabla de contingencia ................................................................................... 134
Cómo describir una variable cuantitativa: estadísticos de tendencia central
y dispersión ....................................................................................................... 143
Cómo describir una variable cuantitativa según una variable categórica ............... 146
Consideraciones sobre el análisis ........................................................................... 155
Presentación de resultados en forma de tabla ......................................................... 157
Otras formas de resumen mediante tablas .............................................................. 162
Representación gráfica ............................................................................................ 164
CAPÍTULO 8. MACROS O PROGRAMAS DE USO FRECUENTE ......................................... 175
CAPÍTULO 9. AUTOEVALUACIÓN ................................................................................ 183

Introducción ............................................................................................................ 183
Análisis de la distribución de fármacos en familias de la zona urbana
del municipio de Ibiá-MG-Brasil ........................................................................... 183
Características del municipio y de la muestra estudiada ....................................... 184
Sintaxis del capítulo 9 ............................................................................................ 188
Agradecimientos
Quisiéramos expresar nuestro agradecimiento a los estudiantes de la Diplomatura de

Estadística de la Universidad Autónoma de Barcelona por su colaboración en la valo-
ración de este texto como material de aprendizaje. En especial a los alumnos de la asig-
natura Introducción a los Métodos de Investigación en Ciencias de la Salud, Inmacu-
lada Pérez Sánchez, Mercedes Sáez Rambla, Laura Vila Silvestre, Tomás López Jiménez,
Mª Angels Martos Rubio, Marisa Rullas Ledesma, Erika Sierra González y Silvia López
Aguilá, tanto por la revisión de los programas descritos en el libro como por los comen-
tarios y valoraciones acerca de la comprensión del texto.
Un agradecimiento especial le debemos al Dr. Héctor Javier Sánchez Pérez, de ECO-

SUR en San Cristóbal de las Casas, por haber permitido la utilización de los datos del
estudio de desnutrición en la población infantil de la región La Fraylesca de Chiapas
como ejemplo conductor de este texto. También al profesor Horácio Pereira de Faria, de
la Universidade Federal de Minas Gerais, por facilitarnos los datos con los que el lec-
tor puede realizar la prueba de autoevaluación de los contenidos aprendidos en este libro.
Capítulo 1. Introducción
En cualquier estudio que requiera de un análisis estadístico, existen diversas etapas que
marcan la diferencia entre la buena y mala calidad de los resultados que se obtienen del
mismo.
En primer lugar el objetivo u objetivos del estudio deben estar definidos con clari-
dad. Es imposible efectuar un análisis estadístico de calidad si a priori no se conocen
los objetivos generales y parciales de la investigación que se plantea. Las hipótesis a
contrastar quedarían indefinidas y, por lo tanto, sólo cabría realizar un mero análisis des-
criptivo.
Un segundo aspecto que marcaría, en gran manera, la calidad de un trabajo es el que
comporta la definición de las variables y la recogida de la información precisa para ana-
lizarlas. A menudo, una definición deficiente de las variables que conforman un estudio
es consecuencia de que, en el mismo, no existen objetivos claros.
De cualquier forma, deben estar bien definidos aspectos como el tipo y el nivel de
medición de las variables, es decir si la información se ha recogido de forma categórica,
nominal u ordinal, o bien de forma continua.
Por ejemplo, no es lo mismo estudiar la variable hábito tabáquico a través de una varia-
ble categórica que puede tener tres categorías, no fumador, exfumador o fumador, que
utilizar una variable cuantitativa definida como el número de cigarrillos que se fuman
diariamente, variable de la que no podría extraerse a posteriori si una persona había sido
fumadora.
Así mismo, la reflexión previa de si la información se piensa sistematizar en for-
mato numérico o en formato alfanumérico puede facilitar y reducir considerablemente
el tiempo de análisis. Esto, como se verá en el capítulo dedicado a la creación y trans-
formación de variables, es debido a que la mayoría de los paquetes estadísticos de mayor
uso están optimizados para el uso de variables cuantitativas o con definición numérica
de sus categorías.
Todos estos aspectos requieren de la presencia del responsable del análisis desde las
fases previas de diseño del estudio. En muchas ocasiones, sin embargo, el estadístico
responsable interviene en el estudio una vez recolectados los datos, sin haber podido
participar ni en la definición de la naturaleza de las variables ni en la de la estructura glo-
bal de la matriz de datos.
Esta última puede tener diversas estructuras y en muchas ocasiones no es analiza-
ble directamente, requiriendo transformaciones y manipulaciones del o de los ficheros
que contienen la información del estudio. Así, podemos tener información de determi-
nados grupos de casos en un archivo, las variables de cada caso en otros archivos y con
variables adicionales en ficheros complementarios.
Generalmente, el estadístico no debería dar por supuesto ningún tipo de garantías
ofrecidas acerca de la calidad de los datos y como mínimo debe efectuar un análisis pre-
vio de la información incompleta e incluso de la información errónea detectable.
Solamente después de haber definido la estructura definitiva de la matriz de datos y
de haber realizado el control de calidad de los datos disponibles, es cuando puede abor-
darse el análisis estadístico de los mismos.
Para dar respuesta a todos los aspectos enumerados anteriormente, el analista debe
recurrir al uso de programas o paquetes estadísticos, preferentemente homologados y
de distribución amplia, de forma que los resultados obtenidos sean siempre comproba-
bles y comparables por cualquier otro investigador.
Existen diversos programas o paquetes estadísticos que permiten no sólo efectuar
un análisis de datos sino también manipular y gestionar las matrices de datos. En con-
creto en este libro se muestra cómo utilizar el paquete SPSS en el entorno Windows,
intentando acercarse a su uso de una forma profesional, es decir, no sólo explicando las
aplicaciones preprogramadas que se muestran en los menús desplegables del programa
sino también la sintaxis de dichas instrucciones. Este esquema, además de permitir una
utilización consciente de los análisis que se están realizando, permite diversas posibili-
dades que precisamente son las que distinguen a un profesional de un conocedor super-
ficial de paquetes estadísticos. Así, trabajar mediante instrucciones de sintaxis permite
entre otras posibilidades la utilización de recursos de análisis o de descripción que no
existen de forma preprogramada, o también la de crear programas aplicables en diver-
sas ocasiones sin necesidad de repetir el proceso de generación del análisis, asegurán-
dose por lo tanto de que el análisis es siempre el mismo.
¿A quién va dirigido el libro?
El libro está dirigido a diferentes tipos de profesionales, especialmente a aquellos cuyo

centro de actividad son las ciencias de la salud en un concepto amplio de las mismas, si
bien tanto los contenidos como los ejemplos son claramente exportables y aplicables a
cualquier otro campo de aplicación de la estadística, como pueden ser los correspon-
dientes a las ciencias sociales, la psicología, la demografía y la geografía, entre otros.
En primer lugar debemos indicar que esta obra se inició pensando en profesionales
de la estadística, tanto diplomados como licenciados, que quisieran ampliar sus aptitu-
des en el análisis real lejos de los ejemplos académicos y de las bases de datos de tamaño
reducido que se acostumbran a utilizar en la docencia de la estadística en nuestro entorno.
La experiencia de los autores, como docentes en los estudios de la diplomatura de Esta-
dística, así como en los de la licenciatura de Medicina y los de tercer ciclo del área de
conocimiento de Medicina Preventiva y Salud Pública, les indujo a la necesidad de crear
una herramienta docente para introducir a los alumnos, de estas titulaciones, en ejem-
plos prácticos para enseñar cómo abordar el análisis de datos de estructura compleja en
el campo de los estudios en ciencias de la salud. Es en base al seguimiento de un caso
real con todas sus dificultades, que los autores consideran que el estudiante y lector de
este libro podrá adquirir los conocimientos que le serán de utilidad en el ejercicio de su
profesión. Es decir, se ha procurado evitar al máximo los ejemplos que, de tanto inten-
tar ser académicos y didácticos, acaban alejados de la realidad con la que se enfrentará
el profesional en el futuro.
Este ámbito de aplicación genera la posibilidad de enfrentarse a problemas muy fre-
cuentes en la realidad que el alumno desconoce, tanto su existencia como su resolución,
por haberse limitado su aprendizaje a resolver prácticas con archivos de uso docente
restringidos a pocos casos y menos variables.
De manera simétrica, este libro puede ser de gran utilidad a todos aquellos estudio-
sos y profesionales de los ámbitos anteriormente citados que, habiendo realizado algún
curso de formación básica de análisis con algún paquete estadístico determinado, en
especial con SPSS, quieran profundizar en su uso. En este entorno profesional, también
es frecuente que al intentar manipular archivos de datos clínicos o epidemiológicos, el
profesional de salud se encuentre con una complejidad muy superior a la de los archi-
vos con los que usualmente se efectúa la docencia de estadística y de los paquetes de aná-
lisis. A estos profesionales, este libro les mostrará, en la práctica, cómo se manejan dife-
rentes bases de datos tanto en estructura como en el tipo de soporte con el fin de lograr
la base de datos única que refleje la información necesaria para la descripción y análi-
sis de su problema de estudio.
Los ejemplos que se desarrollan a lo largo de este estudio están centrados en el
ámbito de la epidemiología, campo en el que los autores han desarrollado la mayoría de
su actividad profesional; no obstante, la complejidad de situaciones considerada a la
hora de manipular archivos complejos hace que el interés sea inmediato para cualquier
profesional que requiera la combinación de diferentes archivos de datos.
Por último, a pesar de que el libro está dirigido a personas con una perspectiva pro-
fesional y de profundización de conceptos, esta obra puede servir de inicio para cualquier
estudiante que quiera formarse de una manera sólida en el uso de un paquete estadístico
como herramienta de análisis de información estructurada en archivos complejos e infor-
mación distribuida en diferentes ficheros. Esto es así puesto que su desarrollo parte desde
el principio básico del desconocimiento del uso de un paquete estadístico, sin dar por
supuesto ningún conocimiento previo de la materia. Por esta misma razón considera-
mos que puede ser de gran utilidad, como guía de enseñanza, para cualquier docente
implicado en el tema del análisis de datos.
Estructura del libro
El presente libro está estructurado de forma que el lector vaya adquiriendo los conoci-
mientos generales de uso de un paquete estadístico a partir de un ejemplo de análisis de
los datos de un estudio real.
En ningún caso se ha pretendido la elaboración de un manual simplificado, ni suplir
el sistema de ayuda que ofrece cualquier paquete estadístico interactivo, sino ofrecer
una guía de autoaprendizaje a partir de un caso concreto, el cual se ha modificado lige-
ramente para adecuarlo al objetivo académico del libro. El proceso recomendado es, por
lo tanto, el seguimiento ordenado de los capítulos del libro, si bien existen dos recorri-
dos diferenciados que, según sea el conocimiento y nivel de práctica del lector, podrían
superponerse.
El primer recorrido, más profesional, sería el que va indicando las distintas instruc-
ciones de Sintaxis de cada apartado. La ejecución adecuada de los mismos es la que
permite ir avanzando en la resolución del ejercicio práctico. Se han utilizado distintos
formatos de letra, recuadros y sombreados para facilitar la comprensión al lector. En
cada capítulo, además, se ofrece una solución de sintaxis para el logro de los objetivos
descritos.
El segundo recorrido, indicado con el epígrafe de Ventanas, introduce al lector en
el uso de los menús desplegables y en el trabajo clásico del entorno Windows. Tal y
como se plantea, se anima al lector a que, utilizando la opción de Pegar presente en casi
todas las ventanas descritas, pueda ir generando la sintaxis sin necesidad explícita de
escribirla, ya sea para su uso posterior o bien para compararla con la que haya escrito
en la ventana de sintaxis. Es decir, el lector puede efectuar el recorrido de manera para-
lela, comparando en cada caso los términos de la sintaxis que él mismo deduce de la
explicación del texto y la generada de forma automática por el uso de las ventanas.
Siguiendo este doble esquema, en primer lugar se describen las diferentes formas
de definir la matriz de datos y su exportación e importación a otros sistemas de análi-
sis.
A continuación se describen los procedimientos para la definición de variables.
Seguidamente se exponen los pasos necesarios para combinar casos y variables de
distintos ficheros, así como para la selección temporal o definitiva de casos y las opcio-
nes para efectuar el mismo análisis diversas veces en función de un factor.
Un cuarto bloque hace referencia a cómo crear nuevas variables y cómo modificar
las ya existentes.
El siguiente bloque consiste en la exploración de los análisis descriptivos uni y biva-
riados más frecuentes, destacando también la fase previa del control de calidad de los
datos.
Por último, se muestra la importancia de la creación de macros o programas de apli-
cación frecuente.
Se pretende que, con este esquema, la resolución de todas las fases descritas en el
caso real que se utiliza de ejemplo muestre todos aquellos problemas y dificultades pre-
sentes en el trabajo que un analista de datos desarrolla cotidianamente.
El control profesional de las actuaciones que hay que realizar para resolver estos
problemas es otro de los objetivos de este libro, por lo que en todos los ejemplos se
muestran, tal y como se ha comentado anteriormente, las acciones a tomar bajo dos pun-
tos de vista, el automático mediante el uso de ventanas y el consistente en la utilización
de la sintaxis.
Enunciado del ejemplo práctico: Problemas de desnutrición infantil en la

Región La Fraylesca de Chiapas (México). Análisis de la situación alimentaria
a partir de la ingesta proteica
El ejercicio práctico sobre el que se desarrolla este libro corresponde a un estudio que
se deriva de una encuesta de salud realizada por el Departamento de Salud del Colegio
de la Frontera Sur (ECOSUR), en San Cristóbal de las Casas en el estado mexicano de
Chiapas.
La encuesta desarrollaba distintos aspectos que pudiesen delimitar de forma cuan-
titativa los problemas de salud de una zona del estado chiapaneco, la Región Fraylesca,
con el fin de aportar elementos objetivos para la planificación y mejora de los servicios
de salud en la zona.
De todos los aspectos que se investigaban, en este ejercicio se trabaja con la infor-
mación referente al estado nutricional de la población infantil.
La desnutrición sigue siendo uno de los principales problemas de salud pública que afec-
tan a la población infantil de México.1, 2 Este problema, ya importante en sí mismo, se
agrava si se tiene en cuenta que, de forma directa o indirecta, es uno de los factores aso-
ciados a la mayoría de muertes evitables en este estrato de población.
El fenómeno de la desnutrición está asociado, evidentemente, al subdesarrollo eco-
nómico y, en los últimos años, en las zonas pobres sólo se observan pequeños descen-
sos en la desnutrición infantil. De hecho, las zonas que siempre han tenido una mayor
marginación socioeconómica, son las que presentan los niveles más altos de desnutrición
y un mayor deterioro de las condiciones de vida. Dentro de estas zonas se encuentra el
estado de Chiapas.1
La mortalidad infantil por 1000 nacimientos esperados es de 30,6, tasa que corres-
ponde al cuarto peor puesto del país.
La tasa de mortalidad en menores de cinco años es de las más altas de México, 5,4
por 1000 habitantes.
La mortalidad asociada a deficiencias de la nutrición es en el estado de Chiapas un
45% superior a la del resto de México.3
En todos los estudios realizados por la Encuesta Nacional de Nutrición en el Medio
Rural y por el Instituto Nacional Indigenista, se muestra una considerable evidencia de
la relación entre desnutrición y mortalidad en menores. Así se considera que, a grandes
rasgos, más de la mitad de las muertes de menores de cinco años en Latinoamérica son
debidas a esta causa, con la circunstancia agravante de que, para la mayoría de la pobla-
ción afectada, la desnutrición no se considera un problema de salud.
Basándose en estos datos y en estudios previos realizados en México4 se pretende
analizar, a partir de los resultados de una encuesta de salud realizada en la región La
Fraylesca del estado mexicano de Chiapas, la adecuación alimentaria en niños de 12 a
59 meses de edad, a partir de la ingesta proteica diaria y señalar los factores socioeco-
nómicos asociados a los grupos poblacionales de mayor riesgo de desnutrición.
Figura 1.1. Situación geográfica del estado de Chiapas, México.
Fuente: http://www.fortunecity.com/boozers/jerusalem/99/id16.htm
Características de la región La Fraylesca y de la muestra estudiada
Como se ha indicado anteriormente, La Fraylesca es una región del estado de Chiapas,

en el sur de México, que está formada por cuatro municipios en los que están censados,
aproximadamente, 183.000 habitantes en el momento en que se realizó el estudio, a
mediados del año 1994.
La economía se basa fundamentalmente en la agricultura y en términos socioeco-
nómicos se puede decir que tres de los cuatro municipios están catalogados por el Con-
sejo Nacional de Población (CONAPO) como municipios de alta marginación y, el res-
tante, de marginación media.
La encuesta se llevó a cabo entre la población residente en 1100 viviendas particu-

lares seleccionadas en dos municipios, Villaflores y Jaltenango, que en la clasificación
socioeconómica indicada reflejan la mejor y peor situación respectivamente.
De las 1100 viviendas seleccionadas se logró un nivel de participación muy alto ya
que se obtuvieron datos en 1046 viviendas.
La encuesta de salud comprendía múltiples apartados5-7 con el objetivo de ayudar a
la planificación de los servicios de bienestar y salud de la región. La información obte-
nida se estructuró en distintos archivos, en función de los diversos objetivos, de manera
que se pudiesen asignar los datos de la vivienda, como características físicas de la casa,
número de habitantes, datos del jefe de familia, etc., información común a todos los
habitantes de la misma, mediante una clave identificadora de la vivienda. En el caso que
nos ocupa, permitirá asignar esta información a los niños de edades comprendidas entre
los uno y cuatro años, así como los datos acerca de sus madres.
En las 1046 viviendas de las que se obtuvo información, se encontraron 644 niños
en el rango de edad estudiado, si bien, con el fin de lograr una muestra de datos inde-
pendientes entre sí, sólo se estudiaron 472 niños, evitando la presencia en el estudio de
hermanos. En el caso en que en una vivienda se diese este caso, se escogía únicamente
al menor de ellos.
La encuesta recoge en un archivo los datos de ingesta de proteínas, para cada niño.
Esta variable se determina tanto en su cantidad como si la misma es de origen animal o
vegetal. En otro archivo se incluyeron los datos antropométricos necesarios para defi-
nir su estado de crecimiento y nutrición.
En todos los casos la encuesta fue contestada por la madre del niño.
Los datos de ingesta se refieren en todos los casos al día anterior, a través de un cues-
tionario utilizando utensilios y modelos de recipientes de cocina elaborados para estimar,
de la forma más precisa posible, las cantidades de alimentos consumidas por el menor.
Además de estos datos, se consignaron en el archivo final de datos el sexo y la edad
del niño, la edad de la madre, las condiciones de la vivienda, el uso de los servicios de salud
por parte del niño en el último año y las características socioeconómicas de la familia.
Recuerde que los ficheros de datos con la información de la encuesta se encuen-
tran en el http://turururu, debiéndolos copiar el lector en una carpeta de su disco
C:\ o A:\
A efectos didácticos, durante todo el libro, el directorio o carpeta de trabajo refe-
rido es C:\Spss\Chiapas\, debiendo el lector substituir esta dirección por la que haya cre-
ado personalmente en su PC. Así mismo, los ficheros de datos se han segmentado o se
presentan en formatos de base de datos diferentes a los originales con tal de diversificar
al máximo el número de ejemplos y de posibles situaciones de análisis.
En cualquier caso se han mantenido las etiquetas de las variables y de los valores cate-
góricos originales del estudio realizados por ECOSUR.
Bibliografía
1. ÁVILA-CURIEL, A.; CHÁVEZ-VILLASANA, A.; SHAMAH-LEVY, T.; MADRIGAL-FRITSCH,

H. La desnutrición en el medio rural mexicano: análisis de las encuestas naciona-
les de alimentación. Salud Pública Mex. 1993; 35: 658-666.
2. RIVERA-DOMMARCO, J.; GONZÁLEZ-COSSIO, T.; FLORES, M.; HERNÁNDEZ-ÁVILA, M.;
LEZAMA, M.A.; SEPÚLVEDA-AMOR, J. Déficit de talla y emaciación en menores de cinco
años en distintas regiones y estratos de México. Salud Pública Mex., 1995; 37:95-
107.
3 F UENTE , J.R. De la; L IMÓN -R OJAS , M.; F UENTES -A LCALÁ , M.L.;, G UERRERO -
V ILLALOBOS , G. Programa nacional de Acción en Favor de la Infancia. Secreta-
ría Técnica. Serie Documentos Técnicos núm. 2, 1996.
4. B OERMA , J.T.; S OMMERFELD , A.E.; B ICEGO , G.T. «Child Anthropometry in
Cross-sectional Surveys in Developing Countries: An assesment of the Survivor
Bias». American Journal of Epidemiology. 1992; 135:428-437.
5. OCHOA DÍAZ, H.; SÁNCHEZ-PÉREZ, H.J.; RUIZ-FLORES, M.; FULLER, M. Social ine-
qualities and health in rural Chiapas, México: Agricultural economy, nutrition and
child health in the Fraylesca Region. Cad. Saúde Pública (Rio do Janeiro, Brasil)
1999; 15 (1): 789-798.
6. SÁNCHEZ-PÉREZ, H.J.; OCHOA-DÍAZ, H.; GARCÍA, G.M.; MARTÍN, M.M. Bienestar
social y servicios de salud en la Región Fraylesca de Chiapas: El uso de los servi-
cios de atención prenatal. Salud Pública Méx., 1997; 39: 530-538.
7. SÁNCHEZ-PÉREZ, H.J.; OCHOA-DÍAZ, H.; NAVARRO I GINÉ, A.; MARTÍN, M.M. La aten-
ción al parto en Chiapas, México: ¿dónde y quién los atiende? Salud Pública Méx.,
1998; 40: 494-502.
Capítulo 2. El paquete estadístico SPSS
¿Qué es un paquete estadístico?
Se entiende por paquete estadístico un programa modular o una librería de programas

informáticos que analizan la información contenida en uno o varios archivos de datos desde
un punto de vista estadístico, permitiendo posteriormente la manipulación y exporta-
ción de los resultados en forma de tablas, gráficos, informes o nuevas matrices de datos
para análisis posteriores.
La mayor o menor popularidad de estos programas está en función de su versatili-
dad, unida a una facilidad de uso, así como al precio o cuota anual de acceso a la licen-
cia de usuario. En general, la mayoría están desarrollados en un entorno Windows con
el fin de asegurar la compatibilidad y la facilidad de comprensión de los procesos de
uso. Sin embargo, además de estas características, la mayor o menor calidad de un paquete
estadístico, desde una perspectiva profesional, está asociada fundamentalmente a la ver-
satilidad y adecuación en el tratamiento de archivos de información complejos y a la
calidad y transparencia de los algoritmos de análisis.
Evidentemente, si estas características se complementan con un buen sistema de
exportación de resultados, tanto en forma de tablas como de gráficos, los paquetes esta-
dísticos de ese estilo serán utilizados con más frecuencia que otros.
Por desgracia, a veces, la facilidad de uso y el aumento de la versatilidad de los aná-
lisis disponibles produce efectos indeseables que son de difícil corrección. En concreto,
la accesibilidad a técnicas estadísticas complejas no favorece un mejor uso y desarrollo
de la estadística en todos los ámbitos, sino que posiblemente lo que genera es un mal uso
disfrazado de presentaciones más o menos espectaculares. Es frecuente que el dominio
aparente del medio técnico de análisis, el paquete estadístico, unido a una falta de cono-
cimiento de los conceptos necesarios para analizar con corrección un estudio, cree situa-
ciones de alto riesgo para el usuario aficionado. El uso, por lo tanto, y la selección de
un paquete estadístico debe realizarse, también, en función de los conocimientos de esta-
dística que posee el futuro usuario.
Existe en el mercado actual un número apreciable de paquetes estadísticos de cali-
dad profesional avanzada, siendo los más conocidos SAS, BMDP, S-Plus, o Statistica.
En este manual se presenta el uso de un paquete estadístico de uso muy extendido en todos
los ámbitos científicos y técnicos, el SPSS. Su amplia aceptación se debe a que históri-
camente los diseñadores del programa provenían de ámbitos profesionales muy varia-
dos, tanto del diseño experimental como de las ciencias sociales y de la psicología, y
por ello su desarrollo fue siguiendo siempre una línea de aplicación de técnicas esta-
dísticas, casi a demanda de lo que los profesionales de la estadística aplicada en esos
campos necesitaban en cada momento.
Bajo esa perspectiva, la forma flexible de tratar las matrices de datos respondía a
una situación en la que, en la mayoría de los casos, el profesional estadístico se tenía
que enfrentar con archivos de datos no planificados de cara al análisis, sino a la como-
didad del investigador o responsable del proyecto de estudio. Así era muy frecuente que
en los archivos de datos la información se encontrase sin codificar y las variables estu-
viesen definidas en formatos alfanuméricos, en registros de longitud variable, con cri-
terios confusos acerca de lo que significa el No sabe / No contesta frente a No se pre-
guntó, a variables con número de categorías no cerrado, etc. Debido a la capacidad de
resolución de problemas de este estilo, el paquete SPSS sigue siendo uno de los más fle-
xibles y fáciles de usar en el manejo de matrices de datos y sus transformaciones.
De todas formas, en este libro se pretende introducir el uso de este paquete estadís-
tico de manera tal que el paso a otro programa o a otro paquete no represente más que
cambiar la forma de efectuar los análisis pero no los conceptos de funcionamiento de un
paquete estadístico en general, y por supuesto que el cambio de versión del SPSS, cam-
bio lógico de evolución de cualquier producto informático, no signifique ningún esfuerzo
apreciable en el usuario al que va dirigido este libro. Por esta razón, como se irá haciendo
énfasis a lo largo de todos los capítulos, se intentará que el usuario profesional entienda
la necesidad de conocer las instrucciones de programación necesarias para efectuar un
tipo de análisis determinado, más allá de la forma habitual de selección de opciones en
menús desplegables tan familiares y estimadas por los usuarios informáticos actuales.
Estructura básica de un paquete estadístico
La mayoría de paquetes estadísticos están organizados de forma modular.

En general existe un módulo de comunicación con los archivos de datos de manera
que pueda definirse la estructura del mismo y, por lo tanto, puedan importarse de forma
compilable o traducida por el paquete.
Así, el módulo de comunicación tendrá las opciones de abrir ficheros, buscando en
el directorio o carpeta adecuado, activando submódulos o funciones de lectura depen-
diendo de la extensión que acompañe al archivo. Por ejemplo, si el archivo de datos
posee la extensión .xls, se activa un módulo de importación de un fichero en EXCEL.
De esta forma, no sólo se importa la estructura y la matriz de datos sino también la infor-
mación de las variables que en ese archivo se encuentran.
Como ya se verá más adelante, la variedad de formatos y estructuras de archivos de
datos a los que puede acceder el módulo de entrada son muy variados, existiendo, ade-
más, la posibilidad de definir un nuevo archivo y entrar por primera vez los datos direc-
tamente.
Una vez ejecutada la acción de lectura, el programa genera un archivo, inicialmente
de naturaleza temporal, con el contenido de todas las variables y sus características,
como la definición de sus formatos. También contiene las etiquetas informativas que se
hayan especificado o atribuido, tanto directamente como por importación desde otro sis-
tema. Otras informaciones presentes en este archivo son, además, el número de deci-
males en su caso, la existencia de valores perdidos, la anchura de la columna de la ven-
tana que visualiza los datos, etc. Esta información consta traducida en lenguaje SPSS,
aunque en la pantalla se visualice en ASCII.
Si bien trabajando de forma interactiva a este archivo se le atribuye el nombre de ven-
tana de editor de datos de SPSS, en términos reales se le conoce como fichero o file
activo. La extensión real de este fichero temporal se visualiza en MS-DOS como *.sav,
si al finalizar la sesión de trabajo se graba en un directorio o carpeta determinada. De esta
forma se puede volver a leer directamente en otra sesión de trabajo, como si fuese con-
tinuación de la sesión anterior, es decir, manteniéndose todas las acciones efectuadas
con los datos hasta ese momento.
Simultáneamente, todas las acciones que se realizan a lo largo de una sesión pueden
llevarse a cabo desde un archivo de instrucciones, además de llevarlas a cabo de forma
interactiva mediante la selección de los menús desarrollados en las diferentes opciones
de la barra de herramientas. Este fichero, llamado, en la opción Ventana. Editor de Sin-
taxis SPSS, posee por defecto la extensión *.sps. Esta posibilidad, inicialmente, es
molesta para todo aquel acostumbrado a la inmediatez que supone la transmisión de una
orden utilizando el cursor del ratón. Las ventajas que presenta esta forma de trabajar
compensan sin embargo el esfuerzo a acostumbrarse a una rutina diferente.
Dos son las más evidentes. En primer lugar, el tener constancia escrita de las órde-
nes ejecutadas permite conocer si se ha efectuado realmente lo que se pretendía hacer.
Este aspecto que puede parecer excesivamente riguroso y engorroso, facilita la detección
de errores de instrucción en el caso de haberlos cometido. Las opciones que aparecen en
las ventanas de diálogo son numerosas y a menudo poco explicativas, por lo que, con
facilidad, se puede escoger una opción equivocada y posteriormente no recordar dicha
elección.
Así mismo, es la única manera adecuada de comunicar a otro colega, de indicar en
un informe o de recordar de forma detallada qué análisis y cómo se ha efectuado.
La segunda ventaja se refiere a la economía de tiempo. A lo largo de un estudio son
muchos los análisis que deben efectuarse de forma repetitiva, las transformaciones y
recodificaciones de variables que también son, a veces, complejas y tediosas. Si se tie-
nen guardadas en un archivo de instrucciones, no deben repetirse y pueden ejecutarse sobre
otro archivo de datos con mínimas modificaciones, con la doble economía que esto repre-
senta, en tiempo y en posibles errores al duplicar o triplicar la acción de análisis.
Como ejemplo suponga que tiene un archivo de todos los diagnósticos de enferme-
dades observados en un hospital durante un año. La clasificación internacional de enfer-
medades se lleva a cabo con unos códigos alfanuméricos compuestos por una letra y
tres o cuatro números. Suponga que en el estudio se le indica que debe realizar una recla-
sificación de los más de 10.000 diagnósticos que tiene posibles, en quince grupos según
unos criterios que le especifican. El dejar constancia escrita del programa de recodifi-
cación y clasificación le permitirá llevar a cabo esta acción en nuevos archivos de datos
sin esfuerzo y con la seguridad de estar aplicando siempre el mismo criterio.
La creación de este fichero de instrucciones en lenguaje o sintaxis SPSS se puede gene-
rar directamente por el usuario, abriendo un archivo nuevo de sintaxis y mediante el edi-
tor escribir las instrucciones. En el siguiente apartado se indican las normas generales
que rigen la sintaxis en SPSS.
Otra manera habitual de generar la sintaxis es la de ir añadiendo al editor de sinta-
xis todas las acciones que se han ido efectuando mediante la activación de los menús des-
plegados en las ventanas de la barra de herramientas. En todos ellos existe la opción
Pegar, mediante la cual, la selección efectuada con el ratón se transforma en una ins-
trucción de sintaxis en el archivo .sps.
Así como el activar el botón de Aceptar en un menú ejecuta la acción seleccionada,
la selección de una serie de instrucciones en el archivo .sps, y su ejecución, produce el
mismo efecto. Para ello, en la ventana Editor de sintaxis, se seleccionan con el cursor
las instrucciones que interesen, acompañadas al final de la instrucción EXECUTE. Una
vez seleccionadas, activando la tecla de la barra de instrucciones que parece en dicha
ventana, se obtendrá el mismo resultado.
De la acción de ejecutar un conjunto de instrucciones se producen unos resultados,
los cuales, además de aparecer por pantalla, generándose de forma automática otra ven-
tana, se crea un nuevo archivo con extensión .spo, el cual es posteriormente editable y
exportable a otros editores de texto y de gráficos. Existe una opción de que el fichero de
resultados sea de tipo borrador, con extensión .rtf.
Finalmente, según esté definido el funcionamiento del programa SPSS en su insta-

lación, se genera un archivo llamado JOURNAL, archivo que posee la extensión .log,
en el cual se acumula la información de todo el proceso de análisis efectuado.
Figura 2.1. Esquema de la relación entre el programa SPSS y los archivos que participan en el proceso
de análisis.
archivo de datos original

*.dat, *.dbf, *.mdb, *.xls, etc.
SPSS
archivo de instrucciones archivo de datos activo

*.sps *.sav
SPSS
archivo de resultados
*.spo
*.rtf
En la figura 2.1 se muestra un esquema de los tipos de ficheros que se han enun-
ciado hasta el momento. En realidad, el número de ficheros temporales que utiliza el
programa es mayor pero no tienen mayor relevancia para el usuario.
Como puede observarse, el flujo habitual de trabajo consiste en la lectura de un
archivo de datos, los cuales pueden ser de diversos orígenes, en ASCII, (*.dat o *.txt),
estructurados en una base de datos u hoja de cálculo, (*.dbf, *.xls, *.mdb, etc.) o pro-
vinientes de un análisis previo SPSS, (*.sav).
En segundo lugar, la ejecución de un conjunto de instrucciones en lenguaje SPSS,
que se recomienda se guarden siempre en un archivo *.sps, aunque se trabaje de forma

interactiva activando con el cursor los menús de opciones de análisis o modificación de
variables.
El efecto de esta acción genera un archivo de resultados *.spo o, en su caso, *.rtf,
el cual puede ser editado posteriormente. En muchos casos también el resultado de un
proceso es un nuevo o nuevos ficheros de datos, de diversos tipos, como datos ya pro-
cesados, *.sav, o en forma de base de datos, o en ASCII., *.dat.
En realidad, el número de archivos de trabajo que maneja el paquete SPSS en cada
ejecución es mucho más variado; sin embargo, para el usuario no tienen, en principio,
mayor importancia, ya que poseen la característica de ser temporales. Así mismo, su
naturaleza y estructura varían paulatinamente con la aparición de nuevas versiones y
tienen más que ver con la optimización de la memoria de trabajo necesaria en cada
momento y la minimización del tiempo de lectura y acceso en grandes ficheros.
El entorno de trabajo de todos estos archivos posee unas características operativas
definidas al instalar el programa y que se mantienen por defecto cada vez que se ejecuta
el SPSS. No obstante, a través de instrucciones determinadas, ya sea por sintaxis o por
acciones preprogramadas, pueden modificarse.
Es preciso, previamente, definir las características generales que rigen la sintaxis de
las instrucciones en SPSS.
Normas generales de la sintaxis
Como en la mayoría de lenguajes de programación, las instrucciones de SPSS acos-

tumbran a ser abreviaturas o expresiones de interpretación obvia en inglés.
Todas las instrucciones pueden complementarse con subinstrucciones opcionales,
tales como el tipo de subanálisis a realizar, el tipo de estadísticos a calcular, la presen-
tación de los resultados, la repetición del análisis en otro conjunto de variables o de rela-
ción entre ellas, etc.
A través del índice del sistema de ayuda, presente en la barra de herramientas de
todas las ventanas del sistema, indicado con el símbolo ?, se accede a la sintaxis de las
instrucciones SPSS (command syntax) y a una somera descripción de su significado.
Existen unas normas de presentación de las mismas que facilitan la síntesis en la
explicación.
Así, en cualquier instrucción:
— Los paréntesis, apóstrofes y caracteres de repetición, /, deben escribirse obligato-

riamente.
— Cuando en una instrucción está escrito algo entre corchetes, [ ], indica que explici-
tar ese contenido es opcional y que, por lo tanto, su presencia o ausencia no impide
la ejecución de la instrucción general. Su utilización será necesaria o no en función
de la acción concreta que se quiera efectuar.
— Las llaves, { }, indican que las opciones que se describen entre ellas son electivas y
pueden escogerse, en ocasiones, más de una. De todas ellas, constará con la marca
de doble asterisco aquella o aquellas por las que el sistema opta por defecto, es decir
aquella que se realizará si el usuario no indica nada al respecto.
— Las opciones expresadas a continuación de una barra inclinada, /, implican que su
contenido se puede repetir diverso número de veces o bien que es una subinstrucción
que se diferencia de la misma opción cuando no va precedida por dicho símbolo.
— Todas las instrucciones deben finalizar con un punto, en cuya ausencia el compila-
dor encadenará con la siguiente instrucción y, por lo tanto, indicará error de sinta-
xis.
Por ejemplo, la siguiente expresión de sintaxis es una forma simplificada de efec-

tuar un análisis descriptivo de una o varias variables categóricas:
FREQ[UENCIES] [VARIABLES=]varlist
[/FORMAT=[{DVALUE}] [{NOTABLE }]]
{AFREQ } {LIMIT(n)}
{DFREQ }
[/MISSING=INCLUDE]
[/BARCHART=[MIN(n)][MAX(n)][{FREQ(n) }]]
{PERCENT(n)}
La instrucción general FREQUENCIES podría escribirse como FREQ, ya que el

resto de la palabra está entre corchetes. A continuación se especifican las variables que
se desea describir, y es optativo indicar VARIABLES=.
La expresión FORMAT, como está precedida del símbolo /, se entiende que es una
subinstrucción de FREQ, a diferencia de otra instrucción general, que también se llama
FORMAT. Como está escrita entre corchetes debe entenderse que no es preciso definir
el formato de impresión de los resultados, el cual puede efectuarse en función del valor
decreciente de las opciones de la variable, sólo de interés si la variable es categórica
ordinal o discreta, en función de la frecuencia observada, ascendente o descendente.
Adicionalmente pueden suprimirse aquellas tablas de distribución de frecuencias de las
variables cuyo número de valores o categorías superan el especificado límite (n).
También entre corchetes, y por lo tanto optativo, se indica si se incluyen los valores
perdidos o missing en el cálculo de las frecuencias relativas. Obsérvese que MISSING
está precedido por una barra, /. De nuevo, este símbolo indica que esta palabra debe
interpretarse como una subinstrucción de FREQ y no como una instrucción que se enun-
cia con la misma sintaxis.
Por último, la subinstrucción BARCHART es opcional y permite efectuar los dia-
gramas de barras de las variables especificadas en la lista de variables, varlist, de FREQ.
El programa SPSS seguiría interpretando las líneas subsiguientes como subinstruccio-
nes de este FREQUENCIES a menos que se indique un punto al final de la instrucción.
Es evidente que este sistema de recordatorio de la sintaxis no suple en absoluto la
consulta de los manuales o de las ayudas específicas que están presentes en cada menú
de la barra de herramientas.
Por ejemplo, en este caso, la secuencia de acciones: analizar ! , estadísticos des-
criptivos ! , frecuencias ! , ayuda muestra el siguiente texto, el cual conjuntamente
con la expresión de la sintaxis y de las opciones que muestra la propia ventana, permite
entender en casi todas las situaciones el sentido de la expresión y la forma adecuada de
llevar a cabo el análisis:
El procedimiento Frecuencias proporciona estadísticos y representaciones gráficas que

resultan útiles para describir muchos tipos de variables. Es un buen procedimiento para
una inspección inicial de los datos.
Para los informes de frecuencias y los gráficos de barras, puede organizar los diferen-
tes valores en orden ascendente o descendente u ordenar las categorías por sus fre-
cuencias. Es posible suprimir el informe de frecuencias cuando una variable posee
muchos valores diferentes. Puede etiquetar los gráficos con las frecuencias (la opción
por defecto) o con los porcentajes.
Ejemplo. ¿Cuál es la distribución de los clientes de una empresa por tipo de industria?
En los resultados podría observar que el 37,5% de sus clientes pertenece a agencias
gubernamentales, el 24,9% a corporaciones, el 28,1% a instituciones académicas, y el
9,4% a la industria sanitaria. Con respecto a los datos continuos, cuantitativos, como
los ingresos por ventas, podría comprobar que el promedio de ventas de productos es
de 3.576 dólares con una desviación típica de 1.078 dólares.
Estadísticos y gráficos. Frecuencias, porcentajes, porcentajes acumulados, media, mediana,
moda, suma, desviación típica, varianza, amplitud, valores mínimo y máximo, error típico
de la media, asimetría y curtosis (ambos con sus errores típicos), cuartiles, percentiles
especificados por el usuario, gráficos de barras, gráficos de sectores e histogramas.
Ejecución de una instrucción de sintaxis
Las instrucciones de SPSS se pueden ejecutar de formas diferentes, en función de cómo

se está trabajando.
La primera forma de trabajo es la de escribir las instrucciones directamente en la
ventana Editor de sintaxis SPSS, ejecutándolas posteriormente. La segunda forma
consiste en la activación de los menús de la barra de herramientas.
El Editor de sintaxis es una ventana que se activa mediante la acción Archivo !
Nuevo ! Sintaxis. Es decir, activando con el cursor esas opciones de la barra de herra-
mientas en el orden indicado. En este libro representaremos siempre la acción de mar-
car una opción con el cursor y apretar el botón izquierdo del ratón con el símbolo !.
Una vez abierta la ventana de sintaxis, se seleccionan las instrucciones que se pre-
tenden ejecutar y se pulsa la tecla de la barra de herramientas.
En algunos casos específicos la selección escogida necesita una instrucción adicio-
nal para que se lleve a cabo la acción. La sintaxis de la misma se indica a continuación.
Sintaxis La sintaxis que permite la ejecución de un conjunto de instrucciones seleccionado en la

ventana del Editor de sintaxis es:
EXECUTE.
Debe escribirse como última instrucción del conjunto seleccionado y que se pre-
tende ejecutar, si bien sólo es necesaria en ciertas situaciones, como son aquellas en las
que el resultado de la acción implica un cambio en la matriz de datos, como la creación
de una nueva variable, una recodificación, una selección de datos que cumplan una con-
dición determinada.
Así mismo, cuando lo que se pretende es la manipulación de ficheros, sumando infor-
mación de dos o más archivos, o agregando información en uno nuevo, también debe indi-
carse explícitamente como instrucción final EXECUTE.
Ventanas Cuando se trabaja mediante los menús desplegables o ventanas, que es como se conoce
coloquialmente a esta forma de trabajo, se observará que en todas ellas existe la tecla con
el nombre Aceptar, la cual sólo podrá activarse cuando la información que se solicita
desde la ventana abierta o menú desplegado sea la mínima requerida para llevar a cabo
esa acción.
Por ejemplo, en el análisis de frecuencias indicado en el párrafo anterior no podrá
activarse esta tecla hasta que se defina como mínimo una variable de análisis.
Se observará también la presencia de otra tecla que indica Pegar. En este caso, la
acción de ejecución la pospone trasladando las instrucciones seleccionadas mediante el
cursor a la ventana del Editor de sintaxis para ser ejecutadas como instrucciones que se
hubiesen escrito directamente sobre ella. En este caso, para ejecutar estas instrucciones,
deberá seleccionarlas con el cursor y activar la tecla de la barra de herramientas de
dicha ventana.
Este último proceso es el que permite ir guardando todos los pasos efectuados en un
análisis para grabarlos en disco al final de una sesión y poder ejecutarlos en otra ocasión
o repetir un análisis.
Recomendamos que en todos los casos que efectúe un análisis lleve a cabo la acción
de Pegar y ejecutar posteriormente con el fin de tener constancia de las acciones de aná-
lisis efectuadas.
Comentarios Si intenta ejecutar una instrucción sin EXECUTE y dicha instrucción forzosamente lo
requiere, observará como en principio no parece ocurrir nada: por un lado la acción que
esperaba como resultado de dicha instrucción no se ha producido y por otro lado no se
aprecia ningún mensaje de error de forma aparente. Cuando esto ocurre, la única señal
visible para poder reconocer el problema se muestra en la zona derecha de la barra infe-
rior del programa, donde se lee el mensaje «Transformaciones pendientes», tal y como
puede apreciarse en la figura 2.2.
Figura 2.2 . Ejemplo de intento de ejecución de una instrucción de sintaxis sin la inclusión del corres-
pondiente EXECUTE.
Instrucciones de control (settings)
Al conjunto de instrucciones que regulan el control de la ejecución de un paquete esta-

dístico se le acostumbra a nombrar con el nombre inglés settings, pues acostumbran a
determinarse, de forma automática, al instalar (set up) el programa.
Dichas instrucciones, traducidas en la versión castellana como Opciones, pueden
editarse y modificar todos los aspectos relacionados con las diferentes vías de impre-
sión y sus características, los missings de sistema a priori o caracteres que el sistema
adjudicará automáticamente como información perdida o no conocida, formato decimal
y longitud del carácter alfanumérico de las variables de nueva creación, la naturaleza
definitiva o de borrador del archivo de resultados, el número de caracteres por línea de
los resultados, 80 o 132, de la presentación por pantalla o el número máximo de itera-
ciones.
Sintaxis La relación completa de las posibles modificaciones a través de la sintaxis puede obte-
nerse en el manual guía de la sintaxis. En este apartado ofrecemos una muestra de la
misma.
SET
[BLANKS={SYSMIS**}]
{valor}
[COMPRESSION={ON**}]
{OFF }
[ERRORS={LISTING**}]
{NONE}
[FORMAT={F8.2**}]
{Fw.d }
[JOURNAL=[{ON**}] [{spss.jnl**}] ]
{OFF } {archivo}
[LENGTH={59**}]
{n }
[MITERATE={1000**}]
{n }
[MXWARNS={10**}]
{n }
[SEED={2000000**}]
{n }
[WIDTH={80**}]
{n }
La instrucción principal es SET, la cual debe ir acompañada de alguna de las opcio-

nes posibles, sean las indicadas anteriormente o las descritas en el manual de ayuda.
En concreto, las especificadas en esta lista hacen referencia a los siguientes aspec-
tos:
[BLANKS={SYSMIS**}] Esta opción define por defecto que cualquier valor dejado
en blanco en una variable numérica sea interpretado como un valor desconocido o per-
dido por el sistema. Si se indica otro valor todos los blancos de las variables numéricas
se transformarán en el valor indicado.
[COMPRESSION={ON**}] Por defecto, esta opción indica que todos los archivos
temporales que genera el programa están en forma comprimida. Para cambiar esta situa-
ción deberá indicarse, después del signo de igualdad, OFF lo cual desactiva la compre-
sión de ficheros.
[ERRORS={LISTING**}] En general es interesante la descripción de la lista de erro-
res que el programa detecta al ejecutar una serie de instrucciones. No obstante, si se pre-
fiere no tener el listado de los que se puedan producir, puede efectuarse indicando NONE
después del signo de igualdad.
[FORMAT={F8.2**}] Por defecto, a las variables numéricas de nueva creación, a
lo largo del análisis se les asigna un formato de ocho caracteres con dos cifras decima-
les, F8.2. Si se desea, puede modificarse este formato indicando otro sustitutivo.
[JOURNAL=[{ON**}] El archivo en el que se recoge toda la información del pro-
ceso de análisis y los resultados obtenidos recibe el nombre de spss.jnl. Este archivo se
reinicia al empezar una nueva sesión de SPSS. Si se pretende guardar esa información,
debe indicarse un nombre de archivo. Existe la opción de no crear ningún archivo *.jnl
en la opción la palabra OFF.
[LENGTH={59**}] Esta opción hace referencia al número de líneas de cada página
del archivo de resultados, número que puede modificarse indicándolo de forma explí-
cita.
[MITERATE={1000**}] En gran número de análisis, la obtención de los resulta-
dos requiere la utilización de métodos iterativos. En este caso, el número máximo de
iteraciones está fijado por defecto en 1000, pudiéndose modificar indicando un valor
determinado.
[MXWARNS={10**}] Opción que permite fijar el número máximo de avisos indi-
cativos de problemas en la ejecución. Dichos problemas no son a veces errores fatales
sino que indican una indeterminación en las instrucciones o en los datos. Cuando se
alcanza el número máximo se detiene la ejecución del programa.
[SEED={2000000**}] Indicando un número diferente a 200000 se modifica la
semilla generadora de números aleatorios cuando así se precise en el análisis o en la
selección de submuestras.
[WIDTH={80**}] En esta opción puede definirse la anchura en caracteres de las
líneas del archivo de resultados o del Journal. El valor por defecto es de 80 caracteres.
Es decir, SET es una instrucción que permite modificar las opciones de funcionamiento
del programa, si bien la realidad es que en la mayoría de situaciones, las definidas en la
instalación, es decir, las opciones, por defecto acostumbran a ser las más utilizadas.
Para llevar a cabo una serie de modificaciones, deberá explicitar la instrucción Set
en la ventana del editor de sintaxis y ejecutarla, mediante la activación de la tecla
de la barra de herramientas una vez seleccionada con el cursor.
Por ejemplo, en la figura 2.3 se muestra un ejemplo en el que en la ventana Editor
de sintaxis SPSS se ha escrito una instrucción que modifica cuatro condiciones de tra-
bajo:
La primera hace referencia a cómo debe interpretar el compilador los espacios en
blanco en una variable numérica. Con la opción escogida se interpretaría como un valor
igual a cero.
En la segunda se le indica que en cada página de impresión se escriban sólo 40 líneas,
y tal como se indica en la tercera instrucción serán de 132 caracteres, siendo por defecto
el número de líneas 59 y los caracteres 80.
En la cuarta se le indica una semilla para iniciar una serie de números aleatorios y
poder generar muestras aleatorias de datos.
Una vez seleccionado con el cursor el bloque de instrucciones, incluyendo la sen-
tencia EXECUTE, al activar sobre la tecla!de la barra de herramientas, éstas se ejecutarán.
Figura 2.3. Ejemplo de modificación de las opciones de trabajo o settings.
Tal y como puede observarse en el índice de ayuda, la sintaxis del SET permite indicar
en una sola instrucción las cuatro opciones anteriormente citadas:
SET blanks=0 /length=40 /width=132 /Seed=176303.

EXECUTE.
Y como se ha indicado, un punto después del número correspondiente a seed puede

escribirse otra instrucción a continuación, aunque sea en la misma línea.
Ventanas Al efectuar la acción Edición ! , Opciones ! aparece la siguiente pantalla, figura

2.4, en la que se muestran todas las condiciones del entorno de trabajo que pueden modi-
ficarse a voluntad mediante el uso del cursor.
Todas la opciones a las que puede accederse por los menús descritos en esta ven-
tana pueden también modificarse mediante instrucciones de sintaxis escritas en la ven-
tana del Editor de sintaxis SPSS.
Como ejercicio, el lector podría en primer lugar activar el menú de edición y opcio-
nes, observar y apuntar como está definido por defecto el número de líneas y caracteres
de las páginas de impresión, la interpretación de blancos y el número de la semilla de
aleatorización.
En segundo lugar, abrir un archivo nuevo de sintaxis y escribir y ejecutar las ins-
trucciones que se han indicado en el ejemplo.
En tercer lugar, volver a activar Editor y Opciones y observar en las pantallas los cam-
bios producidos.
En principio sería recomendable volver a los settings u opciones iniciales, lo cual puede
efectuarse bien modificando directamente en la ventana abierta o bien volviendo a eje-
cutar las instrucciones SET pertinentes.
Figura 2.4. Ventana del menú tras la activación Edición ! Opciones.

Capítulo 3. Acciones básicas con la matriz de datos
La matriz de datos
El archivo o archivos donde se encuentra la información correspondiente al estudio acos-

tumbra a tener forma matricial. Esta estructura es muy útil por diversos motivos, tanto
porque facilita la nomenclatura de las expresiones analíticas como la localización en el
archivo de un caso determinado o de una variable determinada.
Esta forma matricial define, en general, que cada fila de la matriz se corresponde
con un individuo o caso del estudio. Así mismo, las columnas se refieren a las variables
o factores, por lo que el elemento xij de dicha matriz se interpreta como el valor que pre-
senta la variable j para el individuo o caso i. En la actualidad, en la mayoría de los sopor-
tes informáticos, hojas de cálculo y bases de datos, se mantiene este concepto y así se
utiliza en este texto.
Existen dos tipos generales de matrices de datos, según reflejen datos individuali-
zados o agregados.
Matriz de datos Los elementos que componen una matriz de datos individualizados son los siguientes:
individualizados Caso: Es el elemento o unidad observacional, ya sea muestral o poblacional: persona,
vivienda, país, fábrica, unidad de producción, etc.
En el estudio que analizaremos en este libro, el caso es cada uno de los niños estu-
diados en Jaltenango y Villaflores.
Cada caso debe poseer un identificador o clave y unívoco que simbólicamente corres-
ponde a la fila de la matriz de datos, pudiendo ser una clave ya incorporada de inicio con
ese fin, o generada a partir de otros indicadores presentes.
En el estudio que usamos como ejemplo, el identificador se generará, más tarde, a
partir del número asignado a la casa, coincidente con el número del cuestionario, NCUEST,
y del número de orden del niño como persona habitante de esa casa, NOMPER.
Variables: Es el conjunto de informaciones recogidas para cada caso.
En el estudio de desnutrición infantil en la región de La Fraylesca, el número de
variables no es excesivamente elevado pero, sin embargo, existe un cierto grado de com-
plejidad debido a que las variables se encuentran en distintos archivos.
En casos como el que se describe, deberá existir un vínculo de unión entre todas las
variables, para poder asegurar que la información se refiere a un mismo niño. En prin-
cipio, a este vínculo le damos el nombre de número o identificador de caso.
Un requisito imprescindible es que, sea cual sea el archivo, las variables se encuen-
tren siempre en el mismo orden para todos los casos. Esta característica es la que le con-
fiere realmente el calificativo de matricial.
Así mismo, para todos los casos, la información de cada variable debe mantener cons-
tante el formato o naturaleza de la variable. Por ejemplo, debe decidirse previamente si
las categorías de la variable sexo se codificarán como mujer y hombre, como M y F, como
1 y 2, etc. Lo que debe quedar bien claro es el criterio único de codificación.
Registros: El registro se corresponde con la fila «física» o real de la matriz de datos.

Como la visión por pantalla está limitada a un número de caracteres limitado, antes de
que existiese la posibilidad de la función «scroll», o desplazamiento lateral de la panta-
lla, la visualización de un caso complejo, en número de variables o de variables de lon-
gitud extensa, obligaba a escribir el caso en varias líneas o registros. Era pues de vital
importancia indicar el número de registros que componían la información de un caso.
Cuando la información de las variables de un caso requiera una única fila de la matriz,
el número de caso y de registro es coincidente.
En la actualidad, la diferenciación entre registro y caso tiende a desaparecer por la
facilidad de visualizar la información.
En las versiones actuales de SPSS, la opción de organizar la información de un caso
en distintos registros ya no existe como opción del editor de datos SPSS, sino sólo de
lectura de archivos o matrices de datos externas.
Formato: De forma clásica se entiende que una matriz de datos posee formato
cuando todas las variables empiezan y terminan en las mismas columnas «físicas» de la
matriz, entendiendo que cada carácter de la longitud de una variable es una columna.
En este caso se hablaría de un formato fijo, formato en el que se definen la mayoría de
archivos.
Por ejemplo, en nuestro estudio analizaremos la variable escolaridad de la madre.

Esta variable, al estar expresada en cursos escolares superados, puede oscilar entre
0 y 20 cursos, por lo que la longitud de la variable tendrá dos columnas «físicas»,
las decenas y las unidades. Si la matriz de datos estuviese en formato fijo, en todos
los casos estudiados la cifra de las decenas del número de cursos superados empe-
zaría en la misma columna y por lo tanto las unidades estarían, siempre, en la
columna siguiente.
Existe la opción, no obstante, de tener la información de las variables organizada

sin estructura de columnas fija, aunque sí separadas por algún símbolo que indique dónde
finaliza cada una de ellas. En este caso se dice que la matriz es de formato variable.
En la figura 3.1 se muestra un ejemplo de estas dos situaciones. Observe cómo se
presenta la misma matriz en cada uno de los formatos. Mientras que en la de formato fijo
las variables se distinguen claramente en columnas, en la de formato libre el carácter de
punto y coma realiza la función de separación entre las variables.
Figura 3.1. Ejemplo de una misma matriz de datos expresada en formato fijo y libre.
En la actualidad, es cada vez menos frecuente el uso de archivos de datos o de matri-

ces de datos que no provengan de una hoja de cálculo o de una base de datos, por lo que
también estas características tienden a perder su importancia. En las versiones últimas
del programa SPSS aún se mantiene toda la potencialidad de lectura de ficheros en
ASCII, *.txt o *.dat , quedando muy clara la sintaxis de definición de archivos de este
tipo, tanto como instrucción de lenguaje o sintaxis como por el menú de lectura de un
archivo en estas características.
Matriz de datos La matriz de datos agrupados o agregados presenta la información de forma multidi-
agrupados o agregados mensional, agrupando los datos por índices.
En este caso el número de registros se corresponde con el número de combinacio-
nes entre las diversas opciones de las variables categóricas que definen la agrupación.
Imagine que, en nuestro caso, quisiésemos obtener un archivo de datos agrupado para
los niños del estudio por sexo (i = 1,2), la edad categorizada en cuatro grupos (j =
1,4), el tipo de vivienda en tres grandes grupos (k = 1,3), y la edad de la madre en
dos categorías (l = 1,2). Este archivo implicaría una matriz de datos en la que el
número de registros sería de 48, correspondiente a las 48 situaciones generadas.
En cada una de estas situaciones (i, j, k, l), las variables son resúmenes de propie-
dades existentes en un archivo de datos individualizado. Así, podría existir la infor-
mación del número de niños con las características generadas por los índices o fre-
cuencia de observación, f, i, j, k, l, los estadísticos muestrales de cualquier variable
cuantitativa, como la media de ingesta de proteínas, x, i, j, k, l, la proporción de
proteínas de origen vegetal, p, i, j, k, l, o cuántos niños están por debajo de un nivel
determinado, n, i, j, k, l, en una variable concreta.
También en la figura 3.2 se muestra un ejemplo de este tipo de matriz de datos. Esta
matriz corresponde a una agregación de la presentada en la figura 3.1. Observe cómo para
cada valor de la primera variable se detalla el número de casos con ese valor (columna
2 de la matriz de la figura 4) y el promedio de los valores en las variables 3 y 4.
Figura 3.2. Ejemplo de una matriz de datos agregada.
Observe que dicha matriz se presenta en formato fijo, aunque también podría haberse
hecho en formato libre.
Introducción En general, la introducción o captura de datos es el aspecto al que se dedica menos

de los datos tiempo en la fase de planificación del estudio y, con frecuencia, es el que puede gene-
rar más problemas a la hora de llevar a cabo un análisis determinado.
La selección de un tipo de matriz de datos u otra conduce a que las ventajas de un
sistema, por ejemplo el trabajar con formato libre, si no está bien planificado, genere
después graves problemas de interpretación de casos con información desconocida o
incompleta.
El tipo con que se recoge la información de la variable, alfanumérico o cadena, puede
significar rapidez a la hora de introducir la información, ya que en tipo cadena cualquier
expresión que respete la longitud de la cadena (número de caracteres máximo) será acep-
tada como valor de la variable. Esta facilidad aumenta el riesgo de tener que dedicar
posteriormente mucho tiempo a revisar posibles errores.
El proceso lógico, en la actualidad, es el de programar la captura de la información
dentro de un contexto de hoja de cálculo o de base de datos, siendo muy rentable la pro-
gramación de pantallas de adquisición de datos con la presencia de filtros. Estos filtros
no son más que detectores de valores erróneos, fuera de rango o de falta de información
por dejar campos en blanco.
Así mismo, la utilización de una base de datos permite reducir, en gran manera, los
errores de entrada de información. Esto es así ya que, en la actualidad, es muy sencillo
programar ventanas de menú de opciones desplegables que disminuyen el tiempo reque-
rido para informatizar los datos. En especial estas posibilidades son de gran utilidad
cuando las variables categóricas poseen múltiples opciones.
No obstante, creemos que un buen profesional de la estadística aplicada debe dis-
tinguirse por saber resolver los problemas independientemente del formato o presenta-
ción de la matriz de datos, sea éste más o menos antiguo, sea éste más o menos fre-
cuente.
Por esta razón, en el ejemplo que usamos en este libro se presenta la información en
diversos archivos de formato distinto con el fin de conocer cómo abordar un análisis
desde esa diversidad.
Los archivos de trabajo que se encuentran a disposición del lector, en
http://yoquese.com, se detallan a continuación. La estructura de estos ficheros, tanto en
lo que se refiere a las variables, nombre, tipo y descripción, como a las distintas opcio-
nes en el caso de que la variable sea de naturaleza categórica, se muestra en las tablas
descritas en el siguiente apartado.
En todos los casos se ha mantenido la definición original de la variable, manteniendo
los mismos dialectales o locales de la zona.
Ficheros disponibles ! NIN_VILL.DAT: Fichero en formato ASCII. Contiene los datos de los niños esco-
para realizar el estudio gidos para el estudio residentes en el municipio de Villaflores con su información
demográfica y nutricional, así como la información referente a la madre. En la tabla
3.1 puede observar más detalladamente su estructura.
Tabla 3.1. Estructura de variables del archivo NIN_VILL.DAT.
Variable Descripción Valores

ncuest Nº de cuestionario
nomper Nº identificativo de la persona en la casa
sexo
f_entr Fecha en que se realizó la entrevista
f_nacim Fecha de nacimiento del niño
ed_madre Edad de la madre (en años) 77. NS, 88. NR.
mescola Cursos escolares superados por la madre 77. NS, 88. NR.
mocupa Ocupación de la madre 1. Labores en el hogar, 2. Labores
fuera del hogar, 7. NS, 8. NR.
protea Proteínas de origen animal consumidas el día anterior a la encuesta
protev Proteínas de origen vegetal consumidas el día anterior a la encuesta
! NIN_JAL.DBF: Fichero en formato dBase IV. La estructura del fichero (variables,

valores, etc.) es exactamente la misma que la de NIN_VILL.DAT, pero la informa-
ción que contiene es la de los niños y madres del municipio de Jaltenango.
! ANTROP.XLS: Fichero en formato hoja de cálculo de Microsoft Excel, versión

2.1. Contiene la información antropométrica (talla y peso) de todos los niños (Villa-
flores y Jaltenango) de edad comprendida entre 12 y 59 meses. El total de casos es
de 644, ya que también constan los hermanos mayores (los cuales, recuerde, no for-
marán parte del estudio). Observe su estructura en la tabla 3.2:
Tabla 3.2. Estructura de variables del archivo ANTROP.XLS.

nomper Nº identificativo de la persona en la casa
tall_cms Talla del niño (en centímetros)
peso_kg Peso del niño (en kilos)
! CASA.DBF: Fichero en formato dBase IV. Contiene la información relativa a las

características del hogar. Para una descripción más detallada, vea la tabla 3.3.
Tabla 3.3. Estructura de variables del archivo CASA.DBF.

totape Total de personas en la casa
tip_loc Tipo de localidad 1. Urbana, 2. Rural.
ncudor Nº de habitaciones destinadas a dormir
sanit Tipo de baño 1. Excusado, 2. Letrina, hoyo, 3. Nada, a ras
de suelo.
luz ¿Tienen luz en casa? 0. No, 1. Sí.
refr ¿Tienen nevera? 0. No, 1. Sí.
tv ¿Tienen TV? 0. No, 1. Sí.
paredes Material de las paredes 1. Adobe, 2. Ladrillo, 3. Madera, 4. Tierra,
5. Cemento, 6. Mosaico, 7. Fraguado,
8. Lámina metálica, 9. Terraso, 10. Piedra,
11. Paja, 12. Embarro, 13. Rastrojo,
14. Caña de maíz.
piso Material del piso 1. Adobe, 2. Ladrillo, 3. Madera, 4. Tierra,
5. Cemento, 6. Mosaico, 7. Fraguado,
8. Lámina metálica, 9. Terraso, 10. Piedra,
11. Paja, 12. Embarro, 13. Rastrojo,
14. Caña de maíz.
com_coc Combustible que utilizan para cocinar 1. Leña o carbón, 2. Gas.
carne Frecuencia de ingesta de carne de res 1. 1 vez mínimo / 3 días, 2. 1 ó 2 veces /
semana, 3. 1 vez / 15 días,
4. 1 vez / mes, 5. Menos de 1 vez / mes,
6. Casi nunca o nunca, 7. NS, 8. NR.
segsoc ¿Tienen seguro social? 0. No, 1. Sí.
! JEFE.XLS: Fichero en formato libro de hojas de cálculo Microsoft Excel. Contiene

dos hojas de cálculo distintas: CAR_JEFE y ENF_JEFE. La primera hoja, cuya
estructura se muestra en la tabla 3.4, es la que nos interesa mientras que la segunda
no tiene ningún interés para nuestro análisis.
Tabla 3.4. Estructura de variables del archivo JEFE.XLS.

sex_jefe Sexo del cabeza de familia 1. Masculino, 2. Femenino
ed_jefe Edad del cabeza de familia (en años) 777. NS, 888. NR.
jescola Cursos escolares superados por el cabeza 77. NS, 88. NR.
de familia
jocupa Ocupación del cabeza de familia 1. Agropecuario, 2. Otros, 7. NS, 8. NR.
Inicialmente transportaremos los cinco ficheros de datos a una carpeta o archivo cre-
ado al efecto: C:\Spss\Chiapas. Una vez efectuada la copia, iniciaremos el proceso de trans-
formación de estos archivos a formato SPSS. De esta forma, en cualquier momento,
podremos acceder a ellos sin más problemas. Observe, sin embargo, que uno de los
ficheros originales está en formato ASCII, otros dos en versiones diferentes de Excel y
dos más en dBase IV.
Muy bien, ahora ya sé qué archivos tenemos y qué información contienen. Empecemos
a trabajar. Imagino que puedo ver estos datos... ¿Cómo lo hago?
Abrir archivos en ASCII (texto)
En la época en que se inició el paquete SPSS, la inmensa mayoría de archivos de datos

estaba en ASCII y por lo tanto la lectura e interpretación del fichero de datos constituía
una de las primeras acciones que se explicaban en cualquier curso de introducción al
programa.
A pesar de que hoy en día, en el entorno Windows, es poco frecuente la existencia
de archivos de información en este formato, hay que pensar que aún es posible encon-
trarse con este tipo de archivos y por lo tanto es preciso conocer cómo abrirlos y leer-
los.
Adicionalmente, la estructura de la instrucción de lectura introduce diversos con-
ceptos de gran interés incluso para aquellos usuarios que, a pesar de nuestra insistencia
en entender y usar la sintaxis de forma profesional, usen exclusivamente la programa-
ción a partir de las funciones preprogramadas de los menús desplegables.
Sintaxis La instrucción de sintaxis que permite la lectura y por lo tanto el transporte de la infor-
mación de un tipo de archivo ASCII a otro archivo en formato SPSS se conoce por el
nombre de DATA LIST.
DATA LIST FILE=’fichero’ [{Tipo}] [RECORDS={nº registros}]

/{nº registro} nombre variable {columnas [(formato)]}
[nombre variable ...]
[/{nº registro} ...] [/ ...]
EXECUTE.
Como puede observarse, la instrucción completa posee una parte determinante, que
es el DATA LIST FILE = ‘fichero’ y otra opcional o dependiente de la estructura del
propio fichero de datos.
DATA LIST
Esta instrucción general, DATA LIST, significa que a continuación se dan las instruc-
ciones necesarias para localizar un nuevo archivo de datos, leerlo, traducirlo y crear por
lo tanto un nuevo fichero activo.
Es importante recalcar que SPSS no puede trabajar simultáneamente con varias matri-
ces de datos o ficheros activos, por lo que si ya tenía Ud. otro archivo de datos abierto,
deberá cerrarlo previamente.
El contenido del resto de la información que se suministra en la frase de sintaxis
anteriormente descrita es:
FILE=‘fichero’
La primera subinstrucción, FILE, es la indicación del nombre y ubicación del fichero de
datos. Como siempre ocurre en SPSS y en la mayoría de programas, la especificación
de un nombre de archivo que, en general, es en alfanumérico, se encierra entre comillas,
simples o dobles.
Hay que entender que por nombre del fichero se entiende el nombre, la extensión del
fichero, así como la especificación inequívoca de su localización en una unidad de memo-
ria determinada. En el ejemplo que vamos a desarrollar, uno de los ficheros de datos,
NIN_VILL.DAT, no está especificado totalmente si no se indica en qué directorio o
carpeta se encuentra ubicado.
Es decir, el archivo ‘C:\Spss\Chiapas\nin_vill.dat’ es, a efectos de análisis, diferente
del fichero ‘A:\nin_vill.dat’, independientemente de que en realidad fuese una copia
del anterior o por otras razones fuese un fichero con el mismo nombre y extensión, aun-
que con información diferente.
[{Tipo}] Por tipo se entiende la estructura de la matriz de datos, la cual, como se ha

indicado en el capítulo anterior, en general puede ser de dos clases, fija o variable.
— Fixed **: Indica que en la matriz de datos que se ha indicado en FILE es un fichero
en el cual cada variable está en una determinada posición fija en todos los registros.
Es la forma matricial clásica que ya se ha indicado en el primer apartado de este
capítulo. Es la opción que el programa tiene por defecto y, por lo tanto, no es pre-
ciso especificar que es fijo cuando así lo es.
— Free: En este caso, la matriz se corresponde con un fichero en el cual cada variable
se separa de la siguiente a través de un separador, que puede ser cualquier signo
(comas, barras, dólares, etc.), aunque, eso sí, uniforme en todo el archivo. Esto
implica que los valores de una misma variable no tienen por qué estar en la misma
columna en todos los registros, si bien sí que han de mantener el mismo orden.
En este tipo de formato, los valores no existentes o desconocidos, missing, implican
la presencia en el registro de dos caracteres separadores seguidos.
[RECORDS={nº registros}] Permite especificar cuantos registros ocupa la infor-

mación de cada unidad observacional. Puede ser, por lo tanto, cualquier número entero
positivo. Normalmente es 1 (por defecto) y en ese caso no se hace explícito en la ins-
trucción.
/{nº registro} nombre variable {columnas [(formato)]} [nombre
variable ...] En el caso en que existan dos o más registros por caso o unidad obser-
vacional, es lógico que se especifique de qué registro se está dando la información que
consta a continuación. Si no hay más que un registro, como ocurre en la mayoría de
situaciones, el número de registro no hace falta especificarlo.
Así, precedido por el separador /, se indican, de forma seriada, el nombre de las varia-
bles que se encuentran en ese registro, indicando, si el archivo es de tipo fijo, entre qué
columnas se encuentran. Así mismo se indica el formato de la variable. En el capítulo
4 se describen todos los posibles formatos o modos en que cada variable puede estar
presente en un archivo.
En nuestro estudio uno de los ficheros en los cuales se ha almacenado originalmente
la información es de tipo ASCII. Así, pues, debemos transformarlo a formato de datos
SPSS mediante la instrucción DATA LIST.
Para ello debemos tener en cuenta la información acerca de la naturaleza de cada
variable y su formato, datos que se han descrito, para el archivo NIN_VILL.DAT, en la
tabla 3.1.
La instrucción necesaria es:
DATA LIST FILE=’C:\Spss\Chiapas\nin_vill.dat’
/ ncuest 1-3 nomper 5-6 f_entr 10-19 (DATE) f_nacim 21-30 (DATE)
sexo 31-39 (A) ed_madre 47-48 mescola 52-53 mocupa 56 protea
60-65 protev 69-74 .
EXECUTE.
Esta instrucción indica que su archivo de datos, NIN_VILL.DAT, se encuentra loca-
lizado en la unidad C:\ de su ordenador, en una carpeta o subdirectorio Chiapas que, a
su vez, Ud. ha creado en otro llamado SPSS. En el caso en que usted haya instalado los
archivos en otro directorio debe modificar esta instrucción, adecuándola a su propio
esquema.
Como no se ha indicado nada, el programa supone que el archivo de datos es de for-
mato fijo y que la información de cada caso, en este archivo cada niño, se encuentra en
un solo registro. Por esta razón no se indica después del separador /.
Observará también que, como el tipo de archivo es fijo, de cada variable se especi-
fica en qué columna se inicia y en qué columna se acaba la información, y que sólo la
variable SEXO, que es de formato alfanumérico o cadena, posee la información (A)
indicándolo. En el resto de variables como no se indica nada aplica el formato por defecto
que es el numérico.
Efectúe, pues, los siguientes pasos, una vez seleccionado y activado el SPSS:
1. Abra un archivo nuevo de sintaxis utilizando, mediante el cursor, la siguiente secuen-

cia: Archivo!
! Nuevo! ! Sintaxis.
2. En la ventana que acaba de abrir, escriba la instrucción de DATA LIST indicada
anteriormente.
3. Seleccione con el cursor todo el texto y apriete con el cursor la figura de la barra
de herramientas. Con esta acción está indicando que el texto seleccionado se active.
Finalmente, la instrucción EXECUTE provoca la ejecución de la instrucción DATA

LIST que el programa había leído y cargado en memoria.
Observará que al ejecutar esta instrucción, se abre otra ventana, en la que se visua-
lizan los datos especificados, en una hoja con nombre Vista de datos. Tiene accesible tam-
bién otra hoja, Vista de variables, en la que consta la información de que, hasta el
momento, se dispone de cada variable.
En cualquier momento puede volver a la ventana del Editor de sintaxis, activando
Ventana del menú de herramientas, y observará que en ella se mantiene la instrucción
Data List que acaba de ejecutar. Esta instrucción puede almacenarla en un archivo per-
manente, indicando o activando la secuencia Archivo! ! Guardar como..., con lo que
en el futuro podría volver a ejecutarla o recordar la sintaxis que ejecutó y reproducir el
estudio.
La sintaxis alrededor del DATA LIST está desapareciendo en la actualidad. De hecho,
a partir ya de las últimas versiones de SPSS para Windows la tendencia es la de unifi-
car todas las instrucciones ligadas a la apertura y transporte de ficheros a través de una
única instrucción general que recibe el nombre de GET DATA. En la versión 10 del
SPSS ya es la que genera todos los tipos de lectura o apertura de ficheros, por lo que en
un futuro se prevé que la instrucción DATA LIST dejará de existir. Esta situación se
puede observar al abrir un archivo de datos ASCII, o texto, como se ha unificado en la
actualidad la nomenclatura, mediante la utilización de menús desplegables en las ven-
tanas disponibles en la barra de herramientas.
Ventanas
Realizar la apertura y lectura de un archivo ASCII por ventanas requiere activar mediante
el cursor la opción Archivo y, en el menú que se despliega, seleccionar Leer datos de
texto (figura 3.3).
A través de la ventana de Explorer que se activa, debe buscarse y abrir el fichero
NIN_VILL.DAT en la carpeta donde lo tenga copiado.
Con esta acción se abre una ventana con nombre Asistente para la importación de
texto en la que ya se visualiza una muestra del archivo indicado. Esta ventana, primera
de las seis que configuran el proceso, permite buscar un archivo en el que se encuentre
definido el formato de lectura.
Figura 3.3. Asistente para la importación de archivos en texto o ASCII.

En general, cuando se trabaja en este esquema, lo habitual es que el formato se defina

en el momento de la importación. Así, ignorando esta opción, al activar las siguientes
ventanas, se va generando la sintaxis de lectura, sintaxis que en la última ventana puede
guardar respondiendo Sí a la pregunta ¿Pegar la sintaxis? En caso contrario, al activar
la tecla de Finalizar, se ejecuta toda la sintaxis automáticamente y se crea una nueva matriz
de datos en pantalla. Lea detenidamente todas las opciones que aparecen en cada una de
las ventanas: piense, por ejemplo, que nuestro archivo tiene las variables determinadas
en columnas fijas (paso 2 de 6) y esté atento con las variables que automáticamente
determina el programa (paso 4 de 6), puesto que a veces agrupa dos variables distintas
en una sola.
Evidentemente, si la información aportada en las ventanas es la correcta, esta matriz
de datos debe ser igual que la generada por sintaxis del DATA LIST.
En el caso en que hubiese escogido la opción de pegar la sintaxis, finaliza el proceso
al Finalizar y en ese supuesto debe abrir la ventana o fichero de sintaxis para ejecutar
las acciones que se han escrito en la misma. Para ello, efectúe los siguientes pasos:
1. Active con el cursor la opción Ventana de la barra de herramientas.

2. Seleccione Editor de sintaxis SPSS.
3. Con el cursor seleccione el texto y, al actuar sobre la tecla de la barra de herra-
mientas de esta ventana, observará que se genera una nueva ventana de datos idén-
tica a la que había creado con anterioridad mediante la instrucción DATA LIST.
Si no ha cometido errores, puede volver a la ventana de sintaxis y guardarla en un

archivo con el nombre que Ud. crea más adecuado. Observará que, por defecto, la acción
de Guardar como le atribuye al archivo la extensión sps.
Habrá percibido que la sintaxis que ha escrito el asistente de importación de texto
no es DATA LIST sino GET DATA. Esta sintaxis se comentará al final del capítulo.
En el caso en que los archivos tienen una estructura muy compleja, el proceso de
lectura mediante ventanas es arduo y por lo tanto susceptible de cometerse errores o
imprecisiones al ejecutarlo. Es un caso en el que guardar la sintaxis de lectura puede
evitar muchos errores en el futuro y pérdidas innecesarias de tiempo. Así mismo, intente
imaginar cómo redactar un informe en el que defina con claridad el proceso de lectura
sin escribir la sintaxis. Seguro que, además de impreciso, es más larga la explicación
que adjuntar la sintaxis.
Comentarios 1. Una vez cargado el archivo NIN_VILL.DAT observe detenidamente el Editor de

datos. Podría suceder que las columnas que representan las variables protea y
protev prácticamente no tuvieran ningún dato.
Así mismo, observará que existe una ventana nueva, al activar Ventana de la barra
de herramientas, que corresponde a un fichero de resultados. En ese archivo puede
aparecer un mensaje de aviso (Warning) expresando que se encontró un campo numé-
rico no válido. Debe saber que si esto le ha pasado es porque en el archivo
NIN_VILL.DAT el separador decimal está representado por el carácter de la coma,
mientras que su ordenador, por defecto, tiene definido el punto como símbolo del sepa-
rador decimal. Sólo ocurrirá en este caso. Para solucionar dicho problema puede
seguir dos vías:
1.1. Cambiar la coma por el punto mediante un editor / procesador de texto:

Abra el fichero NIN_VILL.DAT mediante cualquier editor o procesador de texto
que tenga instalado en su ordenador (Editor del MS-DOS, WordPad, Word...).
En todos estos programas existe una opción llamada Reemplazar. Búsquela y pida
que se cambien todas las comas por puntos. Por ejemplo, en el WordPad, que
habitualmente se puede ejecutar siguiendo, desde Windows, esta secuencia:
Inicio!! Programas! ! Accesorios! ! WordPad, seleccionaría el menú Edi-
ción!
! Reemplazar y obtendría la ventana que se muestra en la siguiente figura,
figura 3.4:
Figura 3.4. Ventana de búsqueda y reemplazo de caracteres o textos, del procesador de textos
WordPad.
donde debe especificar la coma en el recuadro «Buscar» y el punto en

«Reemplazar por». Una vez realizado el cambio, guarde el fichero con el
mismo nombre y vuelva a ejecutar el DATA LIST o la sintaxis que ha guar-
dado desde la ventana Asistente para la importación de texto.
1.2. Cambiar el punto por la coma como símbolo del separador decimal en su sis-
tema:
Esto debe hacerlo fuera del programa SPSS, mediante el menú Inicio! ! Confi-
guración! ! Panel de control! ! Configuración regional, donde le aparecerá la
siguiente pantalla (figura 3.5):
Figura 3.5. Ventana de configuración regional para sistemas Windows.
En ésta debe sustituir el punto por la coma en Símbolo decimal y también

la coma por el punto Símbolo de separación de miles.
Este cambio no surgirá efecto hasta que no reinicie el programa SPSS. Así,
si se encontró con el problema y eligió esta vía para solucionarlo, debe
cerrar el programa y volver a iniciarlo. En este caso se hace aún más impres-
cindible guardar la sintaxis para no tener que escribirla o desarrollarla por
ventanas de nuevo.
Finalmente, debemos recalcar que este cambio afectará a todos los pro-
gramas que tenga instalados en su ordenador, y no solamente al SPSS.
Una vez importados los datos es necesario guardar el fichero activo en el disco ya
que en estos momentos el fichero es temporal. Es decir, si saliéramos del programa o se
produjera algún problema con el ordenador que provocara el apagón de éste, el fichero
que vemos activo se perdería y debería repetir la instrucción DATA LIST o la importa-
ción del archivo activando las ventanas de adquisición de datos.
A partir de ahora, cada vez que quiera trabajar con el archivo de datos de los niños
de Villaflores, ¿tendré que repetir el DATA LIST?
Cómo guardar o grabar el fichero activo
Una vez realizadas las operaciones necesarias para la lectura del fichero de datos, es
recomendable guardar ya el fichero activo de forma permanente. De esta manera cual-
quier operación posterior con los datos, modificándolos mediante transformación o cre-
ación de variables, o bien efectuando diversos tipos de análisis, analizándolos en una o
varias sesiones, no requerirá definir cada vez la lectura de la matriz de datos original.
A riesgo de ser demasiado insistentes, volvemos a repetir la importancia que tiene
haber guardado la sintaxis de lectura, ya que a medida que transcurre el tiempo es más
difícil recordar el proceso por el cual se generó el fichero activo.
Sintaxis La sintaxis para generar un archivo permanente de datos en formato SPSS es la siguiente:
SAVE OUTFILE=’fichero’
[/UNSELECTED=[{mantener o no casos no seleccionados}]
[/KEEP={lista de variables}] [/DROP= lista de variables]
[/RENAME=(lista de variables antiguas= lista de variables nue-
vas)...]
[/MAP] [/{tipos de grabación}]
En esta instrucción, SAVE, que implica grabar o guardar permanentemente, se com-

plementa con las siguientes indicaciones de nombre y ubicación del fichero, las varia-
bles que se guardan o que se ignoran, los nombres de las variables, etc. El contenido de
estas instrucciones es:
OUTFILE=’fichero’ Posee el mismo sentido que en el DATA LIST FILE. Es decir debe
indicarse la unidad y directorio en donde se piensa grabar el fichero, así como el nom-
bre y extensión del mismo. En general SPSS entiende por defecto que un fichero de
estas características, datos SPSS, debe llevar la extensión .sav.
[/UNSELECTED=[{mantener, o no, casos no seleccionados}]

En muchos análisis se trabaja sólo con subconjuntos de datos, definidos por el hecho de
cumplir o no una condición lógica. Por ejemplo, se quiere trabajar únicamente con las
niñas. La forma de efectuar esta selección se explica en el capítulo 6, si bien se puede
adelantar que el mecanismo de imponer una condición a un conjunto de datos genera una
variable llamada FILTER, la cual tiene como valores 0, si el caso no cumple con la con-
dición que se haya definido, o 1 si la cumple.
En una situación de este estilo, cuando se guarda el fichero activo mediante la ins-
trucción SAVE, hay que especificar si se guardan todos los casos o sólo los selecciona-
dos.
Esto se realiza especificando en esta instrucción entre las llaves indicadas:
— Retain **: Guarda todos los casos. Es la opción por defecto.

— Delete: Sólo guarda los casos que satisfacen la condición impuesta en FILTER.
[/KEEP={lista de variables}]En el caso en que sólo se quieran mantener en el

fichero permanente las variables que se indican en la lista. La opción por defecto es
/KEEP=ALL, es decir, mantiene todas las variables que se han definido hasta el momento
anterior de la instrucción SAVE.
[/DROP= lista de variables] Es una instrucción que persigue también limitar

las variables que se incluyen en el archivo permanente final, pero en este caso indicando
la lista de variables que se excluyen del mismo.
El valor por defecto es /DROP=NONE, es decir, ninguna.
El uso de KEEP o DROP depende del número de variables que se quieran excluir o
mantener en el fichero final, así como del número de variables en la ventana activa.
[/RENAME=(lista de variables antiguas = lista de variables nue-

vas)...] Esta opción permite guardar el fichero activo cambiando el nombre de las
variables que se especifican en la lista de variables antigua y sustituyéndolos por los
nombres que figuran en la lista de variables nuevas.
[/MAP] Esta instrucción escribe en el archivo de resultados o en el JOURNAL cuál es

la estructura del fichero que se ha guardado: fundamentalmente el nombre y formato de
las variables, así como el número de casos que configuran el archivo.
Es de gran importancia archivar esta información, ya que, si bien activando poste-
riormente el fichero guardado se tiene acceso a la misma, con frecuencia el número de
archivos es muy numeroso y la tendencia de todo analista es a diferenciar muy poco por
el nombre de los archivos.
De nuevo el transcurso del tiempo hace difícil memorizar el contenido exacto de los
archivos.
[/{tipos de grabación}] Se especifica en este caso si la grabación se realiza

comprimida o no, indicando entre los corchetes:
— Compressed **: El archivo se graba de forma comprimida. Ocupa menos espacio

en el disco, y es por lo tanto la forma de grabación recomendada a pesar de que, teó-
ricamente, se tarda más tiempo cuando se vuelve a abrir. La mayoría de veces la
diferencia es imperceptible. Es la opción con la que graba por defecto.
— Uncompressed: Guarda el fichero sin comprimir.
Así, en el caso del fichero con el que estamos trabajando, podemos guardarlo en
disco mediante la instrucción:
SAVE OUTFILE=’C:\Spss\Chiapas\nin_vill.sav’ / COMPRESSED /MAP.
la cual habremos escrito en la ventana del Editor de sintaxis y ejecutado mediante el

proceso habitual, es decir, seleccionando con el cursor la sintaxis que queremos activar
y pulsando con el cursor la tecla de la barra de herramientas.
Ventanas La acción de guardar el fichero, mediante la acción de menú por ventanas, se efectua-
ría activando Archivo!Guardar datos como..., tal y como se muestra en la figura 3.6.
Si en vez de pulsar la opción Guardar optase por la de Pegar, en la ventana Editor
de sintaxis SPSS se escribirían las órdenes de sintaxis, las cuales podría activar como en
casos anteriores. Es decir, seleccionando con el cursor la instrucción y pulsando la tecla
de la barra de herramientas.
Figura 3.6. Acción de Guardar el archivo de datos en formato de datos SPSS, (*.sav).
Comentarios 1. En el momento de ejecutar esta instrucción, el fichero activo se guardará tal y como
está, conservando todas las modificaciones incorporadas desde la última vez que se
haya abierto. Si lo guarda con el mismo nombre, substituirá el fichero antiguo y éste
no será recuperable.
2. No olvide grabar el fichero de forma comprimida, sobre todo si se trata de un archivo
voluminoso.
Ya tenemos, ya sea por acción de sintaxis o por menú, el primer fichero en formato
de datos SPSS. Nos quedan cuatro ficheros más para pasar a este formato. Sin embargo,
éstos no son ficheros ASCII sino ficheros dBase IV y Excel (uno en versión 2.1 y el otro
versión 97).
Exacto. Si tengo archivos en formato ASCII ya sé que hacer. Pero si los tengo en
otros formatos, ¿puedo hacer lo mismo o debo utilizar otras instrucciones?
Cómo abrir archivos en formato de hoja de cálculo o de base de datos
En la actualidad, la mayor parte de los archivos de datos se encuentran en formatos ya

estructurados, bien sea en forma de hoja de cálculo o base de datos.
En realidad es la mejor de las opciones ya que, en principio, adquirir la información
a través de una base de datos permite, tal y como se ha indicado anteriormente, mediante
el diseño de pantallas de captación de datos, evitar muchos errores de digitación.
Prácticamente todos los programas y paquetes estadísticos poseen, pues, instruc-
ciones de traducción de las estructuras de estos archivos y para la conversión en archi-
vos utilizables por el lenguaje del paquete.
En este aspecto, al igual que se ha indicado para la lectura de archivos en ASCII, tam-
bién se está produciendo una evolución muy rápida de la sintaxis, tendiendo a unificarla
bajo una misma instrucción, GET DATA, introduciendo subinstrucciones que indican el
tipo de base de datos o de hoja de cálculo que se pretende traducir. Esta instrucción se
describe más adelante.
Sin embargo, aún está vigente la instrucción que, hasta la versión SPSS10, ha per-
mitido la lectura de archivos en estos formatos tal y como se describe a continuación.
Sintaxis La sintaxis necesaria para la lectura de un archivo de esta naturaleza es:
GET TRANSLATE FILE=’fichero’

[/TYPE={format fichero}]
[/FIELDNAMES]
[/RANGE={range name}]
{start..stop}
{start:stop}
[/KEEP={lista de variables}] [/DROP= lista de variables] [/MAP]
GET TRANSLATE Es la instrucción genérica que indica la acción de traducción de un

archivo creado en una estructura externa a la propia del SPSS.
Se acompaña de las siguientes opciones:
FILE=’fichero’ Tal y como ya se ha visto en anteriores instrucciones, es preciso

indicar el nombre completo del archivo que se quiere leer o abrir, incluyendo en el nom-
bre del archivo el path o localización de carpetas donde se encuentra el mismo.
[/TYPE={formato fichero}] Entre las llaves debe indicarse en qué tipo de for-
mato está el archivo o fichero que se quiere leer. Deberá escoger entre la siguiente lista
de formatos:
DBF **: Ficheros dBASE (todas las versiones)

XLS: Ficheros Microsoft Excel (versión 4.0 o anteriores)
TAB: Ficheros ASCII limitados por tabuladores
SLK: Ficheros Multiplan en formato (symbolic link)
SYS: Archivos Systat
WK: Archivos Lotus 1-2-3 o Symphony
WK1: 1-2-3 versión 2.0
WKS: 1-2-3 versión 1A
WR1: Symphony versión 2.0
WRK: Symphony versión 1.0
Los archivos Excel en versiones superiores a la 4.0 deberán leerse mediante la ins-
trucción GET DATA.
[/FIELDNAMES] La opción FIELDNAMES indica al programa que en la primera fila

o registro del fichero original se especifica el nombre de las variables. Esta opción es acce-
sible con todos los formatos excepto en dBase, el cual internamente ya almacena esta infor-
mación y la transporta directamente.
[/RANGE={Celda inicio :celda final}] Mediante esta opción, se puede selec-

cionar un conjunto de celdas de un archivo con estructura de hoja de cálculo, indicando
el inicio y el final, es decir, el rango de celdas a traducir.
[/KEEP={lista}][/DROP={lista}][/MAP] Estas tres opciones tienen el mismo

significado en todas las instrucciones en las que aparecen, por lo que su explicación es
la misma que la que se ha indicado en la instrucción SAVE OUTFILE.
En nuestro caso, hay que traducir dos archivos en dBase y crear los ficheros corres-
pondientes en estructura SPSS.
Así, con el primero de ellos, la instrucción de sintaxis correspondiente es:
GET TRANSLATE FILE=’C:\Spss\Chiapas\nin_jal.dbf’ /MAP.
Al ejecutar la instrucción (selección con el cursor en la ventana de Editor de sinta-

xis y activación mediante tecla ), se abren dos ventanas: la primera es la de resulta-
dos y nos ofrece la información de la estructura de la base de datos que ha encontrado
y la segunda es la nueva ventana de datos.
Una vez efectuada esta operación, guarde el archivo mediante la instrucción SAVE
y repita el proceso con el otro archivo dBase, CASA.DBF.
Ventanas En la figura 3.7 se muestra la ventana correspondiente a la acción: Archivo ! Abrir

! Datos … Tipo de archivos (seleccionar el tipo).
Como siempre, si seleccionase la opción Pegar, el resultado sería la generación de
la sintaxis en la ventana Editor de sintaxis SPSS, la cual tendría que activar mediante el
cursor pulsando en .
Figura 3.7. Lectura de un archivo generado en formato DBF.
Obviamente, una vez pasado el fichero a activo deberíamos grabarlo en disco tal y
como hicimos anteriormente. Para los otros dos archivos que pueden ser abiertos mediante
esta instrucción (CASA.DBF y ANTROP.XLS) deberemos repetir el mismo procedi-
miento que el empleado con NIN_JAL.DBF.
Comentarios 1. Observe que la importación de ficheros Excel sólo es posible si la versión es 4.0 o
inferior. En el caso de tener un fichero en una versión superior, utilice la instrucción
GET DATA o vaya al Excel y guarde el archivo específicamente en la versión 4.0.
2. El número de posibles variables que pueden importarse depende del tipo de pro-
grama original en el que se ha almacenado la información: en dBase II es posible un
máximo de 32, en dBase III 128, y en dBase IV, Multiplan 255 y resto de programas,
hasta 256.
Finalizado este proceso, en el área de trabajo que Ud. haya seleccionado, tendrá cua-
tro archivos con la extensión .sav correspondientes a cuatro ficheros traducidos en for-
mato SPSS. Observe que solamente faltará traducir uno (JEFE.XLS), el cual deberá ser
importado mediante la instrucción GET DATA explicada más adelante.
A partir de este momento, pues, activar uno de los ficheros en formato de datos SPSS
puede efectuarse desde el Explorer de Windows. Dicha acción implicará que se ejecute el
programa SPSS y aparezca en la ventana del editor de datos el archivo correspondiente.
Para comprobarlo, salga del programa SPSS, mediante la opción Salir del menú
Archivo, respondiendo a las preguntas de archivar las ventanas de datos, de resultados
y de sintaxis, según su propio criterio.
Una vez cerrado el programa, busque con el Explorador de Windows la carpeta
donde se encuentran sus ficheros y observará que se describen cuatro archivos con la
indicación SPSS. Al activar con el cursor uno de ellos se activa el SPSS y en la ventana
le aparecerá la matriz de datos seleccionada.
Ya sé traducir ficheros de diversos formatos a formato de datos SPSS. Pero ahora

que los tengo en este formato, necesito conocer cómo puedo abrirlos para poder
trabajar con ellos en posteriores sesiones.
Cómo abrir un archivo de datos en formato de datos SPSS (*.sav)
El proceso explicado en el párrafo anterior es el resultado de activar el programa SPSS

para Windows y ejecutar una instrucción de apertura de un archivo que ya ha sido tra-
ducido a un formato directamente manejable por el SPSS.
Esta apertura, de un archivo .sav, puede efectuarse en cualquier momento del tra-
bajo con SPSS, si bien hay que tener siempre presente que nada más se puede mantener
activo un solo archivo.
Sintaxis La sintaxis que convierte un fichero de datos en formato SPSS (*.sav) en un fichero
activo es la siguiente:
GET FILE=’fichero’
[/KEEP={lista de variables}] [/DROP= lista de variables]
[/RENAME=(lista de variables con el nombre antiguo = lista de
variables con el nombre nuevo)...]
[/MAP]
Suponemos que el lector reconoce ya el significado de cada una de las opciones de

esta instrucción, y que, al activarla con el cursor una vez escrita en la ventana de Editor
de sintaxis SPSS, está indicando dónde se encuentra el archivo, con qué nombre está
almacenado, qué variables mantiene en el fichero activo y con qué nombre.
Las opciones por defecto, es decir, sin especificar más que la instrucción GET
FILE = ‘Fichero’, implican que se mantienen todas las variables con el mismo nombre.
Por ejemplo, abrir el archivo NIN_VILL.SAV se efectuaría ejecutando la instruc-
ción:
GET FILE=’C:\Spss\Chiapas\Nin_vill.sav’ /MAP.
En el caso en que esta instrucción se ejecutase con una ventana de datos ya abierta,
el programa le preguntaría si la que está activa en ese momento la quiere guardar o no.
Debe tener en cuenta que la respuesta afirmativa a esta pregunta superpone el fichero
activo actual al de origen desde donde se abrió, perdiéndose el original. Es pues acon-
sejable, antes de abrir un archivo nuevo, guardarlo previamente, escogiendo entre las
opciones Guardar o Guardar como y no sólo respondiendo automáticamente a la pre-
gunta ¿Desea guardar el contenido del Editor de datos en FICHERO?
Ventanas El procedimiento es el habitual, Archivo ! Abrir ! Datos..., acción que abre la ven-
tana que se muestra en la figura 3.8.
Figura 3.8. Lectura de un fichero de datos en formato de datos SPSS (*.sav).
A pesar de que para el ejemplo de estudio que estamos realizando no se necesitan,

queremos comentar la existencia de dos instrucciones que se enmarcan en este contexto,
y que son SAVE TRANSLATE i WRITE OUTFILE. La primera permite guardar el
fichero activo en cualquiera de los formatos mencionados en el GET TRANSLATE,
mientras que la segunda escribe la matriz de datos en formato ASCII, tratable por lo
tanto desde un editor del MS-DOS. Si le interesa alguna de estas instrucciones, consulte
los manuales o el índice de la ayuda del programa.
Aún me queda un archivo para pasar a formato de datos SPSS. ¿Es que no hay nin-
guna instrucción para traducirlo?
Apertura general de archivos
Tal y como ya se ha indicado en distintas ocasiones, la evolución de la sintaxis en las nue-

vas versiones es bastante rápida y a menudo coexisten las expresiones nuevas con las pro-
cedentes de versiones anteriores.
La tendencia clara y explícita, a partir de la versión 10.0, es la de resumir todas las
expresiones descritas de apertura de ficheros en una instrucción general, conocida como
GET DATA, si bien, como se ha visto hasta el momento, no se precisa del conocimiento
de esta expresión sintáctica para el desarrollo del ejemplo en que se basa este libro ni para
la adquisición de los conocimientos de su objetivo didáctico.
Sintaxis La sintaxis general del GET DATA es compleja, por lo que sólo se muestra a continua-
ción cuál es el esquema general de la misma, remitiendo al lector al manual de instruc-
ciones de SPSS.
En principio la estructura general es:
GET DATA /TYPE = {Formato}

/FILE = ’filename’
Esta forma general resume desde el DATA LIST y el GET TRANSLATE, en fun-
ción del formato que ese indique. Así mismo, en función de ese mismo formato, las
subinstrucciones y opciones varían.
/TYPE = {Formato}
A grandes rasgos podemos especificar tres tipos generales de formato:
ODBC: Deben especificarse los dos siguientes tipos de opciones:
/CONNECT=’carácter de conexión’
/SQL ‘órdenes de selección’
XLS: En los formatos Excel 5.0 y superiores, deberá indicarse información acerca de
las hojas que constituyen el libro a utilizar:
[/SHEET = {INDEX** n} {name ‘nombre de la hoja’}]

[/CELLRANGE = {‘ punto de inicio:punto final’}]
[/READNAMES = {on** u off }]
— Mediante SHEET se indica la hoja a seleccionar. Por defecto el programa escoge la

primera. Si desea seleccionar otra, puede hacerlo mediante la subinstrucción INDEX
especificando el número de orden de la hoja o detallando su nombre entre comillas
después de la subsinstrucción NAME.
— Con CELLRANGE se especifica el rango de celdas a seleccionar para el estudio,
todas por defecto.
— READNAMES indica si se importan los nombres de las variables que constan en la
hoja que se lee.
TXT: Indica que el archivo ASCII posee las siguientes características:
[/ARRANGEMENT = {Tipo}]
El cual puede ser DELIMITED por algún carácter como la coma, espacio en blanco,
punto y coma etc., o FIXED. Es decir indica si el archivo es de formato variable o fijo.
En el primer caso deben indicarse los nombres de las variables y su formato:
/VARIABLES = variable formato variable formato...
y en el segundo supuesto de tipo fichero con formato fijo deberá indicarse para cada
variable las columnas de inicio y final de la misma, así como su formato:
/VARIABLES [/número de registro] variable columna inicio-

columna final formato
Adicionalmente deberá especificarse si los casos se inician en la primera línea del
archivo o no, el tipo de delimitador si el archivo es de formato libre o variable, si se
importan todos los casos o sólo un porcentaje de los mismos, etc.
SPSS: En este caso, no existe coherencia entre el texto del manual de ayuda y la
expresión de la sintaxis que describe el mismo, por lo que aparentemente aún no se puede
suplir el GET FILE por un GET DATA / TYPE = SPSS, si bien todo parece indicar que
en un futuro próximo también estará incluido este tipo de archivo.
Una expresión tan general y polivalente posee, como es lógico, una sintaxis detallada
muy compleja, y que requiere conocimientos que superan los objetivos de este libro.
Ventanas En este caso, la utilización de ventanas para la lectura e importación de los archivos per-
mite, mediante la opción de guardar o «pegar» la sintaxis, adentrarse en esta instrucción
tan general y por lo tanto tan compleja.
Así, volviendo al caso de la apertura de un fichero ASCII o de formato TXT por
ventana, Archivo ! Leer datos de texto... genera, como ya se ha indicado (figura 3.3),
un proceso de seis ventanas encadenadas, el resultado del cual es la siguiente sintaxis:
GET DATA /TYPE = TXT

/FILE = ‘C:\personal\librito\Originals\nin_vill.dat’
/FIXCASE = 1
/ARRANGEMENT = FIXED
/FIRSTCASE = 1
/IMPORTCASE = ALL
/VARIABLES =
/1 ncuest 0-2 F3.2
nomper 4-5 F2.1
f_entr 10-18 A9
f_nacim 21-29 A9
sexo 30-38 A9
ed_madre 46-47 F2.1
mescola 51-52 F2.1
mocupa 55-55 F1.0
protea 60-64 A5
protev 69-73 A5
.
CACHE.
EXECUTE.
La sintaxis presentada más arriba merece alguna aclaración. Concretamente, la que

se presenta es resultado de varias modificaciones sobre lo que el programa escoge como
defecto:
1. Paso 2 de las 6 pantallas: En el caso concreto de NIN_VILL.DAT, debemos definir

el archivo como de ancho fijo y no delimitado por algún carácter, tal y como SPSS
interpreta por defecto.
2. Paso 4 de las 6 pantallas: Definimos correctamente los campos que delimitan las
variables. Observe cómo por defecto el programa no identifica algunas de las varia-
bles. Por ejemplo, por defecto, SPSS considera las variables f_nacim y sexo como
una sola. Idénticamente sucede con ed_madre y mescola. Mediante el botón derecho
del ratón debe marcar justo dónde termina cada variable. Le aparecerá una línea ver-
tical que indica que es en ese punto en que se acaba una y se inicia la otra. En el
caso de las variables que informan de una fecha, debe indicarse, con precisión, tam-
bién el inicio del campo de la variable.
3. Paso 5 de las 6 pantallas: Nombre y tipo de variable. Por defecto, el nombre que
otorga SPSS a cada una de la variables es V1, V2, etc. Observará que, al delimitar
los anchos de las variables fecha, se generan automáticamente variables inexisten-
tes y que corresponden únicamente a las columnas en blanco que separan las fechas.
4. Los formatos se atribuyen por valores estándar en función de la longitud de la varia-
ble, lo cual no siempre se corresponde con la realidad. Así, los formatos que asigna
a ncuest y, inicialmente, como variables alfanuméricas o cadenas. Sólo puede asig-
narse el formato correcto si se define un formato previo en un archivo aparte.
Comentarios 1. Es muy importante conocer la estructura del archivo de datos para poder determinar
dónde finaliza cada variable. Especialmente si las variables son fechas, ya que en ese
caso debe fijarse también el inicio del campo de la variable. Si no se efectúa de esta
forma, el ancho de columna no será reconocido como un formato de lectura de fechas
y le atribuirá un formato numérico, produciendo una lectura errónea, o missing de
sistema, debido a la presencia de caracteres no numéricos en las variables de este tipo.
2. Al delimitar con el cursor la anchura de las variables, si ha fijado tanto el inicio como
el final de las mismas, obligatorio en el caso de fechas, el proceso le genera varia-
bles inexistentes, considerando las columnas en blanco entre las variables reales
como otras variables. Puede eliminarlas una vez editada la sintaxis antes de la eje-
cución o una vez generada la ventana de datos marcándolas con el cursor y poste-
riormente apretando la tecla Supr.
Estos inconvenientes y pequeños desajustes muestran exclusivamente que esta sin-

taxis aún no es la definitiva y que está en plena evolución.
Este hecho se hace aún mas evidente en el caso de los archivos *.dbf.
Si la sintaxis que se utiliza es la que se obtiene al pegar las instrucciones cursadas
mediante la ventana Archivo!Abrir!Datos... *.dbf, ésta se corresponde con la sinta-
xis clásica correspondiente a la instrucción GET TRANSLATE.
Diferente es la situación si pretende abrir el arcivo mediante la secuencia Archivo
!Abrir base de datos ! Nueva consulta... y la selección del esquema dBase Files... En
el caso de tener definida previamente cuáles son las diferentes ubicaciones de los archi-
vos DBF, podría llegar a obtener una sintaxis similar a la que se muestra a continuación,
para NIN_JAL.DBF:
GET DATA /TYPE=ODBC /CONNECT=

‘DSN=dBASE Files;DefaultDir=C:\Spss\Fitxers\Dat_orig;
DriverId=533;’
‘MaxBufferSize=2048;PageTimeout=5; ’
/SQL =
‘SELECT `T1`.`NCUEST` AS `NCUEST`, `T1`.`NOMPER` AS
`NOMPER`, ‘
‘`T1`.`F_ENTRÀS `F_ENTR`, `T1`.`F_NACIM` AS `F_NACIM`,
`T1`.`SEXO` AS ‘
‘`SEXO`, `T1`.ÈD_MADRE` AS ÈD_MADRE`, `T1`.`MESCOLA`
AS `MESCOLA`, ‘
‘`T1`.`MOCUPA` AS `MOCUPA`, `T1`.`PROTEA` AS `PROTEA`,
`T1`.`PROTEV` AS ‘
‘`PROTEV` FROM `C:\Spss\Fitxers\Dat_orig`\`nin_jal` `T1`’
.
VARIABLE LABELS NCUEST “NCUEST” NOMPER “NOMPER” F_ENTR

“F_ENTR” F_NACIM
“F_NACIM” SEXO “SEXO” ED_MADRE “ED_MADRE” MESCOLA
“MESCOLA” MOCUPA “MOCUPA” PROTEA “PROTEA” PROTEV “PROTEV”.
Igualmente, en el caso en que el archivo sea de formato Excel, se pueden obtener sin-
taxis diferentes en función de que se utilice una u otra ventana.
En la figura 3.9 se muestra cómo en el caso del archivo JEFE.XLS (en formato de
libro de hojas de cálculo de Microsoft Excel) podemos utilizar la acción general mediante
la ventana Archivo ! Abrir ! Datos... (*.xls), siendo la sintaxis obtenida al Pegar
las instrucciones:
GET DATA /TYPE=XLS

/FILE=’C:\Spss\Chiapas\jefe.xls’
/SHEET= name ‘car_jefe’
/CELLRANGE=full
/READNAMES=on .
Figura 3.9. Ventana de apertura de un libro de hojas de cálculo Excel 97.
Observe la diferencia de sintaxis que se obtiene utilizando la segunda opción Archivo

! Abrir base de datos ! Nueva consulta... y la selección del esquema Excel Files.
En este caso la sintaxis que se ejecuta consiste en las siguientes instrucciones:
GET DATA /TYPE=ODBC /CONNECT=

‘DSN=Excel Files;DBQ=C:\spss\chiapas\jefe.xls;’
‘DefaultDir=C:\Spss\chiapas;DriverId=22;FIL=excel 5.0;’
‘MaxBufferSize=2048;PageTimeout=5;’
/SQL =
‘SELECT `T0`.`NCUEST` AS `NCUEST`, `T0`.`SEX_JEFE`
AS `SEX_JEFE`, ‘
‘`T0`.ÈD_JEFE` AS ÈD_JEFE`, `T0`.`JESCOLA` AS `JESCOLA`,
`T0`.`JOCUPA`’
‘ AS `JOCUPA` FROM `C:\PERSONAL\LIBRITO\DBF\jefe`.
`car_jefe$` `T0`’ .
Ventana general La utilización de la ventana que se activa tras Archivo ! Abrir base de datos !
Nueva consulta... abre la ventana general, que corresponde al GET DATA, tal y como
se muestra en la figura 3.10.
A partir de este instante, el número de pantallas que pueden llegar a producirse, dada
la gran variedad de opciones de fuentes de datos, es muy elevado. En otras palabras, la
gran diversidad de secuencias de sintaxis que pueden considerarse supera los objetivos
de este libro, ya que entre otras situaciones debería definirse un proceso diferenciado en
función de si el programa está ejecutándose desde una instalación en el disco duro del
ordenador o bien se está ejecutando el programa en red local.
Únicamente, a modo introductorio, se muestra un proceso imprescindible, como es
la definición de una nueva fuente de datos, para el caso de dBase y Excel.
La primera pantalla que se ha obtenido es la del Asistente para base de datos:
Figura 3.10. Pantalla general del asistente para bases de datos.

En este asistente de gestión de base de datos deben tenerse definidos las fuentes de
datos o directorios donde se encuentran las bases que se quieren analizar, y a esa defi-
nición se le da el nombre de fuente de datos.
Estas fuentes de datos se definen para cada tipo de formato.
Así, si al marcar dBase Files, se activa la tecla de Añadir fuentes de datos, la pan-
talla que aparece al escoger la opción Configurar permite definir el directorio donde se
encuentran los ficheros de Dbase así como su versión. En nuestro ejemplo, se indicaría
el directorio C:\Spss\Chiapas o aquel que el lector haya asignado. De la misma manera
se efectuaría si el archivo que se pretende leer es Excel. Una vez se ha definido la fuente
de datos, esta información permanece permanente en las próximas sesiones, a no ser que
se desactiven, y aparecen siempre que se indique ese tipo de fuente de datos.
Así mismo, el lector interesado llegará sin dificultad a la creación de perfiles de
fuentes de datos personalizadas.
Sintaxis del capítulo 3
*****************************************************************.
* Importamos el fichero Nin_vill.dat y lo almacenamos como *.
* fichero de datos SPSS *.
*****************************************************************.
DATA LIST FILE=’C:\Spss\Chiapas\nin_vill.dat’

/ ncuest 1-3 nomper 5-6 f_entr 10-19 (DATE) f_nacim 21-30 (DATE)
sexo 31-39 (A) ed_madre 47-48 mescola 52-53 mocupa 56 protea
60-65 protev 69-74 .
EXECUTE .
SAVE OUTFILE=’C:\Spss\Chiapas\nin_vill.sav’ /COMPRESSED /MAP.
*********************************************.
* Importamos el fichero Nin_jal.dbf y lo *.
* almacenamos como fichero de datos SPSS *.
********************************************.
GET TRANSLATE FILE= ‘C:\Spss\Chiapas\nin_jal.dbf’ /MAP .

SAVE OUTFILE=’C:\Spss\Chiapas\nin_jal.sav’ / COMPRESSED /MAP.
*********************************************.
* Importemos el fichero Antrop.xls *.
********************************************.
GET TRANSLATE FILE=’C:\Spss\Chiapas\antrop.xls’

/ TYPE=XLS
/ FIELDNAMES .
SAVE OUTFILE=’C:\Spss\Chiapas\antrop.sav’ /COMPRESSED /MAP.
***************************************.
* Importemos el fichero Casa.dbf *.
***************************************.
GET TRANSLATE FILE=’C:\Spss\Chiapas\casa.dbf’.

SAVE OUTFILE=’C:\Spss\Chiapas\casa.sav’ /COMPRESSED /MAP .
***************************************.
* Importemos el fichero Jefe.xls *.
***************************************.
GET DATA /TYPE=XLS

/FILE=’C:\Spss\Chiapas\jefe.xls’
/SHEET= name ‘car_jefe’
/CELLRANGE=full
/READNAMES=on .
SAVE OUTFILE=’C:\Spss\Chiapas\jefe.sav’ /COMPRESSED /MAP .

Capítulo 4. Definición de variables
Introducción
Antes de iniciar cualquier análisis es preciso definir con claridad cada una de las varia-
bles que conforman la base de datos o el archivo original. La razón de esta necesidad se
debe a que, a lo largo del proceso de análisis, las variables existentes se pueden modi-
ficar e incluso crear otras variables nuevas a partir de ellas, con el problema de que, a
menudo, se mantiene el nombre de la variable de origen. Por si esto no fuese suficiente
para justificar la definición clara y la documentación de la generación de las variables,
hay que tener en cuenta que un mismo fichero puede ser compartido y manipulado por
diversas personas. Si no queda bien explícita cada variable, y qué significa exactamente
su contenido, se corre el riesgo de que el analista acabe absolutamente desorientado sin
poder interpretar la información disponible y, en consecuencia, se vea obligado a reha-
cer tareas anteriormente realizadas. En el peor de los casos, incluso puede llegar a rea-
lizar interpretaciones erróneas derivadas de una caracterización incompleta o incorrecta
de alguna de las variables.
Básicamente, las características que hay que definir de una variable se resumen en
los siguientes aspectos: formato, medida o naturaleza, definición de la información que
registra, definición de los posibles subgrupos o valores especiales y, por fin, qué valo-
res se consideran perdidos o desconocidos.
Formato El formato hace referencia a cómo está expresada o registrada una variable en la matriz
de datos. En definitiva se expresa, mediante el formato, en qué tipo de caracteres debe
leerse la variable.
Inicialmente deben considerarse dos grandes tipos de formatos. En primer lugar los
formatos numéricos, los cuales se reconocen porque los valores u opciones de la varia-
ble se expresan con números, aunque la variable sea de naturaleza categórica. En segundo
lugar los formato string o cadena, los cuales se expresan con caracteres alfanuméricos,
es decir, con cualquier carácter ASCII, aunque éstos incluyan números. Si bien existen
varias posibilidades, la inmensa mayoría de veces el formato utilizado es uno de los que
se presentan en la figura 4.1.
Así, una variable como sexo puede registrarse como alfanumérica (tal y como está
en las bases de datos de los ejemplos que vamos a desarrollar, «Masculino» y «Feme-
nino») o como numérica (asignando, por ejemplo, los valores arbitrarios 1 y 2, ó 0 y 1,
o cualquier otro par). Esta elección no es intrascendente y tiene consecuencias impor-
tantes tal y como veremos posteriormente.
Por último, como se observa en la figura, las variables en cualquier formato de tipo
fecha incluyen separadores de tipo guiones, comas o separadores de raya de quebrado
Figura 4.1. Tipos de formatos de registro de variables.
⎧ Numérico En este caso la variable se expresa solamente mediante

valores numéricos.
⎪
⎪ Los valores posibles que presenta son cualquier tipo
Formatos
Formatosdederegistro
registrode ⎪ de carácter, es decir: letras, números, símbolos, etc.,
devariables
variablesque
queseseusan
usan ⎨ Alfanumérico
todos ellos tratados como texto. En consecuencia, no
o cadena
habitualmente ⎪ puede realizarse ningún tipo de operación aritmética
⎪ con variables de este tipo.
⎪
⎩ Fecha Variable en cualquier de los múltiples formatos de
fecha existentes, como mes.día.año, día-mes-año,
año/mes/día, etc.
Medida o naturaleza Además de especificar correctamente el formato de una variable, la información de cada
una de ellas debe incluir la naturaleza de la misma. De ella depende el tipo de análisis
que puede realizarse con dicha variable o en el que puede participar. Por lo tanto, dejar
reflejada esta naturaleza también es importante, a pesar de que como veremos poste-
riormente, el programa SPSS, en la mayoría de ocasiones, no utiliza esta información.
En la siguiente figura podrá observar cómo se clasifican las variables según su natura-
leza.
Fig. 4.2. Tipología de variables según su naturaleza.
Variable en la que el resultado de la medida es un número

entero, siendo imposible precisar entre dos valores con-
secutivos, bien por ser imposibles o bien porque la escala
de medida no permite otros valores.
Ejemplos: edad civil de la madre, o bien los años de
⎧ Discretas escolaridad de la misma. En estos dos casos la escala, en
⎪ años, no permite precisar los meses. Otro ejemplo es la
⎪ edad del niño, expresada en meses, donde no se indican
⎪ los días. En cambio, el número de habitaciones de una
⎪ casa o el número de habitantes de una vivienda es un
⎪ valor discreto por definición, ya que es el resultado de
Cuantitativas ⎨ un conteo.
⎪
⎪ Variable en la que es posible observar cualquier valor
⎪ dentro del rango especificado por la propia variable. No
⎪ obstante, en la práctica, incluso las variables continuas
Tipos de variables según su naturaleza
⎪ Continuas
se manejan con un cierto grado de discretización, defi-
nido por la precisión con que se han determinado. En
⎩ general, dicha precisión es la que configura el formato
Fw.d en que está expresada la variable.
Ejemplos: Proteínas animales o proteínas vegetales, las
cuales expresan en gramos la cantidad de proteínas inge-
ridas por un niño al día.
Variable que no es el resultado de una medición sino

⎧ que responde al resultado de una clasificación a través
⎪ Nominales de la observación de determinado atributo.
⎪ Ejemplos: sexo, ocupación de la madre, material de las
⎪ paredes de la casa.
⎪
⎪ Variable en la que los posibles valores se obtienen según
⎪ una escala de orden y no métrica.
Ejemplos: frecuencia de ingesta de carne (con las siguien-
Categóricas ⎪ Ordinales tes Categorías: mínimo 1 vez cada 3 días, 1 ó 2 veces /
⎨ semana, 1 vez / 15 días, 1 vez / mes, menos de 1 vez /
⎪ mes, casi nunca / Nunca).
⎪
⎪ Variable cuyas categorías son el resultado de la agrupa-
⎪ ción de valores de otra variable cuantitativa previa.
⎪ Ejemplos: en los ficheros originales del ejemplo que
⎪ vamos a desarrollar en este libro, no existe ninguna, pero
⎪ veremos que para construir la variable adecuación nutri-
⎩ Por intervalo cional tendremos que utilizar una variable recodificada
en intervalos: Edad del niño en 4 grupos ([12,24), [24-
36), [36,48), [48,60)), estando la original expresada en
meses.
Comentarios 1. El lector debería reflexionar en este momento acerca de las diferencias entre for-
mato y naturaleza de las variables.
2. El formato no es más que la forma de expresión de los valores de la variable, no
existiendo siempre una correspondencia unívoca entre ese formato y la naturaleza.
Así, una variable, aunque sea de naturaleza categórica cualitativa, o nominal, puede
expresarse en un formato numérico, lo cual debe tenerse presente a la hora del aná-
lisis y no describirla como cuantitativa. ¿Qué sentido tendría el cálculo de la media
de la variable sexo, en este o cualquier caso de estudio, aunque se exprese como se
indicaba anteriormente como Masculino = 1 y Femenino = 2?
3. De manera simétrica, una variable cuantitativa podría, como es por desgracia bas-
tante frecuente, encontrarse expresada en un formato alfanumérico o cadena, lo cual,
si bien no es impedimento para su lectura o ciertos tipos restringidos de análisis,
incapacitaría la determinación de sus estadísticos naturales como media, varianza o
su coeficiente de correlación con otra variable cuantitativa.
Definición Otro aspecto a considerar es que, de forma ideal, el nombre de una variable debería ser
de la información suficiente para identificar claramente su contenido. En ciertos casos dicho nombre no
que registra la variable admite confusión, por ejemplo sexo, pero a menudo sólo con el nombre no es posible la
identificación completa de la información que contiene. En nuestros ficheros encontra-
mos variables como nomper o mescola en las cuales, solamente con su nombre, es difí-
cil conocer exactamente qué registran. En situaciones como ésta es de gran utilidad poder
definir una etiqueta de variable, es decir, un pequeño texto que se asocia a la variable para
solventar este problema. Este texto aparecerá en el fichero de resultados y las ventanas
del programa, siempre que lo creamos necesario, llegando incluso, aparentemente, a
substituir el nombre de la variable. De ahora en adelante nos referiremos a esta información
como etiqueta o variable label, según estemos trabajando por ventana o por ejecución
de sintaxis.
Definición A todo lo anteriormente dicho, cabe añadir que si la variable de la que tenemos que rea-
de las posibles lizar una descripción o un análisis es de naturaleza categórica (figura 4.2), también es
categorías o valores importante indicar la definición de cada una de las categorías. Por ejemplo, si la varia-
especiales ble sexo estuviera expresada en formato numérico con dos posibles valores como 1 y 2,
tendríamos que definir en algún momento si el 1 representa «Masculino» y 2 «Femenino»
o viceversa. Para ello existe la posibilidad de definir etiquetas de valores con el fin de
eliminar la confusión. En este caso el nombre con que aparece esta información en la ven-
tana de Vista de variables del Editor de datos del SPSS, aplicación del SPSS, es el de
Valores, mientras que en términos de sintaxis se conoce como Value labels.
También es interesante aplicar etiquetas a valores especiales de variables de natura-
leza no categórica. Por ejemplo, para la variable que registra los cursos escolares supe-
rados por el cabeza de familia, de naturaleza cuantitativa discreta, es importante espe-
cificar que los valores 77 y 88 no representan 77 y 88 cursos superados, si no que
identifican las respuestas «No sabe» y «No contesta».
Valores perdidos Un aspecto más a tener en cuenta son los valores que, por razones varias, no formarán
o desconocidos parte del análisis. Así, existen valores que representan la falta o pérdida de información.
Es decir, responden al desconocimiento del valor real de la variable en un caso o indi-
viduo concreto de la base de datos. Estos valores, que pueden representarse de diversas
formas, reciben el calificativo de missing. Cuando el analista recibe desde el principio
un dato con estas características, es decir sin información, el dato recibe el nombre de
system missing o valor perdido de sistema.
A veces, sin embargo, se observan determinados valores que, a pesar de venir codi-
ficados o expresados en la base original, corresponden a opciones del tipo NS «No sabe»
o NR «No responde». Habitualmente se presentan como opciones válidas de respuesta
a una pregunta formulada en una encuesta, por lo que no son valores que representen falta
de información, simplemente son opciones que el individuo entrevistado escoge como
respuesta y que posiblemente no interese analizar o considerar en muchos casos. Estos
valores también se llaman missing o valores perdidos pero reciben el calificativo de
missing de usuario o valores perdidos por el usuario. La diferencia con los primeros o
missing de sistema, es que no se desconoce el valor que toma la variable, y además que
no interesa incluirlos en un análisis general aunque posiblemente consideremos necesario
su análisis por separado. Por ejemplo, si bien las respuestas NS o NR, es decir, «No
sabe» o «No responde», pensásemos que no deben analizarse conjuntamente con el resto
de valores, quizás deberíamos estudiarlas a parte para conocer las características de los
individuos que se inclinan por estas preferencias. Por tanto, hay que destacar que los
missing de usuario, en cualquier momento, pueden ser recuperados por el analista e
incluidos en análisis posteriores si así se cree conveniente.
Por último, existen los valores claramente equivocados, correspondientes a errores
en la entrada de datos, en la medida o en la clasificación. En el caso en que no pueda sub-
sanarse el error cometido, existen mecanismos para definir estos valores como missing
o perdidos.
Empezaremos a aplicar estos conceptos con el primero de los archivos de datos que
tenemos ya en formato SPSS: NIN_VILL.SAV. El lector deberá efectuar el mismo pro-
ceso para el resto de archivos, encontrándose la sintaxis necesaria al final del capítulo.
Es recomendable, no obstante, efectuar las operaciones necesarias sin acudir a ese apar-
tado, recurriendo al mismo sólo para comprobar el trabajo desarrollado así como para
solventar problemas de sintaxis que se le presenten y no pueda resolver con el módulo
de ayuda del propio SPSS.
Definición de las características de una variable
A continuación se mencionan el conjunto mínimo de instrucciones para definir claramente

los aspectos fundamentales de una variable. Existen disponibles más instrucciones pero
es objetivo de este libro presentar, fundamentalmente, las que realmente facilitan el tra-
bajo posterior de análisis.
Una vez abierta una ventana de datos, mediante la acción de Archivo ! Abrir !
Datos... o bien a través de alguna instrucción GET o DATA LIST, tenemos, como ocu-
rrirá en la mayoría de acciones que llevaremos a cabo, una alternativa visual al uso de
la sintaxis. Como se ve en este apartado, los parámetros referentes al formato, natura-
leza de la variable, más otros puramente de visualización de las variables en pantalla, pue-
den ser modificados en la ventana del editor de datos, en la hoja Vista de variables.
Figura 4.3. Editor de datos en Vista de variables.
Como podrá observar en la figura anterior, la primera columna, Nombre, especifica

los nombres de las variables de la matriz de datos. SPSS sólo permite que los nombres
de las variables estén formados, como máximo, por ocho caracteres. En el caso de que
la matriz de datos se hubiera importado mediante alguna de las instrucciones comenta-
das en el capítulo 3, y el soporte original permitiera definir nombres con más de ocho
caracteres (por ejemplo en Excel), al pasar los datos a formato SPSS observaría como
el programa automáticamente trunca el nombre en el octavo carácter.
Nótese, además, que, aunque visualmente los nombres se expresan en minúsculas,
el programa no diferencia las mayúsculas de las minúsculas, pudiendo por tanto nom-
brar la variable en el Editor de sintaxis como desee. También hay que destacar que exis-
ten caracteres que no pueden utilizarse como primer carácter del nombre, por ejemplo
$ o _, existiendo otros que no pueden ser usados en ninguna posición dentro del nom-
bre: %, (, ), /, \, etc.
Formato
La primera característica a considerar de una variable es el formato en el cual se encuen-

tra registrada en la base de datos o archivo.
Sintaxis La sintaxis de definición de los formatos, como en cualquier caso de acción por sinta-
xis, deberá escribirse en la ventana Editor de sintaxis de SPSS, (Archivo ! Nuevo !
Sintaxis), y tiene la siguiente expresión:
FOR[MATS] lista de variables {formato}

[/lista de variables {formato}...].
Así, para cada variable o lista de variables deberá indicarse el formato, el cual, en
términos SPSS, puede tener alguna de las siguientes características:
{formato}:
Fw.d **: formato numérico con w caracteres (incluido el separador decimal) y d

números decimales.
A: formato alfanumérico. No hace falta definir su longitud ya que automáti-
camente escoge la máxima que observa.
date: formato de tipo fecha europea (día-mes-año).
adate: formato de tipo fecha americana (mes/día/año).
En el caso que nos ocupa, la definición de formatos para las variables del archivo
NIN_VILL.SAV, haríamos:
FOR ncuest (f4)

/ nomper ed_madre mescola (f2)
/ mocupa (f1)
/ protea protev (f6.2) .
Observe cómo las variables de tipo fecha y cadena no están especificadas en la ins-
trucción FORMATS. Esto se debe a que su formato no puede presuponerse o darlo por
defecto y, por lo tanto, se tuvieron que definir en la instrucción DATA LIST.
Ventanas Podemos modificar los formatos escribiendo directamente sobre las casillas correspon-
dientes a Tipo, Anchura y Decimales en la ventana del Editor de datos, en la hoja Vista
de variables (figura 4.3).
Los formatos que se visualizan la primera vez son los que se han generado mediante
la instrucción DATA LIST por defecto, a excepción de las variables alfanuméricas, las
cuales, al expresar las columnas entre las que se encuentra la variable e indicar que es
alfanumérica, ajusta un formato de este tipo, cadena, con la longitud máxima que le dan
estas dos columnas. En caso de utilizar otras instrucciones para importar el archivo de
datos de otro programa (GET TRANSLATE o GET DATA), los formatos que se visua-
lizarán inicialmente serán los que estaban definidos por los programas externos.
Así pues, en principio, el propio acto de apertura de un fichero y su lectura o impor-
tación por cualquiera de los mecanismos explicados, asigna automáticamente el formato
a las variables. Con esta instrucción podemos, sin embargo, adecuarlo a nuestros pro-
pósitos si fuese necesario.
El momento en el que la definición del formato de las variables es más relevante es
en el supuesto en que generemos nuevas variables, como se verá en el capítulo siguiente.
En este caso es muy frecuente que el formato que por defecto atribuye el programa,
mediante las Opciones o Settings, no sea el más adecuado a nuestros intereses, o bien
no esté definido tal y como se verá en las variables de naturaleza alfanumérica de nueva
creación.
Comentarios 1. Cualquier variable que no sea numérica, como es el caso de SEXO, F_ENTR y
F_NACIM, siempre que se haya ejecutado la instrucción DATA LIST anteriormente
al FORMATS, ya tiene definido el formato.
2. Fíjese que en los formatos numéricos (Fw.d) la w es el número total de caracteres
incluido el separador decimal. Es decir, es la anchura total que tendrá la variable,
no el número total de valores enteros. Por ejemplo, la ingesta de proteínas tanto de
origen animal como vegetal, poseen un formato F6.2, lo cual indica que la medición
tendrá como máximo tres enteros y dos decimales. Estos cinco caracteres más el
separador decimal son los que se indican con el número 6 en el formato.
3. En el caso de las variables tipo fecha, cabe destacar que, internamente, la mayoría
de ellas se almacenan mediante una correspondencia numérica. Ésta es el número de
segundos transcurridos desde el 14 de octubre de 1582 hasta la fecha especificada
en la variable. Este valor podrá observarlo si transforma la variable en formato fecha
a formato numérico.
Medida
Por medida el SPSS entiende el concepto de naturaleza de la variable.

De acuerdo entonces con los tipos de medida que se definieron en la figura 4.2, para
especificar en cada variable cuál es su naturaleza debemos utilizar la siguiente instruc-
ción:
Sintaxis VAR[IABLE] LEV[EL] lista de variables ({naturaleza}) [/lista

de variables ({naturaleza})...].
Indicando en cada variable o lista de variables su naturaleza.
{naturaleza}:
scale **: Variable cuantitativa.
nominal: Variable categórica nominal.
ordinal: Variable categórica ordinal.
Observe cómo el programa no distingue entre variables cuantitativas discretas y con-

tinuas, ni tampoco permite definir variables de intervalo. Si el archivo que desea anali-
zar contiene alguna de estas últimas, defínala como ordinal ya que las variables por inter-
valo también son ordinales.
Otro aspecto trata sobre las variables de tipo fecha. ¿Cómo debemos definirlas? Ante
las posibilidades que ofrece el programa, le aconsejamos que la defina scale.
En NIN_VILL.SAV debemos definir:
VAR LEV ncuest nomper protea protev ed_madre mescola (SCALE)/

sexo mocupa (NOMINAL) .
Ventanas Como en el caso anterior, podemos definir la naturaleza de las variables a partir de la ven-
tana del Editor de datos con el tipo de visualización Vista de variables (figura 4.3). En
este caso, las modificaciones se efectuarán en las casillas correspondientes a la columna
Medida indicando si es una variable de escala, ordinal o nominal.
Comentarios 1. Realmente sólo es necesario que esté indicada la naturaleza de la variable en los
siguientes casos: gráficos creados mediante la instrucción IGRAPH (en las ventanas,
Gráficos4Interactivos) y en ficheros de datos en formato SPSS usados en el módulo
AnswerTree (árboles de decisión). En el resto, el programa actuará automáticamente
sin distinguir entre naturalezas distintas, quedando en manos del analista realizar un
uso correcto de las variables seleccionadas. Sin embargo, reflejar la verdadera natu-
raleza de la variable no supone un gran esfuerzo y sólo puede ser positivo, con lo cual
recomendamos que dedique unos instantes en definirla.
2. Note cómo no siempre existe una relación directa entre el formato de una variable
y su naturaleza o medida. Así, es posible que dos variables de idéntica naturaleza se
expresen con formatos distintos (por ejemplo sexo y mocupa) y de la misma forma,
dos variables de distinta naturaleza podrían tener el mismo formato.
Ya tengo los datos delante de mis ojos. ¿Qué será nomper? ¿Qué información debe
contener? E imagino que mescola será la escolaridad de la madre... ¿Expresada en
qué unidades? ¿En años estudiados, cursos superados?
Etiquetas de variables
En múltiples ocasiones, como ya se ha indicado al inicio de este capítulo, el nombre de

la variable no refleja suficientemente el contenido de la misma. El máximo de ocho
caracteres para dar un nombre a la variable limita las posibilidades de dejar clara la infor-
mación del contenido.
Para resolver este problema existen las etiquetas de las variables. Mediante esta ins-
trucción, se puede añadir un pequeño texto (etiqueta) asociado al nombre de la variable,
de manera que se identifique claramente cuál es la información que contiene.
Sintaxis VAR[IABLE] LAB[ELS] nombre variable ‘etiqueta’

[/nombre variable ‘etiqueta’...]
Cada etiqueta, enmarcada siempre entre apóstrofes, puede llegar a tener una longi-
tud de hasta 255 caracteres, si bien en los análisis y descriptivas sólo se muestran los 60
primeros como máximo.
Si la etiqueta requiere emplear más de una línea de texto, antes de partir el texto se
cerrará con el apóstrofe y en la línea siguiente, antes de abrirlo de nuevo para continuar,
se incluirá el símbolo +.
En nuestro caso podríamos poner las siguientes etiquetas para identificar claramente
el contenido de la variable:
VAR LAB ncuest ‘Nº de cuestionario’

/ nomper ‘Nº identificativo de la persona en la casa’
/ f_entr ‘Fecha en que se realizó la entrevista’

/ f_nacim ‘Fecha de nacimiento del niño’
/ ed_madre ‘Edad de la madre (en años)’
/ mescola ‘Cursos escolares superados por la madre’
/ mocupa ‘Ocupación de la madre’
/ protea ‘Proteínas animales consumidas el día’ +
‘anterior a’ + ‘la encuesta’
/ protev ‘Proteínas vegetales consumidas el día’ +
‘anterior’ + ‘a la encuesta’ .
Ventanas Se pueden introducir en la columna Etiqueta en Vista de variables en la ventana del Edi-
tor de datos (figura 4.3).
Comentarios 1. Lógicamente, en aquellas variables donde queda perfectamente definida la infor-

mación que contiene mediante su nombre (por ejemplo sexo) no hace falta aplicar
etiqueta alguna. No tendría sentido, sería redundante.
2. Si bien la etiqueta de variable sustituye aparentemente el nombre de la misma, cabe
indicar que el programa internamente lo que reconoce es el nombre de la variable y,
en consecuencia, en las instrucciones escritas que el usuario desee ejecutar debe
constar éste, nunca la etiqueta.
3. No es posible el uso del apóstrofe en la etiqueta. Por ejemplo, en idiomas como el
catalán o el francés, es habitual el uso del apóstrofe para realizar contracciones de
palabras. Debido a que el apóstrofe es el signo que se utiliza para identificar donde
empieza y acaba la etiqueta, su uso como parte integrante del texto engañaría al pro-
grama, asumiendo éste que la etiqueta finalizaría en el apóstrofe usado realmente
como parte del texto. Este problema no existe si la entrada de la etiqueta se realiza
desde el Editor de datos.
Ahora ya conocemos con exactitud qué información contiene cada variable. Pero,
¿qué significará que la ocupación de la madre es 1 ó 2 ó 7 u 8? ¿Será el número de
ocupaciones?
Etiquetas de valores o categorías
En el caso de trabajar con variables categóricas o de naturaleza nominal, es conveniente

indicar el significado de cada categoría, especialmente cuando como valores categóri-
cos se usan valores numéricos. Como vimos en la introducción de este capítulo, también
para valores específicos de variables no categóricas, a veces, es interesante asociar eti-
quetas a los valores.
Sintaxis La expresión que asigna ese texto a cada valor de cada variable es:
VAL[UE] LAB[ELS] variable valor ‘etiqueta’ valor ‘etiqueta’

...
[/lista de variables valor ‘etiqueta’ valor
‘etiqueta’ ...].
Añade un pequeño texto (etiqueta) asociado a los valores de las categorías de la

variable. Así se puede identificar qué categoría representa realmente cada valor resul-
tado de la codificación de la variable. Tiene sentido, por lo tanto, únicamente para varia-
bles categóricas u otras que presenten algún valor especial que merezca la pena etique-
tar.
En el fichero NIN_VILL.SAV, en principio sólo haría falta definir las etiquetas de
valor para la ocupación de la madre (mocupa), ya que es la única variable categórica
registrada en formato numérico de que se dispone en el archivo de datos. Opcional-
mente, aunque deseable, también se pueden etiquetar los valores missing de usuario de
variables no forzosamente categóricas como es el caso de la variable ed_madre. (Ver
apartado que mostramos a continuación, «Missing Values».)
VAL LAB mocupa 1 ‘Labores en el hogar’ 2 ‘Labores fuera del

hogar’ 7 ‘NS’ 8 ‘NR’
/ ed_madre mescola 77 ‘NS’ 88 ‘NR’ .
Ventanas Podemos introducir las etiquetas pulsando la columna Valores en Vista de variables en
la ventana del Editor de datos (figura 4.3). Entonces aparecerá el siguiente recuadro:
Figura 4.4. Ventana de Vista de variables para asignar etiquetas a los valores.
Donde únicamente hace falta especificar el valor, la correspondiente etiqueta y pulsar en

Añadir, repitiendo para cada valor.
Aunque en la figura no está activada, puede observarse una tecla que permite el cam-
bio de etiquetas ya existentes. Así, se indicaría el valor, se escribiría la nueva etiqueta y
se pulsaría Cambiar.
De la misma forma, si se pretende eliminar una etiqueta, después de seleccionar el
valor, la pulsación de la tecla Eliminar la suprime.
Comentarios 1. No es obligatorio poner etiquetas a los valores o categorías, e incluso podemos eti-
quetar algunos valores y no etiquetar otros de la misma variable. Aún así aconseja-
mos que se haga. El analista debe impedir que llegue un momento en el cual no
pueda reconocer perfectamente todos los datos que maneja y etiquetar los valores es
una buena ayuda.
2. Tenga en cuenta que la etiqueta de valor o categoría sustituye el valor de forma
visual, es decir, realmente el programa lo que utiliza al realizar cualquier operación
son los valores y no las etiquetas. Por lo tanto, cuando el analista esté programando
mediante la sintaxis y deba referirse a determinada categoría de la variable deberá
hacerlo por su valor.
3. Los valores de una variable alfanumérica se expresan entre comillas simples o dobles.
Esta notación no sólo existe para el caso de estas instrucciones, Variable y Value
labels, sino que siempre que se exprese un valor determinado alfanumérico deberá
acotarse entre comillas. Así, por ejemplo, cuando debamos indicar el valor feme-
nino en alguna instrucción escribiremos: «FEMENINO» o ‘FEMENINO’. Observe
que, debido al formato de esta variable, ‘FEMENINO’, ‘ FEMENINO’ o ‘FEME-
NINO ’ no es lo mismo, ya que los caracteres en blanco tienen una representación
propia en alfanumérico. Tampoco es lo mismo ‘FEMENINO’ que ‘Femenino’, puesto
que una misma letra en mayúscula o minúscula representa un carácter distinto.
4. En esta ocasión el máximo número de caracteres es de 60, aunque se visualicen sólo
los 20 primeros.
5. Cuando un conjunto de variables posee las mismas etiquetas para sus categorías, por
sintaxis puede enunciarse la lista de variables y a continuación indicar las etiquetas
de valores comunes. Por ejemplo, podrían existir diversas variables en las que las cate-
gorías posibles fuesen 0 y 1 y que en todos los casos 1 significase ‘SÍ’ y 0 ‘NO’. En
este caso por sintaxis se podría indicar :
VALUE LABELS {lista de variables} 0 ‘NO’ 1 ‘SI’
Conozco perfectamente qué es cada variable y qué significan sus valores. Pero tengo
un problema. En el momento de estudiar la ocupación de la madre no quiero describir
los valores «NS» y «NR» conjuntamente con los demás. Aunque tampoco quiero
perder la información de cuáles son «NS» y «NR» ya que creo que después sería
interesante estudiar específicamente esos casos. ¿Qué debo hacer?
Valores perdidos o desconocidos
Tal y como se indicó en los capítulos de introducción, existen dos tipos de indicadores
para señalar aquellos casos en los que se desconoce el valor concreto de una variable.
Los missing de sistema se identifican desde el principio y normalmente se expresan
dejando en blanco las variables numéricas. Generalmente se visualizan en la ventana de
editor de datos como un punto. Evidentemente, si la variable es alfanumérica o cadena,
el blanco tiene representación de valor como otro carácter cualquiera y no lo reconoce-
ría como tal.
Diferente cuestión son los missing definidos por el propio usuario. Éste puede deci-
dir la exclusión de estos valores, o no, en los posteriores análisis.
Pues bien, en este segundo caso es necesaria la ejecución de la siguiente instrucción
para convertir los valores a valores missing de usuario:
MIS[SING] VAL[UES] lista de variables (lista de valores)

[/lista de variables (lista de
valores)...].
Sintaxis Entre los paréntesis se indica la lista de caracteres o valores que se consideran valo-
res missing por el usuario.
Lista de valores:
— Cada valor se separa del anterior mediante una coma.

— Como máximo se pueden especificar tres valores missings de usuario discretos o
bien un intervalo de valores y un valor discreto.
— Si se trata de valores discretos sólo debemos escribirlo.
— Si se trata de un rango de valores podemos usar los operadores THRU, LOWEST
HIGHEST:
• THRU: Situado entre dos números discretos indica que los valores missing de
usuario son todos aquellos situados entre el primer número y el segundo, ambos
incluídos.
Ejemplo: MIS VAL ed_madre (77 thru 88) .
Aunque también sería válido de la siguiente forma:
MIS VAL ed_madre (77-88) .
Declararía missing de usuario los valores 77, 78, 79, ..., 87 y 88.
• LO[WEST]: Antes de un THRU y un número discreto, indica que los valores

missing van desde el número observado más pequeño (Lowest) hasta el número dis-
creto que especifiquemos.
Ejemplo: MIS VAL ed_madre (Lo thru 88) .
Evidentemente, esta acción, como ejemplo, es válida, aunque sin embargo en la rea-
lidad sería una definición bastante desafortunada. ¿Cuál sería el resultado? Decla-
raría missing de usuario desde el mínimo valor observado hasta el 88. Como en la
base de datos NIN_VILL.SAV la madre más joven tiene 17 años, los valores mis-
sing de usuario quedarían declarados desde el 17 hasta el 88. En otras palabras, con
esta acción, en este caso, la variable edad de la madre quedaría fuera de cualquier
análisis futuro.
• HI[GHEST]: Después de un número discreto y un THRU, indica que los valores

missing van desde el número discreto hasta el número máximo que se observa en
la variable.
Ejemplo: MIS VAL ed_madre (77 thru Hi) .
Declararía missing de usuario los valores comprendidos entre 77 y el máximo que

se observara.
En la base de datos que estamos trabajando en este momento, sólo se deben definir
missings de usuario en tres variables. Debido a que en los tres casos los missings de
usuario son valores discretos y no un rango de valores, lo hacemos de la siguiente forma:
MIS VAL ed_madre mescola (77,88)

/ mocupa (7,8) .
Ventanas Se pueden definir pulsando en la columna Perdidos en Vista de variables en la ventana

del Editor de datos (figura 4.3). Aparecerá el siguiente recuadro:
Figura 4.5. Visor de definición de valores missing o perdidos de usuario.
Sólo hace falta anotar los valores en función de si la variable es discreta o continua.
En el primer caso escogeríamos «Valores perdidos discretos», y en el segundo marcarí-
amos «Rango más un valor perdido discreto opcional».
Si en un alarde de entusiasmo hubiese definido missing todos los valores de la varia-

ble ED_MADRE, ¿se podría deshacer con rapidez el entuerto?
Observe que existe la posibilidad de deshacer la definición de missing de usuario,

activando la ventana y declarando «No hay valores perdidos», posibilidad muy impor-
tante que diferencia fundamentalmente al valor perdido por el sistema y al valor per-
dido por definición del usuario. Es decir, el valor perdido de usuario es una propiedad
que se asigna a un conjunto de valores de una variable de forma reversible cuando el
analista lo crea oportuno o necesario.
Una vez realizadas todas las definiciones explicadas, ya tenemos listo el archivo
NIN_VILL.SAV, pudiéndolo grabar en el disco (Archivo ! Guardar), en este caso con
el mismo nombre.
Sin embargo la información está repartida en varias bases de datos. ¿Será real-
mente necesario llevar a cabo este proceso de definición en todas ellas? ¿Hasta qué
punto vale la pena «perder el tiempo» con estas acciones?
Llegados a este punto debemos caracterizar plenamente las variables de las otras
bases de datos del estudio. No obvie hacerlo, puede parecer intrascendente, pero en la
realidad el analista de datos se enfrenta diariamente con más de un fichero a la vez, con
ficheros previamente manipulados por otro analista, con ficheros con los que estuvo tra-
bajando tiempo atrás. Una buena caracterización de las variables es imprescindible para
poder controlar el trabajo, ganar tiempo y asegurar la calidad de los resultados obteni-
dos.
En el caso del estudio que estamos analizando, una forma de ahorrar tiempo se logra-
ría si se guarda la sintaxis, escribiéndola o mediante la opción Pegar de las ventanas.
Fíjese que para caracterizar las variables del fichero NIN_JAL.SAV, sólo debe aña-
dir la instrucción FORMATS para la variable SEXO y cambiar el nombre del fichero de
datos en las instrucciones GET FILE y SAVE OUTFILE del fichero de sintaxis utili-
zado para NIN_VILL.SAV. Esto es así puesto que las demás instrucciones son las mis-
mas al tener ambos ficheros idéntica estructura.
Una ventaja adicional es además de la ganancia de tiempo el tener la seguridad de
que la definición de las variables seguirá el mismo criterio en estos dos archivos, los
cuales contienen la misma información, a diferencia exclusivamente de la ciudad en
donde residen los niños.
*****************************************************************.
* Definamos las variables del fichero NIN_VILL.SAV *.
*****************************************************************.
* Primero abrimos el fichero *.

GET FILE=’C:\Spss\Chiapas\nin_vill.sav’.
* Caracterizamos las variables *.

* Para SEXO, F_ENTR y F_NACIM no hace falta ejecutar *.
* puesto que el formato ya se definió en el DATA LIST *.
FOR ncuest (f4)

/ nomper ed_madre mescola (f2)
/ mocupa (f1)
/ protea protev (f6.2) .
VAR LEV ncuest nomper protea protev ed_madre mescola (SCALE)
/ sexo mocupa (NOMINAL) .
/ protea ‘Proteínas animales consumidas el día anterior
a’ + ‘la encuesta’
/ protev ‘Proteínas vegetales consumidas el día ante-
rior’ + ‘a la encuesta’ .
/ mocupa (7,8) .
* Guardamos los cambios *.

SAVE OUTFILE=’C:\Spss\Chiapas\nin_vill.sav’ /COMPRESSED /MAP .
*****************************************************************.
* Definamos las variables del fichero NIN_JAL.SAV *.
*****************************************************************.
GET TRANSLATE FILE= ‘C:\Spss\Chiapas\nin_jal.dbf’ .

FOR ncuest (f4) /
nomper ed_madre mescola (f2) /
sexo (A9) /
mocupa (f1) /
protea protev (f6.2) .
VAR LEV ncuest nomper protea protev ed_madre mescola (SCALE)
/ sexo mocupa (NOMINAL) .

/ protea ‘Proteínas animales consumidas el día anterior’
+ ‘a la encuesta’
/ protev ‘Proteínas vegetales consumidas el día’ +
‘anterior a la encuesta’ .
/ mocupa (7,8) .
SAVE OUTFILE=’C:\Spss\Chiapas\nin_jal.sav’ / COMPRESSED .
*****************************************************************.
* Definamos las variables del fichero ANTROP.SAV *.
*****************************************************************.
GET TRANSLATE FILE=’C:\Spss\Chiapas\antrop.xls’

/ TYPE=XLS
/ FIELDNAMES .
FOR ncuest (f3.0)

/ nomper (f2.0)
/ tall_cms (f5.1)
/ peso_kg (f4.1) .
VAR LEV ncuest tall_cms peso_kg (SCALE) .
/ tall_cms ‘Talla del niño (en centímetros)’
/ peso_kg ‘Peso del niño (en kilos)’ .
SAVE OUTFILE=’C:\Spss\Chiapas\antrop.sav’ / COMPRESSED / MAP .

*****************************************************************.
* Definamos las variables del fichero CASA.SAV *.
*****************************************************************.
GET FILE=’C:\Spss\Chiapas\casa.sav’.
* observe como sólo anotamos los formatos que deben cambiar *.
FORMATS tip_loc luz (f1)

/ carne (A2) .
VAR LEV ncuest totape ncudor (SCALE)
/ tip_loc paredes piso sanit luz refr tv com_coc seg-
soc (NOMINAL)
/ carne (ORDINAL) .
VAR LAB ncuest ‘Nº identificativo de la casa’
/ totape ‘Total de personas en la casa’
/ tip_loc ‘Tipo de localidad’
/ ncudor ‘Nº de habitaciones destinadas a dormir’
/ sanit ‘Tipo de baño’
/ luz ‘Tienen luz en casa?’
/ refr ‘Tienen nevera?’
/ tv ‘Tienen TV?’
/ paredes ‘Material de las paredes’
/ piso ‘Material del piso’
/ com_coc ‘Combustible que utilizan para cocinar’
/ carne ‘Frecuencia de ingesta de carne de res’
/ segsoc ‘Tienen seguro social?’ .
VAL LAB tip_loc 1 ‘Urbana’ 2 ‘Rural’
/ sanit 1 ‘Excusado’ 2 ‘Letrina, hoyo’ 3 ‘Nada, a ras
del suelo’
/ luz refr tv segsoc 0 ‘No’ 1 ‘Sí’
/ paredes piso 1 ‘Adobe’ 2 ‘Ladrillo’ 3 ‘Madera’ 4
‘Tierra’ 5 ‘Cemento’ 6 ‘ Mosaico’ 7
‘Fraguado’ 8 ‘Lámina metálica’ 9
‘Terraso’ 10 ‘Piedra’ 11 ‘Paja’ 12
‘Embarro’ 13 ‘Rastrojo’ 14 ‘Caña de
maíz’
/ com_coc 1 ‘Leña o carbón’ 2 ‘Gas’ .
SAVE OUTFILE=’C:\Spss\Chiapas\casa.sav’ /COMPRESSED /MAP .

*****************************************************************.
* Definamos las variables del fichero JEFE.SAV *.
*****************************************************************.
GET FILE=’C:\Spss\Chiapas\jefe.sav’.
FOR jocupa (f1) ed_jefe (f3) .

VAR LEV ncuest ed_jefe jescola (SCALE)
/ sex_jefe jocupa (NOMINAL) .
VAR LAB ncuest ‘ Nº identificativo de la casa ‘
ed_jefe ‘Edad del cabeza de familia (en años)’
/ jescola ‘Cursos escolares superados por el cabeza
de’ +’família’
/ jocupa ‘Ocupación del cabeza de familia’ .
VAL LAB sex_jefe 1 ‘Masculino’ 2 ‘Femenino’
/ ed_jefe 777 ‘NS’ 888 ‘NR’
/ jescola 77 ‘NS’ 88 ‘NR’
/ jocupa 1 ‘Agropecuario’ 2 ‘Otros’ 7 ‘NS’ 8 ‘NR’ .
MIS VAL ed_jefe (777,888)
/ jescola (77,88)
/ jocupa (7,8).
SAVE OUTFILE=’C:\Spss\Chiapas\jefe.sav’ /COMPRESSED /MAP .

Capítulo 5. Manipulación de ficheros
Introducción
Tal y como se ha visto hasta este punto, la información generada en un estudio puede encon-
trarse recogida de forma fragmentada en diversos archivos. La información definitiva que
se requiere para el análisis final, en este supuesto, se encontrará repartida en diversos fiche-
ros que, a su vez, pueden poseer estructuras distintas y estar generados en soportes de
también diversa naturaleza. Veamos pues, cómo abordar una situación de este estilo, tan
frecuente por otra parte en la vida real.
En el estudio que estamos desarrollando, la información necesaria para analizar el
estado nutricional mediante la ingesta proteica de los niños se encuentra dividida en
cinco ficheros.
Dos de ellos poseen la misma estructura de variables, con los mismos campos y for-
matos, con las mismas definiciones de valores perdidos y de categorías. Son, por lo tanto,
ficheros en los que hay datos de dos grupos de niños diferentes, pero la naturaleza de la
información es la misma. El primero, NIN_VILL.SAV se refiere a los niños residentes
en la población de Villaflores y el segundo, NIN_JAL.SAV, a los de Jaltenango.
Cada registro, es decir, cada niño, está representado por dos claves identificadoras.
La primera, NCUEST, es el número que identifica la casa donde vive el niño. Ello es así
debido a que a cada casa u hogar se le atribuyó un número de cuestionario para dife-
renciarlo de las demás casas encuestadas, y la segunda, NOMPER, identifica al niño
dentro de la casa, es decir, lo personaliza respecto a las demás personas que viven en el
mismo hogar.
En el archivo que contiene los datos antropométricos de cada niño, éste está identi-
ficado exclusivamente con el número de casa (NCUEST) y no con NOMPER. Esto es
debido a que sólo se selecciona a un niño por familia y en el caso de tener hermanos
siempre se ha seleccionado al más pequeño, por lo que la identificación es inequívoca.
Por otro lado, tenemos información en otro archivo acerca del jefe de familia. Observe
cómo también en este fichero consta la variable NCUEST, con lo cual la forma de rela-
cionar la información de cada jefe de familia con la del niño del mismo hogar puede
realizarse a través de la clave o identificador de la casa.
De igual forma sucede con el fichero que contiene las características del hogar en lo
referente al tipo y calidad de la construcción y servicios de que disfruta la vivienda y a
los aspectos socioeconómicos de la familia.
En todos los casos el único vínculo de identificación es el número identificativo de
la casa a través del número del cuestionario.
Así, aprovechando este estudio vamos a explicar cuáles son los mecanismos de mani-
pulación de ficheros de forma que al final tengamos la información necesaria en uno
solo y pueda realizarse el análisis de la información contenida en el mismo.
Ordenación de casos
En la mayoría de operaciones y manipulaciones de ficheros que se explican en este capí-

tulo, se requiere que los casos estén ordenados por algún criterio que facilite la conexión
de la información entre los distintos archivos.
En general al hablar del criterio de ordenación, nos referiremos a dos aspectos fun-
damentales. El primero es la clave o claves que nos servirán de índices de conexión entre
los registros de los diferentes ficheros. El segundo se referirá siempre a si este o estos
índices se encuentran ordenados en forma ascendente o descendente, tanto si son índi-
ces numéricos o alfanuméricos.
Este proceso se lleva a cabo mediante la instrucción SORT CASES, la cual define
los dos criterios anteriormente citados.
Sintaxis SORT CAS[ES] [BY] lista de variables[({orden})] [lista de varia-

bles...]
Tal y como se indica en la expresión de sintaxis, pueden utilizar diversas claves o

variables para ordenar los registros del fichero.
La lista de variables y el orden en que aparecen tienen importancia para el resultado
final. Así no es lo mismo ordenar por municipio (Villaflores, Jaltenango) y luego por
sexo (femenino, masculino) que al revés. Con la primera ordenación aparecerían los
niños y niñas de Villaflores ordenados de forma que primero estarían los casos de sexo
femenino y luego los de sexo masculino. Si escogiéramos la segunda forma, primero
estarían todos los casos de niñas ordenadas por municipio (las de Villaflores y luego las
de Jaltenango) y después todos los niños agrupados a su vez por el municipio de resi-
dencia.
{orden}: En cada variable debe indicarse el sentido del orden.
— A**: Ascendente. Ordena los casos situando al inicio los que tienen el menor valor
en la variable especificada y en los últimos registros aquellos que presentan el mayor.
— D: Descendente. Ordena los casos de mayor a menor.
Le aconsejamos que efectúe el siguiente ejercicio:

Abra el archivo NIN_VILL.SAV mediante la instrucción GET FILE. La ejecución
de esta instrucción, como Ud. ya ha visto repetidas veces, equivale a activar con el cur-
sor el icono del archivo NIN_VILL.SAV en la carpeta o directorio donde Ud. lo tenga
almacenado.
El resultado de cualquiera de estas acciones, le abre la ventana del Editor de datos.
Fíjese en los primeros valores de ncuest y ahora ejecute la instrucción SORT CASES
usando dos variables, por ejemplo, las variables sexo y protea. ¿Qué modificaciones
observa en la ventana de Vista de datos?
Repita ahora la instrucción pero cambiando el orden de las dos variables. ¿Nota la
diferencia de ordenación de los registros?
Ordene ahora los casos sólo por la variable ncuest y guarde el archivo resultante con
el mismo nombre.
Efectúe la misma acción para todos los archivos *.sav que había generado. El resul-
tado final será que todos los archivos los tendrá ordenados por el número de cuestiona-
rio o vivienda.
Ventanas El uso de ventanas es de gran sencillez.

En primer lugar debe tener la ventana Editor de datos SPSS cargada con el fichero
que desea ordenar.
A continuación debe activar, en la barra de herramientas, la opción Datos ! Orde-
nar casos... y obtendrá lo siguiente:
Figura 5.1. Ventana de ordenación de casos.
En esta ventana debe escoger qué variables utiliza como clave de ordenación así
como para cada una de ellas, si considera más de una, qué criterio de ordenación requiere,
ascendente o descendente.
Como ejercicio abra uno a uno los ficheros *.sav que ha creado hasta el momento y
ordene cada uno de ellos según la variable NCUEST de forma ascendente. Observe
cómo se han reordenado los casos en la ventana Vista de datos del Editor de datos
SPSS.
Una vez ordenado cada fichero, guarde el resultado con el mismo nombre. En caso
de no efectuar la acción de Guardar como... o Guardar el archivo seguiría desordenado.
Si tengo la información de los niños de Villaflores en un fichero y la de los niños de

Jaltenango en otro, ¿debo analizarla por separado? Creo que sería de más interés
describir los resultados de todos los niños conjuntamente... y en todo caso, si se con-
siderara conveniente, hacerlo luego por separado.
¿Cómo añadir casos a un fichero ya existente?
Una de las acciones de manipulación de ficheros que se presentan con mayor frecuen-
cia es la de añadir casos a un fichero ya existente.
El motivo generalmente se debe a que la información se ha generado en lugares o
tiempos diferentes y se desea analizarla en su globalidad. En nuestro ejemplo tenemos
un caso muy evidente. En un archivo se encuentra la información recogida en Villaflo-
res y en el otro la correspondiente a Jaltenango. No obstante, el objetivo del estudio no
persigue la descripción de los niños seleccionados en función del municipio, sino en su
conjunto.
Es pues el caso típico de añadir la información de un fichero a otro.
Sintaxis La sintaxis requiere que exista ya un fichero activo o ya abierto en la ventana de Edi-
tor de datos SPSS. La instrucción añade a los casos del fichero activo uno o varios
ficheros externos, forzosamente de naturaleza *.sav . La estructura de estos últimos, en
principio, debe ser idéntica a la del fichero activo que tenemos abierto.
ADD FILES FILE={fichero} [/RENAME=(nombres variables anti-

guas=nombres variables nuevas)...]
[/IN=variable]
/FILE=... [/RENAME=...] [/IN=...]
[/KEEP={lista de variables}] [/DROP=lista de variables]
[/MAP]
Esta instrucción puede encadenar más de dos ficheros, por lo que para cada uno de
ellos deberá indicarse la siguiente información:
FILE={fichero} Especifica, cada vez que aparece, a qué fichero de los que vamos a
encadenar o añadir nos referimos. Debe indicarse el path o nombre completo de la car-
peta o archivo donde se almacena el fichero, y sólo pueden ser ficheros de naturaleza *.sav.
La especificación, al igual que en otras ocasiones en que se referencia un archivo o
fichero externo, debe escribirse entre comillas.
En el primero que se indica en la instrucción no se inicia la sentencia con el signo /,
siendo obligatorio en todos los demás archivos que se indiquen.
En el fichero resultante se mostrarán al inicio los casos del primer fichero especifi-
cado en la instrucción (es decir, el nombrado en el primer FILE) seguidos de los casos
del siguiente fichero (identificado en el segundo FILE) y así sucesivamente. Si alguno
de los ficheros involucrados en la instrucción es el activo, éste puede especificarse
mediante un *.
[/RENAME= Como ya se ha visto en otras instrucciones, esta opción permite renom-

brar las variables de cada fichero que se adiciona. Puede ser útil si interesa que casen o
no con otras variables del fichero activo, ya que a menudo puede darse que, la misma
variable, en dos ficheros distintos se haya nombrado de forma diferente.
En el caso en que las mismas variables tuviesen nombres distintos, la instrucción
las consideraría, obviamente, diferentes y las definiría como valores perdidos en cada uno
de los ficheros que se adicionan con la variable definida con otro nombre.
[/IN=variable] Crea una nueva variable en el fichero resultante con valores 0 y 1.

El valor 0 señala que el registro en cuestión pertenecía originalmente al fichero activo,
mientras que los valores 1 se registrarán en los casos provenientes del fichero externo.
El resto de opciones, MAP, KEEP y DROP, se interpretan igual que en todas las ins-
trucciones descritas hasta el momento.
Vamos a generar un fichero que contenga la información de todos los niños estu-
diados, es decir, un archivo en el que estén registrados conjuntamente los niños de Villa-
flores y Jaltenango. Pero, ¡atención!, fíjese que en los ficheros originales no existe una
variable que identifique el municipio de residencia, si no que nosotros conocemos esa
información al saber en cual de los ficheros está registrado el niño.
Este aspecto es importante ya que, al juntar los dos ficheros en uno, esa informa-
ción desaparecerá y seremos incapaces de distinguir cuál es el municipio de residencia
de cada niño. Es lógico pensar, entonces, que es más cómodo juntar la información pero
de manera tal que se pueda conocer de qué población es cada niño, o de qué fichero pro-
viene cada caso.
Para hacerlo podemos seguir dos caminos:
1. Abrir uno de los ficheros (por ejemplo NIN_VILL.SAV), con lo cual pasa a ser el
archivo o fichero activo, y añadir a continuación los datos del otro.
GET FILE=’C:\Spss\Chiapas\nin_vill.sav’ .
ADD FILES FILE=*
/FILE=’C:\Spss\Chiapas\nin_jal.sav’
/IN=municipi
/DROP=d_r.
EXECUTE.
2. Sin que ninguno de los dos ficheros sea el activo:

ADD FILES FILE=’C:\Spss\Chiapas\nin_vill.sav’
/IN=municipi
/DROP=d_r.
EXECUTE.
Observe cómo hemos utilizado la opción IN para poder identificar de qué fichero pro-
viene cada niño o, lo que es lo mismo, de qué municipio. También hemos utilizado
DROP para indicar que en el fichero resultante no nos interesaba que estuviera la varia-
ble D_R.
Aunque utilice la primera o segunda posibilidad, no olvide que tiene un nuevo archivo
con una nueva variable. Por tanto:
VAL LAB municipi 0 ‘Villaflores’ 1 ‘Jaltenango’ .

SAVE OUTFILE=’C:\Spss\Chiapas\ninhos.sav’ .
Ventanas El proceso de añadir casos a un archivo activo, es decir, a un archivo de estructura SPSS
abierto en la ventana de Editor de datos, implica desplegar el menú implícito en Datos
! Fundir archivos ! Añadir casos que se encuentra en la barra de herramientas. Esta
acción abre una nueva ventana Añadir casos: Leer archivo, que se muestra en la figura
5.2.
Una vez seleccionado el archivo que se quiere añadir al que se encuentra ya activo,
pulsando la opción Abrir, se abre una nueva ventana Añadir casos desde... en la que
se describen las variables desemparejadas de ambos ficheros, en el caso de existir, así
como las que estarán presentes en el fichero resultante.
La acción de Aceptar conduce a un fichero resultante de la fusión de los dos archi-
vos, manteniendo el nombre del activo que se había abierto primero.
Si no indica lo contrario, al guardar el archivo resultante lo efectuará con el nombre
del fichero activo.
En teoría, añadir más casos implica que los dos ficheros posean la misma informa-
ción, pero se pueden dar dos situaciones distintas:
1. Los dos ficheros, el activo y el que se acaba de abrir, poseen las mismas variables
pero con nombres distintos.
En este caso, todas las variables en las que no coincide el nombre aparecerán en la
subventana de variables desemparejadas. Todas ellas tienen una marca (*) o (+),
según pertenezcan a uno u otro fichero.
Estas variables desemparejadas se pueden renombrar, mediante la tecla Cambiar el
nombre, o bien a través de la opción Casar, la cual, sin cambiar el nombre de las
variables, indica qué variable de un archivo se corresponde con otra variable del otro
archivo.
Situando el cursor sobre estas teclas y apretando el botón derecho del ratón, obten-
drá la información de cómo renombrar o casar las variables.
2. Los ficheros poseen información que no es común.
En este caso, siempre que se asegure que la situación no es debida a diferencias en
la nomenclatura de las variables, al ejecutar la acción de Aceptar las variables desem-
parejadas no se adicionarán en el archivo definitivo. Una situación de este estilo
debería hacerle revisar si realmente los ficheros son los que pretendía fusionar.
Figura 5.2. Ventanas del proceso de adición de casos.
Comentarios 1. Insistimos en que todos los ficheros que intervengan en un ADD FILES deben tener
formato de datos SPSS (.sav).
2. Al fichero activo se le pueden añadir casos de hasta 49 ficheros externos en una
misma instrucción ADD FILES.
3. El fichero resultante mantendrá el nombre del fichero especificado inmediatamente
después del ADD FILES. Luego podrá grabarlo con otro nombre si así lo desea,
opción que es la más recomendable.
Creo que sería muy interesante observar cómo varía la nutrición del niño según el
combustible que utilizan para cocinar, ya que imagino que esta variable debe ser un
indicador socioeconómico muy fiable. Estas variables, sin embargo, están regis-
tradas en ficheros separados... ¿Cómo podría realizar este análisis? ¿Cómo puedo
analizar variables que se encuentran en archivos diferentes?
¿Cómo añadir variables a los registros de un fichero ya existente?
Otra situación que se presenta con cierta frecuencia es la de tener información distri-
buida en diferentes archivos. Es el caso común en estudios censales o de empadronamiento,
o en encuestas como la que ha generado el estudio que estamos analizando.
La información posee diversos niveles y los elementos de cada subnivel se relacio-
nan con el anterior o inmediatamente superior mediante una o varias claves o índices de
relación.
En nuestro caso, el índice implícito en el número de cuestionario, ncuest, permite loca-
lizar y emparejar a los padres y madres de los niños con los mismos, a pesar de que la
información está en ficheros distintos.
Tendríamos en ese caso una información en la que, por ejemplo, podrían existir
diversos niños que fuesen hermanos, aunque no es el caso de nuestro estudio, a los que
se pudiese añadir la información de los padres mediante un índice. En este caso en el
archivo de niños existirían índices repetidos, todos los que corresponden a los herma-
nos, y sin embargo, en el archivo de padre o de madre, este índice estaría una sola vez.
El segundo fichero, el del padre o la madre, recibe el nombre de Tabla o TABLE.
Igual ocurriría si existiese un archivo con la información de la vivienda. A través de
un índice, que sería único para cada casa, se podría añadir la información de la misma
a sus habitantes, los cuales, sean padres o hijos, tendrían en común y, por lo tanto repe-
tidos dichos índices. El archivo de la vivienda sería también un fichero TABLE.
Una segunda situación, distinta a las anteriores, es la que se presenta cuando para cada
caso o individuo se posee una información adicional y no compartida por nadie más.
En este caso, el índice de conexión es el identificador del individuo y los archivos
deberían poseer la misma longitud o número de registros si la nueva información existe
para todos los individuos. En caso de individuos desemparejados, la información de uno
o del otro archivo se asigna como missing o desconocida, pero el individuo o caso estará
en el archivo final.
Sintaxis La sintaxis refleja las dos situaciones descritas y es la siguiente:
MATCH FILES FILE={fichero} [TABLE={fichero}]

[/RENAME=(nombres variables antiguas=nombres variables nue-
vas)...]
[/IN=variable]
/FILE=... [TABLE= ...]
[/BY lista de variables]
[/MAP]
[/KEEP={lista de variables}] [/DROP=lista de variables]
MATCH FILES Es la instrucción genérica, a la que debe acompañar la información

de cada uno de los ficheros que aporta variables al archivo definitivo.
FILE={fichero} [TABLE={fichero}]
Especifica cuáles son los ficheros que se van a combinar, uno a uno. El fichero resultante
mostrará, en primer lugar (es decir a la izquierda), las variables del primer fichero espe-
cificado en la instrucción (esto es, el nombrado en el primer FILE o en el primer TABLE)
seguidas de las variables del siguiente fichero (identificado en la segunda especifica-
ción FILE/TABLE) y así sucesivamente. Si alguno de los ficheros involucrados en la
instrucción es el activo, éste puede especificarse mediante un *.
En este punto es fundamental distinguir claramente entre FILE y TABLE.
FILE indica un fichero que, además de aportar nuevas variables, puede añadir nuevos
casos al fichero resultante.
Es el segundo caso que se ha indicado en la presentación de este apartado. En nues-
tro ejemplo, añadir la información antropométrica a los datos de ingesta de cada niño apor-
tará nuevas variables a las ya existentes en NINHOS.SAV. Podría darse el caso de que
se tuviese casos desemparejados, o sea, la presencia de información antropométrica de
algún niño del que se desconociese el consumo de proteínas, por lo que el MATCH FILE
aportaría un nuevo caso al fichero final, es decir, un niño más, atribuyendo un valor mis-
sing o desconocido a todas las variables del archivo previo NINHOS.SAV.
De la misma forma, un caso conocido en el que constan las proteínas consumidas y
que no existe en el archivo de datos antropométricos generará en las variables aporta-
das por este último fichero el valor de missing o valor desconocido.
TABLE especifica un fichero que aporta variables al fichero resultante pero nunca casos.
Pueden diferenciarse dos situaciones en las que el uso de TABLE es necesario:
1. Añadir variables dentro de un mismo nivel, pero únicamente a los casos definidos
en el fichero FILE previo.
Es un caso especial al descrito anteriormente. La diferencia es que no se acumulan
los casos desemparejados.
Se utiliza cuando sólo se quiere adicionar variables al conjunto de casos que se están
estudiando, no a todo el conjunto disponible.
2. Añadir de un nivel superior de información variables a los individuos o casos de un
nivel inferior.
Todos los casos están en el fichero definido como FILE y sólo para estos casos se
les atribuyen las nuevas variables existentes en el fichero definido como TABLE.
[/BY lista de variables]

Especifica la/s variable/s que identifican la correspondencia entre los casos del fichero
activo y sus respectivos casos en el fichero externo. Si la opción BY no se usa, el pro-
grama une la información de forma secuencial, esto es, el primer caso del fichero activo
con el primero del fichero externo, el segundo con el segundo, etc.
El uso de la opción BY implica tener los ficheros ordenados, mediante la instrucción
SORT, por los mismos criterios especificados en la lista de variables y en la misma
secuencia.
El resto de opciones posee el mismo significado que hemos visto en instrucciones
anteriores.
En nuestro ejemplo, añadir la información antropométrica del niño a la nutricional
se haría:
MATCH FILES FILE=’C:\Spss\Chiapas\ninhos.sav’
/TABLE=’C:\Spss\Chiapas\antrop.sav’
/BY ncuest nomper .
EXECUTE.
En el archivo resultante podríamos unir la información de la casa y del jefe de fami-

lia mediante la siguiente expresión:
MATCH FILES FILE=* /TABLE=’C:\Spss\Chiapas\Casa.sav’

/TABLE=’C:\Spss\Chiapas\Jefe.sav’
/BY ncuest .
EXECUTE.
Observe que los tres ficheros añadidos (ANTROP.SAV, CASA.SAV y JEFE.SAV)

se declaran como TABLE ya que sólo nos interesa la información de los casos presen-
tes en el archivo NINHOS.SAV, y en esos ficheros existen niños, hogares y jefes de
familia que no se corresponden con los casos incluidos en nuestro estudio.
Sin embargo, habrá notado cómo para añadir la información que se encuentra en
ANTROP.SAV es necesaria la inclusión de dos variables clave (ncuest y nomper). Esto
es debido a que en esa base existen casos procedentes de la misma casa, es decir, her-
manos. Recuerde que el estudio nutricional se realizó exclusivamente para los herma-
nos pequeños. Al tener entonces el mismo número identificador de casa debemos dife-
renciarlos, además, mediante su número particular dentro de la casa. Así, conseguimos
descifrar cuál de los niños de una misma casa es el estudiado.
Al unir los otros dos archivos tan sólo es necesaria la especificación de ncuest, puesto
que en NINHOS.SAV existe sólo un niño para cada casa y en CASA.SAV y JEFE.SAV
también existe un solo registro por hogar.
Recuerde que al unir variables de un archivo a otro, ambos archivos deben estar
ordenados por la misma variable y de la misma forma. Si en el Editor de resultados le
aparece algún error, es muy posible que sea debido a que no ordenó todos los archivos,
o al menos, que no lo hizo de la misma forma.
Finalmente, podemos salvar el archivo resultante con un nuevo nombre:
SAVE OUTFILE=’C:\Spss\Chiapas\nutricio.sav’ .
Ventanas Al igual que en el caso de ADD FILES, no se puede realizar la acción de MATCH FILES
sin un archivo abierto o activo en la ventana de Editor de datos. Así, una vez abierto un
archivo, para efectuar la adición de variables que se encuentran en otro archivo, debe selec-
cionarse en primer lugar dicho archivo. Para ello, tras la acción Datos ! Fundir archi-
vos ! Añadir variables, al abrir el fichero seleccionado se despliega una nueva ven-
tana, figura 5.3, similar a la descrita en el apartado de añadir casos.
Así, en una subventana aparecen las variables que constarán en el nuevo archivo de
trabajo, marcadas con (*) o (+) según sean del primer archivo o activo o bien del segundo.
En otra ventana se describen aquellas variables excluidas, dado que se encuentran repe-
tidas en los dos ficheros.
En principio, en esta ventana deberían constar aquellas variables que se utilizan
como índice o clave de conexión entre los dos ficheros y que son las que, mediante sin-
taxis, constarían en la opción BY.
Aquí también puede darse el caso de que la variable o las variables de conexión
posean diferente nombre en los dos archivos, por lo que no aparecerán en la ventana de
variables excluidas. Mediante la posibilidad de Cambiar nombre puede resolverse esta
dificultad. Para ello deberá seleccionar la variable clave de la ventana Nuevo archivo
de datos de trabajo y llevarla a la ventana de Variables excluidas pulsando sobre la
opción ".
Una vez desplazada puede cambiarla el nombre.
A continuación debe seleccionar si el proceso es a través de FILE o TABLE.

En el primer supuesto, FILE, se marcaría la opción «Emparejar los casos en las varia-
bles clave» y, a continuación, la opción «Ambos archivos aportan casos».
Como es lógico, deberán indicarse a continuación cuáles son dichas variables clave.
Para ello se seleccionan las variables de la lista presente en la ventana de Variables
excluidas y se traspasan a la que indica Variables clave mediante la tecla !.
En el caso en que el contexto requiera el uso de TABLE, al marcar Emparejar los casos
en las variables clave, deberá marcarse cuál de los ficheros es el archivo de claves. Pos-
teriormente deberán hacerse explícitas de nuevo cuáles son las variables que se utilizan
como clave.
Cualquiera que sea la opción escogida, se puede especificar el origen de cada varia-
ble, es decir de qué fichero procede, marcando la opción «Indicar origen del caso como
variable.»
Figura 5.3. Ventanas en donde se posibilita la adición de variables de un archivo a otro.

Comentarios 1. Todos los archivos que intervengan en un MATCH FILES deben tener formato de
datos SPSS (.SAV).
2. Al realizar un MATCH FILES con la opción BY, ambos ficheros deben estar orde-
nados de forma ascendente por la variable indicada en el BY.
3. Al fichero activo se le pueden añadir variables de hasta 49 ficheros externos en una
misma instrucción MATCH FILES. Sin embargo, mediante la utilización de venta-
nas, sólo puede realizarse la operación entre dos ficheros.
4. El fichero resultante mantendrá el nombre del fichero especificado inmediatamente
después del MATCH FILES. Luego podrá grabarlo con otro nombre si así lo desea.
El mismo procedimiento al descrito en la figura 5.3. permitiría añadir, ahora, la infor-

mación o las variables referentes a la casa y al jefe de la familia.
Según estas últimas instrucciones ya podría tener todas las variables del estudio en
un único archivo. Intente plantearse cuál es la mejor estrategia para lograrlo. No existe
una única forma, ya que podría añadir primero la información del jefe de familia y a
continuación la de la vivienda, pero también sería válido efectuar esas acciones en orden
contrario.
Sin embargo, antes de proceder con esta acción, seguro que se ha planteado lo
siguiente: al fusionar ficheros, los archivos son cada vez mayores y más complejos.
¿Cómo puedo trabajar sólo con los datos de un grupo de casos? Porque crear un
archivo con sólo un grupo restringido de variables ya puedo deducirlo. ¿Sí? Sí,
claro, creando un fichero mediante la acción SAVE y mediante la subinstrucción
KEEP o DROP eliminar variables.
Sin embargo, si sólo quisiese trabajar con los niños y niñas de Jaltenango, cuya
madre no haya superado ningún curso escolar y no haya cumplido los 19 años,
¿existe alguna acción programada?
Selección de subgrupos de casos
Hasta este momento, todas las acciones propuestas han consistido en la adición de infor-
mación de unos archivos a otros, siendo siempre el resultado un archivo o con más casos
o con más variables.
A menudo, sin embargo, se presenta la situación de necesitar un análisis para un
grupo reducido de casos, grupo o submuestra que generalmente se caracteriza por un
conjunto de propiedades comunes. En nuestro ejemplo podríamos plantearnos una serie
de análisis en el grupo formado por las niñas menores de dos años cuya madre sea menor
de dieciocho años.
Lo más práctico en casos como el descrito consistirá en seleccionar permanente-
mente los datos que cumplen ese conjunto de condiciones y trabajar independientemente
del resto de datos.
Otra situación, no tan frecuente, es la consistente en seleccionar una muestra alea-
toria de los datos ya sea como descripción orientadora cuando el archivo es de gran volu-
men de casos o bien como muestra de validación posterior a la obtención de modelos esta-
dísticos obtenidos con el resto de los datos.
A continuación se describen los dos tipos de acciones correspondientes a las dos
situaciones indicadas.
Sintaxis Con esta primera instrucción se seleccionan, de forma permanente, aquellos casos que
cumplen una condición lógica determinada. Es decir, la ejecución de un SELECT IF
produce un fichero de datos en el que constan los casos especificados y en el que los
casos que no satisfacen la condición desaparecen.
SELECT IF [(]condición lógica[)]
La especificación de la condición lógica se realiza exactamente de la misma forma

que en la instrucción IF.
Este procedimiento tiene el inconveniente de que si la condición se expresa equi-
vocadamente, no es posible rectificar sin volver a abrir el archivo que se tenía activo.
En el otro supuesto descrito, es decir, cuando el subgrupo se quiera generar con la
condición de ser una muestra del conjunto de datos disponible, la instrucción es la
siguiente:
SAMPLE {método de selección}
En la que {método de selección} especifica el tamaño y criterio de selección

de la muestra aleatoria utilizado:
— Proporción: permite especificar la proporción de casos que deseamos seleccionar

del fichero activo.
Por ejemplo, si queremos configurar una muestra que represente el 20% del total de
casos, la instrucción sería: SAMPLE 0.2.
— n FROM m: indica que se seleccionan n de los primeros m casos del fichero activo.
Por ejemplo si nos interesase seleccionar 35 de los 150 primeros casos del fichero
la instrucción sería: SAMPLE 35 FROM 150.
La selección se realiza mediante una rutina pseudoaleatoria que se inicia con una
semilla de aleatorización concreta (por defecto 2000000), la cual se repite cada vez que
se ejecuta una nueva sesión del programa.
Esta semilla se puede alterar mediante la instrucción, ya definida en el primer capí-
tulo, SET SEED = N, en la que N debe ser un entero inferior a 2000000000.
En la práctica, el conocimiento del valor de la semilla sólo presenta utilidad si nos
interesa repetir exactamente una misma selección de casos.
Por ejemplo, en la cuestión planteada al inicio de la explicación de esta instrucción,
trabajar sólo con los niños y niñas de Jaltenango cuya madre no haya superado ningún
curso escolar y no tenga cumplidos los 19 años, haríamos lo siguiente:
Ventanas En la figura 5.4 se muestran las ventanas correspondientes a las instrucciones de selec-
ción de casos. Para obtener dichas ventanas debe ser la secuencia Datos ! Seleccionar
casos. Para que la selección sea realmente permanente y no temporal, debe activar la
opción «Eliminados» en «Los casos no seleccionados son» de la primera ventana que apa-
rece de Seleccionar casos.
Figura 5.4. Ventanas de selección de subgrupos casos de forma permanente.
Bien. La creación de un archivo que contenga sólo un subgrupo de casos es intere-

sante. De todas formas, sería muy cómodo poder analizar un conjunto de datos pero
sin que la selección sea permanente, es decir, sin tener que perder la información
global del archivo original.
Sintaxis Estrictamente, la selección temporal de casos se realiza mediante la instrucción

FILTER.
FILTER BY variable filtro
Esta instrucción selecciona aquellos casos en los cuales la variable filtro toma valo-
res distintos a 0 o missing. Sin embargo, normalmente no tenemos una variable cuyos
valores estén dispuestos de tal forma que 0 y missing correspondan a los casos que nos
interesa que no sean los seleccionados. Luego, antes de utilizar FILTER debemos cons-
truir una variable auxiliar (llamada variable filtro) por la cual se seleccionarán los casos.
Dicha variable puede crearse fácilmente mediante un simple COMPUTE:
COMPUTE variable filtro = (método de selección)
Debiendo hacer explícito el criterio o método de selección:

— según una condición lógica de las explicadas en la instrucción IF;

— como muestra aleatoria indicando la proporción deseada, indicando como método de
selección uniform(semilla) <= proporción.
Por ejemplo, si se quisiera seleccionar temporalmente un 30% de los casos, se indi-

caría como uniform (23577) <= 0.3 , siendo 23577 el número generador de la rutina ale-
atoria que adjudica a cada caso del archivo una probabilidad según una distribución uni-
forme generada por una semilla igual a 23577.
Esta instrucción creará, pues, la variable filtro cuyos valores serán 0 si no se cum-
ple la condición, 1 si se cumple y missing de sistema si no es posible evaluar la condi-
ción.
Por lo tanto, las instrucciones necesarias para seleccionar de forma temporal un sub-
grupo de casos, podemos exponerlas de la siguiente manera:
COMPUTE variable filtro = (método de selección)

FILTER BY variable filtro
Una vez la selección de casos ya no tiene interés y se desea volver a trabajar con
todos los casos, sólo hay que ejecutar:
FILTER OFF.
Si bien no significa la desaparición del filtro, sino sólo su desactivación, pudiéndose

volver a efectuar la selección ejecutando el FILTER BY FILTER.
Así, el ejemplo que seguimos antes lo haríamos ahora, de forma temporal, como
sigue:
COMPUTE seleccio = (ed_madre<19 and mescola=0 and municipi=1).

EXECUTE .
FILTER by seleccio .
Siendo seleccio la nueva variable creada que nos sirve para filtrar aquellos casos no
seleccionados.
Ventanas Puede obtenerlas siguiendo la secuencia Datos ! Seleccionar casos. Observe que son
exactamente las mismas que en el caso de desear realizar una selección permanente,
sólo que activando la opción «Filtrados» en «Los casos no seleccionados son».
Figura 5.5. Ventana de selección de subgrupos casos de forma temporal.
Comentarios 1. Vea cómo la variable filtro se mantiene en el fichero aunque como otra variable cual-
quiera, sin determinar ningún tipo de selección. Puede mantener la variable en el
fichero para que en próximas acciones de selección se use el mismo nombre.
2. En versiones anteriores del programa, existía la posibilidad de seleccionar tempo-
ralmente un subgrupo de datos indicando antes de un SELECT IF la instrucción
TEMPORARY. Aparentemente era más simple que en la versión actual, aunque el
inconveniente es que la temporalidad sólo duraba la ejecución de un análisis deter-
minado, debiéndose repetir la secuencia TEMPORARY. SELECT IF tantas veces
como análisis quisiésemos efectuar.
Los archivos de datos con los que he trabajado hasta el momento presentan la infor-
mación detallada para cada niño. Desearía tener otro fichero, menos voluminoso,
en que la misma información se presentara resumida para cada municipio, según el
sexo del niño y la ocupación del jefe de familia. ¿Puedo construir rápidamente un
fichero de este estilo?
Agregación de datos en tablas indexadas
Con frecuencia, una vez analizados unos datos primarios, se desea efectuar el análisis
de información agregada. Por ejemplo, en nuestro estudio, analizar la situación no para
cada caso individual si no considerando únicamente ciertas características de agrupa-
ción de los datos, como el municipio y el sexo o la profesión del padre o bien ua com-
binación de todas ellas.
Es decir, la información se pretende organizar agregada según índices correspon-
dientes a unas variables categóricas, lo que en definitiva es estructurar la matriz de datos
en forma de tabla multidimensional. Pensemos en la descripción de nuestros datos en forma
de tabla de tres dimensiones, siendo las dimensiones el municipio, el sexo y la profesión
del jefe de familia.
Las ocho celdas de esta tabla tridimensional (2 x 2 x 2), describen una situación
común a un número determinado de casos. En una celda concreta, como la que define
la situación específica Villaflores * Femenino * Agropecuario, es posible agregar, ade-
más de la frecuencia de casos con esas características, información de otras variables.
Por ejemplo, podemos agregar en ella características de la variable peso, tanto en forma
de estadístico muestral media, mediana o medidas de dispersión, como de porcentaje o
fracción de individuos pertenecientes a esa categoría múltiple que están por encima,
debajo o igual a un peso determinado.
Esta nueva estructura se podrá guardar como un nuevo fichero para su posterior
manipulación y análisis.
Sintaxis
La sintaxis de creación de agregación de información en tablas de múltiples dimensio-

nes es la siguiente:
AGG[REGATE] OUTFILE=fichero
[/MISSING=COLUMNWISE]
[/DOCUMENT]
[/PRESORTED]
/BREAK=lista de variables[({Orden})][lista de variables...]
/aggvar[‘etiqueta’]aggvar[‘etiqueta’]...=función
(argumento)
[/aggvar ...].
Esta instrucción no requiere la ordenación previa de los datos, ya que automática-

mente la efectúa a no ser que se indique de forma explícita que ya se ha efectuado pre-
viamente. Esta ordenación previa es recomendable cuando las variables categóricas que
generan la agrupación posean muchas categorías, eso sí, siempre siguiendo el orden que
se utilizará al agrupar.
Una vez especificado el fichero de partida cuya información se quiere agregar, las
tres siguientes opciones, si se utilizan, deben especificarse antes de /BREAK.
[/MISSING=COLUMNWISE]
Indica que si en una clasificación que se plantea, mediante las variables categóricas
que se especifican en BREAK, hay casos con información perdida o desconocida en los
índices, se mantenga la casilla indicando el componente missing de la celda.
[/DOCUMENT]
Incluye documentación del fichero original. Por defecto lo ignora.
[/PRESORTED]
Indica que el fichero está ordenado a partir de las variables clasificadoras descritas
en BREAK.
Por defecto, cada vez que se efectúa la agregación la instrucción efectúa un SORT.
/BREAK=lista de variables[({Orden})][lista de variables...]

Es la lista de variables que generan la tabla multidimensional. Al igual que se indicó

en la expresión SORT, el orden en que se enumeran es muy importante, ya que la pre-
sentación y el contenido de lo que se agrega varían en función del orden de clasificación.
/aggvar[‘etiqueta’]aggvar[‘etiqueta’]...=función
(argumento)
En esta subinstrucción se indica qué variables se resumen en las celdas multidi-

mensionales y qué información de las mismas se requiere. Es decir, qué resumen se
aporta de cada variable agregada en cada celda definida en BREAK. La opción permite
dar una etiqueta a la nueva variable agregada.
Las funciones disponibles son:
SUM Suma MEAN Media

SD Desviación estándar
MAX Máximo MIN Mínimo
FIRST Primer valor no missing LAST último valor no missing
PGT % casos > a un valor PLT % casos < valor
PIN % casos dentro de un rango POUT % casos fuera de un rango
FGT Fracción > a un valor FLT Fracción < valor
FIN Fracción dentro de un rango FOUT Fracción fuera de un rango
N Número de casos ponderados NU Número de casos no ponderados
NUMISS Número de casos missing no ponderados
N_BREAK Número de casos en cada nivel de agregación
Como puede observarse, todas las funciones están previstas para agregar variables
numéricas, sin embargo también presentan ciertas utilidades para variables cadena o
alfanuméricas. Por ejemplo las funciones lógicas o de clasificación.
De todas formas, a pesar de que es factible efectuar una agregación en las que alguna
variable de agrupación sea de tipo cadena o alfanumérica, esta posibilidad no se espe-
cifica con claridad en los manuales debido a los problemas que puede presentar la orde-
nación de valores de variables de esta naturaleza cuando tienen una longitud de carac-
teres grande. Así, la ordenación alfabética del nombre y dos apellidos de un fichero de
individuos puede requerir una memoria de trabajo no accesible en muchos casos, por lo
que no se indica su uso.
En nuestro ejemplo podríamos agregar, por municipio y sexo, el número de niños,
la edad, peso y talla media de los mismos.
AGGREGATE OUTFILE=’C:\Spss\Chiapas\base_agr.SAV’
/BREAK=municipi sexo jocupa
/med_tall ‘Talla en promedio’ = MEAN(tall_cms)
/med_pes ‘Peso en promedio’ = MEAN(peso_kg)
/frec=N.
Ventanas La ventana de agregación de variable se activa a través de la actuación Datos ! Agregar.

En dicha ventana se muestran todas las variables que contiene el fichero, tal y como
se muestra en la figura 5.6.
Se seleccionan, con el cursor, las variables que forman la clasificación múltiple y se
transportan a la subventana de nombre: Variables de segmentación al activar la tecla !.
Las variables cuya información se resume o agrega en las celdas multidimensiona-
les creadas se seleccionan con el cursor y se traspasan a la ventana de Agregar varia-

bles.
En el momento en que se traslada una variable a la lista de Agregar variables, puede
definirse la función o información agregada que se quiere mantener pulsando en la tecla
Función...
Sólo se permite introducir una función por variable. No obstante, si quisiese agre-
gar más de una función por variable, volviéndola a seleccionar y repitiendo la acción,
cambiando la función, obtendrá el resultado deseado.
Por ejemplo, si de una variable cuantitativa desea agregar la media y la desviación
estándar, selecciona la variable y fija como función «Media de valores» (es la función
por defecto). A continuación la vuelve a seleccionar y fija la función «Desviación típica».
Los nombres con que las variables agregadas aparecerán en el fichero resultante se
refieren siempre a la variable de origen acabada en _1. No obstante, activando la tecla
Nombre y etiqueta... puede variarlo a la vez que puede insertarle una etiqueta.
Figura 5.6. Ventanas de agregación de datos

Activando la opción «Guardar el número de casos en cada grupo en la variable»,

para cada celda generada por las variables de segmentación se creará, en el fichero resul-
tante, una nueva variable que será el número de casos que pertenecen a ese nivel.
A dicha variable, por defecto, se le da el nombre de n_break, el cual puede cambiarse
escribiendo directamente en la ventanilla.
También por defecto se supone que el archivo resultante de la acción se guardará
con un nombre distinto al archivo origen de la agregación. El nombre supuesto es
AGR.SAV, que también puede modificarse juntamente con la carpeta donde se guar-
dará el fichero.
Si decide escoger la opción «Sustituir el archivo de datos de trabajo», el fichero
resultante se sobrepone al activo y se pierde la información original.
En este caso, como en todos los anteriores, le recomendamos Pegar la sintaxis gene-
rada por sus acciones en la ventana. Además de tener constancia escrita de las acciones
efectuadas, podrá entender mejor la sintaxis y los procesos automatizados mediante el
despliegue y activación de los menús preprogramados.
1. Si una de las variables de agregación es de naturaleza alfanumérica, es decir de tipo

cadena o string, tendrá forzosamente que efectuar el AGGREGATE por sintaxis.
2. En el caso de encontrarse en que la situación anterior se produce en las variables de
segmentación, es totalmente recomendable efectuar el SORT previo a la agregación.
En general los problemas con variables de esta naturaleza provienen de la limita-
ción de memoria disponible para efectuar la ordenación, por lo que si el SORT se lleva
a cabo, tendrá la seguridad de que el proceso de agregación también se efectuará.
3. Es recomendable guardar siempre el resultado en un archivo diferente al activo y
cambiar el nombre que le atribuye el programa por defecto. Después de un tiempo
es difícil recordar que se almacenó en archivos con nombre Agr.sav, Agr2.sav, etc.
Si tiene paciencia o experiencia y sabe lo importante que es tener la información
bien ordenada en el disco, es recomendable generar en cada carpeta otra carpeta para
los ficheros resultantes de agregaciones.
4. La generación de archivos de agregación por grupos de edad y sexo son una herra-
mienta muy útil en el caso de estar realizando un estudio en los que se requiera el
cálculo de tasas y su estandarización posterior.
A continuación se muestra el fichero resultante de la instrucción AGGREGATE eje-

cutada.
Figura 5.7. Archivo resultado de la agregación realizada.
Observe cómo, si bien teóricamente, dicho archivo debería constar de ocho casos
(las ocho posibles combinaciones generadas por los dos valores de municipi, los dos de
sexo y los dos de jocupa), realmente tiene dieciocho. Como podrá comprobar esto es
debido a que la variable sexo tiene, además de los valores esperados, otros que contie-
nen errores de tecleo o escritos de forma distinta a la mayoritaria.
Este problema es típico cuando se trabaja con variables alfanuméricas. Éstas, al per-
mitir cualquier carácter, son de muy difícil control a posibles errores y por eso siempre
se aconseja trabajar con variables numéricas, aunque su naturaleza sea de tipo categó-
rico. Una vez el analista recibe los datos, debe intentar subsanar dicho problema con-
virtiendo las variables alfanuméricas en numéricas. Sin embargo, para atacar eficaz-
mente el problema debe preverse en el momento en el que se prepara el programa de
captación de datos. Cuando el diseño de la recogida de datos tiene en cuenta dicha pre-
vención, es síntoma de la calidad de los mismos y evita la pérdida innecesaria de tiempo.
Desdichadamente, muy a menudo, el analista no interviene en un estudio hasta el momento
en que los datos ya están registrados...
Deseo realizar la descripción de todas las variables separadamente para Villaflo-

res y para Jaltenango. ¿Puedo hacerlo de manera rápida y sencilla y sin tener que
crear nuevos ficheros?
Segmentar un fichero
La segmentación de un fichero tiene ciertas similitudes con la agregación.

Consiste en organizar la estructura de un archivo ordenándola por una o varias varia-
bles de tipo categórico, de manera que con una instrucción se indique que, a partir de este
punto, cualquier análisis que se efectúe se repetirá para cada una de las celdas o categorías
múltiples hasta que no se diga lo contrario.
Sintaxis La expresión que produce la segmentación del archivo es:
SPLIT FILE [{forma de presentación}] BY lista de variables.

{ANÁLISIS VARIOS}
SPLIT FILE OFF.
Al ejecutar la instrucción SPLIT FILE, los análisis subsiguientes, todos los que se
indiquen hasta que se ejecute SPLIT FILE OFF, segmenta el archivo en estratos corres-
pondientes a la combinación de las categorías de las variables que se indican en la lista.
[{forma de presentación}]
En esta opción debe indicarse si la presentación de los resultados debe efectuarse

en una sola tabla estructurada en los estratos, forma de presentación = LAYERED, o
bien de forma separada para cada estrato o combinación de categorías de las variables
que definen el SPLIT. En este caso la forma de presentación = SEPARATE.
La primera opción es la que está activa por defecto.
BY lista de variables.
Lista de variables por las que se segmenta el archivo. Deben estar en el mismo orden
que en la instrucción SORT previa, la cual es obligatoria.
{ANÁLISIS VARIOS}
Mientras no se indique lo contrario, la segmentación está vigente y cualquier análi-

sis que se indique lo efectuará para cada estrato definido.
SPLIT FILE OFF.
Con esta instrucción complementaria se indica que a partir de ese instante ya no se

efectúan más análisis por estratos.
Un ejemplo con nuestros ficheros sería:
SORT CASES BY municipi jocupa .

SPLIT FILE BY municipi jocupa .
DESCRIPTIVES VAR=tall_cms peso_kg /STATISTICS=MEAN STDDEV .
SPLIT FILE OFF.
Esta sintaxis generaría un análisis estratificado por municipio y ocupación del cabeza
de familia de la talla y peso de los niños del estudio. Es decir, para las cuatro posibles
combinaciones generadas por municipi y jocupa (Villaflores/Agropecuario, Villaflo-
res/Otros, Jaltenango/Agropecuaro y Jaltenango/Otros), de las variables indicadas, cal-

cularía el valor de la media y de la desviación típica o estándar.
Ventanas La activación de Datos ! Segmentar archivo en la barra de herramientas de la ventana

de Editor de datos de SPSS, abre una nueva ventana en la que se observa que la opción
por defecto es la de «Analizar todos los casos», equivalente a SPLIT FILE OFF.
Una vez se ha indicado que se desea segmentar el archivo, debe indicarse si se pre-
tende «Comparar los grupos» o bien «Organizar los resultados por grupos», opciones que
corresponden a LAYERED o SEPARATE respectivamente.
Se activa automáticamente una subventana en la que pueden transportarse las varia-
bles que definen los estratos o los grupos de análisis. Seleccionadas con el cursor y trans-
portadas a dicha ventanilla, sólo falta indicar si los datos ya se encuentran ordenados, o
deben ordenarse, en función de las variables seleccionadas.
Figura 5.8. Ventana que permite el análisis de un archivo por segmentos o estratos.
GET FILE=’C:\Spss\Chiapas\nin_vill.sav’ .
*****************************************************************.
* Añadimos casos *.
*****************************************************************.
*** Ponemos a todos los niños en un mismo fichero ***.
* En caso de que NIN_VILL.SAV sea el archivo activo, que si ha

seguido *.
* la secuencia del libro debería serlo *.
ADD FILES FILE=*

/IN=municipi
/DROP=d_r.
EXECUTE.
* En caso de que NIN_VILL.SAV no sea el archivo activo *.
ADD FILES FILE=’C:\Spss\Chiapas\nin_vill.sav’

/IN=municipi
/DROP=d_r.
EXECUTE.
VAL LAB municipi 0 ‘Villaflores’ 1 ‘Jaltenango’ .

*****************************************************************.
* Añadimos variables *.
*****************************************************************.
*** Añadimos variables de los otros archivos al archivo que reúne

***.
*** todos los niños ***.
* Primero nos aseguramos que todos los archivos estén igualmente *.

* ordenados *.
SORT CASES BY ncuest.

GET FILE=’C:\Spss\Chiapas\antrop.sav’ .
SORT CASES BY ncuest nomper.
SAVE OUTFILE=’C:\Spss\Chiapas\antrop.sav’ .
GET FILE=’C:\Spss\Chiapas\casa.sav’ .
SAVE OUTFILE=’C:\Spss\Chiapas\casa.sav’ .
GET FILE=’C:\Spss\Chiapas\jefe.sav’ .
SAVE OUTFILE=’C:\Spss\Chiapas\jefe.sav’ .
* Juntamos las variables de ANTROP.SAV *.
MATCH FILES FILE=’C:\Spss\Chiapas\ninhos.sav’

/TABLE=’C:\Spss\Chiapas\antrop.sav’
/BY ncuest nomper .
EXECUTE.
* Ahora las de los demás archivos *.
MATCH FILES FILE=* /TABLE=’C:\Spss\Chiapas\Casa.sav’

/TABLE=’C:\Spss\Chiapas\Jefe.sav’
/BY ncuest .
EXECUTE.
* Guardamos el archivo resultante *.

SAVE OUTFILE=’C:\Spss\Chiapas\nutricio.sav’ .
Capítulo 6. Creación y transformación de variables
Introducción
A lo largo del proceso de trabajo con un fichero de datos surge, casi siempre, la necesidad
de transformar las variables ya existentes o de crear nuevas a partir de las ya conocidas.
Variables registradas en el archivo de datos se transforman para obtener el máximo
de información, puesto que posiblemente su descripción, una vez transformada, es más
relevante que la recogida originalmente.
Un ejemplo clásico de esta situación es la edad del individuo. Habitualmente los
estudios registran dicha variable en años, aunque probablemente a posteriori se describa
según determinados grupos de edad de interés para el investigador. Debemos notar en
este punto que el hecho de que la descripción se realice según unos grupos de edad deter-
minados no significa que en el diseño de la hoja de recogida de datos lo lógico fuera
establecer directamente a qué grupo etáreo pertenece el individuo. Por el contrario, la reco-
gida de la edad en años será más interesante, puesto que permitirá obtener fácilmente una
variable que exprese la misma información (la distribución de los grupos deseados) más
otra información complementaria, a partir de la variable original, que puede ser también
relevante. Además, el conocimiento de la edad en años permitirá configurar los grupos
de edad de formas diversas y no exclusivamente tal y como se había pensado inicial-
mente.
En otros casos, también muy frecuentes, ni siquiera sería interesante la edad en años
que tenían los individuos en el momento del estudio, ya que si se trata de un estudio de
seguimiento o longitudinal, nos interesa la fecha de nacimiento del individuo así como
la de su ingreso en el estudio. En este caso tendríamos permanentemente la posibilidad
de considerar la edad del individuo al inicio del estudio así como en el momento del
análisis, si así fuese de interés.
En general y sea cual sea la variable, existe una regla no escrita aplicable a la reco-
gida de datos y que podría resumirse en que siempre hay que intentar obtener la infor-
mación lo más desagregada posible. De todas formas, debe valorarse a priori el esfuerzo
que esto implica y, finalmente, buscar el equilibrio deseable entre el detalle con que se
describe la información, el esfuerzo para obtener ese nivel de detalle y la necesidad para
el análisis que se pretende realizar.
Por otra parte, la posibilidad de crear nuevas variables a partir de otra u otras ya
existentes en la base, es otro recurso valioso para describir lo más detalladamente posi-
ble los datos observados.
Otro ejemplo clásico en estudios de identificación de factores de riesgo sobre un
problema en salud pública, lo encontramos en las variables número de dormitorios de
la casa y Total de personas que viven en la casa. La información que podríamos extraer
de cada una de ellas individualmente sería poco relevante, pero un indicador del tipo
número de personas que viven en la casa por dormitorio, como medida de hacinamiento,
proporciona una información mucho más interesante.
Así, a partir del registro de dos variables en las bases de datos originales se creará
una tercera, cuyo estudio puede aportar aún más información. En este caso, cabe indi-
car que el registro de esta tercera variable en los archivos originales sólo significaría
una redundancia y un trabajo adicional innecesario.
Podría considerarse la posibilidad de recoger directamente la variable hacinamiento,
pero ello no liberaría de tener que recoger en el estudio el número de personas o el de
dormitorios, ya que son indicadores utilizados en la creación o el ajuste de otras varia-
bles.
En este capítulo, si bien veremos la mayoría de las instrucciones que se utilizan para
la creación de una nueva variable o modificar una ya existente, debemos considerar una
cuestión previa:
¿Con qué formato? En el caso en que se desee crear una nueva variable, como no ha sido definida en el
DATA LIST o mediante la lectura de una base de datos, antes de la creación deberá defi-
nirse con qué formato se piensa definir la nueva variable.
Por defecto, el formato de las nuevas variables es siempre de naturaleza numérica y
cómo puede observarse en los settings o condiciones de instalación (Edición ! Opcio-
nes de la barra de herramientas), el formato es F8.2. Así, si el resultado de alguna de estas
instrucciones es una nueva variable numérica sólo se requerirá ejecutar la instrucción y
automáticamente se le asignará ese formato. Por el contrario, si se desea crear una varia-
ble de naturaleza cadena o alfanumérica, es obligatoria la ejecución previa de declara-
ción de cadena.
Sintaxis Este paso se realiza mediante la instrucción:
STRING nombre variable (An)
En la que n indica la longitud de la cadena.

En todos los demás casos, el formato numérico F8.2 se puede modificar a través de
la ventana Vista de variables una vez creada la nueva variable.
En los dos archivos que hemos estado manipulando, NIN_VILL.SAV y NIN_JAL.SAV,

no consta en ninguna variable lo que se indica como objetivo del estudio que esta-
mos considerando, es decir, el estado nutricional de esta muestra de niños de Chia-
pas. ¿Nos falta algún archivo con esta información o podremos definir esta varia-
ble a partir de las ya existentes en estos ficheros?
Creación de variables
En nuestro estudio, la definición del estado nutricional de cada niño se realizará basán-
dose en las proteínas consumidas habitualmente en función de la edad del mismo. Una
búsqueda detallada de criterios externos para catalogar a los niños como bien o mal
nutridos no obtuvo resultados, pues las clasificaciones encontradas en la literatura eran
excesivamente amplias y no se ajustaban a la especificidad de los grupos de edad estu-
diados. Finalmente, se optó por considerar cuatro grupos de edad ([12,24) meses, [24,36)
meses, [36-48) meses y [48-60) meses) y dentro de cada uno se clasificó como «mal
nutridos» a aquellos niños que se situaron en el primer tercil en cuanto a proteínas con-
sumidas. Dicho de otra forma, se determinó que el 33% de niños con el consumo de pro-
teínas inferior en cada grupo serían considerados como aquellos que no cumplían el
patrón de adecuación alimentaria. Observe la tabla 6.1. En ella se detallan el criterio de
clasificación de la adecuación alimentaria que se utilizará en la continuación del ejem-
plo (una vez haya leído el próximo capítulo estará en condiciones, sin dificultad, de
resolver cómo se obtuvieron estas cifras).
Tabla 6.1. Criterio de adecuación alimentaria en función de los gramos de proteínas consumidas,
según el grupo de edad.
Edad* Adecuación alimentaria correcta+

[12,24) ≥ 22,1
[24,36) ≥ 27,6
[36,48) ≥ 27,9
[48,60) ≥ 30,4
* Expresada en meses.
+ Total de proteínas (animales + vegetales).
Era lógico pensar que, a medida que aumenta la edad del niño, la cantidad diaria de
proteínas necesarias para ser catalogado en estado nutricional adecuado también se incre-
mentaría.
Ahora que conozco el criterio a aplicar para considerar a un niño bien o mal nutrido
sólo debo construir la variable que lo calcule para cada uno. Necesito el total de pro-
teínas... y en el fichero constan los animales y los vegetales por separado. ¿Hay
alguna forma de que el programa las sume directamente?
Para crear una variable existe una instrucción única, la cual, debido a su gran flexi-
bilidad, puede efectuar esa creación según unas operaciones específicas entre variables
ya existentes en el archivo o bien modificar una variable del fichero a través de opera-
ciones matemáticas definidas.
Sintaxis
La instrucción genérica es:
COMPUTE nombre variable = expresión.
En la que debe especificarse la expresión que regula la creación de la variable.
Expresión:
Puede indicar cualquier operación que involucre constantes o variables del fichero
mediante los operadores que se describen en la tabla 6.2. Además de estos operadores,
existen una serie de funciones predeterminadas disponibles para los usuarios. Algunas
de estas funciones, que la experiencia nos indica que son las más utilizadas, se descri-
ben a continuación.
Tabla 6.2. Operadores.
Operadores Descripción
Aritméticos
+ Suma
– Resta
* Producto
/ Cociente
** Exponente
Relacionales
EQ (Equal) = Igual
NE (Non equal) <>o~= Diferente
LT (Less than) < Menor que
LE (Less than or Equal to) <= Menor o igual que
GT (Greater than) > Mayor que
GE (Greater than or Equal to) >= Mayor o igual que
Lógicos
AND & Las dos condiciones son ciertas
OR ⏐ Alguna condición es cierta
NOT ~ Condición falsa o excluyente
Además de los operadores descritos en esta tabla, existe una gran diversidad de fun-
ciones programadas para realizar las transformaciones más usuales.
En principio existen, entre otras, funciones de naturaleza aritmética para la creación
o transformación de variables numéricas, funciones para la manipulación de variables
string o cadena, de variables fecha o de cálculo de propiedades estadísticas sencillas.
En la tabla 6.3 se muestran ejemplos de las funciones de uso más frecuente.
Uso profesional del SPSS
Tabla 6.3. Algunas funciones utilizadas habitualmente.
Función Resultado Descripción Ejemplos

ABS(expr_num) Numérico Determina el valor absoluto de expr_num, el cual ha de ser un valor numérico. V = – 3 ; ABS(V) = 3
EXP(expr_num) Numérico Valor de la exponencial de expr_num. Atención: si expr_num es muy grande, V = 1; EXP(V) = 2,7183
los resultados pueden exceder la capacidad máxima de la memoria.
LN(expr_num) Numérico Calcula el logaritmo en base e de la expresión numérica expr_num. V = 2,7183; LN(V) = 1
LG10(expr_num) Numérico Efectúa el logaritmo en base 10 de la expr_num. V = 10; LG10(V) = 1
SQRT(expr_num) Numérico Función que determina la raíz cuadrada positiva del número. V = 9; SQRT(V) = 3
TRUNC(expr_num) Numérico Devuelve la parte entera del valor de expr_num. V = 7,86; TRUNC(V) = 7
LAG(variable,ncasos) Numérico Devuelve el valor de la variable del caso que está situado ncasos antes en el V LAG(V) LAG(V,2)
o alfanumérico fichero. Atención: para los ncasos primeros del fichero, el resultado es missing 6 , ,
de sistema (si V es variable numérica) o espacios en blanco (si V es variable 8 6 ,
alfanumérica). Per defecto ncasos = 1. 3 8 6
5 3 8
CONCAT(expr_alf,expr_alf[,...]) Alfanumérico Genera una cadena, que es la concatenación de todos los argumentos V1 V2 CONCAT(V1,V2)
expr_alf indicados. a b ab
INDEX(cadena,’subcadena’) Numérico Crea un indicador entero según la posición del carácter inicial, la subcadena V1 INDEX(V1,’+’) V1 INDEX(V1,’+’)
buscada en la cadena analizada. Sólo muestra la primera aparición, es decir –+– 2 +–+ 1
si la subcadena está otras veces lo ignora. Retorna 0 si la subcadena no aparece + + – 1 +++ 1
en la cadena. ––– 0 –++ 2
LTRIM(expr_alf) Alfanumérico Suprime de la expr_alf los espacios en blanco en los caracteres de la izquierda. V1 LTRIM(V1)
Devuelve el resultado sin ellos. –+– –+–
RTRIM(expr_alf) Alfanumérico Suprime de la expr_alf los blancos al final de la cadena y devuelve el resultado
Materials
sin ellos.
103
104
Materials
Tabla 6.3. Algunas funciones utilizadas habitualmente (continuación).
SUBSTR(expr_alf,pos,long) Alfanumérico Crea una variable alfanumérica con los long caracteres que se encuentran V1 SUBSTR(V1,4,3)
a partir de la posición pos de la expr_alf . Abcdefgh def
CTIME.DAYS(valortiempo) Numérico Para cada una de les fechas incluídas valortiempo calcula los días V1 = 21-12-2000; V2 = 10-12-2000;
transcurridos desde el 15 d’octubre de 1582. Luego efectúa las operaciones CTIME.DAYS(V1-V2) = 11
indicadas y retorna el número de días resultantes. Útil para registrar los días
entre dos fechas.
DATE.DMY(día,mes,año) Fecha Retorna la fecha especificada día, mes y año, datos que deben existir en tres VD=18; VM=6; VA=1974;
variables diferenciadas. Así, coloca en una sola variable una fecha que estaba DATE.DMY(VD,VM,VA) = 18-6-1974
expresada en tres variables distintas. Para visualizar correctamente la nueva
variable, debe asignarle previamente un formato DATE.
DATE.YRDAY(año,num_día) Fecha Rehace la fecha correspondiente al año y número de día del año existentes VD=27; VA=2002;
en dos variables previamente definidas. También debe asignar previamente DATE.YRDAY(VA,VD) = 27-01-2002
a la nueva variable un formato de tipo DATE.
YRMODA(año,mes,día) Numérico Calcula el número de días desde el 15 de octubre de 1582 hasta la fecha VD = 16; VM = 10; VA = 1582;
representada por los argumentos año, mes y día. YRMODA(VA,VM,VD) = 2.
NMISS(variable[,...]) Numérico Recuenta cuantos missings de sistema y usuario existen entre las variables V1 V2 V3 NMISS(V1,V2,V3)
descritas en el argumento. 10 , 55 1
Albert Navarro; Miguel Martín
Comentarios 1. Si el nombre de variable asignado ya existe, los valores que poseía la variable serán
reemplazados por el resultado obtenido al aplicar la expresión.
2. Cada nueva variable o cada nueva modificación requiere una instrucción COMPUTE
distinta.
Volvamos a nuestro estudio. Observe que, como ya ha notado anteriormente, en los

archivos de datos no existe ninguna variable que responda directamente a la medida del
objetivo principal, es decir el estado de desnutrición de los niños de estas dos poblacio-
nes.
Esta variable, que indique si un niño debe considerarse o no bien nutrido, debe cons-
truirse a partir de unas pautas o criterios sobre la base de los cuales el analista podrá
definir la expresión relacional del COMPUTE.
Según los criterios indicados en la tabla 6.1, debemos conocer, en primer lugar, el
total de proteínas consumidas al día independientemente de su origen, por lo que el total
de proteínas es: proteínas animales + proteínas vegetales:
COMPUTE protot = protea+protev .

EXECUTE .
Puesto que hemos creado una nueva variable, debemos caracterizarla. Al ser una
variable cuantitativa, (por defecto), sin ningún valor a etiquetar ni missings de usuario,
sólo debemos especificar la etiqueta de variable:
VAR LAB protot ‘Total de proteínas consumidas el día anterior

a la encuesta’ .
Una vez calculadas las proteínas totales deberíamos realizar la clasificación basán-
donos en el grupo de edad, operación que será explicada más adelante.
No obstante, ésta no es la única variable que podríamos crear o necesitar más ade-
lante. Entre los factores o variables descritos en la literatura que pueden asociarse a este
tipo de problemas está la variable hacinamiento, es decir, número de personas por cada
cuarto destinado a dormir. Efectivamente, ésta es una variable utilizada habitualmente,
ya que permite conocer la concentración de personas en una casa, lo cual puede ser un
buen indicador socioeconómico de la misma. Vamos a crearla ya que no está recogida
directamente en los archivos.
COMPUTE hacinam = totape/ncudor .

EXECUTE .
FORMAT HACINAM (F4.1) .
VAR LAB hacinam ‘Nº de personas por habitación destinada a
dormir’ .
Ventanas Las ventanas que permiten la creación de nuevas variables o bien su modificación se
abren después de pulsar la secuencia Transformar ! Calcular... de la barra de herra-
mientas del Editor de datos.
Figura 6.1. Ventana de creación de una nueva variable.
Observe cómo debajo del recuadro en el que debe poner el nombre de la variable resul-
tante puede definir el formato y etiqueta de la variable.
Mediante la opción Si... puede señalar que la acción del COMPUTE se lleve a cabo
en un subgrupo específico de casos que cumplan la condición que se indique. En caso
de que la expresión afecte a todos los casos sin distinción, no debe especificar nada.
En el recuadro de la derecha puede visualizar todas las funciones disponibles y apre-
tando el botón derecho del ratón se abre un recuadro con un resumen de la acción aso-
ciada a la función señalada por el cursor.
Como puede entenderse con facilidad, esta opción sólo tiene sentido si la instrucción
implica la modificación de una variable ya definida y no en la creación de una variable
nueva. En este último caso, a todos los valores que no cumplen la condición les asigna-
ría el valor de missing de sistema.
Después de Aceptar la expresión, observará que en la hoja Vista de datos, del Edi-
tor de datos, se ha abierto una nueva columna, con una variable de nombre protot,
mientras que la correspondiente a Vista de variables le indica que esta nueva variable es
de tipo numérico, de 8 caracteres de anchura y dos decimales, es decir en formato F8.2.
Recodificación de valores
Una de las modificaciones de variables más frecuente es la recodificación de valores, sobre

la base de una lista de valores que pueden ser puntuales o por intervalo. Esta acción
podría efectuarse a partir de la expresión COMPUTE pero, dada la frecuencia con que
se lleva a cabo, existe una expresión genérica que facilita la acción.
Sintaxis La instrucción general es:
RECODE lista de variables (lista valores originales = valor

nuevo)...(lista valores originales = valor nuevo) [(CONVERT)]
[INTO lista de variables]
[/lista de variables...].
Transforma, pues, los valores especificados en la lista de valores de una o más varia-
bles, substituyéndolos por los que se especifican valor nuevo.
[INTO lista de variables]
Si la transformación de los valores que se especifican se realiza sobre la misma varia-

ble, la información original desaparece. Ésta es la situación que se produce por defecto
si al ejecutar la instrucción RECODE no se indica nada más. En cambio, si se crea una
nueva variable en la que guardar la nueva información recodificada, podremos siempre
acceder a la información original sin perderla. Esta segunda opción se efectúa mediante
el uso de la subinstrucción INTO. La variable descrita en esta opción será creada en ese
instante y a su vez será la destinataria de las transformaciones indicadas.
Como hemos visto antes, la adecuación de la dieta proteica debe analizarse en fun-
ción de la edad de los niños que se estudian, concretamente en función de su pertenen-
cia a uno de los grupos etáreos determinados. Es pues necesario disponer de la edad
categorizada en cuatro grupos. De todas formas, al ser la edad una variable muy impor-
tante, sería deseable, también, tenerla registrada como edad en meses. No existe, sin
embargo, ninguna variable que directamente nos informe de la edad del niño, pero es evi-
dente que mediante la fecha de nacimiento de éste y la fecha en que se realizó la entre-
vista, puede calcularse perfectamente la edad exacta que tenía el niño al ser examinado.
Observe cómo podemos hacerlo:
* Calculamos la edad del niño en meses *.

COMPUTE edadmes = trunc(ctime.days(f_entr-f_nacim) / 30.41) .
EXECUTE .
VAR LAB edadmes ‘Edad del niño (en meses)’ .
FOR edadmes (F2.0) .
Esta instrucción puede parecer muy compleja pero en realidad es muy sencilla. Pon-
gamos un ejemplo: imagine un niño que nació el día 1-7-1992 y se le examinó el día
2-7-1994.
Debe analizar primeramente qué sucede dentro del paréntesis:
1. La instrucción ctime.days (ver tabla 6.3.) calcula el total de días transcurridos entre
la fecha de entrevista y de nacimiento. Observe cómo, en el ejemplo, transcurrieron
731 días entre ambas fechas.
2. Entonces dividimos esta cifra por 30.41 (365/12) para pasar de días a meses. En
nuestro ejemplo: 731/30.41 = 24.04
3. Finalmente, mediante TRUNC (ver tabla 6.3.) redondeamos la cifra al número entero
por debajo, es decir 24.
4. Observe cómo realmente el niño del ejemplo, en el momento en que se cumplimentó
el cuestionario, tenía 24 meses.
* Creamos una nueva variable que agrupe a los niños en los cua-
tro *.
* grupos de edad deseados *.
RECODE edadmes
(12 thru 23=1) (24 thru 35=2) (36 thru 47=3) (48 thru 59=4)
INTO edad4 .
EXECUTE .
VAR LEV edad4 (ORDINAL) .

VAR LAB edad4 ‘Edad del niño en grupos’.
VAL LAB edad4 1 ‘[12-24)’ 2 ‘[24-36)’ 3 ‘[36-48)’ 4 ‘[48-60)’ .

FORMATS edad4 (f1) .
Ud. podrá haber advertido que hay una manera mucho más sencilla de construir la
variable edad en los cuatro grupos deseados:
COMPUTE edadmes = trunc(ctime.days(f_entr-f_nacim) / 365) .

EXECUTE .
Pero debido a que estamos tratando con individuos de edad muy temprana, se con-
sideró interesante tener también la edad expresada en meses para realizar, en el momento
de la descripción de los datos registrados, una descripción más detallada y ajustada.
Observe, también, las variables que hacen referencia al material en que está cons-
truido el suelo o las paredes del hogar. Ambas presentan bastantes categorías y muchas
de ellas con muy pocas observaciones. Eso dificultará, evidentemente, su descripción con-
junta con otra variable puesto que creará situaciones observacionales sin ningún caso.
Quizás piense en la posibilidad de agrupar categorías en función de determinadas carac-
terísticas. Pues bien, una de esas posibles agrupaciones sería considerar ambas varia-
bles con sólo dos categorías: 1 «tierra», 2 «con recubrimiento». Le proponemos que cree
dos nuevas variables que categoricen de esta forma. Los valores que corresponderían a
«tierra» serían el 1, el 4 y del 11 al 14. Los demás corresponderían a «con recubrimiento»:
RECODE
piso paredes (1=1) (4=1) (11 thru 14=1) (ELSE=2)
INTO piso2 paredes2 .
EXECUTE .
FOR piso2 paredes2 (F1.0) .
VAR LAB piso2 ‘Material del piso’
/ paredes2 ‘Material de las paredes’ .
VAL LAB piso2 paredes2 1 ‘tierra’ 2 ‘con recubrimiento’ .
[(CONVERT)]
Con frecuencia, al recodificar en otra variable, a través de la subinstrucción INTO, se

llevan a cabo modificaciones del tipo de formato respecto la variable original. Estas
modificaciones deben tenerse en cuenta ya que deben especificarse en función del tipo
de transformación que se efectúe. Pueden considerarse las siguientes situaciones:
1. Variable original alfanumérica y variable destino (INTO) numérica:

1.1. Si deseamos transformar los valores de una variable alfanumérica, los cuales
son un texto cualquiera, en valores numéricos sólo hay que indicar las corres-
pondencias deseadas, recordando que los valores alfanuméricos deben indi-
carse entre comillas.
1.2. Si los valores de la variable original son la representación alfanumérica de los
valores que tratar como numéricos (es decir, los valores originales son nom-
bres pero en formato alfanumérico), se ha de especificar CONVERT. Esta ins-
trucción indica que aquellos valores alfanuméricos que son números se trans-
formen en su representación numérica sin necesidad de escribir la
correspondencia, haciendo explícitos exclusivamente aquellos valores origi-
nales que no tengan una representación numérica definida. Por ejemplo, la
variable carne está en formato alfanumérico. La mayoría de sus valores son

números expresados como carácter, es decir son: «1», «2», «3», «4», «5», «6»,
«NS»y «NC». La transformación de carne en otra variable que tuviese natura-
leza numérica podría efectuarse mediante:
RECODE carne (CONVERT) (‘NS’=7) (‘NC’=8) INTO fr_carne .

EXECUTE .
VAR LEV fr_carne (NOMINAL) .
VAR LAB fr_carne ‘Frecuencia de ingesta de carne’ .
VAL LAB fr_carne 1 ‘1 vez mínimo / 3 días’ 2 ‘1 o 2 veces/
semana’ 3 ‘1 vez / 15 días’ 4 ‘1 vez / mes’ 5 ‘Menos de 1
vez/ mes’
6 ‘Casi nunca o nunca’ 7 ‘NS’ 8 ‘NC’ .
Observe cómo los valores del 1 al 6 no se especifican en la instrucción dado que

al utilizar CONVERT directamente se transforman en numéricos. Es decir, de
un formato tipo A, a un formato tipo F.
2. Variable original numérica y variable destino (INTO) alfanumérica:

En este caso hemos de crear la variable alfanumérica antes de la ejecución de la ins-
trucción RECODE mediante:
STRING nombre variable (An).
Si esta instrucción no se enuncia con anterioridad, al ejecutar RECODE-INTO, apa-

recerá un mensaje de error, ya que la creación de la nueva variable, implícita en esta
instrucción, genera por defecto en formato F o numérico.
(lista valores originales=valor nuevo)

En el momento de especificar los valores que se quieren agrupar o recodificar, se pue-
den utilizar funciones de relación lógica:
— LO[WEST]: Corresponde el rango definido desde el valor inferior al valor indicado.

A valor nuevo.
— THRU: El rango en este caso corresponde a un intervalo especificado por dos valo-
res concretos ligados por la expresión u operador THRU. Es decir, desde el primer
valor incluido hasta el segundo indicado después del operador.
— HI[GHEST]: Transforma desde un valor concreto hasta el máximo valor de la varia-
ble.
— MIS[SING]: Los valores originales son los valores que el usuario ha definido como
missings.
— SYS[MIS]: Los valores originales a transformar son los missings de sistema.
— ELSE: Transformar todos los valores de la variable original que no han sido espe-
cificados de forma explícita por la instrucción.
En cuanto a los nuevos valores, además de la correspondencia específica de un valor

nuevo puede asignarse:
— SYS[MIS]: Convierte la operación efectuada con los valores originales en missing

de sistema.
— COPY: Copiar los valores originales no definidos en operaciones o transformacio-
nes anteriores, (Esta opción sólo tiene sentido si se recodifica en una nueva varia-
ble, ya que si la recodificación se efectúa sobre la variable original los valores ori-
ginales no mencionados mantienen su valor intacto.)
Comentarios 1. Recodifique sobre la misma variable siempre que esté absolutamente seguro de que
ya no necesitará la información original. (De todas formas, es recomendable guar-
dar siempre las bases de datos originales para poder recuperar la información en
todo momento.)
2. Si bien crear una nova variable evita la posibilidad de perder información necesa-
ria, piense que cuanto mayor sea un fichero, sobre todo cuantas más variables con-
tenga, más molesto es trabajar con él y manipularlo.
Ventanas Para determinar si recodifica los valores originales en la misma variable o en una nueva,
debe realizar la elección en: Transformar ! Recodificar, acción que se muestra en la
siguiente figura:
Figura 6.2. Menú para elegir recodificar una variable en ella misma o en una nueva.
Si elige recodificar los valores creando una nueva variable, obtendrá las siguientes
ventanas:
Figura 6.3. Ventanas de recodificación de valores en una nueva variable.

En el primer recuadro debemos seleccionar la variable original que queremos reco-

dificar del listado de variables de la izquierda. Una vez seleccionada, tenemos que dar
nombre a la variable que se creará y, si nos interesa, etiquetarla. Esto lo podemos hacer
en la parte derecha del recuadro. Una vez puesto el nombre de la nueva variable pulse
Cambiar.
Mediante la opción Si... puede señalar un subgrupo específico de casos para los cua-
les se realizarán las transformaciones indicadas.
Para señalar las transformaciones de los valores originales por los nuevos, pulse en
Valores antiguos y nuevos... y accederá al segundo recuadro. En la parte izquierda
defina los valores originales y en la parte derecha sus correspondientes valores nuevos.
Fíjese que además, en este caso, hemos seleccionado Convertir cadenas numéricas en
números (CONVERT en sintaxis).
Reténgase unos segundos y averigüe lo siguiente: ¿Qué cambios observo en la ven-
tana del Editor de datos después de Aceptar? ¿Cómo se define la variable recodifi-
cada en la hoja de Vista de variables? ¿Puedo estar seguro de que las etiquetas se corres-
ponden con las que he indicado?
Si en vez de pulsar la opción Aceptar hubiese seleccionado Pegar, ¿se corresponde
la sintaxis generada en la ventana del Editor de sintaxis con la que Ud. hubiese escrito
directamente?
Transformación condicionada
Ejecuta la transformación de los valores de una variable siempre y cuando se cumpla la

condición lógica indicada previamente, es decir en la parte izquierda de la expresión
que tiene como sintaxis.
Sintaxis La transformación puede realizarse sobre una variable destino ya existente en el fichero
activo o crear una nueva. En la práctica es una instrucción COMPUTE condicionada.
IF [(]condición lógica[)] variable destino = expresión

[(]condición lógica[)]
Gracias a los operadores relacionales y lógicos que se mostraron en la tabla es posi-

ble construir más de una variable a partir de relaciones o condiciones lógicas combina-
das,
La función de asignación de la sintaxis de la instrucción IF es idéntica a la sintaxis
de COMPUTE. Por lo tanto la variable destino, mediante los operadores aritméticos,
puede ser función de más de una variable y constantes, así como también puede ser el
resultado del uso de funciones como las que se muestran en la tabla 6.3.
Comentarios 1. Como siempre, si la asignación realizada se efectúa sobre una nueva variable y ésta
ha de ser alfanumérica, previamente hay que crearla mediante la expresión STRING.
2. Pueden enlazarse diversas instrucciones IF para realizar transformaciones según
diversas condiciones. De esta manera podría efectuar un RECODE, ya explicado, o
bien los bucles de DO IF que se explican en el apartado de instrucciones siguiente.
Por ejemplo, la variable EDAD4 que hemos creado anteriormente mediante un

RECODE, también la hubiéramos podido construir a través de cuatro instrucciones IF:
IF (edadmes>=12 AND edadmes <24) edad4 = 1 .

EXECUTE .
Como hemos mencionado antes, un IF no es más que un COMPUTE que se ejecuta si

se cumple una condición lógica indicada previamente. Luego, la acción por ventanas se
Ventanas efectuará pulsando:
Transformar ! Calcular...!
! Si...
Tal y como se muestra en la figura 6.1.
Figura 6.4. Ventanas que se corresponden con la instrucción IF.

Bucle de transformaciones condicionadas

Ejecuta transformaciones en los valores de una variable distinguiendo, sin embargo, sub-
conjuntos de casos basados en el cumplimiento de una o más condiciones lógicas. Es decir,
no es más que el encadenamiento de una serie de instrucciones IF sobre una misma varia-
ble, en las que fundamentalmente varían las expresiones lógicas.
Sintaxis DO IF [(]condición lógica[)]

transformaciones
[ELSE IF [(]condición lógica[)]]
transformaciones
[ELSE IF] [(]condición lógica[)]
…
[ELSE]
transformaciones.
END IF.
La expresión de las condiciones lógicas que se indican sigue las mismas normas que
en el caso ya explicado del IF.
transformaciones
Por transformaciones se entiende cualquier instrucción del tipo COMPUTE, RECODE
o COUNT (ver siguiente instrucción) y pueden combinarse entre ellas en un mismo DO
IF – END IF.
[ELSE IF]:
Especifica una condición concreta que se evaluará sólo en el caso en que no se cumplan
las condiciones explícitas del DO IF o de los anteriores ELSE IF si éstos existiesen. El
programa ejecutará la transformación u operación que consta en la transformación corres-
pondiente, sólo en el caso en que sea cierta esta condición evaluada.
[ELSE]:
Indica que se realizará la transformación que se indica a continuación, si ninguna de las
condiciones lógicas especificadas anteriormente, en el DO IF o en los ELSE IF, se ha cum-
plido.
Sería equivalente a decir que, en cualquier otro caso no especificado en los condi-
cionantes anteriores, se ejecute la instrucción que se indica a continuación.
Si se especifica, es siempre la última condición de un bucle DO IF-END IF.
END IF.:
Es siempre una instrucción obligatoria para finalizar el bucle de transformaciones con-
dicionadas.
Comentarios Podemos considerar situaciones en las que el bucle DO IF-END IF no incluya situacio-
nes ELSE IF pero sí indique una subinstrucción ELSE. Por el contrario, si se especifi-
can una o más ELSE IF puede no constar la expresión ELSE final. Lo que no tiene sen-
tido es un DO IF-END IF sin ninguna de las dos posibilidades especificadas, ya que en
ese caso sería una instrucción IF simple. Por último, hay que insistir en que si están pre-
sentes las dos opciones, ELSE IF y ELSE, esta última forzosamente es la última de todas
las expresiones de condición.
Volviendo al estudio que nos permite ilustrar estas instrucciones, es el momento de

crear una variable que refleje la adecuación alimentaria, según las proteínas consumi-
das y la edad, siguiendo los criterios de la tabla 6.1.
A esta nueva variable indicadora del estado nutricional la llamaremos nut y la defi-
niremos de manera dicotómica, en función de cumplir los criterios o no definidos en
dicha tabla.
DO IF (edad4=1) .
RECODE protot (Lowest thru 22.09=0) (22.1 thru Highest=1) INTO
nut .
ELSE IF (edad4=2).
nut .
ELSE IF (edad4=3).
nut .
ELSE IF (edad4=4).
nut .
END IF .
EXECUTE .
FOR nut (f1) .

VAR LEV nut (NOMINAL) .
VAR LAB nut ‘Cumple el patrón de ingesta proteica?’ .
VAL LAB nut 0 ‘No’ 1 ‘Sí’ .
Observe cómo, en este caso, el último ELSE IF hubiera podido ser igualmente un
ELSE. Sin embargo es preciso ser cautos ya que no siempre es así. Si la variable o varia-
bles expresadas en la condición lógica presentan missings, con el uso de ELSE, estos casos
tomarían el último valor nuevo especificado en la instrucción. Por el contrario, con ELSE
IF seguirían siendo missing en la nueva variable.
Así mismo, si esta nueva variable se hubiese pensado en formato alfanumérico, se
habría definido, antes del bucle DO IF – END IF, la expresión STRING NUT (A2) y defi-
niendo en las expresiones lógicas =’No’ o =’Si’ en vez de los valores numéricos 0 o 1.
Ventanas Estrictamente no existe ninguna ventana que represente la instrucción DO IF – END IF.
De hecho, una instrucción de este tipo abarcaría operaciones con las ventanas del COM-
PUTE, RECODE y COUNT siempre especificando subgrupos de casos mediante Si...
Determinación de la frecuencia de aparición de un valor determinado en

un grupo de variables
A menudo se plantea el conocer o calcular el número de veces que aparece un conjunto

de valores en diferentes variables. Esta acción, que podría efectuarse mediante las ins-
trucciones indicadas anteriormente, puede llevarse a cabo con facilidad mediante la ins-
trucción COUNT.
Esta opción es de gran utilidad en el caso de encuestas o cuestionarios en los que un
gran número de variables posee el mismo tipo de respuesta. Así podría saberse con faci-
lidad a cuántas preguntas se contesta la respuesta SÍ o la respuesta NO o se han dejado
sin respuesta.
Esta instrucción genera una nueva variable numérica cuyos valores son, por lo tanto,
el resultado del recuento de las veces que aparece un valor o un conjunto de valores en
una lista de variables determinada.
Sintaxis COUNT nombre variable =lista de variables(lista de valores)

[/nombre variable =...].
Como ocurre en la mayoría de instrucciones de este capítulo, esta instrucción genera

una nueva variable, en formato numérico. En este caso, la variable es un recuento por
lo que no tiene sentido crearla con formato alfanumérico.
(lista de valores)
Debe indicarse de forma explícita el valor o grupo de valores que se observará si están
presentes o no en la lista de variables. Si hay más de un valor en la lista de valores, éstos
se separan mediante una coma o espacio en blanco. Pueden utilizarse como definitorios
de valores las expresiones MISSING, SYSMIS, LO(WEST), HI(GHEST) y THRU.
Pueden implicarse en el recuento tanto variables numéricas como alfanuméricas.
Imagínese que el investigador del estudio cree que las variables que hacen referen-
cia a las condiciones del hogar (sanit, luz, refr, tv, com_coc, piso2, paredes2) son todas
ellas indicadoras del poder socioeconómico de la familia. Además quiere considerarlas
conjuntamente, pues justifica que no es lo mismo una familia que presenta en cada una
de estas variables la peor característica que otra que sólo la presenta en alguna de ellas.
Opina, entonces, que sería interesante saber para cada familia cuántas características
«desfavorables» presenta a la vez. Luego parece lógica la creación de un índice que sería
un indicador que se aproximaría a la condición socioeconómica de la familia estudiada.
Una manera de hacerlo sería contar el número de características «desfavorables» que
cada casa presenta en las variables mencionadas:
COUNT
cse = sanit (2,3) luz (0) refr (0) tv (0) com_coc (1) piso2
(1) paredes2 (1) .
EXECUTE .
El resultado de esta instrucción será la creación de una nueva variable, cse, con un
rango de valores válidos entre 0 y 7, indicando el 7 que cumple en cada una de las varia-
bles las categorías consideradas como más desfavorables.
Ventanas La activación de las ventanas, figura 6.5, se obtiene pulsando la secuencia Transformar
! Contar apariciones...
Figura 6.5. Determinación del número de apariciones de un valor.
¡Atención! Si construye la variable cse mediante la utilización de las ventanas corres-

pondientes a la instrucción COUNT, observará la imposibilidad de definir valores dife-
rentes para cada variable. Es decir, no podemos definir que para sanit los valores a con-
tar son 2 y 3 mientras que para com_coc es el 1. Todos los valores especificados se usarán
para todas las variables. Este problema, como hemos visto, no existe si la instrucción es
creada mediante el uso de la sintaxis.
Comentarios 1. El resultado de un COUNT siempre es una variable que presenta valores en un rango
comprendido entre 0, es decir, en la lista de variables no aparece ninguna vez el con-
junto de valores definido en la lista de valores, y N, el número de variables que cons-
tan en la lista de variables. En este último caso, en todas las variables definidas en
la lista aparecería alguno de los valores especificados.
2. La especificación de determinados valores para unas variables y otros valores dife-
rentes para otras variables en la instrucción COUNT es imposible de realizar traba-
jando directamente en las ventanas. Dicho problema no existe si trabaja mediante la
sintaxis.
GET FILE=’C:\Spss\Chiapas\Nutricio.sav ‘.
* Creamos la variable hacinamiento * .

COMPUTE hacinam = totape/ncudor .
EXECUTE .
FORMAT HACINAM (F4.1) .
VAR LAB hacinam ‘Nº de personas por habitación destinada a
dormir’ .
* Convertimos la variable CARNE en otra que sea realmente

numérica *.
RECODE carne
(CONVERT) (‘NS’=7) (‘NC’=8) INTO fr_carne .
EXECUTE .
VAR LEV fr_carne (NOMINAL) .
VAR LAB fr_carne ‘Frecuencia de ingesta de carne’ .
VAL LAB fr_carne 1 ‘1 vez mínimo / 3 días’ 2 ‘1 o 2 veces /
semana’ 3 ‘1 vez / 15 días’ 4 ‘1 vez / mes’ 5 ‘Menos de
1 vez / mes’ 6 ‘Casi nunca o nunca’ 7 ‘NS’ 8 ‘NC’ .
MIS VAL fr_carne (7,8) .
* Transformamos la edad en una variable con cuatro categorías *.
COMPUTE edadmes = trunc(ctime.days(f_entr-f_nacim) / 30.41) .

EXECUTE .
RECODE
edadmes
(12 thru 23=1) (24 thru 35=2) (36 thru 47=3) (48 thru 59=4)
INTO edad4 .
EXECUTE .
VAR LEV edad4 (ORDINAL) .

VAR LAB edad4 ‘Edad del niño en grupos’.
VAL LAB edad4 1 ‘[12-24)’ 2 ‘[24-36)’ 3 ‘[36-48)’ 4 ‘[48-60)’ .
FORMATS edad4 (f1) .
* de otra forma podria ser como sigue *.

IF (edadmes>=12 AND edadmes <24) ed4 = 1 .
EXECUTE .
* Creación de la variable que determina el estado nutricional *.
COMPUTE protot = protea+protev .

EXECUTE .
VAR LAB protot ‘Total de proteínas consumidas el día anterior a

la encuesta’ .
DO IF (edad4=1) .
RECODE protot (Lowest thru 22.09=0) (22.1 thru Highest=1) INTO nut .
ELSE IF (edad4=2).
ELSE IF (edad4=3).
ELSE IF (edad4=4).
END IF .
EXECUTE .
FORMATS nut (f1) .

VAR LEV nut (NOMINAL) .
VAR LAB nut ‘Cumple el patrón de ingesta proteica?’ .
VAL LAB nut 0 ‘No’ 1 ‘Sí’ .
* Agrupamos categorías de las variables PISO y PAREDES *.
RECODE
piso paredes (1=1) (4=1) (11 thru 14=1) (ELSE=2)
INTO piso2 paredes2 .
EXECUTE .
FOR piso2 paredes2 (F1.0) .
VAR LAB piso2 ‘Material del piso’
/ paredes2 ‘Material de las paredes’ .
VAL LAB piso2 paredes2 1 ‘tierra’ 2 ‘con recubrimiento’ .
* Construcción del índice socioeconómico de la familia *.
COUNT
cse = sanit (2,3) luz (0) refr (0) tv (0) com_coc (1) piso2 (1)
paredes2 (1) .
EXECUTE .
FOR cse (F1.0) .
VAR LAB cse ‘Clasificación socioeconómica’
SAVE OUTFILE=‘C:\Spss\Chiapas\Nutricio.sav’ / COMPRESSED.

Capítulo 7. Control de calidad y descripción de los datos
Introducción
A lo largo de los capítulos anteriores, se ha mostrado la utilización de un conjunto de recur-

sos disponibles en SPSS con el fin de preparar la matriz de datos más adecuada al aná-
lisis que pretenda el investigador.
Todas las acciones descritas, importación de archivos, definición de las variables,
su modificación y creación, así como la manipulación de ficheros, son opciones que
están presentes en la mayoría de los paquetes estadísticos del mercado. Evidentemente
la sintaxis es diferente ya que cada uno de ellos está programado en un lenguaje dis-
tinto. Sin embargo, los conceptos básicos que rigen dichas acciones son prácticamente
los mismos.
En este capítulo suponemos ya que el lector maneja, con cierta soltura, tanto la eje-
cución de la sintaxis explícita en la ventana de Editor de sintaxis, como el trabajo por
selección de opciones en los menús desplegables. Así mismo, no creemos necesario
insistir aún más en la necesidad de ir guardando la sintaxis utilizada a medida que se
genera por uno u otro sistema.
Bajo estos supuestos, pretendemos pues introducir no tanto las instrucciones bási-
cas de análisis descriptivo sino un estilo de trabajar un archivo de datos una vez definida
completamente su estructura.
Es decir, una vez superado el proceso de definición, creación y modificación de
variables y después de haber manipulado todos los ficheros de datos disponibles (adi-
ción de los casos de NIN_JAL.DBF, al primer archivo, NIN_VILL.DAT, y unir a las
variables presentes en el archivo resultante con las provenientes de ANTROP.XLS,
CASA.DBF y JEFE.XLS) el lector podría pensar que es el momento de empezar a des-
cribir la información que tenemos almacenada en el archivo resultante, NUTRICIO.SAV.
Sin embargo, no es así, ya que previamente debemos estudiar si todos los datos dispo-
nibles son, al menos aparentemente, correctos. Debemos evaluar cuál es la calidad de la
información recogida en el estudio, mediante alguna técnica descriptiva que permita el
control de la misma.
Control de calidad de los datos registrados
La primera acción que el analista debe realizar, una vez definida por completo la matriz
o base, es el control de calidad de los datos disponibles. Olvidada a veces, esta fase debe
considerarse indispensable para asegurar la calidad de los resultados obtenidos, así como
para el ahorro máximo de tiempo de análisis. En este punto, las etapas del control de
calidad son:
1. Definición de missings:
En primer lugar, debemos observar que los valores de variables numéricas que apa-
recen con el carácter de la coma o el punto, en el Editor de datos, efectivamente son
missing de sistema y no ceros u otro valor (a veces, al introducir los datos, por como-
didad, se deja la variable en blanco en vez de poner un 0).
A continuación examinaremos si existen variables con una cantidad importante de
falta de información. Es obvio que la calidad de la información registrada depende
de la cantidad de missings observados. Aunque no existe un criterio definitivo, algu-
nos autores sitúan en un 5% el número máximo deseable de casos sin información.
También debemos controlar que todos los valores missing de usuario están defini-
dos y que la definición se ha efectuado de forma adecuada.
2. Detección de valores erróneos:

Debemos asegurarnos de que no hay valores erróneos en el archivo de datos. Bási-
camente se deben controlar cuatro situaciones:
2.1. Valores imposibles: Valores que no tienen sentido para la variable estudiada.
Por ejemplo, una edad del jefe de familia igual a 953 años, valores negativos
en el peso o talla del niño, etc.
2.2. Valores fuera de rango: Los valores fuera de rango son aquellos que, siendo
posibles en general, no lo son en nuestra investigación. Esto se debe a que en
la variable estudiada se ha definido un rango de valores válidos y, comple-
mentariamente, se definen valores no válidos.
Por ejemplo, en nuestra base debemos estar seguros de que no hay valores infe-
riores a 12 meses ni superiores a 59 en la edad de los niños (ya que el rango de
valores válidos está, por definición de objetivo del estudio, entre 12 y 59 meses).
2.3. Incumplimiento de ceros estructurales: Como ya se ha comentado anterior-
mente, los ceros estructurales son aquellas situaciones generadas por el cruce
de dos variables categóricas, en las cuales, forzosamente, hay casillas o situa-
ciones en las que no puede observarse ningún caso. Por ejemplo, si tenemos la
variable sexo y la variable uso de anticonceptivos orales, el cruce de ambas
genera situaciones (celdas de una tabla bidimensional) como «Hombre» / «Sí
toma anticonceptivos orales» en la que la frecuencia observada de casos debe
ser siempre cero. Pues bien, debemos examinar que, efectivamente, en situa-
ciones de este tipo no encontramos frecuencias mayores que cero.
2.4. Variables alfanuméricas: Las variables registradas en este formato merecen
ser examinadas con especial atención. Como ya se mencionó anteriormente a
la hora de la definición de variables y sus formatos, con frecuencia se abusa de
este tipo de variables para evitar aviso de error en la entrada de datos. Esta
supuesta ventaja para el digitador es fuente de múltiples errores no detectados
en la generación del archivo, por lo que el análisis de estas variables debe real-
zarse siempre de forma exhaustiva.
3. Posible recuperación de valores erróneos:

Si se detectan errores, otra fase del control de calidad consiste en intentar subsanar-
los. Para hacerlo debemos identificar claramente el error y el caso o registro en el
que se produce. Dicha información se facilita a los responsables de la digitación de
los datos y al investigador encargado del estudio. Comparando la hoja de recogida
manual de datos y la base informatizada, se puede contrastar:
3.1. Que los errores son debidos al tecleo, esto es, a introducir un número en vez de
otro en la entrada informatizada. O bien un carácter alfanumérico por otro. Si
esto sucede podemos sustituir el valor de la base de datos por el registrado en
la hoja de registro manual.
3.2. Que el error ya existiese en la información anotada en la hoja de recogida

manual de datos.
En este caso y en el supuesto de que exista una cantidad destacable de estos
errores, nos encontraríamos frente a una disyuntiva. En la situación en la que
considerásemos que es necesario el conocimiento de esos datos, debería reali-
zarse la medición de nuevo de los mismos, si ello es viable. Tenga en cuenta,
sin embargo, que, dentro de los condicionantes de viabilidad, este proceso de
recaptación de datos es el incremento, de forma directa o indirecta, en los gas-
tos del estudio, con frecuencia muy elevado.
En una segunda situación, en la que se considerase que subsanar el error no es
relevante, o no es viable, simplemente se convierte el valor erróneo en valor mis-
sing de sistema.
En todo caso merece la pena mencionar que en esta fase debe producirse la
interacción entre analista e investigador. El primero no puede modificar valo-
res que son, o cree, erróneos sin consultarlo con el segundo. Para el segundo,
este proceso debe enseñarle la importancia del diseño previo de una hoja de
recogida de la información, así como el de una base de datos con las condi-
ciones necesarias para reducir, al mínimo, la posibilidad de errores. En defini-
tiva, lo lógico es que la colaboración entre analista e investigador no se inicie
en este punto, sino en el momento en que se diseña el estudio.
4. Contacto inicial con los datos:

El control de calidad también debe servir para que el analista empiece a conocer los
datos con los que trabajará. Es en esta fase en que se inicia la exploración más gene-
ral de los datos, sin entrar con excesivo detalle en la descripción de los mismos.
Podrá apreciar cómo el nivel de explicación de las instrucciones usadas para el con-
trol de calidad, aunque suficiente, es mínimo. Esto se debe a que las mismas instruc-
ciones serán explicadas más detalladamente en los distintos apartados de la descripción
de variables.
Sintaxis Una vez abierto el archivo de interés, para localizar los valores imposibles existen, a
escala práctica, dos procedimientos. La elección de cuál utilizar depende de que la varia-
ble sea de naturaleza continua o categórica, tanto nominal como continua discreta.
Si es continua, utilice DESCRIPTIVES:
DESCRIPTIVES protea protev protot tall_cms peso_kg

/STATISTICS=MIN MAX .
En este caso, la instrucción describe las cinco variables continuas presentes en el

archivo y la información que nos aporta es el valor máximo y mínimo de cada variable.
Si activa el menú de la ventana: Analizar ! Estadísticos descriptivos ! Descripti-
vos..., observará que esta instrucción permite efectuar la descriptiva completa de una
variable continua.
En el caso de variables categóricas o cuantitativas discretas con pocos valores la ins-
trucción adecuada es la que se relaciona con el análisis de frecuencias de las categorías:
FREQ sexo edadmes ed_madre mescola mocupa municipi totape

tip_loc ncudor sanit luz refr tv paredes piso com_coc seg-
soc sex_jefe ed_jefe jescola jocupa fr_carne edad4 nut piso2
paredes2 cse .
También en este caso, mediante el menú que se activa a través de Analizar ! Esta-
dísticos descriptivos ! Frecuencias, el lector podrá percibir la gran variedad de esta-
dísticos muestrales para variables cuantitativas discretas, así como los gráficos disponibles.
Otra cuestión a tener en cuenta cuando se trabaja con variables de tipo fecha es que
si hay dos o más que determinan períodos entre ellas que éste se cumpla. Por ejemplo,
en nuestro caso, la fecha de nacimiento siempre tiene que ser, obviamente, anterior a la
fecha de la entrevista. Para examinar dicha cuestión podemos utilizar la siguiente ins-
trucción:
COMPUTE dif = ctime.days(f_entr-f_nacim) .

EXECUTE .
FREQ dif .
Ahora, mediante el FREQ, deberíamos asegurarnos de que no hay ningún caso con
valor negativo o cero, ya que si así fuera significaría que una de las dos fechas (o ambas)
sería incorrecta. Observe, sin embargo, que en nuestro estudio dichas fechas nos sirvie-
ron para crear la variable edad y, por tanto, al describir ésta ya no haría falta crear esta
variable DIF. Sin embargo, pensamos que es importante recalcar esta posibilidad puesto
que, en muchos otros estudios, puede encontrarse con casos como el descrito: imagine,
por ejemplo, que se analiza el tiempo transcurrido entre la fecha de determinada lesión
y el éxitus, o el tiempo que pasa desde que se hospitaliza a un paciente hasta que se le
da el alta.
Resultados En el listado de los resultados obtenidos, es decir en la ventana Visor SPSS o bien en
la ventana Visor borrador SPSS (dependiendo de en cuál de ellas esté trabajando),
observamos los siguientes errores:
1. En la variable sexo se registran nueve categorías distintas, tabla 7.1, aunque teóri-
camente sólo debería poseer dos. Fíjese como el blanco es considerado como una cate-
goría válida, tres de las categorías son debidas claramente a errores de tecleo y las
otras a la distinta consideración que un carácter alfabético posee en función de estar
escrito en mayúsculas o minúsculas.
Tabla 7.1. Descripción de la variable sexo
SEXO
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos 1 ,2 ,2 ,2
FEMENINO 2 ,4 ,4 ,6
Femenino 12 2,5 2,5 3,2
FEMENINO 218 46,2 46,2 49,4
FEMENINP 1 ,2 ,2 49,6
FEMENU9 1 ,2 ,2 49,8
MASCLINO 1 ,2 ,2 50,0
Masculino 7 1,5 1,5 51,5
MASCULINO 229 48,5 48,5 100,0
Total 472 100,0 100,0
En general, estas situaciones se producen porque el responsable de la digitación de

los datos, con el fin de ganar tiempo, define la variable como alfanumérica o cadena.
De esta manera cualquier valor es posible. Dicho en otras palabras, escriba lo que
escriba en el campo correspondiente a la variable SEXO, será aceptado por el pro-
grama. Este comentario no va en detrimento del uso de variables cadena o string, pero
sí muestra la necesidad de poner filtros y controles en la entrada de datos, sobre todo
con este tipo de variables.
2. En la variable edad de la madre hay un valor igual a 95, que, teniendo en cuenta que
el estudio es del estado nutricional de niños, es imposible. Además, debemos notar
el alto porcentaje de missings en la variable edad de la madre: 9,7% de los valores
son desconocidos.
3. Existe un caso cuyo valor en la ocupación de la madre es 4, lo cual es imposible ya
que es un valor que no se corresponde con ninguna de las categorías previstas en la
codificación original.
4. Observe la información referente a la edad del cabeza de familia. ¡El más viejo tiene
510 años!
Al identificar un error, piense que en ningún caso se debe interpretar o adivinar su

verdadero valor para corregirlo. Lo que debe hacer es remitir el caso al investigador
principal o responsable de la información del estudio. Éste comprobará en las hojas de
recogida de datos originales el valor verdadero y si el error ha sido sólo de digitación se
lo comunicará para poderlo corregir. En caso contrario, tendrá que declarar como valor
desconocido o missing el valor erróneo localizado.
No nos cansaremos en decir que, también en estos casos, los errores no se habrían
producido si se hubiesen definido filtros en el programa de adquisición de datos.
Como ya hemos indicado anteriormente, llegados a este punto debemos recuperar el
número de cuestionario de los casos con errores o carencia de información para trasla-
darlos a los responsables de la recogida de datos. De esta forma veremos si se puede
recuperar la información errónea o perdida. Lo efectuamos siguiendo las siguientes ins-
trucciones:
COMPUTE filtro=(sexo=’ ‘) .
FILTER BY filtro .
EXECUTE .
FREQ ncuest .
Tabla 7.2 Identificación del caso en el que el valor de sexo está en blanco.
Nº identificativo de la casa
Válidos 426 1 100,0 100,0 100,0
COMPUTE filtro=(ed_madre=95) .
FILTER BY filtro .
EXECUTE .
FREQ ncuest.
Tabla 7.3. Identificación del caso en el que el valor de edad de la madre está fuera de rango.
Válidos 397 1 100,0 100,0 100,0
COMPUTE filtro=(mocupa=4).
FILTER BY filtro .
EXECUTE .
FREQ ncuest .
Tabla 7.4. Identificación del caso en el que el valor de ocupación de la madre es erróneo.
Válidos 397
305 1 100,0 100,0 100,0
COMPUTE filtro=(ed_jefe=510).
FILTER BY filtro .
FREQ ncuest .
Tabla 7.5. Identificación del caso en el que el valor de la edad del jefe de familia es erróneo
Válidos 397
305
382 1 100,0 100,0 100,0
En las tablas se muestra el resultado de cada acción, correspondientes a los resulta-

dos que generan con cada una de las operaciones indicadas. Así, los errores se han loca-
lizado en los cuestionarios con número 305 (valor 4 para la ocupación de la madre), 382
(edad del jefe de familia, 510 años), 397 (edad de la madre igual a 95) y 426 (sexo en
blanco).
Después de consultar con los responsables de la recogida de datos y el investigador
del estudio, el único error que se pudo recuperar fue el del caso 426, en que el sexo
estaba en blanco. Se nos informó que ese niño, realmente, era un individuo de sexo mas-
culino.
La corrección de los errores detectados se lleva a cabo mediante las siguientes ins-
trucciones:
RECODE
ed_madre (95=SYSMIS) .
EXECUTE .
RECODE
mocupa (4=SYSMIS) .
EXECUTE .
RECODE
ed_jefe (510=SYSMIS) .
EXECUTE .
COMPUTE sexo=LTRIM(UPCAS(sexo)) .
EXECUTE .
RECODE
sexo (‘ ’=‘MASCULINO’) (‘FEMENU9’=‘FEMENINO’)
(‘FEMENINP’=‘FEMENINO’) (‘MASCLINO’=‘MASCULINO’) .
EXECUTE .
Quizás la instrucción para que la variable sexo presente exclusivamente dos cate-
gorías necesite una ligera explicación: observe cómo se utilizan dos instrucciones (un
COMPUTE y un RECODE). Mediante la primera obtenemos una variable en que cada
uno de sus valores se alinean a la izquierda (LTRIM) y cuyos valores están expresados
todos en mayúsculas (UPCAS). Mediante el RECODE arreglamos los errores de digi-
tación y el valor en blanco que sabemos que realmente es ‘MASCULINO’. Observe
como, por ejemplo, no se especifica ‘Masculino’ puesto que ese valor se transformó a
todo mayúsculas al usar UPCAS.
Finalmente transformamos la variable sexo a formato numérico, dando un valor de
etiqueta a cada uno de los dos valores resultantes.
RECODE sexo
(‘MASCULINO’=1) (‘FEMENINO’=2) INTO sex .
EXECUTE.
VAR LEV sex (NOMINAL).
VAL LAB sex 1 ‘Masculino’ 2 ‘Femenino’ .
La ejecución de la siguiente instrucción nos muestra la distribución de frecuencias

de las variables donde se localizaron los errores, de manera que observemos las correc-
ciones efectuadas:
FREQ sex ed_madre mocupa ed_jefe .
Evidentemente estos pasos de control efectuados, si bien permiten la detección de

algunos errores e incongruencias, no pueden detectar otros tipos de errores en los que
los valores erróneos se encuentren dentro del rango definido o previsto. Es decir, este pro-
ceso sería el último paso de control de calidad, siendo los más importantes los que se deben
efectuar en las fases previas: medición, codificación de los datos y su digitación.
Finalmente ya tenemos el archivo de datos preparado para poder realizar la des-
cripción del mismo. Luego salvemos el fichero en el directorio de trabajo. A este nuevo
archivo le llamaremos NUT_FIN.SAV:
SAVE OUTFILE=’C:\Spss\Chiapas\Nut_fin.sav ‘ /COMPRESSED

/DROP= f_entr f_nacim totape ncudor carne sexo .
Observe cómo en el fichero NUT_FIN.SAV no mantenemos todas las variables. Esto

es debido a que algunas de ellas han sido recodificadas o usadas para crear otras varia-
bles nuevas y, concretamente estas, ya no nos interesan para realizar la descripción.
Descripción de variables
¿Cómo se describe La descripción estadística tiene como función principal explicar los datos observados
una variable? sin tener que especificarlos uno a uno individualmente. Se trata, pues, de obtener valo-
res que representen un resumen adecuado de todos los que se han observado en la varia-
ble estudiada. A cada uno de estos valores se les llama, de forma genérica, estadístico.
Posiblemente, sin ser conscientes de ello, todos nosotros en algún momento hemos
utilizado algún estadístico para resolver cuestiones cotidianas. Por ejemplo, el producto
interior bruto de un país, la tasa de alfabetización de una población, la esperanza de vida
al nacer o la renta per cápita de los ciudadanos de una comunidad.
De forma general podemos decir que la manera de describir una variable está rela-
cionada con su naturaleza. Es decir, para cada tipo de variable existen estadísticos que
permiten describirlas mejor que otros y, por el contrario, estadísticos que para la varia-
ble estudiada no tienen sentido.
Así, si la variable estudiada es categórica la describiremos mediante su distribución
de frecuencias y, en algunas ocasiones, podremos facilitar algún estadístico para deta-
llarla mejor. Por el contrario, si la variable que estudiamos es cuantitativa, la mera des-
cripción de su distribución de frecuencias aporta generalmente poca información e
incluso, a veces, puede ser un factor de confusión si está mal realizada. Siempre es pre-
ferible detallar uno o varios valores resumen que nos permitan describir las propiedades
de la distribución observada de dicha variable.
De todas formas cabe destacar que la descripción de una variable finalmente debe
realizarse en función de los intereses de la investigación, y aunque lo expuesto un poco
más arriba es lo más habitual, pueden existir otros intereses concretos que determinen
una descripción distinta. A modo de ejemplo, planteemos dos casos distintos:
a) En nuestro estudio se plantea la hipótesis de que la edad de la madre tiene cierto

efecto en la aparición de la desnutrición del hijo. Pues bien, en el momento de exa-
minar si existe una asociación entre la edad y la incidencia de dicha enfermedad, la
comparación de la media de edad de las madres cuyos niños están sanos con la media
de edad de las madres de niños desnutridos nos puede orientar acerca de la posible
asociación.
b) En el caso en que se quisiese analizar la asociación entre la desnutrición y la
ocupación del jefe de familia, no tendría sentido analizar la media de la variable ocu-
pación, aunque si se ejecutase la acción se llevaría a efecto, por estar la variable
codificada de forma numérica. ¿Qué significaría que la media de la ocupación del
cabeza de familia es, por ejemplo, 1,3? Nada. Lo lógico sería comparar la distribu-
ción de las diferentes categorías de ocupación para los niños desnutridos frente a la
que se observa en los niños bien nutridos.
Así pues debemos considerar la naturaleza de la variable y cómo está expresada en

el archivo para poder planificar correctamente su descripción.
En una primera fase podemos describir las variables categóricas, incluyendo en este
apartado tanto las de naturaleza cualitativa o nominal como las cuantitativas discretas o
resultado de un conteo.
En segundo lugar describiremos las variables de tipo cuantitativo continuas.
Descripción de variables categóricas o cuantitativas discretas:

la distribución de frecuencias
Introducción Las variables categóricas o las discretas con pocos valores observados se describen, fun-
damentalmente, mediante su distribución de frecuencias. Esto es, se facilitan las fre-
cuencias observadas, relativas (o porcentajes) y acumuladas (o porcentaje acumulado)
para cada uno de los valores que toma la variable. Por ejemplo, la siguiente tabla:
Tabla 7.6. Distribución de frecuencias de una variable nominal.
Material del piso
Válidos Ladrillo Nº identificativo
7 de1,5
la casa 1,5 1,5
Tierra 187 39,6 Porcentaje39,6 Porcentaje
41,1
Cemento Frecuencia
274 Porcentaje58,1 válido 58,1 acumulado99,2
Válidos Mosaico
397
305 12 100,0 ,4 100,0 ,4 100,0
99,6
Fraguado 1 ,2 ,2 99,8
Piedra 1 ,2 ,2 100,0
Total 472 100,0 100,0
proporciona información acerca del material con que está construido el piso o suelo del
hogar del niño. En la primera columna, busque el valor «Tierra». La interpretación es la
siguiente:
— La segunda columna (Frecuencia) nos informa que en 187 casas el suelo es de tie-
rra.
— En la tercera (Porcentaje), que estas 187 casas representan un 39,6% sobre el total
de las casas registradas en el archivo de datos (187/472).
— La cuarta (Porcentaje válido), presenta el porcentaje en referencia, exclusivamente,
a los registros con valores válidos (sin missings). Ya que en este caso no hay ningún
missing, el porcentaje de la tercera y cuarta columna son idénticos.
— La quinta columna (Porcentaje acumulado) indica que las casas con suelo de tierra
más las casas de los valores anteriormente observados (en este caso, suelos de ladri-
llo) suponen un 41,1% del total (1,5% + 39,6%).
¿Cree que la información obtenida mediante la columna Porcentaje acumulado le

es de algún interés si las categorías no indican un orden de magnitud?
Observe ahora los resultados de la siguiente tabla:

Tabla 7.7. Distribución de frecuencias de una variable ordinal
Frecuencia de ingesta de carne
Válidos 1 vez mínimo / 3 días 68 14,4 14,5 14,5
1 ó 2 veces / semana 207 43,9 44,0 58,5
1 vez / 15 días 96 20,3 20,4 78,9
1 vez / mes 70 14,8 14,9 93,8
Menos de 1 vez / mes 25 5,3 5,3 99,1
Casi nunca o nunca 4 ,8 ,9 100,0
Total 470 99,6 100,0
Perdidos NS 1 ,2
NC 1 ,2
Total 2 ,4
Total 472 100,0
Estudiemos, por ejemplo, el valor «1 vez / 15 días». Un total de 96 niños toman

carne una vez cada quince días, lo cual representa, sobre el total de niños registrados, un
20,3% (columna 3). En cambio, si nos referimos sólo a los niños de los cuales se tiene
información para esta variable, este porcentaje representa un 20,4% (columna 4). Observe
cómo la diferencia entre los porcentajes de las columnas 3 y 4 es muy pequeño debido
a que sólo hay dos casos missing. Dichos porcentajes pueden llegar a ser muy distintos
si el número de valores no válidos es muy elevado. Aunque la tercera columna aporta
información, habitualmente la distribución de frecuencias se realiza sobre los valores
válidos, y por eso se utiliza la cuarta columna.
Finalmente, la quinta columna nos informa que un 78,9% del total de los niños, con
valor válido para esta variable, come carne «1 vez / 15 días» o «1 ó 2 veces / semana»
o «1 vez mínimo / 3 días». Dicho de otra forma, un 78,9% de los niños come carne como
mínimo una vez cada quince días.
¿Y ahora, la quinta columna, Porcentaje acumulado, nos aporta información de in-

terés?
Es evidente que en el ejemplo del material del piso el porcentaje acumulado no nos
es útil mientras que en el caso de la ingesta de carne sí lo es. Ambas son variables cate-
góricas, entonces ¿qué diferencia existe entre las dos descripciones?
Pues que la primera es una variable categórica nominal y, por tanto, carece de un
orden lógico para sus categorías. Luego la acumulación de porcentajes es arbitraria y, en
consecuencia, el porcentaje acumulado variará según cómo realicemos la ordenación.
En el caso de una variable categórica ordinal, como la ingesta de carne, el porcen-
taje acumulado tiene interés puesto que permite conocer valores tan importantes como
los percentiles. Por ejemplo, podemos determinar que la mediana de esta variable se
sitúa en la categoría «1 o 2 veces / semana» puesto que es el valor que supera el 50%.
Observe que al existir un orden lógico, un valor concreto forzosamente debe prece-
der otro valor concreto (por ejemplo «1 vez / 15 días» siempre precederá «1 vez / mes»)
o, si la ordenación se efectúa en orden inverso, proseguirle (entonces «1 vez / mes» pre-
cederá a «1 vez / 15 días») y, por lo tanto, nunca podemos colocar entre ambos valores
otro diferente (por ejemplo, entre los dos valores mencionados no se puede intercalar «Casi
nunca o nunca» puesto que se rompería la ordenación). La existencia de una ordenación
lógica de magnitud implica que los percentiles siempre tengan sentido, ya que este esta-
dístico, el percentil, se define como aquel valor de la variable por debajo del cual existe
un porcentaje de casos determinado.
Es decir, aunque ordene la variable frecuencia de ingesta de carne de forma des-

cendente, al contrario del ejemplo mostrado, observará como la mediana sigue siendo
la misma categoría, esto es, «1 ó 2 veces / semana» y que los percentiles o valores que
aparecen en la cuarta columna siguen teniendo sentido.
Sintaxis En una variable de naturaleza categórica, independientemente que se represente de forma

gráfica o no, es preciso describir la distribución de frecuencia de aparición de cada una
de sus categorías.
Esta acción se lleva a cabo mediante la instrucción FREQUENCIES.
Realiza la distribución de frecuencias para las variables especificadas y proporciona

algunos estadísticos. Esta instrucción es especialmente útil, no sólo para describir varia-
bles categóricas sino también para la descripción de variables cuantitativas discretas con
pocos valores posibles.
FRE[QUENCIES] [VARIABLES=]lista de variables

[/FORMAT= [{visualización tabla}] [{orden}] ]
[/BARCHART=[MIN[IMUM](n)] [MAX[IMUM](n)] [{valor
representado}]]
[PIECHART=[MIN[IMUM](n)] [MAX[IMUM](n)] [{valor representado}]]
[/HISTOGRAM=[MIN[IMUM](n)] [MAX[IMUM](n)] [{valor
representado}]]
[/NTILES=n]
[/PERCENTILES=lista]
[/STATISTICS=[estadísticos]]
Las subinstrucciones cuyo significado no ha aparecido hasta el momento son:
/FORMAT: Permite especificar cómo se visualizará la distribución de frecuencias en el

fichero de resultados. Concretamente se pueden controlar los siguientes aspectos:
[{visualización tabla}]
— Si no se especifica nada aparecerán todos los valores con su correspondiente distri-
bución de frecuencias.
— NOTABLE: No aparecerá la tabla de distribución de frecuencias en el fichero de
resultados, solamente los estadísticos que se hayan solicitado.
— LIMIT(n): Señala que las distribuciones de frecuencias con más de n categorías no
se visualicen y solamente se muestren los estadísticos que se hayan indicado de
forma explícita. En general esta opción se utiliza cuando la variable es cuantitativa
discreta y tiene un recorrido de valores muy amplio, por lo que la tabla de frecuen-
cias podría ocupar gran número de páginas y no ser prácticamente interpretable.
[{orden}] ]
— AVALUE**: Visualiza la tabla de distribución de frecuencias en función del valor
de la variable y de manera ascendente si ésta es discreta, o en orden alfabético cre-
ciente si es una variable definida en formato string.
— DVALUE: En función del valor de la variable de manera descendente.
— AFREQ: En función de la frecuencia observada desde el valor o categoría más fre-
cuente al menos frecuente.
— DFREQ: En función de la frecuencia observada de menor a mayor.
[/BARCHART= Produce un gráfico de barras en un esquema más simple que el descrito

en la instrucción GRAPH. No obstante es muy útil en la descripción previa y en borra-
dor de frecuencias.
— [MIN[IMUM](n)]: Mediante la especificación de n, indica el menor valor visua-
lizado en el eje X.
— [MAX[IMUM](n)]: Indica el mayor valor representado en el eje X.
{valor representado}:
— FREQ**: Cada barra representa la frecuencia observada en un valor concreto de la
variable estudiada.
— PERCENT: Cada barra representa el porcentaje observado.
[/PIECHART= Genera un gráfico de sectores en el que las especificaciones poseen el

mismo significado que en el caso de la especificación anterior /BARCHART.
[/HISTOGRAM= Genera un diagrama de frecuencias. Si después de HISTOGRAM aña-

dimos NORMAL se dibujará, sobreimpresionada, una campana de Gauss con media y
desviación estándar igual a la que posee la muestra de valores de esta variable cuantita-
tiva discreta. El significado de MIN[IMUM](n), MAX[IMUM](n) y {valor represen-
tado} es el mismo que en las subinstrucciones anteriores.
[/PERCENTILES=lista] Indique los percentiles deseados (del 0 al 100) y se mostra-

rán los valores correspondientes.
[/NTILES=n]: Indique un número n (de 1 a 100) y obtendrá los valores que dividen
la distribución de frecuencias en n intervalos de igual porcentaje.
[/STATISTICS=[estadísticos]]: Los estadísticos que pueden calcularse son

MEAN, STDDEV, MINIMUM, MAXIMUM, SEMEAN, VARIANCE, SKEWNESS,
SESKEW, RANGE, MODE, KURTOSIS, SEKURT, MEDIAN, SUM. Para saber qué
es cada uno, observe la tabla 7.8.
DEFAULT: Especificando esta opción el resultado ofrece los estadísticos MEAN,
STDDEV, MIN y MAX.
Tabla 7.8. Estadísticos y su descripción.
Estadístico Descripción
COUNT Frecuencia observada
FIRST Primer valor observado (por tanto, depende de la ordenación)
GEOMETRIC Media geométrica
GMEDIAN Mediana calculada mediante el método de agrupar los valores observados en intervalos
HARMONIC Media harmónica
KURT Curtosis
LAST Último valor observado (por tanto, depende de la ordenación)
MAX Valor máximo observado
MAXIMUM Valor máximo observado
MEAN Media
MEDIAN Mediana
MIN Valor mínimo observado
MINIMUM Valor mínimo observado
MODE Moda
NPCT Porcentaje sobre el total de casos
NPCT(var) Igual que la anterior pero dentro de una variable de control, si ésta existe.
RANGE Rango (Valor máximo observado – Valor mínimo observado)
SEKURT Error estándar de la curtosis
SEMEAN Error estándar de la media
SESKEW Error estándar del sesgo
SKEW Sesgo
SPCT Porcentaje sobre la suma de los valores observados
SPCT(var) Igual que la anterior pero dentro de una variable de control, si ésta existe.
STDDEV Desviación estándar
SUM Suma de los valores observados
VARIANCE Varianza
Puede especificarse como opción ALL, con lo que se obtendrían todos los enume-
rados anteriormente, o bien NONE en cuyo caso no se calcularía ninguno.
Comentarios El uso de FREQUENCIES para examinar una variable cuantitativa continua sólo tiene
sentido si se pretende realizar un histograma sencillo o el cálculo de algún estadístico.
Piense que la distribución de frecuencias, además de carecer de sentido, sería suma-
mente larga. Luego si decide usar la instrucción para una variable continua, ejecútela
con la opción NOTABLE. Además existe la posibilidad de analizar la variable agru-
pándola por intervalos a partir de la opción /GROUPED.
/GROUPED=(lista de variables) Especifica que las variables que se indican en

la lista son cuantitativas pero que se han agrupado en intervalos, mediante una instruc-
ción RECODE previa. Con esta información el cálculo de PERCENTILES y NTILES
se realiza según fórmulas para datos agrupados, es decir introduciendo las correcciones
que disminuyen el efecto de la agrupación en la determinación de dichos estadísticos.
Esta instrucción permite así mismo efectuar la agrupación en este mismo momento
del análisis. Remitimos al lector al manual de ayuda ya que, en la práctica, es más sen-
cillo recodificar previamente y efectuar la descripción posteriormente.
Volviendo a nuestro ejemplo, realizaremos la descriptiva univariada de las variables
categóricas y de algunas cuantitativas mediante las siguientes instrucciones que se indi-
can a continuación.
En el caso de variables categóricas:
FREQ sex mocupa municipi sex_jefe jocupa tip_loc sanit luz refr
tv paredes piso com_coc fr_carne edad4 nut piso2 paredes2 .
Un ejemplo de uso de esta instrucción en variables cuantitativas discretas sería:
FREQ ed_madre mescola ed_jefe jescola edadmes cse

/STATISTICS=MEAN MEDIAN SKEWNESS SESKEW KURTOSIS SEKURT .
En el caso de esta instrucción, la utilización de los menús desplegables por venta-

nas es muy simple y fácil de llevar a cabo.
El menú desplegable se obtiene al efectuar la acción Analizar ! Estadísticos descrip-

tivos ! Frecuencias, tal y como se muestra en las ventanas descritas en la figura 7.1.
Ventanas
Figura 7.1. Ventanas del proceso FREQUENCIES.
Comentarios 1. FREQUENCIES permite describir variables de formato numérico y alfanumérico.

2. En una misma instrucción FREQUENCIES pueden especificarse hasta un máximo
de 500 variables.
Resultados Para cada una de las cinco variable escogidas en las ventanas anteriores, en el fichero
de resultados aparecerán dos recuadros. Veamos su interpretación tomando, como ejem-
plo, la edad de la madre.
Tabla 7.9. Ejemplo de resultado de la instrucción FREQUENCIES.
Estadísticos
Edad de la madre (en años)

N Válidos 425
Perdidos 47
Media 28,88
Mediana 28,00
Asimetría ,654
Error típ. de asimetría ,118
Curtosis -,134
Error típ. de curtosis ,236
Edad de la madre (en años)
Válidos 17 1 ,2 ,2 ,2
18 7 1,5 1,6 1,9
19 11 2,3 2,6 4,5
20 15 3,2 3,5 8,0
21 17 3,6 4,0 12,0
22 23 4,9 5,4 17,4
23 21 4,4 4,9 22,4
24 31 6,6 7,3 29,6
25 27 5,7 6,4 36,0
26 26 5,5 6,1 42,1
27 30 6,4 7,1 49,2
28 26 5,5 6,1 55,3
29 21 4,4 4,9 60,2
30 25 5,3 5,9 66,1
31 9 1,9 2,1 68,2
32 24 5,1 5,6 73,9
33 8 1,7 1,9 75,8
34 9 1,9 2,1 77,9
35 16 3,4 3,8 81,6
36 13 2,8 3,1 84,7
37 11 2,3 2,6 87,3
38 8 1,7 1,9 89,2
39 12 2,5 2,8 92,0
40 11 2,3 2,6 94,6
41 4 ,8 ,9 95,5
42 3 ,6 ,7 96,2
43 2 ,4 ,5 96,7
44 2 ,4 ,5 97,2
45 6 1,3 1,4 98,6
46 1 ,2 ,2 98,8
47 3 ,6 ,7 99,5
49 2 ,4 ,5 100,0
Total 425 90,0 100,0
Perdidos NS 3 ,6
Sistema 44 9,3
Total 47 10,0
Total 472 100,0
En el primer recuadro se nos informa de los estadísticos que hemos solicitado más
algún otro que aparece por defecto, como la información del número de casos válido y
no válidos, media, mediana, asimetría y curtosis con sus respectivos errores estándar.
El segundo recuadro representa la distribución de frecuencias de la variable. En la

primera columna aparecen los valores de la variable, en la segunda la frecuencia obser-
vada para cada uno de ellos, la tercera y cuarta columna presentan porcentajes. La dife-
rencia entre ambas es que la tercera calcula los porcentajes sobre el total de valores,
mientras que la cuarta lo hace sobre el total de valores válidos, sin tener en cuenta, por
tanto, los valores missing de sistema ni de usuario. La última columna muestra el por-
centaje acumulado (sobre los valores válidos).
Para la variable estudiada, edad de la madre, destacaríamos:
El total de casos con valores válidos para esta variable es del 90% mientras que los
no válidos se reparten de la siguiente manera: 3 mujeres, que presentan el 0,6% del total,
respondieron no saber cuál era su edad y, en 44 casos, la edad o era un valor claramente
erróneo y se convirtió en missing de sistema o bien el dato estaba en blanco en la hoja
de recogida de datos. Se observa que media y mediana son similares, 28,88 y 28 años
respectivamente, sin apreciarse un sesgo importante en la distribución. Una de cada tres
madres estudiadas tenía 25 o menos años y casi el 70% era menor de 32 años.
Cómo describir una variable categórica en función de otra variable

categórica: la tabla de contingencia
Introducción Con frecuencia, incluso en el nivel básico descriptivo que se muestra en este libro, inte-
resa estudiar la distribución de frecuencias de una variable categórica en función de otra
de la misma naturaleza. El resultado es una tabla en la que se muestran tantas distribu-
ciones de la primera variable como categorías de la segunda variable y viceversa. Esta
tabla recibe el nombre de tabla de contingencia.
En una estructura tan sencilla como una tabla de contingencia se aporta una gran
cantidad de información que, en múltiples ocasiones, no se analiza en toda su riqueza,
ignorando que en la misma se muestran o están implícitas tres tipos de distribuciones:
— Distribución conjunta: Nos indica la frecuencia de aparición de la intersección de las

categorías de las dos variables que generan la tabla. Referida como porcentaje res-
pecto al total de casos descritos en la tabla, constituye un estimador puntual de la pro-
piedad P(F∩C).
En nuestro ejemplo, si estudiásemos la tabla formada por las dos variables categó-
ricas: estado de desnutrición, como fila, y la edad de los niños categorizada en cua-
tro grupos de edad, como columna, el análisis de las frecuencias de cada casilla,
referidas al total de niños estudiados, nos aportaría una estimación de la probabili-
dad de ser un niño de un grupo determinado de edad y estar desnutrido o no.
Es decir, la distribución conjunta daría información de la P (Fi∩Cj), siendo Fi la
categoría i de la variable fila de la tabla y Cj la categoría j de la variable que define
las columnas.
— Distribuciones marginales: Son dos y se corresponden, por separado, a la distribu-
ción de frecuencias de las categorías que componen la variable fila y a la de las fre-
cuencias de las categorías de la variable columna.
En otras palabras, describe da información de P (Fi) y de P (Cj) a partir de la esti-
mación puntual de los porcentajes observados.
En nuestro caso, en el lado derecho de la tabla observaríamos la proporción o por-
centaje de niños desnutridos y no desnutridos, como total de las filas dividido por
el número de niños que se describen en la tabla, mientras que en la base de cada
columna observaríamos los datos de la proporción de niños que pertenecen a cada
grupo edad.
La simple visualización de esta distribución bivariada, así como la distribución con-

junta de las dos variables, permite analizara simple vista si puede existir una asociación
o no entre las categorías de ambas variables. Así, contra mayor sea la diferencia
entre P (F∩C) y P (F)*P(C), o lo que es equivalente a comparar la frecuencia de
una casilla determinada con la obtenida a partir de (frecuencia total de fila nde la casi-
lla * frecuencia total de su columna) / N casos totales, mayor será la dependencia
o asociación entre las dos variables.
— Distribuciones condicionadas o parciales. Son equivalentes a las distribuciones des-
critas en el apartado anterior pero, en lugar de referirse al total de individuos, lo
hacen a los de una fila o columna concretas.
En el ejemplo de tabla que hemos indicado, tendríamos cuatro distribuciones de
niños nutridos y desnutridos, cada una correspondiente a uno de los cuatro grupos
de edad considerados. De la misma forma tendríamos dos distribuciones de grupos
de edades diferentes, la primera para los niños desnutridos y la segunda para los
niños no desnutridos.
En otras palabras describen, en términos de proporción referida al total de una fila
o al total de una columna, los estimadores puntuales de P (Cj|Fi) y de P (Fi|Cj).
La instrucción general que facilita este análisis descriptivo, CROSSTABS, permite

así mismo el contrastar una gran diversidad de hipótesis nulas, no sólo la de independencia
o falta de asociación indicada anteriormente, siendo cada una de ellas adecuada sólo
para el tipo de estudio y diseño que se esté analizando en un caso determinado.
Queremos en este punto alertar del peligro que representa el obtener sin ningún cri-
terio todos los indicadores posibles que permite ésta u otras instrucciones. Sólo deben
calcularse o bien obtenerse aquellos estadísticos que se correspondan con el diseño del
estudio que se está analizando y que el analista conozca con seguridad.
Sintaxis Proporciona la distribución conjunta producto del cruce de dos o más variables cate-
góricas. Además, si así se especifica, muestra las distribuciones condicionadas y per-
mite la realización de pruebas y medidas para comprobar la asociación entre las varia-
bles.
CRO[SSTABS] [TABLES=]lista de variables BY lista de variables

[BY...] [/lista de variables...]
[/MISSING={casos missing}]
[/WRITE[={NONE**}]]
[/FORMAT={visualización} {orden}]
[/CELLS=[{valores}]]
[/STATISTICS=[CHISQ] [LAMBDA] [BTAU ] [GAMMA ] [ETA ]]
[PHI ] [UC ] [CTAU ] [D ] [CORR ]
[CC ] [RISK ] [KAPPA] [MCNEMAR] [CMH(1*)]
[ALL ] [NONE ]
[/METHOD={MC [CIN({99.0 })] [SAMPLES({10000})]}]
{value} {value}
{EXACT [TIMER({5 })] }
{value}
[/BARCHART]
[TABLES= Define el conjunto de variables, lista de variables, que quiere describir en

función de la variable o lista de variables que consta después de BY.
Las variables especificadas antes del BY serán las que definirán las filas de la tabla
mientras que las siguientes definirán las columnas.
Si se especifican más opciones BY, las variables que se encuentran en la lista a con-
tinuación implican subanálisis (en las ventanas se les llama capa), es decir, para cada una
de las categorías de estas variables, se describirán las tablas descritas en las relaciones
definidas por el primer BY.
Ejemplo:
CROSSTABS sex BY edad4 BY municipi .
Nos describiría la distribución conjunta de los grupos de edad por sexo para cada
uno de los dos municipios.
Diferente resultado se obtendría en el caso de especificar sex BY municipi BY
edad4, acción que describiría la distribución de sexos por municipio para cada grupo
de edad.
[/CELLS=[{valores}]]
Permite especificar qué desea describir en las celdas o casillas generadas por el cruce de
las dos variables que definen la tabla. Puede indicar uno o más valores de los que se
indican a continuación:
— COUNT**: Frecuencia observada en cada casilla.

— ROW: Porcentaje respecto al total de casos pertenecientes a la fila definida por esa
categoría. Es la distribución de las categorías de la variable columna condicionada
a la variable fila. Tal y como se ha indicado en la introducción de este apartado, los
valores de ROW indican los términos de la distribución P (Cj|Fi).
— COLUMN: Porcentaje respecto al total de casos pertenecientes a la columna definida
por esta categoría. Es la distribución de las categorías de la variable fila condicio-
nada a la variable columna. P (Fi|Cj).
— TOTAL: Muestra los valores de la distribución conjunta, es decir, la proporción de la
frecuencia de cada casilla respecto al total: P (Fi∩Cj).
— EXPECTED: Ofrece la frecuencia esperada de la celda si se cumpliera la hipótesis de
independencia entre las dos variables.
— RESID: Muestra los residuos, es decir, la diferencia entre los casos observados y los
esperados en cada celda según la hipótesis de independencia.
— SRESID: Muestra los residuos tipificados, conocidos también como los residuos de
Pearson o residuos estandarizados. Es el residuo dividido por una estimación de su
error típico y, en consecuencia, presentan media 0 y desviación típica de 1.
— ASRESID: Expresa los residuos corregidos, es decir, el residuo tipificado dividido por
la estimación de su error típico. Los residuos corregidos son asintóticamente nor-
males típicos.
— ALL: Todos los anteriores.
Elija entre TABLE** e INCLUDE. Es decir, por defecto, excluye del análisis aquellos
valores en los que se desconoce o se ha declarado missing el valor de una o de las dos
variables. En el caso de indicar INCLUDE considera los missings definidos por el usua-
rio.
[/WRITE[={X}]]
Permite escribir en un fichero de resultados (de tipo ASCII) la matriz de datos corres-
pondiente al CROSSTABS realizado. En X, elija:
— NONE**: No genera ningún fichero, siendo la opción por defecto.

— CELLS: Genera un fichero con la matriz para aquellas tablas en donde se observa
como mínimo un caso.
— ALL: Escribe la matriz para todos los grupos especificados mediante VARIABLES
y TABLES independientemente de si se han observado casos o no.
Si le interesa utilizar CELLS o ALL debe definir el fichero en el cual se creará la matriz
resultante. Esto debe hacerlo previamente al CROSSTABS mediante la siguiente ins-
trucción:
PROC[EDURE] OUT[PUT] OUT[FILE]=’fichero’ .
[/FORMAT={visualización} {orden}]
Controla cómo se verá la tabla de contingencia en el fichero de resultados.
En {visualización} elija entre TABLES**/NOTABLES. El primero indica que

se visualice la tabla de contingencia mientras que el segundo indica lo contra-
rio. Este último se utiliza cuando el interés no es examinar la tabla, si no escri-
bir ficheros con matrices para poderlos usar posteriormente como bases de datos,
y es equivalente a especificar NONE en CELLS.
En {orden} puede señalar que se muestren los valores de la variable que define
las filas de la tabla de forma ascendente (AVALUE**) o descendente (DVA-
LUE). En general el orden será el de aparición en la definición inicial de los
valores de la variable.
[/STATISTICS=[CHISQ]] En esta fase del análisis sólo nos puede interesar si existe
algún tipo de asociación entre las dos variables que definen cada tabla de contingencia.
No obstante, el número de estadísticos posibles, así como su forma de cálculo, es muy
amplio. Deberá utilizar sólo aquellas medidas de asociación que respondan a los obje-
tivos y diseño del estudio.
En SPSS coexiste otra forma de definir la instrucción CROSSTABS algo más com-
pleta:
CRO[SSTABS] VAR[IABLES]=lista de variables(mín,máx)

/TABLES=lista de variables BY lista de variables [BY...] [/lista
de variables...]
En este caso forzosamente debe indicar VAR[IABLES] donde debe especificar qué
variables quiere analizar. En (mín,máx) indique el rango de valores de cada variable que
deben tenerse en cuenta para cada variable.
/TABLES= En esta opción es donde puede especificar concretamente la tabla de con-

tingencia deseada. Es de gran utilidad cuando no se quieren cruzar todas las variables
de un subgrupo o filas con todas las variables de otro subgrupo o variables columna
como era en el caso anterior.
En nuestro ejemplo podemos crear las tablas de contingencia que involucren las
variables categóricas, que consideremos que estén posiblemente asociadas, con el estado
nutricional del niño (NUT). Si nos interesa examinar la posible asociación con la ocu-
pación del cabeza de familia haríamos:
CROSS jocupa BY nut

/CELLS= COUNT ROW .
Dicha instrucción creará la tabla de contingencia entre el estado nutricional y la ocu-

pación del cabeza de familia. Así observaremos su distribución conjunta en forma de
frecuencias (COUNT) y una de sus distribuciones condicionadas (ROW), concretamente
la distribución del estado nutricional en función de la ocupación. Al ser el estado nutri-
cional la variable de interés del estudio, ésta es la distribución condicionada que nos
aporta más información.
Ventanas Las ventanas para efectuar la descripción bivariada de dos variables categóricas se acti-
van mediante la secuencia Analizar ! Estadisticos descriptivos ! Tablas de con-
tingencia, acción cuyo resultado se muestra en la figura 7.2.
Figura 7.2. Ventanas correspondientes al proceso descriptivo de tablas de contingencia.
Resultados El resultado de la tabla de contingencia entre el estado nutricional y la ocupación del

cabeza de familia se presenta en la siguiente tabla:
Tabla 7.10. Resultado de la descripción de una tabla de contingencia.
Tabla de contingencia Ocupación del cabeza de familia * Cumple el patrón de ingesta proteica.
Cumple el patrón de
ingesta proteica
No Sí Total
Ocupación del cabeza Agropecuario Recuento 120 204 324
de familia % de ocupación del
37,0% 63,0% 100,0%
cabeza de familia
Otros Recuento 34 114 148
% de ocupación del
23,0% 77,0% 100,0%
cabeza de familia
Total Recuento 154 318 472
% de ocupación del
32,6% 67,4% 100,0%
cabeza de familia
La interpretación de la tabla obtenida es sencilla: del total de niños cuyo cabeza de

familia se ocupa en labores agropecuarias (324), el 37% consumió una cantidad de pro-
teínas consideradas por debajo del criterio utilizado para clasificar el niño según su ade-
cuación alimentaria. Dicho porcentaje es inferior en aquellos niños cuyo cabeza de fami-
lia no se dedica a labores agropecuarias. Concretamente, este porcentaje disminuye hasta
el 23%. Parece claro que esta diferencia de un 14% es notable (aunque dicha asevera-
ción debería realizarla el investigador, por supuesto). Luego podemos considerar que
existe una asociación entre la ocupación del cabeza de familia y el estado nutricional
del niño, siendo aquellos peor nutridos los que tienen un cabeza de familia que se dedica
a las labores agropecuarias.
En este punto, Ud. debería valorar las posibles asociaciones entre el estado nutri-
cional del niño y el resto de variables categóricas disponibles en el archivo NUT_FIN.SAV.
De esta manera podrá observar cuáles son las variables que parecen tener un efecto sobre
la nutrición del niño.
Comentarios Si decide realizar algún tipo de contraste mediante las múltiples medidas de asociación
disponibles en la instrucción CROSSTABS, es muy importante que sea consciente de dos
peligros que conlleva el uso irreflexivo de esta instrucción:
1. La tentación de describir y observar el estadístico de contraste de todas las tablas

posibles de dos dimensiones es muy elevada para el profano. No está de más que
reflexione acerca de la probabilidad de obtener relaciones estadísticamente signifi-
cativas debido estrictamente al azar. En otras palabras, recuerde que la probabilidad
de rechazar alguna de las hipótesis nulas, es decir como mínimo una, debido al azar
o de forma errónea, se traduce como error _T o error de primera especie total de un
análisis y es igual a 1 – (1 – α )n siendo α generalmente igual a 0,05 y n el número
de contrastes de hipótesis realizados, en este caso tablas analizadas.
2. La presentación de unos resultados en forma de tabla bidimensional no nos dice
prácticamente nada acerca del tipo de estudio o de diseño que estamos analizando.
Tanto si estamos en el análisis de muestras dependientes como independientes la
construcción de la tabla no implica con claridad ante cuál de los dos casos nos encon-
tramos. Tampoco nos indica si el resultado expresado en la tabla corresponde a un
estudio que muestrea los casos de una forma u otra, si es un estudio transversal, de
cohortes o de diseño caso-control. En todos estos casos el resultado podría expresarse
como una tabla bidimensional. De ahí la gran variedad de estadísticos que puede
calcular esta instrucción y de ahí, también precisamente, el peligro de calcular todos

y sólo fijarse en los estadísticamente significativos, aunque no se correspondan con
el tipo de estudio que estemos realizando.
Cómo describir una variable cuantitativa: estadísticas de tendencia

central y dispersión.
Introducción Tal y como mencionamos anteriormente, describir la distribución de frecuencias para

variables cuantitativas puede tener poco interés, sobre todo si dicha variable es continua
o discreta pero con un rango de valores observados elevado. En estas circunstancias lo
lógico es facilitar algunos valores resumen de la distribución. Habitualmente se expre-
san un estadístico de tendencia central (alrededor de qué valor concreto se distribuye el
resto de los valores obtenidos en la muestra que se estudia) y otro de dispersión (en
cuánto se separan en promedio del valor central anterior). Como estadísticos de ten-
dencia central destacan:
Media: Es el promedio de valores observados. Es decir, la suma de todos los valores

dividido por el número total de valores observados.
Mediana: Es el valor que divide la distribución observada por la mitad. Dicho de otra
forma, el valor que deja el 50% de los valores observados por debajo y el 50% por arriba.
Moda: Es el valor observado que más se repite, o sea, que tiene una mayor frecuencia
observada.
Este estadístico se utiliza con poca frecuencia por dos razones fundamentales. La
primera de ellas es que es una propiedad demasiado dependiente de la agrupación en
intervalos de la variable. En otras palabras, una distribución bimodal con modas muy pró-
ximas puede convertirse en unimodal cambiando la agrupación de los datos. La segunda
razón es de mayor entidad y se debe al hecho de que no existe una función de probabi-
lidad que nos describa la distribución de modas muestrales de una población, por lo que
difícilmente podrán efectuarse comparaciones entre muestras y mucho menos contras-
tar hipótesis a partir de dicha propiedad o describir los intervalos de confianza de las
mismas.
Vamos a ilustrar el uso de los estadísticos de tendencia central mediante la descrip-
ción de dos variables cuantitativas. La primera es la talla del niño. Observe la tabla 7.11.
Tabla 7.11. Estadísticos descriptivos de una variable cuantitativa continua.

Descriptivos
Estadístico Error típ.

Talla del niño (en Media 85,320 ,421
centímetros) Intervalo de confianza Límite inferior 84,492
para la media al 95% Límite superior
86,148
Media recortada al 5% 85,123

Mediana 84,000
Varianza 83,448
Desv. típ. 9,135
Mínimo 61,0
Máximo 110,1
Rango 49,1
Amplitud intercuartil 13,000
Asimetría ,364 ,113
Curtosis –,31 ,225
El valor promedio de la talla de los niños estudiados es 85,32 cm, mientras que la
mediana es 84 cm. La diferencia es tan sólo de 1,32 cm, pudiéndose considerar ésta
como muy pequeña.
En la siguiente figura se muestra la representación gráfica de la distribución estudiada.
Figura 7.3. Descripción gráfica de una variable continua: histograma.
60
50
40
30
20
10
Frecuencia
0
62,0 70,0 78,0 86,0 94,0 102,0 110,0
66,0 74,0 82,0 90,0 98,0 106,0
Talla del niño (en centímetros)
Observe cómo la distribución de la talla de los niños se distribuye entorno a los

84 cm que, además, es el valor más frecuente (la moda), y de forma bastante simétrica.
Pues bien, cuando media y mediana son similares, no existe asimetría (sesgo). Si
observa la tabla de estadísticos (tabla 11), verá cómo el valor de asimetría es cercano a
cero. Esto significa que ambos estadísticos son adecuados para realizar la descripción
de dicha distribución. Por cuestiones históricas que no vienen al caso, cuando esto sucede
habitualmente se escoge la media como estadístico de tendencia central y como medida
de dispersión se facilita la desviación típica.
Si tuviéramos que escribir en un informe los resultados podríamos indicarlo de la
siguiente forma: la talla media de los niños estudiados fue de 85,32 cm (DT = 9.13 cm).
El segundo ejemplo que nos sirve para ilustrar el uso de los estadísticos de tenden-
cia central es la descripción de los cursos escolares superados por el cabeza de familia.
Dicha descripción se muestra en la tabla 7.12.
Tabla 7.12. Ejemplo de descripción de una variable cuantitativa discreta
Descriptivos
Estadístico Error típ.

Cursos escolares Media 3,79 ,19
superados por el Intervalo de confianza Límite inferior 3,41
cabeza de família para la media al 95% Límite superior
4,17

Mediana 2,00
Varianza 17,740
Desv. típ. 4,21
Mínimo 0
Máximo 20
Rango 20
Asimetría 1,493 ,112
Curtosis 1,885 ,224
Observe cómo, en promedio, los jefes de familia de los hogares registrados supera-
ron 3,8 cursos, forma adecuada de indicar con la precisión de los datos originales un
número igual a 3,79. Sin embargo, la mediana es de 2 cursos superados. La diferencia
es de 1,8 cursos. La media prácticamente duplica la mediana, pudiéndose considerar
esta diferencia considerable. El valor de la asimetría es 1,493, sensiblemente diferente
a cero.
En la figura 7.4 vemos gráficamente la distribución obtenida. Observe cómo la moda
es 0 y los valores se distribuyen claramente de forma asimétrica y con algunos picos, que
corresponden a los cursos que significan un final de etapa escolar según los ciclos esco-
lares oficiales de México: seis es sexto de primaria, nueve corresponde al fin completo
de primaria, el doce significa el último curso de bachillerato, y diecisiete fin de curso uni-
versitario.
Figura 7.4. Distribución de frecuencias de una variable cuantitativa discreta.
140
120
100
80
60
40
Frecuencia
20
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 15 16 17 20
Cursos escolares superados por el cabeza de famÌlia
Pues bien, cuando existe sesgo o asimetría significa que media y mediana son cla-
ramente distintas. En estos casos la media está afectada por casos extremos, es decir,
existen valores alejados del centro de la distribución que provocan que la media se aleje
en exceso de éste. Por el contrario, una de las propiedades más destacadas de la mediana
es ser insensible a estos valores y por eso, en situaciones como la planteada, se consi-
dera la mediana mejor estadístico que la media para describir la distribución observada.
Para acompañar la mediana, como medidas de dispersión puede utilizar algunas de
las siguientes: el valor mínimo y máximo, el rango (valor máximo – valor mínimo), los
cuartiles (percentil 25 y 75), algunos percentiles (por ejemplo el percentil 10 y el 90) o
la amplitud intercuartílica (percentil 75 – percentil 25).
En nuestro caso indicaríamos en nuestro informe: la mediana de cursos escolares
superados por el cabeza de familia de los hogares registrados fue de 2 cursos (percentil
25 = 0 y percentil 75 = 6).
En general, note que si el número de casos de un estudio es pequeño, la posibilidad
de que los valores extremos afecten a la media aumenta, puesto que se necesitarán muy
pocos valores alejados del centro para que esto suceda. Por eso cuando el número de
casos es bajo (según algunos autores, menos de 30) directamente se utiliza la mediana
como estadístico y no la media.
Sintaxis Si bien la descripción de una variable cuantitativa puede llevarse a cabo con el proce-
dimiento FREQUENCIES, procurando eliminar la opción de escritura de la tabla de fre-
cuencias, el procedimiento que se describe a continuación es el más simple en el caso
en que sólo se pretenda conocer los estadísticos muestrales.
SINTAXIS
DES[CRIPTIVES] [VARIABLES=] nombre variable [(nombre variable
z)] [nombre variable...]
[/SAVE]
[/STATISTICS={estadísticos}]
[/SORT=[{según}] [{(orden)}]]
(nombre variable z): Sólo en el caso en que piense usar la opción /SAVE. Espe-
cifica el nombre de la variable donde se almacenarán las puntuaciones z. Si no asigna
ningún nombre pero indica SAVE, se generará una variable con un nombre parecido a
«Z + nombre original».
/SAVE: Genera una nueva variable, de media 0 y desviación estándar de 1, en la matriz

de datos. Es el resultado de estandarizar la variable estudiada. En argot estadístico estas
variables suelen llamarse puntuaciones z.
Las puntuaciones z, por tanto, muestran a cuántas unidades de desviación estándar
está cada observación respecto a la media de la distribución observada. La conversión
de cualquier unidad de medida a desviaciones estándar es útil para comparar de manera
independiente de las unidades de medida qué variable posee datos más dispersos.
/MISSING: Define qué casos, {casos missing}, deben ser excluidos del análisis.
— VARIABLE**: Excluye del análisis los casos que presentan un missing (de sistema
o de usuario) en el valor concreto de la variable estudiada, sin importar el valor que
puedan tomar las demás variables especificadas en la instrucción.
— LISTWISE: Excluye, para el análisis de cada variable especificada en la instruc-
ción, aquellos casos que presentan algún missing en cualquiera de las variables estu-
diadas en el conjunto definido. Es decir, sólo utiliza aquellos casos en que no se
observa ni un solo missing en el conjunto de todas las variables analizadas.
/STATISTICS: Debe especificarse cualquiera de los siguientes: MEAN**, STDDEV**,

MINIMUM**, MAXIMUM**, SEMEAN, VARIANCE, SKEWNESS, RANGE, KUR-
TOSIS, SUM.
Al igual que, como se ha visto en la instrucción FREQUENCIES, existen otras posi-
bilidades como, no indicar nada o DEFAULT y ALL para que se calculen todos los indi-
cados anteriormente. El significado de cada estadístico puede comprobarlo en la tabla 7.8.
/SORT: Permite obtener un fichero de resultados en que las variables involucradas en

un mismo DESCRIPTIVES aparecerán ordenadas como se haya especificado en {según}
y {orden}.
{según}:
— Si no se especifica nada, las variables aparecerán en el fichero de resultados con el
orden en que las hemos especificado en la instrucción.
— NAME: Se ordenarán alfabéticamente.
— Señalando cualquier estadístico utilizado en la opción STATISTICS, obtendrá una
salida ordenada en función del valor del estadístico especificado.
{orden}:
— A**: De manera ascendente.
— D: Descendente.
Como ejemplo de esta instrucción, efectúe la estadística descriptiva de las variables

continuas del archivo. La instrucción de sintaxis es en este caso:
DESCRIPTIVES protea protev protot tall_cms peso_kg hacinam pro-

tot / STATISTICS=MEAN STDDEV MIN MAX SKEWNESS .
Compruebe la variación en los resultados si incluye en la instrucción la opción /SAVE

NAME D.
Ventanas La ventana de aplicación, figura 7.5, se abre al actuar sobre la secuencia Analizar !
Estadísticos descriptivos ! Descriptivos...
Figura 7.5. Ventanas de ejecución de la instrucción DESCRIPTIVES.
Comentarios Una variable alfanumérica nunca puede ser analizada mediante un DESCRIPTIVES.
Observe cómo en la ventana de la instrucción, en el recuadro donde se ubica el listado
de variables que se pueden seleccionar, no aparece ninguna alfanumérica.
Resultados Una vez ejecutada la instrucción, en el fichero de resultados, aparecerá una tabla con
todos los estadísticos deseados para cada una de las variables. Además, por defecto, se
especifica el total de casos válidos utilizados para calcular dichos estadísticos para cada
una de las variables.
Tabla 7.13. Resumen del análisis descriptivo de un conjunto de variables cuantitativas.
Estadísticos descriptivos
N Mínimo Máximo Media Desv. típ. Asimetría

Estadístico Estadístico Estadístico Estadístico Estadístico Estadístico Error típico
Proteínas animales
consumidas el día 472 ,00 122,15 16,8663 17,4913 2,129 ,112
anterior a la encuesta
Proteínas vegetales
consumidas el día 472 ,00 76,14 19,0633 12,4791 1,286 ,112
Total de proteínas
consumidas el día 472 3,45 130,28 35,9295 18,0849 1,316 ,112
Talla del niño (en
470 61,0 110,1 85,320 9,135 ,364 ,113
centímetros)
Peso del niño (en kilos) 471 6,1 22,5 11,909 2,679 ,552 ,113
Nº de personas por
habitación destinada a 472 1,3 15,0 5,241 2,263 ,935 ,112
dormir
N válido (según lista) 470
Cómo describir una variable cuantitativa según una variable categórica
Introducción También en el caso de variables cuantitativas interesa, con frecuencia, la descripción de

una variable cuantitativa en función de otra u otras categóricas. Dicho de otra forma,
puede ser de interés el describir la variable cuantitativa para cada subgrupo de casos
generado por la combinación de categorías de un conjunto de variables categóricas.
Existen dos instrucciones que permiten esta acción. La primera, MEANS, es simi-
lar a la aplicación de la instrucción DESCRIPTIVE en las submuestras que definen una
o un conjunto de variables categóricas, y la segunda, EXAMINE, más completa, equi-
valente a efectuar una estadística descriptiva mediante la opción FREQUENCIES.
Sintaxis En la primera de las opciones de análisis el objetivo fundamental es describir los esta-
dísticos muestrales mínimos para cada una de las submuestras indicadas. Sin embargo,
debemos volver a insistir en las precauciones que el analista debe tomar al utilizar las
opciones de contraste de hipótesis que le ofrece esta instrucción.
MEANS [TABLES=]{lista variables} BY lista variables [BY...]

[/lista variables...]
[/CELLS= {estadísticos}]
/CELLS: Puede especificar los estadísticos deseados para cada subgrupo de casos:
MEAN**, COUNT**, STDDEV**, MEDIAN, GMEDIAN, SEMEAN, SUM,MIN, MAX,
RANGE, VARIANCE, KURT, SEKURT, SKEW, SESKEW, FIRST, LAST, NPCT,
SPCT, NPCT(var), SPCT(var), HARMONIC, GEOMETRIC.
Vea en la tabla 7.8 el significado de cada una de estas opciones. Como en casos ante-
riores, existe también la opción de remitirse a la opción por defecto o bien indicar el cál-
culo de todos los índices explicitando ALL.
/MISSING: Determina los casos excluidos de análisis. Debe indicarse alguna de las
siguientes opciones:
— TABLE: Excluye del análisis aquellos casos que presenten un missing (de usuario
o de sistema) en culaquiera de las variables involucradas en un proceso de descrip-
ción.
— INCLUDE: Trata los valores missing de usuario, de todas las variables especifica-
das en la instrucción, como valores válidos.
— DEPENDENT: Si la variable cuantitativa presenta algún valor definido como missing,
éste es apartado del análisis. No obstante, los valores missing de la variable de con-
trol se consideran como una categoría más y no se ignoran. En otras palabras, ana-
liza la variable cuantitativa también para aquellos casos indefinidos de la variable cate-
górica.
Como ejemplo de la instrucción, vamos a ejecutarla con el fin de analizar si la media

de las variables cuantitativas que nos interesan son distintas en función de la adecua-
ción nutricional del niño.
MEANS ed_madre mescola ed_jefe jescola hacinam BY nut

/CELLS= MEAN COUNT STDDEV SEMEAN .
Ventanas La ejecución por menús desplegables, figura 7.6, se efectúa activando la secuencia: Ana-
lizar ! Comparar medias ! Medias :
Figura 7.6. Menús desplegables correspondientes a la descripción de una variable cuantitativa por
grupos generados por una variable categórica o independiente.
Comentarios 1. Con la instrucción MEANS puede realizar la descripción univariada de una varia-
ble simplemente al no especificar ningún BY.
2. Si la variable cuantitativa presenta missings de usuario codificados mediante un valor
determinado (vea capítulo 4), utilice MISSING = DEPENDENT. Si utilizara MIS-
SING = INCLUDE este valor formaría parte del análisis y sesgaría los resultados.
Resultados Observemos, en la siguiente tabla 7.14, los resultados obtenidos.
Tabla 7.14. Resultado obtenido mediante la instrucción MEANS.
Informe
Cursos Nº de
Cursos Edad del escolares personas por
Edad de escolares cabeza de superados habitación
Cumple el patrón de la madre superados familia (en por el cabeza destinada a
ingesta proteica? (en años) por la madre años) de familia dormir
No Media 29,31 2,31 38,90 2,68 5,458
N 134 150 153 154 154
Desv. típ. 6,80 2,68 13,40 3,11 2,153
Error típ. de la media ,59 ,22 1,08 ,25 ,173
Sí Media 28,68 3,97 37,61 4,32 5,135
N 291 312 317 318 318
Desv. típ. 6,67 4,10 12,87 4,56 2,310
Error típ. de la media ,39 ,23 ,72 ,26 ,130
Total Media 28,88 3,43 38,03 3,79 5,241
N 425 462 470 472 472
Desv. típ. 6,71 3,78 13,05 4,21 2,263
Error típ. de la media ,33 ,18 ,60 ,19 ,104
Se genera una tabla con la información solicitada para cada una de las variables
especificadas. A modo de ejemplo, para realizar la interpretación, centrémonos en la
última variable. Los resultados obtenidos muestran que la media de personas por habi-
tación destinada para dormir es, ligeramente, superior en los hogares con niños mal nutri-
dos respecto a los hogares de niños bien nutridos: 5,46 frente a 5,14 personas por cuarto.
Si quiere ser más preciso podría calcular el intervalo de confianza para las medias. Para
un nivel de confianza del 95% haríamos:
Media ± 1,96 * Error típico de la media
Efectuando los cálculos obtendríamos:
— la media de HACINAM para los hogares con niños mal nutridos es:
5,46 personas / cuarto; (IC(95%) = 5,12-5,80));
— mientras que para los hogares sin niños mal nutridos:
5,14 personas / cuarto; (IC(95%) = 4,88-5,39)).
Observe que si bien ambas medias son ligeramente distintas, los intervalos de con-
fianza calculados se solapan. Cuando esto sucede se puede afirmar que, estadísticamente,
no existe una diferencia significativa.
La interpretación de las demás variables se efectuaría de la misma forma.
Comentarios ¡Atención! Que una diferencia no sea estadísticamente significativa no implica que no
pueda ser importante para el investigador. La significación no depende exclusivamente
de criterios estadísticos (dependientes, además, de cuestiones como el número de indi-
viduos analizados, etc.), sino también de la propia importancia sustantiva que el inves-
tigador observe en esa diferencia.
Sintaxis La otra instrucción que permite la descriptiva de una variable cuantitativa en función de
las categorías de una o varias variables categóricas, se describe a continuación:
EXAMINE VARIABLES = lista variables [[BY lista variables]

[nombre variable BY nombre variable]]
[/COMPARE={tipo}]
[/{visualizar total}]
[/ID={variable}]
[/PERCENTILES [({lista de valores})=[{método}]]]
[/PLOT={gráficos}]
[/STATISTICS=[estadísticos]]
[/CINTERVAL {nivel}]
[/MESTIMATOR=[{método}]]
[/MISSING=[{casos missing}]
BY: especifique la variable o variables para los valores de las cuales quiere realizar la
descripción de la variable cuantitativa. También puede enlazar varios BY, con lo que se
describirá la variable cuantitativa para el cruce de los factores.
Por ejemplo, si hiciéramos:
EXAMINE protot BY municipi edad4
el resultado consistiría en dos tablas: la primera, con la descripción de proteínas totales

según el municipio y la segunda, la descripción sería según los valores de EDAD4. En
cambio, si la instrucción fuera:
EXAMINE protot BY municipi BY edad4
obtendríamos una sola tabla con la descripción de las proteínas totales para ocho situa-
ciones distintas. Estas situaciones corresponderían a todas las posibles combinaciones
entre los valores de ambos factores: [12-24)-Villaflores, [12-24)-Jaltenango, ... , [48-
60)-Jaltenango.
/COMPARE {tipo}: Define qué tipo de comparación se efectúa en los gráficos soli-
citados. Debe indicarse alguna de las opciones siguientes:
— GROUPS**: Representación gráfica por separado de cada variable cuantitativa según

las categorías de cada variable categórica especificada (vea figuras 7.7 y 7.8).
Ejemplo: EXAMINE protea protev BY edad4

/COMPARE=GROUPS /PLOT=BOXPLOT .
Figura 7.7. y 7.8. Gráficos que comparan grupos (COMPARE = GROUPS).
140 100
11
120
80
38 234
236
289
159
100 296
Proteínas vegetales consumidas el día anterior a la encuesta

53
Proteínas animales consumidas el día anterior a la encuesta
3
60
63 172
80 162
111
32
72 107
137
129
109
60 40
132 269
123
110 219
222
231
260
40 227
20
20
0
0
-20 -20
N= 151 159 88 74 N= 151 159 88 74
[12-24) [24-36) [36-48) [48-60) [12-24) [24-36) [36-48) [48-60)
Edad del niño en grupos Edad del niño en grupos
— VARIABLES: Representación gráfica conjunta de las variables cuantitativas según

los valores de cada variable categórica (figura 7.9).
Ejemplo: EXAMINE protea protev BY edad4

/COMPARE=VARIABLES /PLOT=BOXPLOT .
Figura 7.9. Gráfico que compara variables (COMPARE = VARIABLES).
140
11
120
38
289
100 53
80
111 234
236
32
72 107
137 159
296
129
60 109
63 132 172 269
162 219
123
110 222
231
260
40 227
20
Proteínas animales
consumidas el día anterior
0
Proteínas vegetales
–20 consumidas el día anterior
N= 151 151 159 159 88 88 74 74
[12-24) [24-36) [36-48) [48-60)
Edad del niño en grupos
/{visualizar total}: Al describir una variable cuantitativa en función de los

valores de un factor, permite visualizar los estadísticos señalados también para el total.
Sólo tiene dos opciones:
— TOTAL**: Se visualizan.
— NOTOTAL: No se visualizan.
/ID: Si en esta opción se especifica una variable, sus valores servirán como etiqueta
de los casos en determinados gráficos. Si no se señala ninguna se utilizará el número de
caso en la base de datos, es decir, la posición del caso dentro del conjunto de datos.
/PERCENTILES: Permite calcular el valor de cualquier percentil según distintos méto-

dos.
— {lista de valores}: Especificando los percentiles en los que se está intere-

sado. Si usa PERCENTILES pero no indica ningún valor, por defecto se calcularán
los siguientes: 5, 10, 25, 50, 75, 90 y 95.
— {método}: HAVERAGE**, WAVERAGE, ROUND, EMPIRICAL, AEMPIRICAL.
Consulte los manuales para mayores especificaciones. En concreto estas opciones no
reflejan más que diferentes técnicas de determinación de los percentiles, en mues-
tras de tamaño reducido o mediano. Por último existe la posibilidad de especificar
como opción: NONE. Esta última suprime los percentiles en el fichero de resulta-
dos.
/PLOT{gráficos}: Se especifica el tipo de gráfico que se pretende representar. Entre

diversas opciones, las más frecuentes son:
— BOXPLOT**: Gráfico en el cual se representan la mediana, el primer y tercer cuar-

til, los casos cuyo valor se considera atípico y los casos denominados extremos.
Observe la figura 7.10. Los costados inferior y superior de la caja señalan el primer
y tercer cuartil respectivamente, mientras que la línea que atraviesa la caja repre-
senta la mediana. Desde los extremos de la caja nace una línea que se corta por otra
de forma perpendicular: a lo largo de la línea vertical están representados los pun-
tos situados desde el primer o tercer cuartil (dependiendo del extremo de la caja)
hasta 1,5 veces la longitud de la caja (que coincide con la amplitud intercuartílica).
Desde este punto hasta 3 veces la amplitud intercuartílica se dibujan, con el símbolo
O, los valores atípicos. Finalmente, en lo más lejano y con un * se nos señalan los
casos que están a más de 3 longitudes, o sea los extremos. Observe que en los valo-
res atípicos y extremos se identifica el número de caso del que se trata: por defecto
se asignará a cada caso los números en color gris que aparecen más a la izquierda
en el Editor de datos (en sintaxis $CASENUM) y, si definió en la instrucción la
opción ID, estos casos se etiquetarán según lo que determine la variable especifi-
cada en ID.
Figura 7.10. Significado de los términos que aparecen en un gráfico BOXPLOT.
Observe que en la parte inferior de la caja la línea se corta en el 0 y no llega al –17.90

como cabría esperar. Esto es debido a que el 0 es el valor mínimo posible.
— NPPLOT: Realiza dos gráficos para comprobar la normalidad de una variable. Ade-
más proporciona los estadísticos Kolmogorov-Smirnov y Shapiro-Wilk con la misma
finalidad. Shapiro-Wilk sólo se muestra para datos con 50 o menos observaciones.
— HISTOGRAM: Dibuja el histograma solicitado.
— ALL: Imprime todos los gráficos posibles.
— NONE: No se generan gráficos en el fichero de resultados.
/STATISTICS (estadísticos): Puede solicitar los estadísticos clásicos y además

un listado de los valores mayores y menores que se han observado en la variable.
— DESCRIPTIVES**: Ofrece los principales estadísticos descriptivos. Destaca, ya

que las otras instrucciones no lo facilitan, el cálculo del intervalo de confianza para
la media (por defecto con un nivel del 95% aunque este nivel puede cambiarlo
mediante la opción CINTERVAL), así como la media recortada al 5% (cálculo de la
media sin el 5% de los valores más extremos. Opción interesante para valorar la
influencia de estos valores sobre la media general).
— EXTREME({n}): Listará los valores más extremos (mayores y menores) observados
en la variable estudiada. Indique mediante n, el número de valores que quiere obte-
ner, tanto de mayores como de menores.
— ALL: DESCRIPTIVES y EXTREME.
— NONE: Ninguno.
/CINTERVAL: Permite modificar el nivel del intervalo de confianza. Por defecto se cal-
cula al 95%. Puede elegir un nivel de entre el 50 y el 99,99%.
/MESTIMATOR: Mediante esta opción obtendrá el listado de estimadores robustos de

posición obtenidos mediante máxima verosimilitud. El método de cálculo se especifica
escogiendo entre los propuestos por: HUBER, ANDREW, HAMPEL, TUKEY. Además
puede indicar ALL (listará los estimadores según los cuatro métodos destacados) y
NONE**. Consulte manuales para obtener más información sobre cada método.
/MISSING: Determina qué casos serán excluidos del análisis.
Debe elegir una opción de cada pareja:
— LISTWISE** / PAIRWISE: La primera excluye, para el análisis de cada variable

especificada en la instrucción, aquellos casos que presentan algún missing en cual-
quiera de las variables estudiadas. Es decir, sólo utiliza aquellos casos en que no se
observa ni un solo missing en todas las variables analizadas. PAIRWISE sólo excluye
el caso de la descripción de la variable que presenta el missing, no de las demás.
— EXCLUDE** / INCLUDE: EXCLUDE trata los valores missing de usuario (que no
los de sistema!) como valores que no forman parte del análisis mientras que INCLUDE
sí los tiene en cuenta.
— NOREPORT** / REPORT: La primera opción no utiliza ni los missing de usuario
ni de sistema en la descripción, al contrario de REPORT, que usa tanto unos como
otros.
Ejecute la instrucción que se muestra a continuación, como ejemplo de la descrip-

ción de las variables cuantitativas discretas de nuestro estudio en función del estado
nutricional de los niños. Plantee la interpretación de los resultados como orientación
acerca de qué posibles características se asocian a la presencia o ausencia de este pro-
blema.
EXAMINE VAR=ed_madre mescola ed_jefe jescola hacinam cse BY

nut
/PLOT NONE
/MISSING PAIRWISE .
Ventanas Con el fin de efectuar este análisis descriptivo las ventanas se activan al incidir en los
pasos de la secuencia: Analizar ! Estadísticos descriptivos ! Explorar:
Figura 7.11. Ventanas asociadas a la instrucción EXPLORAR.
Comentarios 1. Con la instrucción EXAMINE puede realizar la descripción univariada de una varia-
ble simplemente al no especificar ningún BY.
2. La instrucción EXAMINE es muy interesante para la descripción de variables cuan-
titativas (a nivel uni y bivariado). Esto es debido a que proporciona, además de esta-
dísticos que también facilitan otras instrucciones, el intervalo de confianza para la
media con la posibilidad de modificar el nivel de confianza y otros estadísticos com-
plementarios como la media recortada al 5%.
3. Aunque su uso es muy interesante, también es muy peligroso cuando en una misma
instrucción ejecutamos la descripción de más de una variable cuantitativa. Observe
que, por defecto, los casos que presenten algún missing en cualquiera de las varia-
bles cuantitativas será eliminado de la descripción no sólo de esa, sino de todas las
variables especificadas en la instrucción (MISSING = LISTWISE). El desconocimiento
de este hecho, por tanto, puede provocar que no se tengan en cuenta casos que debe-
rían formar parte de la descripción.
4. Puede describir una variable cuantitativa por el cruce, como máximo, de ocho fac-
tores (es decir, puede usar como mucho 8 BY). Si especifica un número más ele-
vado la instrucción no se ejecutará.
5. La utilización de más de un BY y la consiguiente descripción en cada grupo gene-
rado por varias variables categóricas solo se puede lograr mediante la sintaxis. A
través de las ventanas no puede especificarse.
Resultados En la tabla 7.15 se muestra el resultado de EXAMINE para la variable jescola para los
dos grupos de niños, nutridos y desnutridos.
Tabla 7.15. Resultado de la instrucción EXAMINE.
Descriptivos
Cumple el patrón de Estadístico Error típ.

Cursos escolares No
ingesta proteica? Media 2,68 ,25
superados por el Intervalo de confianza Límite inferior 2,19
cabeza de familia para la media al 95% Límite superior
3,18

Mediana 2,00
Varianza 9,643
Desv. típ. 3,11
Mínimo 0
Máximo 16
Rango 16
Curtosis 2,318 ,389
Sí Media 4,32 ,26
Intervalo de confianza Límite inferior 3,82
para la media al 95% Límite superior
4,82

Mediana 3,00
Varianza 20,824
Desv. típ. 4,56
Mínimo 0
Máximo 20
Rango 20
Curtosis 1,156 ,273
Para ambos grupos se observa una desviación típica grande, comparada con la media.
También se aprecia claramente la existencia de asimetría. Esto nos indica que la mediana
será mejor estadístico de tendencia central para explicar los datos observados.
Así, vemos que los cabeza de familia de niños bien nutridos tienen tres cursos esco-
lares superados mientras que los de los niños mal nutridos sólo dos. Dicha diferencia
puede motivar a pensar que la escolaridad del cabeza de familia puede asociarse al estado
nutricional del niño.
Consideraciones sobre el análisis
Si ha seguido el orden lógico del libro, en este punto Ud. habrá evaluado el posible efecto
sobre la desnutrición de todas las variables presentes en el archivo NUT_FIN.SAV. Posi-
blemente también habrá apreciado que la valoración de la asociación de ciertas variables
con la adecuación alimentaria podría realizarse de forma más ajustada a sus intereses o,
al menos, de otra manera.
Por ejemplo, al igual que hicimos anteriormente con las variables piso y paredes,
en las que agrupamos categorías, céntrese ahora en la variable frecuencia de ingesta de
carne. Tiene seis categorías. Imagine que le interesase describirla sólo con dos. ¿Qué punto
de corte utilizaría para crear esas dos categorías? Si examina los resultados apreciará
que una posibilidad sería usar las siguientes dos: 1 «1 vez o más / 15 días», 2 «menos
de 1 vez / 15 días». ¿Por qué en este punto? Fíjese que hasta la categoría «1 vez / 15
días» el porcentaje de desnutrición está por debajo de aproximadamente el 30% mien-
tras que a partir de «1 vez / mes» dicho porcentaje siempre supera el 40%.
Cree una nueva variable utilizando este criterio y describa su distribución conjunta
con la adecuación alimentaria.
Otra posibilidad es categorizar las variables cuantitativas que anteriormente hemos
descrito mediante algún estadístico de tendencia central y de dispersión. Esta posibili-
dad es interesante porque a veces es difícil interpretar la información derivada, por ejem-
plo, de la comparación entre dos medias.
Anteriormente comparamos el número medio de personas por habitación destinada
a dormir entre los hogares con niños bien y malnutridos. La diferencia entre tales medias
(5,46 en hogares con niños malnutridos y 5,14 en hogares con niños bien nutridos) fue
de 0,32 personas/habitación. Realmente es difícil valorar la intensidad de esta diferen-
cia. ¿Es mucho o es poco? En fin, no desprecie la posibilidad de categorizar esta varia-
ble y observar su distribución condicionada respecto a la adecuación alimentaria. El
único problema reside en la definición de las categorías a utilizar. Habitualmente dicho
problema se soluciona buscando criterios externos, bien sea mediante literatura sobre el
tema o mediante la decisión del investigador del estudio. Aún así, si estos criterios no
existen, cabe la posibilidad de utilizar algún percentil de la distribución observada para
realizar una recodificación que nos aporte información.
Por ejemplo, en el caso de hacinam, le proponemos que recodifique dicha variable
en otra a partir de la mediana obtenida:
RECODE
hacinam (Lowest thru 4.99=1) (5 thru Highest=2) INTO hac .
EXECUTE .
FOR hac (F1.0) .
VAR LAB hac ‘Nº de personas / habitación destinada a dormir’ .
VAL LAB hac 1 ‘< 5’ 2 ‘>= 5’ .
VAR LEV hac (NOMINAL) .
Realice ahora la tabla de contingencia entre ambas variables y observe su descrip-

ción. ¿Cree que la información que se obtiene es más interpretable que antes?
Igual que con hacinam, podríamos recodificar las siguientes variables: mescola y
jescola. En este caso, sin embargo, existe un criterio externo que puede utilizar. Cree
dos nuevas variables (mestud y jestud) con las siguientes categorías: 0 cursos superados,
de 1 a 3 cursos superados, más de 3 cursos superados. Recodifíquelo utilizando los valo-
res y etiquetas que le mostramos a continuación: 0 «Analfabeto», 1 «de 1º a 3º prima-
ria», 2 «más de 3º de primaria». Realice ahora la descripción conjunta con la adecuación
alimentaria.
Finalmente podríamos categorizar, también, la variable cse en una nueva, cse3. Esta
nueva variable podría constar de tres categorías definidas por los terciles: es decir, cate-
gorice como 1 a los casos entre 0 características «desfavorables» hasta el valor de cse
que supera el 33,3% de los casos observados, 2 a los casos con valores comprendidos
entre el siguiente y el que supera el 66,7% de los valores de CSE y 3 a los casos con
valores desde el siguiente hasta el máximo. Defina la variable, descríbala y realice la
descripción conjunta con la adecuación alimentaria.
Presentación de resultados en forma de tabla
En la mayoría de estudios, una vez analizada la distribución y características muestra-

les de las variables estudiadas, se tiende a resumir las informaciones obtenidas en forma
de tablas. Casi siempre acostumbran a ser tablas formadas por el cruce de las variables
categóricas que, de alguna manera, podrían catalogarse como factores o variables dise-
ñadas. En las casillas que corresponden a la intersección de las categorías de estas varia-
bles, podríamos introducir parámetros estadísticos de las variables objeto del estudio,
ya sean estas últimas categóricas o continuas.
Existen diversas formas de generar tablas resumen, y también en este caso debemos
llamar la atención acerca de la rápida evolución que sufren estas instrucciones con los
cambios de versiones del programa.
De manera genérica la instrucción básica es TABLES, la cual sigue vigente y puede
generarse por la activación de ventanas, ya que la sintaxis, al pretender describir el mayor
número de tipos de tablas posible, es bastante compleja. No obstante ni siquiera está
descrita en el manual de ayuda del paquete. Es decir, es, como hemos visto en otras oca-
siones, una instrucción que tiende a ser sustituida por otras en el futuro.
Sintaxis Las instrucciones más sencillas para generar tablas son las que se muestran, en versión
simplificada, a continuación.
SUMMARIZE [TABLES=] {lista de variables} [BY lista de var.]

[BY...][/lista de variables...]
[/TITLE =’texto...’][FOOTNOTE= ’texto...’]
[FORMAT=[{NOLIST** }] [{CASENUM }] [{TOTAL**}][LIMIT=n]
{LIST } {NOCASENUM} {NOTOTAL
{VALIDLIST}
[/CELLS= [MEAN] [COUNT**] [STDDEV] [MEDIAN] [GMEDIAN]
[SEMEAN] [SUM ] [MIN] [MAX]
[RANGE] [VARIANCE] [KURT] [SEKURT] [SKEW] [SESKEW]
[FIRST] [LAST] [NPCT] [SPCT] [NPCT(var)][SPCT(var)]
[HARMONIC] [GEOMETRIC] [DEFAULT] [ALL] [NONE]
[/MISSING=[{EXCLUDE**}][{VARIABLE**}]
[/STATISTICS=[ANOVA] [{LINEARITY}] [NONE**] ]
Puede entenderse con facilidad que genera un resumen de información de las varia-
bles que se indican en la lista de variables en las diferentes casillas de una o varias
tablas generadas por el cruce de las categorías de las variables definidas en las dos lis-
tas de variables de cada BY.
El título y el pie de página de este resumen son opcionales. En ninguno de los dos
casos TITLE o FOOTNOTE, el texto puede superar los 255 caracteres. Siempre debe-
rán constar entre comillas.
[/FORMAT= La instrucción puede efectuar resúmenes de un número de casos, indi-

cando caso a caso o no (NOLIST), los n primeros, LIMIT = n, o de todos, o incluyendo
los valores missing o sólo los casos válidos, es decir aquellos que tienen valores no mis-
sing en todas las variables implicadas.
[/CELLS= El número de estadísticos descriptivos que pueden resumirse es incluso

mayor que el que puede obtenerse con una instrucción DESCRIPTIVES, EXAMINE o
MEANS, pudiéndose solicitar todos ellos con la opción ALL. Si no se indica nada por
defecto resume en cada casilla o celda de la tabla generada el número de casos que per-
tenecen a la misma.
[/STATISTICS= Con esta subinstrucción se puede efectuar, siempre que la variable

que se describe sea cuantitativa, un análisis de ajuste de un modelo ANOVA de com-
paración de las medias observadas en cada celda, así como si la variación entre ellas es
de naturaleza lineal o no. Por defecto y a título de resumen, esta opción no se ejecuta.
Comentarios 1. El analista debe considerar con cautela ciertas opciones de la subinstrucción FOR-
MAT, ya que los valores u opciones por defecto no son iguales al trabajar con ven-
tanas. Así, por defecto, en Sintaxis, el resumen se efectúa con todos los datos mien-
tras que, por Ventanas, tal y como verá más adelante, sólo se efectúa por defecto el
resumen de los 100 primeros casos.
2. De la misma forma, la ejecución por sintaxis presupone que el resumen no imprime
la información de cada caso, sino precisamente sólo el resumen. La ejecución por ven-
tanas muestra la relación de los casos de las categorías generadas en el análisis.
Una instrucción más simple para describir variables continuas en función de una
lista de variables categóricas es la siguiente:
OLAP CUBE {lista de var.} BY lista de var. [BY...]

[/CELLS= [MEAN**] [COUNT**] [STDDEV**] [NPCT**] [SPCT**]
[SUM** ] [MEDIAN] [GMEDIAN]
[SEMEAN] [MIN] [MAX] [RANGE] [VARIANCE] [KURT]
[SEKURT] [SKEW] [SESKEW]
[FIRST] [LAST] [NPCT(var)][SPCT(var)] [HARMONIC]
[GEOMETRIC] [DEFAULT][ALL] [NONE] ]
[/TITLE =’string’][FOOTNOTE= ’string’]
En este caso, en la primera lista de variables se indican las variables continuas que
se quieren analizar en función de las que se precisan a continuación de BY, debiendo ser
estas últimas categóricas. Sin embargo, puede apreciarse la equivalencia con la anterior
instrucción. Los cambios se observan en la forma de expresar los resultados, pues mien-
tras en SUMMARIZE la expresión de los resultados es de informe resumen, en OLAP
CUBES los resultados se muestran para cada estrato analizado por separado.
Comentarios 1. En la versión 10.0 del programa SPSS se produce un pequeño error al ejecutarse la
instrucción. En concreto, si se está trabajando con la ventana de resultados Visor
Borrador SPSS, se describen todas las categorías descritas en la tabla generada por
la instrucción BY Lista de Variables BY Lista de variables..., así como de todas
las tablas marginales asociadas a la posible tabla multidimensional. No ocurre lo
mismo si se trabaja con la opción de escribir los resultados en la ventana Visor SPSS,
en que sólo se presentan las tablas de cada una de las variables colapsando las demás.
2. Este fenómeno se repite aunque se trabaje ejecutando la instrucción por ventanas.
Ventanas En este caso, resumir información en forma de informe o de tablas múltiples, la acción
se puede activar de diversas maneras:
Mediante Analizar ! Informes ! Resúmenes de casos, se ejecuta la instrucción

SUMMARIZE.
Figura 7.12. Ventana de ejecución de la instrucción SUMMARIZE.
La segunda opción descrita se obtiene mediante la acción: Analizar ! Informes !

Cubos OLAP.
Figura 7.13. Ventana de ejecución de la instrucción Cubos OLAP.
Resultados En el supuesto de que hubiésemos solicitado el resumen de las variables tall_cms y el

peso_kg mediante los estadísticos media y desviación estándar, de los niños del estudio
por sexo y grupo de edad, las instrucciones que deberíamos haber escrito serían:
SUMMARIZE
/TABLES=tall_cms peso_kg BY sex BY edad4
/TITLE=’Talla y peso en función del sexo y el grupo de edad’ .
Observe el resultado de dicha acción en la tabla 7.16.

Tabla 7.16. Resultado de una instrucción SUMMARIZE.
Talla y peso en función del sexo y el grupo de edad
Talla del niño

(en Peso del niño
SEX Edad del niño en grupos centímetros) (en kilos)
Masculino [12-24) Media 78,088 9,958
N 78 78
Desv. típ. 6,175 1,626
[24-36) Media 84,935 12,015
N 74 74
Desv. típ. 4,690 1,609
[36-48) Media 91,038 13,598
N 48 48
Desv. típ. 5,137 1,654
[48-60) Media 98,587 15,392
N 38 38
Desv. típ. 6,763 2,336
Total Media 86,102 12,199
N 238 238
Desv. típ. 9,112 2,597
Femenino [12-24) Media 76,753 9,233
N 72 72
Desv. típ. 4,688 1,384
[24-36) Media 82,998 11,326
N 85 85
Desv. típ. 5,701 1,697
[36-48) Media 89,025 13,157
N 40 40
Desv. típ. 5,638 2,055
[48-60) Media 99,064 15,333
N 36 36
Desv. típ. 5,093 2,286
N 233 233
Desv. típ. 9,146 2,734
Total [12-24) Media 77,447 9,610
N 150 150
Desv. típ. 5,534 1,553
[24-36) Media 83,899 11,647
N 159 159
Desv. típ. 5,328 1,687
[36-48) Media 90,123 13,398
N 88 88
Desv. típ. 5,433 1,849
[48-60) Media 98,819 15,364
N 74 74
Desv. típ. 5,973 2,296
N 471 471
Desv. típ. 9,150 2,679
Otras formas de resumen mediante tablas
La generalización de este tipo de resúmenes se puede visualizar activando la secuencia

Analizar ! Informes ! Informe de estadísticos. Podrá observarse que el número de
opciones es mucho mayor y que la construcción del resumen es mucho más flexible.
Esta misma flexibilidad conduce a que la instrucción de sintaxis que la efectúa, REPORT,
sea bastante extensa y compleja, por lo que remitimos al lector al módulo de ayuda
SPSSBASE.PDF para su descripción.
Existen otras formas de resumir y presentar datos en forma de tablas, las cuales uti-
lizan la instrucción TABLES, que como ya se ha indicado no consta en el módulo de
ayuda que se distribuye con la versión SPSS 10.0, aunque conste en el índice de ins-
trucciones.
Se pueden generar por lo tanto otro tipo de tablas activando:
Analizar ! Tablas personalizadas ! Tablas básicas (o generales)
Puede visualizar como siempre la sintaxis efectuando una de las dos acciones que
se indican y en vez de indicar Aceptar, lo cual ejecuta la acción, activando la tecla de Pegar
y observando el texto en la ventana de Sintaxis.
Figura 7.14. Ejemplo de resumen mediante Tablas básicas.
Resultados Los resultados obtenidos al aplicar el contenido de las ventanas indicadas, como si se eje-
cuta la sintaxis asociada a las mismas, conducen a los siguientes resultados:
Tabla 7.19. Resultado de la ventana Tablas básicas para combinaciones anidadas.
Cumple el patrón de ingesta proteica

No Sí
Recuento % fila Recuento % fila
Tipo de Urbana Condición Alta 23 20,7% 88 79,3%
localidad socioeconómica de la Media 19 31,7% 41 68,3%
familia en 3 grupos Baja 2 16,7% 10 83,3%
Rural Condición Alta 17 35,4% 31 64,6%
socioeconómica de la Media 56 37,6% 93 62,4%
Tabla 7.20. Resultado de la ventana Tablas básicas para variables por separado
Cumple el patrón de ingesta proteica

No Sí
Recuento % fila Recuento % fila
Ocupación de la madre Labores en el hogar 144 34,0% 280 66,0%
Labores fuera del hogar 6 15,8% 32 84,2%
Municipio Villaflores 67 32,7% 138 67,3%
Jaltenango 87 32,6% 180 67,4%
Tipo de localidad Urbana 44 24,0% 139 76,0%
Rural 110 38,1% 179 61,9%
Tipo de baño Excusado 48 25,5% 140 74,5%
Letrina, hoyo 47 34,8% 88 65,2%
Nada, a ras del suelo 59 39,6% 90 60,4%
Tienen luz en casa? No 24 40,7% 35 59,3%
Sí 130 31,5% 283 68,5%
Tienen nevera? No 114 34,8% 214 65,2%
Sí 40 27,8% 104 72,2%
Tienen TV? No 72 36,9% 123 63,1%
Sí 82 29,6% 195 70,4%
Combustible que utilizan Leña o carbón 99 37,2% 167 62,8%
para cocinar Gas 55 26,7% 151 73,3%
Tienen seguro social? No 145 34,0% 282 66,0%
Sí 9 20,0% 36 80,0%
Sexo del cabeza de Masculino 145 32,8% 297 67,2%
familia Femenino 9 30,0% 21 70,0%
Ocupación del cabeza de Agropecuario 120 37,0% 204 63,0%
familia Otros 34 23,0% 114 77,0%
Sexo Masculino 71 29,8% 167 70,2%
Femenino 83 35,5% 151 64,5%
Material del piso Tierra 70 37,4% 117 62,6%
Con recubrimiento 84 29,5% 201 70,5%
Material de las paredes Tierra 125 33,5% 248 66,5%
Con recubrimiento 29 29,3% 70 70,7%
Frecuencia de ingesta de 1 vez o más / 15 días 111 29,9% 260 70,1%
carne Menos de una vez / 15
43 42,6% 58 57,4%
días
Nº de personas / habitación < 5 57 27,0% 154 73,0%
destinada a dormir >= 5 97 37,2% 164 62,8%
Escolaridad de la madre Analfabeto 59 40,1% 88 59,9%
De 1º a 3º primaria 50 34,5% 95 65,5%
Más de 3º de primaria 41 24,1% 129 75,9%
Escolaridad del cabeza Analfabeto 57 45,6% 68 54,4%
de familia De 1º a 3º primaria 53 29,6% 126 70,4%
Más de 3º de primaria 44 26,2% 124 73,8%
Condición Alta 40 25,2% 119 74,8%
socioeconómica de la Media 75 35,9% 134 64,1%
Ahora imagine que, mediante una única tabla, desea presentar todos los resultados
que ha obtenido con las instrucciones CROSSTABS que cruzaban cada una de las varia-
bles categóricas con la adecuación alimentaria. Pues bien, mediante la activación de las
ventanas de Tablas básicas (vea la figura 7.14) seleccione todas las variables que crea
oportunas para describirlas conjuntamente con nut y, además, en vez de elegir la opción
«Todas las combinaciones (anidadas)» elija «Cada una por separado (apiladas)». De
esta forma obtendrá una tabla resumen con la descriptiva bivariada de cada variable
categórica con la adecuación alimentaria. Puede observarlo en la tabla 7.20.
Representación gráfica
Introducción Si bien una tabla de resumen numérico casi siempre aporta más información que una
representación gráfica, hay ocasiones en las que el uso de un gráfico es útil para resal-
tar una descripción de los datos sencilla y amena para el receptor de la información.
La instrucción principal para realizar gráficos con el SPSS es la instrucción GRAPH.
Como siempre que se construye un gráfico, las instrucciones de sintaxis, en cualquier sis-
tema o paquete estadístico, acostumbran a ser muy numerosas, aumentando cuanto mayor
es la calidad del gráfico que se quiera presentar.
Sintaxis Se presenta sólo la sintaxis para que el gráfico quede presentable. Para obtener una visión
mucho más completa consulte los manuales.
GRAPH
[/TITLE=’línea 1’ [’línea 2’]]
[/SUBTITLE=’línea 1’]
[/FOOTNOTE=’línea 1’ [’línea 2’]]
{/BAR [{(Tipo)}]=función/variable}
{/LINE [{(Tipo)}]= función/variable}
{/PIE }
{/HISTOGRAM [(NORMAL)]=var }
{/SCATTERPLOT[{(bi/tridimensional)}]=variable especificación}
{/ERRORBAR[{(CI[{95}])}]={var [var var ...][BY var]} }
[/MISSING=[{casos missing}]]
El significado de las subinstrucciones es el siguiente:
En primer lugar la identificación para el lector del contenido del gráfico:
/TITLE: Permite insertar un título para el gráfico. Puede especificar hasta dos líneas para
éste.
/SUBTITLE: Especifica un subtítulo.
/FOOTNOTE: Especifica una nota al pie del gráfico.
En segundo lugar el tipo de gráfico:
/BAR: Crea un diagrama de barras. Este tipo de gráfico se utiliza habitualmente para
describir la distribución de frecuencias para una variable categórica. También puede ser
usada para representar variables discretas con relativamente pocos valores observados.
A continuación se muestran algunos ejemplos de esta subinstrucción.
GRAPH
/BAR(SIMPLE)=COUNT BY edad4
/TITLE= ‘Distribución de los niños estudiados según edad.’.
En este caso el resultado sería el descrito en la figura 7.15:
Figura 7.15. Ejemplo de diagrama de barras en GRAPH.
Distribución de los niños estudiados según edad.

180
160
140
120
100
80
Frecuencia
60
[12-24) [24-36) [36-48) [48-60)
También podríamos representar en un mismo gráfico la descripción por diagrama

de barras en subgrupos generados por una variable de tipo categórico a través del uso
de BY.
GRAPH
/BAR(GROUPED)=PCT BY mescola BY tip_loc
/TITLE= ‘Distribución de los años de estudio’ ‘de la madre
según el tipo de localidad.’.
Figura 7.16. Ejemplo del uso de la opción BY en el diagrama de barras.
Distribución de los cursos escolares superados

por la madre según el tipo de localidad
40
30
20
10
Tipo de localidad
Porcentaje
Urbana
0 Rural
0 1 2 3 4 5 6 7 8 9 10 12 13 15 17
Cursos escolares superados por la madre

/LINE: En esta subinstrucción se indica si en la gráfica se especifican curvas en las que

cada punto representa un valor de frecuencia o de porcentaje o de media de una varia-
ble con valores repetidos, o bien si lo que se representan son áreas debajo de la curva o
diferencia de áreas o de ordenadas entre curvas. Por defecto se entiende que el gráfico
representa una o varias curvas individuales.
GRAPH
/LINE(SIMPLE)=MEAN(peso_kg) BY edadmes
/TITLE= ‘Peso del niño según su edad.’.
Figura 7.17. Ejemplo de gráfico de línea.
Peso del niño según su edad

22
20
18
16
Media del peso del niño (en kilos)
14
12
10
8
12 15 18 21 24 27 30 33 36 39 42 45 48 51 54 57
Edad del niño (en meses)
/PIE: Realiza un gráfico de sectores. Utilizado, a menudo, para describir la distribu-

ción de los porcentajes de cada categoría de una variable categórica.
GRAPH
/PIE=PCT BY sanit
/TITLE= ‘Tipo de baño de las casas estudiadas.’.
En la figura 7.18 se muestra la representación obtenida con la instrucción PIE.
Figura 7.18. Ejemplo de gráfico de sectores.
Tipo de baño de las casas estudiadas
Excusado
Letrina, hoyo
Nada, a ras del suelo

/HISTOGRAM: Genera un histograma tal y como se muestra en la figura 7.19. Éste es

uno de los gráficos más usados para describir una variable cuantitativa. Observe cómo
el programa directamente agrupa los valores en intervalos iguales y mediante la barra repre-
senta la frecuencia de valores observados en ese intervalo. Si se especifica NORMAL,
se superpone una curva normal que ayuda a juzgar si los datos están distribuidos según
una normal con igual media y desviación estándar que la de la muestra de datos del estu-
dio.
Figura 7.19. Ejemplo de histograma con curva normal superpuesta.
Distribución de las proteínas consumidas

70
60
50
40
30
20
10 Desv. típ. = 18,08

Media = 35,9
0 N = 472,00
5,
15
25
35
45
55
65
75
85
95
10
11
12
0
5
,0
,0
,0
,0
,0
,0
,0
,0
,0
5,
5,
,0
0
Total de proteínas consumidas el día anterior a la encuesta
/SCATTERPLOT: Genera un gráfico bi o tridimensional útil para examinar la relación

entre dos o tres variables cuantitativas. Por ejemplo, en el fichero de trabajo, la aplica-
ción de las siguientes instrucciones permite visualizar los gráficos que se muestran a
continuación en las figuras 7.20 y 7.21.
GRAPH
/SCATTERPLOT(BIVAR)=peso_kg WITH tall_cms
/TITLE= ‘Relación entre el peso y la talla de los niños estu-
diados.’.
Figura 7.20. Ejemplo de diagrama de dispersión bidimensional.
Relación entre el peso y la talla de los niños estudiados

120
110
100
90
Talla del nño (en centímetros)
80
70
60
0 10 20 30
Peso del niño (en kilos)

GRAPH
/SCATTERPLOT(XYZ)=peso_kg WITH tall_cms WITH protot
/TITLE= ‘Total de proteínas consumidas según peso y talla.’.
Figura 7.21. Ejemplo de diagrama de dispersión tridimensional
Total de proteínas consumidas según peso y talla
120
110
100
90
Talla (cms)
80
70
60
30 120 140
20 100
80
60
Peso (kgs)
10 20 40
0 Total proteínas consumidas
/ERRORBAR: Permite describir la media y medidas de dispersión obtenidas de cierta

variable en función de los valores de otra categórica.
El punto medio representa la media observada mientras que los intervalos señalan
lo que el analista especifique. Entre paréntesis y después de ERRORBAR indique:
— CI n**: los intervalos representarán el intervalo de confianza al nivel n. Por defecto,

n = 95.
— STERROR n: los intervalos representarán n unidades de error estándar. Para n =
1,96 obtendría el IC al 95%.
— STDDEV n: los intervalos representarán n unidades de desviación típica.
Por ejemplo, la instrucción siguiente produce como resultado el gráfico de la figura

7.22.:
GRAPH
/ERRORBAR( CI 95 )=protot BY edad4
/TITLE= ‘Total de proteínas consumidas según la edad del
niño.’ .
Figura 7.22. Intervalos de confianza de las medias de la variable total de proteínas en los distintos gru-
pos de edad de los niños estudiados.
Total de proteínas consumidas según la edad del niño

44
42
40
38
36
95% IC Total de proteínas consumidas

34
32
30
28
N= 151 159 88 74
[12-24) [24-36) [36-48) [48-60)
/MISSING: Determina qué casos serán excluidos del análisis y por tanto no estarán
presentes en el gráfico. Debe elegir una opción de cada pareja:
— LISTWISE** / VARIABLE: La primera excluye, para el análsis de cada variable

especificada en la instrucción, aquellos casos que presentan algún missing en cual-
quiera de las variables estudiadas. Es decir, solo utiliza aquellos casos en que no se
observa ni un solo missing en todas las variables analizadas. VARIABLE solo excluye
el caso de la variable que presenta el missing, no de las demás.
— EXCLUDE** / INCLUDE: EXCLUDE trata los valores missing de usuario, que no
los de sistema, como valores que no forman parte del análisis mientras que INCLUDE
sí los tiene en cuenta.
— NOREPORT** / REPORT: La primera no utiliza ni los missing de usuario ni de
sistema en la descripción, al contrario de REPORT, que usa tanto unos como otros.
Ventanas Tal y como se muestra en la siguiente figura 7.23, al activar el menú de Gráficos de la
barra de herramientas se ofrece no sólo la gama de gráficos enunciada sino muchos más.
Recomendamos, de todas formas, la lectura detallada del manual de ayuda para poder
elaborar sin demasiada pérdida de tiempo el gráfico más adecuado.
Figura 7.23. Menú desplegable que muestra las diferentes opciones gráficas del programa.
*****************************************************************.
* CONTROL DE CALIDAD *.
*****************************************************************.
GET FILE=’C:\Spss\Chiapas\Nutricio.sav ‘.
* Buscamos valores fuera de rango e imposibles *.
DESCRIPTIVES protea protev protot tall_cms peso_kg

/STATISTICS=MIN MAX .
FREQUENCIES sexo ed_madre mescola mocupa municipi totape tip_loc

ncudor sanit luz refr tv paredes piso com_coc segsoc
sex_jefe ed_jefe jescola jocupa fr_carne edadmes edad4
nut piso2 paredes2 cse .
************************ Comentarios ***************************.

* *.
* A destacar: *.
* *.
* SEXO: escrito de ocho formas distintas y un caso en blanco *.
* 9.7% de valores missing en la edad de la madre. *.
* 1 edad madre = 95. *.
* 1 ocupación madre = 4. *.
* 1 edad cabeza familia = 510. *.
* *.
*****************************************************************.
* Recuperamos el número de cuestionario de los casos con errores *.

* para trasladarlos a los responsables de la recogida de datos *.
* con el fin de ver si se puede averiguar alguno *.
COMPUTE filtro=(sexo=’ ‘) .
FILTER BY filtro .
EXECUTE .
FREQ ncuest .
COMPUTE filtro=(ed_madre=95) .
FILTER BY filtro .
EXECUTE .
FREQ ncuest .
COMPUTE filtro=(mocupa=4) .
FILTER BY filtro .
EXECUTE .
FREQ ncuest .
COMPUTE filtro=(ed_jefe=510) .
FILTER BY filtro .
FREQ ncuest .
FILTER OFF .
* atención, sabemos que: ncuest=426 es MASCULINO *.
* Corregimos errores *
RECODE
ed_madre (95=SYSMIS) .
EXECUTE .
RECODE
mocupa (4=SYSMIS) .
EXECUTE .
RECODE
ed_jefe (510=SYSMIS) .
EXECUTE .
COMPUTE sexo=LTRIM(UPCAS(sexo)) .
EXECUTE .
RECODE
sexo (» »=»MASCULINO») (»FEMENU9»=»FEMENINO») (»FEMENINP»=»FEME-
NINO») (»MASCLINO»=»MASCULINO») .
EXECUTE .
* Transformamos la variable SEXO a numérica *.
RECODE sexo
(»MASCULINO»=1) (»FEMENINO»=2) INTO sex .
EXECUTE.
VAR LEV sex (NOMINAL).
VAL LAB sex 1 ‘Masculino’ 2 ‘Femenino’ .
FREQ sexo ed_madre mocupa ed_jefe .

* Guardamos el archivo depurado con el nombre de NUT_FIN.SAV *.
* Además, para ese fichero no mantenemos las variables que *.
* no vamos a analizar puesto que las hemos transformado o nos *.
* han servido para crear otras nuevas *.
SAVE OUTFILE=’C:\Spss\Chiapas\Nut_fin.sav ‘ /COMPRESSED

/DROP= f_entr f_nacim totape ncudor carne sexo .
*****************************************************************.
* DESCRIPCIÓN DE LOS DATOS *.
*****************************************************************.
GET FILE=’C:\Spss\Chiapas\Nut_fin.sav’ .
************** DESCRIPCIÓN UNIVARIADA *****************.

* Variables categóricas *.
FREQ mocupa municipi tip_loc sanit luz refr tv paredes piso com_coc
segsoc sex_jefe jocupa fr_carne edad4 nut piso2 paredes2 .
* Variables cuantitativas discretas *.
FREQ ed_madre mescola ed_jefe jescola edadmes cse

/STATISTICS=MEAN MEDIAN SKEWNESS SESKEW KURTOSIS SEKURT .
* Variables continuas *.
DESCRIPTIVES protea protev protot tall_cms peso_kg hacinam pro-

tot
/STATISTICS=ALL .
*************** DESCRIPCIÓN BIVARIADA ****************.
* Variables categóricas y adecuación alimentaria *.
CROSSTABS
mocupa tip_loc sanit luz refr tv paredes piso com_coc segsoc
sex_jefe jocupa fr_carne sex piso2 paredes2 BY nut
/CELLS= COUNT ROW .
* Variables cuantitativas y adecuación alimentaria *.
EXAMINE VAR=ed_madre mescola ed_jefe jescola hacinam cse BY nut

/PLOT NONE
/MISSING PAIRWISE .
** Valorados los resultados, recodificamos algunas variables **.
RECODE fr_carne
(1 thru 3=1) (4 thru hi=2) INTO carne2 .
EXECUTE .
FOR carne2 (F1.0) .
VAR LAB carne2 ‘Frecuencia de ingesta de carne’ .
VAL LAB carne2 1 ‘1 vez o más / 15 días’ 2 ‘Menos de una vez /
15 días’ .
VAR LEV carne2 (NOMINAL) .
RECODE
hacinam (Lowest thru 4.99=1) (5 thru Highest=2) INTO hac .
EXECUTE .
FOR hac (F1.0) .
VAR LAB hac ‘Nº de personas / habitación destinada a dormir’ .
VAL LAB hac 1 ‘< 5’ 2 ‘>= 5’ .
VAR LEV hac (NOMINAL) .
RECODE mescola jescola

(0=0) (1 thru 3=1) (4 thru hi=2) INTO mestud jestud .
EXECUTE .
FOR mestud jestud (F1.0) .

VAR LAB mestud ‘Escolaridad de la madre’
/ jestud ‘Escolaridad del cabeza de familia’ .
VAL LAB mestud jestud 0 ‘Analfabeto’ 1 ‘de 1º a 3º primaria’ 2
‘más de 3º de primaria’ .
VAR LEV mestud jestud (ORDINAL) .
RECODE cse (0 thru 2=1) (3 thru 5=2) (6 thru Hi=3) INTO cse3.
EXECUTE .
FOR cse3 (F1.0) .
VAR LAB cse3 ‘Condición socioeconómica de la familia en 3 gru-
pos’ .
VAL LAB cse3 1 ‘Alta’ 2 ‘Media’ 3 ‘Baja’ .
VAR LEV cse3 (ORDINAL) .
FREQ mestud jestud carne2 hac cse3 .
SAVE OUTFILE=’D:\Spss\Chiapas\Nut_fin.sav’ / COMPRESSED .
* Realizamos la descriptiva bivariada con estas variables *.
CROSSTABS
mestud jestud carne2 hac cse3 BY nut
/CELLS= COUNT ROW .
Capítulo 8. Macros o programas de uso frecuente
Introducción A medida que un analista de datos adquiere experiencia en el trabajo, observa que muchas
de las acciones que realiza en un estudio son iguales o casi repetidas de las que ha rea-
lizado en otros estudios. Además, cada persona sistematiza esas acciones de una forma
particular en función de su forma de desarrollar el análisis. Así, escribir cada vez una misma
sintaxis o ejecutar las mismas ventanas cambiando solamente las variables objeto de
estudio implica un incremento muy considerable de tiempo. Una opción es tener cada
una de esas instrucciones almacenadas en un fichero de sintaxis y variar exclusivamente
el nombre de las variables mediante el Editor, una vez abierto el programa, ya almace-
nado, en la ventana de Sintaxis.
Otra opción, mucho más interesante, consiste en la creación de macros o programas
de uso frecuente, que permiten el trabajo sistematizado de determinadas acciones. Por
ejemplo, ¿por qué escribir (o reescribir) constantemente una instrucción CROSSTABS,
que muestre la distribución conjunta y una de las condicionadas, si puedo obtenerlo
mediante una sola línea de texto en que especifique exclusivamente las variables sobre
las cuales realizar dicha descripción?
En este capítulo vamos a introducir el concepto de macro o programa de uso fre-
cuente y cómo se trabaja con él.
Debemos indicar al lector, no obstante, que las posibilidades de creación de progra-
mas de uso frecuente o macros es muy amplia. Aquí, de forma introductoria, le mostra-
mos la filosofía de dichos programas, cómo se crean y ejecutan. Al lector interesado en
profundizar en el tema, le aconsejamos que lo haga mediante los manuales del programa.
Sintaxis La instrucción que permite definir acciones de uso frecuente, se describe a continua-
ción:
DEFINE nombre
([{argumento=} {!TOKENS (n) }]
{!POSITIONAL= } {!CHAREND(’char’)}
[/{nombre argumento=} ...])
{!POSITIONAL= }
cuerpo de la macro
!ENDDEFINE
DEFINE nombre: Es la instrucción general que define un programa macro. Todas las
macros deben empezar con un DEFINE. A continuación de la indicación de inicio de una
macro (DEFINE) debemos especificar el nombre que le daremos a esta instrucción de
ahora en adelante.
Si revisa las instrucciones que hemos descrito en este libro, en especial en las de
estadística descriptiva, observará que en la mayoría de ellas las variables implicadas
están agrupadas en dos conjuntos que se relacionan entre sí. En general la relación se indica
mediante la palabra o instrucción BY. En una instrucción macro esta información se
indica con la subinstrucción nombre del argumento o con la correspondiente POSI-
TIONAL.
nombre del argumento: Los argumentos o palabras claves especifican nombres

asignados arbitrariamente por el analista en la definición de la macro. En el cuerpo o
texto de la macro estos argumentos deben ir precedidos por el signo de exclamación (!).
!POSITIONAL= Después de esta subinstrucción podemos definir los argumentos según

su posición relativa en la lista de variables que se definen en la macro.
Es decir en la POSITIONAL = 1 se indicará a continuación cuántas variables com-
ponen este primer subconjunto o, en la lista de variables, con qué carácter finaliza este
subconjunto en la lista.
Es decir, una vez escogida una de las dos opciones para definir los conjuntos que se
relacionan en la instrucción o instrucciones que componen la macro, debe indicarse de
alguna manera cuántas variables componen cada argumento o POSITION. En principio
existen dos formas para indicar esa información.
— !TOKENS (n): Asignando un valor a n, entre paréntesis, se indica que ese argu-
mento o POSITION está constituido por n variables, las cuales se indicarán en la
instrucción de sintaxis a ejecutar.
— !CHAREND (’char’): Al especificar un carácter determinado, ‘char’ entre los
paréntesis, se está indicando el final de la lista de variables que pertenecen a ese
argumento o position.
Como puede ver, ambas opciones tienen como objetivo exclusivamente especificar
las variables que corresponden a cada argumento.
cuerpo de la macro: El cuerpo de la macro es, básicamente, una o un conjunto de

instrucciones de SPSS, cualquiera de las que el lector ya conoce. Es decir, es la macro
en sí, mientras que lo expresado anteriormente es cómo se referirá a ella en la sintaxis
de ahora en adelante.
En la práctica, la única diferencia plausible con una instrucción ejecutada de forma
normal es que si en la macro se han utilizado argumentos, éstos deben ir precedidos por
el signo de exclamación.
Una vez escrita la macro deseada, debe seguir dos pasos para ejecutar las instrucciones
que lleva incorporadas:
1. Ejecutar la macro como se realiza con cualquier instrucción de sintaxis de SPSS:

Con esta acción la macro queda cargada de tal forma que nombre macro se asocia
a las instrucciones definidas. Aparentemente no sucede nada, sólo que la macro está
lista para ser utilizada.
2. Realizar la llamada a la macro:
Dicha acción se realiza mediante la inclusión en el programa de sintaxis del nom-
bre macro [argumento/s].
Así, las instrucciones contenidas en la macro se ejecutan sobre el/los argumento/s que
especifique, siempre que dicha macro necesite de tal o tales argumentos.
A continuación vamos a crear una macro que nos permita sistematizar la descripción
de dos variables categóricas conjuntamente. Tal y como vimos en el capítulo 7, al exis-
tir una variable de especial interés o respuesta, presentaremos dicha descripción mediante
la distribución conjunta de las dos variables y una de las distribuciones condicionadas.
Además, antes de esto, listaremos las distribuciones de frecuencias de todas las varia-
bles que participen en el análisis.
Pues bien, la definición de esta macro podría ser:
DEFINE cruce (int=!TOKENS(1) /exp=!TOKENS(20)).

FREQ !int !exp .
CROSS
/TABLES= !exp BY !int
/CELLS= COUNT ROW .
!ENDDEFINE .
Observaciones:
— Cruce es el nombre con el que a partir de ahora llamaremos esta macro a partir de
ahora. Posee dos conjuntos de variables definidos por argumentos de nombres int y
exp.
El objetivo de la macro es el de cruzar y describir las variables que se indiquen en
cada argumento .
— Int es el argumento que hace referencia a la variable respuesta o de interés. El nom-
bre del argumento int es totalmente arbitrario. Ya que en nuestro estudio sólo tene-
mos una, la adecuación alimentaria, especificamos !TOKENS(1).
— Exp permite señalar las variables explicativas. Este nombre, al igual que en el caso
anterior, también es arbitrario. En el estudio que realizamos hay muchas. Suponga-
mos que en un sola llamada a la macro deseemos realizar la descripción para, como
máximo, veinte variables. De ahí: !TOKENS(20).
— El cuerpo de la macro está formado por una instrucción FREQUENCIES y un
CROSSTABS. En ellas se especifican los argumentos definidos en DEFINE.
Una vez definida una macro, como ya hemos dicho, su activación se realiza mediante
su ejecución en el fichero de sintaxis (selección con el cursor del texto definitorio de la
macro y pulsando la tecla de la barra de herramientas del Editor de sintaxis), tal y
como se muestra en la figura 8.1.
Figura 8.1. Ejecución de una macro. Primer paso
Aunque aparentemente no pasa nada, la macro ya está cargada y a punto de ejecu-

tarse al ser llamada.
Para llamar la macro y ejecutarla, sólo se debe especificar su nombre y qué varia-
bles conforman cada argumento o subgrupo de variables. Por ejemplo:
cruce int=nut exp=municipi mocupa mestud .
Obviamente dicha instrucción se ejecuta, en el fichero de sintaxis, de la forma habi-

tual. Observe la figura 8.2.:
Figura 8.2. Ejecución de una macro. Segundo paso.
Una vez ejecutado lo anterior, vaya al fichero de resultados y observe lo que aparece.
A continuación o en cualquier otro momento podríamos ejecutar de nuevo la macro
pero, obviamente, con otras variables en los argumentos. Por ejemplo:
cruce int=municipi exp=sex edad4 jestud .
En este caso el análisis requerido sería el mismo que en el caso anterior pero refe-
rido a la variable municipi frente a sex, edad4 o jestud.
Creemos, ahora, otra macro:
DEFINE cruce2 (!POSITIONAL !TOKENS(1) /!POSITIONAL !TOKENS(20)).

FREQ !1 !2 .
CROSS
/TABLES=!2 BY !1
/CELLS= COUNT ROW .
!ENDDEFINE .
la ejecutamos y a continuación la invocamos mediante la expresión:
cruce2 nut municipi mocupa mestud.
Compare los resultados obtenidos con esta segunda macro con los obtenidos ante-
riormente.
Comentarios 1. Note que al invocar las macros en el programa, después del nombre que la identi-
fica, los argumentos no van precedidos por el signo de admiración.
2. Observe que ambas macros (cruce y cruce2) ejecutan las mismas acciones: en el
fichero de resultados aparecen las distribuciones de frecuencias de nut, municipi,
mocupa y mestud y posteriormente se nos presentan los cruces de NUT con las otras
variables.
3. Entre ambas macros, la única diferencia es cómo se definen los argumentos: si se hace
según un nombre especificado por el propio usuario o según el orden establecido en
la definición de la macro.
Otra macro interesante podría ser la que permitiera efectuar la descripción de una varia-
ble cuantitativa según otra categórica. Podría tener esta forma:
DEFINE conbycat (titulo=!TOKENS(1) / con=!TOKENS(1)

/cat=!TOKENS(20)).
SUMMARIZE
/TABLES=!con BY !cat
/CELLS=COUNT MEAN SEMEAN MIN MEDIAN MAX
/TITLE=!titulo .
!ENDDEFINE .
Y la llamaríamos así:
conbycat titulo=’Descripción de proteínas totales según

características de la casa’ con=protot cat= sanit
luz refr tv paredes2 piso2 com_coc .
Pero las macros no permiten solamente sistematizar acciones de análisis o descrip-

ción, sino de manipulación de archivos o también de creación o transformación de varia-
bles. En la siguiente macro, por ejemplo, se crea una variable que será el número de días
transcurridos entre dos fechas, se etiquetará la nueva variable y se realizará una des-
cripción de la misma. Por ejemplo, con las fechas de nacimiento y entrevista presentes
en los archivos NIN_VILL.SAV y NIN_JAL.SAV (o NINHOS.SAV). Observe:
DEFINE dias (f_fin=!TOKENS(1) /fecha1=!TOKENS(1)

/fecha2=!TOKENS(1) /et_var=!TOKENS(1)).
COMPUTE !f_fin = ctime.days(!fecha1 - !fecha2) .
EXECUTE .
VAR LAB !f_fin !et_var .
EXAMINE VAR=!f_fin
/PLOT NONE.
!ENDDEFINE .
La invocación en nuestro ejemplo de esta macro tendría la siguiente expresión:
dias f_fin=ed_dias fecha1=f_entr fecha2=f_nacim et_var=’Días

transcurridos entre el nacimiento del niño y la
entrevista.’ .
Comentarios Una opción interesante para rentabilizar el tiempo en análisis que son repetitivos con-
siste en la creación de un archivo de macros. Éste no es más que un fichero de instruc-
ciones SPSS normal, en el cual hay todas las macros que Ud. desee y que, al ejecutarlo,
carga todas las macros a la vez de forma que puede utilizar cualquiera de las que con-
tiene. Con esto, cuando cree una nueva macro podrá añadirla al citado archivo sin más,
sabiendo que en él tiene almacenadas todas las macros que utiliza y no dispersas por el
disco.
Por ejemplo, si quisiéramos crear un archivo de macros con las que hemos especi-
ficado hasta ahora, tan sólo deberíamos abrir el Editor de sintaxis, y detallar cada macro
a continuación de la anterior, sin más:
DEFINE cruce (int=!TOKENS(1) /exp=!TOKENS(20)).

FREQ !int !exp .
CROSS
/TABLES=!exp BY !int
/CELLS= COUNT ROW .
!ENDDEFINE .
DEFINE cruce2 (!POSITIONAL !TOKENS(1) /!POSITIONAL

!TOKENS(20)).
FREQ !1 !2 .
CROSS
/TABLES=!2 BY !1
/CELLS= COUNT ROW .
!ENDDEFINE .
DEFINE conbycat (titulo=!TOKENS(1) / con=!TOKENS(1)

/cat=!TOKENS(20)).
SUMMARIZE
/TABLES=!con BY !cat
/CELLS=COUNT MEAN SEMEAN MIN MEDIAN MAX
/TITLE=!titulo .
!ENDDEFINE .
DEFINE dias (f_fin=!TOKENS(1) /fecha1=!TOKENS(1)

/fecha2=!TOKENS(1) /et_var=!TOKENS(1)).
COMPUTE !f_fin = ctime.days(!fecha1 - !fecha2) .
EXECUTE .
VAR LAB !f_fin !et_var .
EXAMINE VAR=!f_fin
/PLOT NONE.
!ENDDEFINE .
Así, si decide tener este archivo almacenado (imaginemos que lo nombra

MACROS.SPS) en un directorio o carpeta particular de su sistema (por ejemplo,
C:\SPSS\HABITUAL\), al iniciar una nueva sesión de SPSS, sólo deberá ejecutarlo
mediante la siguiente instrucción:
INC ‘C:\SPSS\HABITUAL\MACROS.SPS’ .
De esta forma las macros cruce, cruce2, conbycat y dias ya están cargadas y dispo-
nibles para ser utilizadas, en cualquier momento mientras dure la sesión, tal y como
explicamos anteriormente.
Capítulo 9. Autoevaluación
Introducción
El lector que haya seguido sistemáticamente el texto de este libro está en disposición de
efectuar todas las manipulaciones de archivos o ficheros que le permite el SPSS de una
forma rigurosa y profesional. No obstante, es preciso comprobar hasta qué punto el nivel
de conocimientos adquiridos le permite afrontar la manipulación de nuevos datos y efec-
tuar los análisis descriptivos de los mismos sin un guión explícito de los pasos necesa-
rios.
Por esta razón, en este capítulo se presenta un nuevo ejemplo basado también en un
estudio real realizado en Brasil, en el contexto del programa de internado rural del currí-
culo de Medicina de la Universidad Federal de Minas Gerais. (UFMG)
Análisis de la distribución de fármacos en familias de la zona urbana del

municipio de Ibiá-MG-Brasil
Dicho estudio fue realizado por Horacio Pereira Faria, profesor del Departamento de
Salud Pública y Ocupacional de la Facultad de Medicina de la UFMG entre los años
1997 y 2000.
El trabajo que vamos a analizar parcialmente justificaba el estudio en base a la nece-
sidad de planificar la prestación farmacéutica por dos motivos: en primer lugar, la insu-
ficiencia de recursos del sistema público de salud, que, en el contexto en que se efectúa
el trabajo, es responsabilidad del municipio; y, en segundo lugar, por el hecho de que un
porcentaje significativo de la población no dispone de recursos para la compra de los medi-
camentos no cubiertos por el sistema público.
Bajo estas dos premisas se pretende conocer la distribución de la tenencia de medi-
camentos por las familias de Ibiá, municipio del estado de Minas Gerais en Brasil, y la
naturaleza de los factores que pueden influir en dicha distribución.
De forma genérica, se pretende describir si los factores de naturaleza socioeconómica
condicionan la tenencia de medicamentos y si ese condicionamiento es equivalente o
similar al que podría considerarse a priori más lógico, cuál es el que genera el hecho de
la presencia o no de personas enfermas en la familia.
En el ejemplo que vamos a enunciar se pretenderá llegar exclusivamente a este
aspecto descriptivo, si bien el trabajo original efectúa otros tipos de análisis, en base a
modelos logísticos, para cuantificar esas posibles relaciones.1
1. Horacio Pereira de Faria, Análisis de la distribución de fármacos en familias de la zona urbana del municipio de
Ibiá-MG-Brasil mediante modelos logísticos, Cerdanyola del Vallès: Universitat Autònoma de Barcelona, 2001.
[Tesina.]
Características del municipio y de la muestra estudiada
El estudio se llevó a cabo en el municipio de Ibiá, y es de naturaleza transversal. Para

ello se utilizaron, básicamente, los datos de una encuesta domiciliar realizada en el área
urbana del municipio con el objetivo de obtener informaciones para la actividad de pla-
nificación de salud por la administración del municipio.
Ibiá es un municipio de la región sudoeste de la provincia de Minas Gerais (Trian-
gulo Mineiro), Brasil. Observe su situación geográfica en la figura 9.1.:
Figura 9.1. Situación geográfica de Ibiá en el estado de Minas Gerais, Brasil.
En el momento del estudio Ibiá contaba con una población alrededor de 20.000 per-
sonas, de las cuales cerca del 90% vivían en el área urbana. El municipio presentaba
una economía basada en la agricultura, de modo particular en el cultivo de la patata.
La región urbana del municipio estaba dividida por la administración municipal en
2 áreas de salud según criterios socioeconómicos y de accesibilidad a los servicios de
salud. Cada área de salud, a su vez, estaba dividida en microáreas según criterios geo-
gráficos y operacionales (área de trabajo de los Agentes Comunitarios de Salud - ACS).
La encuesta se llevó a cabo en el segundo semestre de 1997. El cuestionario fue apli-
cado por los agentes comunitarios de salud, los cuales siguieron un curso de adiestramiento
específico para esta finalidad.
Fueron seleccionadas de forma aleatoria 5 microáreas, siendo 2 del área A y 3 del
área B, que tenían respectivamente 10 y 14 microáreas. Esto representó un total de 1025
familias y un 27% del total de los hogares catastrados, siendo en todos los casos la uni-
dad básica de análisis el hogar, que, casi siempre, era habitado por una única familia. Final-
mente se consiguió encuestar a 976 hogares, es decir, un 95,2% de los inicialmente dese-
ados. Para efecto de este trabajo se utilizó indistintamente la expresión hogar o familia.
El cuestionario tenía 3 bloques de preguntas cerradas y abiertas que generaron las
siguientes variables de estudio:
" Número de personas residentes en el hogar.

" Número de personas mayores de 64 años.
" Número de personas menores de 15 años.
" Presencia/ausencia de personas con enfermedad aguda en el hogar. Esta variable

se refiere a la morbilidad percibida en los últimos 15 días de la encuesta.
" Presencia/ausencia de personas con enfermedad crónica en el hogar.
" Escolaridad máxima de las personas mayores de 15 años que vivían en el hogar.
Esta variable fue dicotomizada considerando alta escolaridad tener curso superior o
secundario y baja escolaridad tener apenas la primaria o no tener educación formal.
" Características del hogar: se observaba si la vivienda tenia sanitario, suministro de
agua, colecta de basura, alcantarillado, nevera, televisión, cuántas habitaciones, si en
el momento de la encuesta había periódicos y revistas en el hogar y si la familia dis-
ponía de automóvil.
" Tenencia de fármacos: se examinaba si en el momento de la encuesta había fár-
macos en el hogar y en caso afirmativo, para cada uno de ellos se observaba:
" Fármaco prescrito: si el fármaco encontrado en el hogar había sido prescrito o no
por personal médico.
" Grupos terapéuticos: Para cada fármaco se anotaba la pertenencia a un conjunto de
grupos terapéuticos, conjunto constituido por aquellos tipos de actividad terapéu-
tica de mayor interés y uso en la medicina de primer nivel o de atención primaria.
Los grupos considerados se muestran en la tabla 9.2.
Con frecuencia se encuentran fármacos que poseen más de un principio activo, por
lo que, en ese caso, el fármaco concreto podrá tener marcado más de un grupo tera-
péutico.
Este sistema de clasificación permitiría, en caso de que el investigador lo necesi-
tase, determinar cuántos medicamentos son combinaciones medicamentosas y de
qué tipo.
Estos datos se encontraban recogidos en diferentes archivos, los cuales, manipula-

dos ligeramente para presentarlos en este libro, se resumen en los tres que se enuncian
a continuación, con las variables que se indican en cada tabla, tablas 9.1 y 9.2).
Tabla 9.1. Variables contenidas en los archivos ZONA_A.DBF y ZONA_B.DBF.
Variable Descripción Categorías

id_fam Identificador de la familia
tot_pers Total de personas en el hogar
mayores Nº de personas mayores de 64 años
menores Nº de personas menores de 15 años
agudos Presencia de enfermos agudos 0. No, 1. Sí
cronicos Presencia de enfermos crónicos 0. No, 1. Sí
escola Escolaridad máxima 1. Secundaria o universitaria.
2. Sin o primaria.
sanitari ¿Tienen sanitario? 0. No, 1. Sí
agua ¿Tienen suministro de agua? 0. No, 1. Sí
colecta ¿Tienen colecta de basura? 0. No, 1. Sí
alcant ¿Tienen alcantarillado? 0. No, 1. Sí
coche ¿Tienen coche? 0. No, 1. Sí
nevera ¿Tienen nevera? 0. No, 1. Sí
cuartos Nº de habitaciones
tv ¿Tienen televisión? 0. No, 1. Sí
diario Presencia de periódicos 0. No, 1. Sí
revista Presencia de revistas 0. No, 1. Sí
La zona urbana del municipio de Ibiá estaba dividida por la administración munici-
pal en dos áreas de salud según criterios de tipo socioeconómicos. El área A o zona A
(predominantemente clase media y media alta) y el área B o zona B (predominantemente
clase media baja y baja).
Observe que en la tabla 9.1 se detallan las variables registradas en dos archivos dis-
tintos, aunque ambos poseen idénticas variables. El primero corresponde a los hogares
de la zona A y el segundo a los de la zona B.
En la Tabla 9.2 se muestra la información referente a cada uno de los fármacos loca-
lizados en los hogares, así como los grupos terapéuticos en los que puede ser clasificado.
Tabla 9.2. Información de los fármacos encontrados en los hogares en el archivo FARMACOS.XLS.
Variable Descripción Categorías

id_fam Identificador de la familia
farm_num Número identificativo del fármaco en el hogar
prescric ¿Fármaco prescrito? 0. No, 1. Sí
analges Analgésico 0. No, 1. Sí
antiinfl Antiinflamatorio 0. No, 1. Sí
antihip Antihipertensivo 0. No, 1. Sí
diuret Diurético 0. No, 1. Sí
bronco Broncodilatador 0. No, 1. Sí
antaci Antiácido 0. No, 1. Sí
antbio Antibiótico 0. No, 1. Sí
otros Otros 0. No, 1. Sí
Sobre este archivo cabe indicar de nuevo que cada registro (cada fila de la matriz de
datos) se corresponde a un único fármaco. Concretamos esto porque es posible que Ud.
pueda extrañarse al observar que en un mismo registro se indican más de un grupo tera-
péutico. Tal y como se ha indicado anteriormente, esto es perfectamente posible puesto
que un mismo medicamento puede tener más de una acción terapéutica. Por ejemplo, es
conocido que muchos fármacos actúan simultáneamente como analgésicos y antiinfla-
matorios.
Objetivo — El ejercicio consiste en describir de forma bivariada la asociación entre los factores
sociodemográficos, económicos y de morbilidad percibida (en forma de presencia de
enfermos agudos y crónicos) y la tenencia o no de medicamentos en los hogares.
— Como objetivo específico, compruebe también la prescripción de fármacos según el
grupo terapéutico y la condición socioeconómica.
— Según sus intereses fije sus propias hipótesis y realice las descripciones apropiadas
para obtener la información que responda a ellas.
Algunas indicaciones 1. Antes de intentar observar las asociaciones entre la tenencia de fármacos y los fac-
tores de interés siga, como siempre, todas las fases de análisis de un estudio: impor-
tación de archivos de datos, definición, creación y recodificación de variables, mani-
pulación de archivos, control de calidad de los datos registrados y descripción
univariada de los mismos.
2. El investigador principal de este estudio no estaba especialmente interesado en las
variables sobre las características del hogar de forma independiente. Dichas varia-
bles se registraron exclusivamente para generar una clasificación socioeconómica

de las familias. Esta clasificación no fue determinada cuantitativamente en razón de
la dificultad de obtenerse indicadores fiables (ingresos por ejemplo). Por este motivo
se optó por construirla a partir de una puntuación respecto a algunas condiciones
observadas en cada hogar:
" Tener sanitario. (1 punto)

" Tener suministro de agua. (1 punto)
" Tener colecta de basura. (1 punto)
" Tener alcantarillado. (1 punto)
" Tener coche. (2 puntos)
" Tener nevera. (1 punto)
" Hacinamiento inferior a la mediana observada. (1 punto)
" Tener televisor. (1 punto)
" Presencia de periódicos. (1 punto)
" Presencia de revistas. (1 punto)
De esta forma se construyó una variable cuyo rango de valores podía variar entre 0
(no presenta ninguna característica «favorable») y 11 (presenta todas las caracterís-
ticas «favorables»). Posteriormente, esta variable puntuación se categorizó en dos gru-
pos en función de la mediana observada.
Compruebe que esta categorización se asocia muy positivamente al cruzar la varia-
ble dicotomizada con el área A y B de salud, áreas de distinta clasificación econó-
mica y social según el municipio de Ibiá.
3. Categorice la tenencia de fármacos, variable de interés, en dos grandes grupos en
función de la mediana del total de fármacos observados en cada hogar.
4. Las variables número de personas mayores de 64 años y número de personas meno-
res de 15 años trátelas como presencia/ausencia de individuos con esas caracterís-
ticas en el hogar, no como el número total de ellos.
5. Observe, también, la más que posible asociación entre el número de habitantes en
el hogar (categorizada por la mediana) y la tenencia de fármacos.
*****************************************************************.
* Pasamos los archivos a formato de datos SPSS, realizamos el *.
* control de calidad y creamos un archivo único de trabajo. *.
*****************************************************************.
*** Importamos y definimos el archivo de la zona A ***.
GET TRANSLATE FILE=’C:\SPSS\Autoeval\zona_a.dbf’ /MAP .
VAR LAB id_fam ‘Identificador de la familia’

/ tot_pers ‘Total de personas en el hogar’
/ mayores ‘Nº de personas mayores de 64 años’
/ menores ‘Nº de personas menores de 15 años’
/ agudos ‘Presencia de enfermos agudos’
/ cronicos ‘Presencia de enfermos crónicos’
/ escola ‘Escolaridad máxima’
/ sanitari ‘Tiene sanitario?’
/ agua ‘Tiene suministro de agua?’
/ colecta ‘Tiene colecta de basura?’
/ alcant ‘Tiene alcantarillado?’
/ coche ‘Tienen coche?’
/ nevera ‘Tiene nevera?’
/ cuartos ‘Nº de habitaciones’
/ tv ‘Tiene TV?’
/ diario ‘Presencia de periódicos’
/ revista ‘Presencia de revistas’ .
VAL LAB escola 1 ‘Secundaria o universitaria’
2 ‘Sin o primaria’
/ agudos cronicos sanitari agua colecta alcant coche
nevera tv diario revista 0 ‘No’ 1 ‘Sí’ .
VAR LEV id_fam tot_pers mayores menores cuartos (SCALE)
/ agudos cronicos escola sanitari agua colecta alcant
coche nevera tv diario revista (NOMINAL) .
SAVE OUTFILE=’C:\SPSS\Autoeval\zona_a.sav’
/COMPRESSED.
*** Importamos y definimos el archivo de la zona B ***.
GET TRANSLATE FILE=’C:\SPSS\Autoeval\zona_b.dbf’ /MAP .

/ tot_pers ‘Total de personas en el hogar’
/ mayores ‘Nº de personas mayores de 64 años’
/ menores ‘Nº de personas menores de 15 años’
/ agudos ‘Presencia de enfermos agudos’
/ cronicos ‘Presencia de enfermos crónicos’
/ escola ‘Escolaridad máxima’
/ sanitari ‘Tiene sanitario?’
/ agua ‘Tiene suministro de agua?’

/ colecta ‘Tiene colecta de basura?’
/ alcant ‘Tiene alcantarillado?’
/ coche ‘Tienen coche?’
/ nevera ‘Tiene nevera?’
/ cuartos ‘Nº de habitaciones’
/ tv ‘Tiene TV?’
/ diario ‘Presencia de periódicos’
/ revista ‘Presencia de revistas’ .
VAL LAB escola 1 ‘Secundaria o universitaria’
2 ‘Sin o primaria’
/ agudos cronicos sanitari agua colecta alcant coche
nevera tv diario revista 0 ‘No’ 1 ‘Sí’ .
VAR LEV id_fam tot_pers mayores menores cuartos (SCALE)
/ agudos cronicos escola sanitari agua colecta alcant
coche n nevera tv diario revista (NOMINAL) .
SAVE OUTFILE=’C:\SPSS\Autoeval\zona_b.sav’
/COMPRESSED.
*** Juntamos los casos de ambas zonas en un solo archivo ***.
ADD FILES /FILE=’C:\SPSS\Autoeval\zona_a.sav’

/FILE=’C:\SPSS\Autoeval\zona_b.sav’
/IN=zona
/DROP= d_r.
EXECUTE.
VAR LAB zona ‘Zona sanitaria’ .

VAL LAB zona 0 ‘A’ 1 ‘B’ .
VAR LEV zona (NOMINAL) .
FOR zona (f1) .
*** Hacemos el control de calidad ***.

FREQ tot_pers agudos cronicos mayores menores escola sanitari
agua colecta alcant coche nevera cuartos tv diario
revista zona .
* Detectamos un error en SANIT -un valor 4- y en COCHE *

* -un valor 8- *.
* No podemos recuperarlos, los transformamos en missing *
* de sistema *.
RECODE sanitari (4=sysmis) .

EXECUTE .
RECODE coche (8=sysmis) .
EXECUTE .
FREQ sanitari coche .
* Guardamos el archivo *.
SORT CASES by id_fam .
SAVE OUTFILE=’C:\SPSS\Autoeval\hogares.sav’
/COMPRESSED.
*** Importamos el archivo FARMACOS.XLS y lo definimos ***.
GET DATA /TYPE=XLS

/FILE=’C:\SPSS\Autoeval\farmacos.xls’
/SHEET=name ‘farmacos’
/CELLRANGE=full
/READNAMES=on .

/ farm_num ‘Número identificativo del fármaco en el’
‘hogar’
/ prescric ‘Fármaco prescrito’
/ analges ‘Analgésico’
/ antiinfl ‘Antiinflamatorio’
/ antihip ‘Antihipertensivo’
/ diuret ‘Diurético’
/ bronco ‘Broncodilatador’
/ antaci ‘Antiácido’
/ antbio ‘Antibiótico’
/ otros ‘Otros’ .
VAL LAB prescric analges antiinfl antihip diuret bronco antaci

antbio otros 0 ‘No’ 1 ‘Sí’ .
VAR LEV id_fam farm_num (SCALE)
/ prescric analges antiinfl antihip diuret bronco antaci
antbio otros (NOMINAL) .
FOR id_fam (f4)
/ farm_num (f2)
/ prescric analges antiinfl antihip diuret bronco antaci
antbio otros (f1) .
*** Realizamos el control de calidad ***.
FREQ farm_num prescric analges antiinfl antihip diuret bronco

antaci antbio otros .
* No detectamos errores. Guardamos el archivo *.
SAVE OUTFILE=’C:\SPSS\Autoeval\farmacos.sav’
/COMPRESSED.
** Agregamos el archivo para obtener uno nuevo con la familia y** .

** el número total de fármacos **.
AGGREGATE
/OUTFILE=’C:\SPSS\Autoeval\farm_fam.sav’
/BREAK=id_fam
/tot_farm = MAX(farm_num).
*** Abrimos y caracterizamos el nuevo archivo ***.
GET FILE=’C:\SPSS\Autoeval\farm_fam.sav’.
VAR LAB tot_farm ‘Total de fármacos en el hogar’ .
SAVE OUTFILE=’C:\SPSS\Autoeval\tot_farm.sav’
/COMPRESSED.
*** Unimos la variable TOT_FARM al archivo de los hogares, ***.

*** HOGARES.SAV ***.
MATCH FILES /FILE=’C:\SPSS\Autoeval\hogares.sav’

/TABLE=’C:\SPSS\Autoeval\tot_farm.sav’
/BY id_fam.
EXECUTE.
*** Creamos y recodificamos variables ***.

* Construimos la variable hacinamiento y la categorizamos *.
COMPUTE hacinam = tot_pers/cuartos .

EXECUTE .
VAR LAB hacinam ‘Nº de personas por habitación’ .
VAR LEV hacinam (SCALE) .
FOR hacinam (f5.2) .
FREQ hacinam .
* La categorizamos en 1=’<= 1 pers/hab’ 2=’> 1 pers/hab’ *.
RECODE hacinam
(Lo thru 1=1) (1.01 thru Hi=2) INTO hac.
EXECUTE .
VAR LAB hac ‘Nº de personas por habitación (categorizada)’ .
VAL LAB hac 1 ‘<= 1 pers/hab’ 2 ‘> 1 pers/hab’ .
VAR LEV hac (ORDINAL) .
FOR hac (f1) .
FREQ hac .
* Los hogares donde no se encontró fármacos, no aparecen en *.

* FARMACOS.SAV y por tanto en el fichero resultante presentan un *.
* SYSMIS en la variable TOT_FARM *.
RECODE tot_farm (SYSMIS=0) .

EXECUTE .
FREQ tot_farm .
* La categorizamos por la mediana *.
RECODE tot_farm
(Lo thru 5=1) (6 thru Hi=2) INTO farm .
EXECUTE .
VAR LAB farm ‘Tenencia de fármacos (categorizada)’ .
VAL LAB farm 1 ‘< 6’ 2 ‘>= 6’ .
VAR LEV farm (NOMINAL) .
FOR farm (f1) .
FREQ farm .
* Categorizamos el total de personas en el hogar según la mediana *.

RECODE tot_pers
(Lo thru 3=1) (4 thru Hi=2) INTO pers_hog.
EXECUTE.
VAR LAB pers_hog ‘Total de personas en el hogar (categorizada)’ .
VAL LAB pers_hog 1 ‘< 4’ 2 ‘>= 4’ .
VAR LEV pers_hog (NOMINAL) .
FOR pers_hog (f1) .
FREQ pers_hog .
* Categorizamos MAYORES y MENORES en Presencia/Ausencia *.
RECODE mayores menores

(0=0) (1 thru Hi=1) INTO mayores2 menores2.
EXECUTE.
VAR LAB mayores2 ‘Presencia de personas mayores de 64 años’
/ menores2 ‘Presencia de personas menores de 15 años’ .
VAL LAB mayores2 menores2 0 ‘No’ 1 ‘Sí’ .
VAR LEV mayores2 menores2 (NOMINAL) .
FOR mayores2 menores2 (f1) .
FREQ mayores2 menores2 .
* Construimos la variable Puntuación socioeconómica *.

* Cada característica ‘positiva’ suma un punto, excepto la *.
* tenencia de coche que suma 2 *.
* Primero la creamos sin tener en cuenta la variable COCHE. *.

* Ya que las características favorables valen un punto, sólo *.
* debemos contar cuántas hay en cada hogar *.
COUNT csepunt = sanitari agua colecta alcant nevera tv diario

revista hac (1) .
EXECUTE .
* Ahora añadimos la puntuación del coche *.
COMPUTE csepunt = csepunt + coche*2 .

EXECUTE .
VAR LAB csepunt ‘Puntuación socioeconómica’ .

VAR LEV csepunt (SCALE) .

FOR csepunt (f2) .
FREQ csepunt .
* Categorizamos la condición socioeconómica *.
RECODE csepunt
(Lo thru 6=1) (7 thru Hi=2) INTO cse .
EXECUTE .
VAR LAB cse ‘Clasificación socioeconómica’ .

VAL LAB cse 1 ‘Menor’ 2 ‘Mayor’ .
VAR LEV cse (NOMINAL) .
FOR cse (f1) .
FREQ cse .
SAVE OUTFILE=’C:\SPSS\Autoeval\far_ibia.sav’
/COMPRESSED.
*****************************************************************.
* Realizamos la descripción univariada de las variables *.
* registradas y creadas *.
*****************************************************************.
* Variables categóricas *.
FREQ agudos cronicos escola sanitari agua colecta alcant coche
nevera tv diario revista zona hac pers_hog mayores2 menores2
cse .
* Variables cuantitativas discretas *.

FREQ tot_pers mayores menores cuartos tot_farm csepunt
/ STATISTICS=MEAN MEDIAN SKEWNESS SESKEW KURTOSIS SEKURT .
* Variables cuantitativas continuas *.
DESCRIPTIVES hacinam
/ STATISTICS=ALL .
*****************************************************************.
* Buscamos asociaciones entre las variables explicativas y la *.
* tenencia de fármacos *.
*****************************************************************.
CROSS
agudos cronicos escola zona hac pers_hog mayores2 menores2 cse
BY farm
/ CELLS = COUNT ROW .
EXECUTE .

Tipos de Estudios Observacionales

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Tipos de Estudios Observacionales

Transféré par

Droits d'auteur :

Formats disponibles

Albert Navarro Giné, Miguel Martín Mateo

Grups de Recerca d’Amèrica i Àfrica Llatines

Uso profesional del SPSS

Datos del editor en México

Se ceden gratuitamente los derechos de autor y de edición de este

ISBN y Depósito legal de la edición en México

CAPÍTULO 1. INTRODUCCIÓN ....................................................................................... 7

CAPÍTULO 2. EL PAQUETE ESTADÍSTICO SPSS ............................................................ 15

CAPÍTULO 3. ACCIONES BÁSICAS CON LA MATRIZ DE DATOS ......................................... 27

CAPÍTULO 4. DEFINICIÓN DE VARIABLES ....................................................................... 55

Valores perdidos o desconocidos ............................................................................ 66

CAPÍTULO 5. MANIPULACIÓN DE FICHEROS ................................................................ 75

CAPÍTULO 6. CREACIÓN Y TRANSFORMACIÓN DE VARIABLES ...................................... 99

CAPÍTULO 7. CONTROL DE CALIDAD Y DESCRIPCIÓN DE LOS DATOS ............................ 119

CAPÍTULO 8. MACROS O PROGRAMAS DE USO FRECUENTE ......................................... 175

CAPÍTULO 9. AUTOEVALUACIÓN ................................................................................ 183

Quisiéramos expresar nuestro agradecimiento a los estudiantes de la Diplomatura de

Un agradecimiento especial le debemos al Dr. Héctor Javier Sánchez Pérez, de ECO-

¿A quién va dirigido el libro?

El libro está dirigido a diferentes tipos de profesionales, especialmente a aquellos cuyo

Estructura del libro

Enunciado del ejemplo práctico: Problemas de desnutrición infantil en la

Figura 1.1. Situación geográfica del estado de Chiapas, México.

Características de la región La Fraylesca y de la muestra estudiada

Como se ha indicado anteriormente, La Fraylesca es una región del estado de Chiapas,

La encuesta se llevó a cabo entre la población residente en 1100 viviendas particu-

1. ÁVILA-CURIEL, A.; CHÁVEZ-VILLASANA, A.; SHAMAH-LEVY, T.; MADRIGAL-FRITSCH,

Capítulo 2. El paquete estadístico SPSS

¿Qué es un paquete estadístico?

Se entiende por paquete estadístico un programa modular o una librería de programas

Estructura básica de un paquete estadístico

La mayoría de paquetes estadísticos están organizados de forma modular.

Finalmente, según esté definido el funcionamiento del programa SPSS en su insta-

archivo de datos original

archivo de instrucciones archivo de datos activo

que se recomienda se guarden siempre en un archivo *.sps, aunque se trabaje de forma

Normas generales de la sintaxis

Como en la mayoría de lenguajes de programación, las instrucciones de SPSS acos-

— Los paréntesis, apóstrofes y caracteres de repetición, /, deben escribirse obligato-

Por ejemplo, la siguiente expresión de sintaxis es una forma simplificada de efec-

La instrucción general FREQUENCIES podría escribirse como FREQ, ya que el

El procedimiento Frecuencias proporciona estadísticos y representaciones gráficas que

Ejecución de una instrucción de sintaxis

Las instrucciones de SPSS se pueden ejecutar de formas diferentes, en función de cómo

Sintaxis La sintaxis que permite la ejecución de un conjunto de instrucciones seleccionado en la

Instrucciones de control (settings)

Al conjunto de instrucciones que regulan el control de la ejecución de un paquete esta-

La instrucción principal es SET, la cual debe ir acompañada de alguna de las opcio-

Figura 2.3. Ejemplo de modificación de las opciones de trabajo o settings.

SET blanks=0 /length=40 /width=132 /Seed=176303.

Y como se ha indicado, un punto después del número correspondiente a seed puede

Ventanas Al efectuar la acción Edición ! , Opciones ! aparece la siguiente pantalla, figura

Figura 2.4. Ventana del menú tras la activación Edición ! Opciones.

Capítulo 3. Acciones básicas con la matriz de datos

El archivo o archivos donde se encuentra la información correspondiente al estudio acos-

Registros: El registro se corresponde con la fila «física» o real de la matriz de datos.

Por ejemplo, en nuestro estudio analizaremos la variable escolaridad de la madre.

Existe la opción, no obstante, de tener la información de las variables organizada

En la actualidad, es cada vez menos frecuente el uso de archivos de datos o de matri-

Figura 3.2. Ejemplo de una matriz de datos agregada.

Introducción En general, la introducción o captura de datos es el aspecto al que se dedica menos

Tabla 3.1. Estructura de variables del archivo NIN_VILL.DAT.

Variable Descripción Valores

! NIN_JAL.DBF: Fichero en formato dBase IV. La estructura del fichero (variables,