Vous êtes sur la page 1sur 7

EXPLORACIN DE DATOS

LVAREZ

PROF.

DR

JORGE

ROBLES

GRUPO. HOSPITAL NGELES LINDAVISTA


ALUMNO: ISRAEL TREJO SNCHEZ

EXPLORACIN DE DATOS
Anlisis Exploratorio
El procedimiento Explorar nos ofrece las posibilidades de representar grficamente los datos,
examinar visualmente las distribuciones para varios grupos de datos, y realizar pruebas de
normalidad y homogeneidad sobre los mismos. Para elegirlo hemos de seleccionar:
El primer paso en un A.E.D. es hacer accesible los datos a cualquier tcnica estadstica. Ello
conlleva la seleccin del mtodo de entrada (por teclado o importados de un archivo) y
codificacin de los datos as como la de un paquete estadstico adecuado para procesarlos.
Los paquetes estadsticos son conjuntos de programas que implementan diversas tcnicas
estadsticas en un entorno comn. Algunos de los ms utilizados son SAS, BMDP, SPSS, SYSTAT,
STATISTICA, STATA y ltimamente MINITAB, S-PLUS, EVIEWS, STATGRAPHICS y MATLAB.
La codificacin de los datos depende del tipo de variable. Los paquetes estadsticos existentes
en el mercado proporcionan diversas posibilidades (datos tipo cadena, numricos, nominales,
ordinales, etc). La inmensa mayora de los paquetes estadsticos permite realizar
manipulaciones de los datos previas a un anlisis de los mismos. Algunas operaciones tiles
son las siguientes:
-

Combinar conjuntos de datos de dos archivos distintos


Seleccionar subconjuntos de los datos
Dividir el archivo de los datos en varias partes
Transformar variables
Ordenar casos
Agregar nuevos datos y/o variables
Eliminar datos y/o variables
Guardar datos y/o resultados

Finalmente, y con el fin de aumentar la inteligibilidad de los datos almacenados, conviene


asociar a la base de datos utilizada, un libro de cdigos en el que se detallen los nombres de
las variables utilizadas, su tipo y su rango de valores, su significado as como las fuentes de
donde se han sacado los datos. Todos los paquetes anteriormente citados permiten esta
posibilidad.

Estadstica descriptiva
La estadstica descriptiva es una gran parte de la estadstica que se dedica a recolectar,
ordenar, analizar y representar un conjunto de datos, con el fin de describir apropiadamente
las caractersticas de este. Este anlisis es muy bsico. Aunque hay tendencia a generalizar a
toda la poblacin, las primeras conclusiones obtenidas tras un anlisis descriptivo, es un
estudio calculando una serie de medidas de tendencia central, para ver en qu medida los
datos se agrupan o dispersan en torno a un valor central.
ANLISIS EXPLORATORIO DE DATOS CON SPSS
Grficos Estadsticos
Una de las herramientas ms populares y utilizada dentro de la estadstica descriptiva es, sin
lugar a dudas, el anlisis grfico de los datos. Como hemos visto, las tablas estadsticas,
resumen los datos de que disponemos sobre una poblacin y dan toda la informacin
necesaria, pero como se suele decir, Una imagen vale ms que mil palabras, luego es
conveniente expresar la informacin de que disponemos mediante un grfico o diagrama,
segn proceda, con el fin de hacerla ms clara y captar de un solo vistazo las caractersticas de
los datos.
Grficos para variables cualitativas o atributos:
Diagrama de barras o bastones. Este tipo de grficos se representan de forma cartesiana en un
eje de coordenadas mediante unas barras que recorren el eje de ordenadas (Y) desde su origen
hasta el valor del punto representado, colocando en el eje de abscisas (X) las diferentes
modalidades de la variable y en el eje de ordenadas (Y) la frecuencia relativa o absoluta, segn
proceda.
Diagramas de sectores. Se utilizan para hacer comparaciones de las distintas modalidades de
un carcter mediante sectores circulares. Para construirlos se divide un crculo en tantas
porciones como modalidades existan de manera que el ngulo central de cada sector ha de ser
proporcional a la frecuencia absoluta o relativa correspondiente.
Pictogramas. Quizs es el tipo de grfico ms bonito a la vista, pues en l aparecen dibujos que
hacen alusin al fenmeno estudiado, mediante su tamao, forma Para realizarlos se
representan a diferentes escalas un mismo dibujo teniendo en cuenta que el permetro del
dibujo tiene que ser proporcional a la frecuencia, pero esto puede incurrir en un efecto visual
engaoso ya que a frecuencia doble corresponde un dibujo de rea cudruple, con lo cual tiene
un inconveniente debido a la falta de precisin.
A pesar de este inconveniente este tipo de dibujos son muy utilizados por los medios de
comunicacin a la hora de hacer que el pblico no especializado comprenda temas complejos
sin necesidad de dar una explicacin complicada.
Grficos para Variables Cuantitativas
Para este tipo de variables, tenemos diferentes grficos segn el tipo de frecuencia que
usemos y adems tenemos que tener en cuenta si la variable es discreta o continua. Segn el
tipo de frecuencia usada se dividen en:
a) Diagramas diferenciales. Representan el nmero o porcentaje de elementos de una
modalidad. Se representan a partir de las frecuencias absolutas o relativas.

b) Diagramas integrales. Representan el nmero de elementos de modalidad inferior o


igual a la dada. Se representan a partir de las frecuencias acumuladas. Este tipo de
diagramas no tiene ningn sentido para variables cualitativas.
GRFICOS PARA VARIABLES CUANTITATIVAS DISCRETAS
Diagrama de barras. Su representacin es idntica a la explicada para variables cualitativas,
las barras deben de ser estrechas para mostrar que los valores que toma la variable son
discretos. Se usan cuando se pretende hacer un diagrama diferencial utilizando variables
discretas.
En el caso de realizar un diagrama integral, es decir, usando frecuencias acumuladas, las
barras aparecen formando una escalera.
GRFICOS PARA VARIABLES CUANTITATIVAS CONTINUAS

Histograma. Para construirlo se representa sobre el eje de abscisas los extremos de las clases
definidas por intervalos. Se usan cuando se pretende hacer un diagrama diferencial utilizando
variables continuas.
El paquete estadstico SPSS permite manipular ficheros de una manera fcil y cmoda. Un
fichero de datos (nombrefichero.sav) se estructura en variables (columnas) en las que se
guardan las distintas observaciones que se han tomado para cada una de ellas.
Cada fila corresponde a un caso (sujeto o unidad estadstica). Estos ficheros adems de los
datos tienen la informacin necesaria para su procesamiento. Otro tipo son los ficheros de
resultados (nombrefichero.spo), con posibilidad de exportar las tablas a otras aplicaciones bien
como objeto o bien como tabla. Adems se pueden modificar quitando o aadiendo cosas.
Variables
Los ficheros de datos tienen dos modos. En el modo vista de datos es posible introducir o
modificar los datos para cada una de las variables. En el modo vista de variables se puede dar
formato a cada variable. As, se puede dar nombre a la variable (nunca ms de 8 caracteres
ASCII y siempre sern consideradas como minsculas), poner etiquetas de dentificacin (tanto
para la variable, como para las categoras de la misma), definir los datos perdidos o ausentes
(missing) o determinar la anchura de texto en variables cadena, la alineacin y la anchura de
visualizacin de una columna. Por ltimo se puede definir el tipo (y escala de medida) de una
variable:

Numrica: Variable numrica usual delimitada la parte decimal con un punto o una
coma, segn est configurado. Ejemplo: 12345.34 12345,34 34 (doce mil trescientos
cuarenta y cinco con treinta y cuatro).

Coma: Variable numrica delimitada la parte decimal con un punto y en la parte entera
una coma cada tres dgitos indicando los miles. Ejemplo: 12,345.34 (doce mil
trescientos cuarenta y cinco con treinta y cuatro).

Punto: Variable numrica delimitada la parte decimal con una coma y en la parte entera
un punto cada tres dgitos indicando los miles. Ejemplo: 12.345,34 (doce mil trescientos
cuarenta y cinco con treinta y cuatro).

Notacin cientfica: Variable numrica en la que los nmeros vienen expresados con
notacin exponencial con base 10. Ejemplo: 1,234534 E+04 (doce mil trescientos
cuarenta y cinco con treinta y cuatro).

Fecha: Fechas en distintos formatos.

Dlar: Moneda americana. Aparece con un $ a la izquierda de la cantidad.

Moneda personalizada: Moneda de cada pas definida previamente en las

OPCIONES.
Cadena: Variable cualitativa. En algunas ventanas de dilogo cuando sea preciso dar el nombre
de una categora, esta habr de ir entre comillas simples Ejemplo: nivel=BAJO. No es lo
mismo utilizar maysculas o minsculas, as BAJO y bajo se consideran categoras distintas.
MENS:
Es importante saber que en cada tipo de fichero aparece un men distinto. En general el men
Archivo ofrece la posibilidad de abrir y guardar ficheros de diversos tipos. La opcin Mostrar
informacin de datos proporciona informacin sobre un fichero de datos seleccionado.
El men Edicin ofrece la posibilidad de Cortar, Copiar, Pegar y Borrar datos. Adems en un
fichero de datos permite Buscar determinados datos. En Opciones se puede configurar el
formato genrico de nuestros ficheros. El men Ver proporciona diversas posibilidades de
visualizacin. En los ficheros de datos el men Datos ofrece opciones para la definicin de las
variables y manipulacin de los datos.

Es posible generar fechas en el formato deseado. Esta opcin se puede utilizar tambin
para generar listas de nmeros.

Las opciones de Insertar permiten insertar columnas o filas en un fichero de datos


determinado.

Ir a caso y Ordenar casos permiten respectivamente ir a una fila determinada y ordenar


los datos de acuerdo a una o ms variables respectivamente.

La opcin Transponer trasforma filas en columnas y columnas en filas.

Es posible Reestructurar el fichero mediante un asesor. Esta opcin es de inters cuando


los datos provienen de otras aplicaciones que no tienen la estructura exigida por el
SPSS para su tratamiento.

Fundir archivos sirve para unir en un fichero variables o filas de do ficheros dados.
Puesto que el SPSS solamente permite tener un fichero activo esta operacin crea un
nuevo archivo que aade filas (columnas) de otro fichero, con la posibilidad de
prescindir de algunas de las filas (columnas) del fichero activo.

Con Agregar se hacen grupos de una o ms variables (Variable(s) de segmentacin) con


referencia a una o ms variables (Agregar variable(s)) asignando a cada grupo la media
o la medida de posicin o dispersin que se determine. Las variables obtenidas se
guardan en un nuevo fichero. Puede ser til cuando se tienen rplicas de un
experimento y se quiere trabajar con las medias de cada uno.

Tambin es posible generar o mostrar Diseos ortogonales con los factores deseados y
sus categoras.

Segmentar archivo permite hacer grupos de casos de acuerdo a un criterio dado por
una variable. Los anlisis que se hagan posteriormente se realizarn para cada grupo y
los resultados se mostrarn en una tabla comparativa o en varias tablas segn se haya
elegido la opcin correspondiente.

Con Seleccionar casos se pueden eliminar, definitiva o temporalmente, algunas filas de


acuerdo a algn criterio. Se crear una columna de filtros con unos para los casos
seleccionados y ceros para el resto. Todos los anlisis que se hagan a partir de entonces
utilizarn solamente los casos seleccionados.

Por ltimo es posible Ponderar casos por una variable de pesos con el objeto de que los
anlisis estadsticos que se realicen mantengan dicha ponderacin. As un dato que se
pondera por 4 tendr doble valor (peso, ponderacin) en los anlisis correspondientes
que otro que solamente sea ponderado por 2.Con Transformar podemos realizar
manipulaciones de las variables. Para ello utilizaremos las opciones: Calcular, nos ofrece
una ventana semejante a una calculadora que permite realizar operaciones entre las
columnas. Adems existe una lista de funciones, cada una de las cuales viene explicada
en la ayuda del programa. La alternativa Si posibilita la inclusin de condicionales en el
momento de hacer las operaciones deseadas. Cuando la condicin se impone sobre los
valores de una variable cualitativa, estos deben ponerse entre comillas simples.
Ejemplo: raza = 'blanco'. Semilla de aleatorizacin permite asignar una semilla para la
generacin de nmeros aleatorios. Si se fija la semilla, la secuencia que se obtiene es la
misma, por ejemplo para dos usuarios distintos. Contar apariciones crea una nueva
variable que asigna a cada caso el nmero de veces que se repite un valor o valores
determinados en una fila para las variables seleccionadas.

Recodificar crea una variable (en variables diferentes) o sustituye a la ya existente (en
las mismas variables ) con valores que se asignan de acuerdo a un criterio. Con If
podemos seleccionar solamente los casos que interesa cambiar. Con valores antiguos y
nuevos se determinan los cambios especficos a realizar.

Categorizar variables crea una nueva variable en la que los datos numricos se
convierten en un nmero prefijado de categoras. Los datos se categorizan segn
grupos percentiles; de modo que cada grupo contiene aproximadamente el mismo
nmero de casos.

La opcin Asignar rangos a casos crea una variable que asigna rangos a cada uno de los
casos. Es posible seleccionar el tipo de rangos que se desea y tambin el modo de
tratar los empates. Adems se pueden hacer grupos de acuerdo a un criterio
proporcionado por una variable. En este caso se asignan rangos a cada grupo de
manera independiente.

Recodificacin automtica convierte los valores numricos y de cadena en valores


enteros consecutivos asignando un 1 al valor ms bajo, 2 al siguiente, y as
sucesivamente. Tambin es posible hacerlo comenzando por el valor ms alto. La nueva
variable conserva las etiquetas de valor de la variable antigua. En el fichero de
resultados se muestra una tabla con los valores antiguos, los nuevos y las etiquetas de
valor. Los valores de cadena se recodifican por orden alfabtico, con las maysculas
antes que las minsculas y los valores perdidos en primer lugar. En caso de empate se
asigna el mismo nmero a todos los valores empatados y se contina en el siguiente.

Crear serie temporal genera variables basadas en funciones (de diferencias, medias
mviles, medianas mviles, retardo o adelanto) de las variables de series temporales
numricas seleccionadas. Los nombres de las nuevas variables por defecto se
componen de los seis primeros caracteres de la variable existente utilizada para
crearlas, seguidos de un guin bajo y de un nmero secuencial.

Remplazar valores perdidos asigna valores a los casos omitidos de acuerdo a un criterio
determinado: o Media de la serie: asigna la media de los casos existentes. o Media de
los puntos adyacentes: media de los puntos ms cercanos, pudindose elegir el nmero
de datos vlidos por encima y por debajo que se desean incluir. o Mediana de los puntos
adyacentes: mediana de los puntos ms cercanos, pudindose elegir el nmero de
datos vlidos por encima y por debajo que se desean incluir. o Interpolacin lineal: Hace
interpolacin lineal entre el ltimo valor vlido antes del valor perdido y el primer valor
vlido despus del valor perdido. o Tendencia lineal en el punto: Se hace regresin de la
serie existente sobre una variable ndice escalada de 1 al nmero de datos (filas) en la
muestra y los valores perdidos se sustituyen con sus valores pronosticados. Es
importante puntualizar que los cuatro ltimos mtodos dependen de la ordenacin de
los datos. Por ejemplo el procedimiento puede ser adecuado cuando se han obtenido
secuencialmente en el tiempo.

Vous aimerez peut-être aussi