Vous êtes sur la page 1sur 34

Sistemas Inteligentes de Gestin

Guin de Prcticas de Minera de Datos

Prctica 0

Estadstica Descriptiva y Preprocesamiento

Introduccin a SPSS

Juan Carlos Cubero & Fernando Berzal

OTA:

Todos los ejercicios de esta primera prctica son de tipo


C salvo los dos ltimos; de tipo B y A, respectivamente.

Las partes marcadas como Ampliacin son de lectura


opcional y no contribuyen a la calificacin final de las
prcticas de la asignatura.

Ficheros que se han de entregar:

P0_Preprocesamiento_SPSS.spo
P0_Preprocesamiento_SPSS.pdf

Sistemas Inteligentes de Gestin: SPSS 1


Introduccin
La Estadstica es fundamental en minera de datos:

- Proporciona tcnicas muy utilizadas en minera de datos (como, por ejemplo, el


anlisis de componentes principales, las tcnicas de regresin o el anlisis
factorial).

- Sirve de filtro previo a la realizacin de distintos estudios de minera de datos.


Por ejemplo, en un estudio que analiza qu variables son importantes para
predecir el comportamiento de otra (clasificacin), hay variables correladas que
se pudiesen suprimir antes de proceder a dicho estudio?

- Se utiliza como parte de las tcnicas propias de minera de datos (p.ej. test de la
Chi cuadrado como medida de implicacin entre dos tems de una regla de
asociacin).

A la hora de aplicar tcnicas estadsticas, hemos de tener en cuenta lo siguiente:

1. Las tcnicas estadsticas suelen requerir que el experto diga exactamente lo que
quiere comprobar.

2. Cuando se aplican tcnicas estadsticas "clsicas", hay que tener cuidado de que
se cumplan ciertos "requerimientos" o "hiptesis de partida". En caso contrario,
hay que aplicar tcnicas "no paramtricas".

SPSS
En esta prctica utilizaremos SPSS debido a su uso generalizado en la realizacin de
estudios de tipo estadstico.

SPSS es un paquete software para realizar anlisis estadsticos.

SPSS utiliza mens descriptivos y cuadros de dilogo simples para realizar las
funciones solicitadas por el usuario.

SPSS ofrece la posibilidad de ejecutar una serie de comandos especificados en


los denominados ficheros de sintaxis.

SPSS posee una estructura tipo modular.

El mdulo base forma el ncleo del sistema e incluye, tanto comandos de lectura
y transformacin de datos y ficheros, como procedimientos estadsticos bsicos.

En estas prcticas, utilizaremos como ejemplo la versin 15.0.

Sistemas Inteligentes de Gestin: SPSS 2


Ejecucin de SPSS

Al ejecutar el programa desde el men de inicio, se muestra una ventana desde la que se
nos ofrecen diversas opciones para abrir ficheros de datos, introducir nuevos datos o
ejecutar un tutorial.

Se pueden crear ficheros de datos nuevos, importar hojas ddee clculo desde Excel, bases
de datos desde Oracle o leer ficheros de texto (en formato CSV, por ejemplo)

NOTA: La extensin de los ficheros con los que trabaja SPSS es .sav.

Cargue "Datos
Datos de Empleados
Empleados"

SPSS nos ofrece una vista de datos y una vista de variables (tipo hoja de clculo)
- desde la versin 10 en adelante -

Sistemas Inteligentes de Gestin: SPSS 3


Definicin de variables

En SPSS, los nombres de las variables no pueden tener ms de 8 letras, pero se les
puede poner una etiqueta ms larga que luego saldr en los grficos (columna Etiqueta).

A la hora de declarar variables, es muy importante escoger adecuadamente la


combinacin Tipo de dato Medida

Medidas (establecen qu mide la variable):

Nominal: Una variable que toma valores no ordenados (p.ej. color de pelo).

Ordinal: Una variable que toma valores ordenados (p.ej. nivel de satisfaccin,
medido de 0 a 5).

Escala: Una variable que toma valores numricos, para los que tiene sentido la
operacin de resta (p.ej. edad).

Tipos (establece cmo codificamos lo que la variable mide):

Numrico (con una precisin determinada).

Cadena (tpica cadena de caracteres)

Otros: Dlar, fecha, etc.

ivel de Tipo de datos


Medida Numrico Cadena Fecha Tiempo

Escala n/a

Ordinal

Nominal

Sistemas Inteligentes de Gestin: SPSS 4


Ejemplos

Color de pelo de una persona: Lo normal sera definir una medida nominal de
tipo cadena, pero tambin podramos usar una medida nominal con un tipo
numrico (con 1 dgito de precisin para codificar los colores: 0 para el rojo, 1
para el negro, etc.)

Ingresos de una persona: Medida de escala, tipo numrico.

Grado de satisfaccin del usuario: Medida ordinal, tipo cadena ("bajo", "alto",
"medio") o numrico (0,1,2).

Sexo: Medida nominal, tipo cadena ("hombre", "mujer") o numrico (1, 2).

Categora laboral: Si consideramos que existe una jerarqua en la que es ms ser


directivo que administrativo, usaramos una medida ordinal, y un tipo cadena o
numrico.

NOTA: Usualmente, a un tipo de cadena siempre le pondremos una medida


nominal, pero tambin podramos asignarle una medida ordinal (consistente en
utilizar el orden lexicogrfico, si bien no es demasiado es usual).

Puede que queramos restringir los posibles valores que pueda tomar una variable.

Ejemplo

Si usamos el tipo cadena con 1 nico carcter para la variable Sexo, podemos desear
que slo pueda tomar los valores "h" y "m". Para ello, usaremos la columna de valores
en la vista de variables. Obsrvese que, por una parte, aparecen los valores ("h", "m")
que deben corresponder al tipo de la variable y, por otra parte, figuran las etiquetas de
los valores (las cadenas de caracteres que luego aparecer en los resmenes e informes
que SPSS genere).

Observe la categora laboral. Lo ms habitual sera una medida ordinal con un tipo de
cadena con valores "d", "a", "s" (o, incluso, "directivo", "administrativo", "seguridad").
Sin embargo, se utiliza un tipo numrico dado que algunos tests estadsticos necesitan
que la variable sea numrica para poder trabajar con ella (aunque corresponda a una
medida ordinal y no de escala). Observe que, como posibles valores, tiene {1, 2, 3} pero
luego, como etiquetas, tiene "Administrativo", "Seguridad", "Directivo".

Sistemas Inteligentes de Gestin: SPSS 5


Anlisis exploratorio de datos
datos:: Grficos y Estadstica Descriptiva
Un buen punto de partida para el anlisis exploratorio de datos es echar un vistazo por
separado a cada una de las variables que describen nuestro conjunto de datos. Esto nos
permitir conocer caractersticas bsicas de nuestros datos que nos sern de gran en
anlisis posteriores. Para ello, usaremos estadsticos bsicos y grficos. Dependiendo
del tipo de variable, usaremos unas tcnicas u otras:

Sobre una variable nominal

Queremos responder a la pregunta: cmo


mo se distribuye una variable nominal?

SPSS no ofrece demasiadas facilidades para las variables nominales (por ejemplo, que
liste automticamente los valores distintos). Para ello, tendremo
tendremoss que construir un
grfico de puntos o de barras y verlo en l.

Grficos / Interactivos / Barras

Arrastramos con el ratn la variable Sexo al cuadro del eje de abscisas y Porcentaje al
del eje de ordenadas.

Sistemas Inteligentes de Gestin: SPSS 6


Aparece el visor de resultados:

50%

40%

Porcentaje
30%

20%

10%

Hombre Mujer

Se xo

Al hacer doble click sobre el grfico anterior, se abre un marco interactivo en el que
podemos editar y cambiar algunos de los elementos del grfico, cambiar las variables
indicadas o incluso aadir cajas de texto con nuestros propios comentarios
(Insertar > (uevo Texto).

Todos los anlisis que se vayan realizando se van guardando en el mismo sitio. Si
quisisemos suprimir cualquier elemento del visor de resultados, basta con
co borrarlo del
panel izquierdo. El contenido del visor se guarda en un fichero con extensin spo.

A partir de ahora, todos los resultados que se obtengan como resultado de la


ejecucin de los anlisis de este guin, se guardarn en un fichero con nombre
_Preprocesamiento_SPSS.spo que habr que entregar.
P0_Preprocesamiento_SPSS.spo

analice o comente el resultado, habr que aadir una caja de


Cuando se indique analice
texto con la discusin pertinente. Una vez completados todos los ejercicios, habr que
crear el fichero P0_Preprocesamiento_SPSS.pdf
_Preprocesamiento_SPSS.pdf, que tambin habr h que
entregar. Este fichero se crea desde Visor de Resultados > Archivo > Exportar.
Exportar

Una vez que hemos visto cmo obtener una representacin grfica, veamos algunos
estadsticos que nos informen de cmo es la muestra. Para una variable de tipo nominal,
nomin
no hay mucha informacin que ofrecer: su moda, las frecuencias relativas de los
distintos valores y poco ms (obviamente, la media no tiene sentido, por ejemplo).
ejemplo)

Sistemas Inteligentes de Gestin: SPSS 7


Analizar / Estadsticos Descriptivos / Frecuencias

Grficos: Grficos de barras / Porcentajes

(nos muestra el grfico anterior si seleccionamos Sexo).

Estadsticos:

Aunque puede marcarse, ningn estadstico aparece en el resultado si


seleccionamos Sexo (ni siquiera la moda). Esto ocurre porque se defini con el
tipo de cadena de caracteres, a pesar de que la moda (el valor que ms se repite)
sera un estadstico perfectamente aplicable a Sexo :-(

Si hacemos lo mismo con Categora Laboral,, ahora s puede verse la moda y los
dems estadsticos, ya que se us un tipo numrico para representar dicha
variable (que es de medida nominal).

Sexo

Porcentaje Porcentaje
Frecuencia Porcentaje vlido acumulado
Vlidos Hombre 258 54,4 54,4 54,4
Mujer 216 45,6 45,6 100,0
Total 474 100,0 100,0

Estadsticos
Estadsticos
Categora laboral
Sexo N Vlidos 474
N Vlidos 474 Perdidos 0
Perdidos 0 Moda 1

Sistemas Inteligentes de Gestin: SPSS 8


Sobre una variable de escala

Queremos responder a la pregunta: Cmo se distribuye una variable numrica?

Para las variables de escala, usaremos un histograma.. Los histogramas de frecuencias


proporcionan una forma de visualizar distribuciones para una sola variable. Para
construirlos,
struirlos, se divide el rango entre el menor y el mayor valor de la variable en
intervalos del mismo tamao y se representa en ordenadas el nmero de casos cuyo
valor de la variable est contenido en el intervalo correspondiente (usualmente,
mediante una barra).

Cmo se distribuye el salario entre los empleados?

Grficos / Interactivos / Histograma

Seleccione Salario Actual en las abscisas y Recuento en las ordenadas:

100

75
Recuento

50

25

0
$25,000 $50,000 $75,000 $100,000 $125,000

Salario actual

Comente el histograma ((Insertar > (uevo Texto).


). Qu se puede apreciar?

Sistemas Inteligentes de Gestin: SPSS 9


El ancho de los intervalos, que determina su nmero, afecta a la informacin que
muestra el histograma y, en particular, puede afectar a su apariencia. Cambiando esta
caracterstica desde la pestaa Histograma, podemos obtener informacin ms precisa y
detallada. Por ejemplo, podemos partir de pocos rectngulos e ir introduciendo un
mayor grado de detalle progresivamente si lo consideramos necesario. Para ello, una vez
generado el histograma, seleccione haciendo click con el botn derecho del ratn la
opcin Herramientas para intervalos:

Salario actual Salario actual


300 70

60

50
200

40

30

100
20
Frecuencia

Desv. tp. = 17075.66 Frecuencia 10 Desv. tp. = 17075.66


Media = 34419.6 Media = 34419.6
0 N = 474.00 0 N = 474.00

Salario actual Salario actual

Si extrapolamos el histograma, obtendramos una funcin matemtica que determinara


la probabilidad con la que se da cada valor. En Estadstica, se han estudiado muchas
distribuciones de probabilidad. En el caso de la anterior, su forma se asemeja a una
distibucin log-normal:

Sistemas Inteligentes de Gestin: SPSS 10


Otra distribucin muy conocida es la distribucin normal:

( x )2
1
( ( , ) f , ( x) = e 2 2

Sistemas Inteligentes de Gestin: SPSS 11


Estadsticos de localizacin y dispersin

Para obtener una visin global de la distribucin, utilizaremos medidas de resumen.


Estas medidas de resumen se calculan a partir de los propios datos de la muestra y se
denominan estadsticos.

Un estadstico bsico es el tamao de la muestra:

Tamao de la muestra (N): El nmero de casos en la muestra.

Para nuestro conjunto de datos de ejemplo, el valor de N para administrativo,


seguridad y directivo es 363, 27 y 84, respectivamente.

Aparte del tamao muestral, hay dos tipos importantes de estadsticos:

Los estadsticos de localizacin dan una idea de cules son los valores
habituales de la distribucin (en cierto modo, nos dicen dnde la distribucin es
ms densa).

Los estadsticos de dispersin dan una idea de cul es la variabilidad en los


datos.

Estadsticos de localizacin:

Media muestral:
1 n
X= Xi
n i =1

Problema: Sensible a casos aislados (outliers).

Mediana muestral: Valor central de la lista ordenada de valores. El 50% de los


valores estn a su derecha y el otro 50% a la izquierda.

Clculo: Se ordenan todos los valores y se escoge el central. Si el nmero de


valores es par, se toma la media aritmtica de los dos valores centrales.

Ventaja: Menos sensible a outliers.

Moda muestral: Valor ms comn.

Si la distribucin tiene una nica moda, se dice que la distribucin es unimodal.


En ocasiones, no obstante, una distribucin tiene ms de una moda (distribucin
multimodal).

Sistemas Inteligentes de Gestin: SPSS 12


Sistemas Inteligentes de Gestin: SPSS 13
Estadsticos de dispersin

Desviacin tpica muestral: Es una medida global que representa cmo de


dispersos estn los datos con respecto a su media aritmtica.

1
S=+
n 1
( X i X )2

Para una amplia mayora de distribuciones, la mayor parte de los valores estn
comprendidos entre 2 desviaciones de la media (media 2 S) y el 70% de los
casos estn a una distancia de la media no mayor a 1 desviacin tpica.

La varianza es el cuadrado de la desviacin tpica

40

30
Frecuencia

20

10

0
60 70 80 90 100

Meses desde el contrato

Ejemplo: Una distribucin con una varianza elevada

Sistemas Inteligentes de Gestin: SPSS 14


Ampliacin: Estadsticos de forma

Otros estadsticos dan una idea de cul es la forma de la distribucin:

El skew (asimetra) representa si hay ms datos en la parte superior


perior de la
distribucin o en la parte inferior:

Se define formalmente como el tercer momento tipificado de la distribucin,


aunque Pearson dio una forma aproximada de calcularlo como

(media - moda) / desviacin tpica

La distribucin normal es simtrica, por lo que tiene un valor de asimetra 0.


Una distribucin que tenga una asimetra positiva significativa tiene una cola
derecha larga. Una distribucin que tenga una asimetra negativa significativa
tiene una cola izquierda larga. Un valor de aasimetra
simetra mayor que 1, en valor
absoluto, indica generalmente que una distribucin difiere de manera
significativa de la distribucin normal.

La kurtosis
urtosis (curtosis) es una medida
edida del grado en que las observaciones estn
agrupadas en torno al punto central
central.

Para una distribucin normal, el valor del estadstico de


dell coeficiente de curtosis
se suele definir de forma que valga 0 (distribucin mesocrtica)..

Una curtosis positiva indica que las observaciones se concentran ms en torno a


la media que las de uuna
na distribucin normal (distribucin leptocrtica).

Una curtosis negativa indica que las observaciones se agrupan menos en torno a
la media que las de una distribucin normal (distribucin platicrtica).

NOTA: En Estadstica, el momento central o centra


centrado
do de orden k de una variable
aleatoria X es la esperanza matemtica E[(X E[X])k] donde E es el operador de la
esperanza. El primer momento central es cero y el segundo se llama varianza () donde
es la desviacin
n estndar. Los tercer y cuarto momentoss centrales sirven para definir
los momentos estndar denominados de asimetra y de curtosis.

Sistemas Inteligentes de Gestin: SPSS 15


Cul es la media aritmtica del salario de los empleados?
Qu dispersin varianza presenta el salario entre los empleados?

Analizar / Estadsticos Descrip


Descriptivos / Frecuencias

Seleccione Salario Actual,, quite ""Mostrar tablas de frecuencias",


", en grficos seleccione
Histograma y, en Estadsticos
Estadsticos,, media, desviacin tpica, mnimo y mximo.

Si aparece **********, tendr que agrandar convenientemente la tabla de


d resultados.

Con apenas cuatro valores de resumen, nos podemos hacer una idea muy aproximada de
cul es la distribucin de los datos. La media est en torno a los $34.400. La mitad de
los trabajadores ganan menos de $28.875 y la otra mitad gana ms.

Resmenes de casos

Experiencia
previa
Salario actual (meses)
N 474 474
Media $34,419.57 95,86
Desv. tp. $17,075.661 104,586

En cuanto a la variabilidad, el 70% de los individuos tienen un salario en el intervalo


[ $34.419 - $17.075, $34.419 + $17.075] [ $17.500, $51.500 ]
y la mayor parte (95%) de los individuos tienen un salario en el intervalo
[ $34.419 2*$17.075, $34.4
$34.419 + 2*$17.075] [ $300, $68.500 ]

Realice el mismo anlisis (descriptivo y grfico) con las variables Salario Inicial
y Meses desde el contrato
contrato. Comente los resultados

Abra el fichero Mundo95.sav


Mundo95.sav,, elija un par de variables cualesquiera y realice
el mismo anlisis (descriptivo y grfico). Comente los resultados.

NOTA: Desde SPSS, se pueden obtener los mismos estadsticos desde distintos sitios
(confunde
confunde un poco el hecho de que SPSS permita realizar los mismos anlisis desde
distintos mens):
- Analizar / Informes / Resmenes de casos
- Analizar / Estadsticos Descriptivos / Descriptivos
- Analizarr / Informes / Resmenes de Casos

Sistemas Inteligentes de Gestin: SPSS 16


Los percentiles son unos estadsticos de tendencia central, pero que tambin ofrecen
informacin sobre la dispersin de los datos.

El percentil 25 es un valor tal que el 25% de los valores de la muestra son menores que
l (obviamente, el percentil 50 es la mediana).

rea = 1/4

$24000 $28875 $37162,5

25%

50%

75%

100%

Estos percentiles (25-50-75) se denominan cuartiles.

Si dos cuartiles estuviesen muy prximos (imaginemos $27500 y $27900), esto


indicara que un 25% de la muestra tiene salarios muy parecidos, por lo que hay una
elevada concentracin de individuos en ese intervalo.

Q1 Q3

Mediana

Sistemas Inteligentes de Gestin: SPSS 17


Analizar / Estadsticos Descriptivos / Frecuencias

Seleccione Salario Actual y, en Estadsticos, incluya los cuartiles:

Estadsticos

Salario actual
N Vlidos 474
Perdidos 0
Media $34,419.57
Mediana $28,875.00
Moda $30,750
Desv. tp. $17,075.661
Asimetra 2,125
Error tp. de asimetra ,112
Mnimo $15,750
Mximo $135,000
Suma $16,314,875
Percentiles 25 $24,000.00
50 $28,875.00
75 $37,162.50

Sistemas Inteligentes de Gestin: SPSS 18


Diagramas de caja [box plots]

Una forma de representar grficamente los cuartiles:

Grficos / Generador de grficos

Sistemas Inteligentes de Gestin: SPSS 19


Valores atpicos (outliers)
- se vern posteriormente -
$140.000
29

$120.000

32
343
$100.000
103
454
431 Cuarto cuartil (mucha dispersin)
$80.000 35
66
88
283
387
$60.000 406
348

$40.000
Mediana

$20.000 Primer cuartil (poca dispersin)

$0

Salario actual

29

$125.000

343
32
446
18 $100.000
103 34
106
431
35 274
100
66 71
456 $75.000
53
284 235
89 88 129
137 101
50 27
1
$50.000

$25.000

$0

0 20 40 60 80 100 120

Frecuencia

Se puede apreciar que la mitad de los empleados ganan entre $15000 y $30000 mientras
que en la otra mitad hay mucha ms variacin de salarios (entre $30000 y $140000).

Sistemas Inteligentes de Gestin: SPSS 20


Incluya otro grfico con la variable ""Experiencia Previa". Aqu se ver que la
mitad de los datos estn agolpados en un intervalo de valores muy pequeo,
mientras que la otra mitad est mucho ms dispers
dispersa.

Si utilizmos la variable ""Meses desde el contrato",


", no hay apenas dispersin
(vase el histograma correspondiente)

En ocasiones, nos interesar utilizar una variable de agrupacin.

Por ejemplo, podra interesarnos ver la distribucin del Salario para los
administrativos en comparacin con el de los directivos:

Sistemas Inteligentes de Gestin: SPSS 21


En los anteriores ejemplos, hemos trabajado siempre con el recuento de individuos
(frecuencias o nmero de apariciones). A veces, sin embargo, puede que nos interese
utilizar otra medida dee recuento
recuento.

Esto nos permitir, por ejemplo, responder preguntas del tipo: cmo se reparte
la nmina total de la empresa (la suma de las nminas de todos los empleados)
entre las distintas categoras laborales?

Categora laboral
Administrativo
Seguridad
Directivo

Los sectores muestran Sumas de salario

Sistemas Inteligentes de Gestin: SPSS 22


Preprocesamiento

Seleccin de datos

Datos / Segmentar Archivo

Permite seleccionar grupos de registros para que cualquier procedimiento de


anlisis de datos que se realice posteriormente se aplique de forma separada
sobre cada uno de esos grupos.

Por ejemplo, si segmentamos el aarchivo en funcin del Sexo,, cada vez que
lancemos un anlisis, ste se ejecutar slo sobre los hombres y luego slo sobre
las mujeres.

Ejercicio: Sobre los Datos de Empleados, seleccione Sexo para segmentar los
datos y construya un diagrama de cajas sobre el Salario Actual.

Datos / Seleccionar Casos

Permite excluir de los anlisis conjuntos de registros. Podemos incluir una


variable numrica de filtro (excluira los registros que en dich
dichaa variable tengan
un valor perdido o igual a cero) o establecer una condicin ms compleja

Ejercicio: Sobre los Datos de Empleados,, seleccione slo aquellos individuos


con categora laboral 1 2, y adems con un valor de minora distinto de cero:
(catlab
lab = 1 | catlab = 2) & (minora ~= 0). Mantenga la segmentacin segn
Sexo y construya un histograma del Salario Actual sobre estos individuos.
Analice los resultados obtenidos.

IMPORTATE
Una vez completado el ejercicio anterior, elimine la segment
segmentacin
acin realizada
(seleccione la opcin Analizar
Analizar todos los casos. (o crear los grupos).
grupos

NOTA:

Algunos modelos estadsticos y de minera de datos son sensibles a los valores


desconocidos. Si vamos a realizar un anlisis que involucre a una variable sobre
sobr la que
hay registros con valores desconocidos, podemos excluirlos seleccionando la funcin
MISSING(nombre de variable) y usando el conectivo lgico NOT (~)

Sistemas Inteligentes de Gestin: SPSS 23


Transformacin de datos

Creacin de nuevas variables

Transformar / Calcular

Construya una nueva variable, incr_salario que represente el incremento


porcentual del salario de un empleado. Este incremento se calcular realizando
la transformacin siguiente:

100 * (Salario actual Salario inicial) / (Salario inicial)

Ejercicio: Construya un diagrama de cajas sobre el incremento porcentual,


agrupando por sexo, para ver si el incremento salarial se aplica de la misma
forma a hombres y mujeres. Analice el resultado.

Discretizacin de variables

A veces, una variable presenta un nivel de detalle innecesario y complica la generacin


de modelos. Por ejemplo, en un estudio de la influencia del sexo en el Salario Actual,
Actual
no nos importa demasiado precisar este ltimo hasta el ltimo cntimo.

Tambin hemos de asumir que los datos estn sujetos a variaciones por el propio
mtodo de recopilacin de datos (ruido, errores de medida, etc.).

En casos as, podramos estar interesados en crear otra variable con una discretizacin
de sta (incluso podemos el
eliminar
iminar los datos originales y quedarnos nicamente con los
datos discretizados).

NOTA: Este proceso de discretizacin ser necesario como paso previo para las
variables continuas involucradas en el anlisis de datos utilizando tcnicas como
las reglas de asociacin.

Transformar / Recodificar en distintas variables (manual)

Pinchando en Valores
Valores antiguos y nuevos , posteriormente se iran indicando
nuevos,
manualmente las transformaciones de los datos

Sistemas Inteligentes de Gestin: SPSS 24


Transformar / Agrupacin visual

Pinchamos en Crear puntos de corte

- Intervalos de igual amplitud (discretizacin equi-width):


): No es demasiado usual
elegirlo, ya que algunos intervalos pueden tener muchos datos y otros no.
- Percentiles iguales basados en los casos explorados (discretizacin equi-depth):
Cada intervalo contendr el mismo nmero de datos, por lo que la amplitud de
losintervalos
intervalos ser distinta.

NOTA: Posteriormente, los puntos de corte se pueden desplazar manualmente en el


histograma que aparece en la ventana de Agrupacin Visual. Finalizado el proceso,
pinchamos en Crear Etiquetas y Aceptar.

Sistemas Inteligentes de Gestin: SPSS 25


Ejercicios de discretizacin

Cree la variable nueva Salario Agrupado, construida a partir del Salario Actual
utilizando el mtodo de discretizacin equi-depth con 5 intervalos.

Cree un diagrama de puntos (a travs del men de Grficos Interactivos) en el


que la abscisa represente la variable nominal Salario Agrupado y seleccione para
el eje de ordenadas la variable Sexo. Lo que se mostrar ser la moda de dicha
variable. Interprete los resultados.

Seleccione ahora la Experiencia previa en el eje de ordenadas. Lo que se


mostrar ser la media aritmtica de dicha variable. Interprete los resultados.

Ampliacin

Usando discretizacin, podemos detectar asociaciones que no sean lineales (las


asumidas por las tcnicas tradicionales de regresin) entre variables
cuantitativas.

En problemas de clasificacin, se pueden usar mtodos de discretizacin que


utilizan la informacin de la variable que indica la clase para establecer los
intervalos de discretizacin. Estos mtodos se conocen como mtodos de
discretizacin supervisada. SPSS no ofrece ninguna opcin que permita realizar
este tipo de discretizacin.

Sistemas Inteligentes de Gestin: SPSS 26


ormalizacin de variables

Cargue el fichero coches.sav

En Grficos / Cuadros de dilogo antiguos / Diagramas de Caja, Caja seleccione


variables, Definir,, y elija como variables la la
Simple, Resmenes para distintas variables
cilindrada y el peso total del vehculo:

8.000

6.000

4.000

2.000

Cilindrada en cc Peso total (kg)

Cul de las dos variables presenta mayor dispersin?

Parece que la cilindrada


cilindrada.. Sin embargo, el problema es que la escala usada en el
eje de las ordenadas es la misma para las dos variables pero stas tienen rangos
de valores muy diferentes (se mueven en escalas distintas)
distintas).

Para suprimir el efecto de la escala (algo muy importante en algunos anlisis


estadsticos y de minera de datos como, por ejemplo, en los modelos de clustering) es
necesario transformar (normalizar) la variable en otra similar que guarde las mismas
proporciones, pero en una escala estndar.

Qu significa guardar
rdar las mismas proporciones?

Que sea una transformacin lineal, es decir, del tipo Y =a + bX

Sistemas Inteligentes de Gestin: SPSS 27


Algunas normalizaciones usuales:

ormalizacin [0,1]

X mnimo _ original
Y=
mximo _ original mnimo _ original

ormalizacin [min,max]

X mnimo _ original
Y = min + (max min)
mximo _ original mnimo _ original

ormalizacin z-score (tipificacin), muy utilizada en Estadstica:

XX
X Z=
S

Anteriormente, ya mencionamos que la mayor parte de las distribuciones toman


valores comprendidos entre 2 desviaciones de la media (media 2 S). Si
tipificamos la variable (transformacin Z-score), tendremos que la nueva
variable Z casi siempre tomar valores en el intervalo [-2,2].

Recordemos que la probabilidad de que una distribucin normal N(0,1) tome


valores en el intervalo [-1.96,1.96] es de 0.95, la variable tipificada utilizar
como rango de referencia es el rango de valores de la distribucin N(0,1).

Esta transformacin permite expresar una variable en funcin de cuntas veces


en unidades dadas por la desviacin tpica un valor dado est por encima o
por debajo de la media.

Al realizar operaciones lineales con constantes (media y desviacin tpica), el


resultado es otra distribucin que guarda las mismas proporciones.

En SPSS habr que seleccionar Transformar / Calcular Variable e introducir la frmula


de normalizacin (lo que me crear una variable nueva).

Para tipificar, podemos seleccionar directamente Analizar / Estadsticos Descriptivos /


Descriptivos / Guardar valores tipificados como variables.

Sistemas Inteligentes de Gestin: SPSS 28


Ejercicios de normalizacin/tipificacin

Sobre los datos de los coches, tipifique las variables cilindrada y peso.

Construya los diagramas de cajas con las variables tipificadas y analice los
resultados en comparacin con el diagrama que obtuvimos anteriormente.

Construya tambin los histogramas de las variables sin tipificar y tipificadas.


Compare el histogramas de cada variable sin tipificar con el histograma de la
misma variable tipificada. Analice el resultado obtenido.

-1

-2

-3

Puntua: Cilindrada en cc Puntua: Peso total (kg)

OBSERVACIN:

Un caso donde es imprescindible la tipificacin es en el cmputo de distancias entre


puntos con mtricas como la distancia eucldea. Dicha mtrica tiene en cuenta la escala
de medida, por lo que si queremos comparar dos coches en funcin de su peso y
cilindrada, la primera variable influir menos que la segunda, ya que el rango de la
cilindrada es mucho mayor.

Al utilizar tcnicas de clustering, ser imprescindible trabajar con variables tipificadas.

Sistemas Inteligentes de Gestin: SPSS 29


Deteccin de outliers (valores atpicos)

Un outlier es un valor anormalmente distante del resto de valores.

El filsofo Francis Bacon sentenci en 1620


1620: Errors
Errors of (ature, Sports and Monsters
correct the understanding in regard to ordinary things, and reveal general forms. For
whoever knows the wayss of (ature will more easily notice her deviations; and, on the
other hand, whoever knows her deviations will mo
more
re accurately describe her ways.
[(ovum organum,o Indicaciones relativas a la interpretacin de la naturaleza]
naturaleza

Qu criterio se utiliza para definir un valor anmalo?

Si los datos se ajustan a una distribucin estadstica, seran los datos que hay
ms alejados de los valores centrales (los que hay en las colas). Se puede usar un
test estadstico (por ejemplo, el de Grubb para la distribucin normal)

Si consideramos una nica dimensin (un nico atributo), sea cual sea la
distribucin, se considera que los valores anormales son los que estn ms
alejados de la mediana:

Q1 Q3

IQR = Q3 - Q1

P es un Outlier si P > Q3 + 1.5 IQR


P es un Outlier si P < Q1 - 1.5 IQR

P es un Outlier Extremo si P > Q3 + 3 IQR


P es un Outlier Extremo si P < Q1 - 3 IQR

NOTA:
SPSS usa por defecto un crculo para los outliers
y una estrella para los outliers extremos.

Sistemas Inteligentes de Gestin: SPSS 30


Si consideramos varias dimensiones, existen distintas aproximaciones:

Local Outlier Factor da una puntuacin de hasta qu punto un valor es un


outlier (este tipo de tcnicas se estudian en el Mster de S
Sistemas
istemas Inteligentes).

Mtodos de clustering (se vern posteriormente)

Qu hacer con los registros que presentan un outlier en alguno de sus atributos?

- En primer lugar, analizar si son registros que se pueden excluir del estudio. A
veces, representan informacin interesante y otras veces no son ms que errores
de medida.

- Si la tcnica estadstica o de minera de datos que utilicemos lo permite, se


pueden dejar dichos registros para que los procese la propia tcnica. Si no es as,
pueden excluirse del estudio correspondiente (utilizando tcnicas de seleccin
de datos)

Creemos de nuevo un BoxPlot sobre el Salario Actual


Actual:

Sistemas Inteligentes de Gestin: SPSS 31


Etiquetando los valores atpicos en funcin del Sexo, se puede apreciar que los
valores atpicos suelen corresponder a hombres (y siempre en sueldos altos).

140000 Hombre

120000
Hombre
Hombre
100000 Hombre
Hombre
Hombre
Hombre
80000
Hombre

Hombre
60000 Mujer

40000

20000

Salario actual

Calcule los cuartiles del Salario Actual y seleccione aquellos casos


correspondientes a registros que no tienen un valor atpico en este atributo
(Datos > Seleccionar casos > Si se satisface la condicin). En la ventana habr
que especificar la condicin lgica de que el salario no sea un outlier (aplicando
la frmula con los valores de los cuartiles calculados anteriormente). Una vez
hecho esto, genere el diagrama de caja correspondiente al Salario Actual y
analice el resultado.

Sistemas Inteligentes de Gestin: SPSS 32


El problema de la definicin de outliers aplicando la frmula que utiliza la distancia
intercuartil es que no funciona demasiado bien con distribuciones asimtricas, tal y
como sucede con la del salario:

120

100

80
Frecuencia

60

40

20

0
$0 $20.000 $40.000 $60.000 $80.000 $100.000 $120.000 $140.000

Salario actual

Ejercicio tipo B

Elimine la exclusin de los casos atpicos realizada en el ejercicio anterior


(mediante Datos > Seleccionar Casos > Todos los casos). Aada ahora,
manualmente, una copia de alguna tupla del conjunto de datos e indique en el
Salario Actual el valor 11.000 (valor atpico por bajo). Dibuje el diagrama de
cajas asociado y observe que no se detecta como outlier.

Una posible solucin: Se aplica una transformacin artificial a la variable Salario Actual
para que marque ms las diferencias en las zonas de alta densidad (la cola izquierda) y
suavice las diferencias en las de baja densidad (la cola derecha). Una forma de hacerlo
es usando la funcin logaritmo, que tiene la grfica siguiente:

OJO! Esta transformacin cambia la forma de la distribucin de la variable, por lo que


no debemos realizar inferencias a partir de esta nueva variable.

Sistemas Inteligentes de Gestin: SPSS 33


Ejercicio tipo A

Cree una nueva variable a partir del Salario (Transformar > Calcular Variable)
llamada logSalario. Esta nueva variable se definir usando la funcin logaritmo
(por ejemplo, en base 10, que en SPSS se llama log) sobre una normalizacin
previa de rango.

La idea es que los valores entre 0 y 12.500 caigan en la zona de transformacin


brusca para acentuar las diferencias (el intervalo [0,1] en el caso del logarirmo),
mientras que el resto caiga en la zona de transformacin suave que disminuye las
diferencias relativas (el intervalo [1,)). Esto har que se acenten las
diferencias en salarios bajos, a la vez que se suavizan en los salarios medios y,
sobre todo, en los altos.

Construya el histograma de la nueva variable para comprobar que es distinto al


de la variable original. Cree tambin un diagrama de cajas en el que ahora
debern aparecer menos outliers en la zona alta y deber detectarse el registro
aadido anteriormente con un salario 11.000 como un outlier.

Observaciones:

- En el caso de que la asimetra fuese a la inversa, sera necesario darle la


vuelta a la distribucin antes de aplicar el logaritmo.

- Para suavizar los valores de forma un poco menos agresiva podramos


utilizar el logaritmo en base 2 o logaritmo natural (en base e).

NOTA FINAL:

Existen otras tcnicas de preprocesamiento muy importantes, como por ejemplo:

Seleccin de registros relevantes (mtodos de edicin y condensado):


Estos mtodos consisten en la seleccin de una muestra del total de registros,
de tal forma que la seleccin sea lo suficientemente representativa.

Seleccin de caractersticas:
Las tcnicas de seleccin de caractersticas escogen un subconjunto de los
atributos de nuestro conjunto de datos, para evitar la presencia de muchos
atributos correlados que no aportan informacin til (p.ej. Anlisis Factorial).

Sistemas Inteligentes de Gestin: SPSS 34

Vous aimerez peut-être aussi