Vous êtes sur la page 1sur 6

Cap.

3: Preprocesamiento de Datos

Data Mining: Conceptos y Tcnicas Preprocesamiento de Datos


(Basado en material de Jiawei Han and Micheline Kamber) Intelligent Database Systems Research Lab School of Computing Science Simon Fraser University, Canada http://www.cs.sfu.ca
1

Por qu preprocesar los datos? Limpieza de datos (Data cleaning) Integracin y transformacin de datos Reduccin de datos Discretizacin y generacin de jerarquas de conceptos Sntesis
2

Por qu preprocesar datos?


Medidas multidimensionales de la Calidad de los Datos


Los datos del mundo real son sucios.. incompletos: carecen de valores para ciertos atributos, carecen de atributos de interes o contienen solo datos agregados ruidosos: contienen errores o outliers inconsistentes: contienen discrepancias en cdigos o nombres. Sin datos de calidad, no hay calidad en los resultados de mining! Decisiones calificadas ->basadas en datos calificados Data warehouse necesita integracin consistente de datos calificados
3

Una visin multi-dimensional aceptada : Exactitud Completitud Consistencia Timeliness Credibilidad Valor agregado Interpretabilidad Accesibilidad Categoras amplias: intrnsecos, contextuales, representacionales, y accesibles.
4

Principales tareas en Preprocesamiento de Datos


Formas de preprocesamiento de datos

Limpieza de Datos

Completar valores perdidos, ablandar datos ruidosos, identificar o remover outliers, y resolver inconsistencias Integracin de BD mltiples, cubos de datos o archivos. Normalizacin y agregacin Obtener representacin reducida en volumen, pero produce resultados analticos iguales o similares. Parte de la reduccin de datos, pero con particular importancia para los datos numricos.
5 6

Integracin de datos

Transformacin de datos

Reduccin de datos

Discretizacin de datos

Cap. 3: Preprocesamiento de Datos


Limpieza de Datos

Por qu preprocesar los datos? Limpieza de datos (Data cleaning) Integracin y transformacin de datos Reduccin de datos Discretizacin y generacin de jerarquas de conceptos Sntesis
7

Principales tareas en Data cleaning


Completar valores faltantes Identificar outliers y ablandar los datos ruidosos. Corregir datos inconsistentes.

Datos faltantes

Cmo tratar a Datos Faltantes?


Los datos no siempre estn disponibles:


E.g., muchas tuplas pueden no tener valor asociado para ciertos atributos. Ej: ingreso mensual en los datos de un determinado cliente. errores tcnicos (de equipamiento) inconsistencia con otros datos almacenados (y por ende borrados) Datos no ingresados Considerados irrelevantes al momento de ser cargados no se registr la historia o cambios de los datos

Ignorar la tupla: usuamente se hace cuando falta la etiqueta de clase (no efectivo cuando el % de valores faltantes por atributo vara considerablemente). Completar el dato faltante a mano: tedioso y poco factible Usar una constante global para completar el dato faltante: e.g., n/d, o crear una nueva clase. Usar el valor medio del atributo para completar el dato faltante. Usar el valor medio del atributo para todas las muestras que pertenezcan a la misma clase para completar el valor faltante (ms astuto). Usar el valor ms probable para completar el valor faltante: basado en inferencia como frmulas bayesianas o rboles de decisin.
10

Los datos faltantes pueden deberse a:


Los datos faltantes puede que tengan que ser inferidos.


9

Datos con Ruido


Cmo tratar los datos con ruido?


Ruido: error aleatorio o varianza en una variable medida Valores de atributos incorrectos debido a: Instrumentos de medicin errneos Problemas en la entrada de datos Problemas en la transmisin Limitaciones tecnolgicas Otros problemas que requieren data cleaning Registros duplicados datos incompletos datos inconsistentes
11

Mtodo de cubas (Binning method): Ordenar primero los datos, y particionarlos en cubas de igual profundidad (=cant. de valores). Luego se puede suavizar (smooth) por media de cubas, mediana de cubas, frontera de cubas, etc. Clustering Detectar y remover outliers Inspeccin combinada humano-computadora Detectar valores sospechosos automticamente y contrastarlos con opinin humana Regresin suavizar ajustando los datos a travs de funciones de regresin
12

Mtodos Simples de Discretizacin: Binning


Mtodos de Binning
* Datos ordenados por Precio (en $): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 * Particin en cubas de igual profundidad: - Bin 1: 4, 8, 9, 15 - Bin 2: 21, 21, 24, 25 - Bin 3: 26, 28, 29, 34 * Alisamiento utilizando promedios de cubas: - Bin 1: 9, 9, 9, 9 - Bin 2: 23, 23, 23, 23 - Bin 3: 29, 29, 29, 29 * Alisamiento por fronteras de cubas: - Bin 1: 4, 4, 4, 15 - Bin 2: 21, 21, 25, 25 - Bin 3: 26, 26, 26, 34
14

Particionamiento segn Igual Distancia (tamao) : Se divide el rango en N intervalos de igual tamao (grilla uniforme) . Si A y B son los valores menores y mayores del atributo, el ancho de los intervalos ser : W = (B-A)/N. Es el ms directo... Pero los outliers pueden dominar la presentacin Los datos sesgados (skewed) no son manejados bien.. Particionamiento por igual profundidad (frecuencia) : Se divide al rango en N intervalos, c/u conteniendo aproximadamente el mismo nro. de muestras. Bueno para escalar datos
13

Cluster Analysis

Regresin
y
Y1

Y1

y=x+1

X1

15

16

Cap. 3: Preprocesamiento de Datos


Integracin de Datos

Por qu preprocesar los datos? Limpieza de datos (Data cleaning) Integracin y transformacin de datos Reduccin de datos Discretizacin y generacin de jerarquas de conceptos Sntesis
17

Integracin de Datos: se combinan datos de mltiples fuentes en un almacenamiento coherente. Integracin de esquemas: integrar metadatos de distintas fuentes Problema de identificacin de entidades: identificar entidades del mundo real a partir de fuentes de datos mltiples, e.g., A.cust-id B.cust-# Deteccin y resolucin de conflictos de valores de datos: Para la misma entidad del mundo real, los valores de atributos de distintas fuentes pueden ser diferentes Razones posibles: representaciones distintas, escalas distintas. Ej: sistema mtrico vs. no mtrico.
18

Tratamiento de Datos Redundantes al Integrar Datos


Correlacin

Los datos redundantes aparecen a menudo cuando se integran mltiples bases de datos

Dados atributos A y B, su correlacin puede expresarse como rA,B = [ (A-prom(A))(B-prom(B)) ] (n-1) AB Donde n=nro. de tuplas, prom(A) y prom(B) son promedios de A y B, y A, B corresponde a los desvos estndar. Si rA,B > 0, ent. hay correlacin positiva (los valores de A se incrementan cuando los valores de B se incrementan). A mayor valor, mayor vnculo entre ambos atributos. Puede usarse para detectar correlacin entre atributos (ej: nro_cliente y ident_cliente)

El mismo atributo puede tener diferentes nombres en diferentes bases de datos. Un atributo puede ser un atributo derivado en otra tabla (ej: ganancia anual)

Los datos redundantes pueden detectarse por anlisis de correlacin La integracin cuidadosa de datos de mltiples fuentes puede ayudar a reducir/evitar redundancias e inconsistencias y mejorar la velocidad y la calidad del datamining.
19

20

Transformacin de Datos

Transf. de Datos: Normalizacin


Suavizamiento: remover ruido de los datos Agregacin: sintetizacin, construccin de cubos de datos Generalizacin: trepar en la jerarqua de conceptos Normalizacin: se ajusta a una escala para caer en un rango pequeo y especificado.

Normalizacin min-max

v' =

v minA (new _ maxA new _ minA) + new _ minA maxA minA

Normalizacin min-max Normalizacin z-score Normalizacin por escala decimal Construir nuevos atributos a partir de los dados
21

Se hace una transf. lineal sobre los datos originales. minA y maxA son mnimos y mximos originales, y new_minA y new_maxA son los nuevos extremos.

Construccin de atributos/caractersticas

22

Transf. de Datos: Normalizacin


Transf. de Datos: Normalizacin


Normalizacin z-score v = (v -prom(A)) / A

Normalizacin por escala decimal

v = v / 10j

Donde j es el entero ms pequeo tal que Max(|v |)<1

Tambin llamada zero-mean normalization. Aqui los valores del atributo A se normalizan con respecto a la media prom(A) y al desvo estndar de A. Util cuando el mnimo y mximo de A son desconocidos, o cuando hay outliers que dominan la normalizacin minmax.
23

Ej: si el valor de A vara entre -986 y 917, el valor mximo de A en val.abs. es 986. Para normalizar se divide entonces por 1000: -986 --normalizado--> -0.986

24

Estrategias de Reduccin de Datos


Reduccin de Dimensionalidad

Warehousing puede resultar en terabytes de datos: Tareas complejas de datamining pueden demorar mucho tiempo en ejecutarse sobre el cjto. completo de datos... Reduccin de datos: Obtiene una representacin reducida del cjto. de datos que es mucho ms pequea en volumen pero produce los mismos (o casi iguales) resultados analticos. Estrategias en la reduccin de datos Agregacin del cubo de datos Reduccin de la dimensionalidad Reduccin de Numerosidad Discretizacin y generacin de jerarquas de conceptos
25

Seleccin de caractersticas (ie, seleccin de subcjto de atributos): Seleccionar un cjto. mnimo de caractersticas tq. la distribucin de probabilidad de diferentes clases (dados los valores para esas caractersticas) sea tan pequea como sea posible con respecto a la distribucin original dados los valores de todas las caractersticas. reducir # de patrones en los patrones (ms fcil de entender) Mtodos heursticos (por el nro. exponencial de elecciones): Seleccin paso a paso hacia adelante (step-wise forward) Eliminacin paso a paso hacia atrs (step-wise backward) Combinacin de las dos anteriores. Induccin de rboles de decisin
26

Ej. de Induccin de Arbol de Decisin


Mtodos Heursticos para Seleccin de Caractersticas


Cjto de atributos inicial: {A1, A2, A3, A4, A5, A6} A4 ? A1? A6?

Clase 1

Clase 2

Clase 1

Clase 2

Cjto. de atributos reducido: {A1, A4, A6}


27

Hay 2d sub-caractersticas posibles dadas d caractersticas Hay muchos mtodos de seleccin de caractersticas basados en heursticas: Se elige la mejor caracterstica (de 1 atributo) bajo la suposicin de que hay independencia entre ellos (elegir por test de significancia). Se arma luego paso a paso la mejor caracterstica: Se elige nuevamente el prximo mejor atributo.. Y as sucesivamente. Eliminacin de caractersticas paso a paso: Eliminar repetidamente la peor caracterstica. Seleccin y eliminacin combinada.
28

Compresin de Datos

Compresin de Datos

Compresin de cadenas Hay numerosos desarrollos tericos y algoritmos especficos Tpicamente sin prdida. Solo es posible una manipulacin limitada sin expansin. Compresin de audio/video Tpicamente compresin con prdida, con refinamiento progresivo Algunas veces pequeos fragmentos de seal pueden reconstruirse sin reconstruir el todo. Secuencia temporal (Time sequence) no es audio Tpicamente corta y vara lentamente con el tiempo

Datos Originales sin prdida


p con

Datos Comprimidos

ida rd

Aproximacin a Datos Originales


29

30

Discretizacin

Sntesis

Tres tipos de atributos: Nominales (valores de un cjto. no ordenado) Ordinales (valores de un cjto. ordenado) Continuos (nros. reales) Discretizacin: dividir el rango de un atributo continuo en intervalos Algunos algoritmos de clasificacin slo aceptan atributos categricos.. Reducir tamao de datos por discretizacin. Preparar para anlisis posterior

Preparacin de datos: importante para data warehousing y datamining La preparacin de datos involucra:

Limpieza e integracin de los datos Reduccin de datos y seleccin de caractersticas Discretizacin

Muchos mtodos han sido desarrollados (pero an es un rea de investigacin activa)

31

32

Referencias

D. P. Ballou and G. K. Tayi. Enhancing data quality in data warehouse environments. Communications of ACM, 42:73-78, 1999. Jagadish et al., Special Issue on Data Reduction Techniques. Bulletin of the Technical Committee on Data Engineering, 20(4), December 1997. D. Pyle. Data Preparation for Data Mining. Morgan Kaufmann, 1999. T. Redman. Data Quality: Management and Technology. Bantam Books, New York, 1992. Y. Wand and R. Wang. Anchoring data quality dimensions ontological foundations. Communications of ACM, 39:86-95, 1996. R. Wang, V. Storey, and C. Firth. A framework for analysis of data quality research. IEEE Trans. Knowledge and Data Engineering, 7:623-640, 1995.
33

Vous aimerez peut-être aussi