06 Sobre Preprocesamiento Datos

Cap.
3: Preprocesamiento de Datos
Data Mining: Conceptos y Tcnicas Preprocesamiento de Datos

(Basado en material de Jiawei Han and Micheline Kamber) Intelligent Database Systems Research Lab School of Computing Science Simon Fraser University, Canada http://www.cs.sfu.ca
1

Por qu preprocesar los datos? Limpieza de datos (Data cleaning) Integracin y transformacin de datos Reduccin de datos Discretizacin y generacin de jerarquas de conceptos Sntesis
2
Por qu preprocesar datos?

Medidas multidimensionales de la Calidad de los Datos

Los datos del mundo real son sucios.. incompletos: carecen de valores para ciertos atributos, carecen de atributos de interes o contienen solo datos agregados ruidosos: contienen errores o outliers inconsistentes: contienen discrepancias en cdigos o nombres. Sin datos de calidad, no hay calidad en los resultados de mining! Decisiones calificadas ->basadas en datos calificados Data warehouse necesita integracin consistente de datos calificados
3
Una visin multi-dimensional aceptada : Exactitud Completitud Consistencia Timeliness Credibilidad Valor agregado Interpretabilidad Accesibilidad Categoras amplias: intrnsecos, contextuales, representacionales, y accesibles.
4
Principales tareas en Preprocesamiento de Datos

Formas de preprocesamiento de datos
Limpieza de Datos
Completar valores perdidos, ablandar datos ruidosos, identificar o remover outliers, y resolver inconsistencias Integracin de BD mltiples, cubos de datos o archivos. Normalizacin y agregacin Obtener representacin reducida en volumen, pero produce resultados analticos iguales o similares. Parte de la reduccin de datos, pero con particular importancia para los datos numricos.
5 6
Integracin de datos
Transformacin de datos
Reduccin de datos
Discretizacin de datos
Cap. 3: Preprocesamiento de Datos

Limpieza de Datos
7
Principales tareas en Data cleaning

Completar valores faltantes Identificar outliers y ablandar los datos ruidosos. Corregir datos inconsistentes.
Datos faltantes
Cmo tratar a Datos Faltantes?

Los datos no siempre estn disponibles:

E.g., muchas tuplas pueden no tener valor asociado para ciertos atributos. Ej: ingreso mensual en los datos de un determinado cliente. errores tcnicos (de equipamiento) inconsistencia con otros datos almacenados (y por ende borrados) Datos no ingresados Considerados irrelevantes al momento de ser cargados no se registr la historia o cambios de los datos
Ignorar la tupla: usuamente se hace cuando falta la etiqueta de clase (no efectivo cuando el % de valores faltantes por atributo vara considerablemente). Completar el dato faltante a mano: tedioso y poco factible Usar una constante global para completar el dato faltante: e.g., n/d, o crear una nueva clase. Usar el valor medio del atributo para completar el dato faltante. Usar el valor medio del atributo para todas las muestras que pertenezcan a la misma clase para completar el valor faltante (ms astuto). Usar el valor ms probable para completar el valor faltante: basado en inferencia como frmulas bayesianas o rboles de decisin.
10

Los datos faltantes pueden deberse a:

Los datos faltantes puede que tengan que ser inferidos.

9
Datos con Ruido

Cmo tratar los datos con ruido?

Ruido: error aleatorio o varianza en una variable medida Valores de atributos incorrectos debido a: Instrumentos de medicin errneos Problemas en la entrada de datos Problemas en la transmisin Limitaciones tecnolgicas Otros problemas que requieren data cleaning Registros duplicados datos incompletos datos inconsistentes
11
Mtodo de cubas (Binning method): Ordenar primero los datos, y particionarlos en cubas de igual profundidad (=cant. de valores). Luego se puede suavizar (smooth) por media de cubas, mediana de cubas, frontera de cubas, etc. Clustering Detectar y remover outliers Inspeccin combinada humano-computadora Detectar valores sospechosos automticamente y contrastarlos con opinin humana Regresin suavizar ajustando los datos a travs de funciones de regresin
12
Mtodos Simples de Discretizacin: Binning

Mtodos de Binning
* Datos ordenados por Precio (en $): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 * Particin en cubas de igual profundidad: - Bin 1: 4, 8, 9, 15 - Bin 2: 21, 21, 24, 25 - Bin 3: 26, 28, 29, 34 * Alisamiento utilizando promedios de cubas: - Bin 1: 9, 9, 9, 9 - Bin 2: 23, 23, 23, 23 - Bin 3: 29, 29, 29, 29 * Alisamiento por fronteras de cubas: - Bin 1: 4, 4, 4, 15 - Bin 2: 21, 21, 25, 25 - Bin 3: 26, 26, 26, 34
14
Particionamiento segn Igual Distancia (tamao) : Se divide el rango en N intervalos de igual tamao (grilla uniforme) . Si A y B son los valores menores y mayores del atributo, el ancho de los intervalos ser : W = (B-A)/N. Es el ms directo... Pero los outliers pueden dominar la presentacin Los datos sesgados (skewed) no son manejados bien.. Particionamiento por igual profundidad (frecuencia) : Se divide al rango en N intervalos, c/u conteniendo aproximadamente el mismo nro. de muestras. Bueno para escalar datos
13
Cluster Analysis
Regresin
y
Y1
Y1
y=x+1
X1
15
16
Cap. 3: Preprocesamiento de Datos

Integracin de Datos
17
Integracin de Datos: se combinan datos de mltiples fuentes en un almacenamiento coherente. Integracin de esquemas: integrar metadatos de distintas fuentes Problema de identificacin de entidades: identificar entidades del mundo real a partir de fuentes de datos mltiples, e.g., A.cust-id B.cust-# Deteccin y resolucin de conflictos de valores de datos: Para la misma entidad del mundo real, los valores de atributos de distintas fuentes pueden ser diferentes Razones posibles: representaciones distintas, escalas distintas. Ej: sistema mtrico vs. no mtrico.
18
Tratamiento de Datos Redundantes al Integrar Datos

Correlacin
Los datos redundantes aparecen a menudo cuando se integran mltiples bases de datos
Dados atributos A y B, su correlacin puede expresarse como rA,B = [ (A-prom(A))(B-prom(B)) ] (n-1) AB Donde n=nro. de tuplas, prom(A) y prom(B) son promedios de A y B, y A, B corresponde a los desvos estndar. Si rA,B > 0, ent. hay correlacin positiva (los valores de A se incrementan cuando los valores de B se incrementan). A mayor valor, mayor vnculo entre ambos atributos. Puede usarse para detectar correlacin entre atributos (ej: nro_cliente y ident_cliente)
El mismo atributo puede tener diferentes nombres en diferentes bases de datos. Un atributo puede ser un atributo derivado en otra tabla (ej: ganancia anual)
Los datos redundantes pueden detectarse por anlisis de correlacin La integracin cuidadosa de datos de mltiples fuentes puede ayudar a reducir/evitar redundancias e inconsistencias y mejorar la velocidad y la calidad del datamining.
19
20
Transformacin de Datos

Transf. de Datos: Normalizacin

Suavizamiento: remover ruido de los datos Agregacin: sintetizacin, construccin de cubos de datos Generalizacin: trepar en la jerarqua de conceptos Normalizacin: se ajusta a una escala para caer en un rango pequeo y especificado.

Normalizacin min-max
v' =
v minA (new _ maxA new _ minA) + new _ minA maxA minA
Normalizacin min-max Normalizacin z-score Normalizacin por escala decimal Construir nuevos atributos a partir de los dados
21
Se hace una transf. lineal sobre los datos originales. minA y maxA son mnimos y mximos originales, y new_minA y new_maxA son los nuevos extremos.
Construccin de atributos/caractersticas
22


Normalizacin z-score v = (v -prom(A)) / A
Normalizacin por escala decimal
v = v / 10j
Donde j es el entero ms pequeo tal que Max(|v |)<1
Tambin llamada zero-mean normalization. Aqui los valores del atributo A se normalizan con respecto a la media prom(A) y al desvo estndar de A. Util cuando el mnimo y mximo de A son desconocidos, o cuando hay outliers que dominan la normalizacin minmax.
23
Ej: si el valor de A vara entre -986 y 917, el valor mximo de A en val.abs. es 986. Para normalizar se divide entonces por 1000: -986 --normalizado--> -0.986
24
Estrategias de Reduccin de Datos

Reduccin de Dimensionalidad
Warehousing puede resultar en terabytes de datos: Tareas complejas de datamining pueden demorar mucho tiempo en ejecutarse sobre el cjto. completo de datos... Reduccin de datos: Obtiene una representacin reducida del cjto. de datos que es mucho ms pequea en volumen pero produce los mismos (o casi iguales) resultados analticos. Estrategias en la reduccin de datos Agregacin del cubo de datos Reduccin de la dimensionalidad Reduccin de Numerosidad Discretizacin y generacin de jerarquas de conceptos
25
Seleccin de caractersticas (ie, seleccin de subcjto de atributos): Seleccionar un cjto. mnimo de caractersticas tq. la distribucin de probabilidad de diferentes clases (dados los valores para esas caractersticas) sea tan pequea como sea posible con respecto a la distribucin original dados los valores de todas las caractersticas. reducir # de patrones en los patrones (ms fcil de entender) Mtodos heursticos (por el nro. exponencial de elecciones): Seleccin paso a paso hacia adelante (step-wise forward) Eliminacin paso a paso hacia atrs (step-wise backward) Combinacin de las dos anteriores. Induccin de rboles de decisin
26
Ej. de Induccin de Arbol de Decisin

Mtodos Heursticos para Seleccin de Caractersticas

Cjto de atributos inicial: {A1, A2, A3, A4, A5, A6} A4 ? A1? A6?
Clase 1
Clase 2
Clase 1
Clase 2
Cjto. de atributos reducido: {A1, A4, A6}

27
Hay 2d sub-caractersticas posibles dadas d caractersticas Hay muchos mtodos de seleccin de caractersticas basados en heursticas: Se elige la mejor caracterstica (de 1 atributo) bajo la suposicin de que hay independencia entre ellos (elegir por test de significancia). Se arma luego paso a paso la mejor caracterstica: Se elige nuevamente el prximo mejor atributo.. Y as sucesivamente. Eliminacin de caractersticas paso a paso: Eliminar repetidamente la peor caracterstica. Seleccin y eliminacin combinada.
28
Compresin de Datos
Compresin de Datos
Compresin de cadenas Hay numerosos desarrollos tericos y algoritmos especficos Tpicamente sin prdida. Solo es posible una manipulacin limitada sin expansin. Compresin de audio/video Tpicamente compresin con prdida, con refinamiento progresivo Algunas veces pequeos fragmentos de seal pueden reconstruirse sin reconstruir el todo. Secuencia temporal (Time sequence) no es audio Tpicamente corta y vara lentamente con el tiempo
Datos Originales sin prdida

p con
Datos Comprimidos
ida rd
Aproximacin a Datos Originales

29
30
Discretizacin
Sntesis
Tres tipos de atributos: Nominales (valores de un cjto. no ordenado) Ordinales (valores de un cjto. ordenado) Continuos (nros. reales) Discretizacin: dividir el rango de un atributo continuo en intervalos Algunos algoritmos de clasificacin slo aceptan atributos categricos.. Reducir tamao de datos por discretizacin. Preparar para anlisis posterior
Preparacin de datos: importante para data warehousing y datamining La preparacin de datos involucra:

Limpieza e integracin de los datos Reduccin de datos y seleccin de caractersticas Discretizacin
Muchos mtodos han sido desarrollados (pero an es un rea de investigacin activa)
31
32
Referencias
D. P. Ballou and G. K. Tayi. Enhancing data quality in data warehouse environments. Communications of ACM, 42:73-78, 1999. Jagadish et al., Special Issue on Data Reduction Techniques. Bulletin of the Technical Committee on Data Engineering, 20(4), December 1997. D. Pyle. Data Preparation for Data Mining. Morgan Kaufmann, 1999. T. Redman. Data Quality: Management and Technology. Bantam Books, New York, 1992. Y. Wand and R. Wang. Anchoring data quality dimensions ontological foundations. Communications of ACM, 39:86-95, 1996. R. Wang, V. Storey, and C. Firth. A framework for analysis of data quality research. IEEE Trans. Knowledge and Data Engineering, 7:623-640, 1995.
33

06 Sobre Preprocesamiento Datos

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

06 Sobre Preprocesamiento Datos

Transféré par

Droits d'auteur :

Formats disponibles

Cap.

Data Mining: Conceptos y Tcnicas Preprocesamiento de Datos

Por qu preprocesar datos?

Medidas multidimensionales de la Calidad de los Datos

Principales tareas en Preprocesamiento de Datos

Formas de preprocesamiento de datos

Cap. 3: Preprocesamiento de Datos

Principales tareas en Data cleaning

Cmo tratar a Datos Faltantes?

Los datos no siempre estn disponibles:

Los datos faltantes pueden deberse a:

Los datos faltantes puede que tengan que ser inferidos.

Datos con Ruido

Cmo tratar los datos con ruido?

Mtodos Simples de Discretizacin: Binning

Cap. 3: Preprocesamiento de Datos

Tratamiento de Datos Redundantes al Integrar Datos

Transf. de Datos: Normalizacin

v minA (new _ maxA new _ minA) + new _ minA maxA minA

Transf. de Datos: Normalizacin

Transf. de Datos: Normalizacin

Normalizacin z-score v = (v -prom(A)) / A

Normalizacin por escala decimal

Donde j es el entero ms pequeo tal que Max(|v |)<1

Estrategias de Reduccin de Datos

Ej. de Induccin de Arbol de Decisin

Mtodos Heursticos para Seleccin de Caractersticas

Cjto. de atributos reducido: {A1, A4, A6}

Datos Originales sin prdida

Aproximacin a Datos Originales

Limpieza e integracin de los datos Reduccin de datos y seleccin de caractersticas Discretizacin

Muchos mtodos han sido desarrollados (pero an es un rea de investigacin activa)

Vous aimerez peut-être aussi