Vous êtes sur la page 1sur 22

Data Mining: Conceitos e Tcnicas

DM, DW e OLAP

Data Warehousing e OLAP para Data Mining

O que data warehouse?


De data warehousing para data mining

Data Warehousing e OLAP para Data Mining

Data Warehouse: A Memria da Empresa


Data Mining: A Inteligncia da Empresa

O que Data Warehouse?


Definido de diversas formas, mas no rigorosamente:
uma base de dados de suporte que mantida separadamente da base de dados operacional da organizao; Suporta o processamento de informaes provendo uma slida plataforma de dados histricos e consolidados para anlise;

O que Data Warehouse?

1. 2. 3. 4.

Um data warehouse uma coleo de dados: orientada a assunto (subject-oriented); integrada; variante no tempo, e no-voltil para suporte a decises de gerenciamento.W. H. Inmon Data warehousing: o processo de construo e uso de data warehouses.

Usos do data warehouse


Processamento de Informaes:
Suporta consultas, anlise estatstica bsica e relatrios usando tabelas, grficos, etc.

Processamento analtico:
Anlise multi-dimensional doas dados contidos no data warehouse; Suporta operaes OLAP bsicas (slice-dice, drilling, pivoting);

Usos do data warehouse


Data mining:
Descoberta de conhecimento em padres; Suporta associaes, construo de modelos analticos, executa classificao e predio, e apresenta os resultados usando ferramentas de visualizao.

De OLAP para OLAM


Por que OLAM? Alta qualidade dos dados nos data warehouses;
DW contem dados integrados, consistentes e limpos.

Estrutura para o tratamento de informao disponvel no ambiente de DW:


ODBC, OLEDB, acesso Web, facilidades de servio, relatrios e ferramentas OLAP;

Anlise de dados exploratria baseada em OLAP;


Minerao com drilling, dicing, pivoting, etc.

Seleo on-line das funes de data mining:


Integrao e intercmbio de mltiplas funes de minerao, algoritmos e tarefas.

Uma arquitetura OLAM


Mining query
User GUI API

Mining result

Layer4 User Interface Layer3 OLAP/OLAM

OLAM Engine
Data Cube API

OLAP Engine

Layer2

MDDB
Meta Data
Filtering&Integration

MDDB

Database API
Data cleaning

Filtering

Layer1 Databases Data Data integration Warehouse Data Repository

Pr-processamento de dados

Por que pr-processar os dados ?


Dados reais so sujos:
Incompletos: falta de valores de atributos, falta de atributos de interesse ou existncia de atributos agregados; Ruidosos: contem erros e desvios; Inconsistentes: contem discrepncias em nomes e na codificao.

Sem dados de qualidade, sem resultados de qualidade em DM:


Decises de qualidade devem estar baseadas em dados de qualidade; DW necessita da integrao consistente de dados de qualidade.

Medida multidimensional da qualidade dos dados


Uma viso multidimensional bem aceita:
Correo; Completude; Consistncia; Atualidade (timeliness); Credibilidade; Valor adicionado; Interpretabilidade; Acessibilidade.

Categorias abrangentes:
Intrnseca, contextual, representacional e acessibilidade.

Principais tarefas no prprocessamento dos dados


Limpeza dos dados:
Preenchimento de valores inexistentes, atenuao de dados ruidosos, identificao e remoo de desvios, resoluo de inconsistncias;

Integrao de dados:
Integrao de mltiplos DB, data cubos, e arquivos;

Transformaes nos dados:


normalizao e agregao;

Reduo de dados:
Obteno de uma representao reduzida em volume mas que produz resultados de anlise idnticos ou similares.

Principais tarefas no prprocessamento dos dados


Limpeza dos dados: Valores faltantes
1. 2. 3. 4. 5. 6. Ignorar a tupla; Preencher o valor manualmente; Usar uma constante global; Usar o valor mdio do atributo na base; Usar o valor mdio do atributo na classe; Usar o valor mais provvel.

Principais tarefas no prprocessamento dos dados


Limpeza dos dados: Atenuao de dados ruidosos
1. 2. 3. 4. Discretizao; Agrupamento; Interao humana; Regresso.

Principais tarefas no prprocessamento dos dados


Limpeza dos dados: Inconsistncias
1. Eliminar dados; 2. Corrigir manualmente; 3. Ignorar.

Principais tarefas no prprocessamento dos dados Integrao de dados:


Integrao de esquemas de BD: problema da identificao de entidades; Redundncias; Deteco e resoluo de valores conflitantes nos dados.

Principais tarefas no prprocessamento dos dados Transformaes nos dados:


Suavizao (smooting); Agregao; Generalizao; Normalizao (entre 0 e 1); Construo de atributos.

Principais tarefas no prprocessamento dos dados Reduo de dados:


Agregao de data cubes; Reduo de dimensionalidade; Compresso de dados; Reduo de instncias; Gerao de hierarquias de conceitos.

Formas de pr-processamento de dados

Sumrio
A preparao do dados um ponto crucial tanto para data warehousing quanto para data mining;
A preparao de dados inclui:
Limpeza e Integrao de dados; Reduo de dados e seleo de caractersticas; Discretizao: intervalos iguais, freqncias iguais, agrupamento.

Vrios mtodos tm sido desenvolvidos, mas ainda rea ativa de pesquisa.

Vous aimerez peut-être aussi