Vous êtes sur la page 1sur 12

Roteiro

PCC142 / BCC444 - Minerao de Dados

Introduo

Limpeza de Dados
Luiz Henrique de Campos Merschmann
Departamento de Computao
Universidade Federal de Ouro Preto
luizhenrique@iceb.ufop.br

Integrao de Dados

Transformao de Dados

www.decom.ufop.br/luiz
Reduo de Dados

Discretizao

Processo de Descoberta de Conhecimento em Bases de Dados

Por que pr-processar os dados?

I Bases de dados reais esto altamente suscetveis a:


I Dados incompletos: atributos com ausncia de valores,

5
4

atributos de interesse ausentes ou contendo apenas dados


Conhecimento

Regras e
Padres

2
Dados
Dados
Transformados
Pr-processados

outliers

Fonte: From data mining to knowledge discovery: An overview,


U.M.Fayyad et. al., 1996.

(desvio com relao ao

esperado).
I Inconsistncias: discrepncias com relao aos nomes ou

cdigos utilizados.

I Falta de qualidade dos dados

Dados
Selecionados

Dados

agregados.
I Rudos: dados errados,

aps a minerao!

resultado sem qualidade

Principais Tarefas de Pr-processamento

I Limpeza de dados:
I Preenchimento de valores ausentes.
I Suavizao (smoothing ) de rudos (ltro da mdia).
I Identicao e/ou remoo de valores aberrantes (outliers ).
I Tratamento de inconsistncias.

I Integrao de dados:
I Integrao de diversas bases de dados ou arquivos.

Principais Tarefas de Pr-processamento

I Transformao de dados:
I Normalizao e agregao.

I Reduo de dados:
I Obteno de uma representao reduzida do conjunto de

dados (reduo em volume).

I Discretizao de dados:
I Reduo de dados particularmente importante para

atributos contnuos.

Pr-processamento de Dados

Limpeza de Dados

I Tcnicas de limpeza de dados so utilizadas para:


I Preencher valores ausentes.
I Identicar

outliers

e suavizar rudos.

I Corrigir dados inconsistentes.

Ausncia de Valores de Atributos

Como Lidar com os Valores Ausentes de


Atributos?
I Ignorar o registro (instncia): usualmente utilizado quando
o atributo classe possui valor desconhecido. recomendado

I Valores de atributos (dados) nem sempre esto disponveis.


I Exemplo: vrios registros de uma base de dados de vendas

no possuem valores para o atributo salrio do consumidor.

I A ausncia de dados pode ser resultado de:


I Mau funcionamento de equipamento.
I Inconsistncia com outros dados armazenados e, portanto,

apagado.
I Dado no inserido devido a falta de entendimento.
I Dado foi considerado sem importncia no momento do

armazenamento.

quando a instncia contm muitos valores de atributos


desconhecidos.

I Preencher os valores ausentes manualmente: tedioso +


invivel?

I Usar uma constante global para preencher os valores


ausentes: desconhecido.

I Usar a mdia dos valores do atributo para preencher os


valores ausentes.

I Usar a mdia dos valores das instncias pertencentes


mesma classe da instncia que possui o valor ausente.

I Utilizar o valor mais provvel para preencher o valor


ausente: inferncia a partir da frmula de Bayes ou rvores
de deciso.

Rudos

Como Lidar com os Rudos?

I Rudo: um erro aleatrio ou um valor aberrante (outlier ).


I Valores errneos de atributos podem ocorrer devido a:
I Defeito no instrumento de coleta de dados.
I Problemas na transmisso de dados.

I Tcnicas para remoo de rudos:


I Suavizao.
I Regresso.

I Tcnicas para identicao de valores aberrantes:

I Limitaes tecnolgicas.

I Agrupamento (Clusterizao).

I Inconsistncias nas convenes de nomes.

I Inspeo manual auxiliada por computador.

Tcnicas para Remoo de Rudos

Tcnicas para Remoo de Rudos


Regresso: os dados podem ser suavizados ajustando-os a uma

I Suavizao: a partir de dados ordenados, a suavizao de

funo (p. ex.: regresso linear).

um valor ocorre a partir de uma consulta em sua

vizinhana.

Regresso linear: uma


varivel pode ser
utilizada para predizer
a outra.

I Os valores ordenados devem ser distribudos em caixas

(bins ).
I A suavizao ocorre dentro de cada bin

suavizao local.

I Exemplo: atributo preo (ordenado):


4, 8, 15, 21, 21, 24, 25, 28, 34.
I Particionamento em bins: 4, 8, 15
I Suavizao pela mdia: 9, 9, 9

21, 21, 24

22, 22, 22

I Suavizao pela fronteira: 4, 4, 15

Y1
Regresso mltipla:uma
varivel pode ser modelada
como uma funo linear de
um vetor multidimensional
de variveis.

y=x+1

Y1
25, 28, 34

29, 29, 29

21, 21, 24

25, 25, 34

I Outras alternativas de suavizao: mediana, ...

Tcnicas para Identicao de Valores Aberrantes

X1

Tcnicas para Identicao de Valores Aberrantes

Clusterizao: valores aberrantes so aqueles que cam fora dos


clusters.

I Utilizao de um mtodo computacional para ajudar a


encontrar valores aberrantes.

I Por inspeo manual, verica-se quais valores so realmente


aberrantes, excluindo-os da base de dados.

Dados Inconsistentes

Pr-processamento de Dados

I Erros no momento da insero de dados.


I Erros provenientes da integrao de diferentes bases de
dados:
I Mesmo atributo contendo diferentes codicaes.
I Duplicao de instncias.

I Correo:
I Manual ou ferramentas computacionais.

Integrao de Dados

Integrao de Dados

Questes a serem consideradas durante a integrao:

I Problema da identicao de entidades: identicao das


I Integrao de dados: combina dados de mltiplas fontes em
um nica fonte de forma coerente. As fontes podem ser
bases de dados, cubos ou arquivos de texto.

mesmas entidades do mundo real a partir de mltiplas


fontes de dados.
P. ex.: Como um analista saber se customer_id em uma
base de dados e cust_number em outra base de dados
correspondem ao mesmo atributo?
Uso de metadados.

Integrao de Dados

Pr-processamento de Dados

Questes a serem consideradas durante a integrao:

I Redundncia: dados redundantes ocorrem com freqncia


quando integramos dados de mltiplas fontes.
I O mesmo atributo pode ter nomes diferentes em bases de

dados distintas.
I Um atributo pode ter sido derivado de outro atributo em

outra tabela.

I Deteco de redundncias: anlise de correlao.


I Duplicao de instncias.

Transformao de Dados

Normalizao de Dados

I Objetivo: colocar os dados de forma apropriada para a


minerao. A transformao de dados envolve:

I Suavizao: para remoo de rudos.


I Agregao: operaes de sumarizao dos dados.
I Generalizao: dados primitivos so substitudos por
conceitos de ordem superior utilizando-se uma hierarquia
de conceitos. Ex.: atributo Rua

conceitos de ordem

superior: Cidade ou Pas.

I Normalizao: ajuste de escala.


I Construo de atributos: novos atributos so construdos e
adicionados ao conjunto j existente.

I Objetivo: Colocar os valores numa faixa pr-especicada, p.


ex.:, entre 0 e 1.

I Importante para algoritmos de classicao envolvendo


redes neurais ou clculos de distncias (k-NN).

I Mtodos de normalizao:
I Normalizao min-max.
I Normalizao z-score.
I Normalizao por escala decimal.

Normalizao min-max

Normalizao z-score

Transformao linear nos dados originais.

Valores do atributo so normalizados com base na mdia e


no desvio padro do atributo.

v0 =

v minA
(new_maxA new_minA) + new_minA
maxA minA

onde:

v0 =

v medA
desv _padA

onde:

minA: valor mnimo do atributo A.


maxA: valor mximo do atributo A.
new_minA: novo valor mnimo do atributo A.
new_maxA: novo valor mximo do atributo A.
v : valor original do atributo A.

v : valor original do atributo A.


medA: mdia do atributo A.
desv _padA: desvio-padro do atributo

Normalizao por Escala Decimal

Pr-processamento de Dados

Normalizao movendo-se o ponto decimal dos valores do


atributo.

v0 =

v
10j
0

onde j o menor inteiro tal que Max(|v |) < 1.


Exemplo: Atributo A contendo valores entre

986

e 917. A

normalizao realizada dividindo-se os valores do atributo por


1000 (j = 3), de modo que |986/1000| < 1.

A.

Reduo de Dados

Estratgias de Reduo de Dados

Por que fazer a reduo de dados?

I Repositrios podem conter uma quantidade absurda de


dados.
I Exceder a capacidade de processamento dos programas de

minerao de dados.
I Tempo de processamento muito longo.

Objetivo:

I Agregao em cubo de dados.


I Reduo de dimenso.
I Compresso de dados.
I Reduo de casos.
I Discretizao e construo de hierarquias conceituais.

Obter uma representao reduzida do conjunto de dados


(diminuir o volume) mantendo a integridade dos dados originais.

Agregao em Cubo de Dados

Reduo de Dimenso

I Operaes de agregao so aplicadas aos dados na


construo dos cubos de dados.

I Bases de dados podem conter muitos atributos, alguns


desses sendo irrelevantes ou redundantes para a tarefa de
minerao de dados.
Ex.: Classicar consumidor (comprador ou no comprador
de um novo CD). Quais atributos devem ser considerados?
Telefone? Idade? Gosto musical?

I Seleo de atributos!!!
I Podemos ter diversos nveis de agregao em cubos de
dados.

I Quanto maior o nvel de agregao, menor o volume de


dados resultante.

Seleo de Atributos

Compresso de Dados
Dados so codicados ou transformados para se obter uma

I Seleo de atributos feita manualmente (baseada em

representao reduzida dos dados originais.

conhecimento de especialistas) pode ser invivel devido:


I Tempo consumido nessa tarefa.
I Comportamento dos dados no ser bem conhecido.

Dados
Comprimidos

Dados originais
Sem perda

I Vrios mtodos de seleo de atributos foram propostos.


I Deixar de fora atributos relevantes ou manter atributos
irrelevantes pode implicar na descoberta de padres de
baixa qualidade.

Compresso de Dados

m
Co

Aproximao dos
dados originais

da
per

Compresso de Dados
Transformada Wavelet Discreta

I Sem perdas:
I Diversos algoritmos para compresso de dados.
I Desvantagem: manipulao dos dados muito limitada sem

a expanso dos mesmos.

I Com perdas:
I Transformada Wavelet Discreta (Discrete Wavelet

Transform - DWT):
I Representao esparsa dos dados.
I Anlise de Componentes Principais (Principal Components

Analysis - PCA):
I Combinao de atributos gerando um novo conjunto

(menor) de variveis.

I uma tcnica de processamento de sinais que quando


aplicada a um vetor

X,

transforma-o em um vetor numrico

de coecientes de wavelet.

I No nosso contexto, o vetor

X = {x1 , x2 , . . . , xn }

n-dimensional

contm os valores dos

atributos

para uma instncia da base de dados.

I Os vetores

X0

tm o mesmo comprimento.

I Como essa tcnica pode ser til para reduo da base de


dados original se os dados transformados tm a mesma
dimenso dos dados originais?
I Os dados transformados podem ser truncados.
I Armazena-se apenas uma frao dos dados (os maiores

coecientes de wavelet). Todos os demais coecientes so


mapeados para zero.
I Representao esparsa dos dados.

Reduo de Casos

Regresso Linear

Reduo do volume de dados por meio de uma representao


econmica dos mesmos.

I Mtodos paramtricos:
I Supem que os dados se ajustam a um modelo.
I Armazenam apenas os parmetros do modelo (outliers

tambm podem ser armazenados).


I Exemplos: Regresso linear (simples e mltipla).

I Mtodos no-paramtricos:

Y = + X
I Dois parmetros,

denem a reta. Eles so estimados a

partir dos dados que temos em mos (Y1, Y2, . . . , X1, X2,
. . . ).
I Em geral, utiliza-se o mtodo dos mnimos quadrados para

ajustar a curva.

I No estimam modelos.
I Exemplos: Histogramas, clusterizao e amostragem.

Histogramas

Clusterizao
I Os dados so particionados em grupos (clusters ).

I Divide o dados em subconjuntos disjuntos.


I A reduo de dados: faixa de valores representada num
nico subconjunto.

I Armazena-se apenas a representao de cada

cluster.

Amostragem

I Um grande conjunto de dados pode ser representado por


um subconjunto menor obtido por amostragem.

I Tipos de amostragem:
I Amostragem aleatria simples sem reposio.
I Amostragem aleatria simples com reposio.
I Amostragem por conglomerado.
I Amostragem estraticada.

Discretizao

Discretizao

I Reduz o nmero de valores de um dado atributo contnuo


pela diviso da amplitude do atributo em intervalos. Os
rtulos dos intevalos substituem os valores originais do
atributo.

I Alguns algoritmos de classicao s trabalham com


atributos discretos.

Mtodos No Supervisionados
I Partio em Intervalos Iguais
I Divide a faixa de valores de um atributo em k intervalos

iguais (de mesma amplitude), atribuindo a cada intervalo

I Mtodos Supervisionados
I Utilizam informaes referentes s classes das instncias da

base de dados durante o processo de discretizao de um


atributo.

I Mtodos No Supervisionados
I Consideram somente os valores do atributo a ser

discretizado.

um rtulo.

I Partio em Intervalos com Freqncias Iguais


I Divide os valores de um atributo contnuo em k parties,

de modo que, considerando m instncias na base de dados,


cada partio deve conter m/k valores adjacentes
(possivelmente duplicados).

I O parmetro k deve ser informado pelo usurio dos


mtodos.

I Desvantagem: as fronteiras escolhidas para particionar os


dados em intervalos podem colocar juntas muitas instncias
pertencentes a diferentes classes, afetando a preciso do
classicador.

Mtodos Supervisionados
Perguntas?
I Algoritmo de discretizao 1R.
I O objetivo dividir o domnio de cada atributo contnuo em

parties puras, ou seja, parties que sejam caracterizadas


predominantemente por uma das classes da base de dados.

I Mtodos estatsticos: ChiMerge e StatDisc.


I Mtodos baseados em entropia:
I Heurstica recursiva de minimizao de entropia.

FIM

Vous aimerez peut-être aussi