Académique Documents
Professionnel Documents
Culture Documents
Introduo
Limpeza de Dados
Luiz Henrique de Campos Merschmann
Departamento de Computao
Universidade Federal de Ouro Preto
luizhenrique@iceb.ufop.br
Integrao de Dados
Transformao de Dados
www.decom.ufop.br/luiz
Reduo de Dados
Discretizao
5
4
Regras e
Padres
2
Dados
Dados
Transformados
Pr-processados
outliers
esperado).
I Inconsistncias: discrepncias com relao aos nomes ou
cdigos utilizados.
Dados
Selecionados
Dados
agregados.
I Rudos: dados errados,
aps a minerao!
I Limpeza de dados:
I Preenchimento de valores ausentes.
I Suavizao (smoothing ) de rudos (ltro da mdia).
I Identicao e/ou remoo de valores aberrantes (outliers ).
I Tratamento de inconsistncias.
I Integrao de dados:
I Integrao de diversas bases de dados ou arquivos.
I Transformao de dados:
I Normalizao e agregao.
I Reduo de dados:
I Obteno de uma representao reduzida do conjunto de
I Discretizao de dados:
I Reduo de dados particularmente importante para
atributos contnuos.
Pr-processamento de Dados
Limpeza de Dados
outliers
e suavizar rudos.
apagado.
I Dado no inserido devido a falta de entendimento.
I Dado foi considerado sem importncia no momento do
armazenamento.
Rudos
I Limitaes tecnolgicas.
I Agrupamento (Clusterizao).
vizinhana.
(bins ).
I A suavizao ocorre dentro de cada bin
suavizao local.
21, 21, 24
22, 22, 22
Y1
Regresso mltipla:uma
varivel pode ser modelada
como uma funo linear de
um vetor multidimensional
de variveis.
y=x+1
Y1
25, 28, 34
29, 29, 29
21, 21, 24
25, 25, 34
X1
Dados Inconsistentes
Pr-processamento de Dados
I Correo:
I Manual ou ferramentas computacionais.
Integrao de Dados
Integrao de Dados
Integrao de Dados
Pr-processamento de Dados
dados distintas.
I Um atributo pode ter sido derivado de outro atributo em
outra tabela.
Transformao de Dados
Normalizao de Dados
conceitos de ordem
I Mtodos de normalizao:
I Normalizao min-max.
I Normalizao z-score.
I Normalizao por escala decimal.
Normalizao min-max
Normalizao z-score
v0 =
v minA
(new_maxA new_minA) + new_minA
maxA minA
onde:
v0 =
v medA
desv _padA
onde:
Pr-processamento de Dados
v0 =
v
10j
0
986
e 917. A
A.
Reduo de Dados
minerao de dados.
I Tempo de processamento muito longo.
Objetivo:
Reduo de Dimenso
I Seleo de atributos!!!
I Podemos ter diversos nveis de agregao em cubos de
dados.
Seleo de Atributos
Compresso de Dados
Dados so codicados ou transformados para se obter uma
Dados
Comprimidos
Dados originais
Sem perda
Compresso de Dados
m
Co
Aproximao dos
dados originais
da
per
Compresso de Dados
Transformada Wavelet Discreta
I Sem perdas:
I Diversos algoritmos para compresso de dados.
I Desvantagem: manipulao dos dados muito limitada sem
I Com perdas:
I Transformada Wavelet Discreta (Discrete Wavelet
Transform - DWT):
I Representao esparsa dos dados.
I Anlise de Componentes Principais (Principal Components
Analysis - PCA):
I Combinao de atributos gerando um novo conjunto
(menor) de variveis.
X,
de coecientes de wavelet.
X = {x1 , x2 , . . . , xn }
n-dimensional
atributos
I Os vetores
X0
tm o mesmo comprimento.
Reduo de Casos
Regresso Linear
I Mtodos paramtricos:
I Supem que os dados se ajustam a um modelo.
I Armazenam apenas os parmetros do modelo (outliers
I Mtodos no-paramtricos:
Y = + X
I Dois parmetros,
partir dos dados que temos em mos (Y1, Y2, . . . , X1, X2,
. . . ).
I Em geral, utiliza-se o mtodo dos mnimos quadrados para
ajustar a curva.
I No estimam modelos.
I Exemplos: Histogramas, clusterizao e amostragem.
Histogramas
Clusterizao
I Os dados so particionados em grupos (clusters ).
cluster.
Amostragem
I Tipos de amostragem:
I Amostragem aleatria simples sem reposio.
I Amostragem aleatria simples com reposio.
I Amostragem por conglomerado.
I Amostragem estraticada.
Discretizao
Discretizao
Mtodos No Supervisionados
I Partio em Intervalos Iguais
I Divide a faixa de valores de um atributo em k intervalos
I Mtodos Supervisionados
I Utilizam informaes referentes s classes das instncias da
I Mtodos No Supervisionados
I Consideram somente os valores do atributo a ser
discretizado.
um rtulo.
Mtodos Supervisionados
Perguntas?
I Algoritmo de discretizao 1R.
I O objetivo dividir o domnio de cada atributo contnuo em
FIM