Académique Documents
Professionnel Documents
Culture Documents
Datos
CLASE 3: Preprocesamiento de Datos
Mineria de Datos
Edgar Acuna
COMP 6315
Mineria de Datos
Edgar Acuna
Ruido
Edgar Acuna
Outliers
COMP 6315
Mineria de Datos
Edgar Acuna
Principales Tareas de
Preprocesamiento de Datos
Limpieza de datos
Integracin de datos
Transformacin de datos
Normalizacin y totalizacin.
Reduccin de datos
Discretizacin de datos
COMP 6315
Mineria de Datos
Edgar Acuna
Limpieza de Datos
COMP 6315
Mineria de Datos
Edgar Acuna
COMP 6315
Mineria de Datos
Edgar Acuna
COMP 6315
Mineria de Datos
Edgar Acuna
Mineria de Datos
Edgar Acuna
COMP 6315
Mineria de Datos
Edgar Acuna
10
Mineria de Datos
Edgar Acuna
11
Mineria de Datos
Edgar Acuna
12
Variables en Census
1- age: continua.
2- workclass: Private, Self-emp-not-inc, Self-emp-inc,
Federal-gov, Local-gov, State-gov, Without-pay, Neverworked. Nominal
3- fnlwgt (final weight) : Continua.
4- education: Bachelors, Some-college, 11th, HS-grad,
Prof-school, Assoc-acdm, Assoc-voc, 9th, 7th-8th, 12th,
Masters, 1st-4th, 10th, Doctorate, 5th-6th, Preschool.
Ordinal.
5- education-num: continua.
6- marital-status: Married-civ-spouse, Divorced, Nevermarried, Separated, Widowed, Married-spouse-absent,
Married-AF-spouse. Nominal
7- occupation: Nominal
COMP 6315
Mineria de Datos
Edgar Acuna
13
Variables en Census
COMP 6315
Mineria de Datos
Edgar Acuna
14
job
relation race
gender hours_worked
country wealth
Never_married
Adm_clerical
Not_in_family
White
Male
40 United_States
poor
Married
Exec_managerial
Husband White
Male
13 United_States
poor
Divorced
Handlers_cleaners
Not_in_family
White
Male
40 United_States
poor
Married
Handlers_cleaners
Husband Black
Male
40 United_States
poor
Married
Prof_specialty
Wife
Black
Female 40 Cuba
poor
Married
Exec_managerial
Wife
White
Female 40 United_States
poor
Married_spouse_absent
Other_service
Not_in_family
Black
Female 16 Jamaica poor
Married
Exec_managerial
Husband White
Male
45 United_States
rich
Never_married
Prof_specialty
Not_in_family
White
Female 50 United_States
rich
Married
Exec_managerial
Husband White
Male
40 United_States
rich
Married
Exec_managerial
Husband Black
Male
80 United_States
rich
Married
Prof_specialty
Husband Asian
Male
40 India
rich
Never_married
Adm_clerical
Own_child White
Female 30 United_States
poor
Never_married
Sales
Not_in_family
Black
Male
50 United_States
poor
Married
Craft_repairHusband Asian
Male
40 *MissingValue*
rich
Married
Transport_moving
Husband Amer_Indian
Male
45 Mexico poor
Never_married
Farming_fishing
Own_child White
Male
35 United_States
poor
Never_married
Machine_op_inspct
Unmarried White
Male
40 United_States
poor
Married
Sales
Husband White
Male
50 United_States
poor
Divorced
Exec_managerial
Unmarried White
Female 45 United_States
rich
Married
Prof_specialty
Husband White
Male
60 United_States
rich
:
:
:
:
:
:
:
:
:
employmenteducation edunum
marital
State_gov Bachelors 13
Self_emp_not_inc
Bachelors 13
Private
HS_grad
9
Private
11th
7
Private
Bachelors 13
Private
Masters
14
Private
9th
5
Self_emp_not_inc
HS_grad
9
Private
Masters
14
Private
Bachelors 13
Private
Some_college10
State_gov Bachelors 13
Private
Bachelors 13
Private
Assoc_acdm12
Private
Assoc_voc 11
Private
7th_8th
4
Self_emp_not_inc
HS_grad
9
Private
HS_grad
9
Private
11th
7
Self_emp_not_inc
Masters
14
Private
Doctorate 16
:
:
:
COMP 6315
Mineria de Datos
Edgar Acuna
15
Mineria de Datos
Edgar Acuna
16
COMP 6315
Mineria de Datos
Edgar Acuna
17
Mineria de Datos
Edgar Acuna
18
COMP 6315
Mineria de Datos
Edgar Acuna
19
La funcin clean
Variables
1
V2
2
V6
3
V13
Percent.of.missing
5.6386474616873
5.66014557292466
1.79048555019809
Mineria de Datos
Edgar Acuna
20
Mineria de Datos
Edgar Acuna
21
COMP 6315
Mineria de Datos
Edgar Acuna
22
Mineria de Datos
Edgar Acuna
23
COMP 6315
Mineria de Datos
Edgar Acuna
24
A2
A3
A4
Clase
NA
ESPOL 2013
Mineria de Datos
Edgar Acua
25
COMP 6315
Mineria de Datos
Edgar Acuna
26
Mineria de Datos
Edgar Acua
27
Distancia Gower(disponible en la
librera StatMatch)
ESPOL 2013
Mineria de Datos
Edgar Acua
28
Insertando aleatoriamente
valores faltantes[1]
> mat1=cbind(c("a","b","ba","d","c","ab"),c("ac","ad","bf","ba","ac","ba"))
> mat1
[,1] [,2]
[1,] "a" "ac"
[2,] "b" "ad"
[3,] "ba" "bf"
[4,] "d" "ba"
[5,] "c" "ac"
[6,] "ab" "ba"
> dim(mat1)
[1] 6 2
COMP 6315
Mineria de Datos
Edgar Acuna
29
COMP 6315
Mineria de Datos
Edgar Acuna
30
COMP 6315
Mineria de Datos
Edgar Acuna
31
COMP 6315
Mineria de Datos
Edgar Acuna
32
COMP 6315
Mineria de Datos
Edgar Acuna
33
COMP 6315
Mineria de Datos
Edgar Acuna
34
Imputacion en Rapidminer
Rapidminer hace solo imputacion por la media o mediana en caso de de
que el atributo sea continuo o por la moda en caso de que el atributo
sea nominal.
Primero se llama al conjunto de datos que contiene los valores perdidos
y donde se va a aplicar la imputacion. Elegir de la lista de operadores,
Data Transformation, luego elegir Data cleansing y de alli Replace
Missing values. Unir el port out del operador de datos con el port exa
del operador Replace missing values. Finalmente, unir el port exa de
este operador con el port res y ejecutar.
Es rapidisimo al igual que Weka.
UPRRP-2016
Mineria de Datos
Edgar Acuna
35
Imputacion en rattle
ESPOL 2013
Mineria de Datos
Edgar Acua
36
Imputacion en WEKA
Weka hace solo imputacion por la media en caso de de que el atributo sea
continuo o por la moda en caso de que el atributo sea nominal.
Para esto despues de abrir un archivo arff se elige el boton Choose de
filter y se usa la siguiente secuencia filters> unsupervised
>attribute>ReplaceMissingValues y luego se da Apply.
El conjunto de datos con valores faltantes es completado y luego se
continua el analisis.
Para reemplazar los datos de Census se tarda un minuto.
ESPOL 2013
Mineria de Datos
Edgar Acua
37
Imputacion en WEKA
ESPOL 2013
Mineria de Datos
Edgar Acua
38
COMP 6315
Mineria de Datos
Edgar Acuna
39
Preprocesamiento-Normalizacin
COMP 6315
Mineria de Datos
Edgar Acuna
40
COMP 6315
Mineria de Datos
Edgar Acuna
41
COMP 6315
Mineria de Datos
Edgar Acuna
42
> bupa[1:20,]
V1
1
85
2
85
3
86
4
91
5
87
6
98
7
88
8
88
9
92
10
90
11
89
12
82
13
90
14
86
15
96
16
91
17
89
18
89
19
91
20
94
COMP 6315
V2
92
64
54
78
70
55
62
67
54
60
52
62
64
77
67
78
67
79
107
116
V3
45
59
33
34
12
13
20
21
22
25
13
17
61
25
29
20
23
17
20
11
V4
27
32
16
24
28
17
17
11
20
19
24
17
32
19
20
31
16
17
20
33
Mineria de Datos
V5
31
23
54
36
10
17
9
11
7
5
15
15
13
18
11
18
10
16
56
11
V6
0
0
0
0
0
0
0.5
0.5
0.5
0.5
0.5
0.5
0.5
0.5
0.5
0.5
0.5
0.5
0.5
0.5
Edgar Acuna
V7
1
2
2
2
2
2
1
1
1
1
1
1
1
1
1
1
1
1
1
1
43
Normalizacin Z-score
Los valores V son normalizados en base a la media
y desviacin estndar.
V' = (V - mean ) / std
Este mtodo trabaja bien en los casos en que no se
conoce el mximo y mnimo de los datos de entrada
pero no cuando existen outliers que tienen un gran
efecto en el rango de los datos.
> zbupa=znorm(bupa)
COMP 6315
Mineria de Datos
Edgar Acuna
44
Normalizacin Min-Max
Este mtodo realiza una transformacin lineal de los
datos originales V en el intervalo especificado
[newmin,newmax]
V' = ( V - min ) * ( newmax - newmin ) / ( max - min ) + newmin
> mmbupa=mmnorm(bupa)
COMP 6315
Mineria de Datos
Edgar Acuna
45
COMP 6315
Mineria de Datos
Edgar Acuna
46
Normalizacin Sigmoidal
Este mtodo realiza una transformacin no linear de los datos de entrada
en el rango -1 a 1, usando una funcin sigmoidal.
V' = ( 1 - e^(-a)) / ( 1 + e^(-a)) donde a = ( V - mean ) / std
Los datos dentro de una desviacin estndar de la media son mapeados a
la regin casi linear del sigmoide. Los puntos anmalos son comprimidos a
lo largo de las colas de la funcin sigmoidal.
La normalizacin sigmoidal es especialmente apropiada cuando se tienen
datos anmalos que se desean incluir en el conjunto de datos. Este
previene que los valores que ocurren ms comnmente sean comprimidos
en los mismos valores, sin perder la habilidad de representar grandes
valores anmalos.
> sigbupa=signorm(bupa)
> plot(sort(bupa$V1))
> plot(sort(sigbupa$V1))
COMP 6315
Mineria de Datos
Edgar Acuna
47
COMP 6315
Mineria de Datos
Edgar Acuna
48
Normalizacin Softmax
Se llama as porque llega suavemente hacia su valor mximo
y mnimo. La transformacin es mas o menos lineal en el
rango medio, y tiene una ligera no linealidad a ambos
extremos. El rango total cubierto es 0 a 1 y la transformacin
asegura que no ocurran valores futuros que caigan fuera del
rango.
V' = 1 / ( 1 + e^(-a) )
COMP 6315
Mineria de Datos
Edgar Acuna
49
COMP 6315
Mineria de Datos
Edgar Acuna
50
COMP 6315
Mineria de Datos
Edgar Acuna
51
COMP 6315
Mineria de Datos
Edgar Acuna
52
Normalizacin en Rapidminer
Se llama al operador Data transformation and luego Value
Modification, despues Numerical Value Modification y luego
Normalize. Solo hace Normalizacion z-score y Min-Max
UPRRP-2016
Mineria de Datos
Edgar Acuna
53
Normalizacion en Weka
Weka realiza normalizacion de los atributos numericos transformando
los valores originales a valores en el intervalo [0,1].
Despues de abrir un archivo arff siga la siguiente secuencia
filters>unsupervised>attributes>Normalize.
Z-normalization es llevada a cabo por el filter Standardize
COMP 6838
Mineria de Datos
Edgar Acuna
54