Académique Documents
Professionnel Documents
Culture Documents
de datos 3
Minera de Datos- rboles y reglas de decisin
Instituto Tecnolgico de
Veracruz
Profesor: Ing. Eduardo
Esteban Trujillo Jimnez
Introduccin
rboles de decisin
Es una estructura en forma de rbol que permiten representar un conjunto de decisiones. Ests
decisiones generaran reglas para la clasificacin de un conjunto de datos asociados. Los Arboles de
Decisin se utilizan, generalmente, cuando el objetivo es realizar una clasificacin o una prediccin
categrica y no tanto para ejecutar predicciones de variables cuantitativas, por lo tanto, requiere
que todas las variables independientes sean categricas.
Construccin de reglas
Las decisiones de un rbol originan reglas para la clasificacin de un conjunto de datos. La
clasificacin es el proceso de dividir un conjunto de datos en grupos mutuamente excluyentes, de
forma tal que cada miembro de un grupo est lo ms cerca posible de otros y grupos diferentes
estn lo ms lejos posible de otros, donde la distancia se mide con respecto a las variable/s
especificada/s, la/s cual/les se quiere/n predecir. Un rbol de Decisin se puede convertir en un
set de reglas efectivas, pero cuya conversin no es tan trivial. Una regla se genera por cada hoja,
incluyendo una condicin por cada nodo segn el camino desde el nodo raz hacia la hoja y finaliza
con la clase asignada por sta ltima. Este procedimiento, por la Redundancia incluida en las
estructuras de las reglas, no hay Ambigedad alguna en la interpretacin, es decir, nunca existirn
dos clasificaciones diferentes para el mismo objeto y por este hecho el orden en que se ejecutan
es irrelevante. Sin embargo, las reglas tienen la intencin de ser interpretadas en orden, como una
Lista de Decisin y algunas de ellas fuera de contexto puede ser incorrecta.
Tema:
Sequa
sequia
Instances: 142
Attributes: 8
MES
ANO
SIN-AFECTACION
ANORMALMENTE-SECO
SEQUIA-MODERADA
SEQUIA-SEVERA
SEQUIA-EXTREMA
SEQUIA-EXCEPCIONAL
=== Classifier model (full training set) ===
M5 pruned model tree:
(using smoothed linear models)
ANORMALMENTE-SECO <= 33.825 :
| SIN-AFECTACION <= 68.56 :
| | SEQUIA-SEVERA <= 1.625 :
| | | SEQUIA-EXTREMA <= 0.035 : LM1 (4/10.309%)
| | | SEQUIA-EXTREMA > 0.035 : LM2 (5/0%)
| | SEQUIA-SEVERA > 1.625 : LM3 (3/0%)
| SIN-AFECTACION > 68.56 :
| | SEQUIA-SEVERA <= 1.25 : LM4 (13/32.337%)
LM num: 3
ANO =
0.2256 * MES=Febrero,Enero,Marzo,Mayo,Abril,Julio,Junio,Agosto
- 0.8492 * MES=Marzo,Mayo,Abril,Julio,Junio,Agosto
+ 0.0431 * SIN-AFECTACION
+ 0.0122 * ANORMALMENTE-SECO
- 0.008 * SEQUIA-MODERADA
+ 0.3586 * SEQUIA-SEVERA
+ 0.0266 * SEQUIA-EXTREMA
- 2.7978 * SEQUIA-EXCEPCIONAL
+ 2.9784
LM num: 4
ANO =
0.2256 * MES=Febrero,Enero,Marzo,Mayo,Abril,Julio,Junio,Agosto
- 2.8307 * MES=Marzo,Mayo,Abril,Julio,Junio,Agosto
+ 0.1353 * SIN-AFECTACION
+ 0.0122 * ANORMALMENTE-SECO
- 0.008 * SEQUIA-MODERADA
+ 1.5115 * SEQUIA-SEVERA
+ 0.0266 * SEQUIA-EXTREMA
- 3.6665 * SEQUIA-EXCEPCIONAL
- 2.4713
LM num: 5
ANO =
0.2256 * MES=Febrero,Enero,Marzo,Mayo,Abril,Julio,Junio,Agosto
- 1.042 * MES=Marzo,Mayo,Abril,Julio,Junio,Agosto
- 0.0464 * SIN-AFECTACION
+ 0.0122 * ANORMALMENTE-SECO
- 0.008 * SEQUIA-MODERADA
+ 0.113 * SEQUIA-SEVERA
+ 0.0266 * SEQUIA-EXTREMA
- 5.0409 * SEQUIA-EXCEPCIONAL
+ 11.2465
LM num: 6
ANO =
1.3723 * MES=Septiembre,Octubre,Febrero,Enero,Marzo,Mayo,Abril,Julio,Junio,Agosto
- 1.0163 * MES=Octubre,Febrero,Enero,Marzo,Mayo,Abril,Julio,Junio,Agosto
+ 1.275 * MES=Febrero,Enero,Marzo,Mayo,Abril,Julio,Junio,Agosto
+ 0.6319 * MES=Mayo,Abril,Julio,Junio,Agosto
+ 0.0843 * SIN-AFECTACION
+ 0.008 * ANORMALMENTE-SECO
- 0.0646 * SEQUIA-MODERADA
+ 0.0292 * SEQUIA-SEVERA
+ 0.7873 * SEQUIA-EXTREMA
- 1.6195 * SEQUIA-EXCEPCIONAL
+ 3.7633
LM num: 7
ANO =
0.4299 * MES=Septiembre,Octubre,Febrero,Enero,Marzo,Mayo,Abril,Julio,Junio,Agosto
- 1.603 * MES=Octubre,Febrero,Enero,Marzo,Mayo,Abril,Julio,Junio,Agosto
+ 1.7205 * MES=Febrero,Enero,Marzo,Mayo,Abril,Julio,Junio,Agosto
+ 1.2236 * MES=Mayo,Abril,Julio,Junio,Agosto
+ 0.0485 * SIN-AFECTACION
+ 0.008 * ANORMALMENTE-SECO
- 0.1239 * SEQUIA-MODERADA
+ 0.0292 * SEQUIA-SEVERA
+ 0.7879 * SEQUIA-EXTREMA
- 0.9717 * SEQUIA-EXCEPCIONAL
+ 8.2013
LM num: 8
ANO =
0.5574 * MES=Febrero,Enero,Marzo,Mayo,Abril,Julio,Junio,Agosto
+ 0.0284 * SIN-AFECTACION
+ 0.008 * ANORMALMENTE-SECO
- 0.0164 * SEQUIA-MODERADA
+ 0.0988 * SEQUIA-SEVERA
+ 0.0174 * SEQUIA-EXTREMA
+ 3.9713
Number of Rules : 8
=== Summary ===
Correlation coefficient
0.1745
2.8368
3.4328
94.8033 %
99.1817 %
142
rbol nmero 2
=== Run information ===
Scheme:weka.classifiers.trees.REPTree -M 2 -V 0.001 -N 3 -S 1 -L -1
Test mode:10-fold cross-validation
=== Classifier model (full training set) ===
REPTree
============
ANORMALMENTE-SECO < 34.23 : 7.13 (32/13.65) [22/8.7]
ANORMALMENTE-SECO >= 34.23
| SEQUIA-MODERADA < 19.71
| | MES = Agosto : 13.5 (2/0.25) [0/0]
| | MES = Julio : 13.5 (1/0) [1/1]
| | MES = Junio : 14 (1/0) [0/0]
| | MES = Mayo : 14 (1/0) [0/0]
| | MES = Abril : 13.5 (0/0) [2/0.94]
| | MES = Marzo : 13 (1/0) [0/0]
| | MES = Febrero : 11 (1/0) [1/16]
| | MES = Enero : 11 (2/1) [1/9]
| | MES = Diciembre : 8.75 (2/1) [2/22.5]
| | MES = Noviembre : 12 (0/0) [1/0.44]
0.1123
3.0221
3.5575
100.9944 %
102.7821 %
142
rbol nmero 3
=== Run information ===
Scheme:weka.classifiers.trees.DecisionStump
Test mode:10-fold cross-validation
=== Classifier model (full training set) ===
Decision Stump
Classifications
0.1493
2.8999
3.4127
96.9106 %
98.6003 %
142
rbol nmero 4
=== Run information ===
Scheme:weka.classifiers.trees.UserClassifier
Relation:
whatever
Instances: 142
Attributes: 8
MES
ANO
SIN-AFECTACION
ANORMALMENTE-SECO
SEQUIA-MODERADA
SEQUIA-SEVERA
SEQUIA-EXTREMA
SEQUIA-EXCEPCIONAL
=== Classifier model (full training set) ===
: N0 Standard Deviation = 3.430264
N0 {Linear Regression Model
ANO = + 8.2535
}