Vous êtes sur la page 1sur 11

Tecnologas de base

de datos 3
Minera de Datos- rboles y reglas de decisin

Instituto Tecnolgico de
Veracruz
Profesor: Ing. Eduardo
Esteban Trujillo Jimnez

Introduccin
rboles de decisin
Es una estructura en forma de rbol que permiten representar un conjunto de decisiones. Ests
decisiones generaran reglas para la clasificacin de un conjunto de datos asociados. Los Arboles de
Decisin se utilizan, generalmente, cuando el objetivo es realizar una clasificacin o una prediccin
categrica y no tanto para ejecutar predicciones de variables cuantitativas, por lo tanto, requiere
que todas las variables independientes sean categricas.

Construccin de reglas
Las decisiones de un rbol originan reglas para la clasificacin de un conjunto de datos. La
clasificacin es el proceso de dividir un conjunto de datos en grupos mutuamente excluyentes, de
forma tal que cada miembro de un grupo est lo ms cerca posible de otros y grupos diferentes
estn lo ms lejos posible de otros, donde la distancia se mide con respecto a las variable/s
especificada/s, la/s cual/les se quiere/n predecir. Un rbol de Decisin se puede convertir en un
set de reglas efectivas, pero cuya conversin no es tan trivial. Una regla se genera por cada hoja,
incluyendo una condicin por cada nodo segn el camino desde el nodo raz hacia la hoja y finaliza
con la clase asignada por sta ltima. Este procedimiento, por la Redundancia incluida en las
estructuras de las reglas, no hay Ambigedad alguna en la interpretacin, es decir, nunca existirn
dos clasificaciones diferentes para el mismo objeto y por este hecho el orden en que se ejecutan
es irrelevante. Sin embargo, las reglas tienen la intencin de ser interpretadas en orden, como una
Lista de Decisin y algunas de ellas fuera de contexto puede ser incorrecta.

Tema:
Sequa

rbol Creado por Weka


rbol nmero 1
=== Run information ===
Scheme:weka.classifiers.trees.M5P -M 4.0
Relation:

sequia

Instances: 142
Attributes: 8
MES
ANO
SIN-AFECTACION
ANORMALMENTE-SECO
SEQUIA-MODERADA
SEQUIA-SEVERA
SEQUIA-EXTREMA
SEQUIA-EXCEPCIONAL
=== Classifier model (full training set) ===
M5 pruned model tree:
(using smoothed linear models)
ANORMALMENTE-SECO <= 33.825 :
| SIN-AFECTACION <= 68.56 :
| | SEQUIA-SEVERA <= 1.625 :
| | | SEQUIA-EXTREMA <= 0.035 : LM1 (4/10.309%)
| | | SEQUIA-EXTREMA > 0.035 : LM2 (5/0%)
| | SEQUIA-SEVERA > 1.625 : LM3 (3/0%)
| SIN-AFECTACION > 68.56 :
| | SEQUIA-SEVERA <= 1.25 : LM4 (13/32.337%)

| | SEQUIA-SEVERA > 1.25 : LM5 (28/57.552%)


ANORMALMENTE-SECO > 33.825 :
| SEQUIA-EXTREMA <= 2.675 :
| | SEQUIA-EXTREMA <= 0.28 : LM6 (12/17.869%)
| | SEQUIA-EXTREMA > 0.28 : LM7 (30/41.555%)
| SEQUIA-EXTREMA > 2.675 : LM8 (47/77.717%)
LM num: 1
ANO =
0.2256 * MES=Febrero,Enero,Marzo,Mayo,Abril,Julio,Junio,Agosto
- 0.8492 * MES=Marzo,Mayo,Abril,Julio,Junio,Agosto
+ 0.0455 * SIN-AFECTACION
+ 0.0122 * ANORMALMENTE-SECO
- 0.008 * SEQUIA-MODERADA
+ 0.2984 * SEQUIA-SEVERA
- 0.3217 * SEQUIA-EXTREMA
- 2.7978 * SEQUIA-EXCEPCIONAL
+ 2.8145
LM num: 2
ANO =
0.2256 * MES=Febrero,Enero,Marzo,Mayo,Abril,Julio,Junio,Agosto
- 0.8492 * MES=Marzo,Mayo,Abril,Julio,Junio,Agosto
+ 0.0448 * SIN-AFECTACION
+ 0.0122 * ANORMALMENTE-SECO
- 0.008 * SEQUIA-MODERADA
+ 0.2984 * SEQUIA-SEVERA
- 0.3043 * SEQUIA-EXTREMA
- 2.7978 * SEQUIA-EXCEPCIONAL
+ 2.8308

LM num: 3
ANO =
0.2256 * MES=Febrero,Enero,Marzo,Mayo,Abril,Julio,Junio,Agosto
- 0.8492 * MES=Marzo,Mayo,Abril,Julio,Junio,Agosto
+ 0.0431 * SIN-AFECTACION
+ 0.0122 * ANORMALMENTE-SECO
- 0.008 * SEQUIA-MODERADA
+ 0.3586 * SEQUIA-SEVERA
+ 0.0266 * SEQUIA-EXTREMA
- 2.7978 * SEQUIA-EXCEPCIONAL
+ 2.9784
LM num: 4
ANO =
0.2256 * MES=Febrero,Enero,Marzo,Mayo,Abril,Julio,Junio,Agosto
- 2.8307 * MES=Marzo,Mayo,Abril,Julio,Junio,Agosto
+ 0.1353 * SIN-AFECTACION
+ 0.0122 * ANORMALMENTE-SECO
- 0.008 * SEQUIA-MODERADA
+ 1.5115 * SEQUIA-SEVERA
+ 0.0266 * SEQUIA-EXTREMA
- 3.6665 * SEQUIA-EXCEPCIONAL
- 2.4713
LM num: 5
ANO =
0.2256 * MES=Febrero,Enero,Marzo,Mayo,Abril,Julio,Junio,Agosto
- 1.042 * MES=Marzo,Mayo,Abril,Julio,Junio,Agosto
- 0.0464 * SIN-AFECTACION
+ 0.0122 * ANORMALMENTE-SECO

- 0.008 * SEQUIA-MODERADA
+ 0.113 * SEQUIA-SEVERA
+ 0.0266 * SEQUIA-EXTREMA
- 5.0409 * SEQUIA-EXCEPCIONAL
+ 11.2465
LM num: 6
ANO =
1.3723 * MES=Septiembre,Octubre,Febrero,Enero,Marzo,Mayo,Abril,Julio,Junio,Agosto
- 1.0163 * MES=Octubre,Febrero,Enero,Marzo,Mayo,Abril,Julio,Junio,Agosto
+ 1.275 * MES=Febrero,Enero,Marzo,Mayo,Abril,Julio,Junio,Agosto
+ 0.6319 * MES=Mayo,Abril,Julio,Junio,Agosto
+ 0.0843 * SIN-AFECTACION
+ 0.008 * ANORMALMENTE-SECO
- 0.0646 * SEQUIA-MODERADA
+ 0.0292 * SEQUIA-SEVERA
+ 0.7873 * SEQUIA-EXTREMA
- 1.6195 * SEQUIA-EXCEPCIONAL
+ 3.7633
LM num: 7
ANO =
0.4299 * MES=Septiembre,Octubre,Febrero,Enero,Marzo,Mayo,Abril,Julio,Junio,Agosto
- 1.603 * MES=Octubre,Febrero,Enero,Marzo,Mayo,Abril,Julio,Junio,Agosto
+ 1.7205 * MES=Febrero,Enero,Marzo,Mayo,Abril,Julio,Junio,Agosto
+ 1.2236 * MES=Mayo,Abril,Julio,Junio,Agosto
+ 0.0485 * SIN-AFECTACION
+ 0.008 * ANORMALMENTE-SECO
- 0.1239 * SEQUIA-MODERADA
+ 0.0292 * SEQUIA-SEVERA

+ 0.7879 * SEQUIA-EXTREMA
- 0.9717 * SEQUIA-EXCEPCIONAL
+ 8.2013
LM num: 8
ANO =
0.5574 * MES=Febrero,Enero,Marzo,Mayo,Abril,Julio,Junio,Agosto
+ 0.0284 * SIN-AFECTACION
+ 0.008 * ANORMALMENTE-SECO
- 0.0164 * SEQUIA-MODERADA
+ 0.0988 * SEQUIA-SEVERA
+ 0.0174 * SEQUIA-EXTREMA
+ 3.9713
Number of Rules : 8
=== Summary ===
Correlation coefficient

0.1745

Mean absolute error

2.8368

Root mean squared error


Relative absolute error

3.4328
94.8033 %

Root relative squared error

99.1817 %

Total Number of Instances

142

rbol nmero 2
=== Run information ===
Scheme:weka.classifiers.trees.REPTree -M 2 -V 0.001 -N 3 -S 1 -L -1
Test mode:10-fold cross-validation
=== Classifier model (full training set) ===
REPTree
============
ANORMALMENTE-SECO < 34.23 : 7.13 (32/13.65) [22/8.7]
ANORMALMENTE-SECO >= 34.23
| SEQUIA-MODERADA < 19.71
| | MES = Agosto : 13.5 (2/0.25) [0/0]
| | MES = Julio : 13.5 (1/0) [1/1]
| | MES = Junio : 14 (1/0) [0/0]
| | MES = Mayo : 14 (1/0) [0/0]
| | MES = Abril : 13.5 (0/0) [2/0.94]
| | MES = Marzo : 13 (1/0) [0/0]
| | MES = Febrero : 11 (1/0) [1/16]
| | MES = Enero : 11 (2/1) [1/9]
| | MES = Diciembre : 8.75 (2/1) [2/22.5]
| | MES = Noviembre : 12 (0/0) [1/0.44]

| | MES = Octubre : 6 (0/0) [1/44.44]


| | MES = Septiembre : 7.33 (1/0) [2/53]
| SEQUIA-MODERADA >= 19.71
| | SEQUIA-EXTREMA < 17.65
| | | SEQUIA-EXCEPCIONAL < 0.47 : 8.85 (26/3.31) [7/6.04]
| | | SEQUIA-EXCEPCIONAL >= 0.47
| | | | SEQUIA-EXCEPCIONAL < 0.81 : 2.78 (7/0.2) [2/0.08]
| | | | SEQUIA-EXCEPCIONAL >= 0.81
| | | | | SIN-AFECTACION < 41.2 : 6.43 (6/0.58) [1/0.25]
| | | | | SIN-AFECTACION >= 41.2 : 11 (3/2) [0/0]
| | SEQUIA-EXTREMA >= 17.65 : 10.77 (8/0.11) [5/5.42]
Size of the tree : 25
Time taken to build model: 0.08 seconds
=== Cross-validation ===
=== Summary ===
Correlation coefficient

0.1123

Mean absolute error

3.0221

Root mean squared error


Relative absolute error

3.5575
100.9944 %

Root relative squared error

102.7821 %

Total Number of Instances

142

rbol nmero 3
=== Run information ===
Scheme:weka.classifiers.trees.DecisionStump
Test mode:10-fold cross-validation
=== Classifier model (full training set) ===
Decision Stump
Classifications

ANORMALMENTE-SECO <= 33.825 : 7.037735849056604


ANORMALMENTE-SECO > 33.825 : 8.97752808988764
ANORMALMENTE-SECO is missing : 8.253521126760564
=== Summary ===
Correlation coefficient

0.1493

Mean absolute error

2.8999

Root mean squared error


Relative absolute error

3.4127
96.9106 %

Root relative squared error

98.6003 %

Total Number of Instances

142

rbol nmero 4
=== Run information ===
Scheme:weka.classifiers.trees.UserClassifier
Relation:

whatever

Instances: 142
Attributes: 8
MES
ANO
SIN-AFECTACION
ANORMALMENTE-SECO
SEQUIA-MODERADA
SEQUIA-SEVERA
SEQUIA-EXTREMA
SEQUIA-EXCEPCIONAL
=== Classifier model (full training set) ===
: N0 Standard Deviation = 3.430264
N0 {Linear Regression Model

ANO = + 8.2535
}

Vous aimerez peut-être aussi