Vous êtes sur la page 1sur 16

Inteligencia en Redes de Comunicaciones Practica Final: Minera de Datos

1. INTRODUCCIN

En este trabajo se van ha emplear algunas de las tcnicas de Minera de Datos aprendidas
durante el transcurso de la asignatura Inteligencia en Redes de Comunicaciones.

Concretamente se modelarn dos problemas, uno de tipo nominal y otro de tipo numrico,
por medio de la herramienta WEKA, empleando dos tcnicas distintas para cada uno de ellos.

2. PROBLEMA DE TIPO NOMINAL: Mushroom

El problema nominal que modelamos consiste en un conjunto de 8124 instancias hipotticas


de datos relativos a 23 especies de setas. Estas caractersticas se representan a partir de 22
atributos, todos ellos de carcter nominal:

1. cap-shape: bell=b,conical=c,convex=x,flat=f,knobbed=k,sunken=s
2. cap-surface: fibrous=f,grooves=g,scaly=y,smooth=s
3. cap-color:
brown=n,buff=b,cinnamon=c,gray=g,green=r,pink=p,purple=u,red=e,white
=w,yellow=y
4. bruises?: bruises=t,no=f
5. odor:
almond=a,anise=l,creosote=c,fishy=y,foul=f,musty=m,none=n,pungent=p,
spicy=s
6. gill-attachment: attached=a,descending=d,free=f,notched=n
7. gill-spacing: close=c,crowded=w,distant=d
8. gill-size: broad=b,narrow=n
9. gill-color:
black=k,brown=n,buff=b,chocolate=h,gray=g,green=r,orange=o,pink=p,pu
rple=u,red=e,white=w,yellow=y
10. stalk-shape: enlarging=e,tapering=t
11. stalk-root:
bulbous=b,club=c,cup=u,equal=e,rhizomorphs=z,rooted=r,missing=?
12. stalk-surface-above-ring: ibrous=f,scaly=y,silky=k,smooth=s
13. stalk-surface-below-ring: ibrous=f,scaly=y,silky=k,smooth=s
14. stalk-color-above-ring:
brown=n,buff=b,cinnamon=c,gray=g,orange=o,pink=p,red=e,white=w,yello
w=y
15. stalk-color-below-ring:
brown=n,buff=b,cinnamon=c,gray=g,orange=o,pink=p,red=e,white=w,yello
w=y
16. veil-type: partial=p,universal=u
17. veil-color: brown=n,orange=o,white=w,yellow=y
18. ring-number: none=n,one=o,two=t
19. ring-type:
cobwebby=c,evanescent=e,flaring=f,large=l,none=n,pendant=p,sheathing
=s,zone=z
20. spore-print-color:
black=k,brown=n,buff=b,chocolate=h,green=r,orange=o,purple=u,white=w
,yellow=y
21. population:
abundant=a,clustered=c,numerous=n,scattered=s,several=v,solitary=y
22. habitat:
grasses=g,leaves=l,meadows=m,paths=p,urban=u,waste=w,woods=d

Se trata de decidir que seta es comestible y cual no. En la siguiente figura mostramos los
histogramas correspondientes a cada uno de estos atributos para el conjunto de datos que
disponemos.
1
Inteligencia en Redes de Comunicaciones Practica Final: Minera de Datos

Figura 1. Histogramas para los datos de entrenamiento

Para modelar este problema nominal utilizamos los dos siguientes algoritmos siguientes:

- Clasificador 1R, weka.classifiers.rules.OneR


- Clasificador ID3, weka.classifiers.trees.Id3

A continuacin describiremos los dos algoritmos utilizados, con objeto de plantear las
estrategias de entrenamiento y el anlisis de los resultados.

2.1 DESCRIPCIN DE LOS ALGORITMOS

2.1.1 Clasificador 1R

Las reglas de clasificacin inducidas por un sistema de aprendizaje se evalan atendiendo


a dos criterios:
1. La precisin de clasificacin sobre un conjunto de muestras de test.
2. La complejidad de las reglas generadas

La mayor parte de las veces las reglas simples dan unos resultados asombrosamente
buenos en la mayora de las bases de datos. El clasificador 1R genera reglas que clasifican un
objeto en base a un nico atributo, esto es, consiste en un rbol de un nivel. Adems, este
clasificador se puede emplear para determinar lo bien que funcionan otros clasificadores ms
complejos.

El clasificador 1R ordena los atributos de acuerdo a la tasa de error (sobre el conjunto de


entrenamiento), en oposicin de las medidas basadas en entropa del algoritmo C4.5. Los valores
indefinidos los trata como si pertenecieran al conjunto indefinido. En el caso de existir valores
2
Inteligencia en Redes de Comunicaciones Practica Final: Minera de Datos

numricos, los trata como si fueran valores numricos continuos y usa un mtodo sencillo para
agrupar esos valores en un conjunto de intervalos. Para evitar el sobreajuste de las muestras, es
decir, la generacin de demasiados intervalos, el algoritmo 1R requiere que todos los intervalos
contengan ms de un determinado nmero mnimo de muestras (por defecto 6). En el caso de
atributos nominales que no cumplan ese criterio (situacin bastante infrecuente) el algoritmo
elimina dichos atributos.

A continuacin se dar una pequea descripcin del algoritmo en forma de pseudocdigo:

1. En el conjunto de entrenamiento contar el nmero de ejemplos en


la clase C que tiene el valor V para el atributo A. Almacenar
dicho valor en una matriz de 3 dimensiones: COUNT[C,V,A].
2. Se toma como clase por defecto la que contenga el mayor nmero de
ejemplos en el conjunto de entrenamiento. La precisin de la clase
por defecto es el nmero de ejemplos de entrenamiento en la clase
por defecto dividido por el nmero total de ejemplos.
3. Por cada atributo numrico , A, crear una versin nominal de A
definiendo un nmero finito de intervalos de valores. Estos
intervalos sern los valores de la versin nominal de A, con lo
que se tendr la matriz COUNT[C,I,A], cuyo valor para I ser la
suma de todos los valores de V que entren dentro del intervalo I.
4. Por cada atributo, A, (usando la versin normalizada):
a. Construir una hiptesis que incluya el atributo A
seleccionando, por cada valor de V de A (y tambin para los
indefinidos), una clase optima para V. Si varias clases son
optimas, seleccionar una de forma aleatoria
b. Aadir la hiptesis a un conjunto llamado Hiptesis. Este
conjunto contendr una hiptesis por cada atributo.
5. Elegir la regla del conjunto Hiptesis que obtenga mayor precisin
sobre el conjunto de entrenamiento (en el caso de empate, elegir
una al azar).

2.1.2 Clasificador ID3

ID3 es un algoritmo de induccin de rboles de decisin que resuelve problemas de


clasificacin. Su objetivo es construir un rbol en el que los nodos intermedios son atributos de
los ejemplos presentados, las ramas o arcos representan valores de dichos atributos y los nodos
finales son los valores de la clase.

Para elegir que atributos y en que orden aparecen en el rbol se utiliza la funcin de
minimizacin de la entropa. De esta forma en cada iteracin se elige el atributo que mejor
clasifique por si solo.

A continuacin se muestra el pseudocdigo del algoritmo ID3:

Definiciones:
R: conjunto de los atributos
C: clase
S: conjunto de entrenamiento
Algoritmo:
1. Sea D el atributo con mayor ganancia Gain(D,S) entre los atributos
de R
2. Sea {dj | j=1,2,3,...,m} los valores del atributo D
3. Sea {sj | j=1,2,3,...,m} los subconjuntos de S que contienen el
valor dj para el atributo D
4. Devolver un subrbol con nodo etiquetado D y los arcos d1,d2,...,dm
5. Para cada rama volver a 1 con ID3(R-{D},C,S1), ID3(R-{D},C,S2),...

3
Inteligencia en Redes de Comunicaciones Practica Final: Minera de Datos

2.2 ESTRATEGIAS DE ENTRENAMIENTO

2.2.1 Clasificador 1R

El clasificador 1R tiene una nica opcin minBucketSize, que es el nmero mnimo de


valores que debe tener un atributo. Esta opcin es relevante cuando se trabaja con datos
numricos. Cuando se tienen datos nominales esta opcin se puede obviar en la mayora de los
casos, lo cual coincide con nuestro problema.

A continuacin mostramos la salida dada por weka.

=== Run information ===

Scheme: weka.classifiers.rules.OneR -B 6
Relation: mushroom
Instances: 8124
Attributes: 23
cap-shape
cap-surface
cap-color
bruises?
odor
gill-attachment
gill-spacing
gill-size
gill-color
stalk-shape
stalk-root
stalk-surface-above-ring
stalk-surface-below-ring
stalk-color-above-ring
stalk-color-below-ring
veil-type
veil-color
ring-number
ring-type
spore-print-color
population
habitat
class
Test mode: 10-fold cross-validation

=== Classifier model (full training set) ===

odor:
a -> e
c -> p
f -> p
l -> e
m -> p
n -> e
p -> p
s -> p
y -> p
(8004/8124 instances correct)

4
Inteligencia en Redes de Comunicaciones Practica Final: Minera de Datos

Time taken to build model: 0.1 seconds

=== Stratified cross-validation ===


=== Summary ===

Correctly Classified Instances 8004 98.5229 %


Incorrectly Classified Instances 120 1.4771 %
Kappa statistic 0.9704
Mean absolute error 0.0148
Root mean squared error 0.1215
Relative absolute error 2.958 %
Root relative squared error 24.323 %
Total Number of Instances 8124

=== Detailed Accuracy By Class ===

TP Rate FP Rate Precision Recall F-Measure Class


1 0.031 0.972 1 0.986 e
0.969 0 1 0.969 0.984 p

=== Confusion Matrix ===

a b <-- classified as
4208 0 | a = e
120 3796 | b = p

2.2.2 Clasificador ID3

Cuando intentamos ejecutar el algoritmo ID3 con los datos de entrada nos encontramos con
que el programa WEKA muestra un mensaje de error indicndonos que nuestros datos contienen
valores indefinidos para algunos datos.

En este caso emplearemos el algoritmo C4.5 implementado en la clase de WEKA


weka.classifiers.trees.j48.j48. El algoritmo C4.5 se describe en detalle en el libro C4.5:
Programs for Machine Learning de Ross Quinlan. Este algoritmo es una extensin del algoritmo
ID3 que permite trabajar con datos que contienen tanto valores indefinidos, como valores
continuos. Adems, implementa algoritmos de podado para evitar el sobreajuste de las muestras
al conjunto de entrenamiento.

El algoritmo C4.5 presenta una serie de opciones. Puesto que pretendemos estudiar el
algoritmo ID3, elegiremos la opcin que deshabilita el podado del rbol. Al ejecutar el algoritmo
observamos los siguientes resultados.

=== Run information ===

Scheme: weka.classifiers.trees.j48.J48 -U -M 2
Relation: mushroom
Instances: 8124
Attributes: 23
cap-shape
cap-surface
cap-color
bruises?
odor
gill-attachment
gill-spacing
5
Inteligencia en Redes de Comunicaciones Practica Final: Minera de Datos
gill-size
gill-color
stalk-shape
stalk-root
stalk-surface-above-ring
stalk-surface-below-ring
stalk-color-above-ring
stalk-color-below-ring
veil-type
veil-color
ring-number
ring-type
spore-print-color
population
habitat
class
Test mode: 10-fold cross-validation

=== Classifier model (full training set) ===

J48 unpruned tree


------------------

odor = a: e (400.0)
odor = c: p (192.0)
odor = f: p (2160.0)
odor = l: e (400.0)
odor = m: p (36.0)
odor = n
| spore-print-color = b: e (48.0)
| spore-print-color = h: e (48.0)
| spore-print-color = k: e (1296.0)
| spore-print-color = n: e (1344.0)
| spore-print-color = o: e (48.0)
| spore-print-color = r: p (72.0)
| spore-print-color = u: e (0.0)
| spore-print-color = w
| | gill-size = b: e (528.0)
| | gill-size = n
| | | gill-spacing = c: p (32.0)
| | | gill-spacing = d: e (0.0)
| | | gill-spacing = w
| | | | population = a: e (0.0)
| | | | population = c: p (16.0)
| | | | population = n: e (0.0)
| | | | population = s: e (0.0)
| | | | population = v: e (48.0)
| | | | population = y: e (0.0)
| spore-print-color = y: e (48.0)
odor = p: p (256.0)
odor = s: p (576.0)
odor = y: p (576.0)

Number of Leaves : 25

Size of the tree : 30

Time taken to build model: 0.15 seconds

=== Stratified cross-validation ===


=== Summary ===

Correctly Classified Instances 8124 100 %


6
Inteligencia en Redes de Comunicaciones Practica Final: Minera de Datos
Incorrectly Classified Instances 0 0 %
Kappa statistic 1
Mean absolute error 0
Root mean squared error 0
Relative absolute error 0 %
Root relative squared error 0 %
Total Number of Instances 8124

=== Detailed Accuracy By Class ===

TP Rate FP Rate Precision Recall F-Measure Class


1 0 1 1 1 e
1 0 1 1 1 p

=== Confusion Matrix ===

a b <-- classified as
4208 0 | a = e
0 3916 | b = p

De los datos mostrados por WEKA podemos sacar la conclusin de que hay atributos que no
ofrecen ninguna informacin al clasificador. As pues, si del fichero original eliminamos todos
los atributos menos odor, gill-spacing, gill-size, spore-print-color y population, y ejecutamos el
algoritmo ID3 sobre ese conjunto de datos cabe suponer que se obtendrn los mismos resultados.
Esto se puede apreciar en la salida generada por WEKA para este caso.

=== Run information ===

Scheme: weka.classifiers.trees.Id3
Relation: mushroom
Instances: 8124
Attributes: 6
odor
gill-spacing
gill-size
spore-print-color
population
class
Test mode: 10-fold cross-validation

=== Classifier model (full training set) ===

Id3

odor = a: e
odor = c: p
odor = f: p
odor = l: e
odor = m: p
odor = n
| spore-print-color = b: e
| spore-print-color = h: e
| spore-print-color = k: e
| spore-print-color = n: e
| spore-print-color = o: e
| spore-print-color = r: p
| spore-print-color = u: null
| spore-print-color = w
| | gill-size = b: e
7
Inteligencia en Redes de Comunicaciones Practica Final: Minera de Datos
| | gill-size = n
| | | gill-spacing = c: p
| | | gill-spacing = d: null
| | | gill-spacing = w
| | | | population = a: null
| | | | population = c: p
| | | | population = n: null
| | | | population = s: null
| | | | population = v: e
| | | | population = y: null
| spore-print-color = y: e
odor = p: p
odor = s: p
odor = y: p

Time taken to build model: 0.11 seconds

=== Stratified cross-validation ===


=== Summary ===

Correctly Classified Instances 8124 100 %


Incorrectly Classified Instances 0 0 %
Kappa statistic 1
Mean absolute error 0
Root mean squared error 0
Relative absolute error 0 %
Root relative squared error 0 %
Total Number of Instances 8124

=== Detailed Accuracy By Class ===

TP Rate FP Rate Precision Recall F-Measure Class


1 0 1 1 1 e
1 0 1 1 1 p

=== Confusion Matrix ===

a b <-- classified as
4208 0 | a = e
0 3916 | b = p

2.3 ANLISIS DE LOS RESULTADOS

2.3.1 Clasificador 1R

Como se puede apreciar en la salida de WEKA el algoritmo clasifica segn el atributo odor,
clasificando bien 8004 instancias de las 8124 de que consta el conjunto de datos.

=== Classifier model (full training set) ===

odor:
a -> e
c -> p
f -> p
l -> e
m -> p
n -> e
p -> p
s -> p
y -> p
8
Inteligencia en Redes de Comunicaciones Practica Final: Minera de Datos
(8004/8124 instances correct)

Si se aplica validacin cruzada se observa que en promedio el 1.48 % de las instancias estn
mal clasificadas.

=== Stratified cross-validation ===


=== Summary ===

Correctly Classified Instances 8004 98.5229 %


Incorrectly Classified Instances 120 1.4771 %
Kappa statistic 0.9704
Mean absolute error 0.0148
Root mean squared error 0.1215
Relative absolute error 2.958 %
Root relative squared error 24.323 %
Total Number of Instances 8124

2.3.2 Clasificador ID3

Como hemos comentado anteriormente el rbol generado por el algoritmo ID3 es el mismo
que el generado por el algoritmo C4.5. Esto se debe a que es posible clasificar correctamente
todas las instancias sin la necesidad de emplear todos los atributos. A continuacin mostramos el
rbol generado.

=== Classifier model (full training set) ===

Id3

odor = a: e
odor = c: p
odor = f: p
odor = l: e
odor = m: p
odor = n
| spore-print-color = b: e
| spore-print-color = h: e
| spore-print-color = k: e
| spore-print-color = n: e
| spore-print-color = o: e
| spore-print-color = r: p
| spore-print-color = u: null
| spore-print-color = w
| | gill-size = b: e
| | gill-size = n
| | | gill-spacing = c: p
| | | gill-spacing = d: null
| | | gill-spacing = w
| | | | population = a: null
| | | | population = c: p
| | | | population = n: null
| | | | population = s: null
| | | | population = v: e
| | | | population = y: null
| spore-print-color = y: e
odor = p: p
odor = s: p
odor = y: p

9
Inteligencia en Redes de Comunicaciones Practica Final: Minera de Datos

No habr por tanto instancias mal clasificadas al aplicar validacin cruzada, tal como se
aprecia en la salida dada por WEKA.

=== Stratified cross-validation ===


=== Summary ===

Correctly Classified Instances 8124 100 %


Incorrectly Classified Instances 0 0 %
Kappa statistic 1
Mean absolute error 0
Root mean squared error 0
Relative absolute error 0 %
Root relative squared error 0 %
Total Number of Instances 8124

2.3.3 Conclusiones

Dada la naturaleza de nuestro conjunto de muestras podemos clasificar las muestras con un
rbol de decisin relativamente sencillo. Adems, se aprecia que es un buen clasificador en el
sentido que tiene una gran precisin a la vez que no presenta problemas de sobreajuste.

Tambin, podemos observar que el algoritmo 1R clasifica bastante bien las muestras, y lo
que es aun ms interesante las clasifica de acuerdo al atributo odor, que corresponde con el nodo
padre del rbol generado por ID3, lo que nos da una idea de que nuestro clasificador tiene un
buen comportamiento.

3. PROBLEMA DE TIPO NUMRICO:

El problema numrico que modelamos consiste en un conjunto de 96 instancias de datos


relativos a caractersticas existentes en jugadores de baloncesto. Estas caractersticas se
representan a partir de cinco atributos:

- Nmero de asistencias por minuto


- Altura
- Tiempo jugado
- Edad
- Puntos por minuto

El objetivo del estudio es modelar el nmero de puntos por minuto a partir del resto de
atributos. En la siguiente figura mostramos los histogramas correspondientes a cada uno de estos
atributos para el conjunto de 96 datos que disponemos, junto con la media y la desviacin tpica.

10
Inteligencia en Redes de Comunicaciones Practica Final: Minera de Datos

Media = 0,161 Media = 189,875 Media = 25,944


Desv. Std = 0,06 Desv. Std = 6,96 Desv. Std = 8,621

Media = 27,74 Media = 0,42


Desv. Std = 3,325 Desv. Std = 0,109

Figura 1. Histogramas para los datos de entrenamiento

Para modelar este problema numrico utilizamos los dos siguientes algoritmos siguientes:

- Tabla de decisin, weka.classifiers.DecisionTable R


- Regresin lineal, weka.classifiers.LinearRegression

A continuacin describiremos los dos algoritmos utilizados, con objeto de plantear las
estrategias de entrenamiento y el anlisis de los resultados.

3.1 DESCRIPCIN DE LOS ALGORITMOS

3.1.1 Tabla de Decisin

La tcnica de Decision Table en WEKA se implementa a travs un algoritmo de tabla de


decisin simple basado en mayoras. Esta representacin denominada DTM (Decision Table
Majority), tiene dos componentes: un esquema formado por un conjunto de caractersticas que se
incluyen en la tabla (atributos), y un cuerpo dado por instancias etiquetadas del espacio definido
por las caractersticas del esquema (reglas). De esta forma, a partir de un dato no etiquetado el
clasificador busca correspondencias de este dato de entrada con el total de reglas para todos los
atributos. Cada clase viene determinada por un conjunto de reglas satisfechas, obteniendo la
clase del dato bajo anlisis como la que ha tenido mayor nmero de correspondencias con el dato
de entrada. Si no se encuentra ninguna correspondencia, la tabla DTM asigna el dato a la clase
mayoritaria. Cada clase se representa por un valor numrico, que en nuestro caso ser el nmero
de puntos por minuto.

3.1.2 Regresin Lineal

11
Inteligencia en Redes de Comunicaciones Practica Final: Minera de Datos

En la tcnica de regresin lineal la filosofa de funcionamiento es diferente. En este caso, se


trata de predecir el valor numrico de cada uno de los atributos de los datos de entrada. El
algoritmo de regresin lineal implementado por WEKA es muy sencillo; las reglas consisten en
funciones lineales de los atributos. As, en nuestro caso, para predecir el valor de puntos por
minuto de un determinado dato de entrada, el algoritmo establece una funcin lineal del resto de
atributos (nmero de asistencias por minuto, altura, tiempo jugado, edad). De esta forma, al
aplicar un dato a la funcin, se toman los valores de estos atributos, se aplican a la funcin lineal
y se obtiene el nmero de puntos por minuto estimado.

3.2 ESTRATEGIAS DE ENTRENAMIENTO

3.2.1 Tabla de Decisin

Para el entrenamiento de la tcnica de Tabla de Decisin, se utiliza bsqueda best-first (el


primero el mejor). El algoritmo permite modificar el nmero de bsquedas de correspondencias
de los datos con las reglas una vez que ya no se produce mejora con la opcin S (valor por
defecto 5); hicimos varias pruebas y vimos que el error cuadrtico medio no variaba al variar el
valor por defecto. Tambin es posible variar el nmero de reglas (opcin X), llegando a la
conclusin que con 10 se obtena el menor error cuadrtico medio. Sabemos que si un dato no
encuentra correspondencia con ninguna regla, se asigna a la clase mayoritaria; el algoritmo
permite modificar esto con la opcin I, caso en el que el dato se asigna a la clase cuyas reglas
estn ms prximas. Incluyendo esta opcin tampoco vimos mejora sobre el error. A
continuacin mostramos los resultados obtenidos con el entrenamiento seleccionado.
=== Run information ===

Scheme: weka.classifiers.rules.DecisionTable -X 10 -S 5 -R
Relation: baskball
Instances: 96
Attributes: 5
assists_per_minute
height
time_played
age
points_per_minute
Test mode: evaluate on training data
=== Classifier model (full training set) ===
Decision Table:

Number of training instances: 96


Number of Rules : 10
Non matches covered by Majority class.
Best first search for feature set,
terminated after 5 non improving subsets.
Evaluation (for feature selection): CV (10 fold)
Feature set: 3,5

Rules:
===============================================
time_played points_per_minute
===============================================
'(-inf-13.143]' 0.3467571428571428
'(13.143-16.206]' 0.29003749999999995
'(16.206-19.269]' 0.3773363636363637
'(19.269-22.332]' 0.43248333333333333
'(22.332-25.395]' 0.33512222222222227
'(25.395-28.458]' 0.4279875000000001
'(28.458-31.521]' 0.4610000000000001
12
Inteligencia en Redes de Comunicaciones Practica Final: Minera de Datos
'(31.521-34.584]' 0.477025
'(34.584-37.647]' 0.47199285714285705
'(37.647-inf)' 0.5424857142857143
===============================================

Time taken to build model: 0.33 seconds

=== Evaluation on training set ===


=== Summary ===

Correlation coefficient 0.6359


Mean absolute error 0.0638
Root mean squared error 0.0836
Relative absolute error 75.0035 %
Root relative squared error 77.1785 %
Total Number of Instances 96

3.2.2 Regresin Lineal

Para el entrenamiento de la tcnica de Regresin Lineal es posible utilizar tres tcnicas para
seleccionar los atributos que conforman la expresin que permite la regresin. La primera opcin
que contemplamos es incluir todos los atributos en la frmula (opcin S 1), la segunda que
usamos fue el modelo de bsqueda avariciosa (greedy forward selection, opcin S 2) y la
tercera la opcin por defecto, con el modelo M5. Se obtuvieron los mejores resultados en cuanto
a error cuadrtico medio con el modelo M5, as que este fue el que seleccionamos. Tambin es
posible variar el modelo de salida, teniendo modelo en rbol (opcin O m), rbol de regresin
(opcin O r) y regresin lineal simple (opcin O l), que fue la que utilizamos por mayor
sencillez. A continuacin mostramos los resultados obtenidos con el entrenamiento seleccionado.

=== Run information ===

Scheme: weka.classifiers.functions.LinearRegression -S 0 -R 1.0E-8


Relation: baskball
Instances: 96
Attributes: 5
assists_per_minute
height
time_played
age
points_per_minute
Test mode: evaluate on training data

=== Classifier model (full training set) ===

Linear Regression Model

points_per_minute = -0.587*assists_per_minute + 0.0078*time_played + 0.3116

Time taken to build model: 1.37 seconds

=== Evaluation on training set ===


=== Summary ===

Correlation coefficient 0.6468


Mean absolute error 0.0639
Root mean squared error 0.0826
Relative absolute error 75.0302 %
Root relative squared error 76.2689 %
Total Number of Instances 96

13
Inteligencia en Redes de Comunicaciones Practica Final: Minera de Datos

3.3 ANLISIS DE LOS RESULTADOS

3.3.1 Tabla de Decisin

A continuacin mostramos los resultados obtenidos con los parmetros seleccionados para la
tcnica de tabla de decisin. Para ello, utilizamos la validacin cruzada de 10 clases (10-fold
cross-validation). Adems, incluimos las reglas que el algoritmo gener.

Rules:
===============================================
time_played points_per_minute
===============================================
'(-inf-13.143]' 0.3467571428571428
'(13.143-16.206]' 0.2900375
'(16.206-19.269]' 0.3773363636363636
'(19.269-22.332]' 0.43248333333333333
'(22.332-25.395]' 0.33512222222222227
'(25.395-28.458]' 0.4279875000000001
'(28.458-31.521]' 0.4610000000000001
'(31.521-34.584]' 0.477025
'(34.584-37.647]' 0.471992857142857
'(37.647-inf)' 0.5424857142857143
===============================================

=== Cross-validation ===


=== Summary ===

Correlation coefficient 0.549


Mean absolute error 0.07
Root mean squared error 0.0911
Relative absolute error 82.2686 %
Root relative squared error 84.0784 %
Total Number of Instances 96

A continuacin mostramos una figura con los resultados para los 96 datos de nuestro
ejemplo. Cada aspa representa un dato, indicando el valor absoluto del error para cada dato en
funcin del tamao de cada aspa, de forma que cuanto mayor es el aspa, mayor es el error
cometido.

14
Inteligencia en Redes de Comunicaciones Practica Final: Minera de Datos

Figura 2. Prediccin del nmero de puntos por minuto con Tabla de Decisin

3.3.2 Regresin Lineal

A continuacin mostramos los resultados obtenidos con los parmetros seleccionados para la
tcnica de Regresin Lineal. Para ello, utilizamos la validacin cruzada (cross-validation).
Adems, incluimos las frmula de regresin que el algoritmo gener.

=== Classifier model (full training set) ===

Linear Regression Model

points_per_minute = -0.587*assists_per_minute + 0.0078*time_played + 0.3116

=== Cross-validation ===


=== Summary ===

Correlation coefficient 0.6101


Mean absolute error 0.0664
Root mean squared error 0.0859
Relative absolute error 77.9654 %
Root relative squared error 79.3631 %
Total Number of Instances 96

A continuacin mostramos una figura con los resultados para los 96 datos de nuestro
ejemplo. Al igual que antes, cada aspa representa un dato, dando nocin del valor absoluto del
error para cada dato en funcin del tamao de cada aspa, de forma que cuanto mayor es el aspa,
mayor es el error cometido.
Figura 2. Prediccin del nmero de puntos por minuto con Regresin Lineal

15
Inteligencia en Redes de Comunicaciones Practica Final: Minera de Datos

3.3.3 Conclusiones

En primer lugar vemos que los resultados obtenidos en cuanto al error son mejores con la
tcnica de Regresin Lineal, ya que la raz cuadrada del error cuadrtico medio (que
denotaremos por e ) es inferior: e RL = 0.0859 y e TD = 0.0911 . Esto era de esperar, ya que
mientras que la utilidad de la tcnica de Regresin lineal ha sido ampliamente probada para
tareas de este tipo, la tcnica de Tabla de Decisin no se suele usar. Adems, vemos que para la
frmula de regresin se han utilizado dos atributos (asistencias por minuto y tiempo jugado),
mientras que en la Tabla de Decisin slo se ha utilizado uno (tiempo jugado).
Sin embargo, los resultados no difieren demasiado. Esto puede ser debido, entre otras cosas, a
que el nmero de instancias de partida es reducido (96 datos), lo que limita la potencia expresiva
de los algoritmos.

4. BIBLIOGRAFA Y REFERENCIAS
Apuntes de la asignatura Inteligencia en Redes de Comunicaciones

Apuntes de la asignatura Tratamiento Digital de Seales

Artculo The Power of Decision Tables (1995), Kohavi R.

Artculo Very simple classification rules perform well on most commonly used datasets,
R.C. Holte

Libro Data Mining, Ian H. Witten and Eibe Frank

Tutorial de WEKA

http://citeseer.nj.nec.com/cs
http://www.cems.uwe.ac.uk/~jharney/table.html
http://www.cs.utsa.edu/~bylander/cs6973/ weka/data/numeric/?C=N&O=D

16

Vous aimerez peut-être aussi