Académique Documents
Professionnel Documents
Culture Documents
EL PROCESO DE EXTRACCIN
DE CONOCIMIENTO
"
almacn de datos
.
. datos seleccionados
(vista minable)
.........
~
,
patrones
..
~
conocimiento
Figura
decisiones B
2.1. Fases del proceso de descubrimiento de conocimiento en bases de datos, KDD.
i
I
~ L.
Captulo 2. El procesodeextraccindeconocimiento21
Adems de las fases descritas, frecuentemente se incluye una fase previa de anlisis de las
necesidadesde la organizacin y definicin del problema [Two Crows Corporation 1999],
en la que se establecen los objetivos de minera de datos. Por ejemplo, un objetivo de
negocio de una entidad bancaria sera encontrar patrones en los datos que le ayuden a
conservar los buenos clientes; para ello, podramos tener varios objetivos de minera de
datos: construir un modelo para predecir clientes rentables y un segundo modelo para
identificar los clientes que probablemente dejarn de serlo.
A continuacin pasamos a ver brevemente las fases de la Figura 2.1. A lo largo del libro
iremos ampliando y profundizando sobre ellas.
E1~
~ .
~/
[TI Figura 2.2. Integracin en un almacn de datos.
to. Existen varias formas de mezclar las distintas bases de datos para crear el repositorio.
Una posibilidad es simplemente hacer una copia de las bases de datos integrantes
(probablemente eliminando inconsistencias y redundancias). Obviamente, esta aproxima-
cin limita las ventajas para acceder a bases de datos heterogneas. Por ello, generalmente
los almacenes de datos se construyen va un proceso de integracin y almacenamiento en
un nuevo esquema integrado. En la Figura 2.2 se muestra este proceso de integracin de un
almacn de datos para tres fuentes de datos originales (A, B Y C).
Esencialmente, los almacenes de datos se utilizan para poder agregar y cruzar eficien-
temente la informacin de maneras sofisticadas. ,Por ello, los datos se modelan con una
estructura de base de datos multidimensional, donde cada dimensin corresponde a un
atributo o conjunto de atributos en el esquema en torno a unos "hechos" que almacenan el
valor de alguna medida agregada, como por ejemplo la cantidad vendida de un producto
en un da concreto en una tienda. Esta visin multidimensional hace a los almacenes de
datos adecuados para el procesamiento analtico en lnea (on-line analytical processing,
OLAP). Las operaciones OLAP permiten un anlisis multidimensional de los datos, que es
superior al SQL para computar resmenes y desgloses en muchas dimensiones, pudiendo
utilizar conocimiento previo sobre el dominio de los datos para permitir su presentacin a
diferentes niveles de abstraccin, acomodando as diferentes puntos de vista del usuario.
Una cuestin importante para los profesionales del procesamiento de datos es la
diferencia entre minera de datos y OLAP. El usuario de una herramienta OLAP utiliza la
herramienta para obtener informacin agregada a partir de informacin detallada,
combinando la informacin de manera flexible. Esto permite obtener informes y vistas
sofisticadas en tiempo real. Adems, las herramientas OLAP pueden utilizarse para
comprobar rpidamente patrones y pautas hipotticas sugeridas por el usuario con el
objetivo de verificadas o rechazadas. Se trata, por lo tanto, de un proceso esencialmente
deductivo. Por el contrario, la minera de datos, ms que verificar patrones hipotticos, usa
los datos para encontrar estos patrones. Por lo tanto, es un proceso inductivo. Ambos tipos
de herramientas se complementan: podemos usar OLAP al principio del proceso de KDD
para explorar los datos (por ejemplo, para centrar nuestra atencin en las variables
importantes, identificar excepciones o encontrar interacciones), ya que cuanto ms
comprendamos los datos ms efectivo ser el proceso de descubrir conocimiento.
Como hemos dicho, un almacn de datos es muy aconsejable para la minera de datos,
aunque no imprescindible. En algunos casos, en especial cuando el volumen no es muy
grande, se puede trabajar con los datos originales o en formatos heterogneos (archivos de
texto, hojas de clculo...).
Pero adems de la irrelevancia, existen otros problemas que afectan a la calidad de los
datos. Uno de estos problemas es la presencia de valores que no se ajustan al comporta-
miento general de los datos (outliers).Estos datos anmalos pueden representar errores en
los datos o pueden ser valores correctos que son simplemente diferentes a los dems.
Algunos algoritmos de minera de datos ignoran estos datos, otros los descartan
considerndolos ruido o excepciones, pero otros son my sensibles y el resultado se ve
claramente perjudicado por ello. Sin embargo, no siempre es conveniente eliminados, ya
que, en algunas aplicaciones como la deteccin de compras fraudulentas efectuadas con
tarjetas de crdito o la prediccin de inundaciones, los eventos raros pueden ser ms
interesantes que los regulares (por ejemplo, compras por un importe mucho ms elevado
que el de las compras efectuadas habitualmente con la tarjeta, o das en los que la cantidad
de lluvia recogida es muy superior a la media).
La presencia de datos faltantes o perdidos (missing values) puede ser tambin un
problema pernicioso que puede conducir a resultados poco precisos. No obstante, es
necesario reflexionar primero sobre el significado de los valores faltantes antes de tomar
ninguna decisin sobre cmo tratados ya que stos pueden deberse a causas muy diversas,
como a un mal funcionamiento del dispositivo que hizo la lectura del valor, a cambios
efectuados en los procedimientos usados durante la coleccin de los datos o al hecho de
que los datos se recopilen desde fuentes diversas. Por ello, existen muchas aproximaciones
para manejar los datos faltantes, como veremos en el Captulo 4.
Estos dos problemas son slo dos ejemplos que muestran la necesidad de la limpieza
de datos, es decir, de mejorar su calidad. Como hemos dicho, no es slo suficiente con tener
una buena calidad de datos, sino adems poder proporcionar a los mtodos de minera de
datos el subconjunto de datos ms adecuado para resolver el problema. Para ello es
necesario seleccionar los datos apropiados.
La seleccin de atributos relevantes es uno de los preprocesamientos ms importantes,
ya que es crucial que los atributos utilizados sean relevantes para la tarea de minera de
datos. Por ejemplo, supongamos que los jueces del torneo de Wimbledon desean
determinar a partir de las condiciones climatolgicas (nubosidad, humedad, temperatura,
etc.) si se puede jugar o no al tenis. Para ello se cuenta con los datos recogidos de
experiencias anteriores. Probablemente, la base de datos contenga un atributo que
identifica cada uno de los das considerados (por ejemplo, la fecha). Si consideramos este
atributo en el proceso de minera, un algoritmo de generacin de reglas podra obtener
reglas como
Como en el caso de las variables, tambin podramos construir el modelo usando todos
los datos. Pero si tenemos muchos, tardaramos mucho tiempo y probablemente tambin
necesitaramos una mquina ms potente. Consecuentemente, una buena idea es usar una
muestra (sample)a partir de algunos datos (o filas). La seleccin de la muestra debe ser
hecha cuidadosamente para asegurar que es verdaderamente aleatoria.
Otra tarea de preparacin de los datos es la construccin de atributos, la cual consiste
en construir automticamente nuevos atributos aplicando alguna operacin o funcin a los
atributos originales con objeto de que estos nuevos atributos hagan ms fcil el proceso de
minera. La motivacin principal para esta tarea es fuerte cuando los atributos originales no
tienen mucho poder predictivo por s solos o los patrones dependen de variaciones lineales
de las variables originales. Por ejemplo, el precio de las viviendas de una zona se puede
estimar mucho mejor a partir de la densidad de poblacin de la zona que de la poblacin
absoluta y de su superficie. Por tanto, es razonable derivar el atributo densidad de
poblacin de los otros dos.
El tipo de los datos puede tambin modificarse para facilitar el uso de tcnicas que
requieren tipos de datos especficos. As, algunos atributos se pueden numerizar, lo que
reduce el espacio y permite usar tcnicas numricas. Por ejemplo, podemos reemplazar los
valores del atributo "tipo de vivienda" por enteros.
El proceso inverso consiste en discretizar los atributos continuos, es decir, transformar
valores numricos en atributos discretos o nominales. Los atributos discretizados pueden
tratarse como atributos categricos con un nmero ms pequeo de valores. La idea bsica
es partir los valores de un atributo continuo en una pequea lista de intervalos, tal que
cada intervalo es visto como un valor discreto del atributo.
I
!III
..L ..
Captulo 2. El proceso de extraccin de conocimiento 25
entender mejor los datos o para explicar situaciones pasadas. Para ello es necesario tomar
una serie de decisiones antes de empezar el proceso:
. Determinar qu tipo de tarea de minera es el ms apropiado. Por ejemplo, podra-
mos usar la clasificacin para predecir en una entidad bancaria los clientes que de-
jarn de sedo.
. Elegir el tipo de modelo. Por ejemplo, para una tarea de clasificacin podramos
usar un rbol de decisin, porque queremos obtener un modelo en forma de reglas.
. Elegir el algoritmo de minera que resuelva la tarea y obtenga el tipo de modelo
que estamos buscando. Esta eleccin es pertinente porque existen muchos mtodos
para construir los modelos. Por ejemplo, para crear rboles de decisin para clasifi-
cacin podramos usar CART o CS.O,entre otros. En los captulos siguientes se pre-
sentarn los mtodos ms importantes para cada tipo de modelo.
En lo que resta de esta seccin, describimos las tareas y modelos ms utilizados, as como
algunos conceptos relacionados con la construccin del modelo. Una descripcin ms
completa se dar en el Captulo 6.
La regresin es tambin una tarea predictiva que consiste en aprender una funcin real
que asigna a cada instancia un valor real. sta es la principal diferencia respecto a la
clasificacin; el valor a predecir es numrico. El objetivo en este caso es minimizar el error
(generalmente el error cuadrtico medio) entre el valor predicho y el valor real.
Ejemplo. Un empresario quiere conocer cul es el costo de un nuevo contrato basndose en
los datos correspondientes a contratos anteriores. Para ello usa una frmula de regresin
lineal, ajustando con los datos pasados la funcin lineal y usndola para predecir el costo en
elfuturo.
El agrupamiento (clustering) es la tarea descriptiva por excelencia y consiste en obtener
grupos "naturales" a partir de los datos. Hablamos de grupos y no de clases, porque, a
diferencia de la clasificacin, en lugar de analizar datos etiquetados con una clase, los
analiza para generar esta etiqueta. Los datos son agrupados basndose en el principio de
maximizar la similitud entre los elementos de un grupo minimizando la similitud entre los
distintos grupos. Es decir, se forman grupos tales que los objetos de un mismo grupo son
muy similares entre s y, al mismo tiempo, son muy diferentes a los objetos de otro grupo.
Al agrupamiento tambin se le suele llamar segmentacin, ya que parte o segmenta los
datos en grupos que pueden ser o no disjuntos. El agrupamiento est muy relacionado con
la sumarizacin, que algunos autores consideran una tarea en s misma, en la que cada
grupo formado se considera como un resumen de los elementos que lo forman para as
describir de una manera concisa los datos.
Ejemplo. Una libreraqueofrecesusserviciosa travsdela redusael agrupamientopara
identificar grupos de clientes en basea sus preferenciasde compras que le permita dar un
servicio ms personalizado.As, cadavez que un cliente se interesapor un libro, el sistema
~III
identificaa qugrupo pertenece y le recomienda otroslibroscompradospor clientesde su
mismogrupo.
Las correlaciones son una tarea descriptiva que se usa para examinar el grado de similitud
11 de los valores de dos variables numricas. Una frmula estndar para medir la correlacin
lineal es el coeficiente de correlacin r, el cual es un valor real comprendido entre -1 y 1. Si
res 1 (respectivamente, -1) las variables estn perfectamente correlacionadas (perfectamen-
te correlacionadas negativamente), mientras que si es O no hay correlacin. Esto quiere
decir que cuando r es positivo, las variables tienen un comportamiento similar (ambas
crecen o decrecen al mismo tiempo) y cuando r es negativo si una variable crece la otra
decrece. El anlisis de correlaciones, sobre todo las negativas, puede ser muy til para
establecer reglas de items correlacionados, como se muestra en el siguiente ejemplo.
Ejemplo.Un inspectordeincendiosquedeseaobtenerinformacintil parala prevencin
de incendios probablementeest interesado en conocer correlaciones negativas entre el
empleodedistintosgrosoresdeproteccindel materialelctricoy lafrecuenciadeocurren-
ciadeincendios.
Las reglas de asociacin son tambin una tarea descriptiva, muy similar a las correlaciones,
que tiene como objetivo identificar relaciones no explcitas entre atributos categricos.
Pueden ser de muchas formas, aunque la formulacin ms comn es del estilo" si el
atributo X toma el valor d entonces el atributo Ytoma el valor b". Las reglas de asociacin
no implican una relacin causa-efecto, es decir, puede no existir una causa para que los
datos estn asociados. Este tipo de tarea se utiliza frecuentemente en el anlisis de la cesta
1
I
.....
Captulo 2. El procesode extraccin de conocimiento 27
13000
12000
12000
11000
1997 1998 1999 2000 2001 2002 2003 2004
En otras ocasiones, deseamos calcular, para una instancia dada sin clasificar, cul es la
probabilidad de que se le asigne cada una de las clases, y seleccionar la de mayor
probabilidad. sta es la idea que subyace en los mtodos bayesianos. Uno de los mtodos
ms utilizadoses el NaiveBayes,que se basa en la regla de Bayes y que "ingenuamente"
asume la independencia de los atributos dada la clase. Este mtodo funciona bRin con bases
de datos reales, sobre todo cuando se combina con otros procedimientos de seleccin de
atributos que sirven para eliminar la redundancia.
La regla de Bayes establece que, si tenemos una hiptesis H sustentada para una
evidenciaE, entonces:
Ahora supongamos que se tiene un nuevo ejemplo con los siguientes valores:
practica_deporte buen_cliente
no ?
instancias, es decir p(sz) =7/10. Por ltimo, el denominador p(E) desaparece normalizando.
Sustituyendo todos estos valores se obtiene que la probabilidad de que se asigne el valor s
al atributo buen-clientedel dato E es
p(s IE) = 'ji.2j. )0 .'ji. Xo = 0,0210
Procediendo de igual forma para la clase no resulta p(noIE) = 0,0296, por lo que se asignar
el valor no al atributo buen-cliente del dato E. Los mtodos bayesianos se vern en el
Captulo 10.
Los rboles de decisin son una serie de decisiones o condiciones organizadas en
forma jerrquica, a modo de rbol. Son muy tiles para encontrar estructuras en espacios
de alta dimensionalidad y en problemas que mezclen datos categricos y numricos. Esta
tcnica se usa en tareas de clasificacin, agrupamiento y regresin. Los rboles de decisin
usados para predecir variables categricas 'reciben el nombre de rboles de clasificacin, ya
que distribuyen las instancias en clases. Cuando los rboles de decisin se usan para
predecir variables continuas se llaman rboles de regresin. Vamos a mostrar un ejemplo
de rbol de clasificacin. Para ello usaremos como ejemplo un tpico problema muy
utilizado en el aprendizaje automtico. Se trata de un conjunto de datos ficticio que
muestra las condiciones climatolgicas (pronstico, humedad y viento) adecuadas para
jugar un cierto deporte (por ejemplo, tenis en Wimbledon). Los datos de los que
disponemos son los siguientes:
#instancia pronstico humedad viento jugar
1 soleado alta dbil No
2 cubierto alta dbil S
3 lluvioso alta dbil S
4 lluvioso normal fuerte No
5 soleado normal dbil S
... ... ... .,. ...
Los rboles de decisin siguen una aproximacin" divide y vencers" para partir el espacio
del problema en subconjuntos. Encima del nodo raz del rbol tenemos el problema a
resolver. En nuestro ejemplo, se trata de decidir si jugar o no. Los nodos internos (nodo s de
...
Captulo 2. El procesodeextraccindeconocimiento31
El antecedente de la regla (la parte SI) contiene na conjuncin de n condiciones sobre los
valores de los atributos independientes, mientras que el consecuente de la regla (la parte
ENTONCES)contiene una prediccin sobre el valor de un atributo objetivo. La semntica
de este tipo de reglas de prediccin es: si se satisfacen todas las condiciones especificadas
en el antecedente de la regla para los atributos independientes de un registro de datos (una
instancia) entonces se predice que el atributo objetivo de este registro tendr el valor
especificadoen el consecuente de la regla.
Aunque los rboles de decisin pueden tambin producir un conjunto de reglas (tal y
como hemos visto anteriormente), los mtodos de induccin de reglas son diferentes ya
que:
. las reglas son independientes y no tienen por qu formar un rbol.
. las reglas generadas pueden no cubrir todas las situaciones posibles.
. las reglas pueden entrar en conflicto en sus predicciones; en este caso, es necesario
elegir qu regla se debe seguir. Un mtodo para resolver los conflictos consiste en
asignar un valor de confianza a las reglas y usar la que tenga mayor confianza.
32 Introduccin a la Minera de Datos
si / no
La organizacin ms popular de una red neuronal consta de una capa de entrada, en la que
cada nodo corresponde a una variable independiente a examinar, unos nodos internos
organizados en una o varias capas ocultas y una capa de salida con los nodos de salida (los
Captulo 2. El procesodeextraccindeconocimiento33
posibles valores de las variables objetivo). Cada nodo de la capa de entrada est conectado
a cada nodo de la capa oculta. Los nadas de la capa oculta pueden estar conectados a nadas
de otra capa oculta o a los nadas de la capa de salida. Cada arco est etiquetado por un
peso de conexin (w) y en cada nodo hay una funcin de activacin que indica el efecto de
ese nodo sobre los datos que entran en l. Para usar una red neuronal ya entrenada se
introducen los valores de los atributos de una instancia en los nadas de entrada y los nadas
de salida determinan la prediccin para dicha instancia.
Veamos de forma simplificada cmo funciona una red neuronal sobre el problema de
determinar si se juega o no (Figura 2.8). Lo primero es determinar la estructura del grafo.
Dado que hay tres atributos independientes (pronstico,humedad y viento) vamos a asumir
que en la capa de entrada hay tres nadas (en la figura etiquetados como 1, 2 Y 3). Como el
objetivoes efectuar una clasificacin de un solo valor, la clase "s" (la clase "no" se entiende
comola negacin de la clase "s", por lo que no se incluye en la capa de salida), la capa de
salida constar de un nodo (en la figura, nodo 7). Finalmente, asumiremos que existe una
nica capa oculta (el nmero de capas ocultas de una red neuronal no es fcil de
determinar) y arbitrariamente consideramos que contiene tres nadas (en la figura, nadas 4,
5 Y6).Todos los arcos estn etiquetados con pesos wij,que indican el peso entre los nadas i
y j, y cada nodo i tiene asociada una funcin de activacin Ji. Durante el proceso, las
funciones y los pesos actan sobre las entradas de los nadas. As, por ejemplo, dada una
tupla de entrada (pronstico,humedad,viento) con los valores de los tres atributos de entrada,
la salida del nodo 1 serafi(pronstico), la del nodo 2 seraJ2(humedad) y la del 3 sera
h( viento).Similarmente, la salida del nodo 4 sera J4(W14 fi (pronstico)+w2J2(humedad)+w34
h(viento)).y as sucesivamente.
Los pesos de conexin son parmetros desconocidos que deben estimarse por un
mtodo de entrenamiento. El mtodo ms comnmente utilizado es el de propagacin
hacia atrs (backpropagation). La idea bsica es reducir el valor de error de la salida de la red.
Las redes neuronales tienen una gran capacidad de generalizacin para problemas no
lineales,aunque requieren bastantes datos para su entrenamiento. Su mayor desventaja es,
no obstante, que el modelo aprendido es difcilmente comprensible. Para una descripcin
detallada sobre las redes neuronales remitimos al lector al Captulo 13 de este libro.
En el aprendizaje basado en instancias o casos, las instancias se almacenan en memo-
ria, de tal forma que cuando llega una nueva instancia cuyo valor es desconocido se intenta
relacionarsta con las instancias almacenadas (cuya clase o valor es conocida) buscando las
que ms se parecen, con el objetivo de usar los valores de estas instancias similiares para
estimar los valores a obtener de la nueva instancia en cuestin. Por lo tanto, ms que
intentar crear reglas, se trabaja directamente con los ejemplos.
Todo el trabajo en el aprendizaje basado en instancias se hace cuando llega una
instancia a clasificar y no cuando se procesa el conjunto de entrenamiento. En este sentido
se trata de un mtodo retardado o perezoso, ya que retrasa el trabajo real tanto como sea
posible, a diferencia de los otros mtodos vistos hasta el momento que tienen un
comportamiento anticipativo o voraz, produciendo generalizaciones en cuanto reciben los
datos de entrenamiento.
En el aprendizaje basado en instancias, cada nueva instancia se compara con las
existentesusando una mtrica de distancia, y la instancia ms prxima se usa para asignar
34 Introduccin a la Minera de Datos
a
N a
a
a a
a
a
b a
El aprendizaje basado en instancias es muy til para trabajar sobre tipos de datos no
estndar, como los textos o multimedia. El nico requerimiento para incluir un tipo de
datos es la existencia de una mtrica apropiada de distancia para formalizar el concepto de
similitud.
Calcular la distancia entre dos ejemplos o instancias es trivial cuando tienen un atributo
numrico: basta con calcular la diferencia entre sus valores. Cuando hay varios atributos
numricos se puede usar la distancia eucldea, asumiendo que los atributos estn
normalizados y que son de igual importancia. Estas suposiciones no siempre se
corresponden con la realidad y existen variantes que ponderan ms los atributos
importantes, as como otras mtricas de distancia que veremos en el Captulo 16.
Los atributos nominales deben tratarse de forma especial definiendo "distancias" entre
los diferentes valores. Normalmente, se asigna una distancia Osi los valores son idnticos,
y una distancia de 1 en cualquier otro caso. As, la distancia entre joven y joven es O,
mientras que la distancia entre joven y adulto es de 1. En algunos casos es conveniente usar
medidas ms sofisticadas. Por ejemplo, podramos usar una medida que estableciera que
joven es ms prximo a adulto que a mayor. Finalmente, algunos atributos son ms
importantes que otros, lo cual puede reflejarse en la mtrica a travs de pesos.
Los algoritmo s evolutivos son mtodos de bsqueda colectiva en el espacio de
soluciones. Dada una poblacin de potenciales soluciones a un problema, la computacin
evolutiva expande esta poblacin con nuevas y mejores soluciones. El nombre se debe a
que siguen los patrones de la evolucin biolgica. Los cromosomas proporcionan la
representacin o codificacin de un individuo. Parte de los cromosomas, los genes, se usan
para definir diferentes rasgos del individuo. Durante la reproduccin (cruce) los genes de
los padres se combinan para producir los genes de los hijos. La poblacin va mejorando de
generacin en generacin, porque los individuos que representan las soluciones ms
adecuadas al problema tienen ms posibilidades de sobrevivir.
11
Captulo 2. El procesode extraccin de conocimiento 35
2 Algunos algoritmos de aprendizaje utilizan internamente un tercer conjunto que extraen del conjunto de
aprendizaje, denominado conjunto de validacin (validatian dataset), para refinar el modelo o elegir entre
posibles modelos antes de la salida final del algoritmo. No hemos de confundir esta pre-validacin o
evaluacin interna con la verdadera evaluacin y, por tanto, el conjunto de validacin con el conjunto de
test.
....
Captulo 2. El proceso de extraccin de conocimiento 37
Otra tcnica para estimar el error de un modelo cuando se disponen de pocos datos es
la conocida como bootstrapping. sta consiste en construir primero un modelo con todos
los datos iniciales. Entonces, se crean numerosos conjuntos de datos, llamados bootstrap
samples,haciendo un muestreo de los datos originales con reemplazo, es decir, se van
seleccionando instancias del conjunto inicial, pudiendo seleccionar la misma instancia
varias veces. Ntese que los conjuntos construidos de esta forma pueden contener datos
repetidos. A continuacin se construye un modelo con cada conjunto y se calcula su ratio
de error sobre el conjunto de test (que son los datos sobrantes de cada muestreo). El error
final estimado para el modelo construido con todos los datos se calcula pro mediando los
errores obtenidos para cada muestra. Esta tcnica se ver con ms detalle en el Captulo 17.
O incluso,usando slo algn atributo que pueda servir como clave primaria, por ejemplo:
SI #instancia=4 ENTONCES buen_cIiente=s
Si procedemos de igual forma para todas las instancias tendremos un 100 por cien de
precisin predictiva respecto al conjunto de entrenamiento (ya que tendremos una regla
por cada ejemplo). Sin embargo, su precisin con respecto a un conjunto de test que
contenga instancias diferentes de las de entrenamiento ser baja.
En el caso de que la tarea sea de reglas de asociacin, se suele evaluar de forma
separada cada una de las reglas con objeto de restringimos a aquellas que pueden aplicarse
a un mayor nmero de instancias y que tienen una precisin relativamente alta sobre estas
instancias. Esto se hace en base a dos conceptos:
. Cobertura (tambin referida como soporte): nmero de instancias a las que la regla se
aplica y predice correctamente.
. Confianza: proporcin de instancias que la regla predice correctamente, es decir, la
cobertura dividida por el nmero de instancias a las que se puede aplicar la regla.
Siguiendo con el ejemplo de determinar si se juega a un deporte, consideremos:
38 Introduccin a la Mineria de Datos
tendr una cobertura de 1, es decir, el nmero de das soleados y con viento dbil en los
que se recomienda jugar (instancia 5); y una confianza de 1/2 (ya que la regla tambin se
puede aplicar a la instancia 1).
Si la tarea es regresin, es decir, la salida del modelo es un valor numrico, la manera
ms habitual de evaluar un modelo es mediante el error cuadrtico medio del valor
predicho respecto al valor que se utiliza como validacin. Esto promedia los errores y tiene
ms en cuenta aquellos errores que se desvan ms del valor predicho (ponderacin
cuadrtica). Aunque se pueden utilizar otras medidas del error en regresin, sta es quiz
la ms utilizada.
Para la tarea de agrupamiento, las medidas de evaluacin suelen depender del mtodo
utilizado, aunque suelen ser funcin de la cohesin de cada grupo y de la separacin entre
grupos. La cohesin y separacin entre grupos se puede formalizar, por ejemplo, utilizando
la distancia media al centro del grupo de los miembros de un grupo y la distancia media
entre grupos, respectivamente. El concepto de distancia y de densidad son dos aspectos
cruciales tanto en la construccin de modelos de agrupamiento como en su evaluacin.
Adems de las medidas comentadas, existen otras medidas ms subjetivas, como el
inters, la novedad, la simplicidad o la comprensibilidad que sern tratadas en el punto
17.8.
que su precisin sera del 86,5 por ciento. Sin embargo, este modelo es intil. Ms
importante todava, puede ser peligroso ya que pacientes cuyas condiciones de salud
requeriran un ingreso en la VCI seran enviados a sus casas, lo cual es una poltica
desastrosa para el hospital.
El ejemplo anterior pone de manifiesto que necesitamos conocer mejor el tipo de
errores y su coste asociado. En los problemas de clasificacin se usa una matriz de
confusin, la cual muestra el recuento de casos de las clases predichas y sus valores
actuales. Si se dispone de informacin sobre el coste de cada error/acierto en la clasificacin,
entonces las celdas de la matriz pueden asociarse con el coste de cometer un cierto error de
clasificacin o de efectuar una clasificacin correcta. En este caso, la matriz suele
denominarse matriz de costes de clasificacin. Con estas dos matrices podemos evaluar los
modelos con sus costes de error de clasificacin y, por ejemplo, buscar un modelo que
minimice el coste global. Veremos ejemplos de matrices de confusin y de costes en el
Captulo 17
La consideracin de que todos los errores no son iguales puede incluso tenerse en
cuenta en situaciones donde los costes de error suelen ser difciles de estimar o incluso
desconocidos para muchas aplicaciones. En estos casos, se usan estrategias alternativas
como el anlisis Roe (Receiver Operating Characteristic) que tambin veremos en el
Captulo 17.
Como hemos dicho anteriormente, la precisin de un modelo no garantiza que refleje el
mundo real. Normalmente, esta situacin se produce cuando al construir el modelo no
hemos tenido en cuenta algunos parmetros que implcitamente influyen en l. Por ejemplo,
un modelo para predecir el gasto energtico de una poblacin puede fallar al no haber
considerado que un perodo de recesin econmica mundial puede implicar subidas
considerables en el precio del petrleo, lo que condiciona el gasto que de esta fuente de
energahace la poblacin.
En cualquier caso deberemos contrastar el conocimiento que ste nos proporciona con
el conocimiento previo que pudiramos tener sobre el problema para detectar y en su caso
resolverlos posibles conflictos.
funcione bien debemos continuamente comprobar las prestaciones del mismo. Esto se debe
40 Introduccin a la Minera de Datos
principalmente a que los patrones pueden cambiar. Por ejemplo, todos los vendedores
saben que las ventas se ven afectadas por factores externos como la tasa de inflacin, la cual
altera el comportamiento de compra de la gente. Por lo tanto, el modelo deber ser
monitorizado, lo que significa que de tiempo en tiempo el modelo tendr que ser re-
evaluado, re-entrenado y posiblemente reconstruido completamente.