Vous êtes sur la page 1sur 22

Captulo 2

EL PROCESO DE EXTRACCIN
DE CONOCIMIENTO

E n el captulo anterior hemos visto que la minera de datos no es ms que un paso


esencial de un proceso ms amplio cuyo objetivo es el descubrimiento de conocimiento
en bases de datos (del ingls KnowledgeDiscoveryfrom Databases,KDD). Este proceso consta
de una secuencia iterativa de etapas o fases. En este captulo se presentan las fases del
proceso de extraccin de conocimiento: Preparacin de Datos, Minera de Datos,
Evaluacin, Difusin y Uso de Modelos. Se dan las nociones ms bsicas de cada una de
ellas, se presenta una tipologa de tareas de minera de datos (clasificacin, estima-
cin/regresin, agrupamiento, reglas de asociacin...) y de tcnicas para resolverlos
(funciones lineales y no lineales, rboles de decisin, redes neuronales artificiales,
aprendizaje basado en instancias o casos, mtodos basados en ncleos, etc.). Se introducen
las medidas bsicas de evaluacin (precisin, soporte, confianza, error cuadrtico medio,
distancias...) y el concepto de evaluacin mediante los conjuntos de entrenamiento y de
prueba.

2.1 Las fases del proceso de extraccin de conocimiento


En la Figura 2.1 se muestra que el KDD es un proceso iterativo e interactivo. Es iterativo ya
que la salida de alguna de las fases puede hacer volver a pasos anteriores y porque a
menudo son necesarias varias iteraciones para extraer conocimiento de alta calidad. Es
interactivo porque el usuario, o ms generalmente un experto en el dominio del problema,
debe ayudar en la preparacin de los datos, validacin del conocimiento extrado, etc.
El proceso de KDD se organiza entorno a cinco fases como se ilustra en la Figura 2.1. En
la fase de integracin y recopilacin de datos se determinan las fuentes de informacin
que pueden ser tiles y dnde conseguirlas. A continuacin, se transforman todos los datos
a un formato comn, frecuentemente mediante un almacn de datos que consiga unificar
20 Introduccin a la Minera de Datos

de manera operativa toda la informacin recogida, detectando y resolviendo las


inconsistencias. Este almacn de datos facilita enormemente la "navegacin" y visualiza-
cin previa de sus datos, para discernir qu aspectos puede interesar que sean estudiados.
Dado que los datos provienen de diferentes fuentes, pueden contener valores errneos o
faltantes. Estas situaciones se tratan en la fase de seleccin, limpieza y transformacin, en
la que se eliminan o corrigen los datos incorrectos y se decide la estrategia a seguir con los
datos incompletos. Adems, se proyectan los datos para considerar nicamente aquellas
variables o atributos que van a ser relevantes, con el objetivo de hacer ms fcil la tarea
propia de minera y para que los resultados de la misma sean ms tiles. La seleccin
incluye tanto una criba o fusin horizontal (filas / registros) corno vertical (columnas /
atributos). Las dos primeras fases se suelen englobar bajo el nombre de "preparacin de
datos". En la fase de minera de datos, se decide cul es la tarea a realizar (clasificar,
agrupar, etc.) y se elige el mtodo que se va a utilizar. En la fase de evaluacin e
interpretacin se evalan los patrones y se analizan por los expertos, y si es necesario se
vuelve a las fases anteriores para una nueva iteracin. Esto incluye resolver posibles
conflictos con el conocimiento que se dispona anteriormente. Finalmente, en la fase de
difusin se hace uso del nuevo conocimiento y se hace partcipe de l a todos los posbiles
usuarios. Para cada una de estas fases se emplean distintas tcnicas de las diferentes
disciplinas relacionadas que vimos en la Seccin 1.6.
datos iniciales

"

almacn de datos

.
. datos seleccionados
(vista minable)

.........

~
,
patrones
..
~
conocimiento

Figura
decisiones B
2.1. Fases del proceso de descubrimiento de conocimiento en bases de datos, KDD.

i
I

~ L.
Captulo 2. El procesodeextraccindeconocimiento21

Adems de las fases descritas, frecuentemente se incluye una fase previa de anlisis de las
necesidadesde la organizacin y definicin del problema [Two Crows Corporation 1999],
en la que se establecen los objetivos de minera de datos. Por ejemplo, un objetivo de
negocio de una entidad bancaria sera encontrar patrones en los datos que le ayuden a
conservar los buenos clientes; para ello, podramos tener varios objetivos de minera de
datos: construir un modelo para predecir clientes rentables y un segundo modelo para
identificar los clientes que probablemente dejarn de serlo.
A continuacin pasamos a ver brevemente las fases de la Figura 2.1. A lo largo del libro
iremos ampliando y profundizando sobre ellas.

2.2 Fase de integracin y recopilacin


Tal y como mencionamos en el captulo anterior (Seccin 1.1), las bases de datos y las
aplicacionesbasadas en el procesamiento tradicional de datos, que se conoce como
procesamiento transaccional en lnea (OLTP, On-Line Transaction Processing) son
suficientes para cubrir las necesidades diarias de una organizacin (tales como la
facturacin, control de inventario, nminas...). Sin embargo, resultan insuficientes para
otras funciones ms complejas como el anlisis, la planificacin y la prediccin, es decir,
para tomar decisiones estratgicas a largo plazo. En estos casos, y dependiendo de la
aplicacin, lo normal es que los datos necesarios para poder llevar a cabo un proceso de
KDD pertenezcan a diferentes organizaciones, a distintos departamentos de una misma
entidad. Incluso puede ocurrir que algunos datos necesarios para el anlisis nunca hayan
sido recolectados en el mbito de la organizacin por no ser necesarios para sus
aplicaciones. En muchos casos tendremos que adquirir adems datos externos desde bases
de datos pblicas (como el censo, datos demogrficos o climatolgicos) o desde bases de
datos privadas (como los datos de compaas de pagos, bancarias, elctricas, etc., siempre
que sea a un nivel agregado para no infringir la legalidad). Esto representa un reto, ya qu.e
cada fuente de datos usa diferentes formatos de registro, diferentes grados de agregacin
de los datos, diferentes claves primarias, diferentes tipos de error, etc. Lo primero, por lo
tanto, es integrar todos estos datos. La idea de la integracin de mltiples bases de datos ha
dado lugar a la tecnologa de almacenes de datos (data warehousing).Este trmino, tan
popular actualmente, hace referencia a la tendencia actual en las empresas e instituciones
de coleccionar datos de las bases de datos transaccionales y otras fuentes diversas para
hacerlas accesibles para el anlisis y la toma de decisiones.

E1~
~ .
~/
[TI Figura 2.2. Integracin en un almacn de datos.

Un almacn de datos es un repositorio de informacin coleccionada desde varias fuentes,


almacenadabajoun esquema unificado que normalmente reside en un nico emplazamien-
22 Introduccin a la Mineria de Datos

to. Existen varias formas de mezclar las distintas bases de datos para crear el repositorio.
Una posibilidad es simplemente hacer una copia de las bases de datos integrantes
(probablemente eliminando inconsistencias y redundancias). Obviamente, esta aproxima-
cin limita las ventajas para acceder a bases de datos heterogneas. Por ello, generalmente
los almacenes de datos se construyen va un proceso de integracin y almacenamiento en
un nuevo esquema integrado. En la Figura 2.2 se muestra este proceso de integracin de un
almacn de datos para tres fuentes de datos originales (A, B Y C).
Esencialmente, los almacenes de datos se utilizan para poder agregar y cruzar eficien-
temente la informacin de maneras sofisticadas. ,Por ello, los datos se modelan con una
estructura de base de datos multidimensional, donde cada dimensin corresponde a un
atributo o conjunto de atributos en el esquema en torno a unos "hechos" que almacenan el
valor de alguna medida agregada, como por ejemplo la cantidad vendida de un producto
en un da concreto en una tienda. Esta visin multidimensional hace a los almacenes de
datos adecuados para el procesamiento analtico en lnea (on-line analytical processing,
OLAP). Las operaciones OLAP permiten un anlisis multidimensional de los datos, que es
superior al SQL para computar resmenes y desgloses en muchas dimensiones, pudiendo
utilizar conocimiento previo sobre el dominio de los datos para permitir su presentacin a
diferentes niveles de abstraccin, acomodando as diferentes puntos de vista del usuario.
Una cuestin importante para los profesionales del procesamiento de datos es la
diferencia entre minera de datos y OLAP. El usuario de una herramienta OLAP utiliza la
herramienta para obtener informacin agregada a partir de informacin detallada,
combinando la informacin de manera flexible. Esto permite obtener informes y vistas
sofisticadas en tiempo real. Adems, las herramientas OLAP pueden utilizarse para
comprobar rpidamente patrones y pautas hipotticas sugeridas por el usuario con el
objetivo de verificadas o rechazadas. Se trata, por lo tanto, de un proceso esencialmente
deductivo. Por el contrario, la minera de datos, ms que verificar patrones hipotticos, usa
los datos para encontrar estos patrones. Por lo tanto, es un proceso inductivo. Ambos tipos
de herramientas se complementan: podemos usar OLAP al principio del proceso de KDD
para explorar los datos (por ejemplo, para centrar nuestra atencin en las variables
importantes, identificar excepciones o encontrar interacciones), ya que cuanto ms
comprendamos los datos ms efectivo ser el proceso de descubrir conocimiento.
Como hemos dicho, un almacn de datos es muy aconsejable para la minera de datos,
aunque no imprescindible. En algunos casos, en especial cuando el volumen no es muy
grande, se puede trabajar con los datos originales o en formatos heterogneos (archivos de
texto, hojas de clculo...).

2.3 Fase de seleccin, limpieza y transformacin


La calidad del conocimiento descubierto no slo depende del algoritmo de minera
utilizado, sino tambin de la calidad de los datos minados. Por ello, despus de la
recopilacin, el siguiente paso en el proceso de KDD es seleccionar y preparar el
subconjunto de datos que se va a minar, los cuales constituyen lo que se conoce como vista
minable. Este paso es necesario ya que algunos datos coleccionados en la etapa anterior son
irrelevantes o innecesarios para la tarea de minera que se desea realizar. .
Captulo 2. El procesodeextraccindeconocimiento23

Pero adems de la irrelevancia, existen otros problemas que afectan a la calidad de los
datos. Uno de estos problemas es la presencia de valores que no se ajustan al comporta-
miento general de los datos (outliers).Estos datos anmalos pueden representar errores en
los datos o pueden ser valores correctos que son simplemente diferentes a los dems.
Algunos algoritmos de minera de datos ignoran estos datos, otros los descartan
considerndolos ruido o excepciones, pero otros son my sensibles y el resultado se ve
claramente perjudicado por ello. Sin embargo, no siempre es conveniente eliminados, ya
que, en algunas aplicaciones como la deteccin de compras fraudulentas efectuadas con
tarjetas de crdito o la prediccin de inundaciones, los eventos raros pueden ser ms
interesantes que los regulares (por ejemplo, compras por un importe mucho ms elevado
que el de las compras efectuadas habitualmente con la tarjeta, o das en los que la cantidad
de lluvia recogida es muy superior a la media).
La presencia de datos faltantes o perdidos (missing values) puede ser tambin un
problema pernicioso que puede conducir a resultados poco precisos. No obstante, es
necesario reflexionar primero sobre el significado de los valores faltantes antes de tomar
ninguna decisin sobre cmo tratados ya que stos pueden deberse a causas muy diversas,
como a un mal funcionamiento del dispositivo que hizo la lectura del valor, a cambios
efectuados en los procedimientos usados durante la coleccin de los datos o al hecho de
que los datos se recopilen desde fuentes diversas. Por ello, existen muchas aproximaciones
para manejar los datos faltantes, como veremos en el Captulo 4.
Estos dos problemas son slo dos ejemplos que muestran la necesidad de la limpieza
de datos, es decir, de mejorar su calidad. Como hemos dicho, no es slo suficiente con tener
una buena calidad de datos, sino adems poder proporcionar a los mtodos de minera de
datos el subconjunto de datos ms adecuado para resolver el problema. Para ello es
necesario seleccionar los datos apropiados.
La seleccin de atributos relevantes es uno de los preprocesamientos ms importantes,
ya que es crucial que los atributos utilizados sean relevantes para la tarea de minera de
datos. Por ejemplo, supongamos que los jueces del torneo de Wimbledon desean
determinar a partir de las condiciones climatolgicas (nubosidad, humedad, temperatura,
etc.) si se puede jugar o no al tenis. Para ello se cuenta con los datos recogidos de
experiencias anteriores. Probablemente, la base de datos contenga un atributo que
identifica cada uno de los das considerados (por ejemplo, la fecha). Si consideramos este
atributo en el proceso de minera, un algoritmo de generacin de reglas podra obtener
reglas como

SI (fecha=10/06/2003) ENTONCES Uugar_tenis=s)

que, aunque correcta, es intil para realizar predicciones futuras.


Idealmente, uno podra usar todas las variables y dejar que la herramienta de minera
de datos fuera probando hasta elegir las mejores variables predictoras. Obviamente, esta
forma de trabajar no funciona bien, entre otras cosas porque el tiempo requerido para
construir un modelo crece con el nmero de variables. Aunque en principio algunos
algoritmos de minera de datos automticamente ignoran las variables irrelevantes, en la
prctica nuestro conocimiento sobre el dominio del problema puede permitimos hacer
correctamente muchas de esas selecciones.
24 Introduccin a la Minera de Datos

Como en el caso de las variables, tambin podramos construir el modelo usando todos
los datos. Pero si tenemos muchos, tardaramos mucho tiempo y probablemente tambin
necesitaramos una mquina ms potente. Consecuentemente, una buena idea es usar una
muestra (sample)a partir de algunos datos (o filas). La seleccin de la muestra debe ser
hecha cuidadosamente para asegurar que es verdaderamente aleatoria.
Otra tarea de preparacin de los datos es la construccin de atributos, la cual consiste
en construir automticamente nuevos atributos aplicando alguna operacin o funcin a los
atributos originales con objeto de que estos nuevos atributos hagan ms fcil el proceso de
minera. La motivacin principal para esta tarea es fuerte cuando los atributos originales no
tienen mucho poder predictivo por s solos o los patrones dependen de variaciones lineales
de las variables originales. Por ejemplo, el precio de las viviendas de una zona se puede
estimar mucho mejor a partir de la densidad de poblacin de la zona que de la poblacin
absoluta y de su superficie. Por tanto, es razonable derivar el atributo densidad de
poblacin de los otros dos.
El tipo de los datos puede tambin modificarse para facilitar el uso de tcnicas que
requieren tipos de datos especficos. As, algunos atributos se pueden numerizar, lo que
reduce el espacio y permite usar tcnicas numricas. Por ejemplo, podemos reemplazar los
valores del atributo "tipo de vivienda" por enteros.
El proceso inverso consiste en discretizar los atributos continuos, es decir, transformar
valores numricos en atributos discretos o nominales. Los atributos discretizados pueden
tratarse como atributos categricos con un nmero ms pequeo de valores. La idea bsica
es partir los valores de un atributo continuo en una pequea lista de intervalos, tal que
cada intervalo es visto como un valor discreto del atributo.
I
!III

Figura 2.3. Ejemplo de discretzacn del atrbuto tamao.


La Figura 2.3 ilustra una posible discretizacin para el atributo tamao, con valores de Oa
10. La parte inferior de la figura muestra la lista ordenada de los valores continuos, los
cuales se han discretizado en tres intervalos a los que se les ha asignado los valores
discretos pequeo,medianoy grande, como puede verse en la parte superior de la figura.

2.4 Fase de minera de datos


La fase de minera de datos es la ms caracterstica del KDD y, por esta razn, muchas
veces se utiliza esta fase para nombrar todo el proceso. El objetivo de esta fase es producir
nuevo conocimiento que pueda utilizar el usuario. Esto se realiza construyendo un modelo
basado en los datos recopilados para este efecto. El modelo es una descripcin de los
patrones y relaciones entre los datos que pueden usarse para hacer predicciones, para

..L ..
Captulo 2. El proceso de extraccin de conocimiento 25

entender mejor los datos o para explicar situaciones pasadas. Para ello es necesario tomar
una serie de decisiones antes de empezar el proceso:
. Determinar qu tipo de tarea de minera es el ms apropiado. Por ejemplo, podra-
mos usar la clasificacin para predecir en una entidad bancaria los clientes que de-
jarn de sedo.
. Elegir el tipo de modelo. Por ejemplo, para una tarea de clasificacin podramos
usar un rbol de decisin, porque queremos obtener un modelo en forma de reglas.
. Elegir el algoritmo de minera que resuelva la tarea y obtenga el tipo de modelo
que estamos buscando. Esta eleccin es pertinente porque existen muchos mtodos
para construir los modelos. Por ejemplo, para crear rboles de decisin para clasifi-
cacin podramos usar CART o CS.O,entre otros. En los captulos siguientes se pre-
sentarn los mtodos ms importantes para cada tipo de modelo.
En lo que resta de esta seccin, describimos las tareas y modelos ms utilizados, as como
algunos conceptos relacionados con la construccin del modelo. Una descripcin ms
completa se dar en el Captulo 6.

2.4.1 Tareas de la minera de datos


Dentro de la minera de datos hemos de distinguir tipos de tareas, cada una de las cuales
puede considerarse como un tipo de problema a ser resuelto por un algoritmo de minera
de datos. Esto significa que cada tarea tiene sus propios requisitos, y que el tipo de
informacin obtenida con una tarea puede diferir mucho de la obtenida con otra.
Tal y como comentamos en el captulo anterior, las distintas tareas pueden ser predicti-
vas o descriptivas. Entre las tareas predictivas encontramos la clasificacin y la regresin,
mientras que el agrupamiento (clustering), las reglas de asociacin, las reglas de asociacin
secuenciales y las correlaciones son tareas descriptivas. Veamos en mayor detalle todas
ellas.
La clasificacin es quiz la tarea ms utilizada. En ella, cada instancia (o registro de la
base de datos) pertenece a una clase, la cual se indica mediante el valor de un atributo que
llamamos la clase de la instancia. Este atributo puede tomar diferentes valores discretos,
cada uno de los cuales corresponde a una clase. El resto de los atributos de la instancia (los
relevantes a la clase) se utilizan para predecir la clase. El objetivo es predecir la clase de
nuevas instancias de las que se desconoce la clase. Ms concretamente, el objetivo del
algoritmo es maximizar la razn de precisin de la clasificacin de las nuevas instancias, la
cual se calcula como el cociente entre las predicciones correctas y el nmero total de
predicciones (correctas e incorrectas).
Ejemplo. Consideremos un oftalmlogo que desea disponer de un sistema que le sirva para
determinar la conveniencia o no de recomendar la ciruga ocular a sus pacientes. Para ello
dispone de una base de datos de sus antiguos pacientes clasificados en operados satisfacto-
riamente o no en funcin del tipo de problema que padecan (miopa y su grado, o astigma-
tismo) y de su edad. El modelo encontrado se utiliza para clasificarnuevos pacientes, es
decir,para decidir si es conveniente operarIos o no.
Existen variantes de la tarea de la clasificacin, como son el aprendizaje de "rankings", el
aprendizaje de preferencias, el aprendizaje de estimadores de probabilidad, etc.
26 Introduccin a la Minera de Datos

La regresin es tambin una tarea predictiva que consiste en aprender una funcin real
que asigna a cada instancia un valor real. sta es la principal diferencia respecto a la
clasificacin; el valor a predecir es numrico. El objetivo en este caso es minimizar el error
(generalmente el error cuadrtico medio) entre el valor predicho y el valor real.
Ejemplo. Un empresario quiere conocer cul es el costo de un nuevo contrato basndose en
los datos correspondientes a contratos anteriores. Para ello usa una frmula de regresin
lineal, ajustando con los datos pasados la funcin lineal y usndola para predecir el costo en
elfuturo.
El agrupamiento (clustering) es la tarea descriptiva por excelencia y consiste en obtener
grupos "naturales" a partir de los datos. Hablamos de grupos y no de clases, porque, a
diferencia de la clasificacin, en lugar de analizar datos etiquetados con una clase, los
analiza para generar esta etiqueta. Los datos son agrupados basndose en el principio de
maximizar la similitud entre los elementos de un grupo minimizando la similitud entre los
distintos grupos. Es decir, se forman grupos tales que los objetos de un mismo grupo son
muy similares entre s y, al mismo tiempo, son muy diferentes a los objetos de otro grupo.
Al agrupamiento tambin se le suele llamar segmentacin, ya que parte o segmenta los
datos en grupos que pueden ser o no disjuntos. El agrupamiento est muy relacionado con
la sumarizacin, que algunos autores consideran una tarea en s misma, en la que cada
grupo formado se considera como un resumen de los elementos que lo forman para as
describir de una manera concisa los datos.
Ejemplo. Una libreraqueofrecesusserviciosa travsdela redusael agrupamientopara
identificar grupos de clientes en basea sus preferenciasde compras que le permita dar un
servicio ms personalizado.As, cadavez que un cliente se interesapor un libro, el sistema
~III
identificaa qugrupo pertenece y le recomienda otroslibroscompradospor clientesde su
mismogrupo.
Las correlaciones son una tarea descriptiva que se usa para examinar el grado de similitud
11 de los valores de dos variables numricas. Una frmula estndar para medir la correlacin
lineal es el coeficiente de correlacin r, el cual es un valor real comprendido entre -1 y 1. Si
res 1 (respectivamente, -1) las variables estn perfectamente correlacionadas (perfectamen-
te correlacionadas negativamente), mientras que si es O no hay correlacin. Esto quiere
decir que cuando r es positivo, las variables tienen un comportamiento similar (ambas
crecen o decrecen al mismo tiempo) y cuando r es negativo si una variable crece la otra
decrece. El anlisis de correlaciones, sobre todo las negativas, puede ser muy til para
establecer reglas de items correlacionados, como se muestra en el siguiente ejemplo.
Ejemplo.Un inspectordeincendiosquedeseaobtenerinformacintil parala prevencin
de incendios probablementeest interesado en conocer correlaciones negativas entre el
empleodedistintosgrosoresdeproteccindel materialelctricoy lafrecuenciadeocurren-
ciadeincendios.
Las reglas de asociacin son tambin una tarea descriptiva, muy similar a las correlaciones,
que tiene como objetivo identificar relaciones no explcitas entre atributos categricos.
Pueden ser de muchas formas, aunque la formulacin ms comn es del estilo" si el
atributo X toma el valor d entonces el atributo Ytoma el valor b". Las reglas de asociacin
no implican una relacin causa-efecto, es decir, puede no existir una causa para que los
datos estn asociados. Este tipo de tarea se utiliza frecuentemente en el anlisis de la cesta
1
I

.....
Captulo 2. El procesode extraccin de conocimiento 27

de la compra, para identificar productos que son frecuentemente comprados juntos,


informacin esta qe puede usarse para ajustar los inventarios, para la organizacin fsica
del almacn o en campaas publicitarias. Las reglas se evalan usando dos parmetros:
precisin y soporte (cobertura)
Ejemplo. Una compaade asistencia sanitaria desea analizar las peticiones de servicios
mdicossolicitados por sus asegurados.Cada peticin contiene informacin sobre las
pruebasmdicasquefueron realizadasal pacientedurante una visita. Todaestainformacin
sealmacenaen una basede datos en la que cada peticin es un registro cuyos atributos
expresansi se realiza o no cada una de las posibles pruebas mdicas que pueden ser
realizadasa un paciente.Mediante reglas de asociacin,un sistema encontrara aquellas
pruebasmdicasquefrecuentementeserealizanjuntas, por ejemploque un 70 por ciento de
lasvecesquesepide un anlisis deorina tambinsesolicita uno desangre,y estoocurre en
dosdecadadiezpacientes.La precisin de estaregla esdel 70 por ciento y el soportedel 20
por ciento.
Un caso especial de reglas de asociacin, que recibe el nombre de reglas de asociacin
secuenciales, se usa para determinar patrones secuenciales en los datos. Estos patrones se
basan en secuenCias temporales de acciones y difieren de las reglas de asociacin en que las
relaciones entre los datos se basan en el tiempo.
Ejemplo. Una tienda de venta de electrodomsticosy equiposde audio analiza las ventas
queha efectuadousandoanlisis secuencialy descubreque el 30 por ciento de los clientes
quecompraronun televisorhaceseismesescompraron un DVD en los siguientesdosmeses.

2.4.2Tcnicas de minera de datos


Dado que la minera de datos es un campo muy interdisciplinar, como vimos en la Seccin
1.6,existen diferentes paradigmas detrs de las tcnicas utilizadas para esta fase: tcnicas
de inferencia estadstica, rboles de decisin, redes neuronales, induccin de reglas,
aprendizaje basado en instancias, algoritmos genticos, aprendizaje bayesiano, programa-
cin lgica inductiva y varios tipos de mtodos basados en ncleos, entre otros. Cada uno
de estos paradigmas incluye diferentes algoritmo s y variaciones de los mismos, as como
otro tipo de restricciones que hacen que la efectividad del algoritmo dependa del dominio
de aplicacin, no existiendo lo que podramos llamar el mtodo universal aplicable a todo
tipo de aplicacin.
A continuacin revisamos los aspectos principales de algunas de las tcnicas mencio-
nadas. Para un estudio ms detallado y profundo de paradigmas y algoritmo s, remitimos
al lector a la Parte III de este libro.
Existen muchos conceptos estadsticos que son la base de muchas tcnicas de minera
de datos. Ya hemos mencionado la regresin lineal, como un mtodo simple pero
frecuentemente utilizado para la tarea de regresin, como se muestra en la Figura 2.4.
En general, la frmula para una regresin lineal es y=Co+ CX+ o.. + CnXmdonde Xi son
los atributos predictores e y la salida (la variable dependiente). Si los atributos son
modificados en la funcin de regresin por alguna otra funcin (cuadrados, inversa,
logaritmos, combinaciones de variables...), es decir y=Co+ fi(x) + ... +f,,(xn), la regresin se
dice no lineal. Se pueden incorporar variantes locales o transformaciones en las variables
28 Introduccin a la Minera de Datos

predictoras y en la salida, permitiendo flexibilizar este tipo de tcnicas. El abanico de


tcnicas se dispara an ms cuando consideramos tcnicas no paramtricas.
Las tcnicas estadsticas no son slo tiles para regresin, sino que se utilizan tambin
para discriminacin (clasificacin o agrupamiento). La inferencia de funciones discriminantes
que separen clases o grupos, tambin se puede realizar de manera paramtrica o no
paramtrica. El mtodo ms conocido es el anlisis de discriminantes lineales de Fisher,
que se ver, junto con algunas otras tcnicas estadsticas, en los captulos 7 y 8.
Ventasde
Automviles
(miles)
14000.

13000

12000

12000

11000
1997 1998 1999 2000 2001 2002 2003 2004

Figura 2.4. Ejemplo de regresin lineal.

Algunas de las tcnicas de discriminantes no paramtricos tienen una relacin muy


estrecha con los mtodos basados en ncleo, de los cuales las mquinas de vectores
soporte son su ejemplo ms representativo, en el que se busca un discriminante lineal que
maximice la distancia a los ejemplos fronterizos de los distintos grupos o clases. Por
ejemplo, la Figura 2.5 muestra el uso de un clasificador para distinguir en una cooperativa
agrcola las naranjas que son aptas para consumo directo o para zumo (parte inferior
derecha) y cules se separan para conservas y procesos industriales (parte superior
izquierda), segn su dimetro y peso. Para ello se han etiquetado previamente en las dos
clases existentes un conjunto de muestras para los cuales se tena claro su uso en la
cooperativa.
. . . -
.- . . -
Dimetro I . .
. .
-..
Figura 2.5. Ejemplo de un discriminante
Peso
(clasificador) basado en vectores soporte.

En este caso, el discriminante lineal es muy fcil de encontrar. Lo interesante de estas


tcnicas es que, en problemas no lineales, este discriminante lineal tambin se puede
encontrar porque se utilizan ncleos para convertir el problema en un problema de mayor
dimensionalidad y porque se relajan ciertas condiciones, como veremos en el Captulo 14.
Captulo 2. El proceso de extraccin de conocimiento 29

En otras ocasiones, deseamos calcular, para una instancia dada sin clasificar, cul es la
probabilidad de que se le asigne cada una de las clases, y seleccionar la de mayor
probabilidad. sta es la idea que subyace en los mtodos bayesianos. Uno de los mtodos
ms utilizadoses el NaiveBayes,que se basa en la regla de Bayes y que "ingenuamente"
asume la independencia de los atributos dada la clase. Este mtodo funciona bRin con bases
de datos reales, sobre todo cuando se combina con otros procedimientos de seleccin de
atributos que sirven para eliminar la redundancia.
La regla de Bayes establece que, si tenemos una hiptesis H sustentada para una
evidenciaE, entonces:

p(H IE) = p(E


IH)'p(H)
p(E)
donde peA) representa la probabilidad del suceso A, usando la notacin peA lB) para denotar
la probabilidad del suceso A condicionada al suceso B.
Veamos cmo funciona con un ejemplo. Una compaa de seguros dispone de los
siguientes datos sobre sus clientes, clasificados en buenos y malos clientes (Tabla 2.1):
#Instancia edad hijos practica deporte salario buen cliente
1 joven s no alto s
2 joven no no medio no
3 joven s s medio no
4 joven s no bajo s
5 mayor s no bajo s
6 mayor no s medo s
7 joven no s medio s
8 joven s s alto s
9 mayor s no medio s
10 mayor no no bajo no
Tabla 2.1. Datos de una compaa de seguros.

Ahora supongamos que se tiene un nuevo ejemplo con los siguientes valores:
practica_deporte buen_cliente
no ?

La hiptesis H es que buen-cliente sea s (o, alternativamente, no). La evidencia E es una


combinacin de los valores de los atributos edad, hijos, practica_deporte y salario del dato
nuevo, por lo que su probabilidad se obtiene multiplicando las probabilidades de estos
valores. Es decir,
, [p(edadE Is). p(hijosE Is). p(practica - deporte E Is). p(salarioE Is)]. p(s)
p(SI lE) =
p(E)
El trmino p(edadElsZ) se calcula dividiendo el nmero de instancias de la Tabla 2.1 que
tienen el valor mayor en el atributo edad (de los que el buen-cliente es s) dividido por el
nmero de instancias cuyo valor del atributo buen-cliente es s, es decir, p(edadElsZ)=
p(mayorElst)=3/7. De igual forma obtenemos el resto de. probabilidades condicionadas en el
numerador de la ecuacin anterior. El trmino p(sz) se calcula como el nmero de instancias
de la Tabla 2.1 cuyo valor del atributo buen-cliente es s dividido por el nmero total de
30 Introduccin a la Minera de Datos

instancias, es decir p(sz) =7/10. Por ltimo, el denominador p(E) desaparece normalizando.
Sustituyendo todos estos valores se obtiene que la probabilidad de que se asigne el valor s
al atributo buen-clientedel dato E es
p(s IE) = 'ji.2j. )0 .'ji. Xo = 0,0210
Procediendo de igual forma para la clase no resulta p(noIE) = 0,0296, por lo que se asignar
el valor no al atributo buen-cliente del dato E. Los mtodos bayesianos se vern en el
Captulo 10.
Los rboles de decisin son una serie de decisiones o condiciones organizadas en
forma jerrquica, a modo de rbol. Son muy tiles para encontrar estructuras en espacios
de alta dimensionalidad y en problemas que mezclen datos categricos y numricos. Esta
tcnica se usa en tareas de clasificacin, agrupamiento y regresin. Los rboles de decisin
usados para predecir variables categricas 'reciben el nombre de rboles de clasificacin, ya
que distribuyen las instancias en clases. Cuando los rboles de decisin se usan para
predecir variables continuas se llaman rboles de regresin. Vamos a mostrar un ejemplo
de rbol de clasificacin. Para ello usaremos como ejemplo un tpico problema muy
utilizado en el aprendizaje automtico. Se trata de un conjunto de datos ficticio que
muestra las condiciones climatolgicas (pronstico, humedad y viento) adecuadas para
jugar un cierto deporte (por ejemplo, tenis en Wimbledon). Los datos de los que
disponemos son los siguientes:
#instancia pronstico humedad viento jugar
1 soleado alta dbil No
2 cubierto alta dbil S
3 lluvioso alta dbil S
4 lluvioso normal fuerte No
5 soleado normal dbil S
... ... ... .,. ...

Usando un algoritmo de aprendizaje de rboles de decisin podramos obtener el rbol que


se muestra en la Figura 2.6:
[JUGAR?]

Figura 2.6. rbol de decisin para determinar si se juega o no a un cierto deporte.

Los rboles de decisin siguen una aproximacin" divide y vencers" para partir el espacio
del problema en subconjuntos. Encima del nodo raz del rbol tenemos el problema a
resolver. En nuestro ejemplo, se trata de decidir si jugar o no. Los nodos internos (nodo s de

...
Captulo 2. El procesodeextraccindeconocimiento31

decisin) corresponden a particiones sobre atributos particulares, como por ejemplo


pronstico,y los arcos que emanan de un nodo corresponden a los posibles valores del
atributo considerado en ese nodo (por ejemplo, soleado, cubierto o lluvioso). Cada arco
conduce a otro nodo de decisin o a un nodo hoja. Los nodos hoja representan la
prediccin (o clase) del problema para todas aquellas instancias que alcanzan esa hoja. Para
clasificaruna instancia desconocida, se recorre el rbol de arriba hacia abajo de acuerdo a
los valores de los atributos probados en cada nodo y, cuando se llega a una hoja, la
instancia se clasifica con la clase indicada por esa hoja.
Existen muchos mtodos de rboles de decisin que difieren entre s en la forma de
crear el rbol. En el Captulo 11 se presenta esta tcnica en detalle.
Los rboles de decisin pueden considerase una forma de aprendizaje de reglas, ya que
cada rama del rbol puede interpretarse como una regla, donde los nodos internos en el
camino desde la raz a las hojas definen los trminos de la conjuncin que constituye el
antecedente de la regla, y la clase asignada en la hoja es el consecuente. La Figura 2.7
muestra el conjunto de reglas que corresponde al rbol de la Figura 2.6, en la que se han
agrupado en una regla por defecto ("EN OTRO CASO") todas las ramas del rbol cuya
hoja asigna la clase no.

SI pronstico=soleado Y humedad=normal ENTONCES jugar=s


SI pronstico=cubierto ENTONCES jugar=s
SI pronstico=lIuvioso Y viento=dbil ENTONCES jugar=s
EN OTRO CASO jugar=no.
Figura 2.7.Reglasparael rboldedecisinde la Figura 2.6.
En general, la induccin de reglas es un conjunto de mtodos para derivar un conjunto de
reglas comprensibles de la forma:
SI cond1Y cond2Y... Y condn ENTONCES pred.

El antecedente de la regla (la parte SI) contiene na conjuncin de n condiciones sobre los
valores de los atributos independientes, mientras que el consecuente de la regla (la parte
ENTONCES)contiene una prediccin sobre el valor de un atributo objetivo. La semntica
de este tipo de reglas de prediccin es: si se satisfacen todas las condiciones especificadas
en el antecedente de la regla para los atributos independientes de un registro de datos (una
instancia) entonces se predice que el atributo objetivo de este registro tendr el valor
especificadoen el consecuente de la regla.
Aunque los rboles de decisin pueden tambin producir un conjunto de reglas (tal y
como hemos visto anteriormente), los mtodos de induccin de reglas son diferentes ya
que:
. las reglas son independientes y no tienen por qu formar un rbol.
. las reglas generadas pueden no cubrir todas las situaciones posibles.
. las reglas pueden entrar en conflicto en sus predicciones; en este caso, es necesario
elegir qu regla se debe seguir. Un mtodo para resolver los conflictos consiste en
asignar un valor de confianza a las reglas y usar la que tenga mayor confianza.
32 Introduccin a la Minera de Datos

Algunos mtodos de obtencin de reglas, en especial para la tarea de reglas de asociacin,


se basan en el concepto de conjuntos de items frecuentes (frequent itemsets) y utilizan
tcnicas de con teo y soporte mnimo para obtener las reglas. Estos mtodos se vern en el
Captulo 9.
Las condiciones en el antecedente de las reglas pueden ser comparaciones entre un
atributo y uno de los valores de su dominio, o bien entre un par de atributos (siempre que
sean del mismo dominio o de dominios compatibles). Usando la terminologa de la lgica,
las expresiones del primer tipo forman condiciones proposicionales, mientras que las del
segundo tipo forman condiciones de primer orden. Por ejemplo, las expresiones
sueldo=60.000o gasto> ingreso son posibles condiciones proposicional y de primer orden,
respectivamente. En general, las condiciones en lgica de primer orden pueden contener
predicados ms complejos que las simples comparaciones. El propsito de la programacin
lgica inductiva (del ingls, lnductive Logic Programming, ILP) es permitir una representa-
cin ms rica que los mtodos proposicionales. Los mtodos ILP incorporan de forma
natural conocimiento de base y pueden usarse para descubrir patrones que afecten a varias
relaciones. Estos mtodos se vern en el Captulo 12.
Las redes neuronales artificiales son todo un paradigma de computacin muy potente
que permite modelizar problemas complejos en los que puede haber interacciones no
lineales entre variables. Como los rboles de decisin, las redes neuronales pueden usarse
en problemas de clasificacin, de regresin y de agrupamiento. Las redes neuronales
trabajan directamente con datos numricos. Para usarlas con datos nominales stos deben
numerizarse primero.
Una red neuronal puede verse como un grafo dirigido con muchos nodos (elementos
del proceso) y arcos entre ellos (sus interconexiones). Cada uno de estos elementos
funciona independientemente de los dems, usando datos locales (la entrada y la salida del
nodo) para dirigir su procesamiento.
pronstico

si / no

Figura 2.8. Red neuronal para el problema de jugar un cierto deporte.

La organizacin ms popular de una red neuronal consta de una capa de entrada, en la que
cada nodo corresponde a una variable independiente a examinar, unos nodos internos
organizados en una o varias capas ocultas y una capa de salida con los nodos de salida (los
Captulo 2. El procesodeextraccindeconocimiento33

posibles valores de las variables objetivo). Cada nodo de la capa de entrada est conectado
a cada nodo de la capa oculta. Los nadas de la capa oculta pueden estar conectados a nadas
de otra capa oculta o a los nadas de la capa de salida. Cada arco est etiquetado por un
peso de conexin (w) y en cada nodo hay una funcin de activacin que indica el efecto de
ese nodo sobre los datos que entran en l. Para usar una red neuronal ya entrenada se
introducen los valores de los atributos de una instancia en los nadas de entrada y los nadas
de salida determinan la prediccin para dicha instancia.
Veamos de forma simplificada cmo funciona una red neuronal sobre el problema de
determinar si se juega o no (Figura 2.8). Lo primero es determinar la estructura del grafo.
Dado que hay tres atributos independientes (pronstico,humedad y viento) vamos a asumir
que en la capa de entrada hay tres nadas (en la figura etiquetados como 1, 2 Y 3). Como el
objetivoes efectuar una clasificacin de un solo valor, la clase "s" (la clase "no" se entiende
comola negacin de la clase "s", por lo que no se incluye en la capa de salida), la capa de
salida constar de un nodo (en la figura, nodo 7). Finalmente, asumiremos que existe una
nica capa oculta (el nmero de capas ocultas de una red neuronal no es fcil de
determinar) y arbitrariamente consideramos que contiene tres nadas (en la figura, nadas 4,
5 Y6).Todos los arcos estn etiquetados con pesos wij,que indican el peso entre los nadas i
y j, y cada nodo i tiene asociada una funcin de activacin Ji. Durante el proceso, las
funciones y los pesos actan sobre las entradas de los nadas. As, por ejemplo, dada una
tupla de entrada (pronstico,humedad,viento) con los valores de los tres atributos de entrada,
la salida del nodo 1 serafi(pronstico), la del nodo 2 seraJ2(humedad) y la del 3 sera
h( viento).Similarmente, la salida del nodo 4 sera J4(W14 fi (pronstico)+w2J2(humedad)+w34
h(viento)).y as sucesivamente.
Los pesos de conexin son parmetros desconocidos que deben estimarse por un
mtodo de entrenamiento. El mtodo ms comnmente utilizado es el de propagacin
hacia atrs (backpropagation). La idea bsica es reducir el valor de error de la salida de la red.
Las redes neuronales tienen una gran capacidad de generalizacin para problemas no
lineales,aunque requieren bastantes datos para su entrenamiento. Su mayor desventaja es,
no obstante, que el modelo aprendido es difcilmente comprensible. Para una descripcin
detallada sobre las redes neuronales remitimos al lector al Captulo 13 de este libro.
En el aprendizaje basado en instancias o casos, las instancias se almacenan en memo-
ria, de tal forma que cuando llega una nueva instancia cuyo valor es desconocido se intenta
relacionarsta con las instancias almacenadas (cuya clase o valor es conocida) buscando las
que ms se parecen, con el objetivo de usar los valores de estas instancias similiares para
estimar los valores a obtener de la nueva instancia en cuestin. Por lo tanto, ms que
intentar crear reglas, se trabaja directamente con los ejemplos.
Todo el trabajo en el aprendizaje basado en instancias se hace cuando llega una
instancia a clasificar y no cuando se procesa el conjunto de entrenamiento. En este sentido
se trata de un mtodo retardado o perezoso, ya que retrasa el trabajo real tanto como sea
posible, a diferencia de los otros mtodos vistos hasta el momento que tienen un
comportamiento anticipativo o voraz, produciendo generalizaciones en cuanto reciben los
datos de entrenamiento.
En el aprendizaje basado en instancias, cada nueva instancia se compara con las
existentesusando una mtrica de distancia, y la instancia ms prxima se usa para asignar
34 Introduccin a la Minera de Datos

su clase a la instancia nueva. La variante ms sencilla de este mtodo de clasificacin es


conocido como "el vecino ms prximo" (nearest-neighbor).Otra variante, conocida como el
mtodo de los "k vecinos ms prximos" (k-nearest-neighbors),usa los k vecinos ms
prximos, en cuyo caso la clase mayoritaria de estos k vecinos se asigna a la nueva instancia.
En la Figura 2.9 se observa que a la nueva instancia N se le ha de asignar la clase a ya que,
entre los vecinos ms prximos (marcados con un crculo), hay ms instancias de la clase a
que de la b.
b b
b
a
a a a
b
a b
a a

a
N a
a
a a
a
a
b a

Figura 2.9. K-vecinos ms prximos.

El aprendizaje basado en instancias es muy til para trabajar sobre tipos de datos no
estndar, como los textos o multimedia. El nico requerimiento para incluir un tipo de
datos es la existencia de una mtrica apropiada de distancia para formalizar el concepto de
similitud.
Calcular la distancia entre dos ejemplos o instancias es trivial cuando tienen un atributo
numrico: basta con calcular la diferencia entre sus valores. Cuando hay varios atributos
numricos se puede usar la distancia eucldea, asumiendo que los atributos estn
normalizados y que son de igual importancia. Estas suposiciones no siempre se
corresponden con la realidad y existen variantes que ponderan ms los atributos
importantes, as como otras mtricas de distancia que veremos en el Captulo 16.
Los atributos nominales deben tratarse de forma especial definiendo "distancias" entre
los diferentes valores. Normalmente, se asigna una distancia Osi los valores son idnticos,
y una distancia de 1 en cualquier otro caso. As, la distancia entre joven y joven es O,
mientras que la distancia entre joven y adulto es de 1. En algunos casos es conveniente usar
medidas ms sofisticadas. Por ejemplo, podramos usar una medida que estableciera que
joven es ms prximo a adulto que a mayor. Finalmente, algunos atributos son ms
importantes que otros, lo cual puede reflejarse en la mtrica a travs de pesos.
Los algoritmo s evolutivos son mtodos de bsqueda colectiva en el espacio de
soluciones. Dada una poblacin de potenciales soluciones a un problema, la computacin
evolutiva expande esta poblacin con nuevas y mejores soluciones. El nombre se debe a
que siguen los patrones de la evolucin biolgica. Los cromosomas proporcionan la
representacin o codificacin de un individuo. Parte de los cromosomas, los genes, se usan
para definir diferentes rasgos del individuo. Durante la reproduccin (cruce) los genes de
los padres se combinan para producir los genes de los hijos. La poblacin va mejorando de
generacin en generacin, porque los individuos que representan las soluciones ms
adecuadas al problema tienen ms posibilidades de sobrevivir.

11
Captulo 2. El procesode extraccin de conocimiento 35

En la minera de datos, los algoritmos genticos se pueden usar para el agrupamiento,


la clasificacin y las reglas de asociacin, as como para la seleccin de atribtuos. En
cualquiera de estos casos, se comienza con un modelo o solucin inicial y, a travs de
mltiples iteraciones, los modelos se combinan par crear nuevos modelos. Para ello, se
usa una funcin de adaptacin o de optimalidad (fttness function), que selecciona los
mejores modelos que sobrevivirn o sern cruzados. Los distintos algoritmos genticos
difieren en la forma en que se representan los modelos, cmo se combinan los individuos
en el modelo, si existen mutaciones y cmo son stas, y cmo se usa la funcin de
adaptacin.
Los algoritmos genticos tambin pueden usarse para guiar a otros algoritmos de
minera de datos en el proceso de aprendizaje. As, por ejemplo, en las redes neuronales los
algoritmos genticos pueden usarse como un medio para ajustar los pesos reemplazando a
la propagacin hacia atrs. En este caso, los cromosomas contienen la informacin de los
pesos. Los algoritmo s genticos, as como el uso de la lgica difusa en el aprendizaje, se ven
en el Captulo 15.

2.4.3Construccin del modelo


Es en la construccin del modelo donde vemos mejor el carcter iterativo del proceso de
KDD, ya que ser necesario explorar modelos alternativos hasta encontrar aquel que
resulte ms til para resolver nuestro problema. As, una vez obtenido un modelo y a
partir de los resultados obtenidos para el mismo, podramos querer construir otro modelo
usando la misma tcnica pero otros parmetros, o quizs usar otras tcnicas o herramientas.
En esta bsqueda del "buen modelo" puede que tengamos que retroceder hasta fases
anteriores y hacer cambios en los datos que estamos usando o incluso modificar la
definicin del problema. Es ms, la eleccin de la tarea a realizar y del algoritmo a usar
puede influir en la preparacin de los datos (por ejemplo, un determinado algoritmo o
tcnicapuede requerir que los datos se presenten en un formato determinado).
El proceso de construccin de modelos predictivos requiere tener bien definidas las
etapas de entrenamiento y validacin para asegurar que las predicciones sern robustas y
precisas. La idea bsica es estimar (o entreLlar) el modelo con una porcin de los datos
(trainingdataset)y luego validado con el resto de los datos (test dataset), como pasamos a
ver en la seccin siguiente.

2.5Fase de evaluacin e interpretacin


Medir la calidad de los patrones descubiertos por un algoritmo de minera de datos no es
un problema trivial, ya que esta medida puede ataer a varios criterios, algunos de ellos
bastante subjetivos. Idealmente, los patrones descubiertos deben tener tres cualidades: ser
precisos,comprensible s (es decir, inteligibles) e interesantes (tiles y novedosos). Segn las
aplicacionespuede interesar mejorar algn criterio y sacrificar ligeramente otro, como en el
caso del diagnstico mdico que prefiere patrones comprensibles aunque su precisin no
sea muy buena.
-
36 Introduccin a la Minera de Datos

2.5.1 Tcnicas de evaluacin


Tal y como hemos dicho en el apartado anterior, para entrenar y probar un modelo se
parten los datos en dos conjuntos: el conjunto de entrenamiento (tranng set) y el conjunto
de prueba o de test (test set). Esta separacin es necesaria para garantizar que la validacin
de la precisin del modelo es una medida independiente 2. Si no se usan conjuntos
diferentes de entrenamiento y prueba, la precisin del modelo ser sobreestimada, es decir,
tendremos estimaciones muy optimistas.
En los modelos predictivos, el uso de esta separacin entre entrenamiento y prueba es
fcil de interpretar. Por ejemplo, para una tarea de clasificacin, despus de generar el
modelo con el conjunto de entrenamiento, ste se puede usar para predecir la clase de los
datos de prueba (test).Entonces, la razn de precisin (o simplemente precisin), se obtiene
dividiendo el nmero de clasificaciones correctas por el nmero total de instancias. La
precisin es una buena estimacin de cmo se comportar el modelo para datos futuros
similares a los de test. Esta forma de proceder no garantiza que el modelo sea correcto, sino
que simplemente indica que si usamos la misma tcnica con una base de datos con datos
similares a los de prueba, la precisin media ser bastante parecida a la obtenida con stos.
El mtodo de evaluacin ms bsico, la validacin simple, reserva un porcentaje de la
base de datos como conjunto de prueba, y no lo usa para construir el modelo. Este
porcentaje suele variar entre el cinco por ciento y el 50 por ciento. La divisin de los datos
en estos dos grupos debe ser aleatoria para que la estimacin sea correcta.
Si tenemos una cantidad no muy elevada de datos para construir el modelo, puede que
no podamos permitimos el lujo de reservar parte de los mismos para la etapa de
evaluacin. En estos casos se usa un mtodo conocido como validacin cruzada (cross
valdaton).Los datos se dividen aleatoriamente en dos conjuntos equitativos con los que se
estima la precisin predictiva del modelo. Para ello, primero se construye un modelo con el
primer conjunto y se usa para predecir los resultados en el segundo conjunto y calcular as
un ratio de error (o de precisin). A continuacin, se construye un modelo con el segundo
conjunto y se usa para predecir los resultados del primer conjunto, obtenindose un
segundo ratio de error. Finalmente, se construye un modelo con todos los datos, se calcula
un promedio de los ratios de error y se usa para estimar mejor su precisin.
El mtodo que se usa normalmente es la validacin cruzada con n pliegues (n-foldcross
valdaton). En este mtodo los datos se dividen aleatoriamente en n grupos. Un grupo se
reserva para el conjunto de prueba y con los otros n-l restantes (juntando todos sus datos)
se construye un modelo y se usa para predecir el resultado de los datos del grupo
reservado. Este proceso se repite n veces, dejando cada vez un grupo diferente para la
prueba. Esto significa que se calculan n ratios de error independientes. Finalmente, se
construye un modelo con todos los datos y se obtienen sus ratios de error y precisin
promediando las n ratios de error disponibles.

2 Algunos algoritmos de aprendizaje utilizan internamente un tercer conjunto que extraen del conjunto de
aprendizaje, denominado conjunto de validacin (validatian dataset), para refinar el modelo o elegir entre
posibles modelos antes de la salida final del algoritmo. No hemos de confundir esta pre-validacin o
evaluacin interna con la verdadera evaluacin y, por tanto, el conjunto de validacin con el conjunto de
test.

....
Captulo 2. El proceso de extraccin de conocimiento 37

Otra tcnica para estimar el error de un modelo cuando se disponen de pocos datos es
la conocida como bootstrapping. sta consiste en construir primero un modelo con todos
los datos iniciales. Entonces, se crean numerosos conjuntos de datos, llamados bootstrap
samples,haciendo un muestreo de los datos originales con reemplazo, es decir, se van
seleccionando instancias del conjunto inicial, pudiendo seleccionar la misma instancia
varias veces. Ntese que los conjuntos construidos de esta forma pueden contener datos
repetidos. A continuacin se construye un modelo con cada conjunto y se calcula su ratio
de error sobre el conjunto de test (que son los datos sobrantes de cada muestreo). El error
final estimado para el modelo construido con todos los datos se calcula pro mediando los
errores obtenidos para cada muestra. Esta tcnica se ver con ms detalle en el Captulo 17.

2.5.2Medidas de evaluacin de modelos


Dependiendo de la tarea de minera de datos existen diferentes medidas de evaluacin de
los modelos. Por ejemplo, en el contexto de la clasificacin, lo normal es evaluar la calidad
de los patrones encontrados con respecto a su precisinpredictiva, la cual se calcula como el
nmero de instancias del conjunto de prueba clasificadas correctamente dividido por el
nmero de instancias totales en el conjunto de prueba. Tal y como hemos indicado en la
seccinanterior, el objetivo es obtener la mayor precisin posible sobre el conjunto de test,
ya que obtener un 100 por cien de precisin sobre el conjunto de entrenamiento es trivial,
bastara con generar una regla para cada instancia usando una conjuncin de sus variables-
valores como antecedente de la regla (parte "SI") y el valor a predecir como consecuente
(parte "ENTONCES"). Por ejemplo, para la cuarta instancia del ejemplo de la Tabla 2.1 de
la pgina 29podramos generar una regla como:
SI #instancia=4 Y edad=joven Y hijos=s Y practica_deporte=no Y salario=bajo
ENTONCES buen_cliente=s

O incluso,usando slo algn atributo que pueda servir como clave primaria, por ejemplo:
SI #instancia=4 ENTONCES buen_cIiente=s

Si procedemos de igual forma para todas las instancias tendremos un 100 por cien de
precisin predictiva respecto al conjunto de entrenamiento (ya que tendremos una regla
por cada ejemplo). Sin embargo, su precisin con respecto a un conjunto de test que
contenga instancias diferentes de las de entrenamiento ser baja.
En el caso de que la tarea sea de reglas de asociacin, se suele evaluar de forma
separada cada una de las reglas con objeto de restringimos a aquellas que pueden aplicarse
a un mayor nmero de instancias y que tienen una precisin relativamente alta sobre estas
instancias. Esto se hace en base a dos conceptos:
. Cobertura (tambin referida como soporte): nmero de instancias a las que la regla se
aplica y predice correctamente.
. Confianza: proporcin de instancias que la regla predice correctamente, es decir, la
cobertura dividida por el nmero de instancias a las que se puede aplicar la regla.
Siguiendo con el ejemplo de determinar si se juega a un deporte, consideremos:
38 Introduccin a la Mineria de Datos

#Instancia Pronstico Humedad Viento Jugar


1 soleado alta dbil no
2 cubierto alta dbil s
3 lluvioso alta dbil s
4 lluvioso normal fuerte no
5 soleado normal dbil s

que son los mismos datos vistos anteriormente. Entonces, la regla

SI pronstico=soleado Y viento=dbil ENTONCES jugar=s

tendr una cobertura de 1, es decir, el nmero de das soleados y con viento dbil en los
que se recomienda jugar (instancia 5); y una confianza de 1/2 (ya que la regla tambin se
puede aplicar a la instancia 1).
Si la tarea es regresin, es decir, la salida del modelo es un valor numrico, la manera
ms habitual de evaluar un modelo es mediante el error cuadrtico medio del valor
predicho respecto al valor que se utiliza como validacin. Esto promedia los errores y tiene
ms en cuenta aquellos errores que se desvan ms del valor predicho (ponderacin
cuadrtica). Aunque se pueden utilizar otras medidas del error en regresin, sta es quiz
la ms utilizada.
Para la tarea de agrupamiento, las medidas de evaluacin suelen depender del mtodo
utilizado, aunque suelen ser funcin de la cohesin de cada grupo y de la separacin entre
grupos. La cohesin y separacin entre grupos se puede formalizar, por ejemplo, utilizando
la distancia media al centro del grupo de los miembros de un grupo y la distancia media
entre grupos, respectivamente. El concepto de distancia y de densidad son dos aspectos
cruciales tanto en la construccin de modelos de agrupamiento como en su evaluacin.
Adems de las medidas comentadas, existen otras medidas ms subjetivas, como el
inters, la novedad, la simplicidad o la comprensibilidad que sern tratadas en el punto
17.8.

2.5.3 Interpretacin y contextualizacin


Pese a todas las medidas vistas anteriormente, en muchos casos hay que evaluar tambin el
contexto donde el modelo se va a utilizar. Por ejemplo, en el caso de la clasificacin y las
reglas de asociacin, usar la precisin como medida de calidad tiene ciertas desventajas. En
primer lugar, no tiene en cuenta el problema de tener distribuciones de clases no
balanceadas, es decir, tener muchas instancias de unas clases y muy pocas o ninguna de
otras. Esta situacin es habitual en la deteccin de fraudes y en el diagnstico mdico. Un
simple ejemplo puede ilustrar este punto. El servicio de urgencias de un hospital desea
mejorar su sistema de admisin usando tcnicas de aprendizaje inductivo. Cuando un
paciente acude a las urgencias, una vez evaluado y realizadas las primeras atenciones, se
pueden dar tres posibles situaciones que dependen de su estado: ser dado de alta,
permanecer hospitalizado en observacin o ser ingresado en la UCI (Unidad de Cuidados
Intensivos). El porcentaje de casos de cada una de estas tres clases es, por ejemplo, del 86,5
por ciento, 13 por ciento y 0,5 por ciento respectivamente. Usando un algoritmo de minera
sobre los datos referentes a pacientes pasados podramos obtener un modelo que siempre
diera de alta a todos los pacientes. En trminos de precisin, ste sera un buen modelo ya
Captulo 2. El procesode extraccin de conocimiento 39

que su precisin sera del 86,5 por ciento. Sin embargo, este modelo es intil. Ms
importante todava, puede ser peligroso ya que pacientes cuyas condiciones de salud
requeriran un ingreso en la VCI seran enviados a sus casas, lo cual es una poltica
desastrosa para el hospital.
El ejemplo anterior pone de manifiesto que necesitamos conocer mejor el tipo de
errores y su coste asociado. En los problemas de clasificacin se usa una matriz de
confusin, la cual muestra el recuento de casos de las clases predichas y sus valores
actuales. Si se dispone de informacin sobre el coste de cada error/acierto en la clasificacin,
entonces las celdas de la matriz pueden asociarse con el coste de cometer un cierto error de
clasificacin o de efectuar una clasificacin correcta. En este caso, la matriz suele
denominarse matriz de costes de clasificacin. Con estas dos matrices podemos evaluar los
modelos con sus costes de error de clasificacin y, por ejemplo, buscar un modelo que
minimice el coste global. Veremos ejemplos de matrices de confusin y de costes en el
Captulo 17
La consideracin de que todos los errores no son iguales puede incluso tenerse en
cuenta en situaciones donde los costes de error suelen ser difciles de estimar o incluso
desconocidos para muchas aplicaciones. En estos casos, se usan estrategias alternativas
como el anlisis Roe (Receiver Operating Characteristic) que tambin veremos en el
Captulo 17.
Como hemos dicho anteriormente, la precisin de un modelo no garantiza que refleje el
mundo real. Normalmente, esta situacin se produce cuando al construir el modelo no
hemos tenido en cuenta algunos parmetros que implcitamente influyen en l. Por ejemplo,
un modelo para predecir el gasto energtico de una poblacin puede fallar al no haber
considerado que un perodo de recesin econmica mundial puede implicar subidas
considerables en el precio del petrleo, lo que condiciona el gasto que de esta fuente de
energahace la poblacin.
En cualquier caso deberemos contrastar el conocimiento que ste nos proporciona con
el conocimiento previo que pudiramos tener sobre el problema para detectar y en su caso
resolverlos posibles conflictos.

2.6 Fase de difusin, uso y monitorizacin


Una vez construido y validado el modelo puede usarse principalmente con dos finalidades:
para que un analista recomiende acciones basndose en el modelo y en sus resultados, o
bien para aplicar el modelo a diferentes conjuntos de datos. Tambin puede incorporarse a
otras aplicaciones, como por ejemplo a un sistema de anlisis de crditos bancarios, que
asista al empleado bancario a la hora de evaluar a los solicitantes de los crditos, o incluso
automticamente,como los filtros de spam o la deteccinde compras con tarjetas de crdito
fraudulentas.
Tanto en el caso de una aplicacin manual o automtica del modelo, es necesario su
difusin, es decir que se distribuya y se comunique a los posibles usuarios, ya sea por
cauceshabituales dentro de la organizacin, reuniones, intranet, etc. El nuevo conocimien-
to extrado debe integrar el know-how de la organizacin.
Tambin es importante medir lo bien que el modelo evoluciona. Aun cuando el modelo 1111

funcione bien debemos continuamente comprobar las prestaciones del mismo. Esto se debe
40 Introduccin a la Minera de Datos

principalmente a que los patrones pueden cambiar. Por ejemplo, todos los vendedores
saben que las ventas se ven afectadas por factores externos como la tasa de inflacin, la cual
altera el comportamiento de compra de la gente. Por lo tanto, el modelo deber ser
monitorizado, lo que significa que de tiempo en tiempo el modelo tendr que ser re-
evaluado, re-entrenado y posiblemente reconstruido completamente.

Vous aimerez peut-être aussi