Vous êtes sur la page 1sur 19

Captulo 19

INTERPRETACIN, DIFUSIN
y USO DE MODELOS

Lageneral
fase de minera de datos construye un conjunto de modelos que explican de manera
los datos de entrenamiento. Normalmente, incluso despus de la evaluacin y
validacinpertinentes los modelos aprendidos no se pueden utilizar directamente, sino
quenecesitan una fase de refinamiento que permita concretar cul es el conocimiento que
aportany, en esa situacin, cmo se puede utilizar en la toma de decisin final. Este
captulose centra en la transformacin, difusin y aplicacin de los modelos generados
comoresultado de la fase de aprendizaje, dentro del proceso de extraccin de conocimiento.
En este captulo veremos cmo extraer reglas comprensibles a partir de modelos no
comprensibles,cmo exportados en formato estndar, como es el PMML, para integrados
enotrossistemas y aplicaciones, cmo se integran los modelos en la toma de decisiones, y
eldiseode campaas. Finalmente veremos brevemente el problema de la actualizacin de
modelosy de su uso para simulacin.

19.1 Introduccin
Enel Captulo 2 introdujimos el proceso de la extraccin de conocimiento, presentando
paraello,cada una de las fases de este proceso. En este proceso, seguramente la fase ms
importantees la correspondiente a la de minera de datos, fase en la que realmente se
produce el descubrimiento o extraccin de los patrones existentes en los datos. Sin
embargo,la realizacin de una buena fase de minera de datos puede ser intil si no se
aplicancorrectamente las dos siguientes fases: la fase de evaluacin / interpretacin y la
fasede difusin / uso.
La fase de evaluacin / interpretacin (vista en el Captulo 17) se encarga de medir la
calidadde los modelos aprendidos, as como de introducir tcnicas, como por ejemplo la
504 Introduccin a la Minera de Datos

visualizacin de modelos, o visualizacin posterior, que permitan interpretar a los usuarios


finales el conocimiento que aportan los modelos aprendidos.
La ltima fase se denomina fase de difusin / uso, y tiene como fin el empleo de forma
correcta del modelo aprendido en el contexto de la aplicacin real y de los usuarios para los
cuales se inici el proceso de extraccin de conocimiento.
En este captulo introducimos varios conceptos que tienen que ver con estas fases del
proceso de la extraccin de conocimiento desde bases de datos. Vamos a discutir
principalmente aspectos relacionados con el uso de modelos en situaciones reales: diseo
de campaas de mrketing, estndares de intercambio o representacin de informacin,
integracin con sistemas de ayuda a la toma de decisiones, etc. Para ello intentaremos
tomar un enfoque eminentemente prctico, dadas las caractersticas propias de esta fase
donde en muchas ocasiones, son los propios usuarios quienes tienen un papel importante o
incluso deben realizar estas tareas.

19.2 Extraccin de reglas comprensibles


Las tcnicas de minera de datos producen modelos que son capaces de explicar los datos
de entrenamiento, y al mismo tiempo aprender patrones generales desde los datos, de
manera que pueden predecir futuros casos. Sin embargo, muchas tcnicas producen unos
modelos cuya complejidad es tan alta o su representacin tan crptica, que se interpretan
como cajas negras, dado que es prcticamente imposible conocer el comportamiento
interno. Ejemplos de estas tcnicas son las redes neuronales o las mquinas de vectores de
soporte.
La comprensibilidad es, en muchos contextos, condicin necesaria. Por ejemplo,
podemos aprender un modelo que sea capaz de diagnosticar alguna enfermedad en un
paciente a partir de los datos del resultado de su anlisis de sangre, utilizando para ellolas
experiencias de otros pacientes. Sin embargo, en los diagnsticos es siempre el mdico
quien tiene la ltima palabra. Para que el sistema sea til para el mdico, es necesario que
ste pueda comprender las razones que utiliza el sistema para determinar qu patologa
tiene un paciente.
En realidad la comprensibilidad es un factor subjetivo, ya que depende en gran modo
de la experiencia y conocimiento de los usuarios de los modelos. Los sistemas de reglas son
considerados como una de las representaciones que permiten comprender ms fcilmente
el comportamiento de un modelo. Adems, tienen la ventaja de que las reglas se expresan
utilizando los propios atributos del problema directamente. Aun as, es necesario
considerar que un modelo formado por un nmero elevado de reglas, y cada una de ellas
con multitud de atributos, puede ser ms enrevesado que una pequea red neuronal. Porlo
tanto, tambin es necesario tener en cuenta el tamao de los modelos cuando la
comprensibilidad de los modelos es un factor determinante.
El problema de la prdida de comprensibilidad afecta tambin a los mtodos multi-
clasificadores o a los mtodos hbridos. Estos mtodos (vistos en el Captulo 18) combinan
o fusionan diferentes tcnicas de aprendizaje con el fin de incrementar la precisin de los
modelos aprendidos.
Por lo tanto, la comprensibilidad no puede ser obviada a la hora de elegir los mtodos
de minera de datos. En el caso de que este factor sea importante, se deben seleccionar
Captulo 19. Interpretacin, difusin y uso de modelos 505

mtodos de aprendizaje de reglas (reglas de decisin, ILP), o equivalentemente, mtodos


que aprendan modelos que puedan ser expresados como reglas (rboles de decisin,
mtodos difusos). Tambin los modelos estadsticos simples (por ejemplo la regresin
lineal) suelen ser bastante comprensibles. En todo caso, es tambin importante incluir
tcnicasque permitan reducir la complejidad de los modelos como por ejemplo podar
reglaso filtrar atributos no relevantes.
Existen casos en los cuales los mtodos de aprendizaje basados en reglas no son
capaces de aprender modelos con los requisitos requeridos (precisin, tiempo de
aprendizaje...). Para estos casos, se puede utilizar la siguiente estrategia: aprender un
modelo con el mtodo de aprendizaje que obtenga los mejores resultados, y entonces
intentar modelar el comportamiento del modelo con un conjunto de reglas. A esta
estrategiase le llama extraccin de reglas comprensibles.
La extraccin de reglas comprensibles se ha utilizado fundamentalmente desde redes
neuronales.Por ejemplo, el sistema TREPAN [Craven 1996] construye un rbol de decisin
basndose en una red neuronal. Para ello utiliza un criterio de particin basado en la
fidelidadcon respecto a la red neuronal, un criterio de parada especial y consultas a la red
neuronal.
Otra estrategia que permite capturar el comportamiento de un modelo no comprensible
enun conjunto de reglas es el mtodo CMM (CombinedMultipled Models). La descripcin de
estemtodo puede encontrarse en [Domingos 1997]. Esta tcnica es simple y general, ya
que se puede aplicar a cualquier tipo de modelo independientemente del mtodo de
aprendizajeque se haya empleado. Dado un modelo no comprensible A, la idea consiste en
utilizarun conjunto de ejemplos sin clase (o no etiquetados) generados aleatoriamente, que
sonetiquetados con el modelo A de manera que reflejan o capturan su comportamiento.
Cuantomayor sea el tamao del conjunto de ejemplos mejor se plasmar el comportamien-
to del modelo. A partir de este conjunto de ejemplos podemos utilizar un algoritmo de
aprendizaje que genere un meta-modelo comprensible B, de manera que tendr una
semnticasimilar a la del modelo A no comprensible. Probablemente, y debido al propio I
hechode que utilizar reglas limita el poder de representacin, el nuevo meta-modelo B
1
obtendruna precisin ligeramente inferior al modelo original B. Podemos ver un esquema
delmtodo en la Figura 19.1. I.
Generar el conjunto de datos de manera aleatoria tiene la ventaja (si el problema no lo
limita)de poder tener tantos componentes como se desee. No obstante, es importante que 1
il
para la generacin de los ejemplos aleatorios se conserve la distribucin original de los
datos de entrenamiento, ya que muchas tcnicas de aprendizaje son bastante sensibles a
cambiosen la distribucin en los datos. Por otra parte, se debe tambin utilizar el conjunto
dedatos de entrenamiento junto con el conjunto de datos inventado para aprender el meta-
modelo,ya que no olvidemos que es la nica referencia que se posee del problema real. 1

En [Domingos 1997] se estudia experimentalmente este algoritmo en 26 datasets,


utilizando bagging como mtodo de aprendizaje no comprensible, y C4.5 como mtodo 1
dondeaplicar bagging,y posteriormente, para aprender el meta-modelo comprensible. Los 1
resultadosdemuestran que CMM es capaz de retener el 60 por ciento de la mejora obtenida 1
por bagging con respecto a C4.5. Referente a la comprensibilidad (medida\ usando el
nmero de atributos y reglas) CMM obtiene modelos que son de do~ a seis veces ms
complejosque los modelos aprendidos con C4.5. .
506 Introduccin a la Minera de Datos

Incomprensible
Primer
Datos de
entrenamiento

'"
..
.'
Modelo

.'(~~~~lo)
"1"'.
1\ '.
/
Primera Fase
~ Similar
semntcamente

comprensible

..
..
., Distribucin

..
Conjuntos de Primer ...
datos aleatorios modelo ...
sin etiquetar (Orculo) ...
. . , ..
.'" -. '. ..
A
...

Figura19.1.Esquemadel mtodoCMM.
Una ventaja muy importante de este mtodo es que se puede implementar de manera
sencilla. Incluso se puede realizar utilizando las interfaces o componentes que suministran
algunos de los paquetes de minera de datos. Por ejemplo, podemos utilizar la tcnica
CMM para extraer un conjunto de reglas comprensibles utilizando para ello el paquete
Clementine. Para un ejemplo del uso de esta tcnica en Clementine, se puede consultar
[Estruch et al. 2003a].

19.3 Visualizacin posterior


La tarea de minera de datos produce una serie de modelos cuya fcil interpretacin por
parte del usuario, tal y como hemos comentado en la seccin anterior, es clave para el xito
final del proceso de extraccin de conocimiento desde bases de datos. Con este fin, se han
definido diferentes mtodos y tcnicas que permiten la visualizacin de los resultados de la
etapa de aprendizaje. La visualizacin de modelos permite que los usuarios puedan
identificar fcilmente y de manera directa los patrones ms significativos que ha
descubierto el modelo. Tambin permiten representar los modelos junto a los datos.
Asimismo, muchos de los mtodos de visualizacin permiten que los propios usuarios
modifiquen los modelos para refinados o adaptados segn su conocimiento o circunstan-
cias del mbito de aplicacin.
Gran parte de los mtodos de minera de datos producen modelos que pueden ser
expresados con lenguaje natural o bien mediante expresiones matemticas. Sin embargo,
dado que una representacin grfica permite, por lo general, una mejor interpretacin y
comprensin por parte de los seres humanos, se han estudiado diferentes representaciones
visuales de modelos resultantes de fases de aprendizaje. En concreto, se han definido
representaciones grficas para (entre otros) rboles de decisin, reglas de asociacin y redes
bayesianas. En otros casos, en especial si slo hay dos o tres dimensiones, se pueden
mostrar los patrones sobre los mismos datos originales, como hemos visto en muchas
figuras de la Parte III de este libro
Captulo 19. Interpretacin, difusin y uso de modelos 507

Figura 19.2. Visualizacin del rbol de decisin en MLC ++ mediante la herramienta MineSet.

Losrboles de decisin son, seguramente, los modelos que permiten una representacin
visualms clara gracias a la propia estructura en rbol de los modelos. Un rbol de
decisinpuede verse como un grafo parcialmente ordenado donde los nodos slo tienen
un padre. Dado que un rbol puede ser de gran tamao, muchas herramientas permiten
mostrarsegmentos parciales del rbol, empezando por las ramas superiores, y desplegar
laspartes que el usuario seleccione hasta llegar hasta las hojas. La Figura 19.2 muestra el
rbolde decisin que genera la herramienta Mineset (vase el Apndice A).
Las redes bayesianas representan el conocimiento cualitativo de un modelo mediante
un grafo dirigido acclico, por lo que su representacin grfica es directa. El grafo expresa
lasrelacionesde dependencia/independencia entre los diferentes atributos de un problema.
Enel Captulo 10 se trata con detenimiento las redes bayesianas. Un ejemplo de una red
bayesianapara los datos del archivo "Ingresos.d" (descrito en la Seccin 10.3, pgina 260)
lopodemosver en la Figura 19.3 (que es la misma Figura 10.7).
-.,

Figura 19.3. Red bayesiana aprendida en el dominio "Ingresos.d".


508 Introduccin a la Minera de Datos

En esta red bayesiana podemos observar las relaciones directas e indirectas entre las
variables correspondientes al dominio utilizado. Entre ellas, por ejemplo, podemos
destacar las relaciones entre "Educacin", "Educacin-num", "Empleo" y "Tipo de
empleo" que se observan conectadas en la red resultante; tambin podemos observar el
camino existente entre las variables "Prdidas", "Ganancias" y la variable "Clase"
(Ingresos).
Aunque las reglas de asociacin no son directamente representables grficamente, s es
posible expresar mediante una representacin visual llamada malla las relaciones entre los
items o los conjuntos de items. Por ejemplo, Clementine proporciona este tipo de grfico.
Un ejemplo de una malla puede verse en la Figura 19.4 (que es la misma que la Figura 9.4).
Detalles sobre la interpretacin de estos grficos se puede encontrar en la Seccin 9.6.
(race]

Black
White "-, -,
u
" -,- '-

pncome ~Ievel]

FemaJe

MaJe

Figura 19.4. Grfico de malla.

Por otra parte, tambin es posible representar grficamente modelos de regresin o


clasificacin, siempre que los problemas tengan menos de tres dimensiones (atributos),
mostrando directamente el modelo en el espacio formado por los atributos. Incluyendo los
datos en la representacin, podremos observar la calidad de los modelos para ajustarsea
los datos. Por ejemplo, la Figura 19.5 muestra una representacin simplificada de un
modelo con dos discriminadores lineales (como los vistos en la Seccin 7.8.3).
. 11 11
11 11 11

. .. .
.
11
.
.
.. .
.
.. 11

. .
. . .. . .
.
Figura 19.5. Representacin simplificada de un modelo con dos discriminadores lineales.

Una estrategia similar se puede adoptar en modelos de agrupamiento, pero en este casoen
vez de los modelos, se visualizan los centros de los grupos aprendidos. Un ejemplodeesta
representacin lo podemos ver en la Figura 19.6 (que es la misma que la Figura 16.8).
Captulo 19. Interpretacin, difusin y uso de modelos 509

.. .,, I,
" .. .
..'"
.... ....
... ~.. . ,

..",,...
,.....
/",,:: I.~:. ti
'

.... o .. "

. ..
.... i'

..
~'

....
" "

...0
...
o '
~. ,
..... .....
\
, o I
o
"
,'o,
~,...:
,'t.' ,. o ''', ,
, .
... o '
"

. ,,,

.:.
...
t.. .
...,,~/
'." ...
o '\1--u-'--'-' O"~,
," . ... . "
,~,,/,
.... .
L__,
:
"
~,
-'
..
...
-~-:

...
,",,
~ .. .0 ..
. .....
o
. .'o, ...
"---"~,
,
.,'," ... .
I ..
"
o " ", oQ
,
, ,,

,
,,
.. : . . ..
\
"
,'.... ..
... . ",,'',,'..... ..
..jJ, : ,,/--,~....
.......... < ..~ ..'""..
,~,' .'....... ,~ '
o ,,
.....
.O::.
...
-..,' ;'
~
j.,
-, ,

...
...<V'..

I ,
~ "

.... '--
',-'
,
/-...
. '(,
'
...~ :..
'-
--'-- .... I
... ...
'

/'-,. :, "', ..
' "
... ....
,
e.. 11

.......
I

. h' ..'..
.~...
,,
..
','// ....
I

. ..~..
. ... "",.,-"",.
,---,<~:::..

.. \
\
;
. .... .. ",
\'
\
,,
,

11
Figura 19.6. Ejemplo de evolucin de los prototipos y grupos formados con el mtodo K medias.

Eneste caso podemos ver la evolucin de los grupos formados por el algoritmo K medias
(vasela Seccin 16.2.2) dependiendo del nmero de iteraciones. En las dos ltimas
representaciones la restriccin es el nmero de dimensiones; cuando el nmero de
dimensiones (atributos) es mayor que tres, estas representaciones no son posibles
directamente.
Por otra parte, dado que los mtodos jerrquicos de agrupamiento (vase la Seccin
16.2.3)se basan en la construccin de un rbol, se puede representar este rbol en un
grfico llamado dendograma. La Figura 19.7 (que es la misma que la Figura 16.10)
representa un dendograma.
abcdefghij

a b e d e 9 k

Figura 19.7. Ejemplo de un rbol de agrupamiento (dendograma).


510 Introduccina la Minera de Datos

Una descripcin detallada de la visualizacin y presentacin posterior de modelos puede


encontrarse en el Captulo 11 de libro [Berthold & Hand 2003] y el Captulo 20.1 del libro
[Kl6sgen & Zytkow 2002]

19.4 Intercambio y difusin de modelos: estndares de


representacin
Recientemente existe un inters creciente en la definicin y uso de estndares para
intercambiar informacin entre aplicaciones de distintos tipos, o bien, distintos fabricantes.
La definicin del lenguaje XML (eXtensibleMarkup Language) ha impulsado su utilizacin
para la creacin de lenguajes estndar para intercambio de informacin. XML es un
lenguaje de marcas definido por el consorcio World Wide Web Consortium (W3C,
http://www.w3.org/). basado en el estndar ISO SGML (Standard Generalized Markup
Language).XML puede considerase como un meta-lenguaje ya que permite la definicin de
lenguajes de marcas para diferentes tipos de documentos. Con ese fin XML utiliza las DTD
(DocumentTypeDefinition)para describir las caractersticas(elementos u otros constructo-
res) de cada tipo de documentos.
En el rea de minera de datos este inters se ha plasmado en la definicin y uso de
estndares de representacin y uso de conocimiento o ms concretamente, de modelos
estadsticos o de minera de datos. La motivacin de este inters es clara, facilitar el
intercambio de conocimiento. La importancia del intercambio de informacin puede verse
con el siguiente ejemplo. Supongamos que una empresa A (por ejemplo una agencia de
seguros) ha recogido informacin y ha obtenido patrones y modelos a partir de ellos sobre
el riesgo de los clientes durante los ltimos cinco aos. Esta informacin es muy importante
a la hora de determinar la cuanta de los seguros. Una nueva empresa B de la misma rama
se establece en una zona de caractersticas similares. El comercio B no se puede permitir
esperar unos aos para recabar esa informacin y mejorar la rentabilidad de los seguros,
por lo que decide comprar ese conocimiento a la empresa A. Sin embargo, existen multitud
de sistemas de minera de datos o sistemas de ayuda a la toma de decisiones desarrollados
por empresas diferentes. Todos ellos con formato s diferentes e incompatibles. La
cooperacin o integracin entre estos sistemas es imposible sin la existencia de estndares
independientes que definan la forma de expresar la informacin a compartir.
Otra motivacin para la definicin de estndares de intercambio es facilitar el inter-
cambio de datos y conocimiento, ya sean conjuntos de ejemplos, matrices de coste, modelos,
etc., entre aplicaciones diferentes de minera de datos. Por ejemplo, supongamos que
tenemos una aplicacin A que permita realizar la combinacin de modelos mediante
stacking (vase el Captulo 18). Por otra parte, tenemos una aplicacin B que aprende redes
neuronales a partir de ejemplos. La nica manera de que podamos integrar una red
neuronal generada por la aplicacin A en una modelo stacking de la aplicacin B, es quela
A pueda exportar las redes neuronales en un estndar que la aplicacin B puede
comprender y utilizar.
, <?xmlversion="1.0"
?>
<PMMLversion="2.1"
>
<Headercopyright=..www.dmg.org..
description="A
smallbinarytreemodel"/>
<DataDictionary
numberOfFields="5"
>
Captulo 19. Interpretacin, difusin y uso de modelos 511

<DataFieldname="temperature" optype="continuous"/>
<DataFieldname="humidity" optype="continuous"/>
<DataFieldname="windy" optype="categorical"
>
<Valuevalue="true"/>
<Valuevalue="false"/>
</DataField>
<DataFieldname="outlook" optype="categorical"
>
<Valuevalue="sunny"/>
<Valuevalue="overcast"/>
<Valuevalue="rain"/>
</DataField>
<DataFieldname="whatldo" optype="categorical"
>
<Valuevalue="willplay"/>
<Valuevalue="may play"/>
<Valuevalue="no play"/>
</DataField>
</DataDictionary>
<TreeModelmodeIName="golfing" functionName="classification">
<MiningSchema>
<MiningField
name="temperature"/>
<MiningField
name="humidity"/>
<MiningField
name="windy"/>
<MiningField
name="outlook"/>
<MiningField
name="whatldo" usageType="predicted"/>
</MiningSchema>
<Nodescore="will
play">
<True/>
<Nodescore="willplay">
<SimplePredicate
field="outlook"operator-"equal"
value="sunny"/>
<Nodescore="willplay">
<CompoundPredicate booleanOperator-"and">
<SimplePredicate field="temperature"
operator-"lessThan" value="gO"/>
<SimplePredicate field="temperature"
operator="greaterThan" value="50"/>
</CompoundPredicate>
<Nodescore="will play">
<SimplePredicatefield="humidity"
operator-"'essThan" value="SO"
/>
</Node>
<Nodescore="no play">
<SimplePredicatefield="humidity"
operator-"greaterOrEqual" value="SO" />
</Node>
</Node>
<Nodescore="no play">
<CompoundPredicate booleanOperator-"or"
>
<SimplePredicatefield="temperature"
operator="greaterOrEqual" value="gO"/>
<SimplePredicatefield="temperature"
operator-"lessOrEqual" value="50"
/>
</CompoundPredicate>
</Node>
</Node>
<Nodescore="may play">
512 Introduccin a la Minera de Datos

</Nade>
</Nade>
</TreeMadel>
</PMML>

Figura19.8.Representacinparcialen PMML de un rboldedecisinparaelproblemadejugar a tenis.


Existen varias iniciativas para establecer estndares de intercambio de informacin en
minera de datos. Pero, sin duda alguna, la iniciativa ms destacada es PMML (Predictive
Model Markup Language). La definicin de este lenguaje (entre otras tareas similares) est
siendo llevada a cabo por el denominado Data Mining Group (http://www.dmg.org/). Este
grupo es un consorcio de empresas importantes en el campo de la minera de datos (y del
software en general) tales como: IBM, Microsoft, Oracle, SAP, SAS, SPSS...
PMML se basa en XML. El lenguaje soporta, entre otros, los siguientes tipos de mode-
los: regresin polinomial y general, rboles de decisin, agrupamiento basado en centros y
en distribuciones, reglas de asociacin y secuencias, y redes neuronales. Cada tipo de
modelo se expresa mediante un documento DTD o un XML Schema.
Veamos un ejemplo. La Figura 11.8 contiene parte de la descripcin en PMML de un
rbol de decisin para un problema de si es posible jugar a tenis dependiendo de las
condiciones climticas. Este problema est inspirado en el problema visto en la pgina 30.
En realidad, y tal y como se puede ver en la figura, el esquema XML propuesto para los
rboles de decisin permite definir estructuras de decisin ms generales, como por
ejemplo particiones con condiciones compuestas y operadores lgicos.
Del texto de la figura podemos distinguir tres partes: cabecera, diccionario de datos y el
modelo del rbol. La cabecera contiene informacin respecto al archivo PMML. En la
siguiente parte <DataDictionary> se incluyen los atributos del modelo as como sus posibles
valores. Finalmente se encuentra la parte exclusiva del modelo a describir, en este caso
<TreeModel>. Con la etiqueta <MiningSchema> define qu atributos se van a utilizar en el
aprendizaje, y cul ser la clase. El rbol se construye de manera recursiva utilizando
componentes nodos <Node>. Cada nodo contiene informacin sobre condiciones que debe
satisfacer el ejemplo para entrar en ese nodo junto con una prediccin de la clase.
La definicin de PMML constituye un paso importante en el camino de facilitar el
intercambio de informacin entre aplicaciones y usuarios en la minera de datos. Al ser una
iniciativa relativamente reciente, las aplicaciones no han incorporado masivamente la
opcin de importar/exportar informacin en PMML. Sin embargo, y fundamentalmente
por la cantidad e importancia de las empresas que estn detrs del Data Mining Group, es
de esperar que las nuevas versiones incorporen cada vez con ms frecuencia estas
posibilidades.

19.5 Integracin con la toma de decisiones


El rea de ayuda a la toma de decisiones [Mladenic D. et al. 2003] constituye un rea multi-
disciplinar cuyo objetivo es la introduccin de mtodos y/o herramientas que ayuden a los
humanos en la toma de decisiones clave. En esta seccin analizamos brevemente cmo
podemos utilizar tcnicas de minera de datos, ms concretamente los modelos construidos
mediante tcnicas de minera de datos, para ayudar en el proceso de seleccionar la mejor
decisin entre varias alternativas.
Captulo 19. Interpretacin, difusin y uso de modelos 513

En el campo de la ayuda a la toma de decisiones, la fase de toma de decisiones usual-


mentese refiere al proceso completo de realizar la seleccin. Este proceso incluye: conocer
el problema, recoger informacin sobre el problema, identificar alternativas, anticipar
consecuenciasde posibles decisiones, realizar la seleccin utilizando para ello juicios
lgicosy coherentes basndose en la informacin disponible, etc. Podemos, entonces,
definirel rea de la ayuda a la toma de decisiones como el rea que concierne a la toma de
decisionespor parte de seres humanos, y especialmente, el estudio de tcnicas que asistan a
laspersonas a mejorar las decisiones tomadas. Entre estas tcnicas podemos ubicar a la
minerade datos.
La minera de datos tiene como propsito el descubrimiento de patrones novedosos y
tilesdesde un conjunto de datos. Estos modelos se pueden utilizar como herramientas de
ayudaen la toma de decisiones. Por ejemplo, el aprendizaje de rboles de decisin aprende
unmodeloque, tal y como su nombre indica, es capaz de recomendar una decisin a partir
de unos datos.
Otro tipo de modelo que incorpora mejor la informacin probabilstica sobre las
relacionesentre las variables del contexto del problema son las redes de decisin o
diagramasde influencia [Zhang et al. 1994]. Estas redes pueden considerarse como una
extensinde las redes bayesianas (vase el Captulo 10). Las redes de decisin contienen
trestiposde nodos: nodos aleatorios (en forma circular u ovoidal) para expresar variables
aleatorias,nodos de decisin (rectngulos) que indican las opciones a considerar y los
nodosde utilidad (rombos) que representan una funcin sobre las variables. Una solucin a
una red de decisin es un conjunto de estrategias que permiten maximizar la utilidad
esperada. La Figura 19.9 contiene una red de decisin sobre la eleccin entre un
tratamientoo la realizacin de una prueba secundaria. Anteriormente se ha realizado una
primeraprueba, y entonces se puede optar entre pasar directamente al tratamiento o bien
asegurarel diagnstico mediante la realizacin de una prueba adicional. La figura muestra
lasinteraccionesentre las variables, las decisiones y los nodos de utilidad; no representa un
diagramade flujo de dichas decisiones. Por tanto, est ms cercano a un red bayesiana que
aun rbolde decisin.

Figura 19.9. Red de decisin.


Enlos ltimos aos se ha popularizado el uso de la minera de datos en los sistemas de
ayudaa la toma de decisiones. Como comentamos en el Captulo 3, los sistemas de ayuda a
la toma de decisiones que iban incorporando tcnicas como cubos de datos, anlisis

...
514 Introduccin a la Minera de Datos

estadstico, almacenes de datos, OLAP, etc., han aadido tambin a esta lista componentes
basados en la minera de datos.
Normalmente, el tpico escenario para aplicar tcnicas de minera de datos para ayudar
en la toma de decisiones se sita en un contexto empresarial. Por ejemplo, si queremos
determinar a qu cliente debemos enviar propaganda de un determinado producto de
manera que se maximice el nmero de ventas con respecto al gasto en envo de publicidad.
El primer paso consiste en trasladar el problema al mbito de la minera de datos, es decir
generar un conjunto de datos con caractersticas de los clientes y su decisin con respecto a
la compra. Si somos capaces de encontrar este conjunto de datos, podemos emplear una
herramienta de aprendizaje para generar un modelo que nos prediga si un cliente
comprar el producto a partir de los datos del cliente. El siguiente paso consiste en
trasladar el modelo al mbito de la aplicacin, para que apoye al comercial o automatice la
decisin de enviar o no, propaganda a un determinado cliente.

19.5.1 Integracin de los costes


Una situacin ms realista para este tipo de ejemplo, es el aprendizaje sensible al coste
vase la Seccin 17.2.2. En este tipo de aprendizaje no todos los errores tienen el mismo
peso, sino que se suele utilizar la matriz de coste, donde se expresa el coste asociado que
tiene cada una de las posibles combinaciones que se d en la prediccin de un caso. Por
ejemplo, una matriz de coste para el ejemplo del envo de propaganda, podra ser:

Estimado

El caso ms positivo se da cuando el sistema predice que el cliente va a comprar el


producto, por lo tanto se le enva propaganda, y posteriormente lo compra. Esta situacin
representa un beneficio de 100 euros (coste negativo). El peor caso es cuando el sistema
enva propaganda (se determina el cliente como potencial), y no se produce la compra (diez
euros). Destaca el hecho de que si el sistema no predice un cliente como potencial
comprador cuando posteriormente realiza la compra, en este caso s tiene asociado un coste
(tres euros). Obviamente, para la empresa esta situacin es la ideal, ya que se ahorra el
coste de la propaganda y adems realiza la venta. Sin embargo, no debemos olvidar que
estamos introduciendo los costes estimados para el entrenamiento del modelo, y al fin y al
cabo esa situacin representa un error del modelo por lo que debe ser penalizado.
Si disponemos de la matriz de coste (la mejor situacin), lo ms adecuado es utilizar
esta matriz en el aprendizaje del modelo. Una aproximacin sencilla es la estratificacin,
por submuestreo (oversampling) o submuestreo (undersampling) [Stolfo & Chan 1998]. Este
mtodo permite adaptar un algoritmo de aprendizaje al contexto de coste sin modificar el
propio algoritmo, alterando la frecuencia de las clases como vimos en la Seccin 17.2.2.
Otro mtodo similar, es decir, que no necesita modificar el algoritmo de aprendizaje, es
metacost [Domingos 1999].
Aparte de los mtodos genricos, existen, por lo general, versiones para el aprendizaje
sensible al coste de cada mtodo de aprendizaje. Por ejemplo, en los rboles de decisin se
ha estudiado modificar el criterio de particin de manera que tenga en cuenta el coste. Sin
Captulo 19. Interpretacn, difusn y uso de modelos 515

embargo,para este algoritmo de aprendizaje, se ha comprobado [Bradford et al. 1998] que


una solucin bastante efectiva consiste en aprender el rbol de decisin de la manera
habitual, es decir utilizando los criterios de particin ms conocidos, y posteriormente,
paracada hoja del rbol asignar la clase de manera que, en vez de reducir el nmero de los
erroresde la hoja, se reduzca el coste asociado a esa hoja.
No obstante, conocer la matriz de costes de un determinado problema no es, por
desgracia,la situacin ms habitual. La estimacin de costes supone en la mayora de los
casosun estudio previo que requiere de la inversin de tiempo y dinero extra. La situacin
mscomn es conocer detalles de la matriz de coste en cuanto se entra en la fase de la
aplicacindel modelo. Cuando desconocemos la matriz de coste en tiempo de aprendizaje,
podemosaplicar el anlisis ROC (vase la Seccin 17.2.2). El anlisis ROC provee tcnicas
que, dado un conjunto de clasificadores, nos permiten seleccionar el subconjunto de
clasificadoresque tendr un comportamiento ptimo (menor coste) para un determinado
contextode coste. El anlisis ROC permite tambin evaluar los modelos aprendidos de
manerams independiente respecto al contexto de coste mediante el valor AUC (rea bajo
la curva ROC), tambin visto en la Seccin 17.2.2. Por lo tanto, si desconocemos la matriz
de coste cuando se est aprendiendo el modelo, podemos hacer lo siguiente: aprendemos
un conjunto de modelos, ya sea utilizando diferentes tcnicas de aprendizaje, o bien
variando la configuracin del algoritmo de aprendizaje; seguidamente seleccionamos el
subconjunto de clasificadores que tienen un comportamiento ptimo para cualquier
contextode coste, eliminando los que siempre van a ser subptimos mediante el anlisis
ROC;de este subconjunto de clasificadores utilizaremos el modelo con mayor AUC para
empezara aplicado con casos reales; si durante la aplicacin del modelo podemos estimar
la matriz de costes, cambiaremos el modelo a utilizar por el modelo que obtenga mejores
prestacionespara la matriz de coste estimada de entre el subconjunto de modelos ptimos.
Finalmente, una vez hemos pasado la fase de aprendizaje y se ha seleccionado el
modeloa ser aplicado con casos reales, antes de llevar a cabo ese paso, es recomendable
que un experto evale la validez del modelo, es decir que el conocimiento extrado es
coherente58.Consideremos el siguiente caso en el cual utilizamos una base de datos sobre
losclientesque poseen un libro sobre lgebra para determinar a qu otros clientes se enva
propaganda sobre ese determinado libro. Una buena parte de los ingenieros en informtica
han comprado el libro, por lo que el modelo podra determinar que los ingenieros en
informtica son buenos candidatos a comprar el libro. Sin el anlisis de un experto
podramos recomendar el libro de lgebra a todos los clientes que son ingenieros en
informtica.Sin embargo, probablemente este colectivo compr el libro en sus aos de
estudiopara aprobar las asignaturas relacionadas con el lgebra, y probablemente tengan
eselibro con varios dedos de polvo. Por tanto, muy probablemente pocos ingenierios en
informticacomprarn el libro. Este tipo de reglas, aparentemente buenas pero falsas en la
prctica,slo se pueden eliminar o bien corregir (en este caso sera mejor considerar los
estudiantesde informtica, no los titulados) mediante la supervisin de un experto.
Como conclusin a este apartado, hemos de destacar que si se desea llevar los resulta-
dosde la minera de datos a la prctica se deben tener en cuenta las caractersticas reales

58Para ello es necesario que el modelo sea fcilmente comprensible, por ejemplo un rbol de decisin.
516 Introduccin a la Minera de Datos

del problema. Es decir, los datos de entrenamientos deben ser reales y representar al
mximo el problema a resolver. El modelo debe tener en cuenta el contexto de coste en el
cual se va a aplicar, y debe contemplar las dificultades que pueden tener los datos reales:
atributos faltantes, datos desfasados. Adems, es necesario que personas expertas en el
problema asesoren y confirmen que el conocimiento aprendido es vlido y til.
En cuanto a bibliografa recomendada para ampliar conocimientos sobre este tema,
podemos destacar el libro [Mladenic et al. 2003] que est centrado en la integracin de
minera de datos con la ayuda a la toma de decisiones, as como el Captulo 21 de [K1sgen
& Zytkow 2002].

19.5.2 Diseo de campaas


Una de las aplicaciones de la minera de datos ms extendidas, y por 10 tanto, ms
estudiadas, es el diseo de campaas para el envo de publicidad o de ofertas (normalmen-
te por correo ordinario) a clientes de empresas o instituciones. En esta aplicacin, el uso de
tcnicas de minera de datos puede prever el comportamiento de los clientes, es decir su
inters o no sobre el producto determinado. La utilizacin de estas previsiones puede
optimizar la realizacin de las campaas, invirtiendo dinero en publicidad en los clientes
que el modelo prediga que pueden ser receptivos para la campaa.
En esta seccin vamos a detallar con un ejemplo varias tcnica para configurar una
campaa de manera ptima a partir de un modelo de estimacin de la probabilidad de
respuesta. Como referencia de este tema en particular, o en general del tema del
tratamiento de las relaciones con los clientes o CRM (CustomerRelationshipManagment) yel
uso de la minera de datos en este problema puede consultarse [Berry & Linoff 2000].
Supongamos que una empresa de venta de productos informticos por catlogo posee
una base de datos de clientes, con datos sobre estos clientes. Esta empresa ha incorporado
un nuevo producto a su catlogo, un mando de piloto para ser utilizado en programas de
simulacin de vuelo. La empresa, dado que este producto es innovador, ha editado un
folleto sobre el producto para realizar una campaa de promocin mediante el envo de
correo a sus clientes y, de esta manera, estimular su venta.
Una primera solucin sera enviar el folleto a todos sus clientes. Sin embargo, dado que
este producto tiene unas caractersticas especiales, no sera la mejor solucin. Por ejemplo,
no sera muy til enviar propaganda de este producto a restaurantes. Por el contrario,
podra mo1estarles, adems del gasto del folleto y del correo.
Por lo tanto, una mejor opcin sera una campaa selectiva. Para ello utilizaremos
tcnicas de minera de datos para poder predecir la respuesta de un determinado cliente al
envo de la propaganda y utilizar esta informacin para optimizar el diseo de la campaa.
El primer paso es la seleccin de una muestra de clientes de la base de datos. Para no
aprender un modelo sesgado, la muestra ha de ser a1eatoria, y de tamao suficiente. Una
vez seleccionada la muestra, se enva la propaganda del producto a un grupo de clientes,y
posteriormente, pasado un tiempo prudencial, se etiqueta cada cliente con la clase
correspondiente (ha comprado el producto o no).
Tras etiquetar la muestra, podemos utilizar alguna de las tcnicas de aprendizaje para
generar un modelo de respuesta a partir del cliente. En esta aplicacin nos interesa utilizar
tcnicas de clasificacin suave, es decir que asignen a cada ejemplo (cliente) no la clase
Captulo 19. Interpretacin, difusin y uso de modelos 517

predicha, sino una estimacin de la probabilidad de respuesta de ese cliente. Por ejemplo,
el "Restaurante To Canya" puede tener un valor 0,1 mientras que el "Playcenter Galaxy"
puede tener un valor de 0,85.
La informacin sobre las estimaciones de respuesta de los clientes puede ser utilizada
para la generacin del llamado grfico de respuesta acumulada. Estos grficos nos indican
qu porcentaje de las posibles respuestas vamos a obtener dependiendo del porcentaje de
envosque realicemos sobre la poblacin total. Para construir estos grficos se ordenan los
ejemplospor su ranking o prorrateo. A continuacin se realiza una suma acumulativa entre
losejemplos y se divide cada ejemplo por la suma total de probabilidades. Finalmente cada
ejemplose multiplica por 100. El proceso para diez ejemplos lo podemos ver en la siguiente
tabla:

Ejemplos Probabilidad Suma Acum. Normalizada Norm.*100



1 0,9 0,9 0,24456522 24,4565217
2 0,87 1,77 0,48097826 48,0978261
3 0,6 2,37 0,64402174 64,4021739
4 0,4 2,77 0,75271739 75,2717391
5 0,3 3,07 0,83423913 83,423913
6 0,25 3,32 0,90217391 90,2173913
7 0,2 3,52 0,95652174 95,6521739
8 0,1 3,62 0,98369565 98,3695652 !I
9 0,05 3,67 0,99728261 99,7282609
I
10 0,01 3,68 1 100
I
Esta informacin tambin se puede representar grficamente. Para ello, el nmero de
ejemplosse normaliza sobre 100 y la serie se incluye en un grfico de porcentajes. Para el
ejemploanterior podemos ver el resultado en la Figura 19.10. El eje x indica el porcentaje I

de clientes a los cuales se les enva la propaganda. El eje de la y indica el porcentaje de


clientes que van a comprar el producto sobre el total que comprarn el producto, o
equivalentemente, el porcentaje sobre las ventas totales estimadas (siempre refirindonos a I

la poblacin que recibe la propaganda, en este caso 3,68). En el grfico podemos ver dos
series:sin modelo y utilizando el modelo de prediccin de respuesta. Obviamente los I

resultados sin modelo corresponden a una seleccin al azar, por lo tanto si enviamos I

propaganda al 10 por ciento de los clientes, recibirn la propaganda el aproximadamente el I

10por ciento de los clientes que comprarn el producto. Con el modelo de prediccin de I
respuesta se mejora considerablemente el resultado. Por ejemplo, enviando tan slo al 30 I
por ciento de los clientes con mayor ranking, alcanzaramos el 65 por ciento de las ventas I
I
totales.Cabe destacar que utilizando slo el grfico de respuesta acumulada es imposible
conocerla cantidad de ventas, ya que el grfico indica porcentaje pero no totales. La
estimacinde ventas se puede aproximar utilizando la suma de la probabilidad estimada
paralos clientes. Para el ejemplo que estamos viendo, las ventas estimadas seran 3,68.
Podemos plantear an mejor la campaa si conocemos algunos datos extra sobre los
costes del problema. En concreto, necesitamos determinar tres costes: el coste de
planificacinde la campaa, el coste de envo de publicidad por unidad y finalmente el
beneficiopor unidad vendida. El primer coste, coste de planificacin de la campaa, recoge
518 Introduccin a la Minera de Datos

todos los costes iniciales de la campaa independientemente del nmero de envos: coste
de diseo del folleto, estudio de mercado, etc. Con estos costes estimados, y un conjunto de
clientes prorrateados por el modelo de estimacin de respuesta, podemos realizar un
clculo sobre los costes o beneficios dependiendo del nmero de envos.

100%
90%
80%
70%
60%
-+- Sin modelo
50%
40%
-- Modelo
30%
20%
10%
0%
~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~
<::5 ,,<::5 ~ ";)<::5 ~ ~<::5 <0<::5 ,\<::5 <0<::5 q<::5 ,,<::5<::5

Figura 19.10. Grfico de respuesta acumulada.

Veamos un ejemplo. Consideremos que tenemos una base de datos de 120.000clientes en


nuestra empresa de venta de catlogos informticos. Utilizamos 20.000 seleccionados al
azar para aprender un modelo que nos estime la respuesta (campaa exploratoria). Con
este modelo calculamos la probabilidad de respuesta de cada uno de los restantes 100.000
clientes y los ordenamos segn su ranking. Supongamos que el grfico de respuesta
acumulado que se obtiene de esta ordenacin es igual al de la Figura 19.10. Enviando
propaganda al 20 por ciento de los clientes obtendremos el 48 por ciento de las ventas
totales. Supongamos tambin que de los 20.000 clientes el 30,68 por ciento compraron el
producto. El coste inicial de la campaa lo estimamos en 10.000 euros, y el coste de envo
de cada folleto 1,5 euros. Por cada producto vendido ganamos tres euros (sin tener en
cuenta el gasto del envo del folleto). Con estos datos podemos realizar una estimacin de
los gastos, ingresos y beneficios de la campaa dependiendo del nmero de clientes a los
que enviemos propaganda. El estudio lo tenemos en la siguiente tabla:
Envos Compras Gastos Ingresos Beneficios
O O 10.000 O -10.000
10000 9000 25.000 27.000 2.000
20000 17700 40.000 53.100 13.100
30000 23700 55.000 71.100 16.100
40000 27700 70.000 83.100 13.100
50000 30700 85.000 92.100 7.1 00
60000 33200 100.000 99.600 -400
70000 35200 115.000 105.600 -9.400
80000 36200 130.000 108.600 -21.400
90000 36700 145.000 110.100 -34.900
100000 36800 160.000 110.400 -49.600
Captulo 19. Interpretacin, difusin y uso de modelos 519

El beneficio estimado dependiendo del nmero de envos puede mostrarse en un grfico.


De esta manera podemos apreciar la evolucin del beneficio y seleccionar la mejor
configuracin. El grfico muestra la evolucin de los beneficios con dos configuraciones de
coste: la estimacin de coste comentada anteriormente (configuracin 1), y otra configura-
cin similar donde el coste de campaa es de 20.000 euros, el coste de envo es de 0,8 euros,
y el beneficio por venta 2,5 euros (configuracin 2). Para la configuracin 1, el mayor
beneficio se obtiene enviado publicidad al 30 por ciento de los clientes con ms probabili-
dad de compra. Sin embargo, en la configuracin 2, el pico se encuentra enviando al 40 por
ciento. Finalmente, hay que destacar que estos datos son bastante sensibles al modelo, ya
que si por ejemplo, las ventas finales fuesen del 30 por ciento en vez del 36 por ciento
previsto por el modelo, los beneficios estimados para el envo al 30 por ciento de los
clientes con mejores expectativas pasaran de 16.100 euros a 2.962 euros. No obstante, si el
modelo es fiable esta sencilla tcnica permite considerar campaas que a priori (para todos
los clientes) no seran rentables, adems de la ventaja de que no saturan de propaganda a
los clientes.
30.000
20.000
10.000
O
-10.000 -- Configuracin 1
-20.000 Configuracin 2
-30.000
-40.000
-50.000
-60.000
~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~
1\) ,,1\) ~ ";)1\) b<1\) ~~ '<:J~ ",1\) '01\) Q)~ ,,~I\)

Figura 19.11. Grfico de beneficios de la campaa.

Por ltimo, es necesario remarcar que si no podemos estimar los costes asociados a la
campaa, podemos utilizar el anlisis ROe (vase la Seccin 17.2.2) que dado un conjunto
de clasificadores, permite seleccionar un subconjunto de clasificadores que tenga un
e

comportamiento de coste ptimo para cualquier contexto de costes.

19.5.3 Simulacin
Vamos a introducir brevemente el uso de tcnicas de minera de datos para mejorar
modelos de simulacin de sistemas. La simulacin es un tipo de modelizacin por el que se
trata de representar la realidad de una manera simplificada. En muchos casos, las
simulaciones se llevan a cabo para conocer los efectos que supondra la introduccin de
ciertos cambios en el sistema.
Para que una simulacin obtenga resultados tiles debe representar con la mxima
precisin posible el sistema a modelizar. Es en este aspecto donde las tcnicas de minera
520 Introduccin a la Minera de Datos

de datos pueden ayudar, dado que existen muchos sistemas cuyo comportamiento es tan
complejo y conlleva tal cantidad de informacin, que sin la ayuda de tcnicas de
aprendizaje automtico, sera prcticamente imposible representar su comportamiento de
manera mnimamente fiable.
Las tcnicas de minera de datos pueden tambin aplicarse a modelos de simulacin ya
existentes con el fin de refinar su comportamiento de manera que reflejen mejor la realidad.
Por ejemplo, [Pyle 2003] cita el caso de una compaa de venta de materiales de los Estados
Unidos; esta empresa haba realizado un modelo de simulacin de ventas utilizando el
conocimiento y experiencia de sus empleados. Este modelo ayud a mejorar el diez por
ciento de las respuestas de la empresa a demandas de servicio por parte de los clientes de
la empresa. Sin embargo, el modelo presentaba todava algunas deficiencias, ya que en
algunos casos no predeca correctamente los acontecimientos. Con el fin de aumentar las
prestaciones del modelo de simulacin, se utiliz minera de datos para descubrir pautas
de comportamiento. Estas pautas fueron incorporadas al modelo, y gracias a ellas, se
pudieron descubrir varios problemas en el modelo de simulacin anterior. Esta correccin
del modelo permiti que se mejoraran cerca del 30 por ciento de las demandas.
Cabe resaltar que probablemente en el ejemplo anterior no se habran conseguido esas
altas cotas de efectividad en la simulacin sin la participacin en su construccin de las dos
partes: experiencia humana y tcnicas de minera de datos. La clave del xito para construir
un modelo de simulacin lo ms ajustado a la realidad estriba en la correcta combinacin
de ambas fuentes de conocimiento.

19.6 Actualizacin y revisin de modelos


Los modelos obtenidos en la fase de minera de datos, convenientemente validados e
integrados en el uso de la organizacin no duran siempre. Las condiciones del entorno del
problema pueden alterarse, haciendo que un modelo que en un principio era muy til, deje
de ser vlido para su aplicacin debido a que no se ha adaptado a la nueva situacin.
Por otra parte, en muchas ocasiones, las bases de datos desde donde extraer informa-
cin con tcnicas de minera de datos estn formadas por un nmero tan alto de registros
(filas), o bien de columnas (atributos), que hace inviable su tratamiento directamente por
parte de los algoritmos de aprendizaje, ya que desborda la capacidad de los sistemas.
Corno hemos comentado anteriormente, una posible solucin es reducir la dimensionali-
dad trabajando con una muestra de los ejemplos (vase la Seccin 5.4.1), o bien limitando el
nmero de atributos que se utilizan en el aprendizaje (vase la Seccin 5.4.2).
Otra aproximacin diferente es la utilizacin de algoritmo s incrementales. Un algorit-
mo incremental es capaz de aprender modelos utilizando tan slo una parte de la
informacin disponible, y posteriormente, utilizar el resto para actualizar o revisar los
modelos aprendidos. Si el algoritmo utiliza los ejemplos gradualmente, se denomina
incrementalidad vertical. En el caso de que el algoritmo emplee todos los ejemplos, pero la
incrementalidad se realice con respecto al nmero de atributos, se llama incrementalidad
horizontal. Aunque existen dos tipos de incrementalidad, la primera suele ser la ms 11
extendida, y en muchos casos, el trmino incrementalidad se refiere slo a la primera.
I
En verdad, un algoritmo incremental es una aproximacin ms realista que un algorit-
mo no incremental, ya que en muchos casos es imposible tener ejemplos de todos los casos
I

l
Captulo 19. Interpretacin, difusin y uso de modelos 521

(o bien conocer todos sus atributos) en el momento de realizar aprendizaje. En esta


situacin, es mejor aprender un modelo inicial para posteriormente aplicarlo para predecir
nuevos casos, y cuando se conozca la clase real de los nuevos casos (siempre que sea
posible), utilizar esta informacin para re alimentar el modelo. Esta re alimentacin puede
suponer la actualizacin del modelo mediante la modificacin o supresin de parte del
modelo, o bien la inclusin de nuevas partes.
Debemos tener en cuenta que, en muchos problemas el comportamiento no es esttico,
sino que va evolucionando constantemente, por lo que utilizar un algoritmo de aprendizaje
incremental permite que el modelo vaya evolucionando al mismo tiempo que el problema.
Por ejemplo, podramos aprender un modelo para la prediccin del abandono de los
alumnos de primer curso de una facultad. Este modelo podramos aplicarlo durante varios
aos para estimar la matrcula del segundo curso. Obviamente, aunque el comportamiento
de los alumnos tendr algn patrn comn durante estos aos, existen otros factores que
pueden afectar al comportamiento (cambio de plan de estudios en la enseanza secundaria,
incremento en la nota mnima de acceso a la facultad...), y que supondran una prdida de
precisin del modelo, en caso de que no se efecte una actualizacin del mismo.
Existen versiones incrementales para la mayora de los algoritmo s de aprendizaje. Cabe
resear que, de manera lgica, se ha estudiado ms esta extensin en algoritmo s que no son
particularmente escalables para el tratamiento de grandes volmenes de datos, como por
ejemplo los rboles de decisin (vase la Seccin 11.7).
Finalmente, si por alguna limitacin no tenemos a nuestra disposicin un algoritmo
incremental es posible realizar algn tipo de revisin/actualizacin del modelo de manera
manual y poco eficiente. En este contexto, cuando, tras el transcurso de cierto tiempo,
tenemos nuevos casos podemos comprobar si el modelo se comporta bien con estos nuevos
casos. Podemos decidir realizar una revisin total cuando el nmero de nuevos casos
problemticos supere un umbral mnimo. Para ello, se realiza el aprendizaje partiendo de
cero y utilizando los ejemplos iniciales junto con todos los nuevos casos conocidos
posteriormente, incluidos los ejemplos problemticos. En general, no habra de esperarse a
que el modelo tenga mal comportamiento, ya que hay que intentar detectar esta situacin I
con anterioridad. Al primer signo de que el modelo se comporta de manera errnea, hay
que intentar analizar las causas, y cmo se pueden rectificar.
,I
I
I
I
I

I
I
I