Vous êtes sur la page 1sur 12

Practica 5

GRUPO 4
INTEGRANTES:
- Csar Herbozo
- Pool Elera
- Patricia Martinez
- Shanny Huaypar
- Javier Palomino

1. Indicar cul de las siguientes no es una aplicacin clsica de las tcnicas de clasificacin

a) Deteccin de clientes que abandonarn una compaa: S, hay 2 clases abandonar y no


abandonar. Esto podra determinarse con data histrica del rendimiento o acciones de un
empleado.
b) Determinacin de la concesin de un crdito: S, hay 2 clases conceder o no hacerlo. Esto
podra determinarse con data histrica de riesgo crediticio de los clientes.
c) Mejora en la ubicacin de productos de supermercado: No, no hay un criterio de
clasificacin.
d) Identificacin de potenciales clientes: No, este es un problema de clustering.
e) Determinar, para un nuevo objeto celeste, de qu tipo de cuerpo se trata: S, ya hay una
clasificacin determinada de cuerpos celestes y bajo una toma de sus caractersticas
podramos identificar a qu clase pertenece.

2.- Realizar un cuadro comparativo de los siguientes algoritmos para rboles de decisin:
ID3, CART, C4.5, CHAID y C5.0

ID3 El espacio de hiptesis es completo, la funcin objetivo est


incluida en l.
No es capaz de determinar todos los rboles compatibles con los
ejemplos de entrenamiento.
No se puede proponer ejemplos que reduzcan el espacio de
bsqueda.
Encuentra un ptimo local que puede no ser el ptimo global (hill-
climbing).
En cada paso utiliza informacin estadstica de todos los
ejemplos en lugar de considerar los ejemplos uno a uno (permite
ruido en los datos de entrenamiento).
Por la ganancia de informacin, tiene tendencia a elegir atributos
con muchos valores.
ID3 prefiere rboles cortos frente a largos, con los atributos que
producen una mayor ganancia de informacin cerca de la raz.

CART Utilizar el criterio basado en Gini index para el caso de la


clasificacin.
Cuando se pretende construir un rbol de regresin, los criterios
se basan en la mnima suma de las desviaciones cuadrticas.
Para realizar la post-poda realiza una estimacin del error, ya
sea mediante un conjunto de datos diferente al que fue utilizado
en la construccin, o aplicando validacin cruzada.
Conduce a un modelo mucho ms simple para explicar el porqu
las observaciones se clasifican en un determinado grupo.

C4.5 Se basa en la utilizacin del criterio de proporcin de ganancia,


de esta manera se consigue evitar que las variables con mayor
nmero de categoras salgan beneficiadas en la seleccin..
Incorpora una poda del rbol de clasificacin una vez que ste ha
sido inducido.
Los rboles son menos frondosos, ya que cada hoja cubre una
distribucin de clases, no una clase en particular.
Utiliza el mtodo "divide y vencers" para generar el rbol de
decisin inicial a partir de un conjunto de datos de entrenamiento.

CHAID No realiza una fase de post-poda para evitar el


sobreentrenamiento , sino que es en la misma fase construccin
del rbol cuando se decide parar.
Solo es capaz de tratar con variables predictoras discretas.
Tiene divisiones de nodos multinivel.
Las categoras de cada predictor se funden si no son
significativamente distintas respecto a la variable dependiente.

C5.0 La velocidad es significativamente ms rpido que el C4.5 (varios


rdenes de magnitud)
El uso de memoria es ms eficiente que en el C4.5
rboles de decisin ms pequeos que obtienen resultados
similares a C4.5 con rboles de decisin mucho ms pequeos.
Soporte para boosting, el cual mejora los rboles y les da una mayor
precisin.
Su ponderacin le permite ponderar los distintos casos y tipos de
errores de clasificacin.
Aplica un algoritmo de clasificacin (algoritmo Winnow) a los
atributos para eliminar aquellos que sean de poca ayuda.

3. En funcin del siguiente conjunto de datos, se pide construir un modelo de minera de


datos que utilice rboles de decisin, para determinar si una persona comprar un
videojuego o no.
a. Cul es la mejor precisin que ha obtenido? con qu algoritmo?

La mejor precisin que se ha obtenido es de que 5 si compran:

En ambos se obtuvo con los algoritmos Bayes y Tree

b. Cul es el atributo que tiene la mayor ganancia de informacin? por qu?


El atributo que tiene mayor ganancia de informacin es estudia segun la grafica siguiente
c. Desarrolle un conjunto de reglas de decision vlido para el caso.

d. Desarrolle un programa en python para que genere un arbol


4. La empresa de seguros Protegidos S.A. quiere mejorar su proceso de evaluacin de
clientes, reduciendo el trmite administrativo y los tiempos de anlisis. Para ello quiere
implementar una solucin de minera de datos que le permita saber si a un nuevo cliente le
puede o no ofrecer seguro, y s le ofrece, si tiene que ser con condiciones. La empresa
cuenta con informacin histrica en su base de datos operativa, de la cual se ha descargado
el siguiente conjunto de datos:

a. Que solucion de mineria de datos aplicario?


Clasificacin, ya que debemos clasificar si es que se le ofrece seguro o no, o con ciertas
condiciones.

b. Aplicando las tcnicas de rboles de decision, bayesinas y basadas en casos, cual


da mejores resultados para el conjunto de datos?
c. Desarrolle la solucin en python utilizando 10-fold cross validation
d. Muestre la matriz de confusin y la curva ROC para sustentar sus resultados.

C. Desarrolle la solucin en Python y R, utilizando 10-fold Cross Validation


5.- Indicar cul es la precisin predictiva de un clasificador cuya matriz de confusin es la
siguiente:

Prediccin

Clases A B

A 285 12

B 6 197

La precisin predictiva de un clasificador es:


= (285+197) / (285+12+6+197) = 482/500 = 0.964

10. Investigue sobre algoritmo Support Vector Machine (SVM)

Dentro de la tarea de clasificacin, las SVMs pertenecen a la categora de los clasificadores


lineales, puesto que inducen separadores lineales o hiperplanos, ya sea en el espacio
original de los ejemplos de entrada, si stos son separables o cuasi-separables (ruido), o en
un espacio transformado (espacio de caractersticas), si los ejemplos no son separables
linealmente en el espacio original. Como se ver ms adelante, la bsqueda del hiperplano
de separacin en 1 estos espacios transformados, normalmente de muy alta dimensin, se
har de forma implcita utilizando las denominadas funciones kernel.
Desde un punto de vista algortmico, el problema de optimizacin del margen geomtrico
representa un problema de optimizacin cuadrtico con restricciones lineales que puede ser
resuelto mediante tcnicas estndar de programacin cuadrtica. La propiedad de
convexidad exigida para su resolucin garantizan una solucin nica, en contraste con la no
unicidad de la solucin producida por una red neuronal artificial entrenada con un mismo
conjunto de ejemplos

1. SVM para clasificacin binaria de ejemplos separables linealmente

Figura 1: Hiperplanos de separacin en un espacio bidimensional de un conjunto de ejemplos separables en dos


clases: (a) ejemplo de hiperplano de separacin (b) otros ejemplos de hiperplanos de separacin, de entre los
infinitos posibles

Una propiedad inmediata de la definicin de hiperplano de separacin ptimo es que ste


equidista del ejemplo ms cercano de cada clase. La demostracin de esta propiedad se
puede hacer fcilmente por reduccin al absurdo. Supongamos que la distancia del
hiperplano ptimo al ejemplo ms cercano de la clase +1 fuese menor que la
correspondiente al ejemplo ms cercano de la clase 1. Esto signicara que se puede alejar
el hiperplano del ejemplo de la clase +1 una distancia tal que la distancia del hiperplano a
dicho ejemplo sea mayor que antes y, a su vez, siga siendo menor que la distancia al
ejemplo ms cercano de la clase 1. Se llega as al absurdo de poder aumentar el tamao
del margen cuando, de partida, habamos supuesto que ste era mximo (hiperplano
ptimo). Se aplica un razonamiento similar en el caso de suponer que la distancia del
hiperplano ptimo al ejemplo ms cercano de la clase 1 fuese menor que la
correspondiente al ejemplo ms cercano de la clase +1.
Figura 2: Margen de un hiperplano de separacin: (a) hiperplano de separacin no-ptimo y su margen asociado
(no mximo) (b) hiperplano de separacin ptimo y su margen asociado (mximo).

2. SVM para clasificacin binaria de ejemplos cuasi-separables linealmente


El problema planteado anteriormente tiene escaso inters prctico porque los problemas
reales se caracterizan normalmente por poseer ejemplos ruidosos y no ser perfecta y
linealmente separables. La estrategia para este tipo de problemas reales es relajar el grado
de separabilidad del conjunto de ejemplos, permitiendo que haya errores de clasificacin en
algunos de los ejemplos del conjunto de entrenamiento. Sin embargo, sigue siendo un
objetivo el encontrar un hiperplano ptimo para el resto de ejemplos que s son separables

Desde el punto de vista de la formulacin vista en la seccin anterior, un ejemplo es no-


separable si no cumple la condicin. Aqu se pueden dar dos casos. En el primero, el
ejemplo cae dentro del margen asociado a la clase correcta, de acuerdo a la frontera de
decisin que define el hiperplano de separacin. En el otro caso, el ejemplo cae al otro lado
de dicho hiperplano. En ambos casos se dice que el ejemplo es no-separable, pero en el
primer caso es clasificado de forma correcta y, en el segundo, no lo es.
Figura 3: En el caso de ejemplos no-separables, las variables de holgura miden la desviacin desde el borde del
margen de la clase respectiva. As, los ejemplos xi , xj y xk son, cada uno de ellos, no separables (i , j , k > 0.
Sin embargo, xi est correctamente clasificado, mientras que xj y xk estn en el lado incorrecto de la frontera de
decisin y, por tanto, mal clasificados.

El hiperplano as definido recibe el nombre de hiperplano de separacin de margen blando


(del ingls soft margen), en oposicin al obtenido en el caso perfectamente separable,
tambin conocido como hiperplano de separacin de margen duro (del ingls hard margen).
Como en el caso de la seccin anterior, si el problema de optimizacin a ser resuelto
corresponde a un espacio de caractersticas de muy alta dimensionalidad, entonces, para
facilitar su resolucin, 9 puede ser transformado a su forma dual. El procedimiento para
obtener el hiperplano de separacin es similar al all utilizado. Por tanto, aqu slo se
reproducir de forma esquemtica y secuencial los pasos necesarios para realizar dicha
transformacin.
Figura 4: El problema de la bsqueda de una funcin de decisin no lineal en el espacio del conjunto de ejemplos
original (espacio de entradas), se puede transformar en un nuevo problema consistente en la bsqueda de una
funcin de decisin lineal (hiperplano) en un nuevo espacio transformado (espacio de caractersticas)

3. SVM para clasificacin binaria de ejemplos no separables linealmente.


En las dos secciones anteriores se ha mostrado que los hiperplanos de separacin son
buenos clasificadores cuando los ejemplos son perfectamente separables o cuasi-
perfectamente separables. Tambin se vio que el proceso de bsqueda de los parmetros
que definen dichos hiperplanos se puede hacer independientemente de la dimensionalidad
del problema a resolver. As, si sta es baja, basta con resolver directamente el problema de
optimizacin primal asociado. En cambio, si la dimensionalidad es muy alta, basta con
transformar el problema primal en su problema dual equivalente y resolver este ltimo. Sin
embargo, hasta ahora, se ha asumido la idea de que los ejemplos eran separables o cuasi-
separables y, por tanto, los hiperplanos se definan como funciones lineales en el espacio-x
de los ejemplos. En esta seccin se describe cmo usar de forma eficiente conjuntos de
funciones base, no lineales, para definir espacios transformados de alta dimensionalidad y
cmo buscar hiperplanos de separacin ptimos en dichos espacios transformados. A cada
uno de estos espacios se le denomina espacio de caractersticas, para diferenciarlo del
espacio de ejemplos de entrada (espacio-x).

En este caso, cada entrada de dos dimensiones es transformada en un espacio de


caractersticas de diez dimensiones. La idea es entonces buscar un hiperplano en el espacio
de caractersticas que sea capaz de separar los ejemplos. La frontera de decisin lineal
asociada a dicho hiperplano se transformar en un lmite de decisin polinomial de grado
tres en el espacio de entradas. Obsrvese tambin que si, en este ejemplo, un problema de
tan solo dos dimensiones se transforma en uno de diez dimensiones, un pequeo aumento
en la dimensionalidad del espacio de entrada puede provocar un gran aumento en la
dimensionalidad del espacio de caractersticas. En el caso lmite, existen incluso espacios
de caractersticas de dimensin infinita. Es por esta razn por la que, ahora, el problema de
optimizacin se expresa slo en su forma dual, ya que, como se ha visto en las dos
secciones anteriores, la solucin de este problema no depende de la dimensionalidad del
espacio sino de la cardinalidad del conjunto de vectores soporte. Si la transformacin del
espacio de entradas al espacio de caractersticas puede definirse a partir de un conjunto
infinito de funciones base, surge la pregunta de cmo transformar los ejemplos de entrada,
de dimensin nita, en otro espacio de dimensin infinita. El siguiente teorema responde a
esta pregunta.

Figura 5: Solucin al problema XOR: (a) hiperplano de separacin en el espacio de caractersticas, junto con su
margen asociado (los cuatro ejemplos son vectores soporte) (b) funcin de decisin no lineal en el espacio de
ejemplos original resultante de transformar el hiperplano obtenido en (a) en coordenadas del espacio original.

Vous aimerez peut-être aussi