Vous êtes sur la page 1sur 32

Resumen Minera De Datos

1. Intro-Data Mining:
El proceso de extraccin de informacin relevante a partir de los datos disponibles es
complejo y costoso.
La minera de datos engloba las tcnicas que permiten analizar patrones en busca de la
generacin de conocimiento, buscando explorar el pasado para predecir el futuro mediante el anlisis
de datos.
Es un campo multidisciplinario que combina estadstica, aprendizaje computacional y
tecnologa de base de datos.

- Aplicaciones de Negocios:
- Marketing y Ventas: Identificar potenciales clientes; establecer efectividad de las
campaas de marketing.

- Anlisis de Procesos de Manufactura: Identificar las causas de problemas de


manufactura.

- Comportamiento de Consumidores: Modelos de retencin de cliente, afinidades,


clustering.

- Deteccin de Fraudes: Identificar transacciones fraudulentas.


- Aprobar Crditos: Establecer Credit Scoring para un cliente a la hora de pedir un
prstamo.

- Gestin de Portafolio: Optimizar un portafolio de instrumentos financieros maximizando el


retorno o minimizando el riesgo.

- Anlisis de Websites: modelar preferencias de usuarios desde log, filtros colaborativos,


caminos preferidos, etc.

Business Analytics
Se refiere a las habilidades y tecnologas utilizadas para explorar el desempeo pasado de un
negocio con el fin de tomar mejores decisiones, utiliza datos, anlisis estadsticos , modelacin
predictiva y optimizacin para lograr que los negocios funcionen mejor.
Es parte de la Inteligencia de negocios para lograr ases decisiones optimas y realistas
basadas informacin.
Los gerentes son incapaces de aplicar el poder de las herramientas de Data Mining para
lograr resultados tiles a sus negocios.
Qu es CRM?
Customer Relationship Management es una estrategia para enfocarse en las necesidades y
valores de los clientes ( de manera individual), para maximizar el retorno de largo plazo de cada
cliente a travs de:
- Atraer a los clientes correctos: los ms rentables.
- Aumentar el life-time value a travs de cross-validation and up-selling
- Aumentar la lealtad para retener a los clientes ms rentables
Aplicaciones de Data Mining en CRM
- Adquisicin de nuevos clientes:
- predecir que prospectos son probables
- Probabilidad de no- pago
- Cross selling
- Predecir ofertas relevantes
- Ofertas de productos en base al ciclo de vida del cliente
- Retencin de clientes
- predecir fuga de clientes
- aprender del uso que los clientes dan a mi sistema

2. Base de Datos
Estn basadas en relaciones (tablas) como estructura de almacenamiento, con atributos o
campos (columnas) y una serie de duplas o registros (filas).
Estandarizaron el lenguaje de manipulacin, usando SQL, creado por IBM en los 80s.
Data Warehouse
Rene datos esenciales provenientes de bases de datos heterogneas desde todas las reas
de negocio. Una base de datos para apoyar decisiones es mantenida separadamente de la bases de
datos transaccional de la empresa. Procesamiento de informacin de soporte mediante una
plataforma solida, de datos histricos y consolidados listos para ser analizados.
Organiza los datos para apoyar decisiones de gestin.
Maneja elevados volmenes de informacin.
Permite el mejor funcionamiento de los mtodos de Data Mining.
Data Warehousing: el proceso para construir DW
Orientada al objetivo:
Organizada en torno a los datos ms importantes de la empresa. Es bueno para realizar filtros
y eliminar informacin poco importante. El modelamiento se enfoca en el anlisis y toma de
decisiones basada en estos datos particulares y no en el procesamiento diario de las
transacciones. Provee una vista simple y concisa de a cerca de los datos de inters, siendo
capaz de verlos desde distintos puntos de vista o dimensiones. A la vez se filtra todo dato que
no aporta a la toma de decisiones.
Unificada:
Basada en unin de informacin de varias fuentes, asegura la consistencia de la informacin
Variante en el tiempo:
Guarda informacin a travs del tiempo. Posee actualizaciones temporales agregadas: no hay
actualizaciones diarias.

Cubos Multidimensionales
Consiste en una representacin multidimensional de datos de detalle y resumen. Tiene como
objetivo mejorar el rendimiento empresarial en lnea y mejorar le rendimientos de las consultas. Son
un subconjunto de datos de la base de datos original. Son capaces de administrar de forma rpida y
eficiente grandes cantidades de informacin.
- Origen de los Datos: Identifica y conecta donde se encuentra el almacn de datos de la
informacin relevante para resolver un problema.
- Medidas: Datos numricos de inters para lo suspiros. Lo que queremos medios o
seleccionar. Se pueden crear algunas medidas.
- Dimensiones: Representan columnas que describen las categoras a travs de las cuales
se separan las medidas. Similitud con los ejes de un sistema cartesiano. Tiene un limite
mximo de 64 dimensiones.
Consolidacin de datos
Bases para modelos de minera de datos. Los modelos se componen de una tabla maestra.
o Consolida toda la informacin.
o Incorpora conocimientos del modelador.
o Unica tabla.
- Importante: Muestreo de la informacin disponible. No debe tener
sesgo.
- Consideraciones archivo maestro: Si tiene muchos casos, eso se ve al
momento de disear experimentos, no al momento de disear la base de datos.
-Variables a considerar:
o Provenientes de las fuentes de datos disponibles.
o Variables objetivo.
o Variables construidas.
o Variables internas:
Variables que estn disponibles. Consideraciones:
Disponibilidad. Existen cambios de bases de datos previsibles?
Tendr esta variable en los prximos dos aos?
Credibilidad. es creble? Est bien calculada?
o Variables externas.
Provienen de fuentes externas independientes a la entidad que crea el modelo.
Consideraciones.
Credibilidad.
Fechas
Disponibilidad/Costo.
o Variables generadas: Se construyen a partir de otras. Ej. ratios, transformaciones
(Edad, Aos de antigedad, etc) Consideraciones: crear variable que tengan sentido
para el problema.
- Fuentes de datos.
-Bases de datos internas.
- Fuentes de informacin externa. Cualquier dato que se disponga, se crea til y
se pueda obtener en periodos sucesivos.
- Datos generados. Toda variable construida a partir de otras disponibles.
- Construccin de tablas maestras
- Se debe considerar el tiempo en donde se obtienen los datos.
- Variables deben ser replicables, congruentes y asociadas al problema.
- Variable objetivo
- Problema ms importante en la definicin del modelo.
- Consideraciones:

Qu deseo modelar?
Se puede calcular?
Horizonte de tiempo.
- Debe ser estndar para todos los casos.

3. Pre- Procesamiento
Proceso de KDD
Es el proceso no-trivial de identificar patrones previamente desconocidos, vlidos, nuevos,
potencialmente tiles y comprensibles dentro de los datos.

AED
La finalidad del anlisis exploratorio de datos (AED) es examinar los datos previamente a la
aplicacin de cualquier tcnica estadstica. De esta forma el analista consigue un entendimiento
bsico de sus datos y de las relaciones existentes entre las variables analizadas.
Proporcionando metodos para:
- Organizar, visualizar y preparar los datos
- Detectar fallos en el diseo y recoleccin de datos
- Tratamiento y evaluacin de datos ausentes
- Identificacin de casos atpicos
- Comprobacin de los supuestos subyacentes en la mayor parte de las tcnicas
multivariantes.
Estadstica Descriptiva

Este tpico se divide de la siguiente manera:


- Tablas y estadsticos descriptivos
- Representacin grfica de datos
Distribucin de Frecuencias

- Proporcionar una reorganizacin racional de los datos que ayude a la toma de


decisiones.

- Ofrecer la informacin necesaria para hacer representaciones grficas de datos.


- Facilitar los clculos necesarios para obtener estadsticos muestrales.
Tabla de Contingencia

Las tablas de contingencia (crosstabs) son tiles cuando queremos comparar dos variables a
la vez.
Grficos

- Son muy tiles para describir los datos y entenderlos de manera rpida

- Existen grficos de distribucin para variables categricas como el grfico de barras, y


para proporciones relativas (diagrama circular).
Medidas de Tendencia Central y Dispersin

Junto con tablas y grficos, la estadstica descriptiva incluye medidas de tendencia central y
dispersin. Dentro de las medidas de tendencia central estn la media o promedio, mediana ,
la moda , el promedio ponderado y la media geomtrica. Dentro de las medidas de dispersin
se consideran el rango, la varianza y desviacin estndar y los percentiles.

- Media: Si se cuentan con n observaciones (muestras) de una variable X, la media


(aritmtica) de los valores observados es. El parmetro que define la media poblacional
(promedio real de las N observaciones de una poblacin) es:

- Mediana: La mediana es la observacin de la mitad despus de que se han colocado todos


los elementos de manera ordenada.
- si n es impar entonces la mediana es (n+1)/2
- si n es par hay dos enfoques: se consideran 2 medianas o stas se promedian en una
(por lo general se hace lo ltimo).

- Moda: La moda es la observacin que ms ocurre con mayor frecuencia. La moda puede
ser nica, pueden haber ms de una moda o no puede calcularse cuando todos los valores
tienen la misma frecuencia. Cuando se dispone de una distribucin de frecuencias, se toma
como moda el punto medio del intervalo de mayor frecuencia.

- Rango: es la medida de dispersin ms simple (y menos til) el rango es simplemente la


diferencia entre observacin ms alta y la ms baja. la desventaja es que solo considera
dos de los cientos de observaciones, ignorando el restos de los datos.

- Varianza: es el promedio de las desviaciones de las observaciones con respecto a su media


al cuadrado.

- Desviacin estndar: es la raz de la varianza. Es una medida muy til de dispersin ya que
tiene las mismas unidades que la variable estudiada.

- Otras medidas de dispersin son los cuartiles, los deciles y los percentiles. Cada conjunto
de datos tiene 3 cuartiles que lo dividen en cuatro partes iguales. Una medida nica de
dispersin es el rango intercuartlico (RIQ), la diferencia entre el tercer cuartil y el primer
cuartil.
Box Plots
Herramienta potente para detectar outliers. Muestra los valores principales de una variable
cuantitativa:

Media/Mediana
RIC
Cuartiles
Valores Fuera de rango
Limites: aquellos valores inferiores a Q1-1,5*RIC o superior a Q3+1,5*RIC

Asimetra
-Asimetra o sesgo, son cuando las distribuciones no son normales si no que estn sesgadas
a la izquierda o derecha.
Curtosis
- Son las medidas de la forma, tratan de estudiar la proporcin de varianza de la distribucin.
El apuntalamiento de la distribucin est dado por:

- Si vale cero es mesocrtica. Positiva es ms apuntalada que la normal y se llama


leptocrtica. Y si es negativa es ms achatada que la normal se llama platicrtica.

- Se suele confundir con la varianza.

Teorema central del lmite.


- Dice que la distribucin de variables aleatorias tiende a una distribucin normal cuando la
cantidad de variables es muy grande.
Intervalos de confianza
- Rango en el cual se puede encontrar un parmetro y el nivel de confianza.
- Representa el numero de desviaciones estndar que se permite para la variacin de la media.
Test de Hiptesis
- Propsito: reducir el nivel de incertidumbre

Limpieza de datos
Tipos de datos perdidos:
Missing Completely at Random (MCAR):
- Valores perdidos no se relacionan con las variables de la base de datos.
Missing at Random (MAR):
- Los valores perdidos se relacionan con los valores de las otras variables dentro de la
base de datos.
Not Missing at Random or Non-ignorable (NMAR):
- Los valores perdidos dependen del valor de la variable.

Tcnicas populares de tratamiento


1.Eliminacin de datos:
- Se encuentra en la mayora de paquetes estadsticos.
- Se ocupa cuando MCAR
Tcnicas populares de Imputacin
2.Sustitucin por la media (mediana y moda)
- Corrompe la distribucin, se suman ms valores a la media.
3.Simple Hot Deck.
- Reemplazar valores perdidos con un valor aleatorio obtenido de la distribucin de
probabilidades de la variable.
- Preserva la distribucin marginal de la variable.
- Distorsiona las correlaciones y covarianzas.
4.Mtodos de regresin:
- Reemplazar valores perdidos con un valor obtenido a travs de un modelo de regresin.
- El problema es que aumenta las correlaciones.
- Reemplazar los valores perdidos con un valor obtenido a travs de un modelo de
regresin ms los residuos de ste.
- Se asume que los datos perdidos no dependen de los valores de Y
- Difcil de ocupar cuando se tiene que todos los campos presentan valores perdidos.

5.Mtodos de rboles de decisin


- Reemplazar los valores perdidos con un valor obtenido a travs de un modelo de rboles
de decisin.
- Problemas con datos multivariados y categricos.
6.Mtodo EM:
- El propsito del mtodo es encontrar la distribucin subyacente de los datos.
- Con datos suficientes se pueden tener estimaciones de mxima verosimilitud.
- Si se tiene conocimiento del problema entonces se pueden ajustar parmetros para
obtener valore de los datos perdidos ciertos.
Como funciona:
1.Darle. valor a los parmetros del modelo.
2.Repetir este paso hasta llegar al resultado deseado
Paso expectation (E): calcular valor esperado de los datos completos basados en la
funcin de verosimilitud.
Paso Maximization (M): se les asigna a los Missing Value el valor esperado obtenido
en el paso anterior y se calcula la funcin de verosimilitud como si no hubiera m.v.
7.Multiple Imputation:
- Basado en tcnicas de simulacin.
- Como funciona:
1.Reemplazar valores perdidos por m > 1 simulados.
2.Se analizan cada uno de los m subconjuntos de la misma forma.
3.Combinar resultados obtenidos
- Es altamente eficiente con pocos datos y pocas muestras vlidas.

- Pro y contra
- A favor: se olvidan los valores perdidos y no se descarta informacin.
- En contra: se alteran los resultados de los modelos y el esfuerzo por encontrar
una buena tcnica de imputacin puede no siempre valer la pena.

Transformacin de Datos.
- Significa escalar con funciones matemticas, mapear, discretizar o agregar datos.
- Sirve para mejorar capacidad de discriminacin de una variable, agrupar datos y reducir clases,
dar significado matemtico a variables e igualar pesos relativos de las variables.
Normalizacin
- Aplicar funcin matemtica a una variable continua para cambiar el rango.
Iguala el tratamiento de cada variable.
Normalizacin escalamiento
- Escalamiento a [0, 1]
- Ventajas: sencillo implementar, y algunos mtodos necesitan este tipo.
- Desventajas: No siempre conozco el rango, no considera dispersin y hay que tener cuidado
con los valores fuera de rango.
Normalizacin Puntaje Z
- Ajuste por media/varianza

- Ventajas: Considera propiedades estadsticas y se conoce media y desv. Estndar.


- Desventajas: Z esta entre infinito y + infinito. Y no todas las variables son normales.
Mapeo
- Se refiere a transformar los datos a una nueva escala.
- Dos tipos:
A variables ordinales (ordenadas de alguna forma, pero sin distancia exacta)
A variables categricas (Sin orden alguno).
- Tipo especial:
Logaritmo: Cuando la variable contina est concentrada en intervalo.
- Mapeo variables ordinales.
Si las variables tienen orden intrnseco, es posible asignar valor numrico a cada categora.
Importante: Slo usar si se est muy seguro de la distancia relativa, ya que puede incorporar
relaciones ficticias.
- Mapeo variables categricas
Si no existe orden o distancia no es clara, se usa una variable Dummy
Sirve para utilizar variables categricas.
Agregacin
- Significa aplicar algn operador a dos o ms variables.
- Reduce la cantidad de variables en la muestra.
- Util en variables categricas:
Reduce Dummys y explica mejor resultados.
- En continuas, incorpora conocimiento del modelador al crear relaciones no triviales.

- Agregacin de variables binarias o categricas


O, Y, XOR
Regla: o a las mas desagregadas luego y segn objetivo.
- Agregacin de variables contnuas.
Se usan funciones matemticas. Por ejemplo proporciones (ingreso/edad) o suma y resta
(utilidad=ventas-costos)
Discretizacin
- Transforma variables continuas a categricas.
- Se usa en arboles de decisin.
- Aumenta nmero de variables, pero puede dar paso a mejor discriminacin.
- Se usa con variables continuas muy concentradas o con comportamiento no lineal.
- Discretizacin de mtodos:
Segn percentiles: % de la variable en cada grupo.
Segn K-S o Chi2: elegir punto de corte que maximiza diferencia.
Segn grupo ad-hoc (no linealidad).
Seleccin de atributos
- Primero: eliminar variables altamente concentradas:
Porcentajes de valores concentrados en un solo valor.
Varianza menor a un cierto umbral.
- Eliminacin de variables con un porcentaje muy alto de valores perdidos.
Depender del nmero de observaciones.
- Objetivo elegir subconjunto de atributos relevantes, eliminando atributos que generen ruido o
confundan al mtodo.
- Se representa mejor el modelo.
- Mtodos:
Filtros. Selecciona atributos de forma independiente del algoritmo de aprendizaje.
Envolvente. Evalan atributos con el algoritmo de acuerdo a su poder predictivo.
Empotrados. Realizan seleccin en el entrenamiento del algoritmo.
- Filtros:
Correlacin entre atributos y variable dependiente
Relacin entre atributo y variable dependiente:
1.Test chi2:
- Se tienen 2 variables categricas.
- Hiptesis: son independientes. (una no afecta a la otra).
- Tabla de contingencia: Matriz con r filas y k columnas, donde r=nmero de valores de
variable 1 y k= nmero de valores de variable 2.
- Ej, se tiene una tabla con variable edad y variable sexo. (Grados de libertad = (r-1)*(k-1).
La idea es comparar frecuencia esperada con frecuencia observada con hiptesis de
variables son independientes.
Frecuencia esperada:
Df=1 y alfa=0.01,Eso da 6.63 en la tabla.

27,8 > 6,63, se rechaza H0, edad y sexo son dependientes.

ANOVA, test KS para atributos numricos.


Anlisis de componentes principales.
Correlacin de atributos
1. Dos atributos estn correlacionados si:
2. En los modelos estadsticos, los atributos tienen que ser independientes, por lo
tanto, si estn correlacionados no se deben agregar. Pero debe eliminarse slo
uno.
Filtro
correlacin de Pearson.

1. Se usa el siguiente coeficiente, con rango (-1, 1)

2. Si la correlacin critica P>0,8-0,9 es recomendable eliminar atributos altamente


correlacionados para evitar problemas de multicolinealidad.

4. Clasificacin
Tipos de aprendizaje
- Aprendizaje supervisado
Se utiliza el conocimiento a-priori del comportamiento de un conjunto de observaciones:
Conjunto de Entrenamiento
Ejemplos: Regresin Logstica, Arboles de Decisin, Redes Neuronales, Redes Bayesianas,
Nave Bayes, Support Vector Machines, etc

- Aprendizaje no-supervisado
No se utiliza conocimiento a-priori del comportamiento de un conjunto de observaciones.
Ejemplos: K-medias, Fuzzy C-Means, Kohonen Self Organizing Maps.
Mxima Verosimilitud
- La estimacin por Mxima Verosimilitud (MLE) es un popular mtodo usado para ajustar
modelos estadsticos a los datos, y entregar los parmetros del modelo.

- El mtodo de mxima verosimilitud nos dice que escogemos como valor estimado el parmetro
aqul que tiene mayor probabilidad de ocurrir segn lo que hemos observado, es decir, aqul
que es ms compatible con los datos observados, siempre suponiendo que es correcto el
modelo matemtico postulado.

Regresin Logstica
- Problema con variable dependiente (p) binaria
- X: Regresores explicativos ( dependientes)
- Regresin lineal entrega valores entre [0, ]
- Solucin: Utilizar funcin regresin logstica para modelar el fenmeno, regresin lineal para
modelar el odd ratio (efecto en la probabilidad)
- Ahora si tiene una variable que puede tomar cualquier valor, por lo que se plantea el buscar para
ella una ecuacin de regresin tradicional:

- Se conoce como la funcin de enlace logit


- Linealiza la relacin entre probabilidad modelada y componente sistemtico
- Interpretacin de coeficientes:
Aumento en X, con coeficiente positivo -> aumento en posibilidad del evento
Aumento en X, con coeficiente negativo -> disminucin en posibilidad del evento
Coeficiente sin variable (constante) : riesgo intrnseco a la poblacin. Riesgo del modelo.
- Obtencin de Parmetros:
Mtodo: Estimacin Segn Mxima Verosimilitud
Mtodo para estimar parmetros
Ventaja: No existen restriccin sobre variables
Desventaja: Mtodo complejo
Muestra con estimadores p(x) (modelo logstico)

Para estimar se maximiza la funcin de verosimilitud:

n1: cantidad de casos positivos


Estimadores corresponden a solucin de este problema

Propiedades:
Invariaza Funcional: Estimador del parmetro asociado a la funcin es la funcin del
estimador
Estimador es asintticamente insesgado

Estimador es asintticamente eficiente (eficiente: alcanza lmite inferior de CramerRao cuando tamao del dataset tiende a infinito.
Estimador es asintticamente normal.

Alternativa: Mnimos Cuadrados (regresin lineal)


Ventaja: Sencillez de Implementacin
Desventaja: Requiere normalidad en las variables, Entrega resultados sesgados.
Aplicacin : Credit Scoring
- Qu es Credit Scoring?
Mtodo cuantitativo usado para predecir la probabilidad de que un aspirante a un
crdito no sea buen pagador en caso de recibirlo.
Basado en informacin histrica del postulante: historial de pago de boletas, crditos
anteriores, deuda, etc.
- Por qu es importante?
Morosidad trae altos costos para la empresa crediticia
Es esencial para la entidad decidir de manera rpida y transparente qu es buen
candidato a un crdito y quin no lo es.
- Beneficios:
Ayuda a reducir la discriminacin
Permite acelerar y hacer ms consistente el proceso de asignacin de crditos.
Permite utilizar la informacin generada para formular mejores estrategias de
cobranza y utilizar sus recursos ms eficientemente
Realizar una mejor prediccin de la reclamaciones, controlar el riesgo de manera
efectiva y determinar el precio de los seguros de manera adecuada
Permite ofrecer mayor cobertura a ms clientes a un precio equitativo, reaccionar
rpido ante los cambios del mercado y obtener ventajas competitivas.
K-vecinos ms cercanos
- Al valor desconocido se le asigna la etiqueta ms representada dentro de los k vecinos
- Por lo general se utiliza la distancia euclidiana:

- Considerar k impar para evitar empates


- Este mtodo supone que los vecinos ms cercanos nos dan la mejor clasificacin y esto se hace
utilizando todos los atributos.

- Problema: muchos atributos irrelevantes que dominen sobre la clasificacin: dos atributos
relevantes perderan peso entre otros veinte irrelevantes.
- Solucin: Filtrar atributos, ponderar distancias
Modelos Bayesianos
- Manera de relacionar las ocurrencias de eventos.
Busca descubrir la ocurrencia de un evento futuro usando lo que ya s de l.

Formula de bayes:
Problema de clasificacin, cuando el vector X tiene n atributos, y existen m clases.

La asignacin de X a clase C se calcula tomando la probabilidad mxima.


rboles de decisin
- Arboles de clasificacin.
- Una decisin nace de una serie de condiciones en cadena.
- Tipos de algoritmos
Algoritmo ID3
- Solamente permite clasificar datos con atributos categricos.
- Construccion:
Para cada atributo calcular:
1. Medida de informacin en el nodo:
a.M: numero de valores distintos del atributo considerado.
b. Prob, a priori que un ejemplo tome el valor i del atributo.
c. Ki nodo i sucediendo al nodo K
d. E2(Ki): entropa del nodo Ki
e. Gain (K) ganancia en informacin o reduccin de entropa si se utiliza atributo K.
Algoritmo C4.5
- Igual al ID3, pero considera clasificar atributos con valores continuos.
- Se arman rangos que permiten manejar los atributos como valores categricos.
- Test Chi-cuadrado es de mayor importancia.
- Construccin:
Base de datos con N atributos y dos clases: + y -.
Partir de un nodo con todos elementos. Tomar ese nodo.
Criterio de detencin:
1. Si en el nodo tengo solo atributos de la misma clase.

- Asignar a nodo la clase, volver a nodo anterior. Si estoy en nodo original (raz),
terminar.
2. Si no me quedan atributos.
Si tengo atributos
1. Elegir atributo que mejor clasifique a los datos.
2. Ramificar utilizando ese nodo.
3. Avanzar al nodo siguiente y volver a 3.
Mtodo seleccin de un atributo.
1. Se necesita una medida de la cantidad de informacin que aporta un atributo. Ej
entropa.
2. Algoritmo: seleccionar nodo con menor entropa
ID3 utiliza entropa

- Otro Mtodos de Seleccin


Indice de Gini:
- Pretender medir el grado de impureza de un nodo
- Tiende a crear ramificaciones desbalanceadas, agrupando una clase mayoritaria en un
nodo, y el resto en otros nodos
Indice de Towing:
- No es una medida de impureza
- No alcanza mximo cuando la impureza es mxima.
- Es recomendad cuando existen ms de dos clases en el atributo objetivo
- Sobreajuste
Se dice que un modelo M est sobre-ajustado, si existe otro modelo m tal que
- Error de M en conjunto de entrenamiento es menor a Error de m en conjunto de
entrenamiento
- Error de M en conjunto de testeo es mayor a Error de m en conjunto de testeo
- Bajo poder de prediccin para muestras que no estn representadas por aquellas
utilizadas para entrenar el modelo. Se pierde generalidad.
En rboles de decisin:
- Puede Ocurrir cuando hay muchas ramas
- Peor caso cuando el rbol crece de manera que separa cada dato presente en la muestra
de todos los dems
Evitando el Sobreajuste
- Pre- Poda: para la construccin del rbol antes que se termine de construir
- Detener el crecimiento del rbol dado un nmero mnimo demuestras presentes en
un nodo despus de cierto nmero de niveles.
- Post- Poda: Remover las ramas de un rbol de decisin completo,
- Se debe utilizar un conjunto de datos distinto que el de entrenamiento
- al plantear el problema como un modelo de optimizacin, por el momento solo se
deben considerar Heursticas.
Ventajas
- Faciles de entender y transparentes
- Acepta todo tipo de variables y valores
- Descubre relaciones complejas
Desventajas
- Cuando hay muchas variables se vuelve complejo de entender
- No estudia relaciones no lineales
- Cuando hay muchas variables continuas, piden ser mejor otros mtodos.

Redes Neuronales
- Mtodo de regresin y clasificacin de aprendizaje supervisado
Las redes neuronales pertenecen al conjunto de herramientas de clasificacin y regresin no
lineal.
Se ha demostrado que es un aproximado universal
Modelo adecuado para abordar un gran nmero de problemas. Aproximar funciones no
lineales y filtrar ruido en ls datos
- Algoritmo Perceptrn
Modelo de Clasificacin que define un lmite de decisin para clases +1 y -1
Puede representar cualquier lmite de decisin lineal.
Solo permite entrada Binarias
Solo puede clasificar datos que sean linealmente separables, dado que es la nica manera de
que converja.

- Representacin de Funciones Lgicas

- Perceptrn Multicapa
Nace como respuesta a los problemas de perceptrn

Estructura Perceptrn Multicapa


- Nodos asignados en capas
- Capa de entrada: Se encargan de recibir las seales o patrones que proceden del
exterior y propagar seales a todas las otras neuronas de la siguiente capa
- Capas ocultas: Son las que tienen la misin de realizar el procesamiento no lineal de los
patrones recibidos
- Capa de Salida: Acta como la salida de la red proporcionando al exterior la respuesta de
la red, para cada uno de los patrones de entrada.
- Funciones de transferencia: Funcin que lleva las salidas de una neurona a otra.
Corresponde a la sinapsis y es el centro de la tcnica
Salidas de la Red
- Se define Y=(y1,y2,,yk) como el vector de salida de la red
- Finalmente se puede ver que la red neuronal es una funcin continua no lineal que:
Permite obtener el resultado asociado a los valores de las variables de entrada a un
espacio de salida continuo de salida
- Dimensin de salida igual al nmero de clases
La
funcin
F se puede representar por una expresin analtica, que por lo general es

sumamente compleja (varias composiciones de funciones)


Red Neuronal

Problema General

- Algoritmo Backpropagation
Algoritmo que permite encontrar de manera heurstica la solucin al problema de minimizacin
del error de la red neuronal
Compuesto de manera general por los siguientes pasos:
1. se presentan las observaciones a la red y utilizando los pesos actuales se calculan los
valores de salida
2. se calculan los errores tomando las diferencias entre los resultados obtenidos y los
resultados esperados
3. el error se retro-alimenta a travs de la red y los pesos son ajustados para minimizar el
error.
Una de las principales problemticas del algoritmo backpropagation es que se presenta la
situacin de encontrar como solucin mnimos locales
se puede evitar este problema modificando los valores de la tasa de aprendizaje
- Ajuste de Parametros
Cantidad de capas ocultas
- Cualquier funcin booleana puede ser representada por una red neuronal con solo una
copa intermedia. Lamentablemente puede necesitar un numero exponencial ( en numero
de entradas) de nodos en la capa media.
- Cualquier funcin continua acotada puede ser aproximada con, bajo error, por una red
neuronal con una sola capa intermedia.
- Cualquier funcin puede ser aproximada con cierto nivel de precisin, con una red
neuronal con dos capas ocultas.
Cantidad de Neuronas
- La cantidad de neuronas de entrada y salida estn definidas por el problemas
- La cantidad de neuronas en las capas ocultas determinan los grados de libertad del
modelo
Numero muy pequeo de neuronas pueden que no sean suficientes para problemas
muy complejos
Numero muy grande de neuronas pueden sobre entrenar el modelo y tener una
perdida de generalidad ante nuevas observaciones.
- Finalmente la decisin la toma el data miner
- La cantidad de neuronas en las capas ocultas dependen de una serie de factores:
Cantidad de observaciones en el conjunto de entrenamiento
Cantidad de ruido en los datos
Complejidad del problema de clasificacin
Cantidad de atributos (entrada) y clases (salida)
Funciones de activacin entre capas
Algoritmo de entrenamiento
- Una opcin es ir evaluando varias redes neuronales para ir determinando el numero
apropiado de neuronas
- Otra opcin es comenzar con un numero grande de neuronas y conexiones, y a medida
que se va construyendo la red neuronal, se van podando aquellas conexiones que son
innecesarias
Decaimiento
- Decaimiento de los pesos
Para prevenir que los pesos vayan creciendo sin control alguno a valores muy
grandes (seal de sobre entrenamiento), es conveniente agregar un decaimiento a
los pesos de la forma: w(n+1)=(1-)w(n)
Pesos que no son necesarios y no se van actualizando en cada iteracin del
algoritmo, van a decaer hasta anularse, mientras que aquellos que si son necesarios
y se van actualizando de manera continua con backpropagation y ajustando con el
decaimiento

Otros
- Numero de pocas
Para evitar el sobre entrenamiento y el tiempo computacional necesario para entrenar
la red, se puede fijar un cierto numero de pocas de entrenamiento de acuerdo al
comportamiento observado del error de entrenamiento y de prueba.
- Entrenamiento con ruido
Se puede dar el caso que sea necesario agregar ruido a las observaciones de
entrenamiento de manera de entregar una mayor generalidad al modelo
- Funcin de activacin
Una red neuronal MLP entrenada con el algoritmo backpropagation entrena
generalmente ms rpido si se utiliza una funcin de activacin anti-simtrica (f(-x)=f(x))
- Tasa de aprendizaje
Se recomienda utilizar una combinacin de tasas de aprendizaje sobre distintas redes.
Este parmetro, a grandes rasgos, permite definir la velocidad por sobre la cual se va
acercando al optimo del problema de optimizacin definido sobre una red neuronal
artificial.
- Momentum
Se puede incluir un parmetro llamado momentum utilizado para la actualizacin de los
pesos en el algoritmo backpropagation
Permite considerar la cantidad de movimiento que cada peso tiene al irse actualizando
- No existe una regla general para los valores de ambos parmetros, pero para el
momento se recomiendan valores cercanos a 0.9
- Tasas de aprendizaje pequeas (0.3-0.4) aumentan convergencia, pero realentizan
entrenamiento
- Condiciones Iniciales
Preprocesamiento de datos de entrada
- Los datos de entrada deben estar pre-procesados de manera que su media sea cero, o
un valor muy bajo con respecto a la varianza
- Los datos no deben estar correlacionados
- Las variables de entrada deben tener una varianza similar
- Las variables de entrada deben estar usualmente en la misma escala
Pesos
Iniciales

- Pesos inciales deben ser valores pequeos para evitar la saturacin de las neuronas
- valores de los pesos de entrada-capa-media son mayores que pesos capa-mediasalida dado que actualizan sus valores con los errores backpropagation.
- Ventajas
Algoritmo muy potente. Permite aproximar cualquier funcin
Flexible
- Datos de entrada deben ser preprocesados, pero bajo condiciones poco restrictivas.
- Funciones de transferencia y de salida entregan mltiples salidas.
- Parmetros permiten adecuar an ms resultados esperado
No linealidad entrega aplicabilidad amplia
- Desventajas
Algoritmo muy complejo
- Alcanzar convergencia ptima es muy difcil
- Complejidad computacional exponencial
Gran cantidad de parmetros a explorar
- Requiere experiencia y mucho ensayo y error
Flexibilidad es una espada de doble filo
- Gran cantidad de formas de errar
Support Vector Machine

- Riesgo
Al aproximar se pueden cometer dos tipos de errores:
- Riesgo emprico: error asociado a la base de datos que observo.
- Riesgo estructural : error asociado al espacio que estudio.
Riesgo
Minimizacin

- Para toda f existe f tal que acierte en conjunto de muestra y falle en todos los dems
puntos. (NO sirve minimizar riesgo emprico )
- Teorema (Vapnik-Chervonenkis): Minimizacin de riesgo estructural est acotada por la
capacidad de una funcin y el riesgo emprico. Capacidad: cantidad de puntos separables
en todas las maneras posibles
- Componentes Bsicos

- Descripcin del Problema

- Funcin Kernel

- Ventajas
Potente algoritmo clasificador. Teoremas de aprendizaje son los ms potentes actualmente
Se puede aplicar a tipos de datos raros: imgenes, texto, etc. Aplicables a cualquier espacio
de Hilbert.
Flexibilidad total
- Desventajas
Gran cantidad de elementos a determinar (kernels)
Clasificador binario
No permite clases mltiples de forma nativa
Mutliclasificadores
- El problema
En general la idea es no quedarnos con una sola tcnica, aunque sea lo mejor tcnica (que
nos entregue los mejores resultados de acuerdo a una instancia del problema), o la ms
efectiva (presentando la oportunidad de tener un modelo robusto ante nuevos elementos a
clasificar).
Idea 1: Explotar las caractersticas de cada mtodo para obtener mejores resultados
Idea 2: Combinar los resultados de cada mtodo de la manera adecuada
- Modelos para construccin
1. Subsampling de las observaciones de entrenamiento mediante tcnicas de resampling
(boosting, bagging)
2. Manipulacin de la seleccin de atributos para entrenar distintos modelos con conjuntos de
atributos distintos
3. Modificacin de los parmetros del clasificador de manera de obtener distintos modelos
asociados a un conjunto de entrenamiento dado
4. Diversificacin de modelos a utilizar para determinar los valores asociados a la solucin
del problema objetivo
- Estructuras

Paralelos: Todos los clasificadores son invocados independientemente y sus resultados


combinados a travs de algn criterio adecuado.
En cascada: clasificadores son llamados de manera secuencial
Jerrquicos: Clasificadores son llamados a travs de una estructura de rbol definida por
jerarqua
Estrategias de Combinacin
Estticos
- No entraables: La votacin se realiza de manera independiente y no paramtrica el
desempeo de cada clasificador.
- Entrenables: El combinador inicia una nueva fase de entrenamiento de manera de
mejorar el desempeo general de los modelos generados
Adaptativos
- La funcin que define al combinador depende de los atributos iniciales considerados para
lo distintos modelos.
Bagging
(Bootstrap Aggregation) crea un multiclasificador entrenando modelos individuales en
muestras derivadas de la tcnica de resampling bootstrap como conjunto de entrenamiento
Bootstrap: sampling -con-reemplazo.
Bagging usualmente utiliza componentes de clasificacin de la misma clase, y el combinador
es de tipo majority voting
Boosting
Utiliza una tcnica de resampling distinta a bagging, la cual mantiene la probabilidad constante
de 1/N para la seleccin de cada observacin.
Se va actualizando la probabilidad utilizada en el resampling en el tiempo, basado en el
desempeo modelo.
Existe una gran variante de tcnicas de boosting, uno de los ejemplos ms utilizados es el
algoritmo adaboost.
Satcking
Stacking ( o Stacked Generalization) entrena distintos clasificadores utilizados bootstrap,
cuyas salidas se utilizan para entrenar un meta-clasificador.
La idea central es aprender sobre el aprendizaje de los datos, identificado que observaciones
han sido correctamente aprendidas.
Por ejemplo, si un clasificador consistentemente se equivoca en clasificar obs. de una cierta
regin, el meta-clasificador puede aprender este comportamiento y corregirlo con los otros
clasificadores.
meta-clasificador ms comn: Naive Bayes
Random Forest
Puede verse como un mtodo de clasificacin por si slo
Consiste en generar varios arboles de decisin y obtener una salida a partir de la moda de las
salidas (clase) de stos.
Las obs. se obtiene mediante bagging, mientras que los atributos se seleccionan
aleatoriamente.
No se utiliza poda en los rboles
Ventajas
- Buenos resultados empricos
- Aprendizaje rpido
- Robusto frente a missing values
- Puede determinar la relevancia de los atributos
Desventajas

- Tendencia a sobreajustarse, sobre todo con ruido


- Problemas con muchos atributos irrelevantes.

5. Validacin
Validacin de Modelos
- Se debe considerar varios puntos al evaluar el desempeo de un determinado modelo:
Estrategia de entrenamiento y prueba:
- Holdout
- Cross Validation
Tipos de error y medidas de evaluacin
Evaluacin de costos de clasificacin
Mtodos de evaluacin con grficos
- Curvas Roc
Conceptos bsicos
- Datos de Entrenamiento : datos utilizados para entrenar el modelo
- Datos de Prueba: Datos utilizados para probar el modelo
- Datos Objetivo (Prediccin): datos sobre los cuales se ejecuta posteriormente el modelo
- Error del Modelo (Prueba): Observaciones mal clasificadas sobre observaciones totales.
Tasa de xito = 1- error de testeo
Holdout
- Contando con una sola base de datos, se debe disear un mtodo de mediacin independiente
Idea intuitiva: Dividir en dos partes. Ambas representativas
- Problemas:
Todas las clases deben estar bien representadas en ambos conjuntos.
Existe un trade-off entre la cantidad de datos considerados para el conjunto de entrenamiento
y de prueba.
- Es necesario un conjunto de entrenamiento mayor para estimar el modelo
- Es necesario un conjunto de prueba mayor para tener una buena estimacin del error
- Opciones:
Holdout estratificado: Igual frecuencia de clases en cada particin Entrenamiento/Prueba
- Se considera generalmente la regla 75% entrenamiento y 25% prueba para la divisin de la base
de datos.
Esto depender de la cantidad de casos
Intentar no dejar menos de 100 o 200 casos para validar
Cross Validation
- Validacin Cruzada de n-folds
Se subdividen los datos en n subconjuntos disjuntos
Se considera la evaluacin de n-1 subconjuntos para el entrenamiento del modelo y 1
subconjunto para la prueba
Repetir hasta que los n subconjuntos fueron evaluados como prueba
- Estimacin del error: Promedio de los errores considerados para las n evaluaciones de la
prueba.
- el caso ms usado es una validacin cruzada de 10-folds
- K validacin cruzada de n-folds
Se evala K veces una validacin cruzada de n-folds
Su intencin es minimizar (promediando) el ruido incorporado
- Este mtodo es muy costoso, pero es el mtodo estndar en los experimentos en papers
Usualmente k= 100 o 1000 y n=10
La idea es que si los experimentos tienden a infinito, el promedio del error tiende al valor
sistematico

Medidas de Desempeo

Curvas ROC
- Grfica la razn de xitos (sensibilidad o TPR) vs la razn de falsas alarmas (1-especificidad o
FPR)
- Un buen modelo tendr, para cada posible umbral, una tasa alta de xitos y una baja tasa de
falsas alarmas
- Esto se refleja en la curva ROC como una curvatura ms pronunciada. Un modelo que no
discrimina formar una recta
- El rea bajo la curva (AUC) representa una medida robusta para la medicin de los modelos
de clasificacin. Esta medida es creciente y va desde 0,5 (modelo aleatorio) a 1
(discriminacin perfecta)
Desempeo
por costos

6. Regresin
Regresin
- La regresin trata con problemas donde el valor a clasificar puede tomar valores en un rango
continuo.
Procedimiento

- Estudiar el comportamiento temporal y dinmico de alguna variable.


- Encontrar la mejor funcin que describa este fenmeno.
- Aplicar la funcin encontrada a la prediccin de nuevos valores de la serie.

Regresin General
- Tipos de Variables
Dependiente (Y): variable a ser explicada o endgena.
Independientes (X): Variables explicativas o exgenas
Ficticias: dummies o cualitativas
- se utilizan para incluir variables nominales o para incorporar tendencias u otros factores.

Regresin Lineal
- Regresin Simple y Mltiple
Simple: 1 Variable explicativa y 2 parametros (una constante ms una variable
Multiple: Ms de una variable explicativa y/o ms de 2 parametros
- Regresin lineal Simple

Regresin Muestral
- En la prctica no contamos con todos los datos, sino que con una muestra de ellos
- La funcin de regresin muestral es una aproximacin de la funcin de regresin poblacional
- La intencin es hacer esta funcin lo ms cercana a los datos originales como sea posible
Mnimos Cuadrados Ordinarios
- Criterio de MCO: encontrar los estimadores que minimizan la suma del cuadrado de los residuos

Supuestos
1. El valor esperado de error en cualquier observacin deber ser nula
2. La varianza poblacional del error es constante para todas las observaciones
3. La distribucin de la observacin i es independiente de la observacin j
4. El error esta distribuido independientemente de la variable exploratoria
5. Usualmente se asume que el error est distribuido de forma normal.
Ajuste

- R^2 representa la suma total de cuadrados explicada por regresin


- R^2 est entre 0 y 1, si es 1 todos los puntos estn sobre la recta estimada y si es 0 la recta
no explica nada.
- Nos permite medir el ajuste de la regresin a los datos.
Propiedades R^2
- Invariante frente a cambios de escala

- R^2 representa la cantidad de varianza explicada por la regresin

- R^2 aumenta a medida que hay ms variables en la regresin

Regresin Polinomial
- Una recta no siempre se ajusta bien a los modelos, la regresin lineal es lineal en los
parmetros no en las variables
- Solucin: Incorporar un polinomio de las variables en la regresin

- El problema que con la regresin polinomial es que existe una forma clara de determinar el
grado del polinomio.

- Solucin: graficar el problema, cantidad de puntos de inflexin determina el grado, donde los
punto de inflexin son los cambios de sentido en la curva, donde ser el nmero de puntos de
inflexin +1 el grado del polinomio
Regresin Redes Neuronales
- Las redes neuronales tambin pueden ser utilizadas para una regresin
- Las redes neuronales son aproximados universales.
Una funcin continua y acotada puede ser aproximada con cualquier tolerancia por una red
neuronal con una sola capa oculta
Una funcin contina general puede ser aproximada con cualquier tolerancia por una red
neuronal con dos capas ocultas.
Support
Vector Regression

Medidas de Performance

7. Segmentacin
Introduccin
- Cluster: Una coleccin de objetos
Similares entre aquellos objetos del mismo cluster
Distintos a los objetos de otros cluster
- Anlisis de Cluster
Agrupar un conjunto de datos cluster en base a los atributos definidos para determinar
cun similares son unos objetos de los otros
- Un buen Clustering produce un cluster con
Alto nivel de similitud entre los objetos de la misma clase
Bajo nivel de similitud entre las distintas clases
La bondad de los cluster dependen directamente de la opinin de los usuarios
Aplicaciones
- Marketing: Segmentacin de mercado
- Reconocimiento y procesamiento de patrones en imgenes
- Preprocesamiento de datos para la entrada de un modelo
- Clasificacin de documentos, patrones de uso de sitios por usuarios, agrupamiento de sitios
de inters.
- Redes Sociales

Ejemplos de Medidas

Tipos de Algoritmos
- Mtodos de particionamiento
El nmero de clases se conoce inicialmente, por lo que el conjunto de datos se divide en
nuevos conjuntos de datos similares.
A partir de un particionamiento inicial (aleatorio) se reasignan los puntos hasta
- Metodos Jerrquicos
El nmero de cluster esta determinado a partir del mtodo
- Top - Down: Se inicia con todos los elementos en cluster nico y se va refinando
- Bottom - Up: Se inicia con un par de elementos que forman un cluster y se van
agrupando con el resto
- Mtodos Basados en Densidad
Elementos vecinos se agrupan en medidas de densidad local
O cumplir propiedades fijadas a priori a una distancia determinada en te los elementos
- Mtodos basados en Modelos
Hiptesis para cada cluster: Distribucin o Modelo Determinado
Objetivo: Determinar el mejor ajuste del modelo
Clustering
- Es relevante escalar los valores de las variables en un mismo rango
- Si no se normaliza o estandariza, algunos atributos pueden tomar mayor relevancia
que otros en el modelo, afectando los resultados.
- Es importante utilizar aquellos atributos que son relevantes para disminuir la complejidad
computacional
- Muchos atributos pueden no aportar informacin relevante y afectar los tiempos de
calculo de los segmentos.

K-Medias
- Dado un K, se implementa fundamentalmente en los siguientes pasos:
1. Inicializar centroides (aleatorios).
2. Particionar los objetos en K subconjuntos no vacos segn distancia.
3. Calcular los centroides de los cluster de las respectivas particiones. El centroide
representa el centro de cada cluster.
4. Asignar a cada objeto al clster cuyo centroide sea el ms cercano.
5. Volver al paso 2, y detenerse cuando ya no ocurran actualizaciones.
Clustering
Jerrquico

- Clustering Jerrquico Aglomerativo (Bottom Up)


- Se inicia con cada uno de los datos presentes en la base de datos como un cluster, y se
van agrupando iterativamente hasta tenerlos todos incluidos en una jerarqua.
- Problemas de implementacin: Nmero muy grande de datos inciales
- Clustering Jerrquico Divisivo (Top Down)
- Toda la base de datos se inicia como un cluster. Posteriormente se van definiendo los
clusters iterativamente dentro del cluster inicial de manera jerrquica.
Clustering
Jerrquico Aglomerativo

Fuzzy C-Means

Ventajas
- Flexible
- Existen varias alternativas de implementacin con un bajo nivel de parmetros
- Es posible utilizar distintas medidas de distancia para distintas aplicaciones, dependiendo
de la aplicacin
- Aproximacin Jerrquicas y no Jerrquicas
- Es posible organizar el conjunto de datos de manera jerrquica, lo que permite identificar
entre otras cosas el numero de clusters presentes.
- Es posible definir un ajuste de la base de datos en funcin de un nmero inicial de clusters
que se deseen comprobar.
- Aproximaciones paramtricas
- Permiten estimar las probabilidades de pertenencia de los objetos a los distintos clusters
Desventajas

- Interpretacin:
- Siempre es necesario un anlisis con expertos en el tema para validar os resultados
obtenidos.
- Es difcil definir la medida de similitud entre objetos, depende de la interpretacin.
- Gran variedad de mtodos para analizar la segmentacin. No es fcil decidirse por un solo
mtodo, es necesario evaluar la mayor cantidad y apoyarse a la vez de conocimiento
experto.
- Implementacin:
- Muchas tcnicas de clustering son costosas en implementacin,
- El definir adecuadamente los clusters en una determinada base de datos puede ser
sumamente costoso computacionalmente.

8. Reglas de Asociacin
Reglas de Asociacin
Proceso:
- Buscar reglas para concluir la venta de un producto a partir de la venta de otro
- En general busca asociaciones de causalidad o de congruencia.
Soporte de una regla

Confianza de una regla

Lift de una Regla

Algoritmo Apriori
- Algoritmo estndar para encontrar reglas de asociacin
- En base a estructura de rbol crea la distribucin
- Principio bsico: Si una regla es frecuente, tambin lo son todas sus combinaciones de menor
orden
- La inversa tambin es cierta
- Frecuencia:
- Si {c,d,e} es frecuente, tambin lo son las combinaciones de menor orden
- se sigue la estructura de combinaciones de rbol
- las combinaciones de menor orden son consideradas
- {c,d} ,{d,e}, etc son combinaciones validas

- Si una combinacin es irrelevante entonces tambin lo sern sus combinaciones de


orden superior.
- {A,B} irrelevante => {A,B,C} irrelevante
- Esto sigue logica comn
- Permite reducir el rbol de forma drstica

- Algoritmo:
- Input: Dataset con todas las compras, una variable por cada item, un registro por cada
transaccin.

- Algoritmo:

1. Encontrar todos los conjuntos de 1 elemento que son frecuentes. Repetir hasta que
no se encuentran.
2. Para k = 1 hasta nmero de elementos.
1. Generar combinacin de (k+1) elementos que sea frecuente.
2. Cortar elementos y sus derivados que no sean frecuentes.
3. Contar soporte de todos los sobrevivientes.
4. Eliminar elementos con soporte insuficiente y sus derivados.
- Salida: Base con todas las transacciones relevantes.

Vous aimerez peut-être aussi