Arboles de Clasificacion y Regresión

Anlisis Multivariante
Prof: Marco Zavaleta

pcmamzav@upc.edu.pe

El Anlisis Multivariante (Cuadras, 1981) es la rama de
la Estadstica y del anlisis de datos, que estudia,
interpreta y elabora el material estadstico sobre un
conjunto de n>1 de variables, que pueden ser
cuantitativas, cualitativas o una mezcla.
DEFINICIN:
OBJETIVOS:
1. Resumir los datos mediante un pequeo conjunto de
nuevas variables con la mnima prdida de informacin.
2. Encontrar grupos en los datos, si existen.
3. Clasificar nuevas observaciones en grupos definidos.
4. Relacionar dos conjuntos de variables
Anlisis de dependencia tratan de explicar la variable
considerada independiente a travs de otras consideradas
independientes o explicativas
Anlisis de interdependencia otorgan la misma
consideracin a todas las variables, tienden a descubrir
las interrelaciones y estructura subyacente entre ellas.
Son tcnicas de clasificacin
Otras tcnicas Intentan superar el enfoque monocriterio
de las anteriores intentando explicar procesos complejos
Anlisis multivariante
Las diferentes tcnicas de anlisis multivariante cabe
agruparlas en tres categoras:
Escalas de medicin
No mtricas nominal y ordinal
Diferencias en tipo de clase.- Indican presencia o
ausencia de una caracterstica o propiedad

Atributos.- caractersticas o propiedades que identifican
o describen un objeto

Mtricas intervalo y razn
Diferencian en grado o cantidad
Reflejan cantidades relativas o grado
Escalas de medicin
Arboles de Clasificacion y regresin
El problema de la clasificacin de individuos u objetos en grupos o
poblaciones conocidas es de gran inters en estadstica, por esta razn
se han desarrollado tcnicas para cumplir ste objetivo. Algunas de las
ms conocidas son:
Anlisis discriminante lineal.
Anlisis discriminate cuadrtico.
Anlisis discriminate no-mtrico.
Regresin logstica.
Se han desarrollado otras tcnicas de clasificacin basadas en arboles
de decisin. Una de ellas es rboles de Regresin y Clasificacin, en
adelante CART (de sus siglas en ingls, Classification And Regression
Trees), propuesta por Breiman (1984).
CART: Classification And Regression Trees
Breiman (1984), desarroll el algoritmo CART cuyo resultado es en
general, un rbol de decisin, las ramas representan conjuntos de
decisiones y cada decisin genera reglas sucesivas para continuar la
clasificacin (particin) formando as grupos homogneos respecto a
la variable que se desea discriminar. Las particiones se hacen en
forma recursiva hasta que se alcanza un criterio de parada, el mtodo
utiliza datos histricos para construir el rbol de decisin, y este
rbol se usa para clasificar nuevos datos.
rboles de clasificacin. Este tipo de rboles se emplea para
variables categricas, tanto nominales como ordinales.
rboles de regresin. Este tipo de discriminacin se aplica a
variables continuas
CART es un mtodo no-paramtrico de segmentacin binaria donde
el rbol es construdo dividiendo repetidamente los datos. En cada
divisin los datos son partidos en dos grupos mutuamente
excluyentes. El nodo inicial es llamado nodo raz o grupo madre y
se divide en dos grupos hijos o nodos, luego el procedimiento de
particin es aplicado a cada grupo hijo por separado. Las divisiones
se seleccionan de modo que la impureza de los hijos sea menor
que la del grupo madre y stas estn definidas por un valor de una
variable explicativa (Deconinck etal., 2006).
El objetivo es particionar la respuesta en grupos homogneos y a la
vez mantener el rbol razonablemente pequeo.
Para dividir los datos se requiere un criterio de particionamiento el
cual determinar a la medida de impureza, esta ltima establecer el
grado de homogeneidad entre los grupos.
El anlisis de arboles de clasificacin y regresin (CART)
generalmente consiste en tres pasos (Timofeev, 2004):
1. Construccin del rbol mximo.
2. Poda del rbol.
3. Seleccin del rbol ptimo mediante un procedimiento de
validacin cruzada (cross-validation).
Estructura de un rbol de Clasificacin
Partiendo de una Base de Datos con una variable Y a
discriminar, denominada variable respuesta, y un conjunto finito
de variables X1, X2,..., Xk conocidas como variables
explicativas. Se tratar de seleccionar entre las variables
explicativas aquellas que discriminen mejor a la variable Y.
Obtenindose una particin de la poblacin de forma que se
encuentren dos o ms subgrupos lo ms heterogneos posibles
entre s con respecto a la variable respuesta Y, y lo ms
homogneos posibles dentro. Esta discriminacin se contina
para los nuevos nodos generados y se aplica un criterio de
parada, obteniendo el rbol de clasificacin o regresin.
Un rbol de decisin consta de los siguientes elementos:
Nodos intermedios: se generan dos o ms segmentos
descendientes inmediatos (dependiendo del mtodo empleado).
Tambin llamados segmentos intermedios.
Nodos terminales: Es un nodo que no se puede dividir ms.
Tambin denominado segmento terminal.
Rama de un nodo t : Consta de todos los segmentos
descendientes de t, excluyendo t .
rbol de decisin completo (Amax): rbol en el cual cada nodo
terminal no se puede ramificar.
Sub-rbol: Se obtiene de la poda de una o ms ramas del rbol
Amax.
Estructura de un rbol de Clasificacin
Construccin del rbol mximo
El rbol mximo es construido utilizando un procedimiento de particin
binario, comenzando en la raz del rbol, este rbol es un modelo que describe
el conjunto de entrenamiento (grupo de datos original) y generalmente es
sobreajustado, es decir, contiene gran cantidad de niveles y nodos que no
producen una mejor clasificacin y puede ser demasiado complejo.
Cada grupo es caracterizado por la distribucin (respuesta categrica), o por la
media (respuesta numrica) de la variable respuesta, el tamao del grupo y los
valores de las variables explicativas que lo definen. Grficamente, el rbol se
representa con el nodo raz (los datos sin ninguna divisin), al iniciar y las
ramas y hojas debajo (cada hoja es el final de un grupo).
Formacin de Nodos
Hay un gran nmero de posibles formas de efectuar divisiones en
funcin de los valores que tomen las variables explicativas X1, X2,...,
Xk, y generalmente no se pueden considerar todas ellas. Depender en
gran medida del tipo de variable que estemos tratando:
Variable cualitativa nominal: En este caso la variable toma C
valores distintos entre los que no cabe establecer un orden natural.
Variable cualitativa ordinal: En este caso si la variable toma d
valores, una vez ordenadas las categoras, se consideran como
posibles cortes los d-1 valores intermedios
Variable cuantitativa continua: Se trabaja con estas variables de la
misma forma que con las variables ordinales, con la particularidad de
que en este caso el nmero de valores de corte a comprobar ser
elevado debido al caso de no haber repeticiones, n-1 cortes en el caso
de ser n el tamao de la muestra.
Calidad del Nodo: Funcin de Impureza
La funcin de impureza es una medida que permite determinar la
calidad de un nodo, esta ser denotada por i(t). Existen varias
medidas de impureza (criterios de particionamiento) que nos
permiten analizar varios tipos de respuesta, las tres medidas mas
comunes presentadas por Breiman (1984), para rboles de
clasificacin son:
El ndice de informacin o entropa el cual se define como
El objetivo es encontrar la particin que maximice i(t) en la siguiente
ecuacin
El ndice Gini tiene la forma
Encontrar la particin que maximice i(t) en
El ndice Towing. A diferencia delndice Gini, Towing busca las dos clases que
juntas formen ms del 50% de los datos, esto define dos super categoras en
cada divisin para las cuales la impureza es definida por el ndice Gini.
donde tL y tR representan los nodos hijos izquierdo y derecho respectivamente,
pL y pR representan la proporcin de observaciones en t que pasaron a tL y a
tR en cada caso.
Seleccin del rbol ptimo
De la secuencia de arboles anidados es necesario seleccionar el
rbol ptimo y para esto no es efectivo utilizar comparacin o
penalizacin de la complejidad (Death & Fabricius, 2000), por
tanto se requiere estimar con precisin el error de prediccin y
en general esta estimacin se hace utilizando un procedimiento
de validacin cruzada.
El objetivo es encontrar la proporcin optima entre la tasa de
mala clasificacin y la complejidad del rbol, siendo la tasa de
mala clasificacin el cociente entre las observaciones mal
clasificadas y el nmero total de observaciones.
Estimacin de la tasa de error
La eleccin de un rbol respecto de otro depender en general de una
estimacin de su tasa de error R(T). El problema es cmo realizar la
estimacin de dicha tasa, por ello existen diversas formas de calcular
la estimacin con una serie de ventajas e inconvenientes que se
detallan a continuacin:
Estimador por resustitucin (estimacin intramuestral): Es el
estimador ms simple. Consiste en dejar caer por el rbol la misma
muestra que ha servido para construirlo, pero como los rboles
tienen gran flexibilidad para adaptarse a la muestra se puede obtener
una estimacin sesgada inferiormente de la tasa de error, y por tanto
desconocer realmente el error real del rbol.
Estimador por muestra de validacin (muestra de contraste):
Consiste en dejar caer por el rbol una muestra distinta a la empleada para la
realizacin del rbol. Por ello ste no se ha podido adaptar a dichos registros
como ocurra en el estimador anterior. Tenemos de esta forma un estimador
de R(T) insesgado, sin embargo este tiene el inconveniente de forzar a
reservar, para su uso en la validacin, una parte de la muestra la cual poda
haberse empleado en la construccin del rbol. Por lo que hay cierta prdida
de informacin. Este estimador es empleado cuando se tiene tamao de
muestra muy grande, como en el caso de los censos, debido a que no se
pierde mucha informacin al eliminar del estudio una muestra para la
estimacin del error
Estimacin por validacin cruzada: consiste en estimar R(T)
procediendo de forma reiterada similar al estimador por muestra de
validacin. Se deja fuera de la muestra a una fraccin m
1
del tamao
muestral total para la construccin del rbol. Obtenindose de esta
forma m estimaciones R
(1)
(T),.....,R
(m)
(T)y promedindolas de la
siguiente forma:
Estimador bootstrap: Recientemente se ha propuesto esta tcnica de
remuestreo para la estimacin de la tasa de error. Ripley (1996).
Caso: Clasificacin de clientes
Clientes que han sido beneficiados con un crdito, fueron posteriormente
clasificados en tres categoras: Buen riesgo, mal beneficio y mala prdida.
Se dispone de un conjunto de variables y se desea construir un modelo que
separa los grupos mal beneficio y mala prdida.
Variable Descripcin Valores
Edad Edad en Aos 18 a 50 aos
Ingreso Ingresos 15018 a 59944 unidades monetarias
Sexo Gnero 1: femenino, 2: masculino
Ecivil Estado Civil 1: divorciado/separado/viudo, casado, soltero
Numhij Nmero de Hijos Dependientes 0 a 4 hijos
Numcre Nmero de Tarjetas de Crdito 0 a 6 tarjetas
Forpago Forma de Pago 1:mensual, 2:semanal
Hipteca Hipoteca 1: no, 2: si
Taralma Nmero de Tarjetas de Almacenes 0 a 5 tarjetas
Loans Nmero de Otros Crditos 0 a 3 crditos
Riesgo Riesgo de crdito 1: mala prdida, 2: mal beneficio, 3: buen riesgo

Arboles de Clasificacion y Regresión

Transféré par

Informations du document

Description originale:

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Arboles de Clasificacion y Regresión

Transféré par

Droits d'auteur :

Formats disponibles

Anlisis Multivariante

Prof: Marco Zavaleta

Vous aimerez peut-être aussi