0 évaluation0% ont trouvé ce document utile (0 vote)
93 vues23 pages
El documento describe el análisis multivariante y los árboles de clasificación y regresión (CART). El análisis multivariante estudia e interpreta datos estadísticos sobre múltiples variables. Los árboles CART clasifican observaciones dividiendo los datos de forma recursiva en nodos terminales homogéneos utilizando variables explicativas. Se construye primero un árbol máximo que luego es podado para seleccionar el árbol óptimo que minimice el error de clasificación.
El documento describe el análisis multivariante y los árboles de clasificación y regresión (CART). El análisis multivariante estudia e interpreta datos estadísticos sobre múltiples variables. Los árboles CART clasifican observaciones dividiendo los datos de forma recursiva en nodos terminales homogéneos utilizando variables explicativas. Se construye primero un árbol máximo que luego es podado para seleccionar el árbol óptimo que minimice el error de clasificación.
El documento describe el análisis multivariante y los árboles de clasificación y regresión (CART). El análisis multivariante estudia e interpreta datos estadísticos sobre múltiples variables. Los árboles CART clasifican observaciones dividiendo los datos de forma recursiva en nodos terminales homogéneos utilizando variables explicativas. Se construye primero un árbol máximo que luego es podado para seleccionar el árbol óptimo que minimice el error de clasificación.
El Anlisis Multivariante (Cuadras, 1981) es la rama de la Estadstica y del anlisis de datos, que estudia, interpreta y elabora el material estadstico sobre un conjunto de n>1 de variables, que pueden ser cuantitativas, cualitativas o una mezcla. DEFINICIN: OBJETIVOS: 1. Resumir los datos mediante un pequeo conjunto de nuevas variables con la mnima prdida de informacin. 2. Encontrar grupos en los datos, si existen. 3. Clasificar nuevas observaciones en grupos definidos. 4. Relacionar dos conjuntos de variables Anlisis de dependencia tratan de explicar la variable considerada independiente a travs de otras consideradas independientes o explicativas Anlisis de interdependencia otorgan la misma consideracin a todas las variables, tienden a descubrir las interrelaciones y estructura subyacente entre ellas. Son tcnicas de clasificacin Otras tcnicas Intentan superar el enfoque monocriterio de las anteriores intentando explicar procesos complejos Anlisis multivariante Las diferentes tcnicas de anlisis multivariante cabe agruparlas en tres categoras: Escalas de medicin No mtricas nominal y ordinal Diferencias en tipo de clase.- Indican presencia o ausencia de una caracterstica o propiedad
Atributos.- caractersticas o propiedades que identifican o describen un objeto
Mtricas intervalo y razn Diferencian en grado o cantidad Reflejan cantidades relativas o grado Escalas de medicin Arboles de Clasificacion y regresin El problema de la clasificacin de individuos u objetos en grupos o poblaciones conocidas es de gran inters en estadstica, por esta razn se han desarrollado tcnicas para cumplir ste objetivo. Algunas de las ms conocidas son: Anlisis discriminante lineal. Anlisis discriminate cuadrtico. Anlisis discriminate no-mtrico. Regresin logstica. Se han desarrollado otras tcnicas de clasificacin basadas en arboles de decisin. Una de ellas es rboles de Regresin y Clasificacin, en adelante CART (de sus siglas en ingls, Classification And Regression Trees), propuesta por Breiman (1984). CART: Classification And Regression Trees Breiman (1984), desarroll el algoritmo CART cuyo resultado es en general, un rbol de decisin, las ramas representan conjuntos de decisiones y cada decisin genera reglas sucesivas para continuar la clasificacin (particin) formando as grupos homogneos respecto a la variable que se desea discriminar. Las particiones se hacen en forma recursiva hasta que se alcanza un criterio de parada, el mtodo utiliza datos histricos para construir el rbol de decisin, y este rbol se usa para clasificar nuevos datos. rboles de clasificacin. Este tipo de rboles se emplea para variables categricas, tanto nominales como ordinales. rboles de regresin. Este tipo de discriminacin se aplica a variables continuas CART es un mtodo no-paramtrico de segmentacin binaria donde el rbol es construdo dividiendo repetidamente los datos. En cada divisin los datos son partidos en dos grupos mutuamente excluyentes. El nodo inicial es llamado nodo raz o grupo madre y se divide en dos grupos hijos o nodos, luego el procedimiento de particin es aplicado a cada grupo hijo por separado. Las divisiones se seleccionan de modo que la impureza de los hijos sea menor que la del grupo madre y stas estn definidas por un valor de una variable explicativa (Deconinck etal., 2006). CART: Classification And Regression Trees El objetivo es particionar la respuesta en grupos homogneos y a la vez mantener el rbol razonablemente pequeo. Para dividir los datos se requiere un criterio de particionamiento el cual determinar a la medida de impureza, esta ltima establecer el grado de homogeneidad entre los grupos. CART: Classification And Regression Trees El anlisis de arboles de clasificacin y regresin (CART) generalmente consiste en tres pasos (Timofeev, 2004): 1. Construccin del rbol mximo. 2. Poda del rbol. 3. Seleccin del rbol ptimo mediante un procedimiento de validacin cruzada (cross-validation). Estructura de un rbol de Clasificacin Partiendo de una Base de Datos con una variable Y a discriminar, denominada variable respuesta, y un conjunto finito de variables X1, X2,..., Xk conocidas como variables explicativas. Se tratar de seleccionar entre las variables explicativas aquellas que discriminen mejor a la variable Y. Obtenindose una particin de la poblacin de forma que se encuentren dos o ms subgrupos lo ms heterogneos posibles entre s con respecto a la variable respuesta Y, y lo ms homogneos posibles dentro. Esta discriminacin se contina para los nuevos nodos generados y se aplica un criterio de parada, obteniendo el rbol de clasificacin o regresin. Un rbol de decisin consta de los siguientes elementos: Nodos intermedios: se generan dos o ms segmentos descendientes inmediatos (dependiendo del mtodo empleado). Tambin llamados segmentos intermedios. Nodos terminales: Es un nodo que no se puede dividir ms. Tambin denominado segmento terminal. Rama de un nodo t : Consta de todos los segmentos descendientes de t, excluyendo t . rbol de decisin completo (Amax): rbol en el cual cada nodo terminal no se puede ramificar. Sub-rbol: Se obtiene de la poda de una o ms ramas del rbol Amax. Estructura de un rbol de Clasificacin Construccin del rbol mximo El rbol mximo es construido utilizando un procedimiento de particin binario, comenzando en la raz del rbol, este rbol es un modelo que describe el conjunto de entrenamiento (grupo de datos original) y generalmente es sobreajustado, es decir, contiene gran cantidad de niveles y nodos que no producen una mejor clasificacin y puede ser demasiado complejo. Cada grupo es caracterizado por la distribucin (respuesta categrica), o por la media (respuesta numrica) de la variable respuesta, el tamao del grupo y los valores de las variables explicativas que lo definen. Grficamente, el rbol se representa con el nodo raz (los datos sin ninguna divisin), al iniciar y las ramas y hojas debajo (cada hoja es el final de un grupo). Formacin de Nodos Hay un gran nmero de posibles formas de efectuar divisiones en funcin de los valores que tomen las variables explicativas X1, X2,..., Xk, y generalmente no se pueden considerar todas ellas. Depender en gran medida del tipo de variable que estemos tratando: Variable cualitativa nominal: En este caso la variable toma C valores distintos entre los que no cabe establecer un orden natural. Variable cualitativa ordinal: En este caso si la variable toma d valores, una vez ordenadas las categoras, se consideran como posibles cortes los d-1 valores intermedios Variable cuantitativa continua: Se trabaja con estas variables de la misma forma que con las variables ordinales, con la particularidad de que en este caso el nmero de valores de corte a comprobar ser elevado debido al caso de no haber repeticiones, n-1 cortes en el caso de ser n el tamao de la muestra. Calidad del Nodo: Funcin de Impureza La funcin de impureza es una medida que permite determinar la calidad de un nodo, esta ser denotada por i(t). Existen varias medidas de impureza (criterios de particionamiento) que nos permiten analizar varios tipos de respuesta, las tres medidas mas comunes presentadas por Breiman (1984), para rboles de clasificacin son: El ndice de informacin o entropa el cual se define como El objetivo es encontrar la particin que maximice i(t) en la siguiente ecuacin El ndice Gini tiene la forma Encontrar la particin que maximice i(t) en El ndice Towing. A diferencia delndice Gini, Towing busca las dos clases que juntas formen ms del 50% de los datos, esto define dos super categoras en cada divisin para las cuales la impureza es definida por el ndice Gini. donde tL y tR representan los nodos hijos izquierdo y derecho respectivamente, pL y pR representan la proporcin de observaciones en t que pasaron a tL y a tR en cada caso. Seleccin del rbol ptimo De la secuencia de arboles anidados es necesario seleccionar el rbol ptimo y para esto no es efectivo utilizar comparacin o penalizacin de la complejidad (Death & Fabricius, 2000), por tanto se requiere estimar con precisin el error de prediccin y en general esta estimacin se hace utilizando un procedimiento de validacin cruzada. El objetivo es encontrar la proporcin optima entre la tasa de mala clasificacin y la complejidad del rbol, siendo la tasa de mala clasificacin el cociente entre las observaciones mal clasificadas y el nmero total de observaciones. Estimacin de la tasa de error La eleccin de un rbol respecto de otro depender en general de una estimacin de su tasa de error R(T). El problema es cmo realizar la estimacin de dicha tasa, por ello existen diversas formas de calcular la estimacin con una serie de ventajas e inconvenientes que se detallan a continuacin: Estimador por resustitucin (estimacin intramuestral): Es el estimador ms simple. Consiste en dejar caer por el rbol la misma muestra que ha servido para construirlo, pero como los rboles tienen gran flexibilidad para adaptarse a la muestra se puede obtener una estimacin sesgada inferiormente de la tasa de error, y por tanto desconocer realmente el error real del rbol. Estimacin de la tasa de error Estimador por muestra de validacin (muestra de contraste): Consiste en dejar caer por el rbol una muestra distinta a la empleada para la realizacin del rbol. Por ello ste no se ha podido adaptar a dichos registros como ocurra en el estimador anterior. Tenemos de esta forma un estimador de R(T) insesgado, sin embargo este tiene el inconveniente de forzar a reservar, para su uso en la validacin, una parte de la muestra la cual poda haberse empleado en la construccin del rbol. Por lo que hay cierta prdida de informacin. Este estimador es empleado cuando se tiene tamao de muestra muy grande, como en el caso de los censos, debido a que no se pierde mucha informacin al eliminar del estudio una muestra para la estimacin del error Estimacin por validacin cruzada: consiste en estimar R(T) procediendo de forma reiterada similar al estimador por muestra de validacin. Se deja fuera de la muestra a una fraccin m 1 del tamao muestral total para la construccin del rbol. Obtenindose de esta forma m estimaciones R (1) (T),.....,R (m) (T)y promedindolas de la siguiente forma: Estimacin de la tasa de error Estimador bootstrap: Recientemente se ha propuesto esta tcnica de remuestreo para la estimacin de la tasa de error. Ripley (1996). Caso: Clasificacin de clientes Clientes que han sido beneficiados con un crdito, fueron posteriormente clasificados en tres categoras: Buen riesgo, mal beneficio y mala prdida. Se dispone de un conjunto de variables y se desea construir un modelo que separa los grupos mal beneficio y mala prdida. Variable Descripcin Valores Edad Edad en Aos 18 a 50 aos Ingreso Ingresos 15018 a 59944 unidades monetarias Sexo Gnero 1: femenino, 2: masculino Ecivil Estado Civil 1: divorciado/separado/viudo, casado, soltero Numhij Nmero de Hijos Dependientes 0 a 4 hijos Numcre Nmero de Tarjetas de Crdito 0 a 6 tarjetas Forpago Forma de Pago 1:mensual, 2:semanal Hipteca Hipoteca 1: no, 2: si Taralma Nmero de Tarjetas de Almacenes 0 a 5 tarjetas Loans Nmero de Otros Crditos 0 a 3 crditos Riesgo Riesgo de crdito 1: mala prdida, 2: mal beneficio, 3: buen riesgo