Prof: Richard F. Fernndez Vsquez rffv.uni@gmail.com UNIVERSIDAD NACIONAL DE INGENIERA
Facultad de Ingeniera Econmica, Estadstica y Ciencias Sociales Escuela Profesional de Ingeniera Estadstica SEGMENTACIN DE MERCADOS Segmentacin estratgica Los clientes se agrupan en un nmero reducido de segmentos. Las variables se reducen a una sola etiqueta descriptiva del segmento, como pueden ser familias promocioneras, singles de paso, fieles de proximidad o gran compra.
Segmentacin tctica Aun cuando no es la aplicacin nica, la gran mayora de segmentaciones tcticas de clientes se enfocan a la optimizacin de campaas de marketing. De manera simplificada existen cinco grandes tipos de campaas: Retencin, Recuperacin de desertores Venta cruzada o cross-selling Mejora o up-selling Captacin de nuevos clientes Por otro lado, las tcnicas analticas permiten la optimizacin de la campaa en tres momentos de la misma: Identificacin inicial de clientes target Test de canales y creatividades Anlisis de los resultados
Customer Lifetime Value (CLV) El valor de vida del cliente es la proyeccin del valor de cliente a futuro, en funcin de su ciclo de vida. Segmentacin geogrfica En los negocios basados en redes de establecimientos, es clara la importancia de la relacin espacial entre el cliente y el punto de venta. Las tcnicas de geomarketing hace tiempo que se vienen usando para estudiar e interpretar esta relacin espacial. Una aplicacin clsica en retail y venta directa es el RFML al clsico RFM aade la Localizacin-.
Aplicaciones 3. PROCEDIMIENTOS ESTADISTICOS PARA SEGMENTACION
Anlisis de Conglomerados (Cluster)
Es una tcnica multivariante que busca agrupar elementos (o variables) tratando de lograr la mxima homogeneidad en cada grupo y la mayor diferencia entre los grupos. 3. Procedimientos Estadsticos para segmentacin 3. Procedimientos Estadsticos para segmentacin
Anlisis de Conglomerados (Cluster)
Procedimiento: Seleccin de las variables a utilizar en la segmentacin Clculo de la matriz de semejanzas Ejecucin del mtodo de agrupamiento Mtodos jerrquicos Mtodos de optimizacin, partitivos o iterativos Otros mtodos Mtodo Formulacin del problema Seleccionar una medida de similitud Seleccionar un procedimiento de agrupacin Decidir el nmero de conglomerados Interpretar y elaborar un perfil de los conglomerados Evaluar la validez del conglomerado Aplicacin En resumen, se usa para lo siguiente: Para el desarrollo de tipologas o clasificacin de datos Para la bsqueda de esquemas conceptuales tiles para agrupar entidades (o casos). La generacin de hiptesis a travs de la exploracin de los datos.
Ejemplos prcticos:
La taxonoma: agrupar especies naturales. En marketing, para clasificar clientes en segmentos formados con clientes de comportamientos semejantes (segmentacin de mercados). En la medicina, para clasificar seres vivos con los mismos sntomas y caractersticas patolgicas. Formar grupos de pixeles en imgenes digitalizadas enviadas por un satlite desde un planeta para identificar los terrenos. Grupos de usuarios de servicios de salud, teniendo en cuenta la edad, la tensin arterial sistlica, nivel de colesterol, etc.
Procedimiento Comienza tomando p medidas de n objetos. Estas medidas deben ser cuidadosamente seleccionadas y de tal manera que favorezcan la agrupacin de los datos. La matriz de datos nxp de n casos y p variables es transformada entonces en una matriz nxn cuyas entradas son coeficientes que definen similaridades o disimilaridades (distancias) entre cada par de objetos. Estos coeficientes, que determinaran la proximidad o similitud entre las distintas observaciones, se definen a partir de criterios establecidos por el investigador. A partir de la matriz de similaridades o disimilaridades se procede a agrupar a los individuos ms parecidos segn un proceso de agrupacin siguiendo normas o criterios que deben cumplir las observaciones (mtodos de agrupacin)
Procedimiento Cada entrada en la matriz viene a ser un coeficiente de similitud entre cada par de objetos. Posteriormente usando determinado algoritmo de clasificacin se define una regla de clasificacin para formar los conglomerados o clusters. El problema que se presenta despus de la determinacin de los clusters se refiere al nmero de cluster a tomar. El nmero de clusters deber ser visto por el investigador de acuerdo a la descripcin de la estructura que se tiene.
Procedimiento Para finalizar, los clusters encontrados son contrastados con respecto a sus medias en las p variables u otras caractersticas de inters. Nota: Con el anlisis de conglomerados se relaciona a menudo el anlisis discriminante. Con este anlisis se explica la pertenencia de cada elemento a uno u otro grupo en base a un grupo de variables, para luego, en una segunda instancia, tratar de predecir si un nuevo elemento pertenecer a uno u otro grupo.
Procedimiento Resumen:
Una buena seleccin de variables. La eleccin del procedimiento de agrupacin. La eleccin de la distancia o proximidad a elegir. La presentacin e interpretacin de los resultados (grfica y numrica). Validacin de los resultados.
Similaridades Las proximidades o similaridades estan referidas al parecido que debe existir entre los objetos y operan a partir de dos matrices de datos bsicas: Una matriz nxp (casos x variables). Una matriz de proximidades para todos los pares de pares, ya sean casos nxn o variables pxp. Estas matrices pueden ser de distancias, de similaridades, de correlaciones, o de asociacin, dependiendo el tipo de medida que se use para medir las proximidades.
Matriz de distancias
Tiene como entradas a nmeros no negativos. Estos nmeros indican el alejamiento entre dos objetos. A mayor valor mayor alejamiento. Estas matrices son las ms usadas.
Matriz de distancias Tiene como entradas a nmeros no negativos. Estos nmeros indican el alejamiento entre dos objetos. A mayor valor mayor alejamiento. Estas matrices son las ms usadas. Las distancias satisfacen las siguiente propiedades: Si A y B son dos elementos, la distancia entre A y B, dAB, cumple con las siguientes propiedades: 1. dAB>=0 2. dAA=0 3. dAB=dBA 4. dAB<=dAC+Dcb (desigualdad triangular) Distancias Entre las distancias ms conocidas estan: Para variables continuas: a) Distancia eucldea, cuyos valores se calculan de la siguiente manera:
En donde e , representan, respectivamente, los valores de la variable para los elementos A y B.
Variables / Casos X 1
X i
X n
A X 1
X i
X n
B Y 1
Y i
Y n
Se usa tambin la distancia euclidea al cuadrado b) Distancia eucldea al cuadrado
c) Distancia de Manhattan (City Block)
d) Distancia de Minkowski
e) Distancia power (p,r)
f) Distancia de Mahalanobis
g) Distancia de Chebyshev
Distancias Matriz de similaridades La matriz de similaridades est formada por nmeros no negativos que indican similitud o semejanza. A mayor valor mayor similitd. Los coeficientes de similaridad tpicamente tienen valores entre 0 y 1. El 1 expresa similaridad mxima, mientras que el 0 expresa inexistencia de similaridad. Las propiedades que cumplen los ndices de similaridad son: a) 0<=sij<=1 b) sij=sji c) sii=1 Similaridades A partir de una distancia dij se puede definir una similaridad sij:
A partir de una similaridad sij, se pude definir la distancia dij
Entre las medidas de similaridad se tienen: Para variables continuas: a) Correlacin de Pearson b) Cosenos de vectores
El siguiente procedimiento indica otra manera de definir asociaciones entre un par de objetos Consideremos las variables que toman el valor 1 para indicar presencia de un atributo y 0 para indicar ausencia del atributo
Los datos generan la siguiente tabla de asociacin.
En donde (+) indica presencia de atributo y (-) indica ausencia del atributo y las entradas indican el nmero de coincidencias y no coincidencias. As a=2 indica que en dos casos los elementos Ay B coinciden en tener el atributo, etc.
Atributo Elemento 1 2 3 4 5 6 A 0 1 1 0 1 1 B 1 0 1 0 0 1 A + - A + a=2 b=1 B - c=2 d=1 Similaridades Un ndice de similaridad entre las variables dicotmicas se puede definir a partir de la tabla de contingencia
Para variables binarias a) Coeficiente de Jaccard b) Coeficiente de casacin o de parejas simples c) Coeficiente de Russel y Rao d) Coeficiente de Dice e) Coeficiente de Rogers y Tanimoto f) Coeficiente de Kulczynski
Variable 2 Total Variable 1 0 1 0 a b a+b 1 c d c+d Total a+c b+d a+b+c+d Similaridades g) Coeficiente de Sokal y Sneath h) Coeficiente de correlacin punto 4 phi i) Coeficiente de Ochiai j) Coeficiente de dispersin k) Coeficiente de Hamann l) Coeficiente de Lambda de Goodman
Para variables cualitativas no binarias Chi cuadrado Esta medida de similaridad se utiliza a menudo cuando las componentes de los vectores de valores corresponden a variables cualitativas y la informacin se expresa en frecuencias. Sobre esta distancia se basa el anlisis de correspondencias, anlisis que sirve para estudiar las tablas de contingencia
Similaridades Similaridades
en donde A y B son dos filas de una tabla de contingencia, Aj representa la frecuencia observada de la j-sima categoria de la variable columna y E(Aj) representa el valor esperado de las frecuencias de la j-sima categoria de la variable columna. Lo mismo para lo que corresponde a la fila B. a) Phi cuadrado Para variables en diferentes niveles de medicin Coeficiente de similaridad de Gower Las matrices de correlacin estn formadas por nmeros que miden similitudes entre los perfiles o patrones de los objetos. Se realizan encontrando las correlaciones entre las medidas de las variables en cada objeto. Elevadas correlaciones indican similitud y bajas correlaciones indican falta de ella. Estas matrices son las menos usadas pues generalmente el interes esta en la magnitud de los objetos antes que sus eprfiles o patrones.
Estandarizacin
El problema que siempre se plantea es que si los datos deberian estandarizarse antes de aplicar las medidas de similaridad. La espuesta a este planteamiento tiene que ver con varios aspectos: las escalas en las cuales estan medidas las variables, los efectos del tipo de respuesta en los conglomerados. Cuando diferentes variables presentan diferentes escalas y es preciso la comparacin de los valores es recomendable la estandarizacin; sin embargo, si se desea diferenciar a los que siempre dicen si de los que siempre dicen no, no ser recomendable la estandarizacin. La distancia de Mahalanobis incorpora la estandarizacin y la varianza covarianza de las variables
0 1 2 3 4 5 6 X1 X2 X3 X4 Objeto 1 Objeto 2 Objeto 3 Perfiles V a l o r e s Variables Obtencin de los conglomerados
Existen una serie de procedimientos para determinar los conglomerados. Los ms utilizados pueden dividirse en mtodos jerrquicos y no jerrquicos. 1. MTODOS JERRQUICOS Con los mtodos jerrquicos se obtienen particiones del conjunto de valores que van desde un grupo por observacin hasta obtener un solo grupo. Estos mtodos se denominan jerrquicos aglomerativos. Cuando el proceso de obtencin de los clusters va en direccin contraria al de los mtodos aglomerativos los mtodos se llaman divisivos. Las tcnicas aglomerativas comienzan con objetos individuales. Los objetos similares son agrupadas primero y luego esos grupos se juntan de acuerdo a sus similaridades hasta llegar a un nico conglomerado que contiene todos los objetos. Entre las tcnicas aglomerativas se tienen
Obtencin de los conglomerados
El mtodo del centroide que toma la distancia entre los centroides. Se usa slo son la distancia eucldea al cuadrado. El mtodo mediana que toma la distancia entre las medianas. Como en el caso anterior slo se usa con la distancia eucldea al cuadrado.
1 2 3 5 4 1 2 3 5 4 1 2 3 5 4 Distancia entre conglomerados Linkage d24 d15 (d13++d25)/6 nico completo promedio Obtencin de los conglomerados
El eslabomiento nico o del vecino ms cercano resulta cuando los grupos se forman teniendo en cuenta las distancias entre sus elementos ms cercanos. El eslabomiento completo o del vecino ms lejano resulta cuando los grupos se forman teniendo en cuenta las distancias entre sus elementos ms lejanos. El eslabomiento promedio resulta cuando los grupos se forman teniendo en cuenta el promedio de las distancias entre pares de elementos en los respectivos conjuntos. Este algoritmo usa a todos los elementos en lugar de los extremos solamente. Los siguientes son los pasos que se siguen cuando se usan las tcnicas aglomerativas. 1. Comenzar con N conglomerados, cada uno de los cuales contiene un solo objeto apareciendo de este modo una matriz nxn de distancias (o similaridades) D={dik}.
Obtencin de los conglomerados
2. Buscar la matriz de distancias para los conglomerados que estan ms prximos. 3. Si los conglomerados ms cercanos son U y V unir a estos para formar el conglomerado (UV). Borrar las filas y columnas que corresponden a los conglomerados U y V para luego agregar una fila y una columna que corresponde a las distancias entre el conglomerado (UV) y el resto de los conglomerados. 4. Repetir los pasos 2 y 3 N-1 veces llegando al nico conglomerado con lo que finaliza el algoritmo.
Las tcnicas divisivas trabajan en direccin opuesta. Un grupo inicial formado por todos los objetos es dividido en subgrupos de tal manera que los objetos en cada subgrupo estan lejos de los objetos de cualquier subgrupo.
Obtencin de los conglomerados
II. METODOS NO JERARQUICOS En los mtodos jerrquicos se parten de tantos grupos como elementos existen y los nuevos grupos se van formando paso a paso hasta llegar a un solo grupo. En los mtodos no jerrquicos el usuario indica de antemano un nmero K de grupos. Estos K grupos se forman en un solo paso, de tal manera que la varianza dentro de cada grupo sea mnima. Los mtodos principales son el de K medias y el de los centroides iniciales. La distancia que a menudo se utiliza en estos mtodos es la eucldea, estandarizando previamente las medidas cuando stas esten en diferentes unidades. Para el mtodo de K-medias el algoritmo es el siguiente: 1. Particionar los N items en K conglomerados. Asignar un objeto al conglomerado cuyo centroide (media) es el ms cercano. Recalcular el centroide del conglomerado que recibe al nuevo objeto y del conglomerado que ha perdido el objeto.
Obtencin de los conglomerados
3. Repetir el paso hasta que no se pueda realizar asignacin alguna. Acerca del nmero de grupos No existe ninguna regla general, al respecto; sin embargo, existen algunos lineamientos. 1. Las consideraciones tericas, conceptuales o tericas o prcticas pueden sugerir un nmero determinado de grupos. 2. En el conglomerado jerrquico, las distancias en las que los grupos se combinan pueden utilizarse como criterios. 3. En la agrupacin no jerrquica, la relacin de la varianza total dentro de los grupos con la varianza entre los grupos puede trazarse en comparacin con el nmero de stos. El punto donde ocurre un recodo indica un nmero apropiado de grupos. 4. Los tamaos de los grupos deben ser significativos.
Interpretacin de los perfiles de los grupos
La interpretacin y el perfil de los grupos comprende el anlisis de los centroides de grupo. Los centroides permiten describir cada grupo y asignarle a cada grupo un nombre o etiqueta. Determinacin de la confiabilidad y la validez Los siguientes procedimientos ofrecen revisiones adecuadas de la calidad de los resultados de la agrupacin. 1. Realizar el anlisis con diferentes medidas de distancia 2. Utilizar diversos mtodos de conglomerados y comparar los resultados 3. Dividir la muestra a la mitad en forma aleatoria y realizar los conglomerados por separado en cada mitad. Comparar los centroides. 4. Eliminar las variables en forma aleatoria y realizar la agrupacin con base al conjunto reducido. Comparar los casos. 5. En los mtodos no jerrquicos los resultados depende muchas veces del orden de los casos.
Interpretacin de los perfiles de los grupos
Para estabilizar la solucin es recomendable realizar corridas en diferentes ordenes de los casos. El anlisis de conglomerados se usa en diferentes campos. En la mercadotecnia se usa para diversos propsitos: Segmentacin del mercado. Por ejemplo, los consumidores pueden agruparse de acuerdo a los beneficios que buscan en la compra de un producto. Identificacin de oportunidades para nuevos productos Seleccin de mercados de prueba Reduccin de datos
SEGMENTACIN DE AFILIADOS DE UNA AFP Antecedentes Remuneracin Asegurable Mensual (RAM) Alcance de la solucin Visin general del proyecto Conocimiento del negocio En la AFP se inicia el proyecto del CLV calculado en base a los parmetros de RAM, Edad, Canal de Venta, Tipo de Incorporacin (Afiliacin o Traspaso) y Fecha de Ingreso. La segmentacin de afiliados proporcionar informacin estadstica para el clculo del CLV. Por otro lado la segmentacin de afiliados apoyar al rea comercial de la AFP a desarrollar estrategias de marketing a lo largo del ciclo de vida del cliente.
Conocimiento del negocio Obtencin de la matriz Segmentacin de afiliados Obtener grupos homogneos en cuanto a caractersticas estructurales (edad de afiliacin, RAM de afiliacin, tipo de fondo, permanencia, FFVV de contrato, sexo y estado civil) para: Diferenciar los anlisis descriptivos subsiguientes en funcin del segmento. Mejorar el poder predictivo del modelo estadstico.
Grupo I: RAM de afiliacin mayor a S/.2,000 Anlisis descriptivo GI Grupo II: RAM de afiliacin menor a S/.2,000 Anlisis descriptivo GII Modelo predictivo Resultados modelo GI Resultados del modelo GII Conclusiones Prximos pasos Mejoras y ajustes en el modelo de clasificacin desarrollado. Implementar un procedimiento para la actualizacin de los segmentos de los nuevos afiliados. Construccin de la matriz de microsegmentacin. Crosstab Segmentacin de afiliados y Rango CLV.
Prximos pasos Desarrollo de un modelo anti - churn para los afiliados de la AFP. Este modelo permitir identificar a los afiliados con mayor propensin de fuga y reducir los costos de retencin. Desarrollo de un modelo de recupero de afiliados, el cual identificar a los afiliados con una alta probabilidad de que regresen a la AFP.