Vous êtes sur la page 1sur 2

Evaluación 1, Pregunta 3

Curso: “Técnicas de segmentación y clasificación de datos”


Profesor: Sebastián Moreno
Fecha Publicación: 8 de Febrero de 2018
Fecha Entrega: 01 de Marzo de 2018, 23:55 hrs (vía webcursos)

Sugerencia: suba una versión inicial durante el día de la entrega y suba su versión final
después. De esta manera, si tuvo cualquier tipo de problema (no tienen wifi, corte de luz, u
otros motivos), tendrá una versión que será evaluada.

Objetivo:
El objetivo de esta tarea es entender los conceptos básicos de la técnica aglomerativa
jerárquica de clustering para un problema sencillo utilizando el lenguaje R.

Descripción:
El departamento de Recursos Humanos de una empresa determinada ha recolectado
varios datos de sus trabajadores, que incluye características del trabajo propiamente tales,
como también variables demográficas. Así, la empresa dispone de una base de datos de 1470
registros de empleados, caracterizados por 35 variables.
En base a lo anterior, se le ha encargado que diseñe uno o más programas en R (script), que
puedan responder a varias preguntas. Para facilitar el análisis posterior, todos los datos de los
empleados los deberá almacenar en una matriz:
A. ¿Qué variables presentan valores categóricos y qué variables numéricas permanecen
constantes para todos los empleados? Una vez que se identifique esto, Ud. debe:
a. Generar una NUEVA matriz de empleados que omita las variables identificadas
para sus futuros análisis. Atención una variable con número no es necesariamente
numérica, también puede ser categórica.
b. Estandarizar los datos.

B. Analice los datos seleccionados para verificar si existe la presencia de clusters.

Para ello calcule el coeficiente de Hopkins y discuta el valor obtenido.


C. Aplique y concluya sobre los resultados obtenidos al aplicar el algoritmo jerárquico
aglomerativo single linkage.

Para ello, aplique el algoritmo correspondiente y grafique el dendrograma generado por


esta técnica. Finalmente, concluya sobre el dendrograma obtenido, y determine si
corresponde utilizar esta técnica para segmentar estos datos.

D. Aplique los algoritmos jerárquicos aglomerativos complete y average linkage, y elija una
de ellos en base a los dendrogramas generados. Justifque su selección.

E. En base al algoritmo seleccionado en la pregunta D, seleccione un número de clusters y


grafique los clusters generados. Además, verifique si la matriz de disimilaridad presenta
un patrón de bloques.

F. En base al modelo y número de clusters seleccionado en el punto E. Describa los clusters


generados en base a las características únicas de cada uno de ellos.

Para esto, después de haber seleccionado uno de los tres modelos con el número de
clusters correspondientes, usted deberá analizar cada una de las variables originales y ver
si la distribución de la variable cambia en forma significativa para alguno de los clusters,
indicando la variación en el cluster correspondiente.

Para poder realizar esta tarea y responder las preguntas anteriores, Ud. deberá trabajar con
los datos que se pueden obtener cargando el siguiente script R:
url="http://dyzz9obi78pm5.cloudfront.net/app/image/id/56
0d29b532131ca16af2b9e4/n/WA_Fn-UseC_-HR-Employee-
Attrition.csv"
employee=read.csv(url, header = TRUE, sep = ",")
donde la base de datos employee almacena datos de 1470 empleados (filas) y 35
características/variables (columnas) para cada uno (auto-explicativas).

Aspectos Administrativos:
En esta tarea Ud. deberá entregar todos los scripts necesarios en R que respondan las
preguntas. Si alguna pregunta contempla la entrega de gráficos y/o justificaciones escritas,
entonces debe entregar además estos en un archivo de texto.
La tarea se puede realizar en grupos de hasta 3 integrantes.

Vous aimerez peut-être aussi