Académique Documents
Professionnel Documents
Culture Documents
Sugerencia: suba una versión inicial durante el día de la entrega y suba su versión final
después. De esta manera, si tuvo cualquier tipo de problema (no tienen wifi, corte de luz, u
otros motivos), tendrá una versión que será evaluada.
Objetivo:
El objetivo de esta tarea es entender los conceptos básicos de la técnica aglomerativa
jerárquica de clustering para un problema sencillo utilizando el lenguaje R.
Descripción:
El departamento de Recursos Humanos de una empresa determinada ha recolectado
varios datos de sus trabajadores, que incluye características del trabajo propiamente tales,
como también variables demográficas. Así, la empresa dispone de una base de datos de 1470
registros de empleados, caracterizados por 35 variables.
En base a lo anterior, se le ha encargado que diseñe uno o más programas en R (script), que
puedan responder a varias preguntas. Para facilitar el análisis posterior, todos los datos de los
empleados los deberá almacenar en una matriz:
A. ¿Qué variables presentan valores categóricos y qué variables numéricas permanecen
constantes para todos los empleados? Una vez que se identifique esto, Ud. debe:
a. Generar una NUEVA matriz de empleados que omita las variables identificadas
para sus futuros análisis. Atención una variable con número no es necesariamente
numérica, también puede ser categórica.
b. Estandarizar los datos.
D. Aplique los algoritmos jerárquicos aglomerativos complete y average linkage, y elija una
de ellos en base a los dendrogramas generados. Justifque su selección.
Para esto, después de haber seleccionado uno de los tres modelos con el número de
clusters correspondientes, usted deberá analizar cada una de las variables originales y ver
si la distribución de la variable cambia en forma significativa para alguno de los clusters,
indicando la variación en el cluster correspondiente.
Para poder realizar esta tarea y responder las preguntas anteriores, Ud. deberá trabajar con
los datos que se pueden obtener cargando el siguiente script R:
url="http://dyzz9obi78pm5.cloudfront.net/app/image/id/56
0d29b532131ca16af2b9e4/n/WA_Fn-UseC_-HR-Employee-
Attrition.csv"
employee=read.csv(url, header = TRUE, sep = ",")
donde la base de datos employee almacena datos de 1470 empleados (filas) y 35
características/variables (columnas) para cada uno (auto-explicativas).
Aspectos Administrativos:
En esta tarea Ud. deberá entregar todos los scripts necesarios en R que respondan las
preguntas. Si alguna pregunta contempla la entrega de gráficos y/o justificaciones escritas,
entonces debe entregar además estos en un archivo de texto.
La tarea se puede realizar en grupos de hasta 3 integrantes.