Académique Documents
Professionnel Documents
Culture Documents
la Ciencia de Datos
José Hernández Orallo (jorallo@dsic.upv.es)
Mª José Ramírez Quintana (mramirez@dsic.upv.es)
Fernando Martínez Plumed (fmartinez@dsic.upv.es)
Universitat Politècnica de València, Valencia (www.upv.es)
1
Aprendizaje Automático y Ciencia de Datos
2
Objetivo General
3
Objetivos Específicos
• Reconocer el valor de los datos y de los productos derivados de éstos.
• Conocer el proceso de convertir datos en conocimiento.
• Utlizar técnicas para integrar, preparar y visualizar datos.
• Conocer las tareas y técnicas de aprendizaje automático básicas.
• Utilizar el lenguaje R para obtener modelos de aprendizaje automático.
• Evaluar los modelos aprendidos teniendo en cuenta cómo y para qué se
van a usar (despliegue).
4
Contenidos
• UNIDAD 1. Introducción al aprendizaje automático y la ciencia de datos
Motivación. Sopa de Letras
Minería de datos y ciencia de datos
El proceso de descubrimiento de conocimiento
Tareas, técnicas y herramientas
• UNIDAD 2. Evaluación de modelos de aprendizaje automático
Tareas y métricas
Sobreajuste, evaluación partida y validación cruzada
Contingencia y desbalanceo
Clasificadores suaves
Evaluación sensible al coste
5
Contenidos
• UNIDAD 3. Técnicas básicas de aprendizaje automático
Tareas predictivas y descriptivas
Técnicas supervisadas
Técnicas no supervisadas
• UNIDAD 4. Preprocesamiento de datos
Integración y manipulación
Limpieza, transformación y selección
Visualización y comprensión de datos
6
Prácticas y Proyecto
• Práctica 1. Introducción a R
• Práctica 2. Evaluación de modelos de aprendizaje automático
• Práctica 3. Creación de modelos de aprendizaje automático
• Práctica 4. Visualización
7
Secuenciación
• SEMANA 1:
UNIDAD 1. Introducción al aprendizaje automático y la ciencia de datos
PRÁCTICA 1. Introducción al lenguaje R
• SEMANA 2:
UNIDAD 2. Evaluación de modelos de aprendizaje automático
PRÁCTICA 2. Evaluación de modelos de aprendizaje automático
• SEMANA 3:
UNIDAD 3. Técnicas básicas de aprendizaje automático
PRÁCTICA 3. Creación de modelos de aprendizaje automático
• SEMANA 4:
UNIDAD 4. Preprocesamiento de datos
PRÁCTICA 4. Visualización
• SEMANA 5:
PROYECTO
8
Evaluación
• Para los alumnos registrados para el certificado:
El curso se considerará superado tras realizar satisfactoriamente:
• Preguntas de elección múltiple tras los vídeos, semanales y en prueba final.
• Preguntas de elección múltiple o de selección de las prácticas.
• Proyecto de Kaggle por examinador mediante rúbrica.
9
Bibliografía
• Peter Flach “Machine learning: the art and science of algorithms that make sense of data”, Cambridge 2013.
• Hadley Wickham “R for Data Science: Import, Tidy, Transform, Visualize, and Model Data” O'Reilly, 2017, http://r4ds.had.co.nz/
• Foster Provost and Tom Fawcett “Data Science for Business: Fundamental principles of data mining and data analytic thinking”, O'Reilly, 2013
• Brett Lantz “Machine Learning with R”, Packt Publishing 2015.
• ByJeffrey Stanton “Introduction to Data Science”, 2012. https://ischool.syr.edu/media/documents/2012/3/DataScienceBook1_1.pdf
• Lars Nielsen, Noreen Burlingame “A simple introduction to data science”, 2013 (ultra-short introduction)
• Rachel Schutt “Doing data science”, O’Reilly 2013
• Jiawei Han “Data Mining: Concepts and Techniques”, 3rd edition 2012.
• José Hernández-Orallo, M.José Ramírez-Quintana, Cèsar Ferri, “Introducción a la minería de datos”, Pearson 2004
• Luis Torgo “Data Mining with R”, CRC Press 2010.
• Wikibooks: http://en.wikibooks.org/wiki/Data_Mining_Algorithms_In_R, http://en.wikibooks.org/wiki/R_Programming.
• Graham Williams: Hands-On Data Science with R, http://onepager.togaware.com/
10