Vous êtes sur la page 1sur 10

23/10/2018 Conceptos básicos de Machine Learning -

OFICINAS CENTRALES

Avinguda de Barcelona, 115, 4º-3ª


08970 - Sant Joan Despí
Barcelona
BLOG
GPS: 41.371972, 2.075821

OFICINAS MADRID

Conceptos
Edi cio Foxá 25 básicos de Machine Learning
C/ Agustín de Foxá, 25
POR ANDRÉS GONZÁLEZ EL 30 JULIO 2014 EN BIG DATA, DATA PREDICTION, MACHINE LEARNING, TECNOLOGÍA
28036 - Madrid

Las tecnologías de Machine Learning están dando el salto de los círculos de sesudos especialistas al mundo de la empresa. Hoy en día
cualquiera puede usarlas para poner sus datos a trabajar y conseguir ventajas competitivas que hasta hace poco sólo estaban al alcance
OFICINAS
de ANDORRA empresas e instituciones.
las grandes

Hemos recopilado un
Avda. Príncep breve
Benlloch, compendio de ideas y conceptos básicos de Machine Learning (en castellano se traduce como “aprendizaje
26-30
automático”) parala
AD500 - Andorra ayudar
Vella en su comprensión a aquellos que acaban de aterrizar en este apasionante mundo. La mayoría de la literatura
está en inglés,
Principat por lo que las traducciones al español son propias.
d'Andorra

Machine Learning supervisado y no supervisado (supervised and unsupervised machine


learning)
© Copyright
Utilizamos 2018
cookies - Todos
propias y delos derechos
terceros para reservados por CleverData.io
mejorar nuestros servicios. Si continua navegando, consideramos que acepta su uso. Puede aceptar u obtener
El Machine Learning se divide en dos áreas principales: aprendizaje supervisado y aprendizaje no supervisado. Aunque pueda parecer
más información. Aceptar Leer más
que el primero se re ere a la predicción con intervención humana y la segunda no, estos dos conceptos tienen más que ver con qué
https://cleverdata.io/conceptos-basicos-machine-learning/ 1/10
23/10/2018 Conceptos básicos de Machine Learning -

queremos hacer con los datos.


OFICINAS CENTRALES

Uno de los usos más extendidos del aprendizaje supervisado consiste en hacer predicciones a futuro basadas en comportamientos o
Avinguda de Barcelona,
características 115,
que se han 4º-3ª
visto en los datos ya almacenados (el histórico de datos). El aprendizaje supervisado permite buscar patrones
08970
en - Sant
datos Joan Despí
históricos relacionando todos campos con un campo especial, llamado campo objetivo. Por ejemplo, los correos electrónicos se
Barcelonacomo “spam” o “legítimo” por parte de los usuarios. El proceso de predicción se inicia con un análisis de qué características o
etiquetan
GPS: 41.371972,
patrones 2.075821
tienen los correos ya marcados con ambas etiquetas. Se puede determinar, por ejemplo, que un correo spam es aquel que
viene de determinadas direcciones IP, y además tiene una determinada relación texto/imágenes, y además contiene ciertas palabras, y
además no hay nadie en el campo “Para:”, y además (muchos además)… Este sería tan solo uno de los patrones. Una vez determinados
todos
OFICINASlos patrones (esta fase se llama “de aprendizaje”), los correos nuevos que nunca han sido marcados como spam o legítimos se
MADRID

comparan con los patrones y se clasi can (se predice) como “spam” o “legítimos” en función de sus características.

Edi cio Foxá 25


Por otro lado, el aprendizaje no supervisado usa datos históricos que no están etiquetados. El n es explorarlos para encontrar alguna
C/ Agustín de Foxá, 25
estructura o forma de organizarlos. Por ejemplo, es frecuente su uso para agrupar clientes con características o comportamientos
28036 - Madrid
similares a los que hacer campañas de marketing altamente segmentadas.

Clasificación y regresión (classification and regression)


OFICINAS ANDORRA
Son conceptos del machine learning supervisado. Un sistema de clasi cación predice una categoría, mientras que una regresión predice
un número.
Avda. Príncep Benlloch, 26-30
AD500 - Andorra la Vella
Un ejemplo de clasi cación es el anteriormente mencionado del spam. Los correos se “categorizan” como “spam” o como “legítimos”.
Principat d'Andorra
Otro ejemplo clásico de clasi cación en el mundo del machine learning es la predicción de bajas en, por ejemplo, un servicio de telefonía.
El objetivo en este caso es detectar los patrones de comportamiento de los clientes que sirven para predecir si se van a ir a la
competencia. En este caso los clientes se clasi can como “baja” o  “no baja”.

© Copyright
Utilizamos 2018
cookies - Todos los derechos reservados por CleverData.io
La regresión, enpropias
cambio,y de terceros
predice unpara mejorarcomo
número, nuestros
porservicios.
ejemploSicuál
continua
va anavegando, consideramos
ser el precio que acepta
de un artículo, o el su uso. Puede
número aceptar uque
de reservas obtener
se
harán en mayo en un hotel. más información. Aceptar Leer más

https://cleverdata.io/conceptos-basicos-machine-learning/ 2/10
23/10/2018 Conceptos básicos de Machine Learning -

Minería de datos (data mining)


OFICINAS CENTRALES

No es raro ver cómo se usan indiferentemente los conceptos minería de datos y machine learning. Son conceptos primos hermanos.
Avinguda de Barcelona, 115, 4º-3ª
Desde nuestro punto de vista, la principal diferencia radica en el objetivo que tiene cada una de las disciplinas. Mientras que la minería
08970 - Sant Joan Despí
de datos descubre patrones anteriormente desconocidos, el machine learning se usa para reproducir patrones conocidos y hacer
Barcelona
predicciones basadas en los patrones.
GPS: 41.371972, 2.075821

En pocas palabras se podría decir que la minería de datos tiene una función exploratoria mientras que el machine learning se focaliza la
predicción.
OFICINAS MADRID

Aprendizaje o entrenamiento (learning, training)


Edi cio Foxá 25
Es el proceso en el que se detectan los patrones de un conjunto de datos, es decir, es el corazón del machine learning. Una vez
C/ Agustín de Foxá, 25
identi cados los patrones, se pueden hacer predicciones con nuevos datos que se incorporen al sistema.
28036 - Madrid

Por ejemplo, los datos históricos de las compras de libros en una web online se pueden usar para analizar el comportamiento de los
clientes en sus procesos de compra (títulos visitados, categorías, historial de compras…), agruparlos en patrones de comportamiento y
hacer recomendaciones
OFICINAS ANDORRA de compra a los clientes nuevos que siguen los patrones ya conocidos o aprendidos.

Conjunto
Avda. Príncepde datos
Benlloch, (dataset)
26-30
AD500 - Andorra la Vella
Es la materia prima del sistema de predicción. Es el histórico de datos que se usa para entrenar al sistema que detecta los patrones. El
Principat d'Andorra
conjunto de datos se compone de instancias, y las instancias de factores, características o propiedades.

Instancia, ejemplo o registro (instance, sample, record)


Una instancia es cada uno de los datos de los que se disponen para hacer un análisis. Si se quiere predecir el comportamiento de los
© Copyright 2018 - Todos
Utilizamos cookies propias y delos derechos
terceros para reservados por CleverData.io
mejorar nuestros servicios. Si continua navegando, consideramos que acepta su uso. Puede aceptar u obtener
clientes de un servicio de telefonía, cada instancia correspondería a un abonado. Cada instancia, a su vez, está compuesta de
más información. Aceptar Leer más
características que la describen, como la antigüedad del cliente en la compañía, el gasto diario en llamadas, etc. En una hoja de cálculo,
https://cleverdata.io/conceptos-basicos-machine-learning/ 3/10
23/10/2018 Conceptos básicos de Machine Learning -
ca acte st cas que a desc be , co o a a t güedad de c e te e a co pa a, e gasto d a o e a adas, etc. u a oja de cá cu o,
las instancias serían las las; las características, las columnas.
OFICINAS CENTRALES

Característica, atributo, factor, propiedad o campo (feature, attribute, property, field)


Avinguda de Barcelona, 115, 4º-3ª
Son
08970
los- atributos
Sant Joan Despí
que describen cada una de las instancias del conjunto de datos. Las denominaciones se usan indistintamente en
función
Barcelona
del autor y del contexto. En el caso de una cartera de clientes, estaríamos hablando del número de compras de cada cliente,
antigüedad,
GPS: 41.371972,
si es 2.075821
seguidor en redes sociales, si se ha dado de alta en la newsletter, qué productos comprados… En una hoja de cálculo,
serían las columnas.

Objetivo
OFICINAS MADRID(objective)

Es el atributo o factor que queremos predecir, el objetivo de la predicción, como puede ser la probabilidad de reingreso de un paciente
Edi una
tras cio Foxá 25
intervención quirúrgica.
C/ Agustín de Foxá, 25
Ingeniería
28036 - Madridde factores (feature engineering)

Se trata del proceso previo a la creación del modelo de predicción en el que se hace un análisis, limpieza y estructuración de los campos
de los datos. Este proceso es uno de los más importantes y más costosos del proceso de predicción. El objetivo es eliminar los campos
OFICINAS ANDORRA
que no sirven para hacer la predicción y organizarlos adecuadamente para que el modelo no reciba información que no le es útil y que
podría provocar predicciones de poca calidad o con anza.
Avda. Príncep Benlloch, 26-30
En
AD500
pocas- Andorra
palabras,laes
Vella
el proceso que elimina el ruido de la señal.
Principat d'Andorra
Modelo (model)
Tras entrenar al sistema (es decir, tras detectar los patrones en los datos), se crea un modelo que servirá para hacer las predicciones.
Podemos asimilar un modelo a un ltro en el que entran datos nuevos y cuya salida es la clasi cación de ese dato según los patrones
© Copyright
Utilizamos 2018
cookies - Todos
propias y delos derechos
terceros para reservados por CleverData.io
mejorar nuestros servicios. Si continua navegando, consideramos que acepta su uso. Puede aceptar u obtener
que se han detectado en el entrenamiento. Por ejemplo, si se entrena un modelo con datos históricos de clientes para detectar el riesgo
más información.
de baja de una tarjeta de crédito, el modelo clasi cará Aceptar enLeer
a los nuevos clientes más de su comportamiento para predecir el riesgo de
función
https://cleverdata.io/conceptos-basicos-machine-learning/ 4/10
23/10/2018 Conceptos básicos de Machine Learning -

baja.
OFICINAS CENTRALES

Árbol de decisión (decision tree)


Avinguda de Barcelona, 115, 4º-3ª
Es el esqueleto del modelo de predicción que se suele representar en modo grá co como un árbol en el que las ramas constituyen los
08970 - Sant Joan Despí
patrones reconocidos en el proceso de aprendizaje. En las hojas de las ramas se situarían las predicciones para cada patrón.
Barcelona
GPS: 41.371972, 2.075821
Confianza (confidence)
Es la probabilidad de acierto que calcula el sistema para cada una de las predicciones.
OFICINAS MADRID
¿Tienes dudas o quieres que ampliemos esta lista? Dínoslo y lo haremos encantados

Edi cio Foxá 25


 
C/ Agustín de Foxá, 25
28036 - Madrid
¿Te gusta compartir?

OFICINAS ANDORRA

Otros lectores
Avda. Príncep también
Benlloch, 26-30 se interesaron por...
AD500 - Andorra la Vella
Principat d'Andorra

Basic Machine Learning Inteligencia Cognitiva: el 5 tips to start with Machine Diferencias entre Business
Concepts poder predictivo de las Learning in your business Intelligence y Machine
© Copyright 2018 - Todos palabras
los derechos reservados por CleverData.io Learning
Utilizamos cookies propias y de terceros para mejorar nuestros servicios. Si continua navegando, consideramos que acepta su uso. Puede aceptar u obtener

más información. Aceptar Leer más

https://cleverdata.io/conceptos-basicos-machine-learning/ 5/10
23/10/2018 Conceptos básicos de Machine Learning -

OFICINAS CENTRALES

Escrito por Andrés González


Avinguda de Barcelona, 115,de
Consultor 4º-3ª
Machine Learning, ingeniero certi cado de BigML. Es un convencido de que los datos son una de las
08970 - Sant Joan Despí
palancas de cambio de la economía industrial a la digital. El análisis de datos no puede ser un objetivo en sí mismo
Barcelona sino que debe contribuir a conseguir los objetivos de la compañía. Encuéntralo en Twitter como @data_lytics
GPS: 41.371972, 2.075821

OFICINAS MADRID
ARTÍCULO ANTERIOR ARTÍCULO SIGUIENTE

Tres errores de Machine Learning que he Mejorar las predicciones con Ensembles
Edi ciocometido
Foxá 25 (a menudo) (conjuntos de modelos)
C/ Agustín de Foxá, 25
28036 - Madrid

7 Comentarios Publicados
OFICINAS ANDORRA
ALEXANDRA OROZCO ESCRITO EN 27 ENERO 2015 - RESPONDER

Avda. PríncepEstimado
Benlloch, Ingeniero
26-30 Andrés González. le escribo desde Quito Ecuador y requerimos en el Instituto Tecnológico Superior
AD500 - Andorra la Vella
Policía Nacional, un facilitador de este tema talvez podría colaborarnos??. Mi mail es alezaorozcob@gmal.com y mi celular
Principat d'Andorra
es 0983501643. Por favor espero lo más pronto una respuesta suya. Saber sus honorarios, Si es de otro país cuales serían
los costos a cubrir. Gracias de antemano su atención

SISTEMAS DE RECOMENDACIÓN DE CONTENIDO CON MACHINE LEARNING - ESCRITO EN 11 OCTUBRE 2016 - RESPONDER

© Copyright
Utilizamos 2018
cookies - Todos
propias y delos derechos
terceros para reservados por CleverData.io
mejorar nuestros servicios. Si continua navegando, consideramos que acepta su uso. Puede aceptar u obtener
[…] es del grupo X, de la discográ ca Y y de género Rock? La respuesta del ltro (que hemos “entrenado” con los datos de
más información. Aceptar Leer más
cientos de miles de usuarios del sistema) nos daría un número entre 0 y […]
https://cleverdata.io/conceptos-basicos-machine-learning/ 6/10
23/10/2018 Conceptos básicos de Machine Learning -

OFICINAS CENTRALES
5 REGLAS PARA EMPEZAR CON MACHINE LEARNING EN LA EMPRESA ESCRITO EN 7 NOVIEMBRE 2016 - RESPONDER

[…] Machine
Avinguda de Barcelona, Learning
115, 4º-3ª supervisado permite hacer predicciones de una forma sencilla usando datos históricos. La palabra
[…] Despí
08970 - Sant Joan
Barcelona
GPS: 41.371972,
MACHINE 2.075821
LEARNING – TÍTULO DEL SITIO ESCRITO EN 17 NOVIEMBRE 2017 - RESPONDER

[…] https://cleverdata.io/conceptos-basicos-machine-learning/ […]

OFICINAS MADRID DANIEL RODRIGUEZ ESCRITO EN 29 MARZO 2018 - RESPONDER

Andres, buen articulo, soy nuevo en estos temas pero me ha quedado en duda lo siguiente.. los modelos predictivos
Edi cio Foxá 25
bayesianos son mejores? o que desventajas tiene frente a un modelo bayesiano… quedo atento a tus comentarios
C/ Agustín de Foxá, 25
28036 - Madrid
ANDRÉS GONZÁLEZ ESCRITO EN 4 ABRIL 2018 - RESPONDER

Hola Daniel. No soy experto en modelos bayesianos, aunque sé que una de sus características es que asume que el valor
de cada variable (feature) es indenpendiente del valor de cualquier otra variable. Esta premisa se puede asumir en ciertas
OFICINAS ANDORRA
aplicaciones y puede dar buenos resultados, pero en otros casos no tanto. Una ventaja de los modelos bayesianos es que
no se necesitan muchos datos para entrenar los modelos.
Avda. Príncep Benlloch, 26-30
AD500 - Andorra la Vella
En todo caso, como siempre decimos, lo más importante no es el modelo, sino los datos. Ya existen en el mercado muchas
Principat d'Andorra
herramientas que facilitan el entrenamiento de un gran número de tipos de modelos y que hace que la selección del mejor
sea una tarea no tan complicada. En cambio, saber qué variables son predictivas, qué formato deben tener, limpiar los
datos para eliminar el ruido, etc. es una tarea que no es automatizable, al menos de momento. Para esta tarea hay que
unir el conocimiento del entorno (del negocio, de la industria…) con el conocimiento de la ciencia de datos. Es ahí donde
© Copyright
Utilizamos 2018
hay
cookies - Todos
que
propias y delos
poner elderechos
para reservados
esfuerzo
terceros por
y la neurona
mejorar a CleverData.io
nuestros trabajar.
servicios. Si continua navegando, consideramos que acepta su uso. Puede aceptar u obtener

más información. Aceptar Leer más

https://cleverdata.io/conceptos-basicos-machine-learning/ 7/10
23/10/2018 Conceptos básicos de Machine Learning -

BERTIN AGUILAR ESCRITO EN 15 AGOSTO 2018 - RESPONDER

OFICINAS CENTRALES
Estoy incursionando en el tema y me parece un gran aporte para los que van iniciando en estos temas, pero ojo!! es super
importante eliminar el ruido, tomar las variables correctas, etcétera. es igual de importante que el saber interpretar un
Avinguda de Barcelona, 115, 4º-3ª
modelo ya que las herramientas te entregan muchos valores y lo bonito de estos es analizar cual es el mas indicado y nos
08970 - Sant Joan Despí
entrega un mejor resultado.
Barcelona
GPS: 41.371972, 2.075821
Saludos desde México CDMX

OFICINAS MADRID
Dejar un comentario

Edi cio Foxá 25


C/Comentario
Agustín de Foxá, 25
28036 - Madrid

OFICINAS ANDORRA

Avda. Príncep Benlloch, 26-30


AD500 - Andorra la Vella
Principat d'Andorra
Nombre

Email
© Copyright
Utilizamos 2018
cookies - Todos
propias y delos derechos
terceros para reservados por CleverData.io
mejorar nuestros servicios. Si continua navegando, consideramos que acepta su uso. Puede aceptar u obtener

Web más información. Aceptar Leer más

https://cleverdata.io/conceptos-basicos-machine-learning/ 8/10
23/10/2018 Conceptos básicos de Machine Learning -

OFICINAS CENTRALES
PUBLICAR COMENTARIO

Avinguda de Barcelona, 115, 4º-3ª


08970 - Sant Joan Despí
Barcelona
GPS: 41.371972, 2.075821
Últimos artículos

Cómo mejorar las operaciones con Machine Learning

OFICINAS MADRID
Business Intelligence and Machine Learning di erences

Machine Learning: data-based predictions with BigML


Edi cio Foxá 25
The importance
C/ Agustín of cleaning,
de Foxá, 25 selecting and transforming data

528036
tips to- start
Madridwith Machine Learning in your business

OFICINAS ANDORRA
Etiquetas

Avda. Príncep
AMAZON Benlloch,PREDICTIVAS
APLICACIONES 26-30 BANCA BIG DATA BIGDATA BUSINESS INTELLIGENCE BUSSINESS CAU CHURN

AD500 - Andorra la Vella


CLASSIFICATION AND REGRESSION CLEAN COMPANY DASHBOARDS DATA DATA-DRIVEN DATA MINING DECISION TREE DISPATCHING
Principat d'Andorra

E-COMMERCE ETL FEATURE FEATURE ENGINEERING IA INBOUND MARKETING INCIDENCIAS INTELIGENCIA COGNITIVA LEAD SCORING

MACHINE LEARNING MARKETING AUTOMATION NATURAL LANGUAGE PROCESSING NLP PLN PREDICCIONES PREDICT PREDICTIONS

© Copyright
Utilizamos 2018
cookies - Todos
propias y delos derechos
terceros para reservados por CleverData.io
mejorar nuestros servicios. Si continua navegando, consideramos que acepta su uso. Puede aceptar u obtener
PROCESAMIENTO DE LENGUAJE NATURAL RETAIL SELECT SUPERVISED TELCOS TENDENCIAS DE GRUPO TRANSFORM TREE TURISMO

más información. Aceptar Leer más

https://cleverdata.io/conceptos-basicos-machine-learning/ 9/10
23/10/2018 Conceptos básicos de Machine Learning -
UBER

OFICINAS CENTRALES

Avinguda de Barcelona, 115, 4º-3ª


08970 - Sant Joan Despí
Barcelona
GPS: 41.371972, 2.075821

OFICINAS MADRID

Edi cio Foxá 25


C/ Agustín de Foxá, 25
28036 - Madrid

OFICINAS ANDORRA

Avda. Príncep Benlloch, 26-30


AD500 - Andorra la Vella
Principat d'Andorra

© Copyright
Utilizamos 2018
cookies - Todos
propias y delos derechos
terceros para reservados por CleverData.io
mejorar nuestros servicios. Si continua navegando, consideramos que acepta su uso. Puede aceptar u obtener

más información. Aceptar Leer más

https://cleverdata.io/conceptos-basicos-machine-learning/ 10/10