Vous êtes sur la page 1sur 26

01

02
03

Herramientas de

La caja de herramientas del


cientfico de datos
Cinco herramientas de
visualizacin de datos

Saca provecho a los datos


con estos cuatro tutoriales

visualizacin de datos

La caja de herramientas del

cientfico de datos
La ciencia del dato se erige en nuestros das como una profesin
multidisciplinar. Esta pretende ser una gua bsica de recursos en
cada una de las facetas desempeadas por estos profesionales.

01. CAJA HERRAMIENTAS

La ciencia del dato se erige en nuestros das


como una profesin multidisciplinar en la
cual conocimientos tcnicos de diversas
reas se solapan formando un perfil ms
propio del Renacimiento que del
superespecializado siglo XXI.
Dada la escasez de formacin
estructurada en la materia, los
cientficos de datos se ven obligados a
ir coleccionando conocimientos,
habilidades y herramientas que les
permitan desarrollar de forma ptima
sus competencias.
Este artculo pretende ser una
gua bsica no exhaustiva de
recursos en cada una de las
facetas desempeadas por
estos profesionales.

HERRAMIENTAS
Y LENGUAJES
SQL

pyODBC

Sqlite

mxODBC

SQlite3

SQLAlchemy

RSQlite

pandas

Toad

data.table

Tora

XML

RapidMiner Jsonlite
Knime
Pentaho
RODBC
RJDBC

json

01. CAJA HERRAMIENTAS

Gestin de datos
Parte del trabajo del cientfico de datos es la
captura, depuracin y almacenamiento de la
informacin en un formato adecuado para su
tratamiento y anlisis.
El caso ms frecuente ser el acceso a una rplica
de los datos para una captura puntual o peridica.
Ser necesario conocer SQL para acceder a la
informacin almacenada en bases de datos
relacionales. Cada base de datos tiene una consola

de comandos para ejecutar las sentencias SQL,


aunque son mayora los que prefieren un entorno
grfico con informacin sobre tablas, campos e
ndices. Entre las herramientas ms valoradas estn
Toad, versin comercial para plataforma
Microsoft y Tora, versin libre multiplataforma.
Una vez extrados los datos podemos guardarlos en
ficheros de texto plano que luego cargaremos en
nuestro entorno de trabajo para machine learning o
utilizar una herramienta como SQlite.

01. CAJA HERRAMIENTAS

SQlite es una base de datos relacional ligera, sin


dependencias externas y que no necesita la
instalacin en un servidor. Transportar una base de
datos es tan fcil como copiar un solo fichero. En
nuestro caso, cuando vayamos
a procesar la informacin lo haremos sin necesidad
de concurrencia ni de mltiples escrituras en los
datos origen, lo cual se adapta perfectamente a las
caractersticas de SQlite.
Los lenguajes que utilizaremos para nuestros
algoritmos tienen conectividad con SQlite (Python a
travs de SQlite3 y R a travs de RSQlite) por lo
que podemos optar por importar los datos antes de
preprocesarlos o hacer parte en la base de datos,
lo cual nos evitar ms de un problema a partir de
un volumen medio de registros.
Otra alternativa para la captura en lotes de los
datos es la utilizacin de una herramienta
que incluya el ciclo ETL completo (extraccin,
transformacin y carga), entre las que destacan
RapidMiner, Knime y Pentaho. Con ellas podremos

definir el ciclo de captura y depuracin de los datos


de manera grfica mediante conectores.
Cuando tengamos garantizado acceso al origen de
datos durante el preproceso podemos optar por
una conexin ODBC (RODBC y RJDBC en R y
pyODBC, mxODBC y SQLAlchemy en Python) y
beneficiarnos de realizar uniones (JOIN) y
agrupaciones (GROUP BY) utilizando el motor de la
base de datos e importando posteriormente los
resultados.
Para el procesado externo a la base de datos
pandas (librera de Python) y data.table (paquete de
R) son primera eleccin. En el caso de R, data.table
permite soslayar uno de los puntos dbiles de ste,
la gestin de la memoria, realizando operaciones
vectoriales y agrupaciones por referencia, es decir,
sin tener que duplicar temporalmente los objetos.

01. CAJA HERRAMIENTAS

Un tercer escenario sera el acceso a


informacin generada en tiempo real y que
sea transmitida en formatos como XML o
JSON. Seran proyectos denominados de
incremental learning entre los que se
encuentran los sistemas de recomendacin,
publicidad online y trading de alta
frecuencia.
Utilizaremos herramientas como XML o
jsonlite (paquetes para R) o xml y json
(mdulos de Python). Con ellos haremos
una captura en streaming, calcularemos la
prediccin, la devolveremos en el mismo
formato y actualizaremos nuestro modelo
una vez el sistema de origen nos facilite,
ms adelante, el resultado observado en la
realidad.

01. CAJA HERRAMIENTAS

Anlisis de datos
Si bien las reas de business intelligence, data
warehousing y machine learning son objetos de
la ciencia de datos, es esta ltima la ms
diferencial en el sentido que necesita de un
nmero mayor de utilidades especficas.
En cuanto a lenguajes de programacin,
imprescindibles en nuestra caja de herramientas
son R y Python, los ms utilizados para el
aprendizaje automtico.

Para Python destacamos la suite scikit-learn que


cubre casi todas las tcnicas, salvo quizs las redes
neuronales. Para estas tenemos varias alternativas
interesantes, como Caffe y Pylearn2. Pylearn2
utiliza como base Theano, una interesante librera
de Python que permite definiciones simblicas y
uso transparente de los procesadores GPU.

01. CAJA HERRAMIENTAS

Si necesitamos modificar algn paquete de R requeriremos C++ y disponer de utilidades que nos permitan
volver a generarlos: Rtools o devtools facilitan todos los procesos relacionados con el desarrollo.

Entre los paquetes para R ms utilizados destacan:

Gradient boosting: gbm y xgboost.

Ensamblado de rboles de regresin y


clasificacin: randomForest y randomForestSRC.

Regresin con regularizacin (Ridge, Lasso y


ElasticNet): glmnet.

Modelos generalizados aditivos: gam.

Clustering: cluster.

Mquinas de soporte de vectores: e1071,


LiblineaR y kernlab.

Utilidades que nos harn la vida ms fcil en R:

Data.table: Lectura rpida de ficheros texto,


creacin, modificacin y borrado de columnas
por referencia, unin de tablas por una clave
comn o agrupacin y resumen de datos.

Caret: Comparacin modelos, control de


particiones de datos (splitting, bootstrapping,
subsampling) y ajuste de parmetros (grid
search).

Foreach: Ejecucin de procesos en paralelo


contra un backend previamente definido con
alguna utilidad como doMC o doParallel.

Bigmemory: Manejar grandes matrices y


compartirlas entre varias sesiones o ejecuciones.

Matrix: Manejo de matrices dispersas y


transformacin de variables categricas a
binarias (onehot encoding) mediante la funcin
sparse.model.matrix.

01. CAJA HERRAMIENTAS

Una mencin especial requieren los entornos distribuidos. Si hemos trabajado con datos procedentes de una
entidad o empresa de cierto tamao probablemente tengamos experiencia con el denominado ecosistema
Hadoop. Hadoop es en su origen un sistema distribuido de ficheros (HDFS) dotado de unos algoritmos
(MapReduce) que permiten realizar procesamiento de la informacin en paralelo.

Algunas de las herramientas de aprendizaje automtico que conviven con Hadoop:

Vowpal Wabbit: Mtodos para online learning


basado en gradiente descendente.

Mahout: Suite de algoritmos entre los que


destacan los sistemas de recomendacin,
clustering, regresin logstica, random forest.

Interesar tambin al cientfico de datos estar al


corriente de las nuevas tendencias de cambio
generacional de Hadoop hacia Spark.
Spark tiene varias ventajas sobre Hadoop para el
procesamiento de la informacin y la ejecucin

h2o: Quizs la herramienta en fase de mayor


crecimiento, con un gran nmero de algoritmos
paralelizables. Puede ejecutarse desde un
entorno grfico propio o bien desde R o Python.

de algoritmos. La principal de ellas la velocidad,


dado que es hasta cien veces mayor debido a que,
a diferencia de Hadoop, Spark utiliza la gestin en
memoria y slo escribe a disco cuando es
necesario.

01. CAJA HERRAMIENTAS

Spark puede ejecutarse de forma


independiente o puede convivir como un
componente ms de Hadoop, de forma
que la migracin puede planificarse de
manera no traumtica. Puede por
ejemplo utilizar HBase como base de
datos, aunque Cassandra se est
imponiendo como solucin de
almacenamiento por su redundancia y
escalabilidad.
Como muestra de los aires de cambio,
Mahout desde el pasado ao trabaja para
integrarse con Spark, distancindose de
MapReduce y Hadoop, y H2O.ai ha
lanzado Sparkling Water que es la versin
de su suite h2o sobre Spark.

01. CAJA HERRAMIENTAS

Visualizacin
Para terminar una breve referencia a
la presentacin de los resultados.
Las herramientas ms utilizadas en R
son sin duda lattice y ggplot2 y en
Python Matplotlib, pero si necesitamos
presentaciones profesionales
integradas en entornos web la mejor
opcin sin duda es D3.js.
Entre los entornos integrados de
business intelligence, con un enfoque
claro a la presentacin, destacar
Tableau, el ms conocido, y como
alternativas para la exploracin grfica
de datos, Birst y Necto.

Cinco herramientas
de visualizacin de datos que
no debes perder de vista

Te presentamos algunas de las mejores herramientas de


visualizacin de datos que puedes usar en tu negocio para sacar
el mayor provecho a la gran cantidad de informacin que se crea
cada da en el mundo digital.

02. HERRAMIENTAS DE VISUALIZACIN DE DATOS

NDICE DE HERRAMIENTAS
DE VISUALIZACIN
Google Fusion Tables
CartoDB
Tableau Public
iCharts
Smart Data Report

Hoy en da, el universo digital est


alcanzado nuevos umbrales. La cantidad
de datos generada, tanto por usuarios
particulares como por las empresas, est
aumentando a un ritmo vertiginoso. De
hecho, segn un estudio de IDC y EMC,
el universo de datos digitales est
doblando su tamao cada dos aos y, en
2020, se habrn generado 44
zettabytes de informacin o, lo que es lo
mismo, 44 trillones de gigabytes de datos
estructurados y desesctructurados.
El hecho de crear y acceder a una pgina
web, participar en un blog, aumentar
nuestro nmero de seguidores, escribir
comentarios, mandar un tuit o
simplemente, navegar por internet,
produce toda una serie de datos que, si
se saben aprovechar correctamente,
pueden ofrecer un gran valor para las
empresas.

02. HERRAMIENTAS DE VISUALIZACIN DE DATOS

El gran reto, no obstante, es dar sentido a todos


esos datos. Es decir, ser capaces de captar,
relacionar, analizar y extraer su verdadero valor, de
forma que la informacin se pueda presentar de
manera atractiva, clara, concisa y comprensible. El
objetivo es facilitar la toma de decisiones dentro de
tu negocio. Explorar y analizar visualmente los
datos de clientes puede llevarte, adems, a
descubrir nuevas vas para llegar hasta ellos,
segmentarlos mejor, personalizar ofertas de
productos o servicios y crear ideas innovadoras,
entre otras muchas posibilidades, que pueden
mantener el engagement entre tu marca y tus
usuarios a lo largo del tiempo.
Por dnde empezar
Puede que el primer paso dentro de la visualizacin
de datos resulte intimidante. Por fortuna, al igual
que el crecimiento de datos avanza, tambin lo
hacen las herramientas que nos ayudan a sacar su
valor. Te presentamos 5 herramientas
recomendables para iniciarse en este mundo.

02. HERRAMIENTAS DE VISUALIZACIN DE DATOS

Google Fusion Tables


Es una excelente herramienta para principiantes
o aquellas personas que no saben de
programacin. Adems, para los usuarios ms
avanzados, existe una API que permite producir
grficas o mapas a partir de informacin.
Una de las ventajas de esta aplicacin es la
diversidad de representaciones de datos que
hay a disposicin del usuario. Adems, ofrece la
posibilidad de crear grficos o mapas de manera
relativamente rpida, incluyendo funciones GIS
para analizar datos por geografas.
Esta herramienta es muy utilizada por The
Guardian para producir mapas de una manera
rpida y detallada.

02. HERRAMIENTAS DE VISUALIZACIN DE DATOS

CartoDB
Se trata de un servicio open source dirigido a
cualquier usuario, independientemente del nivel
tcnico que tenga, con una interfaz muy amigable.
Permite crear una gran variedad de mapas
interactivos, lo que permite elegir entre el catlogo
que el mismo servicio ofrece, incluir mapas
de Google Maps, o agregar a la lista tus propios
mapas personalizados.
Lo ms interesante es que es posible tener acceso a
los datos de Twitter para ver cmo los usuarios
reaccionan ante una marca, una determinada
campaa de marketing o un evento. Un buen
ejemplo de ello lo podemos ver en el mapa de
seguimiento de tuits que se cre el pasado ao con
motivo del lanzamiento del ltimo lbum
de Beyonce en el que, claramente, se puede
observar los lugares donde ms impacto tuvo. Toda
una fuente de informacin visual para los
profesionales del marketing y de negocio.

Tambin hay que destacar su activo grupo de


desarrolladores que aporta gran cantidad de
documentacin y ejemplos. Adems, el carcter
abierto de su API hace que continuamente se estn
desarrollando nuevas integraciones y aumentando
las capacidades de la herramienta con nuevas
libreras.

02. HERRAMIENTAS DE VISUALIZACIN DE DATOS

Tableau Public
Con Tableau Public puedes crear mapas
interactivos, grficos de barras, tartas, etc. de forma
sencilla. Una de sus ventajas es que, al igual que
con Google Fusion Tables, es posible importar
tablas de Excel para facilitar tu trabajo. En cuestin
de minutos, puedes crear un grfico interactivo,
embeberlo en tu pgina web y compartirlo. Por
ejemplo, el medio de comunicacin Global
Post cre una serie de grficos sobre cules son los
mejores pases para hacer negocios en frica.
Recientemente, lanzaron su versin 8.2. En ella
tambin podemos encontrar la nueva
herramienta OpenStreetMap que permite generar
mapas muy detallados a partir de datos locales,
como cafeteras o tiendas. Tableau Public es una
herramienta gratuita, aunque existe tambin una
versin de pago.

02. HERRAMIENTAS DE VISUALIZACIN DE DATOS

iCharts
Con esta herramienta puedes iniciarte en el mundo
de la visualizacin de datos. iCharts cuenta con una
versin gratuita (Basic) y dos de pago (Platinum y
Enterprise). Con esta herramienta puedes crear
visualizaciones en pocos pasos exportando
documentos de Excel y Google Drive, o aadir
datos manualmente.
A travs de esta herramientas tambin es posible
compartir tus grficos con tus colaboradores de
forma privada, adems de poder editar y actualizar

dichos grficos con nuevos datos a travs de su


servicio de cloud computing. Incluso, puedes
compartirlos con tus clientes a travs de mensajes
de correo electrnico, boletines de noticias o redes
sociales.
Entre las empresas que utilizan este servicio nos
encontramos con la prestigiosa consultora IDC, que
utiliza iChart para ofrecer un aspecto visual a los
datos ms relevantes de sus informes.

02. HERRAMIENTAS DE VISUALIZACIN DE DATOS

Smart Data Report


Finalmente, queremos destacar la solucin Smart
Data Report que, aunque no sea tan potente como
las anteriores, tiene la ventaja de ser una solucin
de visualizacin de datos asequible para
emprendedores y pequeas empresas cuyos
trabajadores no disponen de mucho tiempo en su
da a da.
Esto se debe a que entre los servicios que te ofrece
esta web se incluye el anlisis de datos gratuito y la
generacin de informes que pueden enviarse por
email, sin que sea necesario que lo haga uno
mismo. Una vez el servicio ha preparado tu
informe, se generan un cdigo HTML para poder
embeberlo en tu web corporativa o en tus artculos.

Saca provecho a los datos con estos

cuatro tutoriales

Mapear datos, visualizarlos en apps geoespaciales y aplicar el


aprendizaje automtico. Ponemos en prctica nuestros
conocimientos con la ayuda de estos vdeos tutoriales.

03. TUTORIALES

Mapear datos
CartoDB nos explica cmo convertir los datos de localizacin en conocimiento para tu negocio. En este
tutorial podrs aprender a analizar, visualizar y construir aplicaciones de datos a travs de su herramienta.

03. TUTORIALES

Aprendizaje automtico
Ahora que se acerca el verano, Andrs Gonzlez, responsable de soluciones de Big Data y Data Prediction en
Clever Task, nos ensea cmo hacer predicciones de los datos en un caso muy concreto: el sector turstico.

03. TUTORIALES

Apps geoespaciales
Y si lo que quieres es aprender a crear aplicaciones con datos geoespaciales no te puedes perder este
tutorial, tambin de CartoDB, en el que se explica cmo puedes sacar provecho de una API, en este caso la
que abri BBVA para el concurso InnovaChallenge, y as poder crear apps y visualizaciones.

03. TUTORIALES

Buenos ejemplos de visualizacin


Por ltimo para cerrar esta recopilacin, Alberto Cairo, profesor de visualizacin de datos en la Universidad
de Miami, nos ensea las buenas prcticas en visualizacin de datos. Es bueno aprender de nuestros errores
y de los aciertos de otros.

compartir
TE PUEDE INTERESAR

Innovation Edge Big Data: generar


valor de negocio con los datos

Emerging Tech: la visualizacin de


datos ms all del ruido

Infografa Big Data: el presente y el


futuro de los datos

Caso de xito de visualizacin de


datos: Illustreets y CartoDB

Infografa: las claves de Big Data


segn DJ Patil

BBVA no se hace responsable de las opiniones publicadas en este documento.

Regstrate
para estar al da
de las ltimas
tendencias

www.bbvaopen4u.com

conversa con nosotros en:

Vous aimerez peut-être aussi