Vous êtes sur la page 1sur 3

Monogrfico

BIG DATA
Luis Reina
Arquitecto de datos del equipo de
software de IBM SPGI

Los desafos del


Big Data
Qu plataformas existen en el mercado que permitan
analizar la informacin de forma efectiva?Cules son las
mayores dificultades con que se encuentran las herramientas de procesamiento de datos? Consultamos con el experto Luis Reina, para clarificar los retos a los que se enfrentan estas herramientas, que manejan datos desestructurados, de orgenes diversos y con diversos formatos, y que a
su vez deben ser capaces de proporcionar fidedignos anlisis de esos datos en muchos casos en tiempo real.

@luisrei

dial es no estructurada. Informacin estructurada es, por


ejemplo, una base de datos relacional, donde existe un modelo de datos con sus tablas y atributos cada uno con su
tipo de datos especfico. Un ejemplo claro de informacin
no estructurada puede ser el texto de un tweet donde alguien escribe hasta 140 caracteres sobre informacin
diversa y sin ningn tipo de formato.
Para definir de una manera ms formal qu es Big
Data se usa el modelo de las 3Vs. La V de Volumen hace referencia al tamao, la V de variedad se refiere a la
informacin no estructurada y la ltima V es la de velocidad, que hace referencia ms que a la velocidad a la que
se generan los datos (ya que esto estara vinculado al volumen) a la necesidad de analizarlos en tiempo real, segn
se estn produciendo. ltimamente se ha enriquecido este modelo con Vs adicionales como la V de Veracidad
o Valor que viene a destacar que, dentro de esta informacin interesante, hay tambin mucho ruido o informacin
basura que no aporta ningn valor, por ejemplo, si analizo tweets para determinar intencin de compra, tendr que
discernir la informacin vlida entre un montn de datos
intiles.

Capacidad para analizar todos los datos

os encontramos ante la Revolucin Industrial de


los Datos. Internet es un gran generador de nuevos datos: las redes sociales (e.g Facebook), correos
electrnicos, los blogs, microblogs (e.g. Twitter), etc. proporcionan enormes cantidades de informacin. Pero no slo dentro de Internet, fuera tambin, donde existen todo tipo de servidores, sensores y aparatos interconectados que estn continuamente generando volmenes ingentes de datos. Sirva de
ejemplo que en 2005 haba 1,3 billones de dispositivos
RFID y en el 2011 la cifra crece hasta 30 billones1. Se espera que la informacin generada en el ao 2020 sea mayor de
30 Zettabytes2 (1021 bytes) cuando hasta hace bien poco se
hablaba de Terabytes (1012 bytes).

Big Data es un trmino que est de moda y que est levantado mucha expectacin en las empresas y en los gobiernos.
Pero, Qu es Big Data? su nombre hace referencia a grandes volmenes de datos, sin embargo esta definicin se queda corta ya que adems del tamao, tiene tambin otras consideraciones importantes. Una de ellas es que estamos hablando no solamente de datos estructurados sino tambin no
estructurados. IBM estima que el 80%3 de la informacin mun-

46 junio 2013

1 93

Debido a la gran y variada informacin que Big Data


puede proporcionar, los casos de usos son innumerables. Desde anlisis de sentimiento para averiguar, por ejemplo, la imagen que tiene la gente de una empresa, hasta
identificar amenazas criminales, pasando por anlisis
de fraude, riesgo, etc. Existe una empresa que analiza informacin meteorolgica y geogrfica para determinar la
mejor posicin de las turbinas de viento, mejorando
enormemente su antiguo y costoso sistema que supona
un ao entero de mediciones en las ubicaciones potenciales de las turbinas.
Si se es capaz de analizar los datos, est claro que Big
Data proporciona una potencial muy interesante. Ahora
bien, la siguiente pregunta lgica que se plantea es: Cmo puedo analizar esta informacin? Existen en el mercado plataformas de Big Data (Figura 1) que ayudan a realizar este anlisis para poder, de una forma efectiva y eficiente, sacar provecho a estos datos.
Big Data se puede clasificar en dos tipos: Datos en Reposo y Datos en Movimiento: Los datos en reposo son da-

Monogrfico
BIG DATA
tos que previamente al anlisis se han almacenado en disco,
por ejemplo, informacin de logs de TI o informacin proveniente de Twitter o Facebook. Por otro lado, los datos en movimiento son aquellos que tengo que analizar al vuelo, en tiempo real, segn se estn produciendo sin esperar a almacenarlos: por ejemplo, informacin proveniente de sensores que
necesitan una accin inmediata o ataques cibernticos.

ciona el paralelismo en el cluster mediante la ejecucin de las


funciones Map (que genera tuplas a partir de los datos) en cada nodo del cluster en paralelo y Reduce (que reduce/consolida
las tuplas generadas). Existe una gran variedad de lenguajes que
permiten realizar aplicaciones MapReduce. Se puede programar en Java directamente con el API MapReduce; sin embargo, para facilitar el desarrollo han surgido lenguajes de programacin de alto nivel que facilitan enormemente la implementacin de este tipo de aplicaciones. Lenguajes sencillos como
Jaql, Pig, Hive, etc. generan por debajo, de forma transparente al programador, la funcionalidad MapReduce que es la que
permite la ejecucin en paralelo en el cluster. Por su parte, la
herramienta grfica BigSheets5 permite producir cdigo MapReduce sin necesidad de programar, para que los usuarios sin
conocimiento de programacin y manejando una hoja de clculo sean capaces de analizar Big Data.
Es importante resaltar que el cluster est formado por servidores Linux baratos conectados nicamente por una red TCP/IP
y con discos locales. As, de una forma muy econmica, se
puede montar un cluster con cientos de nodos ejecutando
aplicaciones en paralelo.

Figura 1: Plataforma de Big Data.

Para analizar los datos en reposo ha surgido una tecnologa open source muy interesante denominada Hadoop4.
Hadoop es un entorno de desarrollo y ejecucin que permite realizar aplicaciones y ejecutarlas en paralelo en un cluster de servidores (nodos) corriendo en sistemas Linux de 64
bits. Hadoop permite, de una forma econmica, montar un
sistema MPP (procesamiento masivo paralelo) que es capaz
de procesar hasta Petabytes de informacin de una forma gil.
Hadoop tiene dos componentes clave: el sistema de ficheros Hadoop Distributed File System (HDFS) y el modelo de
programacin MapReduce. HDFS es un sistema de ficheros
distribuido que permite que los ficheros que almacena se distribuyan por todo el cluster, partindose en pequeos fragmentos (bloques de datos) pero dando la visin al usuario de
un nico fichero. Es decir, cada nodo del cluster va a almacenar y luego procesar una porcin de los datos. De esta forma, cuando se lance una aplicacin en el cluster, todos los
nodos van a funcionar en paralelo, cada uno procesando su
porcin de datos que tiene almacenados en local.
El modelo de programacin MapReduce es el que propor-

Hadoop proporciona mejoras interesantes sobre la computacin grid que tambin permita la ejecucin en paralelo de un cluster de nodos. Las aplicaciones Hadoop no necesitan saber donde estn los datos, Hadoop los distribuye
automticamente y se encarga de ejecutar los procesos
MapReduce en paralelo y adems, si se aumenta el nmero
de nodos del cluster, las aplicaciones no cambian. Este paradigma junto con el factor econmico es el que hace revolucionario a Hadoop: se puede empezar con una aplicacin
que procese pocos Terabytes de informacin en un cluster y,
sin cambiar la aplicacin, aadiendo ms nodos y ms datos, procesar volmenes enormes en tiempo record gracias al paralelismo MapReduce. Adicionalmente Hadoop proporciona tolerancia a fallos ya que los bloques de datos estn duplicados en ms de un nodo por si uno fallase otro pueda realizar su trabajo.
Sobre Hadoop se han desarrollado herramientas como Text
Analytics5 que permite realizar anlisis de texto sobre grandes volmenes en un cluster Hadoop. Similar al lenguaje SQL
(Structured Query Language) inventado por IBM, se ha creado el lenguaje AQL (Annotator Query Language) que permite de forma fcil crear reglas (anotadores) que extraigan de
textos no estructurados, aquellas partes que quiero analizar.
Lo importante es que el usuario solo tiene que preocuparse
de crear los anotadores, luego internamente el sistema lo optimiza, generando cdigo MapReduce, que corre en paralelo en cluster. Otra herramienta interesante sobre Hadoop es
Machine Learning5 que permite realizar funciones estadsticas y predictivas en un cluster de Hadoop de grandes vol-

193 junio 2013 47

Monogrfico
BIG DATA
menes de datos. Machine Learning proporciona tambin un
lenguaje declarativo sencillo de alto nivel llamado DML que,
una vez compilado, genera cdigo MapReduce.
Existen en el mercado soluciones de Hadoop en formato appliance6 que integra el hardware y el software necesarios para construir un sistema Hadoop.

plataforma de Big Data se tiene que poder integrar fcilmente con otros componentes como, por ejemplo, bases
de datos relacionales, herramientas de gestin de contenidos9. Tambin es necesario que herramientas de Business
Intelligence10 puedan acceder a la plataforma de Big Data
para proporcionar informes a los usuarios finales.

Una plataforma de Big Data debe ser capaz tambin de


analizar los datos en movimiento segn se estn produciendo. Por ejemplo Infosphere Streams7, que es el resultado de una tecnologa creada para el Gobierno de Estados Unidos para analizar, en tiempo real, informacin de
terrorismo en Internet. Permite analizar cantidades enormes de informacin con latencias por debajo del milisegundo. Para ello, en vez de almacenar los datos en disco,
los analiza en memoria usando tambin sistemas cluster
altamente escalables, en el que cada nodo realiza distintas funciones sobre los datos, como por ejemplo, filtrados,
transformaciones, correlaciones, clasificaciones, etc. Su
uso es muy variado: desde analizar el trfico de una ciudad (Smart Trafic) hasta su utilizacin en hospitales para
detectar situaciones crticas en pacientes. En el mundo de
las telecomunicaciones existen aplicaciones interesantes
como el anlisis de los CDR (Call Detail Records) para
detectar fraudes en tiempo real.

Conclusin
Big Data supone, entre otros, grandes volmenes de
informacin con infinidad de formatos. Aquellas empresas que sean capaces de analizar estos datos conseguirn
una importante ventaja competitiva. Existen tecnologas
como Hadoop que permiten, de una forma econmica,
realizar dicho anlisis pero tambin suponen un importante reto a la hora de crear las aplicaciones que las aprovechen. Existen aceleradores y herramientas, como Text
Analytics y Machine Learning que son una gran ayuda a
la hora de implementar dichas aplicaciones.

Los retos del Big Data


No cabe duda de que estas tecnologas tienen un enorme potencial. Sin embargo, una de las mayores dificultades para analizar los datos es desarrollar las aplicaciones
que sean capaces de aprovecharlos. Para ayudar en estos
desarrollos existen aceleradores que son desarrollos
implementados en diversos clientes y que se ponen a disposicin del usuario para su reutilizacin y modificacin.
Por ejemplo el acelerador TEDA (Telco Data Accelerator)
permite el anlisis con Infosphere Streams de CDRs.
Muchas veces el problema es encontrar e indexar la
informacin que est dispersa y aislada en silos dentro
pero tambin fuera de las empresas. Adems esta informacin tiene innumerables formatos, desde bases de datos
relacionales, correos, documentos xml, ficheros, etc. Existen herramientas8 que permiten buscar y tener una visin
integrada de la informacin, sin importar el formato,
cmo se gestiona o dnde est almacenada. Los datos no
se mueven, permanecen en sus ubicaciones originales
pero permitiendo, de forma sencilla, realizar aplicaciones
seguras que muestren al usuario la informacin unificada.
Es importante que los sistemas que se creen para analizar Big Data no sean silos aislados sino que puedan comunicarse con los sistemas existentes de la empresa. As la

48 junio 2013

1 93

Por ltimo para aquellos que quieran aprender ms sobre


estas tecnologas un punto importante de cursos e informacin es http://bigdatauniversity.com/ 3
Referencias
1

Fuente: IBM 2012.


Fuente: IBM 2010
3 Fuente: IBM 2010.
4 Ms informacin: http://hadoop.apache.org
5 Componente de BigInsights (http:// www.ibm.com/software/data/ infosphere/biginsights/)
6 Ms informacin: http://www.ibm.com/software/data/puredata/had op/
7 Ms Informacin: http://www.ibm.com/software/data/infosphere/str
eams/
8 Data Explorer: http://www.ibm.com/software/data/infosphere/data- explorer/
9 http://www.ibm.com/software/products/us/en/subcategory/SWN40
10 http://www.ibm.com/software/products/es/es/business-intelligence/
2

Vous aimerez peut-être aussi