Académique Documents
Professionnel Documents
Culture Documents
BIG DATA
Luis Reina
Arquitecto de datos del equipo de
software de IBM SPGI
@luisrei
Big Data es un trmino que est de moda y que est levantado mucha expectacin en las empresas y en los gobiernos.
Pero, Qu es Big Data? su nombre hace referencia a grandes volmenes de datos, sin embargo esta definicin se queda corta ya que adems del tamao, tiene tambin otras consideraciones importantes. Una de ellas es que estamos hablando no solamente de datos estructurados sino tambin no
estructurados. IBM estima que el 80%3 de la informacin mun-
46 junio 2013
1 93
Monogrfico
BIG DATA
tos que previamente al anlisis se han almacenado en disco,
por ejemplo, informacin de logs de TI o informacin proveniente de Twitter o Facebook. Por otro lado, los datos en movimiento son aquellos que tengo que analizar al vuelo, en tiempo real, segn se estn produciendo sin esperar a almacenarlos: por ejemplo, informacin proveniente de sensores que
necesitan una accin inmediata o ataques cibernticos.
Para analizar los datos en reposo ha surgido una tecnologa open source muy interesante denominada Hadoop4.
Hadoop es un entorno de desarrollo y ejecucin que permite realizar aplicaciones y ejecutarlas en paralelo en un cluster de servidores (nodos) corriendo en sistemas Linux de 64
bits. Hadoop permite, de una forma econmica, montar un
sistema MPP (procesamiento masivo paralelo) que es capaz
de procesar hasta Petabytes de informacin de una forma gil.
Hadoop tiene dos componentes clave: el sistema de ficheros Hadoop Distributed File System (HDFS) y el modelo de
programacin MapReduce. HDFS es un sistema de ficheros
distribuido que permite que los ficheros que almacena se distribuyan por todo el cluster, partindose en pequeos fragmentos (bloques de datos) pero dando la visin al usuario de
un nico fichero. Es decir, cada nodo del cluster va a almacenar y luego procesar una porcin de los datos. De esta forma, cuando se lance una aplicacin en el cluster, todos los
nodos van a funcionar en paralelo, cada uno procesando su
porcin de datos que tiene almacenados en local.
El modelo de programacin MapReduce es el que propor-
Hadoop proporciona mejoras interesantes sobre la computacin grid que tambin permita la ejecucin en paralelo de un cluster de nodos. Las aplicaciones Hadoop no necesitan saber donde estn los datos, Hadoop los distribuye
automticamente y se encarga de ejecutar los procesos
MapReduce en paralelo y adems, si se aumenta el nmero
de nodos del cluster, las aplicaciones no cambian. Este paradigma junto con el factor econmico es el que hace revolucionario a Hadoop: se puede empezar con una aplicacin
que procese pocos Terabytes de informacin en un cluster y,
sin cambiar la aplicacin, aadiendo ms nodos y ms datos, procesar volmenes enormes en tiempo record gracias al paralelismo MapReduce. Adicionalmente Hadoop proporciona tolerancia a fallos ya que los bloques de datos estn duplicados en ms de un nodo por si uno fallase otro pueda realizar su trabajo.
Sobre Hadoop se han desarrollado herramientas como Text
Analytics5 que permite realizar anlisis de texto sobre grandes volmenes en un cluster Hadoop. Similar al lenguaje SQL
(Structured Query Language) inventado por IBM, se ha creado el lenguaje AQL (Annotator Query Language) que permite de forma fcil crear reglas (anotadores) que extraigan de
textos no estructurados, aquellas partes que quiero analizar.
Lo importante es que el usuario solo tiene que preocuparse
de crear los anotadores, luego internamente el sistema lo optimiza, generando cdigo MapReduce, que corre en paralelo en cluster. Otra herramienta interesante sobre Hadoop es
Machine Learning5 que permite realizar funciones estadsticas y predictivas en un cluster de Hadoop de grandes vol-
Monogrfico
BIG DATA
menes de datos. Machine Learning proporciona tambin un
lenguaje declarativo sencillo de alto nivel llamado DML que,
una vez compilado, genera cdigo MapReduce.
Existen en el mercado soluciones de Hadoop en formato appliance6 que integra el hardware y el software necesarios para construir un sistema Hadoop.
plataforma de Big Data se tiene que poder integrar fcilmente con otros componentes como, por ejemplo, bases
de datos relacionales, herramientas de gestin de contenidos9. Tambin es necesario que herramientas de Business
Intelligence10 puedan acceder a la plataforma de Big Data
para proporcionar informes a los usuarios finales.
Conclusin
Big Data supone, entre otros, grandes volmenes de
informacin con infinidad de formatos. Aquellas empresas que sean capaces de analizar estos datos conseguirn
una importante ventaja competitiva. Existen tecnologas
como Hadoop que permiten, de una forma econmica,
realizar dicho anlisis pero tambin suponen un importante reto a la hora de crear las aplicaciones que las aprovechen. Existen aceleradores y herramientas, como Text
Analytics y Machine Learning que son una gran ayuda a
la hora de implementar dichas aplicaciones.
48 junio 2013
1 93