Académique Documents
Professionnel Documents
Culture Documents
Un nuevo paradigma
de anlisis de datos
There was five exabytes of
information created between the
dawn of civilization through
2003, but that much information
is now created every two days,
and the pace is increasing.
Eric Schmidt, former CEO
of Google, 2010
Introduccin
Tradicionalmente la estructura de
un conjunto de datos se presenta
como una matriz de n filas y p columnas, representando cada fila informacin sobre p variables medidas en
cada unidad (individuo, empresa, inmueble, calle de una gran ciudad, procedimiento judicial, etc.). Por ejemplo,
la hoja de clculo Excel 2013 puede
utilizarse para mostrar 1.048.576 filas
por 16.384 columnas en cada hoja,
siendo los lmites mximo de almacenamiento en memoria de 2 gigabytes
(GB) en un entorno de 32 bits, y los
lmites del sistema y su memoria en un
entorno de 64 bits.
Recordamos que un bit es la mnima cantidad de informacin procesada,
slo puede ser 1 o 0; mientras que un
byte es un conjunto de 8 bits. La Tabla 1
muestra los distintos mltiplos del byte
con algunos ejemplos de los mbitos
esttico y dinmico de la informacin,
tomando como base el ao 2014.
Una solucin a las limitaciones de
Excel procedi de los sistemas de
gestin de bases de datos relacionales (RDBMS), que utilizan lenguaje de
consultas estructurado (SQL) para
definir consultas y actualizar la base
de datos. Las empresas lderes en el
Smbolo
Sistema
internacional
100 bytes
1 B es un nmero de 0 a 255
Kilobyte
KB
103 bytes
Megabyte
MB
106 bytes
Gigabyte
GB
109 bytes
Terabyte
TB
1012 bytes
Petabyte
PB
1015 bytes
Exabyte
EB
1018 bytes
Zettabyte
ZB
1021 bytes
5 ZB/ao es la cantidad de datos digitales promedio que se van a generar en la Tierra en los
prximos 8 aos
Yottabyte
YB
1024 bytes
Xerabyte
XB
1027 bytes
Nombre
Byte
11
Fuente: http://velvetchainsaw.com/2012/07/20/three-vs-of-big-data-as-applied-conferences/
MapReduce
Es un modelo de programacin y
una implantacin para procesar y generar grandes conjuntos de datos que
tiene sus orgenes en el lenguaje LISP.
Los usuarios tienen que especificar varias funciones Map (M en la Figura 2).
Una funcin mapa (Map) procesa un
par clave/valor generando un conjunto
intermedio de pares clave/valor. Es decir:
Map (clave, valor) (clave, valor)
A continuacin actan varias funciones Reduce (R en la Figura 2). Una
funcin de reduccin (Reduce) mezcla
todos los valores intermedios (clave,
valor) asociados con la misma clave intermedia (clave). Cada Reduce genera
una salida de fichero nica (o cero).
Datos estructurados
Fichas de clientes
Fecha de nacimiento
Nombre
Direccin
Transacciones en un mes
Puntos de compra
Datos semiestructurados
Correos electrnicos
Parte estructurada:
destinatario,
receptores,
tema
Parte no estructurada:
cuerpo del mensaje
Datos no estructurados
Persona a persona
Comunicaciones en las redes
sociales
Persona a mquina
Dispositivos mdicos
Comercio electrnico
Ordenadores, mviles
Mquina a mquina
Sensores, dispositivos GPS
Cmaras de seguridad
Hadoop
Fuente: http://www.infosun.fim.unipassau.de/cl/MapReduceFoundation/
13
EjEMPLoS:
Amazon. Para construir los ndices de bsqueda de producto de
Amazon dentro de su analtica se
procesan diariamente millones de
sesiones. Se emplean JAVA y API
de streaming, variando los clsters
de 1 a 100 nodos.
Yahoo. Hadoop se ejecuta en
ms de 100.000 CPU que se encuentran en aproximadamente
20.000 ordenadores. El clster
ms grande es de 2.000 nodos
(cada disco tiene 4 TB y est
montado en cajas de 2 x 4 CPU).
Su uso est vinculado a bsquedas en la web.
Facebook. Emplea Hadoop para
almacenar copias de log internos
y fuentes de dimensin de datos.
Lo utiliza como fuente para generar informes de analtica y aprendizaje de mquina. El sistema tiene
un clster de 320 mquinas con
2.560 ncleos y alrededor de 1,3
PB de almacenamiento bruto.
Ms detalles en Zicari (2014).
NoSQL y Hadoop
Computacin en la nube
El trmino computacin en la nube
(cloud computing) es una solucin de
las tecnologas de la informacin (IT)
para ofrecer recursos y servicios sobre Internet. Segn la definicin del
NIST (National Institute of Standard
and Technology), el cloud computing es
un modelo tecnolgico que permite
el acceso ubicuo, adaptado y bajo demanda en red a un conjunto de recursos de computacin configurables
compartidos (por ejemplo, redes, servidores, equipos de almacenamiento,
aplicaciones y servicios) que pueden
ser rpidamente aprovisionados y liberados con un esfuerzo de gestin
reducido o interaccin mnima con el
proveedor del servicio.
La idea bsica es que toda la informacin se almacena de forma distribuida en servidores, siendo accesible
en cualquier momento por el usuario
sin que ste se preocupe de nada, el
propio sistema de cloud es el que
se encarga de mantener siempre la
Fuente: http://es.wikipedia.org/wiki/Computacin_en_la_nube
Conclusiones
En el ao 2010 el trmino big data
era prcticamente desconocido. A
mediados de 2011 se converta en
una palabra que apareca con frecuencia entre las ltimas tendencias. Lo que
pareca iba a ser una palabra de moda
(buzzword) y, por ende pasajera, se ha
convertido en todo un rea de inters enorme para las empresas, orgaBig data. Un nuevo paradigma de anlisis de datos
15
o no estructurados, y se presentan en
cientos de billones de filas y millones
de variables.
Los sistemas de gestin de bases de
datos tradicionales RDBMS basados
en SQL son incapaces de procesar
este nuevo contexto de los big data, lo
que ha hecho necesaria la aparicin de
nuevos paradigmas en el tratamiento
de datos masivos como MapReduce,
Hadoop, NoSQL o cloud computing;
trminos que han sido presentados
de forma divulgativa en este artculo.
La analtica de los big data no se ha
podido desarrollar por cuestin de espacio. Slo queda comentar que la estadstica de los big data tiene, como es
lgico, sus cimientos en la Estadstica
Clsica, pero requiere un enfoque de
la llamada Ingeniera Estadstica, donde las tcnicas de Inteligencia Artificial
proporcionan una base imprescindible
y crtica para el futuro analtico de los
datos masivos.