Vous êtes sur la page 1sur 33

Introduccin a Big Data

www.consultec.es
Quines somos?

Gorka Armen+a Iaki Elcoro


Developer Developer
garmen+a@consultec.es ielcoro@consultec.es
@joruus @iceoverow

www.consultec.es
ndice

1. Introduccin
2. Qu no es Big Data?
3. Qu es Big Data?
4. Utilidades
5. Ejemplo real: Walmart
6. Caractersticas Tcnicas
7. Markets de Datos
8. Hadoop
9. Microsoft HDInsight
10.Demo
Introduccin
Big Data es desde hacer un par de aos una de las grandes
tendencias dentro del mundo de la tecnologa y del marketing, uno
de esos buzzwords que en un momento dado empiezan a
propagarse y aparecer por todo internet, las grandes empresas se
interesan por ello, se crea una industria alrededor y, de repente, todo
el mundo sabe lo que es Big Data. O no

BIG DATA
www.consultec.es
Qu no es Big Data?
Antes de empezar, lo primero es desengaarnos.

Big Data no es una base de datos enorme

Big Data no es un data warehouse enorme

Big Data no es una nueva forma de Business Intelligence

Big Data no es llevar las base de datos a la nube

www.consultec.es
Qu es Big Data? - Situacin actual
Informacin
generada por
eMails apps mviles GPS

Bases de
Datos
Redes Sociales
Relacionales
Archivos
Informacin
(XML,
generada por
Logs, )
mquinas
RFID

Big Data
ERP/CRM APIs
Bases de Y mucho ms.
Datos
Sensores Y lo que est
Anal+cas
(Data por venir
Warehouse)
Base de
Datos NoSQL Internet de
las Cosas

www.consultec.es
Qu es Big Data? - Definiciones
Definiciones encontradas en internet

Informacin que tiene un orden de magnitud ms grande de lo que


estamos acostumbrados.

Informacin que es muy grande y no se ajusta a las estructuras de las


bases de datos actuales.

Es un conjunto de datos cuyo tamao est ms all de la capacidad de la


mayora de los software utilizados para capturar, gestionar y procesar la
informacin dentro de un lapso tolerable de tiempo.

www.consultec.es
Qu es Big Data? - Las 3 Vs

Volume: grandes volmenes de informacin

Se est pasando de hablar en Gigabytes o Terabytes a tamaos de datos de


Petabytes, Exabytes o Zettabytes. Volmenes que se nos escapan.

www.consultec.es
Qu es Big Data? - Las 3 Vs

Variety: informacin de tipos muy diversos

Ya no solo tenemos informacin estructurada en Bases de Datos o Archivos.


Ahora empezamos a tener informacin con tipos diferentes y totalmente
desestructurada.

www.consultec.es
Qu es Big Data? - Las 3 Vs

Velocity: velocidad con la que se genera la informacin

La velocidad a la que se genera esta informacin hace imposible gestionarla


con sistemas de base de datos convencionales. Las empresas y las personas
ya no quieren estar al da, quieren estar al segundo.

www.consultec.es
Qu es Big Data? Retos actuales
Dar sentido al gran volumen de datos

Necesitamos las herramientas adecuadas para dar sentido de la abrumadora


cantidad de datos generados por la disminucin de los costos de hardware y de las
fuentes de datos complejas.

La comprensin de una variedad cada vez mayor de datos

Debemos poder analizar datos tanto relacionales como no relacionales. Ms del 85%
de los datos capturados son desestructurados.

Habilitacin de anlisis en tiempo real de los datos

Los nuevos grandes generadores de datos (Twitter, Facebook, ) estn produciendo


volmenes de datos sin precedentes y en tiempo real, lo que no se puede analizar
eficazmente mediante procesos por lotes normales.

www.consultec.es
Qu es Big Data? - Entendimiento: de los datos a la
sabidura
Experiencia
Sabidura Contexto

Conocimiento

Informacin

Datos

www.consultec.es
Utilidades

Toma de decisiones

El valor del Big Data no es la informacin, sino la nueva forma de toma de


decisiones basada en evidencias y datos empricos.

Tomar decisiones en base a datos empricos y tendencias

Tomar decisiones en base a corazonadas, instinto o


experiencias pasadas

www.consultec.es
Utilidades

Transparencia

Compartir y hacer accesible grandes volmenes de datos a las partes interesadas


y de manera oportuna puede crear un enorme valor y aumentar la eficiencia.

www.consultec.es
Utilidades

Experimentacin

Una vez recopilados los datos que nos


interesan, la experimentacin y la
exploracin de los mismos puede
mostrarnos informacin que a primera vista
nunca hubisemos encontrado o que nunca
se nos hubiese ocurrido buscar.

www.consultec.es
Utilidades

Innovacin

Permite crear nuevos productos y servicios, mejorar los existentes e, incluso, crear
nuevos modelos de negocio.

www.consultec.es
Ejemplo real: Walmart
Walmart es una multinacional
de grandes almacenes

Es la segunda mayor empresa


del mundo por ingresos

www.consultec.es
Ejemplo real: Walmart
Algunos datos:

200 millones de clientes a la semana

10700 tiendas

27 pases

2 millones de trabajadores

1,5 millones de transacciones por hora

Varios Terabytes de informacin generada en tiempo real

Base de datos de 3 Petabytes

www.consultec.es
Ejemplo real: Walmart
Guardando todas las compras de todos los clientes se dieron cuenta que
en poca de huracanes los Walmart de las zonas afectadas vendan ms
cajas de Pop-Tarts que en otras pocas.

Se indic a los gerentes de las tiendas que en esas pocas pusiesen los
Pop-Tarts en la entrada de las tiendas.

Resultado: Aumento extraordinario de las ventas

A quin se le hubiese ocurrido cruzar los


datos de ventas con los datos meteorolgicos
o con los calendarios de huracanes?

www.consultec.es
Ejemplo real: Walmart
Hanna twitea:

I love Salt!.

En unos segundos el Tweet llega a los sistemas de Walmart, se analiza y


unos minutos ms tarde le llega a una amiga suya el siguiente email:

Buenos das!

Nos pediste que te avissemos cuando fuese el cumpleaos


de Hanna. Pues ya est aqu y acaba de tweetear algo
bueno sobre la pelcula Salt de Angelina Jolie.

Quieres regalarle algo relacionado con ello?


Tenemos algunas sugerencias que hacerte

www.consultec.es
Ejemplo real: Walmart
Social Genome

Base de conocimiento que captura entidades y relaciones del mundo


social.

Obtiene entidades de su base


de datos, de otros datos tanto
pblicos como privados y de
redes sociales.

www.consultec.es
Ejemplo real: Walmart
Social Genome

Se identifican las entidades interesantes y las relacionan entre s,


consiguiendo toda la informacin de la que son capaces.

Es un sistema vivo, en constante evolucin.

Una persona interesada en un tema

Una persona que asiste a un evento

Un evento sobre un tema


Una asociacin entre empresa y producto

www.consultec.es
Ejemplo real: Walmart
Resumiendo

www.consultec.es
Caractersticas Tcnicas

Arquitectura

Alta escalabilidad

Procesamiento paralelo

Baja latencia

Datos no estructurados y estructurados

NoSQL

By-pass de datos

www.consultec.es
Caractersticas Tcnicas

Key-Value Pair

La forma ms sencilla de almacenamiento de datos en un entorno de


Big Data y NoSQL

Los datos no estn controlados por el sistema, por lo tanto los


desarrolladores debern pensar muy bien donde y como almacenan
los datos

www.consultec.es
Markets de Datos
Adems de las fuentes de datos que tengamos en nuestra
organizacin: bases de datos, emails, logs, documentos, etc
Podemos acceder a grandes volmenes de datos (Data Sets) en los
markets.

Hay gratuitos y de pago.

www.consultec.es
Hadoop
Es una plataforma diseada para almacenar y analizar grandes
volmenes de datos de diferentes tipos. Basada en Google Map/
Reduce y Google Filesystem.

Map/Reduce:

Map: trabajos desarrollados por nosotros. Se


distribuyen las tareas en diferentes nodos y se ejecutan
en paralelo. Esto genera una informacin intermedia.

Reduce: fusiona la informacin intermedia y se la


ofrece al usuario.

HDFS (Hadoop Distributed File System):

Sistema de archivos distribuidos, con replicacin


automtica y optimizado para lectura. Cada fichero se
particin y se distribuye en todos los servidores.

www.consultec.es
Hadoop
Otros proyectos alrededor de Hadoop

Hive: Data Warehouse sobre Hadoop con lenguaje HiveQL (SQL).

Pig: Lenguaje de script para consulta y anlisis de la informacin.


Desarrollado por Yahoo!.

Sqoop: Framework para la integracin de bases de datos relacionales.

Flume: Servicio para recolectar, agregar y mover grandes volmenes de


datos de eventos/logs.

www.consultec.es
Microsoft HDInsight
Servicio basado en Hadoop.

Dos versiones:
Windows Azure HDInsight (on-demand)
HDInsight Server (on-premise)

www.consultec.es
Microsoft HDInsight
Acceso a todo tipo de usuarios, incluidos desarrolladores y
profesionales IT. Fcil instalacin, administracin y configuracin.

Integracin con herramientas conocidas como Excel, PowerPivot,


PowerView, SQL Server Analysis Services o Reporting Services.

.NET SDK para Hadoop (a travs e NuGet):


Map/Reduce
LINQ to Hive
WebHDFS Client

www.consultec.es
DEMO
www.consultec.es
Gracias!

www.consultec.es
Dudas?

Gorka Armen+a Iaki Elcoro


Developer Developer
garmen+a@consultec.es ielcoro@consultec.es
@joruus @iceoverow

www.consultec.es

Vous aimerez peut-être aussi