Académique Documents
Professionnel Documents
Culture Documents
ndice de la introduccin
Origen y explicacin del concepto Big Data
Big Data y Business Intelligence
Casos de uso Big Data
Tecnologas Big Data
Cmo implantar un lnea de proyectos Big Data
Data Science
Riesgos
Resumen
Fuente: http://www.thebigdatainsightgroup.com/site/article/preparing-big-data-revolution
Para qu sirve?
Fuente: http://dilbert.com/strips/comic/2012-07-29/
Qu es?
Edd Dumbill (OReilly Media)
Big data is data that exceeds the processing capacity of
conventional database systems. The data is too big, moves
too fast, or doesnt fit the structures of your database
architectures. To gain value from this data, you must
choose an alternative way to process it.
Suficiente? No?...
Mejor as?
Las tendencias
Big Data: define tres tendencias interrelacionadas:
Capturar y gestionar grandes paquetes de informacin
Trabajar con diversos tipos de datos (informacin
desestructurada). Texto, audio, vdeo, tweets, imgenes
Nuevos usos, nuevas aplicaciones. Nuestras
funcionalidades e ideas parten de lo que somos capaces
de hacer. El negocio est cambiando, el trabajo cientfico
tambin (ADN, gentica, meteorologa)
Objetivos
Escalable
Rendimiento
Seguridad
En definitiva
Realmente es necesario?
A la hora de realizar una encuesta electoral, es necesario
preguntar a todo el censo?
Si as fuese, estamos haciendo unas elecciones
El tamao de la muestra depende del tamao de la poblacin
y del nivel de confianza requerido
Sorpresa!
No llega a 400!
Inferencia estadstica
Disciplina que se ocupa del desarrollo de procedimientos, mtodos y
teoremas que permiten extraer conocimiento e informacin de datos
que han sido generados por procesos aleatorios (Rachel Schutt).
Imprescindible distinguir entre poblacin y muestra
Problemas para pensar:
Cmo seleccionar la muestra si queremos modelar el nmero de emails por da que envan los empleados de una multinacional? Hay
varios procedimientos? Se llega a la misma conclusin?
Anlisis de amenazas en las redes sociales (seguridad nacional):
qu muestra tomamos? cmo la seleccionamos?
Enfermedades, cncer, anlisis de sntomas, tipos de cnceres,
evolucin del paciente: cmo seleccionamos la muestra? cules
son los sntomas que incluimos? cules rechazamos? qu
pacientes incluir en la muestra? por qu unos s y otros no?
Justificacin
Est presente en la muestra todo lo que queremos
saber/medir o slo los datos medios?
Si el 5% de error no es asumible?
Si el nicho de clientes al que nos dirigimos NO es el nicho de
clientes habitual? Cmo accedemos a sus datos si slo
hemos recogido una muestra global?
Si tenemos que procesar el ADN de una muestra de
paciente?
Si queremos analizar los millones de transacciones bancarias
que pasan por los servidores de un banco?
Si queremos analizar las rdenes de compra / venta emitidas
en la bolsa de valores?
Por qu trabajar con una muestra cuando SOMOS CAPACES
El Big Data
No pretende eliminar las herramientas de Business
Intelligence tradicionales
No pretende eliminar las BBDD tradicionales
Fuente: http://blogs.sas.com/content/corneroffice/2012/10/08/what-kind-of-big-data-problem-do-you-have/
Introduccin al paradigma Big Data
Y?
Primeros ejemplos
El caso de GE
Optimizar el
mantenimiento de
los molinos de
viento.
Futuro o presente?
Por qu?
Diagnsticos ms precisos
Disminuir el nmero de errores mdicos permitira reducir el
nmero de ingresos y estancias prolongadas
Medicacin ms efectiva
Ms facilidad para llevar un nuevo medicamento al mercado
Algunos datos ms
Fuente: http://mashable.com/2012/06/22/data-created-every-minute/
Introduccin al paradigma Big Data
1.
FALSO
2 Parte
Introduccin a las tecnologas,
procesos y metodologas Big Data
Es posible?
S:
Auge gracias al bajo coste de hardware y software, cloud.
Tecnologas y nuevos paradigmas:
MapReduce y Hadoop
Retos
Crecimiento de la informacin generada
Poder de procesamiento no crece al mismo ritmo de los
datos. Solucin: paralelizacin, divide y vencers.
Capacidad fsica de almacenamiento.
La problemtica de los datos: seguridad, propiedad,
interoperabilidad
Costes: los procesos ETL (Extract, Transform, Load) pueden
resultar caros.
Thanks Google!
Google publica su artculos sobre Google File System (GFS) en
2003
Jeffrey Dean y Sanjay Ghemawat de Google publican su
artculo sobre MapReduce (2004)
Doug Cutting y Mike Cafarella (Yahoo) desarrollan Hadoop en
2005 aprovechando el trabajo de Google
Hadoop emplea Hadoop Distributed File System (HDFS)
Hadoop es clave en la explosin del concepto Big Data, es
un framework open source centrado en el procesamiento
distribuido de grandes cantidades de datos
Se cede a la Fundacin Apache y se distribuye con licencia de
Apache 2.0
Elementos bsicos
Disponibilidad: grado de capacidad para que el sistema siga
funcionando en caso de cada de uno de los nodos
Consistencia: garantiza que todas las rplicas son idnticas
entre s. Coherencia entre los datos almacenados en la BBDD
Tolerancia a fallos y particiones: el sistema funciona
correctamente independientemente del nmero de
particiones y nodos
Otras cuestiones:
Escalabilidad: habilidad para adaptarse al crecimiento del
volumen de informacin a tratar sin perder calidad
MongoDB, Neo4j no estn considerados por al comunidad
como ejemplos destacados de escalabilidad
Introduccin al paradigma Big Data
Explicacin
A ms disponibilidad necesitamos sacrificar consistencia, eso
quiere decir que puntualmente podramos encontrar datos
inconsistentes en nuestra BBDD distribuida
Qu usar?
Fuente: http://kkovacs.eu/cassandra-vs-mongodb-vs-couchdb-vs-redis
Qu usar?
Fuente: http://kkovacs.eu/cassandra-vs-mongodb-vs-couchdb-vs-redis
Fuente: http://kkovacs.eu/cassandra-vs-mongodb-vs-couchdb-vs-redis
Fuente: http://www.infoworld.com/d/big-data/big-data-showdown-cassandra-vs-hbase-239592?page=0,3
MapReduce
Ejemplo bsico de uso:
Comercio online con millones de usuarios e interacciones.
Departamento de marketing analiza bsquedas en la web.
Se guarda TrminoBsqueda/valor
La operacin reduce devolvera al final:
Los vengadores: 18875224
Prtatil MAC: 554211
U2: 22321
Otras aplicaciones:
Deteccin de fraudes: detectar comportamientos anormales
Gestin de activos (bolsa)
Gestin de logs
Investigacin gentica.
Cruzar bases de datos, fuentes de distintas procedencias
Introduccin al paradigma Big Data
Hadoop
Hadoop es un framework que permite el procesamiento
distribuido de grandes cantidades de datos. Est diseado
para ser totalmente escalable, permite trabajar con miles de
nodos.
Se fundamenta en MapReduce y Google File System. Sin
embargo, su mayor patrocinador ha sido Yahoo!
Quin usa Hadoop?
Amazon, Adobe, Facebook, eBay, Fox, Google, Yahoo!, IBM,
Linkedin, last.fm, Spotify, Twitter
4.
5.
6.
Elevada escalabilidad.
Bajos tiempos de latencia (para favorecer la rapidez en
trabajos cortos).
Predictibilidad. Posibilidad de programar y planificar tareas
(Jobs) asegurando unos niveles de prestacin de servicio
(SLAs) estables.
Alta disponibilidad: ofrecer calidad de servicio (QoS).
Facilidad de gestin, favoreciendo el desarrollo.
Debe ser capaz de soportar varios proyectos MapReduce
Fuente: http://lod-cloud.net/versions/2011-09-19/lod-cloud_colored.png
Introduccin al paradigma Big Data
Fuente: http://www.idgconnect.com/IMG/691/3691/internet-of-things-620x354.jpg?1367909167
La visin de Intel
Fuente: http://scoop.intel.com/files/2013/04/ISF_Infographic_1600x944.jpg
Introduccin al paradigma Big Data
Cuestiones clave
Cul es el coste de tomar decisiones equivocadas?
Qu tipo de decisiones tenemos que tomar? Son
operacionales o estratgicas?
Qu herramientas seleccionar?
Debemos considerar datos provenientes de otros entornos?
Son fiables? Son relevantes?
Cuestiones clave
Cmo transferimos los resultados de la analtica a las
personas que deben tomar las decisiones?
Debemos emplear herramientas que nos ayuden con la
visualizacin de los datos? Cules?
Es escalable la estrategia planteada?
Debemos partir de un prototipo inicial?
Cmo empezar?
Localizar el problema o la oportunidad
Encontrar las variables importantes
Establecer un plan estratgico que permita
Establecer fuentes de datos
Integrar
Medir
Analizar la informacin
Presentacin eficiente
Data Science
Moda o necesidad?
Motivacin fundamental
RESOLVER PROBLEMAS REALEAS EN DISTINTOS MBITOS DE
APLICACIN
No todos los problemas se pueden solucionar en base al
empleo de tecnologa y anlisis de datos. El objetivo del Data
Scientist es saber cules son los problemas que se pueden
resolver mediante el empleo de estos recursos
Data Scientist
La definicin?
No hay un acuerdo universal
En general y resumiendo mucho las definiciones ms extendidas, se
podra definir como
Conjunto de conocimientos estructurados que permiten la toma
Bestial
Enlace: http://www.theguardian.com/news/datablog/2010/apr/01/information-is-beautiful-military-spending
Introduccin al paradigma Big Data
O no?
Grfico
MORTAL
Libro recomendado
Suposiciones
2 + 2 = 5 El Papa y yo somos la
misma persona
Supongamos que 2+2=5. Entonces,
restando 3 a ambos lados obtenemos que
1=2
Como el Papa y yo somos dos personas y
1=2, entonces el Papa y yo somos uno
Por tanto, yo soy el Papa
El genial matemtico
Bertrand Russell
Fuente: http://gaussianos.com/si-partimos-de-algo-falso-podemos-demostrar-cualquier-cosa/
Introduccin al paradigma Big Data
Manipulacin / Error
Fuente: http://gaussianos.com/hay-que-decirlo-mas-correlacion-implica-causalidad/
Fuente: http://www.networkworld.com/community/blog/digital-privacy-big-data-era-microsofts-data-protection-keynote
Introduccin al paradigma Big Data
La que se ha montado
Normativa internacional
Caso tpico:
Empresa que da servicio en Espaa, con servidores en
???
Qu legislacin prevalece?
En teora, la espaola, puesto que es donde se
proporciona el servicio y por tanto se debe cumplir con
la normativa del lugar
Muy difcil de comprobar, seguir, verificar
Y la solucin es
A nivel individual
Resumen
El Big Data se perfila como una gran tendencia de futuro con
gran impacto en la economa
Son mltiples los sectores de aplicacin, destacando el
mbito sanitario
Data Science es una disciplina que exige equipos
multidisciplinares con el objetivo de apoyar la toma de
decisiones en la empresa
Importancia de establecer planes de actuacin y
metodologas adecuadas
El dato es la materia prima. La normativa legal es importante
MapReduce, Hadoop y las BBDD NoSQL son tecnologas clave
en este paradigma
Introduccin al paradigma Big Data