Académique Documents
Professionnel Documents
Culture Documents
Experiencia Profesional:
Jefe de Informtica, Instituto Nacional de Defensa de la Competencia y Proteccin al Consumidor, Indecopi, entidad del Gobierno del Per.
Consultor del Programa de las Naciones Unidas para el Desarrollo, Sistema Nacional de Prevencin y Atencin de Desastres.
Director y Socio de Bamtech, empresa integradora de soluciones tecnolgicas con software de cdigo abierto.
Gerente de Proyectos de Business Intelligence, Cloud y Big Data en Tecnologa y Gerencia del Per
2
Agenda
Introduccin a Big Data con Hadoop
Arquitectura de Hadoop
Herramientas para Hadoop
Ecosistemas Disponibles
Introduccin a Pentaho BI Suite
"Stack" de tecnologas de Pentaho BI Suite
Pentaho y Big Data
Casos de Aplicacin
3
Introduccin a
Big Data
con Hadoop
4
Que es Big Data?
5
Desde cuando hablamos
de Big Data?
6
7
Cunto es demasiada
informacin?
1 Gigabyte = 10 = 1,000,000,000
1 Terabyte = 10 = 1,000,000,000,000
1 Petabyte = 10 = 1,000,000,000,000,000
1 Exabyte = 10 = 1,000,000,000,000,000,000
1 Quintilln
10 = 1,000,000,000,000,000,000,000,000,000,000
8
Seguimos creciendo
Al 2016 la poblacin
creci a 7,400 millones
de personas.
Se prevee:
18.9 billones de
dispositivos.
Que el trfico global de
datos mviles alcance
10.8 Exabytes
Fuente: ONU
http://exitosanoticias.pe/onu-poblacion-mundial-llego-a-7400-millones/ mensuales
9
No, Solo los humanos
producimos informacin.
10
Aterrizando el concepto de Big Data
3V
12
Que es Hadoop?
13
Hadoop
Apache Hadoop es un proyecto de software
libre que permite el procesamiento distribuido de
grandes volmenes de datos en clusters de
servidores bsicos.
Hadoop est diseado para extender un sistema de
archivos de servidor nico a miles de mquinas y a
petabytes de datos con un muy alto grado de
tolerancia a las fallas.
14
Porque interesa tanto Hadoop?
Hadoop cambia la economa y la dinmica de
la computacin a gran escala.
15
Hadoop hace posible el Big Data
Redimensionable, pueden agregarse tantos nuevos
nodos como sea necesario.
Rentable, Hadoop hace posible la computacin
paralela con servidores bsicos.
Flexible, Hadoop funciona sin esquema y puede
absorber cualquier tipo de datos.
Tolerante a fallas, si se pierde un nodo, el sistema
redirige el trabajo a otra localizacin de los datos y
contina procesando sin perder el ritmo.
16
Arquitectura
de Hadoop
17
Componentes de Hadoop
Hadoop est inspirado en el proyecto de Google
File System(GFS) y en el paradigma de
programacin MapReduce (mapper reducer).
Hadoop est compuesto de cuatro
componentes:
Hadoop Distributed File System (HDFS)
Hadoop MapReduce
Yarn (Yet Another Resource Negotiator )
Hadoop Common Utilities.
18
Arquitectura de Hadoop
19
Hadoop Distributed File System
Hadoop Distributed File System (HDFS) es un sistema de
archivos que abarca todos los nodos de un cluster Hadoop
para el almacenamiento de datos. HDFS convierte todos los
sistemas de archivos locales de los nodos en un nico gran
sistema de archivos
20
MapReduce
MapReduce es el motor que Hadoop usa para procesar
las enormes cantidades de datos, se basa en el modelo
de programacin Mapear Reducir (MapReduce) .
21
Yarn
YARN (Yet Another Resource Negotiator) es el
componente que asigna CPU, memoria y
almacenamiento a las aplicaciones que se
ejecutan en un cluster Hadoop.
22
Common Utilities
Hadoop Common Utilities, son libreras java
que soportan otros mdulos de Hadoop como:
RPC
File System
Serializacion
23
Cluster Hadoop
24
Elementos del Cluster Hadoop
NameNode: Slo hay uno en el cluster. Regula el acceso
a los archivos por parte de los clientes. Mantiene en
memoria la metadata del sistema de archivos y control de
los bloques de los archivos que tiene cada DataNode.
DataNode: Son los responsables de leer y escribir las
peticiones de los clientes. Los archivos en HDFS estn
formados por bloques, estos se encuentran replicados en
los diferentes nodos.
25
Herramientas
Para
Hadoop
26
Herramientas para Hadoop
En la implementacin de una solucin de Big
Data se requieren herramientas (proyectos)
adicionales que interacten con Hadoop.
Hadoop + el conjunto de proyectos para
Hadoop forman un ecosistema de Big Data.
27
Lista de Herramientas para
Hadoop
Avro Lucene
Cassandra Oozie
Chukwa Pig
Flume ZooKeeper
HBase Ambari
Hive Zeppelin
Jaql
28
29
Ecosistemas
Disponibles
30
Plataformas de Big Data
Hadoop ofrece una base para la creacin de
plataformas o ecosistemas comerciales para el
anlisis de Big Data.
Detrs del uso de una plataforma comercial de
Big Data esta el propsito de facilitar su
adopcin, esto es "Hadoop como servicio".
31
Plataformas de Big Data en
Hadoop
Cloudera
Amazon Web Services
Hortonworks
MapR
IBM
Microsoft HDInsight
Intel Distribution for Apache Hadoop
Datastax Enterprise Analytics
Teradata Enterprise Access for Hadoop
Pivotal HD
32
Cloudera
35
Que es Business Intelligence?
36
Concepto de Business
Intelligence - BI
Business Intelligence (Inteligencia de Negocio), es el conjunto
de tecnologas y procedimientos que permiten el cruce de
informacin para soportar el anlisis de los indicadores de
desempeo de un negocio.
37
Cubo OLAP
Permite a los analistas de negocios, gerentes, tomadores de
decisiones sintetizar la informacin a travs de diferentes
vistas.
38
Modelo Dimensional
Tcnicas y conceptos para crear modelos de
datos basados en hechos y dimensiones. Se
orienta el modelado hacia la bsqueda de
rendimiento de las consultas.
39
Modelo Estrella
Desnormalizado
Habilidad para anlisis dimensional
40
Modelo Copo de Nieve
Forma normalizada de las dimensiones (solo las
dimensiones primarias estn enlazadas con la tabla de
hechos)
Rompe el anlisis dimensional
41
Data Warehouse
42
Que es Pentaho BI Platform?
43
Pentaho BI Platform
Pentaho BI Platform es una suite de herramientas
open source basadas en Java, que permite soportar los
procesos de Inteligencia de Negocio de una empresa.
44
Alguna Empresas que usan
Pentaho BI Suite
45
"Stack" de
tecnologas en
Pentaho BI
Suite
46
Arquitectura de Pentaho BI Suite
47
Stack de Tecnologas
Business Analysis
Pentaho Web Console
MDX Engine basado en Modrian/JPivot
Pentaho Report Designer
Pentaho Schema Workbench
XMLA Data Sources
48
Stack de Tecnologas
Data Integration
Design Tool - ETL
CLI
49
Pentaho
y Big Data
50
Pentaho & Hadoop
Pentaho permite manejar complejas
transformaciones de datos y permite
operacionalizar Hadoop y Spark como parte de
una lnea de datos de extremo a extremo.
51
Integracin Pentaho y Hadoop
Interfaz visual intuitiva para integrar y combinar datos de
Hadoop con prcticamente cualquier otra fuente.
Capacidad para disear lgica de integracin de datos 15
veces ms rpido que los mtodos de codificacin manual
Integracin con el ecosistema de Hadoop incluyendo Spark
y compatibilidad con Kafka, YARN, Oozie, Sqoop y ms
52
Arquitectura de Pentaho y
Hadoop
53
Beneficios de la Integracin de
Pentaho y Hadoop
Capacidad para procesar grandes volmenes de datos en
sistemas de produccin empresarial y dotar de capacidad de
autoservicio al usuario final
Reportes y Analisis de datos soportando Impala, Hive y otras
base de datos analiticas
Soporte a modelos predictivos basados en R, Weka, Python
y Mllib
Soporte de seguridad empresarial basada en Kerberos en
plataformas Cloudera y Hortonworks.
54
Casos de
Aplicacin
55
Big Data en el Campo de la
Investigacion
De entre los proyectos que se pueden mencionar donde
se ha llevado a cabo el uso de una solucin de Big Data
se encuentran:
El Language, Interaction and Computation Laboratory - CLIC en
conjunto con la Universidad de Trento en Italia, son un grupo de
investigadores cuyo inters es el estudio de la comunicacin
verbal y no verbal tanto con mtodos computacionales como
cognitivos.
Lineberger Comprehensive Cancer Center - Bioinformatics
Group utiliza Hadoop y HBase para analizar datos producidos
por los investigadores de The Cancer Genome Atlas(TCGA)
para soportar las investigaciones relacionadas con el cncer.
56
Big Data en el Campo de la
Investigacion
El PSG College of Technology, India, analiza mltiples secuencias
de protenas para determinar los enlaces evolutivos y predecir
estructuras moleculares.
La Universidad Distrital Francisco Jose de Caldas utiliza Hadoop
para apoyar su proyecto de investigacin relacionado con el
sistema de inteligencia territorial de la ciudad de Bogot.
57
Pentaho en la Industria
Financiera
Las siguientes industrias de servicios
financieros han elegido Pentaho para su rea
de inteligencia de negocios.
58
Seccin de Preguntas
59
60
Referencias
Que es Big Data
https://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/
Las 3V del Big Data
http://www.dataprix.com/blog-it/data-science/big-data-volumen-velocidad-
variedadHadoop
MapReduce Tutorial
http://bigdatahadooptrainings.com/hadoop-mapreduce-tutorial/
Que es Hadoop
https://www-01.ibm.com/software/cl/data/infosphere/hadoop/que-es.html
Big Data: The Top 10 Commercial Hadoop Platforms
https://www.linkedin.com/pulse/big-data-top-10-commercial-hadoop-platforms-
bernard-marr