Vous êtes sur la page 1sur 61

Business Intelligence con Pentaho

y Big Data con Hadoop


Presentado por: Carlos Carreo
ccarrenovi@gmail.com
Mayo, 2017
Acerca del Presentador

Carlos Augusto Carreo Villarreyes


Es Ingeniero de Sistemas y Computo de profesin, es fsico matemtico y tiene estudios de Maestra en Gestin de Tecnologas de la
Informacin en UNMSM. Esta certificado como ScrumMaster por ScrumAlliance, Red Hat JBoss Administrator, JBoss Fuse Expert, JBoss BPM
Expert y en Oracle Certified Profesional es especialista en Big Data y en Business Intelligence. Es instructor acreditado por Red Hat Inc. Para
Latinoamerica (Argentina, Bolivia, Colombina, Venezuela, Chile,Ecuador, Per y Centro Amrica ) y Espaa. Instructor Oracle WDP y Software
Libre en Cognos Bolivia en Per en la Universidad Nacional de Ingeniera y New Horizons.

Experiencia Profesional:
Jefe de Informtica, Instituto Nacional de Defensa de la Competencia y Proteccin al Consumidor, Indecopi, entidad del Gobierno del Per.
Consultor del Programa de las Naciones Unidas para el Desarrollo, Sistema Nacional de Prevencin y Atencin de Desastres.
Director y Socio de Bamtech, empresa integradora de soluciones tecnolgicas con software de cdigo abierto.
Gerente de Proyectos de Business Intelligence, Cloud y Big Data en Tecnologa y Gerencia del Per

Email de Contacto: ccarrenovi@gmail.com

2
Agenda
Introduccin a Big Data con Hadoop
Arquitectura de Hadoop
Herramientas para Hadoop
Ecosistemas Disponibles
Introduccin a Pentaho BI Suite
"Stack" de tecnologas de Pentaho BI Suite
Pentaho y Big Data
Casos de Aplicacin

3
Introduccin a
Big Data
con Hadoop

4
Que es Big Data?

5
Desde cuando hablamos
de Big Data?

6
7
Cunto es demasiada
informacin?
1 Gigabyte = 10 = 1,000,000,000
1 Terabyte = 10 = 1,000,000,000,000
1 Petabyte = 10 = 1,000,000,000,000,000
1 Exabyte = 10 = 1,000,000,000,000,000,000

1 Quintilln
10 = 1,000,000,000,000,000,000,000,000,000,000

8
Seguimos creciendo
Al 2016 la poblacin
creci a 7,400 millones
de personas.
Se prevee:
18.9 billones de
dispositivos.
Que el trfico global de
datos mviles alcance
10.8 Exabytes
Fuente: ONU
http://exitosanoticias.pe/onu-poblacion-mundial-llego-a-7400-millones/ mensuales

9
No, Solo los humanos
producimos informacin.

10
Aterrizando el concepto de Big Data

Big Data se refiere al procesamiento de volmenes de


datos tan grandes que no se pueden realizar con tecnologas
tradicionales a una velocidad adecuada y a los
procedimientos para encontrar patrones repetitivos en
estos datos.
Referencia:https://es.wikipedia.org/wiki/Big_data 11
Las 3V del Big Data
Volumen +
Velocidad
Variedad

3V

12
Que es Hadoop?

13
Hadoop
Apache Hadoop es un proyecto de software
libre que permite el procesamiento distribuido de
grandes volmenes de datos en clusters de
servidores bsicos.
Hadoop est diseado para extender un sistema de
archivos de servidor nico a miles de mquinas y a
petabytes de datos con un muy alto grado de
tolerancia a las fallas.

14
Porque interesa tanto Hadoop?
Hadoop cambia la economa y la dinmica de
la computacin a gran escala.

15
Hadoop hace posible el Big Data
Redimensionable, pueden agregarse tantos nuevos
nodos como sea necesario.
Rentable, Hadoop hace posible la computacin
paralela con servidores bsicos.
Flexible, Hadoop funciona sin esquema y puede
absorber cualquier tipo de datos.
Tolerante a fallas, si se pierde un nodo, el sistema
redirige el trabajo a otra localizacin de los datos y
contina procesando sin perder el ritmo.

16
Arquitectura
de Hadoop

17
Componentes de Hadoop
Hadoop est inspirado en el proyecto de Google
File System(GFS) y en el paradigma de
programacin MapReduce (mapper reducer).
Hadoop est compuesto de cuatro
componentes:
Hadoop Distributed File System (HDFS)
Hadoop MapReduce
Yarn (Yet Another Resource Negotiator )
Hadoop Common Utilities.

18
Arquitectura de Hadoop

19
Hadoop Distributed File System
Hadoop Distributed File System (HDFS) es un sistema de
archivos que abarca todos los nodos de un cluster Hadoop
para el almacenamiento de datos. HDFS convierte todos los
sistemas de archivos locales de los nodos en un nico gran
sistema de archivos

20
MapReduce
MapReduce es el motor que Hadoop usa para procesar
las enormes cantidades de datos, se basa en el modelo
de programacin Mapear Reducir (MapReduce) .

21
Yarn
YARN (Yet Another Resource Negotiator) es el
componente que asigna CPU, memoria y
almacenamiento a las aplicaciones que se
ejecutan en un cluster Hadoop.

22
Common Utilities
Hadoop Common Utilities, son libreras java
que soportan otros mdulos de Hadoop como:
RPC
File System
Serializacion

23
Cluster Hadoop

24
Elementos del Cluster Hadoop
NameNode: Slo hay uno en el cluster. Regula el acceso
a los archivos por parte de los clientes. Mantiene en
memoria la metadata del sistema de archivos y control de
los bloques de los archivos que tiene cada DataNode.
DataNode: Son los responsables de leer y escribir las
peticiones de los clientes. Los archivos en HDFS estn
formados por bloques, estos se encuentran replicados en
los diferentes nodos.

25
Herramientas
Para
Hadoop

26
Herramientas para Hadoop
En la implementacin de una solucin de Big
Data se requieren herramientas (proyectos)
adicionales que interacten con Hadoop.
Hadoop + el conjunto de proyectos para
Hadoop forman un ecosistema de Big Data.

27
Lista de Herramientas para
Hadoop
Avro Lucene
Cassandra Oozie
Chukwa Pig
Flume ZooKeeper
HBase Ambari
Hive Zeppelin
Jaql

28
29
Ecosistemas
Disponibles

30
Plataformas de Big Data
Hadoop ofrece una base para la creacin de
plataformas o ecosistemas comerciales para el
anlisis de Big Data.
Detrs del uso de una plataforma comercial de
Big Data esta el propsito de facilitar su
adopcin, esto es "Hadoop como servicio".

31
Plataformas de Big Data en
Hadoop
Cloudera
Amazon Web Services
Hortonworks
MapR
IBM
Microsoft HDInsight
Intel Distribution for Apache Hadoop
Datastax Enterprise Analytics
Teradata Enterprise Access for Hadoop
Pivotal HD

32
Cloudera

Cloudera una de las primeras ofertas comerciales de Hadoop una de


las mas populares.
Cloudera aporta Impala, que ofrece en tiempo real el procesamiento masivo
paralelo de Big Data a Hadoop.
33
Hortonworks

Hortonworks es una de las pocas plataformas 100% de tecnologa Hadoop de


cdigo abierto sin ninguna modificacin propietaria. Tambin fueron los primeros en
integrar el soporte para Apache HCatalog, que crea "metadatos", datos dentro de los datos,
simplificando el proceso de compartir sus datos a travs de otras capas de servicio como
Apache Hive o Pig.
34
Introduccin
a
Pentaho BI

35
Que es Business Intelligence?

36
Concepto de Business
Intelligence - BI
Business Intelligence (Inteligencia de Negocio), es el conjunto
de tecnologas y procedimientos que permiten el cruce de
informacin para soportar el anlisis de los indicadores de
desempeo de un negocio.

37
Cubo OLAP
Permite a los analistas de negocios, gerentes, tomadores de
decisiones sintetizar la informacin a travs de diferentes
vistas.

38
Modelo Dimensional
Tcnicas y conceptos para crear modelos de
datos basados en hechos y dimensiones. Se
orienta el modelado hacia la bsqueda de
rendimiento de las consultas.

39
Modelo Estrella
Desnormalizado
Habilidad para anlisis dimensional

40
Modelo Copo de Nieve
Forma normalizada de las dimensiones (solo las
dimensiones primarias estn enlazadas con la tabla de
hechos)
Rompe el anlisis dimensional

41
Data Warehouse

42
Que es Pentaho BI Platform?

43
Pentaho BI Platform
Pentaho BI Platform es una suite de herramientas
open source basadas en Java, que permite soportar los
procesos de Inteligencia de Negocio de una empresa.

44
Alguna Empresas que usan
Pentaho BI Suite

45
"Stack" de
tecnologas en
Pentaho BI
Suite

46
Arquitectura de Pentaho BI Suite

47
Stack de Tecnologas
Business Analysis
Pentaho Web Console
MDX Engine basado en Modrian/JPivot
Pentaho Report Designer
Pentaho Schema Workbench
XMLA Data Sources

48
Stack de Tecnologas
Data Integration
Design Tool - ETL
CLI

49
Pentaho
y Big Data

50
Pentaho & Hadoop
Pentaho permite manejar complejas
transformaciones de datos y permite
operacionalizar Hadoop y Spark como parte de
una lnea de datos de extremo a extremo.

51
Integracin Pentaho y Hadoop
Interfaz visual intuitiva para integrar y combinar datos de
Hadoop con prcticamente cualquier otra fuente.
Capacidad para disear lgica de integracin de datos 15
veces ms rpido que los mtodos de codificacin manual
Integracin con el ecosistema de Hadoop incluyendo Spark
y compatibilidad con Kafka, YARN, Oozie, Sqoop y ms

52
Arquitectura de Pentaho y
Hadoop

53
Beneficios de la Integracin de
Pentaho y Hadoop
Capacidad para procesar grandes volmenes de datos en
sistemas de produccin empresarial y dotar de capacidad de
autoservicio al usuario final
Reportes y Analisis de datos soportando Impala, Hive y otras
base de datos analiticas
Soporte a modelos predictivos basados en R, Weka, Python
y Mllib
Soporte de seguridad empresarial basada en Kerberos en
plataformas Cloudera y Hortonworks.

54
Casos de
Aplicacin

55
Big Data en el Campo de la
Investigacion
De entre los proyectos que se pueden mencionar donde
se ha llevado a cabo el uso de una solucin de Big Data
se encuentran:
El Language, Interaction and Computation Laboratory - CLIC en
conjunto con la Universidad de Trento en Italia, son un grupo de
investigadores cuyo inters es el estudio de la comunicacin
verbal y no verbal tanto con mtodos computacionales como
cognitivos.
Lineberger Comprehensive Cancer Center - Bioinformatics
Group utiliza Hadoop y HBase para analizar datos producidos
por los investigadores de The Cancer Genome Atlas(TCGA)
para soportar las investigaciones relacionadas con el cncer.

56
Big Data en el Campo de la
Investigacion
El PSG College of Technology, India, analiza mltiples secuencias
de protenas para determinar los enlaces evolutivos y predecir
estructuras moleculares.
La Universidad Distrital Francisco Jose de Caldas utiliza Hadoop
para apoyar su proyecto de investigacin relacionado con el
sistema de inteligencia territorial de la ciudad de Bogot.

La Universidad de Maryland es una de las seis universidades que


colaboran en la iniciativa acadmica de cmputo en la nube de
IBM/Google. Sus investigaciones incluyen proyectos en la
lingistica computacional (machine translation), modelado del
lenguaje, bioinformtica, anlisis de correo electrnico y
procesamiento de imgenes.

57
Pentaho en la Industria
Financiera
Las siguientes industrias de servicios
financieros han elegido Pentaho para su rea
de inteligencia de negocios.

58
Seccin de Preguntas

59
60
Referencias
Que es Big Data
https://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/
Las 3V del Big Data
http://www.dataprix.com/blog-it/data-science/big-data-volumen-velocidad-
variedadHadoop
MapReduce Tutorial
http://bigdatahadooptrainings.com/hadoop-mapreduce-tutorial/
Que es Hadoop
https://www-01.ibm.com/software/cl/data/infosphere/hadoop/que-es.html
Big Data: The Top 10 Commercial Hadoop Platforms
https://www.linkedin.com/pulse/big-data-top-10-commercial-hadoop-platforms-
bernard-marr

This work!, is dedicated to the supreme consciousness, God. 61

Vous aimerez peut-être aussi