Académique Documents
Professionnel Documents
Culture Documents
BIG DATA
BI y Big Data
Auspicia
www.bpc.com.pe
Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera
Auspicia
www.bpc.com.pe
Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera
Contenido
1. Conceptos de Almacenamiento
2. Introduccin a Hadoop
1. HDFS
2. Map Reduce
3. Acceso a Datos
4. Big Data BI
3. Visualizacin de Datos
Auspicia
www.bpc.com.pe
Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera
Hadoop
Framework de procesamiento de Datos
Qu es Hadoop?
Hadoop Distributed File System (HDFS)
MapReduce
YARN
Distribuciones Hadoop (Cloudera, Hortonworks, MapR, Pivotal, etc.)
El ecosistema Hadoop (HBASE, Flume, Sqoop, Mahout, Hive, Pig, Spark, etc.)
Auspicia
www.bpc.com.pe
Tecnologas en Big Data: Hadoop Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera
Apache Hadoop
Es un framework basado en Hadrware y Software para el procesamiento distribuido
Apache Hadoop es un proyecto completo en OpenSource.
Hadoop nace para enfrentar retos de disponibilidad, performance, costos as como gestin de datos y se
conforma de algunos componentes importantes:
Hadoop Common: Las utilidades comunes que soportan los otros mdulos de Hadoop, integracin,
scheduler, shell, codigo nativo, jars, Python.
Hadoop Distributed File System (HDFS) : Un sistema de archivos distribuido que proporciona acceso
de alto rendimiento para los datos de aplicacin.
Hadoop YARN: Un marco para la planificacin de tareas y gestin de recursos de clster.
Hadoop MapReduce: Un sistema basado en hilos para el procesamiento paralelo de grandes
conjuntos de datos.
Auspicia
www.bpc.com.pe
Tecnologas en Big Data: Hadoop - Overview Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera
Fuentes:
Cloudera_Data_Analyst_Training Auspicia
Hortonworks - Data Architecture with Apache
6
www.bpc.com.pe
Tecnologas en Big Data: Hadoop - Overview Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera
Fuentes:
Cloudera_Data_Analyst_Training Auspicia
Hortonworks - Data Architecture with Apache
7
www.bpc.com.pe
Tecnologas en Big Data: Hadoop - HDFS Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera
Caractersticas:
Alta Disponibilidad
Acceso de Datos Streaming
Grandes conjuntos de datos
Modelo simple Coherencia:
Computacin en movimiento es ms
barato que Traslado de datos
Portabilidad a travs de hardware y
software en plataformas
heterogneas
Auspicia
www.bpc.com.pe
Tecnologas en Big Data: Hadoop - HDFS Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera
HDP: http://localhost:8000/
Auspicia
www.bpc.com.pe
Tecnologas en Big Data: Hadoop - HDFS Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera
Auspicia
www.bpc.com.pe
Tecnologas en Big Data: Hadoop - MapReduce Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera
Este es un enfoque mucho ms simple para los clculos a gran escala, y est destinado a
abstraer la mayor parte de la complejidad del tratamiento en paralelo.
Auspicia
www.bpc.com.pe
Tecnologas en Big Data: Hadoop - MapReduce Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera
Mapeo : MapReduce utiliza un esquema de clave/ valores, cada instancia es un par llave/valor como
componentes de datos .
Clave, Valor ( Palabra, Jose); (Mensaje:hola); ( Monto : 1650.00)
Este es un enfoque mucho ms simple para los clculos a gran escala, y est destinado a
abstraer la mayor parte de la complejidad del tratamiento en paralelo.
Auspicia
www.bpc.com.pe
Tecnologas en Big Data: Hadoop - MapReduce Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera
Auspicia
www.bpc.com.pe
Tecnologas en Big Data: Hadoop - MapReduce Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera
www.bpc.com.pe
Tecnologas en Big Data: Hadoop - MapReduce Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera
www.bpc.com.pe
Tecnologas en Big Data: Hadoop - Arquitectura Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera
Auspicia
Fuente: Intel - big-data-get-started-reference-guide 16
www.bpc.com.pe
Tecnologas en Big Data: Hadoop - Distribuciones Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera
YARN o MESOS(Distros):
Distribuciones : es un Middleware que funcionar como orquestador principal, la idea
fundamental de YARN o de MESOS es dividir las tareas de gestin de recursos y trabajo de
programacin/monitorizacin en demoniosproporcionan
Funcionalidad De Core : Los proveedores por separado.
una distribucin de Hadoop que se
basa en Apache
Gestionar Hadoop , adems
adecuadamente mantienen
los procesos proyectos
y permitir de cdigodeabierto.
la integracin los diferentes
componentes del ecosistema
Las caractersticas y tecnologas add-on estan dirigidas a requisitos empresariales,
organizaciones y gobiernos de todo el mundo.
Tecnologa de propsito general. Los productos de Hadoop que brindan son de uso
general no desarrolladas para dominio especficos de aplicacin.
Auspicia
www.bpc.com.pe
Tecnologas en Big Data: Hadoop - Distribuciones Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera
Forrester Wave:
Big Data Hadoop
Distributions, Q1 16
Auspicia
Fuentes: : Forrester Wave: - Big Data Hadoop Distributions, Q1 16
www.bpc.com.pe
Tecnologas en Big Data: Hadoop - Ecosistema Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera
Apache Mahout
Coordinacion
Apache Spark
Apache Storm
Apache SolR
Metadata
Apache Hive
Data Protect
Apache Pig
Hcatalog
NoSQL
Politicas
Sqoop Apache
TD Loom Ambari
Apache
Ranger
Flume TD Viewpoint
Auspicia
www.bpc.com.pe
Tecnologas en Big Data: Hadoop - Ecosistema Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera
Apache Mahout
Coordinacion
Apache Spark
Apache Storm
Apache SolR
Metadata
Apache Hive
Data Protect
Apache Pig
Hcatalog
NoSQL
Politicas
Sqoop Apache
TD Loom Ambari
Apache
Ranger
Flume TD Viewpoint
Auspicia
www.bpc.com.pe
Tecnologas en Big Data: Hadoop - Ecosistema Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera
Integracion
Apache Sqoop
Apache Flume
Apache Kafka Auspicia
www.bpc.com.pe
Tecnologas en Big Data: Hadoop - Ecosistema Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera
Gobierno
Apache Atlas (Hortonworks) Sin metadatos descriptivos, y un mecanismo para mantenerla, el lago de datos corre el
riesgo de convertirse en un pantano de datos. Sin metadatos, de cada uso posterior de los
Apache Sentry (Cloudera) datos significa inicio anlisis a partir de cero, como una forma de amnesia de datos ".
Protegrity Auspicia
- Gartner, "El lago de datos Falacia: Toda el agua y poca sustancia"
- Nick Heudecker, Publicado: 23 Julio 2014
www.bpc.com.pe
Tecnologas en Big Data: Hadoop - Ecosistema Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera
Seguridad
Apache Knox
Apache Ranger (Hortonworks)
Apache Sentry (Cloudera) Auspicia
Protegrity
www.bpc.com.pe
Tecnologas en Big Data: Hadoop - Ecosistema Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera
Operaciones
Apache Ambari
Cloudera Manager
Apache Oozie
Apache Zookeper Auspicia
www.bpc.com.pe
Tecnologas en Big Data: Hadoop - Ecosistema Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera
Acceso a Datos
Apache Pig
Apache Hive
Apache Hcatalog Auspicia
Apache Impala
www.bpc.com.pe
Tecnologas en Big Data: Hadoop - Ecosistema Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera
Acceso a Datos
Auspicia
www.bpc.com.pe
Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera
BIG GRACIAS!
Auspicia
www.bpc.com.pe