Vous êtes sur la page 1sur 27

Centro de Tecnologas de Informacin y Comunicaciones

Universidad Nacional de Ingeniera

BIG DATA
BI y Big Data

Auspicia

www.bpc.com.pe
Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera

Sesin 4: Tecnologas Big Data

Luis Chavez Olaya


Lder Tcnico DWH y Big Data
Correo : lchavez.olaya@gmail.com
Twitter: @luxillo

Auspicia

www.bpc.com.pe
Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera

Contenido

1. Conceptos de Almacenamiento
2. Introduccin a Hadoop
1. HDFS
2. Map Reduce
3. Acceso a Datos
4. Big Data BI
3. Visualizacin de Datos

Auspicia

www.bpc.com.pe
Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera

Hadoop
Framework de procesamiento de Datos

Qu es Hadoop?
Hadoop Distributed File System (HDFS)
MapReduce
YARN
Distribuciones Hadoop (Cloudera, Hortonworks, MapR, Pivotal, etc.)
El ecosistema Hadoop (HBASE, Flume, Sqoop, Mahout, Hive, Pig, Spark, etc.)

Auspicia

www.bpc.com.pe
Tecnologas en Big Data: Hadoop Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera

Apache Hadoop
Es un framework basado en Hadrware y Software para el procesamiento distribuido
Apache Hadoop es un proyecto completo en OpenSource.

Hadoop nace para enfrentar retos de disponibilidad, performance, costos as como gestin de datos y se
conforma de algunos componentes importantes:
Hadoop Common: Las utilidades comunes que soportan los otros mdulos de Hadoop, integracin,
scheduler, shell, codigo nativo, jars, Python.
Hadoop Distributed File System (HDFS) : Un sistema de archivos distribuido que proporciona acceso
de alto rendimiento para los datos de aplicacin.
Hadoop YARN: Un marco para la planificacin de tareas y gestin de recursos de clster.
Hadoop MapReduce: Un sistema basado en hilos para el procesamiento paralelo de grandes
conjuntos de datos.

Auspicia

www.bpc.com.pe
Tecnologas en Big Data: Hadoop - Overview Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera

Fuentes:
Cloudera_Data_Analyst_Training Auspicia
Hortonworks - Data Architecture with Apache
6
www.bpc.com.pe
Tecnologas en Big Data: Hadoop - Overview Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera

Fuentes:
Cloudera_Data_Analyst_Training Auspicia
Hortonworks - Data Architecture with Apache
7
www.bpc.com.pe
Tecnologas en Big Data: Hadoop - HDFS Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera

HDFS: El Hadoop Distributed File System (HDFS) es un sistema de archivos distribuido


diseado para ejecutarse en hardware agrupado(grid).

Caractersticas:
Alta Disponibilidad
Acceso de Datos Streaming
Grandes conjuntos de datos
Modelo simple Coherencia:
Computacin en movimiento es ms
barato que Traslado de datos
Portabilidad a travs de hardware y
software en plataformas
heterogneas

Auspicia

www.bpc.com.pe
Tecnologas en Big Data: Hadoop - HDFS Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera

HDFS: El Hadoop Distributed File System (HDFS) es un sistema de archivos distribuido


diseado para ejecutarse en hardware agrupado(grid).

HUE: Aplicacin web, contenedor

HDP: http://localhost:8000/

Auspicia

www.bpc.com.pe
Tecnologas en Big Data: Hadoop - HDFS Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera

HDFS: El Hadoop Distributed File System (HDFS) es un sistema de archivos distribuido


diseado para ejecutarse en hardware agrupado(grid).

HUE: Aplicacin web, contenedor

Auspicia

www.bpc.com.pe
Tecnologas en Big Data: Hadoop - MapReduce Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera

Map Reduce: Es un paradigma de programacin basado en su esencia en dos pasos de


procesamiento : Mapa y Reduccin.
Mapeo : Utiliza un esquema de clave/ valores, cada instancia de un par llave/valor se compone de
dos componentes de datos.

Clave: Identifica el tipo de informacin que estamos mirando en comparacin con


una base de datos relacional , una clave es equivalente a una columna
Valores: Es una instancia real de los datos asociados a una clave, estas pueden ser
varios valores e inclusive los valores pertinentes podran incluir otras claves y
valores a su vez.

Reduccin: Despus de la fase de Mapeo todos los valores intermedios corresponden a


claves de salida y estos se combinan juntos en una lista . La funcin de reduccin combina
los valores intermedios en uno o ms valores finales para la misma clave.

Este es un enfoque mucho ms simple para los clculos a gran escala, y est destinado a
abstraer la mayor parte de la complejidad del tratamiento en paralelo.

Auspicia

www.bpc.com.pe
Tecnologas en Big Data: Hadoop - MapReduce Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera

Map Reduce: Es un paradigma de programacin basado en su esencia en dos pasos de


procesamiento : Mapa y Reduccin.

Mapeo : MapReduce utiliza un esquema de clave/ valores, cada instancia es un par llave/valor como
componentes de datos .
Clave, Valor ( Palabra, Jose); (Mensaje:hola); ( Monto : 1650.00)

Reduccin: Despus de la fase de Mapeo todos los valores intermedios corresponden a


claves de salida y estos se combinan juntos en una lista . La funcin de reduccin combina
los valores intermedios en uno o ms valores finales para la misma clave.

Este es un enfoque mucho ms simple para los clculos a gran escala, y est destinado a
abstraer la mayor parte de la complejidad del tratamiento en paralelo.

Auspicia

www.bpc.com.pe
Tecnologas en Big Data: Hadoop - MapReduce Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera

Ejemplo: Multiplicacin de una matriz por un vector


Supongamos que tenemos una matriz cuadrada M de tamao nxm y un vector v longitud m.
. Brindamos posiciones para la fila i y columna j le denominamos Mij. Asimismo al vector la
posicin j se tiene el elemento Vj.
De esta forma la resultante de la multiplicacin entre la matriz M y el vector v ser un
vector X de longitud n, de tal forma que el elemento xi es tal que:

Auspicia

www.bpc.com.pe
Tecnologas en Big Data: Hadoop - MapReduce Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera

Ejemplo: Multiplicacin de una matriz por un vector


La funcin map (): en este caso toma una fila i de la matriz y el vector v completo para formar
pares: Clave, Valor = (i, MijVj).
Es decir para i=1 recorre de la forma (1, M11V1), (1, M12V2), (1, M13V3) ... (1, MijVj).

map(Vector FilaMatriz, Vector vector)


// clave: i -> ndice del vector
// valor: producto de Mij * Vj;
for each position i,j in vector :
EmiteValIntermedio(i, (Mij*Vj));
Auspicia

www.bpc.com.pe
Tecnologas en Big Data: Hadoop - MapReduce Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera

Ejemplo: Multiplicacin de una matriz por un vector


La funcin reduce() en este caso slo tiene que colectar los pares que poseen la misma clave i
y sumarlos.
Reduccin:

reduce(String word, Iterator partialCounts):


// word: una palabra
// partialCounts: una [[Iterador (patrn de diseo)|lista parcial]]
//para realizar cuentas agregadas
int result = 0;
for each v in partialCounts:
result += ParseInt(v);
Emit(result);
Auspicia

www.bpc.com.pe
Tecnologas en Big Data: Hadoop - Arquitectura Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera

Auspicia
Fuente: Intel - big-data-get-started-reference-guide 16
www.bpc.com.pe
Tecnologas en Big Data: Hadoop - Distribuciones Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera

YARN o MESOS(Distros):
Distribuciones : es un Middleware que funcionar como orquestador principal, la idea
fundamental de YARN o de MESOS es dividir las tareas de gestin de recursos y trabajo de
programacin/monitorizacin en demoniosproporcionan
Funcionalidad De Core : Los proveedores por separado.
una distribucin de Hadoop que se
basa en Apache
Gestionar Hadoop , adems
adecuadamente mantienen
los procesos proyectos
y permitir de cdigodeabierto.
la integracin los diferentes
componentes del ecosistema
Las caractersticas y tecnologas add-on estan dirigidas a requisitos empresariales,
organizaciones y gobiernos de todo el mundo.

Tecnologa de propsito general. Los productos de Hadoop que brindan son de uso
general no desarrolladas para dominio especficos de aplicacin.

Software enfocado a soluciones: Los proveedores proporcionan una arquitectura y


software de solucin que las organizaciones pueden instalar por su cuenta de forma
locales, nube privada o con infraestructura de nube pblica.
En nube se tienen soluciones como Altiscale, Amazon Web Services Elastic MapReduce, y
Microsoft Azure.

Auspicia

www.bpc.com.pe
Tecnologas en Big Data: Hadoop - Distribuciones Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera

Forrester Wave:
Big Data Hadoop
Distributions, Q1 16

Auspicia
Fuentes: : Forrester Wave: - Big Data Hadoop Distributions, Q1 16
www.bpc.com.pe
Tecnologas en Big Data: Hadoop - Ecosistema Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera

GOBIERNO SEGURIDAD OPERACION


INTEGRACION
Autenticacion Monitoreo
Gestin Autorizacion
Lifecycle

Apache Mahout
Coordinacion

Apache Spark

Apache Storm
Apache SolR
Metadata
Apache Hive
Data Protect
Apache Pig

Hcatalog

NoSQL
Politicas
Sqoop Apache
TD Loom Ambari
Apache
Ranger
Flume TD Viewpoint

Falcon YARN: Data Operating System Apache


(Cluster Resource Management) knox Apache
Kafka
Zookeeper
Cl. Navigator
Falcon Hadoop Distribuited File System (HDFS) Apache
Apache
Oozie Falcon
Ozzie

Gestin de Datos(Map Reduce)

Auspicia

www.bpc.com.pe
Tecnologas en Big Data: Hadoop - Ecosistema Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera

GOBIERNO SEGURIDAD OPERACION


INTEGRACION
Autenticacion Monitoreo
Gestin Autorizacion
Lifecycle

Apache Mahout
Coordinacion

Apache Spark

Apache Storm
Apache SolR
Metadata
Apache Hive
Data Protect
Apache Pig

Hcatalog

NoSQL
Politicas
Sqoop Apache
TD Loom Ambari
Apache
Ranger
Flume TD Viewpoint

Falcon YARN: Data Operating System Apache


(Cluster Resource Management) knox Apache
Kafka
Zookeeper
Cl. Navigator
Falcon Hadoop Distribuited File System (HDFS) Apache
Apache
Oozie Falcon
Ozzie

Gestin de Datos(Map Reduce)

Auspicia

www.bpc.com.pe
Tecnologas en Big Data: Hadoop - Ecosistema Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera

Integracion

Apache Sqoop
Apache Flume
Apache Kafka Auspicia

www.bpc.com.pe
Tecnologas en Big Data: Hadoop - Ecosistema Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera

Gobierno

Apache Atlas (Hortonworks) Sin metadatos descriptivos, y un mecanismo para mantenerla, el lago de datos corre el
riesgo de convertirse en un pantano de datos. Sin metadatos, de cada uso posterior de los
Apache Sentry (Cloudera) datos significa inicio anlisis a partir de cero, como una forma de amnesia de datos ".
Protegrity Auspicia
- Gartner, "El lago de datos Falacia: Toda el agua y poca sustancia"
- Nick Heudecker, Publicado: 23 Julio 2014
www.bpc.com.pe
Tecnologas en Big Data: Hadoop - Ecosistema Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera

Seguridad

Apache Knox
Apache Ranger (Hortonworks)
Apache Sentry (Cloudera) Auspicia
Protegrity
www.bpc.com.pe
Tecnologas en Big Data: Hadoop - Ecosistema Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera

Operaciones

Apache Ambari
Cloudera Manager
Apache Oozie
Apache Zookeper Auspicia

www.bpc.com.pe
Tecnologas en Big Data: Hadoop - Ecosistema Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera

Acceso a Datos

Apache Pig
Apache Hive
Apache Hcatalog Auspicia
Apache Impala
www.bpc.com.pe
Tecnologas en Big Data: Hadoop - Ecosistema Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera

Acceso a Datos

Auspicia

www.bpc.com.pe
Centro de Tecnologas de Informacin y Comunicaciones
Universidad Nacional de Ingeniera

BIG GRACIAS!

Auspicia

www.bpc.com.pe

Vous aimerez peut-être aussi