Vous êtes sur la page 1sur 10

APACHE HADOOP

Hecho por :

Angulo Osorio , Javier Fernando

Baca Pacheco Michael Javier

OBJETIVO PRINCIPAL
El objetivo principal de este ensayo temtico es
investigar el Ecosistema de Hadoop. Hadoop es un
marco de trabajo muy utilizado hoy en da, pero no
existe informacin fcil de entender, ni tampoco clara.
En este trabajo se pretende reunir toda la informacin
sobre Hadoop, as como comprender la funcionalidad,
la facilidad de uso, todo el ecosistema Hadoop y su
aplicacin. Tambin se trat de obtener una conclusin
sobre el uso de Hadoop y MapReduce.
2

QU ES APACHE
HADOOP?
Es un software que fue creado en el ao 2005 por Mike
Cafarella y Doug Cutting de cdigo abierto que sirve
para almacenar y analizar cantidades masivas de
datos, tanto estructurados como no estructurados,
ste framework puede procesar grandes conjuntos de
datos desordenados y obtener conocimiento y
respuestas a partir de ellos, de ah la expectacin
creada.
3

Hadoop
Common

Hadoop
YARN

MODULO
S
HADOOP

Hadoop
Distribute
d File
System
(HDFS)

Hadoop
MapReduc
e
4

CARACTERSTICAS
Tolerancia a fallos.
Acceso a datos en streaming
Facilidad para el trabajo con grandes volmenes de datos
Modelo sencillo de coherencia
Portabilidad de convivencia entre hardware heterogneo
Escalabilidad horizontal
Localizacin de los datos
Transparencia
5

ARQUITECTURA HADOOP
Hadoop

HDFS

Map
Reduce

NameNode

JobTracker
Secondary
NameNode
TaskTracker

DataNode

TaskTracker

DataNode
TaskTracker

FUNCIONABILIDAD
Hadoop permite utilizando la minera de datos descubrir asociaciones en archivos de registros histricos,
Anlisis sta tcnica se compone de una estructura utilizando MapReduce as como un anlisis de frecuencia.
de logs

Anlisis
de
predictibil
idad.

Hadoop permite realizar anlisis de predictibilidad apoyndose en YARN, explotando sus opciones de
rendimiento predictivo para obtener un anlisis integral consistente, permitir acceder a datos de forma
detallada, acceso a nuevas fuentes de datos no estructurados y acceso a datos en tiempo real.

La aplicacin de Hadoop con las tcnicas de minera de datos permiten tratar datos de grandes volmenes,
utilizando MapReduce para realizar bsquedas de manera paralela o distribuida. Hadoop slo necesita
Data
compartir y dividir los patrones en vez de utilizar todo el conjunto de datos.
Mining

Procesami
ento de
imgenes

Para realizar el procesamiento de imgenes, se combinan metaheursticas y el paradigma MapReduce para


aplicar algoritmos robustos y eficientes para el tratamiento de imgenes en clusters Hadoop.

Apache Hadoop permite extraer informacin de manera automtica de pginas web y documentos
utilizando el paradigma de MapReduce con eficiencia. Su uso ms frecuente es en crear copias de todas las
Web
pginas web visitadas para su procesado con MapReduce e indexar las pginas proporcionando un sistema
crawling de bsquedas rpido.
7

VENTAJAS Y
DESVENTAJAS

VENTAJAS

Tecnologa altamente escalable


Almacenamiento a bajo costo
Flexibilidad
velocidad: Hadoop permite ejecutar
procesamiento y realizar anlisis muy
rpidos.
- Tolerante a fallos
-

DESVENTAJAS

- Latencia para el acceso a datos: HDFS


est orientado a procesos batch y
operaciones en streaming. Por lo tanto,
la latencia de cualquier operacin IO
no ha sido optimizada
- Cantidades grandes de ficheros
pequeos: El lmite del nmero de
ficheros en este sistema est limitado
por la memoria del NameNode
- Escribe una vez, lee varias: En HDFS
los ficheros solo se pueden escribir una
vez
- Es muy difcil de depurar
- No todos los algoritmos se pueden
escribir con el paradigma MapReduce
- Latencia: cualquier job MapReduce
suele tardar por lo menos 10 segundos

Casos de xito
Se benefician del Big Data, un testimonio real: Amazon ha crecido mucho de forma bastante
consistente como organizacin, pero muchas empresas crecen a travs de la adquisicin, lo
que hace que la sincronizacin de datos sea una tarea enorme
Una compaa de vehculos "propulsada" por Big Data: En Volvo, un sistema de
almacenamiento de datos Teradata integra datos de configuracin de productos, garanta y de
diagnstico del vehculo para apoyar el anlisis tcnico y de negocios en todo el ciclo de vida
del producto.
Da el paso para entrar en el mundo del Big Data: Con la intencin de conocer mejor a sus
clientes el banco ING Direct apuesta por Big Data, para analizar la informacin que dispone de
sus clientes como toda la informacin externa que pueda conseguir y utilizar en la toma de
decisiones.
Utiliza herramientas Big Data para combatir el fraude en tiempo real: Aplicando diversos filtros
de "Fraud Management" la compaa desarroll un proceso de deteccin de fraude basados en
datasets masivos que son analizados a travs de herramientas de Big Data.

Presenta su nueva unidad de negocio "Big Data" llamada Telefnica Dynamic Insights: Permitir
utilizar el Big Data para el anlisis de datos agregados y totalmente annimos. Su producto
Smart Steps utiliza estos datos para medir, comparar y comprender qu factores influyen en 9
el
nmero.

GRACIAS
10

Vous aimerez peut-être aussi