Académique Documents
Professionnel Documents
Culture Documents
Hecho por :
OBJETIVO PRINCIPAL
El objetivo principal de este ensayo temtico es
investigar el Ecosistema de Hadoop. Hadoop es un
marco de trabajo muy utilizado hoy en da, pero no
existe informacin fcil de entender, ni tampoco clara.
En este trabajo se pretende reunir toda la informacin
sobre Hadoop, as como comprender la funcionalidad,
la facilidad de uso, todo el ecosistema Hadoop y su
aplicacin. Tambin se trat de obtener una conclusin
sobre el uso de Hadoop y MapReduce.
2
QU ES APACHE
HADOOP?
Es un software que fue creado en el ao 2005 por Mike
Cafarella y Doug Cutting de cdigo abierto que sirve
para almacenar y analizar cantidades masivas de
datos, tanto estructurados como no estructurados,
ste framework puede procesar grandes conjuntos de
datos desordenados y obtener conocimiento y
respuestas a partir de ellos, de ah la expectacin
creada.
3
Hadoop
Common
Hadoop
YARN
MODULO
S
HADOOP
Hadoop
Distribute
d File
System
(HDFS)
Hadoop
MapReduc
e
4
CARACTERSTICAS
Tolerancia a fallos.
Acceso a datos en streaming
Facilidad para el trabajo con grandes volmenes de datos
Modelo sencillo de coherencia
Portabilidad de convivencia entre hardware heterogneo
Escalabilidad horizontal
Localizacin de los datos
Transparencia
5
ARQUITECTURA HADOOP
Hadoop
HDFS
Map
Reduce
NameNode
JobTracker
Secondary
NameNode
TaskTracker
DataNode
TaskTracker
DataNode
TaskTracker
FUNCIONABILIDAD
Hadoop permite utilizando la minera de datos descubrir asociaciones en archivos de registros histricos,
Anlisis sta tcnica se compone de una estructura utilizando MapReduce as como un anlisis de frecuencia.
de logs
Anlisis
de
predictibil
idad.
Hadoop permite realizar anlisis de predictibilidad apoyndose en YARN, explotando sus opciones de
rendimiento predictivo para obtener un anlisis integral consistente, permitir acceder a datos de forma
detallada, acceso a nuevas fuentes de datos no estructurados y acceso a datos en tiempo real.
La aplicacin de Hadoop con las tcnicas de minera de datos permiten tratar datos de grandes volmenes,
utilizando MapReduce para realizar bsquedas de manera paralela o distribuida. Hadoop slo necesita
Data
compartir y dividir los patrones en vez de utilizar todo el conjunto de datos.
Mining
Procesami
ento de
imgenes
Apache Hadoop permite extraer informacin de manera automtica de pginas web y documentos
utilizando el paradigma de MapReduce con eficiencia. Su uso ms frecuente es en crear copias de todas las
Web
pginas web visitadas para su procesado con MapReduce e indexar las pginas proporcionando un sistema
crawling de bsquedas rpido.
7
VENTAJAS Y
DESVENTAJAS
VENTAJAS
DESVENTAJAS
Casos de xito
Se benefician del Big Data, un testimonio real: Amazon ha crecido mucho de forma bastante
consistente como organizacin, pero muchas empresas crecen a travs de la adquisicin, lo
que hace que la sincronizacin de datos sea una tarea enorme
Una compaa de vehculos "propulsada" por Big Data: En Volvo, un sistema de
almacenamiento de datos Teradata integra datos de configuracin de productos, garanta y de
diagnstico del vehculo para apoyar el anlisis tcnico y de negocios en todo el ciclo de vida
del producto.
Da el paso para entrar en el mundo del Big Data: Con la intencin de conocer mejor a sus
clientes el banco ING Direct apuesta por Big Data, para analizar la informacin que dispone de
sus clientes como toda la informacin externa que pueda conseguir y utilizar en la toma de
decisiones.
Utiliza herramientas Big Data para combatir el fraude en tiempo real: Aplicando diversos filtros
de "Fraud Management" la compaa desarroll un proceso de deteccin de fraude basados en
datasets masivos que son analizados a travs de herramientas de Big Data.
Presenta su nueva unidad de negocio "Big Data" llamada Telefnica Dynamic Insights: Permitir
utilizar el Big Data para el anlisis de datos agregados y totalmente annimos. Su producto
Smart Steps utiliza estos datos para medir, comparar y comprender qu factores influyen en 9
el
nmero.
GRACIAS
10