Vous êtes sur la page 1sur 6

INTEGRANTES

VILLAREAL ZEVALLOS, EDUARDO


LEYVA AGUILAR, JIMENA
CUENTAS IPARRAGUIRRE, JHONATAN
HADOOP
Apache Hadoop es un framework de software que soporta
aplicaciones distribuidas bajo una licencia libre. Permite a las
aplicaciones trabajar con miles de nodos y peta bytes de datos.
Hadoop se inspir en los documentos google para MagReduce y
Google File System(GFS).
HADOOP

Hadoop consiste bsicamente en el Hadoop Common, que


proporciona acceso a los sistemas de archivos soportados por
Hadoop. El paquete de software The Hadoop Common contiene
los archivos y los scripts necesarios para ejecutar Hadoop. El
paquete tambin proporciona cdigo fuente, documentacin, y
una seccin de contribucin que incluye proyectos de la
Comunidad Hadoop.
ARQUITECTURA
HDFS
HDFS es el sistema de almacenamiento, es un sistema de ficheros
distribuido. Fue creado a partir del Google File System (GFS). HDFS se
encuentra optimizado para grandes flujos y trabajar con ficheros
grandes en sus lecturas y escrituras. Su diseo reduce la E/S en la red.
La escalabilidad y disponibilidad son otras de sus claves, gracias a la
replicacin de los datos y tolerancia a los fallos. Los elementos
importantes del cluster:
NameNode: Slo hay uno en el cluster. Regula el acceso a los ficheros
por parte de los clientes. Mantiene en memoria la meta data del
sistema de ficheros y control de los bloques de fichero que tiene cada
DataNode.
DataNode: Son los responsables de leer y escribir las peticiones de los
clientes. Los ficheros estn formados por bloques, estos se encuentran
replicados en diferentes nodos.
MapReduce
MapReduce es un proceso batch, creado para el proceso distribuido de
los datos. Permite de una forma simple, paralelizar trabajo sobre los
grandes volmenes de datos, como combinar web logs con los datos
relacionales de una base de datos OLTP, de esta forma ver como los
usuarios interactan con el website.
El modelo de MapReduce simplifica el procesamiento en paralelo,
abstrayndonos de la complejidad que hay en los sistemas distribuidos.
Bsicamente las funciones Map transforman un conjunto de datos a un
nmero de pares key/value. Cada uno de estos elementos se encontrar
ordenado por su clave, y la funcin reduce es usada para combinar los
valores (con la misma clave) en un mismo resultado.
Un programa en MapReduce, se suele conocer como Job, la ejecucin
de un Job empieza cuando el cliente manda la configuracin de Job al
JobTracker, esta configuracin especifica las funciones Map, Combine
(shuttle) y Reduce, adems de la entrada y salida de los datos.
FIN

Vous aimerez peut-être aussi