LEYVA AGUILAR, JIMENA CUENTAS IPARRAGUIRRE, JHONATAN HADOOP Apache Hadoop es un framework de software que soporta aplicaciones distribuidas bajo una licencia libre. Permite a las aplicaciones trabajar con miles de nodos y peta bytes de datos. Hadoop se inspir en los documentos google para MagReduce y Google File System(GFS). HADOOP
Hadoop consiste bsicamente en el Hadoop Common, que
proporciona acceso a los sistemas de archivos soportados por Hadoop. El paquete de software The Hadoop Common contiene los archivos y los scripts necesarios para ejecutar Hadoop. El paquete tambin proporciona cdigo fuente, documentacin, y una seccin de contribucin que incluye proyectos de la Comunidad Hadoop. ARQUITECTURA HDFS HDFS es el sistema de almacenamiento, es un sistema de ficheros distribuido. Fue creado a partir del Google File System (GFS). HDFS se encuentra optimizado para grandes flujos y trabajar con ficheros grandes en sus lecturas y escrituras. Su diseo reduce la E/S en la red. La escalabilidad y disponibilidad son otras de sus claves, gracias a la replicacin de los datos y tolerancia a los fallos. Los elementos importantes del cluster: NameNode: Slo hay uno en el cluster. Regula el acceso a los ficheros por parte de los clientes. Mantiene en memoria la meta data del sistema de ficheros y control de los bloques de fichero que tiene cada DataNode. DataNode: Son los responsables de leer y escribir las peticiones de los clientes. Los ficheros estn formados por bloques, estos se encuentran replicados en diferentes nodos. MapReduce MapReduce es un proceso batch, creado para el proceso distribuido de los datos. Permite de una forma simple, paralelizar trabajo sobre los grandes volmenes de datos, como combinar web logs con los datos relacionales de una base de datos OLTP, de esta forma ver como los usuarios interactan con el website. El modelo de MapReduce simplifica el procesamiento en paralelo, abstrayndonos de la complejidad que hay en los sistemas distribuidos. Bsicamente las funciones Map transforman un conjunto de datos a un nmero de pares key/value. Cada uno de estos elementos se encontrar ordenado por su clave, y la funcin reduce es usada para combinar los valores (con la misma clave) en un mismo resultado. Un programa en MapReduce, se suele conocer como Job, la ejecucin de un Job empieza cuando el cliente manda la configuracin de Job al JobTracker, esta configuracin especifica las funciones Map, Combine (shuttle) y Reduce, adems de la entrada y salida de los datos. FIN