Académique Documents
Professionnel Documents
Culture Documents
HADOOP
Y sobrevivir a la experiencia
ORGANIZACIN
Descripcin
Hadoop:
Procesos
involucrados
Esquema
de Funcionamiento
Instalacin
de Hadoop
Instalacin
Local
Descripcin
de Instalacin en Cluster
ORGANIZACIN
HDFS:
Acceder
Carga
y descarga de Informacin
Ejecucin
de Procesos
Lanzamiento, ejecucin
Lanzamiento, ejecucin
REPOSITORIO DE
INFORMACN
https://www.tsc.uc3m.es/~hmolina/mlgp
Acceso
HADOOP
Instalacin, configuracin y uso
FLUJO DE DATOS DE
HADOOP
Java MapReduce
Mapper
map()
import java.io.IOException;
ARQUITECTURA TPICA
ARQUITECTURA MLTIPLES
REDUCTORES
ARQUITECTURA SIN
REDUCTORES
HADOOP
Varias
En
formas de ejecucin:
En
En
MODO STANDALONE
Descomprimir
Establecer
Et Voil!!!!
la distribucin de Hadoop
variable JAVA_HOME
PRUEBA
Descomprimir
Ejecutar
BBDD de Reuters
el comando:
El
Observar
demora
ESTRUCTURA DE HADOOP
CONFIGURACIN EN MODO
SERVIDOR LOCAL
Creamos
un directorio llamado
conf_single
Copiamos
HDFS-SITE.XML
Define
MAPRED-SITE.XML
Configura
el coordinador de tareas
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
<property>
<name>mapred.system.dir</name>
<value>/hadoop/mapred/system</value>
</property>
<property>
<name>mapred.local.dir</name>
<value>/tmp/hadoop/tmp_mapred</value>
</property>
</configuration>
OTROS FICHEROS
Hay
INICIAR EL SISTEMA
bin/start-all.sh
Acceso
--config conf_single
NameNode
(DFS) http://localhost:50070
JobTracker: http://localhost:50030
ACCESO AL SISTEMA DE
FICHEROS
El
La
DFS
Basado
hadoop
hadoop
hadoop
hadoop
DFS
Para
hadoop
hadoop
Para
descargar ficheros
hadoop
hadoop
hadoop
PRIMERA PRUEBA:
CONTAR PALABRAS
Se
En
particular wordcount
hadoop
INTEGRACIN DE HADOOP
Y PYTHON
Los
<llave><dato>
y
se deben presentar
<llave><dato>
ARQUITECTURA TPICA
CALCULO DE MAXIMA
TEMPERATURA ANUAL
Base
Datos
Estructura
Datos
simple
de interes:
Ao: cols
15 a 18
Temperatura: cols
Col
import java.io.IOException;
import
import
import
import
org.apache.hadoop.io.IntWritable;
org.apache.hadoop.io.LongWritable;
org.apache.hadoop.io.Text;
org.apache.hadoop.mapreduce.Mapper;
import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
public class MaxTemperatureReducer
extends Reducer<Text, IntWritable, Text, IntWritable> {
@Override
public void reduce(Text key, Iterable<IntWritable> values,
Context context)
throws IOException, InterruptedException{
int maxValue = Integer.MIN_VALUE;
for (IntWritable value : values ) {
maxValue = Math.max(maxValue, value.get());
}
context.write(key, new IntWritable(maxValue));
}
import
import
import
import
import
import
org.apache.hadoop.fs.Path;
org.apache.hadoop.io.IntWritable;
org.apache.hadoop.io.Text;
org.apache.hadoop.mapreduce.Job;
org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
bsico de MaxTem
TCNICAS
Streaming:
Las
Se
hadoop
jar ../../hadoop-1.1.2/contrib/streaming/hadoopstreaming-1.1.2.jar
hadoop jar \
contrib/streaming/hadoop-streaming-1.1.2.jar \
-input {DFSDIR}/input -output {DFSDIR}/output_py \
-mapper {GLOBAL_DIR}/map.py \
-reducer {GLOBAL_DIR}/reduce.py
STREAMING (CONT)
La
ARQUITECTURA COMBINER
import
import
import
import
import
import
org.apache.hadoop.fs.Path;
org.apache.hadoop.io.IntWritable;
org.apache.hadoop.io.Text;
org.apache.hadoop.mapreduce.Job;
org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
CON COMBINER
hadoop
jar ../../hadoop-1.1.2/contrib/streaming/hadoopstreaming-1.1.2.jar
hadoop jar hadoop-streaming-1.1.2.jar \
-input {DFSDIR}/input -output {DFSDIR}/output_py \
-mapper {GLOBAL_DIR}/map.py \
-combiner {GLOBAL_DIR}/reduce.py
-reducer {GLOBAL_DIR}/reduce.py
http://nostromo.tsc.uc3m.es:50030/jobtracker.jsp
http://subserver1.tsc.uc3m.es:50070/dfshealth.jsp
BIBILIOGRAFIA
Hadoop: The
Writing
Hadoop
1.1.2 Documentation