Vous êtes sur la page 1sur 14

3ème année cycle d’ingénieur

Ingénierie Informatique et Technologies Emergentes (2ITE)

Gestion et Traitement
BIG DATA

Prof. HANINE Mohamed


Laboratoire Télécommunications, Réseaux et Informatique (TRI)
ENSA Eljadida, Université Chouaib Doukkali, Maroc
Email: m.hanine.ensaj@gmail.com Année universitaire 2020/2021
Planning de Semestre
• Séance 1 : Introduction au BIG DATA
• Séance 2 : Hadoop + TP 1 : Installation + Manipulation HDFS
• Séance 3 : Hadoop + TP 2 : Solution Cloudera + MapReduce (en Java)
• Séance 4 : Hadoop + TP 3 : Solution HortonWorks + MapReduce ( en Python)
• Séance 5 : Rappel sur NoSQL +MapReduce avec MongoDB et/ou Scala + TP 4
• Séance 6 : Contrôle mi-semestre (Théorique et Pratique)
• Séance 7 : HBase + TP 5
• Séance 8 : PIG + TP 6
• Séance 9 : HIVE + TP 7
• Séance 10 :Exposés + Mini Projet
Examen Final

Année universitaire 2020/2021


Quelques solutions
• Problème de la compilation des classes Java
• Ajouter le fichier hadoop-core-1.2.1.jar dans le Java Build Path du projet.
https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-core/1.2.1
• Si l’exécution du job Map Reduce n’a pas abouti dans la classe, à cause d’une erreur de privilège
nécessaire.

• Exécuter l’invite de commande en tant qu’administrateur. Ensuite attribuer tous les droits à la
racine avec la commande : Hadoop fs –chmod 777. Puis exécuter à nouveau la commande de
l’exécution du job MR

Année universitaire 2020/2021


Quelques solutions
• Si vous avez des problèmes avec l’HDFS
• Allez vers le dossier hadoop-2.x et supprimer le contenu des dossiers data et name se trouvant dans
data
• Si vous avez des problèmes de capacité de stockage gérer par yarn ou si vous avez une erreur comme:

Modification au niveau de yarn-site.xml :

Année universitaire 2020/2021


Si je ne veux pas coder en Java: Hadoop Streaming
• Hadoop permet la composition de jobs map-reduce avec d'autres langages de
programmation.
• Hadoop Streaming – très utilisé pour l'exécution de mappers et reducers codés avec
des langages de programmation interprétées (Python, Ruby, Scripts shell…)
• Accepte comme paramètres le chemin de exécutables système qui feront le rôle de
mapper et reducer
• hadoop jar hadoop-streaming-*.jar -input myInputDirs -output myOutputDir -mapper
/bin/cat -reducer /usr/bin/wc

Année universitaire 2020/2021


Programmation sous Python
• WordCount version Python – opération MAP:

Année universitaire 2020/2021


Programmation sous Python

• WordCount version Python – opération MAP:

• Pour vérifier le bon fonctionnement de l’opération MAP, exécuter cette


ligne de commande

cat /../Desktop/poeme.txt | python /…/Desktop/map.py

Année universitaire 2020/2021


Programmation sous Python
• WordCount version Python – opération Reduce:

Année universitaire 2020/2021


Programmation sous Python
• WordCount version Python – opération Reduce:

• Pour vérifier le bon fonctionnement de l’opération Reduce, exécuter cette ligne de commande

cat /…/Desktop/poeme.txt | python /…/Desktop/map.py | python


/…/Desktop/reduce.py

Après l’utilisation de Hadoop Streaming pour exécuter l’application MAPReduce


hadoop jar /…/Desktop/hadoop-streaming-2.6.0.jar -file /…/Desktop/map.py /…/Desktop/reduce.py
-mapper "python map.py" -reducer "python reduce.py" -input /input_dir/poeme.txt -output /resultats

Année universitaire 2020/2021


Question

• Présentation sur les limites de Hadoop?

Année universitaire 2020/2021


Généralités sur Big Data
Architecture Big Data

Couche
visualisation
Couche d’ingéstion

Couche
management et
traitement

Couche stockage

Couche matériel
Généralités sur Big Data: Architecture 2

Année universitaire 2019/2020


Travaux (Exposés)
• Chaque binôme va présenter l'un des sujets suivants :
1) Outils d’administration de cluster: Ambari (Binome) (le TP sera sur HortonWorks (12Go)
2) Outils de coordination de workflow: Oozie (Binome)
3) Outils d’intégration des données : Sqoop (Binome)
4)Outils d’ingestion : Flume. (Trinome)
5) Outils d’ingestion : Kafka. (Binome)
6) Outils de coordination de services distribués: Zookeper (Trinome)
7) Modèles de calcul : Mahout, Hama et Tez. (Trinome)
8) Outils de traitement en temps réel: Storm, Samza, S4 et Spark Streaming. (Trinome)
9) HIPI ou OpenCV: Hadoop Image Processing Interface (Trinome)

Année universitaire 2020/2021


Travaux (exposés)
• Quelques suggestions de question :
• Architecture globale
• Type de données manipulées
• Algorithmes/Technologies utilisées
• Mode de distribution (s’il existe)
• Coherence
• Langage de développement
• Protocole
• Licence, date
• Points forts & points faibles par rapport à d’autres technologies
• Contextes d'utilisation
• Fournir des exemples de codes et des simulations (un petit TP).

Année universitaire 2020/2021

Vous aimerez peut-être aussi