Ch0 Big Data

Transféré par

Younes Oulad Sayad

0% ont trouvé ce document utile (0 vote)

16 vues21 pages

Copyright

Formats disponibles

PDF, TXT ou lisez en ligne sur Scribd

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Signaler ce document

Droits d'auteur :

Formats disponibles

Téléchargez comme PDF, TXT ou lisez en ligne sur Scribd

Signaler comme contenu inapproprié

0% ont trouvé ce document utile (0 vote)

16 vues21 pages

Ch0 Big Data

Transféré par

Younes Oulad Sayad

Droits d'auteur :

Formats disponibles

Téléchargez comme PDF, TXT ou lisez en ligne sur Scribd

Signaler comme contenu inapproprié

Passer à la page

Vous êtes sur la page 1sur 21

Rechercher à l'intérieur du document

Mme Amal ABID - GI3 - ENIS 1

Annexe A
Etapes d’un projet Big Data

Mme Amal ABID - GI3 - ENIS 2

3
4
5
6
7
Références: http://www.slideshare.net/jimmy_lai/when-big-data-meet-python
Annexe B
Schéma général de
l’Algorithme MapReduce

Mme Amal ABID - GI3 - ENIS

Mme Amal ABID - GI3 - ENIS 10
Annexe C
OpenStack & Hadoop

Mme Amal ABID - GI3 - ENIS 11

Explication
 Dans la partie du cours Big Data, nous avons utilisé Hadoop sur une seule machine et pas dans un cluster.
L’objectif était de comprendre Hadoop, le tester, écrire du code MapReduce et utiliser HBase.

 Afin d’analyser les données massives, il est impératifs d’utiliser Hadoop dans un cluster (plusieurs machines qui
fonctionnent ensemble d’une façon distribuée et parallèle).

 Puisque la manipulation et la gestion des systèmes distribués est relativement délicate et a besoin de compétences
techniques avancées, les frameworks Big Data sont utilisés généralement dans un environnement Cloud
Computing. En particulier, on utilise Hadoop-as-a-Service dans plusieurs fournisseurs de Cloud comme Amazon
et Windows Azure.

 Gestionnaire de Cloud (ou encore Cloud Manager) : C’est la couche la plus importante dans l’infrastructure
Cloud. C’est à travers le gestionnaire de Cloud que nous pouvons passer d’un environnement distribué à la notion du
Cloud Computing.
 En effet, le gestionnaire de Cloud présente la couche d’orchestration et automatisation qui :
 lie l’ensemble de l’infrastructure
 gère l’allocation des ressources de manière dynamique et assure la scalabilité.
 permet par la suite de construire une architecture Cloud
Mme Amal ABID - GI3 - ENIS 12
OpenStack : Sahara
 Sahara est le composant d'OpenStack pour le Big Data. Il permet d'utiliser Hadoop avec OpenStack.

 Sahara a pour but de fournir aux utilisateurs les moyens simples de provisionner des clusters de Hadoop en
spécifiant plusieurs paramètres comme la version, la topologie du cluster ou d'autres. Après avoir rempli ces
paramètres, Sahara déploie le cluster en quelques minutes.
 Sahara fournit aussi les moyens d'évolution du cluster en rajoutant des nœuds à la demande.

 Sahara : Hadoop dans OpenStack

 Facilite les soucis d'installation, de gestion, de monitoring des clusters
 Supporte différentes versions d'Hadoop
 Crée différents environnements Hadoop simplement : dev, test, pré-prod
 A une API pour construire et lancer un cluster à la volée, notamment lors des tests
 A la possibilité d'exploiter les mêmes données par plusieurs clusters

 Lien d’un démo vidéo : https://www.youtube.com/watch?v=vmry_kXqn4c

Mme Amal ABID - GI3 - ENIS

Mme Amal ABID - GI3 - ENIS 14
Mme Amal ABID - GI3 - ENIS 15
Mme Amal ABID - GI3 - ENIS 16
Mme Amal ABID - GI3 - ENIS 17
Mme Amal ABID - GI3 - ENIS 18
Mme Amal ABID - GI3 - ENIS 19
Annexe D
Mahout

Mme Amal ABID - GI3 - ENIS 20

Mahout : Présentation
 Apache Mahout est un projet de la fondation Apache visant à créer des implémentations d'algorithmes
d'apprentissage automatique (Machine Learning) distribués.
 D'abord développé au-dessus de la plate-forme Hadoop, Mahout a ensuite utilisé Apache Spark.
 Les algorithmes principaux proposés par Mahout pour faire du partitionnement de données et de la classification
automatique sont implémentés avec Apache Hadoop en utilisant le paradigme MapReduce.

 L’utilisation de Mahout sur Hadoop est simple.

 Par exemple si nous voulons faire du clustering avec K-means, il suffit de lancer une (ou des) commande(s) qui
contiennent quelques paramètres tels que :
 input : le chemin de votre dataset.
 clusters : les centroïdes d'entrée, en tant que vecteurs.
 output : le chemin du repertoire de sortie.
 distanceMeasure : Le nom de classe de la mesure de distance. La valeur par défaut est SquaredEuclidean.
 k : Le k dans k-Means. Si spécifié, une sélection aléatoire de k vecteurs sera choisie comme centroïde et écrite
dans le chemin d'entrée des clusters.
 Lien : https://mahout.apache.org/users/clustering/k-means-commandline.html

 Tuto exemple
 Lien : https://www.youtube.com/watch?v=Vub7ffAkn7Q

Vous aimerez peut-être aussi

Initiation à l'écosytème Hadoop
D'Everand
Initiation à l'écosytème Hadoop
Juvénal CHOKOGOUE
Évaluation : 5 sur 5 étoiles
5/5 (1)
Apache Spark
Document16 pages
Apache Spark
MOHAMED ELRHAOUAT
Pas encore d'évaluation
Cloud Partie Prati Que
Document19 pages
Cloud Partie Prati Que
Nour Brinis
Pas encore d'évaluation
Hadoop 1
Document61 pages
Hadoop 1
Mouhamed Bouazzi
Pas encore d'évaluation
Application2 - Initiation Spark PDF
Document7 pages
Application2 - Initiation Spark PDF
Administration IHET
Pas encore d'évaluation
Récupérer Des Données Hadoop Avec Python - Makina Corpus
Document3 pages
Récupérer Des Données Hadoop Avec Python - Makina Corpus
Ahmed Mohamed
Pas encore d'évaluation
tp1 BigData
Document9 pages
tp1 BigData
Haitam Laaouini
Pas encore d'évaluation
Etude de La Rentabilité D'un Projet de Sécurité Informatique Au Sein D'une Entreprise
Document19 pages
Etude de La Rentabilité D'un Projet de Sécurité Informatique Au Sein D'une Entreprise
Ahmed Sakka
Pas encore d'évaluation
Open Stack
Document301 pages
Open Stack
Mohamed Issaoui
Pas encore d'évaluation
TP #1: Le Traitement Batch Avec Hadoop, Hdfs Et Mapreduce
Document11 pages
TP #1: Le Traitement Batch Avec Hadoop, Hdfs Et Mapreduce
Rim Hancha
Pas encore d'évaluation
Hadoop (Rihab Chaouch Et Alaa El Ghoul
Document17 pages
Hadoop (Rihab Chaouch Et Alaa El Ghoul
Chaouch Mohamed Abd Salem
Pas encore d'évaluation
Formation OpenStack
Document280 pages
Formation OpenStack
Dorra Labidi
Pas encore d'évaluation
Les Oscillateurs Sinusoidaux
Document9 pages
Les Oscillateurs Sinusoidaux
De Saint-aymar Ossere
Pas encore d'évaluation
Leçon2 - Hadoop, MapReduce Et Le Big
Document52 pages
Leçon2 - Hadoop, MapReduce Et Le Big
Mido pro
Pas encore d'évaluation
Technologies Big Data: Zouhair Elamrani Abou Elassad
Document75 pages
Technologies Big Data: Zouhair Elamrani Abou Elassad
jon cina
Pas encore d'évaluation
Présentation D'HADOOP
Document38 pages
Présentation D'HADOOP
Ferdinand Owona
Pas encore d'évaluation
Mickaelbaron-Hadoopinstallation Part1
Document2 pages
Mickaelbaron-Hadoopinstallation Part1
satmania
Pas encore d'évaluation
Hadoop Ecosystem
Document37 pages
Hadoop Ecosystem
hajar.filali4
Pas encore d'évaluation
Lab 3
Document15 pages
Lab 3
Maryâm Bôuch
Pas encore d'évaluation
Scala
Document33 pages
Scala
Zouhair Ng
Pas encore d'évaluation
Chapitre2 BigData
Document35 pages
Chapitre2 BigData
ouma ima
Pas encore d'évaluation
Le Cluster Hadoop
Document8 pages
Le Cluster Hadoop
Amidou Bagayogo
Pas encore d'évaluation
TP4-5 Spark
Document21 pages
TP4-5 Spark
Mazozi safae
Pas encore d'évaluation
Hands-On Lab - Hands-On Lab - AC1 Courseware - WeThink Edx
Document1 page
Hands-On Lab - Hands-On Lab - AC1 Courseware - WeThink Edx
MaRoua Abdelhafidh
Pas encore d'évaluation
CY3907 Formation Cloudera Administrator Training For Apache Hadoop PDF
Document2 pages
CY3907 Formation Cloudera Administrator Training For Apache Hadoop PDF
CertyouFormation
Pas encore d'évaluation
Mock Test Sur Hadoop
Document7 pages
Mock Test Sur Hadoop
walid abaidi
Pas encore d'évaluation
Haddop VF
Document126 pages
Haddop VF
Nour
Pas encore d'évaluation
Leçon EcoSystemHadoop PDF
Document15 pages
Leçon EcoSystemHadoop PDF
Hadil Mlika
Pas encore d'évaluation
No SQ L Avec Cassandra
Document7 pages
No SQ L Avec Cassandra
yugaselvan
Pas encore d'évaluation
Big Data Sqoop
Document8 pages
Big Data Sqoop
Moufid Mohammed akram
Pas encore d'évaluation
L
Document5 pages
L
hichriamal465
Pas encore d'évaluation
Pig Hive Mahout Benali Mounir
Document30 pages
Pig Hive Mahout Benali Mounir
chaimaeelhmami20
Pas encore d'évaluation
4 Elfaddouli Bigdata Hive 2022
Document32 pages
4 Elfaddouli Bigdata Hive 2022
abdou boulif
Pas encore d'évaluation
tp1 Mapreduce
Document15 pages
tp1 Mapreduce
Ivan003
Pas encore d'évaluation
Spark
Document4 pages
Spark
fatima ezzahrae el ghatous
Pas encore d'évaluation
Chapitre 2 - Système Pig de Hadoop - Oct 2023
Document22 pages
Chapitre 2 - Système Pig de Hadoop - Oct 2023
Khalid Harrati
Pas encore d'évaluation
DevOps Roadmap
Document7 pages
DevOps Roadmap
abmangane14
Pas encore d'évaluation
Big Data
Document6 pages
Big Data
zaki worker
Pas encore d'évaluation
BD2 - Cours 8 Et 9 v2
Document71 pages
BD2 - Cours 8 Et 9 v2
stephanie ngouladjo
Pas encore d'évaluation
Sqoop Rapport
Document35 pages
Sqoop Rapport
Ahmed Yassine
Pas encore d'évaluation
Sqoop Rapport
Document35 pages
Sqoop Rapport
Houda Mabrouk
Pas encore d'évaluation
CH 1
Document53 pages
CH 1
ya.latreche
Pas encore d'évaluation
Programmation Hadoop WordCount
Document18 pages
Programmation Hadoop WordCount
Hammami Mélek
Pas encore d'évaluation
APH1
Document2 pages
APH1
Šməì Ĺĕ
Pas encore d'évaluation
Exercice 1
Document3 pages
Exercice 1
Loubna
Pas encore d'évaluation
Hadoop
Document14 pages
Hadoop
Nawres Tahri
Pas encore d'évaluation
Programmation Hadoop
Document11 pages
Programmation Hadoop
شيبي محمد
100% (1)
Apache Spark Interview Questions and
Document19 pages
Apache Spark Interview Questions and
Mohamed Rahal
Pas encore d'évaluation
Cours 2 Architecture - Big Data Hadoop - HDFS
Document54 pages
Cours 2 Architecture - Big Data Hadoop - HDFS
alaska8fouad
Pas encore d'évaluation
Devoir N°2 - Cluster
Document3 pages
Devoir N°2 - Cluster
maliani adolph
Pas encore d'évaluation
TP1 Hadoop3.1.2
Document20 pages
TP1 Hadoop3.1.2
fatima ezzahrae el ghatous
Pas encore d'évaluation
Couche DB
Document19 pages
Couche DB
Améth Ndiaye
Pas encore d'évaluation
Apache Scoop
Document2 pages
Apache Scoop
Ahlem Mhamdi
Pas encore d'évaluation
CH 2 Hadoop
Document56 pages
CH 2 Hadoop
Rihane Farah
Pas encore d'évaluation
Master 2 Miage-Mbds Projet Big Data Analytics: Analyse de La Clientèle D'un Concessionnaire Automobile Pour La Recommandation de Modèles de Véhicules
Document20 pages
Master 2 Miage-Mbds Projet Big Data Analytics: Analyse de La Clientèle D'un Concessionnaire Automobile Pour La Recommandation de Modèles de Véhicules
Asil
Pas encore d'évaluation
Les Offres dAWS Azure Et Google Cloud Pour Stocker Les Donnees Sur Site
Document7 pages
Les Offres dAWS Azure Et Google Cloud Pour Stocker Les Donnees Sur Site
gerardmichon0
Pas encore d'évaluation
Administration Et Hebergement Web
Document5 pages
Administration Et Hebergement Web
Tagne Guylain Florian
Pas encore d'évaluation
Mickaelbaron-Hadoopinstallation Part4
Document2 pages
Mickaelbaron-Hadoopinstallation Part4
satmania
Pas encore d'évaluation
Mickaelbaron-Hadoopinstallation Part6
Document2 pages
Mickaelbaron-Hadoopinstallation Part6
satmania
Pas encore d'évaluation
3 Chapitre 7 No
Document5 pages
3 Chapitre 7 No
Wafo Kamgue
Pas encore d'évaluation
ST Tutor4 Pyspark Mllib
Document7 pages
ST Tutor4 Pyspark Mllib
Zorzo
Pas encore d'évaluation
Formation Kubernetes
Document245 pages
Formation Kubernetes
Ahcene Aiti
Pas encore d'évaluation
Apprentissage Par Renforcement
Document67 pages
Apprentissage Par Renforcement
Younes Oulad Sayad
Pas encore d'évaluation
06 Slide
Document38 pages
06 Slide
Younes Oulad Sayad
Pas encore d'évaluation
02 Intro ML
Document53 pages
02 Intro ML
Younes Oulad Sayad
Pas encore d'évaluation
Les - Macros
Document4 pages
Les - Macros
Younes Oulad Sayad
Pas encore d'évaluation
Programmation Web: Html/Css/Js/Php/Mysql
Document19 pages
Programmation Web: Html/Css/Js/Php/Mysql
Younes Oulad Sayad
Pas encore d'évaluation
Cellule Solaire 01
Document2 pages
Cellule Solaire 01
Abdelbaki Elfahem
Pas encore d'évaluation
Optimal Control of Differential Equations With - o
Document158 pages
Optimal Control of Differential Equations With - o
นนฐ์ทกร บุญรักชาติ
Pas encore d'évaluation
Cours Javascript - 3iir
Document35 pages
Cours Javascript - 3iir
Aziz Öõźż Makro
100% (1)
Bac Blanc
Document3 pages
Bac Blanc
nathan nguyen
Pas encore d'évaluation
12.5.13 Packet Tracer - Troubleshoot Enterprise Networks - FR FR
Document7 pages
12.5.13 Packet Tracer - Troubleshoot Enterprise Networks - FR FR
Atigou Diallo
Pas encore d'évaluation
Flexion Poutre
Document10 pages
Flexion Poutre
Boud Elhassan
Pas encore d'évaluation
Procédures D'abonnement Et D'activation Du Telepaiement
Document2 pages
Procédures D'abonnement Et D'activation Du Telepaiement
Simohammed El Harti
Pas encore d'évaluation
Cours D'analyse de Données: Par: B. Dousset
Document21 pages
Cours D'analyse de Données: Par: B. Dousset
Oussama Mc
100% (1)
Archive The00000000000000125790000000
Document100 pages
Archive The00000000000000125790000000
Too FAST
Pas encore d'évaluation
Règlement - Grand Jeu Fête Des Mères 2023
Document4 pages
Règlement - Grand Jeu Fête Des Mères 2023
Matira Millard-Min Chiu
Pas encore d'évaluation
Automatique Cours
Document5 pages
Automatique Cours
Babou Erre
Pas encore d'évaluation
DHB - 99900-08-03 LICCON1
Document147 pages
DHB - 99900-08-03 LICCON1
mourad ouanene
Pas encore d'évaluation
Audit Produit VF
Document13 pages
Audit Produit VF
FatiHayad
100% (1)
TD 07-Corrigé
Document16 pages
TD 07-Corrigé
Yassine Boutahir
Pas encore d'évaluation
DS SEPCcor 14 11 2017-1
Document11 pages
DS SEPCcor 14 11 2017-1
Dhia Benkhaled
Pas encore d'évaluation
Etude KNX Agence Bancaire
Document7 pages
Etude KNX Agence Bancaire
ahmed kanzari
Pas encore d'évaluation
Projet5 Evaluation Electronique de Puissance
Document6 pages
Projet5 Evaluation Electronique de Puissance
Allegro Presto Moderato
Pas encore d'évaluation
Mise en Place D'outils de Gestion de La Performance Des Services Biomédicaux
Document19 pages
Mise en Place D'outils de Gestion de La Performance Des Services Biomédicaux
Fassou Lamah
Pas encore d'évaluation
Racine Carree
Document6 pages
Racine Carree
Serigne saliou Dia
Pas encore d'évaluation
CENADI CHECK LIST - MP - v3.1.1
Document11 pages
CENADI CHECK LIST - MP - v3.1.1
Luc Gérard ENGOUTOU
Pas encore d'évaluation
Flyer
Document2 pages
Flyer
Kabb Kabb
Pas encore d'évaluation
Pascaline
Document4 pages
Pascaline
Tita D. Girondeau
Pas encore d'évaluation
Passation de Consignes Prise de Poste PDF
Document15 pages
Passation de Consignes Prise de Poste PDF
Audrey LASSY
Pas encore d'évaluation
L'internet Production
Document2 pages
L'internet Production
ADRAOUI MOULAY ABDELHAK
100% (2)
Doctorat Massim FinalFinal
Document99 pages
Doctorat Massim FinalFinal
Ninine
Pas encore d'évaluation
Algo Iteratif-2
Document19 pages
Algo Iteratif-2
Moulay Youssef Hadi
Pas encore d'évaluation
Etude Morphologique Du Couvercle
Document1 page
Etude Morphologique Du Couvercle
PERTUZON
Pas encore d'évaluation
TP 2 Repartie Banque
Document2 pages
TP 2 Repartie Banque
Majdi Boyka
100% (1)