Vous êtes sur la page 1sur 15

L’écosystème de Hadoop

Hadoop : HDFS+machine MapReduce+Yarn


Le reste c’est l’écosystème
http://www.illustradata.com/lecosysteme-hadoop/
L’écosystème minimal de Hadoop
Les 3 distributions open source de Hadoop
• CDH de Cloudera (Cloudera’s Distribution including Apache Hadoop)

• HDP de HortonWorks (Hadoop HortonWorks Platform) : formé en juin 2011 par


des membres de l’équipe Yahoo en charge du projet Hadoop.

En 2019, il y a eu fusion entre Cloudera et HortonWorks

• MapR fondée en 2009 par d’anciens membres de Google.

Catégori Outils Description


e
Collecte Sqoop Sqoop, abbréviation de
et SQL-to-Hadoop, est un
utilitaire de transfert des
importati données d’une base de
on des données relationnelle au
données HDFS et du HDFS aux
bases de données
relationnelles
Flume Un logiciel de collecte et Exp le fichier log d'un serveur internet
d’agrégation de fichiers contiendra : la date, l'heure, adresse IP
des visiteurs, le système d'exploitation
logs, destinés à être utilisé, le navigateur.
stockés et traités par
Hadoop. https://blog.ippon.fr/2019/06/17/extra
ire-la-data-des-reseaux-sociaux/
Kafka Une plateforme centralisée https://insatunisia.github.io/TP-
des échanges de données BigData/tp3/
De type publish-subscribe,
originellement développé Kafka est très rapide : 2 millions
chez LinkedIn, responsable d’écritures par second
du transfert de données
d’un ensemble applications
à un autre, de manière à
ce que les applications
puissent se concentrer sur
les données sans
s'inquiéter de la manière
de les partager ou de les
collecter.

Traiteme Hadoop
nt map-
distribué
reduce
des
données Spark
Storm Storm est un système de
calculs distribués dédié au (Un DAG Storm est similaire à un SDF
traitement des données avec plusieurs processeurs pour chaque
temps réel volumes acteur)
(steam de données) ; https://www.youtube.com/watch?v=qe
similaire à Spark mais fait PLLergwVM
pour le données de type https://www.youtube.com/watch?v=0m
streaming ; exp analyser IEUibjtzk
les activités d’un serveur
web.
Une application Storm est
conçue sous la forme
d'un graphe orienté
acyclique (DAG). Les arêtes
du graphe sont des flux
nommés et dirigent les
données d'un nœud à un
autre
Analyses Pig Un langage de script qui
et accès (yahoo) permet d’analyser les
au données en HDFS sans
être obligé de passer par
données l’écriture de tâche en Java
sur HDFS via le framework
MapReduce
Phoenix Un moteur de base de
données relationnel open
source, massivement
parallèle, supportant OLTP
pour Hadoop utilisant
Apache HBase comme
support de sauvegarde.
Essentially this is SQL for
NoSQL
Hbase An OLTP NoSQL
Accumul Think of it as a "highly
o secure HBase"

Hive An OLAP Data store .


(Facebo permet l’exécution de
requêtes SQL sur un cluster
ok)
Hadoop en vue d’analyser
et d’agréger les données
Druid An OLAP column-oriented,
distributed
data store
Big SQL Base de donnée
relationnelle pour big data
Solr Solr est un moteur de
recherche pour entreprises
qui va
permettre l’indexation de
fichiers ou de bases de
données. Il deviendra
alors possible d’effectuer
des recherches à travers
ces données.
HCatalog HCatalog permet
l’interopérabilité d’un
cluster de données
Hadoop avec des
systèmes externes.

HCatalog est un service de


management de tables et
de schéma des données
Hadoop

Cycle de Falcon Falcon gère de façon Utilisé par l’administrateur Hadoop


vie des centrale le cycle de vie des pour gérer le cycle de vie des données
données données, facilite leur sur Hadoop : sauvegarde, archivage,
et réplication rapide pour pipeline des traitements
gouverna garantir la continuité de
nce l'activité et la reprise après
incident. Cet outil fournit
également une base aux
audits et à la mise en
conformité grâce à la
traçabilité des différentes
entités et à la collecte de
journaux d'audit. des
données entre les
traitments
Atlas un framework permettant
la gouvernance et la
gestion de méta données
sur Hadoop. Il offre la
possibilité de classifier les
métadonnées, faire de la
recherche de source de
données, de sécuriser
l’accès aux données en
masquant des informations
par exemple
Sécurité Ranger Apache Ranger permet
une approche globale de la
sécurité pour les clusters
Hadoop : droits, d’accès,
groupes d’utilisateurs, etc.
Knox une passerelle applicative
permettant d’interagir, de
manière sécurisée, avec
les APIs REST et les
interfaces utilisateur d’un
ou plusieurs
clusters Hadoop

• Une intégration
forte avec les
systèmes
d’authentification
d’entreprise
(Microsoft Active
Directory, LDAP, K
erberos, etc.) ;

Ambari destiné à la supervision et à


Gestion l’administration de clusters
des Hadoop. C’est un outil web
clusters qui propose un tableau de
Hadoop bord. Cela permet de
visualiser rapidement l’état
d’un cluster
Cloudbr Un outil de gestion de
eak hadoop clusters sur le
cloud
Zookeep un système de Offre des mécanismes de
er synchronisation et de synchronisation pour le développement
coordination pour les d’une application distribuée. (à l’instar
applications distribuées de wait, notify pour les applis
multithreads centralisées)
Oozie un logiciel pour définir des
workflows : une collection
de flux de contrôle et
d'actions dans un Graphe
orienté acyclique.
Il est implémenté comme
une application Web Java
exécuté dans un conteneur
de servlets Java

Zeppelin Un notebook : Autre notebook : Jupyter


une interface web et
permettant d'analyser et
mettre en forme
simplement, de manière
visuelle et interactive, de
gros volumes de données
traités via le framework de
calcul distribué Spark
Kafka

Dans un système publish-subscribe, les messages sont stockés dans un "topic".


Contrairement à un système point à point, les consommateurs peuvent souscrire à un ou
plusieurs topics et consommer tous les messages de ce topic.
storm
Ozzie
Ambari GUI
Exemple type du potentiel des fichiers log : Les fichiers journaux des
serveurs Web.

Initialement, les fichiers log des serveurs Web comme Apache ou Microsoft IIS étaient l’option
par défaut pour enregistrer et traiter une erreur de processus. On a rapidement découvert que le
fichier journal d’un serveur Web contenait bien d’autres données importantes : des Informations
sur l’accessibilité et la popularité des sites Internet hébergés sur le serveur ainsi que les
données des utilisateurs comme :

• L’heure et date de consultation


• Le nombre de consultations
• La durée de la session
• L’adresse IP et le nom d‘hôte de l’utilisateur
• Les informations sur le client demandeur (en général le navigateur)
• Le moteur de recherche utilisé, dont les requêtes
• Le système d’exploitation utilisé

Une entrée classique d’un fichier log d’un serveur Web se présente comme ci-dessous:

183.121.143.32 - - [18/Mar/2003:08:04:22 +0200] "GET /images/logo.jpg HTTP/1.1" 200 512


"http://www.wikipedia.org/" "Mozilla/5.0 (X11; U; Linux i686; de-DE;rv:1.7.5)"
Exemple d’utilisation de l’API Search sous Tweepy.
fetched_tweets = api.search( query = "big data from:ippontech",
count = 100,
result_type="recent")

La requête retourne les tweets les plus récents provenant du compte @ippontech
contenant le mot clé big data

Vous aimerez peut-être aussi