Vous êtes sur la page 1sur 45

L.A.

Steffenel

MA0979 Sries
Temporelles
Cours 1 Introduction au BigData
M2 SEP
MA0979

Avant de dmarrer L.A. Steffenel

u Objectifs de ce cours
u Non-objectifs de ce cours
u Organisation
u Matriel de lecture
M2 SEP
MA0979

Objectifs L.A. Steffenel

u Comprendre les dfis du traitement massif de donnes


u Avoir des bases sur la conception et le dploiement d'applications BigData
u Notamment avec les applications du framework Hadoop
u Avoir des bases sur ce qui est une base de donnes NoSQL et o cette
technologie peut tre utilise
M2 SEP
MA0979

Non-objectifs L.A. Steffenel

u Matriser une technologie spcifique


u Big Data est plus quun logiciel, cest un domaine dactivit
u Matriser/comprendre les techniques statistiques lies au machine-learning
u Utiliser fond tous les outils disponibles
u On ne fera que survoler les plus importants
M2 SEP
MA0979

Organisation L.A. Steffenel

u 3 sances de 2h
u N'hsitez pas interrompre, poser des questions et demander plus
de dtails
u Surtout, on peut faire voluer les cours !
M2 SEP
MA0979

Ce quon verra ces trois jours L.A. Steffenel

u Introduction au big data (aujourdhui)


u Le paradigme Map-Reduce
u Programmation avec Hadoop
u Les bases de donnes NoSQL
M2 SEP
MA0979

Lecture L.A. Steffenel

u Big Data et Machine Learning : Manuel du data scientist


u P Lemberger, M Batty, M Morel, J-L Rafalli
u Dunod, 2015
u Hadoop : The Definitive Guide 3rd Edition
u T White
u OReilly, 2012
u MapReduce Design Patterns
u D Miner, A Shook
u OReilly, 2012
u MOOCs sur Coursera, Udacity, etc.
Cest quoi le Big Data
M2 SEP
MA0979

Avant le Big Data L.A. Steffenel

u Calcul rpartie et HPC


u Effort concentr sur les problmes calcul intensive
u Le rseau ntant pas si performant, on vitait de faire des transferts de donnes
M2 SEP
MA0979

Avant le Big Data L.A. Steffenel

u Calcul rpartie et HPC


u Effort concentr sur les problmes calcul intensive
u Le rseau ntant pas si performant, on vitait de faire des transferts de donnes
u Bases de donnes
u Le modle relationnel sest impos dans les annes 80
u Donnes structures (tableaux), formes normales

u Trs forte optimisation des SGBD


u Bases de donnes fdres : trop difficile
M2 SEP
MA0979

Avant le Big Data L.A. Steffenel

u Calcul rpartie et HPC


u Effort concentr sur les problmes calcul intensive
u Le rseau ntant pas si performant, on vitait de faire des transferts de donnes
u Bases de donnes
u Le modle relationnel sest impos dans les annes 80
u Donnes structures (tableaux), formes normales

u Trs forte optimisation des SGBD


u Bases de donnes fdres : trop difficile
u Data mining
u Mthodes statistiques pour lextraction des connaissances
u Dabord un modle, qui sera ensuite valid
u Echantillonnage des donnes pour tenir dans la mmoire
M2 SEP
MA0979

Big Data : quelques chiffres L.A. Steffenel

u Chaque jour, nous gnrons 2,5 trillions doctets de donnes


u 90% des donnes dans le monde ont t cres au cours des dernires annes
u Sources:
u Capteurs utiliss pour collecter les informations climatiques, de trafic,
consommation
u Smart cities, Internet des Objets (IoT)

u Messages sur les mdias sociaux


u Images numriques et vidos publies en ligne
u Enregistrements transactionnels dachat en ligne
u Signaux GPS de tlphones mobiles
u ...
M2 SEP
MA0979

Un autre regard sur linformatique L.A. Steffenel

u Laccumulation et la capacit de traiter les donnes a cre une rvolution


dans notre vie courante
u Services de recommandation
u Rseaux sociaux
u ...
u Les entreprises ont rapidement reconnu lintrt
u Des recherches plus pertinentes
u Meilleur ciblage des publicits
u Analyse et prdiction des tendances du march
u Une relation plus personnelle avec les clients
u Plus de ractivit
u Ct client, il y a surtout des services qui rendent la vie plus simple
M2 SEP
MA0979

Des nouveaux mtiers (ou pas) L.A. Steffenel

u Le mtier la mode est le Data Scientist


u Quelquun capable de transformer les donnes en information utile
u Cest la fois un nouveau mtier et un recueil de professions dj existantes :
u Spcialiste TI Il faut savoir grer et transformer les donnes
u Geek/Hacker il faut savoir programmer, paramtrer et dployer des outils
(souvent sous Linux)
u Spcialiste HPC le paralllisme est une cl de la russite
u Statisticien il faut savoir utiliser des mthodes mathmatiques pour classifier,
regrouper et analyser linformation
u Gestionnaire il faut tre capable dindiquer les objectifs et de reconnatre la
valeur dune information
M2 SEP
MA0979

Intersection de savoirs L.A. Steffenel

Drew Conways Data Science Venn Diagram

4/28/13 Bill Howe, UW 3


M2 SEP
MA0979

Pourquoi pas avant L.A. Steffenel

u Le prix du matriel a chut sensiblement

u Les grands acteurs (Google, Facebook, Yahoo, Amazon, ...) ont dvelopp des
outils pour stocker et explorer ces donnes
u Framework Hadoop
u Bases de donnes NoSQL
M2 SEP
MA0979

La Frontire du BigData L.A. Steffenel

u Rgle gnrale, on considre du BigData quand le traitement devient trop


long pour une seule machine

~116 jours
M2 SEP
MA0979

Les trois V du BigData L.A. Steffenel

u Volume (Volume)
u Volumes de donnes croissants de tous types, qui se comptent en
traoctets ou mme en ptaoctets
u Varit (Variety)
u Grer la complexit de plusieurs types de donnes et de schmas
structurs ou non structurs
u texte, donnes de capteurs, son, vido, logs, ...
u Vitesse (Velocity)
u Parfois, les donnes doivent tre saisies et traites au fur et mesure de
leur collection
M2 SEP
MA0979

Volume L.A. Steffenel

u Le prix de stockage a beaucoup diminue


u Des solutions de stockage fiables sont nombreuses
u SAN (Storage Area Networks)
u Stockage sur le cloud (Amazon S3)
u Comment dterminer les donnes qui mritent dtre stockes?
u Transactions? Logs? Mtier? Utilisateur? Capteurs? Mdicales? Sociales?
u Aucune donne nest inutile (juste pas encore servies)
M2 SEP
MA0979

Varit L.A. Steffenel

u Les bases de donnes ou entrepts de donnes imposent souvent un


format prdfini
u La plupart des donnes existantes sont non-structures ou semi-
structures
u Donnes sous plusieurs formats et types
u On veut tout stocker
u Certaines donnes peuvent paratre obsoltes mais peuvent tre utiles
pour certaines dcisions
u Ex : Transport de marchandises quel camion choisir ?
u Donnes GPS, plan de livraison du camion, circulation, chargement du
camion, niveau de combustible, horaires de travail du conducteur
M2 SEP
MA0979

Vitesse L.A. Steffenel

u Rapidit darrive des donnes


u Vitesse de traitement
u Les donnes doivent tre stockes larrive, parfois mme des
teraoctets par jour
u Exemple
u Il ne suffit pas de savoir quel article un client a achet ou rserv
u Si si on sait que vous avez passe plus de 5mn consulter un article dans
une boutique dachat en ligne, il est possible de vous envoyer un email
ds que cet article est sold
M2 SEP
MA0979

Attention L.A. Steffenel

u Tout nest pas dans le Cloud


u Trs pratique pour avoir des ressources
u Surtout pour renforcer le paralllisme et le stockage
u Ex : grep
u 1MB en <1 seconde
u 1GB en <1 minute
u 1 TB en 2 jours
u 1 PB en 3 annes

u Mais le rseau (dbit de transfert) reste une barrire


u 1 MB en 1 seconde
u 1 GB en < 1 minute
u 1 TB en 1 jour ( 100Mbit/s, ou 2h30 1Gbit/s)
u 1 PB en 100 jours ( 1Gbit/s)
M2 SEP
MA0979

Le BigData lintersection des 3V L.A. Steffenel

Google : 25 ptaoctets/jour
1.3 exaoctets sur mobiles
Youtube : 20h uploads/min
...
VOLUME

VARIETE VITESSE

Mdias sociaux
Internet des Objets 2.9 M emails/sec
Documents non structurs Amazon:72,9 achats/s
Vidos et voix 50M tweets/jour
... ...
M2 SEP
MA0979

Sources de donnes L.A. Steffenel


M2 SEP
MA0979

Des capteurs partout ? L.A. Steffenel

u Trackeur dactivit
u Positionnement GPS avec le Tlphone
(+ pression, temprature, luminosit)
u Domotique
M2 SEP
MA0979

La question sur la vie prive L.A. Steffenel

u Somme-nous en train de repousser ces barrires ?

photo in public domain


M2 SEP
MA0979

Donnes vs Information L.A. Steffenel

u Une grande base de donnes et des ressources de calcul ne suffisent pas


garantir le succs dune entreprise
u Ex : un moteur de recherche
u Il y a 20 ans, chaque mot cl rajout faisait apparatre plus de liens (lhorreur!!!)
u Une petite rvolution est apparue avec les expressions ET , OU , NON
u Maintenant, il faut assurer la pertinence de la rponse: 80% de la rponse attendue
est dj dans la tte du client
u Les systmes doivent sadapter lusage, autant par lanalyse
environnementale (context-awareness) que par lanalyse comportementale
u Extraire de linformation PERTINENTE est devenu le vrai dfi du BigData
u Ct business, on parle souvent de savoir reconnatre son ROI
M2 SEP
MA0979

Les deux V supplmentaires L.A. Steffenel

u Vracit (Veracity)
u La qualit et la prcision des donnes sont aussi importantes
u Comment se trouver dans un dluge de hashtags ?
u Comment grer les donnes partielles ou incompltes ?

u Valeur (Value)
u La valeur ajoute des donnes ou des informations extraites
u Sans une relle valeur, ce nest quun gaspillage de ressources
M2 SEP
MA0979
Ce qui change dans le cycle de dveloppement L.A. Steffenel

u Approche traditionnelle le systme est cre selon une demande


u Approprie pour :
u
Approche Traditionnelle
Des donnes structures
10

u Oprations et processus rptitifs


Les besoins mtier guident la conception de la solution
u Sources relativement stables 1

u Besoins bien compris et bien cadrs Le responsable mtier dfinit les besoins :
Quelles questions doit-on poser?

4 2
De nouvelles exigences
ncessitent une IT conoit une
nouvelle conception et solution avec un
construction ensemble de
structures et
fonctionnalits

3
Le responsable mtier excute
les requtes pour rpondre aux
questions encore et encore
M2 SEP
MA0979
Ce qui change dans le cycle de dveloppement L.A. Steffenel

u Approche
Approche Big
Big Data les Data
donnes sont l, il faut les explorer
12
u Les sources guident la dcouverte
Les sources dinformation guident
1 la dcouverte crative

Le responsable mtier et IT
identifient les sources de
donnes disponibles

4
2
IT fournit une
plateforme qui
De nouvelles ides permet une
conduisent exploration
lintgration de crative de toutes
technologies les donnes
traditionnelles disponibles
3

Le responsable mtier dtermine les


questions poser en explorant les
donnes et relations entre elles
M2 SEP
MA0979

La pile Big Data L.A. Steffenel


Hadoop et la Rvolution Map-Reduce
M2 SEP
MA0979

Cest quoi Map-Reduce L.A. Steffenel

Map-Reduce : Exemple 15
u Patron darchitecture de dveloppement permettant de traiter des donnes
volumineuses de manire parallle et distribue
!
u Dean et al., 2004 Livre
Imaginons que vous ayez plusieurs
! Grand tes!
en
des V
magasins que vous grez travers le
u Au lieu de parcourir le fichier squentiellement,
monde
il est divise en
morceaux qui sont parcourus en parallle
! Un trs grand livre de comptes
contenant TOUTES les ventes
u Exemple
!Objectif : Calculer le total des ventes
u Vous ayez plusieurs magasins que vous magasinpour
par grez travers
lanneleenmonde
cours
! Supposons que les lignes du livres aient
u Un trs grand livre de comptes contient TOUTES
la forme les ventes
suivante: 2012-01-01 London Clothes 25.99
2012-01-01 Miami Music 12.15
o Jour Ville pour
produit 2012-01-02 NYC Toys 3.10
u Objectif : Calculer le total des ventes par magasin lanne Prix
en cours 2012-01-02 Miami Clothes 50.00

u Supposons que les lignes du livres aient la forme suivante:


u Jour Ville produit Prix
M2 SEP
MA0979

Mthode traditionnelle L.A. Steffenel

u Possibilit :
Map-Reduce : Exemple
u Pour chaque entre, saisir la ville et le prix de vente 16
u Si on trouve une entre avec une ville dj saisie, on les regroupe en
faisant la somme des ventes re !
Liv
Grand ntes!
V e
des
u Dans un environnement traditionnel, on fera des Hashtable sous la forme
! Possibilit :
<cl-valeur>
o Pour chaque entre, saisir la ville et le

emple o
prixudeDans
16
ventece cas, la cl sera ladresse du magasin et la valeur le total de ventes
Si on trouve une entre avec une ville
2012-01-01 London Clothes 25.99
dj saisie, on les regroupe en faisant
2012-01-01 Miami Music 12.15
la somme des ventes
2012-01-02 NYC Toys 3.10
! Dans un environnement Livre de calcul
! 2012-01-02 Miami Clothes 50.00
Grand ntes!
traditionnel, on utilise
des V gnralement
e

des Hashtables, sous forme de:

et le Clef Valeur
! Dans notre cas, la clef serait ladresse London 25.99 London 25.99
du magasin, et la valeur le total des Miami 12.15 Miami 62.15
e ville
ventes. 2012-01-01 London NYC
Clothes 25.99 3.10 NYC 3.10
isant
Map-Reduce : Exemple
M2 SEP
MA0979

Mthode traditionnelle
!
! Si on utilise les hashtables sur 1To, Livre
Grand ntes!
e
L.A. Steffenel
Problmes ? des V

Map-Reduce : Exemple
a ne marchera pas ?
Problme
Si on utilise les hashtables
u
$

de mmoire
sur 1To,
$ ?
quels sont les problmes ?
17
Temps de traitement long ?
$
q a ne marchera pas ? 2012-01-01 London Clothes 25.99
$ Rponses errones ?
! 2012-01-01 Miami Music 12.15
Si on utiliseqles hashtables
Problme sur 1To,
de mmoire ? Livre
Grand ntes!
! Le traitement squentiel de toutes
des V
e les 2012-01-02 NYC Toys 3.10
Problmes ? donnes peut savrer trs long
q Temps de traitement long ? 2012-01-02 Miami Clothes 50.00
$ a ne marchera pas ?
! Plus
q Rponses errones ? on a de magasins, plus lajout des
Problme de mmoire ? valeurs la table est long
$
u Le traitement squentiel peut savrer long

$ ! Il?est possible de tomber court de
Temps de traitement long
mmoire
u Plus on a de magasins, plus pour enregistrer
lajout cette
des valeurs table
la table estLondon
2012-01-01 long Clothes Clef
25.99 Valeur
$ Rponses errones ?
! Mais cela peut marcher, et le 2012-01-01
rsultat Miami Music 12.15
London 25.99
u Il est possible de
Le traitement squentiel de tomber
toutes court
les de mmoire pour enregistrer
2012-01-02 NYC Toys 3.10
sera correct Miami 62.15
donnes cette
peut table
savrer trs long 2012-01-02 Miami Clothes 50.00
NYC 3.10
Plus onua Mais cela peut marcher,
de magasins, et le
plus lajout desrsultat sera correct
valeurs la table est long
Il est possible de tomber court de
mmoire pour enregistrer cette table Clef Valeur
Mais cela peut marcher, et le rsultat London 25.99
sera correct Miami 62.15
M2 SEP
MA0979

Map-Reduce
Map-Reduce : Exemple 18
L.A. Steffenel

u Map-Reduce : Moyen plus efficace et rapide de traiter ces donnes Mappers

Map-Reduce : Exemple
! Map-Reduce : Moyen plus efficace et
u Au lieu davoir une seule personne qui parcourt le livre, si on en recrutait
rapide de traiter ces donnes
plusieurs?
18
u ! Au lieu
Appeler davoir
un premier une seule
groupe personne
les Mappers et qui
parcourt
un autre le livre, si on en recrutait
les Reducers Mappers
! Map-Reduce
plusieurs? : Moyen plus efficace et
u
rapidelede
Diviser livre en plusieurs
traiter parties, et en
ces donnes
! Appeler
donner un premier
une chaque Mappergroupe les
! Au lieu davoir
Mappers et une
un seuleles
autre personne qui
u Les Mappers peuvent travailler enReducers
mme temps,
parcourt le livre, si on en recrutait
chacun sur unelepartie
! Diviser desplusieurs
livre en donnes parties, et en
plusieurs?
donner une chaque Mapper
! Appeler un premier groupe les
o Les Mappers peuvent travailler en
Mappers et un autre les Reducers
mme temps, chacun sur une partie
! des
Diviser le donnes
livre en plusieurs parties, et en
donner une chaque Mapper
o Les Mappers peuvent travailler en
mme temps, chacun sur une partie Reducers
des donnes
M2 SEP
MA0979
Map-Reduce : Exemple
Map-Reduce L.A. 19
Steffenel

Mappers
u Mappers Mappers :
Pour chaque entre, saisir la ville, et le total
!
des ventes
u Pour chaque entre, saisiretla
lesville
enregistrer dansde
et le total une fiche dans
ventes
une fiche ! Rassembler les fiches du mme magasin dans
une mme pile
u RassemblerReducers
les fiches: dun mme magasin dans une pile N.Y.C. Miami N.Y.C. L. A. Miami N.Y.C
u Reducers ! Chaque Reducer sera responsable dun
L. A.
ensemble de magasins
u Chaque reducer sera responsable
! Ils collectent dun
les fiches qui ensemble de magasins
leur sont associes
des diffrents Mappers
u Collectent les fiches associes des diffrents mappers
Ils regroupent les petites piles dune mme
!
ville en
u Pour chaque ville, ils une seule les piles en ordre
parcourent N.Y.C
alphabtique Ils parcourent
! (Los ensuite
Angeles avant chaque
Miami) pile par
et font ordre
la somme Miami L. A.
alphabtique des villes (L.A avant Miami), et
des enregistrements N.Y.C
font la somme de lensemble des
enregistrements Miami L. A.
N.Y.C
Reducers $603.768
$300,578 $432.900
M2 SEP
MA0979
Map-Reduce : Exemple
Map-Reduce L.A. 19
Steffenel

Mappers
u Mappers
Un Reducer reoit des: donnes comme suit :
! Pour chaque entre, saisir la ville, et le total
u L.A 12.34 des ventes et les enregistrer dans une fiche
u L.A 99.07 ! Rassembler les fiches du mme magasin dans
une mme pile
u NYC 3.14 Reducers : N.Y.C. Miami N.Y.C. L. A. Miami N.Y.C
u NYC 99.77 ! Chaque Reducer sera responsable dun
ensemble de magasins L. A.
u NYC 88.99
! Ils collectent les fiches qui leur sont associes
u Pour chaque des diffrents
entre, de quoiMappers
avons-nous besoin pour calculer
la totalit des!ventes pour chaque
Ils regroupent magasin?
les petites piles dune mme
ville en une seule N.Y.C
q Cot prcdent
! Ils parcourent ensuite chaque pile par ordre
Miami L. A.
alphabtique des villes (L.A avant Miami), et N.Y.C
q Cot en coursfont la somme de lensemble des
enregistrements Miami L. A.
q Ventes totales par magasin N.Y.C
Reducers $603.768
q Magasin prcdent $300,578 $432.900

q Magasin en cours
M2 SEP
MA0979

Hadoop et Map-Reduce L.A. Steffenel

u Projet lanc en 2008 suite des dveloppements chez Google, Yahoo! et


Apache
u Le projet Hadoop consiste en deux grandes parties:
u Stockage des donnes : HDFS (Hadoop Distributed File System)
u Traitement des donnes : MapReduce
u Principe :
u Diviser les donnes
u Les sauvegarder sur une collection de machines (cluster)
u Traiter les donnes directement la ou elles sont stockes, plutt que de les copier
partir dun serveur distribue

u Il est possible dajouter des machines votre cluster au fur et mesure que
les donnes augmentent
M2 SEP
MA0979

Big Data et Hadoop L.A. Steffenel

Hadoop, HDFS et MapReduce 3

NN

HDFS
Big Data Donnes Utiles
DN
DN
Donnes Utiles

DN
DN

DN
DN

Copie du local Copie vers le local


MAP REDUCE
M2 SEP
MA0979
Ecosystme de Hadoop
Ecosystme Hadoop 4
L.A. Steffenel

u MapReduce utilise des langages de programmation


! MapReduce utilise des langages de
pour traiter les donnes Hue Oozie
programmation pour traiter les
donnes
u Java, Ruby, Python...
o Java, Ruby, Python Mahout
u Plusieurs outils facilitant le travail
u Au dessus du MapReduce : langage
! Plusieurs haut niveau
outils facilitant le travail
traduit plus tard en Mappers et Reducers
Pig Hive Sqoop
u PIG : script simple
! Au dessus du MapReduce : langage
plus simple traduit plus tard en
u Hive : requetes SQLMappers et Reducers Flume
M-R Impala HBase
o PIG : script simple
o Hive : requtes SQL
HDFS
M2 SEP
Ecosystme de Hadoop 5
MA0979

Ecosystme Hadoop L.A. Steffenel

u Les jobs MapReduce


! peuvent prendre beaucoup
Les jobs MapReduce peuvent de Oozie
prendre Hue
temps pour sexcuter sur debeaucoup de temps pour
larges quantits
sexcuter sur de larges quantits
de donnes de donnes Mahout
u Autres projets pour simplifier
o Autres projets pour simplifier

! Impala :
u Impala :
Extraction des donnes directement
o
u Extraction des donnes partir de HDFS avec SQL Pig Hive Sqoop
o Optimis pour les requtes faible
u Optimise pour les requtes faible latence
latence
Flume
u Requtes plus rapides
o que Hive plus rapides que Hive
Requtes M-R Impala HBase

! HBase :
u HBase :
u
o
Base de donnes temps rel
Base de donnes temps rl HDFS
M2 SEP
Ecosystme de Hadoop 6
MA0979

Ecosystme Hadoop L.A. Steffenel

! Connexion du HDFS partir doutils


u Connexion du HDFS partir doutils externes
externes Oozie
Hue
u Sqoop : ! Sqoop :
Prend les donnes partir dune
o Mahout
u Prend les donnes partir dune
base debase de donnes
donnes traditionnelle, et
traditionnelle et les met dans HDFS
les met dans HDFS, comme tant
des fichiers dlimits, pour tre
u Enregistre les donnes commetraites avec
tant desdautres
fichiersdonnes
dlimits,
dans le cluster Pig Hive
pour tre traites avec dautres donnes dans le cluster Sqoop

u Flume : Flume :
! Flume
u Systme distribue permettant de collecter,
o Systme regrouperde
distribu permettant
M-R Impala HBase
collecter, regrouper
et dplacer efficacement un ensemble de donnes et dplacer
efficacement un ensemble de
(des logs) partir de plusieurs sources
(desvers
logs)le HDFSde
donnes partir
plusieurs sources vers le HDFS
HDFS
M2 SEP
MA0979
Ecosystme de Hadoop 7
Ecosystme Hadoop L.A. Steffenel

! Hue :
u Hue : Front-end graphique pour le cluster o Fournit
Front-end graphique pour le cluster
Oozie
o

Fournit Hue
u Un navigateur pour HDFS et HBase
o

" Un navigateur pour HDFS et HBase

u Des diteurs pour Hive, Pig," Impala etpour


Des diteurs Sqoop
Hive, Pig, Impala et Sqoop Mahout
! Oozie :
u Oozie : o Outil de gestion de Workflow
o Permet de grer les jobs Hadoop
u Outil de gestion de Workflow
! Mahout : Pig Hive Sqoop
u Permet de grer les jobs Hadoopo Bibliothque dapprentissage automatique
o Permet de :
u Mahout : Bibliothque dapprentissage automatique Flume
Dterminer des lments
" quun utilisateur
pourra apprcier selon son comportement M-R Impala HBase
u Permet de : " Grouper des documents
" Affecter automatiquement des catgories aux
documents
u Dterminer des lments quun utilisateur pourra HDFS
apprcier selon son comportement
u Grouper des documents
u Affecter automatiquement des catgories aux documents
M2 SEP
MA0979

Que faut-il pour installer Hadoop ? L.A. Steffenel

u On peut tlcharger Hadoop directement partir du site dApache, ou bien


des distributions de certains diteurs logiciel (Cloudera, HortonWorks, etc).
u Si vous tes intresss, une machine virtuelle pr-configure est disponible
ladresse suivante

u http://cosy.univ-reims.fr/~lsteffenel/cours/Master2/INFO0939-
BigData/vm4learning.ova