Vous êtes sur la page 1sur 38

Ministre de lEnseignement Suprieur et de la Recherche Scientifique Ecole Nationale Suprieure Dinformatique

Master de Recherche Option: SI

Thme : Les technologies Big data


Ralis par:
Kouicem Amine Zeggari Nabil
20/03/2013

Encadr par:
Mme. F. Nader

Table de matire:

1. Introduction ..03
2. Le concept Big data06 3. La technologie NoSQL/ NewSQL..13 4. La technologie Hadoop ..........................................22 5. Architecture du Big data.27 6. Les approches du Big Data28 7. Perspective de recherche.....34

8. Rfrences bibliographiques35

1. Introduction
La masse des donnes dans le monde augmente de jour en jour:
1800 exaoctets en 2011. (Gartner, 2011) 35 000 exaoctets en 2020 (Prvision par IBM)

250 Milliards de-mails envoys/jour. (Radicati Group, 2009)


80% de linformation est non-structure (Forrester, 2011) 95% de linformation est non-exploite (Forrester, 2011)

1. Introduction
Facebook: 900 millions dutilisateurs. 250 millions de photos uploades/jour. 2,7 milliards de Like /jour. Twitter: Plus de 465 millions de comptes. 175 millions de tweets/jour. Youtube: 2 milliards de vues/jour. 72h de vidos dposes/ minute.

Dans les rseaux sociaux:

http://tepbigdata.blogspot.fr/ 2012 consult le 17/02/2013

5
2000 1800 1600 1400 1200 1000 800 600 400 200 0

1. Introduction
xaoctets

Volume des donnes

Annes

2005

2006

2007

2008

2009

2010

2011

Lvolution des donnes et la capacit de stockage dans le monde (Source: IDC, 2011)

2. Le concept Big data 2.1 Dfinition du Big data (partie 1)

le concept Big Data fait rfrence aux ensembles de donnes dont la taille dpasse celle des ensembles de donnes que les outils de bases de donnes traditionnels peuvent collecter, grer et traiter dans un dlai acceptable .

http://www.mckinsey.com/ consult le 17/01/2013

2. Le concept Big data 2.1 Dfinition du Big data (partie 2)

Les technologies Big data dcrivent une nouvelle gnration de technologies et d'architectures dans la gestion de donnes, conu pour extraire de la valeur conomique partir de trs grands volumes et varits de donnes, en

capturant, en traitant et en analysant grande vitesse .

http://www.idc.com/ consult le 20/01/2013

2. Le concept Big data


Gense Les grands acteurs de la toile dveloppent des outils de traitement et lanalyse des donnes massives non structures
Google PageRank (1996)

2.2. un peu dhistorique.


Dveloppement Stockage et traitement distribu et dissmination de recherche effectues par Google et consorts
Google

Dissmination Dveloppement dun systme de solution ddies Application dans dautres secteurs
Couch Base (2011)

Dmocratisation Algorithme dapprentissage statistique et modles de prdiction tirant parti des architectures distribu

Phnomne Big data (internet)

Phase

Google Adwords MapReduce (2000) (2004)

Criteo 2005 Apache Hadoop launch (2007) 2008

?
2015-2020

Innovation technique

1995-2000

2000-2005

2005-2010

2010-2015

Chronologie du Phnomne Big data. [E. Bellity, 2012]

2. Le concept Big data

2.3. Caractristiques du Big data


voluent des traoctets aux zettaoctets.

Types des donnes multiples et htrognes (image, vido, texte, etc.), provenant dune varit de sources sans cesse daccroitre.

La visualisation doit tre claire et touche toutes les donnes.

Rapidit de traitement de flux continus de donnes, et transfert de donnes grand volume.


https://blogs.oracle.com consult le 15/01/2013

10

2. Le concept Big data

2.4. lorigine des donnes du Big data (partie 1)

Les avancements technologiques


Lautomatisation des systmes Les exigences rglementaires La multiplication des machines Les solutions de Business Intelligence Les centres de recherche

http://www.journaldunet.com consult le 14/02/2013.

11

2. Le concept Big data

2.4. lorigine des donnes du Big data (partie 2)


Rsultats danalyse pour le dcisionnel

BDD

DW

Exploiter & Analyser

Les donnes et les rsultats attendue du Big data

12

2. Le concept Big data


2.5. Conclusion
De nouvelles solutions de stockage de masse Innovations technologiques dans les outils de restitution

Arrive de nouvelles sources de donnes (Open Data, Web, etc.)


Capture de linformation en temps rel
Big data

Des outils fonctionnalits toujours plus nombreuses

Des nouvelles approches dans la visualisation des donnes

Le contexte du Big data (Oprationnel et BI)

13

3. La technologie NoSQL/ NewSQL

3.1. Le thorme CAP (ric Brewer en 2000 )

Ce thorme est dmontr par Seth Gilbert et Nancy Lych en 2002., montre qu'il est impossible pour un systme de donnes distribu de garantir les trois proprits suivantes simultanment:

A
SGBDR: Oracle, MS SQL Server, MySQL, etc.

Availibility

Cassandra, CoucheDB, etc.

Consistency

BigTable, Neo4J, MongoDB, Partition tolerance Redis, etc.

Cohrence: tous les clients du systme voient les mmes donnes au mme instant. Disponibilit: dsigne quun systme est dit disponible si toute requte reue par un nud retourne un rsultat. Tolrance la partition: les donnes peuvent tre partitionnes.
[M. Dimaglie, 2012]

14

3. La technologie NoSQL/ NewSQL


3.2. Dfinition du NoSQL

Le NoSQL (Not Only SQL) est un terme utilis pour dcrire une classe de systmes de
gestion de base de donnes qui se distinguent aux SGBD relationnelles : Elle nutilise pas SQL comme moyen dinterroger les donnes.

La base de donnes repose sur une architecture distribue.


Elle permet le traitement dun gros volume de donnes. Elle a une meilleure rsistance aux pannes.

[J. Hamelin, 2012]

15

3. La technologie NoSQL/NewSQL 3.3. Dfinition du NewSQL

Les bases de donnes NewSQL ont vu le jour en 2012 et se caractrisent par: Respecter le modle de bases de donnes relationnelles. Les bases NewSQL respectent le modle ACID et utilisent SQL. La plupart sont optimises pour effectuer de grands nombres de

transactions et pour effectuer des requtes rptitives et proposent


souvent un systme dindexation optimis.

[M. Brard.,al , 2012] [S. Fermigier, 2012]

16

3. La technologie NoSQL/ NewSQL

3.4. Les types de bases de donnes NoSQL (partie 1)

Dans le sphre du NoSQL, il existe une

Volume des donnes

Cl-Valeur Colonne Document Graphe

diversit dapproches classes en quatre


catgories: les bases de donnes cl-valeur, orientes colonne, orientes document, et les bases de donnes orientes graphes.

Complexits des donnes

Les diffrents types de bases NoSQL. [M. Brard., al, 2012]

17

3. La technologie NoSQL/ NewSQL

3.4. Les types de bases de donnes NoSQL (partie 2)

3.4.1. Base des donnes Cl-Valeur: Cest le modle

le plus simple qui associe une cl a une seule valeur de type


BLOB, La cl peut tre aussi une adresse, un lien vers une ressource. Il est particulirement adapt au systme de cache et offre un accs trs rapide aux donnes. Exemple: Redis (REmote DIctionary Server).

Cl 1

Valeur 1 Valeur 2

Cl 2

. . .
Cl n

BDD Cl-Valeur
[M. Brard., al, 2012]

18

3. La technologie NoSQL/ NewSQL

3.4. Les types de bases de donnes NoSQL (partie 3)

3.4.2. Base des donnes orient colonne: La valeur est dcompose en colonne et sapparente davantage une liste. les colonnes peuvent tre diffrentes dune ligne lautre. Exemple: Cassandra dveloppe par Facebook pour
Cl
Colonne 1: valeur Colonne 1: valeur Colonne 1: valeur

la messagerie des utilisateurs, depuis 2008 elle est


devenue open-source. BDD oriente colonne
[M. Brard., al, 2012]

19

3. La technologie NoSQL/ NewSQL

3.4. Les types de bases de donnes NoSQL (partie 4)

3.4.3. Base des donnes orient document:


Est une volution des bases de donnes cl-valeur mais La valeur stocke est un document (XML, Html, texte, etc.). Ce modle est tout fait adapt Cl 1 lindexation Web comme le fait Google ou la gestion
1 Titre1 Comment 1 Comment 2

documentaire.
Exemple: CouchDB est une solution dveloppe par Damien Katz en 2005. Depuis 2008, ce dernier l'a
Cl 2

Titre 2

Image

transforme en projet Apache.

BDD oriente document


[M. Brard., al, 2012]

20

3. La technologie NoSQL/ NewSQL

3.4. Les types de bases de donnes NoSQL (partie 5)

3.4.4. Base des donnes graphe: Les bases orients graph sont conues

pour manipuler des donnes lies par des relations plus ou moins complexes. Elles
trouvent leur application en gnral dans les rseaux sociaux. Exemple: Neo4J est dveloppe par NeoTechnology. La premire version est sortie en 2010.

BDD oriente graphe


[M. Brard., al, 2012]

21

3. La technologie NoSQL/ NewSQL


3.5. Conclusion
Redis CouchDB
Document Apache Nuds indpendants Erlang Visualisation des documents Se complexifie avec son volution

Cassandra
Colonne Apache Nuds indpendants Java Evolutivit facile

Neo4J
Graphe GPL Matre / Esclave Java Permet d'avoir des donnes avec beaucoup de relations Respect des proprits ACID Impossible de partager les donnes entre plusieurs serveurs. Rseau social CP

Type Licence Architecture Dvelopp en Avantage

Cl-Valeur BSD Matre / Esclave C/C++ Base de donnes en Mmoire Taille de la mmoire

Inconvnient

Intgrit gre depuis le client Collecte de donnes en temps rel AP

Collecte de donnes CRM / CMS Exemple en temps rel dutilisation AP Repense au CAP CP

Tableau comparatif entre les quatre types de base NoSQL [L. Heinrich, 2012]

22

4.La Technologie Hadoop


4.2. Dfinition

Hadoop est un projet de Apache incluant des implmentations open source


dun systme de fichiers distribus et du modle MapReduce. Il a t inspir des projets de Google: GFS et MapReduce. Lcosystme Hadoop inclut aussi des projets comme Apache Pig, Hbase et ZooKeeper.

[D. Borthakur.,al, 2011]

23

4.La Technologie Hadoop

4.3. HDFS -Hadoop Distributed File System-(Partie 1)

Cest un systme spcialis dans la sauvegarde de grosse masses de donnes

travers des systmes dordinateurs distribus avec un grand dbit et de multiples


rplications dans un cluster. Il tolre beaucoup derreurs et btie pour tre dploy dans des machines cout rduit.

[D. Borthakur.,al, 2011] [J. Nilsson, 2011] [A.S. Talwalkar, 2011]

24

4.La Technologie Hadoop

4.3. HDFS -Hadoop Distributed File System-(Partie 2)

Primary Name node

Sauvegarder ltat du Name node

Secondary Name node

1 2 Data node 1 2 Data node 2

Data node 3

illustrant le systme de fichiers d'Hadoop : HDFS [M. Brard., al, 2012]

25

4.La Technologie Hadoop

4.4. MapReduce (partie 1)

Cest un langage de programmation pour l'analyse des ensembles de masses

de donnes extrmement importantes d'une manire rapide, volutive et


distribue. il a t adapt d'une manire pouvoir fonctionner sur un cluster de machines faible cot.

[J. Nilsson, 2011] [A.S. Talwalkar, 2011]

26

4.La Technologie Hadoop


Split
Clou Canne cage

4.3. MapReduce (partie 2)


Map
Clou, 1 Canne, 1 Cage, 1 Cage, 1 Mare, 1 Mare,1 Clou, 1 Mare, 1 Cage, 1

Shuffle

Reduce
Clou, 2

Clou, 1 Clou, 1

Input
Clou Canne cage Cage mare mare Clou mare cage Cage mare mare

Canne, 1 Cage, 1 Cage, 1 Cage, 1

Canne, 1

Output
Clou, 2 Canne, 1 Cage, 3 Mare, 3

Cage, 3

Clou mare cage

Mare, 1 Mare, 1 Mare, 1

Mare, 3

Exemple du modle MapReduce [M.V. Groningen, 2009]

27

4.La Technologie Hadoop


4.4. Conclusion
Couche MapReduce Couche HDFS Hadoop Namenode JobTracker

NameNode

TaskTracker Couche MapReduce Couche HDFS Reduce


Map

TaskTracker Reduce
Map

DataNode Hadoop Datanode

DataNode Hadoop Datanode

Le principe de fonctionnement de Hadoop [A. Jain, 2011]

Applications BI et outils de visualisation

Donnes non structures

NoSQL Bas sur Hadoop

NoSQL
(Non Hadoop)

SGBDR

DW

Donnes structures

ETL et outils dintgration

Gestion des flux

Outils systme

Architecture dun systme du Big data

http://www.karmasphere.com/ consult le 13/02/2013

Sauvegarde et gestion

Hadoop (MapReduce & HDFS)

Traitement et Analyse

28

5. Larchitecture du Big data

29

6. Les approches du Big data


6.1. Approches NoSQL

Donnes non structures

Chukwa

Hadoop, MapReduce, HDFS

Donnes structures

Flume

Sqoop

Source de donnes

Intgration de donnes

Base de donnes NoSQL

Architecture dune solution bas sur Hadoop et NoSQL [A. Brust, 2012]

30

6. Les approches du Big data


6.2. Approche Hybride

Donnes non structures

Hadoop et NoSQL Base de donnes MPP

Donnes structures

ETL et outils dintgration

Acclration matriel

Donnes Massives Architecture dune solution Hybride du Big data

Big data

http://www.precodata.com consult le 12/02/2013

31

6. Les approches du Big data


6.3. Approche Cloud
Outils danalyse

Donnes non structures

NoSQL
ETL et outils dintgration SGBDR

NoSQL

Donnes structures

MapReduce

DW Interface Web Utilisateur Architecture du Big data dans le Cloud

SGBDR

http://www.intelen.com/ consult 20/02/2013

32

7. Perspectives de recherche

Comment

exploiter

des

donnes

externes

(semi-

structures et non-structures) prsentes dans le web notamment dans les rseaux sociaux pour enrichir les donnes internes afin daugmenter la performance de la gestion de relation client.

33

8. Rfrences (partie 1)

[E. Bellity, 2006] Emmanuel Bellity., al. Big Data, la matire premire du Data Scientist. 2006. 47page. Rapport de recherche disponible sur le site (http://www.ENSAE.fr ) consult le 14/01/2013. [J. Hamelin, 2012] JEAN-FRANOIS HAMELIN. Base de donnes distribue applique la gntique dans le cadre de lanalyse du squenage gnomique. Rapport Technique. Universit de Montral. Dpartement de gnie logiciel. 2012. 70pages. [L. Heinrich, 2012] Lionel HEINRICH. Not only SQL. Travail de Bachelor ralis en vue de lobtention du Bachelor HES en Informatique de Gestion. cole suprieure de Gestion de Genve (HEG-GE). 2012. 61p. [M. Dimaglie, 2012] Matteo DI MAGLIE. Adoption dune solution NoSQL dans lentreprise. Mmoire ralis en vue de lobtention du Bachelor HES en Informatique de Gestion. cole suprieure de Gestion de Genve (HEG-GE). 2012. 68p. [M. Brard., al, 2012] Maxime Brard., al . Big Data et NoSQL : de lexplosion des volumes de donnes lie lessor du Web lmergence de nouvelles architectures de stockage et dinterrogation de donnes. Support de cours .universit de Nice.2012. 25p. [S. Fermigier, 2012] Stefane Fermigier. Big data et open source : une convergence invitable?. Livre blanc. 2012. 21p. Disponible sur le site (http://www.fermigier.com) consult le 23/1/2013.

34

8. Rfrences (partie 2)

[J. Stuhler, 2011] Julian Stuhler. Data in Memory. Disponible sur le site (http://www.databasejournal.com) publi le 28/01/2011 consult le 02/ 03/2013.
[A. Jain, 2011] Ankit Jain. Installation of hadoop in the cluster - A complete step by step tutorial. Tutoriel disponible sur: (http://ankitasblogger.blogspot.com) publi le 04/01/2011 consult le 04/03/2013.

[M.V. Groningen, 2009] Martijn van Groningen. Introduction to Hadoop. Article disponible sur : (http://blog.jteam.nl ) publi le 04/08/2009 consult le 04/03/2013.
[D. Borthakur.,al, 2011] Dhruba Borthakur et al. Apache Hadoop Goes Realtime at Facebook. SIGMOD 11. 2011, pp. 1071-1080. ISSN: 978-1-4503-0661-4 Disponible sur le site: http://oss.csie.fju.edu.tw.

[T. White, 2012] Tom White. Hadoop the Denitive Guide. Edition O'Reilly Media, 3ime edition, 2012. 647pages. ISBN: 9781449311520.
[Gartner, 2012] Gartner. Concevoir sa plateforme Big data. (http://www.precodata.com ) Publi en 2012 consult le 11/02/2013. Article disponible sur le site

[A. Brust, 2012] Andrew Brust. MapReduce and MPP: Two sides of the Big Data coin?. Disponible sur le site (www.znet.com) publi le 02/03/2102 consult le 18/02/2012.

35

Merci Pour Votre Attention

36

37

Big Data Eco-system


Social Media

Hadoop

Analytic Databases

Storage

Search

BIG DATA
Document BigTable Key Value Graph

as-a-service

NewSQL

NoSQL

Operational Database