Modélisation Intégratrice Du Traitement BigData

SITA'14 - 9th International Conference on Intelligent Systems
Theories and Applications
An Integrative Modeling
of BigData Processing
Hadi Hashem et Daniel Ranc

LOR Software-Networks department, Télécom SudParis, Institut Mines-Télécom
Rue Charles Fourier, 9, 91011, Evry Cedex, France
hadi.hashem@telecom-sudparis.eu, daniel.ranc@telecom-sudparis.eu 07-08 May 2014, Rabat, Morocco
> Etude > Etat de l’art > Prototypage > Conclusion
Couvert par cette étude

• Structure, transmission et modélisation des données
• Traitement (E/S) et affichage des résultats
Non couvert
• Architecture des moteurs de traitement
• Sécurité et confidentialité de l’information
07-08 May 2014, Rabat, Morocco

Présentation > > Etat de l’art > Prototypage > Conclusion
L’expansion de l’information
Volume
Vitesse
Variabilité
.. Valeur ..
Hétérogène / Autonome / Complexe / Evolutive 07-08 May 2014, Rabat, Morocco

Moteurs de traitement
SQL
IBM / 1974
Norme / 1986
MPP
ILLIAC IV / 1976
Hadoop
MapReduce (Google) / 2004
MapReduce (Yahoo) / 2005
Yarn (Yahoo) / 2010
Windows (Hortonworks) / 2013

Pourquoi Hadoop?
1- Le traitement décentralisé

Pourquoi Hadoop?
2- Le traitement séquentiel non aléatoire

Pourquoi Hadoop?
2- Le traitement séquentiel non aléatoire Framework
3- Le développeur isolé de l’environnement

Pourquoi Hadoop?
4- L’évolutivité en souplesse

Pourquoi Hadoop?
4- L’évolutivité en souplesse

Sujet de thèse
Données Traitement Résultat

100 Kg 5 jours 2L

Sujet de thèse
Données Traitement Résultat

100 Kg 5 jours 2L
Modélisation Traitement Résultat

20 Kg 2 jours 2L
1 jour
Modélisation Intégrative
Acquisition Traitement
Données brutes Données synthétisées
Mapping Split Join
Opérateurs
Données qualitatives Filter Group
Données quantitatives Aggregate
Analyse Texte Boîte à outils

Numérique
Booléen / Date
Modélisation NoSQL 07-08 May 2014, Rabat, Morocco

NoSQL
Définition?
-> Not only SQL
-> Compléter et non pas remplacer les bases relationnelles
-> 1998 puis popularisé en 2009 (séminaire à San Francisco)
Pourquoi?
-> Performance en termes de volumétrie (Amazon, Google, Twitter, Facebook…)
-> Réplication des données
-> Schémas dynamiques
-> Répond au théorème du CAP

Présentation > Etude > > Prototypage > Conclusion
Théorème du CAP
Eric Brewer
-> Université de Californie en 2000
2 critères sur 3 parmi

-> Cohérence (1 seule version à jour)
-> Haute disponibilité des données
-> Partitionnement des données

Modèles NoSQL
Couple clé-Valeur
-> Modèle simpliste
Clé-Valeur avec tri

-> Agrégation optimisée
Données volumineuses orientées colonne

-> Structure de structure de structure
Données orientées document

-> Complexité aléatoire non structurée
(Json ou Xml)
-> Indexation par champ contrairement
aux moteurs de recherche (par valeur)
© highlyscalable.wordpress.com
Données orientées graphe

-> Hiérarchie, nœuds et dépendance 07-08 May 2014, Rabat, Morocco
Modèles NoSQL
Contrairement aux bases relationnelles:
-> Quelle réponse à ma question? (requête SQL)
SELECT * FROM TABLE

Modèles NoSQL
Le NoSQL permet, à partir des données valeurs-clés de déduire:
-> A quelle question correspondent mes résultats? (données)
Quels sont mes centres d’intérêt?

Limitations
SQL relationnel NoSQL

Evolutivité et flexibilité X
Requêtes structurées X
Syntaxe uniforme X
Atomicité, résultat complet ou pas de résultat
Conformité Cohérence, état valide + changement bdd = état valide

ACID
Isolation, exécution simultanée = exécution en série
Durabilité, résultat enregistré après déconnexion

NewSQL
SQL + NoSQL
Evolutivité
= NewSQL
Qualité/Assurance
Monopolisation des ressources

Verrouillage au moment de l’exécution
Complexité de récupération des données

Techniques de modélisation
Techniques conceptuelles -> Jointure
• Interne, externe…
-> Agrégation / Dissociation
• Cpt, Moy, Max, Min, Som…
-> Dé-normalisation
• Multiplication des données

Techniques générales
-> Agrégation avec atomicité

• Règles ACID
-> Clés énumérables -> Réduction des dimensions

• Partitionnement sur serveurs
• Hachage de clé

-> Indexation de table -> Clé-index composite

• Données volumineuses
-> Clé composite + Agrégation
SELECT COUNT
GROUP BY
-> Recherche inversée + Agrégation directe

Techniques hiérarchiques -> Agrégations hiérarchiques
-> Liste d’adjacence

• {a,b},{a,c},{b,c}

Techniques hiérarchiques
-> Chemins matérialisés

• Recherche plein texte
-> Traitement des graphes en mode batch

• En MapReduce
Techniques hiérarchiques
-> Imbrication d'ensembles -> Imbrication de documents plats

• Nom de champs
• Requêtes de proximité

Présentation > Etude > Etat de l’art > > Conclusion
Prototypage en mode Agile

Création d’un AGL Hadoop permettant de:
1- Mettre en place une ou plusieurs sources de données
2- Analyser les données acquises et définir une structure
3- Appliquer les opérateurs de synthèse et d’agrégation
4- Connecter les données synthétisées au(x) module(s) de traitement
5- Afficher le résultat en sortie
Avantages:
1- Facilité, composants clé en main
2- Réduction du volume, du coût
3- Décentralisation du traitement

Use case
Impact sur les réseaux sociaux:
1- Influence d’un évènement politique ou social
2- Fréquence d’un ou plusieurs mots clés
3- Temps de traitement avec/sans modélisation

Use case
Initial Including nested Including aggregation

data documents model model
> 15 h 2 h 57 m 2h8m
Présentation > Etude > Etat de l’art > Prototypage >
Conclusion
Problèmes et complexités
-> Domaine riche + Travaux nombreux et divergents à acquérir en peu de temps

-> Technologies en évolution accélérée
-> Rythme de travail, distance et équipements
Développements et perspectives
-> Optimisation du traitement, un critère indispensable

• Dépenses et environnement
-> Accessibilité et vulgarisation de la technologie
• Pour utilisateurs non informaticiens

Ouvrages et références
Perera, S., Gunarathne, T. (2013). Hadoop MapReduce Cookbook. Published by Yu, B., Cuzzocrea, A., Jeong, D., Maydebura, S. (2012). On Managing
Packt Publishing. Print ISBN 978-1-84951-728-7. Very Large Sensor-Network Data Using Bigtable. Published in
Wang, G., Tang, J. (2012). The NoSQL Principles and Basic Application of Cluster, Cloud and Grid Computing (CCGrid), 2012 12th IEEE/ACM
Cassandra Model. Published in Computer Science & Service System (CSSS), International Symposium on. Print ISBN 978-1-4673-1395-7.
2012 International Conference on. Print ISBN 978-1-4673-0721-5. Lai, S. (2012). Graph-theory model based E-commerce website
Li, Y., Manoharan, S. (2013). A performance comparison of SQL and NoSQL design and realize. Published in Computing and Networking
databases. Published in Communications, Computers and Signal Processing Technology (ICCNT), 2012 8th International Conference on.
(PACRIM), 2013 IEEE Pacific Rim Conference on. ISSN 1555-5798. Lin, J., Schatz, M. (2010). Design Patterns for Efﬁcient Graph
Tudorica, B.G., Bucur, C. (2011). A comparison between several NoSQL Algorithms in MapReduce. Published in MLG '10 Proceedings of the
databases with comments and notes. Published in Roedunet International Eighth Workshop on Mining and Learning with Graphs Pages 78-85.
Conference (RoEduNet), 2011 10th. Print ISBN 978-1-4577-1233-3. Print ISBN 978-1-4503-0214-2.
Chang, F., Dean, J., Ghemawat, S., Hsieh, W., Wallach, D., Burrows, M., Anderson, E., Hoover, C., Li, X. Tucek, J. (2009). Efficient tracing
Chandra, T., Fikes, A., Gruber, R. (2006). Bigtable: A Distributed Storage and performance analysis for large distributed systems. Published in
System for Structured Data. Published in OSDI '06 Proceedings of the 7th Modeling, Analysis & Simulation of Computer and
symposium on Operating systems design and implementation Pages 205-218. Telecommunication Systems, 2009. MASCOTS '09. IEEE International
Print ISBN 1-931971-47-1. Symposium on. Print ISBN 978-1-4244-4927-9.
Vora, M.N. (2011). Hadoop-HBase for large-scale data. Published in Computer Agarwal, S., Dunagan, J., Jain, N., Saroiu, S., Wolman, A. (2010).
Science and Network Technology (ICCSNT), 2011 International Conference on. Volley: Automated Data Placement for Geo-Distributed Cloud
Print ISBN 978-1-4577-1586-0. Services. Published in NSDI'10 Proceedings of the 7th USENIX
Ghemawat, S., Gobioff, H., Leung, S.K. (2003). The Google File System. conference on Networked systems design and implementation Pages
Published in SOSP '03 Proceedings of the nineteenth ACM symposium on 2-2.
Operating systems principles Pages 29-43. Print ISBN 1-58113-757-5. Zhu, J., Wang, A. (2012). Data Modeling for Big Data. Published in
Kaur, K., Rani, R. (2013). Modeling and querying data in NoSQL databases. CA Technologies. Pages 75-80.
Published in: Big Data, 2013 IEEE International Conference on. INSPEC
Accession Number 13999217.

Merci

Modélisation Intégratrice Du Traitement BigData

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Modélisation Intégratrice Du Traitement BigData

Transféré par

Droits d'auteur :

Formats disponibles

SITA'14 - 9th International Conference on Intelligent Systems

Theories and Applications

Hadi Hashem et Daniel Ranc

Couvert par cette étude

07-08 May 2014, Rabat, Morocco

Hétérogène / Autonome / Complexe / Evolutive 07-08 May 2014, Rabat, Morocco

07-08 May 2014, Rabat, Morocco

07-08 May 2014, Rabat, Morocco

07-08 May 2014, Rabat, Morocco

07-08 May 2014, Rabat, Morocco

07-08 May 2014, Rabat, Morocco

07-08 May 2014, Rabat, Morocco

Données Traitement Résultat

07-08 May 2014, Rabat, Morocco

Données Traitement Résultat

Modélisation Traitement Résultat

Données brutes Données synthétisées

Mapping Split Join

Analyse Texte Boîte à outils

Modélisation NoSQL 07-08 May 2014, Rabat, Morocco

07-08 May 2014, Rabat, Morocco

2 critères sur 3 parmi

07-08 May 2014, Rabat, Morocco

Clé-Valeur avec tri

Données volumineuses orientées colonne

Données orientées document

Données orientées graphe

SELECT * FROM TABLE

07-08 May 2014, Rabat, Morocco

Quels sont mes centres d’intérêt?

07-08 May 2014, Rabat, Morocco

SQL relationnel NoSQL

Atomicité, résultat complet ou pas de résultat

Conformité Cohérence, état valide + changement bdd = état valide

Durabilité, résultat enregistré après déconnexion

Monopolisation des ressources

07-08 May 2014, Rabat, Morocco

07-08 May 2014, Rabat, Morocco

-> Agrégation avec atomicité

-> Clés énumérables -> Réduction des dimensions

07-08 May 2014, Rabat, Morocco

-> Indexation de table -> Clé-index composite

-> Clé composite + Agrégation

07-08 May 2014, Rabat, Morocco

-> Liste d’adjacence

07-08 May 2014, Rabat, Morocco

-> Chemins matérialisés

-> Traitement des graphes en mode batch

-> Imbrication d'ensembles -> Imbrication de documents plats

07-08 May 2014, Rabat, Morocco

Prototypage en mode Agile

07-08 May 2014, Rabat, Morocco

07-08 May 2014, Rabat, Morocco

Initial Including nested Including aggregation

-> Domaine riche + Travaux nombreux et divergents à acquérir en peu de temps

-> Optimisation du traitement, un critère indispensable

07-08 May 2014, Rabat, Morocco

07-08 May 2014, Rabat, Morocco

07-08 May 2014, Rabat, Morocco

Vous aimerez peut-être aussi