Vous êtes sur la page 1sur 32

SITA'14 - 9th International Conference on Intelligent Systems

Theories and Applications

An Integrative Modeling
of BigData Processing

Hadi Hashem et Daniel Ranc


LOR Software-Networks department, Télécom SudParis, Institut Mines-Télécom
Rue Charles Fourier, 9, 91011, Evry Cedex, France
hadi.hashem@telecom-sudparis.eu, daniel.ranc@telecom-sudparis.eu 07-08 May 2014, Rabat, Morocco
> Etude > Etat de l’art > Prototypage > Conclusion

Couvert par cette étude


• Structure, transmission et modélisation des données
• Traitement (E/S) et affichage des résultats

Non couvert
• Architecture des moteurs de traitement
• Sécurité et confidentialité de l’information

07-08 May 2014, Rabat, Morocco


Présentation > > Etat de l’art > Prototypage > Conclusion

L’expansion de l’information

Volume
Vitesse
Variabilité
.. Valeur ..

Hétérogène / Autonome / Complexe / Evolutive 07-08 May 2014, Rabat, Morocco


Présentation > > Etat de l’art > Prototypage > Conclusion

Moteurs de traitement

SQL
IBM / 1974
Norme / 1986

MPP
ILLIAC IV / 1976

Hadoop
MapReduce (Google) / 2004
MapReduce (Yahoo) / 2005
Yarn (Yahoo) / 2010
Windows (Hortonworks) / 2013

07-08 May 2014, Rabat, Morocco


Présentation > > Etat de l’art > Prototypage > Conclusion

Pourquoi Hadoop?

1- Le traitement décentralisé

07-08 May 2014, Rabat, Morocco


Présentation > > Etat de l’art > Prototypage > Conclusion

Pourquoi Hadoop?

1- Le traitement décentralisé
2- Le traitement séquentiel non aléatoire

07-08 May 2014, Rabat, Morocco


Présentation > > Etat de l’art > Prototypage > Conclusion

Pourquoi Hadoop?

1- Le traitement décentralisé
2- Le traitement séquentiel non aléatoire Framework
3- Le développeur isolé de l’environnement

07-08 May 2014, Rabat, Morocco


Présentation > > Etat de l’art > Prototypage > Conclusion

Pourquoi Hadoop?

1- Le traitement décentralisé
2- Le traitement séquentiel non aléatoire
3- Le développeur isolé de l’environnement
4- L’évolutivité en souplesse

07-08 May 2014, Rabat, Morocco


Présentation > > Etat de l’art > Prototypage > Conclusion

Pourquoi Hadoop?

1- Le traitement décentralisé
2- Le traitement séquentiel non aléatoire
3- Le développeur isolé de l’environnement
4- L’évolutivité en souplesse

07-08 May 2014, Rabat, Morocco


Présentation > > Etat de l’art > Prototypage > Conclusion

Sujet de thèse

Données Traitement Résultat


100 Kg 5 jours 2L

07-08 May 2014, Rabat, Morocco


Présentation > > Etat de l’art > Prototypage > Conclusion

Sujet de thèse

Données Traitement Résultat


100 Kg 5 jours 2L

Modélisation Traitement Résultat


20 Kg 2 jours 2L
1 jour
07-08 May 2014, Rabat, Morocco
Présentation > > Etat de l’art > Prototypage > Conclusion

Modélisation Intégrative

Acquisition Traitement

Données brutes Données synthétisées

Mapping Split Join

Opérateurs
Données qualitatives Filter Group
Données quantitatives Aggregate

Analyse Texte Boîte à outils


Numérique
Booléen / Date

Modélisation NoSQL 07-08 May 2014, Rabat, Morocco


Présentation > > Etat de l’art > Prototypage > Conclusion

NoSQL
Définition?
-> Not only SQL
-> Compléter et non pas remplacer les bases relationnelles
-> 1998 puis popularisé en 2009 (séminaire à San Francisco)

Pourquoi?
-> Performance en termes de volumétrie (Amazon, Google, Twitter, Facebook…)
-> Réplication des données
-> Schémas dynamiques
-> Répond au théorème du CAP

07-08 May 2014, Rabat, Morocco


Présentation > Etude > > Prototypage > Conclusion

Théorème du CAP
Eric Brewer
-> Université de Californie en 2000

2 critères sur 3 parmi


-> Cohérence (1 seule version à jour)
-> Haute disponibilité des données
-> Partitionnement des données

07-08 May 2014, Rabat, Morocco


Présentation > Etude > > Prototypage > Conclusion

Modèles NoSQL
Couple clé-Valeur
-> Modèle simpliste

Clé-Valeur avec tri


-> Agrégation optimisée

Données volumineuses orientées colonne


-> Structure de structure de structure

Données orientées document


-> Complexité aléatoire non structurée
(Json ou Xml)
-> Indexation par champ contrairement
aux moteurs de recherche (par valeur)
© highlyscalable.wordpress.com

Données orientées graphe


-> Hiérarchie, nœuds et dépendance 07-08 May 2014, Rabat, Morocco
Présentation > Etude > > Prototypage > Conclusion

Modèles NoSQL
Contrairement aux bases relationnelles:
-> Quelle réponse à ma question? (requête SQL)

SELECT * FROM TABLE

07-08 May 2014, Rabat, Morocco


Présentation > Etude > > Prototypage > Conclusion

Modèles NoSQL
Le NoSQL permet, à partir des données valeurs-clés de déduire:
-> A quelle question correspondent mes résultats? (données)

Quels sont mes centres d’intérêt?

07-08 May 2014, Rabat, Morocco


Présentation > Etude > > Prototypage > Conclusion

Limitations

SQL relationnel NoSQL


Evolutivité et flexibilité X
Requêtes structurées X
Syntaxe uniforme X

Atomicité, résultat complet ou pas de résultat

Conformité Cohérence, état valide + changement bdd = état valide


ACID
Isolation, exécution simultanée = exécution en série

Durabilité, résultat enregistré après déconnexion


07-08 May 2014, Rabat, Morocco
Présentation > Etude > > Prototypage > Conclusion

NewSQL

SQL + NoSQL
Evolutivité
= NewSQL
Qualité/Assurance

Monopolisation des ressources


Verrouillage au moment de l’exécution
Complexité de récupération des données

07-08 May 2014, Rabat, Morocco


Présentation > Etude > > Prototypage > Conclusion

Techniques de modélisation
Techniques conceptuelles -> Jointure
• Interne, externe…
-> Agrégation / Dissociation
• Cpt, Moy, Max, Min, Som…

-> Dé-normalisation
• Multiplication des données

07-08 May 2014, Rabat, Morocco


© highlyscalable.wordpress.com
Présentation > Etude > > Prototypage > Conclusion

Techniques de modélisation
Techniques générales

-> Agrégation avec atomicité


• Règles ACID

-> Clés énumérables -> Réduction des dimensions


• Partitionnement sur serveurs
• Hachage de clé

07-08 May 2014, Rabat, Morocco


Présentation > Etude > > Prototypage > Conclusion

Techniques de modélisation
Techniques générales

-> Indexation de table -> Clé-index composite


• Données volumineuses

© highlyscalable.wordpress.com
07-08 May 2014, Rabat, Morocco
Présentation > Etude > > Prototypage > Conclusion

Techniques de modélisation
Techniques générales

-> Clé composite + Agrégation

SELECT COUNT
GROUP BY
-> Recherche inversée + Agrégation directe

07-08 May 2014, Rabat, Morocco


© highlyscalable.wordpress.com
Présentation > Etude > > Prototypage > Conclusion

Techniques de modélisation
Techniques hiérarchiques -> Agrégations hiérarchiques

-> Liste d’adjacence


• {a,b},{a,c},{b,c}

07-08 May 2014, Rabat, Morocco


© highlyscalable.wordpress.com
Présentation > Etude > > Prototypage > Conclusion

Techniques de modélisation
Techniques hiérarchiques

-> Chemins matérialisés


• Recherche plein texte

-> Traitement des graphes en mode batch


• En MapReduce

© highlyscalable.wordpress.com
07-08 May 2014, Rabat, Morocco
Présentation > Etude > > Prototypage > Conclusion

Techniques de modélisation
Techniques hiérarchiques

-> Imbrication d'ensembles -> Imbrication de documents plats


• Nom de champs
• Requêtes de proximité

07-08 May 2014, Rabat, Morocco


© highlyscalable.wordpress.com
Présentation > Etude > Etat de l’art > > Conclusion

Prototypage en mode Agile


Création d’un AGL Hadoop permettant de:
1- Mettre en place une ou plusieurs sources de données
2- Analyser les données acquises et définir une structure
3- Appliquer les opérateurs de synthèse et d’agrégation
4- Connecter les données synthétisées au(x) module(s) de traitement
5- Afficher le résultat en sortie

Avantages:
1- Facilité, composants clé en main
2- Réduction du volume, du coût
3- Décentralisation du traitement

07-08 May 2014, Rabat, Morocco


Présentation > Etude > Etat de l’art > > Conclusion

Use case
Impact sur les réseaux sociaux:
1- Influence d’un évènement politique ou social
2- Fréquence d’un ou plusieurs mots clés
3- Temps de traitement avec/sans modélisation

07-08 May 2014, Rabat, Morocco


Présentation > Etude > Etat de l’art > > Conclusion

Use case

Initial Including nested Including aggregation


data documents model model
> 15 h 2 h 57 m 2h8m
07-08 May 2014, Rabat, Morocco
Présentation > Etude > Etat de l’art > Prototypage >

Conclusion
Problèmes et complexités

-> Domaine riche + Travaux nombreux et divergents à acquérir en peu de temps


-> Technologies en évolution accélérée
-> Rythme de travail, distance et équipements

Développements et perspectives

-> Optimisation du traitement, un critère indispensable


• Dépenses et environnement
-> Accessibilité et vulgarisation de la technologie
• Pour utilisateurs non informaticiens

07-08 May 2014, Rabat, Morocco


Ouvrages et références
Perera, S., Gunarathne, T. (2013). Hadoop MapReduce Cookbook. Published by Yu, B., Cuzzocrea, A., Jeong, D., Maydebura, S. (2012). On Managing
Packt Publishing. Print ISBN 978-1-84951-728-7. Very Large Sensor-Network Data Using Bigtable. Published in
Wang, G., Tang, J. (2012). The NoSQL Principles and Basic Application of Cluster, Cloud and Grid Computing (CCGrid), 2012 12th IEEE/ACM
Cassandra Model. Published in Computer Science & Service System (CSSS), International Symposium on. Print ISBN 978-1-4673-1395-7.
2012 International Conference on. Print ISBN 978-1-4673-0721-5. Lai, S. (2012). Graph-theory model based E-commerce website
Li, Y., Manoharan, S. (2013). A performance comparison of SQL and NoSQL design and realize. Published in Computing and Networking
databases. Published in Communications, Computers and Signal Processing Technology (ICCNT), 2012 8th International Conference on.
(PACRIM), 2013 IEEE Pacific Rim Conference on. ISSN 1555-5798. Lin, J., Schatz, M. (2010). Design Patterns for Efficient Graph
Tudorica, B.G., Bucur, C. (2011). A comparison between several NoSQL Algorithms in MapReduce. Published in MLG '10 Proceedings of the
databases with comments and notes. Published in Roedunet International Eighth Workshop on Mining and Learning with Graphs Pages 78-85.
Conference (RoEduNet), 2011 10th. Print ISBN 978-1-4577-1233-3. Print ISBN 978-1-4503-0214-2.
Chang, F., Dean, J., Ghemawat, S., Hsieh, W., Wallach, D., Burrows, M., Anderson, E., Hoover, C., Li, X. Tucek, J. (2009). Efficient tracing
Chandra, T., Fikes, A., Gruber, R. (2006). Bigtable: A Distributed Storage and performance analysis for large distributed systems. Published in
System for Structured Data. Published in OSDI '06 Proceedings of the 7th Modeling, Analysis & Simulation of Computer and
symposium on Operating systems design and implementation Pages 205-218. Telecommunication Systems, 2009. MASCOTS '09. IEEE International
Print ISBN 1-931971-47-1. Symposium on. Print ISBN 978-1-4244-4927-9.
Vora, M.N. (2011). Hadoop-HBase for large-scale data. Published in Computer Agarwal, S., Dunagan, J., Jain, N., Saroiu, S., Wolman, A. (2010).
Science and Network Technology (ICCSNT), 2011 International Conference on. Volley: Automated Data Placement for Geo-Distributed Cloud
Print ISBN 978-1-4577-1586-0. Services. Published in NSDI'10 Proceedings of the 7th USENIX
Ghemawat, S., Gobioff, H., Leung, S.K. (2003). The Google File System. conference on Networked systems design and implementation Pages
Published in SOSP '03 Proceedings of the nineteenth ACM symposium on 2-2.
Operating systems principles Pages 29-43. Print ISBN 1-58113-757-5. Zhu, J., Wang, A. (2012). Data Modeling for Big Data. Published in
Kaur, K., Rani, R. (2013). Modeling and querying data in NoSQL databases. CA Technologies. Pages 75-80.
Published in: Big Data, 2013 IEEE International Conference on. INSPEC
Accession Number 13999217.

07-08 May 2014, Rabat, Morocco


Merci

07-08 May 2014, Rabat, Morocco

Vous aimerez peut-être aussi