Académique Documents
Professionnel Documents
Culture Documents
An Integrative Modeling
of BigData Processing
Non couvert
• Architecture des moteurs de traitement
• Sécurité et confidentialité de l’information
L’expansion de l’information
Volume
Vitesse
Variabilité
.. Valeur ..
Moteurs de traitement
SQL
IBM / 1974
Norme / 1986
MPP
ILLIAC IV / 1976
Hadoop
MapReduce (Google) / 2004
MapReduce (Yahoo) / 2005
Yarn (Yahoo) / 2010
Windows (Hortonworks) / 2013
Pourquoi Hadoop?
1- Le traitement décentralisé
Pourquoi Hadoop?
1- Le traitement décentralisé
2- Le traitement séquentiel non aléatoire
Pourquoi Hadoop?
1- Le traitement décentralisé
2- Le traitement séquentiel non aléatoire Framework
3- Le développeur isolé de l’environnement
Pourquoi Hadoop?
1- Le traitement décentralisé
2- Le traitement séquentiel non aléatoire
3- Le développeur isolé de l’environnement
4- L’évolutivité en souplesse
Pourquoi Hadoop?
1- Le traitement décentralisé
2- Le traitement séquentiel non aléatoire
3- Le développeur isolé de l’environnement
4- L’évolutivité en souplesse
Sujet de thèse
Sujet de thèse
Modélisation Intégrative
Acquisition Traitement
Opérateurs
Données qualitatives Filter Group
Données quantitatives Aggregate
NoSQL
Définition?
-> Not only SQL
-> Compléter et non pas remplacer les bases relationnelles
-> 1998 puis popularisé en 2009 (séminaire à San Francisco)
Pourquoi?
-> Performance en termes de volumétrie (Amazon, Google, Twitter, Facebook…)
-> Réplication des données
-> Schémas dynamiques
-> Répond au théorème du CAP
Théorème du CAP
Eric Brewer
-> Université de Californie en 2000
Modèles NoSQL
Couple clé-Valeur
-> Modèle simpliste
Modèles NoSQL
Contrairement aux bases relationnelles:
-> Quelle réponse à ma question? (requête SQL)
Modèles NoSQL
Le NoSQL permet, à partir des données valeurs-clés de déduire:
-> A quelle question correspondent mes résultats? (données)
Limitations
NewSQL
SQL + NoSQL
Evolutivité
= NewSQL
Qualité/Assurance
Techniques de modélisation
Techniques conceptuelles -> Jointure
• Interne, externe…
-> Agrégation / Dissociation
• Cpt, Moy, Max, Min, Som…
-> Dé-normalisation
• Multiplication des données
Techniques de modélisation
Techniques générales
Techniques de modélisation
Techniques générales
© highlyscalable.wordpress.com
07-08 May 2014, Rabat, Morocco
Présentation > Etude > > Prototypage > Conclusion
Techniques de modélisation
Techniques générales
SELECT COUNT
GROUP BY
-> Recherche inversée + Agrégation directe
Techniques de modélisation
Techniques hiérarchiques -> Agrégations hiérarchiques
Techniques de modélisation
Techniques hiérarchiques
© highlyscalable.wordpress.com
07-08 May 2014, Rabat, Morocco
Présentation > Etude > > Prototypage > Conclusion
Techniques de modélisation
Techniques hiérarchiques
Avantages:
1- Facilité, composants clé en main
2- Réduction du volume, du coût
3- Décentralisation du traitement
Use case
Impact sur les réseaux sociaux:
1- Influence d’un évènement politique ou social
2- Fréquence d’un ou plusieurs mots clés
3- Temps de traitement avec/sans modélisation
Use case
Conclusion
Problèmes et complexités
Développements et perspectives