Vous êtes sur la page 1sur 18

Module: Gestion de données massives

M2 IA4IOT

S. BENHAMED
Année universitaire 2023-2024
Gestion de données massives  Information sur le module
• (UEM3 )
• Coefficient : 3 Crédit : 5
• Évaluation :
• {2 tests (5+5) + (projet/exposé) 5 points+ TP 2 points+ présence 3 point}
• examen
• Référence

S. BENHAMED 2
Gestion de données massives  Chapitres
1.Rappel du modèle de données relationnels et leurs limites
2.Base de données NoSQL
3.Introduction au Big Data
4.Système de modélisation et gestion de Big Data
5.Intégration et traitement du Big Data
6.Apprentissage automatique avec Big Data

S. BENHAMED 3
Chapitre 01
Rappel du modèle de données relationnels et leurs limites

S. BENHAMED 4
Rappel  Modèle de données (1/2)
Un modèle de données est défini schématiquement par trois éléments :
1. Structure
2. Contraintes
3. Opérations
• Structure : Structure logique selon laquelle les données sont enregistrées sur disque.
Exemple:
SGBDR : tables constituées de lignes et de colonnes.
BDD de type document : Collection de documents aux formats JSON ou XML indexés par
une clé.
BDD de type objet :Collection de grappes et des hiérarchies d'objets.

S. BENHAMED 5
Rappel  Modèle de données (2/2)
• Contraintes : définissent les données que l'on considère valides.
SGBDR: Tous les enregistrements possèdent les mêmes colonnes.
Le schéma du SGBDR contient la description de toutes les contraintes:
• Limites sur des valeurs numériques.
• Syntaxe admise pour des chaînes de caractères ou d'intégrité des
références.

• Opérations : Définissent comment on lit les données, on met à jour et on les


supprimer.
SGBDR: Niveau d'abstraction  définies par le langage de requêtes SQL.
Niveau de l'implémentation  Opérations de l'algèbre relationnelle.

S. BENHAMED 6
Rappel  Origine
Modèle de données relationnel est inventé par Edgar Frank Codd

E. F. Codd : « A Relational Model of Data for Large Shared Data Banks »


« Is your DBMS Really Raltional? »
« Does your DBMS run by the rules? »

Son origine est mathématique → Une série de théorèmes qui décrivent une
structure mathématique intemporelle appelée
algèbre des relations

S. BENHAMED 7
Rappel  Algèbre relationnelle
Principaux éléments : Opérations sur les données structurées en tables pour en créer de nouvelles.
la sélection, la projection, l’agrégation, l'union, la jointure, etc.
Jointure
• Particulièrement importante puisque elle permet
de relier entre les enregistrements situés dans des
tables différentes et de le faire implicitement, au
moyen de clés étrangères.
• Elle est au cœur des principes de normalisation des
données et de la flexibilité du modèle relationnel.
• (Pour cette raison, leur usage sera remis en
question par les systèmes NoSQL).
• Utilisées en cascade, les jointures peuvent
cependant rapidement s'avérer très gourmandes
en ressources.
S. BENHAMED 8
Rappel  Opérations du modèle relationnel (1/2)
• Permettent de transformer une succession d'opérations en une autre,
équivalente, non pour la simplifier, mais pour optimiser les ressources utilisées
comme le temps de calcul et la quantité de mémoire utilisée
• Optimisation du plan d'exécution.

• Pour cela, il utilise un langage déclaratif qui lui permet de spécifier la réponse
qu'il cherche plutôt que la manière d'effectuer cette recherche.
• C'est le rôle du langage SQL
Exemple:
SELECT DISTINCT nom FROM Clients
WHERE Pays=Algeria
AND Wilaya=Mostaganem
S. BENHAMED 9
Rappel  Opérations du modèle relationnel (2/2)
Les SGBDR gèrent les transactions Succession d'opérations sur une ou plusieurs
bases de données.
Rôle: garantir que toutes les opérations qu'elle englobe sont effectuées avec
succès.
Les transactions (comme les contraintes d'intégrité imposées par le schéma du
SGBDR) contribuent à garantir la cohérence des données hébergées.

Exemple
• Transfert d'argent entre deux comptes bancaires
• Réservation d'un billet d'avion et d'une chambre d'hôtel.

S. BENHAMED 10
Rappel  ACID
Garantit l’indépendance entre les données et les traitements,

Définie les exigences qui caractérisent une transaction SGBDR.


• Atomicité : Tout changement effectué doit être accompli jusqu’au bout .
• Cohérence : Respecter les contraintes d’intégrité des données fixées pour
une BDD.
• Isolation : Deux transactions simultanées A et B n'interfèrent jamais. La
transaction B ne peut ni voir ni modifier les données sur lesquelles A opère
tant que A n'a pas été validé.
• Durabilité : une fois une transaction (changement apporté à la base de
données) validée, les données doivent être permanentes.
S. BENHAMED 11
Rappel  Règle de Codd (1/4)
Caractéristiques du modèle relationnel: Ensemble de règles qui indiquent la
voie à suivre pour les SGBDR Modèle sous-jacent des bases dites SQL.
• Règle 0 : Toutes les fonctionnalités du SGBDR doivent être disponibles à
travers le modèle relationnel et le langage d’interrogation.
• Règle 1 : Toutes les données sont représentées par des valeurs présentes
dans des colonnes et des lignes de tables.
• Règle 3 : Une cellule peut ne pas contenir de valeur, ou exprimer que la
valeur est inconnue, à l’aide du marqueur NULL (indicateur spécial, distinct
de toute valeur et traité de façon particulière).
• Règle 5 : Le SGBBDR doit implémenter un langage relationnel qui supporte
des fonctionnalités de manipulation des données et des métadonnées, de
définition de contraintes de sécurité et la gestion des transactions.
S. BENHAMED 12
Rappel  Règle de Codd (2/4)
• Règle 10 : Indépendance d’intégrité : les contraintes d’intégrité doivent
être indépendantes des programmes clients et doivent être stockées dans
le catalogue du SGBDR. On doit pouvoir modifier ces contraintes sans
affecter les programmes clients.
• Règle 11 : Indépendance de distribution : la distribution ou le
partitionnement des données ne doivent avoir aucun impact sur les
programmes clients.
• Règle 12 : Règle de non-subversion : aucune interface de bas niveau ne
doit permettre de contourner les règles édictées. Dans les faits, cette règle
implique qu’il n’est possible d’interroger et de manipuler le SGBDR qu’à
travers son langage relationnel.
S. BENHAMED 13
Rappel  Règle de Codd (3/4)
Point fort :
• Les mécanismes de schémas et de transactions assurent la cohérence des
données au sein d'un SGBDR,
• L’existence du langage déclaratif standard « SQL » et l'optimisation automatique
des plans d'exécution permettent un découplage logique maximal entre les
données et les applications qui les utilisent.
• Cette flexibilité permet d'utiliser les données hébergées par un SGBDR de
différentes façons et permet même d'envisager des usages ultérieurs qui
n'avaient pas été anticipés à l'origine.
• Faire des requêtes complexes( jointures) avec un langage de haut niveau sans se
préoccuper des couches basses (entre les tables de la base de données) (CAB).

S. BENHAMED 14
Rappel  Règle de Codd (4/4)
Point faible :
• Les SGBDR sont mal adaptés
lorsqu'il s'agit de sauvegarder
et de récupérer des grappes
d'objets tels que celles qui
sont manipulées par des
langages objet comme Java ou
C#.
• Stockage des données des
applications web à très grande
échelle.

S. BENHAMED 15
Rappel  Exercice (1/3)
Les données structurées se conforment à un
A Vrai
1. modèle ou à un schéma de données et sont
B Faux
souvent stockées sous forme de tableaux.
A Données structurées
Q. Les données qui ne sont pas conformes à un
B Données non structurées
2. modèle de données ou à un schéma de
C Données semi-structurées
données sont connues sous le nom de ______.
D Tout ce qui est mentionné ci-dessus.
En informatique, ____ est une représentation
A Connaissance
symbolique des faits ou de concepts à partir
B Données
3. desquels des informations peuvent être
C Programme
obtenues avec un degré raisonnable de
D Algorithme
confiance.
S. BENHAMED 16
Rappel  Exercice (2/3)
A Facebook
Parmi les éléments suivants, lesquels
B Twitter
4. peuvent être considérés comme une
C Pages Web
source de données non structurées?
D Tout ce qui est mentionné ci-dessus
A Numéro de matricule de la voiture, marque,
Parmi les éléments suivants, lesquels modèle
5. constituent un exemple de données B Vidéos
non structurées C Fichiers audio
D Les deux B et C
A Processus consistant à donner un sens aux
L’interprétation des données se réfère à données
6. ____. B Convertir le texte en informations pertinentes
C Conclusion efficace
D Tous les éléments mentionnés ci-dessus
S. BENHAMED 17
Rappel  Exercice (3/3)

La signification des métadonnées est de


fournir des informations sur les A Vrai
7.
caractéristiques et la structure d’un B Faux
ensemble de données.

S. BENHAMED 18

Vous aimerez peut-être aussi