Présentation de L'expose Data Science GROUPE 5

Thème:
- Base de donnée
relationnelle
- Nosql
Participants:
- Data wharehouse - Louppet Élie Erica
- BIKINDA SILENCE
- Data lake - MOUANGA Noctave GLOIRE
- SAMBA MAMO jamila GRACE Superviseur :
Mr :Anick
EWANGA
Sommaire
Introduction
I. Base de données relationnelles
1. Définition d’une base de données relationnelle
2. Concepts fondamentaux des bases de données relationnelles
3. Langage SQL
4. Démarche de conception
5. Modélisation
Conclusion partielle
I. No SQL
II. Data warehouse
III. Data Lake
Conclusion
Introduction
Les systèmes de gestions de bases de données jouent un rôle essentiel dans le stockage, la gestion et l’exploitation des
données au sein des organisations. Différents types de bases de données ont émergé pour répondre a des besoins
spécifiques en matière de stockage et de traitement de données. Parmi les approches courantes, on trouve les bases de
données relationnelles, No SQL, les entrepôts de données (data warehouses), et les lacs de données (data lakes)
I. Bases de données relationnelles :

1. Définition d’une base de données relationnelle :
Les bases de données relationnelles suivent le modèle relationnel, introduit par Edgar Codd dans les années 1970. Elles
organisent les données sous forme de tables, avec des relations définies entre ces tables. Ce modèle utilise un langage
structuré appelé SQL (Structured Query Language) pour effectuer des opérations telles que la récupération, l’insertion,
la mise à jour et la suppression de bases données. Les bases de données relationnelles sont bien structurées, avec des
relations claires entre les entités.
2.Concepts fondamentaux des bases de données relationnelles
Les composantes principales d’une base de données relationnelles sont les suivantes :
➢ Tables : les tables sont les structures de base de la base de données relationnelle. Elles sont utilisées pour organiser et
stocker les données de façon tabulaire. Les tables qui sont composées de lignes (enregistrements) qui contiennent les
données et de colonnes (attributs). Chaque table représente une entité, telle qu’une personne, un produit ou une
commande.
➢ Colonnes : la colonne d’une table représente un attribut spécifique de l’entité, comme le nom, l’âge ou le prix. Chaque
colonne doit avoir un nom unique au sein de la table.
➢ Lignes : chaque ligne dans la table représente une occurrence spécifique de l’entité, avec des valeurs attribuées à
chaque colonne correspondante.
Clés primaires : une clé primaire est un attribut unique dans une table qui identifie de manière unique chaque
enregistrement. Elle garantit l’unicité des données et permet de faire référence à un enregistrement spécifique dans une
table.
➢ Clés étrangers : les clés étrangères sont des attributs dans une table qui font référence à la clé primaire d’une autre
table. Elles permettent d’établir des relations entre les tables et de lier les enregistrements de manière cohérente. Les
clés étrangères garantissent l’intégrité référentielle
➢ Intégrité référentielle : les bases de données relationnelles maintiennent l’intégrité référentielle pour garantir que
toutes les relations entre les tables sont valides, ce qui signifie qu’il ne peut y avoir de clés étrangères orphelines sans
correspondance dans la table parente.
➢ Intégrité des données : les bases de données relationnelles ont des règles d’intégrités des données pour garantir la
validité et la cohérencedes données. Cela inclut des contraintes telles que les clés primaires, les clés étrangères et les
contraintes d’intégrité référentielle.
➢ Opérations SQL : les données dans une base de données relationnelle sont interrogées et manipulées en utilisant le
langage SQL. Les opérations sont telles que : SELECT, INSERT, UPDATE, DELETE sont utilisées pour extraire, insérer,
mettre à jour et supprimer des données respectivement.
➢ Normalisation : les bases de données relationnelles suivent souvent des principes de normalisation pour réduire la
redondance des données et améliorer l’efficacité de stockage.
1. Langage SQL
➢ Définition : Le SQL (Structured Query Language) est un langage informatique qui permet d’interagir avec des bases de
données relationnelles. C’est le langage pour base de données le plus répandu et c’est bien-sûr celui utilisé par MySQL.
Il a été créé dans les années 1970 et c’est devenu standard en 1986 (pour la norme ANSI – 1987 en ce qui concerne la
norme ISO)
➢ Types de données : En SQL et même dans la majorité des langages informatiques, les données sont séparées en
plusieurs types : texte, nombre entier, date, décimaux, chaine de caractère.
➢ Les sous ensemble du langage SQL : Le langage SQL est un langage concret qui interagit avec la base de données. Il est
subdivisé en trois (3) sous-ensemble à savoir :
• Le langage de description des données (LDD) : Permet de définir ou d’établir le schéma ou le squelette d’un
environnement de stockage (data base) des données informatiques.
• Le langage de manipulation des données (LMD) : Permet de manipuler ou consulter aisément les
informations stockées dans la base des données.
• Le langage de contrôle des données (LCD) : Permet d’administrer la base des données et gérer les contrôles
d’accès
1. Démarche de conception
Les BD constituent le cœur du système d’information. La conception de ces bases est la tâche la plus ardue du processus
de développement du système d’information. Les méthodes de conception préconisent une démarche en étapes et font
appel à des modèles pour représenter les objets qui composent les systèmes d’information, les relations existantes entre
ces objets ainsi que les règles sous-jacentes. La modélisation se réalise en trois étapes principales qui correspondent à
trois niveaux d’abstraction différents :
➢ Niveau conceptuel : représente le contenu de la base en termes conceptuels, indépendamment de toute considération
informatique.
➢ Niveau logique relationnelle : résulte de la traduction du schéma conceptuel en un schéma propre à un type de BD.
➢ Niveau physique : est utilisé pour décrire les méthodes d’organisation et d’accès aux données de la base.
1. La modélisation
La modélisation est une étape fondamentale de la conception de la BD dans la mesure où, d’une part, on y détermine
le contenu de la BD et, d’autre part, on y définit la nature des relations entre les concepts principaux.
Les éléments de base du modèle ER (Entité-Relation) ou
• E-A (Entité -Association)
• Les entités
• Les attributs
• Type de relation : cardinalités
• L’identifiant
• Entité : définit comme un objet pouvant être identifie distinctement.
Il existe deux catégories d’entités :
- Entités régulières : son existence ne dépend pas de l’existence d’une autre entité.
- Entités faibles : son existence dépend de l’existence d’une autre entité.
Ex : l’entité CONTRAT n’existe que si l’entité CLIENT correspondante est présente.
• Attributs : caractéristiques ou propriétés des entités. Un attribut peut être obligatoire ou facultatif et avoir un domaine
de valeurs.
• Les relations : représentent les liens existants entre les entités.Contrairement aux entités, les relations n’ont pas de
relations propres. Les relations sont caractérisées, comme les entités, par un nom et éventuellement des attributs.
• Cardinalité : la description complète d’une relation nécessite la définition précise de la participation des entités. La
cardinalité est le nombre de participation d’une entité à une relation.
Cardinalité un à un : si et seulement si un employé ne peut être directeur que dans un seul département et un
département n’a qu’un seul employé comme directeur.
Cardinalité un à plusieurs : un département peut occuper plusieurs employés qui réalisent différentes fonctions mais
chaque employé ne fait partie que d’un seul département.
• L’identifiant : parmi tous les attributs de l’entité, l’identifiant est un attribut ou un ensemble d’attributs permettant de
déterminer une et une seule entité à l’intérieur de l’ensemble. Graphiquement les identifiants sont les attributs
soulignés. L’entité faible aura un identifiant composé de l’identifiant de l’entité dont elle dépend et d’un autre attribut.
Une situation à modéliser peut avoir plusieurs schémas différents, chaque modèle présentant des avantages et des
inconvénients.
Pour mesurer la qualité d’une modélisation ER il existe plusieurs critères à utiliser de manière combinée :
• L’expressivité : traduit la richesse sémantique du schéma. Peut-être caractérisée par exemple par le nombre de
concepts et/ou contraintes exprimés dans le tableau ;
• La minimalité : tend à privilégier les schémas avec un nombre de redondances minimales ;
• La lisibilité : consiste à évaluer la représentation graphique proprement dite ;
• La simplicité : privilégie les schémas contenant un nombre de concepts minimum. On peut la mesurer par exemple on
calculant le nombre d’entités et d’associations présentes sur un schéma.
1. Conclusion partielle
Les bases de données relationnelles sont largement utilisées dans le monde de l’informatique pour stocker et gérer
des données structurées. Des exemples de bases de données relationnelles populaires comprennent MySQL,
PostgreSQL, Oracle Data base,…
Ces bases de données sont utilisées dans une variété d’applications, des sites web dynamiques, aux systèmes de
gestion d’entreprise complexes.
Thème 2:
NoSQL
2-1 Définition
Les bases de données NoSQL sont des systèmes de gestion de bases de données qui
utilisent des modèles de données différents des bases de données relationnelles. Les
données sont stockées dans des documents, des graphes ou des paires clé-valeur, et les
relations entre les données sont gérées différemment. Les bases de données NoSQL sont
conçues pour être évolutives, flexibles et rapides, ce qui les rend idéales pour lesapplications web, mobiles et de
l'Internet des objets.
● 2-2- Différent type de NOSQL
Il existe plusieurs types de bases de données NoSQL, notamment les bases de données de
documents, les bases de données de graphes, les bases de données clé-valeur et les bases
de données de colonnes. Chaque type de base de données NoSQL a ses propres
avantages et inconvénients, et il est important de choisir le type de base de données qui
convient le mieux à votre application.
Les bases de données de documents : stockent les données sous forme de

documents JSON ou XML, ce qui les rend flexibles et évolutives.
- Les bases de données de graphes : stockent les données sous forme de noeuds
et de relations, ce qui les rend idéales pour les applications qui nécessitent des
analyses de graphes complexes.
Les bases de données clé-valeur: stockent les données sous forme de paires
clé-valeur, ce qui les rend très rapides et évolutives.
- Les bases de données de colonnes :stockent les données en colonnes plutôt
qu'en lignes, ce qui les rend idéales pour les applications qui nécessitent des
analyses de données complexes.
● 2-3 Avantage et inconvénients de chaque type de bases de données
● AVANTAGE :
-Les bases de données de documents sont flexibles, évolutives, et peuvent stocker des
données semi-structurées.
- Les bases de données de graphes sont idéales pour les analyses de graphes complexes, peuvent gérer des
données très connectées.
-Les bases de données de clé-valeur sont très rapides et évolutives, idéales pour les
applications nécessitant des opérations de lecture et d'écriture rapides.
- Les bases de données de colonnes sont idéales pour les analyses de données
complexes, peuvent stocker des données très volumineuses.
● INCONVÉNIENTS :
-Les bases de données de documents peuvent être moins performantes que les autres
types de bases de données NoSQL pour les requêtes complexes.
types de bases de données NoSQL pour les requêtes simples.
-Les bases de données clé-valeur: moins flexibles que les autres types de bases de
données NoSQL, ne peuvent pas gérer des données complexes.
-Les bases de données de colonnes: moins flexibles que les autres types de bases de
données NoSQL, peuvent être moins performantes pour les requêtes simples.
Thème 3: Data wharehouse
introduction
« Data wharehouse est une collection des données orienté sujet, intégrés, non volatile et historisées et
organisées pour le support d’un processus d’aide à la décision » d’après Bill Inmon
Définition
Data wharehouse est un entrepôt de données hébergée sur un serveur dans un Data center ou dans le
Cloud, il recueille des données de diverse source varies et hétérogènes comme les applications, des
bases de données , des fichiers Excel et autres alors ces données sont organisées et structurées.
Importance
Grace à ces entités définies selon les sujet et les activités en matière de stockage, il permet l’analyse
complète et orienté d’un ou de plusieurs sujets menant à la prise des décisions .
En un mot les données stockées sont destinés qu’à l’analyse et à la prise des décisions.
Fonctionnalité
Dans le cadre Data wharehouse il est indispensable de parle :
-OLTP Database et de ETL

C’est quoi un OLTP Data Base ? ( on line transactionale processing)
C’est une base donnée opérationnelle mise à jour à temps réel c’est – à – dire la production des données d’une
manière quotidienne comme les achats on ligne, les transaction bancaires . . . Types des informations ou des
données mise à jour à l’instant
Ex: le retrait d’une somme d’argent par une carte monétique à la Mucodec
-Vous avez le montant global
-Vous avez le montant retiré
-vous avez le montant restant
Une information mise à jour à l’instant
C’est quoi un ETL ? ( Extraction transform and load )

« copie des données avec transformation »
En résumé les données d’une base de données OLTP peuvent etre stocker dans le wharehouse grace
au processus ETL qui qui consiste à extraire les données , les transformées ( traiter, structurer,
organiser) puis chargé dans le Data wharehouse
NB:
les information sont accessible par requête pour être analyser pour des besion comme data minig, le
reporting…
Avantage et inconvénients
I – Avantages
- Les données sont déjà traités structurés orientés et prêt a être avaliser
- Les données sont consultables en tant réel
- Les données stockées dans le wharehouse permettent la prise des décision juste après analyse de la part
des chefs d'entreprises
- Les données ne sont pas volatile et historisées c’est – à – dire les données ne change pas et ne disparaissent au fil
du temps
II- inconvénients
les données ne sont plus manipulable (modifier) au niveau du data wharehouse
Conclusion
Le data wharehouse extraits les données des diverses sources à l’aide de ETL (c’est – à – dire extraction, traitement
et chargement ) donc les données sont bien structures, organiser et orienté près pour l’analyse afin de permettre de
prendre les décision ou pour le reporting , data mining et autres.
Thème 3:
Data lake
Un data lake est un emplacement de stockage centralisés qui contient des Big data sous forme brut et granulaire
provenant d’un grand nombre de sources. Donc un concept qui est lié à big Data.
De ce fait il est caractérisé par :
- Le volume
- La variété
- La vélocité
*Le Volume
On parle de centaines de terra, de Exaoctets, Pétaoctet a stocker.
*La variété
On voie à cet effet des données venant de multiples sources comme les logs, les transactions, les
Application.
*La vélocité
la capacité à générer rapidement les données les stockées
On parle de million d’opération par seconde en écriture.
Importance
Data lake bien qu’il stocke plusieur type de données variées venant des sources diverses avec des volume important
voir infini comme une centaine de terra, exaoctets ou pétaoctets il est bien placé pour les projet de la machine
learning et l’intligence artificielle
Les application de la data lake son plus orienté à la machine learning et l’intelligence artificielle
Fonctionnalité
La data lake extrait les données à l’aide de ELT ( Extraction, stockage puis traitement)
L’ELT permet l’extraction des données à l’état natif c’est – à – dire les données sont extraites avec leurs format
originels sans modification de forme ni taille donc pas de structuration ni d’organisation.
Les Avantages et les inconvénients

I -Les Avantages
-La facile à créer
-La flexibilité de manipuler les données pour les données diverses
-La rapidité à la transformation juste après chargement dans la data lake
II-Inconvénients
-La nécessiter de beaucoup d’espace de stockage
-Données non structurée et non optimisées
Conclusion
En résumé le data lake est le stockage de grand volumes des données sans pensées à leur à exploitation (sans frein),
déversement brut sans penser à son utilité future
-sans schéma préalable en vue d’exploitation
-sans forcement d’utilisation identifiée

Présentation de L'expose Data Science GROUPE 5

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Présentation de L'expose Data Science GROUPE 5

Transféré par

Droits d'auteur :

Formats disponibles

Thème:

I. Bases de données relationnelles :

Les bases de données de documents : stockent les données sous forme de

-OLTP Database et de ETL

C’est quoi un ETL ? ( Extraction transform and load )

Les Avantages et les inconvénients

Vous aimerez peut-être aussi