Vous êtes sur la page 1sur 8

L3-Informatique Paris 8

Base de donnes
Rim Chaabane rchaabane@ai.univ-paris8.fr

- Sance 1 -

Introduction aux bases de donnes


1. Introduction
1.1.

Quest-ce quune base de donnes

Dfinition : Un ensemble dinformations logiquement relies entre elles.


Plus prcisment, nous appellerons base de donnes un ensemble structur et organis
permettant le stockage de grandes quantits dinformations afin den faciliter
lexploitation (ajout, mise--jour, recherche de donnes).
Le stockage de ces informations en base de donnes permet lvolution indpendante
des programmes et des donnes.
La mise en uvre de ce stockage se fait au moyen dun outil logiciel spcialis : Le
Systme de Gestion des Bases de Donnes (ou SGBD1).

1.2.

Problmatique de la cohrence des donnes

La cration dune base de donnes rpond au besoin de rassembler des donnes qui
possdent un lien entre elles, dans le but de retrouver de linformation en utilisant des
critres de recherche bass sur le contenu de cette information.
Prenons lexemple dune base de donnes sur des albums musicaux qui mmorise, pour
chaque album, le genre, lartiste et le titre de lalbum. Ci-dessous un extrait de cette
base :
Genre
Alternative Rock
Altern Rock
Alternative Rock
Altern Rock
Flok-Rock
Flok/Rock

Artiste
les Wampas
Les Wampas
Wampas
LesShriff
Joan Osborne
Leonard Cohen

Titre
Les Wampas vous aiment
Tutti frutti
Les bottes rouges
Les deux doigts dans la prise
Righteons Love
Songs From A Room

Les donnes reprsentes dans cette base, souffrent de plusieurs problmes qui
compromettent leur consultation. Par exemple, le groupe Les Wampas est reprsent de
trois manires diffrentes dans la base : Les Wampas, les Wampas et Wampas. Ainsi une
recherche de la chane Les Wampas ne va retourner que le Titre Tutti frutti, alors que
1

DBMS en anglais pour Database Management System.

L3-Informatique Paris 8
Base de donnes
Rim Chaabane rchaabane@ai.univ-paris8.fr

- Sance 1 -

le groupe possde trois titres dans la base. De mme pour les genres, nous trouvons les
mmes genres avec des syntaxes diffrentes.
La cohrence des donnes est la problmatique fondamentale des bases de donnes.
Ainsi, les critres que doit satisfaire une base de donnes sont :
- Bonne reprsentation du monde rel
o Elle doit tre une image fidle de la ralit.
o Les informations de la base doivent tre fiables et jour.
- Non redondance de linformation
o Une information doit tre situe physiquement dans un seul endroit.
- Indpendance des programmes dapplication par rapport aux donnes
o La base est limage du modle rel et les programmes sont construits
aprs la structure de la base de donnes.
- Scurit et confidentialit des donnes
o La scurit physique des donnes doit tre assure (sauvegarde).
o Laccs une donne ne doit tre autoris que pour les personnes
habilites.
- Performances des applications et des requtes
o Les rponses doivent tre aussi rapides que possible.
o Une organisation spcifique peut tre dfinie pour amliorer les temps de
traitement. Ce qui permet doptimiser laccs aux donnes.
Grandes classes dutilisation des bases de donnes :
- BD personnelles
o 10Ko 100Ko
- BD professionnelles typiques
o 100Ko 100Go
- BD professionnelles trs grandes ou Very Large DataBase (VLDB)
o >100Go

1.3.

Quest-ce quun SGBD

Le SGBD est un ensemble de programmes qui assure la gestion et laccs une base de
donnes. Un SGBD est multiutilisateurs, cest dire que plusieurs utilisateurs peuvent
accder au SGBR et ainsi manipuler les donnes de la base en mme temps.
Le SGBD permet chaque utilisateur deffectuer les tches suivantes :
- Mettre en forme
- Sauvegarder
- Manipuler
- Interroger
- Mettre jour la BD, tout en garantissant:
o Lintgrit
o La confidentialit des donnes dans un environnement multiutilisateurs
o La scurit des donnes

L3-Informatique Paris 8
Base de donnes
Rim Chaabane rchaabane@ai.univ-paris8.fr

- Sance 1 -

2. Histoire des SGBD


Le premier modle de SGBD ft dvelopp par IBM, dans le cadre du programme spacial
Appolo de la NASA, pendant les annes 1960. Il sagit du modle hirarchique. A la fin
des annes 1960, Charles Williams Bacham proposa le modle rseau, qui gnralise le
modle hirarchique. Les premires spcifications de ce modle furent publies en 1969
par le groupe de travail DBTG (Data Base Task Group) de lorganisme amricain
CODASYL (Conference On Data Systems Languages). Charles Williams Bacham reu le
prix de Turing2 en 1973 pour ses contributions sur les technologies des bases de
donnes.
Durant cette priode, les ordinateurs volurent rapidement en termes de puissance, de
diffusion et de cot. Cette volution permit aux modles informatiques et aux langages
de programmation datteindre un niveau dabstraction suffisant pour les rendre
indpendants dune architecture systme spcifique. Cest dans ce contexte favorable
quEdgar Frank Codd, directeur de recherche du centre IBM, publia en 1970 un article
dans lequel il proposait de stocker des donnes htrognes dans des tables. Ce modle
qualifi de relationnel (car il mettait en relation les tables entre elles), tait lpoque
qualifi comme une curiosit intellectuelle. En effet, il ntait pas vident que des tables
puissent un jour tre gres de manire efficace par un ordinateur. Ce scepticisme na
cependant pas empch Codd de poursuivre ses recherches et son modle simposa
rapidement.
Le paradigme orient objet en programmation est n avec le langage Simula (SIMple
Universal Language) en 1967. Il est donc antrieur au modle rationnel. Mais il fallut
attendre les annes 80 pour observer le plein essor de la programmation objet, et
seulement les annes 90 pour son arrive dans le monde industriel avec des langages
comme C++, Java ou encore Python. La notion de base de donnes objet sest galement
prcis en dbut des annes 90. Le dveloppement des SGBD objet sest vite heurt la
ncessit de compatibilit avec lexistant, cest--dire avec le modle relationnel. Do
lmergence du modle relationnel-objet dont lobjectif est dtendre le modle
relationnel avec les concepts essentiels de lobjet. Cette extension objet du modle
relationnel a fait lobjet dune nouvelle norme en 1999 : la norme SQL-3.

2.1.

Le modle hirarchique

Un SGBD hirarchique lie des enregistrements dans une structure arborescente de faon
ce que chaque enregistrement nait quun seul possesseur : lien pre/fils. Les donnes
sont classes hirarchiquement, selon une arborescence descendante. Ce modle utilise
des pointeurs entre les diffrents enregistrements.

Equivalent du prix Nobel pour linformatique.

L3-Informatique Paris 8
Base de donnes
Rim Chaabane rchaabane@ai.univ-paris8.fr

- Sance 1 -

A
B

Ce modle est encore utilis de nos jours :


- IMS (Information Management System) dIBM (cre pour le programme Apollo
de la NASA.  utilis par prs de 200 millions dutilisateurs par jour. Plus de
95% des compagnies Fortune 1000 utilisent IMS.
- TOTAL de Cincom

2.2.

Le modle rseau

Comme le modle hirarchique, ce modle utilise des pointeurs vers des


enregistrements. Toutefois la structure nest plus forcment arborescente dans le sens
descendant.
A
B

Ce modle est encore utilis de nos jours :


- IDMS (Information Management System) de Computer Associates
- IDS2 de Bull
- EMDS de Xerox
Bien que simples, les modles hirarchiques et rseaux prsentes quelques
inconvnients :
- Incohrence des donnes : redondance de linformation.
- Cots levs : ncessitent de la place mmoire avec la gestion de pointeurs.
- Maintenance difficile :
o modifier, ajouter et effacer sont complexes.
o Lorsquon dtruit un nud tous ses fils sont galement dtruits.
o Possibilit de perte dinformation en supprimant des donnes.
- Difficults de gestion :
o Pas de gestion de panne.
o Pas de partage des donnes.
o Pas de confidentialit.

L3-Informatique Paris 8
Base de donnes
Rim Chaabane rchaabane@ai.univ-paris8.fr

2.3.

- Sance 1 -

Le modle relationnel (SGBD-R)

Dans ce modle, les donnes sont enregistres dans des tableaux deux dimensions
(lignes et colonnes). Il existe des liens ou relations entre les tables.
Docteurs

Id-d
1
2
3

Patients

Nom
Postec
Abitbol
Martin

Id-p
1
2
3

Prenom
Franois
Marc
Anne

Nom
Dupond
Durand
Masse

Prenom
Pierre
Paul
Jean

Champs, attributs,
colonnes
Visites

Id-V
1
2
3

Id-d
2
1
2

Id-p
1
2
3

Date
15/06
12/08
13/07

Tuples, lignes ou
n-uplets

Table ou
Relation
La manipulation de ces donnes se fait selon la thorie mathmatique des relations.
Rappelons que le crateur de ce modle travaillait au sein dIBM. Il tait par ailleurs
mathmaticien de formation. Cest pour cela quil tait persuad de pouvoir sappuyer
sur la thorie des ensembles et la logique des prdicats. Il dveloppa le langage SEQUEL
(Structured English QUEry Language), qui sera ensuite rebaptis SQL (Structured Query
Language).
A partir de la fin des annes 90, les bases de donnes relationnelles sont les bases de
donnes les plus rpandues.
Avantages de ce modle :
- Eliminer la redondance des donnes.
- Centraliser et organiser correctement les donnes.
- Plusieurs niveaux de modlisation.
- Outils de conception.
- Administration facilite.
5

L3-Informatique Paris 8
Base de donnes
Rim Chaabane rchaabane@ai.univ-paris8.fr
rchaabane@ai.univ

2.4.

- Sance 1 -

Le modle orient objet

Les bases de donnes orientes objet sintgrent dans la mouvance de la conception


objet et des langages de programmation Java, C++ ou encore Python. Lobjectif principal
de ce type de BD est dunifier les technologies de bases de donnes et de
programmation oriente objet (POO).
Dans les annes 90, cette ide dunification des technologies sest prcise mais du
faire face labsence de standards. Un groupe de travail, lODMG (Object Data
Management Group), a alors t cre linitiative de Sun Microsystems, afin de
dterminer un standard. Ce groupe a alors propos une extension objet au SQL appele
OQL. SQL-3
3 intgre ce type dextension, et est adopt dans Oracle et Sybase ainsi que
tous les grands constructeurs. Il entre alors en concurrence avec OQL. LODMG disparait
en 2001, et comme SLQ-3
3 est en cours de standardisation ce qui lui donne lavantage sur
OQL.
Notons que les langages de programmations possdent des librairies leur permettant de
sadresser
dresser des bases de donnes de type relationnelles.

3. Les SGBD-R
3.1.

Les niveaux de conception dune BD

Rel

Modle conceptuel

Modle logique

Modle Physique

Indpendant du
modle de donnes
Indpendant du
SGBD

Dpendant du
modle de donnes
Indpendant du
SGBD

Dpendant du
modle de donnes
Dpendant du SGBD

Modle Entit/association

Codasyl

Relationnel

Objet

XML

Organisation physique des donnes


Structures de stockage des donnes
Structures acclratrices (index)

L3-Informatique Paris 8
Base de donnes
Rim Chaabane rchaabane@ai.univ-paris8.fr

3.2.

- Sance 1 -

Les principaux SGBD-R

Les principaux SGBD-R par ordre dcroissant de part de march: Oracle, DB2(IBM), SQLServer (Microsoft), Sybase (Teradata).  Systmes payants
Systmes libres : MySQL, PostgreSQL et Firebird.

Ces SGBD-R son bass sur une architecture ANSI/SPARC trois niveaux :
- Le niveau externe ou logique : accessible aux utilisateurs et aux programmes
dapplications. Chaque utilisateur a une vision partielle ou vue de la base. Cette
notion de vue apporte une solution des questions dergonomies, en permettant
de masquer la complexit de la base de donnes, ainsi qu des problmes de
scurit et de confidentialit.
-

Le niveau conceptuel : cest la phase de conception de la base de donnes (cf.


prochain chapitre). Elle permet de dcrire la structure de la base de donnes, en
dfinissant les contraintes associes aux donnes et les relations qui existent
entre elles. Ceci, sans se soucier de limplmentation physique de la base de
donnes.

Le niveau interne ou physique : Implantation de la BD sur les ordinateurs


(stockage des donnes sur disque).

3.3.

Les objectifs des SGBD-R

Indpendance physique des donnes : indpendance des programmes


dapplication cis vis du modle physique.
o Possibilit de modifier les structures de stockage (fichiers, index, chemins
daccs,) sans modifier les programmes.
o Ecriture des applications par des non-spcialistes des structures de
stockage.
o Meilleure portabilit des applications et indpendance vis--vis du
matriel.
Indpendance logique des donnes : bien que partageant la mme BD, les
programmes dapplication ou les utilisateurs peuvent avoir des vues diffrentes
des donnes. Ils nont donc pas de vision globale du schma conceptuel. Une
rorganisation du schma conceptuel ne doit pas avoir dimpact sur la vue des
utilisateurs.
Accs aux donnes : Laccs aux donnes se fait par un langage de manipulation
de donnes (DML), tel que SQL. Le langage doit tre optimis de manire
minimiser le nombre daccs disques, de faon transparente pour les utilisateurs.

L3-Informatique Paris 8
Base de donnes
Rim Chaabane rchaabane@ai.univ-paris8.fr

- Sance 1 -

Administration centralise des donnes : toutes les donnes doivent tre


centralises dans un lieu de stockage commun toutes les applications.

Non redondance des donnes : chaque information ne doit tre reprsente


qune seule fois dans la base, pour viter les problmes lors des mises jour.

Cohrence des donnes : Les donnes sont soumises des contraintes


dintgrit pour dfinir un tat cohrent de la base. Elles doivent tre exprimes
simplement et vrifies chaque insertion, suppression ou modification des
donnes (exemple : salaire entre 1K et 50k, ou Nom de type alphabtique ou
relations entre les donnes ex : prix de vente > prix dachat).

Partage des donnes : plusieurs utilisateurs peuvent intervenir sur les donnes
simultanment. Plus particulirement permettre la modification du contenu de la
base.

Scurit des donnes : associe des droits daccs aux utilisateurs. Pour protger
laccs certaines donnes.

Rsistance aux pannes : pouvoir rcuprer les donnes aprs une panne, soit en
rcuprant ltat de la BD avant la panne, soit terminer lopration interrompue.