Vous êtes sur la page 1sur 63

1

Chapitre 1 -
Systèmes décisionnels et
entrepôts de données
Master Systèmes d’Information et Génie Logiciel
Année académique - 2020/2021

Laetitia MOUAFO
Historique – générations de SGBD
2
Historique – Applications
3
Historique – Applications
4
Historique – Structure et Type de données
5
Historique – Exemples de SGBD
6
7
L’information

• Nouvelle ressource des entreprises du


XXIème siècle
• Avec le temps, les entreprises produisent et
manipulent de très importants volumes de
données
• Ces données sont stockées dans les systèmes
opérationnels de l’entreprise au sein de bases
de données
Quelle quantité d’information ?

• en 2000 :
• entre 1 et 2 ExaOctets par année (1 Eo =
220 To)
• 90% électronique
• taux de croissance annuel de 50 %
• en 2003 : 5 Eo en 2002, 92% électronique

• Les bases de données ne suffisent plus


Motivations des entreprises
9

• Besoin des entreprises


• accéder à toutes les données de l’entreprise
• regrouper les informations disséminées
• analyser et prendre des décisions rapidement

• Exemples d’applications concernées


• Grande distribution : marketing, maintenance, …
• Bancaire : suivi des clients, gestion de portefeuilles
• Télécommunications : pannes, fraudes, mobiles, …
La prise de décision en entreprise
10

• Une décision est le résultat d'un processus


comportant le choix conscient entre plusieurs
solutions, en vue d'atteindre un objectif.
• L'efficacité des services d'une entreprise dépend
de la qualité de ses décisions.
• Améliorer l'habilité à prendre des décisions,
c’est faire usage des ressources dont dispose
l'entreprise.
11
Processus décisionnel

Un processus décisionnel peut être découpé


en cinq étapes
1) Définir le problème
2) Rassembler les faits et données
3) Evaluer et interpréter les faits et données
4) Etablir plusieurs solutions
5) Décider (choisir une solution)
12
Informatique décisionnelle

• La mise en place d’un système informatique


décisionnel a pour objectif de faciliter la tâche au
décideur dans son processus de prise de décision.
• L’informatique décisionnelle permet d’accélérer
drastiquement le temps de rassemblement des
faits et données et leur interprétation
• C’est un ensemble d’outils qui ne remplace en
aucun cas le décideur.
13
Système d’aide à la décision

L’objectif est toujours d’automatiser/fiabiliser les


tâches répétitives
Architecture des systèmes décisionnels
14

Extracteur

Integrateur
Referentiel
Extracteur
Entrepôt de
données
Extracteur

Sources Décideurs
Des bases de données aux entrepôts de données
Entrepôt de données : définition
16

Définition 1 (Goglin) : un entrepôt de données est un


stockage intermédiaire de données issues des applications
de production, dans lequel les utilisateurs finaux puisent
avec des outils de restitution et d’analyse.

Définition 2 (Bill Inmon) : Un entrepôt de données est une


collection de données thématiques, intégrées, non volatiles
et historisées organisées pour la prise de décision.

Inmon et Codd sont considérés comme les auteurs du


concept dans le début des années 90.
« Thématiques »
17
• Thématique = "Orienté sujet " .

• Orienté par thème et non plus par fonction.

• Exemples :
• Dans les bases de données opérationnelles : assurance vie,
assurance automobile, paye, facturation.

• Dans les bases de données décisionnelles : client, produit, réseau


de distribution, médicament, marché, absences, réussite.

• Ce côté est renforcé dans les magasins.


18
« Intégrées »
• L’entrepôt n’est pas une concaténation des sources, les
données sont sémantiquement intégrées.
• Exemples :
• Reconnaître qu’il s’agit de la même personne malgré un
déménagement
• Reconnaître qu’il s’agit du même produit malgré des codes barres
différents

• Remarque : très difficile, mais indispensable.


« Non volatiles, historisées »
19

• Pas de suppressions.
• Nécessité d’un référentiel de temps.
• L’historisation permet
• l’extrapolation,
• la mesure de l’impact d’une décision par comparaison
de la situation avant et après la mise en application de
cette décision.
• Exemple :
• Suivi des évolutions des comportements des clients.
« Agrégées »
• 20
Niveau de granularité.
•Exemple :
• Stockage de tous les appels téléphoniques pour un client
APPEL_TELEPHONIQUE (n° client, horo-date, durée,
correspondant, étranger, etc...)
(300 clients, 200 tuples par client, 60000 tuples d’appels).
• Stockage agrégé par client sur 1 mois
APPEL_TELEPHONIQUE (n° client, mois, nombre
d’appel, durée moyenne, nombres d’appels vers l’étranger)
(300 tuples d’appels).
« Prise de décision »
21
• Les systèmes " opérationnels " (ou de " production
", ou de " gestion " ) sont dédiés aux métiers de
l’entreprise pour les assister dans leurs tâches de
gestion quotidiennes (et directement opérationnels).
Enterprise Resource Planning
• Les systèmes " décisionnels " sont dédiés au
management de l’entreprise pour l’aider au pilotage
de l’activité (et indirectement opérationnels).
Ils offrent au décideur une vision transversale de
l’entreprise.
DataWarehouses
Architecture des DWH
22
Architecture DWH multi-tiers
23
Quelques Exemples
24
• Suivi du comportement de la clientèle dans les télécommunications
• Nombre moyen d’heures par mois et par région,
• répartition des appels clients sur la semaine,
• Répartition des appels clients sur la journée,
• nombre moyen d’appels représentant 20% d’une facture,
• Durée moyenne d’une communication urbaine,
• Durée moyenne d’une communication internationale.
• Suivi du marché (lignes installées, désinstallées, services choisis, répartition
géographique)
• Comportement du réseau (pannes)
Quelques Exemples
25

• Quel est le volume des ventes par produit, par région, pour le 3ième
trimestre 2009 ?
• Quel est le volume des ventes de produits laitiers, pour la région
parisienne, par an, pour les 5 dernières années ?
• Quel est le type de produits dont les ventes baissent constamment
dans les 6 derniers mois de l’année en cours ?
• Est-ce qu’une baisse de 10% ferait redémarrer les ventes de
disques ?
Différences transactionnel / décisionnel
26
Transactionnel Décisionnel
Données - sur une période courte - historisées
- détaillées - agrégées
- personnelles - peuvent être anonymes
- mises à jour - recalculées
- temps de validité, de - temps de validité, de
transaction transaction, d’extraction
Traitements - requêtes simples - requêtes complexes
- répétitives - variées
- très sensible aux - échelle de performance
performances différente
Différences transactionnel / décisionnel
27

Transactionnel Décisionnel
Conception - orientée fonction - orientée sujet
- relativement statique - évolutif
Utilisateurs - agents opérationnels - manager
Nbres d’ utilisateurs
- milliers - centaines
tuples accédés - dizaines/centaines - millions

base de données - centaines de MB/GB - centaines de


GB/TB
Les sources de données
28
• En général les "legacy systems", c'est-à-dire
principalement les bases de données de production.
• exemples : factures, fichier des nouveaux clients.
• On extrait justement les données pour ne pas travailler
directement sur les sources.
- "Décisionnel et transactionnel ne font pas bon ménage
",
- perturbations,
- supports physiques différents,
- outils et utilisateurs différents.
Les sources de données
29

• Mais aussi des sources extérieures :


• météo,
• calendrier des jours fériés,
• cours de la bourse,
• Géographie (études épidémiologiques,
accidents de la route),
• études INSEE.
L’extraction des données
30

• A pour but d'extraire les données et de les mettre


dans un format commun.
• Choisit d'extraire ce qui est nécessaire
• on n'importe pas la totalité des sources,
• satisfaire les "vues utilisateurs".
• Applique une stratégie de rafraîchissement
• périodicité,
• ou déclenchement.
L’extraction des données
31
3 principales techniques :
• Ecrire des interfaces entre les sources et l'entrepôt,
• Exploiter les fonctionnalités de réplication offertes par
les SGBD,
• loader, triggers, passerelles, copies, logs, vues, etc

• Utiliser un outil ETL
• génère les programmes d'alimentation,
• peut gérer leur déroulement,
• intégration de données.
L’intégration des données
32

• Intégration des données dans l'entrepôt en résolvant les


conflits entre les différentes sources d'information
• codages, fautes d'orthographe, etc…
• tables de conversion, etc …

ETUDIANTS nom sexe adresse


Figue 1 Paris
Fraise 2 Toulouse
PROF nom sexe adresse
Figue M 4, av. Foch Paris
Fraise F 4, av. Foch Paris
L’intégration des données
33
•Différence de codage:
• sexe = M/F sexe = 1/2
•Différence d’unité
• poids = 4000 poids = 4
• taille = 38 taille = 7
•Différence de granularité
• heures travaillées = 35 heures travaillées = 150
•Différence de fraîcheur :
• âge = 20 âge = 21
•Imprécision
• poids = 54,2 poids = 54
•Erreur :
• nom = « Clémentine » nom = « Clémentinne »
L’intégration des données
34

• Différence de contenu dans les textes libres :


• adresse = « Père Noël, cercle polaire, Rovaniemi, Finlande »
•adresse = « cercle polaire, Rovaniemi, Finlande »

• Différence d’expression dans les textes libres :


• adresse = « 4 av. du gal Leclerc »
•adresse = « 4 avenue du général Leclerc »

• Différence linguistique de niveau de perception dans les textes libres :


• couleur = « rouge »
•couleur = « vermillon »
• prescription = « antibiotique »
•prescription = «pénicilline »
L’intégration des données
35

• Exercice 1
VOITURE NUM COULEUR VOITURE NUM COULEUR

1 AZUR 1 BLEU

2 VIOLET 2 BLEU

4 VERT 3 ROUGE

4 VERT
Source 1

Source 2
Intégration ?
L’intégration des données
36

• Exercice 2
ETUDIANT NUM NOM SEXE POIDS
1 JEAN 1 54,2
Source 1
2 LAURA 2 65,6
3 HENRI 1 48,4

ETUDIANT NUM NOM SEXE POIDS


1 JEAN M 54
2 LAURA F 66 Source 2
3 HENRY M 48
4 FRED M 70

Intégration ?
L’intégration des données
37
• Exercice 3
ETUDIANT NUM NOM ADRESSE
1 JEAN 4 AV GAL DE
GAULLE
2 SOPHIE 13 AV DES
TILLEULS
3 PAUL

ETUDIANT NUM NOM ADRESSE


1 JEAN 4 AVENUE DU
GENERAL DE
GAULLE
2 PAUL

3 SOPHIE 13 AVENUE DES


TILLEULS
4 FRED
Les métadonnées
38
• Les méta-données regroupent l'ensemble des
informations concernant l'entrepôt et les processus
associés.
Destinées

Aux utilisateurs Aux équipes et outils SGBD


responsables du
processus de
transformation des
données de
production vers
l'entrepôt.
Les métadonnées
39

2 principales utilités

Carte routière Pour les algorithmes + méta-


pour d'extraction, intégration, données
l'interrogation nettoyage, habituelles
rafraîchissement, (types,
Utilisateurs historisation, qualité. autorisations
(localisation, règles de )
transformation, flux)
SGBD
Responsables des processus
(équipes, outils)
Les magasins
40
• Sous-ensemble de l’entrepôt,
• Temps d’accès réduits, volume réduit, coût réduit,
• Orienté vers un sujet particulier,
• Les données sont adaptées à une classe de décideurs ou
à un usage particulier (ex: fortement agrégées, DM)
généralement modélisé sous forme multidimensionnelle,
• Nécessité de définir une stratégie d’extraction de
l’entrepôt,
• On peut avoir des sous-magasins.
Outils de restitution
41

• sur les magasins, ou directement sur l’entrepôt,


• requêtes SQL, SQL/OLAP
• tableurs,
• outils requêteurs spécialisés (outils de reporting),
• progiciels spécialisés,
• sortie web,
• logiciels de datamining,
• sortie système expert.
OLTP - OLAP
42

OLTP : On-Line Transaction Processing


Dans une base de données de type relationnelle, les données
sont stockées sous formes de tables décomposées en
colonnes et en lignes, chaque ligne représente un
enregistrement de la base de données.

OLAP : On-Line Analytic Processing


OLAP est un terme pour décrire l'approche dimensionnelle
de l'aide à la décision.
OLTP - OLAP
43

• Le traitement des données en mode transactionnel


OLTP) est totalement différent du domaine des
systèmes dimensionnels (OLAP).

• Les systèmes diffèrent pour :


– Les utilisateurs
– Le contenu des données
– Les structures,
– L ’administration
Analyse multidimensionnelle
44

• On rencontre plusieurs techniques d’analyse de


données, l’analyse multi-dimensionnelle est
particulièrement utilisée en informatique
décisionnelle.
• L’analyse multi-dimensionnelle permet d’analyser
des mesures selon différents paramètres
(multiples) qui peuvent avoir un effet sur celles-ci
Exemple
45

• Une société désire construire une base de données pour suivre


l'évolution de ses ventes par mois et par catégories de produits de
ses différents magasins.
• Pour chaque magasin, elle dispose d ’une table qui contient les
ventes
Exemple
46

• Pour analyser ces données, on peut par exemple placer les mois en
ligne et les catégories en colonne.
• Si l ’on veut comparer les ventes par rapport aux catégories, par
magasin et par mois. Il devient difficile de dessiner un simple
tableau.
• On parle alors de cube
Représentation graphique
47
multidimensionnelle
Toutes les ventes pour un magasin
48
Toutes les ventes d’une catégorie d’article
49
Toutes les ventes d’un mois
50
Les ventes d’un mois pour une
51
catégorie dans un magasin
Le modèle multidimensionnel
52
• Souvent appelé modèle OLAP (On Line
Analytical Processing) (Codd, 1993).
• Présenté comme une alternative au modèle
relationnel.
• Correspond mieux aux besoins du décideur.
• "Orienté sujet".
• " Cube" centré sur une activité.
• Exemple : vente.
Les faits
53
• Un cube relate un fait. L’activité est caractérisée par des
faits qui se produisent (événements).
• Exemples :
• fait de vente,
• fait de notation,
• fait de passage de transaction boursière,
• fait de consultation médicale,
• fait de dépense dans un hôpital,
• fait d’absence de cours,
• fait de marquage de but,
• fait de fréquentation d’un cinéma.
Les indicateurs
54
• Les faits sont quantifiés par des indicateurs, également appelés
"métriques", ou "mesures", ou "variables".
• Par exemple le fait de vente se caractérise par la quantité vendue et le
montant de la vente.
• Ce sont les cellules du cube. Les indicateurs représentent une
quantité mesurable, un fait observé.
• Chaque indicateur a une fonction d’agrégat (on peut les additionner,
ou calculer le minimum, ou la moyenne).
• Ils sont généralement numériques et additifs :
Le montant des ventes est additif (se somme sur toutes les
dimensions), le niveau du stock est semi-additif (se somme sur les
produits, mais pas sur le temps), la moyenne de fréquentation est
non additive.
Les indicateurs
55
• Exemples :
• CA par produit/agence/dans le temps,
• coût moyen d’une hospitalisation par pathologie,
• le nombre de visiteurs moyens dans un établissement,
• taux d’occupation des lits,
• nombre d’articles en stock,
• satisfaction,
• taux de remplissage des avions par vol,
• temps d’attente moyen au supermarché,
• nombre de connexions sur un site web,
Les indicateurs
56

• Formule : On appelle "formule" une mesure non stockée,


obtenue à partir des mesures stockées.
• Exemples : prix moyen = total ventes / nombre vendu

• Remarque : il existe des faits sans mesures, les "dummy


measures"
• Exemple : location d'une voiture, consultation à hôpital,
réservation d'un livre.
• L'agrégation sera le comptage des faits.
Les dimensions
57

• Les "dimensions" sont les axes d'analyse.


• Exemples : produits, temps, région, promotion, fournisseur,
joueur, élève, hôpital.

• Chaque dimension est associée à une hiérarchie.


• Exemples :
• continent -> pays -> région -> ville -> magasin
• année -> trimestre -> mois -> jour
• catégorie-> sous-catégorie -> produit
Modélisation en étoiles
58
Produit

clé_produit
description
Temps marque
Fait de Vente
catégorie
clé_temps sous_catégorie
heure clé_temps
clé_produit couleur
jour taille
semaine clé_magasin
mois
année montant_ventes
férié quantité_vendue Magasin
événement
clé_magasin
adresse
ville
département
secteur_vente
surface
Modélisation en flocons
59
Produit Sous_catégorie

clé_produit clé_sous_catégorie
description sous_catégorie
Temps marque catégorie
Fait de Vente clé_sous_catégorie
clé_temps couleur
heure clé_temps taille
jour clé_produit
semaine clé_magasin
mois
année montant_ventes Magasin
quantité_vendue Localisation
férié
événement clé_magasin clé_localisation
clé_localisation adresse
secteur_vente ville
surface département

Les tables de dimension sont normalisées


Modélisation en constellations
60
Produit

clé_produit
description
Temps marque
Fait de Vente clé_sous_catégorie
clé_temps couleur
heure clé_temps taille
jour clé_produit
semaine clé_magasin
mois
année montant_ventes Magasin
férié quantité_vendue
événement clé_magasin
clé_localisation
secteur_vente
surface

Les tables de dimensions sont partagées par plusieurs tables de faits


Opérateurs multidimensionnels
•61Roll-up, ou agrégation, ou consolidation, ou drill-up, ou
scale-up, ou forage vers le haut.
Agréger selon une dimension : Semaine → Mois
• Drill-down, ou désagrégation, ou segmentation, ou
roll_down, ou drill-trough, ou forage vers le bas.
Détailler selon une dimension : Mois → Semaine
• Slice, ou projection. Projeter(Région, Produit)
• Dice, ou selection, ou filtering, ou screening. Mois =
01/01/2009
• Pivot, ou rotation. Tourne le cube pour visualiser une
face.
Exercices
62
Soit le tableau multidimensionnel suivant (Produits,
Villes, Temps) :
T1 2009 T2 2009 T3 2009 T4 2009
Appareil Paris 10 12 15 23
Photo Marseille 12 15 14 18
numérique
Lyon 7 12 9 13
Créteil 5 9 21 8
Lecteur Paris 12 9 17 25
DVD Marseille 18 16 19 17
Lyon 13 16 17 14
Créteil 6 12 18 21
Home Paris 29 23 25 24
Cinéma Marseille 19 18 23 19
Lyon 17 17 20 22
Créteil 14 17 18 17
Ecrans Paris 16 18 19 20
plats Marseille 15 14 17 18
Lyon 21 28 26 29
Créteil 9 8 10 9
Exercices
63

• Modèle en étoile « Fait de vente »


• Cube
• Opérateurs multidimensionnels (Roll up, Dice,…)

Vous aimerez peut-être aussi