Académique Documents
Professionnel Documents
Culture Documents
Introduction à l’informatique
décisionnelle
MOHAMED HAMOU
mohamed.hamou@gmail.com
Page : 1
L’information
Page : 2
Motivations des entreprises
Page : 3
La prise de décision en entreprise
Page : 4
Processus décisionnel
Page : 5
Informatique décisionnelle
Page : 6
Système d’aide à la décision
Page : 7
Architecture des systèmes décisionnels
Extracteur
Referentiel
Integrateur
Extracteur
Entrepôt de
données
Extracteur
Sources Décideurs
Page : 8
Entrepôt de données : définition
Page : 9
« Thématiques »
• Exemples :
• Dans les bases de données opérationnelles : assurance
vie, assurance automobile, paye, facturation.
Page : 10
« Intégrées »
Page : 11
« Non volatiles, historisées »
• Pas de suppressions.
• Nécessité d’un référentiel de temps.
• L’historisation permet
• l’extrapolation,
• la mesure de l’impact d’une décision par comparaison de
la situation avant et après la mise en application de cette
décision.
• Exemple :
• Suivi des évolutions des comportements des clients.
Page : 12
« Agrégées »
• Niveau de granularité.
•Exemple :
• Stockage de tous les appels téléphoniques pour un client
APPEL_TELEPHONIQUE (n° client, horo-date, durée,
correspondant, étranger, etc...)
(300 clients, 200 tuples par client, 60000 tuples d’appels).
• Stockage agrégé par client sur 1 mois
APPEL_TELEPHONIQUE (n° client, mois, nombre
d’appel, durée moyenne, nombres d’appels vers
l’étranger)
(300 tuples d’appels).
Page : 13
« Prise de décision »
DW
Page : 14
Exemples
• Suivi du comportement de la clientèle dans les
télécommunications
• Nombre moyen d’heures par mois et par région,
• répartition des appels clients sur la semaine,
• Répartition des appels clients sur la journée,
• nombre moyen d’appels représentant 20% d’une facture,
• Durée moyenne d’une communication urbaine,
• Durée moyenne d’une communication internationale.
• Suivi du marché (lignes installées, désinstallées, services
choisis, répartition géographique)
• Comportement du réseau (pannes)
Page : 15
Exemples
• Quel est le volume des ventes par produit, par région, pour le
3ième trimestre 2009 ?
• Quel est le volume des ventes de produits laitiers, pour la
région parisienne, par an, pour les 5 dernières années ?
• Quel est le type de produits dont les ventes baissent
constamment dans les 6 derniers mois de l’année en cours ?
• Est-ce qu’une baisse de 10% ferait redémarrer les ventes de
disques ?
Page : 16
Différences transactionnel / décisionnel
Transactionnel Décisionnel
Données - sur une période courte - historisées
- détaillées - agrégées
- personnelles - peuvent être anonymes
- mises à jour - recalculées
Transactionnel Décisionnel
Conception - orientée fonction - orientée sujet
- relativement - évolutif
statique
Utilisateurs - agents opérationnels - manager
Nbres :
. utilisateurs - milliers - centaines
. tuples accédés - dizaines/centaines - millions
Page : 18
Les sources de données
• Vieilles sources.
Page : 20
L’extraction des données
Page : 21
L’extraction des données
3 principales techniques :
• Ecrire des interfaces entre les sources et l'entrepôt,
• Exploiter les fonctionnalités de réplication offertes par les
SGBD,
• loader, triggers, passerelles, copies, logs, vues, etc …
• Utiliser un outil ETL
• génère les programmes d'alimentation,
• peut gérer leur déroulement,
• intégration de données.
Page : 22
L’intégration des données
Page : 23
L’intégration des données
•Différence de codage:
• sexe = M/F sexe = 1/2
•Différence d’unité
• poids = 4000poids = 4
• taille = 38 taille = 7
•Différence de granularité
• heures travaillées = 35 heures travaillées = 150
•Différence de fraîcheur :
• âge = 20 âge = 21
•Imprécision
• poids = 54,2 poids = 54
•Erreur :
• nom = « Clémentine » nom = « Clémentinne »
Page : 24
L’intégration des données
• Exercice 1
1 AZUR 1 BLEU
2 VIOLET 2 BLEU
4 VERT 3 ROUGE
4 VERT
Source 1
Source 2
Intégration ?
Page : 26
L’intégration des données
• Exercice 2
Intégration ?
Page : 27
L’intégration des données
• Exercice 3
ETUDIANT NUM NOM ADRESSE
1 JEAN 4 AV GAL DE
GAULLE
2 SOPHIE 13 AV DES
TILLEULS
3 PAUL
Destinées
Page : 29
Les méta-données
2 principales utilités
Responsables des
processus (équipes, outils)
Page : 30
Les magasins
• sous-ensemble de l’entrepôt,
• temps d’accès réduits, volume réduit, coût réduit,
• orienté vers un sujet particulier,
• les données sont adaptées à une classe de décideurs ou à
un usage particulier (ex: fortement agrégées, DM)
généralement modélisé sous forme
multidimensionnelle,
• nécessité de définir une stratégie d’extraction de
l’entrepôt,
• on peut avoir des sous-magasins.
Page : 31
Outils de restitution
Page : 32
OLTP - OLAP
Page : 33
OLTP - OLAP
Page : 34
Analyse multidimensionnelle
Page : 35
Exemple
Page : 36
Exemple
Page : 37
Représentation graphique
multidimensionnelle
Page : 38
Toutes les ventes pour un magasin
Page : 39
Toutes les ventes d’une catégorie d’article
Page : 40
Toutes les ventes d’un mois
Page : 41
Les ventes d’un mois pour une catégorie
dans un magasin
Page : 42
Le modèle multidimensionnel
Page : 43
Les faits
Page : 44
Les indicateurs
• Les faits sont quantifiés par des indicateurs, également appelés
"métriques", ou "mesures", ou "variables". Par exemple le fait
de vente se caractérise par la quantité vendue et le montant de
la vente.
• Ce sont les cellules du cube. Les indicateurs représentent une
quantité mesurable, un fait observé.
• Chaque indicateur a une fonction d’agrégat (on peut les
additionner, ou calculer le minimum, ou la moyenne).
• Ils sont généralement numériques et additifs :
Le montant des vente est additif (se somme sur toutes les
dimensions), le niveau du stock est semi-additif (se somme
sur les produits, mais pas sur le temps), la moyenne de
fréquentation est non additive.
Page : 45
Les indicateurs
• Exemples :
• CA par produit/agence/dans le temps,
• coût moyen d’une hospitalisation par pathologie,
• le nombre de visiteurs moyens dans un établissement,
• taux d’occupation des lits,
• nombre d’articles en stock,
• satisfaction,
• taux de remplissage des avions par vol,
• temps d’attente moyen au supermarché,
• nombre de connexions sur un site web,
• durée des communications sur un site web.
Page : 46
Les indicateurs
Page : 47
Les dimensions
Page : 48
Modélisation en étoiles
Produit
clé_produit
description
Temps marque
Fait de Vente
catégorie
clé_temps sous_catégorie
heure clé_temps
clé_produit couleur
jour taille
semaine clé_magasin
mois
année montant_ventes
férié quantité_vendue Magasin
événement
clé_magasin
adresse
ville
département
secteur_vente
surface
Page : 49
Modélisation en flocons
Produit Sous_catégorie
clé_produit clé_sous_catégorie
description sous_catégorie
Temps marque catégorie
Fait de Vente clé_sous_catégorie
clé_temps couleur
heure clé_temps taille
jour clé_produit
semaine clé_magasin
mois
année montant_ventes Magasin
quantité_vendue Localisation
férié
événement clé_magasin clé_localisation
clé_localisation adresse
secteur_vente ville
surface département
Produit
clé_produit
description
Temps marque
Fait de Vente clé_sous_catégorie
clé_temps couleur
heure clé_temps taille
jour clé_produit
semaine clé_magasin
mois
année montant_ventes Magasin
férié quantité_vendue
événement clé_magasin
clé_localisation
secteur_vente
surface
Page : 53
Exercices
Page : 54