Vous êtes sur la page 1sur 54

Informatique décisionnelle

Introduction à l’informatique
décisionnelle

MOHAMED HAMOU

mohamed.hamou@gmail.com

Page : 1
L’information

• Nouvelle ressource des entreprises du XXIème siècle

• Avec le temps, les entreprises produisent et manipulent de


très importants volumes de données

• Ces données sont stockées dans les systèmes


opérationnels de l’entreprise au sein de bases de données

Page : 2
Motivations des entreprises

• Besoin des entreprises


– accéder à toutes les données de l’entreprise
– regrouper les informations disséminées
– analyser et prendre des décisions rapidement
• Exemples d’applications concernées
– Grande distribution : marketing, maintenance, …
– Bancaire : suivi des clients, gestion de portefeuilles
– Télécommunications : pannes, fraudes, mobiles, …

Page : 3
La prise de décision en entreprise

• Une décision est le résultat d'un processus comportant le


choix conscient entre plusieurs solutions, en vue d'atteindre
un objectif.
• L'efficacité des services d'une entreprise dépend de la
qualité de ses décisions.
– Améliorer l'habilité à prendre des décisions, c'est
faire usage des ressources dont dispose l'entreprise.

Page : 4
Processus décisionnel

Peut être découpé en cinq étapes


• 1) Définir le problème
• 2) Rassembler les faits et données
• 3) Evaluer et interpréter les faits et données
• 4) Etablir plusieurs solutions
• 5) Décider (choisir une solution)

Page : 5
Informatique décisionnelle

• La mise en place d’un système informatique décisionnelle


a pour objectif de faciliter le décideur dans son processus de
prise de décision.
• L’informatique permet d’accélérer drastiquement le temps
de rassemblement des faits et données et leur interprétation
• C’est un ensemble d’outils qui ne remplace en aucun cas
le décideur.

Page : 6
Système d’aide à la décision

• L’objectif est toujours d’automatiser/fiabiliser les tâches


répétitives

Page : 7
Architecture des systèmes décisionnels

Extracteur
Referentiel

Integrateur
Extracteur
Entrepôt de
données
Extracteur

Sources Décideurs

Page : 8
Entrepôt de données : définition

Définition 1 (Goglin) : un entrepôt de données est un stockage


intermédiaire de données issues des applications de
production, dans lequel les utilisateurs finaux puisent avec des
outils de restitution et d’analyse.

Définition 2 (Bill Inmon) : Un entrepôt de données est une


collection de données thématiques, intégrées, non volatiles et
historisées organisées pour la prise de décision.

Inmon et Codd sont considérés comme les auteurs du concept


dans le début des années 90.

Page : 9
« Thématiques »

• Thématique = "Orienté sujet " .

• Orienté par thème et non plus par fonction.

• Exemples :
• Dans les bases de données opérationnelles : assurance
vie, assurance automobile, paye, facturation.

• Dans les bases de données décisionnelles : client,


produit, réseau de distribution, médicament, marché,
absences, réussite.

• Ce côté est renforcé dans les magasins.

Page : 10
« Intégrées »

• L’entrepôt n’est pas une concaténation des sources, les données


sont sémantiquement intégrées.
• Exemples :
• Reconnaître qu’il s’agit de la même personne malgré un
déménagement

• Reconnaître qu’il s’agit du même produit malgré des codes


barres différents

• Remarque : très difficile, mais indispensable.

Page : 11
« Non volatiles, historisées »

• Pas de suppressions.
• Nécessité d’un référentiel de temps.
• L’historisation permet
• l’extrapolation,
• la mesure de l’impact d’une décision par comparaison de
la situation avant et après la mise en application de cette
décision.
• Exemple :
• Suivi des évolutions des comportements des clients.

Page : 12
« Agrégées »

• Niveau de granularité.
•Exemple :
• Stockage de tous les appels téléphoniques pour un client
APPEL_TELEPHONIQUE (n° client, horo-date, durée,
correspondant, étranger, etc...)
(300 clients, 200 tuples par client, 60000 tuples d’appels).
• Stockage agrégé par client sur 1 mois
APPEL_TELEPHONIQUE (n° client, mois, nombre
d’appel, durée moyenne, nombres d’appels vers
l’étranger)
(300 tuples d’appels).
Page : 13
« Prise de décision »

• Les systèmes " opérationnels " (ou de " production ", ou


de " gestion "  ) sont dédiés aux métiers de l’entreprise
pour les assister dans leurs tâches de gestion quotidiennes
(et directement opérationnels).
ERP
• Les systèmes " décisionnels "   sont dédiés au management
de l’entreprise pour l’aider au pilotage de l’activité (et
indirectement opérationnels).
Ils offrent au décideur une vision transversale de
l’entreprise.

DW
Page : 14
Exemples
• Suivi du comportement de la clientèle dans les
télécommunications
• Nombre moyen d’heures par mois et par région,
• répartition des appels clients sur la semaine,
• Répartition des appels clients sur la journée,
• nombre moyen d’appels représentant 20% d’une facture,
• Durée moyenne d’une communication urbaine,
• Durée moyenne d’une communication internationale.
• Suivi du marché (lignes installées, désinstallées, services
choisis, répartition géographique)
• Comportement du réseau (pannes)
Page : 15
Exemples

• Quel est le volume des ventes par produit, par région, pour le
3ième trimestre 2009 ?
• Quel est le volume des ventes de produits laitiers, pour la
région parisienne, par an, pour les 5 dernières années ?
• Quel est le type de produits dont les ventes baissent
constamment dans les 6 derniers mois de l’année en cours ?
• Est-ce qu’une baisse de 10% ferait redémarrer les ventes de
disques ?

Page : 16
Différences transactionnel / décisionnel

Transactionnel Décisionnel
Données - sur une période courte - historisées
- détaillées - agrégées
- personnelles - peuvent être anonymes
- mises à jour - recalculées

- temps de validité, de - temps de validité, de


transaction transaction, d’extraction
Traitements - requêtes simples - requêtes complexes
- répétitives - variées
- très sensible aux - échelle de performance
performances différente
Page : 17
Différences transactionnel / décisionnel

Transactionnel Décisionnel
Conception - orientée fonction - orientée sujet
- relativement - évolutif
statique
Utilisateurs - agents opérationnels - manager
Nbres :
. utilisateurs - milliers - centaines
. tuples accédés - dizaines/centaines - millions

. base de - centaines de - centaines de GB/TB


données MB/GB

Page : 18
Les sources de données

• En général les "legacy systems", c'est-à-dire principalement


les bases de données de production.
• exemples : factures, fichier des nouveaux clients.

• On extrait justement les données pour ne pas travailler


directement sur les sources.
- "Décisionnel et transactionnel ne font pas bon ménage ",
- perturbations,
- supports physiques différents,
- outils et utilisateurs différents.
Page : 19
Les sources de données

• Mais aussi des sources extérieures :


• météo,
• calendrier des jours fériés,
• cours de la bourse,
• Géographie (études épidémiologiques, accidents de la
route),
• études INSEE.

• Vieilles sources.

Page : 20
L’extraction des données

• a pour but d'extraire les données et de les mettre dans un


format commun.
• choisit d'extraire ce qui est nécessaire
• on n'importe pas la totalité des sources,
• satisfaire les "vues utilisateurs".
• applique une stratégie de rafraîchissement
• périodicité,
• ou déclenchement.

Page : 21
L’extraction des données

3 principales techniques :
• Ecrire des interfaces entre les sources et l'entrepôt,
• Exploiter les fonctionnalités de réplication offertes par les
SGBD,
• loader, triggers, passerelles, copies, logs, vues, etc …
• Utiliser un outil ETL
• génère les programmes d'alimentation,
• peut gérer leur déroulement,
• intégration de données.

Page : 22
L’intégration des données

• Intégration des données dans l'entrepôt en résolvant les


conflits entre les différentes sources d'information
• codages, fautes d'orthographe, etc…
• tables de conversion, etc …

ETUDIANTS nom sexe adresse


Figue 1 Paris
Fraise 2 Toulouse

PROF nom sexe adresse


Figue M 4, av. Foch Paris
Fraise F 4, av. Foch Paris

Page : 23
L’intégration des données

•Différence de codage:
• sexe = M/F sexe = 1/2
•Différence d’unité
• poids = 4000poids = 4
• taille = 38 taille = 7
•Différence de granularité
• heures travaillées = 35 heures travaillées = 150
•Différence de fraîcheur :
• âge = 20 âge = 21
•Imprécision
• poids = 54,2 poids = 54
•Erreur :
• nom = « Clémentine » nom = « Clémentinne »
Page : 24
L’intégration des données

• Différence de contenu dans les textes libres :


• adresse = « Père Noël, cercle polaire, Rovaniemi, Finlande »
adresse = « cercle polaire, Rovaniemi, Finlande »

• Différence d’expression dans les textes libres :


• adresse = « 4 av. du gal Leclerc »   
adresse = « 4 avenue du général Leclerc »

• Différence linguistique de niveau de perception dans les textes


libres :
• couleur = « rouge »
couleur = « vermillon »
• prescription = « antibiotique »
prescription = «pénicilline » 
Page : 25
L’intégration des données

• Exercice 1

VOITURE NUM COULEUR VOITURE NUM COULEUR

1 AZUR 1 BLEU

2 VIOLET 2 BLEU

4 VERT 3 ROUGE

4 VERT
Source 1

Source 2
Intégration ?

Page : 26
L’intégration des données

• Exercice 2

ETUDIANT NUM NOM SEXE POIDS


1 JEAN 1 54,2
2 LAURA 2 65,6
Source 1
3 HENRI 1 48,4

ETUDIANT NUM NOM SEXE POIDS


1 JEAN M 54
2 LAURA F 66 Source 2
3 HENRY M 48
4 FRED M 70

Intégration ?
Page : 27
L’intégration des données

• Exercice 3
ETUDIANT NUM NOM ADRESSE
1 JEAN 4 AV GAL DE
GAULLE
2 SOPHIE 13 AV DES
TILLEULS
3 PAUL

ETUDIANT NUM NOM ADRESSE


1 JEAN 4 AVENUE DU
GENERAL DE
GAULLE
2 PAUL

3 SOPHIE 13 AVENUE DES


TILLEULS
4 FRED
Page : 28
Les méta-données

• Les méta-données regroupent l'ensemble des informations


concernant l'entrepôt et les processus associés.

Destinées

Aux utilisateurs Aux équipes et outils SGBD


responsables du
processus de
transformation des
données de production
vers l'entrepôt.

Page : 29
Les méta-données

2 principales utilités

Carte routière Pour les algorithmes + méta-


pour d'extraction, intégration, données
l'interrogation nettoyage, habituelles
rafraîchissement, (types,
Utilisateurs historisation, qualité. autorisations)
(localisation, règles de
transformation, flux) SGBD

Responsables des
processus (équipes, outils)

Page : 30
Les magasins

• sous-ensemble de l’entrepôt,
• temps d’accès réduits, volume réduit, coût réduit,
• orienté vers un sujet particulier,
• les données sont adaptées à une classe de décideurs ou à
un usage particulier (ex: fortement agrégées, DM)
généralement modélisé sous forme
multidimensionnelle,
• nécessité de définir une stratégie d’extraction de
l’entrepôt,
• on peut avoir des sous-magasins.

Page : 31
Outils de restitution

• sur les magasins, ou directement sur l’entrepôt,


• requêtes SQL, SQL/OLAP
• tableurs,
• outils requêteurs spécialisés (outils de reporting),
• progiciels spécialisés,
• sortie web,
• logiciels de datamining,
• sortie système expert.

Page : 32
OLTP - OLAP

OLTP : On-Line Transaction Processing


Dans une base de données de type relationnelle, les données
sont stockées sous formes de tables décomposées en
colonnes et en lignes, chaque ligne représente un
enregistrement de la base de données.

OLAP : On-Line Analytic Processing


OLAP est un terme pour décrire l'approche dimensionnelle
de l'aide à la décision.

Page : 33
OLTP - OLAP

• Le traitement des données en mode transactionnel


(OLTP) est totalement différent du domaine des
systèmes dimensionnels (OLAP).
• Les systèmes diffèrent pour :
– Les utilisateurs
– Le contenu des données
– Les structures,
– L ’administration

Page : 34
Analyse multidimensionnelle

• On rencontre plusieurs techniques d’analyse de données,


l’analyse multi-dimensionnelle est particulièrement utilisée en
informatique décisionnelle.
• L’analyse multi-dimensionnelle permet d’analyser des
mesures selon différents paramètres (multiples) qui peuvent
avoir un effet sur celles-ci

Page : 35
Exemple

• Une société désire construire une base de données pour


suivre l'évolution de ses ventes par mois et par catégories
de produits de ses différents magasins.
• Pour chaque magasin, elle dispose d ’une table qui
contient les ventes

Page : 36
Exemple

• Pour analyser ces données, on peut par exemple placer les


mois en ligne et les catégories en colonne.
• Si l ’on veut comparer les ventes par rapport aux
catégories, par magasin et par mois. Il devient difficile de
dessiner un simple tableau.

– On parle alors de cube

Page : 37
Représentation graphique
multidimensionnelle

Page : 38
Toutes les ventes pour un magasin

Page : 39
Toutes les ventes d’une catégorie d’article

Page : 40
Toutes les ventes d’un mois

Page : 41
Les ventes d’un mois pour une catégorie
dans un magasin

Page : 42
Le modèle multidimensionnel

• Souvent appelé modèle OLAP (On Line Analytical


Processing) (Codd, 1993).

• Présenté comme une alternative au modèle relationnel.


• Correspond mieux aux besoins du décideur.
• "Orienté sujet".

• " Cube" centré sur une activité.


• Exemple : vente.

Page : 43
Les faits

• Un cube relate un fait. L’activité est caractérisée par des faits


qui se produisent (événements).
• Exemples :
• fait de vente,
• fait de notation,
• fait de passage de transaction boursière,
• fait de consultation médicale,
• fait de dépense dans un hôpital,
• fait d’absence de cours,
• fait de marquage de but,
• fait de fréquentation d’un cinéma.

Page : 44
Les indicateurs
• Les faits sont quantifiés par des indicateurs, également appelés
"métriques", ou "mesures", ou "variables". Par exemple le fait
de vente se caractérise par la quantité vendue et le montant de
la vente.
• Ce sont les cellules du cube. Les indicateurs représentent une
quantité mesurable, un fait observé.
• Chaque indicateur a une fonction d’agrégat (on peut les
additionner, ou calculer le minimum, ou la moyenne).
• Ils sont généralement numériques et additifs :
Le montant des vente est additif (se somme sur toutes les
dimensions), le niveau du stock est semi-additif (se somme
sur les produits, mais pas sur le temps), la moyenne de
fréquentation est non additive.
Page : 45
Les indicateurs
• Exemples :
• CA par produit/agence/dans le temps,
• coût moyen d’une hospitalisation par pathologie,
• le nombre de visiteurs moyens dans un établissement,
• taux d’occupation des lits,
• nombre d’articles en stock,
• satisfaction,
• taux de remplissage des avions par vol,
• temps d’attente moyen au supermarché,
• nombre de connexions sur un site web,
• durée des communications sur un site web.
Page : 46
Les indicateurs

• Formule : On appelle "formule"   une mesure non stockée,


obtenue à partir des mesures stockées.
• Exemples : prix moyen = total ventes / nombre vendu

• Remarque : il existe des faits sans mesures, les "dummy


measures"
• Exemple : location d'une voiture, consultation à hôpital,
réservation d'un livre.
• L'agrégation sera le comptage des faits.

Page : 47
Les dimensions

• Les "dimensions" sont les axes d'analyse.


• Exemples : produits, temps, région, promotion,
fournisseur, joueur, élève, hôpital.
• Chaque dimension est associée à une hiérarchie.
• Exemples :
• continent -> pays -> région -> ville -> magasin
• année -> trimestre -> mois -> jour
• catégorie-> sous-catégorie -> produit

Page : 48
Modélisation en étoiles
Produit

clé_produit
description
Temps marque
Fait de Vente
catégorie
clé_temps sous_catégorie
heure clé_temps
clé_produit couleur
jour taille
semaine clé_magasin
mois
année montant_ventes
férié quantité_vendue Magasin
événement
clé_magasin
adresse
ville
département
secteur_vente
surface
Page : 49
Modélisation en flocons

Produit Sous_catégorie

clé_produit clé_sous_catégorie
description sous_catégorie
Temps marque catégorie
Fait de Vente clé_sous_catégorie
clé_temps couleur
heure clé_temps taille
jour clé_produit
semaine clé_magasin
mois
année montant_ventes Magasin
quantité_vendue Localisation
férié
événement clé_magasin clé_localisation
clé_localisation adresse
secteur_vente ville
surface département

Les tables de dimension sont normalisées


Page : 50
Modélisation en constellations

Produit

clé_produit
description
Temps marque
Fait de Vente clé_sous_catégorie
clé_temps couleur
heure clé_temps taille
jour clé_produit
semaine clé_magasin
mois
année montant_ventes Magasin
férié quantité_vendue
événement clé_magasin
clé_localisation
secteur_vente
surface

Les tables de dimensions sont partagées par plusieurs tables de faits


Page : 51
Opérateurs multidimensionnels

• Roll-up, ou agrégation, ou consolidation, ou drill-up, ou scale-


up, ou forage vers le haut.
Agréger selon une dimension : Semaine  Mois
• Drill-down, ou désagrégation, ou segmentation, ou roll_down,
ou drill-trough, ou forage vers le bas.
Détailler selon une dimension : Mois  Semaine
• Slice, ou projection. Projeter(Région, Produit)
• Dice, ou selection, ou filtering, ou screening. Mois = 01/01/2009
• Pivot, ou rotation. Tourne le cube pour visualiser une face.
(Région, produit)  (Région, Mois)
Page : 52
Exercices
Soit le tableau multidimensionnel suivant (Produits, Villes, Temps) :

T1 2009 T2 2009 T3 2009 T4 2009


Appareil Paris 10 12 15 23
Photo Marseille 12 15 14 18
numérique
Lyon 7 12 9 13
Créteil 5 9 21 8
Lecteur Paris 12 9 17 25
DVD Marseille 18 16 19 17
Lyon 13 16 17 14
Créteil 6 12 18 21
Home Paris 29 23 25 24
Cinéma Marseille 19 18 23 19
Lyon 17 17 20 22
Créteil 14 17 18 17
Ecrans Paris 16 18 19 20
plats Marseille 15 14 17 18
Lyon 21 28 26 29
Créteil 9 8 10 9

Page : 53
Exercices

• Modèle en étoile « Fait de vente »


• Cube
• Opérateurs multidimensionnels (Roll up, Dice,…)

Page : 54

Vous aimerez peut-être aussi