Vous êtes sur la page 1sur 248

BUSINESS INTELLIGENCE

Dr. Iskander ZOUAGHI


1
Objectifs du cours
• Initiation aux systèmes d’information

• Revue des Systèmes de Gestion des Bases


de Données

• Définition et approfondissement de la
Business Intelligence

2
Système d’information
Définition et typologies

3
Donnée - Information - Connaissance
• Données : valeurs à l’état brut représentant des événements
qui ont eu lieu à l’intérieur ou en dehors des organisations.
Elles n’ont pas encore été organisées de façon à ce que les
utilisateurs puissent les comprendre et s’en servir (Laudon et
al., 2006, p.14)

• Information : les données qui sont présentées sous une forme


utile et utilisable par les personnes (Laudon et al., 2006, p.14)

• Connaissance : ce en quoi les individus croient et valorisent


sur la base d’une accumulation significative et organisées
d’informations à partir d’expérience, de communication ou
d’inférence (Kakabadse et al., 2003)
4
Donnée - Information - Connaissance

331 Brite Dish Soap 1,29 Région: Limburg


863 BL Hill Coffee 4,69 Magasin: Superstore # 122
173 Meow Cat 0,79
331 Brite Dish Soap 1,29 ITEM No. DESCRIPTION Unités vendues
663 Country Ham 3,29 331 Brite Dish Soap 7156
524 Fiery Mustard 1,49
TOTAL DES VENTES
113 Ginger Root 0,85
€ 9231,24
331 Brite Dish Soap 1,29

Données Informations

5
Production de l’information

• Plusieurs activités produisent l’information nécessaire pour prendre des


décisions, contrôler les opérations, analyser les problèmes et créer de
nouveaux produits et services

• Entrée : Capture et collecte de données brutes internes et externes

• Traitement : Conversion des données en une forme plus utile

• Sortie : Transfert de l’information aux personnes qui l’utiliseront ou aux


activités pour lesquelles elle sera utilisée

• Rétroaction : La sortie aide les personnes pertinentes de l’organisation à


évaluer et corriger le stade d’entrée

6
Donnée - Information - Connaissance

Connaissances

Apprentissage

Modèle
Filtre Programmes
interprétatif

Apprentissage

Observations Données Interprétation Informations Utilisation

Environnement Résultat

7
Pyramide des connaissances

Connaissance
Maturité Systémique

Information

Donnée

8
C’est quoi un système d’information

• Un ensemble organisé de ressources : matériel, logiciel, personnel, données,


procédures... permettant d’acquérir, de traiter, de stocker des informations
(sous forme de données, textes, images, sons, etc.) dans et entre des
organisations (Reix, 2004)

Source: http://www.minicom.si
9
Ressources d’un SI

Ressources
technologiques

Ressources
organisationnel Ressources
les et humaines
managériales

10
11
Ressources technologiques

Ressources
technologiques

Ressources Ressources
technologiques technologiques
matérielles logicielles

12
Ressources technologiques matérielles

• Périphériques d’entrée de données : clavier, tablette graphique, lecteur


optique, lecteur de cartes magnétiques, ...

• Centre de traitement : microprocesseur

• Périphériques et supports de stockage : data center, disques durs, ...

• Périphérique d’affichage et de sortie : moniteur (écran), imprimante, ...

• Périphérique de transfert et de communication : modems, cartes réseau,...

13
Périphériques d’entrée de données

• Technologies de saisie

• Technologies de pointage et de contrôle

14
Périphériques d’entrée de données

• Technologies de lecture et d’acquisition

15
Périphériques et supports de stockage

16
Périphérique d’affichage et de sortie

17
Centre de traitement

18
Périphériques et supports de stockage

19
Périphérique de transfert et de communication

20
Ressources technologiques logicielles

• Logiciels de base : programmes qui permettent à un matériel d’effectuer une


tâche donnée => appelés encore pilotes

• Logiciels d’application : satisfaire un ou plusieurs utilisateurs en effectuant


une tâche ou une fonction précise

21
Ressources humaines

Ressources
humaines

Managers et
Informaticiens
utilisateurs

22
21
Ressources humaines
• Les informaticiens

• DSI : Direction des systèmes d’information

• Exploitation : fonctionnement routinier et assistance aux utilisateurs

• Etude : projet de déploiement ou implantation d’un progiciel

• Expertise : diagnostic et audits

• SSII : Sociétés de services en Ingénierie Informatique

• Conseil

• Intégration et implantation

• Infogérance : de la maintenance à l’externalisation de la fonction

23
Ressources humaines

• Les managers et utilisateurs

• Managers : généralement le top management (direction générale) =>


investissement, alignement des SI, veille technologique,...

• Utilisateurs : employés de l’entreprise qui utilise le matériel informatique


et les applications

24
Ressources organisationnelles et managériales

• Processus d’affaires

• Culture organisationnelle et gestion des changements

• Autorité et soutien de la direction générale

• Prise de décision

• Travail en équipe et environnements de travail

• Programmes de formation

• Normes et procédures de gestion

25
Typologie des systèmes d’information (1)

Niveau de Cadres
TYPES DE la stratégie dirigeants
FONCTIONS
SI
BENEFICIANT
DES SYSTEMES
Niveau de Cadres
la gestion intermédiaires

Niveau des Cadres


opérations opérationnels

Ventes et Fabrication Finances et Ressources


marketing et logistique comptabilité humaines
DOMAINES
FONCTIONNELS

26
Typologie des systèmes d’information (2)

27
Business intelligence

• Ensemble de technologies et d’applications conçues pour aider les utilisateurs à


prendre de meilleurs décisions

• Différents types de décision (structurée, non-structurée, semi-structurée)

• Ses principales fonctions :

• Gestion des données et des entrepôts

• Analyse des données et reporting

• Traitement d'événements complexes

• Benchmarking

28
Advanced planning systems

• Objectif : planification avancée à capacité fini de l’ensemble des flux

• Ses principales fonctions :

• La planification stratégique du réseau.

• La gestion de la demande.

• La planification de la distribution.

• Ordonnancement de la production

• La planification du transport.

29
Supplier Relationship Management

• Objectif : optimiser les relations de l’entreprise avec ses fournisseurs.

• Ses principales fonctions :

• Le design collaboratif

• Le sourcing

• La négociation

• L’approvisionnement

• L’évaluation des fournisseurs

30
Customer Relationship Management

• Objectif : optimiser les relations de l’entreprise avec ses clients.

• Ses principales fonctions :

• Prospection commerciale et marketing

• Vente : gestion des contacts, gestion des comptes,...

• SAV

• Analyse des ventes : gestion relationnelle, historique des actions,...

31
Enterprise Ressource Planning

• Objectif : gestion intégrée des fonctions de l'entreprise

• Ses principales fonctions :

• La gestion commerciale

• La gestion de la logistique

• La gestion industrielle

• Le module gestion financière

• Le module gestion des ressources humaines

32
Exemple : Traitement d’une commande dans une
entreprise

Préparer la Soumettre la
Ventes
commande commande

Vérifier le Approuver le Générer


Comptabilité
crédit crédit la facture

Fabrication
Assembler Expédier
et
le produit le produit
logistique

33
Vision fonctionnelle (traditionnelle)

Fonctions d’affaires

Fabrication et Finances et Ventes et Ressources


logistique comptabilité marketing humaines
Limites organisationnelles

Limites organisationnelles
Vendeurs

Clients
Processus Processus Processus Processus
d’affaires d’affaires d’affaires d’affaires

Système d’information Système Système d’information Système d’information des


de fabrication et d’information de ventes et ressources
logistique financier et comptable marketing humaines

Systèmes d’information
34
Vision intégrative : architecture d’un ERP

• Encaissement
Finance
• Compte débiteur
et
• Crédit du client
compatibilité
• Revenu

• Commandes
• Heures travaillées
• Prévisions de ventes Ventes Base de Ressources • Frais de main-d’œuvre
• Demandes de retour et marketing données humaines • Compétences
• Changements de prix unifiée

• Matériaux
Production • Calendriers de production
et logistique • Dates d’expédition
• Capacité de production
• Achats

35
Supply Chain Event Management

• Supply Chain Event Management : gestion événementielle de la chaîne logistique

• Système qui permet la prise en compte des événements qui déclenchent,


interrompent ou modifient le déroulement des flux dans une supply chain

• Ses fonctions principales :

• Surveillance et suivi des évènements

• Notification et alert des utilisateurs

• Simulation de l’impact futur des évènements en cours

• Contrôle des actions des utilisateurs face aux événements survenus

36
Manufacturing Execution System
• Objectif : préparation, exécution et suivi des tâches de production

• Principales fonctions :

• Gestion des ressources

• Ordonnancement

• Cheminement des produits et des lots

• Gestion de la maintenance

• Gestion des procédés

• Traçabilité produit et généalogie

• Analyse des performances

37
Supply Chain Execution Systems

• TMS - Transport Management Systems

• WMS - Warehouse Management Systems

• AOM (Advanced Order Management)

38
Transport Management Systems

• Objectif : Optimisation de la gestion du transport

• Ses principales fonctions :

• Planification et optimisation des tournées

• Suivi des véhicules

• Contrôle de la qualité de service

• Simulation des coûts et des schémas de transport

• Gestion des documents

• Suivi du budget

39
Warehouse Management Systems

• Objectif : Optimisation de la gestion des entrepôts

• Ses principales fonctions

• Réception

• Entreposage, casage

• Préparation de commandes

• Gestion et contrôle des stocks

40
Advanced Order Management (Order management
systems)

• Objectif : gérer les commandes

• Principales fonctions :

• Enregistrement des commandes et services au client

• Gestion des disponibilités des stocks

• Gestion du cycle de commande : selection, impression, picking, packing,


shipping.

• Analyse des données de commandes

41
Défis des SI

• Le défi de l’investissement dans les SI : Comment les entreprises peuvent-elles


générer de la valeur à partir de leur SI ?

• Le défi stratégique : Comment les entreprises peuvent-elles comprendre et combiner


les exigences concurrentielles et les potentialités des SI dans une économie mondiale ?

• Le défi de l’infrastructure de technologie de l’information (TI) : Étant donné


l’évolution rapide des contextes et des conjonctures économiques comme des
technologies, comment les organisations peuvent-elles élaborer et mettre en place une
infrastructure de technologie de l’information qui supporte et favorise durablement la
poursuite de leurs objectifs ?

• Le défi de la responsabilité et du contrôle, ou l’éthique et la sécurité : Comment les


organisations peuvent-elles s’assurer que leur SI est utilisé de manière éthique et
responsable ? Comment concevoir des systèmes que les utilisateurs peuvent
comprendre et contrôler ?

42
Cloud computing

• Cloud computing : informatique dans le nuage ; informatique dématérialisée

• Cloud computing : déportation des données sur des serveurs distants


externes à l’entreprise.

43
Modèles de déploiement du Cloud computing

• Cloud privé (ou interne) : conçu, exploité et géré par une entreprise donnée

• Cloud Communautaire : cloud partagé par plusieurs entreprises

• Cloud Public : cloud ouvert à toute entreprise et proposé par un prestataire

• Cloud Hybride : cloud qui intègre au moins deux type de ceux évoqués

44
Avantages et inconvénients du cloud computing

• Avantages

• Diminution des coûts

• Elasticité de la capacité du nuage

• Fiabilité des services

• Inconvénients

• Sécurisation des informations et de l’accès

• Difficulté de maîtrise du cycle de vie des applications due à la fréquence des actualisations

• Localisation physique des données non connue ou abstraite

45
Services cloud

• SAAS : Software As A Service => le fournisseur gère les applications.

• IAAS : Infrastructure as a service => le fournisseur Cloud gère le matériel


serveur et sa virtualisation, le stockage, le réseaux. L’entreprise maintient les
applications et les bases de données.

• PAAS : Platform as a service => L’entreprise ne maintient plus que les


applications

46
I. Systèmes
Transactionnels
et Bases de
Données
Gérer les données

47
Base de Données

… conçue pour résoudre un problème !

… mais… quel est le problème ?

48
Ensemble de données et d’informations !

49
Solutions éventuelles

Avoir des données n’est pas une raison pour avoir une base de données !

50
Problèmes potentiels liés aux données
P1 : Taille des données

P2 : Facilité de manipulation (ajout, mise à jour, etc.)

P3 : Exactitude

P4 : Accès et sécurité

P5 : Redondance

P6 : Importance

51
P1 : Taille des données

Nombre de lignes
Combinaison de données (3 millions de lignes)

Limitation des tableurs


Excel 2016 et 2013 : 1 048 576 lignes

à à partir d’une dizaine de milliers, le fichier devient vulnéra

52
P1 : Taille des données

juste un exemple… nombre de visiteurs dans le e-commerce…

53
P2 : Facilité de manipulation

Type de manipulation

Nombre d’utilisateur à la fois

54
P3 : Exactitude

Aucune règle caractéristique des données

55
P4 : Accès et sécurité

Qui peut accéder aux données ?

Qui peut changer les données ?

56
P5 : Redondance

La redondance peut être une bonne chose… mais…

… peut aboutir à des éléments conflictuels…

➡ deux entrées de la même opération


➡ incohérence entre deux données similaires
➡ différentes sources de données

57
P6 : Importance

Risque de bug ou de coupure

Perte de temps
Perte de données stratégiques

58
Pour faire face à ces problèmes

Disposer de données

Organiser les données

Sécuriser les données

Mettre à jour les données

Modifier les données


59
Quelques définitions

Base de Données (BD)

Ensemble structuré de données inter-reliées,


obéissant à des règles spécifiques

60
SGBD
Logiciel permettant de créer et d’exploiter une BD, soit dire

61
62
SGBD Objet
SGBD Hiérarchique
SGBD Relationnel

SGBD NoSQL

SGBD Réseau

63
Base de données

Ensemble de tables
Table 1 Colonnes
Table 2

Lignes

Table 3

64
Un type de donnée déterminé
=
Elément le plus important

Colonnes

Nom Prénom Adresse DateN AnnéeEtude Admis


(Texte) (Texte) (Texte) (Date/heure) (Nombre) (Oui/non)

Lignes XXXXX Xxxxxxx XX XXXX X XX/XX/XXXX X XXX

Ensemble de
données
répétées

Les données doivent suivre


des règles précise préétablies

65
: comment identifier une ligne en particulier pour pouvoir la consulter ou la m

Matricule Nom Prénom Adresse DateN AnnéeEtude Admis N_Secu


(NuméroAuto) (Texte) (Texte) (Texte) (Date/heure) (Nombre) (Oui/non) (Nombre)

XX XX XX XXXXX Xxxxxxx XX XXXX X XX/XX/XXXX X XXX XXX XXX XXX

66
Déterminer une clé primaire (PK) = valeur unique non répétitive

Clé primaire Clé primaire Clé primaire


artificielle composite naturelle

Valeur unique Composition unique Valeur non unique Valeur unique

Matricule Nom Prénom Adresse DateN AnnéeEtude Admis N_Secu


(NuméroAuto) (Texte) (Texte) (Texte) (Date/heure) (Nombre) (Oui/non) (Nombre)

XX XX XX XXXXX Xxxxxxx XX XXXX X XX/XX/XXXX X XXX XXX XXX XXX

clés candidates

67
Types de clés

Clé/s candidate/s : ensemble des attributs qui identifient d’une manière


unique chaque occurence d’un type d’entité

Clé primaire (primary key) : clé candidate qui a été sélectionnée pour identifier
d’une manière unique chaque occurence d’un type d’entité

Clé naturelle (natural key) : clé émanant d’un ou de plusieurs attributs


existants auparavant, ou naturellement dans les données.

Clé de substitution/technique/artificielle (surrogate key) : clé générée par le


concepteur ou le SGBD généralement lorsqu’il n’y a pas de clé naturelle.

Clé composite (composite key) : clé qui rassemble deux ou plusieurs attributs

68
Définition des relations entre les tables

69
Table Commande Clé étrangère
Une clé étrangère
NUMCOM DATECOM TOTCOM CODCLI (Foreign key) est clé
345 3478 qui sert à lier deux
543 2837 tables et à en
897 3478
assurer l’intégrité
456 3478
référentielle

1 Table Client
CODCLI NOMCLI ADRCLI CPCLI VILLECLI TELCLI
3478
4567
2837
6345

70
Relation un-à-plusieurs

71
blème : lorsque nous n’avons pas une relations un-à-plus

Table Commande
NUMCOM DATECOM TOTCOM CODCLI
345 3478
543 2837
897 3478
456 3478

Table Produit
REFPROD DESIGN PRIX
DF678
PL576
FE456
UU543

72
Relation plusieurs-à-plusieurs
Table Commande
NUMCOM DATECOM TOTCOM CODCLI
345 3478
543 2837
897 3478
456 3478
1
Table
∞ CommandeProduit
NUMCOM REFPROD QUANCOM

Table de 345 DF678


543 DF678
jonction
543 FE456
456 DF678

1 Table Produit
REFPROD DESIGN PRIX
DF678
PL576
FE456
UU543

73
73
Fonctions d’un SGBD

• Permettre l’accès partagé aux données

• accès aux mêmes données (localisations différentes)

• accès simultané à la base (concurrence)

• Assurer une administration efficace des données

• Gérer la confidentialité des données

• en fonction des utilisateurs

• en fonction des modes d’accès (lecture, écriture)

• Assurer la sécurité des données et la reprise après panne

74
Que permet de faire un SGBD Relationnel ?

Assurer des

Transactions opérations permettant de changer la donnée d’un état A


vers un état B en une seule unité

Atomiques l’ensemble des opérations est indivisible

Cohérentes l’état A et l’état B doivent être valides en fonction des


règles de la base de donnée

Isolées la donnée doit être bloquée pendant l’opération des


changements

Durables la donnée ne doit plus changer d’état après la transaction

76
Outils de gestion basés sur des SGBD

• Les ERP

• Les outils de reporting

• Les outils de Data Warehousing

• Les outils de Data Mining

77
Conception d’une BD relationnelles

Conception de la base de données : le modèle entité-association (E/A)

Réalisation de la bases de données : le modèle relationnel

Passage du modèle entité-association au modèle relationnel

78
Etapes de la conception et réalisation d’une BD

79
Etapes de la conception et réalisation d’une BD

80
Modèle conceptuel

• Permet d’analyser et de modéliser les données indépendamment :

• d’une organisation particulière des données (relationnel, objets, ...)

• d’un SGBD particulier

• exemple :

81
Modèle logique ou relationnel

• Description des données utilisant un des modèles suivants : hiérarchique, réseau,


relationnel, objet, …

• c’est à ce niveau qu’est fait le choix du SGBD

• Dans ce cours, le modèle logique de type relationnel est mis en avant

• exemple:

82
Conception de BD: le modèle entité-association
Modèle entité-association :

c’est un modèle conceptuel de données (MCD), c’est-à-dire une


représentation abstraite de données indépendantes

utilise une représentation graphique des données : bon outil de


communication entre les concepteurs et les utilisateurs finaux

technique de conception très utilisée dans les méthodes actuelles d'analyse


de SI : MERISE, ...

Principe : données regroupées en classes d’entités et liées par des


associations

83
Principes du modèle E/A : entité et classe d’entités

Entité : objet discernable parmi d’autres objets

peut être concret ou abstrait

exemples : le produit de référence AX-37667, la facture n° 6765

Classe d’entités : ensemble d’entités similaires pouvant être regroupées

exemples : les produits, les factures, ...

chaque classe d’entités possède un nom : PRODUIT, FACTURE, …

84
Principes du modèle E/A : attribut et identifiant

Attribut d’une classe d’entités : caractéristique des entités d’une classe

chaque attribut porte un nom

chaque attribut possède une valeur dans un domaine

pour une entité donnée, un attribut possède une et une seule valeur

exemples :

Identifiant (ou clé) d’une classe d’entités : ensemble minimal d’attributs déterminant de manière
unique une entité dans la classe

exemples : REFPROD, NUMFACT

85
Représentation graphique d’une classe d’entités

86
Principes du modèle E/A : association
• Association : relie plusieurs classes d’entités (deux ou plus)

• porte un nom

• exemple : l’association EST-FACTURÉ entre les classes PRODUIT et FACTURE matérialise le fait que les
produits sont facturés sur des factures

• peut avoir des attributs (ex : quantité facturée, ...)

• Représentation graphique d’une association

87
Cardinalité d’une association
Cardinalité d’une association A vis-à-vis d’une classe d’entités E :

nombre minimum et maximum de fois où une entité donnée de la classe E peut apparaître dans l’association A

Cardinalité minimum :

0 : il peut exister des entités de E qui n’apparaissent pas dans A

1 : toute entité de E apparaît au moins une fois dans A

Cardinalité maximum :

1 : toute entité de E apparaît au plus une fois dans A

n : il peut exister des entités de E apparaissant plusieurs fois dans A

88
Cardinalité d’une association : exemples

Ex. d’une association binaire :

Ex. d’une association ternaire :

89
Cas particuliers d’associations

• Associations unaires ou réflexives : relie une classe à elle-même

• dans ce cas on place des rôles sur les liens de sorte à les distinguer

• Associations multiples : il peut exister plusieurs associations entre différentes entités

90
Construction d'un modèle entité-association

• Pour construire un modèle entité-association, on procède :

• en analysant et critiquant l'existant (documents papier, logiciels, ...)

• en analysant les besoins des utilisateurs ou futurs utilisateurs

• en imitant des solutions proches

• La construction d'un modèle entité-association s'appuie sur deux représentations


complémentaires :

• le dictionnaire des données

• le graphe de dépendances fonctionnelles

91
Dictionnaire des données

Inventaire des données manipulées :

mettre seulement les données élémentaires, c’est-à-dire les attributs ne pouvant pas être obtenus par calcul

Exemple :

les attributs calculés sont obtenus par programmation - ex : PRIXTTC

92
Dépendances fonctionnelles (DF)
• Dépendance fonctionnelle d'un attribut A vers un attribut B : la connaissance de la valeur de A détermine
une valeur unique de B

• Généralisation aux cas de plusieurs attributs : la connaissance des attributs A1, A2,...,An détermine une
valeur unique de B

• Représentation graphique :

• Exemple :

93
Graphe de dépendances fonctionnelles

• Graphe de dépendances fonctionnelles : graphe dans lequel on représente


l'ensemble des DF

94
Graphe de DF et modèle entité-association
• Le graphe de DF facilite la construction du modèle entité-association en permettant de déterminer :

• 1. les identifiants

• 2. les classes d'entités : identifiants et attributs qui dépendent directement et uniquement d’eux

• 3. les associations : construites à partir DF restantes

• Exemple :

95
Modèle logique des données : le modèle
relationnel
• Principe du modèle relationnel : toutes les données sont stockées dans des tables

• Relation ou table : ensemble des enregistrements (ou records) issus d’une classe d’entités ou d’une association

• Attribut (ou champ) d’une relation :

• matérialise un attribut d’une classe d’entités ou d’une association

• caractérisé par un nom et un domaine de valeurs

* ordre des enregistrements sans importance


96
BD relationnelle

• Une BD relationnelle est une collection de tables

• Exemple :

97
Modèle relationnel et SGBD relationnel
• Les SGBD relationnels permettent de construire et manipuler des relations :

• le schéma (ou la structure) des relations : nom de relation + liste des attributs

• le contenu des relations (enregistrements)

• Le modèle relationnel exige que chaque relation ait une clé

• clé (ou clé primaire) d’une relation : sous-ensemble minimum d’attributs d’une relation qui détermine les autres

• exemple - pour FACTURE : NUMFACT

• correspond à la notion d’identifiant dans un modèle entité-association

• Le schéma d’une relation est souvent noté :

98
Passage du modèle entité-association au
relationnel
• A chaque classe d’entités correspond • A chaque association correspond une
une relation : relation :

• nom : nom de la classe d’entités • nom : nom de l’association

• attributs : attributs de la classe • attributs : identifiants des classes


d’entités d’entités reliées + attributs de
l’association
• clé : identifiant de la classe d’entités
• clé : ensemble des identifiants des
classes d’entités reliées

99
Passage du modèle entité-association. au
relationnel (suite)
• Simplification le modèle relationnel:

• les associations binaires ayant une cardinalité 0,1 ou 1,1 vis-à-vis d’une classe d’entités peuvent être
supprimées en déplaçant l’identifiant relié

• clé étrangère

• exemple :

après simplification :

100
Cas particuliers pour le passage au relationnel
• Cas des associations réflexives

• on donne des noms différents aux attributs:

• Cas des entités qui ne comportant pas d’attribut non-identifiant

• on peut souvent supprimer ces tables sans perte d’information (Ceci ne s’applique qu’aux entités)

101
Exercice 1

102
Normalisation de la base de données

la normalisation de la base s’appuie sur des règles définies dans les différentes
formes

Première forme normale (1NF)

Deuxième forme normale (2NF)

Edgar Frank Codd

Troisième forme normale (3NF)

107
Première forme normale (1NF)

• Être constituée de valeurs atomiques

• Ne pas contenir d’attributs ou d'ensembles d'attributs qui soient des


collections de valeurs

• Valeurs constantes dans le temps

108
Deuxième forme normale (2NF)

• qu'elle soit en première forme normale (1NF)

• que tous les attributs ne faisant pas partie de ses clés dépendent des clés
primaires complètes.

109
Troisième forme normale (3NF)

• qu'elle soit en deuxième forme normale (2NF)

• Aucun attribut ne faisant pas partie des clés ne dépend directement que des
clés primaires.

110
Exercice 2

• Construire le modèle relationnel pour l'exercice sur la gestion de l’entreprise


de location de matériel de bricolage.

111
Exercice 3

• On considère la base de données relationnelle ayant le schéma suivant :

• CLIENT (NUMCLI, NOMCLI, ADRCLI, CPCLI, VILLECLI, TELCLI)

• CONTACT (NUMVEN, NUMCLI, DATE)

• FAMILLE (CODFAM, LIBFAM)

• VENDEUR (NUMVEN, NOMVEN, PRENOMVEN)

• ACHAT (NUMCLI, DATE, REFPROD, QTE, PRIXUNIT)

• PRODUIT (REFPROD, LIBPROD, LIBFAM, NUMVEN)

112
Exercice 3
• Ces relations ont pour signification:

• CLIENT (NUMCLI, NOMCLI, ADRCLI, CPCLI, VILLECLI, TELCLI): le client de n° NUMCLI a pour nom
NOMCLI, adresse ADRCLI, code postal CPCLI, ville VILLECLI et n° de tel. TELCLI.

• CONTACT (NUMVEN, NUMCLI, DATE): le vendeur n° NUMVEN contacte le client de n° NUMCLI à la


date DATE.

• FAMILLE (CODFAM, LIBFAM): la famille de produits de code CODFAM a pour désignation LIBFAM.

• VENDEUR (NUMVEN, NOMVEN, PRENOMVEN): le vendeur de n° NUMVEN a pour nom NOMVEN et


prénom PRENOMVEN.

• ACHAT (NUMCLI, DATE, REFPROD, QTE, PRIXUNIT): le client NUMCLI achète à la date DATE une
quantité QTE de produits de référence REFPROD au prix unitaire unitaire PRIXUNIT.

• PRODUIT (REFPROD, LIBPROD, LIBFAM, NUMVEN): le produit de référence REFPROD a pour libellé
LIBPROD, appartient à la famille de produits LIBFAM, et est géré par le vendeur ayant pour numéro
NUMVEN.

113
Exercice 3

• Effectuer le reverse-engineering de cette base de données en retrouvant le


modèle conceptuel de données qui en est à l'origine.

• Cette base de données comporte une erreur de conception. Où est-elle ?

114
II. Systèmes
Décisionnels et
Business
Intelligence
Analyser les données

117
Complexité du marché

Source: Fernandez, 2008, p.191


119
Environnement et contexte

Environnement en Réponse des Analyse


transformation organisations Prévisions
Décisions
Pressions
Marchés Stratégies
Consommateurs Partenaires Réactives
Technologies Business
Sociétés modèles Anticipatives
Gouvernements Opportunités Connexion en Adaptatives
Etc. temps réel supports de
décision
informatisés

Business
Intelligence

Adapté de Turban et al. (2010, p.6)


120
La décision et l’aide à la décision

121
Processus global de résolution d’un problème

Critères

Environnement

Alternatives Décision

Problème

122
Processus de prise de décision

123
Source: Laudon et Laudon
Type de décision, niveaux de décision et besoin en
information

Source: Laudon et Laudon 124


Type de décisions Vs Niveau hiérarchique

125
Décision dans le monde réel

1. Qualité de l’information

2. Filtres des managers

3. Inertie organisationnelle

126
1. Qualité de l’information

• Pertinence : Est-ce que les données sont adaptées à la réalité et concernent bien les
éléments recherchés ?

• Précision : Est-ce que les données correspondent à des aspects spécifiques de la


réalité ?

• Exhaustivité et complétude : Est-ce que toutes les données nécessaires sont


présentes ?

• Validité et exactitude : Est-ce que les données reflètent fidèlement la réalité et


proviennent de sources sures ? est-ce qu’elles sont utilisables ?

• Actualité : Est-ce que les données sont disponibles au moment voulu et sont à jour ?

• Accessibilité : Est-ce que les données sont accessibles et compréhensibles ?

127
2. Filtres des managers

• Les managers absorbent l’information à travers un/des filtre(s) pour leur


donner un sens

• Attention sélective

• Focalisation sur certains problèmes et solutions

=> Isolation de la réalité par des biais

128
3. Inertie organisationnelle

• Organisation : bureaucratie avec des capacités et des compétences limitées


pour permettre d’agir d’une manière décisive

• Changement dans l’environnement => résistance par rapport aux


nouveautés

• Décisions : équilibre entre les intérêts des parties prenantes plutôt que la
meilleure solution pour l'organisation.

129
Prise de décision : entre ancienne école et
nouvelles technologies

• Décision à l’ancienne basée sur :

• quelques nouvelles informations piochées par-ci, par-là

• meilleurs éléments et informations du passé

• conseils des autres

• instinct ou intuition

• Les nouvelles technologies permettent une réalité plus cadrée

130
Importance de la prise de décision

• Prendre une bonne décision à un moment critique peut conduire à un


fonctionnement plus efficace, à une entreprise plus rentable et à un client
plus satisfait.

• Donc, il est logique que les entreprises qui font de meilleures décisions sont
plus efficaces à long terme.

132
L’aide à la décision

Informatique

Approches et Approches et
méthodes méthodes
scientifiques scientifiques

Intuition, Intuition, Intuition,


expérience, etc. expérience, etc. expérience, etc.

133
Prise de décision et systèmes d’aide et de support

134
Source: Laudon et Laudon
La Business Intelligence
Définition et architecture

136
Quelques affirmations de managers dans les
entreprises

• « Nous avons énormément de donnée dans notre entreprise, mais nous ne pouvons y
avoir accès »

• « Vous devez rendre facile pour les gestionnaires à avoir directement accès à des
données »

• « Montre-nous juste ce qui est important »

• « Nous avons besoin de voir les données de plusieurs angles »

• « Ça me rend fou de voir deux personnes présenter les mêmes métriques


commerciales lors d'une réunion, mais avec des chiffres différents ! »

• « Nous voulons que les gens utilisent l'information pour soutenir davantage la prise de
décision fondée sur des faits »

137
Brève histoire de la BI

• Hans Peter Luhn (1958). "A Business Intelligence System". IBM


Journal 2 (4): 314.

• « la capacité à appréhender les interrelations des faits


présentés de telle manière à orienter l'action vers un but
désiré.» (définition du dictionnaire Webster)

• Gartner Group (Howard Dresner) : proposition du terme de


Business Intelligence pour illuster « les concepts et méthodes
qui permettent d’améliorer la prise de décisions en utilisant
des systèmes de soutien basés sur des faits.»

138
Vers une définition

• Ressources limitées, décisions illimitées

• la ressource la plus importante est le temps : évoluer correctement et surtout


rapidement

• En utilisant les données d'hier et d'aujourd'hui pour prendre de meilleures


décisions au sujet de demain.

• Choisir les bons critères pour juger du succès,

• Localiser et transformer des données appropriées pour tirer des conclusions

• Organiser l'information d'une manière qui permet de déterminer la voie à


suivre

139
Vers une définition

• Business intelligence rend les entreprises « plus intelligentes » : permet aux


gestionnaires de voir les choses plus clairement, et d'entrevoir comment
celles-ci vont probablement se dérouler à l'avenir.

• La Business Intelligence est « un ensemble de méthodologies, de processus,


d'architectures et de technologies qui transforment les données brutes en
informations pertinentes et utiles » (Boris Evelson, 2008).

• BI tourne autour du fait de mettre la puissance de calcul (logiciels hautement


spécialisés en concertation avec d'autres actifs technologiques plus
communs) pour aider à faire les meilleurs choix pour votre organisation.

140
Objectifs de la BI en général et du DW en
particulier

• Rendre les informations d'une organisation facilement accessible

• Présenter l'information de l'organisation d’une manière cohérente

• Permettre une souplesse et résilience au changement

• Etre un bastion sécurisé qui protège les actifs informationnels

• Servir de base pour améliorer la prise de décision

• Etre focalisé sur l'efficacité et la réussite plutôt que l’apparence et


l'élégance

141
Trois principaux besoins des entreprises

Source: Projet décisionnel, Microsoft 142


Trois principaux besoins des entreprises

Source: Projet décisionnel, Microsoft 143


Trois principaux besoins des entreprises

Source: Projet décisionnel, Microsoft 144


Avec et sans BI

145
Architecture de la BI

Stockage

Logistique
Cubes multidimensionnels
Système Analyse exploratoire de données
opérationnel Analyse des séries
Entrepôt de Marketing chronologiques
données Forage de données (data mining)
Optimisation

Evaluation de
la performance
Données
externes
Outils d’ETL

Exploitation

Collecte

Source: Verselis (2009)

146
BI : démarche globale

• Collecter et extraire des données

• Les outils ETL (Extract Transform Load)

• Stocker et organiser ces données

• Data warehouse, data mart.

• Les exploiter et les analyser

• OLAP, Data mining, etc.

147
Architecture illustrée de la BI

Source : Lebraty, 2006, p.7 148


1. Collecte et extraction des données

• Extract Transform Load (ETL) :

• Extract (extraire) : détecter et extraire des données à partir d’un système


qui stock des données (SGBD, ERP, fichiers plats,...) par synchronisation,
mise à jour ou rafraichissement de données.

• Transform (Transformer) : vérification, nettoyage, formatage et


consolidation (standardisation, élimination des doublons et des valeurs
fausses, ...).

• Load (charger) : introduire les données dans les data warehouses.

149
2. Stockage et organisation des données

• Data warehouse - DW (entrepôt de données)

• Une BD sur laquelle sont chargées, recopiées et ordonnées des données émanant de source
interne ou externe à l’entreprise. Elle constitue ainsi un référentiel global pour l’entreprise.

• Data mart (magasin de données)

• Une BD partielle du DW qui cible et se focalise sur un sujet précis (fonction, division, métier, ...).

• Data webhouse

• Un data warehouse distribué qui est implémenté à travers le web sans emplacement central

• Méta-données et dictionnaire de données

• les méta-données sont «des données sur les données» enregistrées dans une base ou un
entrepôt. Ces méta-données sont stockées dans le dictionnaire de données.

150
3. Exploitation et analyse des données

• Cubes multidimensionnels - Online Analytical Processing (OLAP)

• Data mining

151
Phase 1 : Intégration (Extraction,
transformation et chargement) des données
ETL (Extract Transform Load)

152
Le processus ETL

ERP

Source: http://www.alsic.be/
SGBD

1.Identifier les données provenant de différentes 4.Stocker les données de manière structurée dans
sources. l'entrepôt de données de sorte à ce qu’elles
soient facilement accessibles et optimisées pour
une analyse plus approfondie et l'établissement
2.Extraire et vérifier.
de rapports.

3.Convertir et combiner.
153
Data Staging Area dans le Processus ETL

• Data Staging area : zone de préparation des données

• zone de stockage intermédiaire entre les sources d’informations et le


datamart ou le datawarehouse

• Extract window : temps d’accès alloué par le responsable du système


source pour extraire les données

• ODS : Operational Data Store - Banque de données opérationnelles

• données élémentaires (vs données agrégées)

154
ETL - Deux méthodes
Full Load Delta load
(initial, first, (Incremental,
destructive) refresh)

Charger l’ensemble des


données sur la staging area (si
Que les nouvelles données qui
Processus vide), ou effacer la destination
sont chargées
et charger les nouvelles
données

Temps Beaucoup de temps Peu de temps

Historique Risque de perte Pas de risque de perte

Intégrité des
Facilement assurée Difficile à garantir
données

155
Stratégie de chargement ETL : Push, Pull ou
Push/Pull

Push

Pull
Base source Staging area

Push/Pull

156
Stratégies ETL : Push, Pull ou Push/Pull

• Disponibilité de/s base/s source/s

• Temps de chargement moyen

• Fréquence de chargement

• Accès aux données sources

157
Extract

• Extraction de données hétérogènes

• SGBD (Oracle Database, MySQL, Microsoft SQL Server, Microsoft


Access, FileMaker Pro, ...)

• Fichiers plats (TXT, CSV, DSV, XML, ...)

• Applications (ERP, CRM, TMS, ...).

• Autres.

• 1er critère d’un outil ETL : formats sources possibles à gérer

158
à prendre en compte…

• Éléments à prendre en considération...

• Connaître les type de données (pour pouvoir les analyser) : entier, chaîne
de caractères, taille, ... (pas toujours simple : données SGBD vs fichier
plat)

• Identifier les clés primaires et les clés étrangères

• Détecter les erreurs des sources

• Filtrer les données : n’extraire que les données nouvelles par exemple

• en ayant recours à un minimum de ressources du système

159
Transform

• Identifier les champs où le risque d’erreur est important

• Déterminer les méthodes de correction des erreurs (manuelles ou


automatiques)

• Assurer une politique de traitement des données (log file, …)

• dé-normaliser les données

160
Transform

• Transformer les données pour différentes cibles de données

• joindre les sources suivant les clés précédemment spécifiées

• Filtrer les données (filtrage sur critères à définir)

• Effectuer des calculs (simples ou complexes)

• Agrégation des données

• Permettre la génération de clés de substitution (Surrogate key)

• Permettre de garder un historiques de changements

• Indépendance des systèmes sources

161
Load

• Charger les données dans des cibles hétérogènes qui peuvent être
structurées suivant deux principaux modèles :

• Une table par niveau de hiérarchie ?

• Une table par dimension ?

• mettre à jour les données cibles

• gérer les erreurs, ...

162
ETL : d’un format source à un format cible

source: www.ibm.com
163
Les outils ETL - Trois catégories

• Générateurs de code (code-generators) :

• Encastrés dans les entrepôts de données (Database-embedded) :

• Basés sur un moteur (engine-based) :

165
Technologies complémentaires

• EAI - Enterprise Application Integration

• ESB - Enterprise Service Bus

166
Phase 2 : Stockage et organisation des
données
Data Warehousing

167
Définition d’un entrepôt de données (data
warehouse)

• Collection de données thématiques, intégrées, non volatiles et historiées,


organisées pour le support d'un processus d'aide à la décision (Inmon,
1992)

• Thématiques (subject-oriented) : rassemble et organise autour d’un


thème

• Intégrées (integrated) : intégration de données pouvant être


hétérogènes

• Non volatiles (non-volatile) : données utilisés en interrogation et ne


peuvent être modifiées

• Historisées (time variant) : représentation durant une certaine période


(référentiel temps).

168
Architecture globale d’un Datawarehouse

Connolly et Begg (2005, p. 1157)


169
Architecture globale d’un Datawarehouse

Connolly et Begg (2005, p. 1162) 170


Deux personnages clés dans le monde de la BI...

William H. (Bill) Inmon Ralph Kimball

Précurseur de la
Précurseur du data modélisation
warehousing dimensionnelle

171
... qui impliquent deux approches dominantes

Approche Top-Down Bottom-Up

Conglomérat de Data
Déploiement Data Warehouse
Marts

Modèle Flocon Etoile

172
Le paradigme de Inmon

173
Le paradigme de Inmon

Source : Microsoft (Riehl et Eiden)

174
Le paradigme de Kimball

175
Le paradigme de Kimball

Source : Microsoft (Riehl et Eiden)

176
De toute manière, le point commun entre les deux
est que...

On construit ou on conçoit un data


warehouse à partir des besoins des
utilisateurs et non pas des données
dont on dispose !

177
Modélisation (multi)dimensionnelle

• Technique de conception logique


qui a pour but de présenter les
données sous une forme standard et
intuitive pour assurer une
performance d’accès élevée

• considérer les éléments analysés


comme des points dans un espace à
plusieurs dimensions

178
Notions principales

• Faits : acts, événements ou sujets d’analyse

• Mesure : déterminer la mesure, quantifier, ...

• Dimension : décrire en termes d'attributs

• Hiérarchie : niveaux de granularité par rapport aux


attributs

179
Table de faits

• une table qui


contient un ou
plusieurs faits
numériques qui
se produisent
lors de la
combinaison de
clés qui
définissent
chaque
enregistrement

Source : Smaïli (2008)


180
Table de faits

181
Table de faits

182
Caractéristiques des faits

• Formé des mesures qui sont :

• Numériques ou mesurables

• Continue (grande fourchette d’alternatives)

• Additives : pour synthétiser de grandes masses de


chiffres

• Clé multiple comme identifiant de la table des faits :


concaténation des clés des dimensions
183
Les types de mesures

• Additives

• Valeurs qui peuvent être agrégées par rapport à toutes les


dimensions (chiffre d’affaires, quantité vendues, etc.)

• Semi-additives

• Valeurs qui peuvent être agrégées par rapport à un certain nombre


de dimensions (solde de compte client, niveau de stocks, etc.)

• Non-additives

• Valeurs qui ne peuvent pas être agrégées (prix unitaire, ratios, etc.)

184
Table de dimension et hiérarchie

source : netapsys

185
Notions principales - la dimension

• Axe qui nous permet d’analyser et de positionner un fait

• Elle se décline en table : table de dimension

Source: Elsa, 2013 186


Types de dimensions

• Dimension à évolution lente (Slowly changing dimension)

• Dimension à évolution rapide (Rapid changing dimension)

• Dimension conforme (Conformed dimension)

• Dimension causale (Causal dimension)

• Dimension dégénérée ou factuelle (Degenerate dimension)

• Dimension débarras (Junk dimension)

• Dimension rétrécie (Shrunken dimension)

• Dimension statique (Static dimension)


187
Types de dimensions

• Dimension à évolution lente (Slowly changing dimension)

Attributs d'une dimension qui subirait des changements dans le temps. Cela
dépend de l'exigence métier si l'historique des modifications doit être conservé
dans l'entrepôt de données.

• Dimension à évolution rapide (Rapid changing dimension)

Dimension avec un attribut de dimension qui change fréquemment ou


rapidement. S’il n’y pas besoin de suivre les modifications, l'attribut à
changement rapide ne pose aucun problème, mais si vous avez besoin de
suivre les modifications, l'utilisation d'une technique standard à changement
lent peut entraîner une énorme augmentation de la taille de la dimension. Une
solution consiste à déplacer l'attribut vers sa propre dimension, avec une clé
étrangère distincte dans la table de faits.
188
Types de dimensions

• Dimension conforme (Conformed dimension)

• Une dimension conforme peut être utilisée avec plusieurs tables de faits dans
une base de données unique ou dans plusieurs entrepôts de données ou
magasins de données.

• Dimension causale (Causal dimension)

Une dimension qui a un impact, cause ou provoque des faits. La dimension


Promotion qui en général peut provoquer des ventes (faits).

189
Types de dimensions

• Dimension dégénérée ou factuelle (Degenerate dimension)

Lorsque l'attribut de dimension est stocké dans le cadre d'une table de faits et
non dans une table de dimensions distincte. Ce sont essentiellement des clés
de dimension pour lesquelles il n'y a pas d'autres attributs.

• Dimension débarras (Junk dimension)

Une table unique avec une combinaison d'attributs différents et non liés pour
éviter d'avoir un grand nombre de clés étrangères dans la table de faits. Les
dimensions dépotoirs sont souvent créées pour gérer les clés étrangères
créées en modifiant rapidement les dimensions.

190
Types de dimensions

• Dimension rétrécie (Shrunken Dimension)

Une dimension rétrécie est un sous-ensemble d'une autre dimension. Si la


dimension principale est en flocons, il existe probablement déjà une table
distincte qui peut servir de dimension rétrécie.

• Dimension statique (Static Dimension)

Les dimensions statiques ne sont pas extraites de la source de données


d'origine, mais sont créées dans le contexte de l'entrepôt de données. telle
qu'une dimension Date ou Heure.

191
Mesure Vs Attribut

• Attribut

• Dépend de la dimension et non pas des faits

• Généralement des valeurs discrètes qui permettent de filtrer ou trier les


faits

• Mesure

• Dépend des événements (faits) qui sont contextualisés par des dimensions

192
La hiérarchie

• Hiérarchie Naturelle

• Heure, jour, semaine, mois, etc.

• Produit, famille de produit, etc.

• Hiérarchie artificielle

• directeur fonctionnelle, directeur projet

193
Exemple

Source : Grimaud (2007) 194


Dimension et Fait

Dimension

Fait

195
Dimension et Fait

Dimension

Fait

Source: developpez.com 196


Cinq étapes de modélisation dimensionnelle

Etape 1 Etape 2 Etape 3 Etape 4 Etape 5

Choisir les
Choisir le Définir la Identifier Choisir les
dimension
processus granularité les faits mesures
s

197
Etape 1 : Choisir le processus

• On modélise quel processus ?

• On mesure quel fait ?

• Achats

• Commande

• Client

• Stock, ...

198
Etape 2 : Définir la granularité ou le grain

• Quel est le niveau de détail qui sera mis en avant ?

• Stock

• semaine, mois, année, ...

• entrepôt, adresse dans l’entrepôt, ligne, rack, ...

• fournisseurs, segment, rang du fournisseur, ...

199
Etape 3 et 4 : Choisir les dimensions et les faits

• Identifier les dimensions relatives au fait

200
Etape 5 : Choisir les mesures

• Comment va-t-on mesurer ? déterminer l’élément qui nous permet de mesurer.

• solde : dinars, euros, dollars, ...

• quantités stockées : unité, palette, carton, boite, ...

• Déterminer le type de mesure

• Mesure additive

• Mesure semi-additive

• Mesure non-aditive

201
Schéma d’un entrepôt de données

• Flocon (Snowflake) ou Etoile (Star) ?

• Une table par niveau de hiérarchie ?

• Une table par dimension ?

202
Plusieurs schémas

• deux types de schémas :

• Schéma en étoile (star schema)

• Schéma en Flocon (snowflake schema)

203
Modélisation en Étoile

http://www-01.ibm.com/support/knowledgecenter/SS9UM9_8.1.0/com.ibm.datatools.dimensional.ui.doc/topics/c_dm_star_schemas.html?lang=fr

204
Modélisation en Étoile

205
Modélisation en Étoile

Source : Espinasse (2013) 206


Modélisation en Étoile

Source : Ghozzi (2004) 207


Modélisation en Étoile

208
Modélisation en flocon

209
Modélisation en flocon

http://www-01.ibm.com/support/knowledgecenter/SS9UM9_8.1.0/com.ibm.datatools.dimensional.ui.doc/topics/c_dm_snowflake_schemas.html?lang=fr 210
Modélisation en flocon

Source : Espinasse (2013) 211


Modélisation en flocon

Source : Ghozzi (2004) 212


Modélisation en flocon

213
Pour revenir à nos personnages...

214
Avantages

• Etoile

• Lisibilité

• Performance des requêtes

• Flocon

• Espace disque

• Performance des mises à jour

215
Schéma Etoile Vs Schéma en Flocon

Source : http://www.bleent.com
216
Source: http://danlinstedt.com/about/data-vault-basics/ 217
Data Vault

• Hub : entité qui ne contient


que les clés (stabilité de la
table)

• Lien (link) : entité


d’association entre les hubs

• Satellite : données et
attributs qui décrivent les
hubs ou les liens

Source : Espinasse (2013)


218
Data Vault

http://it.toolbox.com/blogs/bi-aj/part-4-modeling-one-model-for-persistence-and-access-with-data-vault-44762 219
Data Vault

http://bukhantsov.org/2012/04/what-is-data-vault/
220
Typologie des architectures
(Desrosiers, 2011 : adapté de Kimball)

• Magasins de données indépendants

• Architecture en bus de magasins de données

• Architecture Hub-and-spoke

• Entrepôt de données centralisé

• Architecture fédérée ou virtuelle

221
Magasins de données indépendants

222
Magasins de données indépendants

Les datamarts sont développés et opèrent de manière indépendante


Les données sont disposées en « silos fonctionnels »
Pas de dimensions conformes.
Avantage :
•Architecture la plus simple et la moins coûteuse à développer;
Inconvénients :
•Incohérences et redondances entre les datamarts (ex: dimensions, définitions,
mesures, types, etc.)
•Il n’y a pas une seule version de la vérité
•Analyse inter-fonctionnelle difficile, voir impossible
•Vision limitée, pas extensible.

223
Architecture en bus de magasins de données

224
Architecture en bus de magasins de données

Approche bottom-up, proposée par R. Kimball

Datamarts développés par sujet/processus d’affaires, en se basant sur des dimensions conformes;

Modélisation dimensionnelle (schéma en étoile),

Entrepôt de données conceptuel, formé de magasins de données inter-reliés à l’aide d’une couche
d’intergiciels (middleware).

Avantages :

•Intégration des données assurée par les dimensions conformes

•Approche incrémentale (processus les plus importants d’abord)

•Donne des résultats rapide.

Inconvénients :

•Itérations futures difficiles à planifier;

•Performance sous-optimale des analyses impliquant plusieurs datamarts.

225
Architecture Hub-and-spoke

226
Architecture Hub-and-spoke

Approche top-down, proposée par B. Inmon et al.

Entrepôt (hub) contient les données atomiques (c.-à-d. le niveau de détail le plus fin) et normalisées
(3FN)

Les datamarts (spokes) reçoivent les données de l’entrepôt

Les données des datamarts suivent le modèle dimensionnel et sont principalement résumées ou
agrégées (pas atomique)

La plupart des requêtes analytiques sont faites sur les datamarts.

Avantages :

•Intégration et consolidation complète

•Approche itérative et facilement extensible

Inconvénients :

•Peut avoir de la redondance de données entre les datamarts

•Performance sous-optimale des analyses impliquant plusieurs datamarts.

227
Entrepôt de données centralisé

228
Entrepôt de données centralisé

Similaire à Hub-and-spoke, mais sans les datamarts dépendants

Gigantesque entrepôt de données servant l’entreprise entière

Les données peuvent être atomiques ou résumées.

Avantages :

•Les utilisateurs ont accès à toutes les données de l’entreprise

•Intégration (ETL) et maintenance facile car les données sont à un seul


endroit

Inconvénients :

•Long et coûteux à développer

•Extensibilité limitée ou très coûteuse.

229
Architecture fédérée

230
Architecture fédérée

Entrepôt de données distribué sur plusieurs systèmes hétérogènes


Opère de manière opaque (l’utilisateur ne voit pas que les données sont réparties)
Données intégrées logiquement ou physiquement à l’aide de méta-données
Complémente plutôt que remplace (selon les experts).
Avantages :
•Utile lorsqu’il y a déjà un entrepôt en place (ex: acquisitions ou fusions de
compagnies);
•Demande peu de ressources matérielles additionnelles.
Inconvénients :
•Très complexe
•Peu de contrôle sur les sources et la qualité des données
•Faible performance (mais la technologie s’améliore).

231
Du modèle entité/association au modèle
multidimensionnel

• Le modèle E/A est normalisé

• Optimise les transactions et l’espace de stockage

• MAIS :

• Très « complet » : complexité importante

• Peu adapté à l’analyse

232
Phase 3 : Exploitation et analyse des données
OLAP et Data Mining

236
OLTP Vs OLAP

Source : bi-insider.com 237


OLAP

• Online Analytical Processing : traitement analytique en ligne => analyse de


l’information en fonction de plusieurs axes

• R-OLAP : Relational Online Analytical Processing => base son analyse sur
les ressources (bases de données) existantes

• M-OLAP : Multidimensional Online Analytical Processing => base son


analyse sur un entrepôt multidimensionnel

• H-OLAP : Hybrid Online Analytical Processing => base son analyse


principale sur un entrepôt multidimensionnel + le recours à d’autres
ressources si nécessaire

238
Cube multidimensionnel ou Hypercube OLAP

239
Fonctions d’extraction de l’information

• Opérations de sélection

• Slice (tranche de cube)

• Dice (sous-cube)

• Opérations de rotation

• Pivot ou Rotate (rotation de dimension ou de hiérarchie)

• Drill-Across ou Drill-Through (rotation de fait)

• Opérations de forage

• Drill-down (forage vers le bas) => détailler

• Roll-up (forage vers le haut) => agréger

240
Fonction d’extraction de l’information

Pivoting

241
Slicing

• extraire une tranche du cube qui correspond à la valeur d’une dimension non-
découpées

Source : Turban et al., 2010, p.58 242


Slicing

Source : Elsa, 2013 243


Dicing

• Faire un slice sur plus d’une dimension

244
Source : IBM
Dicing

245
Pivoting / Rotating

• sélection du pivot d’analyse en faisant tourner le cube

246
Source : IBM
Drill-down

• Détailler les données en descendant le niveau hiérarchique d’une dimension

247
Source : IBM
Drill-across

• Lorsqu’on ne dispose que de données agrégées, il permet d’accéder au


détail élémentaire des informations.

Source : IBM 248


Roll-up

• Agréger les données en augmentant le niveau hiérarchique

249
Source : IBM
Roll-up et Drill-down

Source : Elsa, 2013 250


Data Mining
• Fouille ou forage de données

• Une étape du processus de Knowledge Discovery in Databases (KDD)

• Fayyad, Piatetsky-Shapiro et Smyth

• Le KDD est un processus d'identification de modèles valides, nouveaux, potentiellement utiles et


compréhensibles

• Il y a un besoin urgent de recourir à une nouvelle génération de théories et d’outils pour aider les
humains à extraire des informations utiles (des connaissances) des volumes de données
numériques en croissance rapide.

• Le Data Mining : une étape dans le processus KDD qui consiste à appliquer l'analyse des données
et les algorithmes de découverte qui produisent un recensement particulier de modèles sur les
données.

• Data Mining : une nouvelle façon de faire de la statistique (Saporta)

251
Le processus de KDD

Source : Fayyad et al. 1996

252
OLAP vs Data Mining

• OLAP : opère une analyse multi-dimensionnelle sur les


informations et la connaissance existante

• Data Mining : génère de la connaissance à partir


d’exploration, de classification, d’association,
d’apprentissage, ...

253
CRISP-DM - Cross Industry Standard Process for
Data Mining

• Consortium : Integral Solutions Limited (ISL), National Cash Register (NCR)


Corporation, Daimler-Benz and OHRA (entreprise néerlandaise)

• ESPRIT (European Strategic Program on Research in Information


Technology) (Projet numéro 24959, 1997)

• Méthodologie qui permet de résoudre des problèmes à travers le recours à


des techniques de Data Mining.

254
CRISP-DM - Cross Industry Standard Process for
Data Mining (CRISP-DM)

255
Cycle de vie du Data mining

256
Techniques utilisées selon leur appartenance
disciplinaire

Source : Rakotomalala (Tutoriels Tanagra) 257


Méthodes de Data Mining

Source : Rakotomalala (Tutoriels Tanagra) 258


Carte des algorithmes de data mining

Source:
https://faisalferoz.wordpress.com/2013/
06/15/map-of-data-mining-algorithms/

259
Au-delà de la BI

261
Big Data

• Ensemble de données très volumineuses qui rend difficile leur exploitation


avec des outils classiques de gestion de bases de données.

Volume

BIG DATA

Vélocité Variété

262
Les trois V des Big Data

• Volume : Volume actuel estimé


à plus de 3 zeta-octets

• Vélocité : du batch au temps


réel

• Variété : plusieurs sources de


données - de données
structurées à celles qui le sont
moins

Évolution des volumes de données stockées annuellement


dans le monde
(estimation ; source : IDC)

1 Zetta-octet = 10^21 octets = 1000 Milliards Giga-octets


263

Vous aimerez peut-être aussi