Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
Mémoire
En vue de l’obtention du
Diplôme de Magister en Informatique
Option : Système d’Information
Présenté par
Ahmed HACIANE
Thème
2005 – 2006
Remerciements
Ahmed
Sommaire
Lexique ........................................................................................................................... VI
1. Introduction .................................................................................................................1
6. Références Bibliographiques...................................................................................123
Sommaire des figures
ABC (activity Based Costing) : Méthode d’optimisation des processus. Elle est fondée
sur une évaluation au plus juste des coûts de revient de chacune des activités du processus.
ACSI (American Customer Satisfaction Index) : Indice américain de mesure de la
satisfaction de la clientèle. L’indice reflète les attentes des clients, la qualité réellement perçue
ainsi que la valeur perçue. Il peut être décliné au niveau de l’entreprise. http://acsi.asq.org/
Agent intelligent : Programme autonome et personnalisable. Les plus aboutis intègrent des
caractéristiques d’auto-apprentissage et de communication avec ses alter-ego pour une action
coopérative. Ils sont le plus souvent dédiés aux techniques de recherche et de collecte
d’information.
Analyse de la valeur (Target Costing) : Approche de conception fondée sur une
décomposition en fonctions élémentaires et la mise en exergue du coût d’utilité. En d’autres
termes, au moment de la conception, pour chaque fonction prévue d’un produit, on se posera
les deux questions : quelle est son utilité ? Quelle est sa valeur ?
API Application Programming Interface : C’est une interface de programmation
standardisant l’accès à des fonctions spécifiques d’un produit logiciel ou d’une application.
Pour l’accès aux bases OLAP, Microsoft est en train d’imposer son standard : OLE DB for
OLAP.
Balanced Scorecard : Une approche de pilotage d’entreprises proposée par Robert Kaplan
et David Norton conseillant de juger toutes les décisions sous l’éclairage de quatre (4)
perspectives :
Axe Financier : Comment nous voient les actionnaires ?
Axe Client : Comment nous voient les clients ?
Axe Processus internes : Quels sont nos avantages ?
Axe Apprentissage organisationnel : Allons-nous progresser ?
Cette approche rencontre un franc succès aux Etats-Unis. Elle mériterait cependant d’être
réactualisée pour considérer les nouveaux rôles des clients et des partenaires. Les adeptes de
cette approche pourront, avec profit, la compléter par la méthode GIMSI.
Business Intelligence : C’est le nouveau terme pour identifier toutes les fonctions ayant
trait à l’aide à la décision. Le terme englobe toute la chaîne décisionnelle, de la collecte en
passant par les Datawarehouses et les Datamarts, l’analyse et les tableaux de bord.
Cash-flow : Solde des flux de trésorerie engendré par un investissement à la clôture d’une
période.
Cross selling : Technique recherchant à améliorer la valeur client en l’incitant à acheter
aussi d’autres produits que ceux achetés régulièrement. La réussite du cross selling est
conditionnée par le décloisonnement de la fonction marketing. (voir Up selling)
CRM : CRM est un acronyme pour « Customer Relationship Management », en français
GRC pour « Gestion de la Relation Client ».
CRM est un terme de l’industrie des systèmes d’information englobant des méthodologies,
des stratégies, des outils logiciels et habituellement des capacités internet qui aide une
entreprise à gérer ses relations client d’une manière structurée.
Datamart : Entrepôt de données départemental orienté sur un problème spécifique.
Datamining : Outil d’analyse mettant en évidence des corrélations insoupçonnées en
travaillant sur grand nombre de données. Le terme datamining englobe des techniques
différentes comme : les recherches d’association, les arbres de décision, les algorithmes
génétiques ou encore les techniques d’apprentissage comme les réseaux de neurones.
Datawarehouse : Entrepôt de données. Un datawarehouse centralise les données issues des
applications utilisées dans l’entreprise. Les données sont organisées par sujet, horodatées et
historisées. Pour réussir son Datawarehouse, il faut en premier abandonner la vision
universelle de l’information et se focaliser sur des problèmes particuliers et les traiter un par
un. En deuxième, il faut surtout ne pas négliger les travaux de nettoyage qui constituent la
tâche la plus lourde du projet. En troisième, il faut adopter un système de gestion des méta-
données et le maintenir en permanence dans un esprit de qualité totale.
DOLAP Desktop OLAP : C’est une version simple du modèle OLAP pour des analyses
multidimensionnelles locales, au sein de la machine client.
Drill Down : zoom dans une base OLAP ou comment aller du global au détail.
EIS (Executive Information System puis Entreprise Information System) :
Tableau de bord destiné à l’origine au management. Le terme n’a pas survécu à la
banalisation des systèmes décisionnels et est remplacé par la « Business Intelligence »
ERP (Entreprise Ressource Planning ou Progiciel de gestion intégré) : Outil
fédérateur du système d’information, l’ERP intègre les fonctions de l’entreprise comme la
comptabilité, la gestion des ressources humaines, la gestion de production… Malgré ses
avantages quant au décloisonnement du SI dans l’entreprise, les ERP pèchent cruellement par
manque d’ouverture vers les clients, les partenaires et les besoins décisionnels des utilisateurs.
ETL (Extraction Transformation Loading) : Désigne une catégorie d’outils et par
extension d’activités dédiées à l’extraction des données des bases de productions, à leur
adaptation (nettoyage entre autre) et au stockage dans un système décisionnel, le
datawarehouse ou le datamart dans la plupart des cas.
GRC : Gestion de la relation client (voir CRM).
Groupware : Ce sont les outils destinés à favoriser le travail en équipe. On trouvera
notamment la messagerie, les bases d’informations partagées et le workflow. Une gestion de
contacts, un agenda partagé, voire des outils de vidéo conférence pouvant compléter la
panoplie d’outils.
HOLAP Hybrid OLAP : Ce terme décrit les bases assurant le juste compromis entre le
modèle MOLAP et ROLAP, MOLAP pour les données les plus souvent utilisées et ROLAP
pour les autres.
HTML Hyper Text Mark-up Language : Langage de description des pages Web. HTML
est un dérivé allégé du langage de documentation SGML.
HTTP : Protocole de transfert des pages HTML sur le réseau Internet.
Méta Donnée (Meta data) : ou les données sur les données. Les méta-données stockent
toutes les informations nécessaires à la vie des données : origine, date de dernière mise à jour,
mode de calcul, procédure de transformation… La gestion des méta-données est le point clé
de la gestion de la qualité du système d’information. Le manque de standard est aujourd’hui la
principale difficulté OIM (Open Information Model) du Meta Data Coalition ou CWM
(Common Warehouse MetaData) de l’OGM (Object Management Group).
MOLAP Multidimensionnal OLAP : Il s’agit des bases de données intégrant
physiquement le modèle OLAP.
MTBF (Mean Time Between Failure) : Temps moyen entre deux pannes.
MTTR (Mean Time To Repair) : Temps moyen de dépannage.
ODBC (Open Data Base Connectivity) : Le standard de Microsoft pour accéder aux
bases de données. Les solutions ODBC s’opposent aux interfaces dites « native » propriétaires
mais plus performantes.
OLAP (On-Line Analytical Processing) : Le concept de base de données
multidimensionnelle établi par EF CODD l’inventeur du modèle relationnel. Partant du
constat que le modèle classique OLTP (On-Line Transaction Processing) était inadapté aux
besoins de l’analyse, EF CODD a formalisé les 18 règles du modèle (gérer, traiter et présenter
les données multidimensionnelles).
Reporting : Informations constatant l’activité et entre autre la performance locale transmises
selon la voie hiérarchique au niveau supérieur à titre de compte-rendu. Elles seront le plus
souvent globalisées pour construire un indice « moyen ».
ROLAP Relationnal OLAP : Ce terme décrit les bases de structure relationnelle implantant
le modèle OLAP.
SFA – Sales Force Automation – : des anciens systèmes qui se bornaient principalement
à soutenir la mission du représentant en contact avec le client dans la prise des commandes.
UML (Unified Modeling Language) : Langage de modélisation. Il est issu des méthodes
d’analyse objet : OOD (Object Oriented Design), OMT (Object Modeling Technique) et
OOSE (Object Oriented Software Engineering).
Up Selling : Technique recherchant à améliorer la valeur client en l’incitant à augmenter ses
achats (en proposant des services complémentaires par exemple).
XML (eXtensible Markup Language) : Est un langage « d’écriture » de données. Il
dérive de SGML, un langage plus ancien utilisé dans les bases documentaires. Il est beaucoup
plus puissant sur le plan des règles et des possibilités de définition et de programmation que
HTML. Notamment, il sépare le texte de sa présentation. Il ne remet pas en cause tous les
acquis du Web, notamment le protocole HTTP, et peut devenir la norme d’écriture.
Chapitre 1
Introduction
n Introduction générale ;
n Problématique ;
n Contribution ;
n Présentation du mémoire.
Introduction
1. Introduction
Le CRM – Customer Relationship Management – ou GRC en français – Gestion de la
Relation Client – a trouvé son origine dans plusieurs études américaines qui ont démontré que
fidéliser un client coûtait jusqu’à cinq fois moins cher que d’en conquérir de nouveaux.
La mise en place d’une démarche CRM est une stratégie qui va mettre le client au centre de
l’entreprise et qui a pour objectif d’en améliorer la rentabilité et de le fidéliser.
La gestion de la relation client s’est surtout développée dans les années 90 afin de répondre à
l’évolution du contexte économique : passage d’une économie d’offre orientée « produit » –
années 50 à 60 – à une économie de demande orientée « marché » – années 70 à 80 – puis
« client » – depuis les années 90 –. Et enfin, avec l’avènement du Web, une nouvelle notion
est apparue : l’E-CRM, ou le CRM électronique via le Web – années 2000 –.
D’un autre côté, les systèmes décisionnels basés sur les datawarehouses sont apparus depuis
le début des années 90 afin de permettre de mesurer la performance de l’entreprise dans son
environnement. Cette mesure permet d’assister les décideurs dans leur processus de prise de
décision. Ainsi, Les systèmes décisionnels tentent de rendre ce processus le plus efficace
possible.
Le but principal du datawarehousing est de rendre l’information disponible pour tous les
acteurs de l’entreprise. Il n’existe pas de doute sur la valeur de l’information dans l’entreprise,
et nous admettons tous que la majorité des entreprises ont une masse d’informations
considérable non-exploitée dans leurs systèmes opérationnels. Le datawarehouse peut être la
clé qui ouvre la porte vers ces informations.
Au fil des années, les datawarehouses n’ont pas cessé d’évoluer afin d’intégrer des concepts
liés aux nouvelles tendances émergentes telle que Internet et aussi, le CRM.
Au début de leur apparition, les datawarehouses (de « première génération ») n’ont pas été
toujours un succès et cela pour au moins deux raisons :
La première est liée à la sous-estimation de la complexité des projets datawarehouses et la
difficulté de la gestion des bases de données décisionnelles. La deuxième raison est, quant-à-
elle, liée au fait que dans un projet datawarehouse, il n’est pas possible de définir
préalablement les besoins d’une manière précise, et cela au contraire des systèmes
opérationnels. Or, l’approche de conception traditionnelle des systèmes d’informations restent
toujours largement basée sur la compréhension préalable des besoins.
14
Introduction
Problématique :
Les entreprises existent pour générer un chiffre d’affaire et un profit et le client y constitue la
principale source de revenue. C’est pourquoi, la prise de décision dans l’entreprise doit « être
orientée » et « en relation » avec les clients. Cela ne devient possible que si les
datawarehouses sont capables de fournir toutes les données nécessaires sur les clients.
Les datawarehouses classiques stockent des données comportementales. Ainsi, ces systèmes
permettent de connaître et d’analyser le comportement des clients. Or, les données
comportementales ne sont pas suffisantes pour une prise de décision CRM efficace. Pour
atteindre cet objectif, les applications CRM doivent être supportées par des datawarehouses
conçus autour d’objectifs CRM et qui ne se limitent pas à recueillir que les données
comportementales. Ce sont des datawarehouses de « deuxième génération » qui intègrent un
nouvel objectif clair : maximiser l’efficacité de la gestion de la relation client (CRM).
Contribution :
Le but de ce mémoire est de traiter les éléments liés à la conception d’un datawarehouse
orienté CRM pouvant constituer l’élément de base de toute infrastructure CRM efficace. Dans
ce mémoire, une méthodologie complète de conception et d’implémentation de
datawarehouses orienté CRM est présentée. Ma contribution personnelle dans ce travail sera
de regrouper et de présenter tous les éléments de conception nécessaires d’un datawarehouse
orienté CRM en se basant sur les travaux de recherche actuels dans ce domaine et
d’appliquer en parallèle la méthode et les concepts sur une étude de cas. Ce mémoire traitera
donc tous les aspects liés à la conception d’un datawarehouse orienté CRM. Le sujet principal
de ce mémoire est donc le datawarehousing (la construction d’un datawarehouse).
Présentation du mémoire :
Le mémoire est organisé comme suit :
Un Premier chapitre état de l’art sur La première génération des datawarehouses :
Historiquement, la première génération des datawarehouses a été construite sur un certain
nombre de principes définis par les gourous de l’industrie des systèmes d’information. Les
deux principaux pionniers dans le domaine sont : ‘Ralph KIMBALL’ et ‘Bill INMON’. Ces
deux personnes peuvent être considérées comme les fondateurs du datawarehousing puisque
ce sont eux qui ont donné les définitions et les principes de conception des datawarehouses
qui restent actuellement la référence dans le domaine.
15
Introduction
Le mémoire se termine par la présentation des axes de recherches actuels et futurs sur les
datawarehouses orientés gestion de la relation client.
16
Chapitre 2
Cette vue intégrée peut alors être étudiée par fonction ou par métier.
18
Les systèmes décisionnels « datawarehouses »
19
Les systèmes décisionnels « datawarehouses »
De façon chronologique, on peut considérer que les premiers systèmes de pilotage ont été
constitués par des outils qui, via des requêtes, permettaient de constituer des tableaux de bord.
Ces outils se sont ensuite enrichis de fonctionnalités de simulation et d’interfaces de
présentation. Ce fût alors l’avènement des outils EIS et SIAD. Ces outils aussi puissants
soient-ils, ne permettent que de faire une photographie en deux dimensions d’une situation
donnée. On est donc : « capable d’identifier un dysfonctionnement, mais pas d’en connaître la
cause ». [Source : Goglin1998]
Pour pouvoir rechercher et identifier les causes, il fallait introduire une nouvelle dimension au
système « photographique » en deux dimensions existant, la dimension de l’agrégation qui
permet d’expliquer l’origine de l’information étudiée. Cette nouvelle dimension a été
introduite par les systèmes multidimensionnels au travers des systèmes OLAP (On-Line
Analytical Processing).
Les outils devenant plus conviviaux et plus puissants, les décideurs s’ingénièrent à trouver de
plus en plus d’indicateurs toujours plus astucieux et plus compliqués. La course à l’indicateur
était lancée. Elle eut pour principale conséquence de noyer le décideur sous une masse de
tableaux de bord et de synthèses dont il n’arrivait plus à extraire la substantifique moelle. On
introduisit alors un moyen graphique pour identifier plus vite les informations utiles, ce fut
l’introduction du « color-coding » et des systèmes d’information cartographiques qui
permettent d’identifier visuellement les informations intéressantes selon les critères du
décideur puis de les représenter sous une forme directement exploitable par une équipe de
direction.
Il devenait alors intéressant de diffuser en « temps réel » toutes ces informations et toutes ces
analyses vers tous les cadres concernés. C’est ce qu’allait permettre le développement des
réseaux, des activités de « Workflow » et maintenant Internet.
Notons que le décisionnel souffre toujours d’un grave manque : Il sait fournir les informations
nécessaires au décideur ou trouver des corrélations entre des évènements apparemment non
liés, mais ne sait pas assister le décideur dans sa prise de décision. Le décideur devient
victime du syndrome de la non prise de décision puisqu’il ne sait pas forcément ni par quel
bout commencer, ni, finalement, quelle décision prendre.
Il faut connaître les seuils à partir desquels les valeurs des indicateurs sont considérées
comme anormales, puis identifier les règles exploitant ces seuils afin de proposer un
diagnostic. Ce diagnostic permet de prendre la décision finale. Ces nouveaux outils sont
appelés les moteurs de règles de gestion. Leur objectif n’est pas de se substituer au décideur,
mais bien de l’assister dans sa prise de décision.
20
Les systèmes décisionnels « datawarehouses »
21
Les systèmes décisionnels « datawarehouses »
L'architecture des systèmes décisionnels met en jeu quatre éléments essentiels : les sources de
données, l'entrepôt de données, les magasins de données et les outils d'analyse et
d'interrogation.
Les sources de données sont nombreuses, variées, distribuées et autonomes. Elles peuvent
être internes (bases de production) ou externes (Internet, bases des partenaires) à l'entreprise.
22
Les systèmes décisionnels « datawarehouses »
Les magasins de données (datamarts) sont des extraits de l'entrepôt orientés sujet. Les
données sont organisées de manière adéquate pour permettre des analyses rapides à des fins
de prise de décision.
Les outils d'analyse permettent de manipuler les données suivant des axes d'analyses.
L'information est visualisée au travers d'interfaces interactives et fonctionnelles dédiées à des
décideurs souvent non informaticiens (directeurs, chefs de services,…).
Bases de production
On appelle, d’une façon générale, bases de production toutes les sources (qu’il s’agit de
données de production, d’informations internes ou d’informations externes quel que soit leur
mode de stockage) dont il va falloir extraire des données en vue d’alimenter le datawarehouse.
L’alimentation ou transformation
Les outils d’alimentation sont utilisés pour extraire les données des bases de production et des
bases d’informations internes et externes, pour les convertir, les transformer et enfin les
stocker dans le datawarehouse.
23
Les systèmes décisionnels « datawarehouses »
Datamart
Un datamart est un magasin de données. Il s’agit d’une solution départementale d’entrepôt de
données (datawarehouse) supportant une partie des données et fonctions de l’entreprise
(produit, département, activité, etc.). C’est un sous-ensemble du datawarehouse qui ne
contient que les données d’un métier de l’entreprise alors que le datawarehouse contient
toutes les données décisionnelles de l’entreprise pour tous les métiers.
Datamining
Les outils de datamining, également appelés « forage des données » ou « extraction de la
connaissance », s’appuient sur le constat qu’il existe au sein de chaque entreprise des
informations dont le sens ou les liens sont cachés dans le gisement des données de
l’entreprise. Le datamining permet de faire apparaître des corrélations dans des gisements de
données.
Le datamining est l’étape logique suivant le datawarehousing puisqu’il consiste en l’analyse
des données composant le datawarehouse à l’aide d’outils spécialisés en intelligence
artificielle, visant à mettre en exergue des corrélations non apparentes par des analyses de
premier niveau.
24
Les systèmes décisionnels « datawarehouses »
EIS
Un EIS (Executive Information System) est un outil de visualisation des données et de
navigation, permettant de constituer des tableaux de bord. Il est constitué d’outils qui
permettent aux différents niveaux de management d’accéder aux informations essentielles de
leur organisation, de les analyser et de les présenter de façon élaborée. Ces outils sont dotés
d’une interface graphique très conviviale et très esthétique.
L’utilisateur final ne peut visualiser ou exploiter que des informations qui ont été prévues par
le concepteur des tableaux de bord. A la différence d’un SIAD, l’EIS ne permet pas à
l’utilisateur final de poser une question qui n’aurait pas été prévue initialement.
SIAD
Un SIAD (Système Interactif d’Aide à la Décision) est un outil d’analyse et de modélisation
des données de l’entreprise qui permet de créer des représentations multidimensionnelles de
l’information. Historiquement, il s’agit d’une terminologie et d’outils utilisés avant
l’avènement et la maturité du datawarehouse.
Requêteur
Un requêteur permet à l’utilisateur final d’accéder aux données de l’entreprise de manière
autonome, dans un langage propre à son métier, mais qui nécessite généralement la
connaissance de la structure de la base accédée, et ce, en définissant lui-même les
informations qu’il veut obtenir ainsi que le format des restitutions souhaitées.
Progiciels
Ce sont des applications packagées orientées vers un ou plusieurs métiers dédiés (marketing,
logistique, finance, ressources humaines, etc.).
25
Les systèmes décisionnels « datawarehouses »
Internet/intranet
Internet en tant que vecteur de communication normalisé et banalisé répond parfaitement aux
problématiques d’accès banalisé et de publication à distance et à faible coût. Internet permet
d’envisager, par exemple :
L’envoi par messagerie électronique et donc la publication des analyses effectuées ;
La possibilité pour un interlocuteur distant de se connecter pour connaître les dernières
évolutions des ventes par exemple ;
La mise à disposition, au sein d’un serveur Web par exemple, d’informations internes comme
les statistiques de production ou externes comme la présentation de la société.
DWH
OLTP
Acquisition de données
Cette étape constitue la frontière entre le système décisionnel et les systèmes opérationnels.
Cette étape détermine la faisabilité du système. Elle consiste à extraire les données outils des
systèmes opérationnels qui dans de nombreux cas sont hétérogènes, diffuses et complexes.
La problématique de l’alimentation d’un datawarehouse se résout par la mise en place d’un
processus en cinq phases : découvrir, extraire, transformer, transporter et charger.
26
Les systèmes décisionnels « datawarehouses »
Découvrir Charger
Méta données
Fédérer
Extraire Transporter
Transformer
Finance
Commercial
DWH
RH
27
Les systèmes décisionnels « datawarehouses »
Reporting
Data
marts Cube analysis
Requêtage
Data warehouse
Data mining
28
Les systèmes décisionnels « datawarehouses »
Cependant, l’informatique de décision, que certains désignent par OLAP, justifie une remise
en cause des méthodes de conception d’un modèle de données.
29
Les systèmes décisionnels « datawarehouses »
30
Les systèmes décisionnels « datawarehouses »
5. L’évolutivité qui permet de faire en sorte que le développement d’un datawarehouse soit
incrémental, et pas seulement itératif : un développement itératif peut en effet amener à
définir plusieurs modules applicatifs, indépendants les uns des autres. Par développement
incrémental, l’intégration de chacun des modules doit être considérée dans la mise en
œuvre itérative, afin de s’assurer de ce que l’homogénéité globale du système est prise en
compte.
Gamme Fournisseur
ID_Gamme ID_Fourn Pays
Libellé Nom Code_pays
Obj_marge … Libellé Client
ID_Client
Nom
Adresse
Produit Code_pays
ID_Produit Commande …
Nom ID_cde
Code_pays ID_exp
Caract. ID_Client
Prix HT Date
Expéditeur
Coût standard Remise_gale
ID_Exp
Code_pays
Nom
…
TVA LG_CDE
ID ID_cde
Date No_ligne
Taux ID_Produit
Quantité
Remise
31
Les systèmes décisionnels « datawarehouses »
Le modèle est en revanche très complet. Il laisse une marge d’autonomie très forte à
l’utilisateur.
En réalité, un modèle d’entreprise pourra contenir des centaines ou des milliers d’entités, et
donc d’autant de tables au niveau physique. Une requête utilisera peut-être des dizaines de
tables et qui sera très complexe à formuler pour l’utilisateur et à traiter pour l’optimiseur de la
base de données. Les performances seront donc au mieux médiocres et pire inacceptables.
Dans des systèmes décisionnels simples, où un nombre réduit d’utilisateurs lancent peu de
requêtes sur un modèle de données de petite envergure, ce type d’approche peut fonctionner.
Dans les autres cas, il faut absolument recourir à d’autres techniques.
Fournisseur
ID_fourn
Nom
Client
Pays
ID_client
...
Nom
Adresse
Produit Code_pays
ID_produit …
Gamme
CA année n-1 Commande
CA année n ID_cde
Provenance LG_CDE PHT
Coût standard ID_cde PTTC
ID_fourn No_ligne Expéditeur
PHT
Remise
PTTC
ID_prod
ID_client
Pays
Remise
Remarquez que le modèle contient un nombre de tables plus restreint, chaque table étant
associée à un sujet d’intérêt. L’orientation « sujet » rapproche le modèle des besoins des
32
Les systèmes décisionnels « datawarehouses »
c. La modélisation dimensionnelle
La modélisation dimensionnelle est une approche dédiée aux systèmes décisionnels. Elle part
du principe que l’objectif majeur de ce type de système est l’analyse de la ventilation de
données quantitatives (les faits) par rapport à des données qualitatives (les dimensions).
La modélisation dimensionnelle dérive des concepts qui ont amené à l’émergence des bases
de données multidimensionnelles, dites bases OLAP, il y a de cela plus de dix ans (1994). La
nouveauté est que ce type de modèle est indépendant de la technologie. Elle peut permettre
l’utilisation de toute base de données, qu’elle soit relationnelle, multidimensionnelle, objet…
L’objectif majeur d’un système décisionnel est l’analyse de la performance qui se matérialise
au travers d’un ensemble d’indicateurs. Ces indicateurs n’ont de sens que mis en relation avec
des dimensions d’analyse.
Les bases de données OLAP du marché sont des solutions conçues exclusivement pour créer
rapidement et exploiter les modèles de type multidimensionnel. Ils offrent à l’utilisateur des
outils sophistiqués, permettant de naviguer d’une dimension à une autre, de zoomer sur des
informations plus détaillées, etc.
Dans le modèle dimensionnel qui suit, les indicateurs de base sont groupés dans une table
centrale, dite table de faits. Une table de faits regroupe tous les indicateurs qui partagent le
même ensemble de dimensions et qui ne peuvent être déduits d’autres indicateurs.
33
Les systèmes décisionnels « datawarehouses »
Produit Fournisseur
ID_Produit ID_Fourn
Nom Table des métriques Nom
Gamme (Faits) Dept
Resp Type
Coût standard Nationalité
Dimensions
Packaging …
Couleur
Dimensions
Ventes
ID_prod
ID_fourn
JJ MM YYY
ID_client
Période Client
CA
JJ MM YYY ID_Client
Marges
Jour_sem Nom
Unités
Sem. mois Région
Sem. trimestre … Age
Sem. année …
Mois
Ce type de modèle est nommé « modèle en étoile ». Au centre de l’étoile se trouve la table de
« faits ». L’identifiant de cette table de « faits » est une clé multiple composée de la
concaténation des clés de chacune des dimensions d’analyse.
Autour de cette table figurent tous les éléments caractérisant les dimensions d’analyse. Ces
caractéristiques sont regroupées dans des tables de dimensions.
Les plus grandes forces de ce type de modèle sont la lisibilité et la performance. La lisibilité
tout d’abord : ce modèle est très parlant pour l’utilisateur, et sa finalité est évidente. Il est
naturellement orienté sujet et définit clairement les indicateurs d’analyse. La performance
ensuite : les chemins d’accès à la base de données sont prévisibles. Il existe d’autres
techniques de modélisation multidimensionnelle dérivées de la modélisation en étoile,
notamment la « modélisation en flocon » ou « snowflake ». Le flocon est simplement une
étoile dont les branches sont elles-mêmes décomposées en sous-hiérarchies. Modéliser en
flocon, c’est donc conserver le cœur du modèle en étoile, à savoir les tables de faits et affiner
la modélisation des tables de dimensions pour les éclater en sous-tables.
Ce type de modélisation est intéressant à deux points de vue. D’une part, il normalise les
dimensions, réduisant la taille de chacune des tables. D’autre part, ce modèle permet de
formaliser la notion de hiérarchie au sein d’une dimension. Un autre avantage du flocon, c’est
qu’il normalise les dimensions en éliminant les redondances qui pourraient s’y produire.
34
Les systèmes décisionnels « datawarehouses »
Couleur
ID_coul Fournisseur
Nom ID_fourn
Nom
Dept
Chef
ID_type
produit Produit
ID_cp
ID_Orig
ID_produit …
Nom Ventes
ID_famille
Prénom
Remarque ID_cp ID_prod
ID_couleur ID_fourn
Désignation
Type Origine
JJ MM YYY ID_type ID_orig
Coût standard ID_client Nom Nationalité
CA
Marges
Gamme Activité Unités
ID_gamme ID_famille Région
Nom …
ID_gamme ID_région
Fourchette Fourchette
prix Nom
prix Client
ID_client
Nom,…
Mois
MM
ID_région
ID_activité
Nom Période
ID_segment Activité
JJ MM YYY
Saison Code_jour … ID_activité
ID_saison ID_semaine Désignation
Nom
Remarques
ID_mois
35
Les systèmes décisionnels « datawarehouses »
datawarehouse a crû, partant des directions internes pour englober les clients, les partenaires
et un groupe plus large d’employés internes. Le fait que le Web se concentre sur
l’ « expérience client » a rendu de nombreuses entreprises plus conscientes du fait qu’elles
devaient connaître leurs clients et leur donner des informations utiles.
La révolution du Web a propulsé le datawarehouse sur le devant de la scène, car dans de
nombreux cas, il doit être le moteur qui contrôle ou analyse la pratique du Web. Pour se
conformer à ces responsabilités plus importantes, le datawarehouse doit s’ajuster. Sa nature
doit être quelque peu différente de ce qu’elle a été ces dix dernières années.
36
Les systèmes décisionnels « datawarehouses »
• est extensibles aux nouveaux médias du Web, que ce soit les images fixes, les
graphiques, le son et la vidéo ;
• est un bastion de sécurité qui publie des données à destination des clients, des
partenaires commerciaux et des employés de manière appropriée, mais qui, dans le
même temps, protège les actifs en données de l’entreprise contre une utilisation non
prévue ;
• est la base de toute aide à la décision liée au Web. Répétons que le datawebhouse doit
permettre à ses utilisateurs de prendre des décisions concernant le Web et son utilisation.
La première décrit comment associer les technologies Web au datawarehouse. Le Web est une
immense source de données comportementales : les individus, en effet, interagissent avec leur
37
Les systèmes décisionnels « datawarehouses »
navigateur sur des sites Web distants. Si les données de ce flux continu de clics (le
Clickstream) sont bien souvent brutes et simples, elles constituent néanmoins potentiellement
une source d’informations jusque là inégalées sur les actions effectuées par les individus
utilisant le Web.
Associer les technologies Web au datawarehouse, c’est alimenter le datawebhouse avec cette
source de données considérable et indiscipliné, afin de les analyser, mais aussi de les mettre
en conformité et les conjuguer aux sources de données plus conventionnelles.
38
Les systèmes décisionnels « datawarehouses »
39
Les systèmes décisionnels « datawarehouses »
Remarque : Le terme « Temps » est utilisé ici et dans le reste de ce mémoire dans le sens
donnée « Date/heure ».
Un des points les plus importants dans le processus de conception des datawarehouses est la
représentation et le traitement des données temporelles (données sur le « Temps »).
L’importance des données temporelles est une des caractéristiques des systèmes décisionnels
qui les différencient des systèmes opérationnels. Nous allons essayer dans ce qui suit
d’introduire les caractéristiques du « Temps » et son utilisation dans les datawarehouses.
Les applications de gestion d’entreprise qui constituent le système opérationnel sont
développées pour fonctionner dans l’environnement présent où les données temporelles ne
nécessitent pas un traitement particulier. Dans plusieurs cas, ces données « Dates/Heures » ne
sont que des attributs descriptifs dans les tables des données.
Mais dans un datawarehouse, le « Temps » affecte considérablement la structure du système.
Les caractéristiques et les objectifs des datawarehouses engendrent des besoins en données
temporelles qui sont différents de ceux du système opérationnel.
En l’absence actuel de SGBD temporels où le support des données temporelles serait implicite
et où le langage de requête contiendrait des fonctions spécifiques sur le « Temps » afin d’en
simplifier la manipulation, les bases de données datawarehouses doivent être conçues pour
prendre en considération les besoins temporels et être implémentées sur des SGBDR
classiques. En d’autres termes, le support du « Temps » doit être explicitement intégré dans les
structures des tables et des requêtes.
40
Les systèmes décisionnels « datawarehouses »
41
Les systèmes décisionnels « datawarehouses »
opérationnel de cette entité. Par exemple, les données sur une commande sont intégrées
lorsque l’état de celle-ci devient « facturé ». À ce moment, le montant facturé devient un
« fait » dans le datawarehouse. Une fois chargée, la donnée « fait » ne changera jamais.
L’enregistrement des données comportementales dans les tables de faits est réalisé par des
insertions continuelles des données en provenance des systèmes sources.
Généralement, chaque « fait » est associé à un attribut « Temps » unique (une combinaison
« Date/Heure ») relatif à la constatation de l’évènement. Cet attribut « Temps » correspond,
dans l’idéal, à la date de validité du « fait ». En pratique, la date de validité n’est pas toujours
disponible et est remplacée par la date de transaction générée par le SGBD.
42
Les systèmes décisionnels « datawarehouses »
43
Les systèmes décisionnels « datawarehouses »
de référence) des clients. Ce type de requêtes n’est pas supporté par les datawarehouses de
première génération.
Nous pouvons ainsi conclure que dans la première génération des datawarehouse, les attributs
des dimensions sont réellement considérés comme des attributs supplémentaires des faits.
Quand nous réalisons une jointure entre la table des faits et une table dimension, nous ne
faisons que juste étendre les attributs des faits avec ceux de la dimension.
44
Chapitre 3
46
Le CRM : Customer Relationship Management
Mieux gérer les clients n’est pas un concept nouveau; il suffit pour s’en convaincre de
considérer les systèmes de rabais mis au point dans les années 1960 afin de fidéliser les
clients. Les outils par contre sont nouveaux ; au lieu de prendre des décisions stratégiques
basées sur leur propre expérience, les managers utilisent des outils logiciels spécifiques pour
prendre ou valider ces dernières.
Selon différentes vues de l’industrie, le CRM peut consister à :
• Permettre à un département marketing d’une entreprise d’identifier et de viser ses
clients les plus profitables, à gérer les campagnes marketing avec des objectifs clairs
afin de générer des « leads » de valeur pour la force de vente.
• Aider l’organisation dans l’amélioration du « telesales », « account » et « sales
management » en optimisant le partage de l’information par les multiples intervenants
et en simplifiant les processus existants.
• Favoriser le développement de relations individualisées avec les clients dans le but
d’améliorer la satisfaction client et de maximiser les profits.
• Fournir aux employés les informations et les processus nécessaires pour mieux
connaître leurs clients, leurs besoins et bâtir des relations durables entre la société, les
clients et les partenaires. [Source : Swift2003]
Examinons la figure suivante :
47
Le CRM : Customer Relationship Management
48
Le CRM : Customer Relationship Management
Remarquons par exemple que 50% des entreprises ayant implémenté une solution CRM se sont fixées comme
Figurel’amélioration
objectif 3.1.2 : Les objectifs du CRM.des
de la satisfaction [Source
clients : Flueckiger2000]
49
Le CRM : Customer Relationship Management
Les chiffres ci-dessus récoltés auprès d’entreprises allemandes ayant mené des projets CRM
montrent les augmentations ou les diminutions par poste en pourcentage. Par exemple, nous
remarquons que ces entreprises ont constaté une augmentation du taux du succès des offres de
8% et une diminution du taux de réclamation de 5%. [Source : Flueckiger2000]
On peut en retenir que, même si le CRM a toujours pour but, parfois non-avoué, d’adapter la
structure des coûts de la société, les éléments qui visent le développement des ventes et de la
profitabilité deviennent des éléments de plus en plus importants.
50
Le CRM : Customer Relationship Management
51
Le CRM : Customer Relationship Management
52
Le CRM : Customer Relationship Management
53
Le CRM : Customer Relationship Management
54
Le CRM : Customer Relationship Management
Une pyramide des âges à la base de plus en plus fragile contribue avec les facteurs
mentionnés ci-dessus à créer des situations de saturation des marchés et pousse les sociétés à
trouver des solutions de diversification.
Dans la course à la différentiation, les entreprises ont mis au point les options suivantes :
• Rendre la vie du client plus facile
La valeur pour le client n’est plus seulement créée par le produit ou le service en lui-même
mais par le fait que ce produit peut être disponible dans de multiples canaux et dans une
fenêtre temps plus large. Pour l’entreprise, il est logique que, plus l’acte d’achat est facile,
plus la probabilité de générer une vente est grande.
55
Le CRM : Customer Relationship Management
Il est donc important pour les vendeurs de repousser constamment les variables temps et
espace, ce qui peut aller à l’encontre d’une relation personnalisée.
• Multiplier les tentations d’achat
Les entreprises démultiplient leurs promotions en offrant des packages différents à des prix
différents dans des canaux différents. Ces actions sont lancées de manière centrale mais
peuvent très bien être taillée sur les besoins de chaque client afin de répondre à ses besoins
potentiels définis.
Cependant, la multiplication des actions promotionnelles peut aussi entraîner auprès du
consommateur une sorte de saturation qui aurait des conséquences négatives sur la marche des
affaires.
• Proposer des offres personnalisées
Les nouvelles méthodes de production permettent d’offrir des produits sur-mesure, ce qui est
un argument d’achat pour les consommateurs qui cherchent eux aussi à se différencier de la
masse.
L’exemple de la voiture dont les options sont commandées dans le point de vente, les
informations transmises à la fabrique directement afin de permettre la fabrication selon les
souhaits du client montre à quel point les implications pour le système d’information peuvent
être grandes.
Les entreprises entraînées dans une course effrénée aux parts de marchée et aidées par
l’évolution des systèmes de production et d’information ont créé des systèmes complexes qui
certes offraient des solutions intéressantes pour les clients mais qui pouvaient pénaliser leurs
propres résultats financiers et qui ont eu pour conséquence deux grands effets :
56
Le CRM : Customer Relationship Management
57
Le CRM : Customer Relationship Management
L’aperçu des fonctionnalités ci-dessus nous montre que le CRM représente une démarche
globale et englobe tous les outils de ses prédécesseurs, comme la gestion des contacts que le
SFA (Sales Force Automation), comportaient partiellement. [Source : Flueckiger2000]
58
Le CRM : Customer Relationship Management
59
Le CRM : Customer Relationship Management
L’entreprise peut aussi fournir un service client en ligne via les moyens suivants :
• Les moteurs de recherches : un moteur de recherche sur un site aide les clients à
trouver des réponses à leurs questions, localiser les informations et se connecter
rapidement au département concerné.
• Les FAQs (Frequently Asked Questions) : une page sur le site qui publie et répond
aux questions les plus posées par les clients.
• L’aide en direct : les clients peuvent de nos jours parler directement avec la personne
en charge du service quand ils sont sur le site web en utilisant la technologie de la voix
sur IP (VOIP).
60
Le CRM : Customer Relationship Management
• Suivi des commandes en ligne : avec des applications personnalisées, l’entreprise peut
permettre aux clients de suivre l’évolution et la progression de leurs commandes.
Citons comme exemple l’entreprise « DHL » qui donne la possibilité à ses clients de
poursuivre leur courrier en temps réel.
61
Le CRM : Customer Relationship Management
62
Le CRM : Customer Relationship Management
Les droits d’accès aux données sont aussi des points à régler soigneusement, par exemple
définir qui est habilité à ouvrir un nouveau compte, est-ce l’utilisateur distant à partir du
système CRM ou uniquement l’utilisateur central ayant accès direct à l’ERP.
3.7.4. Le datawarehouse
La connaissance du client repose sur des informations quantitatives et qualitatives concernant
le client et demande la collaboration de toutes les personnes en contact avec le client.
Le datawarehouse comportera non seulement des informations comportementales provenant
de l’ERP mais aussi les informations relatives à toutes les interactions entre le client et
l’entreprise.
Le datawarehouse permettra d’offrir une vision unifiée du client aux différents acteurs dans
l’entreprise.
Quant à la segmentation, elle pourra être effectuée sur des faits objectifs.
63
Le CRM : Customer Relationship Management
Très souvent, les données récoltées durant les différentes étapes du processus ne sont pas homogènes mais
Figureêtre
devront 3.8.1 : Les relations
analysées CRMconsistante.
sur une base – Datawarehouse. Source
Le système [Flueckiger2000]
de datawarehouse ‘unifie’ les données et les classes
selon différents sujets comme les clients ou groupe de clients.
64
Le CRM : Customer Relationship Management
Selon les besoins, on pourra avoir accès au datawarehouse de différentes manières. Deux
principales manières ressortent : OLAP et le Datamining. La principale différence entre les
deux est que la méthode OLAP travaille avec des dimensions et relations prédéfinies alors que
le datamining recherche des échantillons nouveaux et non connus au départ qui pourront
ensuite servir comme base pour OLAP :
- L’OLAP
OLAP offre un moyen très rapide de considérer et d’analyser des données et des nombres
selon différentes perspectives.
D’après le centre d’intérêt, les données, par exemple les lignes de produits, les régions et les
résultats des analyses peuvent être représentés graphiquement selon différentes vues.
De cette manière, les différents départements reçoivent des informations qui correspondent à
leurs besoins. Le « Product Manager » reçoit la situation de son groupe de produits dans une
région déterminée alors que le « Controller » reçoit le chiffre d’affaires de toute la palette de
produits pour un mois donné.
- Le Datamining
Le datamining est approprié pour découvrir les relations non connues. Derrière le concept se
trouve une combinaison de différents algorithmes statistiques qui peuvent aider les
« Marketers » à découvrir des relations et des tendances.
Ce processus complexe nécessite la définition de variables à partir d’un grand nombre de
données.
Le choix du modèle statistique approprié avec lequel les données doivent être analysées est
décisif pour le résultat d’une requête.
L’exploitation du potentiel lié au « Cross-Selling » et « Up-Selling » se trouve dans la
classification des clients. Dans un segment donné, les clients qui ont des intérêts semblables
sont répertoriés et ainsi ciblés par un produit défini. Une des méthodes de « Datamining » est
65
Le CRM : Customer Relationship Management
l’analyse de clustérisation qui permet de répartir constamment les clients dans de nouveaux
groupes.
Par exemple, à partir d’une commande de vêtements pour bébés, une maison de vente par
correspondance pourra prédire quand l’envoi d’un catalogue spécial pour du matériel
d’écolage est approprié.
Le but ultime de l’utilisation de système de traitement de l’information dans la relation client
est le gain d’avantages compétitifs à travers une meilleure gestion de l’information et une
orientation client plus forte.
Le but de notre travail sera donc d’approfondir ces concepts et de construire une solution
datawarehouse qui servira de base pour les systèmes CRM.
Dans le reste de ce mémoire, nous allons donner les éléments essentiels de conception et de
construction d’un datawarehouse de deuxième génération destiné à supporter les systèmes
CRM des entreprises.
66
Chapitre 4
Durant ce chapitre, Nous allons commencer par construire un modèle conceptuel général de
notre datawarehouse qui nous servira de base pour le reste de notre étude. Nous allons ensuite
présenter une nouvelle méthode de modélisation adaptée au contexte des datawarehouses de
deuxième génération orientés CRM. Cette méthode sera utilisée pour produire le modèle
conceptuel détaillé de l’« ETS Boissons ». Nous entamerons par la suite les modélisations
logique et physique de la base de données et nous terminerons par présenter et expliquer
l’architecture d’implémentation physique du système.
Rappelons que le facteur clé de succès d’un projet CRM est le traitement des données sur les
clients. Ainsi, parmi les technologies-clés qui rendent possible le succès du CRM sont le
« datawarehousing » et le « datamining ».
Les différents processus métiers CRM peuvent clairement être divisés en deux domaines :
• Il y a tout d’abord le traitement opérationnel des données qui aide les collaborateurs
comme élément « Front-End » à mettre en place les activités marketing et enregistre les
résultats.
• Puis, il y a les dispositifs « Datawarehouses » comme élément « Back-End » qui analysent
les résultats et aident les « Marketers » à élaborer une stratégie et planifier les actions.
La base du datawarehouse orienté CRM est donc les données qui proviennent des différentes
sources opérationnelles, par exemple les données transactionnelles en provenance des
systèmes ERP, de « Sales Force Automation », de « Campaign Management », des « Call
Centers », et plus récemment du commerce électronique ; on pourrait y rajouter les données
provenant de sources externes comme les instituts statistiques.
68
Conception d’un Datawarehouse orienté CRM
Concernant notre système futur, nous commençons par donner un premier schéma global
générique simplifié en étoile de la future solution. Ce schéma nous servira de base pour la
suite de notre étude :
Gestionnaire
Boisson Compte
Ventes Client
Dépôt
Temps
69
Conception d’un Datawarehouse orienté CRM
Gestionnaire
Boisson Compte
Ventes Client
Dépôt Temps
70
Conception d’un Datawarehouse orienté CRM
Les deux premières questions qu’on se pose sont : est-ce que ce modèle contient les
informations sur :
• Le comportement des clients,
• Les circonstances des clients.
Il est évident que la réponse est OUI.
La table « Ventes » qui est la table de faits contient des détails sur les ventes aux clients. Ce
sont des données comportementales, et c’est une caractéristique des datawarehouses et des
datamarts dimensionnels qui précise que la table des faits contient des données
comportementales.
La dimension « Client » est l’endroit unique où on stocke les informations sur les
circonstances clients. Selon ‘Ralph KIMBALL’, le principale rôle de la dimension « Client »,
et des autres dimensions d’un modèle dimensionnel, est de permettre d’ajouter des contraintes
aux requêtes à exécuter sur la table des faits. Les dimensions permettent de regrouper
(d’agréger) les faits et apparaissent dans les entêtes des tableaux résultats des requêtes. Nous
devons être capables d’effectuer des « Drill Down » et des « Slice & Dice » sur la table des
faits. Une solution basée sur un modèle dimensionnel est idéal pour cela.
Un modèle dimensionnel est avant tout, un modèle orienté comportement. Il est orienté
comportement car son principal objectif est de faciliter l’analyse compréhensive des données
comportementales.
71
Conception d’un Datawarehouse orienté CRM
Toutes ces situations (circonstances) peuvent être la cause pour laquelle ce client apparaîtra le
mois prochain sur la liste des clients ayant cessé leur relation avec cet opérateur.
Ça aurait été parfait si l’opérateur avait prédit qu’il s’agissait d’un client à risque. La seule
manière de pouvoir réaliser ce classement est d’analyser les données recueillies et d’appliquer
sur elles quelques modèles prédictifs qui donneraient un classement du genre :
1 : Client à faible risque,…, 10 : Client à haut risque.
72
Conception d’un Datawarehouse orienté CRM
Parmi les données sur les clients que nous voulons stocker figurent :
Client
Nom
Adresse
N° téléphone
Date de naissance
Sexe
Situation familiale
Il est clair que nous aurons besoin de beaucoup plus de données. Mais cette liste sera utilisée
comme un exemple pour simplifier notre étude de cas.
Circonstances ‘client’
Client changeantes
Nous commençons par construire un modèle conceptuel général pour les clients. Pour chaque
client, nous identifions les attributs qui peuvent changer de valeur et les attributs qui ne
changent pas de valeur où ceux dont on ne veut pas suivre les changements et connaître les
anciennes valeurs.
Dans notre étude de cas « ETS Boisson », le nom, le n° de téléphone, la date de naissance et le
sexe sont des attributs qui ne peuvent pas changer de valeurs ou si elles changent, on n’aura
pas besoin de connaître les anciennes valeurs. Pour l’instant, considérons que l’adresse et la
situation familiale du client peuvent changer plusieurs fois leurs valeurs.
73
Conception d’un Datawarehouse orienté CRM
Client Adresse
Situation familiale
Figure
Ainsi, 4.2.3la: MCG
on garde : Vue
trace des détaillée «d’adresses
changements circonstances
et de la‘Client’ changeantes
situation familiale. »
Maintenant, l’autre principal type de données clients que nous devons capturer est le
comportement. Les données comportementales résultent des interactions entre le client et
l’entreprise. Les modèle conceptuel général que nous essayons de développer doit inclure les
données comportementales.
Circonstances
Comportement Client client
client changeantes
La relation entre le client et son comportement montre qu’il y’a plusieurs instances
comportementales dans le temps. Le modèle actuel que nous proposons pour l’« ETS
Boisson » sera comme suit :
74
Conception d’un Datawarehouse orienté CRM
Adresse
Ventes boissons
Client
Situation
familiale
Figure 4.2.5 : MCG « ETS Boissons » : Vue détaillé ‘Client’ : comportement et circonstances
Ce modèle conceptuel général de notre datawarehouse orienté client parait simple. Mais à ce
stade, il n’est pas encore complet.
Nous rappelons qu’il existe trois types de données client. Les deux premiers sont les
circonstances et le comportement. Le troisième type est les « segments dérivés ». Comme
exemples de principaux segments dérivés, nous pouvons lister : « Durée de vie estimée » et
« tendance à partir ». En réalité, la classification d’un client par rapport à un segment dérivé
se fait sur la base de processus de calcul de type « modèles prédictifs ». Donc, il est préférable
de modifier notre modèle afin d’inclure les segments dérivés :
Comportement Circonstances
Client Client changeantes
Segments dérivés
Ce modèle peut être décrit comme le modèle conceptuel général d’un datawarehouse orienté
client. Ce MCG constitue un « Template » à partir du quel seront construit dans le futur des
modèles conceptuels finalisés.
75
Conception d’un Datawarehouse orienté CRM
Données client
Titre
Nom
Adresse
N° Téléphone
Date de naissance
Sexe
Situation familiale
Détails enfants
Détails épouse
Revenue mensuel
Loisirs et intérêts
Profession
Détails employeur
76
Conception d’un Datawarehouse orienté CRM
Construisons maintenant notre vue « Client » du modèle conceptuel global « ETS Boissons »:
Situation
Adresses familiale Enfants
Figure 4.2.7 : MCG « ETS Boissons » 1/3 : Vue détaillée « Client » : les circonstances
77
Conception d’un Datawarehouse orienté CRM
Ventes boissons
Client
Figure 4.2.8 : MCG « ETS Boissons » 2/3 : Vue globale « Client » : le comportement
Maintenant, il faut détailler le point relatif aux « segments dérivés ». Voici quelques exemples
que nous pouvons appliquer pour l’« ETS Boissons » :
• Durée de vie : une bonne classification que toute entreprise doit avoir.
• Promotions spéciales : c’est un bon exemple de segment qui peut être très efficace. Si
un jour, l’« ETS Boissons » voudrait augmenter les ventes d’une boisson spécifique,
elle serait capable de déterminer quel client est susceptible d’acheter ce produit. Cela
impliquerait l’analyse préalable des précédents comportements et circonstances.
Promotions
Durée de vie Client spéciales
Figure 4.2.9 : MCG « ETS Boissons » 3/3 : Vue détaillée « Client » : les segments dérivés
Ainsi, en rassemblant les trois modèles des vues détaillées, nous aboutissons à un modèle
conceptuel général d’un datawarehouse orienté client appliqué à un cas pratique. Ce modèle
nous accompagnera dans le reste de cette étude.
Remarquez que dans cette conception globale, nous nous sommes intéressés uniquement à la
dimension « Client » car par rapport aux datawarehouses classiques, les datawarehouses
orientés CRM diffèrent surtout par la manière de traiter cette dimension « Client ».
78
Conception d’un Datawarehouse orienté CRM
79
Conception d’un Datawarehouse orienté CRM
sémantique mais nous avons plutôt besoin d’un modèle simple, facilement compréhensible
par les non-informaticiens et surtout être adapté aux concepts des systèmes décisionnels.
Comme nous le savons déjà, les datawarehouses ne sont pas conçus pour supporter les
applications opérationnelles telles que la gestion des ventes où la gestion des stocks. Ils sont
conçus pour assister les responsables dans leurs processus de prise de décision.
Généralement, les utilisateurs sont incapables d’exprimer clairement leurs besoins en
information. Ces utilisateurs savent qu’ils ont des problèmes mais ils ne connaissent pas leurs
origines.
D’un autre côté, les managers ont des objectifs à atteindre. Leurs performances sont mesurées
à l’aide d’indicateur clé de performance (KPI : Key Performance Indicator). Un
datawarehouse pourrait aider les décideurs à atteindre leurs objectifs s’ils sont capables
d’exprimer précisément les informations dont ils ont besoin pour prendre les bonnes
décisions.
Nous avons besoin d’un modèle qui permet l’expression du besoin d’une manière
participative. Les utilisateurs doivent être capables de construire, valider, modifier et même
remplacer par eux-mêmes le modèle conceptuel. Ceci dit, le modèle doit être aussi riche et
puissant et permettre ainsi de spécifier les caractéristiques techniques des données afin que les
informaticiens puissent développer le modèle logique des données.
a. Le traitement du comportement :
Les besoins temporels des données comportementales (les faits) sont très simples. Une fois
enregistrées, ces données ne changent pas. Les faits comportementaux sont dérivés d’une
entité opérationnelle qui a atteint un état particulier. Le changement de l’état est causé par un
évènement qui s’est produit à un instant donné. Donc, un des attributs du « fait » sera un
attribut de « temps » (combinaison Date/Heure). L’attribut « temps » enregistre les
informations temporelles lors de la réalisation de l’évènement. Cet attribut sera utilisé de deux
manières :
• Comme un paramètre d’une contrainte de sélection dans une requête,
• Comme un moyen pour joindre les dimensions à des groupements hiérarchiques.
Pour chaque évènement ou changement, nous associons une donnée « temps ». Le besoin en
granularité du « temps » diffère d’une application à une autre. Certaines applications ont
80
Conception d’un Datawarehouse orienté CRM
simplement besoin du « jour » comme la granularité du temps la plus fine. Nous pouvons
citer comme exemple :
• Vente des voitures des constructeurs pour une compagnie d’assurance,
• Analyse des balances comptables d’une banque,
• Analyse de ventes des produits dans un hypermarché.
D’autres applications ont besoin d’un grain plus fin qui peut-être l’« heure ». Par exemple :
• Analyse du comportement des clients dans un hypermarché,
• Contrôle du volume du trafic des voitures.
D’autres applications ont besoin de plus qu’un unique grain de temps. En analysant les
exemples précédents, nous nous apercevons qu’au niveau des hypermarchés, nous avons
besoin de deux différents granules de temps pour l’analyse des ventes et pour l’analyse du
comportement. Toutes les analyses dimensionnelles auront besoin de différents niveau
d’agrégation des ces données suivant l’axe du temps.
81
Conception d’un Datawarehouse orienté CRM
Aussi, chaque composant du modèle qui est sujet à des changements dans le temps doit être
évalué pour définir la manière de traiter les valeurs « historiques ». Un composant peut être :
• Une entité : un ensemble de circonstances ou une dimension entière.
• Une relation : exemple, hiérarchie.
• Un attribut : exemple, l’adresse du client.
Pour chaque composant, nous donnons une classification que nous appelons la rétrospection
du composant. La rétrospection possède trois valeurs possibles :
• Vrai,
• Faux,
• Permanent.
Une rétrospection dont la valeur est « Vrai » signifie que le composant doit pouvoir nous
restituer son historique. Il permet de retourner des enregistrements temporels des données
reflétant un partitionnement historisé des valeurs. Chaque valeur de dimension, de relation et
d’attribut aura ainsi une durée de vie déterminée.
Une rétrospection dont la valeur est « Faux » signifie que la vision de l’historique sera altérée
si les valeurs de données de l’objet changent. En d’autres termes, quand les changements
subviennent, les anciennes valeurs seront écrasées et définitivement perdues, comme si les
anciennes valeurs n’ont jamais existé.
Une rétrospection dont la valeur est « Permanent » signifie que la valeur de donnée de l’objet
ne change jamais.
82
Conception d’un Datawarehouse orienté CRM
Rétrospection = Faux : signifie que seul l’état actuel de l’existence de l’entité est enregistré.
Un exemple pour l’« ETS Boissons » peut être la dimension « Fournisseur ». Il y aurait peut-
être le besoin d’être capable de distinguer entre les fournisseurs actuels et les anciens
fournisseurs. Pour cela, nous n’avons pas besoin d’enregistrer les périodes de temps pendant
lesquelles un tel fournisseur livrait ses boissons à l’« ETS Boissons » en distinguant les autres
périodes d’inactivité du fournisseur.
Rétrospection = Vrai : signifie que la durée de vie de chaque relation doit être enregistrée et
historisée pour que les résultats des requêtes reflètent fidèlement le passé. Dans notre étude de
cas, citons l’exemple de la relation entre « Client » et « Région des ventes ». Si un client
change de région, il est important que l’ancienne relation de ce client avec l’ancienne région
soit gardée.
Rétrospection = Faux : signifie que seules les relations actuelles doivent être enregistrées. Le
système n’a pas besoin de garder les anciennes relations. Un exemple de ça est la relation
entre « Client » et « Loisirs ». Si les loisirs d’un client changent, nous n’avons pas besoin de
garder la trace des anciennes relations.
83
Conception d’un Datawarehouse orienté CRM
comme dans le cas des autres objets de données, ce besoin ne doit pas ajouter une complexité
signifiante au modèle de données.
Rétrospection = Vrai : signifie que nous devons enregistrer et garder toutes les valeurs d’un
attribut sur l’axe du temps. Notre exemple sera le « Coût » d’une bouteille de boisson.
Comme ce coût change dans le temps, nous devons enregistrer le nouveau coût sans perdre les
anciens.
84
Conception d’un Datawarehouse orienté CRM
La liste complète des éléments de données du modèle conceptuel de l’« ETS Boissons » est
fournie en Annexe 1.
85
Conception d’un Datawarehouse orienté CRM
L’intersection des deux axes, qui est représenté par un point, contient des données sur la vente
d’un produit spécifique à un client spécifique. La donnée représentée par le point est
généralement numérique. Elle peut être atomique, comme le montant de la vente, ou
complexe et peut aussi inclure d’autres valeurs comme l’unité de vente et le profit dégagé.
86
Conception d’un Datawarehouse orienté CRM
Pour pouvoir représenter plus de trois dimensions dans la méthode du point, le point est placé
au centre du diagramme et les dimensions sont ajoutées autour du ledit point.
Branche Client
Région Produit
Fournisseur Temps
Ainsi, le modèle adopte la symétrie radiale des schémas en étoile.
Figure 4.3.1 : Le modèle du point
Région Vente
Boisson
Ventes
Client
Fournisseur
87
Conception d’un Datawarehouse orienté CRM
Pour chaque dimension, les attributs sont listés dans d’autres documents. Pour chaque attribut,
nous précisons :
• Le nom de la dimension propriétaire.
• Le nom de l’attribut.
• La valeur de rétrospection.
• La fréquence des mises à jour.
• Les dépendances avec les autres attributs afin de définir les causalités.
• Une description de l’attribut : Métadonnées.
• La source : d’où vient cet attribut.
• Les transformations : préciser les transformations sur la donnée avant son transfert au
datawarehouse.
• Type de données (ex. : numérique).
Les informations sur les hiérarchies des dimensions sont précisées au niveau du document sur
les hiérarchies. Le document liste les noms des composants de la hiérarchie et contient aussi :
• La rétrospection de la hiérarchie.
88
Conception d’un Datawarehouse orienté CRM
• La fréquence de la capture.
• Métadonnées décrivant la hiérarchie.
La figure suivante illustre sept (7) modèles dimensionnels séparés partageant des dimensions.
Cela montre que même dans des situations complexes, il est facile de construire des modèles
dimensionnels séparés en utilisant les notations de la modélisation par le point.
89
Conception d’un Datawarehouse orienté CRM
Contact Tarif
Base
Type appareil
Traitement
Commande Compte
Revenue R
Produit Client Type
collection
Revenue NR Règlement
Evènement
Service Segments
Organisation
hiérarchique
4.3.4. Type Campagne
évènement
90
Conception d’un Datawarehouse orienté CRM
- Le modèle initial
Après une brève explication de la modélisation par le point, les participants commencent à
exprimer par le dessin leur vision du système.
91
Conception d’un Datawarehouse orienté CRM
Revenue Manager
Boisson
Ventes
Profession Région Vente
Fournisseur
Temps Client
Figure 4.3.4 : Le modèle comportemental initial
- Le comportement
Nous expliquons aux participants la signification du point, qui est le comportement. Les
attributs de ce point constitueront le noyau du système. Les faits typiques sont « la valeur » et
« la quantité ». Nous devons aussi inclure des faits dérivés tels que « le profit » et « le
retour sur investissement » (ROI). Chaque attribut « fait » doit être numérique et sommable
ou semi-sommable.
Chaque fait mesurable et participant dans la mesure des objectifs doit avoir sa place dans le
datawarehouse. A ce stade, des questions doivent être posées sous forme de requêtes en
langage naturel afin de déterminer la manière d’utiliser ce fait.
Nous devons aussi connaître la granularité du temps pour chaque fait. L’idéal est d’opter pour
la plus fine granularité possible. Généralement, tous les faits partagent la même granularité.
Nous terminons par donner une description détaillée de chaque fait retenu.
- Les dimensions
Nous expliquons aux participants le sens de la dimension, et nous leur laissons le soin
d’exprimer leur besoin en dimensions.
- La construction du modèle
Le processus de construction doit être itératif : nous commençons par un modèle initial qui est
affiné au fur et à mesure du déroulement des travaux de l’atelier.
Pendant la construction, les informaticiens doivent traiter les points suivants :
• La disponibilité des données sources,
• L’architecture de la base de données cible,
• La qualité des données.
L’affinement du modèle se fait essentiellement par :
92
Conception d’un Datawarehouse orienté CRM
Région Manager
Ventes
Fournisseur
Client
Temps
- Documenter le modèle Loisir
Figure 5.3.5 : Le modèle du point comportemental affiné de l’« ETS Boissons »
Le modèle est documenté en élaborant les documents de travail déjà introduits et expliqués dans ce chapitre.
Parmi les documents les plus importants sont ceux liés aux entités et à la segmentation. Les
entités incluent les circonstances client et les dimensions du modèle comportemental. La
segmentation est en relation avec les segments dérivés, qui est la dernière composante de
notre MCG.
93
Conception d’un Datawarehouse orienté CRM
94
Conception d’un Datawarehouse orienté CRM
95
Conception d’un Datawarehouse orienté CRM
- Hiérarchies et groupements
Le but ici est simplement de fournir des métadonnées pour décrire les relations entre les
différents niveaux hiérarchiques des dimensions.
Le document utilisé ici s’appelle : « Hiérarchies et groupements ».
Voici un exemple :
Modèle du point : Hiérarchies et groupements
Nom modèle : Ventes « ETS Boissons »
Région vente
Client
96
Conception d’un Datawarehouse orienté CRM
- La rétrospection
Nous avons déjà expliqué la signification de la rétrospection et son rôle dans les modèles
dimensionnels décisionnels. En pratique, il faut être capable d’expliquer ce concept à l’équipe
du client afin qu’ils puissent définir par eux-mêmes les valeurs de rétrospection pour chaque
entité du modèle.
Nous rappelons ici que la rétrospection est la capacité de regarder dans le passé. Chaque objet
de base de données peut avoir une des trois valeurs de rétrospection suivantes :
• Vrai : on garde la trace des changements donc on peut remonter le passé.
• Faux : On ne garde que la dernière valeur. Le passé est perdu.
• Permanent : la valeur de change pas.
97
Conception d’un Datawarehouse orienté CRM
98
Conception d’un Datawarehouse orienté CRM
Une relation qui a besoin d’un « support temporel » peut être modélisée en relation n-m.
En utilisant la modélisation entité-relation (ER), cette relation va se transformer en une
entité intermédiaire entre les deux entités en relation. Comme le besoin temporel d’une
entité se rapporte à son existence, le traitement de la relation est quasiment le même que
le traitement des entités.
Un attribut doit réellement être considéré comme une propriété d’une entité. L’entité est
engagée dans une relation avec un ensemble de valeurs. Cette relation est de type n-m.
Un attribut qui a besoin d’un « support temporel » doit être modélisé sous forme d’une
entité intermédiaire entre l’entité principal et l’ensemble de valeurs sans avoir à l’ajouter
sur le diagramme. Comme pour les entités et les relations, le traitement des attributs se
rapporte à l’existence de sa valeur pendant une période de temps.
99
Conception d’un Datawarehouse orienté CRM
Cette solution permet de résoudre beaucoup de problème lors de l’exécution des requêtes.
Voici quelques exemples :
• Combien de clients avons-nous perdus durant le dernier trimestre 2005,
comparativement à 2004 et 2003 ?
• Parmi les clients perdus, combien ont existé durant au moins une année ?
• Parmi ces clients, combien ont changé d’interlocuteur à cause d’un déménagement
dans l’année où ils nous ont quittés ?
• Combien de changements de prix a-t-il eu dans l’année où ils nous ont quittés ?
En utilisant notre solution, la première requête peut être exprimée comme suit :
100
Conception d’un Datawarehouse orienté CRM
Pour répondre à la troisième question, nous supposons qu’il existe un attribut d’existence
séparé pour la relation entre le client et la zone de vente. La requête aura la syntaxe suivante :
101
Conception d’un Datawarehouse orienté CRM
Afin de répondre à la quatrième question, nous supposons aussi qu’il existe un attribut
d’existence séparé pour le prix de la boisson.
102
Conception d’un Datawarehouse orienté CRM
La deuxième requête : Parmi les clients perdus, combien ont existé durant au moins une
année ? devient en utilisant la dimension « Temps » ainsi :
La troisième : Parmi ces clients, combien ont changé d’interlocuteur à cause d’un
déménagement dans l’année où ils nous ont quittés ? sera exprimée comme suit :
103
Conception d’un Datawarehouse orienté CRM
La quatrième : Combien de changements de prix a-t-il eu dans l’année où ils nous ont
quittés ? sera exprimée comme suit :
Client
Ventes
Temps Boisson
104
Conception d’un Datawarehouse orienté CRM
105
Conception d’un Datawarehouse orienté CRM
Loisirs
Existence Existence
Client
Adresse client Client
Région Ventes
Client
Région Ventes
106
Conception d’un Datawarehouse orienté CRM
Relation : Client
Code_Client
Nom_Client
Code_Loisirs
Date_Création
Clé primaire(Code_Client)
Clé étrangère(Code_Loisirs référence Loisirs.Code_Loisirs)
Relation : Loisirs
Code_Loisir
Nom_Loisir
Clé primaire(Code-Loisir)
107
Conception d’un Datawarehouse orienté CRM
Les questions liées aux performances du modèle seront traitées lors de l’implémentation de la
solution, et certaines dénormalisations du schéma ci-dessus seraient appropriées.
En suite, la requête suivante est exécutée et essaye de lister les valeurs de vente et les coûts :
108
Conception d’un Datawarehouse orienté CRM
Le résultat est que la vente a été doublement comptée. Le problème s’est manifesté car la date
du « 31/03/2005 » appartient à deux intervalles.
La solution de changer la date fin du premier enregistrement à : « 30/03/2005 ».
Donc, l’entrelacement des périodes d’existence dans un modèle dimensionnel est interdit.
109
Conception d’un Datawarehouse orienté CRM
Donc, une attention particulière doit être accordée aux contraintes imposées par
l’implémentation de la rétrospection.
Enfin, nous rappelons que nous avons traités uniquement la modélisation logique de la vue
« Clients » car il s’agit du seul vrai point qui différencie les datawarehouses orientés CRM
des datawarehouses traditionnels.
110
Conception d’un Datawarehouse orienté CRM
111
Conception d’un Datawarehouse orienté CRM
Données
Données Segmentation Gestion des Centres locales
externes
contacts d’appels
Systèmes sources
L’élément central de cette architecture est la base de données du datawarehouse. Cette base de
données contient le niveau le plus détaillé (en termes de granularité) des données que
l’entreprise a besoin de stocker. Cette base est alimentée par les systèmes opérationnels.
Cette base supporte les applications CRM qui sont capables d’y puiser les données. Ces
applications gèrent aussi leurs propres données.
Les applications CRM sont totalement indépendantes. Elles peuvent fournir des données à
d’autres systèmes et, dans certains cas, mettre à jour les systèmes sources.
112
Conception d’un Datawarehouse orienté CRM
Le point le plus important à noter est que la base de données du datawarehouse est une
ressource disponible pour toutes les applications CRM.
Nous allons maintenant décrire les autres composants du modèle.
- Données absentes
La cause principale de l’absence de données est un défaut de rigueur lors de la saisie
(collecte) des données au niveau des systèmes sources. Nous pouvons envisager deux
approches pour combler cela :
• L’utilisation des valeurs par défaut,
• Le rejet de l’enregistrement : il y a trois types de rejets :
Un rejet permanent : l’enregistrement est simplement rejeté et ne sera
jamais chargé dans le datawarehouse.
Un rejet pour correction et réessayage : les données rejetées seront
mises dans un fichier particulier pour correction. Après correction, les
données vont être soumises de nouveau au processus de validation.
Un réessayage automatique : dans certains cas de figure, un simple
réessayage suffit à régler le problème.
113
Conception d’un Datawarehouse orienté CRM
- Données erronées
Il existe plusieurs types de données erronées :
• Valeurs n’appartenant pas à des intervalles ou listes de valeurs valides : celles-
ci sont simples à reconnaitre. Exemple : sexe du client = ‘Z’ au lieu de ‘M/F’.
• Erreurs de référencement qui violent les contraintes d’intégrité référentielle :
L’enregistrement contient une clé étrangère qui ne correspond à aucun
enregistrement parent. Quand cette erreur est détectée, il est recommandé de
rejeter l’enregistrement incriminé car il peut être la cause d’incohérences dans
les résultats des requêtes. Toutefois, il faut prévoir des processus de traitement
de ces erreurs et réessayer pas la suite d’intégrer l’enregistrement.
• Erreurs valides : ce sont des erreurs qui sont presque impossibles à détecter. Il
s’agit de valeurs qui ont été saisies incorrectement mais qui restent valides. Par
exemple, on a saisi la valeur 26 dans le champ « âge du client » au lieu de 62.
Ces erreurs doivent être corrigées au niveau des systèmes opérationnels.
- Données périmées
Les données périmées sont le résultat d’une fréquence de synchronisation insuffisante des
données relatives aux circonstances client changeantes entre les systèmes opérationnels et le
datawarehouse. Par exemple, l’adresse du client a changé au niveau du système opérationnel
mais ce changement n’a pas été répercuté au niveau du datawarehouse. La solution pour ce
type d’erreur est de revoir la fréquence de chargement et de synchronisation des données.
- Données inconsistantes
L’inconsistance des données du datawarehouse est le résultat des dépendances de données que
les systèmes opérationnels ne gèrent pas. Prenons l’exemple suivant : nous avons créé une
segmentation des régions de ventes en se basant sur les adresses client. Cette segmentation est
gérée uniquement par le datawarehouse. Quand un client change d’adresse, le datawarehouse
effectue les ajustements nécessaires au niveau des circonstances clients. Le segment
« Région », ou tout autre segment dépendant, sont mis à jour. Ce changement est sous le
contrôle exclusif du datawarehouse. Les effets causals des changements de circonstances sur
les segments dépendants sont difficiles à gérer et sont souvent sources d’inconsistances dans
les données.
114
Conception d’un Datawarehouse orienté CRM
- Données confuses
Les données confuses peuvent se produire quand un changement de rétrospection est effectué
et que la représentation du temps n’a pas été corrigée. Par exemple, à cause d’une application
incorrecte de la rétrospection, lorsqu’un changement d’adresse se produit, la nouvelle adresse
est appliquée aux données comportementales historisées par confusion.
La solution :
Afin de fournir une approche de validation flexible, nous devons construire des règles de
validation en utilisant les métadonnées. Voici un exemple de modèle de validation.
Liste valeurs
attribut
115
Conception d’un Datawarehouse orienté CRM
Transformation
116
Conception d’un Datawarehouse orienté CRM
117
Conception d’un Datawarehouse orienté CRM
Liste valeurs
attribut
Source donnée
Transformation
118
Conception d’un Datawarehouse orienté CRM
Extraction, VIM,
Chargement
Sources DWH
119
Conception d’un Datawarehouse orienté CRM
Supprimer
Ajouter
Modifier
Supprimer
DWH
M-à-j
Ajouter
Modifier Sources
Client
120
Conception d’un Datawarehouse orienté CRM
Table : Client
Titre
Nom
Date de Naissance
Sexe
N° Téléphone
121
Conception d’un Datawarehouse orienté CRM
Date Fin
Table : Enfants
ID Client
Nom Enfant
Date de naissance Enfant
Table : Epouses
ID Client
Nom Epouse
Date de naissance Epouse
Table : Revenus
ID Client
Revenu
Date Début
Date Fin
Table : Loisirs
ID Client
Loisir
Date Début
Date Fin
Table : Professions
ID Client
Profession
Date Début
Date Fin
Table : Employeurs
ID Client
Nom Employeur
Adresse Employeur
Catégorie Employeur
Date Début
Date Fin
122
Conception d’un Datawarehouse orienté CRM
Classe
Ventes Boissons
Vente Accessoire
Client Visite prise