Vous êtes sur la page 1sur 15

Conception d’un outil décisionnel pour la gestion de

la relation client dans un site de e-commerce

Nazih SELMOUNE*, Saida BOUKHEDOUMA* and Zaia ALIMAZIGHI*


*
Laboratoire des Systèmes Informatiques(LSI )- USTHB - ALGER
selmoune@wissal.dz
boukhedouma@wissal.dz
alimazighi@wissal.dz

Résumé
Les entreprises soucieuses de leur progrès tentent à satisfaire continuellement leurs clients potentiels.
L’utilisation du e-commerce, l’essor des technologies liées à l’internet fait naître de nouvelles attentes de la part
des clients et des collaborateurs. Ceci oblige ces entreprises à prendre les décisions adéquates en vue de
répondre aux exigences de leurs clients, en examinant leur comportement sur son site de e-commerce. L’analyse
du marché pour une entreprise donnée repose sur la quantité importante d’informations provenant de son site
web marchand. Cette analyse peut se faire en exploitant les entrepôts de données (ED) ou data warehouse (DW)
d’une part et les outils de data mining ou de fouille de données pour une classification (profilage) des clients
d’autre part, car l’aide à la décision peut nécessiter de comprendre plus profondément les chiffres et les faits de
l’entreprise. Le présent article décrit la conception, l’architecture et quelques fonctionnalités d’un outil d’aide à
la décision pour la gestion de la relation client sur un site de e-commerce.

Mots clés
E-CRM , Data warehouse, Data Mining, modèle multidimensionnel, OLAP.

1. Introduction
De nombreuses entreprises ont bâti en partie leurs succès grâce à une politique de constante innovation
technologique et ont su utiliser les nouvelles technologies, depuis longtemps, pour acquérir de nouveaux
marchés et viser de nouveaux clients. De plus en plus sensibilisés au web, ils veulent accéder directement de
façon personnalisée et sécurisée, au service de l’entreprise et de ses partenaires.
Partant de ce fait, les entreprises ont senti le besoin et la nécessité de prendre certaines décisions pour répondre
aux attentes de ce nouveau type de clients qui se manifeste via ce nouveau canal d’interactions. La connaissance
de l’environnement décisionnel est un élément vital dans la prise de décision. Par exemple la connaissance de
clients et de leur comportement d’achat constitue un élément décisionnel pour le lancement d’un produit.
L’anayse du marché pour une entreprise donnée aura comme référence les données qui découlent de son site
web marchand.
Les entreprises possèdent donc, d’importants volumes de données aux formats généralement
hétérogènes, ce qui nécessite l’utilisation d’un outil permettant l’exploitation efficace et performante de ces
données pour aider l’entreprise à la prise de décision, d’où la naissance des entrepôts de données (ED) ou data
warehouse (DW) (Inmon, 1996b), (Kimball & al, 2000). Cette approche vise à extraire des données de bases de
production, à les assembler, par sujet, à les organiser, à les transformer et à les résumer pour l’aide à la décision.
L’entrepôt doit pouvoir mémoriser l’histoire de l’entreprise.
Pour mieux connaître sa clientèle, une entreprise peut décider d’effectuer une classification basée sur le
comportement des clients. Ceci implique la nécessité de mettre en place des outils de data mining ou fouille de
données . Ces outils reposent en général sur des techniques basées sur les statistiques, la classification ou
l’extraction de règles associatives (Gardarin, 2000).

Le travail présenté dans cet article consiste en la conception et la mise en œuvre d’un outil d’aide à la décision
basé sur les techniques de DW et de data mining, susceptible d’assister les entreprises de ventes sur internet ,
dans la prise de leurs décisions.

Page2
La suite du document est organisée comme suit :
La section 2 présente les concepts de base du décisionnel, à savoir les entrepôts de données (ED) et le data
mining.
La section 3 présente le concept d’aide à la décision dans la gestion de la relation client.
La section 4 décrit la conception de l’outil réalisé pour l’aide à la décision. En effet, elle présente les vues
statique et dynamique du système en utilisant quelques diagrammes d’UML, le modèle multidimensionnel selon
deux axes ventes et visites. Une description d’un algorithme de groupage est aussi donnée dans cette section.
Enfin, quelques figures montrant les principales fonctionnalités de l’outil sont données dans la section 5.

2. Concepts de base des systèmes d’aide à la décision :


Nous présentons dans ce qui suit quelques concepts de base, concernant les systèmes d’aide à la décision et
notamment, les entrepôts de données :

2.1 Entrepôt de données (data warehouwse) :


Un entrepôt de données (ED) ou data warehouse (DW) se définit selon W. INMON comme étant un ensemble de
données intégrées, orientées sujet, non volatiles, gérées dans un environnement de stockage particulier,
historisées, résumées, disponibles pour l’interrogation et l’analyse et organisées pour le support d’un processus
d’aide à la décision (Bret & al, 2001) .
Les données d’un ED possèdent les caractéristiques suivantes (Teste, 2000) , (Raval & al, 2001) :

Intégrées
Les données de l’entrepôt proviennent de différentes sources éventuellement hétérogènes. L’intégration
consiste à résoudre les problèmes d’hétérogénéité des systèmes de stockage, des modèles de données, de
sémantique de données.

Orientées sujet
Après leur intégration dans une sorte de source globale, les données sont réorganisées autour de thèmes tels
que : client, vendeur, produit…etc.
Chaque décideur d’une entreprise doit disposer d’une vue sur les informations qui lui sont pertinentes, et qui
peuvent influer dans ses décisions pour une meilleure exploitation de ces données.

Figure 1.1 : Architecture d’un entrepôt de données

Non volatiles
Tout se conserve, rien ne se perd : cette caractéristique est primordiale dans les ED. En effet, et
contrairement aux bases de données classiques, un ED est accessible en ajout ou en consultation
uniquement. Les modifications ne sont autorisées que pour des cas particuliers (correction d’erreurs…etc.).

Page3
Historisées
La conservation de l’évolution des données dans le temps, constitue une caractéristique majeure des ED.
Elle consiste à s’appuyer sur les résultats passés pour la prise de décision et faire des prédictions ;
autrement dit, la conservation des données afin de mieux appréhender le présent et d’anticiper le futur.

Résumées
Les informations issues des sources de données doivent être agrégées et réorganisées afin de faciliter le
processus de prise de décision.

Disponibles pour l’interrogation et l’analyse


Les utilisateurs doivent pouvoir consulter les données en fonction de leurs droits d’accès. L’ED doit
comporter un module de traitement des requêtes, exprimées dans un langage, doté d’opérateurs puissants,
pour l’exploitation de la richesse du modèle.

2.2 Architecture d’un entrepôt de données :


L’architecture d’un ED, représentée dans la figure 1, s’articule autour de trois phases : l’intégration, la
restructuration, et l’exploitation (Inmon, 1996b).

Intégration :
Cette première étape, est assez délicate, car elle consiste à extraire et regrouper les données, provenant de
sources multiples, et hétérogènes. Un certain nombre de problèmes est à résoudre à ce niveau : les données
doivent être filtrées, triées, homogénéisées et nettoyées.

Structuration :
Cette étape consiste à réorganiser les données, dans des magasins afin de supporter efficacement les
processus d’analyse et d’interrogation, et d’offrir aux différents utilisateurs, des vues appropriées à leurs
besoins.

Interrogation et Analyse :
L’exploitation de l’entrepôt, pour l’aide à la décision peut se faire de différentes façons, dont :

l’interrogation à travers un langage de requêtes,


La connexion à des composants de report, pour des représentations graphiques et tabulaires,
L’utilisation des techniques OLAP (OnLine Analytical Process ),
L’utilisation des techniques de fouille de données (Data Mining).

2.3 Modèle Multidimensionnel (Bret & al, 2001):


Les modèles basés sur le concept multidimensionnel, sont les plus appropriés, à capturer les caractéristiques des
DW. Ils permettent en effet, de donner une vision simple, et facilement interprétable par des non informaticiens,
et de visualiser les données selon différentes dimensions.
Le modèle multidimensionnel contient deux types d’attributs : les dimensions et les mesures. Les dimensions
sont les valeurs numériques que l’on compare, les dimensions sont les points de vue depuis lesquels les mesures
peuvent être observées. La modélisation multidimensionnelle est illustrée par des cubes de données ou des
hypercubes.

Page4
mesure

Figure 2.1 : Exemple d’un cube de données

Les données représentées sur l’hypercube peuvent être sujettes à une analyse OLAP.
Le terme OLAP (OnLine Analytical Process) désigne communément, un ensemble de fonctionnalités qui servent
à faciliter l’analyse multidimensionnelle, opérations réalisables sur l’hypercube, parmi lesquelles nous citons : la
rotation, la coupe, le pliage et le dépliage (Codd, 1993 ), (Chaudrui,1997).

2.4 La fouille de données (Data mining)


Le data mining fait référence à un ensemble de techniques d’exploration et d’analyse, par des moyens
automatiques ou semi-automatiques, d’une masse importante de données dans le but de découvrir des tendances
cachées ou des règles significatives (non triviales, implicites et potentiellement utiles) (Gardarin, 2000), (Inmon,
1996a). Les outils de data mining reposent en général, sur des techniques basées sur les statistiques, la
classification ou l’extraction de règles associatives.

Objectifs du data mining


Les objectifs du Data Mining peuvent être regroupés dans trois axes importants :
Prédiction (What-if) : consiste à prédire les conséquences d’un événement (ou d’une décision), se basant sur le
passé.
Découverte de règles cachées : découvrir des règles associatives, entre différents événements (Exemple :
corrélation entre les ventes de deux produits).
Confirmation d’hypothèses : confirmer des hypothèses proposées par les analystes et décideurs, et les doter d’un
degré de confiance.

3. Aide à la décision dans le CRM


CRM est un acronyme pour Customer Relationship Management - GRC ou Gestion de la Relation Client en
français -.

3.1 Définition CRM :


C’est un terme de l’industrie des systèmes d’information englobant des méthodologies, du software et
habituellement des capacités Internet qui aident une entreprise à gérer les relations avec ses clients d’une
manière structurée.

3.2 E-CRM :
L'e-crm est un processus continu d'amélioration de la relation client sur Internet. C’est un domaine en pleine
expansion au vu de l’impact d’Internet sur le e-commerce. Voici quelques chiffres justifiant l’intérêt porté à ce
domaine (Source: META Group, Business Week, Forrester Research, Jupiter Communication):

66% des acheteurs potentiels abandonnent le processus d'achat en cours


59% des internautes acheteurs se disent insatisfaits du service client de leur site d'achat

Page5
Moins de 5% des visiteurs uniques deviennent clients
En 2004, chaque foyer recevra en moyenne 9 e-mails par jour, 6 visant à fidéliser et 3 à créer de
nouveaux clients
L'utilisation d'outils de gestion de campagnes d'e-mail permet de multiplier par quatre le taux d'achat
engendré
Les campagnes par e-mail coûtent 80% moins cher que le publipostage direct classique

4. Conception de l’outil d’aide à la décision OAD


Dans ce qui suit, nous présentons la conception de notre outil d’aide à la décision, associé, à un site de e-
commerce. Deux volets constituent notre solution, le premier est consacré à l’analyse multidimensionnelle, et le
second, à l’utilisation d’une technique de fouille de données basée sur un algorithme de groupage .
Nous utiliserons des diagrammes UML, pour illustrer les aspects statiques, dynamiques et fonctionnels de notre
conception.

4.1 Diagrammes de cas d’utilisation :


Le commerçant, étant l’acteur principal. Les cas d’utilisation de base qui vont être mis en évidence pour
l’assister dans la prise de décision seront :

Accéder à l’OAD.
Visualiser les données en cube (choisir un magasin de données).
Appliquer les opérations OLAP sur le cube de données.
Appliquer les techniques du data mining.

Figure 4.1 : Diagramme des use case de l’OAD

4.2 Diagrammes de séquence:


Dans cette phase, et après identification des cas d’utilisation, et des scénarios associés à chaque cas, nous les
représentons à l’aide des diagrammes de séquence :
« visualiser cube de données », « appliquer les opérations OLAP », « Appliquer algorithme de Data-mining ».

Page6
Figure 4.3 : Diagramme de séquence
« Appliquer les opérateurs OLAP »

Figure 4.2 : Diagramme de séquence « Visualiser


les cubes de données »

Figure 4.5 : Diagramme de séquence


« Appliquer algorithme de data mining »

Page7
4.2 Diagrammes de classes participantes (DCP) :

La phase suivante, consiste à identifier l’ensemble des diagramme de classes participantes (DCP). Il s’agit de
diagrammes de classes UML qui décrivent, par cas d’utilisation, les principales classes d’analyse et leurs
relations. Ces diagrammes font la jonction entre les cas d’utilisation, le modèle du domaine, la maquette et les
diagrammes de conception logicielle. Les différentes classes d’analyse se répartissent en trois catégories : les
classes « Interface » permettant les interactions entre le système et ses utilisateurs, les classes « contrôle »
contenant la cinématque de l’application, et les classes « entité » représentant les objets métiers.

Classe
d’interface

Classe de
contrôle

Figure 4.6 : DCP du cas d'utilisation Figure 4.7 : DCP du cas d'utilisation
« visualiser les données en cube » « Appliquer opérateur OLAP »

Page8
Figure 4.8 : DCP du cas d'utilisation « Appliquer un
algorithme de data mining»

4.4 Modèle multidimensionnel :

Le premier module de l’OAD, est consacré à l’analyse multidimensionnelle des données issues d’un site de e-
commerce.
Les magasins de données choisis, depuis lesquels le décideur visualise les cubes de données sont les magasins
ventes et visites.
Les tables de faits et de dimensions des deux magasins sont structurés selon les deux schémas en étoile présentés
ci-dessous :

Figure
4.5 4.10
Module de:Data
schéma en étoile du magasin de
Mining
données des ventes Figure 4.11 : Schéma en étoile du magasin de
données des visites

Page9
Le deuxième module de l’OAD, est basé sur un algorithme de groupage (Gardarin, 2000) inspiré de la méthode
des k-moyennes, permettant de construire des groupes de clients en fonction de critères de similarité.
Avant de détailler le fonctionnement de l’algorithme de groupage, il faut éclaircir certains points et rappeler
quelques définitions de base utilisées dans les étapes de calcul des groupes d’individus.

Représentation des clients


Les clients sont représentés par des vecteurs de ℜ , où n et le nombre de variables (dimensions) selon
n

lesquelles on perçoit le client. On associe à chaque client, un vecteur. x = x1


j
( j
. . . x nj )
t

On considère que chaque individu est muni d’un poids pi avec pi > 0 et ∑ pi = 1 .
i
Nuage d’individus
Dans l’espace des individus, l’ensemble N = { xi / xi ∈ ℜ , pi > 0 et ∑ pi = 1 } est appelé nuage d’individus.
n

Centre de gravité
Le centre de gravité g d’un nuage N ou encore le « Barycentre » des points Xi (ou Xi et le ième individu du nuage
N) affectés aux poids pi est donné par la formule suivante :
⎛ xi1 ⎞ ⎛ x1 ⎞
⎜ ⎟ ⎜ ⎟
⎜ . ⎟ ⎜ . ⎟
⎜ ⎟
g = ∑ pi * xi qui s’écrit : g = ∑ pi * ⎜ . ⎟ = ⎜ . ⎟
n n

i =1 i =1 ⎜ ⎟
⎜ . ⎟ ⎜ . ⎟
⎜ p ⎟ ⎜⎜ p ⎟⎟
⎝ xi ⎠ ⎝ x ⎠
n
Où x =
j
∑p
i =1
i * xij est la moyenne de la jième variable.

Inertie du nuage
L’inertie d’un nuage d’individus N par rapport à un point (individu) X ∈ ℜ est la quantité notée par :
n

n
I x ( N ) = ∑ pi * d 2 ( xi , x) Où d 2 ( xi , x) est la distance entre Xi et X.
i =1

I x ( N ) mesure la dispersion du nuage autour de x.

Remarques
1
− Le poids pi dans notre cas est identique pour tous les individus et est égal à .
N
− Pour l’algorithme de groupage nous avons utilisé la distance euclidienne qui est donnée par la formule
suivante :
n
d ( x, y ) = ∑ (x
i =1
i − y i ) 2 Avec x et y deux vecteurs de ℜ n

− Si x = g centre de gravité du nuage N alors I x (N ) = I g (N ) est appelée inertie du nuage.


− L’inertie est minimale au point g.

Page10
Algorithme de groupage

Début

Choisir le nombre k
de groupes

Choisir k individus comme centres


initiaux des k groupes

Pour chaque
individu faire

i := 2 ;
d := distance entre l’individu et le 1er centre
l’individu ∈ au 1er groupe ;

Non
i <= k

i := i + 1 ;
tmp:= distance entre l’individu et le
kème centre ;

Non
tmp < d

Oui
L’individu ∈ au kème groupe ;

Non Tous les individus


Fin
sont groupés

Les groupes sont Nombre d’itération > 1


stables

Non
Non
Recalculer les centres des différents
groupes ;

Figure 4.12 : Organigramme de


l’algorithme de groupage

Page11
Principe général :
L’algorithme consiste à grouper les clients selon un critère bien déterminé par exemple : par catégorie d’achats
(i.e le vecteur x représentant la quantité achetée de chaque produit, pour un client donné).
L’entrée de l’algorithme est le nombre k de groupes (représentant les catégories de clients). Une fois le nombre
de groupes saisi, l’algorithme choisit arbitrairement k clients comme centres « initiaux » des k groupes.
L’étape suivante consiste à calculer la distance entre chaque individu (client) et les k centres ; la plus petite
distance est retenue pour inclure cet individu dans le groupe ayant le centre le plus proche.
Une fois tous les individus groupés, on aura k sous-nuages disjoints du nuage total. Pour chaque groupe (sous-
nuage), l’algorithme calcule le nouveau centre de gravité.
L’algorithme s’arrête lorsque les groupes construits deviennent stables.

5. Implémentation et mise en œuvre :


5.1 Architecture du système :
L’architecture montre l’ensemble des composants, outils et matériels interconnectés permettant d’obtenir une
architecture simple et évolutive.
Comme illustré dans la figure 5.1, l’architecture est composée de parties différentes.

Figure 5.1 : Architecture du système

La première partie constitue l’interface du site web marchand de l’entreprise. Les clients qui se connectent au
site et ayant déjà effectué une identification pourraient effectuer différentes actions durant leurs visites telles que
le passage d’une commande, la consultation et/ou la modification de leurs paniers, etc. Ces actions vont se
traduire par une génération des données sous format xml. Le commerçant, au niveau de son entreprise se
connecte au site pour télécharger ces fichiers xml qui seront récupérés par l’outil d’aide à la décision (livré au
commerçant lors de génération de son site), pour être enfin stockés dans l’entrepôt de données après conversion
au format relationnel.

Figure 5.2 : Téléchargement des données XML


à partir du site marchand

Page12
5.2 Analyse multidimensionnelle :
L’analyse multidimensionnelle, consiste dans un premier temps à choisir un magasin de données parmi ceux
proposés, ainsi que les dimensions et les mesures à prendre en compte.

Figure 5.3: Choix du magasin de données


Figure 5.4 : Choix des dimensions

Figure 5.6 : Représentation multidimensionnelle

Page13
Il est alors possible d’appliquer les différentes opérations OLAP, telles que : pliage, dépliage, rotation…etc.

Figure 5.7 : Application d’une opération OLAP

5.3 Module de data mining :


L'objet de cette analyse est de regrouper les individus en fonction de leurs actions et de renseignements propres
aux personnes. L'intérêt est de former des groupes de personnes ayant des comportements similaires. Dans un
premier temps, à des fins d'analyse (qui sont mes visiteurs ? quelles sont les pages les plus visités ? les produits
les plus visités ?) et dans un second temps à des fins d'anticipation (proposer le produit le plus adapté à un
individu).

Figure 5.8 : Application de la technique de


groupage

Page14
Le décideur va donc donner en entrée le nombre k de groupes, pour valider ensuite son choix, le résultat de cette
opération est affiché sous forme de rapports imprimables à la demande du décideur.

Figure 5.9 : Rapport du résultat du groupage

Conclusion
Le travail présenté dans cet article consiste en la conception et la réalisation d’un outil d’aide à la décision dans
la gestion de la relation client sur internet. L’intérêt principal d’un tel outil est d’offrir aux décideurs une
meilleure vision de leurs clients leur permettant ainsi, une meilleure gestion de leurs entreprises. Comme
perspective à ce travail, nous proposons un enrichissement du module data mining en intégrant d’autres
techniques de classification telles que les réseaux de neurones.

Remerciements : nous tenons à remercier Mrs K. ALLOUN & O. CHOUIB pour leur contribution dans la
réalisation de l’outil.

Références
(Bret & al, 2001) : Groupe EVOLUTION. F. Bret. T. Cruanees. I. Guessarian. E. Metais. M-C. Rousset. S. Schwer. O.
Teste. G. Zurfluh, Ingénerie des systèmes d’information , édition HERMES, 2001
(Chaudrui,1997) : S. Chaudhuri , Data Warehousing and OLAP for Decision Support (Microsoft Research, Redmont),
SIGMOD AZ, USA, 1997.
(Codd, 1993) : E. F. Codd, Providing OLAP to user-analysts: an IT mandate, Technical Report, E. F. Codd and associates,
1993.
(Gardarin, 2000) : Georges Gardarin, Internet,Intranet et bases de données, Edition DUNOD, 2000.
(Inmon,1996a) : W. H. Inmon, The Data Warehouse and Data Mining , communication of the ACM, , Vol. 39, N° 11,
Novembre 1996
(Inmon,1996b) :W. Inmon. Building the Data Warehouse. QED Technical Publishing Group, Wellesley, Massachusetts,
U.S.A., 1996
(Jarke & al,2000) : Matthias Jarke, Thomas List, Jörg Köller, The Challenge of Process Data Warehousing, 26th
International Conference on Very Large Databases, Caire, Egypt, 2000
(Kimball & al, 2000) : R. Kimball, L. Reeves, M. Ross, W. Thornthwaite, Concevoir et déployer un data warehouse,
Editions Eyrolles, 2000
(Ravat & al, 2001) : Frank Ravat, Olivier Teste, Gilles Zurfluh : Modélisation et extraction de données pour un entrepôt
objet , Université Paul Sabatier (Toulouse III), IRIT (Institut de Recherche en informatique de Toulouse), équipe SIG,
Toulouse, France 2001
(Teste, 2000) : Olivier Teste, Modélisation et Manipulation d’Entrepôts de Données Complexes et Historisés, Thèse de
Doctorat de l’université Paul Sabatier, Décembre 2000.

Page15