Vous êtes sur la page 1sur 10

SETIT 2005

3RD INTERNATIONAL CONFERENCE: SCIENCES OF


ELECTRONIC,
TECHNOLOGIES OF INFORMATION AND
TELECOMMUNICATIONS
MARCH 27-31, 2005 – TUNISIA

Conception d’un outil décisionnel pour la gestion de


la relation client dans un site de e-commerce

Nazih SELMOUNE*, Saida BOUKHEDOUMA* and Zaia ALIMAZIGHI*


*
Laboratoire des Systèmes Informatiques(LSI )- USTHB - ALGER
selmoune@wissal.dz
boukhedouma@wissal.dz
alimazighi@wissal.dzT

Résumé
Les entreprises soucieuses de leur progrès tentent à satisfaire continuellement leurs clients potentiels.
L’utilisation du e-commerce, l’essor des technologies liées à l’internet fait naître de nouvelles attentes de la part
des clients et des collaborateurs. Ceci oblige ces entreprises à prendre les décisions adéquates en vue de
répondre aux exigences de leurs clients, en examinant leur comportement sur son site de e-commerce. L’analyse
du marché pour une entreprise donnée repose sur la quantité importante d’informations provenant de son site
web marchand. Cette analyse peut se faire en exploitant les entrepôts de données (ED) ou data warehouse (DW)
d’une part et les outils de data mining ou de fouille de données pour une classification (profilage) des clients
d’autre part, car l’aide à la décision peut nécessiter de comprendre plus profondément les chiffres et les faits de
l’entreprise. Le présent article décrit la conception, l’architecture et quelques fonctionnalités d’un outil d’aide à
la décision pour la gestion de la relation client sur un site de e-commerce.

Mots clés
E-CRM , Data warehouse, Data Mining, modèle multidimensionnel, OLAP.

1. Introduction L’anayse du marché pour une entreprise donnée


De nombreuses entreprises ont bâti en partie leurs aura comme référence les données qui découlent de
succès grâce à une politique de constante son site web marchand.
innovation technologique et ont su utiliser les Les entreprises possèdent donc, d’importants
nouvelles technologies, depuis longtemps, pour volumes de données aux formats généralement
acquérir de nouveaux marchés et viser de nouveaux hétérogènes, ce qui nécessite l’utilisation d’un outil
clients. De plus en plus sensibilisés au web, ils permettant l’exploitation efficace et performante de
veulent accéder directement de façon personnalisée ces données pour aider l’entreprise à la prise de
et sécurisée, au service de l’entreprise et de ses décision, d’où la naissance des entrepôts de
partenaires. données (ED) ou data warehouse (DW) (Inmon,
Partant de ce fait, les entreprises ont senti le besoin 1996b), (Kimball & al, 2000). Cette approche vise à
et la nécessité de prendre certaines décisions pour extraire des données de bases de production, à les
répondre aux attentes de ce nouveau type de clients assembler, par sujet, à les organiser, à les
qui se manifeste via ce nouveau canal transformer et à les résumer pour l’aide à la
d’interactions. La connaissance de l’environnement décision. L’entrepôt doit pouvoir mémoriser
décisionnel est un élément vital dans la prise de l’histoire de l’entreprise.
décision. Par exemple la connaissance de clients et Pour mieux connaître sa clientèle, une entreprise
de leur comportement d’achat constitue un élément peut décider d’effectuer une classification basée sur
décisionnel pour le lancement d’un produit. le comportement des clients. Ceci implique la
nécessité de mettre en place des outils de data
mining ou fouille de données . Ces outils reposent
en général sur des techniques basées sur les
SETIT2005 2

statistiques, la classification ou l’extraction de Chaque décideur d’une entreprise doit disposer


règles associatives (Gardarin, 2000). d’une vue sur les informations qui lui sont
pertinentes, et qui peuvent influer dans ses
Le travail présenté dans cet article consiste en la décisions pour une meilleure exploitation de
conception et la mise en œuvre d’un outil d’aide à ces données.
la décision basé sur les techniques de DW et de data
Non volatiles
mining, susceptible d’assister les entreprises de
Tout se conserve, rien ne se perd : cette
ventes sur internet , dans la prise de leurs décisions.
caractéristique est primordiale dans les ED. En
effet, et contrairement aux bases de données
La suite du document est organisée comme suit :
classiques, un ED est accessible en ajout ou en
La section 2 présente les concepts de base du
consultation uniquement. Les modifications ne
décisionnel, à savoir les entrepôts de données (ED)
sont autorisées que pour des cas particuliers
et le data mining.
(correction d’erreurs…etc.).
La section 3 présente le concept d’aide à la décision
dans la gestion de la relation client.
Historisées
La section 4 décrit la conception de l’outil réalisé
La conservation de l’évolution des données
pour l’aide à la décision. En effet, elle présente les
dans le temps, constitue une caractéristique
vues statique et dynamique du système en utilisant
majeure des ED. Elle consiste à s’appuyer sur
quelques diagrammes d’UML, le modèle
les résultats passés pour la prise de décision et
multidimensionnel selon deux axes ventes et
faire des prédictions ; autrement dit, la
visites. Une description d’un algorithme de
conservation des données afin de mieux
groupage est aussi donnée dans cette section. Enfin,
appréhender le présent et d’anticiper le futur.
quelques figures montrant les principales
fonctionnalités de l’outil sont données dans la
Résumées
section 5.
Les informations issues des sources de données
doivent être agrégées et réorganisées afin de
2. Concepts de base des systèmes d’aide faciliter le processus de prise de décision.
à la décision :
Disponibles pour l’interrogation et
Nous présentons dans ce qui suit quelques concepts l’analyse
de base, concernant les systèmes d’aide à la
décision et notamment, les entrepôts de données : Les utilisateurs doivent pouvoir consulter les
données en fonction de leurs droits d’accès.
2.1 Entrepôt de données (data warehouwse) : L’ED doit comporter un module de traitement
des requêtes, exprimées dans un langage, doté
Un entrepôt de données (ED) ou data warehouse d’opérateurs puissants, pour l’exploitation de la
(DW) se définit selon W. INMON comme étant un richesse du modèle.
ensemble de données intégrées, orientées sujet, non
volatiles, gérées dans un environnement de 2.2 Architecture d’un entrepôt de données :
stockage particulier, historisées, résumées,
disponibles pour l’interrogation et l’analyse et L’architecture d’un ED, représentée dans la
organisées pour le support d’un processus d’aide à figure 1, s’articule autour de trois phases :
la décision (Bret & al, 2001) . l’intégration, la restructuration, et l’exploitation
Les données d’un ED possèdent les caractéristiques (Inmon, 1996b).
suivantes (Teste, 2000) , (Raval & al, 2001) :

Intégrées
Les données de l’entrepôt proviennent de
différentes sources éventuellement
hétérogènes. L’intégration consiste à résoudre
les problèmes d’hétérogénéité des systèmes de
stockage, des modèles de données, de
sémantique de données.

Orientées sujet
Après leur intégration dans une sorte de source
globale, les données sont réorganisées autour
de thèmes tels que : client, vendeur,
produit…etc.
Figure 1.1 : Architecture d’un entrepôt de données
SETIT2005 3

Intégration : Les données représentées sur l’hypercube peuvent


Cette première étape, est assez délicate, car elle être sujettes à une analyse OLAP.
consiste à extraire et regrouper les données, Le terme OLAP (OnLine Analytical Process)
provenant de sources multiples, et hétérogènes. désigne communément, un ensemble de
Un certain nombre de problèmes est à résoudre fonctionnalités qui servent à faciliter l’analyse
à ce niveau : les données doivent être filtrées, multidimensionnelle, opérations réalisables sur
triées, homogénéisées et nettoyées. l’hypercube, parmi lesquelles nous citons : la
rotation, la coupe, le pliage et le dépliage (Codd,
Structuration : 1993 ), (Chaudrui,1997).
Cette étape consiste à réorganiser les données,
dans des magasins afin de supporter 2.4 La fouille de données (Data mining)
efficacement les processus d’analyse et Le data mining fait référence à un ensemble de
d’interrogation, et d’offrir aux différents techniques d’exploration et d’analyse, par des
utilisateurs, des vues appropriées à leurs moyens automatiques ou semi-automatiques, d’une
besoins. masse importante de données dans le but de
découvrir des tendances cachées ou des règles
Interrogation et Analyse : significatives (non triviales, implicites et
L’exploitation de l’entrepôt, pour l’aide à la potentiellement utiles) (Gardarin, 2000), (Inmon,
décision peut se faire de différentes façons, dont : 1996a). Les outils de data mining reposent en
général, sur des techniques basées sur les
l’interrogation à travers un langage de statistiques, la classification ou l’extraction de
requêtes, règles associatives.
La connexion à des composants de
report, pour des représentations Objectifs du data mining
graphiques et tabulaires, Les objectifs du Data Mining peuvent être
L’utilisation des techniques OLAP regroupés dans trois axes importants :
(OnLine Analytical Process ), 1. Prédiction (What-if) : consiste à prédire les
L’utilisation des techniques de fouille conséquences d’un événement (ou d’une
de données (Data Mining). décision), se basant sur le passé.
2. Découverte de règles cachées : découvrir des
2.3 Modèle Multidimensionnel (Bret & al, 2001): règles associatives, entre différents événements
Les modèles basés sur le concept (Exemple : corrélation entre les ventes de deux
multidimensionnel, sont les plus appropriés, à produits).
capturer les caractéristiques des DW. Ils permettent 3. Confirmation d’hypothèses : confirmer des
en effet, de donner une vision simple, et facilement hypothèses proposées par les analystes et
interprétable par des non informaticiens, et de décideurs, et les doter d’un degré de confiance.
visualiser les données selon différentes dimensions.
Le modèle multidimensionnel contient deux types
d’attributs : les dimensions et les mesures. Les 3. Aide à la décision dans le CRM
dimensions sont les valeurs numériques que l’on CRM est un acronyme pour Customer Relationship
compare, les dimensions sont les points de vue Management - GRC ou Gestion de la Relation
depuis lesquels les mesures peuvent être observées. Client en français -.
La modélisation multidimensionnelle est illustrée
par des cubes de données ou des hypercubes. 3.1 Définition CRM :
C’est un terme de l’industrie des systèmes
d’information englobant des méthodologies, du
software et habituellement des capacités Internet
mesure qui aident une entreprise à gérer les relations avec
ses clients d’une manière structurée.

3.2 E-CRM :
L'e-crm est un processus continu d'amélioration de
la relation client sur Internet. C’est un domaine en
pleine expansion au vu de l’impact d’Internet sur le
e-commerce. Voici quelques chiffres justifiant
l’intérêt porté à ce domaine (Source: META Group,
Business Week, Forrester Research, Jupiter
Communication):
Figure 2.1 : Exemple d’un cube de données
SETIT2005 4

4.2 Diagrammes de séquence:


66% des acheteurs potentiels abandonnent Dans cette phase, et après identification des cas
le processus d'achat en cours d’utilisation, et des scénarios associés à chaque cas,
59% des internautes acheteurs se disent nous les représentons à l’aide des diagrammes de
insatisfaits du service client de leur site séquence :
d'achat
Moins de 5% des visiteurs uniques
deviennent clients
En 2004, chaque foyer recevra en
moyenne 9 e-mails par jour, 6 visant à
fidéliser et 3 à créer de nouveaux clients
L'utilisation d'outils de gestion de
campagnes d'e-mail permet de multiplier
par quatre le taux d'achat engendré
Les campagnes par e-mail coûtent 80%
moins cher que le publipostage direct
classique

4. Conception de l’outil d’aide à la


décision OAD
Dans ce qui suit, nous présentons la conception de
notre outil d’aide à la décision, associé, à un site de
e-commerce. Deux volets constituent notre
solution, le premier est consacré à l’analyse
multidimensionnelle, et le second, à l’utilisation
d’une technique de fouille de données basée sur un
algorithme de groupage .
Nous utiliserons des diagrammes UML, pour
illustrer les aspects statiques, dynamiques et
fonctionnels de notre conception.

4.1 Diagrammes de cas d’utilisation :


Le commerçant, étant l’acteur principal. Les cas
d’utilisation de base qui vont être mis en évidence Figure 4.2 : Diagramme de séquence « Visualiser
pour l’assister dans la prise de décision seront : les cubes de données »

Accéder à l’OAD.
Visualiser les données en cube
(choisir un magasin de données).
Appliquer les opérations OLAP sur le
cube de données.
Appliquer les techniques du data
mining.

Figure 4.1 : Diagramme des use case de l’OAD


Figure 4.3 : Diagramme de séquence
« Appliquer les opérateurs OLAP »
SETIT2005 5

Figure 4.5 : Diagramme de séquence


« Appliquer algorithme de data
mining »

4.2 Diagrammes de classes participantes (DCP) :


Figure 4.7 : DCP du cas d'utilisation
La phase suivante, consiste à identifier l’ensemble
des diagramme de classes participantes : « Appliquer opérateur OLAP »

Classe
d’interface

Classe de
contrôle
Figure 4.8 : DCP du cas d'utilisation « Appliquer un
algorithme de data mining»

Figure 4.6 : DCP du cas d'utilisation


« visualiser les données en cube »
SETIT2005 6

4.4 Modèle multidimensionnel : Représentation des clients


Le premier module de l’OAD, est consacré à Les clients sont représentés par des vecteurs de
l’analyse multidimensionnelle des données issues ℜ n , où n et le nombre de variables (dimensions)
d’un site de e-commerce. selon lesquelles on perçoit le client. On associe à
Les magasins de données choisis, depuis lesquels chaque client, un vecteur.
( )
le décideur visualise les cubes de données sont les t
magasins ventes et visites. x j = x1j . . . x nj
Les tables de faits et de dimensions des deux On considère que chaque individu est muni d’un
magasins sont structurés selon les deux schémas en
poids pi avec pi > 0 et ∑ pi = 1 .
étoile présentés ci-dessous : i
Nuage d’individus
Dans l’espace des individus, l’ensemble N =
{ xi / xi ∈ ℜ , pi > 0 et ∑ pi = 1 } est appelé
n

i
nuage d’individus.

Centre de gravité
Le centre de gravité g d’un nuage N ou encore le
« Barycentre » des points Xi (ou Xi et le ième
individu du nuage N) affectés aux poids pi est
donné par la formule suivante :
n
g = ∑ pi * xi qui s’écrit :
i =1

⎛ xi1 ⎞ ⎛ x1 ⎞
⎜ ⎟ ⎜ ⎟
Figure 4.10 : schéma en étoile du magasin de ⎜ . ⎟ ⎜ . ⎟
⎜ ⎟
g = ∑ pi * ⎜ . ⎟ = ⎜ . ⎟
données des ventes n

i =1 ⎜ ⎟
⎜ . ⎟ ⎜ . ⎟
⎜ p ⎟ ⎜⎜ p ⎟⎟
⎝ xi ⎠ ⎝ x ⎠
n
Où x =
j
∑p
i =1
i * xij est la moyenne de la jième
variable.
Inertie du nuage
L’inertie d’un nuage d’individus N par rapport à un
point (individu) X ∈ ℜ est la quantité notée par :
n

n
I x ( N ) = ∑ pi * d 2 ( xi , x) Où d 2 ( xi , x) est
i =1
la distance entre Xi et X.
Figure 4.11 : Schéma en étoile du magasin de I x ( N ) mesure la dispersion du nuage autour de x.
données des visites
Remarques
4.5 Module de Data Mining − Le poids pi dans notre cas est identique pour
Le deuxième module de l’OAD, est basé sur un 1
tous les individus et est égal à .
algorithme de groupage (Gardarin, 2000), N
permettant de construire des groupes de clients en
fonction de critères de similarité. − Pour l’algorithme de groupage nous avons
Avant de détailler le fonctionnement de utilisé la distance euclidienne qui est donnée
l’algorithme de groupage, il faut éclaircir certains par la formule suivante :
points et rappeler quelques définitions de base n
utilisées dans les étapes de calcul des groupes
d’individus.
d ( x, y ) = ∑ (x
i =1
i − y i ) Avec x et y deux

vecteurs de ℜ
n
SETIT2005 7

− Si x = g centre de gravité du nuage N alors Principe général :


L’algorithme consiste à grouper les clients selon un
I x (N ) = I g (N ) est appelée inertie du critère bien déterminé par exemple : par catégorie
nuage. d’achats (i.e le vecteur x représentant la quantité
− L’inertie est minimale au point g. achetée de chaque produit).
L’entrée de l’algorithme est le nombre k de groupes
Algorithme de groupage (représentant les catégories de clients). Une fois le
nombre de groupes saisi, l’algorithme choisit
arbitrairement k clients comme centres « initiaux »
Début
des k groupes.
L’étape suivante consiste à calculer la distance
entre chaque individu (client) et les k centres ; la
Choisir le nombre k
plus petite distance est retenue pour inclure cet
de groupes
individu dans le groupe ayant le centre le plus
proche.
Choisir k individus comme centres Une fois tous les individus groupés, on aura k
initiaux des k groupes sous-nuages disjoints du nuage total. Pour chaque
groupe (sous-nuage), l’algorithme calcule le
nouveau centre de gravité.
L’algorithme s’arrête lorsque les groupes construits
Pour chaque deviennent stables.
individu faire

5. Implémentation et mise en œuvre :


i := 2 ;
d := distance entre l’individu et le 1er centre 5.1 Architecture du système :
l’individu ∈ au 1er groupe ; L’architecture montre l’ensemble des composants,
outils et matériels interconnectés permettant
d’obtenir une architecture simple et évolutive.
Non Comme illustré dans la figure 5.1, l’architecture est
i <= k
composée de parties différentes.

i := i + 1 ;
tmp:= distance entre l’individu et le
kème centre ;
Non
tmp < d

Oui
L’individu ∈ au kème groupe ;

Figure 5.1 : Architecture du système


Non Tous les individus
Fin
sont groupés La première partie constitue l’interface du site web
marchand de l’entreprise. Les clients qui se
connectent au site et ayant déjà effectué une
identification pourraient effectuer différentes
actions durant leurs visites telles que le passage
Les groupes sont d’une commande, la consultation et/ou la
Nombre d’itération > 1 modification de leurs paniers, etc. Ces actions vont
stables
se traduire par une génération des données sous
Non format xml. Le commerçant, au niveau de son
Non entreprise se connecte au site pour télécharger ces
Recalculer les centres des différents fichiers xml qui seront récupérés par l’outil d’aide
groupes ; à la décision (livré au commerçant lors de
génération de son site), pour être enfin stockés
Figure 4.12 : Organigramme de
l’algorithme de groupage
SETIT2005 8

dans l’entrepôt de données après conversion au


format relationnel.

Figure 5.4 : Choix des dimensions


Figure 5.2 : Téléchargement des données XML
à partir du site marchand

5.2 Analyse multidimensionnelle :


L’analyse multidimensionnelle, consiste dans un
premier temps à choisir un magasin de données
parmi ceux proposés, ainsi que les dimensions et les
mesures à prendre en compte.

Figure 5.6 : Représentation multidimensionnelle


Figure 5.3: Choix du magasin de données
SETIT2005 9

Il est alors possible d’appliquer les différentes


opérations OLAP, telles que : pliage, dépliage,
rotation…etc.

Figure 5.9 : Rapport du résultat du groupage

Figure 5.7 : Application d’une opération OLAP

Conclusion
Le travail présenté dans cet article consiste en la
5.3 Module de data mining :
conception et la réalisation d’un outil d’aide à la
L'objet de cette analyse est de regrouper les décision dans la gestion de la relation client sur
individus en fonction de leurs actions et de internet. L’intérêt principal d’un tel outil est d’offrir
renseignements propres aux personnes. L'intérêt est aux décideurs une meilleure vision de leurs clients
de former des groupes de personnes ayant des leur permettant ainsi, une meilleure gestion de leurs
comportements similaires. Dans un premier temps, entreprises. Comme perspective à ce travail, nous
à des fins d'analyse (qui sont mes visiteurs ? quelles proposons un enrichissement du module data
sont les pages les plus visités ? les produits les plus mining en intégrant d’autres techniques de
visités ?) et dans un second temps à des fins classification telles que les réseaux de neurones.
d'anticipation (proposer le produit le plus adapté à
un individu).
Remerciements : nous tenons à remercier Mrs
K. ALLOUN & O. CHOUIB pour leur contribution
dans la réalisation de l’outil.

Références
(Bret & al, 2001) : Groupe EVOLUTION. F. Bret. T.
Cruanees. I. Guessarian. E. Metais. M-C. Rousset. S.
Schwer. O. Teste. G. Zurfluh, Ingénerie des systèmes
d’information , édition HERMES, 2001
(Chaudrui,1997) : S. Chaudhuri , Data Warehousing
and OLAP for Decision Support (Microsoft Research,
Redmont), SIGMOD AZ, USA, 1997.
(Codd, 1993) : E. F. Codd, Providing OLAP to user-
analysts: an IT mandate, Technical Report, E. F. Codd
and associates, 1993.
(Gardarin, 2000) : Georges Gardarin, Internet,Intranet
Figure 5.8 : Application de la technique de et bases de données, Edition DUNOD, 2000.
groupage
(Inmon,1996a) : W. H. Inmon, The Data Warehouse
and Data Mining , communication of the ACM, , Vol. 39,
Le décideur va donc donner en entrée le nombre k N° 11, Novembre 1996
de groupes, pour valider ensuite son choix, le (Inmon,1996b) :W. Inmon. Building the Data
résultat de cette opération est affiché sous forme de Warehouse. QED Technical Publishing Group,
rapports imprimables à la demande du décideur. Wellesley, Massachusetts, U.S.A., 1996
SETIT2005 10

(Jarke & al,2000) : Matthias Jarke, Thomas List, Jörg


Köller, The Challenge of Process Data Warehousing,
26th International Conference on Very Large Databases,
Caire, Egypt, 2000
(Kimball & al, 2000) : R. Kimball, L. Reeves, M. Ross,
W. Thornthwaite, Concevoir et déployer un data
warehouse, Editions Eyrolles, 2000
(Ravat & al, 2001) : Frank Ravat, Olivier Teste, Gilles
Zurfluh : Modélisation et extraction de données pour un
entrepôt objet , Université Paul Sabatier (Toulouse III),
IRIT (Institut de Recherche en informatique de
Toulouse), équipe SIG, Toulouse, France 2001
(Teste, 2000) : Olivier Teste, Modélisation et
Manipulation d’Entrepôts de Données Complexes et
Historisés, Thèse de Doctorat de l’université Paul
Sabatier, Décembre 2000.

Vous aimerez peut-être aussi