Vous êtes sur la page 1sur 56

Thèse professionnelle

La fidélisation client
grâce à la segmentation

Présenté par Imène AMRANI

Msc Data Management 2016 / 2018

Paris Scool of Business & Efrei

Directeur de thèse : Nessrine OMRANI


Responsable de stage : D. HOUEE
1
2
Remerciement

Je tiens à exprimer ici mes sincères remerciements à tous ceux qui ont contribué à la réalisation
de cette thèse professionnelle et principalement à :

Mme. Nessrine OMRANI, Directrice de thèse, pour avoir suivi mon sujet tout au long de sa
phase de réalisation

M. Vincent GUICHARD, consultant dans la BI, pour avoir fourni l’extraction nécessaire sans
laquelle aucune analyse n’aurait pu être réalisée.

M. Dorian MIALHE, consultant dans la BI, pour m’avoir aidé dans la recherche d’informations
sur les bases de données.

Finalement, Mme Véronique SARRAMAGNA, M. Omar GHANNAM, Mme Caroline


NGUYEN et M. Eric LE VAN pour m’avoir soutenue tout au long de cette année de Master.

3
Résumé

Cette étude permet de trouver les meilleurs clients pour chaque agence fermée afin
d’aider les nouvelles agences qui ouvriront dans le même périmètre. La problématique de
recherche sera d’accompagner les nouvelles agences dans leur stratégie de connaissance client.
Pour cela nous utiliserons une recherche quantitative puisque nos données seront toutes de
types numériques car nous étudierons le comportement d’achat de nos clients. Dans le cadre
de notre étude, deux techniques de classifications ont été utilisée dans le but de choisir celles
qui segmentent au mieux nos clients. Nous verrons dès lors que les deux techniques ont
segmenté nos clients d’une différente manière et que les groupes trouvés sont différents. Tandis
que la classification hiérarchique proposera trois profils de client, le k-means en proposera
cinq. Notre choix final se portera sur le k-means puisque les groupes trouvés seront plus
homogénéisé.

Mots clés

Analyse RFM, segmentation client, statistique descriptive, classification hiérarchique, k-means

Abstract

This study allows to find the best customers for every agency closed to help new
agencies which open in the same scope. The objective of our research is to accompany the new
agencies in their strategy of customer knowledge. For this, we shall use a quantitative research
because our data will all numeric and we will study the purchasing behaviour of our customers.
Our study will use two technics of classification in order to choose the one which get the best
segmentation and find our best customers. Those two technics will reveal two way of
segmentation and different numbers of clusters. Whereas the hierarchical clustering will
propose three customer’s profiles, the k-means will propose five. Our final choice will go on
the k-means because it found the best homogenous groups.

Keywords

RFM Analysis, customer segmentation, statistic descriptive, hierarchical clustering, k-means

4
Table des matières

Remerciement ............................................................................................................................ 3

Introduction ................................................................................................................................ 7

I Revue de littérature ................................................................................................................ 10

I.1 Définitions....................................................................................................................... 10

I.1.1 La gestion de la relation client (CRM) ..................................................................... 10

I.1.1 La Segmentation marketing ..................................................................................... 11

I.1.2 La pyramide du client ............................................................................................... 12

I.1.3 L’analyse RFM ......................................................................................................... 13

I.1.4 La préparation des données ..................................................................................... 17

I.1.5 Le Cluster ................................................................................................................. 19

I.2 Technique d’analyse non supervisé ................................................................................ 21

I.2.1 Utilisation du K-means............................................................................................. 21

I.2.2 Utilisation de la classification hiérarchique ............................................................. 24

I.3 Hypothèses de travail ...................................................................................................... 27

II. Méthodologie ...................................................................................................................... 28

II.1 Choix des critères .......................................................................................................... 28

II.2 Analyse descriptive des observations ............................................................................ 30

II.3 Première étape de l’analyse RFM .................................................................................. 32

III Présentation des résultats .................................................................................................... 34

III.1 Analyse RFM avec la méthode de la classification hiérarchique................................. 34

5
III.1.1 Réalisation de la classification hiérarchique ......................................................... 34

III.1.2 Interprétation et analyse de la classification hiérarchique ..................................... 36

III.2 Analyse RFM avec la méthode du K-Means ............................................................... 39

III.2.1 Réalisation du k-means .......................................................................................... 39

III.2.2 Interprétation et analyse du k-means ..................................................................... 41

III.3 Comparaison des deux méthodes ................................................................................. 44

IV Discussion ........................................................................................................................... 47

V. Résultats .............................................................................................................................. 50

VI. Table des Références ......................................................................................................... 52

VII. Bibliographie .................................................................................................................... 53

VIII. Annexe ............................................................................................................................ 55

6
Introduction

L’analyse de la segmentation client est devenue un enjeu crucial selon nous, si une
entreprise veut persister dans un monde où la concurrence est de plus en plus présente.
Toutefois, l’initiative de créer une relation client n’a pas émergé de rien. Selon R. Lefébure et
G. Venturi (2005), il a existé plusieurs phases au cours du temps qui ont permis de mettre en
avant le client. L’une des premières phases démarre dans les années 50 et 60. Ces années se
sont avant tout concentré sur la production massive de bien. C’était une période où la demande
était en plein essors et l’objectif était simplement de proposer les mêmes produits sans prêter
attention au gout individualiste des clients. Il y a eu ensuite la phase des années 70 qui selon
eux étaient des années où il fallait maximiser la production par la réduction des coûts tout en
gérant le mécanisme des ventes. Le but était de créer de nouveaux procédés pour attirer les
clients. Nous remarquons donc que le concept de segmentation a commencé à émerger et
intéresser les entreprises. Il vient ensuite les années 90 qui ont fortement contribué à la relation
client, puisque comme le rappel R. Lefébure et G. Venturi (2005), le marché a connu un
bouleversement puisque les entreprises s’équipent de plus en plus de moyens technologiques
et ont la possibilité de stocker les informations du client dans des bases de données. Puis il
vient finalement la phase du début des années 2000 dont l’objectif était de proposer un produit
et/ou un service propre pour le client. Selon nous, une nouvelle phase est apparue celle de
2007 à nos jours. Avec la crise économique, les entreprises sont devenues de plus en plus
instable et ont dû réaliser un réel effort quant à la relation client. Les clients ont eu moins de
pouvoir d’achat et sont devenues de plus en plus exigeante quant aux dépenses. Ces phases de
transition ont permis aux entreprises de regarder le client comme une réelle valeur ajoutée selon
nous. Ces trois phases ont été propulsées grâce à la globalisation des marchés et des produits.
Selon J. Scriven (2014) la globalisation a modifié de manière durable la façon d’apprivoiser le
comportement du consommateur par ses habitudes, la manière dont il réfléchit mais aussi par
sa façon de dépenser. Selon lui, la globalisation a permis plus de latitude pour le consommateur
puisqu’il peut avoir le même produit pour différents tarifs selon ses attentes. De plus selon J.
Scriven (2014), le développement de la technologie a fortement encouragé les entreprises dans
la relation client, puisque le client a une possibilité de se renseigner sur les produits sans avoir
besoin de l’entreprise. La segmentation client joue dès lors un rôle stratégique pour fidéliser
les clients les plus rentables et d’éviter au maximum qu’ils partent chez la concurrence.

7
L’enjeu de la segmentation en devient de plus en plus intéressant pour une entreprise
qui se situe dans le secteur du tourisme et du voyage. Selon Maslow (1970), il existe cinq
niveaux quant aux besoins des humains. Ces besoins sont structurés sous forme de pyramide
et plus nous nous situons à la base de la pyramide et plus nos besoins seront primaires. A
l’inverse plus nous nous situons en haut de la pyramide et plus nos besoins évolue. Dans le
cadre d’une entreprise du secteur du tourisme, nous pouvons constater que cette pyramide nous
aide à identifier les clients que nous voulons cibler. Ces clients ont tout d’abord dépassé les
étapes des besoins psychologiques qui concernent le fait de se nourrir convenablement par
exemple. Puis ils ont dépassé le besoin de sécurité comme par exemple le fait de garder un
emploi stable. Nous devons d’autant plus utiliser une segmentation pour cibler les clients qui
sont capables de dépenser souvent et de revenir plusieurs fois.

La loi de Pareto stipule que quatre-vingt pourcent du Chiffre d’affaire d’une entreprise
est réalisée par vingt pourcent des clients qui constituent les clients les plus fidèles. Ceci révèle
donc que la segmentation client a grande importance pour démarquer les clients les plus
intéressants et adopter une stratégie de rétention. De plus un autre indicateur permet de
comprendre l’importance de la segmentation client et de la fidélisation. Cette dernière
concerne, une enquête de la direction générale des entreprises, qui stipule que vingt-six
pourcent des français ont voyagé hors de France en 2015. Parmi ces voyageurs, certains
réservent leur billet de manière autonome et d’autres font appel à des Tour-opérateurs... Face
à la concurrence, il est primordial de garder ses clients pour continuer d’exister.

Dans le cadre de notre étude, nous avons porté notre analyse sur une agence fermée
appartenant à une entreprise de voyage. Le principale objectif et de pouvoir identifier les clients
les plus rentables afin de les intégrer dans la nouvelle agence ouvertes dans le même périmètre
que l’ancienne. Cette étude permettra donc à la nouvelle agence de ne pas démarrer de zéros
en réalisant un travail de prospection. Elle permettra aussi de permettre à l’agence d’adopter
un comportement différent en fonction des clients.

Comment accompagner les nouvelles agences dans leur stratégie de connaissance


client ?

Notre étude sera de type quantitatif puisque nous utiliserons des données existante
uniquement et numériques provenant de nos bases de données. Un travail de réflexion de la

8
donnée dans le cadre de la segmentation client pour notre agence sera traité avant de pouvoir
exploiter les résultats. L’étude se focalise sur une seule agence qui a fermé en novembre 2016.
Cette analyse sera réalisée grâce à une collecte de donnée au cours du temps et contient au
départ plus de six milles observations de 2010 jusqu’à 2016. De plus, deux techniques de
classifications seront d’abord étudiées indépendamment pour en comprendre l’intérêt dans le
cadre de la segmentation.

Cette étude aura deux objectifs, du point de vue de l’entreprise elle aura pour objectif
d’épauler la nouvelle agence en leur permettant de réaliser une stratégie différentes en fonctions
des clients rentables. Du point de vue de la recherche elle aura comme principale objectif de
réaliser une comparaison entre les deux techniques de classification dans le domaine de la
segmentation client afin de trouver les groupes de clients les plus fidèles.

Afin de pouvoir répondre à cette problématique, l’étude est réalisée sous trois grandes
parties, la première traite de l’étude des revues de littérature qui nous auront permis de réaliser
notre analyse, la deuxième partie traite sur la méthodologie de notre thèse professionnelle.
Enfin, la dernière partie traite sur l’analyse et l’interprétation des résultats trouvés sur l’agence
et de leur adéquation avec les revues de littératures.

9
I Revue de littérature

« Les organisations sont frappés par le fait qu’attirer un nouveau client leur coute cinq
fois plus chère que de garder un client qui existe déjà » (V. Terziev, V. Banabakova, 2017, p.
913). Nous comprenons bien l’importance sur le fait qu’une entreprise se doit d’analyser ses
clients afin de les garder le plus possible chez eux. Selon M. Mohammadian et I. Makhani
(2016), l’analyse RFM est une technique d’analyse qui permet d’analyser le comportement du
client et ainsi pouvoir réaliser des prédictions futures. La première partie fera une passe sur les
définitions de chaque éléments que nous allons utiliser pour l’analyse de nos résultats et ensuite
la seconde partie traitera sur les techniques d’analyse non supervisé qui accompagneront notre
analyse RFM.

I.1 Définitions

Tout d’abord notre première partie se concentre sur les définitions de chaque élément.
Passant de la gestion de la relation client pour expliquer l’utilité de maximiser le profit grâce à
une fidélisation du client sur le long terme ; la pyramide du client pour nous expliquer les
tranches de clients les plus importantes ; l’analyse RFM qui se focalise sur l’utilisation de trois
variables pour réaliser une démarcation des clients ; la préparation des données pour s’assurer
de trouver une analyse pertinente ; l’analyse de cluster pour s’assurer de trouver des profils
d’individus différents, nous comprendrons pourquoi il est indispensable de connaitre le
vocabulaire utilisé et de savoir pourquoi nous avons choisi de les utiliser.

I.1.1 La gestion de la relation client (CRM)

La gestion de la relation client est un concept devenu répandue dans les entreprises. Ce
dernier siècle, les entreprises ont compris qu’il était plus important de se focaliser sur les
consommateurs qui ont déjà acheté plutôt que d’investir sur des personnes qui n’ont jamais
consommé leur service. Pour cela elles sont prêtes à dépenser un montant faramineux pour
collecter et historiser ce qu’achète leur client. Selon J. Greff (2015), la CRM se définit par

10
l’assemblage des moyens ou des initiatives de marketing dont la finalité est de maximiser la
qualité de la relation client. Selon R. Lefébure et G. Venturi (2005) la CRM regroupe
l’ensemble des technologies et les tactiques commerciales pour répondre aux exigences du
client en lui proposant des biens et/ou des services adapter à son besoin.

Selon nous nous ajouterons que la CRM peut aussi bien être utilisé pour une petite entreprise
comme une très grande entreprise, il suffit juste qu’elle traite avec un client pour que la CRM
lui soit bénéfique. La CRM est utilisée pour analyser aussi bien les prospects que les clients.
L’objectif de la relation client est de maximiser la valeur du client sur le long terme. Ce sont
grâce à ces données qui sont stockés dans les bases de données que la segmentation peut être
réalisée. Chacun de nos clients vont faire l’issue d’une segmentation.

I.1.1 La Segmentation marketing

La segmentation marketing a été inventée pour permettre aux entreprises de mieux


cerner leurs clients. Dans un monde concurrentiel, il est indispensable pour une organisation
de connaitre ses clients, notamment de distinguer ceux qui génèrent le plus de chiffre d’affaire
de ceux qui n’ont acheté que peu de fois. Malheureusement, il est impossible d’étudier le client
un par un dès lors que l’entreprise possède des millions de clients. Des techniques ont alors
émergé notamment celle de l’analyse RFM. S. C. Hsu (2012), a constaté que la méthode RFM
a été appliquée dans des domaines variés justement parce qu’elle permet d’identifier le
consommateur. Selon F. Gillet-Goinard, L.Chabry, R. Jourdan (2014), il existe trois types de
segmentation. Il y a la segmentation par la valeur dont l’objectif et de faire fidéliser les clients
en se basant principalement sur les clients rentables. Il existe la segmentation opérationnelle
dont l’objectif est de se focaliser sur le parcours et le cycle de vie du client, donc celle-ci
demande de réaliser une analyse avant, pendant et après l’achat. La dernière concerne la
segmentation par les besoins dont l’objectif et faire en sorte que le client soit satisfait et qu’il
voit à travers notre service une réelle valeur ajoutée. Dans ces cas l’entreprise essaiera
d’améliorer le temps d’attentes par exemple. La pyramide du client va nous permettre de mieux
réaliser la segmentation client.

11
I.1.2 La pyramide du client

La pyramide du client est un moyen simple qui permet de nous aider à identifier nos
consommateurs et a été utilisé dans divers secteurs notamment celui de la banque par exemple.
D. Pita, F. Franzak, D. Fowler (2006) ont construit une pyramide du client pour aider une
banque à améliorer sa stratégie de relation client. Le but était de pouvoir partitionner en quatre
parties l’ensemble des clients et de proposer un niveau de relations différentes.

Le graphique ci-dessous permet de montrer l’importance d’identifier ces clients au travers de


deux pyramides. La pyramide de gauche représente les clients et est divisée en deux catégories.
La pyramide inversée quant à elle affiche le chiffre d’affaire d’une organisation, là encore
deux parties sont séparées.

Figure 1: la fidélisation client grâce à la segmentation

Source : R. Lefébure, G. Venturi, 2005, Gestion de la relation client , Edition Eyrolles

Comme l’explique la Figure 1, au sein d’une organisation un certain montant du revenu


est généré par une infime partie de la clientèle d’où l’intérêt de mieux les connaitre. Ce
graphique met donc en évidence le fait que seulement vingt pourcent des clients d’une
entreprise quel que soit le service qu’elle propose génère quatre-vingt pourcent du chiffre
d’affaire global. Nous pouvons constater que ces clients sont positionnés en haut de la pyramide
parce qu’ils remplissent un certain nombre de critères, tel que leur panier moyen est
suffisamment élevé pour se distinguer des clients classiques. Nous pouvons voir qu’il y a une
étroite relation entre la réalisation de la pyramide du client et l’analyse RFM car leur but est
bien d’identifier un certain type de client et de les conserver.

12
I.1.3 L’analyse RFM

I.1.3.1 Définition de l’analyse RFM

Selon V. Aggelis et D. Christodoulakis (2005), l’intérêt de l’utilisation de l’analyse


RFM est démontré parce que c’est une approche facile à appréhender parce qu’elle se concentre
sur l’achat et que n’importe qui dans une organisation peut la comprendre. Cette technique
que nous décrirons par la suite permet de rassembler les clients selon trois critères qui sont la
récence, la fréquence et le montant.

Selon P. Kotler (2003), il existe deux types d’analyse qui permettent d’analyser le client et de
l’intégrer dans un groupe.

• La première consiste à utiliser des variables qui caractérisent le client tel que des
données démographiques ou bien géographiques par exemple. Dans ces cas on réalisera
une analyse par département par exemple pour connaitre qu’elle est le département qui
consomme le plus et ainsi adapter nos produits par secteur.

• La deuxième consiste à utiliser des variables comportementales, en utilisant par


exemple le nombre d’achat réalisé ou les types de produits acheté par exemple.
L’analyse RFM fait en l’occurrence partie de l’analyse comportementale.

Dès lors que nous savons que l’analyse RFM est utilisée pour faire de la segmentation nous
allons l’expliquer et savoir en quoi elle consiste.

Lorsqu’une entreprise possède plusieurs clients, elle se doit de les analyser pour mieux
comprendre leur comportement d’achat afin de leur proposer des produits qui leurs
correspondent à un certain moment donnée du temps. Selon D. Chen (2012), il convient de se
poser un certain nombre de question pour savoir si l’utilisation de l’analyse RFM est légitime
ou non à savoir de :

• Distinguer les clients fidèles de ceux qui ne le sont pas


• Se demander de quelle manière nous pouvons les caractériser

13
• Connaitre si ce que l’on veut c’est d’analyser le comportement d’achat et ainsi de
connaitre les habitudes du consommateur par exemple.

L’analyse RFM tient compte de trois attributs qui sont :

• la récence : qui représente un intervalle entre la date d’aujourd’hui et la dernière date


d’achat du client
• la fréquence : qui représente le nombre de fois qu’une personne achète sur une période
de temps définit
• le montant : qui concerne le panier moyen d’un consommateur

Comme l’explique Ramon A. Carrasco et al. (2015) l’analyse RFM résulte d’un identifiant
client, d’une date d’achat et de l’achat. Ces trois variables sont rendues possibles parce que les
données liées au comportement d’achat du client sont stockés et historisés dans les bases de
données de l’entreprise.

Selon D. Birant (2011), la récence est une variable intéressante puisqu’elle considère
que dans le marketing plus un client a acheté récemment et plus il sera facile pour nous de
l’inciter à réaliser d’autres achats, du moins nous aurons plus de chance à faire revenir un
client qui est venu il y a une semaine plutôt qu’un client qui n’est pas revenu depuis trois ans.
D’après V. Aggelis et D. Christodoulakis (2005) la fréquence est tout aussi importante puisque
plus un client a acheté et plus il sera facile de le faire revenir. Enfin il y a la variable montant,
qui selon elle est la variable fondamentale puisqu’elle agrège l’ensemble des montants réalisés
pour chaque client.

Selon nous si l’utilisation de la méthode RFM est aussi utilisée c’est parce qu’elle
présente des avantages notamment parce qu’elle ne demande que de récupérer des données qui
sont internes à l’entreprise et donc ne demande pas de faire recours à la possibilité d’acheter
des données tiers. Le fait que les données soient toutes de types numériques permet une
simplicité de calcul et donc d’analyse. D’après J. McCarty et M. Hastak (2007) les décideurs
peuvent de manière simple interpréter les résultats et avoir un plan d’action efficace. Selon J-
T. Wei et al. (2010), la méthode RFM est aussi utilisé pour faire de la prédiction cela signifie
qu’une fois que les groupes ont été identifié nous pouvons quantifier les personnes qui
reviendront et pour quel montant ils achèteront. Dès lors que nous avons appris le principe de
l’analyse RFM nous allons montrer les différentes méthodes qui lui sont attribuées.

14
I.1.3.2 Les méthodes de l’analyse RFM

Il existe différentes méthodes que les revues de littératures ont utilisées pour réaliser la
méthodologie RFM. La première méthode consiste à positionner les clients en niveau noté de
un à cinq et ensuite de réaliser un algorithme de clustering. Le deuxième consiste à ne pas
attribuer de notes aux clients et d’appliquer un algorithme de clustering. Ci-dessous une
explication de l’implémentation des deux méthodes et l’importance de choisir l’une d’entre
elle.

Selon D. Birant (2011), la première méthode consiste à établir des scores de un à cinq
pour chaque variable qui sont la récence, la fréquence et le montant. Le but est de trier la plus
petite récence vers la plus grande et de partitionner en cinq groupes les clients puis de réaliser
la même étape pour la fréquence et le montant. Pour chacune de ces trois variables nous
remarquerons que plus un client obtiendra des scores élevés et plus il sera considéré comme un
client à forte valeur ajoutée. Par exemple un client qui obtient un score R1-F1-M1 sera
considéré comme un client inactif car sa dernière date d’achat a été réalisé il y a trop longtemps,
que cet individu ne vient que très rarement et que sa valeur monétaire est trop infime pour faire
partie d’un autre niveau. Comme nous pouvons les constater notre effort en terme de stratégie
de retour client sera différente de celle qui revient souvent. Nous pouvons aussi trouver des
clients qui peuvent avoir un score de récence et de fréquence très faible et pour autant un score
monétaire élevé. Là encore, cela peut nous en dire beaucoup sur le client, notamment sur le fait
qu’il y a une possibilité qu’il soit très volatile et qu’il n’attache pas de valeur particulière à être
fidèle. Ce sera alors à l’entreprise de réaliser des campagnes pour le refaire revenir.

La deuxième méthode a été utilisée par M. Khajvand et al. (2010). Cette méthode ne se
base pas sur le partitionnement en quintile de nos observations mais propose d’utiliser la
normalisation c’est-à-dire centrée réduire les données et de traiter ensuite l’analyse directement
après par le biais de technique de classification.

Les deux méthodologies seront différentes dans la compréhension de notre analyse en


groupe. L’avantage de la première méthode est que l’on trouvera individuellement le score de
chaque observation grâce à la réalisation de la segmentation par les quintiles. Il sera donc plus

15
aisé d’utiliser une technique de classification pour réaliser des rapprochements sur la base de
ces quintiles. Toutefois, cette dernière réalise des rapprochements peut être erronée puisque
c’est la distribution qui l’aura guidé à placer un individu plus proche qu’un autre et non sa
réelle valeur. L’avantage de la seconde méthode et que la classification se base sur les valeurs
normalisés de nos variables. Ainsi nous pensons que les rapprochements seront plus véridiques
si nous utilisons ces méthodes. D’autant plus que, nous ne savons pas à l’avance qu’elle sera
le nombre de groupe optimal que nous trouverons.

Finalement, tandis que l’une proposera des types de codes par cluster l’autre proposera
d’analyser le montant tel qu’il est. Dans le cas de notre étude nous privilégierons la deuxième
méthode puisqu’elle permet une meilleure lisibilité de ses groupes et ne standardise pas trop
nos observations. Cependant, avant de réaliser une quelconque segmentation il est primordial
de savoir quels sont les inconvénients de l’analyse RFM afin de fixer notre périmètre.

I.1.3.3 Les désavantages de l’analyse RFM

Selon J- T. Wei et al. (2010), l’analyse RFM peut présenter des désavantages parce
qu’elle se concentre principalement sur les meilleures clients. Ainsi il sera plus difficile
d’analyser les profils de clients qui n’achètent que rarement et qui viennent peut souvent. Un
des inconvénients est le fait que l’analyse RFM se focalise entièrement sur l’achat et ainsi
exclue les potentiels futurs clients qui pourraient apporter une plus forte valeur ajoutée. Enfin
un autre point que souligne J-T. Wei et al. (2010) est la notion d’homogénéité. Il est important
pour que la méthode RFM soit interprétée d’homogénéiser les clients, et donc de regrouper
ceux qui sont les plus similaires entre eux. Mais il est important de souligner qu’en réalité
aucun client ne ressemble à un autre cela signifie qu’on ne trouvera jamais deux clients qui ont
acheté au même moment pour un montant similaire. Puisque nous connaissons dorénavant les
limites de l’analyse nous pouvons dès los nous concentrer sur la préparation des données.

16
I.1.4 La préparation des données

Selon D. Chen (2012), il existe trois étapes afin de trouver les bons clusters :

La première étape consiste à sélectionner les données que nous allons utiliser dans nos bases
de données. Dans le cas de l’analyse RFM nous nous contenterons d’utiliser l’identifiant
unique de chaque client qui a acheté dans l’agence en question. Nous récupérerons ses dates
d’achats et le montant qu’il aura dépensé à chaque fois.

La deuxième étape met l’importance d’exclure de notre analyse les éléments qui ont des
observations peu présente voire anormales.

La troisième étape consiste à normaliser les données afin que l’algorithme ne se trompe pas
dans la détermination du nombre de classe à utiliser.

Selon nous, il existe une étape importante qui n’a pas été mentionné, elle concerne le
temps. Cela veut dire que nous devons nous fixer un certain périmètre quel que soit l’activité
et la taille de l’entreprise. Comme nous pouvons le constater, il sera impossible d’analyser les
clients depuis le début de la réalisation de l’entreprise si elle génère un très gros volume de
trafic ou bien si elle est présente depuis plusieurs années, à moins que l’entreprise ait été créée
récemment avant l’analyse. Cela sera à la fois trop couteux mais aussi ne génèrera aucune
rentabilité. Dès lors, c’est à nous de juger à partir de quel moment on doit sélectionner un client.
Dans le cas de l’analyse de notre agence fermé nous ne pourrons donc pas analyser les clients
qui ont acheté depuis la création de l’agence, cela représentera une inutilité d’information dans
l’analyse de nos clusters. Nous supposons donc que les clients qui sont venues acheter un
produit depuis la création de l’agence seront analysés s’ils sont revenus et qu’ils font parties de
notre périmètre de temps. S’ils ne sont pas revenues cela nous reviendra à les exclure et
n’auront donc aucune information pertinente à retirer.

17
Figure 2: Processus de la transformation des données au cluster

Source: M. K. Rafsanji et al. , 2012, A survey of hierarchical clustering, The journal of mathematics and
computer science ,vol.5 ,no 3, 229-240

Afin de décrire au mieux ces étapes, nous allons nous appuyer sur la Figure 2. Cette
image se lira de gauche à droite comme l’indique les flèches. Comme nous pouvons le constater
en réalisant une représentation graphique les données quel que soit le secteur où l’on travail
comporte des données qui sont impropres à n’importe quelle interprétation c’est pour cela que
nous passons par le traitement des données. Cette étape est cruciale pour que nos clusters soient
bien formés. Elle comporte plusieurs étapes selon M. K. Rafsanji et al. (2012) :

Le nettoyage des données qui consiste à identifier les valeurs anormales, c'est-à-dire les valeurs
qui sont trop éloignés par rapport à l’ensemble des données. Nos observations peuvent aussi
comporter des valeurs manquantes. Il faut donc veiller à prendre les meilleures décisions. Dans
notre cas nous allons retirer l’ensemble de la ligne qui contient une valeur manquante, dans ces
cas cela nous contraint à réduire notre ensemble de donnée.

L’intégration des données provenant d’autres bases de données peuvent participer au


prétraitement des données. Dans notre cas l’analyse RFM ne demande pas d’intégrer d’autre
donnée provenant d’autres bases.

La réduction des données est l’étape de l’agrégation des données. Dans le cadre de notre
analyse nous devrons agréger l’ensemble des achats afin de n’obtenir qu’un identifiant unique.

La transformation des données consiste à mettre les observations sur la même échelle. Comme
nous pourrons le constater plus tard, les échelles sont différentes selon la récence, la fréquence
et le montant et nous devrons passer par cette étape de normalisation des données.

18
Comme nous pouvons le voir, ce n’est qu’une fois que les données seront traités qu’on
pourra passer par l’étape suivante. Ainsi pour implémenter notre algorithme, nous avons au
préalable une matrice qui contient nos variables d’entrées. Cette matrice ne contient aucune
valeur aberrante, ou manquante. Par exemple, si nos clients ont un panier moyen compris entre
mille et cinq mille euros nous enlèverons le client qui aura acheté pour une valeur de cent euros
ou bien de quinze mille euros. Ensuite nous allons poser notre algorithme qui va assembler les
observations les plus proches entre elles et nous allons obtenir des nouvelles observations en
sortie. Ces nouvelles observations ne sont autres que les clusters que l’algorithme aura trouvés.
Ce n’est qu’ainsi que nous pourrons interpréter les résultats, nous pourrons donc tirer des
conclusions et ainsi réaliser des rapprochements entre clients afin d’adapter une stratégie de
vente différente et ciblée. Nous allons donc spécifier un peu plus en détail ce que nous
entendons par cluster.

I.1.5 Le Cluster

L’analyse par le cluster est une technique utilisée et considérée comme la technique la
plus importante. Dans le cas de l’analyse RFM comme on ne connait pas ce qui relie un client
à un autre nous pouvons utiliser ce type de méthode. Le but étant de laisser à l’algorithme de
trouver par lui-même une structure qui permet de lier un client par un autre. Comme l’explique
M. K. Rafsanji et al. (2012), en variable d’entrée il y a un ensemble d’échantillon, qui n’est
autres que l’identification du client, sa récence, sa fréquence et son montant. D’après S. C. Hsu
(2012), chaque donnée constituera une observation, ceux qui sont liées par une distance proche
seront regroupés à l’intérieur du même groupe. Le résultat en sortie sera nous l’espérons
plusieurs clusters.

Selon S. C. Hsu (2012), pour que l’analyse de groupe soit interprétable il faut que deux
conditions soient vérifiées :

La première consiste à vérifier que chaque cluster trouvé soit homogène à l’intérieur. Cela veut
dire que chaque observation doit se ressembler entre elles. Cela signifie que si le client numéro
un et le client numéro trente sont positionnés dans le même cluster, c’est qu’ils ont de très
grosses ressemblances en terme de comportement d’achat.

19
La deuxième insiste sur le fait que chaque cluster doit être différent entre eux. En d’autre
termes cela veut dire que si un client est positionné dans le cluster numéro un il devra alors
avoir une significative différence avec un client qui est positionné dans le cluster numéro deux.

Selon notre point de vue nous pouvons ajouter que le nombre de cluster trouvé doit être
inférieur à la somme des observations que nous avons dans notre fichier de donnée. En d’autre
terme cela signifie que si nous avons cinquante observation et que nous trouvons cinquante
cluster c’est que nous ne pourrons rien tirer de notre analyse. Nous pouvons même ajouter que
le nombre de cluster doit être compris entre deux et dix dans le cas de l’analyse RFM si nous
voulons réaliser une interprétation significative.

Le résultat sera tel que l’on trouvera au moins deux clusters avec des clients qui seront
différents. Dès lors que nous connaissons la définition et l’utilisation de ces éléments nous
pouvons passer à la deuxième partie de la revue de littérature qui consistera à expliquer les
deux types d’algorithme que nous utiliserons.

20
I.2 Technique d’analyse non supervisé

L’analyse RFM tel qu’elle ne peut pas être utilisé toute seule puisqu’elle ne permet pas
à elle seule de regrouper les clients de façon homogène à l’intérieur de chaque groupe. Pour
cela nous allons utiliser les techniques du datamining et faire appel aux méthodes
d’apprentissage non supervisé. Les méthodes de clustering font partie de l’analyse
d’apprentissage non supervisé. Ces types de méthodes permettent de rechercher des similitudes
dans les données.

Il existe deux principales méthodes, la méthode utilisant le partitionnement et la


deuxième étant la hiérarchie que nous détaillons plus bas.

I.2.1 Utilisation du K-means

Selon S. C. Hsu (2012), la méthode de partition va casser les groupes qui ont été posé
en premier point afin de reformer des nouveaux groupes. L’algorithme le plus utilisé est le k-
means dont le fonctionnement sera de chercher la distance qui va minimiser le lien qu’il y a
entre chaque observation et leur attribuer des centres de groupes. D’après S. C. Hsu (2012),
afin que l’algorithme soit utilisé dans le meilleur de ses performances, il est indispensable
d’avoir un nombre important d’observations et d’avoir plusieurs critères. Toutes les variables
qui seront injectés dans l’algorithme devront être numérique et suffisamment homogène pour
éviter le maximum d’erreur. Nous allons tout d’abord expliquer les étapes du k-means puis en
expliquer les avantages et les inconvénients.

I.2.1.1 Les Etapes du K-means

Selon D. Christodoulakis (2005), il existe trois principales étapes dans cet algorithme
de partitionnement :

La première étape consiste à choisir de manière aléatoire les « k » points qui nous servirons de
points de départ que nous appellerons centroïd.

21
La deuxième étape consiste à transférer chacune des observations au centroïd qui sera
significativement le plus proche.

La dernière étape consiste à vérifier si le centroïd de chaque cluster a changé d’endroit. Si tel
est le cas il faut recommencer la deuxième étape jusqu’à ce que chaque centroïd ne bouge plus.

Figure 3: Les étapes du k-means

Source: C. Piech. 2013, Stanford.edu

Ainsi, la Figure 3 nous montre tout l’enchainement de cet algorithme. La partie (a)
concerne les données brutes, et donc pour l’instant aucun cluster n’est attribué aux
observations. Cependant, nous pouvons dès lors constater qu’intuitivement nous avons deux
parties distinctes. Ainsi pour la partie (b) nous poserons deux centroïd de manières aléatoires
qui représenteront chacun d’entre eux un cluster. Ensuite nous constatons que la partie (c) passe
vers la deuxième étape qui est d’approprier les observations à chacun des clusters lui
correspondant. Comme nous pouvons le constater, certaines observations qui devaient être en
bleu sont devenues rouges et vis versa, cela signifie que les centroïds ne sont pas positionnés
dans le meilleur endroit et que si nous stoppons le processus à cet instant alors il y aura des
observations qui seront liés à d’autres observations alors qu’elles n’ont pas de similitude. En
analysant la partie (d), nous constatons que nous sommes à la troisième étape et que les
centroïds ont changé d’emplacement, nous retournons à l’étape numéro deux et nous passons
à la partie (e). Les observations ont toutes été attribuées au bon cluster, mais les centroïds ne
sont pas représentatif de leur cluster, le centroïd va alors calculer la moyenne de la position de
toutes les observations propre à son cluster comme nous pouvons le voir dans la partie (f), la

22
troisième étape alors est terminé et nous distinguons clairement que chaque observations a été
affectés au bon cluster.

I.2.1.2 Les avantages et l’inconvénient du K-means

Selon D. Birant (2011), l’avantage de cet algorithme parmi les autres techniques de
clustering et qu’elle présente deux bénéfices.

La première concerne une efficacité en termes de temps. C'est-à-dire qu’il sera beaucoup plus
rapide d’émettre des liens entre chaque observation avec le k-means plutôt qu’avec une autre
méthode. D’après D. Arthur et Vassilvitskii (2007), lorsque notre fichier de donnée comporte
un gros volume d’observation, cela pourrait permettre de gagner soixante-dix pourcent
d’efficacité.

La deuxième concerne la qualité des clusters. Cela signifie qu’il y aura plus de chance de
trouver la meilleure similitude entre chaque observation avec ce type d’algorithme plus tôt
qu’avec un autre.

Toutefois selon D. Chen (2012), il présente un inconvénient dont il faut tenir compte.
Cet inconvénient concerne les données sensibles. Nous appellerons données sensibles toutes
valeurs qui peuvent présenter des problèmes dans la réalisation de nos clusters. Dans le cas de
l’analyse RFM une donnée sensible serait d’avoir une observation qui a dépensé avec une
valeur monétaire supérieure à vingt mille euros par exemple alors que les autres observations
présentent une magnitude d’achat compris entre mille euros et deux mille euros par exemple.
Par ailleurs, il existe une seconde méthode intéressante quant à la réalisation de notre analyse
RFM celle-ci n’est autre que la classification hiérarchique.

23
I.2.2 Utilisation de la classification hiérarchique

La deuxième méthode est la classification hiérarchique qui est utilisé sous deux formes
comme l’indique M. K. Rafsanji et al. (2012), le but de cet algorithme est de grouper des
observations, dans le cas de l’analyse RFM cela consiste à regrouper nos observations et donc
nos clients. Cela est rendu possible en utilisant une mesure de distance. L’avantage de ce type
d’algorithme et que l’on n’a pas besoin de définir un nombre de cluster comme critère. Et que
l’on peut obtenir n’importe quel nombre de cluster puisque c’est nous qui prenons l’initiative
d’arrêter un niveau de branche.

Le résultat obtenu est alors présenté sous forme d’arbre contrairement à l’algorithme du k-

means.

Figure 4: Les étapes de la classification hiérarchique

Source: M. K. Rafsanji, et al., 2012, A survey of hierarchical clustering, The journal of mathematics and computer
science vol.5, no 3, 229-240

Comme l’indique la Figure 4, il y a la manière Ascendante (Agglomerative) et il existe la


manière descendante (Divisive). Chacune des méthodes sont expliquées ci-dessous et utilise
la Figure 4.

Tout d’abord la classification hiérarchique ascendante est une technique de classification


itérative et s’explique globalement par quatre étapes comme le montre la Figure 4.

• On commence par mesurer la non similitude entre chaque observation.


24
• On assemble les observations dont le regroupement va réduire un critère
d'assemblement préalablement posé, cela va permettre de créer une classe qui
contiendra ces observations.
• On calcule ensuite la non similitude entre cette classe et les autres observations en
utilisant le critère d'assemblement. Ensuite les deux objets ou classes d'objets seront
regroupé entre eux suivant que le critère d’agrégation sera le plus petit
• On poursuit jusqu'à ce que toutes les classes soient assemblées.

D’après M. K. Rafsanji et al. (2012), la méthode Ascendante (Agglomerative) part du


principe qu’à chaque étape il y a un début de classe qui va être obtenue en assemblant les
observations au fur et à mesure. En premier lieu nous allons fabriquer une matrice de distance
qui constituera toutes nos observations. Nous allons alors regrouper les deux éléments les plus
similaires.

Ici, dans la Figure 4, nous pouvons constater que la première étape est de joindre l’élément (a)
avec l’élément (b). Il constitue une première branche de l’arbre. Ensuite, comme le montre la
deuxième étape, nous allons agréger deux autres observations entre elles car ce sont des
observations qui sont similaires, cette dernière va constituer une deuxième branche de l’arbre.
Ainsi, comme le montre la Figure, il ne reste que l’observation (c) qui n’a pas été agrégé. Pour
cela nous utilisons, un paramètre d’assemblage pour calculer la distance entre les observations
qui sont seuls et les classes qui sont déjà composées. Comme on peut le constater dans la
Figure 4, l’élément (c) sera joint avec la classe (a,b) et formeront une nouvelle classe par le
bais d’une nouvelle branche. Finalement, l’étape se finit par le quatrième stade et consiste à
regrouper les classes entre elles comme la montre la Figure ci-dessus.

Comme on peut le constater, ses regroupements continus produisent un arbre, dont les racines
concordent à la classe assemblant la totalité des observations. Ainsi, comme c’est une
classification hiérarchique, on pourra choisir à partir de quelle moment on veut que nos classes
soient séparés, c'est-à-dire à partir de quelle moment on peut accepter si les observations sont
vraiment similaires entre elles.

Selon M. K. Rafsanji et al. (2012), la classification hiérarchique descendante


(divisive) réaliserait les étapes inverses. Cela signifie qu’au départ toutes les observations sont
intégrées dans le même ensemble. Voici les étapes de cette technique :

• Les observations sont tous rassembler à l’intérieur d’une même classe

25
• L’algorithme va chercher la plus grosse non similitude entre deux observations et les
séparés. Il n’y aura plus un ensemble d’observations mais deux sous-ensembles
d’observations.
• L’algorithme va alors réaliser le même processus jusqu’à former des sous petits groupes
de branche et atteindre les racines.

Comme le montre la figure 4, la classification hiérarchique descendante commence par l’étape


zéro qui n’est autre que la classe (a,b,c,d,e). Cette classe constitue le plus gros cluster. On va
alors procéder à une séparation progressive des observations comme on peut le constater dans
la première étape. Il y a deux classes qui se sont formés la première contient le cluster (a,b) et
la deuxième constitue la classe (c,d,e). Cela va se répéter jusqu’à ce que l’on va arriver à la
dernière étape qui consiste à tomber sur les observations de manière unitaire.

Dans les deux types de méthodes, il faut utiliser un critère de distance. C'est-à-dire avec quelle
mesure nous allons approcher nos observations. Il faut aussi fixer une règle qui va nous
permettre de rassembler ou désassembler les observations. Dans le cadre de notre étude nous
allons nous concentrer sur la classification hiérarchique ascendante puisqu’elle présente
l’avantage d’avoir été utilisé dans l’écriture de code.

Finalement, après avoir expliqué ce qu’était la gestion de la relation client, la pyramide du


client, l’analyse RFM, la préparation des données et l’analyse de cluster, nous avons expliqué
ce qu’était une analyse non supervisé et les deux techniques de classifications que nous allions
utiliser. Nous pouvons dorénavant placer nos hypothèses qui seront validé où réfuté tout au
long de notre étude.

26
I.3 Hypothèses de travail

Grâce à la revue de littérature, des hypothèses de travail ont pu être posées et sont décrites ci-
dessous. Elles seront validées ou non suivant les résultats qui découleront de notre recherche.

• L’algorithme du k-means va homogénéiser les clusters par rapport à l’algorithme de


classification hiérarchique

• Nous trouverons le même nombre de cluster dans l’algorithme du k-means et


l’algorithme de classification hiérarchique.

• Toutes les observations seront situés dans le même cluster quel que soit l’algorithme
utilisé.

• Plus le nombre de cluster est grand et plus il contient les clients les plus inactifs.

• Plus le nombre de cluster est petit plus il contient les meilleurs clients.

• L’analyse RFM suffit à elle seul pour comprendre nos clients

27
II. Méthodologie

Dans cette partie, nous expliquerons le choix des sélections des données qui ont
représenté au moins quatre-vingt pourcent du temps de travail mais qui se sont révélés
nécessaire pour interpréter les résultats de manière efficace. Notre échantillons se basera sur
deux mille sept cent quatre-vingt observation de 2012 jusqu’à 2016 et représente tous les achats
des clients qui répondent à nos critères et représente un total de mille sept cent quatre-vingt-
dix clients. La deuxième partie traite sur l’analyse descriptive de nos observations pour
regarder de manière globale de quoi était constitué nos observations. Enfin, dans une dernière
les premières étapes de l’analyse RFM seront réalisées, cette dernière servira d’élément
important pour réaliser notre segmentation client.

II.1 Choix des critères

Comme nous l’avons indiqué dans la revue de littérature, l’analyse RFM ne se


concentre que sur trois critères qui sont : la récence, la fréquence, et le montant. Puisque ces
variables sont numériques et sortent uniquement de nos bases de données, nous avons réalisé
une analyse quantitative. Toutefois, même si l’analyse ne se base uniquement que sur trois
critères, il faut au préalable faire des choix de sélection que nous mentionnerons ci-dessous.

L’objectif de notre étude est de pouvoir réaliser une segmentation sur la base des clients
de l’agence qui a fermée. Nous savons dès lors que la quantité de donnée ne sera pas aussi
énorme contrairement à la réalisation d’une segmentation via le canal du web. Nous devons
donc porter une attention particulière pour chaque donnée tout en enlevant celle qui ne peut
vraiment pas être étudiée. L’objectif de ces réflexions était donc de pouvoir répondre à cette
problématique.

L’une des plus importantes réflexions concerne la récence, d’autant plus qu’il s’agit de
réaliser une analyse sur une agence fermé. Si nous reprenons la définition de la récence que
nous avons mentionné plus haut, nous pouvons constater qu’il s’agit de faire la différence entre
la date au quelle l’analyse est faite et la date du dernier achat, pour voir combien de jour s’est
écoulé depuis le dernier achat. Puisqu’il s’agit ici d’une agence fermée depuis novembre 2016,
nous avons pris la décision de se mettre à ce niveau de temps, pour éviter de se trouver avec
28
un trop grand déséquilibre entre le nombre d’acheteur récent et le nombre d’acheteurs ancien.
Puisque cette agence sert de test, cela ne perturbe en aucun cas notre analyse.

Une autre réflexion importante concerne le montant de l’achat. Dans notre cas, il faut
se souvenir du contexte dans lequel cette analyse RFM est réalisée. Nous nous rappelons donc
que nous sommes dans le secteur du Tourisme et du voyage. Les montants des achats sont donc
plus importants que sur un autre secteur tel que la grande distribution. Il est nécessaire de se
demander si l’achat du client concerne le total du panier et ainsi prendre l’ensemble du panier
en considération ou bien se référer uniquement sur l’achat pour un individu et donc choisir
l’achat à l’unité. Dans le cas de notre analyse nous avons décidé de prendre l’achat dans son
ensemble cela veut dire que si un client a acheté un séjour pour quatre personnes, nous
prendrons l’ensemble de l’achat et non l’achat pour une personne.

Il vient ensuite le questionnement basé sur la personne même. Avant de réaliser une
analyse et de segmenter les clients il est nécessaire d’identifier quel type de client nous allons
cibler. Dans nos bases de données il existe deux manières d’identification du client. Le premier
consiste à s’intéresser à l’identifiant unique rattaché à un achat. Le deuxième consiste à
s’intéresser à l’identifiant globale des achats. Dans notre cas, nous nous intéresserons à
l’identifiant unique puisque nous cherchons à segmenter finement les clients.

Enfin, lorsque toutes ces questions ont été traitées il a fallu se mettre en accord avec la
législation du droit des données personnelles. En effet, il nous est obligé de prendre en compte
le consentement du client. Même si notre analyse sert uniquement, de test nous devons prendre
en compte cette obligation pour rendre nos regroupements le plus juste possible et éviter de
positionner des clients intéressants que nous ne pourrons pas contacter par la suite. Ainsi toute
personne n’ayant pas donné son approbation pour réaliser des traitements d’analyse devra être
éjectée avant de réaliser notre segmentation RFM.

Dès lors que nous avons expliqué nos critères de sélection nous pouvons passer à l’analyse
descriptive pour expliquer une analyse globale de nos observations.

29
II.2 Analyse descriptive des observations

Nous allons maintenant expliquer la méthodologie que nous avons entrepris afin de
réaliser notre analyse. Comme nous l’avons annoncé précédemment, notre analyse est
purement quantitative et ne nécessite pas d’aller récupérer des informations externes. Nous
avons sélectionné en premier temps l’identifiant unique, le montant attribué à l’identifiant, et
la date au quelle l’identifiant a réalisé un achat. Nous avons aussi choisi les critères qui
permettaient de savoir si la personne avait consenti à réaliser des traitements sur elle ou non.
Sur la base de ces critères nous avons recueillis six mille deux cent sept observations. Afin
d’éviter au mieux les valeurs aberrantes nous avons dû supprimer des observations, c’est-à-dire
que nous avons réduit le périmètre de temps, nous avons restreint notre analyse à tout ce qui
c’était produit après 2012. Nous avons par ailleurs supprimé tous les voyages qui étaient
inférieur à quatre jours et supérieur à 15 jours pour avoir des montants suffisamment
homogènes. Nous avons également retiré les achats avec de trop gros volumes de personne
puisqu’elles allaient fausser la segmentation. Après avoir retirés toutes ces informations il ne
nous reste plus que deux mille cent quatre-vingt-sept observations ce qui signifie que seulement
trente-cinq pourcent de l’information de départ restent pertinente.

Ensuite, avant de s’attarder à mettre en place une segmentation nous avons réalisé
quelques traitements statistiques pour analyser les observations et s’assurer que les anomalies
étaient traitées. Le tableau 1 ci-dessous nous permettra de mieux cerner les informations,
puisque nous traiterons chacune des colonnes hormis la colonne « identification_client » qui
représente une clef d’identification. Ce tableau présente la distribution par quartile ainsi que le
minimum et le maximum et la moyenne de chacune de nos colonnes.

Tableau 1 Analyse descriptive des observations

Identification_client ID_DATE_RESERVATION MONTANT Date_dernier_achat Annee_d'achat


Min. : 130080 Min. :2012-01-02 Min. : 106 Min. : 1.0 Min. :2012
1st Qu.: 6745992 1st Qu.:2013-03-30 1st Qu.: 1248 1st Qu.: 458.0 1st Qu.:2013
Median : 7765189 Median :2014-07-19 Median : 1946 Median : 839.0 Median :2014
Mean : 7735599 Mean :2014-06-24 Mean : 2430 Mean : 863.2 Mean :2014
3rd Qu.: 8711059 3rd Qu.:2015-08-04 3rd Qu.: 3128 3rd Qu.:1314.5 3rd Qu.:2015
Max. :11676855 Max. :2016-11-03 Max. :18737 Max. :1768.0 Max. :2016

30
La deuxième colonne concerne la date de réservation, elle n’apporte pas une très grande
information mais nous pouvons constater que notre analyse se base sur une période de quatre
ans approximativement et débute le 2 Janvier 2012 pour se finir le 3 Novembre 2013. Nous
pouvons donc déjà nous dire qu’un jour avant que l’agence ne ferme, au moins un achat a été
réalisé.
La troisième colonne est l’une des colonnes les plus importantes puisque c’est l’une
d’elle qui nous permettra de segmenter nos clients. Nous pouvons constater que le panier
moyen est de deux mille quatre cent trente euros ce qui signifie qu’un client dépense en
moyenne pour ce montant-là. Le minimum d’un achat correspond à cent six euros et le
maximum correspond à dix-huit mille cent trente-sept euros. Nous pouvons aussi remarquer
que soixante-quinze pourcents de nos observations ont un panier moyen inférieur à trois mille
cent vingt-huit euros. Il y a donc vingt-cinq pourcents de nos informations qui contiennent des
valeurs supérieures à trois mille cent vingt-huit euros et qui peuvent atteindre une valeur
maximale de dix-huit mille cent trente-sept euros. Nous remarquons que même après un
nettoyage des données il reste tout de même des valeurs extrêmes. Ces valeurs ne seront pas
supprimées puisque nous nous sommes assuré durant le traitement des données que ces
observations avaient de la pertinence dans notre segmentation. Cela signifie que bien avant de
réaliser notre segmentation nous devrons passer par une normalisation des données comme
nous l’avons mentionné dans la revue de littérature.
La dernière colonne concerne la date du dernier achat. Nous pouvons donc remarquer
qu’un jour avant la fermeture de l’agence des achats ont été réalisé ou bien qu’il existe des
clients qui n’ont pas acheté depuis mille sept cent soixante-huit jours. Un autre indicateur
consiste à regarder la médiane, dans le cas de notre agence cinquante pourcent de nos clients
leur date de dernier achat de plus de huit cent trente-neuf jours.

Nous pouvons déjà remarquer qu’une segmentation est nécessaire pour identifier les
clients qui reviennent souvent de ce qui ne sont plus revenue afin d’adapter une stratégie pour
chacun de ses profils. Comme indiqué dans la Figure 9 posé dans l’annexe, nous pouvons
constater que globalement l’agence a réalisé un chiffre d’affaire situé entre un million et un
million deux cent mille euros pendant la période de 2012 jusque 2016. Il est donc intéressant
de permettre à la nouvelle agence de réaliser un chiffre d’affaire de la même envergure. Puisque
nous avons réalisé une analyse statistique, nous pouvons dès à présent réaliser la première étape
de l’analyse RFM.
31
II.3 Première étape de l’analyse RFM

Après avoir observé ses informations primordiales, nous avons pu réaliser les débuts de
l’analyse RFM c’est-à-dire créé les champs « Montant», la « récence » et la « fréquence » pour
chaque client. Nous nous sommes retrouvés avec mille sept cent quatre-vingt-dix observations
et donc clients. Une information importante a attiré notre attention et concerne la fréquence,
comme nous pouvons le voir dans le Tableau 9 placé en annexe la moyenne de la fréquence
correspond à 1,22 ceci veut dire que très peu de clients reviennent une deuxième fois pour
réaliser un achat. Nous pouvons d’ailleurs remarquer que cela concerne soixante-quinze
pourcents de nos observations. Toutefois, il y a vingt-cinq pourcents de nos observations qui
reviennent au moins une deuxième fois et qui sont venues pour certains au maximum vingt-
deux fois.

Ainsi nous pouvons dès lors constater des profils de consommateurs bien différents
avant de réaliser une segmentation. Nous allons analyser le profil de quelques clients afin de
pouvoir réaliser quelque comparaison et montrer l’intérêt de réaliser une segmentation. Nous
nous appuierons sur le tableau 2. Le tableau ci-dessus présent quatre clients que nous avons
choisis aléatoirement avec leur récence, fréquence, montant respectivement.

Tableau 2: Exemple de clients suite à l'application RFM

id_client recency frequency amount


2239446 622 1 431
3493528 1015 3 3176
11539326 777 5 3973
11610658 112 1 1578

Nous pouvons voir que le client « 2239446 » n’est venue acheter qu’une fois il y a six
cent vingt-deux jours et correspond à peu près à deux ans pour un montant de quatre cent trente
et un euros. L’identifiant « 11610658 » n’est venu lui aussi qu’une fois mais à récence plus
courte par rapport à l’identifiant que nous a mentionné au-dessus. D’ailleurs il a réalisé un achat
trois et demi fois supérieur à son homologue. Nous espérons déjà que ces deux individus ne
seront pas dans le même groupe car le deuxième client que nous avons cité à une récence plus
faible mais aussi un montant beaucoup plus élevé. L’identifiant « 11539326 » semble
intéressant, en effet sa récence est correcte puisque l’on sait que la moyenne des clients

32
revienne au bout de sept cent quatre-vingt-dix-sept jour (Tableau 9 dans l’annexe) ce qui fait
l’équivalence de deux ans à peu près. D’autant plus que ce client est revenu cinq fois pour une
dépense moyenne de trois mille neuf cent soixante-treize euros. Typiquement, ce serait le
profil de client que nous devrions retrouver dans les clients fidèles parce qu’ils sont rentables
dans la durée avec leur achat. Ensuite, il y a le client « 3493528 » qui est venue dépenser trois
fois à l’agence pour un montant moyen de trois mille cent soixante-seize euros mais n’est pas
revenue depuis trois ans. Nous pouvons dire que c’est un client que nous avons perdu mais qui
aurait pu être parmi les profils les plus intéressants.

Il est alors intéressant de connaitre quels sont les clients qui ont les profils similaires,
qui sont ceux que l’on risque de perdre si nous ne les analysons pas et qui sont les clients ou il
n’y a pas d’intérêt à investir sur eux cas le taux de conversion sera faible. Nous espérons au
moins que nous trouverons trois clusters pour réaliser une bonne analyse. Si le nombre de
groupe est inférieur nous ne pourrons pas réellement trouver une réelle conclusion. Les
individus dont la récence est grande risquent d’être beaucoup trop mélangés avec les individus
dont la récence est faible. De même, il ne nous sera impossible de distinguer les vingt pourcent
des clients les plus intéressants.

Ces dernières décennies, beaucoup de techniques de classification ont émergé et font


partie du data mining. Les algorithmes de classification telle que le k-means et la classification
hiérarchique, nous permettrons de trouver des groupes distinct entre eux et dont les
observations seront similaires entre groupe et ainsi cela nous permettra de réaliser une stratégie
différente en fonction des clusters.

33
III Présentation des résultats

Dans cette partie, nous étudierons les deux techniques de segmentation que nous avons
mentionnée dans la partie revue de littérature. Tandis que la classification hiérarchique se base
sur l’agrégation au fur et à mesure des observations, le k-means se base sur des centroïds qui
vont chercher à expliquer au mieux les observations qui sont au plus proche de lui. Nous
analyserons donc pour chaque partie les deux techniques de data mining dans les deux
premières parties en essayant de dégager le maximum d’information puis une troisième partie
sera consacrée à la comparaison des deux techniques et nous choisirons dès lors celle qui
convient le mieux à notre étude si une technique se démarque plus d’une autre.

III.1 Analyse RFM avec la méthode de la classification hiérarchique

Dans une première partie nous allons donc réaliser une analyse RFM sur la
classification hiérarchique en expliquant les étapes de réalisation, nous nous appuierons sur
quelques graphiques pour expliquer les choix de nos clusters sélectionnés afin que nous
puissions en tirer une interprétation et une analyse intéressante.

III.1.1 Réalisation de la classification hiérarchique

Comme nous l’avons précisé dans la partie revue de littérature, nous avons fait le choix
de réaliser une segmentation grâce à la classification hiérarchique. Ainsi, en lisant la figure 5
ci-dessous nous ne pouvons pas réellement tiré de conclusion, ce que nous pouvons constater
c’est qu’il y a la présence d’un arbre avec une bande noire épaisse qui représente chaque
individu imbriqué l’un après l’autre pour créer des branches. Chaque branche s’agrégera pour
au final ne former plus qu’un. La figure ci-dessous ne nous indique pas le nombre de cluster à
utiliser, ainsi si nous avons réalisé manuellement un saut d’inertie comme présenter dans la
Figure 10 illustrée dans l’annexe.

34
Figure 5: La classification hiérarchique

L’objectif du saut de l’inertie et de trouver l’endroit où le saut et le plus grand pour trouver le
nombre de cluster optimale. Dans notre cas nous avons jugés que trois types de segmentations
pouvaient être réalisés. Le premier consiste à sélectionner uniquement deux groupes, le
deuxième trois groupes et le troisième six groupes. Nous avons ensuite découpé l’arbre en
fonction de ces trois types de segmentation comme nous pouvons le constater avec la figure 6
présentée ci-dessous. Pour permettre une meilleure lisibilité des clusters la bande noire a été
retirée.

Figure 6: Le découpage des clusters

Comme nous pouvons le remarquer avec la Figure 6, ne sélectionner uniquement que


deux clusters (en vert) ne serait pas suffisamment pertinent lors d’une réalisation de
segmentation car l’objectif est de trouver plusieurs groupes distincts. Si nous voulons tirer de
bonne conclusion il est primordial de trouver au moins plus de deux clusters. En effet, que
pourrions-nous conclure des quatre clients que nous avons prélevés aléatoirement avec deux
clusters. Il serait difficile de juger si le cluster qui contient les gens les moins intéressants est
vraiment inintéressant puisqu’il contiendrait des clients tout de même fidèles.

35
De plus en observant la figure 6 nous constatons que découper nos clients en six clusters
(en bleu) peut nous montrer des éléments trop détaillés. Or nous cherchons à trouver des
individus différents pour chaque cluster mais homogène à l’intérieur des clusters. En effet il ne
sera pas pertinent pour nous de trouver de faible population par cluster. L’objectif final de notre
analyse est de pouvoir réaliser des conclusions, et si les clients sont trop dispersés dans des
groupes différents nous risquons de ne plus comprendre qui sont les clients les plus intéressants.

Finalement il nous reste la segmentation par trois clusters (en rouge) qui selon nous est
la plus pertinente. En réalisant une analyse automatique, c’est-à-dire laisser la méthode trouver
d’elle-même le nombre de cluster optimale nous avons remarqué que la segmentation par trois
clusters nous avait été proposée. Nous avons donc poursuivi notre analyse en gardant trois
clusters. Ce qui correspond au minimum que nous avons déclaré dans la partie méthodologie.
Nous pouvons dès lors nous dire qu’avec trois clusters nous auront des groupes suffisamment
homogène à l’intérieur et hétérogène entre elles.

Grâce à cette démarche, nous avons pu passer à l’explication et l’analyse de la classification


hiérarchique.

III.1.2 Interprétation et analyse de la classification hiérarchique

Cette partie va se construire en première étape par l’interprétation du nombre de clients


attribué dans chaque cluster puis nous réaliserons une analyse détaillé de chaque cluster grâce
à la récence, fréquence et le montant attribué.
La première étape de l’analyse de la classification hiérarchique consiste a étudié le
nombre de clients associés pour chaque cluster. En observant le Tableau 3 nous pouvons
constater que nos milles sept cent quatre-vingt-dix clients ont été répartis à l’intérieur de ces
clusters.
Le premier cluster possède quarante-trois pourcent des clients de notre analyse, le deuxième
cluster représente trente neufs pourcents de notre analyse et enfin le troisième cluster représente
dix-sept pourcents de notre analyse.

36
Tableau 3 : Nombre de client associé à chaque cluster– Classification hiérarchique

N° du Cluster Nombre de Clients associés


1 773
2 703
3 314

Parmi nos hypothèses, nous avions posé le fait que premièrement plus le nombre de
groupe comprenait énormément de clients et plus il y contenait des clients inactifs.
Deuxièmement, nous avions posé le fait que plus le nombre de cluster contenait peu
d’observation et plus il y contenait les meilleurs clients. L’objectif étant toujours de trouver
les vingt pourcents de client les plus fidèles comme indiquée dans la revue de littérature.

Ainsi, à l’issue du tableau 3 nous pourrions penser que le cluster 3 contient le plus petit nombre
d’observation et s’approche des vingt pourcents espérés. Vis versa, nous avons pensé que le
cluster 1 contenait les clients les plus inactifs puisqu’il avait le plus grand nombre
d’observation. Nous avons donc poursuivi l’analyse pour vérifier si tel était le cas et les
informations sont disposées dans le tableau suivant. Le tableau 4 ci-dessous présente la récence,
fréquence et montant moyen des trois clusters.

Tableau 4 : Récence, Fréquence, Montant par cluster – classification hiérarchique

N° du cluster recency frequency amount


1 563 1,00 1434
2 735 1,56 3756
3 1512 1,00 1805

Comme nous l’avons évoqué dans la partie méthodologie, les clients de cette agence ne sont
pas très fidèles. Globalement le cluster un et trois ont une fréquence de un. Cela signifie que le
profil des clients qui se situe dans ces deux clusters n’ont réalisé en moyenne qu’un achat et ne
sont pas revenues. Ce qui différencie le cluster un et trois sont le panier moyen et la récence,
concernant le panier moyen nous pouvons constater que le cluster trois a un panier 1,2 fois plus
élevé par rapport au cluster un. La récence du cluster trois par rapport au cluster un est
approximativement 3 fois plus élevé. Les clients qui se positionnent dans ce cluster n’ont pas
réalisé de nouvel achat depuis quatre ans en moyenne. En d’autres termes si on devait

37
privilégier un groupe de client en espérant les faire convertir pour qu’ils deviennent des clients
réguliers nous aurions privilégié le cluster 1. D’autre part, il nous reste le cluster deux qui
possède le panier moyen et la fréquence les plus élevés. Certes la récence n’est pas la plus
courte toutefois comme indiqué dans le tableau 9 situé dans l’annexe, elle reste inférieure à la
moyenne. Il contient donc les clients les plus intéressants.

Le tableau 4 affiche donc des profils différents, d’un point de vue marketing nous dirons que
le cluster deux contient les clients or, parce qu’ils ont une réelle valeur ajoutée. Il vient par la
suite le cluster 1 qui caractérise les clients argent, parce que même si en termes de panier moyen
ils ne sont pas particulièrement intéressants, il sera tout de même plus facile de les faire revenir
et d’essayer de monter le panier moyen de ces clients. Puis vient le cluster trois qui contient les
clients oubliés que nous ne pouvons pas considérés comme des clients bronze car selon nous
ils n’ont plus de réelle valeur ajoutée. Comme nous l’avons remarqué leur récence est relative
à quatre ans il sera donc très difficile de les faire revenir et cela sera plus considéré comme une
perte de retour sur investissement.

Dans le cas de la classification hiérarchique et de notre agence, il aurait été judicieux


de s’intéresser au deuxième cluster qui contient approximativement quarante pourcents de nos
observations et au contraire se désintéresser du cluster trois qui ne contient que dix-sept
pourcents de nos observations. Nous allons maintenant nous intéresser à l’algorithme du k-
means afin que nous puissions réaliser des comparaisons plus tard.

38
III.2 Analyse RFM avec la méthode du K-Means

Dans une seconde partie nous avons réalisé une analyse RFM sur le k-means en
expliquant les étapes de réalisation en premier lieu puis en réalisant une interprétation et une
analyse en second lieu. , nous nous appuierons tout comme la classification hiérarchique sur
quelques graphiques pour justifier les choix de nos clusters sélectionnés d’en tirer une
interprétation et une analyse intéressante.

III.2.1 Réalisation du k-means

Comme nous l’avons mentionné dans la partie revue de littérature, nous avons fait le
choix de réaliser une deuxième tentative de segmentation grâce au k-means. Toutefois avant
de pouvoir réaliser une analyse nous devons trouver le nombre optimal de cluster. Nous avons
centré réduit nos données pour que les données porte tous le même poids et éviter qu’une
observation occupe plus d’importance par rapport à une autre. Ensuite nous sommes passés par
la méthode d’éboulis, qui consiste à trouver le point où la pente est la plus marquée.

Figure 7: La méthode d'éboulis - k-means

La figure 7 présente sur l’axe des abscisses le nombre de cluster que nous pouvons
utiliser pour la réalisation de notre segmentation client. Nous avons fait le choix ici de nous
arrêter à 15 clusters. Sur l’axe des ordonnées est affichée la somme des carrés des résidus. Plus
l’axe des ordonnées est élevé moins il est intéressant de choisir le cluster. Toutefois il n’est pas
non plus intéressant de choisir un nombre trop élevé de cluster puisque aucune information ne

39
sera pertinente. Nous devons donc choisir le point où la rupture est le plus marquée. Dans notre
cas nous pouvons remarquer que la rupture se fait au cluster 5 indiquée avec un cercle bleu.

Figure 8: La visualisation des clusters - k-means

x
y

Après avoir choisi le nombre de cluster optimal nous avons décidé de représenter nos
observations dans un graphique en 3D. L’axe des « x » représente la récence, l’axe des « y »
représente la valeur monétaire et l’axe des « z » représente la fréquence. Chaque cluster se voit
attribuer une couleur différente pour plus de lisibilité. Plus la couleur devient claire et plus le
nombre de cluster s’agrandit. A première vue nous pouvons nous rendre compte que les clusters
sont de tailles différentes. Nous pouvons dons déjà constater que le cluster 5 a une récence très
faible contrairement aux autres, toutefois sa valeur monétaire ne semble pas être la plus
intéressante. A priori, le cluster 3 semble être l’un des clusters les plus intéressants car il
maintient une récence, une valeur monétaire et une fréquence intéressante. En visualisant cette
figure 8, nous pouvons remarquer que deux observations sont particulièrement éloignées des
autres clusters. Le premier est assigné au cluster 3 tandis que le deuxième est assigné au cluster
1. Nous pouvons dès lors nous dire qu’il n’aurait pas été intéressant d’agrandir le nombre de
cluster puisque ces clusters auraient encore moins été représentatifs. Nous pouvons maintenant
passer à l’interprétation de ces clusters.

40
III.2.2 Interprétation et analyse du k-means

Cette partie va se décomposer en deux sous parties. La première étape éclaircira


l’interprétation du nombre de clients affectés dans chaque cluster. Avec la deuxième étape nous
réaliserons une analyse détaillée de chaque groupe grâce à la récence, fréquence et le montant
attribué.
Dès lors que nous avons visualisé nos différents groupes, nous allons pouvoir regarder
combien d’observations y sont attribué pour chacun.

Tableau 5: Nombre de client associé à chaque cluster – k-means

cluster Nombre client


1 242
2 593
3 82
4 402
5 471

Nous pouvons voir que ce tableau 5 indique des informations très importantes pour notre
segmentation. Parmi nos hypothèses, nous avions mentionné le fait que d’une part plus le
cluster comprenait énormément de clients et plus il lui était attribué des clients inactifs. D’autre
part, nous avions mentionné le fait que plus les clusters contenaient peu d’observation et plus
il y était attribué les meilleurs clients. L’objectif étant toujours de trouver les vingt pourcents
de client les plus fidèles comme indiquée dans la revue de littérature.
Tout d’abord nous constatons qu’il existe un cluster qui contient 82 observations, c’est donc
le cluster le plus petit et représente quatre pourcents de l’information. Nous espérons donc
qu’il contiendra les clients les plus intéressants. Nous avons ensuite le cluster 1 qui contient
deux cent quarante-deux observations et représente treize pourcents de l’information. Nous
espérons donc que le cluster 1 et le cluster 3 contiennent les dix-huit pourcents des clients les
plus intéressants afin que notre hypothèse soit validée. Le cluster 2 est celui qui contient le plus
d’observations nous pouvons donc pour l’instant supposer qu’il contiendra les clients les moins
intéressants. Les clusters 4 et 5 contiennent à peu près le même nombre d’observations mais
nous ne pouvons rien supposer pour l’instant.

41
Nous avons donc besoin d’informations supplémentaires pour regarder de quoi sont
constitués nos groupes. Le tableau 6 ci-dessous affiche les récences, fréquences et montants
moyen attribués pour chaque groupe.

Tableau 6 : Récence, Fréquence, Montant par cluster – k-means

cluster recency frequency amount


1 818 1 5 625
2 796 1 1 680
3 501 3 2 390
4 1 495 1 2 111
5 244 1 1 940

Comme nous pouvons le voir dans le tableau 6, chaque cluster contient des informations
différentes. Le cluster qui obtient la récence la plus courte est le 5 avec une récence de deux
cent quarante-quatre jours ce qui est équivalent à moins d’un an. Le cluster qui obtient la
fréquence la plus haute est le 3 avec une fréquence équivalente à trois. Cela signifie qu’en
moyenne un client est revenu trois fois réaliser des achats dans cette agence. Enfin le cluster
qui obtient la valeur monétaire la plus haute est le cluster 1 avec un panier moyen de cinq mille
six cent vingt-cinq euros. Nous voyons donc qu’il n’existe pas de cluster qui obtient ces trois
informations.

Toute fois cela ne nous empêche pas de remarquer que les clusters sont différents. Ainsi grâce
à ce que nous nous sommes dit plus haut, le cluster 2 contient les observations les plus
importantes et concerne trente-trois pourcents de l’information, il est celui qui contient un
panier moyen le plus faible pour une fréquence égale à un. Les clients qui ont donc été placé
dans ce cluster ne sont venus en moyenne qu’une fois et ne sont pas revenu depuis au moins
deux ans. Il sera donc inutile de dépenser du temps à les récupérer puisqu’il y aura des clients
plus intéressants. Nous pouvons visualiser, un cluster qui était particulièrement intéressant si
l’analyse avait été traitée depuis deux ans avant que l’agence ne ferme. Elle concerne le cluster
4, clairement c’est l’un des clusters qui contient le panier le plus intéressant. Cependant la
récence est beaucoup trop grande, les clients sont venus en moyenne acheter une fois et ne sont
pas revenu depuis mille quatre cent quatre-vingt-quinze jours avant la fermeture et correspond
au cluster qui a le plus fort chiffre en termes de récence. Cela ne servira donc à rien de les
recontacter puisqu’ils ne sont pas revenus depuis quatre ans.

Le cluster 5 contient les observations qui ont certes la plus faible récence mais qui ont un panier
moyen le deuxième le moins élevé. Il faudra donc réaliser un investissement sur ce cluster mais

42
ne pas réaliser trop d’effort. Les clusters 1 et 3 sont les clusters qui contiennent les vingt
pourcents des clients les plus intéressants. Ainsi, comme nous l’avons vu dans la revue de
littérature ce sont sur ces observations que nous devrons réaliser le plus grand effort.

Le tableau 6 révèle donc des profils différents, d’un point de vue marketing nous dirons que le
cluster 3 contient les clients diamants, parce malgré qu’il réalise quatre pourcent de
l’information ils ont une réelle valeur ajoutée. Il vient par la suite le cluster 1 qui caractérise
les clients or, parce que même s’ils ne reviennent qu’une fois en moyenne ils ont le panier
moyen le plus élevé et seront plus facile à faire revenir due à leur récence. Puis vient le cluster
5 qui contient les clients argents car malgré que leur panier moyens ne soit pas le plus élevé, il
figure parmi les clients qui ont la récence la plus courte, nous pouvons donc espérer les faire
revenir plus facilement. Il vient ensuite le cluster 2 qui comportera les clients bronze, car leur
panier moyen est les plus faibles toutes fois ils ont une récence équivalente à deux ans ce qui
est correcte si nous pensons à les faire revenir. Il vient finalement le cluster 4 en dernière
position qui contient les clients « oubliés ». Ces clients auraient pu être parmi les clients les
plus intéressants si l’analyse avait été réalisée auparavant car il représente tout de même vingt-
deux pourcent de l’information

Dans le cas de la segmentation par le k-means et de notre agence, il est fortement


recommandé de surveiller particulièrement le cluster 1 et le cluster 3. Nous pouvons maintenant
réaliser une comparaison des deux techniques et choisir celle qui correspond le mieux à notre
étude.

43
III.3 Comparaison des deux méthodes

Dans une dernière partie nous avons comparé les résultats que nous avions trouvés en
termes de proportion d’observations attribués à chaque cluster. Nous avons par la suite réutilisé
les clients que nous avions sélectionnés dans la partie méthodologie pour réaliser une étude
plus approfondie. Dès lors que nous avons présenté les résultats de chaque cluster nous pouvons
passer à la comparaison des résultats.

Nous pouvons remarquer grâce au tableau 3 et au tableau 5 que nous trouvons un


nombre de cluster différent. Tandis qu’avec la classification hiérarchique nous avions trouvé
que le cluster 2 comprenait les observations les plus intéressantes et représentait quarante
pourcent de l’information, le k-means nous a proposé deux clusters intéressant représentant
vingt pourcent de nos observations. Nous pouvons déjà constaté qu’il y a une première
différence entre les deux techniques. Nous voyons par ailleurs, que leur panier moyen et leur
fréquence moyenne n’est pas la même et ceux même en réalisant une moyenne entre le cluster
1 et 3 du k-means. Cette première différence a donc représenté une analyse totalement
différente et nous avons commenté les résultats de manière plus approfondie avec le k-means.

De plus, à l’aide de la classification hiérarchique, le nombre de cluster optimal correspond a


trois tandis qu’avec le k-means il correspond à cinq ceci constitue donc une deuxième
différence.

De plus, aux vues des analyses que nous avons réalisées plus haut, nous avons constaté que
notre analyse était plus pertinente en utilisant le k-means puisqu’elle apportait plus de cluster
et donc une meilleure répartition de l’information.

Nous pouvons donc passer par la deuxième étape qui consiste à utiliser les clients que
nous avions choisis aléatoirement dans la partie méthodologie pour réaliser une étude plus
profonde. Nous nous appuierons pour cela des tableaux 7 et 8.

44
Tableau 8 : La sélection des clients Tableau 7 : La Sélection des clients
- classification hiérarchique - k-means

id_client N° du cluster id_client Cluster


2239446 1 2239446 2
3493528 2 3493528 3
11539326 2 11539326 3
11610658 1 11610658 5

Les tableaux 7 et 8 représentent les clients que nous avons utilisés de manière aléatoire
dans la partie méthodologie pour réaliser les débuts de notre analyse RFM. Tout d’abord la
première chose que nous pouvons constater est que les clients « 3493528 » et « 11539326 »
ont été placés dans tous les cas dans le même cluster alors que nous nous étions dit qu’ils
allaient être attribués dans des groupes différents. Tandis que dans le cas de la classification
hiérarchique les clients « 2239446 » et « 11610658 » ont été positionnés dans le même cluster,
nous constatons que le k-means les a placés dans des clusters différents. Nous voyons donc
l’intérêt de réaliser deux méthodes de segmentation.

Nous allons donc analyser le tableau 7 en premier lieu, nous avons espéré dans la partie
méthodologie, que les clients « 2239446 » et « 11539326 » ne soient pas placés dans le même
cluster et comme on peut le constater, tandis que le premier a été attribué au cluster 1, l’autre
a été posé dans le cluster 2. Comme nous l’avions mentionné le cluster 1 ne figure pas parmi
le premier cluster à privilégier toutefois il n’est pas celui qu’il faut radicalement oublier. Les
clients « 3493528 » et « 11539326 » ont été positionné dans le cluster 2, ainsi ces clients ont
été positionnés dans le cluster le plus intéressant. Une information que nous n’avions pas prédit
était de positionner ces deux derniers clients ensemble. De plus, nous avions pensé que le client
« 3493528 » allait figurer parmi les clients les moins intéressants et donc à oublier. Cela veut
dire que les critères de rapprochement sont allés au-delà de ce que nous avions pensé.

Nous allons maintenant passer par le tableau 8 en second lieu, la encore les clients
« 2239446 » et « 11539326 » n’ont pas été positionné dans le même cluster. Tandis que le
client « 11539326 » figure parmi les vingt pourcents des clients les plus intéressants, le client
« 2239446 » figure parmi les trente pourcents des clients les moins intéressants. Le client
« 11610658 » est le client qui présente un résultat différent par rapport aux deux clusters. Il
devient dans le k-means un nouveau profil et se positionne dans le cluster 5. Comme nous
45
l’avons mentionné plus haut, ce cluster contient les observations qui ont la plus petite récence
mais qui toutefois ont le deuxième panier le moins élevé. Nous avons conclu qu’il était
important de pas les négliger mais qu’il ne fallait pas réaliser de trop gros effort.

Dorénavant, comme nous avons étudiés chacun des clusters et avons réalisé des
comparaisons nous pouvons dès lors choisir quelle technique dans le cas de notre agence
fermée est la plus intéressante. Il est vrai que les deux techniques sont très faciles à s’approprier,
tandis que nous avions trouvé trois groupes dans l’uns nous en avons trouvé cinq dans l’autre.
Nous constatons que notre analyse a été beaucoup plus approfondie avec le k-means puisque
toutes les observations ont été attribuées à des groupes beaucoup plus distingués que dans le
cas de la classification hiérarchique. D’autant plus que nous nous rapprochons plus de la loi de
Pareto qui comme nous l’avons indiquée dans la revue de la littérature stipule que vingt
pourcent de nos clients contribuent à quatre-vingt pourcent de notre activité. Si nous voulons
donc que notre nouvelle agence ait le plus de chance possible de réussir il sera donc fortement
recommander de lui donner les clusters issues du k-means. Toutefois, nous n’émettons pas le
fait que la classification hiérarchique est mauvaise et à oublier, nous émettons seulement le fait
que dans le cas d’une segmentation RFM il sera plus recommandé d’utiliser le k-means puisque
nous cherchons à segmenter au mieux nos clients.

De plus, la base d’une analyse RFM et de pouvoir montrer que chaque cluster se
différencie par la récence, fréquence, et montant. Dans le cas de nos deux classifications nous
remarquons bien que les clusters ont une similitude en termes de fréquence et cette dernière
doit tout de même être prise en considération. Les clients vraiment fidèles sont finalement très
peu, dans le cas de la classification hiérarchique nous pouvons constater qu’elle est quasi
inexistante tandis qu’avec le k-means elle représente seulement quatre pourcent de
l’information. Donc même si nous trouvons des groupes différents nous devons tout de même
apprendre à fidéliser nos clients. La partie suivante traitera sur la discussion des résultats et de
la validation ou la réfutation des hypothèses posées.

46
IV Discussion

Cette partie sera consacrée à la discussion de nos résultats et à la validation ou non des
hypothèses. Nous traiterons aussi les résultats du point de vus de la revue de littérature. Dans
le cadre de la classification hiérarchique l’hypothèse qui consistait à dire que plus le nombre
d’observation dans un cluster était faible et plus il contenait les clients les plus intéressants
n’est pas validé. En effet, comme indiqué dans le tableau 3, le cluster 3 qui contient trois cent
quatorze observations contient les clients les moins intéressants ou il ne faut pas dépenser des
efforts de communications. Il en est de même concernant l’hypothèse qui stipulait le fait que
plus le cluster contenait un grand nombre d’observation et moins il était intéressant. Dans le
cadre de la classification hiérarchique, le cluster 1 contient sept cent soixante-treize
observations mais les clients appartenant à ce cluster sont de type argent. Ce qui signifie que
ce sont des personnes potentiellement intéressantes. Dans le cadre de la classification
hiérarchique ces hypothèses n’ont pas été validé, et le résultat et totalement différent dans le
cadre du k-means.

Dans le cadre de K-means l’hypothèse qui consistait à dire que plus le nombre de clients
dans un cluster était petit et plus il contenait les observations les plus intéressantes est validé.
Comme indiqué dans le tableau 5, le cluster 3 contient quatre-vingt-deux observations et
constituent quatre pourcent de nos observations. Ce sont les clients les plus fidèles ou
l’investissement en terme d’effort doit être le plus fournit. Le cluster 1 suit le cluster 3 et
contient aussi les clients intéressants. Ainsi grâce à la figure une, nous pouvons confirmer le
fait que vingt pourcent des clients constitue la plus grosse part du chiffre d’affaire. Il en est de
même sur le fait de se dire que plus le cluster contenait un nombre important d’observation et
moins il était intéressant. C’est le cas du cluster 2 qui contient cinq cent quatre-vingt-treize
observations. Ce cluster possède les clients à ne pas contacter puisque le leur récence,
fréquence et montant ne sont pas rentables.

Une autre hypothèse consistait à dire que nous allions trouver le même nombre de
cluster au travers des deux techniques. Dans le cadre de la classification hiérarchique nous
avons trouvé 3 clusters tandis que dans le cadre du k-means nous en avons trouvé cinq. Cela
ne permet donc pas à notre hypothèse d’être validé.

47
Il vient ensuite le fait d’énoncer que l’algorithme du k-means allait mieux homogénéiser les
clusters par rapport à la classification hiérarchique. Grâce à l’étude des tableaux 7 et 8, nous
avons constaté que tandis que certains clients avait été placé dans le même cluster d’autres ont
trouvé un cluster différent. C’est le cas du client « 2239446 », tandis que dans la classification
hiérarchique il était comptabilité dans le cluster 1 donc parmi les clients argent, il a été classé
dans le cluster 2 dans le cadre du k-means et n’est autre qu’un client bronze. Avec le k-means
les clients ont mieux été séparés, ainsi l’hypothèse est validée.

Finalement, il nous reste une ultime hypothèse à valider ou réfuter. Elle concerne le fait
de se dire que l’analyse RFM suffit à elle seule pour comprendre nos clients. Dans notre cas
nous pouvons dire qu’elle est partiellement validée car cela dépend avec quelle technique de
classification nous l’utilisons. Comme nous l’avons remarqué le fait de réaliser une analyse
RFM et d’utiliser une classification hiérarchique nous a donné une information globale mais
n’a pas été très intuitive quant à l’interprétation de nos clients. Cependant si nous utilisons
l’analyse RFM et la classification par le k-means nous constatons qu’elle nous donne une
meilleure segmentation mais cela ne veut pas dire que nous comprendrons le comportement de
nos clients de manière optimale.

Il est vrai que comme l’ont mentionné V. Aggelis et D. Christodoulakis (2005),


l’analyse RFM démontre un intérêt quant à la visualisation des clients intéressant. C’est une
approche qui ne demande pas beaucoup de ressources en termes de variables, d’autant plus que
l’approche reste simple ce qui signifie que n’importe quelle branche d’une organisation peut la
comprendre.

Nous avons indiqué dans la revue de littérature que le temps était un indicateur à prendre
en compte. Dans le cadre de l’analyse d’une seule agence nous avons fait face à une quantité
d’observation assez restreinte. Cela a pu influencer sur le fait de trouvé quelques clients classés
en tant que non fidèles ; si nous avions pris un périmètre plus large, les clients auraient pu être
comptabilisé au moins comme des bronze ou des argents.

Comme nous l’avons mentionnée dans la partie revue de littérature la segmentation


RFM a ces limitations. Selon J- T. Wei et al. (2010), l’analyse RFM peut présenter des
inconvénients parce qu’elle se focalise beaucoup trop sur les meilleures clients. Dès lors, il sera
plus complexe d’analyser les profils de clients qui ne sont pas ou peu fidèle. Un des constats
que nous nous sommes fait et le cas de l’homogénéisation des clients comme l’a souligné J-T.
Wei et al. (2010). L’analyse RFM se doit d’homogénéiser les clients, et donc de rassembler

48
ceux qui sont les plus similaires entre eux. Comme nous l’avons vu dans la partie résultat
certains clients selon les deux méthodes n’ont pas été placés de la même manière puisque dès
le départ la classification hiérarchique à proposer trois clusters et le k-means en a proposé cinq.
J-T. Wei et al. (2010) en a exprimé l’importance, en réalité aucun client ne ressemble à un
autre. Nous pouvons dire dès lors que les clients peuvent s’interpréter d’une différente manière
en fonction du cluster choisis.

De plus, selon S. C. Hsu (2012), pour que l’analyse de groupe puisse être interpréter il
fallait que deux conditions soient vérifiées. La première insistait sur le fait que chaque cluster
devait être homogène à l’intérieur. Au vue de notre analyse nous avons conclus que dans les
deux techniques nous pouvions tirer des conclusions concernant les clients, cela montre que
les clusters étaient bien homogènes. La deuxième insistait sur le fait que chaque cluster se
devait d’être différent. En réalisant notre analyse nous avons pu nous rendre compte que les
clusters représentait des proportions différentes et représentait des récences, fréquences et
montants distincts.

49
V. Résultats

En conclusion, beaucoup d’information nous ont été révélé grâce à la structuration de


la revue de littérature. Nous avons eu l’occasion de définir chaque terme essentielle à la
compréhension de notre étude. Si nous n’avions pas réalisé ce travail en amont nous aurions
pu créer un malentendu pour le lecteur et grâce à cela nous avons posé six hypothèses. Ensuite,
une deuxième partie a été consacrée à la méthodologie sans quoi aucune analyse n’aurait pu
être réalisée. Cette partie a surtout mis en avant les questions qui doivent être posée avant de
réaliser une quelconque analyse. Cette dernière a représenté au total quatre-vingt pourcent de
notre temps de travail. Nous avons ensuite réalisé une analyse descriptive pour avoir une
visualisation globale sur l’état de nos observations. Nous avons pu regarder le nombre
d’observations restantes et ainsi poursuivre une première étape de notre analyse RFM. Nous
avons créé nos trois variables indispensables qui sont la récence, la fréquence et le montant.
Enfin nous avons découpé notre dernière partie en trois sous parties. Les deux premières parties
nous ont permis de réaliser une étude des deux algorithmes séparément. Nous avons donc
regardé de manière précise en quoi consistait ces deux algorithmes et comment les clusters
avaient étés choisi pour chacun. Nous avons eu l’occasion d’interpréter chaque cluster en
fonction de la récence, de la fréquence et du montant. La troisième sous parties a été mise en
œuvre dans le but d’élaborer des comparaisons. Etant donné que ces deux techniques nous ont
permis de classifier nos individus de manière différente, nous avons pu trouver des résultats
différents. Tandis que l’un donnait trois clusters l’autre nous ont en a proposé cinq. Nous avons
par la suite regardé si les individus que nous avions choisis aléatoirement dans la partie
méthodologie avaient été posés dans les mêmes clusters.

Finalement, cette partie nous aura permis de développer notre analyse concernant la
segmentation client et de découvrir deux types de techniques de classification différentes. Il
est vrai que l’analyse RFM contribue fortement à l’analyse du client puisqu’il prend en compte
selon nous les variables les plus importantes. Les six hypothèses que nous avons posées ont
fait la preuve d’une réelle justification de cette étude. Non seulement nous n’avons pas trouvé
le même nombre de cluster, ce qui implique forcément une meilleur distribution dans l’un plus
tôt que dans l’autre, mais aussi nous avons pu nous rendre compte que dans le cas de nos
données si nous nous étions arrêtées la classification hiérarchique nous aurions due re-

50
clusteriser nos données. Ainsi grâce à ces différentes étapes nous avons trouvé le moyen
d’accompagner l’ouverture de notre nouvelle agence car elle ne partira pas par le point de
départ normal qui consiste à attirer des prospects, mais elle se base sur la récupération des
clients les plus intéressants de l’ancienne agence. Ainsi si trois agences appartenant à la même
entreprise ferment, la nouvelle agence pourra récupérer les meilleurs clients de ces trois
agences comme point de départ.

Toutefois, nous pensons aussi qu’il serait aussi judicieux de la mixer avec d’autres types
d’analyse pour fidéliser l’analyse du client. Comme nous l’avons mentionné dans la partie
revue de littérature, il existe deux types d’analyse du client. Dans le cadre de notre étude nous
avons utilisé les variables comportementales, il serait tout de même intéressant d’ajouter de
nouveaux variables comportementaux tels que les produits acheté par exemple pour trouver de
nouveaux types de profils. Mais aussi d’utiliser les variables démographiques ou bien
géographique pour regarder s’il existe une liaison entre les profils qui achètent le plus et leur
zone d’habitation.

51
VI. Table des Références

Figures

Figure 1: la fidélisation client grâce à la segmentation............................................................ 12


Figure 2: Processus de la transformation des données au cluster ............................................ 18
Figure 3: Les étapes du k-means .............................................................................................. 22
Figure 4: Les étapes de la classification hiérarchique ............................................................. 24
Figure 5: La classification hiérarchique ................................................................................... 35
Figure 6: Le découpage des clusters ........................................................................................ 35
Figure 7: La méthode d'éboulis - k-means ............................................................................... 39
Figure 8: La visualisation des clusters - k-means .................................................................... 40
Figure 9: Chiffre d'affaire annuel par an .................................................................................. 55
Figure 10: Saut d'inertie dendogram ........................................................................................ 55

Tableaux

Tableau 1 Analyse descriptive ................................................................................................. 30


Tableau 2 Exemple clients suite à l'application RFM .............................................................. 32
Tableau 3 Nombre de client associé à chaque cluster – Classification hiérarchique............... 37
Tableau 4 Récence, Fréquence, Montant par cluster – classification hiérarchique ................. 37
Tableau 5: Nombre de client associé à chaque cluster – k-means ........................................... 41
Tableau 6 Récence, Fréquence, Montant par cluster – k-means.............................................. 42
Tableau 8 : Sélection des clients - k-means ............................................................................. 45
Tableau 7 : Sélection des clients - classification hiérarchique ................................................ 45
Tableau 9 Analyse descriptive RFM........................................................................................ 55

52
VII. Bibliographie

Aggelis, V., & Christodoulakis, D., (2005), Customer Clustering using RFM Analysis,
ICCOMP'05 Proceedings of the 9th WSEAS International Conference on Computers, Article
No. 2

Arthur, D. & Vassilvitskii, S. (2007). K-Means++ The advantages of careful seeding,


Proceedings of ACM-SIAM Symposium on Discrete Algorithms, pp. 1027-1035

Birant, D., (2011), Data Mining Using RFM Analysis, Knowledgr-Oriented Applications in
Data Mining, Prof. Kimito Fumatsu Edition

Carrasco , R. A. et al., (2015 ), A-2 tuple Fuzzy RFM Model and it’s implementation Procedia
Computer Science, Volume 55, 2015, Pages 1340-1347

Chen, D., (2012) .Data mining for the online retail industry: a case study of rfm model-based
customer segmentation using data mining, Database Marketing Customer strategy
Management, vol 9, 3 197-208

Gillet-Goinard, F., Chabry , L., Jourdan, R., (2014), La Boîte à outils de la relation client,
Dunod

Greff, J., (2015), Mieux acheter pour bien vendre: De l'acheteur traditionnel vers l'acheteur
écoresponsable, Editions Eyrolles

Hsu., S. C., (2012), The RFM based Institutional customers clustering: case study of a digital
content prodider,. Information technology journal, 11:1193 – 1201

Lefébure, R., Venturi, G, (2005), Gestion de la relation client, Editions Eyrolles

Khajvand, M., et al., (2010), Estimating customer lifetime value based on RFM analysis of
customer purchase behavior: case study, Procedia Computer Science, 3 (2011) 57–63

Kordalipoor, M., et al., (2015), A literature review on customer relationship management and
critical success factors, Applied mathematics in Engineering, Management and Technology,
3(3) 2015:401-411

Kotler, P. (2003). Marketing Management, Edition Eleventh, Pearson Education

Maslow, A. H., (1954) Motivation and personality, Edition Harper et Row

53
McCarty, JA., Hastak, M. (2007). Segmentation approaches in data-mining: A comparision of
RFM, CHAID, and logistic regression. Journal of Business Research, 60:656-662.

Mohammadian, M. et al., (2016), RFM-Based customer segmentation as an elaborative


analytical tool for enriching the creation of sales and trade marketing strategies, International
Academic Journal of Accounting and Financial Management, Vol. 3, No. 6, pp. 21-35

Pitta, D., Franzak, F., & Fowler, D. (2006).,A strategic approach to building online customer
loyalty: integrating customer profitability tiers, Journal of Consumer Marketing, 23(7), 421-
429

Rafsanji M. K., et al., (2012), A survey of hierarchical clustering, The journal of mathematics
and computer science vol.5, no 3,229-240

Scriven, J., (2014),The impact of globalization, Neumann Business Review, 13-21

Terziev, V., et al., (2017, p.913): Customer relationship management (CRM) as base for
organization’s behaviour, Psychological Review, 6(124):912-928 ·

Wei, J- T., et al. , (2010), A Review of the application of RFM Mode, African journal of
Business Management ,Vol-4 (19), pp 4194-4206

Lien internet

https://www.entreprises.gouv.fr/files/files/directions_services/etudes-et-statistiques/4p-
DGE/2017-07-4p73-tourisme-francais.pdf

54
VIII. Annexe

Tableau 9 Analyse descriptive RFM

id_client recency frequency amount


Min. : 130080 Min. : 1.0 Min. : 1.000 Min. : 106
1st Qu.: 6656988 1st Qu.: 385.0 1st Qu.: 1.000 1st Qu.: 1268
Median : 7662494 Median : 750.5 Median : 1.000 Median : 1928
Mean : 7627832 Mean : 797.0 Mean : 1.222 Mean : 2411
3rd Qu.: 8657174 3rd Qu.:1168.0 3rd Qu.: 1.000 3rd Qu.: 3092
Max. :11676855 Max. :1765.0 Max. :22.000 Max. :18737

Figure 9: Chiffre d'affaire annuel par an

Figure 10: Saut d'inertie dendogram

55

Vous aimerez peut-être aussi