Académique Documents
Professionnel Documents
Culture Documents
Ingénierie et Analyse
Economique
ESSEC de Tunis
Année 2016-2017
Étudiante:Tebib
caccas Hanen
Entreprise d’accueil:
CONFIDENTIEL
National Pen Promotional Products Limited
Customer Intelligence Team
33700 Mérignac, Bordeaux
Clause de confidentialité
2
Construction d’un score Customer.
Remerciements
Je remercie également Madame Hayat ben Saïd pour l’aide et les conseils
concernant les missions évoquées dans ce rapport, qu’elle m’a apporté lors des
différents suivis à distance.
3
Construction d’un score Customer.
Sommaire
Remerciements ............................................................................................................................................. 3
Introduction .................................................................................................................................................. 6
Intérêt du projet ........................................................................................................................................................ 8
Plan du projet ............................................................................................................................................................. 8
I. Chapitre1: Mise en context................................................................................................................. 10
Introduction ........................................................................................................................................................................ 10
A. Présentation de l’entreprise: .............................................................................................................................. 10
B. Activité de l’entreprise.......................................................................................................................................... 12
C. Présentation de l’équipe Customer intelligence et les outils ................................................................ 14
1. Presentation des outils: .............................................................................................................. 14
D. Présentation du sujet de stage: ............................................................ Error! Bookmark not defined.
Conclusion du chapitre : ................................................................................................................................................ 16
II. Chapitre2: Recherche de solutions, méthodologie ................................................................... 17
Introduction ........................................................................................................................................................................ 17
A. Construction des différentes bases de modélisation .......... Error! Bookmark not defined.
B. Variables explicatives liées client et son environnement ...................................................................... 18
C. Préparation de données ....................................................................................................................................... 22
1. Échantillonnage........................................................................................................................... 22
2. Traitement des valeurs manquantes .......................................................................................... 23
D. Méthodologie sur SAS MINER ............................................................... Error! Bookmark not defined.
E. Méthodes statistiques .......................................................................................................................................... 26
1. Les réseaux neurones................................................................................................................. 27
2. Les Forets aléatoires ................................................................................................................... 29
3. Scoring......................................................................................................................................... 30
Conclusion de chapitre: .................................................................................................................................................. 33
III. Chapitre 3 : Résultat et application du modèle .................................................................................. 34
4
Construction d’un score Customer.
Introduction ........................................................................................................................................................................ 34
A. Comparaison et validation du modèle: ......................................................................................................... 34
1. Indicateurs statiques:.................................................................................................................. 34
2. Indicateurs métier: ...................................................................................................................... 39
3. Validation: ................................................................................................................................... 42
B. Cas pratique et recommandation ..................................................................................................................... 44
Conclusion chapitre .................................................................................................................................... 46
Les principaux résultats ................................................................................. Error! Bookmark not defined.
Les apports de la recherche ........................................................................... Error! Bookmark not defined.
Contributions théoriques............................................................................. Error! Bookmark not defined.
Contributions méthodologiques.................................................................. Error! Bookmark not defined.
Contributions professionnelles : apports du stage et compétences acquises ........................................... 48
Les limites de la recherche.......................................................................................................................... 48
Les limites méthodologiques ......................................................................... Error! Bookmark not defined.
Les limites relatives à la validation empirique .......................................... Error! Bookmark not defined.
Les limites relatives à la validation externe .............................................. Error! Bookmark not defined.
Voies de recherche ..................................................................................................................................... 49
Bibliographie ...................................................................................................................................................................... 50
5
Construction d’un score Customer.
Introduction
Pour ce fait, les entreprises considérées matures en France sont celles qui ont lancé une étude
d’opportunité du Big data (définir qu’est ce que le Big data) et qui ont également mis en place
une stratégie globale de gestion de leurs données clients, pour favoriser une meilleure circulation
des données en interne et une exploitation plus cohérente et transversale de ces données.
6
Construction d’un score Customer.
National Pen est l’une de ces entreprises qui a fait le choix d’intégrer ce domaine à son processus
métier et considère les données comme une valeur sacrée. Face à une concurrence impitoyable,
la création d’une relation durable avec ses clients présente beaucoup d’avantages pour
l’entreprise. Pour cela, National Pen joue sa carte de créativité par le mailing postal, afin
d’augmenter le niveau d’engagement de ses clients. Pour diminuer les coûts des campagnes,
l’équipe CIT (définir c’’est quoi le CIT) crée les modèles par pays et par produit dans le but
d’attirer efficacement les clients qui ont l’intérêt d’achat. Elle utilise les data pour mesurer et
comprendre son activité et son environnement de marketing d’objets publicitaire,
commercialisée à l’échelle internationale, afin d’être compétitif sur le marché en plein évolution.
Depuis 4 ans National Pen a créé un service statistique dans le but de mettre en place les
stratégies de l'entreprise via la construction des scores. Pour fidéliser ses clients ou encore
recruter des nouveaux clients, chaque année, l’entreprise envoie à une sélection des individus
un nombre important de courriers avec un échantillon d’un produit et un bon de commande. Le
coût d’envoi de ces courriers est élevé, c’est pourquoi le ciblage est important pour améliorer le
rendement de ces campagnes. Pour cela, l’objectif de ce travail de recherche consiste à analyser
les caractéristiques et le comportement de chaque client en temps réel pour l’identifier et en suite
le fidéliser.
En effet, dans le cadre de notre (remplacer je par nous dans tout le rapport) stage au sein de
National Pen, nous avons mis en place un score pour les clients de l’Allemagne qui ont intérêt à
acheter un produit précis de l’entreprise National Pen, afin de les fidéliser. Plus précisément, vu
le grand nombre de clients recrutés par les campagnes de prospections, nous proposons de
modéliser des scores de contribution par pays et par produit afin de viser plus de clientèle. Notre
principale mission est de créer un score pour les clients de l’Allemagne, pour un produit nommé
‘LPP’ un des best-sellers de l’entreprise. La création de notre premiers modèle « Customer »
était de modéliser le taux de réponse à un courrier de type CUSTOMER envoyé, c’est à dire
prédire l’acte d’achat en monnaie. Or, nous ne prévoyons pas uniquement l’acte d’achat mais
encore les valeurs en monnaies de ces achats pour toute la population. Un modèle qui concerne
les clients de National Pen est appelé le modèle contribution. Dans ce cadre, nous estimons la
valeur apportée par chaque client, net des charges de l’entreprise. En terme de périmètres, plus
l’algorithme rencontre d’observations, plus il s’améliorera et gagnera en précision, pour cela ce
7
Construction d’un score Customer.
modèle demande d’utiliser de l’historique des clients au-delà de 24 mois pour modéliser et puis
valider. Chaque année l’entreprise tend à créer des nouveaux modèles afin d’assurer la stabilité
des données.
Par ailleurs, d’autres tâches nous ont été confié, ce qui nous a permis d’avoir une image
beaucoup plus concrète sur ce que pouvait être le domaine de l’exploration de données et
comprendre et appliquer réellement tout ce que nous avons vu durant notre cursus universitaire .
Intérêt du projet
Sur quelle période allons-nous modéliser et tester le modèle ? quelles variables allons-nous
modéliser ? Quelle méthode statistique choisir pour construire le modèle et pour quels critères ?
Ces questions sont essentielles puisqu’il s’agissait d’obtenir un meilleur modèle que celui de
l’année dernière. En effet, les modèles doivent régulièrement être recrées car ils deviennent
instables très rapidement.
Plan du projet
Pour présenter les objectifs à atteindre, les différentes phases du projet ainsi que les parties
prenantes, notre travail est articulé autour de trois chapitres.
8
Construction d’un score Customer.
En vue de rendre compte de manière fidèle et analytique des six mois passés au sein de National
Pen, il apparaît logique de présenter à titre préalable l’environnement du stage, à savoir son
secteur de travail, ses caractéristiques et ses stratégies ainsi la valeur de l’exploration de données
pour l’entreprise. Nous présentons également les différents départements de national Pen ainsi
que les fonctions de chacune d’elles tout en insistant sur l’équipe CIT au sein de laquelle nous
avons effectué notre stage. A ce propos, nous présentons les différentes tâches que nous avons pu
effectuer et les nombreux apports que nous avons pu en tirer. Ce développement fera l’objet du
premier chapitre de ce mémoire.
Le deuxième chapitre est consacré au corpus théorique de notre sujet .A cet effet, nous
présentons les différentes bases et les variables. Nous nous intéressons à la technique
d’échantillonnage et de partitionnement utilisé ainsi le traitement de valeurs manquantes. En
outre, nous exposons la méthodologie de SAS miner et sa pouvoir prédictive, tout en menant a
présenter les méthodes statistiques utilisées. Cette analyse nous sert à décrire les caractéristiques
de chaque méthodes à travers Sas miner.
9
Construction d’un score Customer.
Grâce à des méthodes d’analyse de données et de statistiques avancées, le Data Mining est
pratiqué depuis plus de 30 ans dans l’ensemble des secteurs d’activité et nombreux
domaines d’applications. Mais ce phénomène est particulièrement en vue à présent, vu à la
quantité énorme d’informations disponibles et l’effort fourni pour les récolter. C’est un
processus permettant d’acquérir une connaissance, à priori cachée, qui est basée sur des
algorithmes de calcul permettant d’établir des modèles. Il est devenu vital alors pour
l’entreprise de faire les justes choix dans un monde incertain, qui change sans interruption.
Toutes les décisions qu’elles soient , stratégiques et opérationnelles, doivent pouvoir être
éclairées par des éléments tangibles, des faits, des indicateurs. Ainsi, le recours au data
s’avère nécessaire pour conquérir le marché et pour attirer plus de clientèle. Pour cela, le
premier chapitre fait l’objet de deux sections. La première est consacrée à la présentation
de l’entreprise. Ensuite, nous nous intéressons à l’équipe Customer intelligence et
les outils utilisés, ce développement fera l’objet de la deuxième section de ce
chapitre.
HANANE UTILISE LES sections au lieu de A B etc
10
Construction d’un score Customer.
Présentation de l’entreprise:
Leader dans la vente des produits marketing de qualité , National Pen est une entreprise
internationale, opère dans 29 pays dans le monde, son siège est situé à San Diego aux états unis
et sa usine de production est en Irlande exactement à Dundalk, où se trouve aussi le
télémarketing , le service web ainsi que l’ impression. Quant au service Marketing, il est tout
centralisé à Mérignac, Bordeaux, c’est où se situe la majeure partie du service marketing (canal
courrier et e-mail).
11
Construction d’un score Customer.
Le point fort de National Pen, c’est qu’elle arrive à commercialiser ses produits à travers une
stratégie de marketing forte, elle expose ces produits de qualité à distance par mailing,
télémarketing ou encore par e-mails, afin de créer une relation avec ces clients pour lui vendre
ses produits et encore maintenir le contact. Pour cela des compagnes de mailing sont préparées et
lancées à Mérignac par le marketing managers repartis sur différents pays avec l’aide des
assistantes. Entre 6 000 et 150 000 courriers sont préparés lors d'une campagne envoyés à un
nombre bien définit des clients, ce qui présente une quantité importante de mailings par année
bien qu’un coût élevé pour l'entreprise , donc le travail pour diminuer ces coûts s'avère
nécessaire en ciblant autant que possible les clients à qui l'on va envoyer ces courriers
personnalisés.
Cette tache a longtemps été confiée aux managers marketing qui sélectionnaient les clients à
cibler à l’aide de ses connaissances métiers. Pour Faire évoluer son savoir-faire, National Pen a
fait intégrer une équipe de costumer intelligence, participait à son tour à la prise des décisions,
éclairées par la data, dans le but d'augmenter le chiffre d’affaires de l'entreprise et baisser les
coûts de ces campagnes au maximum.
A. Activité de l’entreprise
Ce schéma illustre le déroulement de l’activité de l’entreprise et les différentes étapes pour qu’un
client reçoive un courrier de chez National Pen. Tous les départements travaillent en cohérence
12
Construction d’un score Customer.
pour réaliser des dizaines de campagnes de mailing à l’échelle international, avec un champ
d’expertise varié .Dans le but de réussir ces compagnes, les managers et les assistantes marketing
s’en charge de tout ce qui est opérationnel, le choix du produit des dates de mailings, ainsi que
l’organisation d’envoi, l’équipe CIT s’en charge des données et la pertinence des résultats .On
décrierait par la suite tout le processus en détails et les différentes missions confiées.
Dans l'idéal le principe est simple, une fois le client ayant passé une première commande, il est
impératif de rester en contact avec lui, pour cela, on trouve dans un second temps, des mailings
dit « Customer », c’est-à-dire les courriers envoyés aux entreprises déjà clientes de National
Pen. Elles ont déjà effectué une commande pour un des produits vendus. L’enjeu pour
l’entreprise envers ces clients, est de cibler ceux qui ont une contribution positive pour elle. En
effet, comme nous l'avons dit précédemment, un mailing à un coût, et une manière de rentabiliser
au mieux ce coût est de cibler les clients qui rapportent de l’argent et encore pouvoir les fidéliser.
L’entreprise accepte donc de perdre un peu d’argent pour faire en sorte de pousser ses clients de
passer plusieurs commandes et dans l’optique d’en gagner encore plus par la suite sans l’idée
d’avoir des retombes financiers immédiates mais qui va être rentable sur l’avenir.
Auparavant les marketings managers sélectionnaient les clients les plus appètent à un produit
grâce à l’aide d’une segmentation RFM (Récence Fréquence Montant) qui sont des critères assez
généralistes. Cependant depuis la création du pôle statistique, le ciblage s’effectue
principalement grâce à des scores d’appétence basés sur l’historique des clients de National Pen
ou des notes de scores, ce qui permet d’optimiser les ventes et la rentabilité ainsi que de recruter
de nouveaux clients ou les fidéliser .
13
Construction d’un score Customer.
Aujourd’hui, on utilise le «Scoring» qui consiste à attribuer à chacun des clients une note, en
fonction de critères spécifiques. Le Scoring permet d’améliorer les performances marketing en
priorisant les campagnes sur les clients à plus fort potentiel d’achat à partir des données dont ils
disposent sur des clients ou des prospects. Pour cela L’équipe met en place de nombreux
modèles personnalisés par pays et par produit visant au ciblage des clientes afin d’optimiser les
processus et de découvrir de nouvelles patterns statistiques.
La société d’accueil National Pen m’a offert l’opportunité de passer mon stage du projet de fin
d’études au sein de l’équipe Customer intelligence, au pôle statistique pendant 6 mois. Une
équipe performante qui a un objectif commun et clairement définie, dirigée par Madame
Christelle Lassarade, Customer intelligence manager, composée ainsi de des data miner, des
marketings analystes et data base manager, dans le but d’améliorer encore les performances des
compagnes et notamment d’optimiser les ciblages de marketing mangers pour l’envoi des
mailings à travers le monde.
Cette équipe a connait un fort développement pendant les 4 derniers années, depuis sa création,
son effective augmente de plus en plus, elle est toujours complétée par des stagiaires plus
particulièrement aux périodes estivales, celle-ci est la plus importante en nombre de commandes.
L’équipe CIT est devenue donc le partenaire incontournable, Vu à la nécessité de tirer les
informations utiles à l’action marketing. Tous les membres d’équipe s’engagent alors à produire
des résultats significatifs tout en respectant les délais et avec une totale confiance les uns envers
les autres.
L’équipe d’analystes marketing utilise plusieurs logiciels pour effectuer ces différents modèles
ainsi que les différentes tâches qui lui sont confiées.
14
Construction d’un score Customer.
Le logiciel SAS Enterprise Guide qui couvre une large gamme des méthodes d’analyse en
statistique, il se présente sous la forme d’un ensemble de modules logiciels adaptés pour la
gestion et l’analyse statistique de gros volumes de données et Il est utilisé pour la création de
bases de données de modélisation et de « back analysis ». Apprentissage et validation.
C’est à l’aide de ces bases de données que l’équipe applique ses modèles et les teste. Ce logiciel
est également utilisé pour la création des « Datamart » qui rassemblent l’ensemble de données
organisées, ciblées et regroupées dans le but de répondre aux besoins des métier. Ces
informations proviennent pour une partie du datawarehouse de l’entreprise, pour l’autre, ce sont
des données calculées par l’équipe. Ces trois « Datamart » sont les suivants :
Datamart Orders : Il s’agit de la base de données regroupant toutes les informations sur les
commandes des clients. Une ligne correspond donc à une commande effectuée.
15
Construction d’un score Customer.
à simplifier le data mining et aide à développer des modèles descriptifs et prédictifs, avec
notamment des composants pour la modélisation le Scoring d’éléments d’une base de données, il
permet d’explorer et d’exploiter les données efficacement. Il est d’une grande utilité face à
l’importance du nombre de modèles effectués, dans des délais records.
L’équipe utilise également SQL Server pour tout ce qui concerne les requêtes rapide sur les
bases de données du datawarehouse. Enfin, la suite office est utilisées pour la production de
repportings, de tableaux de « back analysis », ou encore la production de présentations à l’aide
de Power Point.
Conclusion du chapitre :
L’objectif de ce chapitre était de présenter l’entreprise d’accueil National Pen dans laquelle nous
avons effectué notre stage. Dans cette optique, nous avons exposé sa nature d’activité et certaines
caractéristiques, et on a également parlé du processus des mailings afin d’améliorer les ventes et
la rentabilité.
Par la suite, nous avons décrit l’équipe CIT et le différent outil utilisé en détails afin de mieux
appréhender le cadre de notre travail. Cette description nous a permis de comprendre d’un point
de vue globale le processus d’exploration de données et de Scoring, de formuler notre
problématique et de collecter les données nécessaires afin de déterminer quelles sont les
variables significatives dans la prédiction du défaut. Finalement, nous avons présenté notre
16
Construction d’un score Customer.
démarche afin d’apporter quelques éléments de réponse à notre problématique. Dans le chapitre
suivant, nous proposons des solutions à notre problématique en décrivant la démarche statistique
utilisée.
Chaque année l’équipe d’analystes s’en charge de créer les modèles Customer par pays et par
produit pour l’exploiter dans les campagnes de mailings, pour assurer la stabilité des résultats.
Au-delà de ça, National Pen est capable chaque année suite à ses campagnes de prospection de
17
Construction d’un score Customer.
recruter des nouveaux clients ainsi acquérir de nouvelles informations et variables fournis par les
brokers, ce qui peut améliorer la performance de nos modèles.
Le but à travers ces modèles était donc de sélectionner les clients les plus appétant a l’achat d’un
produit par pays dans l’objectif d’aider le marketing manager à la prise de décision, tout en
respectant les règles de modélisation. Pour ce faire cette partie vise à détailler les différentes
étapes de la construction de notre score Contribution. À cette fin, nous consacrons la première
section à construire les différentes bases de modélisation et à analyser les variables explicatives
liées au client et son environnement. La deuxième section porte sur la présentation du logiciel
Sas Mineur.
Pour construire notre score, nous avons récupéré les clients du pays (DE : définir c’est quoi ?) de
produit (LPP c’est quoi ?) de la Datamart dmt_cust qui est un référentiel de données conçu pour
servir à la création de modèle. C’est une base de données comprenant tous les clients de national
Pen depuis 96 mois. A cette base de données, pour récupérer la variable contribution, il était
nécessaire de faire la jointure avec la Datamart Mailings_Cust, cette variable est bien corréler
avec les variables de ventes et le coût d’envoi de mailing par client ,elle est calculée par l’équipe
et présente la valeur net que le client apporte après avoir reçu un mailing de l’entreprise. On
donne par la suite une valeur pour la variable top_order qui prend 1 si le client a répondu
favorablement à un mailing envoyée de ce produit, 0 sinon.
Cette jointure est faite par l’identifiant de l’individu et l’identifiant de mailing. Chaque individu
peut recevoir plusieurs mailings et un mailing appartient qu’à un seul individu. Nous disposons
donc d’une base de l’historique dans laquelle figuraient des lignes avec les infos des entreprises
qui ont été mailées et qui ont passé une commande au moins une seule fois pour le produit LPP .
notre travail consiste alors donc à créer des scores sur les clients de ‘DE’ pour le produit ‘LPP’
dans les 24 derniers mois. Avec ce modèle on cherche à identifier les clients susceptibles de
passer de nouveau une commande suite à la réception d’un mailing qui contient l’échantillon de
LPP. Au-delà de ça on veut prédire leurs contribution, parmi ceux qui vont passer les
18
Construction d’un score Customer.
commandes, quelle est leur contribution pour l’entreprise, on veut prédire quel consommateur
sera ou non un « bon » client et bien également, on a l’intérêt d’identifier ceux qui n’achèteront
pas le produit c’est-à-dire ceux qui sont mal scorés par le modèle. Une fois que nous avons
défini notre modèle et nos sources de données, il nous reste à le déployer sur un périmètre
pertinent, sur lequel nous modélisons notre score. La construction d’un score répond à une
problématique d’optimisation commerciale « à venir ». Il faut donc se concentrer sur le passé
récent
Nous devrons avoir alors une base de modélisation la plus récente possible, tout en gardant
suffisamment de volume pour la « back-analysis », notre base de données pour valider le
modèle.
Ces bases sont créées sur des périodes différentes, pour vérifier la stabilité de notre modèle dans
le temps. En premier lieu nous nous sommes restreint à tous les individus ayant reçu un courrier
sur les campagnes de mailing de fin 2016 début 2017 pour faire la modélisation enfin 2017 début
2018 pour la’ back-analysis’. La contribution sera la variable à expliquer pour notre modèle.
La sélection des variables explicatives demeure au centre de la modélisation. Pour cela nous
avons sélectionné une liste de variable pour notre base de modélisation dont leur importance ,
pour expliquer notre variable que nous cherchons à prédire, à savoir la « contribution » qui nous
permet de voir si le fait qu’un client passe une commande constitue réellement un gain monétaire
pour l’entreprise .
Le choix des variables répond également à l’objectif de notre recherche et à la disponibilité des
données nécessaires permettant de les mesurer. Nous extrapolons le profil du bon client à partir
de ces données, pour cela nous disposons d’une variété de données qui sont dispersées comme
suit:
19
Construction d’un score Customer.
Les variables utilisées à terme pour effectuer notre modélisation sont présentées dans le tableau
suivant : titre du tableau ????
Contact last name Nom de celui qui a passé commande Qualitative DMT_CUST Rejected
20
Construction d’un score Customer.
Last pur date Dernier date de passer commande Qualitative DMT_CUST Input
Nb_order Nb d’ordre de clients Quantitative
DMT_CUST Input
Channel contact Le canal de distribution Qualitative
DMT_CUST Rejected
Previous product Le produit qui l’a acheté avant Qualitative
DMT_CUST Input
Previous product category La famille de produit qui a acheté Qualitative
avant DMT_CUST Input
Origpur date La data origine de son premier achat Qualitative DMT_CUST Input
Contribution Valeur net des charges par client Quantitative Créée target
21
Construction d’un score Customer.
C’est la liste que nous avons retenue comme variables pour notre modèle. Parmi ces variables
certains ont été rejetés ou recodées pour éliminer le bruit. Pour le recodage, on crée des
modalités globales plus significatives pour certains traitements. On découpe la série visualisée
selon les discontinuités, Le nombre de classes résultant est un compromis entre l'allure de la série
et le nombre de classes initialement projeté. Cette discrétisation s'appuyant sur des seuils
observés est certainement la méthode de bon sens dans la mesure où elle produit des cartes
équilibrées graphiquement tout en épousant la distribution de la série. Ensuite on rejette les
variables d’origine qui était recodées ainsi on rejette encore les variables qui sont corréler a
l’achat comme top_order. En pratique, le choix des variables entrant dans le modèle se fait
généralement pas à pas, en commençant par rechercher et sélectionner la variable expliquant le
mieux la variable cible, puis en recherchant la seconde variable qui, jointe à la première,
explique le mieux la cible, etc. A ce stade, on dispose de notre base de modélisation. Une
méthodologie a été mise en place sous SAS Enterprise Miner, dans le but de convenir à la grande
majorité les jeux de données. C’est un système de fenêtre qui a facilité la tâche pour les data
analystes, il prend en charge plusieurs algorithmes et techniques pour créer les scores suivant
un processus bien ordonnées. On passe au début par la préparation des données qui représente,
en règle générale, l’étape la plus longue d’un projet de data mining.
Afin de prélever une partie représentative de nos données nous dévorons passer par
l’échantillonnage pour déterminer avec la plus grande précision possible la teneur moyenne en
divers éléments de notre ensemble. Pour1234568 clients dans la base DE qui ont passé
commande suite à un mailing de différents produit de National Pen pendant 24 mois , seulement
2222 d’entre eux 3.3 %, ont commandé du LPP suite à la réception d’un courrier. Le tableau ci-
dessous illustre cette disproportion pour le modèle ‘Response Rate’.
Target volume
0 1234568
22
Construction d’un score Customer.
1 1234
Nous pouvons par la suite étudier le déséquilibre de la variable à expliquer. Pour faire face à ce
défaut, on essaye d’augmenter la proportion des individus ayant passé commande, pour cela on
ré – échantillonne notre population de façon à avoir 70% de clients qui étaient non intéressés par
le mailing reçue et 30% qui ont passé commande. Ce traitement est fait pour assurer que n’ont
pas de biais sur ceux qui ont commandé.
Ensuite on partitionne notre base ré échantillonnée encore en deux parties, une pour
l’apprentissage de 60% pour ajuster le modèle et l’autre pour la validation de 40% pour
confirmer au premier lieu la méthode statistique.
70%
60%
top_order=0
Validation
Dans toutes les sciences les données manquantes sont partout, ce qui nous mène à perdre de
l’information et ensuite avoir un certain biais dans notre estimation, pour cela il est nécessaire de
considère le traitement des valeurs manquantes comme étape primordiale pour garder la
précision et l’exactitude de nos prédictions. La stratégie de traiter ce problème ce diffère en
fonction des natures variables et de la quantité.
L’équipe CIT fixe toujours un seuil pour les valeurs manquantes, dans notre modèle Customer
toute variable qui a la valeur de 80% de valeurs manquantes est rejeté par défaut par le logiciel
sas Miner lors de l’importation de bases de modélisation.
23
Construction d’un score Customer.
Cependant pour le reste des variables sa nature peut dépendre a la façon comment traiter cette
variable. Pour cela, nous faisons la séparation comme suit :
Pour assurer le bon traitement, nous utilisons le logiciel sas miner vu au nombre des nœuds
capable de traiter ces variables différemment et convenablement.
La préparation des données représente, en générale, l’étape la plus longue d’un projet de data
mining. Les fonctionnalités interactives de préparation de données de SAS Enterprise Miner
permettent d’optimiser la gestion des valeurs manquantes, de filtrer les valeurs aberrantes et de
définir des règles de segmentation. Ces fonctionnalités incluent l’importation, l’ajout et la
suppression de variables. Les nombreuses fonctions d’agrégation et d’exploration interactives de
données permettent d’analyser de grandes quantités de données dans des graphiques
multidimensionnels à liaisons dynamiques. Pour cela SAS propose la suite de méthodologies
d’analyses prédictives la plus complète du marché ainsi que des fonctions interactives de
visualisation. Elle permet aux utilisateurs d’explorer et d’exploiter les données efficacement et
de créer une plus-value décisionnelle stratégique métier. On aura par conséquent une vue
intégrée et complète des données.
Le schéma suivant illustre l’enchainement des nœuds sur sas Miner, il décrivait La
transformation de données brutes en informations utiles.
24
Construction d’un score Customer.
25
Construction d’un score Customer.
Cet outil nous permet de créer un scénario bien organisé, à partir de notre base de modélisation
jusqu’à la création de notre score. Nous commençons par décrire l’importation de notre base de
modélisation, c’est là où nous pouvons modifier les rôles des variables , entre variables
explicatives et variables à expliquer passant à celle qui sont à rejeter avec l’aide de nœud «hide
rejected» qui nous permet de rejeter les variables qui ont des valeurs manquantes plus que 80%
.Ensuite pour l’échantillonnage de la variable à expliquer ainsi que le partitionnement, nous
utilisons le nœud «data partition» qui fait séparer notre base en deux échantillons d’apprentissage
et validation comme décrit précédemment.
Le nœud «trimming » nous permet de travailler sur les valeurs extrêmes. Il remplace les valeurs
des variables numériques supérieures au 99ème percentile par la valeur du 99ème percentile.et
pour les nœuds«optimal benning» et «impute», ils sont responsables de traiter ensuite les valeurs
manquantes. Le nœud optimal benning crée des classes pour les variables quantitatives ayant
plus de 10% de valeurs manquantes ainsi on fait l’imputation avec le nœud impute.
Le traitement des autres variables se fait à l’aide des nœuds «optimal binning» et «impute». Nous
découvrira les autres nœuds a fur à mesure avec nos résultats.
Méthodes statistiques
Avec le traitement effectué antécédemment, SAS miner nous donne l’occasion de faciliter la
communication des résultats. Il nous permet d’évaluer et tester plusieurs méthodes statistiques
vu en cours. Un nœud de seuil permet aussi d’analyser la répartition des probabilités a posteriori
afin d’identifier les mesures optimales à mettre en œuvre, et de résoudre la problématique métier
en question. Ce fait est considéré comme étant une force pour ce logiciel, pour gagner du temps
ainsi l’efficacité vu au nombre de modèles réalisés chaque année. Etant maitre des paramètres de
chacune des méthodes programmées dans le logiciel, On doit bien les connaître afin de pouvoir
analyser les résultats.
Pour créer nos scores Contribution, nous utilisons et comparons les performances de plusieurs
méthodes statistiques telles que la régression logistique, les SVM (Support Vector Machine), le
gradient boosting, les arbres de décisions, les forêts aléatoires et les réseaux de neurones.
On peut tester ces méthodes de modélisation en utilisant différents critères de sélection tels que
l’erreur quadratique moyenne, la courbe ROC etc...Dans cette partie, nous présentons deux
26
Construction d’un score Customer.
méthodes, les forêts aléatoires et les réseaux de neurone celles qui sont plus pertinentes et qui
ont abouties également aux meilleurs modèles. En annexes seront développées les autres
méthodes utilisées.
Les réseaux de neurones, est un outil statistiques utilisé pour résoudre des problématiques de
classification. C’est un système dont la conception est à l'origine schématiquement inspirée du
fonctionnement des neurones biologiques, et qui par la suite s'est rapproché des méthodes
statistiques. C’est l’un des techniques les plus sophistiquées de modélisation et de prévision qui
calcule une somme pondérée des signaux qu'il transforme à l'aide d'une fonction mathématique f
.
Les neurones reçoivent des signaux en provenance de différentes sources et sont appelées les
variables d'entrée x .Les entrées arrivent aux neurones par l'intermédiaire d'une connexion avec
une certaine force, connue sous le nom de poids. L'importance d'un poids est représentée par une
valeur. Plus la valeur d'un poids est importante, plus l'intensité du signal entrant est forte, et
donc, plus l'entrée correspondante est influente.
Numéro de la figure et titre ????
Le nombre d'unités d'entrée et d'unités de sortie est déterminé en fonction de notre modèle. La
variable cible est censée dépendre des entrées donc son choix est clair. Si nous intégrons des
entrées qui n'ont pas véritablement de lien avec la variable cible, nous pouvons par exemple
détériorer sans nous en rendre compte la performance du réseau de neurones c’est pour ça Il faut
savoir que le choix d'un nombre suffisant de bons prédicteurs est d'une importance cruciale pour
la modélisation prédictive.
27
Construction d’un score Customer.
La sortie d'un neurone sera la prévision de notre modèle à un seul neurone pour une variable du
jeu de données, c’est la variable contribution qu’on cherche à prédire, le nombre d’entrées sera 6
neurones.
On trouve ainsi d’autre couches dites cachés qui participe au Transfer entres les entrées et les
sorties.
On choisit de même notre fonction mathématique qui est nécessaire pour L'activation
desneurones. Elle est utilisée aussi pour convertir la somme pondérée des signaux en couches
sortie du neurone. Par conséquent notre fonction d’activation se présente comme suit.
(𝛼0+ Σ𝛼𝑗𝑥𝑗)
Nous serons capables de transformer les signaux émis par les neurones de la couche précédente
à l'aide de cette fonction. Cette dernière peut profondément influer sur la performance du réseau.
Il est donc important de bien choisir de type de fonction d'activation des neurones dans un réseau
de neurones.
On parle de phase d’apprentissage : les caractéristiques du réseau sont modifiées jusqu’à ce que
le comportement désiré soit obtenu.
28
Construction d’un score Customer.
Ceci arrive notamment lorsque la taille de l’ensemble d’apprentissage est trop faible par rapport
à la complexité du modèle.
Avantages : les réseaux de neurones ont pour avantage de posséder une puissance de
modélisation importante. Ils sont robustes et performants.
Inconvénients : le frein majeur des réseaux de neurones est sans doute leur aspect « boîte noire
». Il est compliqué d’interpréter le modèle et d’obtenir l’influence de chaque variable explicative.
Par ailleurs, les paramètres sont délicats à régler et les réseaux de neurones requièrent une
importante puissance informatique.
Les forêts aléatoires ont été formellement proposées en 2001 par Leo Breiman et Adèle Cutler.
Elles font partie des techniques d'apprentissage automatique. Cet algorithme combine les
concepts de sous-espaces aléatoires et de bagging. L'algorithme des forêts d'arbres décisionnels
effectue un apprentissage sur de multiples arbres de décision entraînés sur des sous-ensembles de
données légèrement différents. Cette méthode a été introduite par Breiman (2001), comme une
amélioration de la technique du bagging.
L'idée est d'introduire la randomisation dans le choix des variables dans les modèles CART, afin
rendre les arbres plus indépendants.
Considérons un échantillon observé S = {(w1, z1), (w2, z2), ..., (wn, Zn)}.
Comme pour le bagging, cette méthode consiste à construire un ensemble de classifieurs de type
arbres de classifications {h1,h2,..., hr} où chaque arbre ht est obtenu à partir d'un échantillon
bootstrap St issu de S .Le point sur lequel les deux 87 méthodes diffèrent est la façon de choisir
les variables de partitionnement lors de la construction de chaque arbre de décision. En effet,
pour le bagging, chaque variable de partitionnement est choisie parmi toutes les autres variables,
selon une fonction d'homogénéité. Alors que pour les forêts aléatoires, lors de chaque division
d'un nœud, on génère aléatoirement un ensemble de q variables parmi les p variables existantes.
29
Construction d’un score Customer.
On utilise ensuite une fonction d'homogénéité pour choisir la variable de partitionnement parmi
les q variables. La construction d'une forêt aléatoire s'effectue comme suit :
Pour t = 1..T :
- Construire un classifieur ht de type arbre de décision, tel qu'à chaque division d'un nœud, on
sélectionne aléatoirement un ensemble de q variables parmi les p variables exogènes Z1,.., ZP.
Comme pour le bagging et le boosting, il est possible d'obtenir les scores de propension à l'aide
des forêts aléatoires en calculant la moyenne des scores de propension sur tous les arbres.
Excepté la régression logistique, L'avantage des méthodes basées sur les arbres est qu'elles
permettent de sélectionner automatiquement les variables ainsi que les termes d'interaction à
inclure dans le modèle, ce qui n'est pas le cas de la régression logistique (Luellen et al. 2005).
les méthodes basées sur les arbres donnent de meilleurs résultats en matière de balance des
covariables dans les groupes de traitement comparativement à la régression logistique qui ne 88
permet pas de détecter des interactions dans le modèle. Toutefois, un bon choix de covariables
dans un modèle de régression logistique permet d'obtenir une bonne estimation du score de
propension.
2. Scoring
Apres avoir appliqué les différentes méthodes statistiques, on a intérêt à expliquer la notion de
Scoring. Vu que sas miner fait la liaison de tous ces éléments, il est primordiale de comprendre
comment fonctionne le nœud Scoring et qu’est-ce qu’elle fait exactement pour notre variable à
expliquer d’un point de vue statistique théorie.
La méthode de Scorings’agit en effet d’une méthode simplement basée sur des outils
géométriques et statistiques. Elle se présente en effet comme un ensemble de méthodes
permettant de classer un individu dans l’un des groupes définis à priori et ce au vu de certaines
30
Construction d’un score Customer.
caractéristiques de cet individu.Il s’agit bien d’une méthode de classement statistique comme elle
est basée sur un traitement statistique des données issues d’un échantillon d’individus.
Dans notre cas, notre score de contribution est une mesure de la propension d’acheter d’un
client. En pratique, on utilise notamment ce type de score pour apprécier la probabilité d’un
client d’être intéressé à passer une commande.
La mise en place d’un système de Scoring passe par un certain nombre d’étapes qu’il convient de
réaliser, par rapport à un système de notation subjective, le Scoring statistique présente les
avantages suivants :
Pour générer notre score on utilise le nœud score sur sas miner et qui permet de calculer un score
à partir du modèle choisit par le nœud model comparaison. Ce score sera sous forme d’un
programme sas qu’on peut l’utiliser et l’appliquer sur l’ensemble de clients potentiels.
La prédiction Yˆ est généralement obtenue en comparant le score d’un individu à un seuil. Dans
le cas binaire (K = 2), nous avons vu deux types de fonction score S qui permettent de donner
une note a une observation x ∈ R p :
Ces probabilités a posteriori peuvent être estimées par régression logistique, par les méthodes
LDA, QDA....
31
Construction d’un score Customer.
Par exemple, βˆ 0 et βˆ pour la méthode LDA ou encore obtenus par maximum de vraisemblance
en régression logistique.La règle de décision est alors :
yˆi = 1 si S(xi) ≥ s,
0 si S(xi) < s,
32
Construction d’un score Customer.
Conclusion de chapitre:
L’objectif de ce chapitre est de déterminer les caractéristiques ou les variables propres aux
clients qui peuvent aider à la construction du modèle. Pour ce faire, nous avons d’abord présenté
les différentes bases de modélisation et de validation ainsi que les différentes variables et leurs
rôles pour le modèle. Nous nous sommes intéressés en particulier à la préparation de notre base
de modélisation passant par l’échantillonnage et le partitionnement ainsi que le traitement des
valeurs manquantes. Ensuite, nous avons présenté la revue de la méthodologie de Sas Miner et
l’enchainement des nœuds dans notre cas. Enfin, à travers la théorie, nous avons essayé de
déterminer les caractéristiques des modèles statistiques utilisées. Ce cadre théorique nous
permet de mettre en valeurs les composantes principales dans la création de notre modèle. Ce
développement fera l’objet du chapitre 3 de ce rapport.
33
Construction d’un score Customer.
L’objectif de ce chapitre est de montrer la pertinence du notre modèle ainsi notre note de score.
Nous tentons à voir dans quelle mesure notre méthode statistique choisie est validée. Dans une
première section, nous faisons la comparaison des résultats issue de sas miner, en utilisant les
différentes méthodes statistiques. En second temps, noux comparons ces résultats sur l’ensemble
de la population. Par la suite, nous étudions notre variable à expliquer. Enfin, nous essayons de
généraliser les résultats issus de sas miner pour valider notre modèle contribution. A cette fin,
nous menons un cas pratique où nous appliquons notre modèle pour sélectionner une liste de
Customer les plus attractives pour une compagne de mailing. Ce développement fera l’objet de la
deuxième section de ce travail. En se basant sur ces résultats, nous achevons ce travail par
quelques recommandations pour le marketing manager.
Pour comparer toutes les méthodes testées, il existe un nœud ‘model comparaison’ sous Miner
qui classe les modèles selon leurs performances à l’aide de plusieurs indicateurs statistiques . Il
sélectionne le modèle le plus performant en fonction de critères définis comme AIC, erreur
quadratique moyenne, ROC, Gini, KS, taux de mauvaise classification, taux de vrais positifs, etc
Ainsi, nous utilisant des indicateurs métier qui nous aide à bien choisir notre modèle. Le critère
principal de comparaison que l’on utilise est le pourcentage de réponses cumulé. Plus celui-ci est
élevé, plus le modèle est bon.
Indicateurs statiques
Erreur quadratique :
L’erreur quadratique moyenne est l’un des indicateurs le plus pertinent en statistiques ainsi pour
notre logiciel, c’est une mesure caractérisant la « précision d’un estimateur. Pour le calculer les
erreurs individuelles sont tout d'abord élevées au carré, puis additionnées les unes aux autres. On
34
Construction d’un score Customer.
divise ensuite le résultat obtenu par le nombre total d'erreurs individuelles, puis on en prend la
racine carrée. Cette erreur nous donne une mesure synthétique de l'erreur globale dans une seule
valeur, c’est une grandeur permettant de comparer des estimateurs entre eux, qu’ils soient
biaisés ou sans biais. Elle est définie de la manière suivante :
En particulier, l’erreur quadratique moyenne des estimateurs sans biais est égale à leur variance
.Lorsqu’on compare deux estimateurs, on considère que le meilleur est celui qui présente l’erreur
quadratique moyenne la plus faible. Le tableau suivant présente la façon comment sas miner met
en ordre ces méthodes en les classant par indicateurs statistique, Le meilleur modèle en sortie
était le modèle effectue par la méthode des forets aléatoires comme il le montre le tableau :
Il s’agit d’estimer et de minimiser les erreurs quadratiques de prévision ou encore des taux de
mal classées, ce tableau montre bien que la méthode des forets aléatoires est celle qui a été
sélectionné par sas miner
35
Construction d’un score Customer.
forets aléatoires :
Caractéristique :
On peut visualiser la courbe de distribution obtenue par la méthode des Forêts Aléatoires sur
l’échantillon d’apprentissage (Train) et de validation (validate) :
Cette courbe présente comment s’interprète le score en apprentissage et validation par rapport à
une courbe de référence. Le tracer de cette courbe fait varier le seuil de la probabilité pour
évaluer comment se comporte les caractéristiques de sensibilité et spécificité du modèle. Plus la
courbe rouge s’approche de celle de référence (qui est en bleu) plus le score est performant pour
notre modèle de contribution.
36
Construction d’un score Customer.
Comme décrit antécédemment la méthode des forets aléatoires peut nous fournir, à travers sa
nœud en sas miner, la liste des variables qui s’interviennent le plus dans la construction de
modèle.
Ces variables explicatives finalement retenues pour modéliser la variable cible est généralement
très réduit aussi bien efficace pour construire notre modèle . On remarque là les variable
nb_orders et la variable duration sont les plus importants pour le modèle ainsi la variable nace_2
qui a été recodée comme présenté ci-dessus :
37
Construction d’un score Customer.
Réseaux neuronnes :
Les réseaux de neurones sont des boites noires qui nous donnes aucune indication sur les
variables qui interprètent le plus à l’estimation, nous avons un graphique bien détaillé qui
illustre la structure des couches fournit par sas miner qui nous décrit la notion des neurones
décrite précédemment. On a fixé le nombre de neurones à 6 comme présenté :
38
Construction d’un score Customer.
Indicateurs métier
-Volume : la volume de clients qui ont été maile pour chaque note de score
-Orders : le nombre de commande pour chaque volume qui ont une valeur de contribution
positive
39
Construction d’un score Customer.
-RR : Orders/ Volume c’est un rapport entre le nombre de commande et le volume total par
chaque note de score
-CPN : Contribution / Volume c’est le rapport entre la contribution et la volume total par chaque
note de score.
Tout d’abord, nous essayons de voir comment se comportent les modèles sur la base de back
analysis. Pour cela, nous regardons la stabilité des résultats dans le temps en appliquant notre
score crée pour valider notre modèle a priori, c’est une période différente de la construction du
modèle. Nous présentons nos indicateurs et les différents résultats par note de score allant de 1 à
10. Ensuite nous comparons nos résultats sur tout l’univers des clients disponibles dans DW
Costumers pour un nombre précis de mailing, en changeant à chaque fois la méthode statistique
utilisée.
Foret aléatoires :
Source du tableau ?
Régression linéaire :
40
Construction d’un score Customer.
contribut
Volume Orders RR CPN
ion
1 4,281 244 $ 18,882 5.70% $ 4.41
2 3,961 208 $ 16,349 5.25% $ 4.13
3 4,530 231 $ 14,805 5.10% $ 3.27
4 4,776 178 $ 11,215 3.73% $ 2.35
5 5,926 162 $ 8,475 2.73% $ 1.43
6 4,451 117 $ 7,732 2.63% $ 1.74
7 5,879 111 $ 5,752 1.89% $ 0.98
8 1,950 35 $ 1,831 1.79% $ 0.94
9 5,066 91 $ 3,058 1.80% $ 0.60
10 2,859 70 $ 4,867 2.45% $ 1.70
TOTAL 43,679 1,447 $ 92,967 3.31% $ 2.13
SOURCE DU TABLEAU ?
Réseaux de neurones :
contribut
Volume Orders RR CPN
ion
1 3,517 289 $ 25,695 8.22% $ 7.31
2 4,504 253 $ 19,424 5.62% $ 4.31
3 5,898 264 $ 17,584 4.48% $ 2.98
4 3,209 128 $ 8,700 3.99% $ 2.71
5 6,484 177 $ 8,577 2.73% $ 1.32
6 7,349 148 $ 8,723 2.01% $ 1.19
7 3,115 39 $ 1,292 1.25% $ 0.41
8 3,476 49 $ 814 1.41% $ 0.23
9 3,141 58 $ 1,734 1.85% $ 0.55
10 2,986 42 $ 425 1.41% $ 0.14
TOTAL 43,679 1,447 $ 92,967 3.31% $ 2.13
Ces tableaux nous permettent de voir nos indicateurs calculées et notre variable a expliquée
regroupées par note de score à travers 3 méthodes statique différente. L’analyse métier de cette
application consiste à regarder la hiérarchie du taux de réponses. Il doit être le plus élevé chez les
41
Construction d’un score Customer.
meilleurs clients du segment 1, et le plus faible pour ceux classés dans le dernier segment, c’est-
à-dire notre objectif c’est avoir une représentation dégressif de CPN en ordre descendant du
volume des clients notées 1 jusque ceux de la note 10.
Nous remarquons que la méthode statique 2 ne s’applique pas bien parce que la sixième note
est mieux que la cinquième, en plus, cette condition est valable jusqu’au segment 4 environ, ce
qui n’est pas le cas pour les autres modèles. Nous constatons que l’existence d‘accidents dans la
hiérarchie de la première et troisième méthode statistique au niveau de la note 9, mais l’écart est
négligeable par rapport au segment 8.
Si le modèle ne classe pas bien nos individus et ne respecte pas les règles de Scoring, et donc il
ne prédit pas bien la contribution. Nous remarquons que la première et la troisième méthode
respectent les règles décrites précédemment. Mais comme la vérification est aussi un outil
précieux pour évaluer la qualité des données, il était nécessaire de refaire nos tests sur tout le
potentiel, on a décidé alors de tester avec une deuxième manière une autre comparaison, tenant
en compte d’autre critères de sélection.
Validation
Il s’agit maintenant de finaliser le choix de notre modèle, on cherche à comparer les modèles
isopérimètres, c’est-à-dire au même nombre de mailings envoyés. Evidemment, le modèle pour
lequel le nombre de commandes sera le plus élevé sera celui que nous choisirons.
Nous avons choisi un volume proche de 50,000 mailings pour chacun des modèles. Nous avons
calculé la différence de volume entre le modèle 2. Ensuite, nous avons multiplié cette différence
de volume par le taux de réponses prévisionnel du segment suivant (Fct RR) pour obtenir le
nombre de commandes supplémentaires que nous aurons en envoyant le même nombre de
courrier pour tous les modèles. Puis pour terminer, nous additionnons le nombre de commandes
supplémentaires au nombre de commandes du segment fixé au départ.
TITRE DU TABLEAU
42
Construction d’un score Customer.
Model 1
Volume Fct CPN Fct Contribution Cumul Volume Cumul Contribution
1 10000 $ 3.20 $ 32,000 10,000 $ 32,000
2 10000 $ 2.60 $ 26,000 20,000 $ 58,000
3 10000 $ 1.90 $ 19,000 30,000 $ 77,000
4 10000 $ 1.40 $ 14,000 40,000 $ 91,000
5 10000 $ 1.20 $ 12,000 50,000 $ 103,000
6 10000 $ 0.90 $ 9,000 60,000 $ 112,000
7 10000 $ 0.70 $ 7,000 70,000 $ 119,000
8 10000 $ 0.50 $ 5,000 80,000 $ 124,000
9 10000 $ 0.40 $ 4,000 90,000 $ 128,000
10 10000 $ 0.30 $ 3,000 100,000 $ 131,000
Source ?
Model 2
Volume Fct CPN Fct Contribution Cumul Volume Cumul Contribution
1 10753 $ 5.10 $ 54,840 10,753 $ 54,840
2 9646 $ 4.50 $ 43,407 20,399 $ 98,247
3 11492 $ 3.20 $ 36,774 31,891 $ 135,022
4 11858 $ 1.80 $ 21,344 43,749 $ 156,366
5 10366 $ 1.60 $ 16,586 54,115 $ 172,952
6 11947 $ 1.40 $ 16,726 66,062 $ 189,678
7 8724 $ 0.80 $ 6,979 74,786 $ 196,657
8 8108 $ 0.60 $ 4,865 82,894 $ 201,522
9 9502 $ 0.60 $ 5,701 92,396 $ 207,223
10 11690 $ 0.50 $ 5,845 104,086 $ 213,068
Validation :
Model 1 Model 2
Volume Mailed 50,000 43,749
Additional Volume - 6,251
Contribution $ 103,000 $ 156,366
Additional Contribution $ 10,002
43
Construction d’un score Customer.
Nous constatons que le 2 éme modèle apporterait plus de contribution que l’autre pour le même
nombre de mailings envoyés .Nous avons donc choisi de garder ce modèle. En effet, ce score
respecte tous les conditions nécessaires à la création d’un modèle : une bonne hiérarchie ainsi
qu’une grande dispersion entre les segments extrêmes .Enfin, après ces différentes comparaison
nous pouvons sauvegarder le bon score et l’appliquer afin d’aider le marketing mangers a la
prise de décisions.
Ce type de démarche nous a permis d’enrichir notre travail en exploitant la réalité du terrain en le
liant à la dimension théorique et empirique, nous tenons à vous expliquer un cas pratique qui
décrira le procès de sélection en détails.
Suivant un planning, une liste des mailings est attribuée entre les membres d’équipe pour un
délai précis. Des centaines de mailing sont envoyés par le monde entier. Pour se faire, nous
avons besoin d’un document dit pro-forma fournit par le marketing manger. Ce document nous
indique les détails du mailing : le produit, le pays, ainsi le budget. Nous avons besoin également
des références de mailing de l’historique pour le même produit ou pour un produit similaire.
Comme le passé est un élément très important pour prédire le future, nous avons intérêt au début
de regarder comment réagit notre modèle sur l’historique des mailings réalisées, ce qui peut
valider encore la performance de notre score. Avec l’aide de sas guide, nous avons abouti avec
différents fonctions de reporting à ces résultats :
44
Construction d’un score Customer.
Adcost
GB Volume Orders adcost SalesUSD contribution RR CPN
Ratio
1 1,927 180 $ 2,455 $ 35,760 $ 17,893 9.34% 7% $ 9.29
2 2,219 113 $ 2,872 $ 19,650 $ 8,105 5.09% 15% $ 3.65
3 2,484 121 $ 3,197 $ 19,956 $ 8,114 4.87% 16% $ 3.27
4 2,810 92 $ 3,582 $ 18,278 $ 6,569 3.27% 20% $ 2.34
5 3,232 98 $ 4,129 $ 15,891 $ 4,945 3.03% 26% $ 1.53
6 2,786 62 $ 3,492 $ 10,170 $ 2,390 2.23% 34% $ 0.86
7 4,309 70 $ 5,465 $ 11,346 $ 1,061 1.62% 48% $ 0.25
8 2,476 38 $ 2,798 $ 7,012 $ 1,257 1.53% 40% $ 0.51
9 2,236 28 $ 2,418 $ 4,861 $ 256 1.25% 50% $ 0.11
10 1,352 19 $ 1,542 $ 2,818 $ 71 1.41% 55% $ 0.05
TOTAL 25,831 821 $ 31,949 $ 145,743 $ 50,662 3.18% 22% $ 1.96
Ce tableau est basé sur deux mailing de DE de produit LPP nommée AX3 et BY2, avec 25,851
observations. Nous constatons que nous avons une bonne hiérarchie de CPN. Et que les
segments5 premiers segments ont une forte contribution par contre les segments 7, 8,9 ont une
contribution assez faible. Après nous projettons sur tout l’univers fessant référence au passée,
Pour voir la dispersion de volume pour chaque note de score, donc nous cherchons la hiérarchie
et la bonne répartition de volume en note de score. Nous pouvons sélectionner par la suite les
clients qui sont bien scorés par notre modèle, tout en respectant notre cible . Pour notre cas, nous
avons opté pour les sélections suivantes :
Pour commencer, notre modèle nous confirme que les clients nommées BBM (ceux qui ont
effectué plus que deux fois une commande) sont les plus attractifs pour l’entreprise, ils sont des
45
Construction d’un score Customer.
clients fidèles et la probabilité qu’il passe commande est très élevé, parce que ils sont bien note
par le modèle.
En second lieu, nous tenons à sélectionner aussi des clients qui sont ‘Previous’, c’est-à-dire qui
ont acheté un produit précis, une règle générale dit que si ce client a acheté ce produit
auparavant, le nouveau produit qui lui a été envoyée l’intéresse de même, c’est confirmé par le
modèle et encore par la connaissance métier. Ensuite, il est nécessaire de faire la coordination
entre les mailings c’est-à-dire, par exemple si un client a reçu un produit LPP depuis deux
semaines et ils n’a pas passé une commande, c’est évident d’assurer qu’il ne reçoit pas le même
produit. C’est pour ça ces clients ont apte a les identifier avec une variable qui prend 1 si il a reçu
un mailing x, 0 sinon. Ces clients sont appelles les ‘no match’.
Finalement après sélectionner les BBM, PREVIOUS, et no match qui ont la priorité d’être
mailées, on peut fouiller encore nos critères, tout en regardant notre score qui est capable
d’expliquer l’acte d’achat ainsi la contribution de chaque individus.
Ainsi lors d’un meeting avec le marketing manager, nous nous sommes mis d’accord sur ces
sélections, en lui expliquant notre démarche en particulier nos critères de choix. En outre, nous
comprenons bien leurs besoins qui sont traduit en chiffres, en criant une base de données qui
contiennent que des clients attractifs pour l’entreprise, prête à être mailée, et avec une certitude
de gain de l’argent par la suite. Ainsi, nous supposons que nous avons atteint notre objectif fixées
dès le début, passant par la création du modèle, la validation jusqu’à la sélection des clients
appétant.
Conclusion chapitre
En se basant sur le développement théorique que nous avons mené au chapitre précédent, ce
chapitre avait pour objectif de voir dans quelle mesure l’influence d’un score par rapport à
l’activité de l’entreprise en vue des indicateurs de performance. ?????
Deux parties l’ont composé. Dans la première partie, nous avons présenté les différents résultats
issues du sas miner, les différentes méthodes statistiques que nous avons utilisé et les variables
qui peuvent expliquer notre cible. Le traitement statistique par sas miner nous a permis de choisir
46
Construction d’un score Customer.
la méthode statique la plus performante d’un point de vue statistique et avec les différentes
indicateurs .
Dans la deuxième partie, nous avons cherché à vérifier nos choix en appliquant le savoir métier.
Les indicateurs métiers présentée dans cette partie les valeurs clés pour choisir notre modèle.
En effet, nous avons montré que la hiérarchie et la répartition par segments sont les règles à
suivre pour valider nos choix.
En particulier, nous avons montré par la suite, que tous les éléments analysés dans le présent
chapitre forment un ensemble cohérent pour la prononciation de recommandations pour le
marketing manager. Nous décrivant pour cela un cas pratique qui résume en réalité l’intérêt de la
création d’un score et son importance dans la prise de décision. En dernière analyse, nous
pouvons affirmer que l’analyse de données est un élément quasi présente au sein de l’entreprise
et les résultats tirés du data sont archi important pour le déroulement des campagnes ainsi la
réalisation des objectif fixées dès le début.
Conclusion générale:
L’objectif principal de cette mission était de mettre en place un score pour les clients de national
Pen, afin de les fidéliser. L’enjeu de ciblage est majeur dans le politique marketing de
l’entreprise puisqu’il participe à avoir de nombreux effets visibles sur la valorisation et la
rentabilité de son entreprise.
47
Construction d’un score Customer.
Il s’agissait de créer un modèle plus performant obligatoirement être mieux que celui de l’année
précédente avec une certitude qu’il soit robuste et vigoureux. En testant de nouvelles méthodes
ou en créant de nouvelles variables. Ainsi, nous avons pu tester différentes méthodes de
modélisation statistiques à savoir les forêts aléatoires, les réseaux de neurones, les machines à
vecteurs de support, la régression pénalisée LASSO ou encore la régression logistique. Ainsi,
nous avons créé des indicateurs avec un important pouvoir explicatif pour notre modèle.
Pour un domaine concurrentiel et en plein expansion les données évoluent beaucoup au sein de
l’entreprise, ce qui rend les modèles instable et ce qui amène l’entreprise à valoriser ces donnée
et l’incite a les bien exploiter pour atteindre ces objectifs. Ce stage nous a permis d’appréhender
la puissance de l’apprentissage artificielle à automatiser le processus métier au sein de
l’entreprise.
Ce stage de fin d’études au sein de l’entreprise National Pen nous a permis de découvrir des
nouvelles techniques et mécanismes permettant de fouiller un domaine d’actualité . Nous
pouvons citer la technique du scoring, la collecte des données et la maitrise de certains logiciels
de traitement des données les plus puissants sur le marché. Ces travaux nous ont permis aussi de
consolider mes connaissances dans le domaine de marketing et de commerce interentreprises et
d’analyse de données. Ainsi il nous a permis de découvrir une autre culture un autre rythme de
vie motivant, une expérience internationale très bénéfique et enrichissante dans ma carrière
professionnelle
Le modèle créer doit vérifier les normes de qualité en précision, c'est-à-dire la capacité du
modèle d’être bon sur les donnés du passé ainsi il doit être robuste capable d’être aussi bon sur le
future .pour être sure de se critère, il faut passer par l’étape de préparation de donnée l’étape la
plus longue dans un projet de datamining
48
Construction d’un score Customer.
Les limites méthodologiques que nous avons affrontées dans ce travail proviennent de différentes
méthodes existantes pour valider un modèle, le critère théorique et le critère métier.
Voies de recherche
L’intérêt d’un projet datamining se spécifie par son aspect opérationnel, l’efficacité de modèle
et des résultats issues ne peuvent être réellement vérifié qu’après l’analyse des ventes d’une
compagne c'est-à-dire au moment qu’on sera capable de comparer nos valeurs prédites par les
valeurs du temps réel. Les résultats nous permettent ainsi d’améliorer les méthodes à utiliser, les
variables explicatives ainsi que la variable à expliquer.
Lexique
49
Construction d’un score Customer.
RR : taux de retour
OOB : Out Of Bag, c’est l’indicateur permettant d’obtenir l’importance des variables lorsque l’on
modélise par la méthode des forêts aléatoires. Indicateur principal de mesure de la qualité des forêts
aléatoires.
Prospect : Entité qui n’est pas encore client et qu’on cherche à convertir en client
Bibliographie
https://www.sas.com/content/dam/SAS/bp_fr/doc/factsheet/sas-enterprise-miner-
105994.pdf
50
Construction d’un score Customer.
http://blogperso.univrennes1.fr/stephane.tuffery/public/Tuffery__Master_Rennes_2011-
2012_-_Data_Mining_-_Presentation.pdf
http://cedric.cnam.fr/~saporta/scoring.pdf
http://www.modulad.fr/archives/numero-38/Bardos-38/Bardos-38.pdf
http://www.bentley.edu/centers/sites/www.bentley.edu.centers/files/csbigs/Desbois.pdf
http://www.modulad.fr/archives/numero-30/desbois-30/desbois-30.pdf
https://support.sas.com/documentation/cdl/en/emcs/66392/PDF/default/emcs.pdf
51
Construction d’un score Customer.
53
Annexe 3 : Arbres de decision
Les arbres de décision sont des algorithmes de prédiction qui fonctionnent en régression et en
discrimination. Il existe différentes variantes pour construire des prédicteurs par arbres, nous
nous focaliserons sur la méthode CART qui est la plus courante et que nous avons utilisée pour
créer notre modèle de prospection.
On cherche à expliquer une variable qui peut admettre un nombre quelconque de modalités et
les variables explicatives peuvent être qualitatives ou bien quantitatives.
Dans notre cas, la variable à expliquer est une variable binaire représentant l’acte d’achat de
prospection (dans le cas du modèle ‘Response Rate’). Elle vaut 1 si le client a passé commande
suite à la réception du mailing de prospection et 0 sinon.
La méthode CART permet de construire un arbre de décision binaire par divisions successives
de l’échantillon en deux sous-ensembles. Contrairement aux autres méthodes de
segmentation, elle n’impose aucune règle d’arrêt de division des segments basée sur une
approche statistique.
A chaque étape, on cherche une nouvelle division : une variable et un seuil de coupure qui split
un nœud en deux nœuds fils. La sélection de ces paramètres s’effectue en optimisant un critère
qui mesure la pureté des deux nœuds fils. Plus les valeurs de la variable cible sont proches
(nœud homogène), plus la pureté est forte.
En régression, on utilise souvent l’erreur pour sélectionner les coupures, à chaque étape on
choisit la variable explicative j et le seuil s qui minimise :
1
où 𝑌̅𝑘 = ∑ 𝑌, = 1,2. Cet indicateur correspond à la moyenne des Yi qui
|𝑅𝑘 (𝑗,𝑠)| 𝑋𝑖 Є𝑅1 (𝑗,𝑠) 𝑖 𝑘
tombent dans le nœud.
On calcule la somme des écarts à la moyenne, c’est ce qui mesure la pureté d’un nœud.
Construction d’un score Customer.
Dans notre cas, en discrimination, on utilise souvent le taux de mal classés pour
sélectionner les coupures, à chaque étape on choisit la variable explicative j et le seuil s qui
minimise :
∑ 1(𝑌𝑖 ≠𝑌̂1 )² + ∑ 1(𝑌𝑖 ≠𝑌̂2 )²
𝑋𝑖 Є𝑅1 (𝑗,𝑠) 𝑋𝑖 Є𝑅2 (𝑗,𝑠)
où 𝑌̂𝑘 représente le label majoritaire dans le nœud Rk(j,s).
Outre le choix de la découpe, c’est le critère d’arrêt qui est important pour les performances
d’un arbre. Les nœuds sont déclarés terminaux soit parce que leurs tailles sont inférieures à un
effectif fixé, soit parce qu’ils ne nécessitent plus de divisions.
Avantages :
Inconvénients :
55
Construction d’un score Customer.
La descente du gradient est une technique itérative qui permet d’approcher la solution d’un
problème d’optimisation. En apprentissage supervisé, la construction du modèle revient
souvent à déterminer les paramètres du modèle qui permettent d’optimiser une fonction
objectif.
1
1) 𝑔𝑜 (. ) = 𝑎𝑟𝑔𝑚𝑖𝑛𝑐 𝑛 ∑𝑛𝑖=1 𝑙(𝑦𝑖 , 𝑐) avec c constante qui minimise la perte
La sortie 𝑔̂𝑀 (𝑥) est un réel. Si on cherche àprédire le label de x, on pourra utiliser la règle
y=signe(𝑔̂𝑀 (𝑥))
Pour le choix λ=1 et l(y, g(x)) = exp(−yg(x)), cet algorithme coïncide quasiment avec
Adaboost.
56
Construction d’un score Customer.
Comme pour Adaboost, la règle utilisée dans l’algorithme doit être faible (légèrement meilleur
que le hasard) car booster une règle non faible se révèle généralement peu performant.Il est
recommandé d’utiliser une règle possédant un biais élevé et une variance faible (booster
permet de réduire le biais, pas la variance). On utilise souvent les arbres de décision comme
règle faible. Pour posséder un biais élevé, on utilisera donc des arbres avec peu de nœuds
terminaux.
Le choix de M, nombre d’itérations, est crucial pour les estimateurs boosting. Si M est trop
grand, on surajuste (estimateurs avec peu de biais mais beaucoup de variances) et
réciproquement si M est trop petit.
L’échantillon a déjà été utilisé pour construire les estimateurs adaboost𝑔̂𝑀 , la moyenne
empirique est un estimateur biaisée de l’espérance. La solution à ce problème consiste à utiliser
des procédures de type apprentissage /validation, validation croisée ou Out Of Bag.
Avantage :
Inconvénient :
57
Construction d’un score Customer.
1) SVM linéaire
1.1) Cas où les données sont séparables :
Cette méthode consiste à pouvoir départager les données par une frontière linéaire. Le
problème est qu’il existe une infinité d’hyperplans séparateurs, c’est-à-dire de règles de
discrimination linéaires potentielles.
Vapnik a proposé une règle de discrimination linéaire ayant les meilleures propriétés de
généralisation correspondant à l’hyperplan séparateur de marge maximale γ entre les
observations des deux classes. L’équation 〈w, 𝓍 〉 + b = 0 définit cet hyperplan séparateur de
vecteur orthogonal w.
Soit A et B, deux groupes à discriminer, cet hyperplan sépare bien ces groupes dans le sens où :
Cet hyperplan doit être aussi le plus loin possible des observations, la distance d’une
observation à l’hyperplan est notée : |〈w, 𝓍 〉 + b| /||w||.
1
La marge γ, qui doit être maximisée, vaut : .
||𝑤||
58
Construction d’un score Customer.
Soit deux entrées (x1,x2) avec x1 dans A et x2 dans B, alors les sorties respectives sont y1=1 et
y2=-1. Trouver l’hyperplan séparateur de marge maximale revient à trouver le couple (w,b) tel
que :
1
- Pour tout i, sous la contrainte : yi (〈w,xi〉 +b) ≥ 1 , ||w||2 ou 2 ||w||2 soit minimal.
Il s’agit donc d’un problème d’optimisation convexe sous contraintes linéaires. Il existe un
optimum global, obtenu par résolution du problème "dual", avec la méthode des
multiplicateurs de Lagrange.
Les 𝓍i tels que αi*> 0 sont appelés les vecteurs supports. Ils sont situés sur les frontières
définissant la marge maximale quand yi (〈w∗, 𝓍i〉 +b∗) = 1.
L’hyperplan ne dépend que de ces points supports et est donc que très faiblement influencé par
les valeurs aberrantes.
Hyperplan séparateur
Marge maximale
59
Construction d’un score Customer.
La méthode précédente ne s’applique pas si les données ne sont pas linéairement séparables.
De plus, elle est très sensible aux "outliers ".
La solution est d’autoriser quelques vecteurs à être bien classés mais dans la région définie par
la marge, voire mal classés.
Le principe des SVM reste similaire, mais il devient alors nécessaire d’ajouter un terme qui
mesure l’erreur de classement, puisque les deux classes ne sont pas totalement séparées mais
se recouvrent.
Ce terme, noté ξi, est défini pour chaque observation xi se situant du mauvais côté de la
frontière, il mesure la distance qui la sépare de la frontière de la marge du côté de sa classe.
- Si ξi∈[0,1], alors le vecteur est bien classé mais est situé dans la région définie par la
marge.
- Siξi>1, alors le vecteur est mal classé.
On parle de marge souple ou marge relaxée. Les variables ξi sont appelées les variables ressorts.
60
Construction d’un score Customer.
On rencontre un nouveau problème, les contraintes relaxées ne peuvent pas être utilisées sans
contrepartie sous peine d’obtenir une marge maximale infinie (en prenant des valeurs de ξi
suffisamment grandes). La solution est donc de pénaliser les grandes valeurs de ξi.
Le problème d’optimisation s’écrit de la manière suivante :
1
Minimiser en (w,b,ξ) : 2 ||w|2 + 𝐶 ∑𝑛𝑖=1 𝜉𝑖 , avec C>0
yi (〈w,xi〉+b)≥ 1−ξi,∀ i
Sous contraintes :
ξi ≥ 0
𝑤 ∗= ∑ 𝛼𝑖 ∗ 𝑦𝑖 𝑥𝑖
𝑖=1
Les vecteurs correspondant à des variables ressorts nulles situés sur les frontières de la
région définissant la marge.
Les vecteurs correspondant à des variables ressorts non nulles ξi*>0 et dans ce cas
αi*=C.
61
Construction d’un score Customer.
Une SVM linéaire donnera une très mauvaise discrimination avec un nombre de vecteurs
supports très élevé. On va donc utiliser la SVM non linéaire avec l’astuce du noyau.
L’idée de la SVM non linéaire est d’envoyer les entrées {xi, i=1,…,n} dans un espace H de
grande dimension, voire de dimension infinie, via une fonction ϕ, et appliquer ensuite une
SVM linéaire aux données {(ϕ(xi),yi),i=1,…,n}.
62
Construction d’un score Customer.
La règle de discrimination de la SVM non linéaire ne dépend de ϕ qu’au travers des produits
scalaires de la forme <ϕ(xi), ϕ(x)>H ou <ϕ(xi), ϕ(xj)>H .
L’astuce du noyau consiste donc à connaitre la fonction k définie par k(x,x’)=<ϕ(x), ϕ(x’)>H qui
permet de lancer la SVM dans H , sans déterminer explicitement H et ϕ. Cette fonction k est
appelée noyau. Ce noyau est souvent plus facile à calculer que la fonction ϕ.
||𝑥−𝑥′ ||
−
- Le noyau laplacien : 𝑘(𝑥, 𝑥 ′ ) = 𝑒 𝜎
63