Rapport de Stage

Master 2
Ingénierie et Analyse
Economique
ESSEC de Tunis
Année 2016-2017
Construction d’un score mailing customer cas

de l’entreprise…..
Étudiante:Tebib
caccas Hanen
Entreprise d’accueil:
CONFIDENTIEL
National Pen Promotional Products Limited
Customer Intelligence Team
33700 Mérignac, Bordeaux
Tuteur de stage: Benjamin Boraud
Tuteuracadémique: Ben Said Hayet

Construction d’un score Customer.
Clause de confidentialité
L’ensemble des données contenues dans ce rapport

sont faussées, des valeurs fictives ont été insérées
dans les tableaux afin de remarquer les tendances.
2
Corrige la table des matières
Remerciements
Je tiens à remercier et à témoigner toute ma reconnaissance aux personnes

suivantes, pour l’expérience enrichissante et pleine d’intérêt qu’elles m’ont fait
vivre durant ces six mois au sein de l’entreprise National Pen, Mérignac.
Monsieur Alex Boufflerd, directeur marketing Europe, pour son accueil et la

confiance qu’il m’a accordée dès mon arrivée dans l’entreprise.
Madame Christelle Lassarade, responsable du service Customer intelligence, pour

m’avoir accepté étant membre de l’équipe CIT et m’avoir intégré rapidement au
sein de l’entreprise et m’avoir accordé toute sa confiance.
Monsieur benjamin Boraud mon tuteur, pour le temps qu’il m’a consacré tout au
long de cette période, pour son encadrement sur mes missions, sachant répondre à
toutes mes interrogations ; sans oublier sa participation au cheminement de ce
rapport
Messieurs Nicolas,Raphaël, thomas et madame carole, ainsi que l’ensemble du

personnel de National Pen pour leur accueil sympathique et leur coopération
professionnelle tout au long de ces six mois.
Je tiens également à remercier toute l’équipe pédagogique de l ESSECT et les

intervenants professionnels responsables de la formation ingénierie et analyse
économique, pour avoir assuré la partie théorique de celle-ci.
Je remercie également Madame Hayat ben Saïd pour l’aide et les conseils
concernant les missions évoquées dans ce rapport, qu’elle m’a apporté lors des
différents suivis à distance.
3
Sommaire
Remerciements ............................................................................................................................................. 3
Introduction .................................................................................................................................................. 6
 Intérêt du projet ........................................................................................................................................................ 8
 Plan du projet ............................................................................................................................................................. 8
I. Chapitre1: Mise en context................................................................................................................. 10
Introduction ........................................................................................................................................................................ 10
A. Présentation de l’entreprise: .............................................................................................................................. 10
B. Activité de l’entreprise.......................................................................................................................................... 12
C. Présentation de l’équipe Customer intelligence et les outils ................................................................ 14
1. Presentation des outils: .............................................................................................................. 14
D. Présentation du sujet de stage: ............................................................ Error! Bookmark not defined.
Conclusion du chapitre : ................................................................................................................................................ 16
II. Chapitre2: Recherche de solutions, méthodologie ................................................................... 17
Introduction ........................................................................................................................................................................ 17
A. Construction des différentes bases de modélisation .......... Error! Bookmark not defined.
B. Variables explicatives liées client et son environnement ...................................................................... 18
C. Préparation de données ....................................................................................................................................... 22
1. Échantillonnage........................................................................................................................... 22
2. Traitement des valeurs manquantes .......................................................................................... 23
D. Méthodologie sur SAS MINER ............................................................... Error! Bookmark not defined.
E. Méthodes statistiques .......................................................................................................................................... 26
1. Les réseaux neurones................................................................................................................. 27
2. Les Forets aléatoires ................................................................................................................... 29
3. Scoring......................................................................................................................................... 30
Conclusion de chapitre: .................................................................................................................................................. 33
III. Chapitre 3 : Résultat et application du modèle .................................................................................. 34
4
Introduction ........................................................................................................................................................................ 34
A. Comparaison et validation du modèle: ......................................................................................................... 34
1. Indicateurs statiques:.................................................................................................................. 34
2. Indicateurs métier: ...................................................................................................................... 39
3. Validation: ................................................................................................................................... 42
B. Cas pratique et recommandation ..................................................................................................................... 44
Conclusion chapitre .................................................................................................................................... 46
Les principaux résultats ................................................................................. Error! Bookmark not defined.
Les apports de la recherche ........................................................................... Error! Bookmark not defined.
Contributions théoriques............................................................................. Error! Bookmark not defined.
Contributions méthodologiques.................................................................. Error! Bookmark not defined.
Contributions professionnelles : apports du stage et compétences acquises ........................................... 48
Les limites de la recherche.......................................................................................................................... 48
Les limites méthodologiques ......................................................................... Error! Bookmark not defined.
Les limites relatives à la validation empirique .......................................... Error! Bookmark not defined.
Les limites relatives à la validation externe .............................................. Error! Bookmark not defined.
Voies de recherche ..................................................................................................................................... 49
Bibliographie ...................................................................................................................................................................... 50
5
Introduction
Aujourd’hui l’utilisation de l’apprentissage statistique se multiplie car les jeux de données se

multiplient également. Le traitement des données se fait en une manière rapide. Les entreprises
exploitent donc plus facilement cet outil. La plupart des entreprises utilisent la machine Learning
pour leur permettre d’améliorer l’acquisition, la connaissance et la fidélisation client. De nos
jours les entreprises sont capables d’affiner leur ciblage et analyser toutes les facettes du
comportement du consommateur.
Pour ce fait, les entreprises considérées matures en France sont celles qui ont lancé une étude
d’opportunité du Big data (définir qu’est ce que le Big data) et qui ont également mis en place
une stratégie globale de gestion de leurs données clients, pour favoriser une meilleure circulation
des données en interne et une exploitation plus cohérente et transversale de ces données.
6
National Pen est l’une de ces entreprises qui a fait le choix d’intégrer ce domaine à son processus
métier et considère les données comme une valeur sacrée. Face à une concurrence impitoyable,
la création d’une relation durable avec ses clients présente beaucoup d’avantages pour
l’entreprise. Pour cela, National Pen joue sa carte de créativité par le mailing postal, afin
d’augmenter le niveau d’engagement de ses clients. Pour diminuer les coûts des campagnes,
l’équipe CIT (définir c’’est quoi le CIT) crée les modèles par pays et par produit dans le but
d’attirer efficacement les clients qui ont l’intérêt d’achat. Elle utilise les data pour mesurer et
comprendre son activité et son environnement de marketing d’objets publicitaire,
commercialisée à l’échelle internationale, afin d’être compétitif sur le marché en plein évolution.
Depuis 4 ans National Pen a créé un service statistique dans le but de mettre en place les
stratégies de l'entreprise via la construction des scores. Pour fidéliser ses clients ou encore
recruter des nouveaux clients, chaque année, l’entreprise envoie à une sélection des individus
un nombre important de courriers avec un échantillon d’un produit et un bon de commande. Le
coût d’envoi de ces courriers est élevé, c’est pourquoi le ciblage est important pour améliorer le
rendement de ces campagnes. Pour cela, l’objectif de ce travail de recherche consiste à analyser
les caractéristiques et le comportement de chaque client en temps réel pour l’identifier et en suite
le fidéliser.
En effet, dans le cadre de notre (remplacer je par nous dans tout le rapport) stage au sein de
National Pen, nous avons mis en place un score pour les clients de l’Allemagne qui ont intérêt à
acheter un produit précis de l’entreprise National Pen, afin de les fidéliser. Plus précisément, vu
le grand nombre de clients recrutés par les campagnes de prospections, nous proposons de
modéliser des scores de contribution par pays et par produit afin de viser plus de clientèle. Notre
principale mission est de créer un score pour les clients de l’Allemagne, pour un produit nommé
‘LPP’ un des best-sellers de l’entreprise. La création de notre premiers modèle « Customer »
était de modéliser le taux de réponse à un courrier de type CUSTOMER envoyé, c’est à dire
prédire l’acte d’achat en monnaie. Or, nous ne prévoyons pas uniquement l’acte d’achat mais
encore les valeurs en monnaies de ces achats pour toute la population. Un modèle qui concerne
les clients de National Pen est appelé le modèle contribution. Dans ce cadre, nous estimons la
valeur apportée par chaque client, net des charges de l’entreprise. En terme de périmètres, plus
l’algorithme rencontre d’observations, plus il s’améliorera et gagnera en précision, pour cela ce
7
modèle demande d’utiliser de l’historique des clients au-delà de 24 mois pour modéliser et puis
valider. Chaque année l’entreprise tend à créer des nouveaux modèles afin d’assurer la stabilité
des données.
Par ailleurs, d’autres tâches nous ont été confié, ce qui nous a permis d’avoir une image
beaucoup plus concrète sur ce que pouvait être le domaine de l’exploration de données et
comprendre et appliquer réellement tout ce que nous avons vu durant notre cursus universitaire .
 Intérêt du projet
L’intérêt ce projet provient de son originalité opérationnelle. En effet, la richesse en quantité de

données et les variables explicatives et encore l’accessibilité se considère comme points forts
pour ce travail bien que pour l’entreprise d’accueil, de plus le data mining (qui est…définir le
data mining) est la tendance de digital. C’est un domaine très en vogue, nous essayons donc
d’apporter un éclairage sur un sujet d’actualité qui est en plein expansion. Pour cela, notre tache
consiste à tenir compte de déroulement d’un cas pratique du data mining. En se basant sur des
ressources brutes, nous nous intéressons à la façon de traiter un client et aux différentes étapes
d’élaboration des indicateurs utiles aux décideurs de l’entreprise, leur permettant d’améliorer le
processus des ventes. Ce travail nous permet d’apporter quelques éléments de réponses aux
questions suivantes :
Sur quelle période allons-nous modéliser et tester le modèle ? quelles variables allons-nous
modéliser ? Quelle méthode statistique choisir pour construire le modèle et pour quels critères ?
Ces questions sont essentielles puisqu’il s’agissait d’obtenir un meilleur modèle que celui de
l’année dernière. En effet, les modèles doivent régulièrement être recrées car ils deviennent
instables très rapidement.
 Plan du projet
Pour présenter les objectifs à atteindre, les différentes phases du projet ainsi que les parties
prenantes, notre travail est articulé autour de trois chapitres.
8
En vue de rendre compte de manière fidèle et analytique des six mois passés au sein de National
Pen, il apparaît logique de présenter à titre préalable l’environnement du stage, à savoir son
secteur de travail, ses caractéristiques et ses stratégies ainsi la valeur de l’exploration de données
pour l’entreprise. Nous présentons également les différents départements de national Pen ainsi
que les fonctions de chacune d’elles tout en insistant sur l’équipe CIT au sein de laquelle nous
avons effectué notre stage. A ce propos, nous présentons les différentes tâches que nous avons pu
effectuer et les nombreux apports que nous avons pu en tirer. Ce développement fera l’objet du
premier chapitre de ce mémoire.
Le deuxième chapitre est consacré au corpus théorique de notre sujet .A cet effet, nous
présentons les différentes bases et les variables. Nous nous intéressons à la technique
d’échantillonnage et de partitionnement utilisé ainsi le traitement de valeurs manquantes. En
outre, nous exposons la méthodologie de SAS miner et sa pouvoir prédictive, tout en menant a
présenter les méthodes statistiques utilisées. Cette analyse nous sert à décrire les caractéristiques
de chaque méthodes à travers Sas miner.
Afin de répondre à notre problématique (rappeler la problématique), lors du troisième chapitre,

nous présentons une comparaison (en chiffres) de différentes méthodes statistiques à savoir les
forêts aléatoires, les réseaux de neurones, les machines à vecteurs de support, la régression
pénalisée LASSO ou encore la régression logistique. L’objectif est de tester le score construit et
sa capacité à aider à la prise de décision. Pour cela, nous présentons un cas pratique portant sur
une sélection du marketing manager et nous achevons ce travail de recherche par quelques
recommandations afin d’assurer une compagne de mailing en temps réel.
9
I. Chapitre1: presentation générale de l’entreprise

Introduction
Grâce à des méthodes d’analyse de données et de statistiques avancées, le Data Mining est
pratiqué depuis plus de 30 ans dans l’ensemble des secteurs d’activité et nombreux
domaines d’applications. Mais ce phénomène est particulièrement en vue à présent, vu à la
quantité énorme d’informations disponibles et l’effort fourni pour les récolter. C’est un
processus permettant d’acquérir une connaissance, à priori cachée, qui est basée sur des
algorithmes de calcul permettant d’établir des modèles. Il est devenu vital alors pour
l’entreprise de faire les justes choix dans un monde incertain, qui change sans interruption.
Toutes les décisions qu’elles soient , stratégiques et opérationnelles, doivent pouvoir être
éclairées par des éléments tangibles, des faits, des indicateurs. Ainsi, le recours au data
s’avère nécessaire pour conquérir le marché et pour attirer plus de clientèle. Pour cela, le
premier chapitre fait l’objet de deux sections. La première est consacrée à la présentation
de l’entreprise. Ensuite, nous nous intéressons à l’équipe Customer intelligence et
les outils utilisés, ce développement fera l’objet de la deuxième section de ce
chapitre.
HANANE UTILISE LES sections au lieu de A B etc
10
Présentation de l’entreprise:
Leader dans la vente des produits marketing de qualité , National Pen est une entreprise
internationale, opère dans 29 pays dans le monde, son siège est situé à San Diego aux états unis
et sa usine de production est en Irlande exactement à Dundalk, où se trouve aussi le
télémarketing , le service web ainsi que l’ impression. Quant au service Marketing, il est tout
centralisé à Mérignac, Bordeaux, c’est où se situe la majeure partie du service marketing (canal
courrier et e-mail).
Depuis sa création en 1966, National Pen a connu progressivement un développement

remarquable en vue de sa stratégie de Marketing directe. Face à un marché concurrentiel,
l’entreprise produit et commercialise aujourd’hui une grande diversification de produits , surtout
le stylo , le produit dominant et le plus vendu .Il est créé en plusieurs dizaines de modèles et
couleurs , mais aussi des gammes de produits , répondant aux attentes des clients, et de
nombreuses catégories de produits qui figurent dans le catalogue comme les porte-clés, les
calendriers ainsi que les objets électroniques. Il est donc indispensable de remarquer que le
marketing par objet est un levier toujours aussi efficace, ce qui constitue l’activité principale
pour national Pen, les produits sont personnalisées en y inscrivant le nom de l’entreprise ou
encore le logo et l’adresse pour cibler de mieux ces clients sans intermédiaire. La clientèle dans
ce domaine est de toute catégorie et de différents pays, ce qui prouver que la première
préoccupation est de servir l’intérêt collectif a l’échelle intentionnelle. Pour cela toutes les
ressources humaines et financières pour atteindre ces objectif.
11
Le point fort de National Pen, c’est qu’elle arrive à commercialiser ses produits à travers une
stratégie de marketing forte, elle expose ces produits de qualité à distance par mailing,
télémarketing ou encore par e-mails, afin de créer une relation avec ces clients pour lui vendre
ses produits et encore maintenir le contact. Pour cela des compagnes de mailing sont préparées et
lancées à Mérignac par le marketing managers repartis sur différents pays avec l’aide des
assistantes. Entre 6 000 et 150 000 courriers sont préparés lors d'une campagne envoyés à un
nombre bien définit des clients, ce qui présente une quantité importante de mailings par année
bien qu’un coût élevé pour l'entreprise , donc le travail pour diminuer ces coûts s'avère
nécessaire en ciblant autant que possible les clients à qui l'on va envoyer ces courriers
personnalisés.
Cette tache a longtemps été confiée aux managers marketing qui sélectionnaient les clients à
cibler à l’aide de ses connaissances métiers. Pour Faire évoluer son savoir-faire, National Pen a
fait intégrer une équipe de costumer intelligence, participait à son tour à la prise des décisions,
éclairées par la data, dans le but d'augmenter le chiffre d’affaires de l'entreprise et baisser les
coûts de ces campagnes au maximum.
A. Activité de l’entreprise
Ce schéma illustre le déroulement de l’activité de l’entreprise et les différentes étapes pour qu’un
client reçoive un courrier de chez National Pen. Tous les départements travaillent en cohérence
12
pour réaliser des dizaines de campagnes de mailing à l’échelle international, avec un champ
d’expertise varié .Dans le but de réussir ces compagnes, les managers et les assistantes marketing
s’en charge de tout ce qui est opérationnel, le choix du produit des dates de mailings, ainsi que
l’organisation d’envoi, l’équipe CIT s’en charge des données et la pertinence des résultats .On
décrierait par la suite tout le processus en détails et les différentes missions confiées.
Entre Fidélisation et acquisition de nouveaux clients, l’entreprise connait deux types de

campagnes de mailings au sein de la branche marketing Europe de Mérignac. Dans un premier
temps on trouve les mailings ‘prospection’ qui sont des courriers envoyés à des entreprises qui
ne sont pas clientes de National Pen mais qui pourraient le devenir. L’objectif de l’entreprise
envers ces prospects est la réalisation d’un premier acte d’achat, peu importe son montant. Dans
le but principalement d’acquérir de nouveaux clients susceptibles d’effectuer d’autres
commandes, plus importantes que la première.
Dans l'idéal le principe est simple, une fois le client ayant passé une première commande, il est
impératif de rester en contact avec lui, pour cela, on trouve dans un second temps, des mailings
dit « Customer », c’est-à-dire les courriers envoyés aux entreprises déjà clientes de National
Pen. Elles ont déjà effectué une commande pour un des produits vendus. L’enjeu pour
l’entreprise envers ces clients, est de cibler ceux qui ont une contribution positive pour elle. En
effet, comme nous l'avons dit précédemment, un mailing à un coût, et une manière de rentabiliser
au mieux ce coût est de cibler les clients qui rapportent de l’argent et encore pouvoir les fidéliser.
L’entreprise accepte donc de perdre un peu d’argent pour faire en sorte de pousser ses clients de
passer plusieurs commandes et dans l’optique d’en gagner encore plus par la suite sans l’idée
d’avoir des retombes financiers immédiates mais qui va être rentable sur l’avenir.
Auparavant les marketings managers sélectionnaient les clients les plus appètent à un produit
grâce à l’aide d’une segmentation RFM (Récence Fréquence Montant) qui sont des critères assez
généralistes. Cependant depuis la création du pôle statistique, le ciblage s’effectue
principalement grâce à des scores d’appétence basés sur l’historique des clients de National Pen
ou des notes de scores, ce qui permet d’optimiser les ventes et la rentabilité ainsi que de recruter
de nouveaux clients ou les fidéliser .
13
Aujourd’hui, on utilise le «Scoring» qui consiste à attribuer à chacun des clients une note, en
fonction de critères spécifiques. Le Scoring permet d’améliorer les performances marketing en
priorisant les campagnes sur les clients à plus fort potentiel d’achat à partir des données dont ils
disposent sur des clients ou des prospects. Pour cela L’équipe met en place de nombreux
modèles personnalisés par pays et par produit visant au ciblage des clientes afin d’optimiser les
processus et de découvrir de nouvelles patterns statistiques.
B. Présentation de l’équipe Customer intelligence et les outils
La société d’accueil National Pen m’a offert l’opportunité de passer mon stage du projet de fin
d’études au sein de l’équipe Customer intelligence, au pôle statistique pendant 6 mois. Une
équipe performante qui a un objectif commun et clairement définie, dirigée par Madame
Christelle Lassarade, Customer intelligence manager, composée ainsi de des data miner, des
marketings analystes et data base manager, dans le but d’améliorer encore les performances des
compagnes et notamment d’optimiser les ciblages de marketing mangers pour l’envoi des
mailings à travers le monde.
Cette équipe a connait un fort développement pendant les 4 derniers années, depuis sa création,
son effective augmente de plus en plus, elle est toujours complétée par des stagiaires plus
particulièrement aux périodes estivales, celle-ci est la plus importante en nombre de commandes.
L’équipe CIT est devenue donc le partenaire incontournable, Vu à la nécessité de tirer les
informations utiles à l’action marketing. Tous les membres d’équipe s’engagent alors à produire
des résultats significatifs tout en respectant les délais et avec une totale confiance les uns envers
les autres.
1. Presentation des outils:
L’équipe d’analystes marketing utilise plusieurs logiciels pour effectuer ces différents modèles
ainsi que les différentes tâches qui lui sont confiées.
14
Le logiciel SAS Enterprise Guide qui couvre une large gamme des méthodes d’analyse en
statistique, il se présente sous la forme d’un ensemble de modules logiciels adaptés pour la
gestion et l’analyse statistique de gros volumes de données et Il est utilisé pour la création de
bases de données de modélisation et de « back analysis ». Apprentissage et validation.
C’est à l’aide de ces bases de données que l’équipe applique ses modèles et les teste. Ce logiciel
est également utilisé pour la création des « Datamart » qui rassemblent l’ensemble de données
organisées, ciblées et regroupées dans le but de répondre aux besoins des métier. Ces
informations proviennent pour une partie du datawarehouse de l’entreprise, pour l’autre, ce sont
des données calculées par l’équipe. Ces trois « Datamart » sont les suivants :
Datamart Customer : C’est la base de donnée la plus volumineuse puisqu’elle comporte

plus d’un million de lignes (correspondant chacune à un client), et près de 600 variables. Sur
ces 600 variables, un grand nombre sont des indicateurs jugés pertinents et qui ont été
calculés ou créés par l’équipe. Ce Datamart concentre ainsi toutes les informations relatives
aux clients.
Datamart Orders : Il s’agit de la base de données regroupant toutes les informations sur les
commandes des clients. Une ligne correspond donc à une commande effectuée.
Datamart Mailings_Cust : Cette base de données comporte toutes les informations

concernant les mailings Customer envoyés.
En complément de SAS Enterprise Guide, l’équipe travail avec la suite de méthodologies

d’analyse prédictive la plus complète sur le marché .C’est SAS Enterprise Miner .Ce dernier vise
15
à simplifier le data mining et aide à développer des modèles descriptifs et prédictifs, avec
notamment des composants pour la modélisation le Scoring d’éléments d’une base de données, il
permet d’explorer et d’exploiter les données efficacement. Il est d’une grande utilité face à
l’importance du nombre de modèles effectués, dans des délais records.
L’équipe utilise également SQL Server pour tout ce qui concerne les requêtes rapide sur les
bases de données du datawarehouse. Enfin, la suite office est utilisées pour la production de
repportings, de tableaux de « back analysis », ou encore la production de présentations à l’aide
de Power Point.
Conclusion du chapitre :
L’objectif de ce chapitre était de présenter l’entreprise d’accueil National Pen dans laquelle nous
avons effectué notre stage. Dans cette optique, nous avons exposé sa nature d’activité et certaines
caractéristiques, et on a également parlé du processus des mailings afin d’améliorer les ventes et
la rentabilité.
Par la suite, nous avons décrit l’équipe CIT et le différent outil utilisé en détails afin de mieux
appréhender le cadre de notre travail. Cette description nous a permis de comprendre d’un point
de vue globale le processus d’exploration de données et de Scoring, de formuler notre
problématique et de collecter les données nécessaires afin de déterminer quelles sont les
variables significatives dans la prédiction du défaut. Finalement, nous avons présenté notre
16
démarche afin d’apporter quelques éléments de réponse à notre problématique. Dans le chapitre
suivant, nous proposons des solutions à notre problématique en décrivant la démarche statistique
utilisée.
II. Chapitre2: construction du score customer : cadre

théorique
Introduction
Chaque année l’équipe d’analystes s’en charge de créer les modèles Customer par pays et par
produit pour l’exploiter dans les campagnes de mailings, pour assurer la stabilité des résultats.
Au-delà de ça, National Pen est capable chaque année suite à ses campagnes de prospection de
17
recruter des nouveaux clients ainsi acquérir de nouvelles informations et variables fournis par les
brokers, ce qui peut améliorer la performance de nos modèles.
Le but à travers ces modèles était donc de sélectionner les clients les plus appétant a l’achat d’un
produit par pays dans l’objectif d’aider le marketing manager à la prise de décision, tout en
respectant les règles de modélisation. Pour ce faire cette partie vise à détailler les différentes
étapes de la construction de notre score Contribution. À cette fin, nous consacrons la première
section à construire les différentes bases de modélisation et à analyser les variables explicatives
liées au client et son environnement. La deuxième section porte sur la présentation du logiciel
Sas Mineur.
Section 1 Construction des différentes bases de modélisation et variables

explicatives
Pour construire notre score, nous avons récupéré les clients du pays (DE : définir c’est quoi ?) de
produit (LPP c’est quoi ?) de la Datamart dmt_cust qui est un référentiel de données conçu pour
servir à la création de modèle. C’est une base de données comprenant tous les clients de national
Pen depuis 96 mois. A cette base de données, pour récupérer la variable contribution, il était
nécessaire de faire la jointure avec la Datamart Mailings_Cust, cette variable est bien corréler
avec les variables de ventes et le coût d’envoi de mailing par client ,elle est calculée par l’équipe
et présente la valeur net que le client apporte après avoir reçu un mailing de l’entreprise. On
donne par la suite une valeur pour la variable top_order qui prend 1 si le client a répondu
favorablement à un mailing envoyée de ce produit, 0 sinon.
Cette jointure est faite par l’identifiant de l’individu et l’identifiant de mailing. Chaque individu
peut recevoir plusieurs mailings et un mailing appartient qu’à un seul individu. Nous disposons
donc d’une base de l’historique dans laquelle figuraient des lignes avec les infos des entreprises
qui ont été mailées et qui ont passé une commande au moins une seule fois pour le produit LPP .
notre travail consiste alors donc à créer des scores sur les clients de ‘DE’ pour le produit ‘LPP’
dans les 24 derniers mois. Avec ce modèle on cherche à identifier les clients susceptibles de
passer de nouveau une commande suite à la réception d’un mailing qui contient l’échantillon de
LPP. Au-delà de ça on veut prédire leurs contribution, parmi ceux qui vont passer les
18
commandes, quelle est leur contribution pour l’entreprise, on veut prédire quel consommateur
sera ou non un « bon » client et bien également, on a l’intérêt d’identifier ceux qui n’achèteront
pas le produit c’est-à-dire ceux qui sont mal scorés par le modèle. Une fois que nous avons
défini notre modèle et nos sources de données, il nous reste à le déployer sur un périmètre
pertinent, sur lequel nous modélisons notre score. La construction d’un score répond à une
problématique d’optimisation commerciale « à venir ». Il faut donc se concentrer sur le passé
récent
Nous devrons avoir alors une base de modélisation la plus récente possible, tout en gardant
suffisamment de volume pour la « back-analysis », notre base de données pour valider le
modèle.
Ces bases sont créées sur des périodes différentes, pour vérifier la stabilité de notre modèle dans
le temps. En premier lieu nous nous sommes restreint à tous les individus ayant reçu un courrier
sur les campagnes de mailing de fin 2016 début 2017 pour faire la modélisation enfin 2017 début
2018 pour la’ back-analysis’. La contribution sera la variable à expliquer pour notre modèle.
La sélection des variables explicatives demeure au centre de la modélisation. Pour cela nous
avons sélectionné une liste de variable pour notre base de modélisation dont leur importance ,
pour expliquer notre variable que nous cherchons à prédire, à savoir la « contribution » qui nous
permet de voir si le fait qu’un client passe une commande constitue réellement un gain monétaire
pour l’entreprise .
Le choix des variables répond également à l’objectif de notre recherche et à la disponibilité des
données nécessaires permettant de les mesurer. Nous extrapolons le profil du bon client à partir
de ces données, pour cela nous disposons d’une variété de données qui sont dispersées comme
suit:
19
Les variables utilisées à terme pour effectuer notre modélisation sont présentées dans le tableau
suivant : titre du tableau ????
Variables Description de la variable Type origine Rôle
Customer number Identifiant unique Identifiant DMT_CUST id
Adresse Adresse de client Qualitative DMT_CUST Rejected

Customer name Le nom de l’entreprise Qualitative DMT_CUST Rejected
contact first name Prénom de celui qui a passé Qualitative
commande DMT_CUST Rejected
Contact last name Nom de celui qui a passé commande Qualitative DMT_CUST Rejected
Country Pays Qualitative DMT_CUST Rejected
Zip_code Code postale Qualitative DMT_CUST Input
Email_adresse Adresse email Qualitative DMT_CUST Rejected

Phone number Numéro de téléphone Qualitative DMT_CUST Rejected
url Adresse web Qualitative
DMT_CUST Rejected
Language Lagunage Qualitative
DMT_CUST Input
20
Last pay date Dernier data de paiement Qualitative DMT_CUST Input
Last pur date Dernier date de passer commande Qualitative DMT_CUST Input
Nb_order Nb d’ordre de clients Quantitative
DMT_CUST Input
Channel contact Le canal de distribution Qualitative
DMT_CUST Rejected
Previous product Le produit qui l’a acheté avant Qualitative
DMT_CUST Input
Previous product category La famille de produit qui a acheté Qualitative
avant DMT_CUST Input
Origpur date La data origine de son premier achat Qualitative DMT_CUST Input
Profile class Le profil de l’entreprise Qualitative DMT_CUST Input

Status Le statut Qualitative
DMT_CUST Input
sales local net key code L’achat en euro Quantitative
DMT_CUST rejected
Sales us net key code Les achats en dollars Quantitative
DMT_CUST rejected
Sales rep name Le nom de responsable de vente Qualitative
DMT_CUST rejected
Top_FTB Un nouveaux client ou non Binaire
Créée input
Top_prospectable L’acceptation de client a être mailée Binaire
contacte
DMT_CUST input
par l’entreprise ou non
Top_order Valeur net de la charge

Binaire Créée rejected
Number of employees Nombres d’employées dans
l’entreprise Quantitative DMT_CUST input
Amount of capital Valeur de capitale de l’entreprise Quantitative DMT_CUST input
Duration Durée d'existence de l'entreprise Quantitative Recodée input

calculée à partir de l'année de
fondation
Contribution Valeur net des charges par client Quantitative Créée target
21
C’est la liste que nous avons retenue comme variables pour notre modèle. Parmi ces variables
certains ont été rejetés ou recodées pour éliminer le bruit. Pour le recodage, on crée des
modalités globales plus significatives pour certains traitements. On découpe la série visualisée
selon les discontinuités, Le nombre de classes résultant est un compromis entre l'allure de la série
et le nombre de classes initialement projeté. Cette discrétisation s'appuyant sur des seuils
observés est certainement la méthode de bon sens dans la mesure où elle produit des cartes
équilibrées graphiquement tout en épousant la distribution de la série. Ensuite on rejette les
variables d’origine qui était recodées ainsi on rejette encore les variables qui sont corréler a
l’achat comme top_order. En pratique, le choix des variables entrant dans le modèle se fait
généralement pas à pas, en commençant par rechercher et sélectionner la variable expliquant le
mieux la variable cible, puis en recherchant la seconde variable qui, jointe à la première,
explique le mieux la cible, etc. A ce stade, on dispose de notre base de modélisation. Une
méthodologie a été mise en place sous SAS Enterprise Miner, dans le but de convenir à la grande
majorité les jeux de données. C’est un système de fenêtre qui a facilité la tâche pour les data
analystes, il prend en charge plusieurs algorithmes et techniques pour créer les scores suivant
un processus bien ordonnées. On passe au début par la préparation des données qui représente,
en règle générale, l’étape la plus longue d’un projet de data mining.
Section 2 SAS MINER : présentation
Échantillonnage et préparation de données
Afin de prélever une partie représentative de nos données nous dévorons passer par
l’échantillonnage pour déterminer avec la plus grande précision possible la teneur moyenne en
divers éléments de notre ensemble. Pour1234568 clients dans la base DE qui ont passé
commande suite à un mailing de différents produit de National Pen pendant 24 mois , seulement
2222 d’entre eux 3.3 %, ont commandé du LPP suite à la réception d’un courrier. Le tableau ci-
dessous illustre cette disproportion pour le modèle ‘Response Rate’.
Target volume
0 1234568
22
1 1234
Nous pouvons par la suite étudier le déséquilibre de la variable à expliquer. Pour faire face à ce
défaut, on essaye d’augmenter la proportion des individus ayant passé commande, pour cela on
ré – échantillonne notre population de façon à avoir 70% de clients qui étaient non intéressés par
le mailing reçue et 30% qui ont passé commande. Ce traitement est fait pour assurer que n’ont
pas de biais sur ceux qui ont commandé.
Ensuite on partitionne notre base ré échantillonnée encore en deux parties, une pour
l’apprentissage de 60% pour ajuster le modèle et l’autre pour la validation de 40% pour
confirmer au premier lieu la méthode statistique.
30% top_order=1 40%

apprentissage
70%
60%
top_order=0
Validation
Traitement des valeurs manquantes
Dans toutes les sciences les données manquantes sont partout, ce qui nous mène à perdre de
l’information et ensuite avoir un certain biais dans notre estimation, pour cela il est nécessaire de
considère le traitement des valeurs manquantes comme étape primordiale pour garder la
précision et l’exactitude de nos prédictions. La stratégie de traiter ce problème ce diffère en
fonction des natures variables et de la quantité.
L’équipe CIT fixe toujours un seuil pour les valeurs manquantes, dans notre modèle Customer
toute variable qui a la valeur de 80% de valeurs manquantes est rejeté par défaut par le logiciel
sas Miner lors de l’importation de bases de modélisation.
23
Cependant pour le reste des variables sa nature peut dépendre a la façon comment traiter cette
variable. Pour cela, nous faisons la séparation comme suit :
 Les variables quantitatives qui ont plus de 10% de valeurs manquantes

 Les variables quantitatives qui ont moins de 10% de valeurs manquantes
 Les variables qualitatives
Pour assurer le bon traitement, nous utilisons le logiciel sas miner vu au nombre des nœuds
capable de traiter ces variables différemment et convenablement.
La préparation des données représente, en générale, l’étape la plus longue d’un projet de data
mining. Les fonctionnalités interactives de préparation de données de SAS Enterprise Miner
permettent d’optimiser la gestion des valeurs manquantes, de filtrer les valeurs aberrantes et de
définir des règles de segmentation. Ces fonctionnalités incluent l’importation, l’ajout et la
suppression de variables. Les nombreuses fonctions d’agrégation et d’exploration interactives de
données permettent d’analyser de grandes quantités de données dans des graphiques
multidimensionnels à liaisons dynamiques. Pour cela SAS propose la suite de méthodologies
d’analyses prédictives la plus complète du marché ainsi que des fonctions interactives de
visualisation. Elle permet aux utilisateurs d’explorer et d’exploiter les données efficacement et
de créer une plus-value décisionnelle stratégique métier. On aura par conséquent une vue
intégrée et complète des données.
Le schéma suivant illustre l’enchainement des nœuds sur sas Miner, il décrivait La
transformation de données brutes en informations utiles.
Titre de la figure et numéro
24
25
Cet outil nous permet de créer un scénario bien organisé, à partir de notre base de modélisation
jusqu’à la création de notre score. Nous commençons par décrire l’importation de notre base de
modélisation, c’est là où nous pouvons modifier les rôles des variables , entre variables
explicatives et variables à expliquer passant à celle qui sont à rejeter avec l’aide de nœud «hide
rejected» qui nous permet de rejeter les variables qui ont des valeurs manquantes plus que 80%
.Ensuite pour l’échantillonnage de la variable à expliquer ainsi que le partitionnement, nous
utilisons le nœud «data partition» qui fait séparer notre base en deux échantillons d’apprentissage
et validation comme décrit précédemment.
Le nœud «trimming » nous permet de travailler sur les valeurs extrêmes. Il remplace les valeurs
des variables numériques supérieures au 99ème percentile par la valeur du 99ème percentile.et
pour les nœuds«optimal benning» et «impute», ils sont responsables de traiter ensuite les valeurs
manquantes. Le nœud optimal benning crée des classes pour les variables quantitatives ayant
plus de 10% de valeurs manquantes ainsi on fait l’imputation avec le nœud impute.
Le traitement des autres variables se fait à l’aide des nœuds «optimal binning» et «impute». Nous
découvrira les autres nœuds a fur à mesure avec nos résultats.
Méthodes statistiques
Avec le traitement effectué antécédemment, SAS miner nous donne l’occasion de faciliter la
communication des résultats. Il nous permet d’évaluer et tester plusieurs méthodes statistiques
vu en cours. Un nœud de seuil permet aussi d’analyser la répartition des probabilités a posteriori
afin d’identifier les mesures optimales à mettre en œuvre, et de résoudre la problématique métier
en question. Ce fait est considéré comme étant une force pour ce logiciel, pour gagner du temps
ainsi l’efficacité vu au nombre de modèles réalisés chaque année. Etant maitre des paramètres de
chacune des méthodes programmées dans le logiciel, On doit bien les connaître afin de pouvoir
analyser les résultats.
Pour créer nos scores Contribution, nous utilisons et comparons les performances de plusieurs
méthodes statistiques telles que la régression logistique, les SVM (Support Vector Machine), le
gradient boosting, les arbres de décisions, les forêts aléatoires et les réseaux de neurones.
On peut tester ces méthodes de modélisation en utilisant différents critères de sélection tels que
l’erreur quadratique moyenne, la courbe ROC etc...Dans cette partie, nous présentons deux
26
méthodes, les forêts aléatoires et les réseaux de neurone celles qui sont plus pertinentes et qui
ont abouties également aux meilleurs modèles. En annexes seront développées les autres
méthodes utilisées.
Les réseaux neurones
Les réseaux de neurones, est un outil statistiques utilisé pour résoudre des problématiques de
classification. C’est un système dont la conception est à l'origine schématiquement inspirée du
fonctionnement des neurones biologiques, et qui par la suite s'est rapproché des méthodes
statistiques. C’est l’un des techniques les plus sophistiquées de modélisation et de prévision qui
calcule une somme pondérée des signaux qu'il transforme à l'aide d'une fonction mathématique f
.
Les neurones reçoivent des signaux en provenance de différentes sources et sont appelées les
variables d'entrée x .Les entrées arrivent aux neurones par l'intermédiaire d'une connexion avec
une certaine force, connue sous le nom de poids. L'importance d'un poids est représentée par une
valeur. Plus la valeur d'un poids est importante, plus l'intensité du signal entrant est forte, et
donc, plus l'entrée correspondante est influente.
Numéro de la figure et titre ????
Le nombre d'unités d'entrée et d'unités de sortie est déterminé en fonction de notre modèle. La
variable cible est censée dépendre des entrées donc son choix est clair. Si nous intégrons des
entrées qui n'ont pas véritablement de lien avec la variable cible, nous pouvons par exemple
détériorer sans nous en rendre compte la performance du réseau de neurones c’est pour ça Il faut
savoir que le choix d'un nombre suffisant de bons prédicteurs est d'une importance cruciale pour
la modélisation prédictive.
27
La sortie d'un neurone sera la prévision de notre modèle à un seul neurone pour une variable du
jeu de données, c’est la variable contribution qu’on cherche à prédire, le nombre d’entrées sera 6
neurones.
On trouve ainsi d’autre couches dites cachés qui participe au Transfer entres les entrées et les
sorties.
On choisit de même notre fonction mathématique qui est nécessaire pour L'activation
desneurones. Elle est utilisée aussi pour convertir la somme pondérée des signaux en couches
sortie du neurone. Par conséquent notre fonction d’activation se présente comme suit.
(𝛼0+ Σ𝛼𝑗𝑥𝑗)
Nous serons capables de transformer les signaux émis par les neurones de la couche précédente
à l'aide de cette fonction. Cette dernière peut profondément influer sur la performance du réseau.
Il est donc important de bien choisir de type de fonction d'activation des neurones dans un réseau
de neurones.
On parle de phase d’apprentissage : les caractéristiques du réseau sont modifiées jusqu’à ce que
le comportement désiré soit obtenu.
L’apprentissage du réseau de neurones s’effectue à partir d’un échantillon de la population à

étudier, les individus de l’échantillon lui permettant d’ajuster le poids des connexions entre les
nœuds. Lors de l’apprentissage, la valeur renvoyée par le nœud en sortie est comparée à la valeur
réelle et les poids de tous les nœuds sont ajustés de façon à améliorer la prédiction. L’échantillon
d’apprentissage est parcouru de nombreuses fois ainsi l’apprentissage s’achève
Lorsqu’une solution optimale a été trouvée et que les poids ne sont plus modifiés
significativement, ou lorsqu’un nombre d’itérations fixé a priori a été atteint. À l’issue de cette
étape, le réseau forme une fonction associant les variables entre elles.
On augmente le pouvoir de prédiction en ajoutant une ou plusieurs couches cachées entre les
couches d’entrée et de sortie. Bien que le pouvoir de prédiction augmente avec le nombre de
couches cachées et de nœuds dans ces couches, ce nombre doit néanmoins être le plus petit
possible, afin que le réseau de neurones puisse se généraliser, en évitant le « sur-apprentissage ».
28
Ceci arrive notamment lorsque la taille de l’ensemble d’apprentissage est trop faible par rapport
à la complexité du modèle.
Avantages : les réseaux de neurones ont pour avantage de posséder une puissance de
modélisation importante. Ils sont robustes et performants.
Inconvénients : le frein majeur des réseaux de neurones est sans doute leur aspect « boîte noire
». Il est compliqué d’interpréter le modèle et d’obtenir l’influence de chaque variable explicative.
Par ailleurs, les paramètres sont délicats à régler et les réseaux de neurones requièrent une
importante puissance informatique.
1. Les Forets aléatoires
Les forêts aléatoires ont été formellement proposées en 2001 par Leo Breiman et Adèle Cutler.
Elles font partie des techniques d'apprentissage automatique. Cet algorithme combine les
concepts de sous-espaces aléatoires et de bagging. L'algorithme des forêts d'arbres décisionnels
effectue un apprentissage sur de multiples arbres de décision entraînés sur des sous-ensembles de
données légèrement différents. Cette méthode a été introduite par Breiman (2001), comme une
amélioration de la technique du bagging.
L'idée est d'introduire la randomisation dans le choix des variables dans les modèles CART, afin
rendre les arbres plus indépendants.
Considérons un échantillon observé S = {(w1, z1), (w2, z2), ..., (wn, Zn)}.
Comme pour le bagging, cette méthode consiste à construire un ensemble de classifieurs de type
arbres de classifications {h1,h2,..., hr} où chaque arbre ht est obtenu à partir d'un échantillon
bootstrap St issu de S .Le point sur lequel les deux 87 méthodes diffèrent est la façon de choisir
les variables de partitionnement lors de la construction de chaque arbre de décision. En effet,
pour le bagging, chaque variable de partitionnement est choisie parmi toutes les autres variables,
selon une fonction d'homogénéité. Alors que pour les forêts aléatoires, lors de chaque division
d'un nœud, on génère aléatoirement un ensemble de q variables parmi les p variables existantes.
29
On utilise ensuite une fonction d'homogénéité pour choisir la variable de partitionnement parmi
les q variables. La construction d'une forêt aléatoire s'effectue comme suit :
Pour t = 1..T :
- Tirer un échantillon bootstrap St de l'échantillon initial S.
- Construire un classifieur ht de type arbre de décision, tel qu'à chaque division d'un nœud, on
sélectionne aléatoirement un ensemble de q variables parmi les p variables exogènes Z1,.., ZP.
Ensuite on choisit la variable de partitionnement parmi les q variables sélectionnées. À l'issue de

ce processus, on obtient T classifieurs.
Comme pour le bagging et le boosting, il est possible d'obtenir les scores de propension à l'aide
des forêts aléatoires en calculant la moyenne des scores de propension sur tous les arbres.
Excepté la régression logistique, L'avantage des méthodes basées sur les arbres est qu'elles
permettent de sélectionner automatiquement les variables ainsi que les termes d'interaction à
inclure dans le modèle, ce qui n'est pas le cas de la régression logistique (Luellen et al. 2005).
les méthodes basées sur les arbres donnent de meilleurs résultats en matière de balance des
covariables dans les groupes de traitement comparativement à la régression logistique qui ne 88
permet pas de détecter des interactions dans le modèle. Toutefois, un bon choix de covariables
dans un modèle de régression logistique permet d'obtenir une bonne estimation du score de
propension.
2. Scoring
Apres avoir appliqué les différentes méthodes statistiques, on a intérêt à expliquer la notion de
Scoring. Vu que sas miner fait la liaison de tous ces éléments, il est primordiale de comprendre
comment fonctionne le nœud Scoring et qu’est-ce qu’elle fait exactement pour notre variable à
expliquer d’un point de vue statistique théorie.
La méthode de Scorings’agit en effet d’une méthode simplement basée sur des outils
géométriques et statistiques. Elle se présente en effet comme un ensemble de méthodes
permettant de classer un individu dans l’un des groupes définis à priori et ce au vu de certaines
30
caractéristiques de cet individu.Il s’agit bien d’une méthode de classement statistique comme elle
est basée sur un traitement statistique des données issues d’un échantillon d’individus.
Dans notre cas, notre score de contribution est une mesure de la propension d’acheter d’un
client. En pratique, on utilise notamment ce type de score pour apprécier la probabilité d’un
client d’être intéressé à passer une commande.
La mise en place d’un système de Scoring passe par un certain nombre d’étapes qu’il convient de
réaliser, par rapport à un système de notation subjective, le Scoring statistique présente les
avantages suivants :
- Evaluation quantitative de la probabilité d’appartenance ce qui permet d’ordonner les

individus. Caractère immuable (fixe) des résultats
- Cohérence des résultats : deux individus ayant les mêmes caractéristiques auront le même
score.
- Caractère explicite : méthodologie d’évaluation pouvant être clairement présentée.
- Prise en compte de plusieurs facteurs de risque.
- Aptitude d’être testée au préalable
- Explication du lien existant entre le niveau de risque et les facteurs de risque
- Aptitude à donner lieu à des calculs sur les effets sur la rentabilité de l’entreprise.
Pour générer notre score on utilise le nœud score sur sas miner et qui permet de calculer un score
à partir du modèle choisit par le nœud model comparaison. Ce score sera sous forme d’un
programme sas qu’on peut l’utiliser et l’appliquer sur l’ensemble de clients potentiels.
La prédiction Yˆ est généralement obtenue en comparant le score d’un individu à un seuil. Dans
le cas binaire (K = 2), nous avons vu deux types de fonction score S qui permettent de donner
une note a une observation x ∈ R p :
- Le score S(x) = Pˆ(G1 | x) que l’on compare généralement au seuil s = 0.5.
Ces probabilités a posteriori peuvent être estimées par régression logistique, par les méthodes
LDA, QDA....
31
- Le score S(x) = βˆ 0 + βˆ0x que l’on compare généralement au seuil s = 0.
Par exemple, βˆ 0 et βˆ pour la méthode LDA ou encore obtenus par maximum de vraisemblance
en régression logistique.La règle de décision est alors :
yˆi = 1 si S(xi) ≥ s,
0 si S(xi) < s,
Si l’on modifie le seuil s, on modifie la règle de d´décision, la matrice de confusion, et donctous

les indicateurs présentés précédemment (taux d’erreur, spécificité, sensibilité...). On mesure
souvent visuellement de l’efficacité d’un score S indépendamment du choix du seuil à partir de
la courbe ROC (Receiver Operating Characteristic) et numériquement à partir de l’AUC (area
under the curve).
32
Conclusion de chapitre:
L’objectif de ce chapitre est de déterminer les caractéristiques ou les variables propres aux
clients qui peuvent aider à la construction du modèle. Pour ce faire, nous avons d’abord présenté
les différentes bases de modélisation et de validation ainsi que les différentes variables et leurs
rôles pour le modèle. Nous nous sommes intéressés en particulier à la préparation de notre base
de modélisation passant par l’échantillonnage et le partitionnement ainsi que le traitement des
valeurs manquantes. Ensuite, nous avons présenté la revue de la méthodologie de Sas Miner et
l’enchainement des nœuds dans notre cas. Enfin, à travers la théorie, nous avons essayé de
déterminer les caractéristiques des modèles statistiques utilisées. Ce cadre théorique nous
permet de mettre en valeurs les composantes principales dans la création de notre modèle. Ce
développement fera l’objet du chapitre 3 de ce rapport.
33
Chapitre 3 : Modèle contribution : validation empirique

Introduction
L’objectif de ce chapitre est de montrer la pertinence du notre modèle ainsi notre note de score.
Nous tentons à voir dans quelle mesure notre méthode statistique choisie est validée. Dans une
première section, nous faisons la comparaison des résultats issue de sas miner, en utilisant les
différentes méthodes statistiques. En second temps, noux comparons ces résultats sur l’ensemble
de la population. Par la suite, nous étudions notre variable à expliquer. Enfin, nous essayons de
généraliser les résultats issus de sas miner pour valider notre modèle contribution. A cette fin,
nous menons un cas pratique où nous appliquons notre modèle pour sélectionner une liste de
Customer les plus attractives pour une compagne de mailing. Ce développement fera l’objet de la
deuxième section de ce travail. En se basant sur ces résultats, nous achevons ce travail par
quelques recommandations pour le marketing manager.
Comparaison et validation du modèle
Pour comparer toutes les méthodes testées, il existe un nœud ‘model comparaison’ sous Miner
qui classe les modèles selon leurs performances à l’aide de plusieurs indicateurs statistiques . Il
sélectionne le modèle le plus performant en fonction de critères définis comme AIC, erreur
quadratique moyenne, ROC, Gini, KS, taux de mauvaise classification, taux de vrais positifs, etc
Ainsi, nous utilisant des indicateurs métier qui nous aide à bien choisir notre modèle. Le critère
principal de comparaison que l’on utilise est le pourcentage de réponses cumulé. Plus celui-ci est
élevé, plus le modèle est bon.
Indicateurs statiques
Erreur quadratique :
L’erreur quadratique moyenne est l’un des indicateurs le plus pertinent en statistiques ainsi pour
notre logiciel, c’est une mesure caractérisant la « précision d’un estimateur. Pour le calculer les
erreurs individuelles sont tout d'abord élevées au carré, puis additionnées les unes aux autres. On
34
divise ensuite le résultat obtenu par le nombre total d'erreurs individuelles, puis on en prend la
racine carrée. Cette erreur nous donne une mesure synthétique de l'erreur globale dans une seule
valeur, c’est une grandeur permettant de comparer des estimateurs entre eux, qu’ils soient
biaisés ou sans biais. Elle est définie de la manière suivante :
EQM(T) = E[(T - θ)2]
On démontre facilement qu’on peut relier l’erreur quadratique moyenne, l’espérance et la

variance d’un estimateur par l’expression suivante :
EQM(T) = var(T) + [E(T) - θ]2 = var(T) + B(T)2
En particulier, l’erreur quadratique moyenne des estimateurs sans biais est égale à leur variance
.Lorsqu’on compare deux estimateurs, on considère que le meilleur est celui qui présente l’erreur
quadratique moyenne la plus faible. Le tableau suivant présente la façon comment sas miner met
en ordre ces méthodes en les classant par indicateurs statistique, Le meilleur modèle en sortie
était le modèle effectue par la méthode des forets aléatoires comme il le montre le tableau :
Il s’agit d’estimer et de minimiser les erreurs quadratiques de prévision ou encore des taux de
mal classées, ce tableau montre bien que la méthode des forets aléatoires est celle qui a été
sélectionné par sas miner
35
forets aléatoires :
Caractéristique :
On peut visualiser la courbe de distribution obtenue par la méthode des Forêts Aléatoires sur
l’échantillon d’apprentissage (Train) et de validation (validate) :
Titre et numéro de la figure
Cette courbe présente comment s’interprète le score en apprentissage et validation par rapport à
une courbe de référence. Le tracer de cette courbe fait varier le seuil de la probabilité pour
évaluer comment se comporte les caractéristiques de sensibilité et spécificité du modèle. Plus la
courbe rouge s’approche de celle de référence (qui est en bleu) plus le score est performant pour
notre modèle de contribution.
Variable explicative du modèle:
36
Comme décrit antécédemment la méthode des forets aléatoires peut nous fournir, à travers sa
nœud en sas miner, la liste des variables qui s’interviennent le plus dans la construction de
modèle.
Ces variables explicatives finalement retenues pour modéliser la variable cible est généralement
très réduit aussi bien efficace pour construire notre modèle . On remarque là les variable
nb_orders et la variable duration sont les plus importants pour le modèle ainsi la variable nace_2
qui a été recodée comme présenté ci-dessus :
Titre du tableau et numéro
Il se peut parfois que le meilleur modèle sélectionné face du sur-apprentissage et ne s’applique

finalement pas très bien dans le temps c’est pour ça on essaye de tester les autres modèles pour
prendre des garanties vis-à-vis de notre travail. Nous verrons dans la partie qui suit une autre
méthode statistique, les réseaux neurones.
37
Réseaux neuronnes :
Titre et numéro des deux figures
Les réseaux de neurones sont des boites noires qui nous donnes aucune indication sur les
variables qui interprètent le plus à l’estimation, nous avons un graphique bien détaillé qui
illustre la structure des couches fournit par sas miner qui nous décrit la notion des neurones
décrite précédemment. On a fixé le nombre de neurones à 6 comme présenté :
Titre et numéro de la figure
38
Les techniques issues de l’intelligence artificielle marquent principalement l’originalité du data

mining par rapport à la pratique statistique. L’argument commercial reste parfois imposant dans
l’entreprise pour la recherche d’une pépite de connaissance mais c’est celui qui pose aussi le plus
de problèmes de validation, nous tenons alors à étudier les caractéristiques des méthodes
utilisées sur le plan professionnel, il est donc judicieux de vérifier « dans le réel » sa capacité à
améliorer la performance commerciale.
Indicateurs métier
A l’aide du nœud « score », nous avons pu extraire le programme de construction du score et

nous l’avons appliquée sur notre base de « back analysis » sous SAS Enterprise Guide, afin
d’observer si le modèle prédit aussi bien la contribution dans le temps et notamment sur les
clients mailés la fin de 2017 et début 2018. Une fois le score est appliqué, nous cherchons a
étudié les interactions des variables entre elles , dans des cas différents et le rôle de chaque
variable à expliquer notre variable contribution, ainsi pour vérifier la stabilité des résultats issue
de notre modèle. Il est nécessaire de calculer quelques indicateurs clé qui nous aide à évaluer la
performance de notre modèle tel que :
-Volume : la volume de clients qui ont été maile pour chaque note de score
-Orders : le nombre de commande pour chaque volume qui ont une valeur de contribution
positive
39
-RR : Orders/ Volume c’est un rapport entre le nombre de commande et le volume total par
chaque note de score
-CPN : Contribution / Volume c’est le rapport entre la contribution et la volume total par chaque
note de score.
Tout d’abord, nous essayons de voir comment se comportent les modèles sur la base de back
analysis. Pour cela, nous regardons la stabilité des résultats dans le temps en appliquant notre
score crée pour valider notre modèle a priori, c’est une période différente de la construction du
modèle. Nous présentons nos indicateurs et les différents résultats par note de score allant de 1 à
10. Ensuite nous comparons nos résultats sur tout l’univers des clients disponibles dans DW
Costumers pour un nombre précis de mailing, en changeant à chaque fois la méthode statistique
utilisée.
En utilisant un proc FREQ du sas guide on obtient les résultats suivantes :
Foret aléatoires :
Titre du tableau et nom
Source du tableau ?
Régression linéaire :
40
contribut
Volume Orders RR CPN
ion
1 4,281 244 $ 18,882 5.70% $ 4.41
2 3,961 208 $ 16,349 5.25% $ 4.13
3 4,530 231 $ 14,805 5.10% $ 3.27
4 4,776 178 $ 11,215 3.73% $ 2.35
5 5,926 162 $ 8,475 2.73% $ 1.43
6 4,451 117 $ 7,732 2.63% $ 1.74
7 5,879 111 $ 5,752 1.89% $ 0.98
8 1,950 35 $ 1,831 1.79% $ 0.94
9 5,066 91 $ 3,058 1.80% $ 0.60
10 2,859 70 $ 4,867 2.45% $ 1.70
TOTAL 43,679 1,447 $ 92,967 3.31% $ 2.13
SOURCE DU TABLEAU ?
Réseaux de neurones :
contribut
Volume Orders RR CPN
ion
1 3,517 289 $ 25,695 8.22% $ 7.31
2 4,504 253 $ 19,424 5.62% $ 4.31
3 5,898 264 $ 17,584 4.48% $ 2.98
4 3,209 128 $ 8,700 3.99% $ 2.71
5 6,484 177 $ 8,577 2.73% $ 1.32
6 7,349 148 $ 8,723 2.01% $ 1.19
7 3,115 39 $ 1,292 1.25% $ 0.41
8 3,476 49 $ 814 1.41% $ 0.23
9 3,141 58 $ 1,734 1.85% $ 0.55
10 2,986 42 $ 425 1.41% $ 0.14
TOTAL 43,679 1,447 $ 92,967 3.31% $ 2.13
Ces tableaux nous permettent de voir nos indicateurs calculées et notre variable a expliquée
regroupées par note de score à travers 3 méthodes statique différente. L’analyse métier de cette
application consiste à regarder la hiérarchie du taux de réponses. Il doit être le plus élevé chez les
41
meilleurs clients du segment 1, et le plus faible pour ceux classés dans le dernier segment, c’est-
à-dire notre objectif c’est avoir une représentation dégressif de CPN en ordre descendant du
volume des clients notées 1 jusque ceux de la note 10.
Nous remarquons que la méthode statique 2 ne s’applique pas bien parce que la sixième note
est mieux que la cinquième, en plus, cette condition est valable jusqu’au segment 4 environ, ce
qui n’est pas le cas pour les autres modèles. Nous constatons que l’existence d‘accidents dans la
hiérarchie de la première et troisième méthode statistique au niveau de la note 9, mais l’écart est
négligeable par rapport au segment 8.
Si le modèle ne classe pas bien nos individus et ne respecte pas les règles de Scoring, et donc il
ne prédit pas bien la contribution. Nous remarquons que la première et la troisième méthode
respectent les règles décrites précédemment. Mais comme la vérification est aussi un outil
précieux pour évaluer la qualité des données, il était nécessaire de refaire nos tests sur tout le
potentiel, on a décidé alors de tester avec une deuxième manière une autre comparaison, tenant
en compte d’autre critères de sélection.
Validation
Il s’agit maintenant de finaliser le choix de notre modèle, on cherche à comparer les modèles
isopérimètres, c’est-à-dire au même nombre de mailings envoyés. Evidemment, le modèle pour
lequel le nombre de commandes sera le plus élevé sera celui que nous choisirons.
Nous avons choisi un volume proche de 50,000 mailings pour chacun des modèles. Nous avons
calculé la différence de volume entre le modèle 2. Ensuite, nous avons multiplié cette différence
de volume par le taux de réponses prévisionnel du segment suivant (Fct RR) pour obtenir le
nombre de commandes supplémentaires que nous aurons en envoyant le même nombre de
courrier pour tous les modèles. Puis pour terminer, nous additionnons le nombre de commandes
supplémentaires au nombre de commandes du segment fixé au départ.
TITRE DU TABLEAU
42
Methode 1(Réseauxde neurones)
Model 1
Volume Fct CPN Fct Contribution Cumul Volume Cumul Contribution
1 10000 $ 3.20 $ 32,000 10,000 $ 32,000
2 10000 $ 2.60 $ 26,000 20,000 $ 58,000
3 10000 $ 1.90 $ 19,000 30,000 $ 77,000
4 10000 $ 1.40 $ 14,000 40,000 $ 91,000
5 10000 $ 1.20 $ 12,000 50,000 $ 103,000
6 10000 $ 0.90 $ 9,000 60,000 $ 112,000
7 10000 $ 0.70 $ 7,000 70,000 $ 119,000
8 10000 $ 0.50 $ 5,000 80,000 $ 124,000
9 10000 $ 0.40 $ 4,000 90,000 $ 128,000
10 10000 $ 0.30 $ 3,000 100,000 $ 131,000
Source ?
Methode2 (Foret aléatoires)
Model 2
Volume Fct CPN Fct Contribution Cumul Volume Cumul Contribution
1 10753 $ 5.10 $ 54,840 10,753 $ 54,840
2 9646 $ 4.50 $ 43,407 20,399 $ 98,247
3 11492 $ 3.20 $ 36,774 31,891 $ 135,022
4 11858 $ 1.80 $ 21,344 43,749 $ 156,366
5 10366 $ 1.60 $ 16,586 54,115 $ 172,952
6 11947 $ 1.40 $ 16,726 66,062 $ 189,678
7 8724 $ 0.80 $ 6,979 74,786 $ 196,657
8 8108 $ 0.60 $ 4,865 82,894 $ 201,522
9 9502 $ 0.60 $ 5,701 92,396 $ 207,223
10 11690 $ 0.50 $ 5,845 104,086 $ 213,068
Validation :
Model 1 Model 2
Volume Mailed 50,000 43,749
Additional Volume - 6,251
Contribution $ 103,000 $ 156,366
Additional Contribution $ 10,002
Total Contribution $ 103,000 $ 166,368
43
Nous constatons que le 2 éme modèle apporterait plus de contribution que l’autre pour le même
nombre de mailings envoyés .Nous avons donc choisi de garder ce modèle. En effet, ce score
respecte tous les conditions nécessaires à la création d’un modèle : une bonne hiérarchie ainsi
qu’une grande dispersion entre les segments extrêmes .Enfin, après ces différentes comparaison
nous pouvons sauvegarder le bon score et l’appliquer afin d’aider le marketing mangers a la
prise de décisions.
B. Cas pratique et recommandation
Ce type de démarche nous a permis d’enrichir notre travail en exploitant la réalité du terrain en le
liant à la dimension théorique et empirique, nous tenons à vous expliquer un cas pratique qui
décrira le procès de sélection en détails.
Suivant un planning, une liste des mailings est attribuée entre les membres d’équipe pour un
délai précis. Des centaines de mailing sont envoyés par le monde entier. Pour se faire, nous
avons besoin d’un document dit pro-forma fournit par le marketing manger. Ce document nous
indique les détails du mailing : le produit, le pays, ainsi le budget. Nous avons besoin également
des références de mailing de l’historique pour le même produit ou pour un produit similaire.
Comme le passé est un élément très important pour prédire le future, nous avons intérêt au début
de regarder comment réagit notre modèle sur l’historique des mailings réalisées, ce qui peut
valider encore la performance de notre score. Avec l’aide de sas guide, nous avons abouti avec
différents fonctions de reporting à ces résultats :
Titre du tableau et source et numéro
44
Adcost
GB Volume Orders adcost SalesUSD contribution RR CPN
Ratio
1 1,927 180 $ 2,455 $ 35,760 $ 17,893 9.34% 7% $ 9.29
2 2,219 113 $ 2,872 $ 19,650 $ 8,105 5.09% 15% $ 3.65
3 2,484 121 $ 3,197 $ 19,956 $ 8,114 4.87% 16% $ 3.27
4 2,810 92 $ 3,582 $ 18,278 $ 6,569 3.27% 20% $ 2.34
5 3,232 98 $ 4,129 $ 15,891 $ 4,945 3.03% 26% $ 1.53
6 2,786 62 $ 3,492 $ 10,170 $ 2,390 2.23% 34% $ 0.86
7 4,309 70 $ 5,465 $ 11,346 $ 1,061 1.62% 48% $ 0.25
8 2,476 38 $ 2,798 $ 7,012 $ 1,257 1.53% 40% $ 0.51
9 2,236 28 $ 2,418 $ 4,861 $ 256 1.25% 50% $ 0.11
10 1,352 19 $ 1,542 $ 2,818 $ 71 1.41% 55% $ 0.05
TOTAL 25,831 821 $ 31,949 $ 145,743 $ 50,662 3.18% 22% $ 1.96
Ce tableau est basé sur deux mailing de DE de produit LPP nommée AX3 et BY2, avec 25,851
observations. Nous constatons que nous avons une bonne hiérarchie de CPN. Et que les
segments5 premiers segments ont une forte contribution par contre les segments 7, 8,9 ont une
contribution assez faible. Après nous projettons sur tout l’univers fessant référence au passée,
Pour voir la dispersion de volume pour chaque note de score, donc nous cherchons la hiérarchie
et la bonne répartition de volume en note de score. Nous pouvons sélectionner par la suite les
clients qui sont bien scorés par notre modèle, tout en respectant notre cible . Pour notre cas, nous
avons opté pour les sélections suivantes :
Titre du tableau et numéro et source (au dessous)
Prior Keycode Select1 Select2 Select3 Select4 Select5 Qty

ECZA01 BB 2016-2018 Previous Products: EBA 362
ECZA02 BBM 2018 Previous Products: EWC/ EWD / NTE / NUC Exclude Mail Numbers: ATTB CFCB WBKC WTEA score CAL 1-7 287
ECZA04 BBS 2017 Previous Products: EWC/ EWD / NTE / NUC Exclude Mail Numbers: ATTB CFCB WBKC WTEA score CAL 1-7 20
ECZA06 BBS 2016 Previous Products: EWC/ EWD / NTE / NUC Exclude Mail Numbers: ATTB CFCB WBKC WTEA score CAL 1-7 4
ECZA07 BBM 2018 Previous Products: EWC/ EWD / NTE / NUC score CAL 1-6 801
ECZA08 BBM 2017 Previous Products: EWC/ EWD / NTE / NUC score CAL 1-6 1,699
ECZA09 BBS 2017 Previous Products: EWC/ EWD / NTE / NUC score CAL 1-6 4
ECZA10 BBM 2016 Previous Products: EWC/ EWD / NTE / NUC score CAL 1-6 361
ECZA11 BBS 2016 Previous Products: EWC/ EWD / NTE / NUC score CAL 1-6 1
Pour commencer, notre modèle nous confirme que les clients nommées BBM (ceux qui ont
effectué plus que deux fois une commande) sont les plus attractifs pour l’entreprise, ils sont des
45
clients fidèles et la probabilité qu’il passe commande est très élevé, parce que ils sont bien note
par le modèle.
En second lieu, nous tenons à sélectionner aussi des clients qui sont ‘Previous’, c’est-à-dire qui
ont acheté un produit précis, une règle générale dit que si ce client a acheté ce produit
auparavant, le nouveau produit qui lui a été envoyée l’intéresse de même, c’est confirmé par le
modèle et encore par la connaissance métier. Ensuite, il est nécessaire de faire la coordination
entre les mailings c’est-à-dire, par exemple si un client a reçu un produit LPP depuis deux
semaines et ils n’a pas passé une commande, c’est évident d’assurer qu’il ne reçoit pas le même
produit. C’est pour ça ces clients ont apte a les identifier avec une variable qui prend 1 si il a reçu
un mailing x, 0 sinon. Ces clients sont appelles les ‘no match’.
Finalement après sélectionner les BBM, PREVIOUS, et no match qui ont la priorité d’être
mailées, on peut fouiller encore nos critères, tout en regardant notre score qui est capable
d’expliquer l’acte d’achat ainsi la contribution de chaque individus.
Ainsi lors d’un meeting avec le marketing manager, nous nous sommes mis d’accord sur ces
sélections, en lui expliquant notre démarche en particulier nos critères de choix. En outre, nous
comprenons bien leurs besoins qui sont traduit en chiffres, en criant une base de données qui
contiennent que des clients attractifs pour l’entreprise, prête à être mailée, et avec une certitude
de gain de l’argent par la suite. Ainsi, nous supposons que nous avons atteint notre objectif fixées
dès le début, passant par la création du modèle, la validation jusqu’à la sélection des clients
appétant.
Conclusion chapitre
En se basant sur le développement théorique que nous avons mené au chapitre précédent, ce
chapitre avait pour objectif de voir dans quelle mesure l’influence d’un score par rapport à
l’activité de l’entreprise en vue des indicateurs de performance. ?????
Deux parties l’ont composé. Dans la première partie, nous avons présenté les différents résultats
issues du sas miner, les différentes méthodes statistiques que nous avons utilisé et les variables
qui peuvent expliquer notre cible. Le traitement statistique par sas miner nous a permis de choisir
46
la méthode statique la plus performante d’un point de vue statistique et avec les différentes
indicateurs .
Dans la deuxième partie, nous avons cherché à vérifier nos choix en appliquant le savoir métier.
Les indicateurs métiers présentée dans cette partie les valeurs clés pour choisir notre modèle.
En effet, nous avons montré que la hiérarchie et la répartition par segments sont les règles à
suivre pour valider nos choix.
En particulier, nous avons montré par la suite, que tous les éléments analysés dans le présent
chapitre forment un ensemble cohérent pour la prononciation de recommandations pour le
marketing manager. Nous décrivant pour cela un cas pratique qui résume en réalité l’intérêt de la
création d’un score et son importance dans la prise de décision. En dernière analyse, nous
pouvons affirmer que l’analyse de données est un élément quasi présente au sein de l’entreprise
et les résultats tirés du data sont archi important pour le déroulement des campagnes ainsi la
réalisation des objectif fixées dès le début.
Conclusion générale:
L’objectif principal de cette mission était de mettre en place un score pour les clients de national
Pen, afin de les fidéliser. L’enjeu de ciblage est majeur dans le politique marketing de
l’entreprise puisqu’il participe à avoir de nombreux effets visibles sur la valorisation et la
rentabilité de son entreprise.
47
Il s’agissait de créer un modèle plus performant obligatoirement être mieux que celui de l’année
précédente avec une certitude qu’il soit robuste et vigoureux. En testant de nouvelles méthodes
ou en créant de nouvelles variables. Ainsi, nous avons pu tester différentes méthodes de
modélisation statistiques à savoir les forêts aléatoires, les réseaux de neurones, les machines à
vecteurs de support, la régression pénalisée LASSO ou encore la régression logistique. Ainsi,
nous avons créé des indicateurs avec un important pouvoir explicatif pour notre modèle.
Pour un domaine concurrentiel et en plein expansion les données évoluent beaucoup au sein de
l’entreprise, ce qui rend les modèles instable et ce qui amène l’entreprise à valoriser ces donnée
et l’incite a les bien exploiter pour atteindre ces objectifs. Ce stage nous a permis d’appréhender
la puissance de l’apprentissage artificielle à automatiser le processus métier au sein de
l’entreprise.
Contributions professionnelles : apports du stage et compétences

acquises
Ce stage de fin d’études au sein de l’entreprise National Pen nous a permis de découvrir des
nouvelles techniques et mécanismes permettant de fouiller un domaine d’actualité . Nous
pouvons citer la technique du scoring, la collecte des données et la maitrise de certains logiciels
de traitement des données les plus puissants sur le marché. Ces travaux nous ont permis aussi de
consolider mes connaissances dans le domaine de marketing et de commerce interentreprises et
d’analyse de données. Ainsi il nous a permis de découvrir une autre culture un autre rythme de
vie motivant, une expérience internationale très bénéfique et enrichissante dans ma carrière
professionnelle
Les limites de la recherche
Le modèle créer doit vérifier les normes de qualité en précision, c'est-à-dire la capacité du
modèle d’être bon sur les donnés du passé ainsi il doit être robuste capable d’être aussi bon sur le
future .pour être sure de se critère, il faut passer par l’étape de préparation de donnée l’étape la
plus longue dans un projet de datamining
48
Les limites méthodologiques que nous avons affrontées dans ce travail proviennent de différentes
méthodes existantes pour valider un modèle, le critère théorique et le critère métier.
Voies de recherche
L’intérêt d’un projet datamining se spécifie par son aspect opérationnel, l’efficacité de modèle
et des résultats issues ne peuvent être réellement vérifié qu’après l’analyse des ventes d’une
compagne c'est-à-dire au moment qu’on sera capable de comparer nos valeurs prédites par les
valeurs du temps réel. Les résultats nous permettent ainsi d’améliorer les méthodes à utiliser, les
variables explicatives ainsi que la variable à expliquer.
Lexique
Spring : campagne de mailing de janvier à août
Fall : campagne de mailing d’août à décembre
RR : Response Rate (taux de réponse)
NPL : National Pen Limited (Europe)
49
NPC : National Pen Corporation (US)
Contribution : montant total des ventes - coûts (produit/mailing/frais de port)
CPN : contribution par nom (contribution/nombre de mailings envoyés)
AOV : montant moyen d’une commande
RR : taux de retour
OOB : Out Of Bag, c’est l’indicateur permettant d’obtenir l’importance des variables lorsque l’on
modélise par la méthode des forêts aléatoires. Indicateur principal de mesure de la qualité des forêts
aléatoires.
Orders : Commande effectuée par un client.
Prospect : Entité qui n’est pas encore client et qu’on cherche à convertir en client
Broker : Fournisseur de base de données prospects.
Bibliographie
https://www.sas.com/content/dam/SAS/bp_fr/doc/factsheet/sas-enterprise-miner-
105994.pdf
Data Mining et Statistique Décisionnelle, Éditions Technip, 2005, 4e édition 2012,
préface de Gilbert Saporta
50
Data Mining and Statistics for Decision
Making, Éditions Wiley, mars 2011
Étude de cas en Statistique Décisionnelle, Éditions Technip, 2009 Computational Actuarial

Science with R
(Ouvrage collectif), Éditions Chapman &Hall, 2014
http://blogperso.univrennes1.fr/stephane.tuffery/public/Tuffery__Master_Rennes_2011-
2012_-_Data_Mining_-_Presentation.pdf
http://cedric.cnam.fr/~saporta/scoring.pdf
http://www.modulad.fr/archives/numero-38/Bardos-38/Bardos-38.pdf
http://www.bentley.edu/centers/sites/www.bentley.edu.centers/files/csbigs/Desbois.pdf
http://www.modulad.fr/archives/numero-30/desbois-30/desbois-30.pdf
https://support.sas.com/documentation/cdl/en/emcs/66392/PDF/default/emcs.pdf
51
Annexe2 : Organigramme NPL Bordeaux
53
Annexe 3 : Arbres de decision
Les arbres de décision sont des algorithmes de prédiction qui fonctionnent en régression et en
discrimination. Il existe différentes variantes pour construire des prédicteurs par arbres, nous
nous focaliserons sur la méthode CART qui est la plus courante et que nous avons utilisée pour
créer notre modèle de prospection.
On cherche à expliquer une variable qui peut admettre un nombre quelconque de modalités et
les variables explicatives peuvent être qualitatives ou bien quantitatives.
Dans notre cas, la variable à expliquer est une variable binaire représentant l’acte d’achat de
prospection (dans le cas du modèle ‘Response Rate’). Elle vaut 1 si le client a passé commande
suite à la réception du mailing de prospection et 0 sinon.
La méthode CART permet de construire un arbre de décision binaire par divisions successives
de l’échantillon en deux sous-ensembles. Contrairement aux autres méthodes de
segmentation, elle n’impose aucune règle d’arrêt de division des segments basée sur une
approche statistique.
A chaque étape, on cherche une nouvelle division : une variable et un seuil de coupure qui split
un nœud en deux nœuds fils. La sélection de ces paramètres s’effectue en optimisant un critère
qui mesure la pureté des deux nœuds fils. Plus les valeurs de la variable cible sont proches
(nœud homogène), plus la pureté est forte.
 En régression, on utilise souvent l’erreur pour sélectionner les coupures, à chaque étape on
choisit la variable explicative j et le seuil s qui minimise :
∑ (𝑌𝑖 − 𝑌̅1 )² + ∑ (𝑌𝑖 − 𝑌̅2 )²

𝑋𝑖 Є𝑅1 (𝑗,𝑠) 𝑋𝑖 Є𝑅2 (𝑗,𝑠)
1
où 𝑌̅𝑘 = ∑ 𝑌, = 1,2. Cet indicateur correspond à la moyenne des Yi qui
|𝑅𝑘 (𝑗,𝑠)| 𝑋𝑖 Є𝑅1 (𝑗,𝑠) 𝑖 𝑘
tombent dans le nœud.
On calcule la somme des écarts à la moyenne, c’est ce qui mesure la pureté d’un nœud.
 Dans notre cas, en discrimination, on utilise souvent le taux de mal classés pour
sélectionner les coupures, à chaque étape on choisit la variable explicative j et le seuil s qui
minimise :
∑ 1(𝑌𝑖 ≠𝑌̂1 )² + ∑ 1(𝑌𝑖 ≠𝑌̂2 )²
𝑋𝑖 Є𝑅1 (𝑗,𝑠) 𝑋𝑖 Є𝑅2 (𝑗,𝑠)
où 𝑌̂𝑘 représente le label majoritaire dans le nœud Rk(j,s).
Outre le choix de la découpe, c’est le critère d’arrêt qui est important pour les performances
d’un arbre. Les nœuds sont déclarés terminaux soit parce que leurs tailles sont inférieures à un
effectif fixé, soit parce qu’ils ne nécessitent plus de divisions.
La profondeur d’un arbre régule le compromis biais/variance :

- Un arbre peu profond, c’est-à-dire avec peu de découpes, est considéré comme un
arbre stable avec peu de variance mais beaucoup de biais.
- Un arbre profond, avec beaucoup de découpes, est un arbre instable, avec beaucoup de
biais mais peu de variance. C’est dans ce cas-là que l’on risque de faire du sur-
apprentissage.
Avantages :
- Méthode simple relativement facile à mettre en œuvre.

- Fonctionne en régression et en discrimination.
- Les résultats sont interprétables (à condition que l’arbre ne soit pas trop profond).
Inconvénients :
- Méthode connue pour être instable, sensible à de légères perturbations de l’échantillon.

- Très rare que ce soit l’algorithme qui ait le meilleur résultat, ni la meilleure courbe ROC.
55
Annexe 4 : Gradient Boosting

Le boosting est une technique ensembliste qui consiste à construire un grand nombre de
classifieurs « simples » élaborés séquentiellement sur un échantillon que l’on agrège. Les poids
des individus sont corrigés au fur et à mesure. Chaque modèle intermédiaire construit permet
de réduire le coût du modèle agrégé global.
La descente du gradient est une technique itérative qui permet d’approcher la solution d’un
problème d’optimisation. En apprentissage supervisé, la construction du modèle revient
souvent à déterminer les paramètres du modèle qui permettent d’optimiser une fonction
objectif.
Soit un échantillon dn=(x1,y1),…,(xn,yn), λ un paramètre de régularisation tel que 0< λ≤1 et M le

nombre d’itérations.
1
1) 𝑔𝑜 (. ) = 𝑎𝑟𝑔𝑚𝑖𝑛𝑐 𝑛 ∑𝑛𝑖=1 𝑙(𝑦𝑖 , 𝑐) avec c constante qui minimise la perte
2) Pour m=1 jusqu’à M :

𝛿
- Calculer l’oppose du gradient − 𝛿 𝑙(𝑦𝑖 , 𝑔(𝑥𝑖 )) et l’évaluer aux points g_m-1 (x_i) :
𝑔 (𝑥𝑖 )
𝛿
𝑈𝑖 = − 𝑙(𝑦 , 𝑔(𝑥𝑖 ))|𝑔(𝑥𝑖 ) = 𝑔𝑚 −1 (𝑥𝑖 ) 𝑝𝑜𝑢𝑟 𝑖 = 1, … , 𝑛
𝛿𝑔 (𝑥𝑖 ) 𝑖
- Ajuster la règle faible sur l’échantillon (x1, U1),….,(xn,Un), on note hm la règle ainsi définie.
- Mise à jour : gm(x)=gm-1(x) + λhm(x)
3) Sortie : La règle𝑔̂𝑀 (𝑥) = 𝑔𝑀 (𝑥)
La sortie 𝑔̂𝑀 (𝑥) est un réel. Si on cherche àprédire le label de x, on pourra utiliser la règle
y=signe(𝑔̂𝑀 (𝑥))
Pour le choix λ=1 et l(y, g(x)) = exp(−yg(x)), cet algorithme coïncide quasiment avec
Adaboost.
Le choix de λ est lié au choix du nombre d’itérations M. Il « contrôle » la vitesse à laquelle on

1
minimise la fonction : 𝑛 ∑𝑛𝑖=1 𝑙(𝑦𝑖 , 𝑔(𝑥𝑖 ))
56
Lorsque λ augmente, M diminue et réciproquement.
Comme pour Adaboost, la règle utilisée dans l’algorithme doit être faible (légèrement meilleur
que le hasard) car booster une règle non faible se révèle généralement peu performant.Il est
recommandé d’utiliser une règle possédant un biais élevé et une variance faible (booster
permet de réduire le biais, pas la variance). On utilise souvent les arbres de décision comme
règle faible. Pour posséder un biais élevé, on utilisera donc des arbres avec peu de nœuds
terminaux.
Le choix de M, nombre d’itérations, est crucial pour les estimateurs boosting. Si M est trop
grand, on surajuste (estimateurs avec peu de biais mais beaucoup de variances) et
réciproquement si M est trop petit.
Une façon de choisir M est de minimiser la fonction de perte :
𝑀 = 𝑎𝑟𝑔𝑚𝑖𝑛𝐸[𝑙(𝑌, 𝑔̂𝑀 (𝑥))]
L’espérance ci-dessus étant inconnue en pratique, on peut l’estimer et sélectionner le nombre

d’itérations selon :
𝑛
1
𝑀 = 𝑎𝑟𝑔𝑚𝑖𝑛 ∑ 𝑙(𝑦𝑖 , 𝑔(𝑥𝑖 ))
𝑛
𝑖=1
L’échantillon a déjà été utilisé pour construire les estimateurs adaboost𝑔̂𝑀 , la moyenne
empirique est un estimateur biaisée de l’espérance. La solution à ce problème consiste à utiliser
des procédures de type apprentissage /validation, validation croisée ou Out Of Bag.
Avantage :
Méthode plus performante que le boosting classique.
Inconvénient :
Le paramétrage est particulièrement délicat puisque les paramètres sont nombreux. Le

changement d’un seul paramètre peut entraîner des changements considérables dans le
modèle.
57
Annexe 5 : Machine à vecteurs supports (SVM)

Une SVM (Support Vector Machine) ou Machine à Vecteurs Supports est une famille
d’algorithmes d’apprentissage supervisé pour des problèmes de discrimination ou de
régression. Il existe deux cas de SVM : la SVM linéaire où les données peuvent être séparables
ou non séparables, et la SVM non linéaire.
Exemple de discrimination binaire
Nouvelle entrée x, quelle sortie

lui prédire ?
1) SVM linéaire
1.1) Cas où les données sont séparables :
Cette méthode consiste à pouvoir départager les données par une frontière linéaire. Le
problème est qu’il existe une infinité d’hyperplans séparateurs, c’est-à-dire de règles de
discrimination linéaires potentielles.
Vapnik a proposé une règle de discrimination linéaire ayant les meilleures propriétés de
généralisation correspondant à l’hyperplan séparateur de marge maximale γ entre les
observations des deux classes. L’équation 〈w, 𝓍 〉 + b = 0 définit cet hyperplan séparateur de
vecteur orthogonal w.
Soit A et B, deux groupes à discriminer, cet hyperplan sépare bien ces groupes dans le sens où :
- la fonction f(𝓍)= 〈w, 𝓍 〉 + b est > 0 si et seulement si 𝓍 ∈ A

- la fonction f(𝓍)= 〈w, 𝓍 〉 + b est <= 0 si et seulement si 𝓍∈ B
Cet hyperplan doit être aussi le plus loin possible des observations, la distance d’une
observation à l’hyperplan est notée : |〈w, 𝓍 〉 + b| /||w||.
1
La marge γ, qui doit être maximisée, vaut : .
||𝑤||
58
Soit deux entrées (x1,x2) avec x1 dans A et x2 dans B, alors les sorties respectives sont y1=1 et
y2=-1. Trouver l’hyperplan séparateur de marge maximale revient à trouver le couple (w,b) tel
que :
1
- Pour tout i, sous la contrainte : yi (〈w,xi〉 +b) ≥ 1 , ||w||2 ou 2 ||w||2 soit minimal.
Il s’agit donc d’un problème d’optimisation convexe sous contraintes linéaires. Il existe un
optimum global, obtenu par résolution du problème "dual", avec la méthode des
multiplicateurs de Lagrange.
La solution du problème fournit une expression : 𝑤 ∗= ∑𝑛𝑖=1 𝛼𝑖 ∗ 𝑦𝑖 𝑥𝑖 d’où :
𝑓(𝑥) = ∑𝑛𝑖=1 𝛼𝑖 𝑦𝑖 (𝑥 ∗ 𝑥𝑖 ) + 𝑏, 𝛼𝑖 ≥ 0dont le signe indique la classe à laquelle il faut affecter

l’observation x.
Les 𝓍i tels que αi*> 0 sont appelés les vecteurs supports. Ils sont situés sur les frontières
définissant la marge maximale quand yi (〈w∗, 𝓍i〉 +b∗) = 1.
L’hyperplan ne dépend que de ces points supports et est donc que très faiblement influencé par
les valeurs aberrantes.
Représentation des vecteurs supports :
Hyperplan séparateur
Marge maximale
59
1.2) Cas où les données sont non séparables :
La méthode précédente ne s’applique pas si les données ne sont pas linéairement séparables.
De plus, elle est très sensible aux "outliers ".
La solution est d’autoriser quelques vecteurs à être bien classés mais dans la région définie par
la marge, voire mal classés.
Le principe des SVM reste similaire, mais il devient alors nécessaire d’ajouter un terme qui
mesure l’erreur de classement, puisque les deux classes ne sont pas totalement séparées mais
se recouvrent.
Ce terme, noté ξi, est défini pour chaque observation xi se situant du mauvais côté de la
frontière, il mesure la distance qui la sépare de la frontière de la marge du côté de sa classe.
On a alors la contrainte yi (〈w,xi〉+b) ≥ 1 qui devient yi (〈w,xi〉+b)≥ 1−ξi, avec ξi≥0.
- Si ξi∈[0,1], alors le vecteur est bien classé mais est situé dans la région définie par la
marge.
- Siξi>1, alors le vecteur est mal classé.
On parle de marge souple ou marge relaxée. Les variables ξi sont appelées les variables ressorts.
60
On rencontre un nouveau problème, les contraintes relaxées ne peuvent pas être utilisées sans
contrepartie sous peine d’obtenir une marge maximale infinie (en prenant des valeurs de ξi
suffisamment grandes). La solution est donc de pénaliser les grandes valeurs de ξi.
Le problème d’optimisation s’écrit de la manière suivante :
1
Minimiser en (w,b,ξ) : 2 ||w|2 + 𝐶 ∑𝑛𝑖=1 𝜉𝑖 , avec C>0
yi (〈w,xi〉+b)≥ 1−ξi,∀ i
Sous contraintes :
ξi ≥ 0
Il existe alors un paramètre C à ajuster. Il pénalise les erreurs et permet de contrôler

l’ajustement du modèle aux erreurs. Plus la valeur de ce paramètre sera grande, plus le modèle
sera sensible aux erreurs et plus l’ajustement sera parfait. Il convient de trouver un bon
compromis entre l’ajustement et la robustesse. La valeur de ce paramètre pourra être
déterminée par la validation croisée.
La solution du problème d’optimisation est donnée par :

𝑛
𝑤 ∗= ∑ 𝛼𝑖 ∗ 𝑦𝑖 𝑥𝑖
𝑖=1
b* tel que yi (〈w*,xi〉+b*)≥ 1,∀ xi , 0<𝛼𝑖 *<C

où α*=(α1*,…, αn*) est la solution du problème d’optimisation.
Les xi tels que les αi*>0 sont les vecteurs supports.
Deux types de vecteurs supports :
 Les vecteurs correspondant à des variables ressorts nulles situés sur les frontières de la
région définissant la marge.
 Les vecteurs correspondant à des variables ressorts non nulles ξi*>0 et dans ce cas
αi*=C.
Les vecteurs qui ne sont pas supports vérifient αi*=0 et ξi*=0.
61
Cette fois la représentation des vecteurs supports est la suivante :
1) SVM non linéaire
Exemple de données difficiles à discriminer linéairement
Une SVM linéaire donnera une très mauvaise discrimination avec un nombre de vecteurs
supports très élevé. On va donc utiliser la SVM non linéaire avec l’astuce du noyau.
L’idée de la SVM non linéaire est d’envoyer les entrées {xi, i=1,…,n} dans un espace H de
grande dimension, voire de dimension infinie, via une fonction ϕ, et appliquer ensuite une
SVM linéaire aux données {(ϕ(xi),yi),i=1,…,n}.
La fonction ϕ est appelée la fonction de représentation et l’espace H est appelé espace de

représentation.
62
La règle de discrimination de la SVM non linéaire ne dépend de ϕ qu’au travers des produits
scalaires de la forme <ϕ(xi), ϕ(x)>H ou <ϕ(xi), ϕ(xj)>H .
L’astuce du noyau consiste donc à connaitre la fonction k définie par k(x,x’)=<ϕ(x), ϕ(x’)>H qui
permet de lancer la SVM dans H , sans déterminer explicitement H et ϕ. Cette fonction k est
appelée noyau. Ce noyau est souvent plus facile à calculer que la fonction ϕ.
Les noyaux les plus courants sont :
- Le noyau polynomial : k(x,x’)=(<x,x’>+c)p

||𝑥−𝑥′ ||2
′) −
- Le noyau gaussien ou radial (RBF) : 𝑘(𝑥, 𝑥 =𝑒 2𝜎2
||𝑥−𝑥′ ||
−
- Le noyau laplacien : 𝑘(𝑥, 𝑥 ′ ) = 𝑒 𝜎
63

Rapport de Stage

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Rapport de Stage

Transféré par

Droits d'auteur :

Formats disponibles

Master 2

Construction d’un score mailing customer cas

Tuteur de stage: Benjamin Boraud

Tuteuracadémique: Ben Said Hayet

L’ensemble des données contenues dans ce rapport

Corrige la table des matières

Je tiens à remercier et à témoigner toute ma reconnaissance aux personnes

Monsieur Alex Boufflerd, directeur marketing Europe, pour son accueil et la

Madame Christelle Lassarade, responsable du service Customer intelligence, pour

Messieurs Nicolas,Raphaël, thomas et madame carole, ainsi que l’ensemble du

Je tiens également à remercier toute l’équipe pédagogique de l ESSECT et les

Aujourd’hui l’utilisation de l’apprentissage statistique se multiplie car les jeux de données se

L’intérêt ce projet provient de son originalité opérationnelle. En effet, la richesse en quantité de

Afin de répondre à notre problématique (rappeler la problématique), lors du troisième chapitre,

I. Chapitre1: presentation générale de l’entreprise

Depuis sa création en 1966, National Pen a connu progressivement un développement

Entre Fidélisation et acquisition de nouveaux clients, l’entreprise connait deux types de

B. Présentation de l’équipe Customer intelligence et les outils

1. Presentation des outils:

Datamart Customer : C’est la base de donnée la plus volumineuse puisqu’elle comporte

Datamart Mailings_Cust : Cette base de données comporte toutes les informations

En complément de SAS Enterprise Guide, l’équipe travail avec la suite de méthodologies

II. Chapitre2: construction du score customer : cadre

Section 1 Construction des différentes bases de modélisation et variables

Variables Description de la variable Type origine Rôle

Customer number Identifiant unique Identifiant DMT_CUST id

Adresse Adresse de client Qualitative DMT_CUST Rejected

Country Pays Qualitative DMT_CUST Rejected

Zip_code Code postale Qualitative DMT_CUST Input

Email_adresse Adresse email Qualitative DMT_CUST Rejected

Last pay date Dernier data de paiement Qualitative DMT_CUST Input

Profile class Le profil de l’entreprise Qualitative DMT_CUST Input

Top_order Valeur net de la charge

Amount of capital Valeur de capitale de l’entreprise Quantitative DMT_CUST input

Duration Durée d'existence de l'entreprise Quantitative Recodée input

Section 2 SAS MINER : présentation

Échantillonnage et préparation de données

30% top_order=1 40%

Traitement des valeurs manquantes

 Les variables quantitatives qui ont plus de 10% de valeurs manquantes

Titre de la figure et numéro

Les réseaux neurones

L’apprentissage du réseau de neurones s’effectue à partir d’un échantillon de la population à

1. Les Forets aléatoires

- Tirer un échantillon bootstrap St de l'échantillon initial S.

Ensuite on choisit la variable de partitionnement parmi les q variables sélectionnées. À l'issue de

- Evaluation quantitative de la probabilité d’appartenance ce qui permet d’ordonner les

- Le score S(x) = Pˆ(G1 | x) que l’on compare généralement au seuil s = 0.5.

- Le score S(x) = βˆ 0 + βˆ0x que l’on compare généralement au seuil s = 0.

Si l’on modifie le seuil s, on modifie la règle de d´décision, la matrice de confusion, et donctous

Chapitre 3 : Modèle contribution : validation empirique

Comparaison et validation du modèle

EQM(T) = E[(T - θ)2]

On démontre facilement qu’on peut relier l’erreur quadratique moyenne, l’espérance et la

EQM(T) = var(T) + [E(T) - θ]2 = var(T) + B(T)2

Titre et numéro de la figure

Variable explicative du modèle:

Titre du tableau et numéro

Il se peut parfois que le meilleur modèle sélectionné face du sur-apprentissage et ne s’applique

Titre et numéro des deux figures

Titre et numéro de la figure

Les techniques issues de l’intelligence artificielle marquent principalement l’originalité du data

A l’aide du nœud « score », nous avons pu extraire le programme de construction du score et

b* tel que yi (〈w,xi〉+b)≥ 1,∀ xi , 0<𝛼𝑖 *<C

Les vecteurs qui ne sont pas supports vérifient αi=0 et ξi=0.