Vous êtes sur la page 1sur 5

Cdiscount : Etude de Cas

Question 1 : quelle taille dchantillon pour avoir une prcision 10 fois mieux ?
Vu que le nombre de visites est grand, nous pouvons utiliser la relation dintervalle de
P (1 P )
confiance pour lestimation de proportion niveau de 95% : d = 1,96 . Si lon
N
suppose que le taux de transformation estim P reste identique, alors la taille de
lchantillon N est proportionnelle linverse du carr de la prcision. Amliorer 10 fois la
prcision (diviser la prcision actuelle par 10) revient multiplier le nombre dchantillons
par le carr de cette valeur, qui est donc 100. Le nombre de visites ncessaires est alors :
100 15000 = 150000.

Question 2 : % dindividus dans le groupe test est de 48%, est-ce normal ?


A priori, nous pouvons tre tents de rpondre oui. La loi des grands nombres nous dit
que plus la taille de lchantillon approche linfini plus le pourcentage observ se
rapprochera de la probabilit thorique de 50%, et 48% cest quand mme assez proche
de 50%. Cependant, la vraie rponse est Non ce nest pas normal. Il faut raisonner ici par
intervalles de confiances. Vu la taille de lchantillon, la marge derreur devrait tre
nettement infrieure 2% mme avec un niveau de confiance 99%. Le pourcentage
quon devrait observer se situe vers les 49,9% au lieu de 48%. Concrtement, si lon
suppose que notre estimation est de 48%, alors son intervalle de confiance 99% aura
une borne suprieure denviron 48,0015. Ceci implique que la valeur relle quon voudrait
estimer (la probabilit de 50%) a 99% de chances dtre infrieure 48,0015 ce qui est
absurde (dun point de vue statistique en tout cas). Il est mme possible de le vrifier
travers des simulations.

Question 3 : Intervalle de confiance du gain incrmental


Le gain incrmental est GI = Ptest Pcontrol = 0,0229. Pour trouver lintervalle de confiance
de cette caractristique, il suffit de trouver en premier lieu, les intervalles de confiance des
deux proportions Ptest et Pcontrol. Lintervalle de confiance de Pcontrol pour un niveau de
confiance de 95% est donn par [Pcontrol dcontrol, Pcontrol + dcontrol ], avec
Pcontrol (1 Pcontrol )
dcontrol = 1,96 , o Ncontrol est la taille dchantillon de contrle. De
Ncontrol
mme, lintervalle de confiance de Ptest est calcul partir de
Ptest (1 Ptest )
dtest = 1,96 . Pour trouver lintervalle de confiance de la diffrence, il suffit
Ntest
de combiner les deux intervalles de confiance. Nous trouvons donc les valeurs :
[0,0198 0,0260] (toujours pour un niveau de confiance 95%).

Question 4 : Facteurs de la saisonnalit du CA cDiscount

La saisonnalit du CA peut tre explique par plusieurs facteurs, parmi ceux-ci :


Priode des Ftes & Soldes : augmentation des ventes, surtout entre Dcembre et
Janvier (Nol + soldes dhiver).
La mto (ensoleill vs nuageux) : les gens ont tendances privilgier les magasins
physiques quand il fait beau. Ce qui implique une baisse au niveau du e-commerce.
Les lections prsidentielles : cest une priode dincertitude impliquant une rduction
du nombre dachats.
Rtention avant les pics : les consommateurs rservent leurs dpenses lors de
priodes qui prcdent les soldes, donc une baisse des ventes.
Les vnements sportifs : augmentation des ventes (surtout lunivers de limage et des
tlviseurs)

Question 5 : Comment dsaisonnaliser la srie temporelle

Question 7 : Baisse du CA a une prob de 10% par semaine > freq de 4 semaines
de baisse
- a priori, il est impossible de donner une rponse sans informations supplmentaires.
Toutefois, si lon suppose que les vnements sont indpendants, cest dire, que le
fait davoir une baisse pendant une semaine ninfluencera aucunement la baisse ou
non de la semaine daprs, alors il est possible de calculer la probabilit de 4
succs (dans le sens dpreuve de Bernoulli) successifs :
1
P = 0,1 0,1 0,1 0,1 = 0,0001 ce qui implique une frquence f = .
10000
- Cependant, il est peu probable que notre hypothse soit valide en ralit. En effet, le
fait quune entreprise connaisse une baisse du chiffre daffaire lors dune priode sous-
entend quil existe une srie de facteurs responsables de ce rsultat. Ceci motivera la
mise en place dactions stratgiques (spcifiques la situation) pour remdier au
problme. Par consquent, la probabilit conditionnelle de la baisse du CA pendant la
deuxime priode par rapport la baisse pendant la premire priode ne sera pas
gale 10%.

Question 10 : significativit de la diffrence entre p1 et p2


Les diffrences entre p1 et p2 sont significatives. Pour le vrifier, il suffit de conduire un
test de student pour comparer deux moyennes et de sassurer que la p-value est petite.
La diffrence entre p1 et p2 est de p1 p2 = 0,264. niveau de confiance de 99%,
lintervalle de confiance de cette diffrence est [0,211 0,317]. La capture suivante montre
les rsultats du test obtenus sous R :

Question 13 : Moteur de recherche E-commerce


Un moteur de recherche peut tre trs complexe selon la nature et la quantit des
donnes quil doit parcourir. Je me propose de prsenter un exemple simplifi de ce type
de systme en dcrivant certaines des fonctionnalits quil peut contenir. Ci-dessous,
larchitecture de la solution propose.

Globalement, le systme comporte 3 grands composants : Une premire partie ddie la


connaissance des produits et leur indexation (en bleu), une deuxime consacre la
comprhension de la requte de lutilisateur (en rouge) et une dernire qui soccupera
dordonner les rsultats selon une logique de priorit ou dimportance (en vert). A prsent,
je vais procder lexplication du fonctionnement et de lutilit de chacune de ces parties.

Lindexation est une tape importante dans un moteur de recherche. Elle permet
damliorer la rapidit et la prcision du processus de rcupration dinformation. Elle est
cependant prcde par une phase de connaissance de produit :
La classification du produit : Cest une partie importante dans le E-commerce o il est
trs recurrent dajouter de nouveaux produits au catalogue. Il faut donc automatiser la
tche travers des algorithmes de classification de machine learning (supervis). Lide
est qu lajout dun nouveau produit, il soit automatiquement associ la bonne
catgorie dans le systme dinformation.
La detection de qualit : une tape qui nest pas ncssaire mais qui peut amliorer la
pertinence du rsultat final propos lutilisateur. Il sagit ici de dterminer la gamme ou
la qualit du produit. Un ordinateur par exemple peut tre dentre de gamme, de
moyenne gamme ou de haute gamme. Ici encore, il sagit dun problme de
classification. Cela dit, une approche non supervise par clustering pourrait galement
apporter de nouvelles informations.

Feature Detection : En e-commerce, les requtes peuvent comporter plusieurs termes


faisant rfrence un produit particulier ET ses attributs. Par exemple : ordinateur
portable 13 pouces processeur 2,2 GHz. Il devient donc ncessaire de connaitre les
attributs des produits pour pouvoir les extraire ultrieurement.
Rating & Sentiment Analysis : Cette partie est volutive, dans le sens o elle doit tre
mise jour de faon priodique. Elle tient compte des avis des utilisateurs sur le produit
en question. La notation ainsi que la comprhension des commentaires ( travers du
NLP et de lanalyse de sentiment) peut ajouter une nouvelle dimension la
comprhension du produit.
Ces informations sont ensuite utilises dans le processus de lindexation, qui permettra
plus tard dextraire des produits pertinents par rapport la requte de lutilisateur. Les
fichiers dindexation sont stockes dans une base de donne.

La deuxime tape concerne la comprhension de la requte de lutilisateur. Nous


pouvons inclure plusieurs fonctionnalits ici :
La classification de la requte : elle permet de cibler directement les produits
correspondants lors de la phase dextraction. Il sagit dun problme de classification
classique.
La correction dorthographe et la suggestion : Cette proprit permet daccompagner
lutilisateur dans sa recherche soit en lui corrigeant les fautes dcriture, soit en lui
proposant une auto-compltion de sa requte. Ceci permet, entre autre, de guider
lutilisateur non inform. Toujours dans lexemple de lordinateur, un dbut de requte du
genre : ordinateur portable cran pourrait se voir complt par TN ou IPS qui sont deux
types de dalles pour ordinateur (destins des usages diffrents). Dun point de vue
commercial, cette approche permettrai aussi de diriger lutilisateur vers des requtes
susceptibles de gnrer un maximum de bnfice.
Lexpansion de la requte : tape assez importante, elle permet de reformuler la
requte de lutilisateur pour amliorer la performance de lextraction dinformation. Elle
permet par exemple, dinclure les synonymes des termes entrs dans la barre de
recherche pour inclure les produits similaires mais dcrits avec des mots diffrents. Ceci
est gnralement effectu travers un dictionnaire.
La classification de lutilisateur : Cette tape nest pas ncessaire, et ne concerne
pas la comprhension de la requte. Elle sadresse plutt lutilisateur lui mme pour
comprendre son profil et ses besoins dans une logique de recherche personnalise.
Toujours dans lexemple des ordinateurs, si nous savons daprs lhistorique des achats
de notre utilisateur quil fait du Gaming, alors quand il recherchera des ordinateurs, nous
pourront lui proposer des PC avec cran TN (qui sont plus adapts au Gaming que les
crans IPS).
La troisime partie, qui est de loin la plus populaire dans le domaine des moteurs de
recherche, sadresse aux modles de Ranking. Les algorithmes de Ranking viennent
typiquement du Learning to Rank qui est une sous-discipline (ou un champs
dapplication) du Machine Learning. Lide est, en ayant un ensemble de produits
correspondants une recherche, de trouver lordre adquat pour les prsenter.
Les donnes passes utilises pour lapprentissage du modle sont souvent de la forme
de plusieurs variables caractristiques dcrivants une paire requte - produit puis une
mtrique de performance pour dterminer la pertinence de la paire (i.e la variable Y
expliquer, qui peut se baser sur le CTR, le taux de conversion ou autre). Au final, nous
obtenons un modle qui accepte en entre une paire requte - produit et estime la
pertinence de cette paire (en gnrant une prdiction du score de la mtrique de
performance choisie). Les diffrents produits sont ensuite arrangs suivant leurs scores
prdits.

Le problme cest quil est impossible dvaluer un modle aussi complexe sur des
millions de produits pour dterminer leurs pertinences par rapport la requte entre. Par
consquent, lextraction se fait en deux temps : premirement, nous procdons
lextraction dun certain nombre (modr) de rsultats potentiellement pertinents grace
un algorithme dextraction plus simple et plus rapide (comme le TF-IDF ou autre), pour
ensuite leur appliquer le modle de Ranking (qui est plus prcis mais aussi plus coteux
en calcul) pour les ordonner.

Vous aimerez peut-être aussi