Académique Documents
Professionnel Documents
Culture Documents
Question 1 : quelle taille dchantillon pour avoir une prcision 10 fois mieux ?
Vu que le nombre de visites est grand, nous pouvons utiliser la relation dintervalle de
P (1 P )
confiance pour lestimation de proportion niveau de 95% : d = 1,96 . Si lon
N
suppose que le taux de transformation estim P reste identique, alors la taille de
lchantillon N est proportionnelle linverse du carr de la prcision. Amliorer 10 fois la
prcision (diviser la prcision actuelle par 10) revient multiplier le nombre dchantillons
par le carr de cette valeur, qui est donc 100. Le nombre de visites ncessaires est alors :
100 15000 = 150000.
Question 7 : Baisse du CA a une prob de 10% par semaine > freq de 4 semaines
de baisse
- a priori, il est impossible de donner une rponse sans informations supplmentaires.
Toutefois, si lon suppose que les vnements sont indpendants, cest dire, que le
fait davoir une baisse pendant une semaine ninfluencera aucunement la baisse ou
non de la semaine daprs, alors il est possible de calculer la probabilit de 4
succs (dans le sens dpreuve de Bernoulli) successifs :
1
P = 0,1 0,1 0,1 0,1 = 0,0001 ce qui implique une frquence f = .
10000
- Cependant, il est peu probable que notre hypothse soit valide en ralit. En effet, le
fait quune entreprise connaisse une baisse du chiffre daffaire lors dune priode sous-
entend quil existe une srie de facteurs responsables de ce rsultat. Ceci motivera la
mise en place dactions stratgiques (spcifiques la situation) pour remdier au
problme. Par consquent, la probabilit conditionnelle de la baisse du CA pendant la
deuxime priode par rapport la baisse pendant la premire priode ne sera pas
gale 10%.
Lindexation est une tape importante dans un moteur de recherche. Elle permet
damliorer la rapidit et la prcision du processus de rcupration dinformation. Elle est
cependant prcde par une phase de connaissance de produit :
La classification du produit : Cest une partie importante dans le E-commerce o il est
trs recurrent dajouter de nouveaux produits au catalogue. Il faut donc automatiser la
tche travers des algorithmes de classification de machine learning (supervis). Lide
est qu lajout dun nouveau produit, il soit automatiquement associ la bonne
catgorie dans le systme dinformation.
La detection de qualit : une tape qui nest pas ncssaire mais qui peut amliorer la
pertinence du rsultat final propos lutilisateur. Il sagit ici de dterminer la gamme ou
la qualit du produit. Un ordinateur par exemple peut tre dentre de gamme, de
moyenne gamme ou de haute gamme. Ici encore, il sagit dun problme de
classification. Cela dit, une approche non supervise par clustering pourrait galement
apporter de nouvelles informations.
Le problme cest quil est impossible dvaluer un modle aussi complexe sur des
millions de produits pour dterminer leurs pertinences par rapport la requte entre. Par
consquent, lextraction se fait en deux temps : premirement, nous procdons
lextraction dun certain nombre (modr) de rsultats potentiellement pertinents grace
un algorithme dextraction plus simple et plus rapide (comme le TF-IDF ou autre), pour
ensuite leur appliquer le modle de Ranking (qui est plus prcis mais aussi plus coteux
en calcul) pour les ordonner.