Vous êtes sur la page 1sur 4

Universit Joseph Fourier ISTG

Anne Universitaire 2001-2002 RICM 3 Systmes dInformation Dcisionnels Examen

Concepteurs : Dure : Remarques : Conseil :

Ahlame DOUZAL, Didier DONSEZ 2 heures Calculatrice et tout document autoris Lire le sujet jusquau bout.

Exercice 1: Modlisation dcisionnelle dun Entrept de Donnes pour le suivi des cybernautes dun site marchand Un site marchant sur Internet souhaiterait mieux connatre sa clientle afin de mieux cibler les offres promotionnelles en fonction du profil du client (visiteur) qui apparaissent dans les bannires des pages que consultent les clients. Un des buts ultimes de cette connaissance est le JIT (Just In Time) ECR (Efficient Customer Response) : cest dire ladaptation temps rel du
contenu des pages retournes au visiteur pour maximiser le terminaison dune visite par un achat. Suivi de lien sur un site Web aprs un mailing personnalis

Pour cela, la socit qui gre le site marchant souhaite mettre en place un entrept de donnes et sa ralisation vous est confie. Lentrept est aliment (en information) partir des journaux du serveur Web et du systme de prise de commande. Les journaux contiennent la liste des requtes HTTP. Chaque entre contient : La Date et heure de la requte de la requte LAdresse IP du visiteur Le cookie ID identifiant une session dun visiteur La page, le document ou le script demand Le type de la requete (GET ou POST) LURL de la page partir de laquelle le visiteur est entr sur le site (par exemple depuis du page de rsultat de recherche dun moteur de recherche comme Google, dune newsletter, ) Le navigateur (agent) utilis (usuellement Netscape ou Internet Explorer). Ces informations sont trop brutes pour tre utilis : elles sont compltes par les informations trouves dans le systme de prise de commande. Le schma de lentrept est constitu des bases suivantes :
Session(SessionKey,TypeSession, ComportementVisiteur) TypeSession peut etre SessionSansAchat , SessionAvecPaiement , Date(DateKey, Anne, Mois, JourDeMois, JourDeSemaine, TrancheHoraire, DrapeauVacances, ) Visiteur(VisiteurKey, AdresseIP, Nom, Prenom, FuseauHoraire, ) Produit(ProduitKey, Designation, Couleur, TypeProduit, ) Page(PageKey, ProfondeurDepuisLaRacine,TypePage) TypePage peut etre Information , Formulaire , ProfondeurDepuisLaRacine reprsente le nombre minimum de pages parcourir depuis la racine du site (www.sitemarchand.com) pour arriver jusqu la page. Rfrent(ReferentKey, URL, TypeReferent, ) TypeReferent peut etre Moteur de recherche Public, Magazine en ligne , Bannire sur un site sponsoris , URL Entre Manuellement Ou Bookmark, Interne , Moteur De Recherche Interne , Newsletter Promotion(PromotionKey, TypePromotion, )
Universit Joseph Fourier / ISTG / RICM3 / 2001-2002 / SID / Examen 1/ 4

Requete(SessionKey, Date, VisiteurKey, ProduitKey, PageKey, ReferentKey, PromotionKey, VisiteId, NombrePagesTraversesAvantLaPage, NombreSecondesPassesDansLaPage, MontantAchtDansLaPage) NombrePagesTraversesAvantLaPage est le nombre de pages du site marchant que le visiteur a traverses avant cette page. NombrePagesTraversesAvantLaPage=1 signifie que cest la premire page par laquelle le visiteur est arriv sur le site marchand (il arrive partir dun rfrent qui peut tre par exemple un moteur de recherche). MontantAchtDansLaPage peut tre positif, ngatif (retrait dun produit du caddie), zro (pas dachat).

Rappel Ex1: Rappelez le principe de chargement de l'entrept de donnes en commentant de 10 lignes un schma.
Voir cours

Ex2: Quelle est la table de fait dans cet entrept ?. Justifiez !


Requete (contient des cls trangres rfrenant les tables de dimension

Ex3: Pourquoi la visite nest pas une dimension (on trouve VisiteId dans Requete) ?. Justifiez !
c'est une dimension dgnre !

Dimensionnement Ex4: A partir des informations suivantes, Nombre de visiteurs par jour Nombre de requtes par visite Ration de visiteurs ayant dj frquent le site Ratio dachats par visite Nombre de jours Nombre de tranches horaires Donnez le nombre denregistrements de la table de fait.
Nombre denregistrements = 200000 * 10 * 1200 = 2 400 000 000

200 000 10 0,3 0,1 1200 48

Donnez la taille des attributs et des cls ?


4 octets pour les cls et les attributs

Donnez la taille dun enregistrement de la table de fait ?


44 octets

Donnez la taille (en Octets) de stockage de la table de fait?


89,40 Go

Donnez la taille dun index bitmap de la table de fait sur la colonne TypeReferent ?
La cardinalit de TypeReferent est 7 Taille = 2 400 000 000 * 7 / 8= 1,9 Go

Configuration Matrielle Ex5: A partir des rsultats du benchmark TPC/H (http://www.tpc.org/tpch/results/tpch_results.xls), choisissez la configuration matrielle et logicielle qui est la plus adapte votre infocentre pour une performance minimale de 1200 QphH ? Quels sont vos critres de choix ? Remarque : vous ngligerez la taille des tables de dimensions.
Compaq ProLiant 8000 1308 QphH (174 $QphH) Microsoft SQL 2000 Microsoft Windows 2000 III Xeon 550 MHz 228104 US$ Intel Pentium

Rapports Ex6: Donnez la requte SQL qui donne la moyenne du nombre de pages parcourues lors dune visite dans une session.
Universit Joseph Fourier / ISTG / RICM3 / 2001-2002 / SID / Examen 2/ 4

SELECT AVG(NbPagesVisite) FROM( SELECT Count(*) AS NbPagesVisite FROM Requete GROUP BY VisiteId )

Ex7: Donnez la requte SQL qui donne la montant moyenne des achats dans les sessions du type SessionAvecAchat .
SELECT AVG(MontantTotalVisite) FROM( SELECT VisiteId, SUM (MontantAchtDansLaPage) AS MontantTotalVisite FROM Requete NATURAL JOIN Session WHERE TypeSession=SessionAvecAchat GROUP BY VisiteId )

Ex8: Donnez la requte SQL qui donne la rpartition des ventes en fonction du type du rfrent de la premire page de la visite.
SELECT TypeReferent, SUM(MontantTotalVisite) FROM( SELECT VisiteId, SUM (MontantAchtDansLaPage) AS MontantTotalVisite FROM Requete NATURAL JOIN Session WHERE TypeSession=SessionAvecAchat GROUP BY VisiteId ) AS M JOIN ( SELECT VisiteId, TypeReferent FROM Requete NATURAL JOIN Referent WHERE NombrePagesTraversesAvantLaPage =1 ) AS T USING (VisiteId) GROUP BY TypeReferent

Conception Ex9: Donnez le schma de la table de fait dun second entrept dont un fait (enregistrement) reprsente une visite avec sa dure totale, le montant totale des achats et le nombre de requtes effectues Ex10: Donnez la taille en octets de cette table.

Universit Joseph Fourier / ISTG / RICM3 / 2001-2002 / SID / Examen

3/ 4

Problme 2 : Analyse des profils de navigation dun site marchand (10 pts)

On considre le tableau de donnes suivant issues de lentrept pour le suivi des cybernautes dun site marchand :
Visite S1 S2 S3 S4 S5 S6 Nb Page 10 4 12 5 3 7 Nb Click 2 9 3 7 10 3 Produit O M M F M O Dure 2 7 3 10 13 10 Action A N C N N C

Ce tableau donne la description des visites utilisateurs par : le nombre de pages visites (Nb Page), le nombre de clicks par page (Nb Click), le produit consult (Produit) de type O pour ouvrage, M pour musique ou F pour film, on admet quil ny a quun seul produit consult par visite, la dure moyenne de navigation par page en minutes (dure), et laction commerciale de type A pour achat, C pour commande ou N pour annulation. Q1- On se positionne dans lespace tri-dimensionnel dfini par les attributs NbPage , NbClick et Produit . Lesquelles des visites S1, S2 et S3 sont les plus similaires. Donner la description, dans ce mme espace, du nuplet S123 centre de S1, S2 et S3. Quel est le problme rencontr ?. Comment y remdier ? Q2- On se positionne dans lespace dfini par les dimensions Nb Page , Produit , Dure et Action . Les architectes du sites marchand considrent quun temps moyen de navigation suprieur cinq minutes ou un nombre de pages visites suprieur six nuit laction dachat ou de commande. Quels technique(s) et/ou codage(s) doit-on utiliser afin de vrifier la validit de cette assertion ?. Justifez. Q3- On se positionne dans lespace dfini par les dimensions Nb Click et Dure . On souhaite partitionner lensemble des visites en trois groupes, chacun caractrisant le profil de navigation au sein du site marchand. Utiliser la mthode des moyennes mobiles afin dextraire ces trois groupes. On considre S1, S3 et S6 comme nuplets-centres de dpart. Q4- Afin daugmenter la rentabilit du site marchand, on souhaite pouvoir prdire avec une probabilit p ( prciser) laction dachat, de commande ou dannulation en fonction du nombre de clicks (seuil = 6), du type de produit consult et de la dure moyenne de navigation par page(seuil = 5). Utiliser la mthode approprie afin de rpondre cet objectif.

Universit Joseph Fourier / ISTG / RICM3 / 2001-2002 / SID / Examen

4/ 4