Vous êtes sur la page 1sur 2

U NIVERSITÉ L UMIÈRE LYON 2

I NSTITUT DE LA C OMMUNICATION
D ÉPARTEMENT I NFORMATIQUE ET S TATISTIQUE

Fouille de données - Examen du 18 décembre 2014


Durée : 2h - Tous documents autorisés

Exercice 1
On s’intéresse, pour 4 familles, au nombre d’achats (N ) effectués sur un site internet en fonction de
la taille (T ) de la famille. On dispose des données suivantes :

famille i 1 2 3 4
Ni 1 2 4 5
Ti 1 1 3 4

1. Représenter graphiquement les données.


2. Réaliser un clustering de ces données en 2 classes, à l’aide :
(a) de l’algorithme des k-means. Utiliser deux initialisations différentes (les deux premiers points
puis les deux derniers). Quel critère devriez-vous utiliser pour choisir parmi les 2 solutions ?
Calculer ce critère.
(b) de l’algorithme de classification ascendante hiérarchique, en utilisant le critère d’agrégation
de Ward. Représenter le résultat de l’algorithme à l’aide d’un dendogramme. Si vous aviez
du choisir un nombre de clusters à l’aide de ce dendogramme, lequel auriez vous choisi et
pourquoi ?

Exercice 2
Pour chaque famille considérée dans l’exercice précédent, on sait également si elle est propriétaire
(classe 1) ou non (classe 2) de son logement :

famille i 1 2 3 4
Ni 1 2 4 5
Ti 1 1 3 4
classe 2 2 2 1

1. Comparer les partitions obtenues à l’aide du clustering (exercice 1) à la partition définie par le fait
d’être propriétaire ou non de son logement (variable classe), et ce à l’aide de l’indice de Rand.
2. On considère une nouvelle famille, de taille 3 et ayant réalisé 3 achats sur ce site. Prédire si cette
famille est propriétaire de son logement, à l’aide :
(a) de la méthode des k-plus proches voisins. Tester les valeurs 1 ou 2 pour le paramètre k par la
méthode de votre choix.

1
(b) de la méthode LDA.
Indication  avoir besoin des valeurs f (x1 , x2 ) de la densité gaussienne bivariée de variance
 : vous pourrez
2.5 2
Σ2 = et d’espérance (µ1 , µ2 ) :
2 1.6875

µ1 5 4 7/3 4/3
µ2 4 5 5/3 5/3
f (3, 3) 0.0195 0.00007 0.0080 0.1952

Exercice 3
Aucun calcul n’est nécessaire pour répondre à cet exercice méthodologique.
Un site de vente en ligne de matériel informatique cherche à cibler une campagne marketing dans le but
de vendre une nouvelle tablette. Pour cela, le responsable marketing a envoyé un email publicitaire à
un échantillon de 1000 de ses clients (pris au hasard dans son fichier de clients). Deux semaines après
cet envoi, un certain nombre des 1000 clients contactés a acheté la nouvelle tablette. Pour chaque client,
le service marketing dispose également d’un certain nombre d’informations (âge, revenus, sexe, statut
marital, catégorie socio-professionnelle...).
1. Quelle méthodologie statistique proposez-vous pour construire un score d’appétence à cette ta-
blette, c’est-à-dire pour estimer la probabilité qu’un client a d’acheter ce produit ? Proposer deux
techniques différentes. D’un point de vue théorique, laquelle préféreriez-vous parmi ces deux et
pourquoi ?
2. Comment comparer ces deux techniques sur les données de cette entreprise ?
3. Doit-on utiliser toutes les variables disponibles (âge, revenus, sexe, statut marital, catégorie socio-
professionnelle...) ? Si non, comment savoir lesquelles utiliser ?
4. Les techniques que vous proposez permettent-elles de prendre en compte les variables qualitatives ?
Si oui comment ?

Vous aimerez peut-être aussi