Académique Documents
Professionnel Documents
Culture Documents
I NSTITUT DE LA C OMMUNICATION
D ÉPARTEMENT I NFORMATIQUE ET S TATISTIQUE
Exercice 1
On s’intéresse, pour 4 familles, au nombre d’achats (N ) effectués sur un site internet en fonction de
la taille (T ) de la famille. On dispose des données suivantes :
famille i 1 2 3 4
Ni 1 2 4 5
Ti 1 1 3 4
Exercice 2
Pour chaque famille considérée dans l’exercice précédent, on sait également si elle est propriétaire
(classe 1) ou non (classe 2) de son logement :
famille i 1 2 3 4
Ni 1 2 4 5
Ti 1 1 3 4
classe 2 2 2 1
1. Comparer les partitions obtenues à l’aide du clustering (exercice 1) à la partition définie par le fait
d’être propriétaire ou non de son logement (variable classe), et ce à l’aide de l’indice de Rand.
2. On considère une nouvelle famille, de taille 3 et ayant réalisé 3 achats sur ce site. Prédire si cette
famille est propriétaire de son logement, à l’aide :
(a) de la méthode des k-plus proches voisins. Tester les valeurs 1 ou 2 pour le paramètre k par la
méthode de votre choix.
1
(b) de la méthode LDA.
Indication avoir besoin des valeurs f (x1 , x2 ) de la densité gaussienne bivariée de variance
: vous pourrez
2.5 2
Σ2 = et d’espérance (µ1 , µ2 ) :
2 1.6875
µ1 5 4 7/3 4/3
µ2 4 5 5/3 5/3
f (3, 3) 0.0195 0.00007 0.0080 0.1952
Exercice 3
Aucun calcul n’est nécessaire pour répondre à cet exercice méthodologique.
Un site de vente en ligne de matériel informatique cherche à cibler une campagne marketing dans le but
de vendre une nouvelle tablette. Pour cela, le responsable marketing a envoyé un email publicitaire à
un échantillon de 1000 de ses clients (pris au hasard dans son fichier de clients). Deux semaines après
cet envoi, un certain nombre des 1000 clients contactés a acheté la nouvelle tablette. Pour chaque client,
le service marketing dispose également d’un certain nombre d’informations (âge, revenus, sexe, statut
marital, catégorie socio-professionnelle...).
1. Quelle méthodologie statistique proposez-vous pour construire un score d’appétence à cette ta-
blette, c’est-à-dire pour estimer la probabilité qu’un client a d’acheter ce produit ? Proposer deux
techniques différentes. D’un point de vue théorique, laquelle préféreriez-vous parmi ces deux et
pourquoi ?
2. Comment comparer ces deux techniques sur les données de cette entreprise ?
3. Doit-on utiliser toutes les variables disponibles (âge, revenus, sexe, statut marital, catégorie socio-
professionnelle...) ? Si non, comment savoir lesquelles utiliser ?
4. Les techniques que vous proposez permettent-elles de prendre en compte les variables qualitatives ?
Si oui comment ?