Vous êtes sur la page 1sur 6

Année Universitaire 2016 - 2017

Master Ingénierie de la décision


TD Datamining: Les techniques descriptives
Pr. A. EL OUARDIGHI

1
Année Universitaire 2016 - 2017

Classifications automatiques (Clustering)

Application 1 : Classification automatique par l’algorithme K-means


Les données d’Iris.sav contiennent les dimensions de la longueur et de la largeur du sépale
(seplong, seplarg) ainsi que la largeur et la longueur du pétale (petlarg, petlong) mesurés sur un
échantillon de 150 Iris.
On souhaite identifier trois classes d'Iris relativement homogènes d'après les caractéristiques physique.
Les résultats de l’application de l’algorithme K-means aux données Iris.sav sont rapportés dans
l’annexe 7
1. Donner la description de chaque classe.
2. Identifier une caractéristique de chaque classe d’espèce d’Iris
Soit les dimensions suivantes mesurées sur un nouveau Iris :
seplong seplarg petlong petlarg
Dimension 5,3 3,7 1,5 0,2
Tableau1 : Caractéristiques physiques d’un Iris.
3. Sans faire de calcul, expliquer comment on peut utiliser le modèle développé pour detreminet la
classe de cet Iris ?

Annexe 1

=== Run information ===

Instances: 150
Attributes: 4 (sepallength, sepalwidth, petallength, petalwidth)
Number of iterations: 6
Cluster centroids:
Cluster#
Attribute Full Data 0 1 2
(150) (61) (50) (39)
=========================================================
sepallength 5.8433 5.8885 5.006 6.8462
sepalwidth 3.054 2.7377 3.418 3.0821
petallength 3.7587 4.3967 1.464 5.7026
petalwidth 1.1987 1.418 0.244 2.0795

Clustered Instances

0 61 ( 41%)
1 50 ( 33%)
2 39 ( 26%)

2
Année Universitaire 2016 - 2017

Application 2 : Analyse churn

Définition du problème et des objectifs

On souhaite chercher à identifier des groupes de consommateurs relativement homogènes d'après


les caractéristiques sélectionnées et identifier une ou plusieurs cases des départs des clients pour
faire des plants d’action.

Dans cette étude, nous utiliserons un ensemble de données d’un opérateur de télécommunications,
churn.txt. Le fichier contient des renseignements de 1477 clients de la compagnie qui ont acheté à
quelque temps un téléphone mobile. Les clients sont classés en trois groupes : les clients actuels,
départs involontaire et départs volontaire.

Sources de données
 Fichier source churn.txt
Définition des attributs
 ID: Code d’identification
 LONGDIST: Temps des appels long distance
 INTERNATIONAL: Temps des appels Internationaux
 LOCAL: Temps des appels locaux
 CHURNED: Profil

Pour identifier trois classes de client homogène selon les trois types d’appel : LONGDIST, LOCAL et
INTERNATIONAL, nous avons appliqué l’algorithme de K-Means aux données du fichier churn.txt.
Les résultats obtenus sont reportés dans l’annexe 2.
1. Donner la description de chaque classe.
2. Décrire le profil de chaque classe d’après les temps des appels.
L’opérateur télécom proposera prochainement à ses clients, une offre pour les appels locaux et une autre
pour les appels internationaux.
3. Quelle classe de consommateurs cet opérateur peut cibler pour la première offre et celle
pour la deuxième offre. Justifier dans chaque cas votre choix.
Cet Opérateur télécom souhaite identifier les causes des départs volontaires de ses clients affins des
faires des plans d’action (des promotions, des compagnes de fidélisation etc…). Pour atteindre cette
objectif ; on a calculé, pour chaque classe identifié, la proportion de chaque modalité de la variable
CHURNED. Le résultat obtenu est reporté dans le diagramme de l’annexe 2.
4. Quelles informations on peut tirer de ce digramme ?
5. Expliquer pourquoi, les clients résiliés par l’opérateur (les départs InVol) sont tous dans la
classe 1 ?
6. En analysant soigneusement le diagramme proportion, identifier une ou plusieurs causes des
départs volontaires des clients de cet opérateur télécom.

3
Année Universitaire 2016 - 2017

Annexe 2 : Segmentation par l’algorithme K-means

Statistique de base
 Moyenne (INTERNATIONAL) = 4,841
 Moyenne (LOCAL) = 51,364
 Moyenne (LONGDIST) = 15,341

Résultat de la segmentation en 3 classes


classe-1 : 665 Enregistrements
 International, Moyenne = 0,105
 LOCAL, Moyenne = 45,089
 LONGDIST, Moyenne = 5,197
classe-2 : 153 Enregistrements
 International, Moyenne = 7,033
 LOCAL, Moyenne = 61,859
 LONGDIST, Moyenne = 15,966
classe-3 : 659 Enregistrements
 International, Moyenne = 0,136
 LOCAL, Moyenne = 55,261
 LONGDIST, Moyenne = 21,614

Diagramme proportion : Classes & CHURNED :

4
Année Universitaire 2016 - 2017

Les règles d’association


Analyse des tickets d’achats
Définition du problème et des objectifs
Dans cet étude nous essaierons d’analyser les tickets d’achat: Shopping.txt, affin de retrouver les
corrélations entre produits dans le panier de la ménagère. Le ficher contient des champs qui indiquent si
vraiment un client a acheté un produit particulier ou non.
Définition des attributs
 Readymade: Prêt-à-porter
 Frozen foods: Aliments congelés
 Alcohol: Boisson alcolisée
 Fresh Vegetables: Légumes Frais
 Milk: Lait
 Bakery goods: Marchandises de boulangerie
 Fresh meat: Viande fraîche
 Toiletries: Articles de toilette
 Snacks: Casse-croûte
 Tinned Goods: Marchandises En boîte

Les résultats de l’application de l’algorithme Apriori aux données du fichier Shopping.txt sont reportés
dans l’annexe 2.
Nous avons appliqué l’algorithme Apriori avec les paramètres suivants : un support de 75% et une
confiance de 10%, pour identifier les articles qui sont vendus ensemble et ceux qui ne le sont pas.
Analyser les résultats obtenus en spécifiant :
1. Quelques règles
2. Leurs paramètres de pertinences

5
Année Universitaire 2016 - 2017

Annexe 3:

Figure 1 : Règles générés pour les produits achetés ensemble

Figure 2 : Règles générés pour les produits non achetés ensemble (les trous de panier)

Vous aimerez peut-être aussi