TD Datamining Techniques Descriptives 2016-2017

Année Universitaire 2016 - 2017
Master Ingénierie de la décision

TD Datamining: Les techniques descriptives
Pr. A. EL OUARDIGHI
1
Classifications automatiques (Clustering)
Application 1 : Classification automatique par l’algorithme K-means

Les données d’Iris.sav contiennent les dimensions de la longueur et de la largeur du sépale
(seplong, seplarg) ainsi que la largeur et la longueur du pétale (petlarg, petlong) mesurés sur un
échantillon de 150 Iris.
On souhaite identifier trois classes d'Iris relativement homogènes d'après les caractéristiques physique.
Les résultats de l’application de l’algorithme K-means aux données Iris.sav sont rapportés dans
l’annexe 7
1. Donner la description de chaque classe.
2. Identifier une caractéristique de chaque classe d’espèce d’Iris
Soit les dimensions suivantes mesurées sur un nouveau Iris :
seplong seplarg petlong petlarg
Dimension 5,3 3,7 1,5 0,2
Tableau1 : Caractéristiques physiques d’un Iris.
3. Sans faire de calcul, expliquer comment on peut utiliser le modèle développé pour detreminet la
classe de cet Iris ?
Annexe 1
=== Run information ===
Instances: 150
Attributes: 4 (sepallength, sepalwidth, petallength, petalwidth)
Number of iterations: 6
Cluster centroids:
Cluster#
Attribute Full Data 0 1 2
(150) (61) (50) (39)
=========================================================
sepallength 5.8433 5.8885 5.006 6.8462
sepalwidth 3.054 2.7377 3.418 3.0821
petallength 3.7587 4.3967 1.464 5.7026
petalwidth 1.1987 1.418 0.244 2.0795
Clustered Instances
0 61 ( 41%)
1 50 ( 33%)
2 39 ( 26%)
2
Application 2 : Analyse churn
Définition du problème et des objectifs
On souhaite chercher à identifier des groupes de consommateurs relativement homogènes d'après

les caractéristiques sélectionnées et identifier une ou plusieurs cases des départs des clients pour
faire des plants d’action.
Dans cette étude, nous utiliserons un ensemble de données d’un opérateur de télécommunications,
churn.txt. Le fichier contient des renseignements de 1477 clients de la compagnie qui ont acheté à
quelque temps un téléphone mobile. Les clients sont classés en trois groupes : les clients actuels,
départs involontaire et départs volontaire.
Sources de données
 Fichier source churn.txt
Définition des attributs
 ID: Code d’identification
 LONGDIST: Temps des appels long distance
 INTERNATIONAL: Temps des appels Internationaux
 LOCAL: Temps des appels locaux
 CHURNED: Profil
Pour identifier trois classes de client homogène selon les trois types d’appel : LONGDIST, LOCAL et
INTERNATIONAL, nous avons appliqué l’algorithme de K-Means aux données du fichier churn.txt.
Les résultats obtenus sont reportés dans l’annexe 2.
1. Donner la description de chaque classe.
2. Décrire le profil de chaque classe d’après les temps des appels.
L’opérateur télécom proposera prochainement à ses clients, une offre pour les appels locaux et une autre
pour les appels internationaux.
3. Quelle classe de consommateurs cet opérateur peut cibler pour la première offre et celle
pour la deuxième offre. Justifier dans chaque cas votre choix.
Cet Opérateur télécom souhaite identifier les causes des départs volontaires de ses clients affins des
faires des plans d’action (des promotions, des compagnes de fidélisation etc…). Pour atteindre cette
objectif ; on a calculé, pour chaque classe identifié, la proportion de chaque modalité de la variable
CHURNED. Le résultat obtenu est reporté dans le diagramme de l’annexe 2.
4. Quelles informations on peut tirer de ce digramme ?
5. Expliquer pourquoi, les clients résiliés par l’opérateur (les départs InVol) sont tous dans la
classe 1 ?
6. En analysant soigneusement le diagramme proportion, identifier une ou plusieurs causes des
départs volontaires des clients de cet opérateur télécom.
3
Annexe 2 : Segmentation par l’algorithme K-means
Statistique de base
 Moyenne (INTERNATIONAL) = 4,841
 Moyenne (LOCAL) = 51,364
 Moyenne (LONGDIST) = 15,341
Résultat de la segmentation en 3 classes

classe-1 : 665 Enregistrements
 International, Moyenne = 0,105
 LOCAL, Moyenne = 45,089
 LONGDIST, Moyenne = 5,197
Diagramme proportion : Classes & CHURNED :
4
Les règles d’association

Analyse des tickets d’achats
Définition du problème et des objectifs
Dans cet étude nous essaierons d’analyser les tickets d’achat: Shopping.txt, affin de retrouver les
corrélations entre produits dans le panier de la ménagère. Le ficher contient des champs qui indiquent si
vraiment un client a acheté un produit particulier ou non.
Définition des attributs
 Readymade: Prêt-à-porter
 Frozen foods: Aliments congelés
 Alcohol: Boisson alcolisée
 Fresh Vegetables: Légumes Frais
 Milk: Lait
 Bakery goods: Marchandises de boulangerie
 Fresh meat: Viande fraîche
 Toiletries: Articles de toilette
 Snacks: Casse-croûte
 Tinned Goods: Marchandises En boîte
Les résultats de l’application de l’algorithme Apriori aux données du fichier Shopping.txt sont reportés
dans l’annexe 2.
Nous avons appliqué l’algorithme Apriori avec les paramètres suivants : un support de 75% et une
confiance de 10%, pour identifier les articles qui sont vendus ensemble et ceux qui ne le sont pas.
Analyser les résultats obtenus en spécifiant :
1. Quelques règles
2. Leurs paramètres de pertinences
5
Annexe 3:
Figure 1 : Règles générés pour les produits achetés ensemble
Figure 2 : Règles générés pour les produits non achetés ensemble (les trous de panier)

TD Datamining Techniques Descriptives 2016-2017

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

TD Datamining Techniques Descriptives 2016-2017

Transféré par

Droits d'auteur :

Formats disponibles

Année Universitaire 2016 - 2017

Master Ingénierie de la décision

Classifications automatiques (Clustering)

Application 1 : Classification automatique par l’algorithme K-means

=== Run information ===

Application 2 : Analyse churn

Définition du problème et des objectifs

On souhaite chercher à identifier des groupes de consommateurs relativement homogènes d'après

Annexe 2 : Segmentation par l’algorithme K-means

Résultat de la segmentation en 3 classes

Diagramme proportion : Classes & CHURNED :

Les règles d’association

Figure 1 : Règles générés pour les produits achetés ensemble

Vous aimerez peut-être aussi