Académique Documents
Professionnel Documents
Culture Documents
Tp_2
Data Mining
9 NOVEMBRE
1
Classification par arbre de décision
J48 :
Dans ce test j'utilise une data set qui S’appel « Bank marketing ».
Voilà sa description :
Marketing bancaire
Les données sont liées à des campagnes de marketing direct d'une institution bancaire portugaise. Les
campagnes de marketing étaient basées sur des appels téléphoniques. Souvent, plus d'un contact avec le
même client était nécessaire, afin d'accéder si le produit (dépôt bancaire à terme) serait (ou non)
souscrit.
L'objectif de la classification est de prédire si le client souscrira un dépôt à terme (variable y).
Variables d'entrée :
1 - âge (numérique)
3 - matrimonial : état civil (catégorique : "marié", "divorcé", "célibataire" ; note : "divorcé" signifie
divorcé ou veuf)
2
11 - mois : mois du dernier contact de l'année (catégorique : "jan", "feb", "mar", ..., "nov", "dec")
- autres attributs :
13 - campagne : nombre de contacts effectués au cours de cette campagne et pour ce client (numérique,
inclut le dernier contact)
14 - pdays : nombre de jours écoulés après le dernier contact du client à partir d'une campagne
précédente (numérique, -1 signifie que le client n'a pas été contacté auparavant)
15 - précédent : nombre de contacts effectués avant cette campagne et pour ce client (numérique)
17 attribue,
Instance : 45211
3
Etape 1 :
En va créer une chaine d'évaluation en utilisant le module 'Classifiers/trees/J48'.
Classificateur J48
J48 :
C'est un algorithme pour générer un arbre de décision qui est généré par C4.5 (une extension de ID3).
Il est également connu sous le nom de classificateur statistique. Pour la classification par arbre de
décision
Etape 2 :
Dans cette étape en va appliquer l'algorithme j48 a notre data set.
1- Avec le test “use training set” : buttons START (avec les paramètre laisser par
défaut)
- L’algorithme a construit un arbre avec 1168 feuille
- Le taux de succès est : 94.123 % (bon apprentissage)
- Le taux d'erreur est : 5.8769 %
- Avec 42554 instance bien catégorisé et 2657 instance mal catégorisé
- Voilà la matrice de confusion :
4
- L’arbre généré est un arbre n-air (puisqu'il est très grand j'ai pas pu prendre un screen shot)
: Je vais ajouter la base de données avec mon rapport pour que vous puissiez voir par vous-
même
1- Avec le test “cross validation ” : Avec des données divisées en 5 partie (5
Folder) :
5
- L’algorithme a construit un arbre avec 1168 feuille
- Le taux de succès est : 90.123 % (bon apprentissage)
- Le taux d'erreur est : 9.5419 %
- Avec 40897 instance bien catégorisé et 4314 instance mal catégorisé
Remarque : On note que le taux de réussite est légèrement diminué par rapport au test de
validation « training set »
- Voici la matrice de confusion :
Comparaison :
Si on compare les trois types de test
On note que le test "use training set « donne un taux de succès un peu mieux que les autres tests
parce que on a pratiqué ce test a tous les valeurs de data set sans split.
8
9
10