Rapport Final

Rapport
Tp_2
Data Mining
9 NOVEMBRE
Créé par : boucif belarbi
1
Classification par arbre de décision
J48 :
Dans ce test j'utilise une data set qui S’appel « Bank marketing ».
Voilà sa description :
Marketing bancaire
Les données sont liées à des campagnes de marketing direct d'une institution bancaire portugaise. Les
campagnes de marketing étaient basées sur des appels téléphoniques. Souvent, plus d'un contact avec le
même client était nécessaire, afin d'accéder si le produit (dépôt bancaire à terme) serait (ou non)
souscrit.
L'objectif de la classification est de prédire si le client souscrira un dépôt à terme (variable y).
### Informations sur les attributs
Variables d'entrée :
- données clients bancaires :
1 - âge (numérique)
2 - emploi : type d'emploi (catégorique : "admin.","inconnu","chômeur","gestion","femme de

chambre","entrepreneur", "étudiant","col bleu","travailleur
indépendant" ,"retraité","technicien","services")
3 - matrimonial : état civil (catégorique : "marié", "divorcé", "célibataire" ; note : "divorcé" signifie
divorcé ou veuf)
4 - éducation :(catégorique: "inconnu", "secondaire", "primaire", "tertiaire")
5 - défaut : a crédit en défaut ? (binaire : "oui", "non")
6 - solde : solde annuel moyen, en euros (numérique)
7 - logement : a le prêt logement ? (binaire : "oui", "non")
8 - Prêt : a prêt personnel ? (binaire : "oui", "non")
9 - contact : type de communication du contact (catégorique : "inconnu", "téléphone", "cellulaire")
10 - jour : dernier jour de contact du mois (numérique)
2
11 - mois : mois du dernier contact de l'année (catégorique : "jan", "feb", "mar", ..., "nov", "dec")
12 - durée : durée du dernier contact, en secondes (numérique)
- autres attributs :
13 - campagne : nombre de contacts effectués au cours de cette campagne et pour ce client (numérique,
inclut le dernier contact)
14 - pdays : nombre de jours écoulés après le dernier contact du client à partir d'une campagne
précédente (numérique, -1 signifie que le client n'a pas été contacté auparavant)
15 - précédent : nombre de contacts effectués avant cette campagne et pour ce client (numérique)
16 - poutcome : résultat de la campagne marketing précédente (catégorique : "inconnu", "autre",

"échec", "succès")
- variable de sortie (cible souhaitée) :
17 - y - le client a-t-il souscrit un dépôt à terme ? (Binaire : "oui", "non")  (classe)
17 attribue,
Instance : 45211
3
Etape 1 :
En va créer une chaine d'évaluation en utilisant le module 'Classifiers/trees/J48'.
Classificateur J48
J48 :
C'est un algorithme pour générer un arbre de décision qui est généré par C4.5 (une extension de ID3).
Il est également connu sous le nom de classificateur statistique. Pour la classification par arbre de
décision
Etape 2 :
Dans cette étape en va appliquer l'algorithme j48 a notre data set.
1- Avec le test “use training set” : buttons START (avec les paramètre laisser par
défaut)
- L’algorithme a construit un arbre avec 1168 feuille
- Le taux de succès est : 94.123 % (bon apprentissage)
- Le taux d'erreur est : 5.8769 %
- Avec 42554 instance bien catégorisé et 2657 instance mal catégorisé
- Voilà la matrice de confusion :
4
- L’arbre généré est un arbre n-air (puisqu'il est très grand j'ai pas pu prendre un screen shot)
 : Je vais ajouter la base de données avec mon rapport pour que vous puissiez voir par vous-
même
- Arbre généré mais pas bien visible :
1- Avec le test “cross validation ” : Avec des données divisées en 5 partie (5
Folder) :
5
- L’algorithme a construit un arbre avec 1168 feuille
Remarque : On note que le taux de réussite est légèrement diminué par rapport au test de
validation « training set »
- Voici la matrice de confusion :
- Le même arbre a été construite.
1- Avec le test “pourcentage split” : 80 % pour validation 20% pour le test

L’algorithme a construit un arbre avec 1168 feuille
6
Le nombre des instances sont moins que le test "cross validation" ou "set training "
Car on a choisi que 80 % pour la validation
- Voici la matrice de confusion :
- Le même arbre a été construite.
Comparaison :
Si on compare les trois types de test
On note que le test "use training set « donne un taux de succès un peu mieux que les autres tests
parce que on a pratiqué ce test a tous les valeurs de data set sans split.
Etape 3 : arbre binaire vs arbre n-aire

Pour faire un arbre binaire on choisissant l'option 'binarySplits=true' dans la configuration de l'arbre de
décision.
Avec test ‘’ cross validation’’: (5 folder)
L’algorithme a construit un arbre avec 1080 feuille (moins de nœuds feuille par rapport a un
arbre n’aire ce qui facilite la lecture)
Voici la matrice de confusion :
7
en comparant avec un test « cross validation » avec arbre n-aire On constate une légère baisse sure le
taux de succès
8
9
10

Rapport Final

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Rapport Final

Transféré par

Droits d'auteur :

Formats disponibles

Rapport

Créé par : boucif belarbi

### Informations sur les attributs

- données clients bancaires :

2 - emploi : type d'emploi (catégorique : "admin.","inconnu","chômeur","gestion","femme de

4 - éducation :(catégorique: "inconnu", "secondaire", "primaire", "tertiaire")

5 - défaut : a crédit en défaut ? (binaire : "oui", "non")

6 - solde : solde annuel moyen, en euros (numérique)

7 - logement : a le prêt logement ? (binaire : "oui", "non")

8 - Prêt : a prêt personnel ? (binaire : "oui", "non")

9 - contact : type de communication du contact (catégorique : "inconnu", "téléphone", "cellulaire")

10 - jour : dernier jour de contact du mois (numérique)

12 - durée : durée du dernier contact, en secondes (numérique)

16 - poutcome : résultat de la campagne marketing précédente (catégorique : "inconnu", "autre",

- variable de sortie (cible souhaitée) :

17 - y - le client a-t-il souscrit un dépôt à terme ? (Binaire : "oui", "non")  (classe)

- Arbre généré mais pas bien visible :

- Le même arbre a été construite.

1- Avec le test “pourcentage split” : 80 % pour validation 20% pour le test

- Le même arbre a été construite.

Etape 3 : arbre binaire vs arbre n-aire

Vous aimerez peut-être aussi