Vous êtes sur la page 1sur 10

Rapport

Tp_2
Data Mining

9 NOVEMBRE

Créé par : boucif belarbi

1
Classification par arbre de décision
J48 :
Dans ce test j'utilise une data set qui S’appel « Bank marketing ».
Voilà sa description :

Marketing bancaire
Les données sont liées à des campagnes de marketing direct d'une institution bancaire portugaise. Les
campagnes de marketing étaient basées sur des appels téléphoniques. Souvent, plus d'un contact avec le
même client était nécessaire, afin d'accéder si le produit (dépôt bancaire à terme) serait (ou non)
souscrit.

L'objectif de la classification est de prédire si le client souscrira un dépôt à terme (variable y).

### Informations sur les attributs

Variables d'entrée :

- données clients bancaires :

1 - âge (numérique)

2 - emploi : type d'emploi (catégorique : "admin.","inconnu","chômeur","gestion","femme de


chambre","entrepreneur", "étudiant","col bleu","travailleur
indépendant" ,"retraité","technicien","services")

3 - matrimonial : état civil (catégorique : "marié", "divorcé", "célibataire" ; note : "divorcé" signifie
divorcé ou veuf)

4 - éducation :(catégorique: "inconnu", "secondaire", "primaire", "tertiaire")

5 - défaut : a crédit en défaut ? (binaire : "oui", "non")

6 - solde : solde annuel moyen, en euros (numérique)

7 - logement : a le prêt logement ? (binaire : "oui", "non")

8 - Prêt : a prêt personnel ? (binaire : "oui", "non")

9 - contact : type de communication du contact (catégorique : "inconnu", "téléphone", "cellulaire")

10 - jour : dernier jour de contact du mois (numérique)

2
11 - mois : mois du dernier contact de l'année (catégorique : "jan", "feb", "mar", ..., "nov", "dec")

12 - durée : durée du dernier contact, en secondes (numérique)

- autres attributs :

13 - campagne : nombre de contacts effectués au cours de cette campagne et pour ce client (numérique,
inclut le dernier contact)

14 - pdays : nombre de jours écoulés après le dernier contact du client à partir d'une campagne
précédente (numérique, -1 signifie que le client n'a pas été contacté auparavant)

15 - précédent : nombre de contacts effectués avant cette campagne et pour ce client (numérique)

16 - poutcome : résultat de la campagne marketing précédente (catégorique : "inconnu", "autre",


"échec", "succès")

- variable de sortie (cible souhaitée) :

17 - y - le client a-t-il souscrit un dépôt à terme ? (Binaire : "oui", "non")  (classe)

17 attribue,
Instance : 45211

3
Etape 1 :
En va créer une chaine d'évaluation en utilisant le module 'Classifiers/trees/J48'.

Classificateur J48 
J48 :
C'est un algorithme pour générer un arbre de décision qui est généré par C4.5 (une extension de ID3).
Il est également connu sous le nom de classificateur statistique. Pour la classification par arbre de
décision

Etape 2 :
Dans cette étape en va appliquer l'algorithme j48 a notre data set.

1- Avec le test “use training set” : buttons START (avec les paramètre laisser par
défaut)
- L’algorithme a construit un arbre avec 1168 feuille
- Le taux de succès est : 94.123 % (bon apprentissage)
- Le taux d'erreur est : 5.8769 %
- Avec 42554 instance bien catégorisé et 2657 instance mal catégorisé
- Voilà la matrice de confusion :

4
- L’arbre généré est un arbre n-air (puisqu'il est très grand j'ai pas pu prendre un screen shot)
 : Je vais ajouter la base de données avec mon rapport pour que vous puissiez voir par vous-
même

- Arbre généré mais pas bien visible :

1- Avec le test “cross validation ” : Avec des données divisées en 5 partie (5
Folder) :

5
- L’algorithme a construit un arbre avec 1168 feuille
- Le taux de succès est : 90.123 % (bon apprentissage)
- Le taux d'erreur est : 9.5419 %
- Avec 40897 instance bien catégorisé et 4314 instance mal catégorisé
Remarque : On note que le taux de réussite est légèrement diminué par rapport au test de
validation « training set »
- Voici la matrice de confusion :

- Le même arbre a été construite.

1- Avec le test “pourcentage split” : 80 % pour validation 20% pour le test


L’algorithme a construit un arbre avec 1168 feuille
- Le taux de succès est : 89.6679 % (bon apprentissage)
- Le taux d'erreur est : 10.3321 %
- Avec 32432 instance bien catégorisé et 3737 instance mal catégorisé
6
Le nombre des instances sont moins que le test "cross validation" ou "set training "
Car on a choisi que 80 % pour la validation
- Voici la matrice de confusion :

- Le même arbre a été construite.

Comparaison :
Si on compare les trois types de test
On note que le test "use training set « donne un taux de succès un peu mieux que les autres tests
parce que on a pratiqué ce test a tous les valeurs de data set sans split.

Etape 3 : arbre binaire vs arbre n-aire


Pour faire un arbre binaire on choisissant l'option 'binarySplits=true' dans la configuration de l'arbre de
décision.
Avec test ‘’ cross validation’’: (5 folder)
L’algorithme a construit un arbre avec 1080 feuille (moins de nœuds feuille par rapport a un
arbre n’aire ce qui facilite la lecture)
- Le taux de succès est : 89.6928 % (bon apprentissage)
- Le taux d'erreur est : 10.3072 %
- Avec 40551 instance bien catégorisé et 4660 instance mal catégorisé
Voici la matrice de confusion :
7
en comparant avec un test « cross validation » avec arbre n-aire On constate une légère baisse sure le
taux de succès

8
9
10

Vous aimerez peut-être aussi