Vous êtes sur la page 1sur 17

Abdelkader Belhadj 4 TWIN 4

Atelier recap

1) Définition des objectifs métier et des objectifs DM.

a) Aider la banque à mieux connaître sa clientèle et pouvoir interagir


avec elle notamment pour pouvoir répondre aux demandes de
crédits bancaires des nouveaux clients.

b) -Segmenter les clients selon l’acceptation de crédits.


-Construire un Arbre de Décision à partir de données CreditBank,
afin de prédire si le client pourra obtenir un crédit ou non.

2) Compréhension des données

-On a 2 dataset, la première DataTrain pour entraîner notre


modèle, et la deuxième DataTest pour la prédiction.

-DataTrain contient 149 individus et DataTest contient 49 individus.


-La variable cible est “Décision” qui a 3 modalités
“Accepted”, “Refused”, “Tolerated”

-Les données comportent :


des variables quantitatives:
Revenu annuel, autre revenu, Salaire, Âge, Nombre d'années
travaillées, Nombre des derniers crédits refusés,
Nombre des derniers crédits acceptés, Nombre de personnes en
charge, Revenu Net Moyen, Nombre de voitures.

et des variables qualitatives:


Catégorie Sociale Professionnelle, Statut Social, Résidence,
Secteur de travail.

3) Des statistiques descriptives des données

des statistiques pour chaque variable de dataset:

Pour les variables qualitatives, describe() donne le nombre


d’observations, le nombre de valeurs manquantes, et le nombre
de niveaux pour la variable ; ainsi que le nombre d’observations
pour chaque niveau de la variable (et la proportion).
-Maintenant on s'intéresse à la variable quantitative âge.
le boxplot est souvent utilisé pour résumer de manière graphique
des statistiques descriptives.
Il est aussi courant de tracer un histogramme des valeurs pour la
variable.

=> D'après les figures qu’on a tracé on remarque que:

-l'âge des clients est compris entre 20 et 77.


-la majorité des clients ont l'âge entre 20 et 35 ans.
-le nombre des clients diminue suite à l’augmentation de leur âge. -
l’âge de 25% des clients est au-dessous de 29 ans d’après la premier
quartile et 75% des client ont au plus 53 ans d’après 3end quartile.
Maintenant on s’intéresse a la variable qualitative secteurTravail

Pour un résumé pertinent d’une variable qualitative, on trace un tableau des


effectifs.
et prop.table(table) permet d’obtenir les proportions au lieu des effectifs, pour
une table déjà calculée.

On va maintenant tracer un barplot ( diagramme en bâtons )

Maintenant on va tracer l' histogramme ordonnée


=> On remarque que la majorité des clients sont dans le domaine de
l'éducation par contre la minorité sont dans le domaine d’agriculture.

4) Une meilleure visualisation des données

-Pour mieux visualiser les données on va appliquer une fonction


de centration et de réduction, et cela ne change pas la forme du
nuage.
-Le principal avantage de la centration-réduction est de rendre
comparables des variables qui ne le seraient pas directement
parce qu'elles ont des moyennes et ou des variances trop
différentes.

On va d’accord ecrire la fonction:


Puis on va l’appliquer pour notre dataset:

5) Un profiling des clients

D'abord, on va utiliser acp ( Analyse en composantes principales )


puis on va appliquer des algorithmes de segmentation (K-means
et CAH)

-On va utiliser la commande -princomp qui effectue une analyse


en composantes principales sur la matrice de données
numériques donnée et renvoie les résultats sous la forme d'un
objet de la classe princomp.
On remarque que la composant n 1,2,3,4 et 9 sont des
composants qui valident le critère de Kaiser.

-On va choisir 2 composants C1 et C2 pour dessiner un plan


factoriel car ils ont les plus grandes valeurs.

-On va maintenant calculer les corrélations.


Après avoir dessiné le plan factoriel , on va maintenant dessiner le
cercle de corrélation et la nuage des points.

=> Les clients les mieux représentés par le plan factoriel c’est celle
qui sont proches du centre.

-On va maintenant appliquer l’algorithme k-means qui sert à


clustering on a data matrix, on va utiliser la commande k-means
qui prend en paramètre le nom de tableau et le nombre de
species.
-On va maintenant changer le nombre de clusters a 3:

-On a trouvé une autre segmentation, on change maintenant en 4


clusters:

-On a trouvé une nouvelle répartition de clusters.


-On va maintenant appliquer un autre algorithme de segmentation
CAH ( classification ascendante hiérarchique) on utilisant la
commande hclust();

-On va tracer maintenant le dendrogramme.

On va diviser notre dendrogramme sur 3, en 2 puis en 4 et on


compare.
6) Différentes propositions pour l'attribution de crédit pour les
futurs clients.
-On va maintenant appliquer un algorithme supervisé de
classification on peut utiliser l’algorithme d’arbre de décision ou
svm ou régression logistique.

-On va appliquer l'arbre de décision en utilisant la commande


rpart():
-On va traver maintenant l’arbre de décision avec plot:

7) Une décision à prendre pour l'attribution de crédit pour les


futurs clients.

-On va maintenant faire une prédiction avec la commande predict


en utilisant l’arbre de décision qu’on a construit:
-On va faire une comparaison entre la prédiction et la variable
décision qu’on a dans notre données de test.

· On va calculer le taux de classification : (22+22)/49= 0,897.


-

-C’est un taux qu’on peut accepter pour prendre une décision.

Vous aimerez peut-être aussi