Académique Documents
Professionnel Documents
Culture Documents
Dan Nol
Objectifs de la session
Page 1
Le nud TYPER
Cet lment permet dattribuer le rle que doit jouer chaque variable dans le processus de modlisation
Palette <OPS SUR CHAMPS>
IN: La variable agit comme input dans le modle OUT: La variable est le rsultat prdire LES DEUX: Permet que la variable soit IN et OUT la fois
Utilis uniquement pour les associations et les squences
Variables de la base
Page 2
Page 3
ENTREE
TRAITEMENT
SORTIE
Choix de la mthode
Critres de stop
Page 4
10
Page 5
11
Description du modle
importance variables
Ce modle prsente une performance (prcision estime) de 72.88% 3 neurones de sorties correspondent au 3 tats en matire de risque
12
Page 6
14
Page 7
15
Prdiction
Ralit
Comparaison
On se rend compte que ce modle est meilleur prdicteur dans certains cas. Il est correct 89% pour les bad profit mais ne ralise une performance que de 32% environ pour les bad loss .
16
Page 8
Les arbres de dcision sont capables de dtecter d rgles des l partir ti d de j jeux d de d donnes et t dt dtablir bli une relation entre celles-ci et une variable output Dans Clementine:
C 5.0 C & TR + CHAID & QUEST (pas abords dans ce cours)
17
C5.0 ne supportent que les output de type symbolique b li C5.0 donne un arbre et ensemble de rgles comme sortie alors que C &RT rend uniquement un arbre de dcision C5.0 fonctionne sur le principe des gains alors que C &RT sur la dispersion (GINI) Fonctionnement pas identique pour le traitement des missing values sur la variable output
18
Page 9
19
ENTREE
TRAITEMENT
SORTIE
20
Page 10
Choix de loutput
Options modlisation
21
22
Page 11
23
24
Page 12
Autre output possible pour les arbres de type C5.0 Sous la forme if then else
25
26
Page 13
Prdiction
28
Page 14
29
On se rend compte que ce modle prdit correctement 67% des good risk , environ 89% des bad profit et 41% des bad loss . En comparaison avec le rseau de neurones, ce modle parait donc lgrement suprieur
30
Page 15
Il existe un outil trs puissant dans la palette de Cl Clementine ti permettant tt t de d j juger d de l la performance f dun modle Cet outil peut galement tre utilis pour effectuer des comparaisons entre les modles gnrs
Palette <Graphiques>
31
Ajout au flux
32
Page 16
Type de comparaison
Ligne du hasard
33
Dfi i groupe target Dfinir t t spcifique ifi (exemple: ( l que les l good d risk i k
34
Page 17
Modle parfait
Ligne du hasard
35
Modle parfait
Ligne du hasard
36
Page 18
Modle parfait
Ligne du hasard
38
Page 19
Modle parfait
Ligne du hasard
39
On imagine une entreprise avec une base de clients li t d de 200000 clients li t potentiels t ti l On a effectu un envoi test de mailing pour proposer un nouveau produit Mailing: 2000 clients tirs au hasard on reu le courrier et 100 personnes ont donn un rponse positive (soit 5% de taux +) ) On estime donc le march potentiel : 200000 x 5% = 10000 clients A partir de ces donnes on a gnr un modle
40
Page 20
100 90 80 70
Pourcentage des cas +
60 50 40 30 20 10 0 0 10 20 30 40 50 60 70 80 90 100
Pourcentage de la base Hasard Modle
41
Cas No 1: O dispose On di d dun b budget d t marketing k ti pour l lenvoi id de 40000 mailings. Quel serait le gain potentiel de lutilisation du modle pour le ciblage (calculer le gain en taux de rponse et la part du march potentiel couverte)? Cas No 2: Lobjectif de la campagne est de gagner 5000 nouveaux clients. Compte tenu du prix dune lettre de CHF 3.40 quel serait le gain du modle de Data Mining pour cette action?
42
Page 21
Loutil ANALYSE de Clementine peut tre l galement t urilis ili pour juger j de d la l pertinence ti d dun modle gnr par le logiciel Fonctionne sur la base de la comparaison automatique des valeurs prdites et la ralit du jeu de donnes
Palette <Sortie>
43
Sur ce jeu de donnes, le C5.0 semble lgrement plus performant que le rseau de neurones.
Les 2 modles
44
Page 22
Exercice de modlisation
Reprendre le flux du cours prcdent pour obtenir un fichier fi hi Score_risque S i correctement t t nettoy tt Crer un modle rseau de neurones et un modle C5.0 avec pour cible la classe de risque Evaluer les performances des deux modles gnrs
45
La rgression linaire tant une technique plus h bit ll nous passerons d habituelle, donc moins i d de t temps ltudier Dans Clementine, on trouve lalgorithme de rgression linaire sous:
Palette <Modlisation>
46
Page 23
47
48
Page 24
49
Pratique lapprentissage non-supervis Cherche des relations dans la structure des donnes de base Loutput est un systme de coordonnes (x, y) qui peuvent tre utilises pour visualiser les groupes (clusters ) rsultats B But: t Clusters Cl t diffrents diff t entre t eux et t homogne h lintrieur des groupes
50
Page 25
51
ENTREE
TRAITEMENT
SORTIE
52
Page 26
53
54
Page 27
55
56
Page 28
57
Page 29
Recrer le flux partir de: shopping.txt Utiliser le nud CALCULER pour crer une nouvelle variable pour rattacher chaque enregistrement son cluster correspondant (Passer de x,y une variable densemble) Utiliser cette nouvelle variable pour analyser plus finement les clusters (socio-demo,) (socio demo,) Prparer une description sommaire de chaque cluster partir de ces rsultats
59
Pour visualiser les clusters il suffit de crer un graphique NUAGE DE POINTS partir des coordonnes X, Y de sortie du modle KOHONEN
Choix des variables de KOHONEN
60
Page 30
61
La segmentation: K-Means
Principale diffrence avec Kohonen est que dans l mthode la th d d de K K-Means, M l lutilisateurs tili t dtermine dt i lavance le nombre de clusters quil veut gnrer avec le modle Indicateur de dispersion intra et extra clusters
62
Page 31
63
ENTREE
TRAITEMENT
SORTIE
64
Page 32
65
66
Page 33
67
68
Page 34
Classe attribue
70
Page 35
Recrer le flux partir de: shopping.txt Lancer la cration de 3 classes avec loutil KMEANS de Clementine Prparer une description sommaire de chaque cluster partir de classes attribus par K-MEANS
71
Page 36