05 Modelisation Clementine 2

Option_Data Option Data Mining Modlisation dans Clementine
Dan Nol
Objectifs de la session
Dcouvrir les outils de Clementine destins la cration de modles de Data Mining.
Page 1
Le nud TYPER
Cet lment permet dattribuer le rle que doit jouer chaque variable dans le processus de modlisation
Palette <OPS SUR CHAMPS>
IN: La variable agit comme input dans le modle OUT: La variable est le rsultat prdire LES DEUX: Permet que la variable soit IN et OUT la fois
Utilis uniquement pour les associations et les squences
AUCUN: La variable nest pas utilise pour la modlisation

3
Paramtres du nud TYPER
Variables de la base
Choix du rle des variables
Page 2
La modlisation dans Clementine
Tous les diffrents algorithmes de modlisation de Cl Clementine ti se t trouvent t sous:

Palette <Modlisation>
Chaque icne reprsente un type dalgorithmes disponibles dans le logiciel

5
Prdiction et classification: Rseaux de neurones
Dans Clementine on trouve lalgorithme de cration ti d de rseaux d de neurones sous:

Page 3
Exemple de flux rseau de neurones
ENTREE
TRAITEMENT
SORTIE
Paramtre du nud RESEAU NEURONES
Dfinition du nom du modle gnr
Choix de la mthode
Critres de stop
Page 4
Options du nud RESEAU NEURONES
Continuer la cration dun modle stopp
Meilleur traitement des variables Ensembles
Choix des ouputs de traitement et de sortie
Le graphique de feedback dapprentissage
10
Page 5
Output du nud RESEAU NEURONES (1)

Le rseau de neurones dans linterface
Modle gnr par Clementine
11
Output du nud RESEAU NEURONES (2)
Click droite sur le modle puis: BROWSE
Description du modle
importance variables
Ce modle prsente une performance (prcision estime) de 72.88% 3 neurones de sorties correspondent au 3 tats en matire de risque
12
Page 6
Comprendre le rseau de neurones
Par la cration dune table de sortie des rsultats
Ajout au flux partir de la modlisation

13
Table de sortie du rseau de neurones 2 nouvelles variables

Prdiction
Confiance prdiction 0 aucune 1 parfaite
14
Page 7
Comparer prdiction avec la ralit
Ajouter une matrice pour effectuer la comparaison!!!
15
Rsultat de la matrice de comparaison
Prdiction
Ralit
Comparaison
On se rend compte que ce modle est meilleur prdicteur dans certains cas. Il est correct 89% pour les bad profit mais ne ralise une performance que de 32% environ pour les bad loss .
16
Page 8
Prdiction et classification: Les arbres de dcision
Les arbres de dcision sont capables de dtecter d rgles des l partir ti d de j jeux d de d donnes et t dt dtablir bli une relation entre celles-ci et une variable output Dans Clementine:
C 5.0 C & TR + CHAID & QUEST (pas abords dans ce cours)
17
Principales diffrences entre C5.0 et C & RT
C5.0 ne supportent que les output de type symbolique b li C5.0 donne un arbre et ensemble de rgles comme sortie alors que C &RT rend uniquement un arbre de dcision C5.0 fonctionne sur le principe des gains alors que C &RT sur la dispersion (GINI) Fonctionnement pas identique pour le traitement des missing values sur la variable output
18
Page 9
Les arbres dans Clementine
Dans Clementine on trouve les algorithmes d b darbres d de d dcision i i d dans:

19
Exemple de flux ARBRE C5.0
ENTREE
TRAITEMENT
SORTIE
20
Page 10
Paramtre du nud C5.0
N Nom d du modle dl gnr
Choix de loutput
Options modlisation
21
Output du nud C5.0 (1)
Larbre dans linterface
Modle gnr par Clementine
22
Page 11
Output du nud C5.0 (2)
23
Autres display des rgles
24
Page 12
Visualiser les rgles dun modle C5.0
Autre output possible pour les arbres de type C5.0 Sous la forme if then else
25
Exemple doutput RULES SET
Click droite sur le Rule set puis: BROWSE
26
Page 13
Comprendre le modle C5.0 gnr
Par la cration dune table de sortie des rsultats
Ajout au flux partir de la modlisation

27
Table de sortie de larbre C5.0 2 nouvelles variables
Prdiction
Confiance prdiction 0 aucune 1 parfaite
28
Page 14
Comprendre larbre C5.0
Ajouter une matrice pour effectuer la comparaison!!!
29
Rsultat de la matrice de comparaison
Comparaison prdiction vs ralit
On se rend compte que ce modle prdit correctement 67% des good risk , environ 89% des bad profit et 41% des bad loss . En comparaison avec le rseau de neurones, ce modle parait donc lgrement suprieur
30
Page 15
Evaluer la performance des modles et effectuer des comparaisons
Il existe un outil trs puissant dans la palette de Cl Clementine ti permettant tt t de d j juger d de l la performance f dun modle Cet outil peut galement tre utilis pour effectuer des comparaisons entre les modles gnrs
Palette <Graphiques>
31
Le flux pour effectuer la mesure
Ajout au flux
32
Page 16
Paramtres du nud EVALUATION
Type de comparaison
Ligne du hasard
Ligne modle thorique parfait
33
Les options du nud EVALUATION
Dfi i groupe target Dfinir t t spcifique ifi (exemple: ( l que les l good d risk i k
34
Page 17
Output du Nud EVALUATION (Gain Chart)
Modle parfait
Ligne du hasard
35
Output du Nud EVALUATION (Lift Chart)
Modle parfait
Ligne du hasard
36
Page 18
Comparer deux modle avec le nud EVALUATION le flux
Crer une chaine dvaluation

37
Comparaison entre C5.0 et Rseau neurones Gain Chart
Modle parfait
Ligne du hasard
38
Page 19
Comparaison entre C5.0 et Rseau neurones Lift Chart
Modle parfait
Ligne du hasard
39
Exercice: Application Marketing des Lift Charts
On imagine une entreprise avec une base de clients li t d de 200000 clients li t potentiels t ti l On a effectu un envoi test de mailing pour proposer un nouveau produit Mailing: 2000 clients tirs au hasard on reu le courrier et 100 personnes ont donn un rponse positive (soit 5% de taux +) ) On estime donc le march potentiel : 200000 x 5% = 10000 clients A partir de ces donnes on a gnr un modle
40
Page 20
Exercice: Lift Charts et Marketing
Lift chart exercice Marketing
100 90 80 70
Pourcentage des cas +
60 50 40 30 20 10 0 0 10 20 30 40 50 60 70 80 90 100
Pourcentage de la base Hasard Modle
41
Exercice Lift Charts suite
Cas No 1: O dispose On di d dun b budget d t marketing k ti pour l lenvoi id de 40000 mailings. Quel serait le gain potentiel de lutilisation du modle pour le ciblage (calculer le gain en taux de rponse et la part du march potentiel couverte)? Cas No 2: Lobjectif de la campagne est de gagner 5000 nouveaux clients. Compte tenu du prix dune lettre de CHF 3.40 quel serait le gain du modle de Data Mining pour cette action?
42
Page 21
Performance dun modle avec le nud ANALYSE
Loutil ANALYSE de Clementine peut tre l galement t urilis ili pour juger j de d la l pertinence ti d dun modle gnr par le logiciel Fonctionne sur la base de la comparaison automatique des valeurs prdites et la ralit du jeu de donnes
Palette <Sortie>
43
Paramtres du nud ANALYSE
ARBRE C5.0 NEURONES
Sur ce jeu de donnes, le C5.0 semble lgrement plus performant que le rseau de neurones.
Les 2 modles
44
Page 22
Exercice de modlisation
Reprendre le flux du cours prcdent pour obtenir un fichier fi hi Score_risque S i correctement t t nettoy tt Crer un modle rseau de neurones et un modle C5.0 avec pour cible la classe de risque Evaluer les performances des deux modles gnrs
45
Prdiction: La rgression linaire
La rgression linaire tant une technique plus h bit ll nous passerons d habituelle, donc moins i d de t temps ltudier Dans Clementine, on trouve lalgorithme de rgression linaire sous:
46
Page 23
Paramtres du nud REGRESSION
Choix de la mthode de rgression
47
Output du nud REGRESSION
Dtail de lquation de rgression
48
Page 24
Table de sortie de la rgression 1 nouvelle variable
Valeur du revenu prdite par le modle de rgression
49
La segmentation: Rseau de Kohonen
Pratique lapprentissage non-supervis Cherche des relations dans la structure des donnes de base Loutput est un systme de coordonnes (x, y) qui peuvent tre utilises pour visualiser les groupes (clusters ) rsultats B But: t Clusters Cl t diffrents diff t entre t eux et t homogne h lintrieur des groupes
50
Page 25
Kohonen dans Clementine
On trouve lalgorithme de rseau de Kohonen sous:

51
Exemple de flux de KOHONEN
ENTREE
TRAITEMENT
SORTIE
52
Page 26
Paramtres du nud KOHONEN
Choix des variables analyser en sortie de modle
53
Options du nud KOHONEN
Choix du nom du modle
Continuer apprentissage prcdent Critres de stop
54
Page 27
Le mode expert du nud KOHONEN
Dimension de la carte de sortie
55
Exemple doutput KOHONEN
56
Page 28
Viewer TAB du rsultat KOHONEN
Dtail des diffrents clusters gnrs
57
Lecture des coordonnes de KOHONEN
Pour visualiser les coordonnes calcules par lalgorithme KOHONEN

58
Page 29
Exercice Rseau de KOHONEN
Recrer le flux partir de: shopping.txt Utiliser le nud CALCULER pour crer une nouvelle variable pour rattacher chaque enregistrement son cluster correspondant (Passer de x,y une variable densemble) Utiliser cette nouvelle variable pour analyser plus finement les clusters (socio-demo,) (socio demo,) Prparer une description sommaire de chaque cluster partir de ces rsultats
59
Visualiser les clusters de KOHONEN
Pour visualiser les clusters il suffit de crer un graphique NUAGE DE POINTS partir des coordonnes X, Y de sortie du modle KOHONEN
Choix des variables de KOHONEN
60
Page 30
Visualisation des clusters KOHONEN
61
La segmentation: K-Means
Principale diffrence avec Kohonen est que dans l mthode la th d d de K K-Means, M l lutilisateurs tili t dtermine dt i lavance le nombre de clusters quil veut gnrer avec le modle Indicateur de dispersion intra et extra clusters
62
Page 31
Les K-Means dans Clementine
On trouve lalgorithme de rseau de Kohonen sous:

63
Exemple de flux K-MEANS
ENTREE
TRAITEMENT
SORTIE
64
Page 32
Paramtres du nud K-MEANS
Choix des variables analyser
65
Options du nud K-MEANS
Choix du nombre de classes Indicateurs en sortie
66
Page 33
Exemple doutput du nud K-MEANS
67
Viewer TAB du rsultat K-MEANS
Dtail des diffrents clusters gnrs
68
Page 34
Lecture du rsulat de K-MEANS
Pour visualiser les coordonnes calcules par lalgorithme K-MEANS

69
Table doutput de K-MEANS

Dispersion intra-classe
Classe attribue
70
Page 35
Exercice Rseau de K-MEANS
Recrer le flux partir de: shopping.txt Lancer la cration de 3 classes avec loutil KMEANS de Clementine Prparer une description sommaire de chaque cluster partir de classes attribus par K-MEANS
71
Page 36

05 Modelisation Clementine 2

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

05 Modelisation Clementine 2

Transféré par

Droits d'auteur :

Formats disponibles

Option_Data Option Data Mining Modlisation dans Clementine

Dcouvrir les outils de Clementine destins la cration de modles de Data Mining.

AUCUN: La variable nest pas utilise pour la modlisation

Paramtres du nud TYPER

Choix du rle des variables

La modlisation dans Clementine

Tous les diffrents algorithmes de modlisation de Cl Clementine ti se t trouvent t sous:

Chaque icne reprsente un type dalgorithmes disponibles dans le logiciel

Prdiction et classification: Rseaux de neurones

Dans Clementine on trouve lalgorithme de cration ti d de rseaux d de neurones sous:

Exemple de flux rseau de neurones

Paramtre du nud RESEAU NEURONES

Dfinition du nom du modle gnr

Options du nud RESEAU NEURONES

Continuer la cration dun modle stopp

Meilleur traitement des variables Ensembles

Choix des ouputs de traitement et de sortie

Le graphique de feedback dapprentissage

Output du nud RESEAU NEURONES (1)

Modle gnr par Clementine

Output du nud RESEAU NEURONES (2)

Click droite sur le modle puis: BROWSE

Comprendre le rseau de neurones

Par la cration dune table de sortie des rsultats

Ajout au flux partir de la modlisation

Table de sortie du rseau de neurones 2 nouvelles variables

Confiance prdiction 0 aucune 1 parfaite

Comparer prdiction avec la ralit

Ajouter une matrice pour effectuer la comparaison!!!

Rsultat de la matrice de comparaison

Prdiction et classification: Les arbres de dcision

Principales diffrences entre C5.0 et C & RT

Les arbres dans Clementine

Dans Clementine on trouve les algorithmes d b darbres d de d dcision i i d dans:

Exemple de flux ARBRE C5.0

Paramtre du nud C5.0

N Nom d du modle dl gnr

Output du nud C5.0 (1)

Larbre dans linterface

Modle gnr par Clementine

Output du nud C5.0 (2)

Click droite sur le modle puis: BROWSE

Autres display des rgles

Visualiser les rgles dun modle C5.0

Exemple doutput RULES SET

Click droite sur le Rule set puis: BROWSE

Comprendre le modle C5.0 gnr

Par la cration dune table de sortie des rsultats

Ajout au flux partir de la modlisation

Table de sortie de larbre C5.0 2 nouvelles variables

Confiance prdiction 0 aucune 1 parfaite

Comprendre larbre C5.0

Ajouter une matrice pour effectuer la comparaison!!!

Rsultat de la matrice de comparaison

Comparaison prdiction vs ralit

Evaluer la performance des modles et effectuer des comparaisons

Le flux pour effectuer la mesure

Paramtres du nud EVALUATION

Ligne modle thorique parfait

Les options du nud EVALUATION

Output du Nud EVALUATION (Gain Chart)

Output du Nud EVALUATION (Lift Chart)

Comparer deux modle avec le nud EVALUATION le flux

Crer une chaine dvaluation