Vous êtes sur la page 1sur 36

Option_Data Option Data Mining Modlisation dans Clementine

Dan Nol

Objectifs de la session

Dcouvrir les outils de Clementine destins la cration de modles de Data Mining.

Page 1

Le nud TYPER

Cet lment permet dattribuer le rle que doit jouer chaque variable dans le processus de modlisation
Palette <OPS SUR CHAMPS>

IN: La variable agit comme input dans le modle OUT: La variable est le rsultat prdire LES DEUX: Permet que la variable soit IN et OUT la fois
Utilis uniquement pour les associations et les squences

AUCUN: La variable nest pas utilise pour la modlisation


3

Paramtres du nud TYPER

Variables de la base

Choix du rle des variables

Page 2

La modlisation dans Clementine

Tous les diffrents algorithmes de modlisation de Cl Clementine ti se t trouvent t sous:


Palette <Modlisation>

Chaque icne reprsente un type dalgorithmes disponibles dans le logiciel


5

Prdiction et classification: Rseaux de neurones

Dans Clementine on trouve lalgorithme de cration ti d de rseaux d de neurones sous:


Palette <Modlisation>

Page 3

Exemple de flux rseau de neurones

ENTREE

TRAITEMENT

SORTIE

Paramtre du nud RESEAU NEURONES

Dfinition du nom du modle gnr

Choix de la mthode

Critres de stop

Page 4

Options du nud RESEAU NEURONES

Continuer la cration dun modle stopp

Meilleur traitement des variables Ensembles

Choix des ouputs de traitement et de sortie

Le graphique de feedback dapprentissage

10

Page 5

Output du nud RESEAU NEURONES (1)


Le rseau de neurones dans linterface

Modle gnr par Clementine

11

Output du nud RESEAU NEURONES (2)

Click droite sur le modle puis: BROWSE

Description du modle

importance variables

Ce modle prsente une performance (prcision estime) de 72.88% 3 neurones de sorties correspondent au 3 tats en matire de risque
12

Page 6

Comprendre le rseau de neurones

Par la cration dune table de sortie des rsultats

Ajout au flux partir de la modlisation


13

Table de sortie du rseau de neurones 2 nouvelles variables


Prdiction

Confiance prdiction 0 aucune 1 parfaite

14

Page 7

Comparer prdiction avec la ralit

Ajouter une matrice pour effectuer la comparaison!!!

15

Rsultat de la matrice de comparaison

Prdiction

Ralit

Comparaison

On se rend compte que ce modle est meilleur prdicteur dans certains cas. Il est correct 89% pour les bad profit mais ne ralise une performance que de 32% environ pour les bad loss .
16

Page 8

Prdiction et classification: Les arbres de dcision

Les arbres de dcision sont capables de dtecter d rgles des l partir ti d de j jeux d de d donnes et t dt dtablir bli une relation entre celles-ci et une variable output Dans Clementine:
C 5.0 C & TR + CHAID & QUEST (pas abords dans ce cours)

17

Principales diffrences entre C5.0 et C & RT

C5.0 ne supportent que les output de type symbolique b li C5.0 donne un arbre et ensemble de rgles comme sortie alors que C &RT rend uniquement un arbre de dcision C5.0 fonctionne sur le principe des gains alors que C &RT sur la dispersion (GINI) Fonctionnement pas identique pour le traitement des missing values sur la variable output
18

Page 9

Les arbres dans Clementine

Dans Clementine on trouve les algorithmes d b darbres d de d dcision i i d dans:


Palette <Modlisation>

19

Exemple de flux ARBRE C5.0

ENTREE

TRAITEMENT

SORTIE

20

Page 10

Paramtre du nud C5.0

N Nom d du modle dl gnr

Choix de loutput

Options modlisation

21

Output du nud C5.0 (1)

Larbre dans linterface

Modle gnr par Clementine

22

Page 11

Output du nud C5.0 (2)

Click droite sur le modle puis: BROWSE

23

Autres display des rgles

24

Page 12

Visualiser les rgles dun modle C5.0

Autre output possible pour les arbres de type C5.0 Sous la forme if then else

25

Exemple doutput RULES SET

Click droite sur le Rule set puis: BROWSE

26

Page 13

Comprendre le modle C5.0 gnr

Par la cration dune table de sortie des rsultats

Ajout au flux partir de la modlisation


27

Table de sortie de larbre C5.0 2 nouvelles variables

Prdiction

Confiance prdiction 0 aucune 1 parfaite

28

Page 14

Comprendre larbre C5.0

Ajouter une matrice pour effectuer la comparaison!!!

29

Rsultat de la matrice de comparaison

Comparaison prdiction vs ralit

On se rend compte que ce modle prdit correctement 67% des good risk , environ 89% des bad profit et 41% des bad loss . En comparaison avec le rseau de neurones, ce modle parait donc lgrement suprieur

30

Page 15

Evaluer la performance des modles et effectuer des comparaisons

Il existe un outil trs puissant dans la palette de Cl Clementine ti permettant tt t de d j juger d de l la performance f dun modle Cet outil peut galement tre utilis pour effectuer des comparaisons entre les modles gnrs

Palette <Graphiques>

31

Le flux pour effectuer la mesure

Ajout au flux

32

Page 16

Paramtres du nud EVALUATION

Type de comparaison

Ligne du hasard

Ligne modle thorique parfait

33

Les options du nud EVALUATION

Dfi i groupe target Dfinir t t spcifique ifi (exemple: ( l que les l good d risk i k

34

Page 17

Output du Nud EVALUATION (Gain Chart)

Modle parfait

Ligne du hasard

35

Output du Nud EVALUATION (Lift Chart)

Modle parfait

Ligne du hasard

36

Page 18

Comparer deux modle avec le nud EVALUATION le flux

Crer une chaine dvaluation


37

Comparaison entre C5.0 et Rseau neurones Gain Chart

Modle parfait

Ligne du hasard

38

Page 19

Comparaison entre C5.0 et Rseau neurones Lift Chart

Modle parfait

Ligne du hasard

39

Exercice: Application Marketing des Lift Charts

On imagine une entreprise avec une base de clients li t d de 200000 clients li t potentiels t ti l On a effectu un envoi test de mailing pour proposer un nouveau produit Mailing: 2000 clients tirs au hasard on reu le courrier et 100 personnes ont donn un rponse positive (soit 5% de taux +) ) On estime donc le march potentiel : 200000 x 5% = 10000 clients A partir de ces donnes on a gnr un modle
40

Page 20

Exercice: Lift Charts et Marketing

Lift chart exercice Marketing

100 90 80 70
Pourcentage des cas +

60 50 40 30 20 10 0 0 10 20 30 40 50 60 70 80 90 100
Pourcentage de la base Hasard Modle

41

Exercice Lift Charts suite

Cas No 1: O dispose On di d dun b budget d t marketing k ti pour l lenvoi id de 40000 mailings. Quel serait le gain potentiel de lutilisation du modle pour le ciblage (calculer le gain en taux de rponse et la part du march potentiel couverte)? Cas No 2: Lobjectif de la campagne est de gagner 5000 nouveaux clients. Compte tenu du prix dune lettre de CHF 3.40 quel serait le gain du modle de Data Mining pour cette action?
42

Page 21

Performance dun modle avec le nud ANALYSE

Loutil ANALYSE de Clementine peut tre l galement t urilis ili pour juger j de d la l pertinence ti d dun modle gnr par le logiciel Fonctionne sur la base de la comparaison automatique des valeurs prdites et la ralit du jeu de donnes
Palette <Sortie>

43

Paramtres du nud ANALYSE

ARBRE C5.0 NEURONES

Sur ce jeu de donnes, le C5.0 semble lgrement plus performant que le rseau de neurones.

Les 2 modles

44

Page 22

Exercice de modlisation

Reprendre le flux du cours prcdent pour obtenir un fichier fi hi Score_risque S i correctement t t nettoy tt Crer un modle rseau de neurones et un modle C5.0 avec pour cible la classe de risque Evaluer les performances des deux modles gnrs

45

Prdiction: La rgression linaire

La rgression linaire tant une technique plus h bit ll nous passerons d habituelle, donc moins i d de t temps ltudier Dans Clementine, on trouve lalgorithme de rgression linaire sous:

Palette <Modlisation>

46

Page 23

Paramtres du nud REGRESSION

Choix de la mthode de rgression

47

Output du nud REGRESSION

Dtail de lquation de rgression

48

Page 24

Table de sortie de la rgression 1 nouvelle variable

Valeur du revenu prdite par le modle de rgression

49

La segmentation: Rseau de Kohonen

Pratique lapprentissage non-supervis Cherche des relations dans la structure des donnes de base Loutput est un systme de coordonnes (x, y) qui peuvent tre utilises pour visualiser les groupes (clusters ) rsultats B But: t Clusters Cl t diffrents diff t entre t eux et t homogne h lintrieur des groupes

50

Page 25

Kohonen dans Clementine

On trouve lalgorithme de rseau de Kohonen sous:


Palette <Modlisation>

51

Exemple de flux de KOHONEN

ENTREE

TRAITEMENT

SORTIE

52

Page 26

Paramtres du nud KOHONEN

Choix des variables analyser en sortie de modle

53

Options du nud KOHONEN

Choix du nom du modle

Continuer apprentissage prcdent Critres de stop

54

Page 27

Le mode expert du nud KOHONEN

Dimension de la carte de sortie

55

Exemple doutput KOHONEN

Click droite sur le modle puis: BROWSE

56

Page 28

Viewer TAB du rsultat KOHONEN

Dtail des diffrents clusters gnrs

57

Lecture des coordonnes de KOHONEN

Pour visualiser les coordonnes calcules par lalgorithme KOHONEN


58

Page 29

Exercice Rseau de KOHONEN

Recrer le flux partir de: shopping.txt Utiliser le nud CALCULER pour crer une nouvelle variable pour rattacher chaque enregistrement son cluster correspondant (Passer de x,y une variable densemble) Utiliser cette nouvelle variable pour analyser plus finement les clusters (socio-demo,) (socio demo,) Prparer une description sommaire de chaque cluster partir de ces rsultats

59

Visualiser les clusters de KOHONEN

Pour visualiser les clusters il suffit de crer un graphique NUAGE DE POINTS partir des coordonnes X, Y de sortie du modle KOHONEN
Choix des variables de KOHONEN

60

Page 30

Visualisation des clusters KOHONEN

61

La segmentation: K-Means

Principale diffrence avec Kohonen est que dans l mthode la th d d de K K-Means, M l lutilisateurs tili t dtermine dt i lavance le nombre de clusters quil veut gnrer avec le modle Indicateur de dispersion intra et extra clusters

62

Page 31

Les K-Means dans Clementine

On trouve lalgorithme de rseau de Kohonen sous:


Palette <Modlisation>

63

Exemple de flux K-MEANS

ENTREE

TRAITEMENT

SORTIE

64

Page 32

Paramtres du nud K-MEANS

Choix des variables analyser

65

Options du nud K-MEANS

Choix du nombre de classes Indicateurs en sortie

66

Page 33

Exemple doutput du nud K-MEANS

Click droite sur le modle puis: BROWSE

67

Viewer TAB du rsultat K-MEANS

Dtail des diffrents clusters gnrs

68

Page 34

Lecture du rsulat de K-MEANS

Pour visualiser les coordonnes calcules par lalgorithme K-MEANS


69

Table doutput de K-MEANS


Dispersion intra-classe

Classe attribue

70

Page 35

Exercice Rseau de K-MEANS

Recrer le flux partir de: shopping.txt Lancer la cration de 3 classes avec loutil KMEANS de Clementine Prparer une description sommaire de chaque cluster partir de classes attribus par K-MEANS

71

Page 36

Vous aimerez peut-être aussi