Vous êtes sur la page 1sur 65

Data Mining

V. Augusto

Introduction

Traitement

des donn´ees

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees

S´election des

donn´ees

R´eduction des

donn´ees

Extraction de

connaissances

Post-

traitement

Exemple de

repr´esentation :

Arbres de

d´ecision

Perspectives

´

Data Mining

Vincent Augusto

´

Ecole Nationale Sup´erieure des Mines de Saint- Etienne

2012-2013

Data Mining

V. Augusto

Introduction

Traitement

des donn´ees

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees

S´election des

donn´ees

R´eduction des

donn´ees

Extraction de

connaissances

Post-

traitement

Exemple de

repr´esentation :

Arbres de

d´ecision

Perspectives

1
1

Introduction

2
2

Traitement des donn´ees Nettoyage des donn´ees Int´egration des donn´ees Transformation des donn´ees S´election des donn´ees R´eduction des donn´ees

3
3

Extraction de connaissances

4
4

Post-traitement

5
5

Exemple de repr´esentation : Arbres de d´ecision

6
6

Perspectives

Data Mining

V. Augusto

Introduction

Traitement

des donn´ees

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees

S´election des

donn´ees

R´eduction des

donn´ees

D´efinition g´en´erale

Le data mining est l’ensemble des algorithmes et m´ethodes :

destin´es a` l’exploration et `a l’analyse,

pour de grandes bases de donn´ees informatiques,

sans a priori.

Extraction de

connaissances

Post- Le data mining permet la d´etection dans les donn´ees :

traitement

Exemple de

repr´esentation :

Arbres de

d´ecision

Perspectives

3/65

de r`egles, d’associations, de tendances inconnues, de structures particuli`eres,

restituant l’information utile,

tout en r´eduisant la quantit´e de donn´ees.

pour l’aide `a la d´ecision.

Data Mining

V. Augusto

Introduction

Traitement

des donn´ees

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees

S´election des

donn´ees

R´eduction des

donn´ees

Extraction de

connaissances

Post-

traitement

Exemple de

repr´esentation :

Arbres de

d´ecision

Perspectives

Objectif

On ne veut plus seulement savoir :

Combien de clients ont achet´e tel produit pendant telle p´eriode ?

Mais :

Quel est le profil des clients ?

Quels autres produits les int´eresseront ?

Quand seront-ils int´eress´es ?

Data Mining

V. Augusto

Introduction

Traitement

des donn´ees

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees

S´election des

donn´ees

R´eduction des

donn´ees

Extraction de

connaissances

Post-

traitement

Exemple de

repr´esentation :

Arbres de

d´ecision

Perspectives

Statistiques :

Des statistiques

Quelques centaines d’individus.

Quelques variables recueillies avec un protocole sp´ecial (´echantillonnage, plan d’exp´erience).

Hypoth`eses fortes (`a priori) sur les lois statistiques suivi es.

Analyse de donn´ees :

Quelques milliers d’individus.

Plusieurs dizaines de variables.

Construction de tableaux Individus × Variables.

Importance de la repr´esentation visuelle.

Data Mining

V. Augusto

Introduction

Traitement

des donn´ees

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees

S´election des

donn´ees

R´eduction des

donn´ees

Extraction de

connaissances

Post-

traitement

Exemple de

repr´esentation :

Arbres de

d´ecision

Perspectives

6/65

Contexte actuel :

au data mining.

Quelques millions d’individus.

Quelques centaines de variables.

De nombreux types de variables (num´eriques ou symboliques).

Donn´ees recueillies souvent avant l’´etude et `a d’autres fin s.

Mise en œuvre de calculs rapides.

Nouvel objectif :

On ne cherche pas toujours l’optimum math´ematique.

On recherche le mod`ele le plus facile `a appr´ehender par un utilisateur non statisticien.

Data Mining

V. Augusto

Domaines d’application

Introduction

Traitement

des donn´ees

Domaines concern´es :

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees

S´election des

donn´ees

R´eduction des

donn´ees

Extraction de

connaissances

Customer Relationship Management (CRM).

D´etection de fraude (CB, t´el´ephone mobile).

Text Mining (´etude de mails de r´eclamation, extraction et classification de connaissance dans les textes).

Web Mining (personnalisation de sites web en fonction des

Post- habitudes et du contenu examin´e).

traitement

Exemple de

repr´esentation :

Arbres de

d´ecision

Perspectives

Aide au diagnostic m´edical. Exemple : en fonction de points communs d´etect´es avec les symptˆomes d’autres patients connus, le syst`eme peut cat´egoriser de nouveaux patients au vu de leurs analyses m´edicales en risque estim´e (probabilit´e) de d´evelopper t elle ou telle maladie.

Data Mining

V. Augusto

Introduction

Traitement

des donn´ees

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees

S´election des

donn´ees

R´eduction des

donn´ees

Extraction de

connaissances

Post-

traitement

Exemple de

repr´esentation :

Arbres de

d´ecision

Perspectives

Domaines d’application

Domaines pluridisciplinaires :

Analyse de donn´ees, statistiques, probabilit´es.

Bases de donn´ees.

Intelligence artificielle :

syst`emes experts ;

apprentissage automatique ;

logique.

Sciences cognitives :

neurosciences ;

psychologie exp´erimentale ;

philosophie

Data Mining

V. Augusto

Introduction

Traitement

des donn´ees

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees

S´election des

donn´ees

R´eduction des

donn´ees

Extraction de

connaissances

Post-

traitement

Exemple de

repr´esentation :

Arbres de

d´ecision

Perspectives

1
1

Introduction

2
2

Traitement des donn´ees Nettoyage des donn´ees Int´egration des donn´ees Transformation des donn´ees S´election des donn´ees R´eduction des donn´ees

3
3

Extraction de connaissances

4
4

Post-traitement

5
5

Exemple de repr´esentation : Arbres de d´ecision

6
6

Perspectives

Data Mining

V. Augusto

Introduction

Traitement

des donn´ees

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees

S´election des

donn´ees

R´eduction des

donn´ees

Extraction de

connaissances

Post-

traitement

Exemple de

repr´esentation :

Arbres de

d´ecision

Perspectives

D´ecouverte des connaissances

Post- traitement Exemple de repr´esentation : Arbres de d´ecision Perspectives D´ecouverte des connaissances 10/65

Data Mining

V. Augusto

Introduction

Traitement

des donn´ees

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees

S´election des

donn´ees

R´eduction des

donn´ees

Extraction de

connaissances

Post-

traitement

Exemple de

repr´esentation :

Arbres de

d´ecision

Perspectives

D´ecouverte des connaissances

Exemple de base de donn´ees :

Un ensemble de supermarch´es localis´es dans diff´erentes vill es, en France et `a l’´etranger.

Caract´eristiques :

Chaque supermarch´e poss`ede sa propre base.

Informations sur les clients :

Customer(c id, c name, c addr, c job,

)

Informations sur les produits/articles en vente :

Item(i id, i name, i category,

)

Informations sur les achats/transactions r´ealis´ees (pour

chaque transaction, les articles sont stock´es un par un) :

Transaction(t id, c id, i id, t date,

)

Data Mining

V. Augusto

Introduction

Traitement

des donn´ees

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees

S´election des

donn´ees

R´eduction des

donn´ees

Extraction de

connaissances

Post-

traitement

Exemple de

repr´esentation :

Arbres de

d´ecision

Perspectives

1
1

Introduction

2
2

Traitement des donn´ees Nettoyage des donn´ees Int´egration des donn´ees Transformation des donn´ees S´election des donn´ees R´eduction des donn´ees

3
3

Extraction de connaissances

4
4

Post-traitement

5
5

Exemple de repr´esentation : Arbres de d´ecision

6
6

Perspectives

Data Mining

V. Augusto

Nettoyage des donn´ees

Introduction

Traitement

des donn´ees

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees

S´election des

donn´ees

R´eduction des

donn´ees

Extraction de

connaissances

Objectif :

Supprimer les donn´ees bruit´ees ou non pertinentes.

Questions :

Que faire si certaines donn´ees sont manquantes ?

Certains clients n’ont pas donn´e leur adresse.

Toutes les donn´ees sont-elles fiables (probl`emes

Post- d’inconsistance) ?

traitement

Exemple de

repr´esentation :

Arbres de

d´ecision

Perspectives

Un mˆeme article appartient `a diff´erentes cat´egories (da ns des magasins diff´erents).

Le prix d’un mˆeme article est tr`es sup´erieur `a la normale dans un magasin donn´e.

13/65

Que faire si certaines donn´ees sont num´eriques dans le cas o`u la technique d’extraction ne peut manipuler que des donn´ees symboliques ?

Data Mining

V. Augusto

Introduction

Traitement

des donn´ees

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees

S´election des

donn´ees

R´eduction des

donn´ees

Extraction de

connaissances

Post-

traitement

Exemple de

repr´esentation :

Arbres de

d´ecision

Perspectives

Solutions :

Donn´ees manquantes

Ne pas tenir compte des tuples contenant des donn´ees manquantes (valeurs nulles).

Remplir manuellement les champs non remplis.

Utiliser les valeurs connues :

Remplacer un salaire manquant par le salaire m´edian des clients.

Pr´edire les valeurs manquantes, en le d´eduisant d’autres param`etres (salaire `a partir de l’ˆage et de la profession ).

Data Mining

V. Augusto

Introduction

Traitement

des donn´ees

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees

S´election des

donn´ees

R´eduction des

donn´ees

Extraction de

connaissances

Post-

traitement

Exemple de

repr´esentation :

Arbres de

d´ecision

Perspectives

15/65

Donn´ees bruit´ees

Plusieurs solutions : lissage, segmentation, r´egression lin´eaire.

Techniques de lissage (data smoothing) :

1
1

Trier les diff´erentes valeurs de l’attribut consid´er´e. {4, 8, 15, 21, 21, 24 , 25 , 28, 34}

2
2

Partitionner l’ensemble r´esultat.

3
3

{{4, 8, 15}, {21, 21 , 24 }, {25, 28, 34 }} Remplacer les valeurs initiales par de nouvelles valeurs en fonction du partitionnement r´ealis´e :

par la valeur moyenne des regroupements r´ealis´es { 9 , 22 , 29 }

par les min et max des regroupements r´ealis´es. {{ 4 , 4 , 15 } , { 21 , 21 , 24 } , { 25 , 25 , 34 }}

Implique une perte de pr´ecision ou d’information.

Data Mining

V. Augusto

Introduction

Traitement

des donn´ees

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees

S´election des

donn´ees

R´eduction des

donn´ees

Donn´ees bruit´ees

Techniques de segmentation (clustering) :

Les valeurs similaires sont plac´ees dans une mˆeme classe.

On ne tient pas compte des valeurs isol´ees (dans une classe comportant trop peu d’´el´ements).

Extraction de

connaissances

Techniques de r´egression lin´eaire :
Post-

traitement

Exemple de

repr´esentation :

Arbres de

d´ecision

Perspectives

Hypoth`ese : un attribut Y d´epend lin´eairement d’un attribut X .

Ann´ees d’exp´erience X et salaire Y.

Trouver les coefficients a et b tels que Y = aX + b .

Remplacer les valeurs de Y par celles pr´edites.

Data Mining

V. Augusto

Introduction

Traitement

des donn´ees

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees

S´election des

donn´ees

R´eduction des

donn´ees

Extraction de

connaissances

Post-

traitement

Exemple de

repr´esentation :

Arbres de

d´ecision

Perspectives

Donn´ees bruit´ees : r´egression lin´eaire

Donn´ees de d´epart :

Un ensemble de couples (X i , Y i ).

D´etermination des coefficients :

¯

¯

Soient X et Y les valeurs moyennes des attributs X et Y .

a

= cov (x , y )

V (x ) .

¯

b = Y a X .

¯

Data Mining

V. Augusto

Introduction

Traitement

des donn´ees

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees

S´election des

donn´ees

R´eduction des

donn´ees

Extraction de

connaissances

Post-

traitement

Exemple de

repr´esentation :

Arbres de

d´ecision

Perspectives

Donn´ees inconsistantes

Donn´ees inconsistantes dans une base de donn´ees :

Contraintes d’int´egrit´es ou d´ependances fonctionnelles non respect´ees.

Exemples :

La contrainte I ID I CATEGORY n’est pas respect´ee au moment de l’int´egration des donn´ees.

Unicit´e de cl´es non respect´ee.

Data Mining

V. Augusto

Introduction

Traitement

des donn´ees

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees

S´election des

donn´ees

R´eduction des

donn´ees

Extraction de

connaissances

Post-

traitement

Exemple de

repr´esentation :

Arbres de

d´ecision

Perspectives

1
1

Introduction

2
2

Traitement des donn´ees Nettoyage des donn´ees Int´egration des donn´ees Transformation des donn´ees S´election des donn´ees R´eduction des donn´ees

3
3

Extraction de connaissances

4
4

Post-traitement

5
5

Exemple de repr´esentation : Arbres de d´ecision

6
6

Perspectives

Data Mining

V. Augusto

Int´egration des donn´ees

Introduction

Traitement

des donn´ees

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees

S´election des

donn´ees

R´eduction des

donn´ees

Objectif :

Regrouper les donn´ees provenant de diff´erentes sources. Probl´ematique typique lors de la construction d’entrepˆots de donn´ees.

Extraction de

connaissances

Exemple :
Post-

traitement

Un attribut nomm´e C ID dans la BD de Paris peut tr`es bien se nommer CUST ID dans la BD de Londres. Utilisation de m´eta-donn´ees (XML) pour la mise en correspondance.

Exemple de

repr´esentation :

Arbres de

d´ecision

Perspectives

Data Mining

V. Augusto

Introduction

Traitement

des donn´ees

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees

S´election des

donn´ees

R´eduction des

donn´ees

Extraction de

connaissances

Post-

traitement

Exemple de

repr´esentation :

Arbres de

d´ecision

Perspectives

1
1

Introduction

2
2

Traitement des donn´ees Nettoyage des donn´ees Int´egration des donn´ees Transformation des donn´ees S´election des donn´ees R´eduction des donn´ees

3
3

Extraction de connaissances

4
4

Post-traitement

5
5

Exemple de repr´esentation : Arbres de d´ecision

6
6

Perspectives

Data Mining

V. Augusto

Introduction

Traitement

des donn´ees

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees

S´election des

donn´ees

R´eduction des

donn´ees

Extraction de

connaissances

Post-

traitement

Exemple de

repr´esentation :

Arbres de

d´ecision

Perspectives

22/65

Transformation des donn´ees

Lissage de donn´ees : utilisation de techniques de r´egression.

Normalisation des donn´ees : normaliser certains attributs num´eriques afin qu’ils varient entre 0 et 1.

Pour ne pas privil´egier les attributs ayant les plus grands domaines de variation (salaire/ˆage).

Agr´egation des donn´ees : op´erations OLAP (On-Line Analytical Processing) permettant une analyse multidimensionnelle sur les BD volumineuses afin de mettre en ´evidence une analyse particuli`ere des donn´ees.

Calculer les niveaux de ventes r´ealis´ees de tel produit par mois plutˆot que par jour.

G´en´eralisation des donn´ees : remplacer les donn´ees finies par des donn´ees de plus haut niveau.

Remplacer les adresses precises des clients par leur code postal.

Remplacer l’ˆage des clients par jeune , adulte , s´enior .

Data Mining

V. Augusto

Discr´etisation des connaissances

Introduction

Traitement

des donn´ees

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees

S´election des

donn´ees

R´eduction des

donn´ees

Extraction de

connaissances

R´epartition des valeurs des attributs :

`

A chaque ´etape, on cherche `a d´ecouper l’intervalle de variat ion

des donn´ees en K intervalles comportant le mˆeme nombre de valeurs.

On divise C AGE= [0, 100] en A 1 = [0, 20] et A 2 = [20, 100] si

50 % des clients ont moins de 20 ans.

Post- Entropie et classification `a priori des donn´ees :

traitement

Exemple de

repr´esentation :

Arbres de

d´ecision

On cherche `a caract´eriser les individus achetant les diff´eren ts types de lait (entier, demi-´ecr´em´e, ´ecr´em´e).

Perspectives

23/65

Facilit´e `a appr´ehender le d´ecoupage obtenu :

On veut obtenir des intervalles du type [12.5, 0] plutˆot que [12.536, 0.0005].

Data Mining

V. Augusto

Introduction

Traitement

des donn´ees

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees

S´election des

donn´ees

R´eduction des

donn´ees

Extraction de

connaissances

Post-

traitement

Exemple de

repr´esentation :

Arbres de

d´ecision

Perspectives

Discr´etisation bas´ee sur l’entropie

(1/2)

Entropie d’un ensemble de donn´ees S :

D´efinition :

S est d´ecoup´e en k classes C 1

Ent (S ) = p i . log(p i ) avec p i = | C i |

.,C k .

| S |

Propri´et´es :

.

Ent (S ) est maximale (´egale `a 0) si les donn´ees sont r´eparties dans une seule et mˆeme classe.

Ent (S ) est minimale si les donn´ees sont uniform´ement r´eparties dans toutes les classes.

Data Mining

V. Augusto

Introduction

Traitement

des donn´ees

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees

S´election des

donn´ees

R´eduction des

donn´ees

Extraction de

connaissances

Post-

traitement

Exemple de

repr´esentation :

Arbres de

d´ecision

Perspectives

Discr´etisation bas´ee sur l’entropie

(2/2)

M´ethode :

D´ecouper S = [a , b ] en S 1 = [a , c ] et S 2 = [c , b ].

Maximiser le gain d’information I (S , c ) = | S 1 | Ent (S 1 ) + | S 2 | Ent (S 2 ) Ent (S ).

| S |

| S |

Arrˆet du d´ecoupage si le gain devient insuffisant, quel que soit c .

Data Mining

V. Augusto

Introduction

Traitement

des donn´ees

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees

S´election des

donn´ees

R´eduction des

donn´ees

Extraction de

connaissances

Post-

traitement

Exemple de

repr´esentation :

Arbres de

d´ecision

Perspectives

Variation de l’entropie

Post- traitement Exemple de repr´esentation : Arbres de d´ecision Perspectives Variation de l’entropie 26/65

Data Mining

V. Augusto

Introduction

Traitement

des donn´ees

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees

S´election des

donn´ees

R´eduction des

donn´ees

Extraction de

connaissances

Post-

traitement

Exemple de

repr´esentation :

Arbres de

d´ecision

Perspectives

1
1

Introduction

2
2

Traitement des donn´ees Nettoyage des donn´ees Int´egration des donn´ees Transformation des donn´ees S´election des donn´ees R´eduction des donn´ees

3
3

Extraction de connaissances

4
4

Post-traitement

5
5

Exemple de repr´esentation : Arbres de d´ecision

6
6

Perspectives

Data Mining

V. Augusto

Introduction

Traitement

des donn´ees

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees

S´election des

donn´ees

R´eduction des

donn´ees

Extraction de

connaissances

Post-

traitement

Exemple de

repr´esentation :

Arbres de

d´ecision

Perspectives

S´election des donn´ees

Objectif :

Garder uniquement les donn´ees pertinentes pour l’´etude `a r´ealiser.

Exemple :

Doit-on s’int´eresser `a toutes les cat´egories de produits de vente ?

Doit-on s’int´eresser aux ventes r´ealis´ees il y a plus d’un an ?

Data Mining

V. Augusto

Introduction

Traitement

des donn´ees

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees

S´election des

donn´ees

R´eduction des

donn´ees

Extraction de

connaissances

Post-

traitement

Exemple de

repr´esentation :

Arbres de

d´ecision

Perspectives

1
1

Introduction

2
2

Traitement des donn´ees Nettoyage des donn´ees Int´egration des donn´ees Transformation des donn´ees S´election des donn´ees R´eduction des donn´ees

3
3

Extraction de connaissances

4
4

Post-traitement

5
5

Exemple de repr´esentation : Arbres de d´ecision

6
6

Perspectives

Data Mining

V. Augusto

Introduction

Traitement

des donn´ees

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees

S´election des

donn´ees

R´eduction des

donn´ees

Extraction de

connaissances

Post-

traitement

Exemple de

repr´esentation :

Arbres de

d´ecision

Perspectives

30/65

R´eduction des donn´ees

R´eduction en ligne par ´echantillonnage :

Pour des raisons de performance.

Du fait de la compl´exit´e importante des algorithmes d’extraction.

Plusieurs m´ethodes : ´echantillonnage al´eatoire (avec ou sans remise), ´echantillonnage par clustering/segmentation.

R´eduction en colonne par suppression des attributs redondants :

Cas triviaux (ˆage et date de naissance).

Via une analyse des corr´elation entre attributs :

P (AB )

P (A). P

(B ) = P (B /A)

P (B )

corr A, B =

Ind´ependance : corr A, B = 1 si P (B /A ) = P (B ).

Corr´elation positive : corr A, B > 1 si P (B /A ) > P (B ).

Data Mining

V. Augusto

Introduction

Traitement

des donn´ees

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees

S´election des

donn´ees

R´eduction des

donn´ees

Extraction de

connaissances

Post-

traitement

Exemple de

repr´esentation :

Arbres de

d´ecision

Perspectives

Matrice de contingence

Exemple de matrice de contingence :

Avec pain

Sans pain Total

Avec beurre 4.000

3.500

7.500

Sans beurre 2.000

500

2.500

Total

6.000

4.000

10.000

Analyse de corr´elation :

P (Beurre ) =

7.

500

000 = 0.75 et P (Pain ) = 0.6.

10.

P (Beurre Pain ) =

0. 6 = 0.89 < 1

Indique une corr´elation n´egative.

4.

000

0.

10.

4

000 = 0.4.

corr Pain , Beurre =

0.

75×

Data Mining

V. Augusto

Qualit´e de la corr´elation

Introduction

Traitement

des donn´ees

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees

S´election des

donn´ees

R´eduction des

donn´ees

Extraction de

connaissances

Coefficient de corr´elation :

r A, B = (A i

σ

¯

¯

A)(B i B )

A B

avec σ X = (X i X ) 2 .

¯

Post- Signification :

traitement

Exemple de

repr´esentation :

Arbres de

d´ecision

Perspectives

Plus r A, B s’´eloigne de z´ero, meilleure est la corr´elation :

r A, B = +1 : corr´elation positive parfaite.

r A, B = 1 : corr´elation n´egative parfaite.

r A, B = 0 : absence totale de corr´elation.

Data Mining

V. Augusto

Introduction

Traitement

des donn´ees

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees

S´election des

donn´ees

R´eduction des

donn´ees

Extraction de

connaissances

Post-

traitement

Exemple de

repr´esentation :

Arbres de

d´ecision

Perspectives

1
1

Introduction

2
2

Traitement des donn´ees Nettoyage des donn´ees Int´egration des donn´ees Transformation des donn´ees S´election des donn´ees R´eduction des donn´ees

3
3

Extraction de connaissances

4
4

Post-traitement

5
5

Exemple de repr´esentation : Arbres de d´ecision

6
6

Perspectives

Data Mining

V. Augusto

Introduction

Traitement

des donn´ees

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees

S´election des

donn´ees

R´eduction des

donn´ees

Extraction de

connaissances

Post-

traitement

Exemple de

repr´esentation :

Arbres de

d´ecision

Perspectives

Extraction de connaissances

Post- traitement Exemple de repr´esentation : Arbres de d´ecision Perspectives Extraction de connaissances 34/65

Data Mining

V. Augusto

Introduction

Traitement

des donn´ees

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees

S´election des

donn´ees

R´eduction des

donn´ees

Extraction de

connaissances

Post-

traitement

Exemple de

repr´esentation :

Arbres de

d´ecision

Perspectives

35/65

Extraction de connaissances (1/2)

Techniques descriptives :

Visent `a mettre en ´evidence des informations pr´esentes, mais cach´ees dans les gros volumes de donn´ees. Cas de la segmentation de la client`ele, de la recherche d’association de produits sur les tickets de caisse.

Permettent de r´eduire, de r´esumer et de synth´etiser les donn´ees.

Pas de variable cible `a pr´edire.

Exemples :

Techniques de segmentation/clustering : nu´ees dynamiques, segmentation hi´erarchique, r´eseaux de neurones.

Extraction de r`egles d’association.

Data Mining

V. Augusto

Extraction de connaissances (2/2)

Introduction

Traitement

des donn´ees

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees

S´election des

donn´ees

R´eduction des

donn´ees

Extraction de

connaissances

Techniques pr´edictives :

Visent `a extrapoler de nouvelles informations `a partir des informations pr´esentes. Cas g´en´eral du scoring (impay´es, attrition, cr´edit).

Permettent d’ expliquer les donn´ees.

Il existe une variable cible `a pr´edire.

Post- Exemples :

traitement

Exemple de

repr´esentation :

Arbres de

d´ecision

Perspectives

Classification/discrimination (variable cible qualitative) :

analyse discriminante ;

arbres de classification ;

r´eseaux neuronaux multi-couches.

Pr´ediction (variable cible quantitative) :

36/65

r´egression lin´eaire (simple et multiple) ;

arbres de r´egression.

Data Mining

V. Augusto

Introduction

Traitement

des donn´ees

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees

S´election des

donn´ees

R´eduction des

donn´ees

Extraction de

connaissances

Post-

traitement

Exemple de

repr´esentation :

Arbres de

d´ecision

Perspectives

1
1

Introduction

2
2

Traitement des donn´ees Nettoyage des donn´ees Int´egration des donn´ees Transformation des donn´ees S´election des donn´ees R´eduction des donn´ees

3
3

Extraction de connaissances

4
4

Post-traitement

5
5

Exemple de repr´esentation : Arbres de d´ecision

6
6

Perspectives

Data Mining

V. Augusto

Introduction

Traitement

des donn´ees

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees

S´election des

donn´ees

R´eduction des

donn´ees

Extraction de

connaissances

Post-

traitement

Exemple de

repr´esentation :

Arbres de

d´ecision

Perspectives

38/65

Post-traitement

: Arbres de d´ecision Perspectives 38/65 Post-traitement • Pr´esentation des connaissances. • Visualisation

Pr´esentation des connaissances.

Visualisation des connaissances.

Manipulation des connaissances.

Data Mining

V. Augusto

Pr´esentation des connaissances

Introduction

Traitement

des donn´ees

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees

S´election des

donn´ees

R´eduction des

donn´ees

Probl`eme :

Comment repr´esenter/visualiser les connaissances extraites ?

Formules logiques :

Extraction de

connaissances

Age (X , jeune ‘), Revenu (X , eleve ‘) class (X , A ‘)

Post- [1.402].

traitement

Exemple de

repr´esentation :

Arbres de

d´ecision

Perspectives

Age (X , jeune ‘), Revenu (X , bas ‘) class (X , B ‘)

[1.038].

Age (X , senior ‘) class (X , C ‘) [2.160].

Data Mining

V. Augusto

Introduction

Traitement

des donn´ees

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees

S´election des

donn´ees

R´eduction des

donn´ees

Extraction de

connaissances

Post-

traitement

Exemple de

repr´esentation :

Arbres de

d´ecision

Perspectives

40/65

Pr´esentation des connaissances

Tableau :

Age Revenu Class Count jeune eleve A 1.402 jeune bas B 1.038 senior eleve C
Age
Revenu Class Count
jeune
eleve
A
1.402
jeune
bas
B
1.038
senior
eleve
C
786
senior
bas
C
1.374

Arbre de d´ecision :

Count jeune eleve A 1.402 jeune bas B 1.038 senior eleve C 786 senior bas C

Data Mining

V. Augusto

Introduction

Traitement

des donn´ees

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees

S´election des

donn´ees

R´eduction des

donn´ees

Extraction de

connaissances

Post-

traitement

Exemple de

repr´esentation :

Arbres de

d´ecision

Perspectives

1
1

Introduction

2
2

Traitement des donn´ees Nettoyage des donn´ees Int´egration des donn´ees Transformation des donn´ees S´election des donn´ees R´eduction des donn´ees

3
3

Extraction de connaissances

4
4

Post-traitement

5
5

Exemple de repr´esentation : Arbres de d´ecision

6
6

Perspectives

Data Mining

V. Augusto

Introduction

Traitement

des donn´ees

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees

S´election des

donn´ees

R´eduction des

donn´ees

Extraction de

connaissances

Post-

traitement

Exemple de

repr´esentation :

Arbres de

d´ecision

Perspectives

42/65

Les origines :

G´en´eralit´es

Intelligence artificielle [Quinlan, 1983].

Statistiques [Breiman, 1986].

Points forts :

Applicables a` la fois `a des attributs num´eriques et symboliques.

Intelligibilit´e de la proc´edure de d´ecision.

Rapidit´e de la d´ecision.

Invariance des r´esultats `a toute transformation monotone des donn´ees.

Probl`eme :

Comment construire un arbre de d´ecision `a partir d’un ensemble de donn´ees ?

Data Mining

V. Augusto

Introduction

Traitement

des donn´ees

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees

S´election des

donn´ees

R´eduction des

donn´ees

Extraction de

connaissances

Post-

traitement

Exemple de

repr´esentation :

Arbres de

d´ecision

Perspectives

Principe de construction

Donn´ees :

Ensemble de K classes C 1 , C 2 ,

, C K .

Ensemble d’objets d´ecrits selon N + 1 attributs ou variables :

N variables descriptives (taille , couleurs , forme , etc.)
1 variable de cat´egorie : `a quelle classe appartient un objet donn´e (raisin , pomme , banane , etc.) ?

Principe de l’algorithme :

Partitionnement successif de l’ensemble de donn´ees.

Data Mining

V. Augusto

Introduction

Traitement

des donn´ees

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees

S´election des

donn´ees

R´eduction des

donn´ees

Extraction de

connaissances

Post-

traitement

Exemple de

repr´esentation :

Arbres de

d´ecision

Perspectives

44/65

D´efinition d’une partition (1/2)

Variable binaire X ∈ { 1 , 0 }

X ? 1 0
X ?
1
0

Variable quantitative X

X < α ? 1 0
X < α ?
1 0

Data Mining

V. Augusto

Introduction

Traitement

des donn´ees

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees

S´election des

donn´ees

R´eduction des

donn´ees

Extraction de

connaissances

Post-

traitement

Exemple de

repr´esentation :

Arbres de

d´ecision

Perspectives

D´efinition d’une partition (2/2)

Variable qualitative X

avec M modalit´es dans E = {e 1 ,

X ∈ E ′ ⊆ E ? 1 0
X ∈ E ′ ⊆ E ?
1
0
, e m }. X ? e 1 e 2 e M
, e m }.
X ?
e 1
e 2
e M

Data Mining

V. Augusto

Introduction

Traitement

des donn´ees

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees

S´election des

donn´ees

R´eduction des

donn´ees

Extraction de

connaissances

Post-

traitement

Exemple de

repr´esentation :

Arbres de

d´ecision

Perspectives

Choix d’une partition

Principe :

Partitionner les donn´ees en sous-ensembles les plus purs possibles, i.e. contenant des objets d’une seule classe.

Exemples de crit`eres d’impuret´e :

Soit un ensemble S partitionn´e en K classes C 1 ,

, C K . Soit

P k = | C k | | S |

.

Taux d’items mal class´es :

Entropie :

Crit`ere de Gini : G (S ) = 1 k P

I (S ) = k P k log 2 P k .

T (S ) = 1 max k (P k ).

2

k .

Data Mining

V. Augusto

Introduction

Traitement

des donn´ees

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees

S´election des

donn´ees

R´eduction des

donn´ees

Extraction de

connaissances

Post-

traitement

Exemple de

repr´esentation :

Arbres de

d´ecision

Perspectives

47/65

Gain d’information (1/2)

D´efinition :

I = I (S ) P L I (S L ) P R I (S R ) avec P L = | S L | et P R = | S R | . I est la fonction d’entropie.

Exemple :

| S |

| S |

S (20/30) S L (15/5) S R (5/25)
S (20/30)
S L (15/5)
S R (5/25)

I (S ) = 20/50 log 2 (20/50) 30/50 log 2 (30/50) = 0, 971

I (S L ) = 15/20 log 2 (15/20) 5/20 log 2 (5/20) = 0, 811

I (S R ) = 5/30 log 2 (5/30) 25/30 log 2 (25/30) = 0, 65

I = 0, 971 20/50(0, 811) 30/50(0, 65) = 0, 26

Data Mining

V. Augusto

Introduction

Traitement

des donn´ees

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees

S´election des

donn´ees

R´eduction des

donn´ees

Extraction de

connaissances

Post-

traitement

Exemple de

repr´esentation :

Arbres de

d´ecision

Perspectives

Gain d’information (2/2)

Cas d’une partition quelconque :

I = I (S ) k P k I (S k ) dans le cas o`u S est d´ecoup´e en S 1 ,

, S K , avec P k = | S k |

| S |

.

Probl`eme :

Les variables avec un grand nombre de modalit´es induisent une plus grande r´eduction de l’impuret´e. Gain ratio impurity

I K =

I k P k log P k

Data Mining

V. Augusto

Algorithme de construction

Introduction

Traitement

des donn´ees

Nettoyage des

donn´ees

Int´egration des

donn´ees

Transformation

des donn´ees