Vous êtes sur la page 1sur 30

Data Mining:

Concepts et Techniques

Plan du Cours

Introduction

Rgles dassociation

Classification et prdiction

Regroupement (Clustering)

Extraction de types complexes

Applications du Datamining et tendances actuelles


(gnomique)

Chapitre 1. Introduction

Motivation: Pourquoi le Data mining?

Ce quest le Data mining?

Data Mining: Sur quels types de donnes?

Fonctionnalits du Data mining

Intrt des motifs (patterns)

Classification des systmes de Data mining

Problmes rencontrs
3

Motivation: Le besoin cre


linvention

Problme de lexplosion de donnes

Les outils automatiques de collecte de donnes font que


les Bases de Donnes (BDs) contiennent normment de
donnes (Ex: La base de donnes des transactions dun
super march)

Beaucoup de donnes mais peu de connaissances !

Solution: Data warehousing et data mining

Data warehousing et OLAP (On Line Analytical Processing)

Extraction de connaissances intressantes (rgles,


rgularits, patterns, contraintes) partir de donnes

Evolution des Bases de


Donnes

1960s:

1970s:

Modle et SGBDs relationnels, SQL, transactions, OLTP

1980s:

Collecte des donnes, cration des BDs, IMS et le modle


rseau

Modles de donnes et SGBDs avancs (relationnel tendu,


OO, dductifs, etc.) et SGBDs ddis (spatial, gnomique,
engineering, etc.)

1990s2000s:

Data mining et data warehousing, BDs multimdia, BDs sur le


WEB

Ce quest le Data Mining

Data mining :

Extraction dinformations intressantes (non


triviales, implicites, pralablement inconnues et
potentiellement utiles) partir de grandes bases
de donnes.

Autres appellations:

ECD (Extraction de Connaissances partir de


Donnes)
KDD (Knowledge Discovery from Databases)
Analyse de donnes/patterns, business
intelligence, fouille de donnes, etc
6

Pourquoi faire ?
Applications potentielles

Analyse de donnes et aide la dcision

Analyse de march

Marketing cibl, gestion des relations


client, analyse des achats des clients,
ventes croises, segmentation du march

Analyse de risque

Dtection de fraudes

Autres Applications

Text mining : news groups, emails, documents Web.

Optimisation des requtes

Analyse de march et
management (1)

Les sources de donnes analyser ?

Marketing cibl

Transactions avec carte de crdit, carte de fidlit,


sondages
Trouver un modle pour regrouper les clients
partageant les mmes caractristiques. Pour chaque
groupe, adopter une dmarche marketing particulire

Analyse croise

Associations/co-relations entre ventes de produits

Prdiction base sur ces associations

Applications

Lanalyse dune BD de transactions dun supermarch


permet dtudier le comportement des clients :

rorganiser les rayons

Ajuster les promotions

En VPC, regrouper les clients selon certains critres :

Lanalyse de donnes mdicales :

Cibler les mailings

Support pour la recherche

Lanalyse de donnes financires :

Prdire lvolution des actions

Organismes de crdit (dresser des profils de clients)

Applications

Dtection de fraudes

Approche

en sant, services de cartes de crdit,


tlcommunications, etc.
Utiliser les donnes historiques pour construire des
modles de comportements frauduleux puis utiliser les
techniques de datamining pour retrouver des instances
similaires

Exemples

Assurances auto: dtecter les personnes qui


collectionnent les accidents et les remboursements
Blanchiment dargent: dtecter les transactions suspectes
(US Treasury's Financial Crimes Enforcement Network)

10

Applications

Astronomie

Le laboratoire JPL a dcouvert 22 quasars en


utilisant les techniques de datamining

Web

IBM a appliqu des algorithmes de data mining


pour rorganiser leurs sites WEB afin de faciliter
la navigation.

Amliorer le WEB marketing

11

Datamining: Un processus dans


lECD
Evaluation de patterns

Data mining: tape cl


dans lextraction de
Data Mining
connaissances
Donnes intressantes

Data Warehouse

Slection

Nettoyage de donnes
Intgration
Bases de donnes ou fichiers

12

Etapes du processus
dECD

Comprendre le domaine dapplication

Cration dun ensemble de donnes (slection)

Nettoyage et pr-traitement des donnes (peut prendre


60% de leffort)

Choix des fonctionnalits du data mining

classification, consolidation, rgression, association,


clustering.

Choix de(s) lalgorithme(s) dextraction

Datamining: Recherche des motifs (patterns) intressants

Evaluation des Patterns et prsentation

visualisation, transformation, suppression des patterns


redondants, etc.

Utilisation de la connaissance extraite

13

Architecture typique dun


systme de Data mining
Interface graphique
Evaluation des motifs
Module Data mining

Nettoyage & intgration

BD ou
Datawarehouse
BDs

Base de
connaissances
Filtrage

Data
Warehouse

14

Datamining: sur quels types


de donnes

BDs relationnelles
Data warehouses
BDs transactionnelles
BDs avances

BDs objet et objet-relationnelles


BDs spatiales
Sries temporelles
BDs Textes et multimedia
BDs Htrognes
WWW

15

Fonctionnalits du Data Mining

On distingue deux grandes familles de


tches ralises en datamining

Description : consiste trouver les


caractristiques gnrales relatives aux
donnes fouilles

Prdiction : consiste faire de linfrence


partir des donnes actuelles pour prdire des
volutions futures
16

Quels types de motifs extraire ?


(1)

Description de concepts: Caractrisation et


discrimination

Caractrisation : Il sagit de trouver des


descriptions concises et prcises de certains
concepts. Ex: On a une table dcrivant les clients
dune entreprise.

Contraster (rgions sches vs humides)

17

Quels types de motifs extraire ?


(2)

Association (corrlation et causalit)

age(X, 20..29) & revenu(X, 200..300KF)


achte(X, PC) [support = 2%, confiance =
60%]

contient(T, ordinateur) contient(T, logiciel)


[1%, 75%]

18

Quels types de motifs extraire ?


(3)

Classification et Prdiction

Trouver des modles (fonctions) qui dcrivent et distinguent


des concepts pour de futures prdictions

Ex : classifier les pays en se basant sur leurs climats, les


voitures selon leurs carburants

Prsentation: Arbres de dcision, rgles de classification,


rseaux neuronaux

Prdiction: Prdire des valeurs inconnues

Dmarche:

On prend un chantillon (jeu dessai) dans lequel chaque


objet est associ une classe
Analyser chaque classe (son contenu) pour pouvoir
ensuite affecter chaque objet nouveau une classe
particulire

19

Quels types de motifs extraire ?


(4)

Analyse de groupes (clusters)

Appele aussi classification non supervise

Le regroupement est bas sur le principe:


maximiser la similarit intra-groupe et la
minimiser entre groupes distincts

Le nom de chaque groupe est inconnu

20

Quels types de motifs extraire ?


(5)

Analyse dexceptions

Les objets non conformes la tendance gnrale

Une exception peut tre considre comme du bruit


mais aussi comme indice de fraude

Analyse de tendances

Tendance et dviation: analyse de rgression

Extraction de squences squentiels, analyse


de priodicits

21

Est-ce que tous les motifs


dcouverts sont utiles?

Un systme de data mining peut gnrer des milliers de motifs


pas tous intressants. Cest quoi un motif intressant ?

Mesure dintrt : Un motif est intressant sil est facilement


comprhensible, a un degr de certitude, nouveau, peut servir
valider (ou invalider) une hypothse utilisateur

Mesure Objective vs. Subjective :

Objective: base sur des mesures statistiques : support,


confiance, etc.

Subjective: base sur le point de vue de lutilisateur sur les


donnes, ex: le fait que cela soit inattendu, nouveaut,
actionnabilit, etc.

22

Peut-on trouver tous et que


les motifs intressants?

Trouver tous les patterns intressants:


Compltude

Association vs. classification vs. regroupement

Trouver que les patterns intressants:


Optimisation

Approches

Dabord les trouver tous puis filtrer

Ne gnrer que les motifs intressants

23

Data Mining: Confluence de


plusieurs Disciplines
Technologie BD

Apprentissage

Statistique

Data Mining

Thorie de linformation

Visualisation

Autres
Disciplines
24

Classification des systmes (1)

Fonctionnalit gnrale

Data mining descriptif

Data mining prdictif

Diffrentes vues, diffrentes classifications

Types de BDs fouiller

Types de connaissances dcouvrir

Types de techniques utilises

Application cible
25

Classification des systmes (2)

BD fouille

Connaissance recherche

Association, classification, clustering, tendance, analyse


de dviation, etc.

Multiples fonctions aux diffrents niveaux

Techniques utilises

Relationnelle, transactionnelle, orient-objet, objectrelationnelle, active, spatiale, sries temporelles, texte,


multi-media, htrognes, WWW, etc.

BD, data warehouse (OLAP), apprentissage, statistiques,


visualisation, rseaux de neurones, etc.

Applications

tlcommunication, banque, analyse de fraude, ADN, finance,


Web,

26

Problmatiques

Mthodologie et interaction

Diffrents types de connaissances extraire

Prise en compte des connaissances des experts

Langages de requte et data mining ad-hoc

Expression et visualisation des rsultats

Prise en compte des donnes incompltes ou avec bruit

valuation des motifs: notion dintrt

Performance et mise en chelle

Efficacit des algorithmes

Mthodes Parallles, distribues et incrmentales

Diversit des types de donnes

Relationnels, objets complexes, texte,

27

Rsum

Data mining: Dcouverte de motifs intressants partir de


grandes quantits de donnes

Une volution naturelle de la technologie des SGBD, trs


demande par diverses applications

Un processus dECD inclut les tapes: nettoyage, intgration,


slection, transformation, data mining, valuation des patterns,
prsentation de la connaissance

La fouille peut se faire sur diffrents types dentrepts de donnes

Fonctionnalits: discrimination, association, classification,


clustering, analyse de tendances, etc.

Classification de SDM

Problmatiques du data mining

28

Quelques systmes

Intelligent miner dIBM (coupl avec le SGBD


DB2)

Entreprise miner de SAS

Classification, association et divers outils statistiques.


Trs puissant en terme de visualisation

Clmentine de SPSS

Multiples outils danalyse statistique, classification,

Mine set de Silicon graphics.

Classification, association, rgression, analyse de


squences, regroupement

En plus des fonctionnalits classiques, lutilisateur


peut y rajouter ses propres algorithmes

DBMiner de DBMiner technologie.

Il se distingue par le fait quil incorpore les


fonctionnalits dOLAP

29

Bibliographie
Titre: Datamining : Concepts and techniques.
Auteurs : Jiawei Han & Micheline Kamber
Editeur : Morgan Kaufmann 2000

30