Académique Documents
Professionnel Documents
Culture Documents
Plan du Cours
Introduction
Rgles dassociation Classification et prdiction
Regroupement (Clustering)
Extraction de types complexes Applications du Datamining et tendances actuelles (gnomique)
Chapitre 1. Introduction
Les outils automatiques de collecte de donnes font que les Bases de Donnes (BDs) contiennent normment de donnes (Ex: La base de donnes des transactions dun super march)
Beaucoup de donnes mais peu de connaissances ! Solution: Data warehousing et data mining
1960s:
Collecte des donnes, cration des BDs, IMS et le modle rseau Modle et SGBDs relationnels, SQL, transactions, OLTP Modles de donnes et SGBDs avancs (relationnel tendu, OO, dductifs, etc.) et SGBDs ddis (spatial, gnomique, engineering, etc.) Data mining et data warehousing, BDs multimdia, BDs sur le WEB
5
1970s:
1980s:
1990s2000s:
Data mining :
Extraction dinformations intressantes (non triviales, implicites, pralablement inconnues et potentiellement utiles) partir de grandes bases de donnes. ECD (Extraction de Connaissances partir de Donnes) KDD (Knowledge Discovery from Databases) Analyse de donnes/patterns, business intelligence, fouille de donnes, etc
Autres appellations:
Analyse de march
Marketing cibl, gestion des relations client, analyse des achats des clients, ventes croises, segmentation du march
Analyse de risque Dtection de fraudes Text mining : news groups, emails, documents Web. Optimisation des requtes
7
Autres Applications
Transactions avec carte de crdit, carte de fidlit, sondages Trouver un modle pour regrouper les clients partageant les mmes caractristiques. Pour chaque groupe, adopter une dmarche marketing particulire Associations/co-relations entre ventes de produits Prdiction base sur ces associations
Marketing cibl
Analyse croise
Applications
Lanalyse dune BD de transactions dun supermarch permet dtudier le comportement des clients :
rorganiser les rayons Ajuster les promotions Cibler les mailings Support pour la recherche Prdire lvolution des actions Organismes de crdit (dresser des profils de clients)
9
Applications
Dtection de fraudes
Approche
Exemples
10
Applications
Astronomie
Le laboratoire JPL a dcouvert 22 quasars en utilisant les techniques de datamining IBM a appliqu des algorithmes de data mining pour rorganiser leurs sites WEB afin de faciliter la navigation. Amliorer le WEB marketing
Web
11
Data Mining
Nettoyage de donnes
Intgration Bases de donnes ou fichiers
12
Comprendre le domaine dapplication Cration dun ensemble de donnes (slection) Nettoyage et pr-traitement des donnes (peut prendre 60% de leffort) Choix des fonctionnalits du data mining
Choix de(s) lalgorithme(s) dextraction Datamining: Recherche des motifs (patterns) intressants Evaluation des Patterns et prsentation
Base de connaissances
BDs
Data Warehouse
14
BDs objet et objet-relationnelles BDs spatiales Sries temporelles BDs Textes et multimedia BDs Htrognes WWW
15
Description : consiste trouver les caractristiques gnrales relatives aux donnes fouilles Prdiction : consiste faire de linfrence partir des donnes actuelles pour prdire des volutions futures
16
17
age(X, 20..29) & revenu(X, 200..300KF) achte(X, PC) [support = 2%, confiance = 60%] contient(T, ordinateur) contient(T, logiciel) [1%, 75%]
18
Classification et Prdiction
Trouver des modles (fonctions) qui dcrivent et distinguent des concepts pour de futures prdictions
Ex : classifier les pays en se basant sur leurs climats, les voitures selon leurs carburants
On prend un chantillon (jeu dessai) dans lequel chaque objet est associ une classe
Analyser chaque classe (son contenu) pour pouvoir ensuite affecter chaque objet nouveau une classe particulire
19
Appele aussi classification non supervise Le regroupement est bas sur le principe: maximiser la similarit intra-groupe et la minimiser entre groupes distincts Le nom de chaque groupe est inconnu
20
Analyse dexceptions
Les objets non conformes la tendance gnrale Une exception peut tre considre comme du bruit mais aussi comme indice de fraude
Analyse de tendances
21
Un systme de data mining peut gnrer des milliers de motifs pas tous intressants. Cest quoi un motif intressant ? Mesure dintrt : Un motif est intressant sil est facilement comprhensible, a un degr de certitude, nouveau, peut servir
Objective: base sur des mesures statistiques : support, confiance, etc. Subjective: base sur le point de vue de lutilisateur sur les donnes, ex: le fait que cela soit inattendu, nouveaut, actionnabilit, etc.
22
Dabord les trouver tous puis filtrer Ne gnrer que les motifs intressants
23
Statistique
Apprentissage
Data Mining
Visualisation
Thorie de linformation
Autres Disciplines
24
Fonctionnalit gnrale
Application cible
25
BD fouille
Relationnelle, transactionnelle, orient-objet, objectrelationnelle, active, spatiale, sries temporelles, texte, multimedia, htrognes, WWW, etc. Association, classification, clustering, tendance, analyse de dviation, etc. Multiples fonctions aux diffrents niveaux
Connaissance recherche
Techniques utilises
BD, data warehouse (OLAP), apprentissage, statistiques, visualisation, rseaux de neurones, etc.
tlcommunication, banque, analyse de fraude, ADN, finance, Web,
26
Applications
Problmatiques
Mthodologie et interaction
Rsum
Un processus dECD inclut les tapes: nettoyage, intgration, slection, transformation, data mining, valuation des patterns, prsentation de la connaissance
La fouille peut se faire sur diffrents types dentrepts de donnes
Quelques systmes
Clmentine de SPSS
Bibliographie
Titre: Datamining : Concepts and techniques.
Auteurs : Jiawei Han & Micheline Kamber Editeur : Morgan Kaufmann 2000
30