Vous êtes sur la page 1sur 46

Fouille de donnes

Christel Vrain

{Christel.Vrain@lifo.univ-orleans.fr}.
Contraintes et Apprentissage LIFO (FRE 2490) dOrleans Universite

exp 25/03/04 p.1

Plan de lexpos
1. Prsentation de la fouille de donnes 2. Les travaux mens au LIFO (a) (b) (c) (d) (e) Programmation Logique Inductive et Classication Recherche de rgles dassociation Recherche de rgles de caractrisation Dcouverte de classes Fouille de textes

exp 25/03/04 p.2

Extraction de Connaissances dans les Bases de Donnes (ECD) Knowledge Discovery in Databases (KDD)

exp 25/03/04 p.3

ECD
extraction non triviale de connaissances implicites, inconnues au pralable, intressantes, utiles partir dinformations stockes dans des bases de donnes

exp 25/03/04 p.4

ECD
extraction non triviale de connaissances implicites, inconnues au pralable, intressantes, utiles partir dinformations stockes dans des bases de donnes Quels types de connaissances ? lois numriques rgles dassociation rgles de classication ... dpend de la tche rsoudre

exp 25/03/04 p.4

ECD
extraction non triviale de connaissances implicites, inconnues au pralable, intressantes, utiles partir dinformations stockes dans des bases de donnes Quels types de connaissances ? Champ de recherche multidisciplinaire Bases de Donnes (BD) Statistiques Apprentissage Statistique / Symbolique Visualisation

exp 25/03/04 p.4

Pourquoi cette mergence ?


un univers de donnes en plein expansion, mais peu de connaissances de nombreuses bases de donnes, de plus en plus volumineuses connexion des BDs par les rseaux Internet
besoin vital doutils daide la dcision pour interprter les donnes

dveloppement des techniques dapprentissage automatique


exp 25/03/04 p.5

Diffrentes tches
Apprentissage supervis Description de classes ou concepts caractrisation discrimination
apprentissage partir dexemples positifs

exp 25/03/04 p.6

Diffrentes tches
Apprentissage supervis Description de classes ou concepts Classication
apprentissage partir dexemples positifs et ngatifs

exp 25/03/04 p.6

Diffrentes tches
Apprentissage supervis Description de classes ou concepts Classication Rgression

exp 25/03/04 p.6

Diffrentes tches
Apprentissage supervis Description de classes ou concepts Classication Rgression Prdiction

exp 25/03/04 p.6

Diffrentes tches
Apprentissage supervis Description de classes ou concepts Classication Rgression Prdiction Apprentissage non supervis Analyse dassociations

exp 25/03/04 p.6

Diffrentes tches
Apprentissage supervis Description de classes ou concepts Classication Rgression Prdiction Apprentissage non supervis Analyse dassociations Dcouverte de classes

exp 25/03/04 p.6

Diffrentes tches
Apprentissage supervis Description de classes ou concepts Classication Rgression Prdiction Apprentissage non supervis Analyse dassociations Dcouverte de classes Organisation en hirarchies
exp 25/03/04 p.6

Diffrentes tches
Apprentissage supervis Description de classes ou concepts Classication Rgression Prdiction Apprentissage non supervis Analyse dassociations Dcouverte de classes Organisation en hirarchies Recherche des anomalies
exp 25/03/04 p.6

Des exemples dapplications


Analyse du panier de la mnagre Fidlisation des clients Publicit cible Dtection des fraudes

exp 25/03/04 p.7

Le processus dECD
Prtraitement des donnes Nettoyage Slection des attributs pertinents Construction dattributs synthtiss Aplatissement de la base de donnes / Prise en compte du caractre relationnel de la base Fouille de donnes Apprentissage Automatique Apprentissage Statistique Analyse de Donnes Interprtation et Validation des rsultats
exp 25/03/04 p.8

Fondements formels : Programmation Logique Inductive

exp 25/03/04 p.9

Programmation Logique Inductive


la frontire entre lApprentissage Symbolique Automatique et la Programmation Logique
reprsentation des connaissances sous une forme comprhensible pour lexpert formalisme base de rgles a ge = moyen ens_sup utilise_internet reprsentation en logique du 1er ordre grand_pe `re(X, Y ) pe `re(X, Z ), pe `re(Z, Y )

exp 25/03/04 p.10

Programmation Logique Inductive


la frontire entre lApprentissage Symbolique Automatique et la Programmation Logique
reprsentation des connaissances sous une forme comprhensible pour lexpert formalisme base de rgles a ge = moyen ens_sup utilise_internet reprsentation en logique du 1er ordre grand_pe `re(X, Y ) pe `re(X, Z ), pe `re(Z, Y )

Induction de programmes logiques / Apprentissage de connaissances expertes traitement de donnes numriques et bruites v volume de donnes

exp 25/03/04 p.10

Tche de classication - Exemple 1


Bases de donnes - Exemples positifs et ngatifs

P ersonne Id N om 1 2 3 4 P re nom

Pe `re Id1 Id2 1 2 2 2 3 4

positif Id1 Id2 1 1 3 4

ne gatif Id1 Id2 3 1 1 2

Dupont Jean Dupont P aul Dupont M arie Dupont Antoine

Connaissances apprises grand_pe `re(X, Y ) pe `re(X, Z ), pe `re(Z, Y ) 2


exp 25/03/04 p.11

Tche de classication - Exemple 2


Connaissances du domaine
ze ro(0), succ(0, 1) succ(1, 2), succ(2, 3)

Concept cible positifs ngatifs pair(0), pair(2) le reste impair(1), impair(3)

trouver un programme logique P dnissant pair et impair programme correct pair(X ) succ(X, Y ), impair(Y ) impair(X ) pair(X )
2
exp 25/03/04 p.13

Principe
recherche dune bonne hypothse dans lespace des hypothses relation de gnralit Stratgies de recherche exploration dterministe : critres statistiques ICN, MULT ICN [Martin, Vrain] exploration stochastique programmation gntique [Martin, Moal, Vrain] algorithme gntique GRIL [Braud, Vrain]

Biais syntaxiques modlisation des biais par une grammaire darbres


[Moal]

exp 25/03/04 p.14

Limitations et extensions
Limitation des programmes Datalog traduction des symboles de fonction en symboles de prdicats fonction successeur reprsente par succ(X, Y ) spcication dun ensemble ni de constantes, Les domaines numriques doivent tre bornes. Si D = {0, 1, 2, 3}, que vaut succ(3, ?) Les expressions ne sont pas values. pair(s(s(X )) pair(X )

reprsentation inadquate des donnes numriques


exp 25/03/04 p.15

Limitations et extensions
Limitation des programmes Datalog Extensions
Programmation Logique avec Contraintes [Martin,
Vrain]

un langage pour exprimer les contraintes un domaine de calcul


taxe(P, Y ) Y = 0.186 X, prix(P, X )

exp 25/03/04 p.15

Limitations et extensions
Limitation des programmes Datalog Extensions
Programmation Logique avec Contraintes [Martin,
Vrain]

Bases de Donnes Contraintes [Turmeaux, Vrain]

exp 25/03/04 p.15

Limitations et extensions
Limitation des programmes Datalog Extensions
Programmation Logique avec Contraintes [Martin,
Vrain]

Bases de Donnes Contraintes [Turmeaux, Vrain]

Applications la Fouille de Donnes capacit traiter plusieurs relations mta-informations disponibles : types, contraintes dintgrit, . . . taille importante des donnes : place mmoire, cot du test de couverture, . . .

exp 25/03/04 p.15

Limitations et extensions
Limitation des programmes Datalog Extensions
Programmation Logique avec Contraintes [Martin,
Vrain]

Bases de Donnes Contraintes [Turmeaux, Vrain] Applications la Fouille de Donnes

Domaines viss : Bases de Donnes Relationnelles Systmes dInformation Gographiques

exp 25/03/04 p.15

Travaux Actuels

exp 25/03/04 p.16

Personnes
Matre de confrences - Sylvie Billot - Matthieu Exbrayat - Lionel Martin - Frdric Moal ATER - Agns Braud - Ansaf Salleb Doctorants - Andrei Letchnenko - Guillaume Cleuziou - Teddy Turmeaux
exp 25/03/04 p.17

Travaux actuels
apprentissage et BD relationnelle : complexit [Exbrayat, Braud, Turmeaux] approche base de distances [Martin, Moal]

Apprentissage supervis Rgles de classication Rgles de caractrisation [Turmeaux, Salleb, Vrain] Apprentissage non supervis Rgles dassociation [Salleb, Vrain] Regroupement (Clustering) [Cleuziou, Martin, Vrain] recherche de classes non disjointes BD transactionnelles et chargement en mmoire
[Maazouzi, Salleb, Vrain]
exp 25/03/04 p.18

Applications
collaboration avec le BRGM [D. Cassard] donnes athrosclrose (PKDD challenge) apprentissage de solveurs [Letchnenko & al.] applications aux textes [Billot, Cleuziou, Martin, Vrain]

exp 25/03/04 p.19

Collaboration avec le BRGM

rechercher des rgles dassociation entre les dpts de minerais, les mines, les failles, les volcans . . . caractriser des dpts de minerais 2
exp 25/03/04 p.20

Fouille de textes
ACI BIOTIM : IRD, INRIA ( ATOLL ET IMEDIA ), CEDRIC , INRA

mthodes gnriques dexploration de masses de donnes contenant textes et images pour acqurir la sur-couche smantique commune dvelopper des mthodes gnriques dinterrogation pluri-modale des donnes.

plate-forme CORAL - LIFO [Billot, Clavier & al.]


2

exp 25/03/04 p.21

Conclusion
Travaux formels : compltude, correction, complexit des algorithmes ECD Tches : Classication Caractrisation Recherche de rgles dassociations Dcouverte de classes non disjointes Types de bases de donnes : relationnelles, gographiques textes transactionnelles Applications : BRGM , IRD, . . .
exp 25/03/04 p.22

Exemple de Bases de Donnes Contraintes


V ille N om Surf ace 3x 4y 2 P aris x 10 2000000 P opulation F ore t Surf ace

x + 3y 37 3x + 4y 46

x y 3

x6 y0

2x 6y 17

3x 4y 2

2x 19

Rocquencourt

Orsay

2x 2y 13

2x + 2y 17

x8

3877

2x 6y 17

2x 4y 5 15000 9x y 85 x9

2y 11

2x + 2y 17

2x 1

x y 10

2
exp 25/03/04 p.23

Oprations algbriques
jointure naturelle de deux relations R1 et R2 : Exemple : V ille
F ore t

slection de R sur une contrainte c : Exemple : P opulation20000 (V ille) Exemple : XO (V ille)


, (Z V ar(R)) projection de R sur Z

union de deux relations : R1 R2 = {t|t R1 or t R2 }


2
exp 25/03/04 p.24

Exemple dapprentissage
N om Classe Orsay (+) P aris (+) Rocquencourt () De f initions possibles N ame (V ille F ore t) N ame (P opulation>3877 (V ille)

exp 25/03/04 p.25

Intrts
un cadre uni pour reprsenter les domaines numriques et symboliques permet de reprsenter des relations avec des tuples innis permet de reprsenter des ensembles innis dexemples
extension de lILP

implmentation ouverte : dnition de nouvelles stratgies (modle, stochastiaue ...) Problmes : donnes tests ?

2
exp 25/03/04 p.26

Rgles dassociation
Recherche des proprits frquentes
tape coteuse en temps de calcul et en espace mmoire lagage

Recherche des rgles (seuil de conance)


gnration de beaucoup de rgles

exp 25/03/04 p.27

Rgles dassociation
Rgles statistiques
M ine(x) Gitologie(x, A) Gitologie(x, A1 )(92, 12%)

Rgles de contrle
M ine(x) Gitologie(x, H 12) Substance_principale(x, Au)(89, 32%)

Nouvelles rgles
M ine(x) F aille(z ) Gitologie(x, C 5) P roche_de(x, z ) Structure(x, Strike_slip)(43, 75%)
exp 25/03/04 p.28

Caractrisation
tche descriptive de fouille de donnes cibl sur un ensemble dexemples positifs ne ncessite pas dexemples ngatifs
un cadre gnral pour la caractrisation dun ensemble dobjets, ensemble cible, partir

des proprits des objets cibles des proprits des objets lis Applications bases de donnes gographiques bases de donnes relationnelles
exp 25/03/04 p.29

Rgle caractristique
Rgle caractristique :: p : conjonction dun schma caractristique et dune proprit p
M P rof ondeur_Beniof f (M ) [75..150] M G M ine(M ) Geologie(G) Age(G, tertiaire)

Utilisation dagrgats : Agre gatproche (V, count) 2 Recherche pour chaque type de schmas des proprits p vries par au moins , seuil donn

exp 25/03/04 p.30

Elagage
Rgle caractristique intressante
caractre contrastant de p entre Etarget et E Etarget

Relation de gnralit entre rgles


M 3Km F M 10Km F M 5Km F M 5Km F M 10Km F M 3Km F

Proprit :
couverture(2 , p, Etarget ) couverture(1 , p, Etarget )

exp 25/03/04 p.31

Application
Entres : mines, gologie, volcans, failles, sismes relations de distance entre objets But : caractriser les mines dor

construction de buffers croissants autour des cibles

exp 25/03/04 p.32

Rsultat
Un exemple de rgle obtenue couvrant prs de 60% des mines dor et rejetant la majeure partie des autres mines. M 10km G :: M ine(M ) Geologie(G) Substance(M, or) P rof ondeur_Beniof f (M ) [75..150] Distance_Beniof f (M ) [170..275] P ente(M ) [8 ..16 ] Age(G, tertiaire) Lithologie(M, volcanique) Gitologie(M, e pithermale) M orphologie(M, veines)

exp 25/03/04 p.33