Académique Documents
Professionnel Documents
Culture Documents
Fondamentale de Lille
OPAC
Quest-ce que le DM ?
Motivations (1)
Motivations (2)
Amliorer la productivit
Motivations (3)
F ile E dit
L oc ate
V iew
Storage
Storage
H elp
500
E
D
C
B
A
400
300
200
100
0
Network
Traffic
Mount
431
7437 1950
79%
/
02 631963
47358
Help
93%
/us
Storage
Storage
Storage
Storage
Storage
Storage
Storage
Storage
Storage
Storage
Storage
Storage
Internet
Storage
Storage
Collecte,
Collecte,
Nettoyage,
Nettoyage,
Intgration
Intgration
Sources de
donnes
Data
Warehouse
Prparation
Prparation
desdonnes
donnes
des
Donnes
dapprentissage
Vrification&&
Vrification
Evaluation
Evaluation
Data
Data
Mining
Mining
Modles,
Patterns
Comprendre lapplication
Prise
de dcisions
Utilisateur(s)
Prsentation des
connaissances
Dcideur(s)
Techniques de visualisation
Data Mining
Dcouverte de connaissances
Analyste(s) de donnes
Exploration de donnes
(OLAP, ...)
Sources de donnes
Administrateur de
Bases de donnes
Objectifs
BD larges et multi-dimensionnelles
Donnes distribues
Communauts impliques
Bases de donnes
Visualisation
Etc.
*
*
Nombre de grandes
surfaces
*
*
*
*
Nombre de grandes
surfaces
Domaines dapplication
Prise de dcision base
sur de nouvelles
connaissances
Ex., impact sur le
marketing
Le rle et limportance du
KDD et DM est de plus en
plus important
Mais le DM nest pas
seulement dans le
marketing...
Marketing
BDD
Marketing
Data
Warehousing
KDD &
Data Mining
Domaines dapplication
Domaines dapplication
Exemple 1 - Marketing
Vous tes gestionnaire marketing dun
oprateur de tlcommunications
mobiles :
Les clients recoivent un tlphone gratuit
(valeur 150) avec un contrat dun an ;
vous payer une commission de vente de
250 par contrat
Problme : Taux de renouvellement ( la
fin du contrat) est de 25%
Donner un nouveau tlphone toute
personne ayant expirer son contrat cote
cher.
Faire revenir un client aprs avoir quitter
est difficile et coteux.
Exemple 1 - Marketing
Yippee!
Yippee!
Jereste
reste!!
Je
Exemple 2 - Assurances
Oh,oui!
oui!
Oh,
Jaimema
ma
Jaime
Ferrari!
Ferrari!
Exemple 2 - Assurances
Analyser les donnes de tous les
clients de la compagnie.
La probabilit
est base sur
davoir un accident
?
Si la probabilit davoir un
accident est suprieure la
moyenne, initialiser la mensualit
suivant les risques.
compagnies tlphoniques
Analyser les patterns qui drivent du
comportement attendu (destinataire,
dure, etc.)
Exemple 4 - Web
bonne
bonne
expriencede
desurfing!
surfing!
exprience
De manire similaire
Lanalyse de tous les types
dinformations sur les logs
Adaptation de linterface
utilisateur/service
Format, Type ?
Donnes
dapprentissage
Technique ?
Data
Data
Mining
Mining
Modles,
Patterns
Tche ?
Type de
reprsentation ?
Les donnes
Valeurs des champs des enregistrements des
tables de lentropot (base de donnes)
Types :
Donnes discrtes : donnes binaires (sexe, ),
donnes numratives (couleur, ), numratives
ordonnes (rponses 1:trs satisfait, 2:satisfait,
).
Donnes continues : donnes entires ou relles
(ge, salaire, )
Dates
Donnes textuelles
Pages/liens web, Multimdia,
Classification
Clustering (Segmentation)
Recherche dassociations
Recherche de squences
Dtection de dviation
Classification
Clustering (Segmentation)
Rgles dassociation
Recherche de squences
Recherche de squences
Exemple
Dtection de dviation
Applications
Caractristiques
Illustration
Point isol
Techniques utilises
K-moyennes, A-priori, K-NN
Rseaux de neurones
Algorithmes gntiques
Chanes de Markov caches
Arbres de dcision
Rseaux bayesiens
Soft computing : ensembles flous
Rsum - Introduction
Data mining : dcouverte automatique de modles
intressants partir densemble de donnes de
grande taille
KDD (knowledge data discovery) est un processus :
Pr-traitement (Pre-processing)
Data mining
Post-traitement (Post-processing)
Travaux pratiques :
Cadre du travail
WEKA 3.2
Waikato Environment for Knowledge
Analysis
http://www.cs.waikato.ac.nz/ml/weka/
http://www.lifl.fr/~jourdan
WEKA
Logiciel gratuit disponible sur le web :
http://www.cs.waikato.ac.nz/ml/weka/
Plate forme logicielle en Java tournant
sous :
Windows
Linux
WEKA
Interface en ligne de commande
Explorer (interface graphique)
Filtre
Apprentissage (clustering,
classification, ...)
Slection dattributs
Visualisateur de donnes et de
rsultats
Exprimenter (environnement
dexprience)
WEKA
En entre : fichiers, base de donnes, Url
En sortie : affichage des rsultats, sortie des
rsultats dans des fichiers, visualisation
graphique
Exemple de
visualisation aprs
une classification :
une couleur
reprsente une
classe
Weka - Explorer
Les fonctions disponibles :
Filtre et Preprocess sur les donnes
Classification
Clustering
Rgles dassociation
Slection dattributs
Visualisateur
Plan du cours
Clustering
Plan
Classification
Rgles dassociation
Outils pour le Data Mining
Clustering
(Segmentation)
Clustering - Plan
Sommaire
Problmatique du clustering
Applications
Similarit et types de donnes
Mthodes de clustering
Mthodes de partitionnement
Mthodes hirarchiques
Mthodes par voisinage dense
Application relle en gnomique
Rsum
Problmatique
Soient N instances de donnes k attributs,
Trouver un partitionnement en c clusters
(groupes) ayant un sens (Similitude)
Affectation automatique de labels aux clusters
c peut tre donn, ou dcouvert
Plus difficile que la classification car les classes
ne sont pas connues lavance (non supervis)
Attributs
Objectifs du clustering
Minimiser
Minimiser les
les distances
distances
intra-cluster
intra-cluster
Maximiser
Maximiser les
les distances
distances
inter-clusters
inter-clusters
Exemples dapplications
Marketing : segmentation du march en dcouvrant des
groupes de clients distincts partir de bases de donees
dachats.
Environnement : identification des zones terrestres
similaires (en termes dutilisation) dans une base de
donnes dobservation de la terre.
Assurance: identification de groupes dassurs distincts
associs un nombre important de dclarations.
Planification de villes : identification de groupes
dhabitations suivant le type dhabitation, valeur,
localisation gographique,
Mdecine : Localisation de tumeurs dans le cerveau
Nuage de points du cerveau fournis par le neurologue
Identification des points dfinissant une tumeur
Mesure de la similarit
Il ny a pas de dfinition unique
de la similarit entre objets
Diffrentes mesures de
distances d(x,y)
La dfinition de la similarit
entre objets dpend de :
Le type des donnes
considres
Le type de similarit
recherche
Choix de la distance
1. d ( x , y ) 0
2. d ( x , y ) = 0 iff x = y
3. d ( x , y ) = d ( y , x )
4. d ( x , z ) d ( x , y ) + d ( y , z )
2
(
)
i
i
x
y
d(x, y)=
i=1
n
xy
i=1
Distance de Minkowski :
d(x, y)=
y
x
i
i
i =1
Choix de la distance
Champs discrets :
Table de contingence
(dissimilarit)
1
Object i
c
d
sum a + c b + d
sum
a +b
c+d
p
Sexe
M
F
M
Fivre
Y
Y
Y
Toux
N
N
P
Test-1
P
P
N
Test-2
N
N
N
Test-3
N
P
N
Test-4
N
N
N
8 attributs, avec
Sexe un attribut symtrique, et
Les attributs restants sont asymtriques
(test VIH, )
p
m
d (i, j ) =
p
Distances normalises.
Sommation : d(x,y)=d1(x1,y1) + + dn(xn,yn)
Nombre de grossesses
Concentration du taux de glucose dans le plasma
Pression sanguine diastolique (mm Hg)
Epaisseur de la graisse du triceps (mm)
Taux dinsuline aprs 2 heures (repas) (mu U/ml)
Indice de masse corporelle (poids en kg / (taille en m)^2)
Fonction Diabete pedigree
Age (ans)
Classe (Positif ou Ngatif)
Mthodes de Clustering
Caractristiques
Aller en 2.
Illustration (1)
Centres
initiaux
Illustration (2)
Nouveaux
centres
Illustration (3)
Centres
finaux
k=2 (2 groupes)
points
Centre
D(2,4),
B(2,2)
Centre
Centre
D(2,4),
J(5/3,10/3),
I(27/7,17/7) K(24/5,11/5)
A(1,3)
B(2,2)
B
B
C(2,3)
D(2,4)
E(4,2)
F(5,2)
G(6,2)
H(7,3)
B
B
B
I
I
I
K
K
K
K-moyennes : Avantages
Relativement extensible dans le
traitement densembles de taille
importante
Relativement efficace : O(t.k.n),
o n reprsente # objets, k #
clusters, et t # iterations.
Normalement, k, t << n.
Produit gnralement un optimum
local ; un optimum global peut tre
obtenu en utilisant dautres
techniques telles que :
algorithmes gntiques,
K-moyennes : Inconvnients
Applicable seulement dans le cas o la
moyenne des objets est dfinie
Besoin de spcifier k, le nombre de
clusters, a priori
Incapable de traiter les donnes
bruites (noisy).
Non adapt pour dcouvrir des
clusters avec structures non-convexes,
et des clusters de tailles diffrentes
Les points isols sont mal grs
(doivent-ils appartenir obligatoirement
un cluster ?) - probabiliste
K-moyennes : Variantes
Mthodes hirarchiques
Une mthode hirarchique :
construit une hirarchie de clusters,
non seulement une partition unique
des objets.
Le nombre de clusters k nest pas
exig comme donne
Utilise une matrice de distances
comme critre de clustering
Une condition de terminaison peut
tre utilise (ex. Nombre de
clusters)
Mthodes hirarchiques
4. Aller en 2.
Step 1
Step 2
Step 3
ab
abcde
c
d
e
Step 4
cde
de
Arbre de clusters
Mthodes hirarchiques :
Avantages
Conceptuellement simple
Proprits thoriques sont
bien connues
Quand les clusters sont
groups, la dcision est
dfinitive => le nombre
dalternatives diffrentes
examiner est rduit
Mthodes hirarchiques :
Inconvnients
Groupement de clusters est
dfinitif => dcisions
erronnes sont impossibles
modifier ultrieurement
Mthodes non extensibles
pour des ensembles de
donnes de grandes tailles
Dist=15.3
e*=4
P
Q
S
Slection dattributs
+ Clustering
LIFL : Equipe OPAC
I.B.L
Le contexte
Gnopole de Lille : Aspect gntique des
maladies multifactorielles
Collaboration avec lI.B.L. (Institut de
Biologie de Lille) laboratoire des
maladies multifactorielles (UPRES-A
8090) : diabte, obsit
Gnration de gros volumes de donnes :
outil daide linterprtation des
rsultats
Etudes de lIBL
Etudes de type familial (parents, enfants)
Prlvement dADN
Analyse de liaison : co-transmission dun gne
Comparaison de gnes entre paires dindividus
dune mme famille
Objectif :
Problme pos
Trs grand nombre de donnes gnres
(~ 1 000 points de comparaison, 200 familles)
Contexte
Hypothses de travail :
un cas particulier de Data Mining
les donnes fournies par lIBL contiennent de
nombreux attributs
existence de donnes manquantes ou incertaines
contexte d apprentissage non supervis
Objectif :
connatre les classes d attributs provoquant la
maladie
connatre les corrlations entre les attributs
Mthodologie adopte
Ralisation :
dune slection d attributs : Rduire le nombre
d attributs pour amliorer la classification
dun clustering
Slection
d attributs
N attributs
N>>m
Classes
Clustering
m attributs
K-moyennes
Sans slection d attributs :
400 attributs pour 200 objets,
temps de calcul > 7500 min. (>125 h.),
rsultats inexploitables
B
D
C
E1
Rsultats
Rsultats obtenus sur le workshop GAW11 de 1998
Exemple d ensembles d attributs slectionns
(Support trouv > 0.65) :
81 85, 402 407, 224 229 (Locus C) , 308 313, 190
195, 374 379 (Locus B)
Exemple de clustering
E1 C
E2
Classe 1
B
Classe 2
Conclusion
Bilan
Comprhension et modlisation d un
problme complexe
Slection d attributs : slection de locus
impliqus dans la maladie
Clustering : les ensembles finaux sont
trouvs lorsqu il y a peu d erreurs dans le
choix des attributs slectionns
Rfrences
M. R. Anderberg. Cluster Analysis for Applications.
Academic Press, 1973.
P. Arabie, L. J. Hubert, and G. De Soete. Clustering
and Classification. World Scientific, 1996
A. K. Jain and R. C. Dubes. Algorithms for Clustering
Data. Prentice Hall, 1988
L. Kaufman and P. J. Rousseeuw. Finding Groups in
Data: an Introduction to Cluster Analysis. John
Wiley & Sons, 1990.
Classification
Sommaire
Sommaire
Dfinition
Validation dune classification
(accuracy)
K-NN (plus proches voisins)
Arbres de dcision
Rseaux de neurones
Autres mthodes de
classification
Etude de cas rel :
Protomique
Rsum
Classification
Classes
Caractristiques
Classification - Applications
Accord de crdit
Applications
Marketing cibl
Diagnostic mdical
Analyse de leffet dun
traitement
Dtection de fraudes
fiscales
etc.
processus
2 tapes
Etape 1 :
Construction du modle
partir de lensemble
dapprentissage (training
set)
Etape 2 :
Utilisation du modle :
tester la prcision du
modle et lutiliser dans la
classification de nouvelles
donnes
Construction du modle
Chaque instance est suppose
appartenir une classe
prdfinie
Etape 1
Utilisation du modle
Classification de nouvelles
instances ou instances inconnues
Etape 2
Validation de la Classification
(accuracy)
Estimation des taux derreurs :
Validation D\Dt
Validation de la Classification
(accuracy)
Validation croise (ensemble de donnes modr)
Diviser les donnes en k sous-ensembles
Utiliser k-1 sous-ensembles comme donnes
dapprentissage et un sous-ensemble comme donnes test
D1 D2 D3 D4
D1 D2 D3 D4
D1 D2 D3 D4
D1 D2 D3 D4
D1 D2 D3 D4
Nom
Mary
James
Bill
John
Mark
Annie
Rang
Anne
Assistant Prof
3
Assistant Prof
7
Professor
2
Associate Prof
7
Assistant Prof
6
Associate Prof
3
Algorithmes
Classification
Titulaire
non
Modle
oui
oui
oui Si Rang = Professor
non Ou Anne > 6
non Alors Titulaire = Oui
Nom
Tom
Lisa
Jack
Ann
Rang
Anne
Assistant Prof
2
Associate Prof
7
Professor
5
Assistant Prof
7
Taux derreur
du modle ?
Titulaire
non
non
oui
oui
Nom
Jeff
Paul
Rang
Anne
Professor
4
Associate Prof
7
Titulaire ?
Titulaire
?
?
Oui
Oui
Evaluation des
mthodes de classification
Taux derreur (Accuracy)
Temps dexcution (construction,
utilisation)
Robustesse (bruit, donnes
manquantes,...)
Extensibilit
Interprtabilit
Simplicit
Mthodes de Classification
Caractristiques
Apprentissage supervis
(classes connues)
Illustration
Voisinage
5 de la classe
3 de la classe
Nombre dattributs
Temps de classification : -
Stocker le modle : -
Arbres de dcision
Gnration darbres de dcision partir des donnes
Arbre = Reprsentation graphique dune procdure de
classification
Accord dun prt bancaire
MS : moyenne solde compte courant
MS>5000
Non
Oui
Age>25
Non
Oui
Autres comptes
Oui
Oui
Oui
Non
Non
Non
Ensemble
dapprentissage
Outlook
sunny
sunny
overcast
rain
rain
rain
overcast
sunny
sunny
rain
sunny
overcast
overcast
rain
Temperature
hot
hot
hot
mild
cool
cool
cool
mild
cool
mild
mild
mild
hot
mild
Humidity
high
high
high
high
normal
normal
normal
high
normal
normal
normal
high
normal
high
Windy Class
false
N
true
N
false
P
false
P
false
P
true
N
true
P
false
N
false
P
false
P
true
P
true
P
false
P
true
N
Jouer au tennis ?
Humidity
High
No
Overcast
Rain
Yes
Normal
Yes
Wind
Strong
No
Weak
Yes
No
Rain
Humidity
High
Overcast
Normal
Yes
Age
Car Type
Class
23
Family
High
17
Sports
High
43
Sports
High
68
Family
Low
32
Truck
Low
20
Family
High
Numrique
Enumratif
CarType {Sports}
High
High
Low
High
Low
r
se
m
m
s
m
u
u
a
nu
n
n
cl
Id
10
Attributs significatifs
Ristourne
Oui
Non
Fraude
Oui
Clibat.
125K
Non
Clibat, Divorc
Non
Mari
100K
Non
Impt
Non
Clibat.
70K
Non
Oui
Mari
120K
Non
Non
Divorc
95K
Oui
Non
Mari
60K
Non
Oui
Divorc
220K
Non
Non
Clibat.
85K
Oui
Non
Mari
75K
Non
10
Non
Clibat.
90K
Oui
Non
Situation
< 80K
Non
Mari
Non
>= 80K
Oui
humidity
high
N
overcast
P
normal
P
rain
windy
true
N
false
P
Si outlook=sunny
Et humidity=normal
Alors play tennis
2) Ristourne = Non et
Situation in {Clibat., Divorc}
et Impt < 80K Non
Non
Non
Situation
Clibat., Divorc
Impt
< 80K
Non
Mari
Non
>= 80K
Oui
3) Ristourne = Non et
Situation in {Clibat., Divorc}
et Impt >= 80K Oui
4) Ristourne = Non et
Situation in {Mari} Non
If
If
If
If
If
Overcast
Rain
Yes
Normal
Yes
Wind
Strong
No
Weak
Yes
Algorithmes de classification
Construction de larbre
Au dpart, toutes les instances dapprentissage
sont la racine de larbre
Slectionner un attribut et choisir un test de
sparation (split) sur lattribut, qui spare le
mieux les instances.
La slection des attributs est base sur une
heuristique ou une mesure statistique.
Partitionner les instances entre les noeuds fils
suivant la satisfaction des tests logiques
Algorithmes de classification
Traiter chaque noeud fils de faon rcursive
Rpter jusqu ce que tous les noeuds soient des
terminaux. Un noeud courant est terminal si :
Il ny a plus dattributs disponibles
Le noeud est pur, i.e. toutes les instances
appartiennent une seule classe,
Le noeud est presque pur, i.e. la majorit des instances
appartiennent une seule classe (Ex : 95%)
Nombre minimun dinstances par branche (Ex :
algorithme C5 vite la croissance de larbre, k=2 par
dfaut)
Algorithmes de classification
Elaguer larbre obtenu (pruning)
Supprimer les sous-arbres qui namliorent pas
lerreur de la classification (accuracy) arbre
ayant un meilleur pouvoir de gnralisation,
mme si on augmente lerreur sur lensemble
dapprentissage
Eviter le problme de sur-spcialisation (overfitting), i.e., on a appris par coeur lensemble
dapprentissage, mais on nest pas capable de
gnraliser
Sur-spcialisation - arbre de
dcision
Larbre gnr peut surspcialiser lensemble
dapprentissage
Plusieurs branches
Taux derreur important pour les
instances inconnues
Raisons de la sur-spcialisation
bruits et exceptions
Peu de donne dapprentissage
Maxima locaux dans la recherche
gloutonne
Deux approches :
Pr-lagage : Arrter de
faon prmature la
construction de larbre
Ensemble
dapprentissage
Outlook
sunny
sunny
overcast
rain
rain
rain
overcast
sunny
sunny
rain
sunny
overcast
overcast
rain
Temperature
hot
hot
hot
mild
cool
cool
cool
mild
cool
mild
mild
mild
hot
mild
Humidity
high
high
high
high
normal
normal
normal
high
normal
normal
normal
high
normal
high
Windy Class
false
N
true
N
false
P
false
P
false
P
true
N
true
P
false
N
false
P
false
P
true
P
true
P
false
P
true
N
Humidity
High
No
Overcast
Rain
Yes
Normal
Yes
Wind
Strong
No
Weak
Yes
Overcast
Rain
Yes
Normal
Yes
Wind
Strong
No
Weak
Yes
Wind
Strong
No
Overcast
No
Weak
Yes
Rain
No
Overcast
Rain
Wind
Strong
No
Wind
Weak
Yes
Strong
No
Weak
Yes
Wind
Strong
Yes
Overcast
Rain
Wind
Weak
No
Strong
No
Wind
Weak
Yes
Strong
No
Weak
Yes
Overcast
Rain
Yes
Normal
Yes
Wind
Strong
No
(Outlook=Sunny Humidity=Normal)
(Outlook=Overcast)
(Outlook=Rain Wind=Weak)
Weak
Yes
Low Risk
High Risk
Sports
< 25
Age
Gain dinformation
Slectionner lattribut avec le plus grand gain
dinformation
Soient P et N deux classes et S un ensemble
dinstances avec p lments de P et n lments
de N
Linformation ncessaire pour dterminer si
une instance prise au hasard fait partie de P
ou N est (entropie) :
I ( p, n) =
p
p
n
n
log 2
log 2
p+n
p+n p+n
p+n
Entropie
Gain dinformation
Soient les ensembles {S1, S2 , , Sv} formant une
partition de lensemble S, en utilisant lattribut A
Toute partition Si contient pi instances de P et ni
instances de N
Lentropie,
Lentropie ou linformation ncessaire pour classifier
les instances dans les sous-arbres Si est :
p +n
E ( A) = i i I ( pi , ni )
i =1 p + n
Le gain dinformation par rapport au branchement sur
A est
Gain ( A ) = I ( p , n ) E ( A )
Choisir lattribut qui maximise le gain besoin
dinformation minimal
Classe P : jouer_tennis =
oui
Classe N : jouer_tennis =
non
Information ncessaire
pour classer un exemple
donn est :
I ( p, n) = I (9,5) = 0.940
On a
Alors
E (outlook ) =
outlook
sunny
overcast
rain
pi
2
4
3
ni I(pi, ni)
3 0,971
0 0
2 0,971
5
4
5
I ( 2,3) + I ( 4,0) + I (3,2) = 0.694
14
14
14
De manire similaire
True
[21+, 5-]
A2=? [29+,35-]
False
[8+, 30-]
True
[18+, 33-]
False
[11+, 2-]
A2=? [29+,35-]
False
[8+, 30-]
True
[18+, 33-]
False
[11+, 2-]
A2=? [29+,35-]
False
[8+, 30-]
True
[18+, 33-]
False
[11+, 2-]
Exemple dapprentissage
Day
D1
D2
D3
D4
D5
D6
D7
D8
D9
D10
D11
D12
D13
D14
Outlook
Sunny
Sunny
Overcast
Rain
Rain
Rain
Overcast
Sunny
Sunny
Rain
Sunny
Overcast
Overcast
Rain
Temp.
Hot
Hot
Hot
Mild
Cool
Cool
Cool
Mild
Cold
Mild
Mild
Mild
Hot
Mild
Humidit
y
High
High
High
High
Normal
Normal
Normal
High
Normal
Normal
Normal
High
Normal
High
Wind
Weak
Strong
Weak
Weak
Weak
Strong
Weak
Weak
Weak
Strong
Strong
Strong
Weak
Strong
Play Tennis
No
No
Yes
Yes
Yes
No
Yes
No
Yes
Yes
Yes
Yes
Yes
No
S=[9+,5-]
E=0.940
Humidity
Wind
High
[3+, 4-]
E=0.985
Normal
[6+, 1-]
E=0.592
Gain(S,Humidity)
=0.940-(7/14)*0.985
(7/14)*0.592
=0.151
Weak
[6+, 2-]
Strong
[3+, 3-]
E=0.811
E=1.0
Gain(S,Wind)
=0.940-(8/14)*0.811
(6/14)*1.0
=0.048
Over
cast
Rain
[2+, 3-]
[4+, 0]
[3+, 2-]
E=0.971
E=0.0
E=0.971
Gain(S,Outlook)
=0.940-(5/14)*0.971
-(4/14)*0.0 (5/14)*0.0971
=0.247
Algorithme ID3
[D1,D2,,D14]
[9+,5-]
Outlook
Sunny
Overcast
Rain
Yes
Algorithme ID3
Outlook
Sunny
Humidity
High
No
[D1,D2]
Overcast
Rain
Yes
[D3,D7,D12,D13]
Normal
Yes
[D8,D9,D11]
Wind
Strong
Weak
No
Yes
[D6,D14]
[D4,D5,D10]
Indice Gini
Utiliser lindice Gini pour un partitionnement pur
c
Gini ( S ) = 1 pi2
i =1
Gini ( S1 , S 2 ) =
n1
n
Gini ( S1 ) + 2 Gini ( S 2 )
n
n
Situation famille
Situation famille
Revenu
Revenu
Non Oui
<80K
14
23
>80K
18
10
Gini(split) = 0.31
Gini(split) = 0.34
CarType
C1
C2
Gini
C1
C2
Gini
CarType
{Sports,
{Family}
Luxury}
3
1
2
4
0.400
C1
C2
Gini
CarType
{Family,
{Sports}
Luxury}
2
2
1
5
0.419
No
No
No
Yes
Yes
Yes
No
No
No
No
100
120
125
220
Revenu imposable
Valeurs tries
60
70
55
Positions Split
75
65
85
72
90
80
95
87
92
97
110
122
172
230
<=
>
<=
>
<=
>
<=
>
<=
>
<=
>
<=
>
<=
>
<=
>
<=
>
<=
>
Yes
No
Gini
0.420
0.400
0.375
0.343
0.417
0.400
0.300
0.343
0.375
0.400
0.420
Rseaux de neurones
Neurone ou perceptron
w0
w1
Sortie y
wn
Vecteur
Somme
poids w
pondre
(coefficients
Synaptiques)
Fonction
dactivation
Neurone ou perceptron
Linear treshold unit (LTU)
x1
x2
.
.
.
xn
w1
w2
wn
x0=1
w0
i=0n wi xi
o(xi)=
1 si i=0n wi xi >0
-1 sinon
Neurone
(x)= 1
1+e
Rseaux de neurones
Couche sortie
Plusieurs
Couches
caches
Couche
entre
Graphe complet
Vecteur entre
Paradigme dapprentissage
Vecteur sortie
Algorithmes dapprentissage
Kohonen
Rtro-propagation du gradient
Principales tapes
Construction du rseau
Reprsentation des entres
Nombre de couches, nombre de noeuds dans chaque
couche
Apprentissage du rseau utilisant les donnes
disponibles
Elagage du rseau
Interprtation des rsultats
Construction du rseau
Construction du rseau
Apprentissage du rseau
(d(x)a(x))
e(PMC)= 1
2 xS
Apprentissage du rseau
Apprentissage du rseau
wi = wi + wi
wi = (t - o) xi
t=c(x) est la valeur dsire
o est la sortie obtenue
est le taux dapprentissage (e.g 0.1)
Apprentissage du rseau
(w1,w2)
(w1+w1,w2 +w2)
Elagage du rseau
Classification baysienne :
Pourquoi ? (1)
Apprentissage probabiliste :
calcul explicite de probabilits sur des
hypothses
Approche pratique pour certains types de
problmes dapprentissage
Incrmental :
Chaque instance dapprentissage peut de faon
incrmentale augmenter/diminuer la
probabilit quune hypothse est correcte
Des connaissances a priori peuvent tre
combines avec les donnes observes.
Classification baysienne :
Pourquoi ? (2)
Prdiction Probabiliste :
Prdit des hypothses multiples, pondres par
leurs probabilits.
Rfrence en terme dvaluation :
Mme si les mthodes baysiennes sont
coteuses en temps dexcution, elles peuvent
fournir des solutions optimales partir
desquelles les autres mthodes peuvent tre
values.
Classification baysienne
Thorme de Bayes :
P(C|X) = P(X|C)P(C) / P(X)
P(X) est une constante pour toutes les
classes
P(C) = frquence relative des
instances de la classe C
C tel que P(C|X) est maximal =
C tel que P(X|C)P(C) est maximal
Problme : calculer P(X|C) est non
faisable !
Classification baysienne
Exemple (1)
Estimation de P(xi|C)
P(p) = 9/14
P(n) = 5/14
Outlook
P(sunny | p) = 2/9
P(overcast | p) = 4/9
P(rain | p) = 3/9
Temperature
P(hot | p) = 2/9
P(mild | p) = 4/9
P(cool | p) = 3/9
P(sunny | n) = 3/5
P(overcast | n) = 0
P(rain | n) = 2/5
Humidity
P(high | p) = 3/9
P(high | n) = 4/5
P(normal | p) = 6/9 P(normal | n) = 1/5
P(hot | n) = 2/5
P(mild | n) = 2/5
P(cool | n) = 1/5
Windy
P(true | p) = 3/9
P(false | p) = 6/9
P(true | n) = 3/5
P(false | n) = 2/5
Classification baysienne
Exemple (1)
Classification de X :
Une instance inconnue X = <rain, hot, high, false>
P(X|p)P(p) =
P(rain|p)P(hot|p)P(high|p)P(false|p)P(p) =
3/92/93/96/99/14 = 0.010582
P(X|n)P(n) =
P(rain|n)P(hot|n)P(high|n)P(false|n)P(n) =
2/52/54/52/55/14 = 0.018286
Instance X est classifie dans la classe n (ne pas
jouer)
Classification baysienne
lhypothse dindpendance
Etude de cas
Prdiction de structure de la
protine
Les protines
Une protine = squence dacides amins dfinie par un gne
et ayant une fonction spcifique dans la cellule
Les protines
20 acides amins distincts, chaque acide amin tant
constitu de (jusqu) 18 atomes
Une squence protique est constitue de 50 2000
acides amins
3000 4000 protines dans une cellule
Une protine se replie en pelote , adoptant une
configuration spatiale caractristique de sa fonction
A
C
D
E
F
G
H
I
K
L
Ala Alanine
Cys Cysteine
Asp Aspartic
Glu Glutamic
Phe Phenylalanine
Gly Glycine
His Histidine
Ile Isoleucine
Lys Lysine
Leu Leucine
M
N
P
Q
R
S
T
V
W
Y
Met Methionine
Asn Asparagine
Pro Proline
Gln Glutamine
Arg Arginine
Ser Serine
Thr Threonine
Val Valine
Trp Tryptophan
Tyr Tyrosine
20 Lettres de lalphabet
Les structures
Structure primaire = ordre dans lequel sont
enchans les acides amins dans la molcule
Structure secondaire = rotation des atomes de la
chane peptidique les uns par rapport aux autres au
cours de la synthse de la chane
Structure tertiaire = rsultat de liaisons diverses
(hydrogne, hydrophobes, lectrostatiques,
covalentes,...) entre des acides amins de la mme
chane peptidique mais non voisins dans la
structure primaire
Structure primaire
O H
O H
O H
O H
O H
OH
OH
H3N+ CH C N CH C N CH C N CH C N CH C N CH C N CH C N CH COOCH2
CH2
COO-
CH2
CH
H3C CH3
CH2
NH
CH2
H C CH3
CH2
HC CH CH2
CH3
HN
CH2
N
CH
C
NH2
Asp
D
N +H 2
Arg
Val Tyr Ile
His Pro
R
V
Y
I
H
P
Squence de la protine : DRVYIHPF
Phe
F
Base de donnes
Structures prdites (connues) :
Protein Data Bank (PDB) (centaine de structures
non redondantes) [www.rcsb.org/pdb/]
SWISSPROT
[www.ebi.ac.uk/swissprot]
Structure secondaire
Hlice
Feuillet parallle :
tous les segments
ont la mme
orientation
Feuillet antiparallle
Feuillet mixte
Structure secondaire
Hlice
Feuillet parallle :
tous les segments
ont la mme
orientation
Feuillet antiparallle
Feuillet mixte
Structure secondaire
Beta Hlice
Structure 3D
Permet de comprendre le mode d'action d'une
protine : activit enzymatique, interaction avec
d'autres protines (ligands, substrats, rcepteur,
pitope, etc.).
Structure primaire
Structure
secondaire / tertiaire
Rseaux de neurones
- Le processus neuronal de base traite des signaux
d'entre d'un ou plusieurs neurones et envoie un
signal de sortie un ou plusieurs (un 0 ou un 1)
- Le signal de sortie chaque neurone rcepteur est
pondr ces poids sont ajusts par entranement
du modle avec des squences de structures
connues
- Le programme donne une valuation de fiabilit de
chaque prvision base sur la force des signaux
dune hlice alpha, dun feuillet bta et dune
boucle
Rfrence : Rost B, Sander C (1994) Combining evolutionary
information and neural networks to predict protein
secondary structure. Proteins, 19, 55-72
Rseaux de neurones
Entre : structure
primaire
Sortie : indication sur
la structure
secondaire
Couche cache
Entre
Sortie
Efficacit > 70%
http://dot.imgen.bcm.tmc.edu:9331/seqsearch/struc-predict.html
http://jura.ebi.ac.uk:8888/jnet/
http://www.emblheidelberg.de/predictprotein/
http://cubic.bioc.columbia.edu/predictprot
ein
Autres
mthodes
Rseaux baysiens
Algorithmes gntiques
Case-based reasoning
Ensembles flous
Rough set
Analyse discriminante
(Discriminant linaire de Fisher,
Classification - Rsum
La classification est un
problme largement tudi
La classification, avec ses
nombreuses extensions,
est probablement la
technique la plus rpandue
Modles
Arbres de dcision
Rgles dinduction
Modles de rgression
Rseaux de neurones
Facile comprendre
Difficile comprendre
Classification - Rsum
Lextensibilit reste une
issue importante pour les
applications
Directions de recherche :
classification de donnes
non relationnels, e.x.,
texte, spatiales et
donnes multimdia
Classification - Rfrences
J. R. Quinlan. C4.5: Programs for Machine Learning. Morgan
Kaufman, 1993.
J. R. Quinlan. Induction of decision trees. Machine Learning,
1:81-106, 1986.
L. Breiman, J. Friedman, R. Olshen, and C. Stone. Classification
and Regression Trees. Wadsworth International Group, 1984.
S. M. Weiss and C. A. Kulikowski. Computer Systems that Learn:
Classification and Prediction Methods from Statistics, Neural
Nets, Machine Learning, and Expert Systems. Morgan Kaufman,
1991.
D. E. Rumelhart, G. E. Hinton and R. J. Williams. Learning
internal representation by error propagation. In D. E. Rumelhart
and J. L. McClelland (eds.) Parallel Distributed Processing. The
MIT Press, 1986
Rgles
dassociation
Sommaire
Exemple : Panier de la
Sommaire
mnagre
Dfinitions
A-Priori
Algorithmes gntiques
Rsum
Client 1
Client 2
Oeufs, Sucre
Client 3
Trouver :
Groupes darticles (itemset) achets frquemment (ensemble)
Rgles dassociations
Recherche de rgles dassociation :
Dcouvrir des patterns, corrlations, associations
frquentes, partir densembles ditems contenus dans
des base de donnes.
Rgles dassociations
Formats de reprsentation des rgles
dassociation :
Rgles dassociations
couche
1
1
2
3
SI achte couche,
ALORS achte bire,
dans 60% de cas,
dans 0.5% de la base"
Condition,
Condition partie gauche de la rgle
Consquence,
quence partie droite de la rgle
Support,
Support frquence (partie gauche et droite sont
prsentes ensemble dans la base)
4 Confiance (si partie gauche de la rgle est
vrifie, probabilit que la partie droite de la
rgle soit vrifie)
Rgles dassociations
Support :
Exemple
TID
Items
1
2
3
4
5
Pain, Lait
Bire, Couches, Pain, Oeufs
Bire, Coca, Couches, Lait
Bire, Pain, Couches, Lait
Coca, Pain, Couches, Lait
Rgle :
X s , y
Support :
s=
( X y)
( s = P (X, y))
|T |
Confiance : = (X y) ( = P( y | X))
(X) |
Rgles dassociations
Support minimum :
Elev
Rduit
Confiance minimum :
Eleve
= 70 - 90 %
Rgles dassociations
Etant donn : (1) un base de donnes de
transactions, (2) chaque transaction est un
ensemble darticles (items) achets
Transaction ID
100
200
400
500
Items achets
Itemset frquent
A,B,C
A,C
A,D
B,E,F
{A}
{B} et {C}
{D}, {E} et {F}
{A,C}
Support
3 ou 75%
2 ou 50%
1 ou 25%
2 ou 50%
Autres paires ditems max 25%
Achat 2
Achat 3
Achat 4
Achat 5
*
*
*
*
*
Produit B
Produit C
Produit D
Produit E
Illustration / Exemple
Rgle d association :
Si A alors B (rgle 1)
Si A alors D (rgle 2)
Si D alors A (rgle 3)
Supports :
Support(1)=20% ; Support(2)=Support(3)=40%
Confiances :
Confiance(2) = 50% ; Confiance(3) = 67%
On prfre la rgle 3 la rgle 2.
Description de la mthode
article
frquence 45%
42,5% 40%
A et B
A et C
B et C
25%
20%
15%
A, B et C
5%
Description de la mthode
Si A et B alors C
0.20
40%
0.50
Si A et C alors B
0.25
42.5%
0.59
Si B et C alors A
0.33
45%
0.74
Recherche de rgles
Complexit
Soient :
Complexit
(m.2m 1 )
Rduction de la complexit
2
3
n(n-1)/2 n(n-1)(n-2)/6
4
n(n-1)(n-2)(n-3)/24
100
4950
161 700
3 921 225
10000
5.107
1.7 1011
4.2 1014
Compteur
4
2
4
3
4
1
Attributs (1-itemsets)
Support Minimum = 3
Itemset
Compteur
{Pain,Lait}
3
{Pain,Bire}
2
{Pain,Couches}
3
{Lait,Bire}
2
{Lait,Couches}
3
{Bire,Couches}
3
paires (2-itemsets)
Triplets (3-itemsets)
Itemset
{Pain,Lait,Couches}
{Lait,Couches,Bire}
Compteur
3
2
Deux tapes
Recherche des k-itemsets frquents
(supportMINSUP)
Exemple
I = {A, B, C, D, E, F}
T = {AB, ABCD, ABD, ABDF, ACDE, BCDF}
MINSUP = 1/2
Lalgorithme Apriori
L1 = {1-itemsets frquents};
for (k=2; Lk-1 ; k++) do
Ck = apriori_gen(Lk-1);
forall instances tT do
Ct = subset(Ck,t);
forall candidats c Ct do
c.count++;
Lk = { c Ck / c.count MINSUP }
L = iLi;
La procdure Apriori_gen
{ Jointure Lk-1 * Lk-1 ; k-2 lments communs}
insert into Ck;
select p.item1, p.item2, , p.itemk-1, q.itemk-1
from Lk-1p, Lk-1q
where p.item1=q.item1, , p.itemk-2=q.itemk-2
, p.itemk-1< q.itemk-1
forall itemsets c Ck do
forall (k-1)-itemsets sc do
if sLk-1 then
delete c from Ck;
Apriori - Exemple
Base de
donnes D
TID
100
200
300
400
Items
134
235
1235
25
C1
itemset sup.
{1}
2
3
Scan D {2}
{3}
3
{4}
1
{5}
3
L1
itemset sup.
{1}
2
{2}
3
{3}
3
{5}
3
Apriori - Exemple
C2
C2
itemset
itemset sup
{1 2}
{1 2}
1
{1 3}
{1 3}
2
Scan
D
{1 5}
1
{1 5}
{2 3}
2
{2 3}
{2 5}
3
{2 5}
{3 5}
2
{3 5}
L2
itemset
{1 3}
{2 3}
{2 5}
{3 5}
sup
2
2
3
2
Apriori - Exemple
C3
itemset
{2 3 5}
L3
Scan D
itemset sup
{2 3 5} 2
Apriori - Exemple
Espace de
recherche
12345
1234 1235 1245 1345
123 124
12
13
2345
15
2
23
24
3
25
4
34
5
35
45
Apriori - Exemple
Apriori
au Niveau 1
12345
1234 1235 1245 1345
123 124
12
13
2345
15
2
23
24
3
25
4
34
5
35
45
Apriori - Exemple
Apriori
au niveau 2
12345
1234 1235 1245 1345
123 124
12
13
2345
15
2
23
24
3
25
4
34
5
35
45
Rgle 2 mmoriser :
Pour la gnration des itemsets, le seuil support est utilis.
Pour la gnration des rgles dassociation, le seuil confiance
est utilis.
Complexit en pratique ?
A partir dun exemple rel (petite taille)
Expriences ralises sur un serveur Alpha Citum 4/275 avec
512 MB de RAM & Red Hat Linux release 5.0 (kernel 2.0.30)
Exemple de performances
Network
NetworkManagement
ManagementSystem
System
MSC
MSC
MSC
MSC
BSC
BSC
BSC
BSC
BSC
BSC
BTS
BTS
BTS
BTS
BTS
BTS
Alarms
Alarms
MSC
MSC
Rseau switch
Rseau daccs
MSC
MSC Mobile station controller
BSC
BSC Base station controller
BTS
BTS Base station transceiver
Rseau cellulaire
Exemple de performances
Donnes tlcom contenant des alarmes :
Exemple de donnes 1 :
43 478 alarmes (26.9.94 - 5.10.94; ~ 10 jours)
2 234 diffrent types dalarmes, 23 attributs, 5503 diffrentes
valeurs
Exemple de donnes 2 :
73 679 alarmes (1.2.95 - 22.3.95; ~ 7 semaines)
287 diffrent types dalarmes, 19 attributs, 3411 diffrentes
valeurs
Exemple de performances
Ensemble donnes 1 (~10 jours)
Exemple de rgles :
alarm_number=1234, alarm_type=PCM alarm_severity=A1 [2%,45%]
Exemple de performances
Exemple de rsultats pour les donnes 1 :
Seuil de frquence :
Itemsets candidats :
Itemsets frquents :
Rgles :
0.1
109 719
79 311
3 750 000
Temps:
12.02 s
Temps: 64 855.73 s
Temps:
860.60 s
Seuil de frquence :
Itemsets candidats :
Itemsets frquents :
Rgles :
0.1
43 600
13 321
509 075
Temps:
1.70 s
Temps: 10 478.93 s
Temps:
143.35 s
Apriori - Complexit
Phase coteuse : Gnration des candidats
Ensemble des candidats de grande taille :
104 1-itemset frquents gnrent 107 candidats pour les 2itemsets
Pour trouver un itemset de taille 100, e.x., {a1, a2, , a100},
on doit gnrer 2100 1030 candidats.
Multiple scans de la base de donnes :
Besoin de (n +1 ) scans, n est la longueur de litemset le plus
long
Apriori - Complexit
En pratique :
Notons :
Un attribut peut avoir plusieurs valeurs diffrentes
Les algorithmes traitent chaque paire attribut-valeur comme un
attribut (2 attributs avec 5 valeurs 10 attributs
Partitionnement :
Echantillonage :
Apriori - Avantages
Apriori - Inconvnients
Forme : if C then P.
Forme : if C then P
Classes : valeurs de P
Exemple : if ((Age>30) & (situation=mari)) then prt=prioritaire
etc.
P: attribut but
Classification gnralise
par Algorithmes
Gntiques
Problmatique
Q Dcouvrir dans une large BD quelques
petites
Population
Gnration
suivante
Slection
Croisement (Crossover)
Mutation
Slection
Parents
Elitisme
Mutation
Croisement
Enfants
Situation
Single
Age
Young
Lalgorithme Gntique
Recommandation
Very_recommand
Sous-population 1
C11
...
P1
C1N P1
Suppression
Crossover
Mutation
Remplacement
Sous-population K
Ck1
...
petites
...
Pk
CkN Pk
rgles Suppression
Crossover
Mutation
Remplacement
quelques rgles
intressantes
Evaluation
Evaluation
(Fitness function)
(Fitness function)
BD
C & P
P
a =
,b =
N
C
1 .G ( Rule
F ( Rule ) =
pu
) + 2.
t
1+
[Freitas 99]
Exemple :
P1 : (Marital_status=married) (Gender=male)
P2 : (Marital_status= single) (Salary=high)
Enfant1 : (Marital_status=single) (Gender=male).
Enfant2 : (Marital_status=married) (Salary=high).
Vice versa
Exemple :
P1 : (Marital_status=married) (Gender=male)
P2 : (Age = young) (Salary=high)
E1 : (Marital_status=married) (Gender=male) (Age=young)
E2 : (Marital_status=married) (Salary=high)
(Gender=male)
Exemple :
Suppression de termes
(Age=young)
E : (Marital_status=married) (Gender=male)
Application
BD : Nursery school
Q
From http://www.ics.uci.edu/AI/ML/Machine-Learning.html
1
2
3
4
5
6
7
8
9
Attribute values
Usual, pretentious, great_pret
Proper, less_proper, improper, critical, very_crit
Complete, completed, incomplete, foster
1, 2, 3, more
Convenient, less_conv, critical
Convenient, inconv
Nonprob, slightly_prob, problematic
Recommended, priority, not_recom
Recommend, priority, not_recom, very_recom
Hardware platform
Q
Paramtres de lAG
3 attributs buts
Q MAXTERM=5
Q 150 individus /3 sous-populations
Q
Evaluation de lAG
Qualit des rgles extraites
Paramtres mesurs :
Validit : facteur de confiance des rgles
C&P
FC =
C
|C|
18
6
288
18
18
54
57
162
|P|
1296
1296
196
864
864
864
864
864
|C&P|
9
3
124
18
18
18
18
54
FCTrain
FCTest
0.500000 0.500000
0.500000 0.500000
0.430556 0.000000
1.000000 1.000000
1.000000 1.000000
0.333333 0.333333
0.333333 0.333333
0.333333 0.333333
0.552500 0.4987500
FC mesurs
Sur les donnes dapprentissage (20%) : FCtrain
Sur les donnes de test (80%) : Fctest
ALORS (recommandation=not_recomm)
Arrayer
Exprience : Hybridation
Capture des images rsultats
Analyse
Ressources
1
2
3
4
..
..
1000
0.6
0.2
0
0.7
..
..
0.3
0.4
0.9
0
0.5
..
..
0.8
0.2
0.8
0.3
0.2
..
..
0.7
1
2
3
4
..
..
1000
0.6
0.2
0
0.7
..
..
0.3
0.4
0.9
0
0.5
..
..
0.8
0.2
0.8
0.3
0.2
..
..
0.7
Clustering de gnes
Genes participating in the same pathway are most likely expression at same time.
Rgles dassociation
Gene1, Gene2, Gene3, Gene4, Gene5.
Gne reprsentant la consquence ?
Gene 1
Gene 2
Gene 3
Negative regulation
Gene 4
Gene x
Exprimentations
Ensemble de donnes
SourceLawrence Berkeley National Lab
(LBNL) Michael Eisen's Lab
http://rana.lbl.gov/EisenData.htm
Donnes dexpression Microarray de yeast
saccharomyces cerevisiae, contenant 6221
gnes sous 80 conditions
Fonctionalits et mthodologies
une vs. plusieurs fonctions de data mining
une vs. plusieurs mthodes par fonction
Couplage avec les systmes de gestion de base
de donnes et les entropots de donnes
Outils de visualization : visualisation des
donnes, visualisation des rsultats obtenus,
visualisation du processus, visualisation interactive
(split attribut, ), etc.
Outils/librairies libres
SIPINA
WEKA
etc.
Techniques implmentes
Arbres de dcision
Rgression
Rseaux de neurones
Alice (1)
Socit : ISoft
Cration : 1988
Plate-formes : Windows 95/98/NT/2000,
TSE, Metaframe
Utilisation
Alice (2)
Interface graphique (tools)
Clementine (1)
Clementine (2)
Interface simple, puissante et complte
interface conviviale
Clementine (3)
Techniques :
Arbres de dcision
Induction de rgles
Rseaux de neurones
Mthodes statistiques
MineSet (1)
MineSet (2)
Interface visuelle 3D
MineSet (3)
Interface graphique
client/serveur
Tool Manager (Client)
DataMover (Server)
Utilisateurs
Managers
Analystes
MineSet (4)
Tches
Rgles dassociation
Classification
Prsentation de la connaissance
Arbre
Statistiques
Clusters (nuages de points)
Synthse
Visualisation de donnes
Donnes dans un base de
donnes ou un entropot de
donnes peuvent tre
visualises :
diffrents niveaux de
granularit ou dabstraction
A laide de diffrentes
combinaisons dattributs ou
dimensions
Rsultats des outils de Data
Mining peuvent tre prsentes
sous diverses formes visuelles
Rsum
Data mining : dcouverte
automatique de patterns
intressants partir densembles de
donnes de grande taille
KDD (Knowledge discovery) est un
processus :
pr-traitement
data mining
post-traitement
Domaines dapplication :
distribution, finances, biologie,
mdecine, tlcommunications,
assurances, banques, ...
Rsum
Linformation peut tre extraite
partir de diffrentes types de
bases de donnes (relationnel,
orient objet, spatial, WWW, ...)
Plusieurs fonctions de data mining
(diffrents modles) : clustering,
classification, rgles dassociation,
...
Plusieurs techniques dans
diffrents domaines :
apprentissage, statistiques, IA,
optimisation, ....
Rsum
Plusieurs problmes
ouverts :
Visualisation
Paralllisme et
distribution
Issues de scurit et
confidentialit
Futur prometteur
Georges Gardarin
Mohammed Zaki
Vipin Kumar
Rmi Gilleron
http://www.cs.bham.ac.uk/~anp/TheDataMine.html
www.kdnuggets.com
Confrences - Historique
Confrences - Journaux
Standards
Standards
DM:
AI/ML:
...
...
ACM-TODS, J. ACM,
IEEE-TKDE, JIIS, ...