Vous êtes sur la page 1sur 83

Dpartement dinformatique

3LMD
2009/2010
Module:
DATA MINING

Prsent par Mr. MEADI Med Nadjib
2 2
Plan
Introduction
Dfinitions
Exemple Dapplications
Historique
Processus du Data mining
Les techniques du data mining

3 3


Introduction
4 4
Introduction
Motivation

Computers have promised us a fountain of wisdom but
delivered a flood of data.

"It has been estimated that the amount of information in
the world doubles every 20 months."
(Frawley, Piatetsky-Shapiro, Matheus, 1992)

5 5
6 6
Dfinition du Data Mining
Le data mining ou fouille de donnes = dcouverte de
connaissances dans les donnes (knowledge discovery
in data, KDD).
processus itratif par lequel on extrait des
connaissances valides, nouvelles, potentiellement
utiles et comprhensibles en dernire analyse
[Fayyad et al., 1995]
7 7
Dfinition du Data Mining
Wikipedia:
Le data mining aussi connue sous les noms fouille de
donnes, Lexploration de donnes, ou encore
Extraction de Connaissances partir de Donnes (ECD
en franais, KDD en Anglais), a pour objet lextraction
d'un savoir ou d'une connaissance partir de grandes
quantits de donnes, par des mthodes automatiques
ou semi-automatiques.
8 8
Dfinition du Data Mining
Selon le centre de recherche dIBM :
Data Mining is the process of extracting previously
unknown, comprehensible and actionable information
from large databases and using it to make crucial
business dcisions

9 9
Dfinition du Data Mining
Autre dfinition
Le data mining est dfini comme un processus daide
la dcision o les utilisateurs cherchent des modles
dinterprtation des donnes, ainsi il constitue le
meilleur moyen permettant la mise jour de
nouvelles corrlations, tendances et modles
significatifs formant les connaissances caches.
www.softcomputing.com
10 10
Exemples dapplications
Entreprise et Relation Clients : systme de cration
de profils clients, ciblage de clients potentiels et
nouveaux marchs.
Finances : minimisation de risque financiers
Bioinformatique : Analyse du gnome, mise au point
de mdicaments,
Internet : spam, e-commerce, dtection dintrusion
etc...
Scurit
11 11
Exemples dapplications : E-commerce
Dell
Problme : 50% des clients de Dell achtent leurs
machines travers le site Web. Mais seulement 0:5%
des visiteurs du site deviennent clients.

Solution : Stocker les squences de clicks des visiteurs,
analyser les caractristiques des acheteurs et lors de
la visite dun client potentiel, adapter le contenu du
site pour maximiser la probabilit dun achat.
12 12
Exemples dapplications : E-commerce
Amazon
Opportunit : la liste des achats des clients sont
stockes en mmoire et par ailleurs, les utilisateurs
du site notent les produits ! Comment tirer profit
des choix dun utilisateur pour proposer des
produits un autre client ?

Solutions : technique dit de filtrage collaboratif
permettant de regrouper des clients ayant les
mmes gots
13 13
Exemples dapplications : Analyse des
risques
Dtection de fraudes pour les
assurances
1. Analyse des dclarations des assurs par un expert afin
didentifier les cas de fraudes.
2. Extraction de caractristiques partir de ces
dclarations (type daccident, de blessures, etc...)
3. Applications de mthodes statistiques pour identifier
les caractristiques des dclarations fortement
corrls la fraude.
14 14
Exemples dapplications : Analyse des
risques
Prt Bancaire
Objectif des banques : rduire le risque des prts
bancaires.
Crer un modle partir de caractristiques des
clients pour discriminer
les clients risque des autres.
15 15
Exemples dapplications : Commerce
Organisation de rayonnage
Objectifs : Identifier les produits que les gens sont
susceptibles dacheter conjointement afin dorganiser les
rayonnages
Donnes : Code-Barre des produits.
Mthodes : Extractions de rgles
16 16
Exemples dapplications : Commerce
Exemples :
rsultats logiques : les boissons et les biscuits sont
souvent proches.
rsultats tranges : dans une tude amricaine, la
vente de boissons est plus importante si le rayon des
couches nest pas trop loin, et si sur le chemin il y a
des chips, ca permet daugmenter la vente des 3
produits.
17 17
Historique
Dbut des annes 1960 lapparition de l'expression data mining.
En effet, les ordinateurs taient de plus en plus utilises pour
toutes sortes de calculs.
Les chercheurs ont commenc traiter sans priori statistique les
tableaux de donnes. Comme ils constataient que les rsultats
obtenus, loin d'tre aberrants.
Les statisticiens considraient cette dmarche comme peu
scientifique et utilisrent alors les termes data mining ou
data fishing pour les critiquer.
La fin des annes 1980, des chercheurs en base de donnes, ont
commenc travailler sur l'exploitation du contenu des bases de
donnes volumineuses (par Ex. celles des tickets de caisses de
grandes surfaces.
18 18
Historique

Mars 1989, Shapiro Piatetski proposa le terme knowledge
discovery l'occasion d'un atelier sur la dcouverte des
connaissances dans les bases de donnes.
La communaut de data mining a initi sa premire confrence
en 1995 la suite de nombreux workshops sur le KDD entre 1989 et
1994.
En 1998 s'est cr, sous les auspices de l'ACM, un chapitre spcial
baptis ACM-SIGKDD, qui runit la communaut du KDD.
La premire revue du domaine Data mining and knowledge
discovery journal publie par Kluwers" a t lance en 1997.
19 19
Quelles donnes
Les donnes utilises par le data mining sont trs varies et
peuvent tre:
localises sur des sites diffrents de celui o seffectue le data
mining;
stockes selon des architectures varies ;
dans des bases de donnes relationnelles, orientes objets,
spatiales ;
dans des bases de donnes temporelles ;
dans des entrepts de donnes ;
dans des fichiers parpills ;
sur le web ;
dans des banques de donnes spcialises ;
structures ou non structures ;
de diffrents types : donnes tabulaires ou textuelles, images, sons
ou squences vido.
20 20
Le Data Mining et le KDD
Une confusion subsiste encore entre Data Mining (Fouille de
donnes) et Knowledge Discovery in Databases (ECD -
Extraction des Connaissances partir des Donnes)

Le Data Mining est lun des maillons de la chane de traitement
pour le processus de dcouverte des connaissances partir des
donnes

Le Data Mining est la pierre angulaire du processus ECD !
LECD, par le biais du Data Mining, est alors vue comme une ingnierie
pour extraire des connaissances partir des donnes.
21 21
Le Data Mining et linformatique
dcisionnelle
Le Data Mining constitue un des moteurs essentiels de
lvolution de linformatique dcisionnelle
Les informations produites pour la dcision deviennent plus
rduites et plus cibles
Le processus dcisionnel devient plus affin et tourn
plutt vers la dcision stratgique
De nouvelles volutions technologiques dans les BD
(moteurs de requtes, OLAP)
Une volution de la terminologie (Passage des SIAD vers
les systmes EGC travers le Data Mining)
Selon le MIT (Massachussets Institute of Technology), le Data Mining est lune
des 10 technologies mergeante qui changeront le monde au 21me sicle.
22 22

Processus du ECD
23 23
Quest-ce que le processus ECD ?
24 24
Quest-ce que le processus ECD ?
LECD est un processus itratif qui met en uvre un
ensemble de techniques provenant :
des bases de donnes ;
de la statistique ;
de lintelligence artificielle ;
de lanalyse des donnes ;
des techniques de visualisation;
des interfaces de communication homme-machine.
25 25
Quest-ce que le processus ECD ?
Les connaissances peuvent sexprimer :
sous forme dun concept gnral qui enrichit le champ
smantique de lusager ;
sous forme dun rapport ou dun graphique ;
comme un modle mathmatique ou logique pour la prise
de dcision ;
comme modle explicites pour alimenter un systme base
de connaissances ou un systme expert.
26 26
Processus du Data mining
27 27
Les tapes du processus
1. Analyse du problme d'application
Choisir un problme prcis, des objectifs tangibles et
quantifiables.
Dfinir la manire dont la solution sera dploye.
Spcifier la solution
2. La phase dacquisition
vise cibler lespace des donnes qui va tre explor.
Outils
Mise en uvre de requtes ad hoc pour rcuprer les
donnes utiles.
Moteurs de requtes des bases de donnes comme SQL.
Outils de requtes spcifiques aux donnes non structures
(donnes textuelles, images Web)
Moteurs de recherche dinformations par le contenu.
28 28
Les tapes du processus
3. Slection des donnes
valuer la qualit des donnes, dtecter leurs insuffisances et
pathologies
visualiser, analyser les distributions et les regroupements.
4. Prtraitement des donnes
nettoyage : suppression du bruit, valeurs manquantes ou
aberrantes.
rduction des donnes.
slection des instances.
slection, extraction, combinaison des variables
transformation des donnes
discrtisation des variables continues.
numrisation des variables nominales.
invention de nouvelles variables.
29 29
Les tapes du processus
5. L'apprentissage
le cur du KDD : construction d'un modle partir des
donnes
le matre-mot : gnralisation
problme critique : choix de l'algorithme d'apprentissage en
fonction du problme/des donnes
6. Evaluation et interprtation des rsultats
valuation quantitative indispensable
comprhensibilit souvent capitale (ex. applications
mdicales)
7. Dploiement de la solution
30 30
Prparation des donnes
31 31
Prparation des donnes
Les donnes collectes doivent tre "nettoyes", elles peuvent
contenir plusieurs types danomalies et mme peuvent tre
incohrentes : erreurs de frappe, causes des erreurs dues au
systme lui-mme,
il faut normaliser ou remplacer ces donnes ou liminer
compltement leurs enregistrements.
Parfois on est oblig faire des transformations sur les
donnes pour unifier leur poids.
Exp1: projection des donnes dans un intervalle bien prcis [0,1]
ou [0,100]
Exp2: le lissage des donnes qui considre les chantillons trs
proches comme tant le mme chantillon.
32 32
Prparation des donnes
Cette phase comporte :
La rduction des donnes pour minimiser du nombre dattributs
pour acclrer les calculs et reprsenter les donnes sous un
format optimal : La mthode la plus utilise est lACP.

La slection et suppression des attributs dont limportance dans
la caractrisation des donnes est faible.
Rduction du nombre des donnes utilises en cartant les
moins importants.

Prparation des informations globales sur les donnes pour les
tapes qui suivent tel que la tendance centrale des donnes
(moyenne, mdiane, mode), le maximum et le minimum, le
rang, les quartiles, la variance,

Plusieurs techniques de visualisation des donnes telles que les
courbes, les diagrammes, les graphes, peuvent aider la
slection et le nettoyage des donnes.
33 33
Prparation des donnes
Donnes explorer
Ensemble dchantillons reprsentant les donnes explorer.
Chaque chantillon est prsent sous forme de ligne caractrise
par un ensemble dattributs. Dans le cas des bases de donnes un
chantillon est un enregistrement compos dun ensemble de
champs.
Les enregistrements peuvent tre reprsents sous forme de
points dans un espace de dimensions n (n : nombre dattributs.)

34 34
Prparation des donnes
Les attributs ou les champs sont de deux types :
1. Les attributs numriques: comportent des valeurs relles ou
entires caractriss par une relation dordre: la longueur, le
poids, lage
La relation dordre dans le cas des attributs numriques permet
de calculer ppar exemple: le max, le min, la moyenne, la
distance, etc.
2. Les attributs catgoriels (symboliques): tel que la couleur,
ladresse ou le groupe sanguin ne possdent aucune de ces
caractristiques. Deux variables catgorielles ne peuvent tre
qugales ou diffrentes.
comment calculer la moyenne, la variance ou la
distance entre des adresses ? Dans ce cas de nouvelles
mesures doivent tre recherches pour chaque
technique de datamining.
35 35
Prparation des donnes
Thoriquement, plus le nombre dchantillons est important,
la prcision de lanalyse est meilleure.
Problme:
la qualit des donnes analyses influe directement sur les
rsultats danalyse.
La prparation doit prendre en compte certain points :
Les donnes doivent tre prcises, crits correctement, ses
valeurs dans les bons intervalles et compltes.
Les donnes doivent tre enregistres dans les bon formats :
une valeur numrique ne doit pas tre enregistre sous format
caractre, une valeur entire ne doit pas tre relle,etc.
La redondance doit tre limine ou au moins minimise.


36 36
Techniques de prparation des donnes
1.Rsum des donnes
A) la moyenne arithmtique
Pour acclrer le calcul on subdivise lensemble des donnes en
et on calcul la moyenne de chaque sous ensemble dune faon
indpendante et parallle.
Problmes : La moyenne est sensible aux donnes extrmes.
Exemple :
14564, 10, 23, 17, 8, 30, 1, 22, 0, 10 La moyenne =1468.5
Il est loin de la majorit des valeurs.
Solution
trier les donnes puis carter les 10% valeurs suprieurs et les
10% valeurs infrieurs.
0, 1, 8, 10, 10, 17, 22, 23, 30, 14564
moy=15.125
N
X
X
N
i
=
1
37 37
Prparation des donnes
B) la mdiane
Trier les donnes puis prendre celle du milieu. Elle traite des
donnes qui on une relation dordre numrique ou symbolique
Exemple
0, 1, 8, 10, 10, 17, 22, 23, 30, 14564
med=13.5
problme : ne peut pas partitionner son calcul


38 38
Prparation des donnes
Approximation du Mdiane
( )
l
freq

Mdiane
freq
L1 est la limite infrieure de lintervalle mdian,

est la somme des frquences des intervalles infrieurs du mdian,

est la frquence de lintervalle mdian,
Largeur est la largeur de lintervalle mdian
( )
eur L
f req
f req
N
L Mdiane
Mdiane
l
arg
2
1

|
|
|
|
.
|

\
|

+ =

39 39
Prparation des donnes
C. Mode:
la valeur la plus frquente dans un ensemble de donnes convient
bien pour les attributs symboliques

( ) Mdiane Moyenne Mode Moyenne = 3
Une relation empirique permet de dduire chacune des
mesures prcdentes des deux autres :
40 40
Prparation des donnes
Attribut 1
(numrique)
Attribut 2
(symbolique)
Attribut 3
(numrique)
Attribut 4
(symbolique)
Attribut 5
(symbolique)
5 B+ 12.5 Oui Alger
17 AB- 25.6 Non Blida
13 B+ 3.5 Oui Blida
12 B+ 2.3 Non Blida
11 B+ 10.95 Non Blida
Moyenne Mode Moyenne Mode Mode
Exemple
Lenregistrement mdiane est:
41
D. Dispersion des donnes

mesure le degr dtalement des donnes sur leur intervalle
Rang = Max - Min

Les donnes sont tries dans lordre croissant
kime percentile de donnes la valeur xi suprieure k pourcent de donnes
25ime percentile Q1
50ime percentile mdian
Q
1
Q
3
Median Min Max
Prparation des donnes
42 42
D. Dispersion des donnes
La mesure qui donne une ide gnrale sur la dispersion des
donnes est le rang interquartiles (RIQ), dfinit par :
RIQ=Q
3
-Q
1
Exemple
Toute donne qui tombe au moins 1.5 x RIQ en dessus de Q
3
ou
en dessous de Q
1
est considr trange.
Prparation des donnes
43 43
3. Visualisation graphique
Prendre une ide graphique sur les caractristiques des
donnes dtecter par consquent les ventuelles anomalies
Prparation des donnes
Diagrammes barres
44 44
Visualisation graphique
Prparation des donnes
Nuages de points
Disques
45 45
Visualisation graphique
Prparation des donnes
Cubes de donnes
46 46
Prparation des donnes
Arbres de dcision
47 47
Nettoyage des donnes
Donnes du monde rel: incompltes, incohrentes et bruites
Le nettoyage:

Remplacer les donnes manquantes,
Complter les donnes incompltes,
Corriger les donnes errones et
Filtrer les donnes bruites.

Prparation des donnes
48 48
1. Donnes manquantes









Solutions
1. Supprimer carrment les donnes
incompltes, surtout si elles
contiennent plusieurs attributs
manquants (supprimer lenreg2)

Prparation des donnes
Attribut
1
Attribut
2
Attribut
3
Attribut
4
Attribut
5
5 B+ 12.5 Oui Alger
AB- 25.6
13 B+ 3.5 Oui Blida
12 B+ 2.3 Non Blida
Incomplet
Attrib
ut 1
Attrib
ut 2
Attrib
ut 3
Attrib
ut 4
Attrib
ut 5
5 B+ 12.5 Oui Alger
13 B+ 3.5 Oui Blida
12 B+ 2.3 Non Blida
49
Solutions (suite):
Remplacer par une valeur
constante:





Remplacer par la moyenne
(ou le mode) de lattribut
correspondant :





Attribu
t 1
Attribu
t 2
Attribu
t 3
Attribu
t 4
Attribu
t 5
5 B+ 12.5 Oui Alger
0 AB- 25.6 Nant Nant
13 B+ 3.5 Oui Blida
12 B+ 2.3 Non Blida
Prparation des donnes
Attribu
t 1
Attribu
t 2
Attribu
t 3
Attribu
t 4
Attribu
t 5
5 B+ 12.5 Oui Alger
10 AB- 25.6 Oui Blida
13 B+ 3.5 Oui Blida
12 B+ 2.3 Non Blida
50
Solutions (suite):

4. Faire une classification des enregistrements et remplacer
chaque valeur manquante par la moyenne de lattribut dans
la classe

Laisser les donnes telles quelles et opter pour une
technique danalyse rsistante aux manques de donnes

Prparation des donnes
51
2. limination du bruit (lissage)

Trier les donnes puis les partitionner en des groupes de
taille fixe puis remplacer toutes les donnes dun groupe
par la moyenne de ce groupe.

Calculer une fonction (rgression) qui passe (ou rapproche)
par le maximum de donnes, puis remplacer les donnes par
limage de cette fonction.

On peut aussi faire un clustring (classification) des donnes
puis liminer les donnes qui sortent de ses clusters.

Prparation des donnes
52
3. Intgration des donnes
Donnes de sources multiples : bases de donnes de diffrents formats,
fichiers, etc.
Construire une base de donnes unique (datawerhouse) pour lanalyse.
Limiter la redondance des attributs.
La redondance peut tre trouve aussi si un attribut peut tre driv
dun autre et doit tre limin de la base finale.
Coefficient de corrlation entre attributs (coefficient de Pearson)
mesure la dpendance dun attribut un autre :


n est le nombre denregistrement, x
i
,y
i
les valeurs des deux attributs
dans lenregistrement i et leurs carts type.
r 0: les deux attributs sont faiblement corrls, et doivent exister
tous les deux dans lanalyse.
r 1: la corrlation et forte et lun des deux peut tre cart.
Prparation des donnes
( )
y x
n
i
i i
y x
n
y x n y x
r
o o

=1
,
53
Transformation des donnes
mettre les donnes dans des intervalles appropris lanalyse, tel que
[-1, 1], [0, 1], [0, 100]. Plusieurs mthodes peuvent tre utilises :

1. Echelle dcimale :


Exemple : remplacer (5, 17, 13, 12) par (0. 5, 1.7, 1.3, 1.2) k=2.

2. Normalisation min-max :


Exemple : remplacer (5, 17, 13, 12) par (0, 1, 0.66, 0.58)

3. Normalisation par cart type


Exemple : remplacer (5, 17, 13, 12) par (-0.57, 0.44, 0.10, 0.02)
Prparation des donnes
k
i v
i v
10
) (
) ( = '
)) ( min( )) ( max(
)) ( min( ) (
) (
i v i v
i v i v
i v

= '
)) ( (
)) ( ( ) (
) (
i v ecarttype
i v moyenne i v
i v

= '
54
Rduction des donnes (nombre dattributs ou denregistrements ):
Trs importante pour acclrer le processus dexploration.
vise simplifier le plus possible les donnes de dpart .
Question:
quelles sont les donnes carter sans diminuer la qualit danalyse
sachant que :
Moins de donnes une exploration plus rapide,
Donnes plus efficace rsultats plus prcis,
Moins de donnes rsultats plus simple et faciles comprendre.
La compression des donnes de la base de donnes:
Si on peut rcuprer les donnes aprs la compression, la
compression non destructive ou sans perte.
Si on ne peut rcuprer quune approximation des donnes
compresses, compression destructive ou avec perte.
Les techniques les plus utilises sont les techniques destructives qui
gardent lessentiel des donnes.
Prparation des donnes
55 55
limination dattributs par mesure dentropie :
Eliminer dans un processus itratif les attributs lun aprs lautre et
mesurer chaque fois la dformation (la diffrence entre la distance
moyenne des enregistrements) des donnes pour chaque attribut
limin par rapport aux donnes originales. Lattribut cart est celui
qui produit le moins de dformation.
Le taux de dformation est la distance moyenne entre les
enregistrements avant et aprs la suppression de lattribut.
Lanalyse en composantes principales (ACP) :
lACP combine tous les attributs pour produire un espace rduit gardant
le maximum dinformations. LACP consiste transformer un ensemble
dattribut (x
i
, , x
n
) en autre ensemble (y
1
, ,y
n
) o lessentiel des
informations est concentr dans les premiers attributs, et les derniers
attributs seront carts sans une perte significative.
Rduction des valeurs
consiste la diminution du nombre de valeurs diffrentes dun attribut
donn. On peut subdiviser les valeurs dun attribut en des intervalles
puis calculer les moyennes de ces intervalles puis remplacer toutes ses
valeurs par leur intervalle.
Prparation des donnes
56 56
Apprentissage partir des donnes
57
Apprentissage partir des
donnes
Lapprentissage dans les bases de donnes regroupe une varit de
techniques statistiques et dIntelligence Artificielle, qui visent prendre un
ensemble denregistrements de n attributs et essayent de trouver une
gnralisation reprsente sous forme dun modle utilis pour prdire le
comportement des nouvelles entres.





En pratique, trouver une fonction qui vrifie exactement f(X i) = Yi pour
toutes les donnes est rare voire impossible, pour cela, on cherche une
fonction qui minimise la diffrence avec les donnes de sortie connue
lavance :
f qui minimise R=
Base de
donnes
Machine
dapprentissage
Entres Xi
Sorties pr-connues Yi
Machine
dapprentissage
Entres Sorties
b- Prdiction
a- Apprentissage
( )


i i
Y X f
58
Apprentissage partir des
donnes
Type dapprentissage

On distingue deux types :

1. Apprentissage supervis
On cherche estimer les dpendances qui existent entres les entres-
sorties connues dun systme tel que la prdiction et la classification.

2. Apprentissage non supervis.
On ne dispose que des entres et on cherche dcouvrir les structures
naturelles dans ces entres (Exp : le clustring.)
59
Technique du Data mining
1. Classification
Arbres de dcision
Rseaux Bayesiens
Rseaux de neurones
Algorithmes gntiques
SVMs

2. Prdiction
Rgression

3. Clustering
Partitionnel
Hirarchique

4. Exploration des modles frquents
Ensemble ditem frquents
Algorithme priori
Squences frquentes
Structures
Apprentissage non Supervis
Apprentissage Supervis
Recherche
60
Technique du Data mining
1. Apprentissage statistique
A) Raisonnement bayesien : Le principe est:
X un chantillon de donnes dont la classe est inconnues et quon veut
la dterminer,
H une hypothse (par exp : X appartient la classe C). On cherche
dterminer P(H/X) la probabilit de vrification de H aprs
lobservation de X.
P(H/X) est la probabilit postrieure c--d aprs la connaissance de X
tandis que P(H) est la probabilit priori reprsentant la probabilit
de vrification de H pour nimporte quel exemple de donnes.
Le thorme de Bayes propose une mthode de calcul de P(H/X) en
utilisant les probabilits P(H), P(X), P(X/H) :
| | ) ( / ) ( ). / ( ) / ( X P H P H X P X H P =
61
Technique du Data mining
B) Rseaux bayesiens
Ils prennent en considration les
dpendances ventuelles entres les
attributs.
Un rseau Bayesien est reprsent
sous forme dun graphe orient
acyclique, o les nuds reprsentent
les attributs et les arcs reprsentent les
liaisons entre ces attributs (des
probabilits conditionnelles). Deux
attributs sont relis par un arc si lun
cause ou influe sur lautre : le
prdcesseur est la cause et le
successeur est leffet.
type valeur
Pollution Binaire {Basse, Haute}
Fumeur Boolen {V, F}
Cancer Boolen {V, F}
Dyspnoea Boolen {V, F}
X-Ray Binaire {Positif, Ngatif}
Fumeur Pollution
Cancer
X-Ray Dyspnoea
62
Technique du Data mining
Exemple
Un mdecin reoit un patient
souffrant dun problme de respiration
(symptme) appel dyspnoea , et il a
peur davoir un cancer de poumon. Le
mdecin sait que dautre causes sont
possibles tel que le tuberculose et les
bronchites. Il sait aussi que dautres
informations peuvent augmenter la
probabilit du cancer tel que si le
patient est fumeur ou non, et la
pollution de lair o il vie. Mais une
image rayon X positive confirmera le
cancer ou le tuberculose.
Polution Fumeur P(Cancer=V|Pollution, Fumeur)
Haute V 0.05
Haute F 0.02
Basse V 0.03
Basse F 0.001
63
Technique du Data mining

Avantages
Mthode simple, bonne performances selon le domaine
Robuste aux valeurs manquantes
Bons rsultats, mme sans indpendance conditionnelle entre Variables

Inconvnients
x Pas de solution simple pour les descripteurs continus
x Parfois trop rigides pour des problmes complexes
x Calculabilit pour un nombre lev de descripteurs

64
Technique du Data mining
C) La Rgression
Objectif
Trouver le meilleur modle qui dcrit la relation entre une variable
continue de sortie et une ou plusieurs variables dentre.
Le modle le plus utilise est le modle linaire la rgression
linaire.
Nous avons un ensemble dentres X1, , Xn et une sotie Y, dont la
relation est dcrite par lquation de rgression suivante :


Et si on applique lquation sur tous les chantillons de donnes
disponibles on obtient :

O reprsente lerreur de la fonction pour chaque chantillon.
n n
X X Y . .
1 1
| | o + + + =
j j j
X Y c | o + + = .
65
Technique du Data mining
Le Clustering
Ensemble de techniques qui visent regrouper les enregistrements en des
groupes selon leur rapprochement les uns des autres en ne se basant sur
aucune information antrieure, Apprentissage non supervis.

Un systme de clustering prend un tuplet (D, s) o D reprsente lensemble de
donnes et s la mesure de similarit, et retourne une partition P=(G
1
, G
2
,
Gm) o G
i
(i=1...m) sont des sous ensembles de D qui vrifient :
Gi est appel cluster qui reprsente une ou plusieurs caractristiques de D,
j i G G
D G G G
j i
m
= =
=
,
2 1
|

66
Technique du Data mining
Reprsentation des clusters :
Soit lexemple suivant :
X1(0,2), X2(0,0), X3(1.5,0), X4(5,0), X5(5,2), X6(4,4), X7(5,4)
On peut reprsenter les clusters, selon plusieurs manires :

1. Graphiquement : dans un espace
de n dimensions par le centre des
points composant chaque cluster :
X1
X2 X3
X4
X5
Cluster1 :C1
Cluster2 :C2
X6 X7
Cluster3 :C3
67
Technique du Data mining
2. arbre de dcision: en se basant sur les critres dappartenances aux
clusters selon les valeurs des attributs:






3. expressions logiques : laide des expressions logiques :
A
1
<2
A
1
>=2
A
2
<3 A
2
>=3
C1
C2 C3
C1 : A
1
<2
C2 : A
1
>=2 et A
2
<3
C3 : A
1
>=2 et A
2
>=3

68
Technique du Data mining
Mesures de similarits :
Une bonne mthode de clustering est une mthode qui maximise la
ressemblance entre les donnes lintrieur de chaque cluster, et
minimise la ressemblance entre les donnes des clusters diffrents.
La mesure de similarit repose sur le calcul de la distance entre deux
donnes.
Plus la distance est importante, moins similaires sont
les donnes et vice versa.
Soit xi et xj deux donnes diffrentes dont on veut calculer la
distance entre les valeurs des attributs (numriques/catgoriels).

69
Technique du Data mining
1. Attributs numriques :

La distance Euclidienne :



La distance City blocs :



La distance de Minkowksi :

2
1
1
2
) ( ) , ( |
.
|

\
|
=

=
nn
k
jk ik j i n
x x x x D

=
=
m
k
jk ik j i n
x x x x D
1
) , (
p m
k
p
jk ik j i np
x x x x D
1
1
) ( ) , ( |
.
|

\
|
=

=
70
Technique du Data mining
Attributs catgoriels :







Il faut normaliser avec les attributs numriques et le nombre dattributs
catgoriels.
La distance entre deux donnes xi et xj, composes dattributs
numriques et catgoriels, est donc :

=
=

=
0
1
) , (
) , (
) , (
1
jk ik
nc
k
jk ik
j i c
x x f
m
x x f
x x D
) , ( ) , ( ) , (
j i c j i n j i
x x D x x D x x D + =
71
Technique du Data mining
Algorithmes de clustering
Approche hirarchique : regrouper les donnes dans des clusters de
niveaux diffrents (arborescence)
Approche partitionnelle : minimiser la distance intra cluster et
maximiser les distances inter cluster.
Clustering hirarchique
le nombre de clusters ne peut tre connu lavance. Le systme
prend en entre lensemble de donnes et fournit en sortie une
arborescence de clusters.
Il existe deux classe dalgorithmes :
Divisibles: commence par un ensemble de donnes et le subdivises en
sous ensembles puis subdiviser chaque sous ensemble en dautres plus
petits, et ainsi de suite..
Agglomratifs : considrent chaque enregistrement comme tant un
cluster indpendant puis rassemblent les plus proches en des clusters
plus importants, jusqu' atteindre un seul cluster contenant toutes les
donnes.
72
Algorithme agglomratif
1. Placer chaque enregistrement dans son propre cluster,
2. Calculer une liste des distances inter cluster et la trier dans lordre
croissant,
3. Pour chaque seuil de niveau de similitude prfix d
k
, relier tous les
clusters dont la distance est infrieure d
k
par des arrtes un
nouveau cluster
4. Si tous les enregistrements sont membres dun graphe connect
alors fin sinon aller 3
5. le rsultat est un graphe qui peut tre coup selon le niveau de
similarit dsir.
Technique du Data mining
73
Technique du Data mining
Exemple Soient les donnes suivantes
X1(0,2), X2(0,0), X3(1.5,0), X4(5,0), X5(5,2),
On utilise la distance euclidienne pour mesurer la distance entre les donnes :
D(X1,X2) = Sqrt((0 - 0)2 + (2 0)2) = 2, D(X1,X3)= 2.5, D(X2,X3) = 1.5,,..
On trie ces distances, on trouve que X2 et X3 sont les plus proches, on les
rassemble dans le mme cluster et on calcule son centre (0.75, 0),
On refait le calcul des distances en remplaant X2, X3 par le nouveau cluster,
on trie puis on choisit la plus courte distance et ainsi de suite.
On obtient la fin le dendrogramme suivant reprsentant le rassemblement
hirarchique des donnes:X2X3X4X1X51.523.5Distance
X
2
X
3
X
4
X
1
X
5
1.5 2 3.5
Distance
74
Clustering Partitionnel
1 Slectionner une partition initiale contenant des enregistrements choisis
arbitrairement, puis calculer les centres des clusters
2 gnrer une nouvelle partition en affectant chaque enregistrement au
cluster du centre le plus proche
3 Calculer les nouveaux centres des clusters
4 Rpter 2 et 3 jusqu ce que les enregistrements se stabilisent dans
leurs clusters
Technique du Data mining
Exemple :Prenons le mme ensemble :
X1(0,2), X2(0,0), X3(1.5,0), X4(5,0), X5(5,2),
On commence par choisir une affectation arbitraire des donnes
C1={X1, X2, X4} et C2={X3, X5}.
On calcule les deux centres : M1 = ((0+0+5)/3, (2+0+0)/3) = (1.66, 0.66)
M2 = ((1.5 + 5)/2, (0+2)/2) = (3.25, 1)
On calcule la distance entre chaque donne Xi et les centres M1 et M2,
puis on affecte chaque donnes au cluster le plus proche.
La nouvelle affectation est C1 = {X1, X2, X3}, C2 = {X4,X5}.
On recalcule les nouveaux centres, puis on raffecte jusqu ce quaucune
donne ne change de cluster.
75
Technique du Data mining
Arbres de dcision
Reprsentation graphique dune procdure de classification
supervise.
Traduction de rgles de dcision.
Un arbre au sens informatique du terme:
Chaque noeud interne teste un attribut.
Chaque branche correspond une valeur dun attribut.
Chaque feuille est une classe.
Principe
Classer les objets en sous-classes par divisions hirarchiques
successives en fonction des attributs.
Cette construction automatique se fait partir dune base
dapprentissage.

76
Non
Technique du Data mining
Exemple:

N Ensoleillement Tempratue Humidit Ven
t
Jou
e
r
1 Soleil 75 70 Oui Oui
2 Soleil 80 90 Oui Nn
3 Soleil 85 85 Non Nn
4 Soleil 72 95 Non Nn
5 Soleil 69 70 Non Oui
6 Couvert 72 90 Oui Oui
7 Couvert 83 78 Non Oui
8 Couvert 64 65 Oui Oui
9 Couvert 81 75 Non Oui
10 Pluie 71 80 Oui Nn
11 Pluie 65 70 Oui Nn
12 Pluie 75 80 Non Oui
13 Pluie 68 80 Non Oui
14 Pluie 70 96 Non Oui
Classe
Oui
Ensoleillement
= ?
Soleil
Couvert
Pluie
Humidit

Vent = ?
Classe
Oui
Classe
Non
Classe
Non
Classe
Oui
>77.5
<=77.5 Oui
77
Technique du Data mining
Construction dun arbre
Plusieurs algorithmes existent : ID3, CART, C4.5,
On commence gnralement par le choix dun attribut puis le choix
dun nombre de critres pour ce nuds.
On cre pour chaque critre un nud concernant les donnes
vrifiant ce critre.
Lalgorithme itre dune faon rcursive jusqu atteindre des nuds
concernant chacun des donnes de la mme classe.
Algorithme CONSTRUIRE-ARBRE(X : ensemble de donnes)
dbut
si toutes les donnes de X sont de la mme classe alors
Crer une feuille de cette classe
sinon
Choisir un attribut pour sparer X en X
1
, X
2
, X
k
Pour chaque sous ensemble X
i
CONSTRUIRE-ARBRE(X
i
)
fin si
fin
78
Technique du Data mining
Problmes
Comment choisir lattribut qui spare le mieux lensemble de
donnes, variable de segmentation.
Comment choisir les critres de sparation dun ensemble selon
lattribut choisi, soit numrique ou symbolique,
Quel est le nombre optimal du nombre de critres qui minimise
la taille de larbre et maximise la prcision.
Quels sont les critres darrt de ce partitionnement, sachant que
souvent larbre et dune taille gigantesque
79
Technique du Data mining
Avantages

Apprentissage rapide.
Expliquer des dcisions / comprhensibilit du modle.
Slection des attributs pertinents.
Robustesse aux valeurs non-pertinentes.
Classification rapide dun nouvel exemple.
Inconvnients

Risque de sur-apprentissage (phases dlagage).
Performances moins bonnes si les classes sont nombreuses.
Pas de dtection des interactions entre valeurs.
Algorithme non-incrmental.
Instabilit (haute sensibilit aux variations dans les donnes).
80
Technique du Data mining

Il sagit de choisir les attributs qui spare mieux les donnes.
Pour choisir le meilleur attribut, on calcule pour chacun une valeur
appele Gain .
Cette mesure est base sur les recherches en thorie dinformations
menes par C.Shannon.


O A est lattribut dont on veut mesurer le gain dinformation et D
est lensemble de donnes partitionner.
La fonction Info appele aussi lentropie , est la moyenne de la
quantit dinformation ncessaire pour identifier la classe dune
donne (enregistrement) appartenant D :

Info
A
(D) mesure la quantit dinformation ncessaire pour
partitionner lensemble D selon les valeurs de lattribut A ayant v
valeurs distinctes, cette fonction est calcule comme suit :
) ( ) ( ) ( D Info D Info A Gain
A
=

=
=
v
i
i
i
A
D Info
D
D
D Info
1
) ( ) (

=
=
m
i
i i
p p D Info
1
2
) ( log ) (
81
Technique du Data mining
exemple
82
Technique du Data mining
Rseaux de neurones
Une tentative de modlisation
mathmatique du cerveau humain.
Les premiers travaux datent de 1943 et
sont l'oeuvre de MM. Mac Culloch et Pitts.
Ils prsentent un modle assez simple pour
les neurones et explorent les possibilits
de ce modle.
L'ide principale des rseaux de neurones
"modernes" est la suivante :
Un neurone est une unit simple capable
de raliser quelques calculs
lmentairessur des donnes numriques
et non pas symboliques.
On relie ensuite un nombre important de
ces units et on essaye de dterminer la
puissance de calcul du rseau obtenu.

83
Bonne chance