Vous êtes sur la page 1sur 14

ECOLE NATIONALE DES SCIENCES

APPLIQUEES - TANGER

TP DATA MINING

UNIVERSITE ABDELMALEK
ESSADI

A. Partie thorique : Data mining


1. Introduction :
La fouille de donnes (Data mining) est un domaine pluridisciplinaire permettant, partir
dune trs importante quantit de donnes brutes, den extraire de faon automatique ou semiautomatique des informations caches, pertinentes et inconnues auparavant en vue dune
utilisation industrielle ou oprationnelle de ce savoir. Il peut galement mettre en avant les
associations et les tendances et donc servir doutil de prvisions au service de lorgane
dcisionnel.
On distingue le data mining supervis qui sert essentiellement la classification des donnes
et le data mining non supervis qui est utilis dans la recherche dassociations ou de groupes
dindividus.
Le champ daction du data mining stend du chargement et du nettoyage des donnes dans
les bases de donnes, la mise en forme des rsultats, en passant par le plus important : la
classification et la mise en relation de diffrentes donnes.

2. Apprentissage non supervis (Clustering)


On parle dapprentissage non supervis lorsque lon cherche extraire des informations
nouvelles et originales dun ensemble de donnes dont aucun attribut nest plus important
quun autre. Le rsultat des algorithmes de data mining non supervis doit tre analys afin
dtre retenu pour un usage ou tout simplement rejet.

3. Apprentissage supervis
3-1. Dfinition :
En sciences cognitives, lapprentissage supervis est une technique dapprentissage
automatique plus connu sous le terme anglais de machine Learning qui permet une machine
dapprendre raliser des tches partir dune base dapprentissage contenant des exemples
dj traits. Chaque lment (item) de lensemble dapprentissage (training set) tant un
couple entre-sortie.

L'objectif de la classification supervise est principalement de dfinir des rgles permettant de


classer des objets dans des classes partir de variables qualitatives ou quantitatives
caractrisant ces objets.

3-2. Mthodes dapprentissage :


La plupart des algorithmes d'apprentissage superviss tentent donc de trouver un modle - une
fonction mathmatique - qui explique le lien entre des donnes d'entre et les classes de sortie.
Ces jeux dexemples sont donc utiliss par lalgorithme. Cette mthode de raisonnement est
appele inductive car on induit de la connaissance (le modle) partir des donnes d'entre et
des sorties. Grce ce modle, on peut alors dduire les classes de nouvelles donnes : le
modle est utilis pour prdire. Le modle est bon s'il permet de bien prdire.
Il existe de nombreuses mthodes d'apprentissage supervis parmi lesquelles on peut citer :la
mthode Baysienne et les Rseaux de neurones.

Mthode baysienne :
Thorme de Bayes
Le thorme de Bayes fournit un cadre thorique pour la problmatique de la classification
deux classes Si l'on considre un problme deux classes C1 et C2, le thorme de Bayes
permet de calculer les probabilits a posteriori connaissant les distributions des observations a
priori.

P(C1|x) est la probabilit a posteriori d'appartenir la classe C1 connaissant le vecteur des


descripteurs x, p(x|C1) est la densit de probabilit du vecteur x dans la classe C1, P(C1) est
la probabilit a priori de la classe C1 et p(x) est la densit de probabilit non conditionnelle
dfinie par :

Dans le cas d'un problme de classification, cette formule dfinit une rgle de dcision : la
probabilit de mauvaise classification est minimise en slectionnant la classe qui a la plus
grande probabilit a posteriori MAP (classe qui a le maximum de vraisemblance).
La mthode de la classification baysienne est une mthode paramtrique qui essaye de
modliser les densits de probabilits pour calculer la probabilit a posteriori en supposant
que la densit de probabilit suit une loi (estimation des paramtres de la loi moyenne, cart
type) et en estimant la probabilit a priori par une approche frquentielle.

Les rseaux de neurones


Un rseau de neurones est un modle de calcul dont le fonctionnement schmatique est
inspir du fonctionnement des neurones biologiques. Chaque neurone fait une somme
pondre de ses entres (ou synapses) et retourne une valeur en fonction de sa fonction
dactivation. Cette valeur peut tre utilise soit comme une des entres dune nouvelle couche
de neurones, soit comme un rsultat quil appartient lutilisateur dinterprter (classe,
rsultat dun calcul, etc.).

Figure1 : Structure dun neurone artificiel


La phase dapprentissage dun rseau de neurones permet de rgler le poids associ chaque
synapse dentre (on parle galement de coefficient synaptique). Cest un processus long qui
doit tre ritr chaque modification structurelle de la base de donnes traite.
Les principales applications des rseaux de neurones sont l'optimisation et lapprentissage
(supervis et non supervis).
Nous nous limitons lapprentissage supervis partir d'une base d'exemples.
Dans ce mode dapprentissage, le rseau de neurones essaye de modliser directement les
probabilits a posteriori par changement de poids des coefficients synoptiques.

Perceptron linaire seuil :


Modle de rseau de neurones qui prend en entre n valeurs x1,..., xn et calcule une sortie o.
Il est dfini par la donne de n+1 constantes : les coefficients synaptiques w1, ..., wn et
le seuil (ou le biais) La sortie o est calcule par la formule :

Figure2 : Le perceptron avec seuil


On ajoute une entre supplmentaire x0 (le biais), avec le coefficient synaptique suivant :
w0 = On associe comme fonction de transfert la fonction de Heaviside : f(x) = 1 si x > 0
f(x) = 0 sinon

Figure3 : Le perceptron avec entre supplmentaire

B. Partie pratique :
Objectif :
Dans cette partie on va crer des modles dcisionnels pour classifier des donnes de
dimension 2. Nous construisons dans un premier lieu un classifieur qui se base sur le
maximum de vraisemblance(ML), ensuite on va programmer un classifieur bas sur le
maximum postriori et on va comparer la prcision de ces deux classifieurs. Nous
programmons en dernier lieu un rseau de neurones bas sur lalgorithme de perception.

Programme1 : classiffieur ML

Figure4 : Frontire linaire

Programme2 : Comparaison de la prcision des


classifieurs ML et MAP

Ce programme calcul la probabilite derreur des classifieurs ML et MAP pour les cinq
populations

Alpha
ML
PE
Tr
MAP PE
Tr

2
0.6933
30.67%
0.0433
95.67%

4
0.8160
18.4%
0.0480
95.2%

6
0.8657
13.43%
0.0314
96.86%

PE : probabilit derreur
Tr : Taux de transmission

Trac des frontires de dcision :


On prend alpha=2 donc N1=100 et N2=100

10
0.9136
8.64%
0.0264
97.36%

100
0.9824
1.76%
0.0052
99.48%

Figure5 : Frontire de dcision pour le classifieur ML

Figure6 : Frontire de dcision pour le classifieur MAP

Les probabilits derreur calcules pour chaque population dmontrent que le classifieur
MAP est plus prcis parce que ce dernier prend en considration les probabilits a priori.
On peut mme remarquer que la frontire de dcision pour le classifieur MAP sapproche
et regroupe de plus les individus de la deuxime distribution.

Programme 3 : Perceptron linaire seuil