Vous êtes sur la page 1sur 25

Résumé

La fouille de données (Data Mining), consiste à extraire de l’information à par-


tir d’une masse colossal de données, cette dernière enregistre, de façon continu, des
tâches accumulés d’expériences pendant une période importante du temps où ce que
nous l’appelons entrepôt de données (Data warehouse). Bien que le terme données
(data) dans les mots technique base de données ou entrepôt de données (data base
ou Data warehouse ) apparaît similaires avec le même mot données dans fouille de
données (Data mining), mais réellement ce même mot se diffère substantiellement
selon ces deux domaine. Dans la fouille de données, data ou données n’indique pas
une simple information lisible énoncer explicitement dans les bases de données, mais
il indique une information implicite, cachée et utile. Réellement ce qu’on cherche
derrière le data mining ces les connaissances (knowledge). Dans ce cours, nous pré-
sentons une initiation vers le data mining commençant par une introduction générale
qui décrive profondément le data mining.
Mots clés : Fouille de données, Apprentissage automatique.
Abstract

Keywords: Data Mining, Machine learning.


Table des matières

1 Introduction générale 5
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2 Data Warehouse et Data Mining . . . . . . . . . . . . . . . . . . . . 6
1.3 Relationnel, OLAP et Data Mining . . . . . . . . . . . . . . . . . . . 6
1.4 Apprentissage automatique et Data Mining . . . . . . . . . . . . . . . 6
1.4.1 Apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4.2 Apprentissage Automatique . . . . . . . . . . . . . . . . . . . 7
1.4.3 Définition Data Mining . . . . . . . . . . . . . . . . . . . . . . 7
1.5 Caractéristique (Spécification) Data Mining . . . . . . . . . . . . . . 7
1.6 Les étapes du Data mining . . . . . . . . . . . . . . . . . . . . . . . 8
1.7 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.8 Apprentissage supervisé et non supervisé . . . . . . . . . . . . . . . . 8
1.8.1 Apprentissage supervisé . . . . . . . . . . . . . . . . . . . . . 8
1.8.2 Apprentissage non supervisé . . . . . . . . . . . . . . . . . . . 9
1.9 Problèmes du Data Mining . . . . . . . . . . . . . . . . . . . . . . . . 9
1.9.1 Transformation des données . . . . . . . . . . . . . . . . . . . 9
1.9.2 Malédiction de la dimensionnalité des données(curse of dimen-
sionality) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.10 Les entrées et les sorties du processus Data Mining . . . . . . . . . . 10
1.10.1 Les entrées (Input) . . . . . . . . . . . . . . . . . . . . . . . . 10
1.10.2 Les sorties (Output) . . . . . . . . . . . . . . . . . . . . . . . 10
1.11 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2 Classification à base d’exemples représentatifs 13


2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2 Caractéristique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3 Distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

1
TABLE DES MATIÈRES

2.4 Les distances les plus connues . . . . . . . . . . . . . . . . . . . . . . 14


2.4.1 Euclidien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.4.2 Manhattan . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.4.3 Maximum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.4.4 Minkowski(Minkosky) . . . . . . . . . . . . . . . . . . . . . . 15
2.5 Calcule . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.6 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.7 Normalisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.8 Algorithme K plus proche voisin . . . . . . . . . . . . . . . . . . . . . 16
2.9 Prédire la classe d’un exemple . . . . . . . . . . . . . . . . . . . . . . 16
2.10 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.11 Valeurs manquantes(inconnues) . . . . . . . . . . . . . . . . . . . . . 16
2.12 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.13 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3 Classeur à base de règles 18


3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2 Forme de règle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.3 Comment classer ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.4 Les approches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.5 Algorithme 1-R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.6 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

4 Classeur bayésien 21
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.2 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

Bibliographie 23

2
Table des figures

1.1 Exemple de transformation Texte Mining . . . . . . . . . . . . . . . 9


1.2 Exemple de transformation Credit Scoring . . . . . . . . . . . . . . . 9
1.3 Exemple d’une Table de décision. . . . . . . . . . . . . . . . . . . . . 11
1.4 Exemple d’un Arbre de décision . . . . . . . . . . . . . . . . . . . . 11

3
Liste des tableaux

4
Chapitre 1
Introduction générale

Sommaire
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2 Data Warehouse et Data Mining . . . . . . . . . . . . . . 6
1.3 Relationnel, OLAP et Data Mining . . . . . . . . . . . . 6
1.4 Apprentissage automatique et Data Mining . . . . . . . 6
1.5 Caractéristique (Spécification) Data Mining . . . . . . . 7
1.6 Les étapes du Data mining . . . . . . . . . . . . . . . . . 8
1.7 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.8 Apprentissage supervisé et non supervisé . . . . . . . . . 8
1.9 Problèmes du Data Mining . . . . . . . . . . . . . . . . . 9
1.10 Les entrées et les sorties du processus Data Mining . . . 10
1.11 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

5
Chapitre 1 : Introduction générale

1.1 Introduction
Nous sommes submergés de données, la quantité de données et dans nos vie
semble de plus en croissante et il n’y a pas de fin en vue. Des ordinateurs omnipré-
sents rendent trop facile d’enregistrer des données choses qui, nous aurions saccagé.
Le Word Wide Web (www) nous submerge de données, pendant ce temps, tous les
choix que nous faisons est d’enregistrer les données. Nous pourrions tous témoigner
de l’écart croissant entre la production de données et notre compréhension de celui-
ci. Comme le volume des données augmente, inexorablement, la proportion de ce que
les gens comprennent diminue de façon alarmante.les informations cachées derrière
ces données sont potentiellement utiles et qui sont rarement explicite.
La tâche principale du data mining est de chercher ces informations que nous
l’appelons « connaissance » dans les données enregistrés, le plus souvent dans les
bases de données BDD historiques, et ce, pour le processus d’aide à la décision.

1.2 Data Warehouse et Data Mining


Définition de Bill Inmon (1996) : « Le DataWareHouse est une collection de
données orientées sujet, intégrées, non volatiles et historisées, organisées pour le
support d’un processus d’aide à la décision. »

1.3 Relationnel, OLAP et Data Mining


Les outils de reporting et bases de données multi-dimentionnelles (OLAP) sont
indispensables à la compréhension de ce qui à déjà en lieu. Les requêtes aux bases
de données permet par exemple de connaitre le chiffre d’affaire du mois passé. Les
cubes OLAP tel qu’ils sont typiquement utilisés dans les applications du business
intelligence, vont plus loin en permettent par exemple d’obtenir les revenus détaillés
par produit ou par région. A l’inverse, le data mining montre qu’elle personne va
vraisemblablement acheter tel produit le mois prochain, donc seul le data mining
regarde dans le future.

1.4 Apprentissage automatique et Data Mining


Pour distinguer la déférence entre l’apprentissage automatique et le Data Mi-
ning il faut exposer, Tout d’abord, la définition des deux processus. L’apprentissage
humain et automatique, puis la définition du Data Mining.

6
Chapitre 1 : Introduction générale

1.4.1 Apprentissage
Définition 1 : Acquérir des connaissances sur quelque chose par l’étude, l’expé-
rience ou l’enseignement.

Définition 2 : Prendre conscience par information ou par observation.

Définition 3 : S’engager dans la mémoire

Définition 4 : Être informé ou s’informer

Définition 5 : Pour recevoir des instructions.


Dons c’est la faculté d’apprendre fait partie de l’intelligence qui caractérise
l’homme.

1.4.2 Apprentissage Automatique


Définition : Domaine d’étude qui permette aux ordinateurs la capacité d’ap-
prendre sans être explicitement programmés.

1.4.3 Définition Data Mining


Il existe plusieurs définition, nous avons choisit trois meilleurs définitions.

Définition 1 : L’ensemble des algorithmes et méthodes destinées à l’exploration


et l’analyse d’une grande masse de données informatique (le plus souvent des don-
nées historiées, datawherehous ), sans a priori , en vue de détecter des règles, des
tendances inconnue..etc, pour le processus aide à la décision.

Définition 2 : Consiste à rechercher et extraire la connaissance (utile et inconnu)


de gros volumes de données Stockées dans les bases de données où des entrepôts de
données.

1.5 Caractéristique (Spécification) Data Mining


– Données en quantité.
– Machine puissante.
– Algorithme apriori.

7
Chapitre 1 : Introduction générale

1.6 Les étapes du Data mining


– Collecter les données et les intégrer Dans une base de données (Data Ware-
house).
– Pré-traitement (Nettoyer la base de données : attribut sans valeurs, ayant une
valeurs non valide, normalisation, Sélection des attributs utiles..ect).
– Lancer le processus d’extraction de l’information (connaissance knowledge ) à
partir de la base de données.
– Évaluation des résultats de l’étape précédente.

1.7 Exemples
Crédit Scoring (Banques , les assurences,..ect) : Désigne un ensemble
d’outils et méthodes d’aide à la décision utilisé pour évaluer automatiquement la
solvabilité d’un client ainsi que le risque de non rembourrassent des prêts.

Supermarché : La détection des associations de produits sur les tickets de


caisse permet d’identifier les profils des clients, de mieux choisir les produits et de
mieux les disposer dans les rayons.

Vendeurs de voiture occasion (Prédiction Numérique) : on cherche les


concepts qui vont définir le prix de la voiture (prix = f (x)).

Regroupement (Clustering) : Partitionnement, regroupement, division en


ensemble.

1.8 Apprentissage supervisé et non supervisé


1.8.1 Apprentissage supervisé
L’apprentissage supervisé est une technique d’apprentissage automatique ou l’on
cherche à produire des règles (connaissance knowledge) à partir d’une base données
d’apprentissage contenant des exemples étiqueté(au départ les classes avec leurs
nombre sont connus). Le problème est de connaître la classe d’un nouveau exemple
non étiqueté.

8
Chapitre 1 : Introduction générale

1.8.2 Apprentissage non supervisé


Si les données d’apprentissage sont sans étiquettes, et si les classes et leurs nombre
sont inconnus, au départ, on parle d’apprentissage non supervisé. Le problème est
de construire les classes.

1.9 Problèmes du Data Mining


1.9.1 Transformation des données
Les données, parfois, devant être sous une forme matricielle.
Problème : comment faire ?

Exemple : Text mining Dans le Text Mining, Les données en entrées sont
sous une forme textuelle, comment les transformer sous forme d’une matrice ?
L’un des solution les plus simple est décrit dans la figure 1.1

Figure 1.1 – Exemple de transformation Texte Mining

Exemple : Credit Scoring Dans le Credit Scoring, le même problème se


pose mais avec les contrats, représenter les contrats sous forme matricielle peut se
résoudre par une simple méthode illustrée par la figure 1.2.

Figure 1.2 – Exemple de transformation Credit Scoring

9
Chapitre 1 : Introduction générale

1.9.2 Malédiction de la dimensionnalité des données(curse


of dimensionality)
Les exemples sont souvent volumineuse, le problème c’est que plus ce que la di-
mension des données soit élevé plus ce que les connaissances retenus seront plus im-
portantes mais le processus du data mining sera plus compliqué (Matériel+temps).
La question qui ce pose : comment réduire la dimension des données sans touché
l’importance des données ?. Alors il existe des méthodes statistiques pour résoudre
ce problème.

1.10 Les entrées et les sorties du processus Data


Mining
Comme toute processus, il est nécessaire de produire des données comme entrées
ainsi recevoir des résultats en sortie. Dans ce qui suit, nous présentons la forme des
données en entrées et en sorties.

1.10.1 Les entrées (Input)


Comme nous l’avons déjà exposé dans la section précédente, les données en en-
trées doivent être, le plus souvent, sous forme matricielle. Mais il faut noter que
les valeurs qui peuvent prendre chaque attribut pour une instance (individu, ins-
tance,point, vecteur) peut se classer en deux, quantitative ou qualitative.

1.10.2 Les sorties (Output)


L’objectif de Data mining est d’extraire des connaissances, qui sont caractérisées
par :
– Non évidente.
– Compréhensible.
– Utile.
Dans cette section nous exposons les différentes formes qui peuvent prendre une
connaissance en sortie.

1.10.2.1 Table de décision

Les tables de décision sont utilisés pour classer des nouveaux exemples, où les
colonnes représentent les attributs qui décide et les lignes indiquent les cas de teste

10
Chapitre 1 : Introduction générale

possible classer par ordre (Voir la figure 1.3). Pour classer les exemples il faut par-
courir le tableau en testant les valeurs sur les attributs jusqu’à ce qu’on trouve la
bonne classe.

Figure 1.3 – Exemple d’une Table de décision.

1.10.2.2 Arbre de décision

L’arbre de décision est utilisé pour classer des nouveaux exemples non étique-
tés (non classer), il comporte un nœud racine de départ, un ensemble de nœuds
de parcours, des feuilles et des arcs, les nœuds représentent les attributs, les arcs
représentes les valeurs de teste sur l’attribut de départ et les feuilles indiques les
classes (Voir la figure 1.4).

Figure 1.4 – Exemple d’un Arbre de décision

1.10.2.3 Règles de classification

Les règles de classification sont utilisées pour classer des nouveaux exemples, la
forme générale d’une règle soit :

1.10.2.4 Règles d’association

Les règles d’association cherchent les associations (les liens) importantes entre
les attributs. Ils ont comme forme :
Si (teste sur attribut(s)) alors Attribut(s).

11
Chapitre 1 : Introduction générale

1.10.2.5 Prédiction numérique

Dans le cas d’une prédiction numérique l’objectif consiste à trouver une fonction
sur les attributs :
(f (x, y, ..) = z).

Exemple le prix d’une voiture occasion

1.10.2.6 Clustering

Dans le cas de regroupement (Apprentissage non supervisé) le résultat en sortie


(connaissance) doit être un ensemble de classes, où la base d’apprentissage fournie
entrée (sans étiquète) va être segmenté en groupe similaire.

1.11 Conclusion

12
Chapitre 2
Classification à base d’exemples
représentatifs

Sommaire
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2 Caractéristique . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3 Distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.4 Les distances les plus connues . . . . . . . . . . . . . . . . 14
2.5 Calcule . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.6 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.7 Normalisation . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.8 Algorithme K plus proche voisin . . . . . . . . . . . . . . 16
2.9 Prédire la classe d’un exemple . . . . . . . . . . . . . . . 16
2.10 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.11 Valeurs manquantes(inconnues) . . . . . . . . . . . . . . . 16
2.12 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.13 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

13
Chapitre 2 : Classification à base d’exemples représentatifs

2.1 Introduction
On se contentera de stocker les exemples tels qu’ils sont dans la mémoire, basant
sur ces exemples , à chaque fois, on va parcourir ces exemples pour prédire la classe
d’un nouveau exemple.

2.2 Caractéristique
Á chaque fois, on cherche dans la base des exemples l’exemple le plus proche
et on donnera la classe de cet exemple au nouvel exemple. Alors, il n’est pas de
construction du modèle pour classer les nouveaux exemples. C’est pourquoi on les
appels « Algorithme fainéant ou lazy »

2.3 Distance
Pour quantifier la différence entre les éléments (exemples), il est nécessaire d’in-
troduire un mécanisme qui calcule l’écart ou la similitude entre deux éléments, ou
se que nous l’appelons distance(dissimilarité) ou similarité. l’utilisation de la dis-
tance est presque nécessaire dans tous les algorithme que se soit supervisé ou non
supervisé.
Mathématiquement la distance c’est une application définit par :

d : E × E 7−→ R+ .
(x, y) 7−→ d(x, y).

Vérifiant les propriétés suivantes :

1. Séparabilité : ∀(x, y) ∈ E 2 , x 6= y ⇒ d(x, y) > 0


2. Réflexibilité : ∀x ∈ E, d(x, x) = 0
3. Symétrie : ∀(x, y) ∈ E 2 , d(x, y) = d(y, x)
4. Inégalité triangulaire : ∀(x, y, z) ∈ E 3 , d(x, z) ≤ d(x, y) + d(y, z)

2.4 Les distances les plus connues


Il existe plusieurs distances utilisé pour mésuser la similitude entre deux points
ou deux objets, les plus connues sont :

14
Chapitre 2 : Classification à base d’exemples représentatifs

2.4.1 Euclidien
v
uN
uX
d(x, y) = t (x
i − yi )2 .
i=1

2.4.2 Manhattan

N
X
d(x, y) = |xi − yi |.
i=1

2.4.3 Maximum

d(x, y) = maxi,..,n |xi − yi |.

2.4.4 Minkowski(Minkosky)
v
uN
u
m
X
d(x, y) = t (x i − yi )m .
i=1

2.5 Calcule
pour le calcule on distingue entre les deux type de valeur déjà discuter dans le
chapitre précédent. Donc, si on a des valeurs avec attributs de types numériques
on calcule, généralement, la différence. Si on a des attributs avec types symbolique,
alors, si les deux valeurs sont identique alors la distance égale à 0, sinon elle égale à
1.

2.6 Exemple

2.7 Normalisation
La normalisation est indispensable pou rendre les exemple avec des attributs de
même points, pour cela une valeurs normalisé est calculé par :

VA − Vmin
VN =
Vmax − Vmin

15
Chapitre 2 : Classification à base d’exemples représentatifs

2.8 Algorithme K plus proche voisin

Algorithm 1 Algorithme K-ppv .


1: Input : k ∈ {1, .., n}; X : Une base d’exemple ; d : une distance ; x : un exemple ;
2: Output : kppv : tableau d’indice ;
3: for xi ∈ N do
4: p[i] ← d(x, xi );
5: end for
6: for ki ∈ {1, .., k} do
7: kppv[k] ← arg minj∈N P [];
8: end for
9: Prédire la classe

2.9 Prédire la classe d’un exemple


Ayant déterminé les k plus proche voisin, il reste à prédir la classe de x parmi k
exemple retenus.

2.10 Exemple
Soit le tableau 1.3 (joueur de tennis ), trouver la classe de l’exemple :
Overcast 85 90 true.
en utilisant K-ppv avec k = 1 et la distance de Manhattan .

2.11 Valeurs manquantes(inconnues)


Il existe plusieurs méthode pour estimer une distance entre les valeurs man-
quante(médium, minium,..etc ). En Data Mining, le processus est réalisé pour prendre
la décision dans le future. Alors, on considère le pire des cas pour gérer les imprévus.
Le pire des cas est réalisé en calculant une distance maximale.

2.12 Exemple
Soit le tableau 1.3 (joueur de tennis ), trouver la classe de l’exemple :
Overcast ? 90 true.
en utilisant K-ppv avec k = 1 et la distance de Manhattan .

16
Chapitre 2 : Classification à base d’exemples représentatifs

2.13 Conclusion

17
Chapitre 3
Classeur à base de règles

Sommaire
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2 Forme de règle . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.3 Comment classer ? . . . . . . . . . . . . . . . . . . . . . . . 19
3.4 Les approches . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.5 Algorithme 1-R . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.6 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

18
Chapitre 3 : Classeur à base de règles

3.1 Introduction
Dans ce chapitre, on s’intéresse à la construction d’un modèle composé de règles,
pour prédire la classe d’un nouvel exemple, on applique les règles construites.
la construction du modèle est basé, bien sûr, sur l’ensemble des exemples déjà
classé(étiqueté).

3.2 Forme de règle


d’une façon plus générale, une règle possède la forme :

Si < condition(x) > alors Résultat

Où < condition(x) >: est une condition exprimé sur les attributs de la donnée x
avec la forme : < attribut = valeur >
Résultat : est la valeur possible soit d’une classe soit d’un attribut.

3.3 Comment classer ?


Pour déterminer la classe d’une données, on utilise l’ensemble des règles déjà
construits. Ces règles sont ordonnées "numérotées". Pour classer une donnée, on
regarde si la donnée vérifie la condition de la première règles, si c’est bien le cas, on
applique le résultat, sinon, on regard la deuxième, puis la troisième,...ect jusqu’à ce
qu’on trouve la solution(classe).

3.4 Les approches


1. On génère directement des règles (1-R)
2. On passe par des règles d’association.
3. On construit un atbre de décision que l’on transforme par la suite en règle
(ID3, C.4.5)

3.5 Algorithme 1-R

19
Chapitre 3 : Classeur à base de règles

Algorithm 2 Algorithme 1-R .


1: for each attribute do
2: for each attribute value do
3: Faire une règle :
4: -Compter le nombre de fois qu’apparait chaque classe pour cette valeur
5: -Faire une règle qui accroit cette valeur à la classe la plus fréquente.
6: end for
7: Calculer le taux d’erreur.
8: end for
9: choisir les règles avec le minimum taux d’erreur.
10: End.

3.6 Exemple
en appliquant l’algorithme 1-R construire l’ensemble de règles possible ?.

3.7 Conclusion

20
Chapitre 4
Classeur bayésien

Sommaire
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.2 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

21
Chapitre 4 : Classeur bayésien

4.1 Introduction

4.2 Conclusion

22
Bibliographie

23