Académique Documents
Professionnel Documents
Culture Documents
1 Introduction générale 5
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2 Data Warehouse et Data Mining . . . . . . . . . . . . . . . . . . . . 6
1.3 Relationnel, OLAP et Data Mining . . . . . . . . . . . . . . . . . . . 6
1.4 Apprentissage automatique et Data Mining . . . . . . . . . . . . . . . 6
1.4.1 Apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4.2 Apprentissage Automatique . . . . . . . . . . . . . . . . . . . 7
1.4.3 Définition Data Mining . . . . . . . . . . . . . . . . . . . . . . 7
1.5 Caractéristique (Spécification) Data Mining . . . . . . . . . . . . . . 7
1.6 Les étapes du Data mining . . . . . . . . . . . . . . . . . . . . . . . 8
1.7 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.8 Apprentissage supervisé et non supervisé . . . . . . . . . . . . . . . . 8
1.8.1 Apprentissage supervisé . . . . . . . . . . . . . . . . . . . . . 8
1.8.2 Apprentissage non supervisé . . . . . . . . . . . . . . . . . . . 9
1.9 Problèmes du Data Mining . . . . . . . . . . . . . . . . . . . . . . . . 9
1.9.1 Transformation des données . . . . . . . . . . . . . . . . . . . 9
1.9.2 Malédiction de la dimensionnalité des données(curse of dimen-
sionality) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.10 Les entrées et les sorties du processus Data Mining . . . . . . . . . . 10
1.10.1 Les entrées (Input) . . . . . . . . . . . . . . . . . . . . . . . . 10
1.10.2 Les sorties (Output) . . . . . . . . . . . . . . . . . . . . . . . 10
1.11 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1
TABLE DES MATIÈRES
4 Classeur bayésien 21
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.2 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
Bibliographie 23
2
Table des figures
3
Liste des tableaux
4
Chapitre 1
Introduction générale
Sommaire
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2 Data Warehouse et Data Mining . . . . . . . . . . . . . . 6
1.3 Relationnel, OLAP et Data Mining . . . . . . . . . . . . 6
1.4 Apprentissage automatique et Data Mining . . . . . . . 6
1.5 Caractéristique (Spécification) Data Mining . . . . . . . 7
1.6 Les étapes du Data mining . . . . . . . . . . . . . . . . . 8
1.7 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.8 Apprentissage supervisé et non supervisé . . . . . . . . . 8
1.9 Problèmes du Data Mining . . . . . . . . . . . . . . . . . 9
1.10 Les entrées et les sorties du processus Data Mining . . . 10
1.11 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
5
Chapitre 1 : Introduction générale
1.1 Introduction
Nous sommes submergés de données, la quantité de données et dans nos vie
semble de plus en croissante et il n’y a pas de fin en vue. Des ordinateurs omnipré-
sents rendent trop facile d’enregistrer des données choses qui, nous aurions saccagé.
Le Word Wide Web (www) nous submerge de données, pendant ce temps, tous les
choix que nous faisons est d’enregistrer les données. Nous pourrions tous témoigner
de l’écart croissant entre la production de données et notre compréhension de celui-
ci. Comme le volume des données augmente, inexorablement, la proportion de ce que
les gens comprennent diminue de façon alarmante.les informations cachées derrière
ces données sont potentiellement utiles et qui sont rarement explicite.
La tâche principale du data mining est de chercher ces informations que nous
l’appelons « connaissance » dans les données enregistrés, le plus souvent dans les
bases de données BDD historiques, et ce, pour le processus d’aide à la décision.
6
Chapitre 1 : Introduction générale
1.4.1 Apprentissage
Définition 1 : Acquérir des connaissances sur quelque chose par l’étude, l’expé-
rience ou l’enseignement.
7
Chapitre 1 : Introduction générale
1.7 Exemples
Crédit Scoring (Banques , les assurences,..ect) : Désigne un ensemble
d’outils et méthodes d’aide à la décision utilisé pour évaluer automatiquement la
solvabilité d’un client ainsi que le risque de non rembourrassent des prêts.
8
Chapitre 1 : Introduction générale
Exemple : Text mining Dans le Text Mining, Les données en entrées sont
sous une forme textuelle, comment les transformer sous forme d’une matrice ?
L’un des solution les plus simple est décrit dans la figure 1.1
9
Chapitre 1 : Introduction générale
Les tables de décision sont utilisés pour classer des nouveaux exemples, où les
colonnes représentent les attributs qui décide et les lignes indiquent les cas de teste
10
Chapitre 1 : Introduction générale
possible classer par ordre (Voir la figure 1.3). Pour classer les exemples il faut par-
courir le tableau en testant les valeurs sur les attributs jusqu’à ce qu’on trouve la
bonne classe.
L’arbre de décision est utilisé pour classer des nouveaux exemples non étique-
tés (non classer), il comporte un nœud racine de départ, un ensemble de nœuds
de parcours, des feuilles et des arcs, les nœuds représentent les attributs, les arcs
représentes les valeurs de teste sur l’attribut de départ et les feuilles indiques les
classes (Voir la figure 1.4).
Les règles de classification sont utilisées pour classer des nouveaux exemples, la
forme générale d’une règle soit :
Les règles d’association cherchent les associations (les liens) importantes entre
les attributs. Ils ont comme forme :
Si (teste sur attribut(s)) alors Attribut(s).
11
Chapitre 1 : Introduction générale
Dans le cas d’une prédiction numérique l’objectif consiste à trouver une fonction
sur les attributs :
(f (x, y, ..) = z).
1.10.2.6 Clustering
1.11 Conclusion
12
Chapitre 2
Classification à base d’exemples
représentatifs
Sommaire
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2 Caractéristique . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3 Distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.4 Les distances les plus connues . . . . . . . . . . . . . . . . 14
2.5 Calcule . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.6 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.7 Normalisation . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.8 Algorithme K plus proche voisin . . . . . . . . . . . . . . 16
2.9 Prédire la classe d’un exemple . . . . . . . . . . . . . . . 16
2.10 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.11 Valeurs manquantes(inconnues) . . . . . . . . . . . . . . . 16
2.12 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.13 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
13
Chapitre 2 : Classification à base d’exemples représentatifs
2.1 Introduction
On se contentera de stocker les exemples tels qu’ils sont dans la mémoire, basant
sur ces exemples , à chaque fois, on va parcourir ces exemples pour prédire la classe
d’un nouveau exemple.
2.2 Caractéristique
Á chaque fois, on cherche dans la base des exemples l’exemple le plus proche
et on donnera la classe de cet exemple au nouvel exemple. Alors, il n’est pas de
construction du modèle pour classer les nouveaux exemples. C’est pourquoi on les
appels « Algorithme fainéant ou lazy »
2.3 Distance
Pour quantifier la différence entre les éléments (exemples), il est nécessaire d’in-
troduire un mécanisme qui calcule l’écart ou la similitude entre deux éléments, ou
se que nous l’appelons distance(dissimilarité) ou similarité. l’utilisation de la dis-
tance est presque nécessaire dans tous les algorithme que se soit supervisé ou non
supervisé.
Mathématiquement la distance c’est une application définit par :
d : E × E 7−→ R+ .
(x, y) 7−→ d(x, y).
14
Chapitre 2 : Classification à base d’exemples représentatifs
2.4.1 Euclidien
v
uN
uX
d(x, y) = t (x
i − yi )2 .
i=1
2.4.2 Manhattan
N
X
d(x, y) = |xi − yi |.
i=1
2.4.3 Maximum
2.4.4 Minkowski(Minkosky)
v
uN
u
m
X
d(x, y) = t (x i − yi )m .
i=1
2.5 Calcule
pour le calcule on distingue entre les deux type de valeur déjà discuter dans le
chapitre précédent. Donc, si on a des valeurs avec attributs de types numériques
on calcule, généralement, la différence. Si on a des attributs avec types symbolique,
alors, si les deux valeurs sont identique alors la distance égale à 0, sinon elle égale à
1.
2.6 Exemple
2.7 Normalisation
La normalisation est indispensable pou rendre les exemple avec des attributs de
même points, pour cela une valeurs normalisé est calculé par :
VA − Vmin
VN =
Vmax − Vmin
15
Chapitre 2 : Classification à base d’exemples représentatifs
2.10 Exemple
Soit le tableau 1.3 (joueur de tennis ), trouver la classe de l’exemple :
Overcast 85 90 true.
en utilisant K-ppv avec k = 1 et la distance de Manhattan .
2.12 Exemple
Soit le tableau 1.3 (joueur de tennis ), trouver la classe de l’exemple :
Overcast ? 90 true.
en utilisant K-ppv avec k = 1 et la distance de Manhattan .
16
Chapitre 2 : Classification à base d’exemples représentatifs
2.13 Conclusion
17
Chapitre 3
Classeur à base de règles
Sommaire
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2 Forme de règle . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.3 Comment classer ? . . . . . . . . . . . . . . . . . . . . . . . 19
3.4 Les approches . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.5 Algorithme 1-R . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.6 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
18
Chapitre 3 : Classeur à base de règles
3.1 Introduction
Dans ce chapitre, on s’intéresse à la construction d’un modèle composé de règles,
pour prédire la classe d’un nouvel exemple, on applique les règles construites.
la construction du modèle est basé, bien sûr, sur l’ensemble des exemples déjà
classé(étiqueté).
Où < condition(x) >: est une condition exprimé sur les attributs de la donnée x
avec la forme : < attribut = valeur >
Résultat : est la valeur possible soit d’une classe soit d’un attribut.
19
Chapitre 3 : Classeur à base de règles
3.6 Exemple
en appliquant l’algorithme 1-R construire l’ensemble de règles possible ?.
3.7 Conclusion
20
Chapitre 4
Classeur bayésien
Sommaire
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.2 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
21
Chapitre 4 : Classeur bayésien
4.1 Introduction
4.2 Conclusion
22
Bibliographie
23