Vous êtes sur la page 1sur 8

CHAPITRE 1 : Introduction générale

Résumé

La fouille de données (Data Mining), consiste à extraire de l’information à par-


tir d’une masse colossal de données, cette dernière enregistre, de façon continu, des
tâches accumulés d’expériences pendant une période importante du temps où ce que
nous l’appelons entrepôt de données (Data warehouse). Bien que le terme données
(data) dans les mots technique base de données ou entrepôt de données (data base
ou Data warehouse ) apparaît similaires avec le même mot données dans fouille de
données (Data mining), mais réellement ce même mot se diffère substantiellement
selon ces deux domaine. Dans la fouille de données, data ou données n’indique pas
une simple information lisible énoncer explicitement dans les bases de données, mais
il indique une information implicite, cachée et utile. Réellement ce qu’on cherche
derrière le data mining ces les connaissances (knowledge). Dans ce cours, nous pré-
sentons une initiation vers le data mining commençant par une introduction générale
qui décrive profondément le data mining.
Mots clés : Fouille de données, Apprentissage automatique.

1
CHAPITRE 1 : Introduction générale
Introduction
Nous sommes submergés de données, la quantité de données et dans nos vie
semble de plus en croissante et il n’y a pas de fin en vue. Des ordinateurs omnipré-
sents rendent trop facile d’enregistrer des données choses qui, nous aurions saccagé.
Le Word Wide Web (www) nous submerge de données, pendant ce temps, tous les
choix que nous faisons est d’enregistrer les données. Nous pourrions tous témoigner
de l’écart croissant entre la production de données et notre compréhension de celui-
ci. Comme le volume des données augmente, inexorablement, la proportion de ce que
les gens comprennent diminue de façon alarmante.les informations cachées derrière
ces données sont potentiellement utiles et qui sont rarement explicite.
La tâche principale du data mining est de chercher ces informations que nous
l’appelons « connaissance » dans les données enregistrés, le plus souvent dans les
bases de données BDD historiques, et ce, pour le processus d’aide à la décision.

Data Warehouse et Data Mining


Définition de Bill Inmon (1996) : « Le DataWareHouse est une collection de
données orientées sujet, intégrées, non volatiles et historisées, organisées pour le
support d’un processus d’aide à la décision. »

Relationnel, OLAP et Data Mining


Les outils de reporting et bases de données multi-dimentionnelles (OLAP) sont
indispensables à la compréhension de ce qui à déjà en lieu. Les requêtes aux bases
de données permet par exemple de connaitre le chiffre d’affaire du mois passé. Les
cubes OLAP tel qu’ils sont typiquement utilisés dans les applications du business
intelligence, vont plus loin en permettent par exemple d’obtenir les revenus détaillés
par produit ou par région. A l’inverse, le data mining montre qu’elle personne va
vraisemblablement acheter tel produit le mois prochain, donc seul le data mining
regarde dans le future.

Apprentissage automatique et Data Mining


Pour distinguer la déférence entre l’apprentissage automatique et le Data Mi-
ning il faut exposer, Tout d’abord, la définition des deux processus. L’apprentissage
humain et automatique, puis la définition du Data Mining.

2
CHAPITRE 1 : Introduction générale

Apprentissage
Définition 1 : Acquérir des connaissances sur quelque chose par l’étude, l’expé-
rience ou l’enseignement.

Définition 2 : Prendre conscience par information ou par observation.

Définition 3 : S’engager dans la mémoire

Définition 4 : Être informé ou s’informer

Définition 5 : Pour recevoir des instructions.


Dons c’est la faculté d’apprendre fait partie de l’intelligence qui caractérise
l’homme.

Apprentissage Automatique
Définition : Domaine d’étude qui permette aux ordinateurs la capacité d’ap-
prendre sans être explicitement programmés.

Définition Data Mining


Il existe plusieurs définition, nous avons choisit trois meilleurs définitions.

Définition 1 : L’ensemble des algorithmes et méthodes destinées à l’exploration


et l’analyse d’une grande masse de données informatique (le plus souvent des don-
nées historiées, datawherehous ), sans a priori , en vue de détecter des règles, des
tendances inconnue..etc, pour le processus aide à la décision.

Définition 2 : Consiste à rechercher et extraire la connaissance (utile et inconnu)


de gros volumes de données Stockées dans les bases de données où des entrepôts de
données.

Caractéristique (Spécification) Data Mining


– Données en quantité.
– Machine puissante.
– Algorithme apriori.

3
CHAPITRE 1 : Introduction générale

Les étapes du Data mining


– Collecter les données et les intégrer Dans une base de données (Data Ware-
house).
– Pré-traitement (Nettoyer la base de données : attribut sans valeurs, ayant une
valeurs non valide, normalisation, Sélection des attributs utiles..ect).
– Lancer le processus d’extraction de l’information (connaissance knowledge ) à
partir de la base de données.
– Évaluation des résultats de l’étape précédente.

Exemples
Crédit Scoring (Banques , les assurences,..ect) : Désigne un ensemble d’outils et
méthodes d’aide à la décision utilisé pour évaluer automatiquement la solvabilité d’un
client ainsi que le risque de non rembourrassent des prêts.

Supermarché : La détection des associations de produits sur les tickets de


caisse permet d’identifier les profils des clients, de mieux choisir les produits et de
mieux les disposer dans les rayons.

Vendeurs de voiture occasion (Prédiction Numérique) : on cherche les


concepts qui vont définir le prix de la voiture (prix = f (x)).

Regroupement (Clustering) : Partitionnement, regroupement, division en


ensemble.

Apprentissage supervisé et non supervisé


Apprentissage supervisé
L’apprentissage supervisé est une technique d’apprentissage automatique ou l’on
cherche à produire des règles (connaissance knowledge) à partir d’une base données
d’apprentissage contenant des exemples étiqueté(au départ les classes avec leurs
nombre sont connus). Le problème est de connaître la classe d’un nouveau exemple
non étiqueté.

4
CHAPITRE 1 : Introduction générale

Apprentissage non supervisé


Si les données d’apprentissage sont sans étiquettes, et si les classes et leurs nombre
sont inconnus, au départ, on parle d’apprentissage non supervisé. Le problème est
de construire les classes.

Problèmes du Data Mining


Transformation des données
Les données, parfois, devant être sous une forme matricielle.
Problème : comment faire ?

Exemple : Text mining Dans le Text Mining, Les données en entrées sont
sous une forme textuelle, comment les transformer sous forme d’une matrice ?
L’un des solution les plus simple est décrit dans la figure 1.1

FIGURE 1.1 – Exemple de transformation Texte Mining

Exemple : Credit Scoring Dans le Credit Scoring, le même problème se


pose mais avec les contrats, représenter les contrats sous forme matricielle peut se
résoudre par une simple méthode illustrée par la figure 1.2.

FIGURE 1.2 – Exemple de transformation Credit Scoring

5
CHAPITRE 1 : Introduction générale

Malédiction de la dimensionnalité des données(curse of


dimensionality)
Les exemples sont souvent volumineuse, le problème c’est que plus ce que la di-
mension des données soit élevé plus ce que les connaissances retenus seront plus im-
portantes mais le processus du data mining sera plus compliqué (Matériel+temps).
La question qui ce pose : comment réduire la dimension des données sans touché
l’importance des données ?. Alors il existe des méthodes statistiques pour résoudre
ce problème.

Les entrées et les sorties du processus Data


Mining
Comme toute processus, il est nécessaire de produire des données comme entrées
ainsi recevoir des résultats en sortie. Dans ce qui suit, nous présentons la forme des
données en entrées et en sorties.

Les entrées (Input)


Comme nous l’avons déjà exposé dans la section précédente, les données en en-
trées doivent être, le plus souvent, sous forme matricielle. Mais il faut noter que
les valeurs qui peuvent prendre chaque attribut pour une instance (individu, ins-
tance,point, vecteur) peut se classer en deux, quantitative ou qualitative.

Les sorties (Output)


L’objectif de Data mining est d’extraire des connaissances, qui sont caractérisées
par :
– Non évidente.
– Compréhensible.
– Utile.
Dans cette section nous exposons les différentes formes qui peuvent prendre une
connaissance en sortie.

Table de décision

Les tables de décision sont utilisés pour classer des nouveaux exemples, où les
colonnes représentent les attributs qui décide et les lignes indiquent les cas de teste

6
CHAPITRE 1 : Introduction générale

possible classer par ordre (Voir la figure 1.3). Pour classer les exemples il faut par-
courir le tableau en testant les valeurs sur les attributs jusqu’à ce qu’on trouve la
bonne classe.

FIGURE 1.3 – Exemple d’une Table de décision.

Arbre de décision

L’arbre de décision est utilisé pour classer des nouveaux exemples non étique-
tés (non classer), il comporte un nœud racine de départ, un ensemble de nœuds
de parcours, des feuilles et des arcs, les nœuds représentent les attributs, les arcs
représentes les valeurs de teste sur l’attribut de départ et les feuilles indiques les
classes (Voir la figure 1.4).

FIGURE 1.4 – Exemple d’un Arbre de décision

Règles de classification

Les règles de classification sont utilisées pour classer des nouveaux exemples, la
forme générale d’une règle soit :

Règles d’association

Les règles d’association cherchent les associations (les liens) importantes entre
les attributs. Ils ont comme forme :
Si (teste sur attribut(s)) alors Attribut(s).

7
CHAPITRE 1 : Introduction générale

Prédiction numérique

Dans le cas d’une prédiction numérique l’objectif consiste à trouver une fonction
sur les attributs :
(f (x, y, ..) = z).

Exemple le prix d’une voiture occasion

Clustering

Dans le cas de regroupement (Apprentissage non supervisé) le résultat en sortie


(connaissance) doit être un ensemble de classes, où la base d’apprentissage fournie
entrée (sans étiquète) va être segmenté en groupe similaire.

Vous aimerez peut-être aussi