Vous êtes sur la page 1sur 16

Chapitr

e (I)
Introduction Générale
1 Motivations :

L’`un des principaux moteurs due développement de la science


de l’`informatique a étéest le besoin de stocker et de gérer des masses
d`informationsde données dont la taille n`ea cesscesseé de croitre. En
effet, Dèsdans les années 60 apparait la notion de base de données
simultanément avec le , et la simultanéité du développement des
réseaux informatiques ce qui permettrava rapidement permettre un
partage de ces l’informations entre les plusieurs utilisateurs.
L`’architecture typique sera est alors constitué d’un serveur
(mainframe) stockant l`’information et auquel sont reliésde différents
terminaux "passifs" qui y sont reliés, permettant de consulter
l`’information. Les années 70 verront le développement du modèle
relationnel pour le stockage et la gestion des collections de données.
Ce modèle, qui s`’imposera rapidement comme étant un modèle de
référencestandard. S`’en suivra une forte activité chez les éditeurs de
logiciels pour proposer des Systèmes de Gestion des Bases de
Données Relationnel (SGBDR) implémentant ces principes modèle.
L`existence de techniques de modélisation efficaces contribua
largement a la large adoption du modèle relationnel par les
utilisateurs dans les années qui suivirent. Puis dans les années 80, de
nouveaux modèles furent proposés, et des SGBD propres à des
besoins spécifiques firent leurs apparitions. On Nous pouvonspeut
ainsi, entre autres, associer des méthodes aux objets stockés dans la
base de données.

L`’une des raisons de l`’évolution des méthodes et des


techniques de stockage est l`’explosion de la quantité d`’information à
stocker. Dans de nombreux domaines, les besoins ont rapidement
évolués : de "l`’informatisation" de l`’existant, on nous sommesest
passés a la nécessité d`’automatiser l`’acquisition de données. Cette
évolution, liée au progrès technologique, a été particulièrement
sensible dans certains domaines. En sciences expérimentales, par
exemple, les mesures sont aujourd`’hui réalisés par des capteurs
capables d`’enregistrer la les valeurs de plusieurs centaines de
paramètres à des intervalles de temps très courts. Ceci permet, entre
autres, de construire des modèles mathématiques de plus en plus
précis pour les phénomènes étudiés. Dans le domaine de grande
distribution également, on nous dispose disposons aujourd`’hui de
systèmes qui enregistrent en direct temps réel tous les produits
achetés par les clients lors de leur passage en caisse. Ces données
peuvent ensuite être traitées pour essayer de cibler des offres sur des
catégories de clients (marketing ciblé).
Enfin, dans le domaine médical, l`’historique des différents
examens et diagnostics des patients, est lui aussi numérisé,
conduisant la encore a à une explosion de la quantité d`es
donnéesinformation stockées.
Cette explosion du volume de données a rapidement conduit les
utilisateurs vers de nouveaux besoins. En sciences expérimentales,
les chercheurs se sonton s`est rapidement interrogés sur la possibilité
d`’obtenir des connaissances a à partir de la masse de données
collectées. De telles connaissances peuvent se matérialiserprendre
sous des formes très différentes : par exemple, cela peut consister en
la découverte de régularités parmi certains enregistrements ou de
dépendances entre certaines valeurs. Elles peuvent également
permettre de faciliter la description desdécrire les données, expliquer
des phénomènes, prévoir des comportements etc.. Mais l`information
extraite peut aussi avoir un rôle explicatif des données.

L`utilisation d`outils de classification supervisée comme les


arbres de décision peut ainsi permettre de prédire la valeur de
certains attributs grâce a des modèles compréhensibles par
l`utilisateur. De même, les techniques de classification non
supervisée, comme "clustering", permettent de regrouper des
enregistrements similaires, afin de mieux comprendre les données.

Deux grandes familles de techniques sont apparues autour des


années 90 pour étendre les SGBD classiques avec des outils d`’analyse
de données :

- OLAP (On-Line Analytical Processing) : on désigne par ce nom


une catégorie d`’outils permettant de faire l`’analyse "en ligne"
d`’informations stockées dans des bases ou entrepôts de
données. Cette technologie est surtout orientée vers l`’analyse
de données multidimensionnelles. Une de ses caractéristiques
est qu`’elle permet de manipuler des hiérarchies sur les
dimensions. Il est ainsi possible de suivre les ventes de familles
de produits par magasin et par période de l`’année avec des
niveaux de granularité différentes.
- ECD (Extraction des Connaissances dans les Données) : ce
terme sera définit dans la section suivante.

2 L`’Extraction des Connaissances à partir des


Données

2.1 Définition :

L'utilisation de plus en plus généralisée de l'informatique permet


de récolter de plus en plus de données de manière automatique.
Ainsi, en sciences expérimentales, les mesures, autrefois faites à la
main, sont recueillies par des appareils qui les enregistrent
directement sous forme informatiquenumérique. Ce n'est pas le seul
domaine touché. Du fait de L'informatisation a touché aussirapide
des les administrations, ldes entreprises, du commerce, lades
télécommunication etc.s, la quantité de données disponibles sous
forme informatique augmente très rapidement. Cependant, l'analyse
et l'exploitation de ces données restent très difficiles et
problématiques. Les techniques d'extraction de connaissances dans
lesà partir des données ont été conçues pour répondre à ce besoin
[BJ02].

Dans les sciences expérimentales, il n'est pas rare de consacrer


plusieurs années à l'analyse des résultats d'une expérience. Il suffit de
songer aux données issues de recensements, d'enquêtes
épidémiologiques, d'observations spatiales, du décryptage du
génome, etc. Dans le cas des données récoltées automatiquement
issues du commerce (en particulier électronique), des
télécommunications, ... on ne sait pas toujours comment les exploiter
une fois qu'elles ont remplit leur rôle principal (par exemple la
facturation). Pourtant, les propriétaires de ce type de données
hésitent souvent à les détruire pour au moins deux raisons. D'une
part le coût de stockage, d'autre part, ils supposent que ces données
contiennent peut être des connaissances d'une grande valeur (par ex.
sur le comportement de leurs clients, sur la survenue d'erreurs dans
un réseau de communication...).

C'est en fait le postulat principal qui motive l'extraction de


connaissances dans à partir desles données (ECD) : ces masses de
données contiennent sûrement des connaissances d'une grande
valeur commerciale ou scientifique. Il faut noter que ce postulat n'a
évidemment pas été « démontré ».

L`’ECD est devenu un domaine de recherche à part entière à


partir de 1989, quand Gregory Piatetsky-Shapiro a organisé la
première réunion de chercheurs sur l`’extraction automatique des
connaissances dans les grandes bases de données .données.
L`’Extraction des Connaissances a à partir des Donnés (ECD, en
anglais ou KDD pour "Knowledge Discovery in Databases") a été
définie par Piatetsky-Shapiro et Frawley comme étant « le "processus
non trivial d`’extraction d`’informations potentiellement utiles,
implicites et inconnues auparavant a partir d`’un ensemble de
données" [PSF91]. C`’est un domaine multidisciplinaire et au
croisement de nombreuses thématiques relevant des mathématiques
et de l`’informatique.

Selon (Fayyad, 1996)Fayyad, l`’ECD est un "Processus non-


trivial d’identification de structures inconnues, valides et
potentiellement exploitables dans les bases de données "(Fayyad,
1996).
Fig.1. Processus non-trivial d`’identification de structures inconnues,
.(valides et potentiellement exploitables dans les bases de données (Fayyad, 1996

Une définition plus détaillée est donnée dans [ZR03] : « l’ECD


vise à transformer des données (volumineuses, multiformes,
stockées sous différents formats sur des supports pouvant être
distribués) en connaissances. Ces connaissances peuvent s’exprimer
sous forme d’un concept général qui enrichit le champ sémantique
de l’usager par rapport à une question qui le préoccupe. Elles
peuvent prendre la forme d’un rapport ou d’un graphique. Elles
peuvent s’exprimer comme un modèle mathématique ou logique
pour la prise de décision. Les modèles explicites quelle que soit
leur forme, peuvent alimenter un système à base de connaissances
ou un système expert ».

L`’ECD repose sur l`’existence d`’algorithmes de fouilles de


données (voir [JA03]), de tels algorithmes travaillent opèrent souvent
sur des données qui doivent avoir un format bien particulier
généralement adapté au type de connaissance que l`’on cherche à
extraire; une telle représentation des données est le contexte
d`’extraction.
2.2 Processus d`’ECD :

Une fois ce postulat admis, la question se pose de savoir


comment des connaissances peuvent être extraites de ces données.
Cela ne peut pas être fait directement par un operateur humain. En
effet, le cerveau humain n'est pas adapté pour traiterau traitement de
telles masses de données volumineuses. Par contre, seul un expert
humain est capable d'évaluer si le résultat d'une analyse des données
apporte vraiment une nouvelle connaissance. Cette évaluation fait en
effet intervenir tellement de paramètres subjectifs (connaissances du
domaine, contexte économique ou scientifique ...) qu'il n'est pas
possible de la faire automatiquement.

Le processus d'extraction de connaissances ne se limite donc pas


à une extraction automatique, il comporte plusieurs étapes pendant
lesquelles l'expert humain a un rôle important. Il faut tout d'abord
récupérer les données qui peuvent être issues de plusieurs sources
différentes et les mettre dans un format commun pour pouvoir les
fusionner. Il faut ensuite prétraiter les données, par exemple résoudre
le problème posé par les valeurs manquantes ou aberrantes, et
sélectionner les données sur lesquelles vaont être appliqué
l'algorithme d'extraction de connaissances proprement dit. Ensuite, il
faut post-traiter les résultats de cet algorithme et les interpréter. Ce
post-traitement peut consisterconsiste à sélectionner les résultats les
plus prometteurs, à les trier ou à vérifier leur pertinence à l'aide
d'outils statistiques.
Fig.2. Le processus d`’Extraction de Connaissances à partir des Données. [CM].

Dans chacune de ces étapes, l'expert doit faire des choix et


évaluer les résultats obtenus en fonction de ses objectifs. Il peut alors
décider de passer aà l'étape suivante ou de recommencer une ou
plusieurs des étapes précédentes en utilisant une technique
différentes. Ce processus est donc naturellement itératif et interactif.

2.2.1 La sélection de données :

Cette étape suit directement le besoin d’un utilisateur pour un


ensemble de connaissances qui l’aideront à prendre une ou plusieurs
décisions. Cet aspect est très important, car on ne peut appliquer le
processus d’ECD sur toutes les données que l’on a. Le besoin exprimé
par l’utilisateur fait naître chez lui un objectif. C’est cet objectif qui le
guidera dans la sélection des données.

Ainsi, si on veut extraire des corrélations entre des produits


qu’on vend dans une entreprise commerciale, il est inutile de
consulter les données du personnel travaillant dans l’entreprise, ou
encore de télécharger des pages Web qui parlent de Marketing; il
s’agit d’explorer les données transactionnelles archivées, concernant
les achats des clients.

Cette phase concerne donc le filtrage de données. Par filtrage,


nous voulons dire la réduction de la dimensionnalité des données
(élimination d’attributs sans intérêt, ou ayant beaucoup de valeurs
erronées et manquantes), ainsi que la réduction la taille des données
(des enregistrements). La deuxième réduction peut être faite par des
techniques statistiques d’échantillonnage, s’il s’avère que la masse de
données est trop grande, et que l’application du Data Mining serait
ainsi très coûteuse en terme de temps CPU et d’espace mémoire.
Plusieurs outils nous permettent de sélectionner les données ; le plus
puissant d’entre eux estreste sans doute le langage SQL. Ce langage
peut opérer sur les BD relationnelles,, ainsi que les BD relationnelles-
objets à travers ses fameuses requêtessa fameuse requête « SELECT ».

2.2.2 Le prétraitement des données :

Le prétraitement des données concerne le nettoyage des données,


c.-à-d. l’élimination des bruits susceptibles de réduire l’exactitude des
modèles à extraire.

Le prétraitement concerne aussi le traitement des valeurs


manquantes, ou erronées. Il faudrait alors définir les méthodes à
utiliser pour le remplacement de ces valeurs. De nombreuses
solutions existent pour ce problème.

On peut remplacer les valeurs manquantes par la valeur la plus


fréquente de l’attribut en question. On peut estimer ces valeurs à
partir des enregistrements complets à travers la régression ou les
réseaux de neurones.

Pour les données erronées, il faudrait tout d’abord les identifier


(comment juge t-on qu’une valeur est erronée ?). On peut définir
uUne valeur erronée , commepeut être définie comme étant une
valeur qui s’écarte de la moyenne de deux fois l’écart type [ZR03].
Si les données sur lesquelles on veut appliquer lae Data Mining
ne sont pas de qualité, les résultats de l’exercice ne seront pas de
qualité aussi.

2.2.3 La transformation de données :

Plusieurs algorithmes de Data Mining sont contraignants sur


quant à la forme des données qu’ils acceptentopèrent. Cette étape
consiste à préparer les données brutes et à les convertir en données
appropriées. La transformation se fait par attribut (toutes les valeurs
d’un attribut doivent être transformées). Ainsi, un attribut C est
transformé en C’ qui serait traitable par une la méthode de Data
Mining.

La discrétisation de variables continues est un exemple de


transformation d’attributs. Il s’agit de transformer un attribut continu
en divisant son domaine en intervalles finis. Ainsi, le domaine de
l’attribut transformé devient un ensemble de valeurs discrètes. Il y a
beaucoup de méthodes de discrétisation dans la littérature. Le Data
Miner doit choisir celle qui ne fait pas perdre aux données leur
exactitude.

L’agrégation de données est un autre type de transformation.


L’agrégat d’un attribut est la transformation de ce dernier par une
règle ou équation. Imaginons que l’ont veut analyser les salaires
annuels des employés, et que l’on dispose seulement des salaires
mensuels. Un nouvel attribut agrégat serait le salaire multiplié par
douze.

2.2.4 Le Data Mining :

C’est l’étape cœur du processus d’ECD. Elle consiste à dégager


un ensemble de connaissances brutes à partir des données prétraitées.
Il existe plusieurs tâches de Data Mining, comme par exemple la
prédiction, l’analyse de liens (règles d’association), la description de
données etc. A chaque tâche est allouée une multitude d’algorithmes
et de méthodes de Data Mining. Le choix d’un algorithme de Data
Mining doit tenir compte du domaine d’application, de la nature et la
structure des données et finalement de l’objectif du Data Miner. Les
étapes qui précèdent le Data Mining sont très importantes, car la
qualité des connaissances extraites, ainsi que leur coût d’extraction en
dépendent directement.

Fig. 4. Les sources de données : Spécificité du Data Mining. [RR].

2.2.5 Evaluation et interprétation des connaissances :

Les connaissances extraites au terme de la précédente étape sont


dans la plupart du temps inexploitables. En effet, il est difficile
d’avoir directement des connaissances valides, utilisables par le Data
Miner.

Il existe, pour la plupart des techniques de Data Mining, des


méthodes d’évaluation des modèles ou patterns extraits. Ces
méthodes peuvent aussi aider à corriger affiner les modèles, et à les
ajuster aux données. Selon le degré d’exactitude retourné par ces
méthodes, le Data Miner pourrait déciderdécide d’arrêter le
processus d’ECD, ou au contraire de reprendre à partir de l’une des
étapes antérieures (le processus est étant itératif).

Les connaissances obtenues devraient être interprétables,


nouvelles, valides et utiles au Data Miner. Ce dernier peut les utiliser
directement, ou les incorporer dans un système de gestion de
connaissances.

La figure ci-dessous3 est célèbre, elle montre surtout l’aspect


itératif du processus, i.e., la possibilité de retourner à n’importe
quelle étape afin d’obtenir des connaissances de qualité.
Ces retours sont des décisions prises par l’ingénieur de
connaissancesle Data Miner (Data Miner), ce qui montre aussi l’aspect
interactif du processus. C’est la quatrième étape qui est centrale, et
d’ailleurs la plupart des travaux de recherche la concernent.

Fig. 3. Processus d`’Extraction des Connaissances a partir des Données. [FPS96].

2.3 Emergence de l`’ECD : Domaines


d`’application :

- Domaine des assurances : Analyse des risques (caractérisation des


clients a haut risques, etc.), Automatisation du traitement des
demandes (diagnostic des dégâts et détermination automatique
du montant des indemnités).
- Services financiers : consentement de prêts automatisés, support
a la décision de crédit, détection des fraudes.
- Grande distribution : profits de consommateurs et modèles
d`’achats, constitution des rayonnages, marketing ciblé. [RR].

3 Contribution :

4 Organisation :
Chapitr
e (II)
Les Bases de Données
Inductives
: Références

BJ02] Baptiste Jeudy. Optimisation de requêtes inductives:]


application a extraction sous contraints de règles
.d`’association.2002

CM] Mémoire de ThèseThèse de doctorat, Institut National des]


Sciences Appliquées de Lyon, Contribution au
cadre des bases de données inductives : Formalisation et
.évaluation de scenarios d`’Extraction de Connaissances

[JA03] Jérôme aze. Extraction de connaissances a partir des


données numériques et textuelles. Doctorat de
l`’université Paris-Sud.2003.

PSF91] Gregory Piatetsky-Shapiro and William J. Frawley.]


Knowledge Discovery in Databases. Menlo Park: AAAI
.Press, 1991. 525 pages

[FPS96] Fayyad, U., Piatetsky-Shapiro, G., et Smyth, P. « From


Data Mining to Knowledge Discovery: An Overview ».
In Fayyad, U., Piatetsky-Shapiro, G, Amith, Smyth, P.,
and Uthurnsamy, R. (eds.), Advances in Knowledge
Discovery and Data Mining, MIT Press, 1-36,
Cambridge, 1996.
[RR] Ricco Rakotomalala, Universite Lumiere Lyon 2,
Laboratoire ERIC, Introduction au Data Mining.

[ZR03] Zighed D.A., Rakotomalala R., « Extraction de


connaissances
à partir de données (ECD) », in Techniques de l'Ingénieur, H
3 744, 2003.

[ZZY03] Zhang, S., Zhang, C., Yan, X. " Post-Mining : Maintenance


Of Association Rules by Weighting". Information Systems,
.2003