Académique Documents
Professionnel Documents
Culture Documents
Data Mining
Data Mining
Data Mining
Techniques d’extraction des connaissances
I.1.1. Historique
Le concept de data warehouse (entrepôt de données) a été formalisé pour la première
fois en 1990. L’idée de constituer une base de données orientée sujet, intégrée,
contenant des informations datées, non volatiles et exclusivement destinées aux
processus d’aide à la décision, fut dans un premier temps accueillie avec une certaine
perplexité. Beaucoup n’y voyaient que l'habillage d’un concept déjà ancien :
l’infocentre.
Mais l’économie actuelle en a décidé autrement. Les entreprises sont confrontées à une
concurrence de plus en plus forte, des clients de plus en plus exigeants, dans un contexte
organisationnel de plus en plus complexe et mouvant.
Pour faire face aux nouveaux enjeux économiques, l’entreprise doit anticiper.
L’anticipation ne peut être efficace qu’en s’appuyant sur de l’information pertinente.
Cette information est à la portée de toute entreprise qui dispose d’un capital de données
gérées par ses systèmes opérationnels et qui peut en acquérir d’autres auprès de
fournisseurs externes. Mais actuellement, les données sont surabondantes, non
I.1.2. Définition
Le DW est une collection de données orientées sujet, intégrées, non volatiles et
historisées, organisées pour le support d’un processus d’aide à la décision.
Commentons cette définition :
Orientées sujet
Le DW est organisé autour des sujets majeurs de l’entreprise, contrairement aux
données des systèmes de production. Ceux-ci sont généralement organisés par processus
fonctionnels. Les données sont structurées par thème.
L’intérêt de cette organisation est de disposer de l’ensemble des informations utiles sur
un sujet le plus souvent transversal aux structures fonctionnelles et organisationnelles de
l’entreprise. Cette orientation sujet va également permettre de développer son système
décisionnel via une approche par itérations successives, sujet après sujet.
L’intégration dans une structure unique est indispensable car les informations
communes à plusieurs sujets ne doivent pas être dupliquées. Dans la pratique, une
structure supplémentaire appelée Data Mart (magasin de données) peut être créée pour
supporter l’orientation sujet.
Données intégrées
Un DW est un projet d’entreprise. Par exemple dans la distribution, le même indicateur
de chiffre d’affaires intéressera autant les forces de vente que le département financier
ou les acheteurs. Pour y parvenir, les données doivent être intégrées. Avant d’être
intégrées dans le DW, les données doivent être mises en forme et unifiées afin d’avoir
un état cohérent. Par exemple, la consolidation de l’ensemble des informations
concernant un client donné est nécessaire pour donner une vue homogène de ce client.
Une donnée doit avoir une description et un codage unique. Cette phase d’intégration
est très complexe et représente 60 à 90% de la charge totale d’un projet.
Données historisées
Dans un système de production, la donnée est mise à jour à chaque nouvelle transaction.
Dans un DW, la donnée ne doit jamais être mise à jour. Un référentiel temps doit être
associé à la donnée afin d’être capable d’identifier une valeur particulière dans le temps.
En effet, dans les entreprises, des DM isolés peuvent proliférer. Ces entreprises
risquent de retomber dans le piège d’une architecture composée de multiples
systèmes décisionnels incohérents, contenant des informations redondantes. Cela
coûte plus cher et c’est plus complexe à gérer qu’un DW centralisé. Les entreprises
américaines, plus en avance que les entreprises européennes, en ont fait les frais.
Les DM résolvent les problèmes de performance des gros DW. Mais ils font
régresser vers le vieux problème des îlots isolés. Les entreprises vont devoir
affronter des problèmes techniques complexes et coûteux pour remettre en
cohérence les ensembles.
Fédérer des DM ou les faire évoluer vers une structure centralisée n’est pas facile.
On peut se poser la question s’il est préférable de bâtir un gros et unique DW ou bien de
concevoir un réservoir plus modeste, nourri par les données d’un seul département. Il
est intéressant de commencer par un DM, à condition de respecter certaines règles :
Impliquer les utilisateurs.
Ne pas construire de multiples Data Marts isolés.
Bannir les redondances.
Vue multidimensionnelle
L'utilisateur a l'habitude de raisonner en vue multidimensionnelle comme par exemple
lorsqu'il souhaite analyser les ventes par produit mais aussi par région ou par période.
Ces modèles permettent des manipulations simples : rotation, pivot ou vues par tranche,
analyse de type permutations d'axes (slice and dice) ou en cascade (drill anywhere).
Architecture Client/Serveur
La plupart des données pour OLAP sont stockées sur des gros systèmes et sont
accessibles via des PC. Il est donc nécessaire que les produits OLAP soient capables de
travailler dans un environnement Client/Serveur.
Dimensions Génériques
Toutes les dimensions doivent être équivalentes en structure et en calcul. Il ne doit
exister qu'une seule structure logique pour toutes les dimensions. Toute fonction qui
s'applique à une dimension doit être aussi capable de s'appliquer à une autre dimension.
Support Multi-Utilisateurs
Les outils OLAP doivent supporter les accès concurrents, garantir l'intégrité et la
sécurité afin que plusieurs utilisateurs accèdent au même modèle d'analyse.
Support Multi-Utilisateurs
Les outils OLAP doivent supporter les accès concurrents, garantir l'intégrité et la
sécurité afin que plusieurs utilisateurs accèdent au même modèle d'analyse.
MOLAP agrège tout par défaut. Plus le volume de données à gérer est important, plus
les principes d'agrégations implicites proposés par MOLAP sont pénalisants dans la
phase de chargement de la base, tant en terme de performances que de volume. La
limite fréquemment évoquée pour MOLAP étant de quelques giga octets.
MOLAP surpasse ROLAP pour des fonctionnalités avancées comme la prévision ou la
mise à jour des données pour la simulation. Cependant, ces différences s'expliquent par
une plus grande maturité en faveur de MOLAP, concept qui date de près de vingt ans.
MOLAP est incompatible avec d'autres modes d'accès aux données. Si MOLAP doit
cohabiter avec d'autres techniques d'accès aux données (par requêteur, par data mining,
etc.), deux bases de données doivent cohabiter. En effet, MOLAP repose sur un moteur
spécialisé, qui stocke les données dans un format tabulaire propriétaire (cube). Pour
accéder aux données de ce cube, on ne peut pas utiliser le langage de requête standard
SQL, il faut utiliser une API spécifique.
Le marché des bases MOLAP étant plus réduit, il est plus difficile pour les éditeurs qui
le représentent d'investir sur de telles évolutions.
Les outils ROLAP proposent le plus souvent un composant serveur, pour optimiser les
performances lors de la navigation dans les données ou pour les calculs complexes.
Avec ROLAP, il est déconseillé d'accéder en direct à des bases de données de
production pour faire des analyses sérieuses, pour des raisons de performances.
ROLAP n'agrège rien, mais tire parti des agrégats s'ils existent. De ce fait ROLAP est
plus lourd à administrer que MOLAP, puisqu'il demande de créer explicitement certains
agrégats.
Certains éditeurs, comme Informix avec Métacube ou Oracle avec Discoverer 2000,
pallient cependant à cette faiblesse avec des outils d'administration aptes à conseiller
pour une politique d'agrégation adéquate. ROLAP est donc mieux adapté aux gros
volumes.
En s'appuyant sur les bases relationnelles, référence du marché, ROLAP tire partie des
évolutions de celles-ci (adaptation aux architectures hardware sophistiquées, extensions
objets, etc.).
Indicateurs de dispersion
Les indicateurs de tendance centrale donnent une première indication de la population à
étudier mais il est intéressant de savoir comment se répartissent les individus autour de
cette moyenne. En effet, si deux élèves obtiennent les notes suivantes :
Elève A : 9 - 10 - 10 - 10 - 10 - 11 Elève B : 0 - 0 - 0 - 20 - 20 - 20
Ces deux élèves auront 10 de moyenne mais on voit nettement que l’élève A obtient des
notes autour de la moyenne alors que l’élève B en est très éloigné. Pour exprimer ceci,
les statisticiens disposent de nombreux indicateurs permettant de mesurer la dispersion :
L’amplitude, ou dimension, ou étendue de la distribution : Valeur sup - Valeur inf
L’écart absolu moyen des valeurs à la moyenne de la distribution :
La distance interquartile ou inter décile de la distribution : écart entre l’individu
représentant 25 % (ou 10 %) et celui représentant 75 % (ou 90%) de la population.
L’écart type ( s) défini ainsi : (la majorité des individus est entre moyenne - 2 s et
moyenne + 2 s).
Ces indicateurs sont utilisés pour évaluer des valeurs manquantes, mettre en évidence
les valeurs exceptionnelles et donner une première synthèse des données.
ixx
n
-å
L’abduction
Pour mieux exprimer ce qu’est l’abduction, le plus simple est d’en présenter un
exemple:
Toutes les voitures ont 4 roues
La Peugeot 106 a 4 roues
_ La Peugeot 106 est une voiture
Cette technique est notamment utilisée dans les outils d’aide au diagnostic médical pour
découvrir la maladie la plus probable depuis une liste de symptômes. Il faut cependant
être très vigilant avec ce type de raisonnement car il peut produire des résultats
aberrants ou triviaux :
Toutes les voitures ont un moteur, l’Airbus 320 a un moteur _ l’Airbus 320 est une
voiture.
Pour éviter ce type de comportement, il suffit d’avoir un ensemble descriptif (ici : 4
roues) suffisamment riche. Il aurait suffit de préciser : toutes les voitures ont 4 roues, un
moteur, un volant, de 3 à 5 portes, sont inscrites sur les registres des mines, etc. pour
diminuer considérablement le risque d’erreurs.
Tous les possesseurs de la carte jeune ont moins de 25 ans.
Cette information est certes vraie mais risque de ne présenter aucun intérêt.
La déduction
C’est le type de raisonnement le plus utilisé et le plus familier. Son atout majeur est
qu’il ne laisse pas de place au doute. Exemple :
La Peugeot 106 est une voiture
Toutes les voitures ont 4 roues
_ La Peugeot 106 a 4 roues
L’induction
C’est la technique la plus communément utilisée par le data mining. Elle consiste à tirer
des conclusions à partir d’une série de faits. Exemples :
Exemple 1 Exemple 2
La Clio a 4 roues La Clio a 4 roues
La Peugeot 106 a 4 roues La Peugeot 106 a 4 roues
La Laguna a 4 roues La Laguna a 4 roues
La Corsa a 4 roues La Corsa a 4 roues
Un patin à roulettes a 4 roues
_ Toutes les voitures ont 4 roues (100 %) _ Les voitures ont 4 roues (80 %)
La certitude n’est pas absolue et sera donc associée à une probabilité. Plus les faits
corroborant l’hypothèse sont nombreux, plus la probabilité que la conclusion soit exacte
est forte.
La recherche d’informations se fait généralement par des mécanismes d’induction. La
déduction est plutôt utilisée pour vérifier la cohérence des informations.
II.3.4. La classification
La classification se fait naturellement depuis déjà bien longtemps pour comprendre et
communiquer notre vision du monde (par exemple les espèces animales, minérales ou
végétales).
« La classification consiste à examiner des caractéristiques d’un élément nouvellement
présenté afin de l’affecter à une classe d’un ensemble prédéfini. » [BERRY97]
Dans le cadre informatique, les éléments sont représentés par un enregistrement et le
résultat de la classification viendra alimenter un champ supplémentaire.
La classification permet de créer des classes d’individus (terme à prendre dans son
acception statistique). Celles-ci sont discrètes : homme / femme, oui / non, rouge / vert /
bleu, ...
Les techniques les plus appropriées à la classification sont :
Les arbres de décision,
Le raisonnement basé sur la mémoire,
Eventuellement l’analyse des liens.
II.3.5. L’estimation
Contrairement à la classification, le résultat d’une estimation permet d’obtenir une
variable continue. Celle-ci est obtenue par une ou plusieurs fonctions combinant les
données en entrée. Le résultat d’une estimation permet de procéder aux classifications
grâce à un barème. Par exemple, on peut estimer le revenu d’un ménage selon divers
critères (type de véhicule et nombre, profession ou catégorie socioprofessionnelle, type
d’habitation, etc.).
Il sera ensuite possible de définir des tranches de revenus pour classifier les individus.
Un des intérêts de l’estimation est de pouvoir ordonner les résultats pour ne retenir si on
le désire que les n meilleures valeurs. Cette technique sera souvent utilisée en
marketing, combinée à d’autres, pour proposer des offres aux meilleurs clients
potentiels. Enfin, il est facile de mesurer la position d’un élément dans sa classe si celui
ci a été estimé, ce qui peut être particulièrement important pour les cas limitrophes.
La technique la plus appropriée à l’estimation est : le réseau de neurones.
II.3.6. La prédiction
La prédiction ressemble à la classification et à l’estimation mais dans une échelle
temporelle différente. Tout comme les tâches précédentes, elle s’appuie sur le passé et
le présent mais son résultat se situe dans un futur généralement précisé. La seule
méthode pour mesurer la qualité de la prédiction est d’attendre !
Les techniques les plus appropriées à la prédiction sont :
L’analyse du panier de la ménagère
Le raisonnement basé sur la mémoire
Les arbres de décision
les réseaux de neurones
II.3.9. La description
C’est souvent l’une des premières tâches demandées à un outil de Data Mining. On lui
demande de décrire les données d’une base complexe. Cela engendre souvent une
exploitation supplémentaire en vue de fournir des explications. La technique la plus
appropriée à la description est l’analyse du panier de la ménagère
II.3.10. L’optimisation
Pour résoudre de nombreux problèmes, il est courant pour chaque solution potentielle
d’y associer une fonction d’évaluation. Le but de l’optimisation est de maximiser ou
minimiser cette fonction. Quelques spécialistes considèrent que ce type de problème ne
relève pas du Data Mining. La technique la plus appropriée à l’optimisation est le réseau
de neurones
Conclusion
Notre étude, dans chacune de ses parties, nous a amenés à isoler chaque technique de
l’aide à la décision afin d’en montrer ses caractéristiques, sa mise en œuvre, son apport
au processus de prise de décision. Ainsi, en conclusion, nous rassemblons les apports de
ces techniques.
Le data warehouse permet au décideur de travailler dans un environnement
informationnel, référencé, homogène, historisé. Cette technique l’affranchit des
problèmes liés à l’hétérogénéité des systèmes informatiques, l’hétérogénéité des
différentes définitions de données issues de l’historique de l’organisation.
Le Data Mining permet d’extraire du Data Warehouse deux types de connaissances :
l’une, explicative des résultats obtenus par l’analyse multidimensionnelle ou explicative
d’hypothèses relatives au contenu informationnel du data warehouse, l’autre, nouvelle,
porteuse éventuellement de nouvelles possibilités d’action.
Aujourd’hui, ces techniques font l’actualité des presses spécialisées en informatique,
bien sûr, mais aussi dans les rubriques « Informatiques » des presses spécifiques à
chaque type d’activité. Les applications décisionnelles dans le Marketing nourrissent la
majorité de ces articles de presse.
Glossaire
Data Mining
Définition un peu floue car récupérée par beaucoup d’éditeurs d’outils d’aide à la
décision. A l’origine, le data mining correspondait à toutes les technologies avancées
susceptibles d’analyser l’information d’un Data Warehouse pour en tirer des tendances,
pour segmenter l’informations, ou pour trouver des corrélations dans les données.
Aujourd’hui, le terme a tendance à caractériser tous les outils d’aide à la décision, le "
mineur " étant soit l’outil lui-même soit l’utilisateur.
Data Mining (outils de)
Aussi connu sous le nom de KDD (Knowledge Discovery Data), les outils de data
mining permettent d’extraire de la connaissance des données en découvrant des
modèles, des règles dans le volume d’information présent dans les entreprises.
Data Surfing
Possibilité donnée à l’utilisateur de naviguer de manière ergonomique et intuitive dans
un modèle multidimensionnel.
Data Warehouse
Entrepôt de données. Base de données spécifique au monde décisionnel et destinée
principalement à analyser les leviers « business » potentiels.
Data Warehousing
Processus de mise en œuvre d’un projet de Data Warehouse.
DBA (Data Base Administrator)
Personne garante de la cohérence des données, des performances du système, de sa
sécurité... Pour les outils disposant d’un catalogue, c’est le DBA qui le mettra en œuvre.
Modèle relationnel
Technique de modélisation consistant à modéliser une base de données en la
décomposant en entité et en relations corrélant ces entités .
MOLAP (Multidimensional On Line Analytical Processing)
Caractérise l’architecture nécessaire à la mise en place d’un système multidimensionnel
en s’appuyant sur les bases de données multidimensionnelles.
OLAP (On Line Analytical Processing)
Caractérise l’architecture nécessaire à la mise en place d’un système d’information
décisionnel. S’oppose à OLTP (On Line Transaction Processing), adressant les
systèmes d’information transactionnels. OLAP est souvent utilisé pour faire référence
exclusivement aux bases de données multidimensionnelles. En effet, le concept a été
formalisé par le Dr Codd, sous la forme de douze règles, décrivant un modèle idéal
d’analyse d’information. Il a été montré depuis qu’il a été possible de respecter ces
règles indépendamment de la structure de stockage utilisée. De plus en plus, le terme est
souvent utilisé pour désigner plus généralement le décisionnel dans ses aspects
techniques.
Requête
C'est une demande envoyée au gestionnaire de Base de Données serveur. Si celui-ci
permet la gestion des données, le langage utilisé est le SQL. Dans un contexte
d’infocentre, l'exécution des questions sur un serveur est le plus souvent interprétée.
ROLAP (Relational On Line Analytical Processing)
Caractérise l’architecture nécessaire à la mise en place d’un système multidimensionnel
en s’appuyant sur les technologies relationnelles.
SGBDR (Système de Gestion de Base de Données Relationnelle)
On dialogue avec le SGBDR grâce à des requêtes écrites en SQL, langage assez bien
standardisé. Les SGBDR (certains disent Serveur de bases de données) les plus avancés
disposent de mécanismes de gestion des contraintes d'intégrité appelés les Triggers, et
aussi de capacité de traitements liés aux données: les Procédures Stockées.
Bibliographie